diff --git "a/train_job_output.txt" "b/train_job_output.txt"
--- "a/train_job_output.txt"
+++ "b/train_job_output.txt"
@@ -1,4 +1,4 @@
-slurm submission log: 2024-05-20 10:11:55.099041
+slurm submission log: 2024-05-20 23:23:34.591873
 created following sbatch script: 
 
 ###############################
@@ -7,13 +7,13 @@ created following sbatch script:
 
 #SBATCH --account=nlp
 #SBATCH --cpus-per-task=16
-#SBATCH --dependency=afterok:7635777
+#SBATCH --dependency=afterok:7637763
 #SBATCH --gres=gpu:2
-#SBATCH --job-name=tthrush-job-2917184
+#SBATCH --job-name=tthrush-job-4809586
 #SBATCH --mem=100G
 #SBATCH --nodelist=sphinx2
 #SBATCH --open-mode=append
-#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/70m_llms_more_data_test_normalized/pythia-70m_sciq_1/train_job_output.txt
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled_mean/llms/pythia-70m_sciq_1/train_job_output.txt
 #SBATCH --partition=sphinx
 #SBATCH --time=14-0
 
@@ -24,7 +24,7 @@ created following sbatch script:
 cd .
 
 # launch commands
-srun --unbuffered run_as_child_processes 'torchrun --master_port 29504 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data_test_normalized/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/70m_llms_more_data_test_normalized/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1'
+srun --unbuffered run_as_child_processes 'torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled_mean/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled_mean/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1'
 
 ###############################
 
@@ -34,13 +34,13 @@ submission to slurm complete!
 ###############################
 slurm submission output
 
-Submitted batch job 7635778
+Submitted batch job 7637764
 
 
 
 ###############################
 
-/var/lib/slurm/slurmd/job7635778/slurm_script: line 16: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory
+/var/lib/slurm/slurmd/job7637764/slurm_script: line 16: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory
 
 CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.
 To initialize your shell, run
@@ -61,454 +61,455 @@ IMPORTANT: You may need to close and restart your shell after running 'conda ini
 
 
 ###############################
-start time: 2024-05-20 12:05:58.376173
+start time: 2024-05-21 03:31:28.384617
 machine: sphinx2
 conda env: pretraining-coreset-selection
 ###############################
 running following processes
 
-	torchrun --master_port 29504 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data_test_normalized/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/70m_llms_more_data_test_normalized/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1
+	torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled_mean/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled_mean/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1
 
 
 ###############################
 command outputs: 
 
 
-[2024-05-20 12:06:00,524] torch.distributed.run: [WARNING] 
-[2024-05-20 12:06:00,524] torch.distributed.run: [WARNING] *****************************************
-[2024-05-20 12:06:00,524] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
-[2024-05-20 12:06:00,524] torch.distributed.run: [WARNING] *****************************************
-05/20/2024 12:06:06 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data_test_normalized/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/70m_llms_more_data_test_normalized/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
-05/20/2024 12:06:11 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data_test_normalized/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/70m_llms_more_data_test_normalized/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
-  0%|          | 0/10696 [00:00<?, ?it/s][rank0]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+[2024-05-21 03:31:32,581] torch.distributed.run: [WARNING] 
+[2024-05-21 03:31:32,581] torch.distributed.run: [WARNING] *****************************************
+[2024-05-21 03:31:32,581] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+[2024-05-21 03:31:32,581] torch.distributed.run: [WARNING] *****************************************
+05/21/2024 03:31:41 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled_mean/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled_mean/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+05/21/2024 03:31:41 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled_mean/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled_mean/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+  0%|          | 0/10712 [00:00<?, ?it/s][rank0]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
 [rank1]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
-  0%|          | 1/10696 [01:07<201:41:28, 67.89s/it]  0%|          | 2/10696 [02:02<177:47:06, 59.85s/it]  0%|          | 3/10696 [02:48<159:49:36, 53.81s/it]  0%|          | 4/10696 [03:36<152:17:57, 51.28s/it]  0%|          | 5/10696 [04:23<147:58:26, 49.83s/it]  0%|          | 6/10696 [05:01<136:26:13, 45.95s/it]  0%|          | 7/10696 [05:42<130:58:23, 44.11s/it]  0%|          | 8/10696 [06:17<122:59:19, 41.43s/it]  0%|          | 9/10696 [06:56<120:17:03, 40.52s/it]  0%|          | 10/10696 [07:27<112:01:21, 37.74s/it]  0%|          | 11/10696 [07:56<103:47:58, 34.97s/it]  0%|          | 12/10696 [08:22<95:56:13, 32.33s/it]   0%|          | 13/10696 [08:48<90:10:47, 30.39s/it]  0%|          | 14/10696 [09:15<87:12:37, 29.39s/it]  0%|          | 15/10696 [09:39<82:21:06, 27.76s/it]  0%|          | 16/10696 [10:02<78:01:25, 26.30s/it]  0%|          | 17/10696 [10:21<71:16:24, 24.03s/it]  0%|          | 18/10696 [10:41<67:36:24, 22.79s/it]  0%|          | 19/10696 [10:57<61:43:56, 20.81s/it]  0%|          | 20/10696 [11:16<59:36:23, 20.10s/it]  0%|          | 21/10696 [11:36<60:16:56, 20.33s/it]  0%|          | 22/10696 [11:51<55:00:12, 18.55s/it]  0%|          | 23/10696 [12:07<53:13:33, 17.95s/it]  0%|          | 24/10696 [12:22<49:56:36, 16.85s/it]  0%|          | 25/10696 [12:37<48:25:44, 16.34s/it]                                                     {'loss': 10.6585, 'grad_norm': 1.433795690536499, 'learning_rate': 2.336448598130841e-05, 'epoch': 0.0}
-  0%|          | 25/10696 [12:37<48:25:44, 16.34s/it]  0%|          | 26/10696 [12:50<45:46:40, 15.45s/it]  0%|          | 27/10696 [13:01<41:48:17, 14.11s/it]  0%|          | 28/10696 [13:14<40:50:55, 13.78s/it]  0%|          | 29/10696 [13:24<37:45:12, 12.74s/it]  0%|          | 30/10696 [13:39<39:06:16, 13.20s/it]  0%|          | 31/10696 [13:50<37:20:21, 12.60s/it]  0%|          | 32/10696 [13:59<33:49:08, 11.42s/it]  0%|          | 33/10696 [14:09<32:53:52, 11.11s/it]  0%|          | 34/10696 [14:19<32:08:55, 10.85s/it]  0%|          | 35/10696 [14:28<30:13:38, 10.21s/it]  0%|          | 36/10696 [14:38<30:27:25, 10.29s/it]  0%|          | 37/10696 [14:48<30:02:41, 10.15s/it]  0%|          | 38/10696 [14:56<27:39:05,  9.34s/it]  0%|          | 39/10696 [15:03<25:43:08,  8.69s/it]  0%|          | 40/10696 [15:10<24:19:08,  8.22s/it]  0%|          | 41/10696 [15:18<24:34:13,  8.30s/it]  0%|          | 42/10696 [15:25<22:41:21,  7.67s/it]  0%|          | 43/10696 [15:32<22:28:32,  7.60s/it]  0%|          | 44/10696 [15:41<24:00:42,  8.12s/it]  0%|          | 45/10696 [15:49<23:55:54,  8.09s/it]  0%|          | 46/10696 [15:55<21:58:08,  7.43s/it]  0%|          | 47/10696 [16:01<20:32:14,  6.94s/it]  0%|          | 48/10696 [16:07<19:28:32,  6.58s/it]  0%|          | 49/10696 [16:14<19:39:52,  6.65s/it]  0%|          | 50/10696 [16:20<19:01:56,  6.44s/it]{'loss': 9.9245, 'grad_norm': 1.3262492418289185, 'learning_rate': 4.672897196261682e-05, 'epoch': 0.0}
-                                                       0%|          | 50/10696 [16:20<19:01:56,  6.44s/it]  0%|          | 51/10696 [16:24<17:19:31,  5.86s/it]  0%|          | 52/10696 [16:29<16:28:23,  5.57s/it]  0%|          | 53/10696 [16:34<15:50:30,  5.36s/it]  1%|          | 54/10696 [16:40<16:35:14,  5.61s/it]  1%|          | 55/10696 [16:47<18:09:04,  6.14s/it]  1%|          | 56/10696 [16:52<16:23:50,  5.55s/it]  1%|          | 57/10696 [16:56<15:07:46,  5.12s/it]  1%|          | 58/10696 [17:00<13:59:01,  4.73s/it]  1%|          | 59/10696 [17:04<13:24:46,  4.54s/it]  1%|          | 60/10696 [17:07<12:44:32,  4.31s/it]  1%|          | 61/10696 [17:12<12:46:02,  4.32s/it]  1%|          | 62/10696 [17:16<12:24:45,  4.20s/it]  1%|          | 63/10696 [17:20<12:48:11,  4.33s/it]  1%|          | 64/10696 [17:24<12:32:20,  4.25s/it]  1%|          | 65/10696 [17:28<11:43:03,  3.97s/it]  1%|          | 66/10696 [17:32<11:51:50,  4.02s/it]  1%|          | 67/10696 [17:36<11:49:26,  4.00s/it]  1%|          | 68/10696 [17:40<12:20:52,  4.18s/it]  1%|          | 69/10696 [17:45<12:24:45,  4.20s/it]  1%|          | 70/10696 [17:49<12:38:56,  4.29s/it]  1%|          | 71/10696 [17:53<11:54:33,  4.04s/it]  1%|          | 72/10696 [17:55<10:46:43,  3.65s/it]  1%|          | 73/10696 [17:58<10:16:50,  3.48s/it]  1%|          | 74/10696 [18:01<9:41:45,  3.29s/it]   1%|          | 75/10696 [18:04<9:29:03,  3.21s/it]                                                    {'loss': 9.2091, 'grad_norm': 1.128482699394226, 'learning_rate': 7.009345794392523e-05, 'epoch': 0.01}
-  1%|          | 75/10696 [18:04<9:29:03,  3.21s/it]  1%|          | 76/10696 [18:07<9:21:37,  3.17s/it]  1%|          | 77/10696 [18:10<8:43:06,  2.96s/it]  1%|          | 78/10696 [18:12<8:26:28,  2.86s/it]  1%|          | 79/10696 [18:15<8:08:55,  2.76s/it]  1%|          | 80/10696 [18:20<9:40:36,  3.28s/it]  1%|          | 81/10696 [18:23<9:35:14,  3.25s/it]  1%|          | 82/10696 [18:25<8:43:36,  2.96s/it]  1%|          | 83/10696 [18:27<8:04:42,  2.74s/it]  1%|          | 84/10696 [18:30<8:12:21,  2.78s/it]  1%|          | 85/10696 [18:34<9:04:25,  3.08s/it]  1%|          | 86/10696 [18:37<9:14:56,  3.14s/it]  1%|          | 87/10696 [18:40<8:37:21,  2.93s/it]  1%|          | 88/10696 [18:42<8:17:51,  2.82s/it]  1%|          | 89/10696 [18:44<7:38:42,  2.59s/it]  1%|          | 90/10696 [18:47<7:57:42,  2.70s/it]  1%|          | 91/10696 [18:49<7:26:28,  2.53s/it]  1%|          | 92/10696 [18:52<7:13:29,  2.45s/it]  1%|          | 93/10696 [18:54<7:04:52,  2.40s/it]  1%|          | 94/10696 [18:56<6:49:53,  2.32s/it]  1%|          | 95/10696 [18:58<6:41:49,  2.27s/it]  1%|          | 96/10696 [19:00<6:21:14,  2.16s/it]  1%|          | 97/10696 [19:02<6:02:32,  2.05s/it]  1%|          | 98/10696 [19:04<5:57:59,  2.03s/it]  1%|          | 99/10696 [19:05<5:36:13,  1.90s/it]  1%|          | 100/10696 [19:07<5:33:14,  1.89s/it]{'loss': 8.4189, 'grad_norm': 0.8005453944206238, 'learning_rate': 9.345794392523364e-05, 'epoch': 0.01}                                                     
-  1%|          | 100/10696 [19:07<5:33:14,  1.89s/it]  1%|          | 101/10696 [19:09<5:36:36,  1.91s/it]  1%|          | 102/10696 [19:11<5:28:11,  1.86s/it]  1%|          | 103/10696 [19:13<5:34:32,  1.89s/it]  1%|          | 104/10696 [19:15<5:31:51,  1.88s/it]  1%|          | 105/10696 [19:17<5:46:07,  1.96s/it]  1%|          | 106/10696 [19:18<5:23:10,  1.83s/it]  1%|          | 107/10696 [19:20<5:09:07,  1.75s/it]  1%|          | 108/10696 [19:23<6:03:47,  2.06s/it]  1%|          | 109/10696 [19:25<5:44:46,  1.95s/it]  1%|          | 110/10696 [19:26<5:27:59,  1.86s/it]  1%|          | 111/10696 [19:28<5:32:09,  1.88s/it]  1%|          | 112/10696 [19:30<5:13:53,  1.78s/it]  1%|          | 113/10696 [19:31<5:04:41,  1.73s/it]  1%|          | 114/10696 [19:33<4:52:42,  1.66s/it]  1%|          | 115/10696 [19:34<4:37:49,  1.58s/it]  1%|          | 116/10696 [19:35<4:26:26,  1.51s/it]  1%|          | 117/10696 [19:37<4:13:08,  1.44s/it]  1%|          | 118/10696 [19:38<4:19:39,  1.47s/it]  1%|          | 119/10696 [19:40<4:13:51,  1.44s/it]  1%|          | 120/10696 [19:41<3:57:57,  1.35s/it]  1%|          | 121/10696 [19:42<3:56:12,  1.34s/it]  1%|          | 122/10696 [19:43<3:52:59,  1.32s/it]  1%|          | 123/10696 [19:45<3:52:01,  1.32s/it]  1%|          | 124/10696 [19:46<4:08:41,  1.41s/it]  1%|          | 125/10696 [19:48<4:16:18,  1.45s/it]{'loss': 7.7868, 'grad_norm': 0.47490355372428894, 'learning_rate': 0.00011682242990654206, 'epoch': 0.01}
-                                                       1%|          | 125/10696 [19:48<4:16:18,  1.45s/it]  1%|          | 126/10696 [19:49<4:10:50,  1.42s/it]  1%|          | 127/10696 [19:50<3:54:44,  1.33s/it]  1%|          | 128/10696 [19:53<4:43:21,  1.61s/it]  1%|          | 129/10696 [19:54<4:23:59,  1.50s/it]  1%|          | 130/10696 [19:55<4:01:47,  1.37s/it]  1%|          | 131/10696 [19:56<4:05:31,  1.39s/it]  1%|          | 132/10696 [19:58<4:08:07,  1.41s/it]  1%|          | 133/10696 [19:59<4:09:42,  1.42s/it]  1%|▏         | 134/10696 [20:01<4:08:30,  1.41s/it]  1%|▏         | 135/10696 [20:02<4:05:31,  1.39s/it]  1%|▏         | 136/10696 [20:03<3:43:06,  1.27s/it]  1%|▏         | 137/10696 [20:04<3:30:36,  1.20s/it]  1%|▏         | 138/10696 [20:05<3:28:02,  1.18s/it]  1%|▏         | 139/10696 [20:06<3:32:03,  1.21s/it]  1%|▏         | 140/10696 [20:08<3:43:09,  1.27s/it]  1%|▏         | 141/10696 [20:09<3:46:51,  1.29s/it]  1%|▏         | 142/10696 [20:10<3:33:04,  1.21s/it]  1%|▏         | 143/10696 [20:11<3:19:33,  1.13s/it]  1%|▏         | 144/10696 [20:12<3:21:31,  1.15s/it]  1%|▏         | 145/10696 [20:13<3:16:59,  1.12s/it]  1%|▏         | 146/10696 [20:14<3:09:31,  1.08s/it]  1%|▏         | 147/10696 [20:15<3:00:30,  1.03s/it]  1%|▏         | 148/10696 [20:16<2:57:01,  1.01s/it]  1%|▏         | 149/10696 [20:17<3:09:19,  1.08s/it]  1%|▏         | 150/10696 [20:19<3:14:17,  1.11s/it]                                                     {'loss': 7.3176, 'grad_norm': 0.5299851298332214, 'learning_rate': 0.00014018691588785047, 'epoch': 0.01}
-  1%|▏         | 150/10696 [20:19<3:14:17,  1.11s/it]  1%|▏         | 151/10696 [20:20<3:13:44,  1.10s/it]  1%|▏         | 152/10696 [20:21<3:07:23,  1.07s/it]  1%|▏         | 153/10696 [20:23<4:13:23,  1.44s/it]  1%|▏         | 154/10696 [20:24<3:43:19,  1.27s/it]  1%|▏         | 155/10696 [20:25<3:33:05,  1.21s/it]  1%|▏         | 156/10696 [20:26<3:26:02,  1.17s/it]  1%|▏         | 157/10696 [20:28<3:45:51,  1.29s/it]  1%|▏         | 158/10696 [20:29<3:33:39,  1.22s/it]  1%|▏         | 159/10696 [20:30<3:23:43,  1.16s/it]  1%|▏         | 160/10696 [20:31<3:15:39,  1.11s/it]  2%|▏         | 161/10696 [20:32<3:09:37,  1.08s/it]  2%|▏         | 162/10696 [20:33<3:09:44,  1.08s/it]  2%|▏         | 163/10696 [20:34<3:28:48,  1.19s/it]  2%|▏         | 164/10696 [20:35<3:24:42,  1.17s/it]  2%|▏         | 165/10696 [20:36<3:18:48,  1.13s/it]  2%|▏         | 166/10696 [20:37<3:06:39,  1.06s/it]  2%|▏         | 167/10696 [20:38<3:03:05,  1.04s/it]  2%|▏         | 168/10696 [20:39<2:52:14,  1.02it/s]  2%|▏         | 169/10696 [20:40<2:44:16,  1.07it/s]  2%|▏         | 170/10696 [20:41<2:35:04,  1.13it/s]  2%|▏         | 171/10696 [20:42<2:40:00,  1.10it/s]  2%|▏         | 172/10696 [20:42<2:31:44,  1.16it/s]  2%|▏         | 173/10696 [20:43<2:33:16,  1.14it/s]  2%|▏         | 174/10696 [20:44<2:29:40,  1.17it/s]  2%|▏         | 175/10696 [20:45<2:34:02,  1.14it/s]{'loss': 6.9477, 'grad_norm': 0.34150129556655884, 'learning_rate': 0.00016355140186915886, 'epoch': 0.02}                                                     
-  2%|▏         | 175/10696 [20:45<2:34:02,  1.14it/s]  2%|▏         | 176/10696 [20:46<2:46:06,  1.06it/s]  2%|▏         | 177/10696 [20:47<2:46:28,  1.05it/s]  2%|▏         | 178/10696 [20:48<2:46:03,  1.06it/s]  2%|▏         | 179/10696 [20:49<2:47:42,  1.05it/s]  2%|▏         | 180/10696 [20:50<2:49:16,  1.04it/s]  2%|▏         | 181/10696 [20:51<2:47:26,  1.05it/s]  2%|▏         | 182/10696 [20:52<2:56:42,  1.01s/it]  2%|▏         | 183/10696 [20:53<2:39:23,  1.10it/s]  2%|▏         | 184/10696 [20:54<2:30:43,  1.16it/s]  2%|▏         | 185/10696 [20:54<2:28:57,  1.18it/s]  2%|▏         | 186/10696 [20:55<2:26:55,  1.19it/s]  2%|▏         | 187/10696 [20:56<2:30:53,  1.16it/s]  2%|▏         | 188/10696 [20:57<2:55:06,  1.00it/s]  2%|▏         | 189/10696 [20:58<2:39:44,  1.10it/s]  2%|▏         | 190/10696 [20:59<2:30:40,  1.16it/s]  2%|▏         | 191/10696 [21:00<2:30:19,  1.16it/s]  2%|▏         | 192/10696 [21:01<2:28:37,  1.18it/s]  2%|▏         | 193/10696 [21:01<2:28:06,  1.18it/s]  2%|▏         | 194/10696 [21:02<2:26:06,  1.20it/s]  2%|▏         | 195/10696 [21:03<2:16:12,  1.28it/s]  2%|▏         | 196/10696 [21:04<2:11:20,  1.33it/s]  2%|▏         | 197/10696 [21:04<2:10:04,  1.35it/s]  2%|▏         | 198/10696 [21:05<2:04:12,  1.41it/s]  2%|▏         | 199/10696 [21:06<2:02:46,  1.43it/s]  2%|▏         | 200/10696 [21:06<2:03:14,  1.42it/s]{'loss': 6.6324, 'grad_norm': 0.37752461433410645, 'learning_rate': 0.00018691588785046728, 'epoch': 0.02}
-                                                       2%|▏         | 200/10696 [21:06<2:03:14,  1.42it/s]  2%|▏         | 201/10696 [21:07<2:02:59,  1.42it/s]  2%|▏         | 202/10696 [21:08<2:02:59,  1.42it/s]  2%|▏         | 203/10696 [21:08<2:04:36,  1.40it/s]  2%|▏         | 204/10696 [21:09<2:02:43,  1.42it/s]  2%|▏         | 205/10696 [21:10<2:01:30,  1.44it/s]  2%|▏         | 206/10696 [21:10<1:58:38,  1.47it/s]  2%|▏         | 207/10696 [21:11<1:58:55,  1.47it/s]  2%|▏         | 208/10696 [21:12<1:56:50,  1.50it/s]  2%|▏         | 209/10696 [21:12<1:53:49,  1.54it/s]  2%|▏         | 210/10696 [21:13<1:55:44,  1.51it/s]  2%|▏         | 211/10696 [21:14<1:55:20,  1.52it/s]  2%|▏         | 212/10696 [21:14<1:55:08,  1.52it/s]  2%|▏         | 213/10696 [21:15<1:57:02,  1.49it/s]  2%|▏         | 214/10696 [21:16<2:02:14,  1.43it/s]  2%|▏         | 215/10696 [21:17<2:10:45,  1.34it/s]  2%|▏         | 216/10696 [21:17<2:08:27,  1.36it/s]  2%|▏         | 217/10696 [21:18<2:02:57,  1.42it/s]  2%|▏         | 218/10696 [21:19<1:58:04,  1.48it/s]  2%|▏         | 219/10696 [21:19<1:53:43,  1.54it/s]  2%|▏         | 220/10696 [21:20<1:51:55,  1.56it/s]  2%|▏         | 221/10696 [21:20<1:51:03,  1.57it/s]  2%|▏         | 222/10696 [21:21<1:51:50,  1.56it/s]  2%|▏         | 223/10696 [21:22<2:03:35,  1.41it/s]  2%|▏         | 224/10696 [21:23<2:04:44,  1.40it/s]  2%|▏         | 225/10696 [21:23<2:03:04,  1.42it/s]                                                     {'loss': 6.3821, 'grad_norm': 0.4912753403186798, 'learning_rate': 0.0002102803738317757, 'epoch': 0.02}
-  2%|▏         | 225/10696 [21:23<2:03:04,  1.42it/s]  2%|▏         | 226/10696 [21:24<2:15:14,  1.29it/s]  2%|▏         | 227/10696 [21:25<2:11:02,  1.33it/s]  2%|▏         | 228/10696 [21:26<2:08:03,  1.36it/s]  2%|▏         | 229/10696 [21:27<2:18:10,  1.26it/s]  2%|▏         | 230/10696 [21:27<2:17:37,  1.27it/s]  2%|▏         | 231/10696 [21:28<2:13:50,  1.30it/s]  2%|▏         | 232/10696 [21:29<2:09:14,  1.35it/s]  2%|▏         | 233/10696 [21:29<2:03:09,  1.42it/s]  2%|▏         | 234/10696 [21:30<1:57:07,  1.49it/s]  2%|▏         | 235/10696 [21:31<1:54:03,  1.53it/s]  2%|▏         | 236/10696 [21:31<1:51:43,  1.56it/s]  2%|▏         | 237/10696 [21:32<1:50:13,  1.58it/s]  2%|▏         | 238/10696 [21:33<1:51:20,  1.57it/s]  2%|▏         | 239/10696 [21:33<1:53:24,  1.54it/s]  2%|▏         | 240/10696 [21:34<1:52:06,  1.55it/s]  2%|▏         | 241/10696 [21:35<1:57:14,  1.49it/s]  2%|▏         | 242/10696 [21:35<1:57:42,  1.48it/s]  2%|▏         | 243/10696 [21:36<2:01:30,  1.43it/s]  2%|▏         | 244/10696 [21:37<1:58:52,  1.47it/s]  2%|▏         | 245/10696 [21:37<1:55:39,  1.51it/s]  2%|▏         | 246/10696 [21:38<1:54:25,  1.52it/s]  2%|▏         | 247/10696 [21:39<1:53:07,  1.54it/s]  2%|▏         | 248/10696 [21:39<1:51:22,  1.56it/s]  2%|▏         | 249/10696 [21:40<1:49:14,  1.59it/s]  2%|▏         | 250/10696 [21:40<1:46:02,  1.64it/s]{'loss': 6.1827, 'grad_norm': 0.937492847442627, 'learning_rate': 0.00023364485981308412, 'epoch': 0.02}                                                     
-  2%|▏         | 250/10696 [21:40<1:46:02,  1.64it/s]  2%|▏         | 251/10696 [21:41<1:45:48,  1.65it/s]  2%|▏         | 252/10696 [21:42<1:43:41,  1.68it/s]  2%|▏         | 253/10696 [21:42<1:43:36,  1.68it/s]  2%|▏         | 254/10696 [21:43<1:44:21,  1.67it/s]  2%|▏         | 255/10696 [21:43<1:48:48,  1.60it/s]  2%|▏         | 256/10696 [21:44<1:48:04,  1.61it/s]  2%|▏         | 257/10696 [21:45<1:47:17,  1.62it/s]  2%|▏         | 258/10696 [21:45<1:47:34,  1.62it/s]  2%|▏         | 259/10696 [21:46<1:50:59,  1.57it/s]  2%|▏         | 260/10696 [21:46<1:46:39,  1.63it/s]  2%|▏         | 261/10696 [21:47<1:45:52,  1.64it/s]  2%|▏         | 262/10696 [21:48<1:45:57,  1.64it/s]  2%|▏         | 263/10696 [21:48<1:43:18,  1.68it/s]  2%|▏         | 264/10696 [21:49<1:43:41,  1.68it/s]  2%|▏         | 265/10696 [21:49<1:42:07,  1.70it/s]  2%|▏         | 266/10696 [21:50<1:40:49,  1.72it/s]  2%|▏         | 267/10696 [21:51<1:40:48,  1.72it/s]  3%|▎         | 268/10696 [21:51<1:41:23,  1.71it/s]  3%|▎         | 269/10696 [21:52<1:39:43,  1.74it/s]  3%|▎         | 270/10696 [21:52<1:38:16,  1.77it/s]  3%|▎         | 271/10696 [21:53<1:38:29,  1.76it/s]  3%|▎         | 272/10696 [21:53<1:41:02,  1.72it/s]  3%|▎         | 273/10696 [21:54<1:39:33,  1.74it/s]  3%|▎         | 274/10696 [21:55<1:39:29,  1.75it/s]  3%|▎         | 275/10696 [21:55<1:38:51,  1.76it/s]{'loss': 6.0194, 'grad_norm': 0.8242997527122498, 'learning_rate': 0.0002570093457943925, 'epoch': 0.03}
-                                                       3%|▎         | 275/10696 [21:55<1:38:51,  1.76it/s]  3%|▎         | 276/10696 [21:56<1:38:48,  1.76it/s]  3%|▎         | 277/10696 [21:56<1:39:26,  1.75it/s]  3%|▎         | 278/10696 [21:57<1:53:21,  1.53it/s]  3%|▎         | 279/10696 [21:58<1:48:01,  1.61it/s]  3%|▎         | 280/10696 [21:58<1:44:08,  1.67it/s]  3%|▎         | 281/10696 [21:59<1:41:14,  1.71it/s]  3%|▎         | 282/10696 [21:59<1:41:23,  1.71it/s]  3%|▎         | 283/10696 [22:00<1:41:28,  1.71it/s]  3%|▎         | 284/10696 [22:01<1:40:51,  1.72it/s]  3%|▎         | 285/10696 [22:01<1:41:20,  1.71it/s]  3%|▎         | 286/10696 [22:02<1:46:12,  1.63it/s]  3%|▎         | 287/10696 [22:02<1:46:45,  1.63it/s]  3%|▎         | 288/10696 [22:03<1:48:05,  1.60it/s]  3%|▎         | 289/10696 [22:04<1:49:32,  1.58it/s]  3%|▎         | 290/10696 [22:04<1:50:34,  1.57it/s]  3%|▎         | 291/10696 [22:05<2:07:41,  1.36it/s]  3%|▎         | 292/10696 [22:06<1:58:22,  1.46it/s]  3%|▎         | 293/10696 [22:06<1:50:54,  1.56it/s]  3%|▎         | 294/10696 [22:07<1:46:56,  1.62it/s]  3%|▎         | 295/10696 [22:08<1:44:05,  1.67it/s]  3%|▎         | 296/10696 [22:08<1:43:06,  1.68it/s]  3%|▎         | 297/10696 [22:09<1:40:46,  1.72it/s]  3%|▎         | 298/10696 [22:09<1:38:52,  1.75it/s]  3%|▎         | 299/10696 [22:11<2:29:33,  1.16it/s]  3%|▎         | 300/10696 [22:13<3:42:50,  1.29s/it]                                                     {'loss': 5.8905, 'grad_norm': 0.7734078168869019, 'learning_rate': 0.00028037383177570094, 'epoch': 0.03}
-  3%|▎         | 300/10696 [22:13<3:42:50,  1.29s/it]  3%|▎         | 301/10696 [22:15<4:43:24,  1.64s/it]  3%|▎         | 302/10696 [22:18<5:44:18,  1.99s/it]  3%|▎         | 303/10696 [22:21<5:56:58,  2.06s/it]  3%|▎         | 304/10696 [22:24<6:58:51,  2.42s/it]  3%|▎         | 305/10696 [22:28<8:41:25,  3.01s/it]  3%|▎         | 306/10696 [22:31<8:52:18,  3.07s/it]  3%|▎         | 307/10696 [22:35<8:55:59,  3.10s/it]  3%|▎         | 308/10696 [22:38<9:14:12,  3.20s/it]  3%|▎         | 309/10696 [22:42<9:44:39,  3.38s/it]  3%|▎         | 310/10696 [22:45<9:50:40,  3.41s/it]  3%|▎         | 311/10696 [22:49<9:44:47,  3.38s/it]  3%|▎         | 312/10696 [22:52<9:54:01,  3.43s/it]  3%|▎         | 313/10696 [22:55<9:31:19,  3.30s/it]  3%|▎         | 314/10696 [22:59<9:47:43,  3.40s/it]  3%|▎         | 315/10696 [23:02<9:46:16,  3.39s/it]  3%|▎         | 316/10696 [23:04<8:05:31,  2.81s/it]  3%|▎         | 317/10696 [23:05<6:34:50,  2.28s/it]  3%|▎         | 318/10696 [23:06<5:32:48,  1.92s/it]  3%|▎         | 319/10696 [23:07<4:43:44,  1.64s/it]  3%|▎         | 320/10696 [23:08<4:08:40,  1.44s/it]  3%|▎         | 321/10696 [23:09<3:56:12,  1.37s/it]  3%|▎         | 322/10696 [23:10<3:53:22,  1.35s/it]  3%|▎         | 323/10696 [23:12<4:14:53,  1.47s/it]  3%|▎         | 324/10696 [23:14<4:32:31,  1.58s/it]  3%|▎         | 325/10696 [23:16<4:54:42,  1.71s/it]                                                     {'loss': 5.7595, 'grad_norm': 0.5843368768692017, 'learning_rate': 0.00030373831775700936, 'epoch': 0.03}
-  3%|▎         | 325/10696 [23:16<4:54:42,  1.71s/it]  3%|▎         | 326/10696 [23:18<5:06:01,  1.77s/it]  3%|▎         | 327/10696 [23:20<5:24:03,  1.88s/it]  3%|▎         | 328/10696 [23:22<5:27:45,  1.90s/it]  3%|▎         | 329/10696 [23:23<5:10:47,  1.80s/it]  3%|▎         | 330/10696 [23:25<5:11:15,  1.80s/it]  3%|▎         | 331/10696 [23:27<5:08:37,  1.79s/it]  3%|▎         | 332/10696 [23:29<5:12:06,  1.81s/it]  3%|▎         | 333/10696 [23:30<4:47:51,  1.67s/it]  3%|▎         | 334/10696 [23:32<4:56:06,  1.71s/it]  3%|▎         | 335/10696 [23:33<4:48:19,  1.67s/it]  3%|▎         | 336/10696 [23:35<4:48:48,  1.67s/it]  3%|▎         | 337/10696 [23:37<5:01:18,  1.75s/it]  3%|▎         | 338/10696 [23:38<3:59:19,  1.39s/it]  3%|▎         | 339/10696 [23:38<3:17:34,  1.14s/it]  3%|▎         | 340/10696 [23:40<3:50:41,  1.34s/it]  3%|▎         | 341/10696 [23:42<4:21:01,  1.51s/it]  3%|▎         | 342/10696 [23:45<5:28:53,  1.91s/it]  3%|▎         | 343/10696 [23:47<5:40:54,  1.98s/it]  3%|▎         | 344/10696 [23:49<6:07:32,  2.13s/it]  3%|▎         | 345/10696 [23:52<6:53:44,  2.40s/it]  3%|▎         | 346/10696 [23:54<6:05:31,  2.12s/it]  3%|▎         | 347/10696 [23:55<5:40:43,  1.98s/it]  3%|▎         | 348/10696 [23:57<5:04:28,  1.77s/it]  3%|▎         | 349/10696 [23:59<5:34:28,  1.94s/it]  3%|▎         | 350/10696 [24:03<6:57:21,  2.42s/it]{'loss': 5.6612, 'grad_norm': 0.7248624563217163, 'learning_rate': 0.0003271028037383177, 'epoch': 0.03}
-                                                       3%|▎         | 350/10696 [24:03<6:57:21,  2.42s/it]  3%|▎         | 351/10696 [24:06<7:47:48,  2.71s/it]  3%|▎         | 352/10696 [24:10<9:08:26,  3.18s/it]  3%|▎         | 353/10696 [24:15<10:39:42,  3.71s/it]  3%|▎         | 354/10696 [24:19<10:59:33,  3.83s/it]  3%|▎         | 355/10696 [24:24<11:27:34,  3.99s/it]  3%|▎         | 356/10696 [24:27<11:06:49,  3.87s/it]  3%|▎         | 357/10696 [24:30<10:02:45,  3.50s/it]  3%|▎         | 358/10696 [24:32<8:57:54,  3.12s/it]   3%|▎         | 359/10696 [24:35<8:28:23,  2.95s/it]  3%|▎         | 360/10696 [24:38<8:37:39,  3.01s/it]  3%|▎         | 361/10696 [24:41<8:36:02,  3.00s/it]  3%|▎         | 362/10696 [24:44<9:03:21,  3.15s/it]  3%|▎         | 363/10696 [24:48<9:06:28,  3.17s/it]  3%|▎         | 364/10696 [24:52<10:07:35,  3.53s/it]  3%|▎         | 365/10696 [24:56<10:48:02,  3.76s/it]  3%|▎         | 366/10696 [25:00<10:50:12,  3.78s/it]  3%|▎         | 367/10696 [25:04<10:39:10,  3.71s/it]  3%|▎         | 368/10696 [25:07<10:42:06,  3.73s/it]  3%|▎         | 369/10696 [25:12<11:11:28,  3.90s/it]  3%|▎         | 370/10696 [25:16<11:22:13,  3.96s/it]  3%|▎         | 371/10696 [25:19<10:28:56,  3.65s/it]  3%|▎         | 372/10696 [25:22<9:58:00,  3.48s/it]   3%|▎         | 373/10696 [25:26<10:30:22,  3.66s/it]  3%|▎         | 374/10696 [25:30<10:47:06,  3.76s/it]  4%|▎         | 375/10696 [25:34<11:28:51,  4.00s/it]{'loss': 5.5639, 'grad_norm': 0.5673643350601196, 'learning_rate': 0.00035046728971962614, 'epoch': 0.04}                                                      
-  4%|▎         | 375/10696 [25:34<11:28:51,  4.00s/it]  4%|▎         | 376/10696 [25:39<11:59:40,  4.18s/it]  4%|▎         | 377/10696 [25:43<11:33:17,  4.03s/it]  4%|▎         | 378/10696 [25:45<10:26:57,  3.65s/it]  4%|▎         | 379/10696 [25:50<11:12:16,  3.91s/it]  4%|▎         | 380/10696 [25:54<11:04:51,  3.87s/it]  4%|▎         | 381/10696 [25:57<10:19:20,  3.60s/it]  4%|▎         | 382/10696 [26:00<10:03:34,  3.51s/it]  4%|▎         | 383/10696 [26:03<9:57:11,  3.47s/it]   4%|▎         | 384/10696 [26:08<10:59:00,  3.83s/it]  4%|▎         | 385/10696 [26:13<11:27:59,  4.00s/it]  4%|▎         | 386/10696 [26:16<10:41:42,  3.73s/it]  4%|▎         | 387/10696 [26:20<10:50:50,  3.79s/it]  4%|▎         | 388/10696 [26:23<10:51:46,  3.79s/it]  4%|▎         | 389/10696 [26:27<10:34:45,  3.70s/it]  4%|▎         | 390/10696 [26:30<10:32:22,  3.68s/it]  4%|▎         | 391/10696 [26:34<10:31:46,  3.68s/it]  4%|▎         | 392/10696 [26:38<10:24:02,  3.63s/it]  4%|▎         | 393/10696 [26:42<11:14:59,  3.93s/it]  4%|▎         | 394/10696 [26:46<10:45:51,  3.76s/it]  4%|▎         | 395/10696 [26:48<9:45:51,  3.41s/it]   4%|▎         | 396/10696 [26:51<8:52:57,  3.10s/it]  4%|▎         | 397/10696 [26:53<8:17:42,  2.90s/it]  4%|▎         | 398/10696 [26:55<7:22:03,  2.58s/it]  4%|▎         | 399/10696 [26:57<7:13:04,  2.52s/it]  4%|▎         | 400/10696 [26:59<6:34:42,  2.30s/it]{'loss': 5.4725, 'grad_norm': 0.6777312755584717, 'learning_rate': 0.00037383177570093456, 'epoch': 0.04}
-                                                       4%|▎         | 400/10696 [26:59<6:34:42,  2.30s/it]  4%|▎         | 401/10696 [27:02<6:45:13,  2.36s/it]  4%|▍         | 402/10696 [27:04<7:02:22,  2.46s/it]  4%|▍         | 403/10696 [27:07<7:16:53,  2.55s/it]  4%|▍         | 404/10696 [27:10<8:03:55,  2.82s/it]  4%|▍         | 405/10696 [27:14<8:54:07,  3.11s/it]  4%|▍         | 406/10696 [27:17<8:36:43,  3.01s/it]  4%|▍         | 407/10696 [27:21<9:12:41,  3.22s/it]  4%|▍         | 408/10696 [27:24<9:02:41,  3.17s/it]  4%|▍         | 409/10696 [27:26<8:10:02,  2.86s/it]  4%|▍         | 410/10696 [27:28<7:53:24,  2.76s/it]  4%|▍         | 411/10696 [27:31<8:00:28,  2.80s/it]  4%|▍         | 412/10696 [27:34<7:33:40,  2.65s/it]  4%|▍         | 413/10696 [27:36<7:19:07,  2.56s/it]  4%|▍         | 414/10696 [27:38<6:58:13,  2.44s/it]  4%|▍         | 415/10696 [27:41<7:24:00,  2.59s/it]  4%|▍         | 416/10696 [27:44<7:24:30,  2.59s/it]  4%|▍         | 417/10696 [27:47<7:41:44,  2.70s/it]  4%|▍         | 418/10696 [27:50<8:31:10,  2.98s/it]  4%|▍         | 419/10696 [27:53<8:01:33,  2.81s/it]  4%|▍         | 420/10696 [27:56<8:33:52,  3.00s/it]  4%|▍         | 421/10696 [27:59<8:42:55,  3.05s/it]  4%|▍         | 422/10696 [28:02<8:48:45,  3.09s/it]  4%|▍         | 423/10696 [28:05<8:14:05,  2.89s/it]  4%|▍         | 424/10696 [28:07<7:21:54,  2.58s/it]  4%|▍         | 425/10696 [28:09<6:58:01,  2.44s/it]{'loss': 5.3951, 'grad_norm': 0.7804048657417297, 'learning_rate': 0.000397196261682243, 'epoch': 0.04}
-                                                       4%|▍         | 425/10696 [28:09<6:58:01,  2.44s/it]  4%|▍         | 426/10696 [28:12<7:21:25,  2.58s/it]  4%|▍         | 427/10696 [28:14<7:21:04,  2.58s/it]  4%|▍         | 428/10696 [28:17<7:25:20,  2.60s/it]  4%|▍         | 429/10696 [28:20<7:57:32,  2.79s/it]  4%|▍         | 430/10696 [28:23<7:40:38,  2.69s/it]  4%|▍         | 431/10696 [28:25<7:25:57,  2.61s/it]  4%|▍         | 432/10696 [28:27<7:12:40,  2.53s/it]  4%|▍         | 433/10696 [28:29<6:39:15,  2.33s/it]  4%|▍         | 434/10696 [28:32<7:04:18,  2.48s/it]  4%|▍         | 435/10696 [28:35<7:02:23,  2.47s/it]  4%|▍         | 436/10696 [28:37<6:43:40,  2.36s/it]  4%|▍         | 437/10696 [28:40<7:19:15,  2.57s/it]  4%|▍         | 438/10696 [28:42<7:00:06,  2.46s/it]  4%|▍         | 439/10696 [28:44<6:22:15,  2.24s/it]  4%|▍         | 440/10696 [28:45<5:28:35,  1.92s/it]  4%|▍         | 441/10696 [28:46<4:50:12,  1.70s/it]  4%|▍         | 442/10696 [28:47<4:29:25,  1.58s/it]  4%|▍         | 443/10696 [28:49<4:11:30,  1.47s/it]  4%|▍         | 444/10696 [28:50<3:57:27,  1.39s/it]  4%|▍         | 445/10696 [28:51<4:11:33,  1.47s/it]  4%|▍         | 446/10696 [28:53<3:53:35,  1.37s/it]  4%|▍         | 447/10696 [28:54<4:00:50,  1.41s/it]  4%|▍         | 448/10696 [28:56<4:19:02,  1.52s/it]  4%|▍         | 449/10696 [28:58<4:32:44,  1.60s/it]  4%|▍         | 450/10696 [28:59<4:15:00,  1.49s/it]{'loss': 5.3206, 'grad_norm': 0.6993443965911865, 'learning_rate': 0.0004205607476635514, 'epoch': 0.04}                                                     
-  4%|▍         | 450/10696 [28:59<4:15:00,  1.49s/it]  4%|▍         | 451/10696 [29:00<4:17:43,  1.51s/it]  4%|▍         | 452/10696 [29:02<4:27:05,  1.56s/it]  4%|▍         | 453/10696 [29:05<5:18:55,  1.87s/it]  4%|▍         | 454/10696 [29:07<5:46:29,  2.03s/it]  4%|▍         | 455/10696 [29:09<5:48:58,  2.04s/it]  4%|▍         | 456/10696 [29:12<6:20:59,  2.23s/it]  4%|▍         | 457/10696 [29:14<6:25:09,  2.26s/it]  4%|▍         | 458/10696 [29:16<5:48:42,  2.04s/it]  4%|▍         | 459/10696 [29:18<6:00:03,  2.11s/it]  4%|▍         | 460/10696 [29:20<5:50:52,  2.06s/it]  4%|▍         | 461/10696 [29:22<5:30:31,  1.94s/it]  4%|▍         | 462/10696 [29:24<5:33:27,  1.96s/it]  4%|▍         | 463/10696 [29:25<5:28:42,  1.93s/it]  4%|▍         | 464/10696 [29:28<5:40:10,  1.99s/it]  4%|▍         | 465/10696 [29:30<5:47:49,  2.04s/it]  4%|▍         | 466/10696 [29:31<5:18:58,  1.87s/it]  4%|▍         | 467/10696 [29:33<5:27:26,  1.92s/it]  4%|▍         | 468/10696 [29:35<5:11:17,  1.83s/it]  4%|▍         | 469/10696 [29:36<4:50:50,  1.71s/it]  4%|▍         | 470/10696 [29:38<4:39:10,  1.64s/it]  4%|▍         | 471/10696 [29:39<4:28:33,  1.58s/it]  4%|▍         | 472/10696 [29:41<4:33:00,  1.60s/it]  4%|▍         | 473/10696 [29:43<4:52:51,  1.72s/it]  4%|▍         | 474/10696 [29:44<4:27:49,  1.57s/it]  4%|▍         | 475/10696 [29:45<3:48:54,  1.34s/it]{'loss': 5.264, 'grad_norm': 0.6879208087921143, 'learning_rate': 0.0004439252336448598, 'epoch': 0.04}
-                                                       4%|▍         | 475/10696 [29:45<3:48:54,  1.34s/it]  4%|▍         | 476/10696 [29:46<3:28:43,  1.23s/it]  4%|▍         | 477/10696 [29:47<3:04:54,  1.09s/it]  4%|▍         | 478/10696 [29:47<2:48:54,  1.01it/s]  4%|▍         | 479/10696 [29:48<2:44:09,  1.04it/s]  4%|▍         | 480/10696 [29:49<2:38:57,  1.07it/s]  4%|▍         | 481/10696 [29:50<2:46:55,  1.02it/s]  5%|▍         | 482/10696 [29:51<2:40:20,  1.06it/s]  5%|▍         | 483/10696 [29:52<2:41:24,  1.05it/s]  5%|▍         | 484/10696 [29:53<2:42:21,  1.05it/s]  5%|▍         | 485/10696 [29:54<2:41:51,  1.05it/s]  5%|▍         | 486/10696 [29:55<2:33:38,  1.11it/s]  5%|▍         | 487/10696 [29:56<2:31:39,  1.12it/s]  5%|▍         | 488/10696 [29:56<2:23:46,  1.18it/s]  5%|▍         | 489/10696 [29:57<2:11:04,  1.30it/s]  5%|▍         | 490/10696 [29:58<2:06:08,  1.35it/s]  5%|▍         | 491/10696 [29:58<2:04:13,  1.37it/s]  5%|▍         | 492/10696 [29:59<2:08:23,  1.32it/s]  5%|▍         | 493/10696 [30:00<2:09:07,  1.32it/s]  5%|▍         | 494/10696 [30:01<2:02:16,  1.39it/s]  5%|▍         | 495/10696 [30:01<1:55:02,  1.48it/s]  5%|▍         | 496/10696 [30:02<1:52:08,  1.52it/s]  5%|▍         | 497/10696 [30:02<1:49:49,  1.55it/s]  5%|▍         | 498/10696 [30:03<1:50:54,  1.53it/s]  5%|▍         | 499/10696 [30:04<1:53:04,  1.50it/s]  5%|▍         | 500/10696 [30:04<1:57:35,  1.45it/s]{'loss': 5.1906, 'grad_norm': 0.5644948482513428, 'learning_rate': 0.00046728971962616824, 'epoch': 0.05}
-                                                       5%|▍         | 500/10696 [30:04<1:57:35,  1.45it/s]  5%|▍         | 501/10696 [30:05<1:59:18,  1.42it/s]  5%|▍         | 502/10696 [30:06<2:04:17,  1.37it/s]  5%|▍         | 503/10696 [30:07<2:08:30,  1.32it/s]  5%|▍         | 504/10696 [30:08<2:11:31,  1.29it/s]  5%|▍         | 505/10696 [30:08<2:07:58,  1.33it/s]  5%|▍         | 506/10696 [30:09<2:06:46,  1.34it/s]  5%|▍         | 507/10696 [30:10<2:09:42,  1.31it/s]  5%|▍         | 508/10696 [30:11<2:13:37,  1.27it/s]  5%|▍         | 509/10696 [30:12<2:23:09,  1.19it/s]  5%|▍         | 510/10696 [30:13<2:29:53,  1.13it/s]  5%|▍         | 511/10696 [30:13<2:23:01,  1.19it/s]  5%|▍         | 512/10696 [30:14<2:19:23,  1.22it/s]  5%|▍         | 513/10696 [30:15<2:15:26,  1.25it/s]  5%|▍         | 514/10696 [30:16<2:13:35,  1.27it/s]  5%|▍         | 515/10696 [30:16<2:14:07,  1.27it/s]  5%|▍         | 516/10696 [30:17<2:12:16,  1.28it/s]  5%|▍         | 517/10696 [30:18<2:13:53,  1.27it/s]  5%|▍         | 518/10696 [30:19<2:14:45,  1.26it/s]  5%|▍         | 519/10696 [30:20<2:09:21,  1.31it/s]  5%|▍         | 520/10696 [30:20<2:07:01,  1.34it/s]  5%|▍         | 521/10696 [30:21<2:06:13,  1.34it/s]  5%|▍         | 522/10696 [30:22<2:07:14,  1.33it/s]  5%|▍         | 523/10696 [30:22<2:04:26,  1.36it/s]  5%|▍         | 524/10696 [30:23<2:03:30,  1.37it/s]  5%|▍         | 525/10696 [30:24<1:59:12,  1.42it/s]{'loss': 5.136, 'grad_norm': 0.5651555061340332, 'learning_rate': 0.0004906542056074767, 'epoch': 0.05}
-                                                       5%|▍         | 525/10696 [30:24<1:59:12,  1.42it/s]  5%|▍         | 526/10696 [30:24<1:57:12,  1.45it/s]  5%|▍         | 527/10696 [30:25<1:55:28,  1.47it/s]  5%|▍         | 528/10696 [30:26<1:57:28,  1.44it/s]  5%|▍         | 529/10696 [30:27<2:01:20,  1.40it/s]  5%|▍         | 530/10696 [30:27<2:03:10,  1.38it/s]  5%|▍         | 531/10696 [30:28<2:06:42,  1.34it/s]  5%|▍         | 532/10696 [30:29<2:06:43,  1.34it/s]  5%|▍         | 533/10696 [30:30<2:03:50,  1.37it/s]  5%|▍         | 534/10696 [30:30<2:03:09,  1.38it/s]  5%|▌         | 535/10696 [30:31<2:08:18,  1.32it/s]  5%|▌         | 536/10696 [30:32<2:14:08,  1.26it/s]  5%|▌         | 537/10696 [30:33<2:13:33,  1.27it/s]  5%|▌         | 538/10696 [30:34<2:11:05,  1.29it/s]  5%|▌         | 539/10696 [30:34<2:08:12,  1.32it/s]  5%|▌         | 540/10696 [30:35<2:05:57,  1.34it/s]  5%|▌         | 541/10696 [30:36<2:06:52,  1.33it/s]  5%|▌         | 542/10696 [30:37<2:11:24,  1.29it/s]  5%|▌         | 543/10696 [30:37<2:17:59,  1.23it/s]  5%|▌         | 544/10696 [30:38<2:22:08,  1.19it/s]  5%|▌         | 545/10696 [30:39<2:23:25,  1.18it/s]  5%|▌         | 546/10696 [30:40<2:19:30,  1.21it/s]  5%|▌         | 547/10696 [30:41<2:14:50,  1.25it/s]  5%|▌         | 548/10696 [30:42<2:17:16,  1.23it/s]  5%|▌         | 549/10696 [30:42<2:16:41,  1.24it/s]  5%|▌         | 550/10696 [30:43<2:14:26,  1.26it/s]{'loss': 5.0904, 'grad_norm': 0.442416787147522, 'learning_rate': 0.000514018691588785, 'epoch': 0.05}
-                                                       5%|▌         | 550/10696 [30:43<2:14:26,  1.26it/s]  5%|▌         | 551/10696 [30:44<2:06:02,  1.34it/s]  5%|▌         | 552/10696 [30:44<2:02:41,  1.38it/s]  5%|▌         | 553/10696 [30:45<2:00:23,  1.40it/s]  5%|▌         | 554/10696 [30:46<1:58:18,  1.43it/s]  5%|▌         | 555/10696 [30:47<2:01:46,  1.39it/s]  5%|▌         | 556/10696 [30:47<2:00:01,  1.41it/s]  5%|▌         | 557/10696 [30:48<1:59:26,  1.41it/s]  5%|▌         | 558/10696 [30:49<1:59:17,  1.42it/s]  5%|▌         | 559/10696 [30:49<1:57:01,  1.44it/s]  5%|▌         | 560/10696 [30:50<1:55:08,  1.47it/s]  5%|▌         | 561/10696 [30:51<1:55:41,  1.46it/s]  5%|▌         | 562/10696 [30:51<2:00:13,  1.40it/s]  5%|▌         | 563/10696 [30:52<2:01:02,  1.40it/s]  5%|▌         | 564/10696 [30:53<1:59:58,  1.41it/s]  5%|▌         | 565/10696 [30:54<1:59:37,  1.41it/s]  5%|▌         | 566/10696 [30:54<1:59:58,  1.41it/s]  5%|▌         | 567/10696 [30:55<2:03:46,  1.36it/s]  5%|▌         | 568/10696 [30:56<2:03:44,  1.36it/s]  5%|▌         | 569/10696 [30:56<2:00:43,  1.40it/s]  5%|▌         | 570/10696 [30:57<2:01:11,  1.39it/s]  5%|▌         | 571/10696 [30:58<2:00:12,  1.40it/s]  5%|▌         | 572/10696 [30:59<1:58:45,  1.42it/s]  5%|▌         | 573/10696 [30:59<2:03:05,  1.37it/s]  5%|▌         | 574/10696 [31:00<2:04:26,  1.36it/s]  5%|▌         | 575/10696 [31:01<2:05:16,  1.35it/s]                                                     {'loss': 5.0425, 'grad_norm': 0.5118783116340637, 'learning_rate': 0.0005373831775700935, 'epoch': 0.05}
-  5%|▌         | 575/10696 [31:01<2:05:16,  1.35it/s]  5%|▌         | 576/10696 [31:02<2:02:42,  1.37it/s]  5%|▌         | 577/10696 [31:02<2:07:09,  1.33it/s]  5%|▌         | 578/10696 [31:03<2:13:32,  1.26it/s]  5%|▌         | 579/10696 [31:04<2:09:02,  1.31it/s]  5%|▌         | 580/10696 [31:05<2:10:34,  1.29it/s]  5%|▌         | 581/10696 [31:06<2:12:06,  1.28it/s]  5%|▌         | 582/10696 [31:06<2:12:17,  1.27it/s]  5%|▌         | 583/10696 [31:07<2:13:37,  1.26it/s]  5%|▌         | 584/10696 [31:08<2:15:51,  1.24it/s]  5%|▌         | 585/10696 [31:09<2:26:47,  1.15it/s]  5%|▌         | 586/10696 [31:10<2:28:06,  1.14it/s]  5%|▌         | 587/10696 [31:11<2:23:13,  1.18it/s]  5%|▌         | 588/10696 [31:12<2:21:16,  1.19it/s]  6%|▌         | 589/10696 [31:13<2:32:51,  1.10it/s]  6%|▌         | 590/10696 [31:14<2:33:43,  1.10it/s]  6%|▌         | 591/10696 [31:14<2:31:12,  1.11it/s]  6%|▌         | 592/10696 [31:15<2:29:20,  1.13it/s]  6%|▌         | 593/10696 [31:16<2:27:13,  1.14it/s]  6%|▌         | 594/10696 [31:17<2:35:59,  1.08it/s]  6%|▌         | 595/10696 [31:18<2:23:10,  1.18it/s]  6%|▌         | 596/10696 [31:19<2:19:58,  1.20it/s]  6%|▌         | 597/10696 [31:19<2:11:30,  1.28it/s]  6%|▌         | 598/10696 [31:20<2:11:27,  1.28it/s]  6%|▌         | 599/10696 [31:21<2:05:50,  1.34it/s]  6%|▌         | 600/10696 [31:21<2:00:31,  1.40it/s]{'loss': 4.9917, 'grad_norm': 0.4538085460662842, 'learning_rate': 0.0005607476635514019, 'epoch': 0.06}
-                                                       6%|▌         | 600/10696 [31:21<2:00:31,  1.40it/s]  6%|▌         | 601/10696 [31:22<2:05:23,  1.34it/s]  6%|▌         | 602/10696 [31:23<2:07:30,  1.32it/s]  6%|▌         | 603/10696 [31:24<1:57:40,  1.43it/s]  6%|▌         | 604/10696 [31:24<1:47:42,  1.56it/s]  6%|▌         | 605/10696 [31:25<1:40:43,  1.67it/s]  6%|▌         | 606/10696 [31:25<1:35:41,  1.76it/s]  6%|▌         | 607/10696 [31:26<1:32:27,  1.82it/s]  6%|▌         | 608/10696 [31:26<1:30:13,  1.86it/s]  6%|▌         | 609/10696 [31:27<1:30:44,  1.85it/s]  6%|▌         | 610/10696 [31:27<1:28:44,  1.89it/s]  6%|▌         | 611/10696 [31:28<1:28:55,  1.89it/s]  6%|▌         | 612/10696 [31:28<1:27:36,  1.92it/s]  6%|▌         | 613/10696 [31:29<1:27:46,  1.91it/s]  6%|▌         | 614/10696 [31:29<1:26:43,  1.94it/s]  6%|▌         | 615/10696 [31:30<1:26:02,  1.95it/s]  6%|▌         | 616/10696 [31:30<1:26:26,  1.94it/s]  6%|▌         | 617/10696 [31:31<1:25:53,  1.96it/s]  6%|▌         | 618/10696 [31:31<1:25:18,  1.97it/s]  6%|▌         | 619/10696 [31:32<1:24:56,  1.98it/s]  6%|▌         | 620/10696 [31:32<1:24:51,  1.98it/s]  6%|▌         | 621/10696 [31:33<1:25:03,  1.97it/s]  6%|▌         | 622/10696 [31:33<1:24:57,  1.98it/s]  6%|▌         | 623/10696 [31:34<1:24:50,  1.98it/s]  6%|▌         | 624/10696 [31:34<1:24:42,  1.98it/s]  6%|▌         | 625/10696 [31:35<1:24:41,  1.98it/s]{'loss': 4.949, 'grad_norm': 0.5180706977844238, 'learning_rate': 0.0005841121495327103, 'epoch': 0.06}
-                                                       6%|▌         | 625/10696 [31:35<1:24:41,  1.98it/s]  6%|▌         | 626/10696 [31:35<1:25:28,  1.96it/s]  6%|▌         | 627/10696 [31:36<1:25:05,  1.97it/s]  6%|▌         | 628/10696 [31:36<1:26:06,  1.95it/s]  6%|▌         | 629/10696 [31:37<1:25:27,  1.96it/s]  6%|▌         | 630/10696 [31:37<1:24:58,  1.97it/s]  6%|▌         | 631/10696 [31:38<1:24:42,  1.98it/s]  6%|▌         | 632/10696 [31:38<1:24:42,  1.98it/s]  6%|▌         | 633/10696 [31:39<1:24:37,  1.98it/s]  6%|▌         | 634/10696 [31:39<1:24:33,  1.98it/s]  6%|▌         | 635/10696 [31:40<1:24:27,  1.99it/s]  6%|▌         | 636/10696 [31:40<1:25:34,  1.96it/s]  6%|▌         | 637/10696 [31:41<1:25:47,  1.95it/s]  6%|▌         | 638/10696 [31:41<1:25:24,  1.96it/s]  6%|▌         | 639/10696 [31:42<1:24:56,  1.97it/s]  6%|▌         | 640/10696 [31:42<1:24:40,  1.98it/s]  6%|▌         | 641/10696 [31:43<1:25:22,  1.96it/s]  6%|▌         | 642/10696 [31:43<1:24:54,  1.97it/s]  6%|▌         | 643/10696 [31:44<1:24:33,  1.98it/s]  6%|▌         | 644/10696 [31:44<1:24:18,  1.99it/s]  6%|▌         | 645/10696 [31:45<1:24:12,  1.99it/s]  6%|▌         | 646/10696 [31:45<1:24:12,  1.99it/s]  6%|▌         | 647/10696 [31:46<1:25:02,  1.97it/s]  6%|▌         | 648/10696 [31:46<1:24:43,  1.98it/s]  6%|▌         | 649/10696 [31:47<1:24:23,  1.98it/s]  6%|▌         | 650/10696 [31:47<1:24:16,  1.99it/s]{'loss': 4.9066, 'grad_norm': 0.4243292212486267, 'learning_rate': 0.0006074766355140187, 'epoch': 0.06}
-                                                       6%|▌         | 650/10696 [31:47<1:24:16,  1.99it/s]  6%|▌         | 651/10696 [31:48<1:24:19,  1.99it/s]  6%|▌         | 652/10696 [31:48<1:25:15,  1.96it/s]  6%|▌         | 653/10696 [31:49<1:24:51,  1.97it/s]  6%|▌         | 654/10696 [31:49<1:24:37,  1.98it/s]  6%|▌         | 655/10696 [31:50<1:24:16,  1.99it/s]  6%|▌         | 656/10696 [31:50<1:24:06,  1.99it/s]  6%|▌         | 657/10696 [31:51<1:24:03,  1.99it/s]  6%|▌         | 658/10696 [31:51<1:24:05,  1.99it/s]  6%|▌         | 659/10696 [31:52<1:23:55,  1.99it/s]  6%|▌         | 660/10696 [31:52<1:23:57,  1.99it/s]  6%|▌         | 661/10696 [31:53<1:23:46,  2.00it/s]  6%|▌         | 662/10696 [31:53<1:25:54,  1.95it/s]  6%|▌         | 663/10696 [31:54<1:25:24,  1.96it/s]  6%|▌         | 664/10696 [31:54<1:25:51,  1.95it/s]  6%|▌         | 665/10696 [31:55<1:25:08,  1.96it/s]  6%|▌         | 666/10696 [31:55<1:24:37,  1.98it/s]  6%|▌         | 667/10696 [31:56<1:25:11,  1.96it/s]  6%|▌         | 668/10696 [31:56<1:24:44,  1.97it/s]  6%|▋         | 669/10696 [31:57<1:24:34,  1.98it/s]  6%|▋         | 670/10696 [31:57<1:24:13,  1.98it/s]  6%|▋         | 671/10696 [31:58<1:24:23,  1.98it/s]  6%|▋         | 672/10696 [31:58<1:24:06,  1.99it/s]  6%|▋         | 673/10696 [31:59<1:23:58,  1.99it/s]  6%|▋         | 674/10696 [31:59<1:23:52,  1.99it/s]  6%|▋         | 675/10696 [32:00<1:23:45,  1.99it/s]{'loss': 4.8785, 'grad_norm': 0.39971327781677246, 'learning_rate': 0.0006308411214953271, 'epoch': 0.06}
-                                                       6%|▋         | 675/10696 [32:00<1:23:45,  1.99it/s]  6%|▋         | 676/10696 [32:00<1:23:51,  1.99it/s]  6%|▋         | 677/10696 [32:01<1:23:45,  1.99it/s]  6%|▋         | 678/10696 [32:02<1:23:43,  1.99it/s]  6%|▋         | 679/10696 [32:02<1:23:34,  2.00it/s]  6%|▋         | 680/10696 [32:02<1:23:25,  2.00it/s]  6%|▋         | 681/10696 [32:03<1:23:30,  2.00it/s]  6%|▋         | 682/10696 [32:04<1:23:35,  2.00it/s]  6%|▋         | 683/10696 [32:04<1:24:21,  1.98it/s]  6%|▋         | 684/10696 [32:05<1:24:17,  1.98it/s]  6%|▋         | 685/10696 [32:05<1:24:01,  1.99it/s]  6%|▋         | 686/10696 [32:06<1:23:52,  1.99it/s]  6%|▋         | 687/10696 [32:06<1:23:54,  1.99it/s]  6%|▋         | 688/10696 [32:07<1:23:46,  1.99it/s]  6%|▋         | 689/10696 [32:07<1:23:40,  1.99it/s]  6%|▋         | 690/10696 [32:08<1:24:45,  1.97it/s]  6%|▋         | 691/10696 [32:08<1:24:22,  1.98it/s]  6%|▋         | 692/10696 [32:09<1:24:07,  1.98it/s]  6%|▋         | 693/10696 [32:09<1:24:05,  1.98it/s]  6%|▋         | 694/10696 [32:10<1:23:58,  1.99it/s]  6%|▋         | 695/10696 [32:10<1:23:57,  1.99it/s]  7%|▋         | 696/10696 [32:11<1:23:46,  1.99it/s]  7%|▋         | 697/10696 [32:11<1:23:36,  1.99it/s]  7%|▋         | 698/10696 [32:12<1:23:41,  1.99it/s]  7%|▋         | 699/10696 [32:12<1:23:36,  1.99it/s]  7%|▋         | 700/10696 [32:13<1:23:27,  2.00it/s]                                                     {'loss': 4.8367, 'grad_norm': 0.4248983561992645, 'learning_rate': 0.0006542056074766354, 'epoch': 0.07}
-  7%|▋         | 700/10696 [32:13<1:23:27,  2.00it/s]  7%|▋         | 701/10696 [32:13<1:23:24,  2.00it/s]  7%|▋         | 702/10696 [32:14<1:23:20,  2.00it/s]  7%|▋         | 703/10696 [32:14<1:23:28,  2.00it/s]  7%|▋         | 704/10696 [32:15<1:23:25,  2.00it/s]  7%|▋         | 705/10696 [32:15<1:23:18,  2.00it/s]  7%|▋         | 706/10696 [32:16<1:23:13,  2.00it/s]  7%|▋         | 707/10696 [32:16<1:23:21,  2.00it/s]  7%|▋         | 708/10696 [32:17<1:24:17,  1.97it/s]  7%|▋         | 709/10696 [32:17<1:23:49,  1.99it/s]  7%|▋         | 710/10696 [32:18<1:23:40,  1.99it/s]  7%|▋         | 711/10696 [32:18<1:23:30,  1.99it/s]  7%|▋         | 712/10696 [32:19<1:23:22,  2.00it/s]  7%|▋         | 713/10696 [32:19<1:23:15,  2.00it/s]  7%|▋         | 714/10696 [32:20<1:23:11,  2.00it/s]  7%|▋         | 715/10696 [32:20<1:23:11,  2.00it/s]  7%|▋         | 716/10696 [32:21<1:23:09,  2.00it/s]  7%|▋         | 717/10696 [32:21<1:23:06,  2.00it/s]  7%|▋         | 718/10696 [32:22<1:23:06,  2.00it/s]  7%|▋         | 719/10696 [32:22<1:23:15,  2.00it/s]  7%|▋         | 720/10696 [32:23<1:23:22,  1.99it/s]  7%|▋         | 721/10696 [32:23<1:23:14,  2.00it/s]  7%|▋         | 722/10696 [32:24<1:23:07,  2.00it/s]  7%|▋         | 723/10696 [32:24<1:23:04,  2.00it/s]  7%|▋         | 724/10696 [32:25<1:22:59,  2.00it/s]  7%|▋         | 725/10696 [32:25<1:22:55,  2.00it/s]{'loss': 4.8026, 'grad_norm': 0.3806724548339844, 'learning_rate': 0.0006775700934579439, 'epoch': 0.07}
-                                                       7%|▋         | 725/10696 [32:25<1:22:55,  2.00it/s]  7%|▋         | 726/10696 [32:26<1:23:01,  2.00it/s]  7%|▋         | 727/10696 [32:26<1:24:16,  1.97it/s]  7%|▋         | 728/10696 [32:27<1:23:57,  1.98it/s]  7%|▋         | 729/10696 [32:27<1:23:37,  1.99it/s]  7%|▋         | 730/10696 [32:28<1:23:21,  1.99it/s]  7%|▋         | 731/10696 [32:28<1:23:16,  1.99it/s]  7%|▋         | 732/10696 [32:29<1:23:16,  1.99it/s]  7%|▋         | 733/10696 [32:29<1:23:13,  2.00it/s]  7%|▋         | 734/10696 [32:30<1:23:05,  2.00it/s]  7%|▋         | 735/10696 [32:30<1:23:56,  1.98it/s]  7%|▋         | 736/10696 [32:31<1:23:44,  1.98it/s]  7%|▋         | 737/10696 [32:31<1:23:25,  1.99it/s]  7%|▋         | 738/10696 [32:32<1:23:18,  1.99it/s]  7%|▋         | 739/10696 [32:32<1:23:13,  1.99it/s]  7%|▋         | 740/10696 [32:33<1:23:07,  2.00it/s]  7%|▋         | 741/10696 [32:33<1:22:54,  2.00it/s]  7%|▋         | 742/10696 [32:34<1:22:57,  2.00it/s]  7%|▋         | 743/10696 [32:34<1:23:09,  1.99it/s]  7%|▋         | 744/10696 [32:35<1:23:05,  2.00it/s]  7%|▋         | 745/10696 [32:35<1:23:12,  1.99it/s]  7%|▋         | 746/10696 [32:36<1:23:11,  1.99it/s]  7%|▋         | 747/10696 [32:36<1:23:10,  1.99it/s]  7%|▋         | 748/10696 [32:37<1:23:19,  1.99it/s]  7%|▋         | 749/10696 [32:37<1:23:22,  1.99it/s]  7%|▋         | 750/10696 [32:38<1:23:12,  1.99it/s]{'loss': 4.7718, 'grad_norm': 0.540773332118988, 'learning_rate': 0.0007009345794392523, 'epoch': 0.07}
-                                                       7%|▋         | 750/10696 [32:38<1:23:12,  1.99it/s]  7%|▋         | 751/10696 [32:38<1:23:22,  1.99it/s]  7%|▋         | 752/10696 [32:39<1:23:13,  1.99it/s]  7%|▋         | 753/10696 [32:39<1:23:07,  1.99it/s]  7%|▋         | 754/10696 [32:40<1:23:11,  1.99it/s]  7%|▋         | 755/10696 [32:40<1:23:23,  1.99it/s]  7%|▋         | 756/10696 [32:41<1:24:23,  1.96it/s]  7%|▋         | 757/10696 [32:41<1:24:08,  1.97it/s]  7%|▋         | 758/10696 [32:42<1:36:52,  1.71it/s]  7%|▋         | 759/10696 [32:42<1:32:39,  1.79it/s]  7%|▋         | 760/10696 [32:43<1:30:02,  1.84it/s]  7%|▋         | 761/10696 [32:43<1:28:52,  1.86it/s]  7%|▋         | 762/10696 [32:44<1:27:11,  1.90it/s]  7%|▋         | 763/10696 [32:44<1:25:59,  1.93it/s]  7%|▋         | 764/10696 [32:45<1:25:57,  1.93it/s]  7%|▋         | 765/10696 [32:46<1:25:05,  1.95it/s]  7%|▋         | 766/10696 [32:46<1:24:42,  1.95it/s]  7%|▋         | 767/10696 [32:47<1:24:25,  1.96it/s]  7%|▋         | 768/10696 [32:47<1:23:55,  1.97it/s]  7%|▋         | 769/10696 [32:48<1:23:42,  1.98it/s]  7%|▋         | 770/10696 [32:48<1:25:00,  1.95it/s]  7%|▋         | 771/10696 [32:49<1:24:09,  1.97it/s]  7%|▋         | 772/10696 [32:49<1:23:39,  1.98it/s]  7%|▋         | 773/10696 [32:50<1:23:23,  1.98it/s]  7%|▋         | 774/10696 [32:50<1:23:10,  1.99it/s]  7%|▋         | 775/10696 [32:51<1:22:51,  2.00it/s]{'loss': 4.7481, 'grad_norm': 0.45637086033821106, 'learning_rate': 0.0007242990654205608, 'epoch': 0.07}
-                                                       7%|▋         | 775/10696 [32:51<1:22:51,  2.00it/s]  7%|▋         | 776/10696 [32:51<1:22:52,  2.00it/s]  7%|▋         | 777/10696 [32:52<1:22:47,  2.00it/s]  7%|▋         | 778/10696 [32:52<1:22:41,  2.00it/s]  7%|▋         | 779/10696 [32:53<1:22:35,  2.00it/s]  7%|▋         | 780/10696 [32:53<1:22:35,  2.00it/s]  7%|▋         | 781/10696 [32:54<1:22:40,  2.00it/s]  7%|▋         | 782/10696 [32:54<1:22:32,  2.00it/s]  7%|▋         | 783/10696 [32:55<1:22:30,  2.00it/s]  7%|▋         | 784/10696 [32:55<1:22:39,  2.00it/s]  7%|▋         | 785/10696 [32:56<1:22:34,  2.00it/s]  7%|▋         | 786/10696 [32:56<1:22:32,  2.00it/s]  7%|▋         | 787/10696 [32:57<1:22:26,  2.00it/s]  7%|▋         | 788/10696 [32:57<1:22:27,  2.00it/s]  7%|▋         | 789/10696 [32:58<1:22:19,  2.01it/s]  7%|▋         | 790/10696 [32:58<1:22:24,  2.00it/s]  7%|▋         | 791/10696 [32:59<1:22:23,  2.00it/s]  7%|▋         | 792/10696 [32:59<1:22:17,  2.01it/s]  7%|▋         | 793/10696 [33:00<1:22:22,  2.00it/s]  7%|▋         | 794/10696 [33:00<1:22:22,  2.00it/s]  7%|▋         | 795/10696 [33:01<1:22:21,  2.00it/s]  7%|▋         | 796/10696 [33:01<1:22:18,  2.00it/s]  7%|▋         | 797/10696 [33:02<1:22:23,  2.00it/s]  7%|▋         | 798/10696 [33:02<1:22:41,  1.99it/s]  7%|▋         | 799/10696 [33:03<1:22:28,  2.00it/s]  7%|▋         | 800/10696 [33:03<1:22:29,  2.00it/s]{'loss': 4.7184, 'grad_norm': 0.3922598958015442, 'learning_rate': 0.0007476635514018691, 'epoch': 0.07}
-                                                       7%|▋         | 800/10696 [33:03<1:22:29,  2.00it/s]  7%|▋         | 801/10696 [33:04<1:22:23,  2.00it/s]  7%|▋         | 802/10696 [33:04<1:22:25,  2.00it/s]  8%|▊         | 803/10696 [33:05<1:22:18,  2.00it/s]  8%|▊         | 804/10696 [33:05<1:23:39,  1.97it/s]  8%|▊         | 805/10696 [33:06<1:23:15,  1.98it/s]  8%|▊         | 806/10696 [33:06<1:23:24,  1.98it/s]  8%|▊         | 807/10696 [33:07<1:24:16,  1.96it/s]  8%|▊         | 808/10696 [33:07<1:23:39,  1.97it/s]  8%|▊         | 809/10696 [33:08<1:24:28,  1.95it/s]  8%|▊         | 810/10696 [33:08<1:23:46,  1.97it/s]  8%|▊         | 811/10696 [33:09<1:23:16,  1.98it/s]  8%|▊         | 812/10696 [33:09<1:23:43,  1.97it/s]  8%|▊         | 813/10696 [33:10<1:24:09,  1.96it/s]  8%|▊         | 814/10696 [33:10<1:23:23,  1.97it/s]  8%|▊         | 815/10696 [33:11<1:23:08,  1.98it/s]  8%|▊         | 816/10696 [33:11<1:22:44,  1.99it/s]  8%|▊         | 817/10696 [33:12<1:23:54,  1.96it/s]  8%|▊         | 818/10696 [33:12<1:23:22,  1.97it/s]  8%|▊         | 819/10696 [33:13<1:23:01,  1.98it/s]  8%|▊         | 820/10696 [33:13<1:22:45,  1.99it/s]  8%|▊         | 821/10696 [33:14<1:22:34,  1.99it/s]  8%|▊         | 822/10696 [33:14<1:22:26,  2.00it/s]  8%|▊         | 823/10696 [33:15<1:22:19,  2.00it/s]  8%|▊         | 824/10696 [33:15<1:22:13,  2.00it/s]  8%|▊         | 825/10696 [33:16<1:22:06,  2.00it/s]                                                     {'loss': 4.6914, 'grad_norm': 0.3979177176952362, 'learning_rate': 0.0007710280373831776, 'epoch': 0.08}
-  8%|▊         | 825/10696 [33:16<1:22:06,  2.00it/s]  8%|▊         | 826/10696 [33:16<1:22:13,  2.00it/s]  8%|▊         | 827/10696 [33:17<1:22:12,  2.00it/s]  8%|▊         | 828/10696 [33:17<1:22:06,  2.00it/s]  8%|▊         | 829/10696 [33:18<1:22:05,  2.00it/s]  8%|▊         | 830/10696 [33:18<1:22:03,  2.00it/s]  8%|▊         | 831/10696 [33:19<1:22:15,  2.00it/s]  8%|▊         | 832/10696 [33:19<1:22:08,  2.00it/s]  8%|▊         | 833/10696 [33:20<1:22:02,  2.00it/s]  8%|▊         | 834/10696 [33:20<1:22:03,  2.00it/s]  8%|▊         | 835/10696 [33:21<1:22:12,  2.00it/s]  8%|▊         | 836/10696 [33:21<1:22:11,  2.00it/s]  8%|▊         | 837/10696 [33:22<1:21:58,  2.00it/s]  8%|▊         | 838/10696 [33:22<1:21:58,  2.00it/s]  8%|▊         | 839/10696 [33:23<1:21:58,  2.00it/s]  8%|▊         | 840/10696 [33:23<1:21:52,  2.01it/s]  8%|▊         | 841/10696 [33:24<1:21:51,  2.01it/s]  8%|▊         | 842/10696 [33:24<1:21:54,  2.01it/s]  8%|▊         | 843/10696 [33:25<1:21:51,  2.01it/s]  8%|▊         | 844/10696 [33:25<1:21:54,  2.00it/s]  8%|▊         | 845/10696 [33:26<1:21:52,  2.01it/s]  8%|▊         | 846/10696 [33:26<1:21:56,  2.00it/s]  8%|▊         | 847/10696 [33:27<1:21:53,  2.00it/s]  8%|▊         | 848/10696 [33:27<1:21:55,  2.00it/s]  8%|▊         | 849/10696 [33:28<1:21:49,  2.01it/s]  8%|▊         | 850/10696 [33:28<1:21:48,  2.01it/s]{'loss': 4.6732, 'grad_norm': 0.36249518394470215, 'learning_rate': 0.000794392523364486, 'epoch': 0.08}
-                                                       8%|▊         | 850/10696 [33:28<1:21:48,  2.01it/s]  8%|▊         | 851/10696 [33:29<1:21:52,  2.00it/s]  8%|▊         | 852/10696 [33:29<1:21:53,  2.00it/s]  8%|▊         | 853/10696 [33:30<1:21:51,  2.00it/s]  8%|▊         | 854/10696 [33:30<1:21:52,  2.00it/s]  8%|▊         | 855/10696 [33:31<1:21:47,  2.01it/s]  8%|▊         | 856/10696 [33:31<1:21:48,  2.00it/s]  8%|▊         | 857/10696 [33:32<1:21:50,  2.00it/s]  8%|▊         | 858/10696 [33:32<1:21:48,  2.00it/s]  8%|▊         | 859/10696 [33:33<1:21:45,  2.01it/s]  8%|▊         | 860/10696 [33:33<1:21:42,  2.01it/s]  8%|▊         | 861/10696 [33:34<1:21:42,  2.01it/s]  8%|▊         | 862/10696 [33:34<1:21:44,  2.00it/s]  8%|▊         | 863/10696 [33:35<1:21:42,  2.01it/s]  8%|▊         | 864/10696 [33:35<1:21:46,  2.00it/s]  8%|▊         | 865/10696 [33:36<1:21:51,  2.00it/s]  8%|▊         | 866/10696 [33:36<1:21:53,  2.00it/s]  8%|▊         | 867/10696 [33:37<1:22:56,  1.98it/s]  8%|▊         | 868/10696 [33:37<1:22:36,  1.98it/s]  8%|▊         | 869/10696 [33:38<1:23:18,  1.97it/s]  8%|▊         | 870/10696 [33:38<1:22:46,  1.98it/s]  8%|▊         | 871/10696 [33:39<1:22:25,  1.99it/s]  8%|▊         | 872/10696 [33:39<1:22:09,  1.99it/s]  8%|▊         | 873/10696 [33:40<1:23:00,  1.97it/s]  8%|▊         | 874/10696 [33:40<1:22:39,  1.98it/s]  8%|▊         | 875/10696 [33:41<1:22:20,  1.99it/s]{'loss': 4.6438, 'grad_norm': 0.4150794446468353, 'learning_rate': 0.0008177570093457944, 'epoch': 0.08}                                                     
-  8%|▊         | 875/10696 [33:41<1:22:20,  1.99it/s]  8%|▊         | 876/10696 [33:41<1:22:04,  1.99it/s]  8%|▊         | 877/10696 [33:42<1:22:00,  2.00it/s]  8%|▊         | 878/10696 [33:42<1:21:53,  2.00it/s]  8%|▊         | 879/10696 [33:43<1:21:44,  2.00it/s]  8%|▊         | 880/10696 [33:43<1:21:39,  2.00it/s]  8%|▊         | 881/10696 [33:44<1:21:34,  2.01it/s]  8%|▊         | 882/10696 [33:44<1:21:29,  2.01it/s]  8%|▊         | 883/10696 [33:45<1:21:28,  2.01it/s]  8%|▊         | 884/10696 [33:45<1:21:36,  2.00it/s]  8%|▊         | 885/10696 [33:46<1:21:28,  2.01it/s]  8%|▊         | 886/10696 [33:46<1:21:25,  2.01it/s]  8%|▊         | 887/10696 [33:47<1:21:38,  2.00it/s]  8%|▊         | 888/10696 [33:47<1:21:35,  2.00it/s]  8%|▊         | 889/10696 [33:48<1:22:18,  1.99it/s]  8%|▊         | 890/10696 [33:48<1:22:03,  1.99it/s]  8%|▊         | 891/10696 [33:49<1:22:05,  1.99it/s]  8%|▊         | 892/10696 [33:49<1:21:55,  1.99it/s]  8%|▊         | 893/10696 [33:50<1:21:40,  2.00it/s]  8%|▊         | 894/10696 [33:50<1:21:39,  2.00it/s]  8%|▊         | 895/10696 [33:51<1:21:33,  2.00it/s]  8%|▊         | 896/10696 [33:51<1:21:32,  2.00it/s]  8%|▊         | 897/10696 [33:52<1:21:26,  2.01it/s]  8%|▊         | 898/10696 [33:52<1:21:27,  2.00it/s]  8%|▊         | 899/10696 [33:53<1:21:24,  2.01it/s]  8%|▊         | 900/10696 [33:53<1:21:21,  2.01it/s]                                                     {'loss': 4.6215, 'grad_norm': 0.3325541913509369, 'learning_rate': 0.0008411214953271028, 'epoch': 0.08}
-  8%|▊         | 900/10696 [33:53<1:21:21,  2.01it/s]  8%|▊         | 901/10696 [33:54<1:21:33,  2.00it/s]  8%|▊         | 902/10696 [33:54<1:21:34,  2.00it/s]  8%|▊         | 903/10696 [33:55<1:22:27,  1.98it/s]  8%|▊         | 904/10696 [33:55<1:22:06,  1.99it/s]  8%|▊         | 905/10696 [33:56<1:22:00,  1.99it/s]  8%|▊         | 906/10696 [33:56<1:21:58,  1.99it/s]  8%|▊         | 907/10696 [33:57<1:21:45,  2.00it/s]  8%|▊         | 908/10696 [33:57<1:21:32,  2.00it/s]  8%|▊         | 909/10696 [33:58<1:21:28,  2.00it/s]  9%|▊         | 910/10696 [33:58<1:21:29,  2.00it/s]  9%|▊         | 911/10696 [33:59<1:21:42,  2.00it/s]  9%|▊         | 912/10696 [33:59<1:21:34,  2.00it/s]  9%|▊         | 913/10696 [34:00<1:21:27,  2.00it/s]  9%|▊         | 914/10696 [34:00<1:21:27,  2.00it/s]  9%|▊         | 915/10696 [34:01<1:21:18,  2.00it/s]  9%|▊         | 916/10696 [34:01<1:21:16,  2.01it/s]  9%|▊         | 917/10696 [34:02<1:21:19,  2.00it/s]  9%|▊         | 918/10696 [34:02<1:21:20,  2.00it/s]  9%|▊         | 919/10696 [34:03<1:21:23,  2.00it/s]  9%|▊         | 920/10696 [34:03<1:21:19,  2.00it/s]  9%|▊         | 921/10696 [34:04<1:21:28,  2.00it/s]  9%|▊         | 922/10696 [34:04<1:21:28,  2.00it/s]  9%|▊         | 923/10696 [34:05<1:21:25,  2.00it/s]  9%|▊         | 924/10696 [34:05<1:21:29,  2.00it/s]  9%|▊         | 925/10696 [34:06<1:22:29,  1.97it/s]{'loss': 4.606, 'grad_norm': 0.39179226756095886, 'learning_rate': 0.0008644859813084113, 'epoch': 0.09}
-                                                       9%|▊         | 925/10696 [34:06<1:22:29,  1.97it/s]  9%|▊         | 926/10696 [34:06<1:22:07,  1.98it/s]  9%|▊         | 927/10696 [34:07<1:21:44,  1.99it/s]  9%|▊         | 928/10696 [34:07<1:21:37,  1.99it/s]  9%|▊         | 929/10696 [34:08<1:21:25,  2.00it/s]  9%|▊         | 930/10696 [34:08<1:21:20,  2.00it/s]  9%|▊         | 931/10696 [34:09<1:21:14,  2.00it/s]  9%|▊         | 932/10696 [34:09<1:21:12,  2.00it/s]  9%|▊         | 933/10696 [34:10<1:21:13,  2.00it/s]  9%|▊         | 934/10696 [34:10<1:21:06,  2.01it/s]  9%|▊         | 935/10696 [34:11<1:21:11,  2.00it/s]  9%|▉         | 936/10696 [34:11<1:21:05,  2.01it/s]  9%|▉         | 937/10696 [34:12<1:21:00,  2.01it/s]  9%|▉         | 938/10696 [34:12<1:21:02,  2.01it/s]  9%|▉         | 939/10696 [34:13<1:20:56,  2.01it/s]  9%|▉         | 940/10696 [34:13<1:22:30,  1.97it/s]  9%|▉         | 941/10696 [34:14<1:21:57,  1.98it/s]  9%|▉         | 942/10696 [34:14<1:22:37,  1.97it/s]  9%|▉         | 943/10696 [34:15<1:22:02,  1.98it/s]  9%|▉         | 944/10696 [34:15<1:21:39,  1.99it/s]  9%|▉         | 945/10696 [34:16<1:21:32,  1.99it/s]  9%|▉         | 946/10696 [34:16<1:21:18,  2.00it/s]  9%|▉         | 947/10696 [34:17<1:22:28,  1.97it/s]  9%|▉         | 948/10696 [34:17<1:21:55,  1.98it/s]  9%|▉         | 949/10696 [34:18<1:21:38,  1.99it/s]  9%|▉         | 950/10696 [34:18<1:21:29,  1.99it/s]{'loss': 4.5786, 'grad_norm': 0.35807397961616516, 'learning_rate': 0.0008878504672897196, 'epoch': 0.09}
-                                                       9%|▉         | 950/10696 [34:18<1:21:29,  1.99it/s]  9%|▉         | 951/10696 [34:19<1:21:19,  2.00it/s]  9%|▉         | 952/10696 [34:19<1:22:08,  1.98it/s]  9%|▉         | 953/10696 [34:20<1:21:42,  1.99it/s]  9%|▉         | 954/10696 [34:20<1:21:24,  1.99it/s]  9%|▉         | 955/10696 [34:21<1:21:11,  2.00it/s]  9%|▉         | 956/10696 [34:21<1:21:09,  2.00it/s]  9%|▉         | 957/10696 [34:22<1:21:01,  2.00it/s]  9%|▉         | 958/10696 [34:22<1:20:56,  2.01it/s]  9%|▉         | 959/10696 [34:23<1:20:54,  2.01it/s]  9%|▉         | 960/10696 [34:23<1:20:46,  2.01it/s]  9%|▉         | 961/10696 [34:24<1:20:50,  2.01it/s]  9%|▉         | 962/10696 [34:24<1:20:45,  2.01it/s]  9%|▉         | 963/10696 [34:25<1:21:41,  1.99it/s]  9%|▉         | 964/10696 [34:25<1:21:23,  1.99it/s]  9%|▉         | 965/10696 [34:26<1:21:03,  2.00it/s]  9%|▉         | 966/10696 [34:26<1:20:58,  2.00it/s]  9%|▉         | 967/10696 [34:27<1:20:52,  2.01it/s]  9%|▉         | 968/10696 [34:27<1:20:47,  2.01it/s]  9%|▉         | 969/10696 [34:28<1:20:45,  2.01it/s]  9%|▉         | 970/10696 [34:28<1:21:42,  1.98it/s]  9%|▉         | 971/10696 [34:29<1:21:20,  1.99it/s]  9%|▉         | 972/10696 [34:29<1:21:08,  2.00it/s]  9%|▉         | 973/10696 [34:30<1:20:55,  2.00it/s]  9%|▉         | 974/10696 [34:30<1:22:18,  1.97it/s]  9%|▉         | 975/10696 [34:31<1:21:44,  1.98it/s]{'loss': 4.5615, 'grad_norm': 0.31982389092445374, 'learning_rate': 0.0009112149532710281, 'epoch': 0.09}
-                                                       9%|▉         | 975/10696 [34:31<1:21:44,  1.98it/s]  9%|▉         | 976/10696 [34:31<1:21:36,  1.99it/s]  9%|▉         | 977/10696 [34:32<1:21:24,  1.99it/s]  9%|▉         | 978/10696 [34:32<1:21:06,  2.00it/s]  9%|▉         | 979/10696 [34:33<1:20:59,  2.00it/s]  9%|▉         | 980/10696 [34:33<1:20:56,  2.00it/s]  9%|▉         | 981/10696 [34:34<1:20:43,  2.01it/s]  9%|▉         | 982/10696 [34:34<1:20:40,  2.01it/s]  9%|▉         | 983/10696 [34:35<1:20:32,  2.01it/s]  9%|▉         | 984/10696 [34:35<1:20:33,  2.01it/s]  9%|▉         | 985/10696 [34:36<1:20:35,  2.01it/s]  9%|▉         | 986/10696 [34:36<1:20:34,  2.01it/s]  9%|▉         | 987/10696 [34:37<1:20:36,  2.01it/s]  9%|▉         | 988/10696 [34:37<1:20:33,  2.01it/s]  9%|▉         | 989/10696 [34:38<1:20:28,  2.01it/s]  9%|▉         | 990/10696 [34:38<1:20:30,  2.01it/s]  9%|▉         | 991/10696 [34:39<1:20:29,  2.01it/s]  9%|▉         | 992/10696 [34:39<1:20:24,  2.01it/s]  9%|▉         | 993/10696 [34:40<1:20:34,  2.01it/s]  9%|▉         | 994/10696 [34:40<1:20:24,  2.01it/s]  9%|▉         | 995/10696 [34:41<1:20:22,  2.01it/s]  9%|▉         | 996/10696 [34:41<1:20:24,  2.01it/s]  9%|▉         | 997/10696 [34:42<1:20:20,  2.01it/s]  9%|▉         | 998/10696 [34:42<1:20:22,  2.01it/s]  9%|▉         | 999/10696 [34:43<1:20:21,  2.01it/s]  9%|▉         | 1000/10696 [34:43<1:20:20,  2.01it/s]{'loss': 4.5512, 'grad_norm': 0.3292008936405182, 'learning_rate': 0.0009345794392523365, 'epoch': 0.09}
-                                                        9%|▉         | 1000/10696 [34:43<1:20:20,  2.01it/s]  9%|▉         | 1001/10696 [34:44<1:20:29,  2.01it/s]  9%|▉         | 1002/10696 [34:44<1:21:26,  1.98it/s]  9%|▉         | 1003/10696 [34:45<1:21:05,  1.99it/s]  9%|▉         | 1004/10696 [34:45<1:20:50,  2.00it/s]  9%|▉         | 1005/10696 [34:46<1:20:36,  2.00it/s]  9%|▉         | 1006/10696 [34:46<1:20:32,  2.01it/s]  9%|▉         | 1007/10696 [34:47<1:20:39,  2.00it/s]  9%|▉         | 1008/10696 [34:47<1:20:33,  2.00it/s]  9%|▉         | 1009/10696 [34:48<1:21:31,  1.98it/s]  9%|▉         | 1010/10696 [34:48<1:21:08,  1.99it/s]  9%|▉         | 1011/10696 [34:49<1:20:50,  2.00it/s]  9%|▉         | 1012/10696 [34:49<1:20:42,  2.00it/s]  9%|▉         | 1013/10696 [34:50<1:20:34,  2.00it/s]  9%|▉         | 1014/10696 [34:50<1:20:28,  2.01it/s]  9%|▉         | 1015/10696 [34:51<1:20:24,  2.01it/s]  9%|▉         | 1016/10696 [34:51<1:20:21,  2.01it/s] 10%|▉         | 1017/10696 [34:52<1:20:19,  2.01it/s] 10%|▉         | 1018/10696 [34:52<1:20:11,  2.01it/s] 10%|▉         | 1019/10696 [34:53<1:20:12,  2.01it/s] 10%|▉         | 1020/10696 [34:53<1:20:09,  2.01it/s] 10%|▉         | 1021/10696 [34:54<1:20:10,  2.01it/s] 10%|▉         | 1022/10696 [34:54<1:20:10,  2.01it/s] 10%|▉         | 1023/10696 [34:55<1:20:14,  2.01it/s] 10%|▉         | 1024/10696 [34:55<1:20:12,  2.01it/s] 10%|▉         | 1025/10696 [34:56<1:20:11,  2.01it/s]                                                      {'loss': 4.5261, 'grad_norm': 0.3472473621368408, 'learning_rate': 0.000957943925233645, 'epoch': 0.1}
- 10%|▉         | 1025/10696 [34:56<1:20:11,  2.01it/s] 10%|▉         | 1026/10696 [34:56<1:20:12,  2.01it/s] 10%|▉         | 1027/10696 [34:57<1:20:13,  2.01it/s] 10%|▉         | 1028/10696 [34:57<1:20:10,  2.01it/s] 10%|▉         | 1029/10696 [34:58<1:21:17,  1.98it/s] 10%|▉         | 1030/10696 [34:58<1:20:58,  1.99it/s] 10%|▉         | 1031/10696 [34:59<1:20:46,  1.99it/s] 10%|▉         | 1032/10696 [34:59<1:20:28,  2.00it/s] 10%|▉         | 1033/10696 [35:00<1:20:24,  2.00it/s] 10%|▉         | 1034/10696 [35:00<1:20:15,  2.01it/s] 10%|▉         | 1035/10696 [35:01<1:20:10,  2.01it/s] 10%|▉         | 1036/10696 [35:01<1:20:14,  2.01it/s] 10%|▉         | 1037/10696 [35:02<1:20:11,  2.01it/s] 10%|▉         | 1038/10696 [35:02<1:20:09,  2.01it/s] 10%|▉         | 1039/10696 [35:03<1:20:13,  2.01it/s] 10%|▉         | 1040/10696 [35:03<1:20:09,  2.01it/s] 10%|▉         | 1041/10696 [35:04<1:20:06,  2.01it/s] 10%|▉         | 1042/10696 [35:04<1:33:14,  1.73it/s] 10%|▉         | 1043/10696 [35:05<1:29:18,  1.80it/s] 10%|▉         | 1044/10696 [35:05<1:26:29,  1.86it/s] 10%|▉         | 1045/10696 [35:06<1:24:33,  1.90it/s] 10%|▉         | 1046/10696 [35:06<1:23:14,  1.93it/s] 10%|▉         | 1047/10696 [35:07<1:22:14,  1.96it/s] 10%|▉         | 1048/10696 [35:08<1:34:57,  1.69it/s] 10%|▉         | 1049/10696 [35:08<1:30:24,  1.78it/s] 10%|▉         | 1050/10696 [35:09<1:27:12,  1.84it/s]{'loss': 4.4999, 'grad_norm': 0.3095991313457489, 'learning_rate': 0.0009813084112149533, 'epoch': 0.1}
-                                                       10%|▉         | 1050/10696 [35:09<1:27:12,  1.84it/s] 10%|▉         | 1051/10696 [35:09<1:25:12,  1.89it/s] 10%|▉         | 1052/10696 [35:10<1:23:35,  1.92it/s] 10%|▉         | 1053/10696 [35:10<1:22:31,  1.95it/s] 10%|▉         | 1054/10696 [35:11<1:21:49,  1.96it/s] 10%|▉         | 1055/10696 [35:11<1:21:15,  1.98it/s] 10%|▉         | 1056/10696 [35:12<1:20:52,  1.99it/s] 10%|▉         | 1057/10696 [35:12<1:20:32,  1.99it/s] 10%|▉         | 1058/10696 [35:13<1:20:17,  2.00it/s] 10%|▉         | 1059/10696 [35:13<1:20:12,  2.00it/s] 10%|▉         | 1060/10696 [35:14<1:20:02,  2.01it/s] 10%|▉         | 1061/10696 [35:14<1:19:59,  2.01it/s] 10%|▉         | 1062/10696 [35:15<1:20:00,  2.01it/s] 10%|▉         | 1063/10696 [35:15<1:19:56,  2.01it/s] 10%|▉         | 1064/10696 [35:16<1:19:51,  2.01it/s] 10%|▉         | 1065/10696 [35:16<1:19:46,  2.01it/s] 10%|▉         | 1066/10696 [35:17<1:19:48,  2.01it/s] 10%|▉         | 1067/10696 [35:17<1:19:51,  2.01it/s] 10%|▉         | 1068/10696 [35:18<1:19:46,  2.01it/s] 10%|▉         | 1069/10696 [35:18<1:19:47,  2.01it/s] 10%|█         | 1070/10696 [35:19<1:19:47,  2.01it/s] 10%|█         | 1071/10696 [35:19<1:19:46,  2.01it/s] 10%|█         | 1072/10696 [35:20<1:19:47,  2.01it/s] 10%|█         | 1073/10696 [35:20<1:19:47,  2.01it/s] 10%|█         | 1074/10696 [35:21<1:19:44,  2.01it/s] 10%|█         | 1075/10696 [35:21<1:19:45,  2.01it/s]                                                      {'loss': 4.482, 'grad_norm': 0.32362473011016846, 'learning_rate': 0.0009999993342855993, 'epoch': 0.1}
- 10%|█         | 1075/10696 [35:21<1:19:45,  2.01it/s] 10%|█         | 1076/10696 [35:22<1:19:43,  2.01it/s] 10%|█         | 1077/10696 [35:22<1:19:43,  2.01it/s] 10%|█         | 1078/10696 [35:23<1:19:44,  2.01it/s] 10%|█         | 1079/10696 [35:23<1:19:42,  2.01it/s] 10%|█         | 1080/10696 [35:24<1:19:47,  2.01it/s] 10%|█         | 1081/10696 [35:24<1:19:40,  2.01it/s] 10%|█         | 1082/10696 [35:25<1:19:43,  2.01it/s] 10%|█         | 1083/10696 [35:25<1:19:39,  2.01it/s] 10%|█         | 1084/10696 [35:26<1:19:37,  2.01it/s] 10%|█         | 1085/10696 [35:26<1:19:36,  2.01it/s] 10%|█         | 1086/10696 [35:27<1:19:37,  2.01it/s] 10%|█         | 1087/10696 [35:27<1:19:38,  2.01it/s] 10%|█         | 1088/10696 [35:28<1:19:39,  2.01it/s] 10%|█         | 1089/10696 [35:28<1:19:33,  2.01it/s] 10%|█         | 1090/10696 [35:29<1:19:35,  2.01it/s] 10%|█         | 1091/10696 [35:29<1:19:32,  2.01it/s] 10%|█         | 1092/10696 [35:30<1:19:35,  2.01it/s] 10%|█         | 1093/10696 [35:30<1:19:42,  2.01it/s] 10%|█         | 1094/10696 [35:31<1:19:39,  2.01it/s] 10%|█         | 1095/10696 [35:31<1:19:35,  2.01it/s] 10%|█         | 1096/10696 [35:32<1:19:38,  2.01it/s] 10%|█         | 1097/10696 [35:32<1:19:34,  2.01it/s] 10%|█         | 1098/10696 [35:33<1:19:34,  2.01it/s] 10%|█         | 1099/10696 [35:33<1:19:30,  2.01it/s] 10%|█         | 1100/10696 [35:34<1:19:31,  2.01it/s]                                                      {'loss': 4.4671, 'grad_norm': 0.3064156770706177, 'learning_rate': 0.0009999760344677087, 'epoch': 0.1}
- 10%|█         | 1100/10696 [35:34<1:19:31,  2.01it/s] 10%|█         | 1101/10696 [35:34<1:19:41,  2.01it/s] 10%|█         | 1102/10696 [35:35<1:19:34,  2.01it/s] 10%|█         | 1103/10696 [35:35<1:19:32,  2.01it/s] 10%|█         | 1104/10696 [35:36<1:19:31,  2.01it/s] 10%|█         | 1105/10696 [35:36<1:20:35,  1.98it/s] 10%|█         | 1106/10696 [35:37<1:21:12,  1.97it/s] 10%|█         | 1107/10696 [35:37<1:21:53,  1.95it/s] 10%|█         | 1108/10696 [35:38<1:21:08,  1.97it/s] 10%|█         | 1109/10696 [35:38<1:20:33,  1.98it/s] 10%|█         | 1110/10696 [35:39<1:20:15,  1.99it/s] 10%|█         | 1111/10696 [35:39<1:19:55,  2.00it/s] 10%|█         | 1112/10696 [35:40<1:19:48,  2.00it/s] 10%|█         | 1113/10696 [35:40<1:19:45,  2.00it/s] 10%|█         | 1114/10696 [35:41<1:19:40,  2.00it/s] 10%|█         | 1115/10696 [35:41<1:19:36,  2.01it/s] 10%|█         | 1116/10696 [35:42<1:19:35,  2.01it/s] 10%|█         | 1117/10696 [35:42<1:19:34,  2.01it/s] 10%|█         | 1118/10696 [35:43<1:19:28,  2.01it/s] 10%|█         | 1119/10696 [35:43<1:19:32,  2.01it/s] 10%|█         | 1120/10696 [35:44<1:19:27,  2.01it/s] 10%|█         | 1121/10696 [35:44<1:19:28,  2.01it/s] 10%|█         | 1122/10696 [35:45<1:19:23,  2.01it/s] 10%|█         | 1123/10696 [35:45<1:19:26,  2.01it/s] 11%|█         | 1124/10696 [35:46<1:19:30,  2.01it/s] 11%|█         | 1125/10696 [35:46<1:19:28,  2.01it/s]{'loss': 4.4551, 'grad_norm': 0.3168938457965851, 'learning_rate': 0.0009999194507024653, 'epoch': 0.11}
-                                                       11%|█         | 1125/10696 [35:46<1:19:28,  2.01it/s] 11%|█         | 1126/10696 [35:47<1:19:28,  2.01it/s] 11%|█         | 1127/10696 [35:47<1:19:27,  2.01it/s] 11%|█         | 1128/10696 [35:48<1:19:24,  2.01it/s] 11%|█         | 1129/10696 [35:48<1:19:22,  2.01it/s] 11%|█         | 1130/10696 [35:49<1:20:31,  1.98it/s] 11%|█         | 1131/10696 [35:49<1:20:06,  1.99it/s] 11%|█         | 1132/10696 [35:50<1:19:45,  2.00it/s] 11%|█         | 1133/10696 [35:50<1:19:35,  2.00it/s] 11%|█         | 1134/10696 [35:51<1:19:29,  2.00it/s] 11%|█         | 1135/10696 [35:51<1:19:30,  2.00it/s] 11%|█         | 1136/10696 [35:52<1:19:24,  2.01it/s] 11%|█         | 1137/10696 [35:52<1:19:15,  2.01it/s] 11%|█         | 1138/10696 [35:53<1:19:17,  2.01it/s] 11%|█         | 1139/10696 [35:53<1:19:14,  2.01it/s] 11%|█         | 1140/10696 [35:54<1:19:15,  2.01it/s] 11%|█         | 1141/10696 [35:54<1:19:16,  2.01it/s] 11%|█         | 1142/10696 [35:55<1:19:15,  2.01it/s] 11%|█         | 1143/10696 [35:55<1:20:03,  1.99it/s] 11%|█         | 1144/10696 [35:56<1:19:41,  2.00it/s] 11%|█         | 1145/10696 [35:56<1:19:35,  2.00it/s] 11%|█         | 1146/10696 [35:57<1:19:36,  2.00it/s] 11%|█         | 1147/10696 [35:57<1:19:24,  2.00it/s] 11%|█         | 1148/10696 [35:58<1:19:22,  2.00it/s] 11%|█         | 1149/10696 [35:58<1:19:17,  2.01it/s] 11%|█         | 1150/10696 [35:59<1:19:11,  2.01it/s]{'loss': 4.4272, 'grad_norm': 0.2756589651107788, 'learning_rate': 0.0009998295867567123, 'epoch': 0.11}
-                                                       11%|█         | 1150/10696 [35:59<1:19:11,  2.01it/s] 11%|█         | 1151/10696 [35:59<1:20:14,  1.98it/s] 11%|█         | 1152/10696 [36:00<1:19:51,  1.99it/s] 11%|█         | 1153/10696 [36:00<1:19:36,  2.00it/s] 11%|█         | 1154/10696 [36:01<1:19:24,  2.00it/s] 11%|█         | 1155/10696 [36:01<1:19:22,  2.00it/s] 11%|█         | 1156/10696 [36:02<1:19:17,  2.01it/s] 11%|█         | 1157/10696 [36:02<1:19:09,  2.01it/s] 11%|█         | 1158/10696 [36:03<1:19:09,  2.01it/s] 11%|█         | 1159/10696 [36:03<1:19:07,  2.01it/s] 11%|█         | 1160/10696 [36:04<1:19:02,  2.01it/s] 11%|█         | 1161/10696 [36:04<1:19:06,  2.01it/s] 11%|█         | 1162/10696 [36:05<1:18:59,  2.01it/s] 11%|█         | 1163/10696 [36:05<1:18:58,  2.01it/s] 11%|█         | 1164/10696 [36:06<1:19:02,  2.01it/s] 11%|█         | 1165/10696 [36:06<1:18:59,  2.01it/s] 11%|█         | 1166/10696 [36:07<1:19:55,  1.99it/s] 11%|█         | 1167/10696 [36:07<1:19:38,  1.99it/s] 11%|█         | 1168/10696 [36:08<1:20:23,  1.98it/s] 11%|█         | 1169/10696 [36:08<1:19:59,  1.99it/s] 11%|█         | 1170/10696 [36:09<1:19:36,  1.99it/s] 11%|█         | 1171/10696 [36:09<1:19:29,  2.00it/s] 11%|█         | 1172/10696 [36:10<1:19:23,  2.00it/s] 11%|█         | 1173/10696 [36:10<1:19:11,  2.00it/s] 11%|█         | 1174/10696 [36:11<1:19:12,  2.00it/s] 11%|█         | 1175/10696 [36:11<1:19:13,  2.00it/s]{'loss': 4.4009, 'grad_norm': 0.3576938807964325, 'learning_rate': 0.0009997064486127894, 'epoch': 0.11}
-                                                       11%|█         | 1175/10696 [36:11<1:19:13,  2.00it/s] 11%|█         | 1176/10696 [36:12<1:19:12,  2.00it/s] 11%|█         | 1177/10696 [36:12<1:19:08,  2.00it/s] 11%|█         | 1178/10696 [36:13<1:19:05,  2.01it/s] 11%|█         | 1179/10696 [36:13<1:19:01,  2.01it/s] 11%|█         | 1180/10696 [36:14<1:18:55,  2.01it/s] 11%|█         | 1181/10696 [36:14<1:18:54,  2.01it/s] 11%|█         | 1182/10696 [36:15<1:18:50,  2.01it/s] 11%|█         | 1183/10696 [36:15<1:18:52,  2.01it/s] 11%|█         | 1184/10696 [36:16<1:18:49,  2.01it/s] 11%|█         | 1185/10696 [36:16<1:18:46,  2.01it/s] 11%|█         | 1186/10696 [36:17<1:18:48,  2.01it/s] 11%|█         | 1187/10696 [36:17<1:18:51,  2.01it/s] 11%|█         | 1188/10696 [36:18<1:18:49,  2.01it/s] 11%|█         | 1189/10696 [36:18<1:18:46,  2.01it/s] 11%|█         | 1190/10696 [36:18<1:18:42,  2.01it/s] 11%|█         | 1191/10696 [36:19<1:18:42,  2.01it/s] 11%|█         | 1192/10696 [36:19<1:18:38,  2.01it/s] 11%|█         | 1193/10696 [36:20<1:18:42,  2.01it/s] 11%|█         | 1194/10696 [36:20<1:18:41,  2.01it/s] 11%|█         | 1195/10696 [36:21<1:18:42,  2.01it/s] 11%|█         | 1196/10696 [36:21<1:18:43,  2.01it/s] 11%|█         | 1197/10696 [36:22<1:18:47,  2.01it/s] 11%|█         | 1198/10696 [36:22<1:18:47,  2.01it/s] 11%|█         | 1199/10696 [36:23<1:18:49,  2.01it/s] 11%|█         | 1200/10696 [36:23<1:18:46,  2.01it/s]                                                      {'loss': 4.3888, 'grad_norm': 0.2892473042011261, 'learning_rate': 0.000999550044468137, 'epoch': 0.11}
- 11%|█         | 1200/10696 [36:23<1:18:46,  2.01it/s] 11%|█         | 1201/10696 [36:24<1:18:49,  2.01it/s] 11%|█         | 1202/10696 [36:24<1:18:43,  2.01it/s] 11%|█         | 1203/10696 [36:25<1:18:43,  2.01it/s] 11%|█▏        | 1204/10696 [36:25<1:18:34,  2.01it/s] 11%|█▏        | 1205/10696 [36:26<1:18:39,  2.01it/s] 11%|█▏        | 1206/10696 [36:26<1:18:41,  2.01it/s] 11%|█▏        | 1207/10696 [36:27<1:18:37,  2.01it/s] 11%|█▏        | 1208/10696 [36:27<1:18:37,  2.01it/s] 11%|█▏        | 1209/10696 [36:28<1:18:35,  2.01it/s] 11%|█▏        | 1210/10696 [36:28<1:18:34,  2.01it/s] 11%|█▏        | 1211/10696 [36:29<1:18:36,  2.01it/s] 11%|█▏        | 1212/10696 [36:29<1:18:38,  2.01it/s] 11%|█▏        | 1213/10696 [36:30<1:18:36,  2.01it/s] 11%|█▏        | 1214/10696 [36:30<1:18:50,  2.00it/s] 11%|█▏        | 1215/10696 [36:31<1:18:47,  2.01it/s] 11%|█▏        | 1216/10696 [36:31<1:18:39,  2.01it/s] 11%|█▏        | 1217/10696 [36:32<1:18:37,  2.01it/s] 11%|█▏        | 1218/10696 [36:32<1:18:39,  2.01it/s] 11%|█▏        | 1219/10696 [36:33<1:18:35,  2.01it/s] 11%|█▏        | 1220/10696 [36:33<1:18:39,  2.01it/s] 11%|█▏        | 1221/10696 [36:34<1:18:36,  2.01it/s] 11%|█▏        | 1222/10696 [36:34<1:18:31,  2.01it/s] 11%|█▏        | 1223/10696 [36:35<1:18:37,  2.01it/s] 11%|█▏        | 1224/10696 [36:35<1:18:35,  2.01it/s] 11%|█▏        | 1225/10696 [36:36<1:18:30,  2.01it/s]                                                      {'loss': 4.3772, 'grad_norm': 0.31722646951675415, 'learning_rate': 0.0009993603847347483, 'epoch': 0.11}
- 11%|█▏        | 1225/10696 [36:36<1:18:30,  2.01it/s] 11%|█▏        | 1226/10696 [36:36<1:18:54,  2.00it/s] 11%|█▏        | 1227/10696 [36:37<1:18:51,  2.00it/s] 11%|█▏        | 1228/10696 [36:37<1:19:57,  1.97it/s] 11%|█▏        | 1229/10696 [36:38<1:19:27,  1.99it/s] 11%|█▏        | 1230/10696 [36:38<1:20:06,  1.97it/s] 12%|█▏        | 1231/10696 [36:39<1:19:34,  1.98it/s] 12%|█▏        | 1232/10696 [36:39<1:19:05,  1.99it/s] 12%|█▏        | 1233/10696 [36:40<1:18:56,  2.00it/s] 12%|█▏        | 1234/10696 [36:40<1:18:44,  2.00it/s] 12%|█▏        | 1235/10696 [36:41<1:18:35,  2.01it/s] 12%|█▏        | 1236/10696 [36:41<1:18:30,  2.01it/s] 12%|█▏        | 1237/10696 [36:42<1:18:24,  2.01it/s] 12%|█▏        | 1238/10696 [36:42<1:18:26,  2.01it/s] 12%|█▏        | 1239/10696 [36:43<1:18:18,  2.01it/s] 12%|█▏        | 1240/10696 [36:43<1:18:16,  2.01it/s] 12%|█▏        | 1241/10696 [36:44<1:18:16,  2.01it/s] 12%|█▏        | 1242/10696 [36:44<1:18:18,  2.01it/s] 12%|█▏        | 1243/10696 [36:45<1:18:16,  2.01it/s] 12%|█▏        | 1244/10696 [36:45<1:18:11,  2.01it/s] 12%|█▏        | 1245/10696 [36:46<1:18:14,  2.01it/s] 12%|█▏        | 1246/10696 [36:46<1:18:14,  2.01it/s] 12%|█▏        | 1247/10696 [36:47<1:18:12,  2.01it/s] 12%|█▏        | 1248/10696 [36:47<1:18:18,  2.01it/s] 12%|█▏        | 1249/10696 [36:48<1:18:16,  2.01it/s] 12%|█▏        | 1250/10696 [36:48<1:18:16,  2.01it/s]{'loss': 4.3578, 'grad_norm': 0.2981230318546295, 'learning_rate': 0.0009991374820384783, 'epoch': 0.12}
-                                                       12%|█▏        | 1250/10696 [36:48<1:18:16,  2.01it/s] 12%|█▏        | 1251/10696 [36:49<1:18:25,  2.01it/s] 12%|█▏        | 1252/10696 [36:49<1:18:16,  2.01it/s] 12%|█▏        | 1253/10696 [36:50<1:18:18,  2.01it/s] 12%|█▏        | 1254/10696 [36:50<1:18:08,  2.01it/s] 12%|█▏        | 1255/10696 [36:51<1:18:59,  1.99it/s] 12%|█▏        | 1256/10696 [36:51<1:18:46,  2.00it/s] 12%|█▏        | 1257/10696 [36:52<1:18:37,  2.00it/s] 12%|█▏        | 1258/10696 [36:52<1:18:29,  2.00it/s] 12%|█▏        | 1259/10696 [36:53<1:18:16,  2.01it/s] 12%|█▏        | 1260/10696 [36:53<1:18:16,  2.01it/s] 12%|█▏        | 1261/10696 [36:54<1:18:13,  2.01it/s] 12%|█▏        | 1262/10696 [36:54<1:18:07,  2.01it/s] 12%|█▏        | 1263/10696 [36:55<1:18:06,  2.01it/s] 12%|█▏        | 1264/10696 [36:55<1:18:01,  2.01it/s] 12%|█▏        | 1265/10696 [36:56<1:18:01,  2.01it/s] 12%|█▏        | 1266/10696 [36:56<1:17:54,  2.02it/s] 12%|█▏        | 1267/10696 [36:57<1:17:56,  2.02it/s] 12%|█▏        | 1268/10696 [36:57<1:17:58,  2.02it/s] 12%|█▏        | 1269/10696 [36:58<1:18:02,  2.01it/s] 12%|█▏        | 1270/10696 [36:58<1:18:03,  2.01it/s] 12%|█▏        | 1271/10696 [36:59<1:18:00,  2.01it/s] 12%|█▏        | 1272/10696 [36:59<1:18:02,  2.01it/s] 12%|█▏        | 1273/10696 [37:00<1:18:04,  2.01it/s] 12%|█▏        | 1274/10696 [37:00<1:18:43,  1.99it/s] 12%|█▏        | 1275/10696 [37:01<1:18:22,  2.00it/s]{'loss': 4.3375, 'grad_norm': 0.26403069496154785, 'learning_rate': 0.000998881351218201, 'epoch': 0.12}
-                                                       12%|█▏        | 1275/10696 [37:01<1:18:22,  2.00it/s] 12%|█▏        | 1276/10696 [37:01<1:18:31,  2.00it/s] 12%|█▏        | 1277/10696 [37:02<1:18:19,  2.00it/s] 12%|█▏        | 1278/10696 [37:02<1:18:15,  2.01it/s] 12%|█▏        | 1279/10696 [37:03<1:18:12,  2.01it/s] 12%|█▏        | 1280/10696 [37:03<1:18:10,  2.01it/s] 12%|█▏        | 1281/10696 [37:04<1:18:03,  2.01it/s] 12%|█▏        | 1282/10696 [37:04<1:17:57,  2.01it/s] 12%|█▏        | 1283/10696 [37:05<1:17:54,  2.01it/s] 12%|█▏        | 1284/10696 [37:05<1:17:56,  2.01it/s] 12%|█▏        | 1285/10696 [37:06<1:17:57,  2.01it/s] 12%|█▏        | 1286/10696 [37:06<1:18:04,  2.01it/s] 12%|█▏        | 1287/10696 [37:07<1:18:00,  2.01it/s] 12%|█▏        | 1288/10696 [37:07<1:17:59,  2.01it/s] 12%|█▏        | 1289/10696 [37:08<1:17:59,  2.01it/s] 12%|█▏        | 1290/10696 [37:08<1:17:57,  2.01it/s] 12%|█▏        | 1291/10696 [37:09<1:17:59,  2.01it/s] 12%|█▏        | 1292/10696 [37:09<1:18:39,  1.99it/s] 12%|█▏        | 1293/10696 [37:10<1:18:27,  2.00it/s] 12%|█▏        | 1294/10696 [37:10<1:18:12,  2.00it/s] 12%|█▏        | 1295/10696 [37:11<1:18:05,  2.01it/s] 12%|█▏        | 1296/10696 [37:11<1:17:56,  2.01it/s] 12%|█▏        | 1297/10696 [37:12<1:17:53,  2.01it/s] 12%|█▏        | 1298/10696 [37:12<1:17:51,  2.01it/s] 12%|█▏        | 1299/10696 [37:13<1:17:45,  2.01it/s] 12%|█▏        | 1300/10696 [37:13<1:17:46,  2.01it/s]{'loss': 4.3271, 'grad_norm': 0.27173084020614624, 'learning_rate': 0.0009985920093248232, 'epoch': 0.12}
-                                                       12%|█▏        | 1300/10696 [37:13<1:17:46,  2.01it/s] 12%|█▏        | 1301/10696 [37:14<1:17:51,  2.01it/s] 12%|█▏        | 1302/10696 [37:14<1:17:53,  2.01it/s] 12%|█▏        | 1303/10696 [37:15<1:17:50,  2.01it/s] 12%|█▏        | 1304/10696 [37:15<1:17:44,  2.01it/s] 12%|█▏        | 1305/10696 [37:16<1:17:46,  2.01it/s] 12%|█▏        | 1306/10696 [37:16<1:17:43,  2.01it/s] 12%|█▏        | 1307/10696 [37:17<1:17:45,  2.01it/s] 12%|█▏        | 1308/10696 [37:17<1:17:41,  2.01it/s] 12%|█▏        | 1309/10696 [37:18<1:17:42,  2.01it/s] 12%|█▏        | 1310/10696 [37:18<1:17:41,  2.01it/s] 12%|█▏        | 1311/10696 [37:19<1:17:37,  2.01it/s] 12%|█▏        | 1312/10696 [37:19<1:19:04,  1.98it/s] 12%|█▏        | 1313/10696 [37:20<1:18:39,  1.99it/s] 12%|█▏        | 1314/10696 [37:20<1:18:18,  2.00it/s] 12%|█▏        | 1315/10696 [37:21<1:18:11,  2.00it/s] 12%|█▏        | 1316/10696 [37:21<1:18:03,  2.00it/s] 12%|█▏        | 1317/10696 [37:22<1:17:53,  2.01it/s] 12%|█▏        | 1318/10696 [37:22<1:17:51,  2.01it/s] 12%|█▏        | 1319/10696 [37:23<1:17:47,  2.01it/s] 12%|█▏        | 1320/10696 [37:23<1:18:29,  1.99it/s] 12%|█▏        | 1321/10696 [37:24<1:18:10,  2.00it/s] 12%|█▏        | 1322/10696 [37:24<1:18:01,  2.00it/s] 12%|█▏        | 1323/10696 [37:25<1:17:50,  2.01it/s] 12%|█▏        | 1324/10696 [37:25<1:17:48,  2.01it/s] 12%|█▏        | 1325/10696 [37:26<1:17:41,  2.01it/s]{'loss': 4.3194, 'grad_norm': 0.2563920319080353, 'learning_rate': 0.0009982694756201491, 'epoch': 0.12}
-                                                       12%|█▏        | 1325/10696 [37:26<1:17:41,  2.01it/s] 12%|█▏        | 1326/10696 [37:26<1:17:42,  2.01it/s] 12%|█▏        | 1327/10696 [37:27<1:17:39,  2.01it/s] 12%|█▏        | 1328/10696 [37:27<1:17:31,  2.01it/s] 12%|█▏        | 1329/10696 [37:28<1:17:34,  2.01it/s] 12%|█▏        | 1330/10696 [37:28<1:17:39,  2.01it/s] 12%|█▏        | 1331/10696 [37:29<1:17:30,  2.01it/s] 12%|█▏        | 1332/10696 [37:29<1:17:30,  2.01it/s] 12%|█▏        | 1333/10696 [37:30<1:17:28,  2.01it/s] 12%|█▏        | 1334/10696 [37:30<1:17:31,  2.01it/s] 12%|█▏        | 1335/10696 [37:31<1:17:26,  2.01it/s] 12%|█▏        | 1336/10696 [37:31<1:17:31,  2.01it/s] 12%|█▎        | 1337/10696 [37:32<1:17:29,  2.01it/s] 13%|█▎        | 1338/10696 [37:32<1:17:31,  2.01it/s] 13%|█▎        | 1339/10696 [37:33<1:17:24,  2.01it/s] 13%|█▎        | 1340/10696 [37:33<1:17:27,  2.01it/s] 13%|█▎        | 1341/10696 [37:34<1:17:25,  2.01it/s] 13%|█▎        | 1342/10696 [37:34<1:17:30,  2.01it/s] 13%|█▎        | 1343/10696 [37:35<1:17:22,  2.01it/s] 13%|█▎        | 1344/10696 [37:35<1:17:24,  2.01it/s] 13%|█▎        | 1345/10696 [37:36<1:17:26,  2.01it/s] 13%|█▎        | 1346/10696 [37:36<1:17:30,  2.01it/s] 13%|█▎        | 1347/10696 [37:37<1:17:29,  2.01it/s] 13%|█▎        | 1348/10696 [37:37<1:17:29,  2.01it/s] 13%|█▎        | 1349/10696 [37:38<1:17:26,  2.01it/s] 13%|█▎        | 1350/10696 [37:38<1:17:22,  2.01it/s]                                                      {'loss': 4.3076, 'grad_norm': 0.257009893655777, 'learning_rate': 0.0009979137715755973, 'epoch': 0.13}
- 13%|█▎        | 1350/10696 [37:38<1:17:22,  2.01it/s] 13%|█▎        | 1351/10696 [37:39<1:17:30,  2.01it/s] 13%|█▎        | 1352/10696 [37:39<1:17:28,  2.01it/s] 13%|█▎        | 1353/10696 [37:40<1:17:27,  2.01it/s] 13%|█▎        | 1354/10696 [37:40<1:17:23,  2.01it/s] 13%|█▎        | 1355/10696 [37:41<1:17:16,  2.01it/s] 13%|█▎        | 1356/10696 [37:41<1:17:16,  2.01it/s] 13%|█▎        | 1357/10696 [37:42<1:17:16,  2.01it/s] 13%|█▎        | 1358/10696 [37:42<1:17:16,  2.01it/s] 13%|█▎        | 1359/10696 [37:43<1:17:17,  2.01it/s] 13%|█▎        | 1360/10696 [37:43<1:17:14,  2.01it/s] 13%|█▎        | 1361/10696 [37:44<1:17:20,  2.01it/s] 13%|█▎        | 1362/10696 [37:44<1:17:17,  2.01it/s] 13%|█▎        | 1363/10696 [37:45<1:17:18,  2.01it/s] 13%|█▎        | 1364/10696 [37:45<1:17:20,  2.01it/s] 13%|█▎        | 1365/10696 [37:46<1:17:14,  2.01it/s] 13%|█▎        | 1366/10696 [37:46<1:17:16,  2.01it/s] 13%|█▎        | 1367/10696 [37:47<1:17:12,  2.01it/s] 13%|█▎        | 1368/10696 [37:47<1:17:10,  2.01it/s] 13%|█▎        | 1369/10696 [37:48<1:17:21,  2.01it/s] 13%|█▎        | 1370/10696 [37:48<1:17:15,  2.01it/s] 13%|█▎        | 1371/10696 [37:49<1:17:15,  2.01it/s] 13%|█▎        | 1372/10696 [37:49<1:17:17,  2.01it/s] 13%|█▎        | 1373/10696 [37:50<1:17:12,  2.01it/s] 13%|█▎        | 1374/10696 [37:50<1:17:14,  2.01it/s] 13%|█▎        | 1375/10696 [37:51<1:17:08,  2.01it/s]{'loss': 4.2806, 'grad_norm': 0.24207349121570587, 'learning_rate': 0.0009975249208707723, 'epoch': 0.13}
-                                                       13%|█▎        | 1375/10696 [37:51<1:17:08,  2.01it/s] 13%|█▎        | 1376/10696 [37:51<1:17:13,  2.01it/s] 13%|█▎        | 1377/10696 [37:52<1:17:14,  2.01it/s] 13%|█▎        | 1378/10696 [37:52<1:17:07,  2.01it/s] 13%|█▎        | 1379/10696 [37:53<1:17:11,  2.01it/s] 13%|█▎        | 1380/10696 [37:53<1:17:07,  2.01it/s] 13%|█▎        | 1381/10696 [37:54<1:17:07,  2.01it/s] 13%|█▎        | 1382/10696 [37:54<1:17:07,  2.01it/s] 13%|█▎        | 1383/10696 [37:55<1:17:03,  2.01it/s] 13%|█▎        | 1384/10696 [37:55<1:17:09,  2.01it/s] 13%|█▎        | 1385/10696 [37:56<1:17:02,  2.01it/s] 13%|█▎        | 1386/10696 [37:56<1:17:03,  2.01it/s] 13%|█▎        | 1387/10696 [37:57<1:17:04,  2.01it/s] 13%|█▎        | 1388/10696 [37:57<1:16:59,  2.01it/s] 13%|█▎        | 1389/10696 [37:58<1:17:03,  2.01it/s] 13%|█▎        | 1390/10696 [37:58<1:16:58,  2.02it/s] 13%|█▎        | 1391/10696 [37:59<1:17:04,  2.01it/s] 13%|█▎        | 1392/10696 [37:59<1:16:58,  2.01it/s] 13%|█▎        | 1393/10696 [38:00<1:16:58,  2.01it/s] 13%|█▎        | 1394/10696 [38:00<1:16:56,  2.01it/s] 13%|█▎        | 1395/10696 [38:01<1:16:52,  2.02it/s] 13%|█▎        | 1396/10696 [38:01<1:17:04,  2.01it/s] 13%|█▎        | 1397/10696 [38:02<1:16:56,  2.01it/s] 13%|█▎        | 1398/10696 [38:02<1:17:01,  2.01it/s] 13%|█▎        | 1399/10696 [38:03<1:17:08,  2.01it/s] 13%|█▎        | 1400/10696 [38:03<1:17:00,  2.01it/s]{'loss': 4.2728, 'grad_norm': 0.25226303935050964, 'learning_rate': 0.000997102949391887, 'epoch': 0.13}                                                      
- 13%|█▎        | 1400/10696 [38:03<1:17:00,  2.01it/s] 13%|█▎        | 1401/10696 [38:04<1:17:08,  2.01it/s] 13%|█▎        | 1402/10696 [38:04<1:17:01,  2.01it/s] 13%|█▎        | 1403/10696 [38:04<1:16:56,  2.01it/s] 13%|█▎        | 1404/10696 [38:05<1:16:54,  2.01it/s] 13%|█▎        | 1405/10696 [38:05<1:16:51,  2.01it/s] 13%|█▎        | 1406/10696 [38:06<1:16:57,  2.01it/s] 13%|█▎        | 1407/10696 [38:06<1:16:59,  2.01it/s] 13%|█▎        | 1408/10696 [38:07<1:16:57,  2.01it/s] 13%|█▎        | 1409/10696 [38:07<1:16:54,  2.01it/s] 13%|█▎        | 1410/10696 [38:08<1:16:58,  2.01it/s] 13%|█▎        | 1411/10696 [38:08<1:17:01,  2.01it/s] 13%|█▎        | 1412/10696 [38:09<1:16:54,  2.01it/s] 13%|█▎        | 1413/10696 [38:09<1:16:55,  2.01it/s] 13%|█▎        | 1414/10696 [38:10<1:16:49,  2.01it/s] 13%|█▎        | 1415/10696 [38:10<1:16:52,  2.01it/s] 13%|█▎        | 1416/10696 [38:11<1:16:53,  2.01it/s] 13%|█▎        | 1417/10696 [38:11<1:16:49,  2.01it/s] 13%|█▎        | 1418/10696 [38:12<1:16:52,  2.01it/s] 13%|█▎        | 1419/10696 [38:12<1:16:46,  2.01it/s] 13%|█▎        | 1420/10696 [38:13<1:16:47,  2.01it/s] 13%|█▎        | 1421/10696 [38:13<1:16:46,  2.01it/s] 13%|█▎        | 1422/10696 [38:14<1:16:46,  2.01it/s] 13%|█▎        | 1423/10696 [38:14<1:16:55,  2.01it/s] 13%|█▎        | 1424/10696 [38:15<1:16:49,  2.01it/s] 13%|█▎        | 1425/10696 [38:15<1:16:50,  2.01it/s]{'loss': 4.2646, 'grad_norm': 0.2704974114894867, 'learning_rate': 0.0009966478852300419, 'epoch': 0.13}
-                                                       13%|█▎        | 1425/10696 [38:15<1:16:50,  2.01it/s] 13%|█▎        | 1426/10696 [38:16<1:16:54,  2.01it/s] 13%|█▎        | 1427/10696 [38:16<1:16:52,  2.01it/s] 13%|█▎        | 1428/10696 [38:17<1:16:54,  2.01it/s] 13%|█▎        | 1429/10696 [38:17<1:16:51,  2.01it/s] 13%|█▎        | 1430/10696 [38:18<1:16:48,  2.01it/s] 13%|█▎        | 1431/10696 [38:18<1:16:49,  2.01it/s] 13%|█▎        | 1432/10696 [38:19<1:16:50,  2.01it/s] 13%|█▎        | 1433/10696 [38:19<1:16:48,  2.01it/s] 13%|█▎        | 1434/10696 [38:20<1:16:48,  2.01it/s] 13%|█▎        | 1435/10696 [38:20<1:16:41,  2.01it/s] 13%|█▎        | 1436/10696 [38:21<1:16:47,  2.01it/s] 13%|█▎        | 1437/10696 [38:21<1:16:50,  2.01it/s] 13%|█▎        | 1438/10696 [38:22<1:16:50,  2.01it/s] 13%|█▎        | 1439/10696 [38:22<1:17:39,  1.99it/s] 13%|█▎        | 1440/10696 [38:23<1:17:15,  2.00it/s] 13%|█▎        | 1441/10696 [38:23<1:17:03,  2.00it/s] 13%|█▎        | 1442/10696 [38:24<1:16:51,  2.01it/s] 13%|█▎        | 1443/10696 [38:24<1:16:45,  2.01it/s] 14%|█▎        | 1444/10696 [38:25<1:16:50,  2.01it/s] 14%|█▎        | 1445/10696 [38:25<1:16:47,  2.01it/s] 14%|█▎        | 1446/10696 [38:26<1:16:46,  2.01it/s] 14%|█▎        | 1447/10696 [38:26<1:16:47,  2.01it/s] 14%|█▎        | 1448/10696 [38:27<1:16:44,  2.01it/s] 14%|█▎        | 1449/10696 [38:27<1:16:40,  2.01it/s] 14%|█▎        | 1450/10696 [38:28<1:16:38,  2.01it/s]{'loss': 4.2476, 'grad_norm': 0.2508017122745514, 'learning_rate': 0.0009961597586793517, 'epoch': 0.14}
-                                                       14%|█▎        | 1450/10696 [38:28<1:16:38,  2.01it/s] 14%|█▎        | 1451/10696 [38:28<1:16:43,  2.01it/s] 14%|█▎        | 1452/10696 [38:29<1:16:47,  2.01it/s] 14%|█▎        | 1453/10696 [38:29<1:16:39,  2.01it/s] 14%|█▎        | 1454/10696 [38:30<1:16:36,  2.01it/s] 14%|█▎        | 1455/10696 [38:30<1:16:37,  2.01it/s] 14%|█▎        | 1456/10696 [38:31<1:16:40,  2.01it/s] 14%|█▎        | 1457/10696 [38:31<1:16:32,  2.01it/s] 14%|█▎        | 1458/10696 [38:32<1:16:26,  2.01it/s] 14%|█▎        | 1459/10696 [38:32<1:16:25,  2.01it/s] 14%|█▎        | 1460/10696 [38:33<1:17:16,  1.99it/s] 14%|█▎        | 1461/10696 [38:33<1:16:59,  2.00it/s] 14%|█▎        | 1462/10696 [38:34<1:16:51,  2.00it/s] 14%|█▎        | 1463/10696 [38:34<1:16:49,  2.00it/s] 14%|█▎        | 1464/10696 [38:35<1:16:47,  2.00it/s] 14%|█▎        | 1465/10696 [38:35<1:16:40,  2.01it/s] 14%|█▎        | 1466/10696 [38:36<1:16:36,  2.01it/s] 14%|█▎        | 1467/10696 [38:36<1:16:40,  2.01it/s] 14%|█▎        | 1468/10696 [38:37<1:16:34,  2.01it/s] 14%|█▎        | 1469/10696 [38:37<1:16:31,  2.01it/s] 14%|█▎        | 1470/10696 [38:38<1:16:30,  2.01it/s] 14%|█▍        | 1471/10696 [38:38<1:16:26,  2.01it/s] 14%|█▍        | 1472/10696 [38:39<1:16:28,  2.01it/s] 14%|█▍        | 1473/10696 [38:39<1:16:19,  2.01it/s] 14%|█▍        | 1474/10696 [38:40<1:16:18,  2.01it/s] 14%|█▍        | 1475/10696 [38:40<1:16:12,  2.02it/s]{'loss': 4.2457, 'grad_norm': 0.2573860287666321, 'learning_rate': 0.0009956386022349304, 'epoch': 0.14}
-                                                       14%|█▍        | 1475/10696 [38:40<1:16:12,  2.02it/s] 14%|█▍        | 1476/10696 [38:41<1:16:21,  2.01it/s] 14%|█▍        | 1477/10696 [38:41<1:16:19,  2.01it/s] 14%|█▍        | 1478/10696 [38:42<1:16:27,  2.01it/s] 14%|█▍        | 1479/10696 [38:42<1:16:18,  2.01it/s] 14%|█▍        | 1480/10696 [38:43<1:16:17,  2.01it/s] 14%|█▍        | 1481/10696 [38:43<1:16:13,  2.01it/s] 14%|█▍        | 1482/10696 [38:44<1:16:16,  2.01it/s] 14%|█▍        | 1483/10696 [38:44<1:16:09,  2.02it/s] 14%|█▍        | 1484/10696 [38:45<1:16:11,  2.01it/s] 14%|█▍        | 1485/10696 [38:45<1:16:06,  2.02it/s] 14%|█▍        | 1486/10696 [38:46<1:16:08,  2.02it/s] 14%|█▍        | 1487/10696 [38:46<1:16:09,  2.02it/s] 14%|█▍        | 1488/10696 [38:47<1:16:08,  2.02it/s] 14%|█▍        | 1489/10696 [38:47<1:16:09,  2.01it/s] 14%|█▍        | 1490/10696 [38:48<1:16:12,  2.01it/s] 14%|█▍        | 1491/10696 [38:48<1:16:16,  2.01it/s] 14%|█▍        | 1492/10696 [38:49<1:16:15,  2.01it/s] 14%|█▍        | 1493/10696 [38:49<1:16:12,  2.01it/s] 14%|█▍        | 1494/10696 [38:50<1:16:10,  2.01it/s] 14%|█▍        | 1495/10696 [38:50<1:16:05,  2.02it/s] 14%|█▍        | 1496/10696 [38:51<1:16:09,  2.01it/s] 14%|█▍        | 1497/10696 [38:51<1:16:05,  2.01it/s] 14%|█▍        | 1498/10696 [38:52<1:16:08,  2.01it/s] 14%|█▍        | 1499/10696 [38:52<1:16:02,  2.02it/s] 14%|█▍        | 1500/10696 [38:53<1:16:07,  2.01it/s]                                                      {'loss': 4.2271, 'grad_norm': 0.2521156668663025, 'learning_rate': 0.0009950844505907288, 'epoch': 0.14}
- 14%|█▍        | 1500/10696 [38:53<1:16:07,  2.01it/s] 14%|█▍        | 1501/10696 [38:53<1:16:15,  2.01it/s] 14%|█▍        | 1502/10696 [38:54<1:16:10,  2.01it/s] 14%|█▍        | 1503/10696 [38:54<1:16:10,  2.01it/s] 14%|█▍        | 1504/10696 [38:55<1:16:06,  2.01it/s] 14%|█▍        | 1505/10696 [38:55<1:16:07,  2.01it/s] 14%|█▍        | 1506/10696 [38:56<1:16:05,  2.01it/s] 14%|█▍        | 1507/10696 [38:56<1:16:02,  2.01it/s] 14%|█▍        | 1508/10696 [38:57<1:16:05,  2.01it/s] 14%|█▍        | 1509/10696 [38:57<1:16:03,  2.01it/s] 14%|█▍        | 1510/10696 [38:58<1:16:08,  2.01it/s] 14%|█▍        | 1511/10696 [38:58<1:16:04,  2.01it/s] 14%|█▍        | 1512/10696 [38:59<1:15:59,  2.01it/s] 14%|█▍        | 1513/10696 [38:59<1:16:00,  2.01it/s] 14%|█▍        | 1514/10696 [39:00<1:15:55,  2.02it/s] 14%|█▍        | 1515/10696 [39:00<1:16:03,  2.01it/s] 14%|█▍        | 1516/10696 [39:01<1:15:56,  2.01it/s] 14%|█▍        | 1517/10696 [39:01<1:15:56,  2.01it/s] 14%|█▍        | 1518/10696 [39:02<1:15:53,  2.02it/s] 14%|█▍        | 1519/10696 [39:02<1:15:53,  2.02it/s] 14%|█▍        | 1520/10696 [39:03<1:16:01,  2.01it/s] 14%|█▍        | 1521/10696 [39:03<1:15:54,  2.01it/s] 14%|█▍        | 1522/10696 [39:04<1:15:55,  2.01it/s] 14%|█▍        | 1523/10696 [39:04<1:15:53,  2.01it/s] 14%|█▍        | 1524/10696 [39:05<1:15:55,  2.01it/s] 14%|█▍        | 1525/10696 [39:05<1:15:55,  2.01it/s]{'loss': 4.2169, 'grad_norm': 0.24951675534248352, 'learning_rate': 0.000994497340637223, 'epoch': 0.14}
-                                                       14%|█▍        | 1525/10696 [39:05<1:15:55,  2.01it/s] 14%|█▍        | 1526/10696 [39:06<1:16:01,  2.01it/s] 14%|█▍        | 1527/10696 [39:06<1:16:00,  2.01it/s] 14%|█▍        | 1528/10696 [39:07<1:15:56,  2.01it/s] 14%|█▍        | 1529/10696 [39:07<1:15:54,  2.01it/s] 14%|█▍        | 1530/10696 [39:08<1:15:57,  2.01it/s] 14%|█▍        | 1531/10696 [39:08<1:15:50,  2.01it/s] 14%|█▍        | 1532/10696 [39:09<1:15:56,  2.01it/s] 14%|█▍        | 1533/10696 [39:09<1:15:49,  2.01it/s] 14%|█▍        | 1534/10696 [39:10<1:15:50,  2.01it/s] 14%|█▍        | 1535/10696 [39:10<1:15:50,  2.01it/s] 14%|█▍        | 1536/10696 [39:11<1:15:46,  2.01it/s] 14%|█▍        | 1537/10696 [39:11<1:15:48,  2.01it/s] 14%|█▍        | 1538/10696 [39:12<1:15:44,  2.02it/s] 14%|█▍        | 1539/10696 [39:12<1:15:44,  2.01it/s] 14%|█▍        | 1540/10696 [39:13<1:15:38,  2.02it/s] 14%|█▍        | 1541/10696 [39:13<1:15:43,  2.01it/s] 14%|█▍        | 1542/10696 [39:14<1:15:45,  2.01it/s] 14%|█▍        | 1543/10696 [39:14<1:15:39,  2.02it/s] 14%|█▍        | 1544/10696 [39:15<1:15:43,  2.01it/s] 14%|█▍        | 1545/10696 [39:15<1:15:35,  2.02it/s] 14%|█▍        | 1546/10696 [39:16<1:15:40,  2.02it/s] 14%|█▍        | 1547/10696 [39:16<1:15:35,  2.02it/s] 14%|█▍        | 1548/10696 [39:17<1:15:36,  2.02it/s] 14%|█▍        | 1549/10696 [39:17<1:15:38,  2.02it/s] 14%|█▍        | 1550/10696 [39:18<1:15:38,  2.02it/s]{'loss': 4.2121, 'grad_norm': 0.23962245881557465, 'learning_rate': 0.0009938773114589604, 'epoch': 0.14}
-                                                       14%|█▍        | 1550/10696 [39:18<1:15:38,  2.02it/s] 15%|█▍        | 1551/10696 [39:18<1:15:53,  2.01it/s] 15%|█▍        | 1552/10696 [39:19<1:15:48,  2.01it/s] 15%|█▍        | 1553/10696 [39:19<1:15:46,  2.01it/s] 15%|█▍        | 1554/10696 [39:20<1:15:37,  2.01it/s] 15%|█▍        | 1555/10696 [39:20<1:15:38,  2.01it/s] 15%|█▍        | 1556/10696 [39:21<1:15:35,  2.02it/s] 15%|█▍        | 1557/10696 [39:21<1:15:38,  2.01it/s] 15%|█▍        | 1558/10696 [39:22<1:15:35,  2.01it/s] 15%|█▍        | 1559/10696 [39:22<1:15:31,  2.02it/s] 15%|█▍        | 1560/10696 [39:23<1:15:30,  2.02it/s] 15%|█▍        | 1561/10696 [39:23<1:15:33,  2.02it/s] 15%|█▍        | 1562/10696 [39:24<1:15:31,  2.02it/s] 15%|█▍        | 1563/10696 [39:24<1:15:29,  2.02it/s] 15%|█▍        | 1564/10696 [39:25<1:15:32,  2.01it/s] 15%|█▍        | 1565/10696 [39:25<1:15:28,  2.02it/s] 15%|█▍        | 1566/10696 [39:26<1:15:32,  2.01it/s] 15%|█▍        | 1567/10696 [39:26<1:15:24,  2.02it/s] 15%|█▍        | 1568/10696 [39:27<1:15:28,  2.02it/s] 15%|█▍        | 1569/10696 [39:27<1:15:25,  2.02it/s] 15%|█▍        | 1570/10696 [39:28<1:15:27,  2.02it/s] 15%|█▍        | 1571/10696 [39:28<1:15:25,  2.02it/s] 15%|█▍        | 1572/10696 [39:28<1:15:23,  2.02it/s] 15%|█▍        | 1573/10696 [39:29<1:15:29,  2.01it/s] 15%|█▍        | 1574/10696 [39:29<1:15:26,  2.02it/s] 15%|█▍        | 1575/10696 [39:30<1:15:30,  2.01it/s]                                                      {'loss': 4.2045, 'grad_norm': 0.26081693172454834, 'learning_rate': 0.000993224404331956, 'epoch': 0.15}
- 15%|█▍        | 1575/10696 [39:30<1:15:30,  2.01it/s] 15%|█▍        | 1576/10696 [39:30<1:15:32,  2.01it/s] 15%|█▍        | 1577/10696 [39:31<1:15:27,  2.01it/s] 15%|█▍        | 1578/10696 [39:31<1:15:28,  2.01it/s] 15%|█▍        | 1579/10696 [39:32<1:15:22,  2.02it/s] 15%|█▍        | 1580/10696 [39:32<1:15:25,  2.01it/s] 15%|█▍        | 1581/10696 [39:33<1:15:22,  2.02it/s] 15%|█▍        | 1582/10696 [39:33<1:15:21,  2.02it/s] 15%|█▍        | 1583/10696 [39:34<1:15:19,  2.02it/s] 15%|█▍        | 1584/10696 [39:34<1:15:19,  2.02it/s] 15%|█▍        | 1585/10696 [39:35<1:15:19,  2.02it/s] 15%|█▍        | 1586/10696 [39:35<1:15:18,  2.02it/s] 15%|█▍        | 1587/10696 [39:36<1:15:26,  2.01it/s] 15%|█▍        | 1588/10696 [39:36<1:15:19,  2.02it/s] 15%|█▍        | 1589/10696 [39:37<1:15:20,  2.01it/s] 15%|█▍        | 1590/10696 [39:37<1:15:18,  2.02it/s] 15%|█▍        | 1591/10696 [39:38<1:15:17,  2.02it/s] 15%|█▍        | 1592/10696 [39:38<1:15:20,  2.01it/s] 15%|█▍        | 1593/10696 [39:39<1:15:23,  2.01it/s] 15%|█▍        | 1594/10696 [39:39<1:15:24,  2.01it/s] 15%|█▍        | 1595/10696 [39:40<1:15:19,  2.01it/s] 15%|█▍        | 1596/10696 [39:40<1:15:17,  2.01it/s] 15%|█▍        | 1597/10696 [39:41<1:15:16,  2.01it/s] 15%|█▍        | 1598/10696 [39:41<1:15:15,  2.01it/s] 15%|█▍        | 1599/10696 [39:42<1:15:15,  2.01it/s] 15%|█▍        | 1600/10696 [39:42<1:15:13,  2.02it/s]{'loss': 4.1974, 'grad_norm': 0.25657591223716736, 'learning_rate': 0.000992538662720946, 'epoch': 0.15}
-                                                       15%|█▍        | 1600/10696 [39:42<1:15:13,  2.02it/s] 15%|█▍        | 1601/10696 [39:43<1:15:22,  2.01it/s] 15%|█▍        | 1602/10696 [39:43<1:15:16,  2.01it/s] 15%|█▍        | 1603/10696 [39:44<1:15:17,  2.01it/s] 15%|█▍        | 1604/10696 [39:44<1:15:12,  2.01it/s] 15%|█▌        | 1605/10696 [39:45<1:15:11,  2.02it/s] 15%|█▌        | 1606/10696 [39:45<1:15:11,  2.01it/s] 15%|█▌        | 1607/10696 [39:46<1:15:14,  2.01it/s] 15%|█▌        | 1608/10696 [39:46<1:15:15,  2.01it/s] 15%|█▌        | 1609/10696 [39:47<1:15:10,  2.01it/s] 15%|█▌        | 1610/10696 [39:47<1:15:06,  2.02it/s] 15%|█▌        | 1611/10696 [39:48<1:15:08,  2.02it/s] 15%|█▌        | 1612/10696 [39:48<1:15:02,  2.02it/s] 15%|█▌        | 1613/10696 [39:49<1:15:06,  2.02it/s] 15%|█▌        | 1614/10696 [39:49<1:15:00,  2.02it/s] 15%|█▌        | 1615/10696 [39:50<1:15:05,  2.02it/s] 15%|█▌        | 1616/10696 [39:50<1:15:03,  2.02it/s] 15%|█▌        | 1617/10696 [39:51<1:15:09,  2.01it/s] 15%|█▌        | 1618/10696 [39:51<1:15:12,  2.01it/s] 15%|█▌        | 1619/10696 [39:52<1:15:08,  2.01it/s] 15%|█▌        | 1620/10696 [39:52<1:15:05,  2.01it/s] 15%|█▌        | 1621/10696 [39:53<1:15:03,  2.02it/s] 15%|█▌        | 1622/10696 [39:53<1:15:01,  2.02it/s] 15%|█▌        | 1623/10696 [39:54<1:15:01,  2.02it/s] 15%|█▌        | 1624/10696 [39:54<1:15:03,  2.01it/s] 15%|█▌        | 1625/10696 [39:55<1:15:01,  2.02it/s]{'loss': 4.1871, 'grad_norm': 0.24727603793144226, 'learning_rate': 0.0009918201322764943, 'epoch': 0.15}
-                                                       15%|█▌        | 1625/10696 [39:55<1:15:01,  2.02it/s] 15%|█▌        | 1626/10696 [39:55<1:15:17,  2.01it/s] 15%|█▌        | 1627/10696 [39:56<1:15:13,  2.01it/s] 15%|█▌        | 1628/10696 [39:56<1:15:05,  2.01it/s] 15%|█▌        | 1629/10696 [39:57<1:15:05,  2.01it/s] 15%|█▌        | 1630/10696 [39:57<1:15:02,  2.01it/s] 15%|█▌        | 1631/10696 [39:58<1:15:04,  2.01it/s] 15%|█▌        | 1632/10696 [39:58<1:15:02,  2.01it/s] 15%|█▌        | 1633/10696 [39:59<1:15:01,  2.01it/s] 15%|█▌        | 1634/10696 [39:59<1:15:03,  2.01it/s] 15%|█▌        | 1635/10696 [40:00<1:14:57,  2.01it/s] 15%|█▌        | 1636/10696 [40:00<1:15:01,  2.01it/s] 15%|█▌        | 1637/10696 [40:01<1:14:56,  2.01it/s] 15%|█▌        | 1638/10696 [40:01<1:14:56,  2.01it/s] 15%|█▌        | 1639/10696 [40:02<1:14:58,  2.01it/s] 15%|█▌        | 1640/10696 [40:02<1:14:53,  2.02it/s] 15%|█▌        | 1641/10696 [40:03<1:14:58,  2.01it/s] 15%|█▌        | 1642/10696 [40:03<1:14:54,  2.01it/s] 15%|█▌        | 1643/10696 [40:04<1:14:51,  2.02it/s] 15%|█▌        | 1644/10696 [40:04<1:14:54,  2.01it/s] 15%|█▌        | 1645/10696 [40:05<1:14:48,  2.02it/s] 15%|█▌        | 1646/10696 [40:05<1:14:52,  2.01it/s] 15%|█▌        | 1647/10696 [40:06<1:14:48,  2.02it/s] 15%|█▌        | 1648/10696 [40:06<1:14:51,  2.01it/s] 15%|█▌        | 1649/10696 [40:07<1:14:53,  2.01it/s] 15%|█▌        | 1650/10696 [40:07<1:14:50,  2.01it/s]{'loss': 4.1851, 'grad_norm': 0.24651525914669037, 'learning_rate': 0.000991068860831952, 'epoch': 0.15}
-                                                       15%|█▌        | 1650/10696 [40:07<1:14:50,  2.01it/s] 15%|█▌        | 1651/10696 [40:08<1:15:51,  1.99it/s] 15%|█▌        | 1652/10696 [40:08<1:15:26,  2.00it/s] 15%|█▌        | 1653/10696 [40:09<1:15:14,  2.00it/s] 15%|█▌        | 1654/10696 [40:09<1:15:02,  2.01it/s] 15%|█▌        | 1655/10696 [40:10<1:14:59,  2.01it/s] 15%|█▌        | 1656/10696 [40:10<1:14:58,  2.01it/s] 15%|█▌        | 1657/10696 [40:11<1:14:51,  2.01it/s] 16%|█▌        | 1658/10696 [40:11<1:14:47,  2.01it/s] 16%|█▌        | 1659/10696 [40:12<1:14:43,  2.02it/s] 16%|█▌        | 1660/10696 [40:12<1:14:50,  2.01it/s] 16%|█▌        | 1661/10696 [40:13<1:14:44,  2.01it/s] 16%|█▌        | 1662/10696 [40:13<1:14:45,  2.01it/s] 16%|█▌        | 1663/10696 [40:14<1:14:44,  2.01it/s] 16%|█▌        | 1664/10696 [40:14<1:14:42,  2.01it/s] 16%|█▌        | 1665/10696 [40:15<1:14:37,  2.02it/s] 16%|█▌        | 1666/10696 [40:15<1:14:37,  2.02it/s] 16%|█▌        | 1667/10696 [40:16<1:14:37,  2.02it/s] 16%|█▌        | 1668/10696 [40:16<1:14:39,  2.02it/s] 16%|█▌        | 1669/10696 [40:17<1:14:43,  2.01it/s] 16%|█▌        | 1670/10696 [40:17<1:14:39,  2.02it/s] 16%|█▌        | 1671/10696 [40:18<1:14:41,  2.01it/s] 16%|█▌        | 1672/10696 [40:18<1:14:38,  2.01it/s] 16%|█▌        | 1673/10696 [40:19<1:14:38,  2.01it/s] 16%|█▌        | 1674/10696 [40:19<1:14:36,  2.02it/s] 16%|█▌        | 1675/10696 [40:20<1:14:32,  2.02it/s]{'loss': 4.1694, 'grad_norm': 0.23737628757953644, 'learning_rate': 0.0009902848984002753, 'epoch': 0.16}
-                                                       16%|█▌        | 1675/10696 [40:20<1:14:32,  2.02it/s] 16%|█▌        | 1676/10696 [40:20<1:14:42,  2.01it/s] 16%|█▌        | 1677/10696 [40:21<1:14:37,  2.01it/s] 16%|█▌        | 1678/10696 [40:21<1:14:42,  2.01it/s] 16%|█▌        | 1679/10696 [40:22<1:14:42,  2.01it/s] 16%|█▌        | 1680/10696 [40:22<1:14:38,  2.01it/s] 16%|█▌        | 1681/10696 [40:23<1:14:35,  2.01it/s] 16%|█▌        | 1682/10696 [40:23<1:14:33,  2.02it/s] 16%|█▌        | 1683/10696 [40:24<1:14:34,  2.01it/s] 16%|█▌        | 1684/10696 [40:24<1:14:35,  2.01it/s] 16%|█▌        | 1685/10696 [40:25<1:14:38,  2.01it/s] 16%|█▌        | 1686/10696 [40:25<1:14:32,  2.01it/s] 16%|█▌        | 1687/10696 [40:26<1:14:30,  2.02it/s] 16%|█▌        | 1688/10696 [40:26<1:14:25,  2.02it/s] 16%|█▌        | 1689/10696 [40:27<1:14:29,  2.02it/s] 16%|█▌        | 1690/10696 [40:27<1:14:27,  2.02it/s] 16%|█▌        | 1691/10696 [40:28<1:14:27,  2.02it/s] 16%|█▌        | 1692/10696 [40:28<1:14:29,  2.01it/s] 16%|█▌        | 1693/10696 [40:29<1:14:27,  2.02it/s] 16%|█▌        | 1694/10696 [40:29<1:14:30,  2.01it/s] 16%|█▌        | 1695/10696 [40:30<1:14:31,  2.01it/s] 16%|█▌        | 1696/10696 [40:30<1:14:29,  2.01it/s] 16%|█▌        | 1697/10696 [40:31<1:14:24,  2.02it/s] 16%|█▌        | 1698/10696 [40:31<1:14:24,  2.02it/s] 16%|█▌        | 1699/10696 [40:32<1:14:21,  2.02it/s] 16%|█▌        | 1700/10696 [40:32<1:14:26,  2.01it/s]                                                      {'loss': 4.1618, 'grad_norm': 0.2582828998565674, 'learning_rate': 0.0009894682971706937, 'epoch': 0.16}
- 16%|█▌        | 1700/10696 [40:32<1:14:26,  2.01it/s] 16%|█▌        | 1701/10696 [40:33<1:14:33,  2.01it/s] 16%|█▌        | 1702/10696 [40:33<1:14:24,  2.01it/s] 16%|█▌        | 1703/10696 [40:34<1:14:25,  2.01it/s] 16%|█▌        | 1704/10696 [40:34<1:14:20,  2.02it/s] 16%|█▌        | 1705/10696 [40:35<1:14:21,  2.02it/s] 16%|█▌        | 1706/10696 [40:35<1:14:20,  2.02it/s] 16%|█▌        | 1707/10696 [40:36<1:14:21,  2.01it/s] 16%|█▌        | 1708/10696 [40:36<1:14:26,  2.01it/s] 16%|█▌        | 1709/10696 [40:37<1:14:22,  2.01it/s] 16%|█▌        | 1710/10696 [40:37<1:14:20,  2.01it/s] 16%|█▌        | 1711/10696 [40:38<1:14:16,  2.02it/s] 16%|█▌        | 1712/10696 [40:38<1:14:20,  2.01it/s] 16%|█▌        | 1713/10696 [40:39<1:14:19,  2.01it/s] 16%|█▌        | 1714/10696 [40:39<1:14:18,  2.01it/s] 16%|█▌        | 1715/10696 [40:40<1:14:19,  2.01it/s] 16%|█▌        | 1716/10696 [40:40<1:14:16,  2.02it/s] 16%|█▌        | 1717/10696 [40:40<1:14:18,  2.01it/s] 16%|█▌        | 1718/10696 [40:41<1:14:12,  2.02it/s] 16%|█▌        | 1719/10696 [40:41<1:14:14,  2.02it/s] 16%|█▌        | 1720/10696 [40:42<1:14:10,  2.02it/s] 16%|█▌        | 1721/10696 [40:42<1:14:15,  2.01it/s] 16%|█▌        | 1722/10696 [40:43<1:14:15,  2.01it/s] 16%|█▌        | 1723/10696 [40:43<1:14:16,  2.01it/s] 16%|█▌        | 1724/10696 [40:44<1:14:15,  2.01it/s] 16%|█▌        | 1725/10696 [40:44<1:14:16,  2.01it/s]{'loss': 4.1665, 'grad_norm': 0.23643942177295685, 'learning_rate': 0.0009886191115052376, 'epoch': 0.16}
-                                                       16%|█▌        | 1725/10696 [40:44<1:14:16,  2.01it/s] 16%|█▌        | 1726/10696 [40:45<1:14:22,  2.01it/s] 16%|█▌        | 1727/10696 [40:45<1:14:20,  2.01it/s] 16%|█▌        | 1728/10696 [40:46<1:14:18,  2.01it/s] 16%|█▌        | 1729/10696 [40:46<1:14:16,  2.01it/s] 16%|█▌        | 1730/10696 [40:47<1:14:14,  2.01it/s] 16%|█▌        | 1731/10696 [40:47<1:14:15,  2.01it/s] 16%|█▌        | 1732/10696 [40:48<1:14:13,  2.01it/s] 16%|█▌        | 1733/10696 [40:48<1:14:14,  2.01it/s] 16%|█▌        | 1734/10696 [40:49<1:14:15,  2.01it/s] 16%|█▌        | 1735/10696 [40:49<1:14:08,  2.01it/s] 16%|█▌        | 1736/10696 [40:50<1:14:10,  2.01it/s] 16%|█▌        | 1737/10696 [40:50<1:14:11,  2.01it/s] 16%|█▌        | 1738/10696 [40:51<1:14:09,  2.01it/s] 16%|█▋        | 1739/10696 [40:51<1:14:11,  2.01it/s] 16%|█▋        | 1740/10696 [40:52<1:14:08,  2.01it/s] 16%|█▋        | 1741/10696 [40:52<1:14:14,  2.01it/s] 16%|█▋        | 1742/10696 [40:53<1:14:10,  2.01it/s] 16%|█▋        | 1743/10696 [40:53<1:14:09,  2.01it/s] 16%|█▋        | 1744/10696 [40:54<1:14:04,  2.01it/s] 16%|█▋        | 1745/10696 [40:54<1:14:02,  2.01it/s] 16%|█▋        | 1746/10696 [40:55<1:13:59,  2.02it/s] 16%|█▋        | 1747/10696 [40:55<1:14:02,  2.01it/s] 16%|█▋        | 1748/10696 [40:56<1:14:02,  2.01it/s] 16%|█▋        | 1749/10696 [40:56<1:14:02,  2.01it/s] 16%|█▋        | 1750/10696 [40:57<1:14:04,  2.01it/s]{'loss': 4.1484, 'grad_norm': 0.22036579251289368, 'learning_rate': 0.000987737397935119, 'epoch': 0.16}
-                                                       16%|█▋        | 1750/10696 [40:57<1:14:04,  2.01it/s] 16%|█▋        | 1751/10696 [40:57<1:14:10,  2.01it/s] 16%|█▋        | 1752/10696 [40:58<1:14:11,  2.01it/s] 16%|█▋        | 1753/10696 [40:58<1:14:04,  2.01it/s] 16%|█▋        | 1754/10696 [40:59<1:14:07,  2.01it/s] 16%|█▋        | 1755/10696 [40:59<1:14:00,  2.01it/s] 16%|█▋        | 1756/10696 [41:00<1:14:03,  2.01it/s] 16%|█▋        | 1757/10696 [41:00<1:13:55,  2.02it/s] 16%|█▋        | 1758/10696 [41:01<1:13:57,  2.01it/s] 16%|█▋        | 1759/10696 [41:01<1:13:53,  2.02it/s] 16%|█▋        | 1760/10696 [41:02<1:13:56,  2.01it/s] 16%|█▋        | 1761/10696 [41:02<1:13:58,  2.01it/s] 16%|█▋        | 1762/10696 [41:03<1:26:11,  1.73it/s] 16%|█▋        | 1763/10696 [41:04<1:22:30,  1.80it/s] 16%|█▋        | 1764/10696 [41:04<1:19:56,  1.86it/s] 17%|█▋        | 1765/10696 [41:05<1:18:05,  1.91it/s] 17%|█▋        | 1766/10696 [41:05<1:16:46,  1.94it/s] 17%|█▋        | 1767/10696 [41:06<1:15:54,  1.96it/s] 17%|█▋        | 1768/10696 [41:06<1:15:14,  1.98it/s] 17%|█▋        | 1769/10696 [41:07<1:27:00,  1.71it/s] 17%|█▋        | 1770/10696 [41:07<1:23:11,  1.79it/s] 17%|█▋        | 1771/10696 [41:08<1:20:28,  1.85it/s] 17%|█▋        | 1772/10696 [41:08<1:18:21,  1.90it/s] 17%|█▋        | 1773/10696 [41:09<1:17:02,  1.93it/s] 17%|█▋        | 1774/10696 [41:09<1:16:02,  1.96it/s] 17%|█▋        | 1775/10696 [41:10<1:15:21,  1.97it/s]{'loss': 4.1402, 'grad_norm': 0.23759111762046814, 'learning_rate': 0.0009868232151569668, 'epoch': 0.17}
-                                                       17%|█▋        | 1775/10696 [41:10<1:15:21,  1.97it/s] 17%|█▋        | 1776/10696 [41:10<1:14:56,  1.98it/s] 17%|█▋        | 1777/10696 [41:11<1:14:33,  1.99it/s] 17%|█▋        | 1778/10696 [41:11<1:14:19,  2.00it/s] 17%|█▋        | 1779/10696 [41:12<1:14:03,  2.01it/s] 17%|█▋        | 1780/10696 [41:12<1:13:58,  2.01it/s] 17%|█▋        | 1781/10696 [41:13<1:13:49,  2.01it/s] 17%|█▋        | 1782/10696 [41:13<1:13:52,  2.01it/s] 17%|█▋        | 1783/10696 [41:14<1:13:42,  2.02it/s] 17%|█▋        | 1784/10696 [41:14<1:13:41,  2.02it/s] 17%|█▋        | 1785/10696 [41:15<1:13:36,  2.02it/s] 17%|█▋        | 1786/10696 [41:15<1:13:37,  2.02it/s] 17%|█▋        | 1787/10696 [41:16<1:13:36,  2.02it/s] 17%|█▋        | 1788/10696 [41:16<1:13:38,  2.02it/s] 17%|█▋        | 1789/10696 [41:17<1:13:41,  2.01it/s] 17%|█▋        | 1790/10696 [41:17<1:13:33,  2.02it/s] 17%|█▋        | 1791/10696 [41:18<1:13:35,  2.02it/s] 17%|█▋        | 1792/10696 [41:18<1:13:30,  2.02it/s] 17%|█▋        | 1793/10696 [41:19<1:13:34,  2.02it/s] 17%|█▋        | 1794/10696 [41:19<1:13:37,  2.02it/s] 17%|█▋        | 1795/10696 [41:20<1:13:36,  2.02it/s] 17%|█▋        | 1796/10696 [41:20<1:13:36,  2.01it/s] 17%|█▋        | 1797/10696 [41:21<1:13:36,  2.01it/s] 17%|█▋        | 1798/10696 [41:21<1:13:35,  2.02it/s] 17%|█▋        | 1799/10696 [41:22<1:13:31,  2.02it/s] 17%|█▋        | 1800/10696 [41:22<1:13:32,  2.02it/s]{'loss': 4.1346, 'grad_norm': 0.23659701645374298, 'learning_rate': 0.0009858766240289217, 'epoch': 0.17}
-                                                       17%|█▋        | 1800/10696 [41:22<1:13:32,  2.02it/s] 17%|█▋        | 1801/10696 [41:23<1:13:36,  2.01it/s] 17%|█▋        | 1802/10696 [41:23<1:13:36,  2.01it/s] 17%|█▋        | 1803/10696 [41:24<1:13:35,  2.01it/s] 17%|█▋        | 1804/10696 [41:24<1:13:33,  2.01it/s] 17%|█▋        | 1805/10696 [41:25<1:13:33,  2.01it/s] 17%|█▋        | 1806/10696 [41:25<1:13:27,  2.02it/s] 17%|█▋        | 1807/10696 [41:26<1:13:38,  2.01it/s] 17%|█▋        | 1808/10696 [41:26<1:13:34,  2.01it/s] 17%|█▋        | 1809/10696 [41:27<1:13:34,  2.01it/s] 17%|█▋        | 1810/10696 [41:27<1:13:37,  2.01it/s] 17%|█▋        | 1811/10696 [41:28<1:13:29,  2.01it/s] 17%|█▋        | 1812/10696 [41:28<1:13:30,  2.01it/s] 17%|█▋        | 1813/10696 [41:29<1:13:24,  2.02it/s] 17%|█▋        | 1814/10696 [41:29<1:13:27,  2.02it/s] 17%|█▋        | 1815/10696 [41:30<1:13:26,  2.02it/s] 17%|█▋        | 1816/10696 [41:30<1:13:26,  2.02it/s] 17%|█▋        | 1817/10696 [41:31<1:13:25,  2.02it/s] 17%|█▋        | 1818/10696 [41:31<1:13:24,  2.02it/s] 17%|█▋        | 1819/10696 [41:32<1:13:25,  2.01it/s] 17%|█▋        | 1820/10696 [41:32<1:13:23,  2.02it/s] 17%|█▋        | 1821/10696 [41:33<1:13:19,  2.02it/s] 17%|█▋        | 1822/10696 [41:33<1:13:21,  2.02it/s] 17%|█▋        | 1823/10696 [41:34<1:13:21,  2.02it/s] 17%|█▋        | 1824/10696 [41:34<1:13:18,  2.02it/s] 17%|█▋        | 1825/10696 [41:35<1:13:22,  2.02it/s]{'loss': 4.1434, 'grad_norm': 0.23220054805278778, 'learning_rate': 0.0009848976875665818, 'epoch': 0.17}
-                                                       17%|█▋        | 1825/10696 [41:35<1:13:22,  2.02it/s] 17%|█▋        | 1826/10696 [41:35<1:13:22,  2.01it/s] 17%|█▋        | 1827/10696 [41:36<1:13:25,  2.01it/s] 17%|█▋        | 1828/10696 [41:36<1:13:25,  2.01it/s] 17%|█▋        | 1829/10696 [41:37<1:13:25,  2.01it/s] 17%|█▋        | 1830/10696 [41:37<1:13:24,  2.01it/s] 17%|█▋        | 1831/10696 [41:38<1:13:22,  2.01it/s] 17%|█▋        | 1832/10696 [41:38<1:13:23,  2.01it/s] 17%|█▋        | 1833/10696 [41:39<1:13:16,  2.02it/s] 17%|█▋        | 1834/10696 [41:39<1:13:21,  2.01it/s] 17%|█▋        | 1835/10696 [41:40<1:13:15,  2.02it/s] 17%|█▋        | 1836/10696 [41:40<1:14:21,  1.99it/s] 17%|█▋        | 1837/10696 [41:41<1:13:59,  2.00it/s] 17%|█▋        | 1838/10696 [41:41<1:13:42,  2.00it/s] 17%|█▋        | 1839/10696 [41:42<1:13:35,  2.01it/s] 17%|█▋        | 1840/10696 [41:42<1:13:22,  2.01it/s] 17%|█▋        | 1841/10696 [41:43<1:13:21,  2.01it/s] 17%|█▋        | 1842/10696 [41:43<1:13:14,  2.01it/s] 17%|█▋        | 1843/10696 [41:44<1:13:17,  2.01it/s] 17%|█▋        | 1844/10696 [41:44<1:13:08,  2.02it/s] 17%|█▋        | 1845/10696 [41:45<1:13:10,  2.02it/s] 17%|█▋        | 1846/10696 [41:45<1:13:06,  2.02it/s] 17%|█▋        | 1847/10696 [41:46<1:13:09,  2.02it/s] 17%|█▋        | 1848/10696 [41:46<1:13:14,  2.01it/s] 17%|█▋        | 1849/10696 [41:47<1:13:12,  2.01it/s] 17%|█▋        | 1850/10696 [41:47<1:13:16,  2.01it/s]                                                      {'loss': 4.121, 'grad_norm': 0.2492087334394455, 'learning_rate': 0.0009838864709388105, 'epoch': 0.17}
- 17%|█▋        | 1850/10696 [41:47<1:13:16,  2.01it/s] 17%|█▋        | 1851/10696 [41:48<1:13:18,  2.01it/s] 17%|█▋        | 1852/10696 [41:48<1:13:13,  2.01it/s] 17%|█▋        | 1853/10696 [41:49<1:13:11,  2.01it/s] 17%|█▋        | 1854/10696 [41:49<1:13:07,  2.02it/s] 17%|█▋        | 1855/10696 [41:50<1:13:04,  2.02it/s] 17%|█▋        | 1856/10696 [41:50<1:13:06,  2.02it/s] 17%|█▋        | 1857/10696 [41:51<1:13:11,  2.01it/s] 17%|█▋        | 1858/10696 [41:51<1:13:16,  2.01it/s] 17%|█▋        | 1859/10696 [41:52<1:13:10,  2.01it/s] 17%|█▋        | 1860/10696 [41:52<1:13:01,  2.02it/s] 17%|█▋        | 1861/10696 [41:53<1:13:03,  2.02it/s] 17%|█▋        | 1862/10696 [41:53<1:13:00,  2.02it/s] 17%|█▋        | 1863/10696 [41:54<1:13:06,  2.01it/s] 17%|█▋        | 1864/10696 [41:54<1:13:07,  2.01it/s] 17%|█▋        | 1865/10696 [41:55<1:13:06,  2.01it/s] 17%|█▋        | 1866/10696 [41:55<1:13:04,  2.01it/s] 17%|█▋        | 1867/10696 [41:56<1:12:59,  2.02it/s] 17%|█▋        | 1868/10696 [41:56<1:13:00,  2.02it/s] 17%|█▋        | 1869/10696 [41:57<1:12:58,  2.02it/s] 17%|█▋        | 1870/10696 [41:57<1:12:59,  2.02it/s] 17%|█▋        | 1871/10696 [41:58<1:12:59,  2.02it/s] 18%|█▊        | 1872/10696 [41:58<1:12:58,  2.02it/s] 18%|█▊        | 1873/10696 [41:59<1:14:00,  1.99it/s] 18%|█▊        | 1874/10696 [41:59<1:13:36,  2.00it/s] 18%|█▊        | 1875/10696 [42:00<1:13:26,  2.00it/s]{'loss': 4.1132, 'grad_norm': 0.2613946795463562, 'learning_rate': 0.0009828430414633963, 'epoch': 0.18}
-                                                       18%|█▊        | 1875/10696 [42:00<1:13:26,  2.00it/s] 18%|█▊        | 1876/10696 [42:00<1:13:18,  2.01it/s] 18%|█▊        | 1877/10696 [42:01<1:13:10,  2.01it/s] 18%|█▊        | 1878/10696 [42:01<1:12:59,  2.01it/s] 18%|█▊        | 1879/10696 [42:02<1:13:02,  2.01it/s] 18%|█▊        | 1880/10696 [42:02<1:12:53,  2.02it/s] 18%|█▊        | 1881/10696 [42:02<1:12:54,  2.01it/s] 18%|█▊        | 1882/10696 [42:03<1:12:51,  2.02it/s] 18%|█▊        | 1883/10696 [42:03<1:12:57,  2.01it/s] 18%|█▊        | 1884/10696 [42:04<1:12:54,  2.01it/s] 18%|█▊        | 1885/10696 [42:04<1:12:52,  2.01it/s] 18%|█▊        | 1886/10696 [42:05<1:12:48,  2.02it/s] 18%|█▊        | 1887/10696 [42:05<1:12:51,  2.01it/s] 18%|█▊        | 1888/10696 [42:06<1:12:45,  2.02it/s] 18%|█▊        | 1889/10696 [42:06<1:12:49,  2.02it/s] 18%|█▊        | 1890/10696 [42:07<1:12:46,  2.02it/s] 18%|█▊        | 1891/10696 [42:07<1:12:53,  2.01it/s] 18%|█▊        | 1892/10696 [42:08<1:12:52,  2.01it/s] 18%|█▊        | 1893/10696 [42:08<1:12:46,  2.02it/s] 18%|█▊        | 1894/10696 [42:09<1:12:48,  2.01it/s] 18%|█▊        | 1895/10696 [42:09<1:12:44,  2.02it/s] 18%|█▊        | 1896/10696 [42:10<1:12:45,  2.02it/s] 18%|█▊        | 1897/10696 [42:10<1:12:41,  2.02it/s] 18%|█▊        | 1898/10696 [42:11<1:12:44,  2.02it/s] 18%|█▊        | 1899/10696 [42:11<1:12:40,  2.02it/s] 18%|█▊        | 1900/10696 [42:12<1:12:44,  2.02it/s]{'loss': 4.111, 'grad_norm': 0.23352862894535065, 'learning_rate': 0.0009817674686025723, 'epoch': 0.18}
-                                                       18%|█▊        | 1900/10696 [42:12<1:12:44,  2.02it/s] 18%|█▊        | 1901/10696 [42:12<1:12:51,  2.01it/s] 18%|█▊        | 1902/10696 [42:13<1:12:48,  2.01it/s] 18%|█▊        | 1903/10696 [42:13<1:12:48,  2.01it/s] 18%|█▊        | 1904/10696 [42:14<1:12:41,  2.02it/s] 18%|█▊        | 1905/10696 [42:14<1:12:44,  2.01it/s] 18%|█▊        | 1906/10696 [42:15<1:12:43,  2.01it/s] 18%|█▊        | 1907/10696 [42:15<1:12:39,  2.02it/s] 18%|█▊        | 1908/10696 [42:16<1:12:43,  2.01it/s] 18%|█▊        | 1909/10696 [42:16<1:12:37,  2.02it/s] 18%|█▊        | 1910/10696 [42:17<1:12:38,  2.02it/s] 18%|█▊        | 1911/10696 [42:17<1:12:35,  2.02it/s] 18%|█▊        | 1912/10696 [42:18<1:12:37,  2.02it/s] 18%|█▊        | 1913/10696 [42:18<1:12:46,  2.01it/s] 18%|█▊        | 1914/10696 [42:19<1:12:40,  2.01it/s] 18%|█▊        | 1915/10696 [42:19<1:12:43,  2.01it/s] 18%|█▊        | 1916/10696 [42:20<1:12:40,  2.01it/s] 18%|█▊        | 1917/10696 [42:20<1:12:36,  2.02it/s] 18%|█▊        | 1918/10696 [42:21<1:12:32,  2.02it/s] 18%|█▊        | 1919/10696 [42:21<1:12:32,  2.02it/s] 18%|█▊        | 1920/10696 [42:22<1:12:30,  2.02it/s] 18%|█▊        | 1921/10696 [42:22<1:12:29,  2.02it/s] 18%|█▊        | 1922/10696 [42:23<1:12:31,  2.02it/s] 18%|█▊        | 1923/10696 [42:23<1:12:27,  2.02it/s] 18%|█▊        | 1924/10696 [42:24<1:12:32,  2.02it/s] 18%|█▊        | 1925/10696 [42:24<1:12:28,  2.02it/s]{'loss': 4.1037, 'grad_norm': 0.2406768500804901, 'learning_rate': 0.0009806598239583907, 'epoch': 0.18}
-                                                       18%|█▊        | 1925/10696 [42:24<1:12:28,  2.02it/s] 18%|█▊        | 1926/10696 [42:25<1:12:36,  2.01it/s] 18%|█▊        | 1927/10696 [42:25<1:12:31,  2.02it/s] 18%|█▊        | 1928/10696 [42:26<1:13:36,  1.99it/s] 18%|█▊        | 1929/10696 [42:26<1:13:17,  1.99it/s] 18%|█▊        | 1930/10696 [42:27<1:13:01,  2.00it/s] 18%|█▊        | 1931/10696 [42:27<1:12:49,  2.01it/s] 18%|█▊        | 1932/10696 [42:28<1:12:43,  2.01it/s] 18%|█▊        | 1933/10696 [42:28<1:12:36,  2.01it/s] 18%|█▊        | 1934/10696 [42:29<1:12:37,  2.01it/s] 18%|█▊        | 1935/10696 [42:29<1:12:29,  2.01it/s] 18%|█▊        | 1936/10696 [42:30<1:12:33,  2.01it/s] 18%|█▊        | 1937/10696 [42:30<1:12:27,  2.01it/s] 18%|█▊        | 1938/10696 [42:31<1:12:26,  2.01it/s] 18%|█▊        | 1939/10696 [42:31<1:12:27,  2.01it/s] 18%|█▊        | 1940/10696 [42:32<1:12:27,  2.01it/s] 18%|█▊        | 1941/10696 [42:32<1:12:24,  2.02it/s] 18%|█▊        | 1942/10696 [42:33<1:12:22,  2.02it/s] 18%|█▊        | 1943/10696 [42:33<1:12:27,  2.01it/s] 18%|█▊        | 1944/10696 [42:34<1:12:22,  2.02it/s] 18%|█▊        | 1945/10696 [42:34<1:12:25,  2.01it/s] 18%|█▊        | 1946/10696 [42:35<1:12:20,  2.02it/s] 18%|█▊        | 1947/10696 [42:35<1:12:21,  2.02it/s] 18%|█▊        | 1948/10696 [42:36<1:12:23,  2.01it/s] 18%|█▊        | 1949/10696 [42:36<1:12:23,  2.01it/s] 18%|█▊        | 1950/10696 [42:37<1:12:22,  2.01it/s]{'loss': 4.0966, 'grad_norm': 0.22319981455802917, 'learning_rate': 0.0009795201812679588, 'epoch': 0.18}
-                                                       18%|█▊        | 1950/10696 [42:37<1:12:22,  2.01it/s] 18%|█▊        | 1951/10696 [42:37<1:13:22,  1.99it/s] 18%|█▊        | 1952/10696 [42:38<1:13:02,  2.00it/s] 18%|█▊        | 1953/10696 [42:38<1:12:44,  2.00it/s] 18%|█▊        | 1954/10696 [42:39<1:12:45,  2.00it/s] 18%|█▊        | 1955/10696 [42:39<1:12:38,  2.01it/s] 18%|█▊        | 1956/10696 [42:40<1:12:30,  2.01it/s] 18%|█▊        | 1957/10696 [42:40<1:13:19,  1.99it/s] 18%|█▊        | 1958/10696 [42:41<1:12:54,  2.00it/s] 18%|█▊        | 1959/10696 [42:41<1:12:47,  2.00it/s] 18%|█▊        | 1960/10696 [42:42<1:12:30,  2.01it/s] 18%|█▊        | 1961/10696 [42:42<1:12:26,  2.01it/s] 18%|█▊        | 1962/10696 [42:43<1:12:16,  2.01it/s] 18%|█▊        | 1963/10696 [42:43<1:12:15,  2.01it/s] 18%|█▊        | 1964/10696 [42:44<1:12:18,  2.01it/s] 18%|█▊        | 1965/10696 [42:44<1:12:16,  2.01it/s] 18%|█▊        | 1966/10696 [42:45<1:12:14,  2.01it/s] 18%|█▊        | 1967/10696 [42:45<1:12:11,  2.02it/s] 18%|█▊        | 1968/10696 [42:46<1:12:14,  2.01it/s] 18%|█▊        | 1969/10696 [42:46<1:12:13,  2.01it/s] 18%|█▊        | 1970/10696 [42:47<1:12:14,  2.01it/s] 18%|█▊        | 1971/10696 [42:47<1:12:08,  2.02it/s] 18%|█▊        | 1972/10696 [42:48<1:12:09,  2.01it/s] 18%|█▊        | 1973/10696 [42:48<1:12:09,  2.01it/s] 18%|█▊        | 1974/10696 [42:49<1:12:10,  2.01it/s] 18%|█▊        | 1975/10696 [42:49<1:12:14,  2.01it/s]{'loss': 4.0882, 'grad_norm': 0.22948966920375824, 'learning_rate': 0.0009783486163985268, 'epoch': 0.18}
-                                                       18%|█▊        | 1975/10696 [42:49<1:12:14,  2.01it/s] 18%|█▊        | 1976/10696 [42:50<1:12:21,  2.01it/s] 18%|█▊        | 1977/10696 [42:50<1:12:15,  2.01it/s] 18%|█▊        | 1978/10696 [42:51<1:12:15,  2.01it/s] 19%|█▊        | 1979/10696 [42:51<1:12:08,  2.01it/s] 19%|█▊        | 1980/10696 [42:52<1:12:06,  2.01it/s] 19%|█▊        | 1981/10696 [42:52<1:12:00,  2.02it/s] 19%|█▊        | 1982/10696 [42:53<1:12:03,  2.02it/s] 19%|█▊        | 1983/10696 [42:53<1:12:00,  2.02it/s] 19%|█▊        | 1984/10696 [42:54<1:12:02,  2.02it/s] 19%|█▊        | 1985/10696 [42:54<1:12:01,  2.02it/s] 19%|█▊        | 1986/10696 [42:55<1:12:00,  2.02it/s] 19%|█▊        | 1987/10696 [42:55<1:11:57,  2.02it/s] 19%|█▊        | 1988/10696 [42:56<1:11:59,  2.02it/s] 19%|█▊        | 1989/10696 [42:56<1:12:02,  2.01it/s] 19%|█▊        | 1990/10696 [42:57<1:11:58,  2.02it/s] 19%|█▊        | 1991/10696 [42:57<1:12:00,  2.01it/s] 19%|█▊        | 1992/10696 [42:58<1:11:59,  2.01it/s] 19%|█▊        | 1993/10696 [42:58<1:12:03,  2.01it/s] 19%|█▊        | 1994/10696 [42:59<1:12:07,  2.01it/s] 19%|█▊        | 1995/10696 [42:59<1:12:04,  2.01it/s] 19%|█▊        | 1996/10696 [43:00<1:12:00,  2.01it/s] 19%|█▊        | 1997/10696 [43:00<1:11:57,  2.01it/s] 19%|█▊        | 1998/10696 [43:01<1:11:56,  2.02it/s] 19%|█▊        | 1999/10696 [43:01<1:11:55,  2.02it/s] 19%|█▊        | 2000/10696 [43:02<1:11:49,  2.02it/s]{'loss': 4.0826, 'grad_norm': 0.23388968408107758, 'learning_rate': 0.0009771452073424405, 'epoch': 0.19}
-                                                       19%|█▊        | 2000/10696 [43:02<1:11:49,  2.02it/s] 19%|█▊        | 2001/10696 [43:02<1:13:16,  1.98it/s] 19%|█▊        | 2002/10696 [43:03<1:12:51,  1.99it/s] 19%|█▊        | 2003/10696 [43:03<1:12:35,  2.00it/s] 19%|█▊        | 2004/10696 [43:04<1:12:21,  2.00it/s] 19%|█▊        | 2005/10696 [43:04<1:12:11,  2.01it/s] 19%|█▉        | 2006/10696 [43:05<1:12:09,  2.01it/s] 19%|█▉        | 2007/10696 [43:05<1:12:06,  2.01it/s] 19%|█▉        | 2008/10696 [43:06<1:12:03,  2.01it/s] 19%|█▉        | 2009/10696 [43:06<1:12:01,  2.01it/s] 19%|█▉        | 2010/10696 [43:07<1:11:55,  2.01it/s] 19%|█▉        | 2011/10696 [43:07<1:11:55,  2.01it/s] 19%|█▉        | 2012/10696 [43:08<1:11:48,  2.02it/s] 19%|█▉        | 2013/10696 [43:08<1:11:48,  2.02it/s] 19%|█▉        | 2014/10696 [43:09<1:11:41,  2.02it/s] 19%|█▉        | 2015/10696 [43:09<1:11:46,  2.02it/s] 19%|█▉        | 2016/10696 [43:10<1:11:43,  2.02it/s] 19%|█▉        | 2017/10696 [43:10<1:11:48,  2.01it/s] 19%|█▉        | 2018/10696 [43:11<1:11:45,  2.02it/s] 19%|█▉        | 2019/10696 [43:11<1:11:48,  2.01it/s] 19%|█▉        | 2020/10696 [43:12<1:11:46,  2.01it/s] 19%|█▉        | 2021/10696 [43:12<1:11:47,  2.01it/s] 19%|█▉        | 2022/10696 [43:13<1:11:40,  2.02it/s] 19%|█▉        | 2023/10696 [43:13<1:11:41,  2.02it/s] 19%|█▉        | 2024/10696 [43:14<1:11:36,  2.02it/s] 19%|█▉        | 2025/10696 [43:14<1:11:41,  2.02it/s]{'loss': 4.0844, 'grad_norm': 0.22872169315814972, 'learning_rate': 0.0009759100342119467, 'epoch': 0.19}
-                                                       19%|█▉        | 2025/10696 [43:14<1:11:41,  2.02it/s] 19%|█▉        | 2026/10696 [43:15<1:11:48,  2.01it/s] 19%|█▉        | 2027/10696 [43:15<1:11:45,  2.01it/s] 19%|█▉        | 2028/10696 [43:16<1:11:50,  2.01it/s] 19%|█▉        | 2029/10696 [43:16<1:11:43,  2.01it/s] 19%|█▉        | 2030/10696 [43:17<1:11:43,  2.01it/s] 19%|█▉        | 2031/10696 [43:17<1:11:35,  2.02it/s] 19%|█▉        | 2032/10696 [43:18<1:11:34,  2.02it/s] 19%|█▉        | 2033/10696 [43:18<1:11:31,  2.02it/s] 19%|█▉        | 2034/10696 [43:19<1:11:37,  2.02it/s] 19%|█▉        | 2035/10696 [43:19<1:11:37,  2.02it/s] 19%|█▉        | 2036/10696 [43:20<1:11:38,  2.01it/s] 19%|█▉        | 2037/10696 [43:20<1:11:34,  2.02it/s] 19%|█▉        | 2038/10696 [43:21<1:11:34,  2.02it/s] 19%|█▉        | 2039/10696 [43:21<1:11:34,  2.02it/s] 19%|█▉        | 2040/10696 [43:22<1:11:30,  2.02it/s] 19%|█▉        | 2041/10696 [43:22<1:11:37,  2.01it/s] 19%|█▉        | 2042/10696 [43:22<1:11:34,  2.01it/s] 19%|█▉        | 2043/10696 [43:23<1:11:34,  2.01it/s] 19%|█▉        | 2044/10696 [43:23<1:11:30,  2.02it/s] 19%|█▉        | 2045/10696 [43:24<1:11:29,  2.02it/s] 19%|█▉        | 2046/10696 [43:24<1:11:32,  2.01it/s] 19%|█▉        | 2047/10696 [43:25<1:11:28,  2.02it/s] 19%|█▉        | 2048/10696 [43:25<1:11:26,  2.02it/s] 19%|█▉        | 2049/10696 [43:26<1:11:24,  2.02it/s] 19%|█▉        | 2050/10696 [43:26<1:11:31,  2.01it/s]{'loss': 4.0706, 'grad_norm': 0.2273617386817932, 'learning_rate': 0.0009746431792338614, 'epoch': 0.19}
-                                                       19%|█▉        | 2050/10696 [43:26<1:11:31,  2.01it/s] 19%|█▉        | 2051/10696 [43:27<1:11:38,  2.01it/s] 19%|█▉        | 2052/10696 [43:27<1:11:32,  2.01it/s] 19%|█▉        | 2053/10696 [43:28<1:11:28,  2.02it/s] 19%|█▉        | 2054/10696 [43:28<1:11:26,  2.02it/s] 19%|█▉        | 2055/10696 [43:29<1:11:29,  2.01it/s] 19%|█▉        | 2056/10696 [43:29<1:11:26,  2.02it/s] 19%|█▉        | 2057/10696 [43:30<1:11:29,  2.01it/s] 19%|█▉        | 2058/10696 [43:30<1:11:26,  2.02it/s] 19%|█▉        | 2059/10696 [43:31<1:11:29,  2.01it/s] 19%|█▉        | 2060/10696 [43:31<1:11:27,  2.01it/s] 19%|█▉        | 2061/10696 [43:32<1:11:25,  2.02it/s] 19%|█▉        | 2062/10696 [43:32<1:11:26,  2.01it/s] 19%|█▉        | 2063/10696 [43:33<1:11:24,  2.02it/s] 19%|█▉        | 2064/10696 [43:33<1:11:25,  2.01it/s] 19%|█▉        | 2065/10696 [43:34<1:11:22,  2.02it/s] 19%|█▉        | 2066/10696 [43:34<1:11:24,  2.01it/s] 19%|█▉        | 2067/10696 [43:35<1:11:22,  2.02it/s] 19%|█▉        | 2068/10696 [43:35<1:11:22,  2.01it/s] 19%|█▉        | 2069/10696 [43:36<1:11:25,  2.01it/s] 19%|█▉        | 2070/10696 [43:36<1:11:28,  2.01it/s] 19%|█▉        | 2071/10696 [43:37<1:11:24,  2.01it/s] 19%|█▉        | 2072/10696 [43:37<1:11:23,  2.01it/s] 19%|█▉        | 2073/10696 [43:38<1:11:22,  2.01it/s] 19%|█▉        | 2074/10696 [43:38<1:11:17,  2.02it/s] 19%|█▉        | 2075/10696 [43:39<1:11:19,  2.01it/s]{'loss': 4.0706, 'grad_norm': 0.23895329236984253, 'learning_rate': 0.000973344726744096, 'epoch': 0.19}
-                                                       19%|█▉        | 2075/10696 [43:39<1:11:19,  2.01it/s] 19%|█▉        | 2076/10696 [43:39<1:11:23,  2.01it/s] 19%|█▉        | 2077/10696 [43:40<1:11:25,  2.01it/s] 19%|█▉        | 2078/10696 [43:40<1:11:20,  2.01it/s] 19%|█▉        | 2079/10696 [43:41<1:11:18,  2.01it/s] 19%|█▉        | 2080/10696 [43:41<1:11:17,  2.01it/s] 19%|█▉        | 2081/10696 [43:42<1:11:16,  2.01it/s] 19%|█▉        | 2082/10696 [43:42<1:11:17,  2.01it/s] 19%|█▉        | 2083/10696 [43:43<1:11:14,  2.01it/s] 19%|█▉        | 2084/10696 [43:43<1:11:23,  2.01it/s] 19%|█▉        | 2085/10696 [43:44<1:11:20,  2.01it/s] 20%|█▉        | 2086/10696 [43:44<1:11:18,  2.01it/s] 20%|█▉        | 2087/10696 [43:45<1:11:13,  2.01it/s] 20%|█▉        | 2088/10696 [43:45<1:11:12,  2.01it/s] 20%|█▉        | 2089/10696 [43:46<1:11:12,  2.01it/s] 20%|█▉        | 2090/10696 [43:46<1:11:17,  2.01it/s] 20%|█▉        | 2091/10696 [43:47<1:11:13,  2.01it/s] 20%|█▉        | 2092/10696 [43:47<1:11:11,  2.01it/s] 20%|█▉        | 2093/10696 [43:48<1:11:12,  2.01it/s] 20%|█▉        | 2094/10696 [43:48<1:11:07,  2.02it/s] 20%|█▉        | 2095/10696 [43:49<1:11:11,  2.01it/s] 20%|█▉        | 2096/10696 [43:49<1:11:07,  2.02it/s] 20%|█▉        | 2097/10696 [43:50<1:11:07,  2.02it/s] 20%|█▉        | 2098/10696 [43:50<1:11:06,  2.02it/s] 20%|█▉        | 2099/10696 [43:51<1:11:05,  2.02it/s] 20%|█▉        | 2100/10696 [43:51<1:11:08,  2.01it/s]{'loss': 4.0653, 'grad_norm': 0.23844115436077118, 'learning_rate': 0.0009720147631820422, 'epoch': 0.2}
-                                                       20%|█▉        | 2100/10696 [43:51<1:11:08,  2.01it/s] 20%|█▉        | 2101/10696 [43:52<1:11:08,  2.01it/s] 20%|█▉        | 2102/10696 [43:52<1:11:13,  2.01it/s] 20%|█▉        | 2103/10696 [43:53<1:11:09,  2.01it/s] 20%|█▉        | 2104/10696 [43:53<1:11:07,  2.01it/s] 20%|█▉        | 2105/10696 [43:54<1:11:05,  2.01it/s] 20%|█▉        | 2106/10696 [43:54<1:11:05,  2.01it/s] 20%|█▉        | 2107/10696 [43:55<1:11:00,  2.02it/s] 20%|█▉        | 2108/10696 [43:55<1:11:00,  2.02it/s] 20%|█▉        | 2109/10696 [43:56<1:11:01,  2.01it/s] 20%|█▉        | 2110/10696 [43:56<1:11:02,  2.01it/s] 20%|█▉        | 2111/10696 [43:57<1:10:59,  2.02it/s] 20%|█▉        | 2112/10696 [43:57<1:10:57,  2.02it/s] 20%|█▉        | 2113/10696 [43:58<1:11:00,  2.01it/s] 20%|█▉        | 2114/10696 [43:58<1:10:56,  2.02it/s] 20%|█▉        | 2115/10696 [43:59<1:11:01,  2.01it/s] 20%|█▉        | 2116/10696 [43:59<1:10:56,  2.02it/s] 20%|█▉        | 2117/10696 [44:00<1:10:56,  2.02it/s] 20%|█▉        | 2118/10696 [44:00<1:10:56,  2.02it/s] 20%|█▉        | 2119/10696 [44:01<1:10:58,  2.01it/s] 20%|█▉        | 2120/10696 [44:01<1:11:03,  2.01it/s] 20%|█▉        | 2121/10696 [44:02<1:11:01,  2.01it/s] 20%|█▉        | 2122/10696 [44:02<1:11:00,  2.01it/s] 20%|█▉        | 2123/10696 [44:03<1:11:02,  2.01it/s] 20%|█▉        | 2124/10696 [44:03<1:10:58,  2.01it/s] 20%|█▉        | 2125/10696 [44:04<1:10:59,  2.01it/s]{'loss': 4.066, 'grad_norm': 0.21438515186309814, 'learning_rate': 0.0009706533770848179, 'epoch': 0.2}
-                                                       20%|█▉        | 2125/10696 [44:04<1:10:59,  2.01it/s] 20%|█▉        | 2126/10696 [44:04<1:11:02,  2.01it/s] 20%|█▉        | 2127/10696 [44:05<1:10:54,  2.01it/s] 20%|█▉        | 2128/10696 [44:05<1:10:53,  2.01it/s] 20%|█▉        | 2129/10696 [44:06<1:10:51,  2.01it/s] 20%|█▉        | 2130/10696 [44:06<1:11:03,  2.01it/s] 20%|█▉        | 2131/10696 [44:07<1:11:01,  2.01it/s] 20%|█▉        | 2132/10696 [44:07<1:10:53,  2.01it/s] 20%|█▉        | 2133/10696 [44:08<1:10:58,  2.01it/s] 20%|█▉        | 2134/10696 [44:08<1:10:52,  2.01it/s] 20%|█▉        | 2135/10696 [44:09<1:10:50,  2.01it/s] 20%|█▉        | 2136/10696 [44:09<1:10:51,  2.01it/s] 20%|█▉        | 2137/10696 [44:10<1:10:47,  2.02it/s] 20%|█▉        | 2138/10696 [44:10<1:10:48,  2.01it/s] 20%|█▉        | 2139/10696 [44:11<1:10:45,  2.02it/s] 20%|██        | 2140/10696 [44:11<1:10:45,  2.02it/s] 20%|██        | 2141/10696 [44:12<1:10:46,  2.01it/s] 20%|██        | 2142/10696 [44:12<1:10:49,  2.01it/s] 20%|██        | 2143/10696 [44:13<1:10:47,  2.01it/s] 20%|██        | 2144/10696 [44:13<1:10:48,  2.01it/s] 20%|██        | 2145/10696 [44:14<1:10:44,  2.01it/s] 20%|██        | 2146/10696 [44:14<1:10:41,  2.02it/s] 20%|██        | 2147/10696 [44:15<1:10:41,  2.02it/s] 20%|██        | 2148/10696 [44:15<1:10:39,  2.02it/s] 20%|██        | 2149/10696 [44:16<1:10:34,  2.02it/s] 20%|██        | 2150/10696 [44:16<1:10:38,  2.02it/s]{'loss': 4.065, 'grad_norm': 0.23035117983818054, 'learning_rate': 0.0009692606590813735, 'epoch': 0.2}
-                                                       20%|██        | 2150/10696 [44:16<1:10:38,  2.02it/s] 20%|██        | 2151/10696 [44:17<1:10:46,  2.01it/s] 20%|██        | 2152/10696 [44:17<1:10:45,  2.01it/s] 20%|██        | 2153/10696 [44:18<1:10:46,  2.01it/s] 20%|██        | 2154/10696 [44:18<1:10:40,  2.01it/s] 20%|██        | 2155/10696 [44:19<1:10:40,  2.01it/s] 20%|██        | 2156/10696 [44:19<1:10:37,  2.02it/s] 20%|██        | 2157/10696 [44:20<1:10:38,  2.01it/s] 20%|██        | 2158/10696 [44:20<1:10:34,  2.02it/s] 20%|██        | 2159/10696 [44:21<1:11:30,  1.99it/s] 20%|██        | 2160/10696 [44:21<1:11:17,  2.00it/s] 20%|██        | 2161/10696 [44:22<1:11:09,  2.00it/s] 20%|██        | 2162/10696 [44:22<1:10:55,  2.01it/s] 20%|██        | 2163/10696 [44:23<1:10:51,  2.01it/s] 20%|██        | 2164/10696 [44:23<1:10:41,  2.01it/s] 20%|██        | 2165/10696 [44:24<1:10:40,  2.01it/s] 20%|██        | 2166/10696 [44:24<1:10:34,  2.01it/s] 20%|██        | 2167/10696 [44:25<1:10:35,  2.01it/s] 20%|██        | 2168/10696 [44:25<1:10:35,  2.01it/s] 20%|██        | 2169/10696 [44:26<1:10:28,  2.02it/s] 20%|██        | 2170/10696 [44:26<1:10:31,  2.01it/s] 20%|██        | 2171/10696 [44:27<1:10:29,  2.02it/s] 20%|██        | 2172/10696 [44:27<1:10:31,  2.01it/s] 20%|██        | 2173/10696 [44:28<1:10:31,  2.01it/s] 20%|██        | 2174/10696 [44:28<1:10:28,  2.02it/s] 20%|██        | 2175/10696 [44:29<1:10:28,  2.02it/s]{'loss': 4.0542, 'grad_norm': 0.23340004682540894, 'learning_rate': 0.0009678367018864585, 'epoch': 0.2}
-                                                       20%|██        | 2175/10696 [44:29<1:10:28,  2.02it/s] 20%|██        | 2176/10696 [44:29<1:10:31,  2.01it/s] 20%|██        | 2177/10696 [44:30<1:10:33,  2.01it/s] 20%|██        | 2178/10696 [44:30<1:10:30,  2.01it/s] 20%|██        | 2179/10696 [44:31<1:10:29,  2.01it/s] 20%|██        | 2180/10696 [44:31<1:10:30,  2.01it/s] 20%|██        | 2181/10696 [44:32<1:10:25,  2.02it/s] 20%|██        | 2182/10696 [44:32<1:11:56,  1.97it/s] 20%|██        | 2183/10696 [44:33<1:11:28,  1.99it/s] 20%|██        | 2184/10696 [44:33<1:11:08,  1.99it/s] 20%|██        | 2185/10696 [44:34<1:10:52,  2.00it/s] 20%|██        | 2186/10696 [44:34<1:10:43,  2.01it/s] 20%|██        | 2187/10696 [44:35<1:10:34,  2.01it/s] 20%|██        | 2188/10696 [44:35<1:10:30,  2.01it/s] 20%|██        | 2189/10696 [44:36<1:10:21,  2.02it/s] 20%|██        | 2190/10696 [44:36<1:10:22,  2.01it/s] 20%|██        | 2191/10696 [44:37<1:10:17,  2.02it/s] 20%|██        | 2192/10696 [44:37<1:10:20,  2.01it/s] 21%|██        | 2193/10696 [44:38<1:10:20,  2.01it/s] 21%|██        | 2194/10696 [44:38<1:10:21,  2.01it/s] 21%|██        | 2195/10696 [44:39<1:10:19,  2.01it/s] 21%|██        | 2196/10696 [44:39<1:10:18,  2.02it/s] 21%|██        | 2197/10696 [44:39<1:10:17,  2.02it/s] 21%|██        | 2198/10696 [44:40<1:10:12,  2.02it/s] 21%|██        | 2199/10696 [44:40<1:10:13,  2.02it/s] 21%|██        | 2200/10696 [44:41<1:10:08,  2.02it/s]                                                      {'loss': 4.0448, 'grad_norm': 0.24781110882759094, 'learning_rate': 0.0009663816002944487, 'epoch': 0.21}
- 21%|██        | 2200/10696 [44:41<1:10:08,  2.02it/s] 21%|██        | 2201/10696 [44:41<1:10:20,  2.01it/s] 21%|██        | 2202/10696 [44:42<1:10:19,  2.01it/s] 21%|██        | 2203/10696 [44:42<1:10:16,  2.01it/s] 21%|██        | 2204/10696 [44:43<1:10:14,  2.01it/s] 21%|██        | 2205/10696 [44:43<1:10:14,  2.01it/s] 21%|██        | 2206/10696 [44:44<1:10:16,  2.01it/s] 21%|██        | 2207/10696 [44:44<1:10:15,  2.01it/s] 21%|██        | 2208/10696 [44:45<1:10:16,  2.01it/s] 21%|██        | 2209/10696 [44:45<1:10:15,  2.01it/s] 21%|██        | 2210/10696 [44:46<1:10:11,  2.01it/s] 21%|██        | 2211/10696 [44:46<1:10:16,  2.01it/s] 21%|██        | 2212/10696 [44:47<1:10:10,  2.01it/s] 21%|██        | 2213/10696 [44:47<1:10:10,  2.01it/s] 21%|██        | 2214/10696 [44:48<1:10:09,  2.01it/s] 21%|██        | 2215/10696 [44:48<1:10:09,  2.01it/s] 21%|██        | 2216/10696 [44:49<1:10:04,  2.02it/s] 21%|██        | 2217/10696 [44:49<1:10:06,  2.02it/s] 21%|██        | 2218/10696 [44:50<1:10:08,  2.01it/s] 21%|██        | 2219/10696 [44:50<1:10:10,  2.01it/s] 21%|██        | 2220/10696 [44:51<1:10:08,  2.01it/s] 21%|██        | 2221/10696 [44:51<1:10:04,  2.02it/s] 21%|██        | 2222/10696 [44:52<1:10:07,  2.01it/s] 21%|██        | 2223/10696 [44:52<1:10:01,  2.02it/s] 21%|██        | 2224/10696 [44:53<1:10:02,  2.02it/s] 21%|██        | 2225/10696 [44:53<1:10:00,  2.02it/s]                                                      {'loss': 4.0458, 'grad_norm': 0.2479589581489563, 'learning_rate': 0.0009648954511730369, 'epoch': 0.21}
- 21%|██        | 2225/10696 [44:53<1:10:00,  2.02it/s] 21%|██        | 2226/10696 [44:54<1:10:05,  2.01it/s] 21%|██        | 2227/10696 [44:54<1:10:01,  2.02it/s] 21%|██        | 2228/10696 [44:55<1:10:03,  2.01it/s] 21%|██        | 2229/10696 [44:55<1:10:05,  2.01it/s] 21%|██        | 2230/10696 [44:56<1:10:04,  2.01it/s] 21%|██        | 2231/10696 [44:56<1:10:06,  2.01it/s] 21%|██        | 2232/10696 [44:57<1:10:04,  2.01it/s] 21%|██        | 2233/10696 [44:57<1:10:07,  2.01it/s] 21%|██        | 2234/10696 [44:58<1:10:04,  2.01it/s] 21%|██        | 2235/10696 [44:58<1:10:00,  2.01it/s] 21%|██        | 2236/10696 [44:59<1:09:57,  2.02it/s] 21%|██        | 2237/10696 [44:59<1:09:57,  2.02it/s] 21%|██        | 2238/10696 [45:00<1:09:52,  2.02it/s] 21%|██        | 2239/10696 [45:00<1:09:56,  2.02it/s] 21%|██        | 2240/10696 [45:01<1:09:56,  2.02it/s] 21%|██        | 2241/10696 [45:01<1:09:56,  2.01it/s] 21%|██        | 2242/10696 [45:02<1:09:54,  2.02it/s] 21%|██        | 2243/10696 [45:02<1:09:52,  2.02it/s] 21%|██        | 2244/10696 [45:03<1:09:56,  2.01it/s] 21%|██        | 2245/10696 [45:03<1:09:48,  2.02it/s] 21%|██        | 2246/10696 [45:04<1:09:52,  2.02it/s] 21%|██        | 2247/10696 [45:04<1:09:48,  2.02it/s] 21%|██        | 2248/10696 [45:05<1:09:50,  2.02it/s] 21%|██        | 2249/10696 [45:05<1:09:48,  2.02it/s] 21%|██        | 2250/10696 [45:06<1:09:50,  2.02it/s]{'loss': 4.0378, 'grad_norm': 0.21119019389152527, 'learning_rate': 0.0009633783534567834, 'epoch': 0.21}
-                                                       21%|██        | 2250/10696 [45:06<1:09:50,  2.02it/s] 21%|██        | 2251/10696 [45:06<1:09:58,  2.01it/s] 21%|██        | 2252/10696 [45:07<1:09:50,  2.02it/s] 21%|██        | 2253/10696 [45:07<1:09:51,  2.01it/s] 21%|██        | 2254/10696 [45:08<1:09:46,  2.02it/s] 21%|██        | 2255/10696 [45:08<1:09:47,  2.02it/s] 21%|██        | 2256/10696 [45:09<1:09:41,  2.02it/s] 21%|██        | 2257/10696 [45:09<1:09:45,  2.02it/s] 21%|██        | 2258/10696 [45:10<1:09:47,  2.02it/s] 21%|██        | 2259/10696 [45:10<1:09:48,  2.01it/s] 21%|██        | 2260/10696 [45:11<1:09:48,  2.01it/s] 21%|██        | 2261/10696 [45:11<1:09:49,  2.01it/s] 21%|██        | 2262/10696 [45:12<1:10:42,  1.99it/s] 21%|██        | 2263/10696 [45:12<1:10:26,  2.00it/s] 21%|██        | 2264/10696 [45:13<1:10:09,  2.00it/s] 21%|██        | 2265/10696 [45:13<1:10:02,  2.01it/s] 21%|██        | 2266/10696 [45:14<1:09:53,  2.01it/s] 21%|██        | 2267/10696 [45:14<1:09:50,  2.01it/s] 21%|██        | 2268/10696 [45:15<1:09:50,  2.01it/s] 21%|██        | 2269/10696 [45:15<1:09:48,  2.01it/s] 21%|██        | 2270/10696 [45:16<1:09:48,  2.01it/s] 21%|██        | 2271/10696 [45:16<1:09:42,  2.01it/s] 21%|██        | 2272/10696 [45:17<1:09:44,  2.01it/s] 21%|██▏       | 2273/10696 [45:17<1:09:39,  2.02it/s] 21%|██▏       | 2274/10696 [45:18<1:09:43,  2.01it/s] 21%|██▏       | 2275/10696 [45:18<1:09:43,  2.01it/s]{'loss': 4.0322, 'grad_norm': 0.23111474514007568, 'learning_rate': 0.0009618304081405298, 'epoch': 0.21}
-                                                       21%|██▏       | 2275/10696 [45:18<1:09:43,  2.01it/s] 21%|██▏       | 2276/10696 [45:19<1:09:43,  2.01it/s] 21%|██▏       | 2277/10696 [45:19<1:09:43,  2.01it/s] 21%|██▏       | 2278/10696 [45:20<1:09:43,  2.01it/s] 21%|██▏       | 2279/10696 [45:20<1:09:42,  2.01it/s] 21%|██▏       | 2280/10696 [45:21<1:09:42,  2.01it/s] 21%|██▏       | 2281/10696 [45:21<1:09:41,  2.01it/s] 21%|██▏       | 2282/10696 [45:22<1:09:38,  2.01it/s] 21%|██▏       | 2283/10696 [45:22<1:09:36,  2.01it/s] 21%|██▏       | 2284/10696 [45:23<1:09:34,  2.02it/s] 21%|██▏       | 2285/10696 [45:23<1:09:38,  2.01it/s] 21%|██▏       | 2286/10696 [45:24<1:09:32,  2.02it/s] 21%|██▏       | 2287/10696 [45:24<1:09:36,  2.01it/s] 21%|██▏       | 2288/10696 [45:25<1:09:31,  2.02it/s] 21%|██▏       | 2289/10696 [45:25<1:09:32,  2.02it/s] 21%|██▏       | 2290/10696 [45:26<1:09:33,  2.01it/s] 21%|██▏       | 2291/10696 [45:26<1:09:34,  2.01it/s] 21%|██▏       | 2292/10696 [45:27<1:10:14,  1.99it/s] 21%|██▏       | 2293/10696 [45:27<1:10:04,  2.00it/s] 21%|██▏       | 2294/10696 [45:28<1:09:49,  2.01it/s] 21%|██▏       | 2295/10696 [45:28<1:09:46,  2.01it/s] 21%|██▏       | 2296/10696 [45:29<1:09:36,  2.01it/s] 21%|██▏       | 2297/10696 [45:29<1:09:40,  2.01it/s] 21%|██▏       | 2298/10696 [45:30<1:09:34,  2.01it/s] 21%|██▏       | 2299/10696 [45:30<1:09:33,  2.01it/s] 22%|██▏       | 2300/10696 [45:31<1:09:32,  2.01it/s]{'loss': 4.0324, 'grad_norm': 0.22586171329021454, 'learning_rate': 0.0009602517182726764, 'epoch': 0.22}
-                                                       22%|██▏       | 2300/10696 [45:31<1:09:32,  2.01it/s] 22%|██▏       | 2301/10696 [45:31<1:09:34,  2.01it/s] 22%|██▏       | 2302/10696 [45:32<1:09:33,  2.01it/s] 22%|██▏       | 2303/10696 [45:32<1:09:27,  2.01it/s] 22%|██▏       | 2304/10696 [45:33<1:09:28,  2.01it/s] 22%|██▏       | 2305/10696 [45:33<1:09:25,  2.01it/s] 22%|██▏       | 2306/10696 [45:34<1:09:26,  2.01it/s] 22%|██▏       | 2307/10696 [45:34<1:09:25,  2.01it/s] 22%|██▏       | 2308/10696 [45:35<1:09:20,  2.02it/s] 22%|██▏       | 2309/10696 [45:35<1:09:24,  2.01it/s] 22%|██▏       | 2310/10696 [45:36<1:09:22,  2.01it/s] 22%|██▏       | 2311/10696 [45:36<1:09:25,  2.01it/s] 22%|██▏       | 2312/10696 [45:37<1:09:24,  2.01it/s] 22%|██▏       | 2313/10696 [45:37<1:09:20,  2.01it/s] 22%|██▏       | 2314/10696 [45:38<1:09:24,  2.01it/s] 22%|██▏       | 2315/10696 [45:38<1:09:19,  2.01it/s] 22%|██▏       | 2316/10696 [45:39<1:09:23,  2.01it/s] 22%|██▏       | 2317/10696 [45:39<1:09:22,  2.01it/s] 22%|██▏       | 2318/10696 [45:40<1:09:20,  2.01it/s] 22%|██▏       | 2319/10696 [45:40<1:09:18,  2.01it/s] 22%|██▏       | 2320/10696 [45:41<1:09:16,  2.02it/s] 22%|██▏       | 2321/10696 [45:41<1:09:18,  2.01it/s] 22%|██▏       | 2322/10696 [45:42<1:09:19,  2.01it/s] 22%|██▏       | 2323/10696 [45:42<1:09:18,  2.01it/s] 22%|██▏       | 2324/10696 [45:43<1:09:16,  2.01it/s] 22%|██▏       | 2325/10696 [45:43<1:09:12,  2.02it/s]{'loss': 4.0256, 'grad_norm': 0.22103624045848846, 'learning_rate': 0.0009586423889483214, 'epoch': 0.22}
-                                                       22%|██▏       | 2325/10696 [45:43<1:09:12,  2.02it/s] 22%|██▏       | 2326/10696 [45:44<1:09:20,  2.01it/s] 22%|██▏       | 2327/10696 [45:44<1:09:15,  2.01it/s] 22%|██▏       | 2328/10696 [45:45<1:09:15,  2.01it/s] 22%|██▏       | 2329/10696 [45:45<1:09:14,  2.01it/s] 22%|██▏       | 2330/10696 [45:46<1:09:09,  2.02it/s] 22%|██▏       | 2331/10696 [45:46<1:09:10,  2.02it/s] 22%|██▏       | 2332/10696 [45:47<1:09:07,  2.02it/s] 22%|██▏       | 2333/10696 [45:47<1:09:12,  2.01it/s] 22%|██▏       | 2334/10696 [45:48<1:09:07,  2.02it/s] 22%|██▏       | 2335/10696 [45:48<1:09:09,  2.02it/s] 22%|██▏       | 2336/10696 [45:49<1:09:09,  2.01it/s] 22%|██▏       | 2337/10696 [45:49<1:09:08,  2.01it/s] 22%|██▏       | 2338/10696 [45:50<1:09:06,  2.02it/s] 22%|██▏       | 2339/10696 [45:50<1:09:04,  2.02it/s] 22%|██▏       | 2340/10696 [45:51<1:09:08,  2.01it/s] 22%|██▏       | 2341/10696 [45:51<1:09:02,  2.02it/s] 22%|██▏       | 2342/10696 [45:52<1:09:07,  2.01it/s] 22%|██▏       | 2343/10696 [45:52<1:09:04,  2.02it/s] 22%|██▏       | 2344/10696 [45:53<1:09:06,  2.01it/s] 22%|██▏       | 2345/10696 [45:53<1:09:08,  2.01it/s] 22%|██▏       | 2346/10696 [45:54<1:09:06,  2.01it/s] 22%|██▏       | 2347/10696 [45:54<1:09:08,  2.01it/s] 22%|██▏       | 2348/10696 [45:54<1:09:07,  2.01it/s] 22%|██▏       | 2349/10696 [45:55<1:09:05,  2.01it/s] 22%|██▏       | 2350/10696 [45:55<1:09:03,  2.01it/s]{'loss': 4.0219, 'grad_norm': 0.21100692451000214, 'learning_rate': 0.0009570025273022647, 'epoch': 0.22}
-                                                       22%|██▏       | 2350/10696 [45:55<1:09:03,  2.01it/s] 22%|██▏       | 2351/10696 [45:56<1:09:04,  2.01it/s] 22%|██▏       | 2352/10696 [45:56<1:09:08,  2.01it/s] 22%|██▏       | 2353/10696 [45:57<1:09:04,  2.01it/s] 22%|██▏       | 2354/10696 [45:57<1:09:05,  2.01it/s] 22%|██▏       | 2355/10696 [45:58<1:09:00,  2.01it/s] 22%|██▏       | 2356/10696 [45:58<1:08:58,  2.02it/s] 22%|██▏       | 2357/10696 [45:59<1:08:58,  2.01it/s] 22%|██▏       | 2358/10696 [45:59<1:08:58,  2.01it/s] 22%|██▏       | 2359/10696 [46:00<1:08:58,  2.01it/s] 22%|██▏       | 2360/10696 [46:00<1:08:54,  2.02it/s] 22%|██▏       | 2361/10696 [46:01<1:08:55,  2.02it/s] 22%|██▏       | 2362/10696 [46:01<1:08:51,  2.02it/s] 22%|██▏       | 2363/10696 [46:02<1:08:54,  2.02it/s] 22%|██▏       | 2364/10696 [46:02<1:08:52,  2.02it/s] 22%|██▏       | 2365/10696 [46:03<1:08:58,  2.01it/s] 22%|██▏       | 2366/10696 [46:03<1:08:58,  2.01it/s] 22%|██▏       | 2367/10696 [46:04<1:08:57,  2.01it/s] 22%|██▏       | 2368/10696 [46:04<1:08:55,  2.01it/s] 22%|██▏       | 2369/10696 [46:05<1:08:50,  2.02it/s] 22%|██▏       | 2370/10696 [46:05<1:08:51,  2.02it/s] 22%|██▏       | 2371/10696 [46:06<1:08:50,  2.02it/s] 22%|██▏       | 2372/10696 [46:06<1:08:50,  2.02it/s] 22%|██▏       | 2373/10696 [46:07<1:08:49,  2.02it/s] 22%|██▏       | 2374/10696 [46:07<1:08:50,  2.01it/s] 22%|██▏       | 2375/10696 [46:08<1:08:49,  2.01it/s]                                                      {'loss': 4.0247, 'grad_norm': 0.21614372730255127, 'learning_rate': 0.0009553322425018764, 'epoch': 0.22}
- 22%|██▏       | 2375/10696 [46:08<1:08:49,  2.01it/s] 22%|██▏       | 2376/10696 [46:08<1:08:54,  2.01it/s] 22%|██▏       | 2377/10696 [46:09<1:08:50,  2.01it/s] 22%|██▏       | 2378/10696 [46:09<1:08:48,  2.01it/s] 22%|██▏       | 2379/10696 [46:10<1:08:41,  2.02it/s] 22%|██▏       | 2380/10696 [46:10<1:08:47,  2.01it/s] 22%|██▏       | 2381/10696 [46:11<1:08:48,  2.01it/s] 22%|██▏       | 2382/10696 [46:11<1:08:44,  2.02it/s] 22%|██▏       | 2383/10696 [46:12<1:08:51,  2.01it/s] 22%|██▏       | 2384/10696 [46:12<1:08:46,  2.01it/s] 22%|██▏       | 2385/10696 [46:13<1:08:50,  2.01it/s] 22%|██▏       | 2386/10696 [46:13<1:08:44,  2.01it/s] 22%|██▏       | 2387/10696 [46:14<1:08:42,  2.02it/s] 22%|██▏       | 2388/10696 [46:14<1:08:42,  2.02it/s] 22%|██▏       | 2389/10696 [46:15<1:08:37,  2.02it/s] 22%|██▏       | 2390/10696 [46:15<1:08:41,  2.02it/s] 22%|██▏       | 2391/10696 [46:16<1:08:36,  2.02it/s] 22%|██▏       | 2392/10696 [46:16<1:08:39,  2.02it/s] 22%|██▏       | 2393/10696 [46:17<1:08:35,  2.02it/s] 22%|██▏       | 2394/10696 [46:17<1:08:39,  2.02it/s] 22%|██▏       | 2395/10696 [46:18<1:08:38,  2.02it/s] 22%|██▏       | 2396/10696 [46:18<1:08:37,  2.02it/s] 22%|██▏       | 2397/10696 [46:19<1:08:40,  2.01it/s] 22%|██▏       | 2398/10696 [46:19<1:08:37,  2.02it/s] 22%|██▏       | 2399/10696 [46:20<1:08:37,  2.02it/s] 22%|██▏       | 2400/10696 [46:20<1:08:34,  2.02it/s]                                                      {'loss': 4.0104, 'grad_norm': 0.24505667388439178, 'learning_rate': 0.0009536316457398286, 'epoch': 0.22}
- 22%|██▏       | 2400/10696 [46:20<1:08:34,  2.02it/s] 22%|██▏       | 2401/10696 [46:21<1:08:40,  2.01it/s] 22%|██▏       | 2402/10696 [46:21<1:08:39,  2.01it/s] 22%|██▏       | 2403/10696 [46:22<1:08:38,  2.01it/s] 22%|██▏       | 2404/10696 [46:22<1:08:40,  2.01it/s] 22%|██▏       | 2405/10696 [46:23<1:08:35,  2.01it/s] 22%|██▏       | 2406/10696 [46:23<1:08:36,  2.01it/s] 23%|██▎       | 2407/10696 [46:24<1:08:36,  2.01it/s] 23%|██▎       | 2408/10696 [46:24<1:08:35,  2.01it/s] 23%|██▎       | 2409/10696 [46:25<1:08:32,  2.01it/s] 23%|██▎       | 2410/10696 [46:25<1:08:31,  2.02it/s] 23%|██▎       | 2411/10696 [46:26<1:08:30,  2.02it/s] 23%|██▎       | 2412/10696 [46:26<1:08:29,  2.02it/s] 23%|██▎       | 2413/10696 [46:27<1:08:34,  2.01it/s] 23%|██▎       | 2414/10696 [46:27<1:08:33,  2.01it/s] 23%|██▎       | 2415/10696 [46:28<1:08:36,  2.01it/s] 23%|██▎       | 2416/10696 [46:28<1:08:30,  2.01it/s] 23%|██▎       | 2417/10696 [46:29<1:08:32,  2.01it/s] 23%|██▎       | 2418/10696 [46:29<1:08:29,  2.01it/s] 23%|██▎       | 2419/10696 [46:30<1:08:26,  2.02it/s] 23%|██▎       | 2420/10696 [46:30<1:08:23,  2.02it/s] 23%|██▎       | 2421/10696 [46:31<1:08:25,  2.02it/s] 23%|██▎       | 2422/10696 [46:31<1:08:17,  2.02it/s] 23%|██▎       | 2423/10696 [46:32<1:08:20,  2.02it/s] 23%|██▎       | 2424/10696 [46:32<1:08:18,  2.02it/s] 23%|██▎       | 2425/10696 [46:33<1:08:25,  2.01it/s]{'loss': 4.0032, 'grad_norm': 0.22242486476898193, 'learning_rate': 0.0009519008502266939, 'epoch': 0.23}
-                                                       23%|██▎       | 2425/10696 [46:33<1:08:25,  2.01it/s] 23%|██▎       | 2426/10696 [46:33<1:08:26,  2.01it/s] 23%|██▎       | 2427/10696 [46:34<1:08:29,  2.01it/s] 23%|██▎       | 2428/10696 [46:34<1:08:31,  2.01it/s] 23%|██▎       | 2429/10696 [46:35<1:08:28,  2.01it/s] 23%|██▎       | 2430/10696 [46:35<1:08:26,  2.01it/s] 23%|██▎       | 2431/10696 [46:36<1:08:23,  2.01it/s] 23%|██▎       | 2432/10696 [46:36<1:08:24,  2.01it/s] 23%|██▎       | 2433/10696 [46:37<1:08:24,  2.01it/s] 23%|██▎       | 2434/10696 [46:37<1:08:25,  2.01it/s] 23%|██▎       | 2435/10696 [46:38<1:08:23,  2.01it/s] 23%|██▎       | 2436/10696 [46:38<1:08:25,  2.01it/s] 23%|██▎       | 2437/10696 [46:39<1:08:23,  2.01it/s] 23%|██▎       | 2438/10696 [46:39<1:08:21,  2.01it/s] 23%|██▎       | 2439/10696 [46:40<1:08:18,  2.01it/s] 23%|██▎       | 2440/10696 [46:40<1:08:15,  2.02it/s] 23%|██▎       | 2441/10696 [46:41<1:08:15,  2.02it/s] 23%|██▎       | 2442/10696 [46:41<1:08:13,  2.02it/s] 23%|██▎       | 2443/10696 [46:42<1:08:16,  2.01it/s] 23%|██▎       | 2444/10696 [46:42<1:08:14,  2.02it/s] 23%|██▎       | 2445/10696 [46:43<1:08:17,  2.01it/s] 23%|██▎       | 2446/10696 [46:43<1:08:15,  2.01it/s] 23%|██▎       | 2447/10696 [46:44<1:08:15,  2.01it/s] 23%|██▎       | 2448/10696 [46:44<1:08:18,  2.01it/s] 23%|██▎       | 2449/10696 [46:45<1:08:13,  2.01it/s] 23%|██▎       | 2450/10696 [46:45<1:08:13,  2.01it/s]{'loss': 4.008, 'grad_norm': 0.22136865556240082, 'learning_rate': 0.0009501399711834085, 'epoch': 0.23}
-                                                       23%|██▎       | 2450/10696 [46:45<1:08:13,  2.01it/s] 23%|██▎       | 2451/10696 [46:46<1:08:21,  2.01it/s] 23%|██▎       | 2452/10696 [46:46<1:08:18,  2.01it/s] 23%|██▎       | 2453/10696 [46:47<1:08:19,  2.01it/s] 23%|██▎       | 2454/10696 [46:47<1:08:15,  2.01it/s] 23%|██▎       | 2455/10696 [46:48<1:08:14,  2.01it/s] 23%|██▎       | 2456/10696 [46:48<1:08:14,  2.01it/s] 23%|██▎       | 2457/10696 [46:49<1:08:08,  2.02it/s] 23%|██▎       | 2458/10696 [46:49<1:08:10,  2.01it/s] 23%|██▎       | 2459/10696 [46:50<1:08:06,  2.02it/s] 23%|██▎       | 2460/10696 [46:50<1:08:06,  2.02it/s] 23%|██▎       | 2461/10696 [46:51<1:08:04,  2.02it/s] 23%|██▎       | 2462/10696 [46:51<1:08:04,  2.02it/s] 23%|██▎       | 2463/10696 [46:52<1:08:01,  2.02it/s] 23%|██▎       | 2464/10696 [46:52<1:08:00,  2.02it/s] 23%|██▎       | 2465/10696 [46:53<1:08:01,  2.02it/s] 23%|██▎       | 2466/10696 [46:53<1:07:59,  2.02it/s] 23%|██▎       | 2467/10696 [46:54<1:08:06,  2.01it/s] 23%|██▎       | 2468/10696 [46:54<1:08:02,  2.02it/s] 23%|██▎       | 2469/10696 [46:55<1:08:02,  2.02it/s] 23%|██▎       | 2470/10696 [46:55<1:07:56,  2.02it/s] 23%|██▎       | 2471/10696 [46:56<1:07:58,  2.02it/s] 23%|██��       | 2472/10696 [46:56<1:07:59,  2.02it/s] 23%|██▎       | 2473/10696 [46:57<1:08:03,  2.01it/s] 23%|██▎       | 2474/10696 [46:57<1:08:00,  2.02it/s] 23%|██▎       | 2475/10696 [46:58<1:07:57,  2.02it/s]{'loss': 4.0047, 'grad_norm': 0.23981115221977234, 'learning_rate': 0.0009483491258336017, 'epoch': 0.23}
-                                                       23%|██▎       | 2475/10696 [46:58<1:07:57,  2.02it/s] 23%|██▎       | 2476/10696 [46:58<1:08:03,  2.01it/s] 23%|██▎       | 2477/10696 [46:59<1:19:43,  1.72it/s] 23%|██▎       | 2478/10696 [46:59<1:16:10,  1.80it/s] 23%|██▎       | 2479/10696 [47:00<1:13:40,  1.86it/s] 23%|██▎       | 2480/10696 [47:00<1:11:54,  1.90it/s] 23%|██▎       | 2481/10696 [47:01<1:10:41,  1.94it/s] 23%|██▎       | 2482/10696 [47:01<1:09:55,  1.96it/s] 23%|██▎       | 2483/10696 [47:02<1:09:18,  1.98it/s] 23%|██▎       | 2484/10696 [47:02<1:08:49,  1.99it/s] 23%|██▎       | 2485/10696 [47:03<1:08:33,  2.00it/s] 23%|██▎       | 2486/10696 [47:03<1:08:15,  2.00it/s] 23%|██▎       | 2487/10696 [47:04<1:08:12,  2.01it/s] 23%|██▎       | 2488/10696 [47:04<1:08:06,  2.01it/s] 23%|██▎       | 2489/10696 [47:05<1:19:12,  1.73it/s] 23%|██▎       | 2490/10696 [47:06<1:15:43,  1.81it/s] 23%|██▎       | 2491/10696 [47:06<1:13:28,  1.86it/s] 23%|██▎       | 2492/10696 [47:07<1:11:48,  1.90it/s] 23%|██▎       | 2493/10696 [47:07<1:10:34,  1.94it/s] 23%|██▎       | 2494/10696 [47:08<1:09:39,  1.96it/s] 23%|██▎       | 2495/10696 [47:08<1:09:05,  1.98it/s] 23%|██▎       | 2496/10696 [47:09<1:08:43,  1.99it/s] 23%|██▎       | 2497/10696 [47:09<1:08:28,  2.00it/s] 23%|██▎       | 2498/10696 [47:10<1:08:17,  2.00it/s] 23%|██▎       | 2499/10696 [47:10<1:08:04,  2.01it/s] 23%|██▎       | 2500/10696 [47:10<1:07:58,  2.01it/s]{'loss': 3.9969, 'grad_norm': 0.22692713141441345, 'learning_rate': 0.0009465284333957924, 'epoch': 0.23}
-                                                       23%|██▎       | 2500/10696 [47:11<1:07:58,  2.01it/s] 23%|██▎       | 2501/10696 [47:11<1:08:01,  2.01it/s] 23%|██▎       | 2502/10696 [47:11<1:07:55,  2.01it/s] 23%|██▎       | 2503/10696 [47:12<1:07:51,  2.01it/s] 23%|██▎       | 2504/10696 [47:12<1:07:49,  2.01it/s] 23%|██▎       | 2505/10696 [47:13<1:07:48,  2.01it/s] 23%|██▎       | 2506/10696 [47:13<1:07:46,  2.01it/s] 23%|██▎       | 2507/10696 [47:14<1:07:44,  2.01it/s] 23%|██▎       | 2508/10696 [47:14<1:07:40,  2.02it/s] 23%|██▎       | 2509/10696 [47:15<1:07:40,  2.02it/s] 23%|██▎       | 2510/10696 [47:15<1:07:42,  2.02it/s] 23%|██▎       | 2511/10696 [47:16<1:07:44,  2.01it/s] 23%|██▎       | 2512/10696 [47:16<1:07:40,  2.02it/s] 23%|██▎       | 2513/10696 [47:17<1:07:43,  2.01it/s] 24%|██▎       | 2514/10696 [47:17<1:07:37,  2.02it/s] 24%|██▎       | 2515/10696 [47:18<1:07:43,  2.01it/s] 24%|██▎       | 2516/10696 [47:18<1:07:38,  2.02it/s] 24%|██▎       | 2517/10696 [47:19<1:07:38,  2.02it/s] 24%|██▎       | 2518/10696 [47:19<1:07:34,  2.02it/s] 24%|██▎       | 2519/10696 [47:20<1:07:34,  2.02it/s] 24%|██▎       | 2520/10696 [47:20<1:07:35,  2.02it/s] 24%|██▎       | 2521/10696 [47:21<1:07:34,  2.02it/s] 24%|██▎       | 2522/10696 [47:21<1:07:34,  2.02it/s] 24%|██▎       | 2523/10696 [47:22<1:07:28,  2.02it/s] 24%|██▎       | 2524/10696 [47:22<1:07:35,  2.02it/s] 24%|██▎       | 2525/10696 [47:23<1:07:35,  2.01it/s]{'loss': 3.9934, 'grad_norm': 0.22763365507125854, 'learning_rate': 0.0009446780150754528, 'epoch': 0.24}
-                                                       24%|██▎       | 2525/10696 [47:23<1:07:35,  2.01it/s] 24%|██▎       | 2526/10696 [47:23<1:07:41,  2.01it/s] 24%|██▎       | 2527/10696 [47:24<1:07:41,  2.01it/s] 24%|██▎       | 2528/10696 [47:24<1:07:35,  2.01it/s] 24%|██▎       | 2529/10696 [47:25<1:07:36,  2.01it/s] 24%|██▎       | 2530/10696 [47:25<1:07:32,  2.02it/s] 24%|██▎       | 2531/10696 [47:26<1:07:32,  2.01it/s] 24%|██▎       | 2532/10696 [47:26<1:07:30,  2.02it/s] 24%|██▎       | 2533/10696 [47:27<1:07:29,  2.02it/s] 24%|██▎       | 2534/10696 [47:27<1:07:30,  2.02it/s] 24%|██▎       | 2535/10696 [47:28<1:07:27,  2.02it/s] 24%|██▎       | 2536/10696 [47:28<1:07:29,  2.02it/s] 24%|██▎       | 2537/10696 [47:29<1:07:28,  2.02it/s] 24%|██▎       | 2538/10696 [47:29<1:07:29,  2.01it/s] 24%|██▎       | 2539/10696 [47:30<1:07:30,  2.01it/s] 24%|██▎       | 2540/10696 [47:30<1:07:26,  2.02it/s] 24%|██▍       | 2541/10696 [47:31<1:07:29,  2.01it/s] 24%|██▍       | 2542/10696 [47:31<1:07:21,  2.02it/s] 24%|██▍       | 2543/10696 [47:32<1:07:25,  2.02it/s] 24%|██▍       | 2544/10696 [47:32<1:07:21,  2.02it/s] 24%|██▍       | 2545/10696 [47:33<1:07:23,  2.02it/s] 24%|██▍       | 2546/10696 [47:33<1:07:25,  2.01it/s] 24%|██▍       | 2547/10696 [47:34<1:07:23,  2.02it/s] 24%|██▍       | 2548/10696 [47:34<1:07:25,  2.01it/s] 24%|██▍       | 2549/10696 [47:35<1:07:21,  2.02it/s] 24%|██▍       | 2550/10696 [47:35<1:07:22,  2.02it/s]{'loss': 3.997, 'grad_norm': 0.23380187153816223, 'learning_rate': 0.000942797994056939, 'epoch': 0.24}
-                                                       24%|██▍       | 2550/10696 [47:35<1:07:22,  2.02it/s] 24%|██▍       | 2551/10696 [47:36<1:07:28,  2.01it/s] 24%|██▍       | 2552/10696 [47:36<1:07:27,  2.01it/s] 24%|██▍       | 2553/10696 [47:37<1:07:25,  2.01it/s] 24%|██▍       | 2554/10696 [47:37<1:07:22,  2.01it/s] 24%|██▍       | 2555/10696 [47:38<1:07:18,  2.02it/s] 24%|██▍       | 2556/10696 [47:38<1:07:19,  2.02it/s] 24%|██▍       | 2557/10696 [47:39<1:07:18,  2.02it/s] 24%|██▍       | 2558/10696 [47:39<1:07:22,  2.01it/s] 24%|██▍       | 2559/10696 [47:40<1:07:24,  2.01it/s] 24%|██▍       | 2560/10696 [47:40<1:07:19,  2.01it/s] 24%|██▍       | 2561/10696 [47:41<1:07:20,  2.01it/s] 24%|██▍       | 2562/10696 [47:41<1:07:17,  2.01it/s] 24%|██▍       | 2563/10696 [47:42<1:07:14,  2.02it/s] 24%|██▍       | 2564/10696 [47:42<1:07:14,  2.02it/s] 24%|██▍       | 2565/10696 [47:43<1:07:20,  2.01it/s] 24%|██▍       | 2566/10696 [47:43<1:07:21,  2.01it/s] 24%|██▍       | 2567/10696 [47:44<1:07:17,  2.01it/s] 24%|██▍       | 2568/10696 [47:44<1:07:16,  2.01it/s] 24%|██▍       | 2569/10696 [47:45<1:07:17,  2.01it/s] 24%|██▍       | 2570/10696 [47:45<1:07:10,  2.02it/s] 24%|██▍       | 2571/10696 [47:46<1:07:15,  2.01it/s] 24%|██▍       | 2572/10696 [47:46<1:07:12,  2.01it/s] 24%|██▍       | 2573/10696 [47:47<1:07:12,  2.01it/s] 24%|██▍       | 2574/10696 [47:47<1:07:10,  2.02it/s] 24%|██▍       | 2575/10696 [47:48<1:07:08,  2.02it/s]{'loss': 3.986, 'grad_norm': 0.21535475552082062, 'learning_rate': 0.0009408884954952911, 'epoch': 0.24}
-                                                       24%|██▍       | 2575/10696 [47:48<1:07:08,  2.02it/s] 24%|██▍       | 2576/10696 [47:48<1:07:16,  2.01it/s] 24%|██▍       | 2577/10696 [47:49<1:07:11,  2.01it/s] 24%|██▍       | 2578/10696 [47:49<1:07:12,  2.01it/s] 24%|██▍       | 2579/10696 [47:50<1:07:12,  2.01it/s] 24%|██▍       | 2580/10696 [47:50<1:07:13,  2.01it/s] 24%|██▍       | 2581/10696 [47:51<1:07:16,  2.01it/s] 24%|██▍       | 2582/10696 [47:51<1:07:15,  2.01it/s] 24%|██▍       | 2583/10696 [47:52<1:07:13,  2.01it/s] 24%|██▍       | 2584/10696 [47:52<1:07:10,  2.01it/s] 24%|██▍       | 2585/10696 [47:53<1:07:07,  2.01it/s] 24%|██▍       | 2586/10696 [47:53<1:07:07,  2.01it/s] 24%|██▍       | 2587/10696 [47:54<1:07:07,  2.01it/s] 24%|██▍       | 2588/10696 [47:54<1:07:06,  2.01it/s] 24%|██▍       | 2589/10696 [47:55<1:07:06,  2.01it/s] 24%|██▍       | 2590/10696 [47:55<1:07:06,  2.01it/s] 24%|██▍       | 2591/10696 [47:56<1:07:04,  2.01it/s] 24%|██▍       | 2592/10696 [47:56<1:07:00,  2.02it/s] 24%|██▍       | 2593/10696 [47:57<1:07:02,  2.01it/s] 24%|██▍       | 2594/10696 [47:57<1:06:56,  2.02it/s] 24%|██▍       | 2595/10696 [47:58<1:07:00,  2.01it/s] 24%|██▍       | 2596/10696 [47:58<1:07:01,  2.01it/s] 24%|██▍       | 2597/10696 [47:59<1:06:59,  2.01it/s] 24%|██▍       | 2598/10696 [47:59<1:07:02,  2.01it/s] 24%|██▍       | 2599/10696 [48:00<1:06:57,  2.02it/s] 24%|██▍       | 2600/10696 [48:00<1:06:58,  2.01it/s]                                                      {'loss': 3.9855, 'grad_norm': 0.21237878501415253, 'learning_rate': 0.000938949646507901, 'epoch': 0.24}
- 24%|██▍       | 2600/10696 [48:00<1:06:58,  2.01it/s] 24%|██▍       | 2601/10696 [48:01<1:07:04,  2.01it/s] 24%|██▍       | 2602/10696 [48:01<1:07:00,  2.01it/s] 24%|██▍       | 2603/10696 [48:02<1:07:01,  2.01it/s] 24%|██▍       | 2604/10696 [48:02<1:06:53,  2.02it/s] 24%|██▍       | 2605/10696 [48:03<1:07:00,  2.01it/s] 24%|██▍       | 2606/10696 [48:03<1:06:59,  2.01it/s] 24%|██▍       | 2607/10696 [48:04<1:06:58,  2.01it/s] 24%|██▍       | 2608/10696 [48:04<1:06:55,  2.01it/s] 24%|██▍       | 2609/10696 [48:05<1:06:51,  2.02it/s] 24%|██▍       | 2610/10696 [48:05<1:06:53,  2.01it/s] 24%|██▍       | 2611/10696 [48:06<1:06:48,  2.02it/s] 24%|██▍       | 2612/10696 [48:06<1:06:53,  2.01it/s] 24%|██▍       | 2613/10696 [48:07<1:06:50,  2.02it/s] 24%|██▍       | 2614/10696 [48:07<1:06:49,  2.02it/s] 24%|██▍       | 2615/10696 [48:08<1:06:50,  2.01it/s] 24%|██▍       | 2616/10696 [48:08<1:06:48,  2.02it/s] 24%|██▍       | 2617/10696 [48:09<1:06:49,  2.01it/s] 24%|��█▍       | 2618/10696 [48:09<1:06:44,  2.02it/s] 24%|██▍       | 2619/10696 [48:10<1:06:49,  2.01it/s] 24%|██▍       | 2620/10696 [48:10<1:06:46,  2.02it/s] 25%|██▍       | 2621/10696 [48:11<1:06:48,  2.01it/s] 25%|██▍       | 2622/10696 [48:11<1:06:44,  2.02it/s] 25%|██▍       | 2623/10696 [48:12<1:06:45,  2.02it/s] 25%|██▍       | 2624/10696 [48:12<1:06:42,  2.02it/s] 25%|██▍       | 2625/10696 [48:13<1:06:44,  2.02it/s]                                                      {'loss': 3.974, 'grad_norm': 0.25204145908355713, 'learning_rate': 0.0009369815761660508, 'epoch': 0.25}
- 25%|██▍       | 2625/10696 [48:13<1:06:44,  2.02it/s] 25%|██▍       | 2626/10696 [48:13<1:06:49,  2.01it/s] 25%|██▍       | 2627/10696 [48:14<1:06:48,  2.01it/s] 25%|██▍       | 2628/10696 [48:14<1:06:51,  2.01it/s] 25%|██▍       | 2629/10696 [48:15<1:06:48,  2.01it/s] 25%|██▍       | 2630/10696 [48:15<1:06:46,  2.01it/s] 25%|██▍       | 2631/10696 [48:16<1:06:42,  2.01it/s] 25%|██▍       | 2632/10696 [48:16<1:06:44,  2.01it/s] 25%|██▍       | 2633/10696 [48:17<1:06:43,  2.01it/s] 25%|██▍       | 2634/10696 [48:17<1:06:43,  2.01it/s] 25%|██▍       | 2635/10696 [48:18<1:06:43,  2.01it/s] 25%|██▍       | 2636/10696 [48:18<1:06:36,  2.02it/s] 25%|██▍       | 2637/10696 [48:19<1:06:39,  2.01it/s] 25%|██▍       | 2638/10696 [48:19<1:06:35,  2.02it/s] 25%|██▍       | 2639/10696 [48:19<1:06:39,  2.01it/s] 25%|██▍       | 2640/10696 [48:20<1:06:35,  2.02it/s] 25%|██▍       | 2641/10696 [48:20<1:06:36,  2.02it/s] 25%|██▍       | 2642/10696 [48:21<1:06:33,  2.02it/s] 25%|██▍       | 2643/10696 [48:21<1:06:35,  2.02it/s] 25%|██▍       | 2644/10696 [48:22<1:06:37,  2.01it/s] 25%|██▍       | 2645/10696 [48:22<1:06:35,  2.02it/s] 25%|██▍       | 2646/10696 [48:23<1:06:37,  2.01it/s] 25%|██▍       | 2647/10696 [48:23<1:06:35,  2.01it/s] 25%|██▍       | 2648/10696 [48:24<1:06:34,  2.01it/s] 25%|██▍       | 2649/10696 [48:24<1:06:30,  2.02it/s] 25%|██▍       | 2650/10696 [48:25<1:06:31,  2.02it/s]                                                      {'loss': 3.9745, 'grad_norm': 0.24261152744293213, 'learning_rate': 0.0009349844154863192, 'epoch': 0.25}
- 25%|██▍       | 2650/10696 [48:25<1:06:31,  2.02it/s] 25%|██▍       | 2651/10696 [48:25<1:06:35,  2.01it/s] 25%|██▍       | 2652/10696 [48:26<1:06:35,  2.01it/s] 25%|██▍       | 2653/10696 [48:26<1:06:33,  2.01it/s] 25%|██▍       | 2654/10696 [48:27<1:06:31,  2.01it/s] 25%|██▍       | 2655/10696 [48:27<1:06:30,  2.02it/s] 25%|██▍       | 2656/10696 [48:28<1:06:29,  2.02it/s] 25%|██▍       | 2657/10696 [48:28<1:06:35,  2.01it/s] 25%|██▍       | 2658/10696 [48:29<1:06:33,  2.01it/s] 25%|██▍       | 2659/10696 [48:29<1:06:33,  2.01it/s] 25%|██▍       | 2660/10696 [48:30<1:06:33,  2.01it/s] 25%|██▍       | 2661/10696 [48:30<1:06:27,  2.01it/s] 25%|██▍       | 2662/10696 [48:31<1:06:29,  2.01it/s] 25%|██▍       | 2663/10696 [48:31<1:06:22,  2.02it/s] 25%|██▍       | 2664/10696 [48:32<1:06:27,  2.01it/s] 25%|██▍       | 2665/10696 [48:32<1:06:22,  2.02it/s] 25%|██▍       | 2666/10696 [48:33<1:06:25,  2.01it/s] 25%|██▍       | 2667/10696 [48:33<1:06:26,  2.01it/s] 25%|██▍       | 2668/10696 [48:34<1:06:23,  2.02it/s] 25%|██▍       | 2669/10696 [48:34<1:06:26,  2.01it/s] 25%|██▍       | 2670/10696 [48:35<1:06:22,  2.02it/s] 25%|██▍       | 2671/10696 [48:35<1:06:28,  2.01it/s] 25%|██▍       | 2672/10696 [48:36<1:06:26,  2.01it/s] 25%|██▍       | 2673/10696 [48:36<1:06:26,  2.01it/s] 25%|██▌       | 2674/10696 [48:37<1:06:24,  2.01it/s] 25%|██▌       | 2675/10696 [48:37<1:06:23,  2.01it/s]{'loss': 3.9724, 'grad_norm': 0.21396009624004364, 'learning_rate': 0.0009329582974218609, 'epoch': 0.25}
-                                                       25%|██▌       | 2675/10696 [48:37<1:06:23,  2.01it/s] 25%|██▌       | 2676/10696 [48:38<1:06:32,  2.01it/s] 25%|██▌       | 2677/10696 [48:38<1:06:33,  2.01it/s] 25%|██▌       | 2678/10696 [48:39<1:06:29,  2.01it/s] 25%|██▌       | 2679/10696 [48:39<1:06:31,  2.01it/s] 25%|██▌       | 2680/10696 [48:40<1:06:28,  2.01it/s] 25%|██▌       | 2681/10696 [48:40<1:06:25,  2.01it/s] 25%|██▌       | 2682/10696 [48:41<1:06:20,  2.01it/s] 25%|██▌       | 2683/10696 [48:41<1:06:18,  2.01it/s] 25%|██▌       | 2684/10696 [48:42<1:06:14,  2.02it/s] 25%|██▌       | 2685/10696 [48:42<1:06:11,  2.02it/s] 25%|██▌       | 2686/10696 [48:43<1:06:14,  2.02it/s] 25%|██▌       | 2687/10696 [48:43<1:06:11,  2.02it/s] 25%|██▌       | 2688/10696 [48:44<1:06:13,  2.02it/s] 25%|██▌       | 2689/10696 [48:44<1:06:13,  2.02it/s] 25%|██▌       | 2690/10696 [48:45<1:06:13,  2.01it/s] 25%|██▌       | 2691/10696 [48:45<1:06:11,  2.02it/s] 25%|██▌       | 2692/10696 [48:46<1:06:14,  2.01it/s] 25%|██▌       | 2693/10696 [48:46<1:06:12,  2.01it/s] 25%|██▌       | 2694/10696 [48:47<1:06:12,  2.01it/s] 25%|██▌       | 2695/10696 [48:47<1:06:08,  2.02it/s] 25%|██▌       | 2696/10696 [48:48<1:06:09,  2.02it/s] 25%|██▌       | 2697/10696 [48:48<1:06:08,  2.02it/s] 25%|██▌       | 2698/10696 [48:49<1:06:06,  2.02it/s] 25%|██▌       | 2699/10696 [48:49<1:06:08,  2.02it/s] 25%|██▌       | 2700/10696 [48:50<1:06:11,  2.01it/s]{'loss': 3.9768, 'grad_norm': 0.21696309745311737, 'learning_rate': 0.0009309033568535546, 'epoch': 0.25}
-                                                       25%|██▌       | 2700/10696 [48:50<1:06:11,  2.01it/s] 25%|██▌       | 2701/10696 [48:50<1:06:09,  2.01it/s] 25%|██▌       | 2702/10696 [48:51<1:06:10,  2.01it/s] 25%|██▌       | 2703/10696 [48:51<1:06:03,  2.02it/s] 25%|██▌       | 2704/10696 [48:52<1:06:06,  2.01it/s] 25%|██▌       | 2705/10696 [48:52<1:06:01,  2.02it/s] 25%|██▌       | 2706/10696 [48:53<1:06:01,  2.02it/s] 25%|██▌       | 2707/10696 [48:53<1:06:03,  2.02it/s] 25%|██▌       | 2708/10696 [48:54<1:06:05,  2.01it/s] 25%|██▌       | 2709/10696 [48:54<1:06:03,  2.02it/s] 25%|██▌       | 2710/10696 [48:55<1:06:03,  2.01it/s] 25%|██▌       | 2711/10696 [48:55<1:06:02,  2.01it/s] 25%|██▌       | 2712/10696 [48:56<1:06:01,  2.02it/s] 25%|██▌       | 2713/10696 [48:56<1:05:59,  2.02it/s] 25%|██▌       | 2714/10696 [48:57<1:05:57,  2.02it/s] 25%|██▌       | 2715/10696 [48:57<1:05:57,  2.02it/s] 25%|██▌       | 2716/10696 [48:58<1:05:54,  2.02it/s] 25%|██▌       | 2717/10696 [48:58<1:05:58,  2.02it/s] 25%|██▌       | 2718/10696 [48:59<1:05:54,  2.02it/s] 25%|██▌       | 2719/10696 [48:59<1:05:59,  2.01it/s] 25%|██▌       | 2720/10696 [49:00<1:05:57,  2.02it/s] 25%|██▌       | 2721/10696 [49:00<1:05:56,  2.02it/s] 25%|██▌       | 2722/10696 [49:01<1:05:54,  2.02it/s] 25%|██▌       | 2723/10696 [49:01<1:05:52,  2.02it/s] 25%|██▌       | 2724/10696 [49:02<1:05:54,  2.02it/s] 25%|██▌       | 2725/10696 [49:02<1:05:50,  2.02it/s]{'loss': 3.9646, 'grad_norm': 0.22613613307476044, 'learning_rate': 0.0009288197305810248, 'epoch': 0.25}                                                      
- 25%|██▌       | 2725/10696 [49:02<1:05:50,  2.02it/s] 25%|██▌       | 2726/10696 [49:03<1:05:57,  2.01it/s] 25%|██▌       | 2727/10696 [49:03<1:05:51,  2.02it/s] 26%|██▌       | 2728/10696 [49:04<1:05:52,  2.02it/s] 26%|██▌       | 2729/10696 [49:04<1:05:53,  2.02it/s] 26%|██▌       | 2730/10696 [49:05<1:05:53,  2.01it/s] 26%|██▌       | 2731/10696 [49:05<1:05:56,  2.01it/s] 26%|██▌       | 2732/10696 [49:06<1:05:52,  2.02it/s] 26%|██▌       | 2733/10696 [49:06<1:05:54,  2.01it/s] 26%|██▌       | 2734/10696 [49:07<1:05:54,  2.01it/s] 26%|██▌       | 2735/10696 [49:07<1:05:52,  2.01it/s] 26%|██▌       | 2736/10696 [49:08<1:05:56,  2.01it/s] 26%|██▌       | 2737/10696 [49:08<1:05:50,  2.01it/s] 26%|██▌       | 2738/10696 [49:09<1:05:51,  2.01it/s] 26%|██▌       | 2739/10696 [49:09<1:05:53,  2.01it/s] 26%|██▌       | 2740/10696 [49:10<1:05:48,  2.01it/s] 26%|██▌       | 2741/10696 [49:10<1:05:49,  2.01it/s] 26%|██▌       | 2742/10696 [49:11<1:05:46,  2.02it/s] 26%|██▌       | 2743/10696 [49:11<1:05:44,  2.02it/s] 26%|██▌       | 2744/10696 [49:12<1:05:44,  2.02it/s] 26%|██▌       | 2745/10696 [49:12<1:05:44,  2.02it/s] 26%|██▌       | 2746/10696 [49:13<1:05:46,  2.01it/s] 26%|██▌       | 2747/10696 [49:13<1:05:47,  2.01it/s] 26%|██▌       | 2748/10696 [49:14<1:05:47,  2.01it/s] 26%|██▌       | 2749/10696 [49:14<1:05:45,  2.01it/s] 26%|██▌       | 2750/10696 [49:15<1:05:48,  2.01it/s]{'loss': 3.9627, 'grad_norm': 0.2194424718618393, 'learning_rate': 0.0009267075573135343, 'epoch': 0.26}
-                                                       26%|██▌       | 2750/10696 [49:15<1:05:48,  2.01it/s] 26%|██▌       | 2751/10696 [49:15<1:05:49,  2.01it/s] 26%|██▌       | 2752/10696 [49:16<1:05:47,  2.01it/s] 26%|██▌       | 2753/10696 [49:16<1:05:42,  2.01it/s] 26%|██▌       | 2754/10696 [49:17<1:05:40,  2.02it/s] 26%|██▌       | 2755/10696 [49:17<1:05:43,  2.01it/s] 26%|██▌       | 2756/10696 [49:18<1:05:42,  2.01it/s] 26%|██▌       | 2757/10696 [49:18<1:05:44,  2.01it/s] 26%|██▌       | 2758/10696 [49:19<1:05:39,  2.01it/s] 26%|██▌       | 2759/10696 [49:19<1:05:38,  2.02it/s] 26%|██▌       | 2760/10696 [49:20<1:05:42,  2.01it/s] 26%|██▌       | 2761/10696 [49:20<1:05:37,  2.02it/s] 26%|██▌       | 2762/10696 [49:21<1:05:34,  2.02it/s] 26%|██▌       | 2763/10696 [49:21<1:05:30,  2.02it/s] 26%|██▌       | 2764/10696 [49:22<1:05:30,  2.02it/s] 26%|██▌       | 2765/10696 [49:22<1:05:28,  2.02it/s] 26%|██▌       | 2766/10696 [49:23<1:05:31,  2.02it/s] 26%|██▌       | 2767/10696 [49:23<1:05:28,  2.02it/s] 26%|██▌       | 2768/10696 [49:24<1:05:33,  2.02it/s] 26%|██▌       | 2769/10696 [49:24<1:05:33,  2.02it/s] 26%|██▌       | 2770/10696 [49:25<1:05:33,  2.01it/s] 26%|██▌       | 2771/10696 [49:25<1:05:33,  2.01it/s] 26%|██▌       | 2772/10696 [49:26<1:05:32,  2.01it/s] 26%|██▌       | 2773/10696 [49:26<1:05:32,  2.01it/s] 26%|██▌       | 2774/10696 [49:27<1:05:29,  2.02it/s] 26%|██▌       | 2775/10696 [49:27<1:05:27,  2.02it/s]                                                      {'loss': 3.9595, 'grad_norm': 0.22367818653583527, 'learning_rate': 0.0009245669776607501, 'epoch': 0.26}
- 26%|██▌       | 2775/10696 [49:27<1:05:27,  2.02it/s] 26%|██▌       | 2776/10696 [49:27<1:05:32,  2.01it/s] 26%|██▌       | 2777/10696 [49:28<1:05:33,  2.01it/s] 26%|██▌       | 2778/10696 [49:28<1:05:31,  2.01it/s] 26%|██▌       | 2779/10696 [49:29<1:05:30,  2.01it/s] 26%|██▌       | 2780/10696 [49:29<1:05:30,  2.01it/s] 26%|██▌       | 2781/10696 [49:30<1:05:27,  2.02it/s] 26%|██▌       | 2782/10696 [49:30<1:05:29,  2.01it/s] 26%|██▌       | 2783/10696 [49:31<1:05:23,  2.02it/s] 26%|██▌       | 2784/10696 [49:31<1:05:22,  2.02it/s] 26%|██▌       | 2785/10696 [49:32<1:05:22,  2.02it/s] 26%|██▌       | 2786/10696 [49:32<1:05:25,  2.02it/s] 26%|██▌       | 2787/10696 [49:33<1:05:23,  2.02it/s] 26%|██▌       | 2788/10696 [49:33<1:05:25,  2.01it/s] 26%|██▌       | 2789/10696 [49:34<1:05:20,  2.02it/s] 26%|██▌       | 2790/10696 [49:34<1:05:23,  2.02it/s] 26%|██▌       | 2791/10696 [49:35<1:05:19,  2.02it/s] 26%|██▌       | 2792/10696 [49:35<1:05:21,  2.02it/s] 26%|██▌       | 2793/10696 [49:36<1:05:22,  2.01it/s] 26%|██▌       | 2794/10696 [49:36<1:05:17,  2.02it/s] 26%|██▌       | 2795/10696 [49:37<1:05:22,  2.01it/s] 26%|██▌       | 2796/10696 [49:37<1:05:18,  2.02it/s] 26%|██▌       | 2797/10696 [49:38<1:05:19,  2.02it/s] 26%|██▌       | 2798/10696 [49:38<1:05:19,  2.02it/s] 26%|██▌       | 2799/10696 [49:39<1:05:20,  2.01it/s] 26%|██▌       | 2800/10696 [49:39<1:05:17,  2.02it/s]{'loss': 3.9667, 'grad_norm': 0.2073395550251007, 'learning_rate': 0.0009223981341233838, 'epoch': 0.26}
-                                                       26%|██▌       | 2800/10696 [49:39<1:05:17,  2.02it/s] 26%|██▌       | 2801/10696 [49:40<1:05:20,  2.01it/s] 26%|██▌       | 2802/10696 [49:40<1:05:18,  2.01it/s] 26%|██▌       | 2803/10696 [49:41<1:05:18,  2.01it/s] 26%|██▌       | 2804/10696 [49:41<1:05:16,  2.02it/s] 26%|██▌       | 2805/10696 [49:42<1:05:17,  2.01it/s] 26%|██▌       | 2806/10696 [49:42<1:05:13,  2.02it/s] 26%|██▌       | 2807/10696 [49:43<1:05:17,  2.01it/s] 26%|██▋       | 2808/10696 [49:43<1:05:13,  2.02it/s] 26%|██▋       | 2809/10696 [49:44<1:05:14,  2.01it/s] 26%|██▋       | 2810/10696 [49:44<1:05:10,  2.02it/s] 26%|██▋       | 2811/10696 [49:45<1:05:10,  2.02it/s] 26%|██▋       | 2812/10696 [49:45<1:05:08,  2.02it/s] 26%|██▋       | 2813/10696 [49:46<1:05:08,  2.02it/s] 26%|██▋       | 2814/10696 [49:46<1:05:08,  2.02it/s] 26%|██▋       | 2815/10696 [49:47<1:05:08,  2.02it/s] 26%|██▋       | 2816/10696 [49:47<1:05:08,  2.02it/s] 26%|██▋       | 2817/10696 [49:48<1:05:06,  2.02it/s] 26%|██▋       | 2818/10696 [49:48<1:05:07,  2.02it/s] 26%|██▋       | 2819/10696 [49:49<1:05:06,  2.02it/s] 26%|██▋       | 2820/10696 [49:49<1:05:07,  2.02it/s] 26%|██▋       | 2821/10696 [49:50<1:05:03,  2.02it/s] 26%|██▋       | 2822/10696 [49:50<1:05:07,  2.02it/s] 26%|██▋       | 2823/10696 [49:51<1:05:03,  2.02it/s] 26%|██▋       | 2824/10696 [49:51<1:05:05,  2.02it/s] 26%|██▋       | 2825/10696 [49:52<1:05:04,  2.02it/s]{'loss': 3.9568, 'grad_norm': 0.22131256759166718, 'learning_rate': 0.0009202011710837037, 'epoch': 0.26}
-                                                       26%|██▋       | 2825/10696 [49:52<1:05:04,  2.02it/s] 26%|██▋       | 2826/10696 [49:52<1:05:08,  2.01it/s] 26%|██▋       | 2827/10696 [49:53<1:05:13,  2.01it/s] 26%|██▋       | 2828/10696 [49:53<1:05:11,  2.01it/s] 26%|██▋       | 2829/10696 [49:54<1:05:10,  2.01it/s] 26%|██▋       | 2830/10696 [49:54<1:05:04,  2.01it/s] 26%|██▋       | 2831/10696 [49:55<1:05:05,  2.01it/s] 26%|██▋       | 2832/10696 [49:55<1:05:03,  2.01it/s] 26%|██▋       | 2833/10696 [49:56<1:05:01,  2.02it/s] 26%|██▋       | 2834/10696 [49:56<1:04:54,  2.02it/s] 27%|██▋       | 2835/10696 [49:57<1:04:56,  2.02it/s] 27%|██▋       | 2836/10696 [49:57<1:04:54,  2.02it/s] 27%|██▋       | 2837/10696 [49:58<1:04:57,  2.02it/s] 27%|██▋       | 2838/10696 [49:58<1:04:54,  2.02it/s] 27%|██▋       | 2839/10696 [49:59<1:05:02,  2.01it/s] 27%|██▋       | 2840/10696 [49:59<1:04:59,  2.01it/s] 27%|██▋       | 2841/10696 [50:00<1:05:00,  2.01it/s] 27%|██▋       | 2842/10696 [50:00<1:04:57,  2.01it/s] 27%|██▋       | 2843/10696 [50:01<1:04:57,  2.02it/s] 27%|██▋       | 2844/10696 [50:01<1:04:53,  2.02it/s] 27%|██▋       | 2845/10696 [50:02<1:04:52,  2.02it/s] 27%|██▋       | 2846/10696 [50:02<1:04:54,  2.02it/s] 27%|██▋       | 2847/10696 [50:03<1:04:55,  2.02it/s] 27%|██▋       | 2848/10696 [50:03<1:04:58,  2.01it/s] 27%|██▋       | 2849/10696 [50:04<1:04:53,  2.02it/s] 27%|██▋       | 2850/10696 [50:04<1:04:53,  2.02it/s]{'loss': 3.952, 'grad_norm': 0.22416821122169495, 'learning_rate': 0.0009179762347959242, 'epoch': 0.27}
-                                                       27%|██▋       | 2850/10696 [50:04<1:04:53,  2.02it/s] 27%|██▋       | 2851/10696 [50:05<1:04:57,  2.01it/s] 27%|██▋       | 2852/10696 [50:05<1:04:55,  2.01it/s] 27%|██▋       | 2853/10696 [50:06<1:04:57,  2.01it/s] 27%|██▋       | 2854/10696 [50:06<1:04:54,  2.01it/s] 27%|██▋       | 2855/10696 [50:07<1:04:56,  2.01it/s] 27%|██▋       | 2856/10696 [50:07<1:04:55,  2.01it/s] 27%|██▋       | 2857/10696 [50:08<1:04:54,  2.01it/s] 27%|██▋       | 2858/10696 [50:08<1:04:59,  2.01it/s] 27%|██▋       | 2859/10696 [50:09<1:04:51,  2.01it/s] 27%|██▋       | 2860/10696 [50:09<1:04:50,  2.01it/s] 27%|██▋       | 2861/10696 [50:10<1:04:45,  2.02it/s] 27%|██▋       | 2862/10696 [50:10<1:04:47,  2.02it/s] 27%|██▋       | 2863/10696 [50:11<1:04:43,  2.02it/s] 27%|██▋       | 2864/10696 [50:11<1:04:40,  2.02it/s] 27%|██▋       | 2865/10696 [50:12<1:04:44,  2.02it/s] 27%|██▋       | 2866/10696 [50:12<1:04:41,  2.02it/s] 27%|██▋       | 2867/10696 [50:13<1:04:43,  2.02it/s] 27%|██▋       | 2868/10696 [50:13<1:04:43,  2.02it/s] 27%|██▋       | 2869/10696 [50:14<1:04:45,  2.01it/s] 27%|██▋       | 2870/10696 [50:14<1:04:40,  2.02it/s] 27%|██▋       | 2871/10696 [50:15<1:04:42,  2.02it/s] 27%|██▋       | 2872/10696 [50:15<1:04:40,  2.02it/s] 27%|██▋       | 2873/10696 [50:16<1:04:38,  2.02it/s] 27%|██▋       | 2874/10696 [50:16<1:04:36,  2.02it/s] 27%|██▋       | 2875/10696 [50:17<1:04:34,  2.02it/s]{'loss': 3.9519, 'grad_norm': 0.22454988956451416, 'learning_rate': 0.0009157234733764694, 'epoch': 0.27}
-                                                       27%|██▋       | 2875/10696 [50:17<1:04:34,  2.02it/s] 27%|██▋       | 2876/10696 [50:17<1:04:40,  2.02it/s] 27%|██▋       | 2877/10696 [50:18<1:04:34,  2.02it/s] 27%|██▋       | 2878/10696 [50:18<1:04:41,  2.01it/s] 27%|██▋       | 2879/10696 [50:19<1:04:39,  2.01it/s] 27%|██▋       | 2880/10696 [50:19<1:04:39,  2.01it/s] 27%|██▋       | 2881/10696 [50:20<1:04:38,  2.02it/s] 27%|██▋       | 2882/10696 [50:20<1:04:34,  2.02it/s] 27%|██▋       | 2883/10696 [50:21<1:04:38,  2.01it/s] 27%|██▋       | 2884/10696 [50:21<1:04:30,  2.02it/s] 27%|██▋       | 2885/10696 [50:22<1:04:34,  2.02it/s] 27%|██▋       | 2886/10696 [50:22<1:04:31,  2.02it/s] 27%|██▋       | 2887/10696 [50:23<1:04:34,  2.02it/s] 27%|██▋       | 2888/10696 [50:23<1:04:38,  2.01it/s] 27%|██▋       | 2889/10696 [50:24<1:04:35,  2.01it/s] 27%|██▋       | 2890/10696 [50:24<1:04:37,  2.01it/s] 27%|██▋       | 2891/10696 [50:25<1:04:29,  2.02it/s] 27%|██▋       | 2892/10696 [50:25<1:04:29,  2.02it/s] 27%|██▋       | 2893/10696 [50:26<1:04:26,  2.02it/s] 27%|██▋       | 2894/10696 [50:26<1:04:27,  2.02it/s] 27%|██▋       | 2895/10696 [50:27<1:04:25,  2.02it/s] 27%|██▋       | 2896/10696 [50:27<1:04:29,  2.02it/s] 27%|██▋       | 2897/10696 [50:28<1:04:30,  2.02it/s] 27%|██▋       | 2898/10696 [50:28<1:04:30,  2.01it/s] 27%|██▋       | 2899/10696 [50:29<1:04:29,  2.02it/s] 27%|██▋       | 2900/10696 [50:29<1:04:27,  2.02it/s]{'loss': 3.9428, 'grad_norm': 0.22223742306232452, 'learning_rate': 0.0009134430367941122, 'epoch': 0.27}                                                      
- 27%|██▋       | 2900/10696 [50:29<1:04:27,  2.02it/s] 27%|██▋       | 2901/10696 [50:30<1:04:39,  2.01it/s] 27%|██▋       | 2902/10696 [50:30<1:04:33,  2.01it/s] 27%|██▋       | 2903/10696 [50:31<1:04:34,  2.01it/s] 27%|██▋       | 2904/10696 [50:31<1:04:29,  2.01it/s] 27%|██▋       | 2905/10696 [50:32<1:04:29,  2.01it/s] 27%|██▋       | 2906/10696 [50:32<1:04:30,  2.01it/s] 27%|██▋       | 2907/10696 [50:33<1:04:25,  2.02it/s] 27%|██▋       | 2908/10696 [50:33<1:04:21,  2.02it/s] 27%|██▋       | 2909/10696 [50:33<1:04:20,  2.02it/s] 27%|██▋       | 2910/10696 [50:34<1:04:24,  2.01it/s] 27%|██▋       | 2911/10696 [50:34<1:04:20,  2.02it/s] 27%|██▋       | 2912/10696 [50:35<1:04:21,  2.02it/s] 27%|██▋       | 2913/10696 [50:35<1:04:17,  2.02it/s] 27%|██▋       | 2914/10696 [50:36<1:04:17,  2.02it/s] 27%|██▋       | 2915/10696 [50:36<1:04:19,  2.02it/s] 27%|██▋       | 2916/10696 [50:37<1:04:18,  2.02it/s] 27%|██▋       | 2917/10696 [50:37<1:04:23,  2.01it/s] 27%|██▋       | 2918/10696 [50:38<1:04:17,  2.02it/s] 27%|██▋       | 2919/10696 [50:38<1:04:20,  2.01it/s] 27%|██▋       | 2920/10696 [50:39<1:04:18,  2.02it/s] 27%|██▋       | 2921/10696 [50:39<1:04:19,  2.01it/s] 27%|██▋       | 2922/10696 [50:40<1:04:14,  2.02it/s] 27%|██▋       | 2923/10696 [50:40<1:04:17,  2.02it/s] 27%|██▋       | 2924/10696 [50:41<1:04:13,  2.02it/s] 27%|██▋       | 2925/10696 [50:41<1:04:16,  2.01it/s]                                                      {'loss': 3.9395, 'grad_norm': 0.23608171939849854, 'learning_rate': 0.0009111350768599917, 'epoch': 0.27}
- 27%|██▋       | 2925/10696 [50:41<1:04:16,  2.01it/s] 27%|██▋       | 2926/10696 [50:42<1:04:22,  2.01it/s] 27%|██▋       | 2927/10696 [50:42<1:04:19,  2.01it/s] 27%|██▋       | 2928/10696 [50:43<1:04:19,  2.01it/s] 27%|██▋       | 2929/10696 [50:43<1:04:13,  2.02it/s] 27%|██▋       | 2930/10696 [50:44<1:04:11,  2.02it/s] 27%|██▋       | 2931/10696 [50:44<1:04:10,  2.02it/s] 27%|██▋       | 2932/10696 [50:45<1:04:08,  2.02it/s] 27%|██▋       | 2933/10696 [50:45<1:04:08,  2.02it/s] 27%|██▋       | 2934/10696 [50:46<1:04:07,  2.02it/s] 27%|██▋       | 2935/10696 [50:46<1:04:10,  2.02it/s] 27%|██▋       | 2936/10696 [50:47<1:04:06,  2.02it/s] 27%|██▋       | 2937/10696 [50:47<1:04:05,  2.02it/s] 27%|██▋       | 2938/10696 [50:48<1:04:01,  2.02it/s] 27%|██▋       | 2939/10696 [50:48<1:04:06,  2.02it/s] 27%|██▋       | 2940/10696 [50:49<1:04:01,  2.02it/s] 27%|██▋       | 2941/10696 [50:49<1:04:03,  2.02it/s] 28%|██▊       | 2942/10696 [50:50<1:03:58,  2.02it/s] 28%|██▊       | 2943/10696 [50:50<1:04:00,  2.02it/s] 28%|██▊       | 2944/10696 [50:51<1:03:56,  2.02it/s] 28%|██▊       | 2945/10696 [50:51<1:03:57,  2.02it/s] 28%|██▊       | 2946/10696 [50:52<1:03:58,  2.02it/s] 28%|██▊       | 2947/10696 [50:52<1:03:58,  2.02it/s] 28%|██▊       | 2948/10696 [50:53<1:03:57,  2.02it/s] 28%|██▊       | 2949/10696 [50:53<1:04:02,  2.02it/s] 28%|██▊       | 2950/10696 [50:54<1:04:00,  2.02it/s]                                                      {'loss': 3.9448, 'grad_norm': 0.21196137368679047, 'learning_rate': 0.0009087997472175057, 'epoch': 0.28}
- 28%|██▊       | 2950/10696 [50:54<1:04:00,  2.02it/s] 28%|██▊       | 2951/10696 [50:54<1:04:05,  2.01it/s] 28%|██▊       | 2952/10696 [50:55<1:04:01,  2.02it/s] 28%|██▊       | 2953/10696 [50:55<1:04:00,  2.02it/s] 28%|██▊       | 2954/10696 [50:56<1:03:59,  2.02it/s] 28%|██▊       | 2955/10696 [50:56<1:03:57,  2.02it/s] 28%|██▊       | 2956/10696 [50:57<1:03:58,  2.02it/s] 28%|██▊       | 2957/10696 [50:57<1:03:54,  2.02it/s] 28%|██▊       | 2958/10696 [50:58<1:03:58,  2.02it/s] 28%|██▊       | 2959/10696 [50:58<1:03:56,  2.02it/s] 28%|██▊       | 2960/10696 [50:59<1:04:00,  2.01it/s] 28%|██▊       | 2961/10696 [50:59<1:04:04,  2.01it/s] 28%|██▊       | 2962/10696 [51:00<1:04:01,  2.01it/s] 28%|██▊       | 2963/10696 [51:00<1:03:57,  2.01it/s] 28%|██▊       | 2964/10696 [51:01<1:03:57,  2.01it/s] 28%|██▊       | 2965/10696 [51:01<1:03:51,  2.02it/s] 28%|██▊       | 2966/10696 [51:02<1:03:56,  2.02it/s] 28%|██▊       | 2967/10696 [51:02<1:03:51,  2.02it/s] 28%|██▊       | 2968/10696 [51:03<1:03:57,  2.01it/s] 28%|██▊       | 2969/10696 [51:03<1:03:53,  2.02it/s] 28%|██▊       | 2970/10696 [51:04<1:03:54,  2.01it/s] 28%|██▊       | 2971/10696 [51:04<1:03:52,  2.02it/s] 28%|██▊       | 2972/10696 [51:05<1:03:52,  2.02it/s] 28%|██▊       | 2973/10696 [51:05<1:03:52,  2.02it/s] 28%|██▊       | 2974/10696 [51:06<1:03:51,  2.02it/s] 28%|██▊       | 2975/10696 [51:06<1:03:50,  2.02it/s]{'loss': 3.9414, 'grad_norm': 0.22909453511238098, 'learning_rate': 0.0009064372033320838, 'epoch': 0.28}
-                                                       28%|██▊       | 2975/10696 [51:06<1:03:50,  2.02it/s] 28%|██▊       | 2976/10696 [51:07<1:03:55,  2.01it/s] 28%|██▊       | 2977/10696 [51:07<1:03:50,  2.02it/s] 28%|██▊       | 2978/10696 [51:08<1:03:48,  2.02it/s] 28%|██▊       | 2979/10696 [51:08<1:03:50,  2.01it/s] 28%|██▊       | 2980/10696 [51:09<1:03:48,  2.02it/s] 28%|██▊       | 2981/10696 [51:09<1:03:49,  2.01it/s] 28%|██▊       | 2982/10696 [51:10<1:03:44,  2.02it/s] 28%|██▊       | 2983/10696 [51:10<1:03:45,  2.02it/s] 28%|██▊       | 2984/10696 [51:11<1:03:39,  2.02it/s] 28%|██▊       | 2985/10696 [51:11<1:03:41,  2.02it/s] 28%|██▊       | 2986/10696 [51:12<1:03:39,  2.02it/s] 28%|██▊       | 2987/10696 [51:12<1:03:40,  2.02it/s] 28%|██▊       | 2988/10696 [51:13<1:03:41,  2.02it/s] 28%|██▊       | 2989/10696 [51:13<1:03:39,  2.02it/s] 28%|██▊       | 2990/10696 [51:14<1:03:40,  2.02it/s] 28%|██▊       | 2991/10696 [51:14<1:03:36,  2.02it/s] 28%|██▊       | 2992/10696 [51:15<1:03:40,  2.02it/s] 28%|██▊       | 2993/10696 [51:15<1:03:33,  2.02it/s] 28%|██▊       | 2994/10696 [51:16<1:03:37,  2.02it/s] 28%|██▊       | 2995/10696 [51:16<1:03:35,  2.02it/s] 28%|██▊       | 2996/10696 [51:17<1:03:38,  2.02it/s] 28%|██▊       | 2997/10696 [51:17<1:03:36,  2.02it/s] 28%|██▊       | 2998/10696 [51:18<1:03:37,  2.02it/s] 28%|██▊       | 2999/10696 [51:18<1:03:40,  2.01it/s] 28%|██▊       | 3000/10696 [51:19<1:03:36,  2.02it/s]                                                      {'loss': 3.9359, 'grad_norm': 0.20338661968708038, 'learning_rate': 0.0009040476024808369, 'epoch': 0.28}
- 28%|██▊       | 3000/10696 [51:19<1:03:36,  2.02it/s] 28%|██▊       | 3001/10696 [51:19<1:03:48,  2.01it/s] 28%|██▊       | 3002/10696 [51:20<1:03:43,  2.01it/s] 28%|██▊       | 3003/10696 [51:20<1:03:37,  2.01it/s] 28%|██▊       | 3004/10696 [51:21<1:03:36,  2.02it/s] 28%|██▊       | 3005/10696 [51:21<1:03:34,  2.02it/s] 28%|██▊       | 3006/10696 [51:22<1:03:38,  2.01it/s] 28%|██▊       | 3007/10696 [51:22<1:03:35,  2.02it/s] 28%|██▊       | 3008/10696 [51:23<1:03:36,  2.01it/s] 28%|██▊       | 3009/10696 [51:23<1:03:32,  2.02it/s] 28%|██▊       | 3010/10696 [51:24<1:03:30,  2.02it/s] 28%|██▊       | 3011/10696 [51:24<1:03:27,  2.02it/s] 28%|██▊       | 3012/10696 [51:25<1:03:27,  2.02it/s] 28%|██▊       | 3013/10696 [51:25<1:03:26,  2.02it/s] 28%|██▊       | 3014/10696 [51:26<1:03:27,  2.02it/s] 28%|██▊       | 3015/10696 [51:26<1:03:32,  2.01it/s] 28%|██▊       | 3016/10696 [51:27<1:03:27,  2.02it/s] 28%|██▊       | 3017/10696 [51:27<1:03:28,  2.02it/s] 28%|██▊       | 3018/10696 [51:28<1:03:25,  2.02it/s] 28%|██▊       | 3019/10696 [51:28<1:03:28,  2.02it/s] 28%|██▊       | 3020/10696 [51:29<1:03:24,  2.02it/s] 28%|██▊       | 3021/10696 [51:29<1:03:26,  2.02it/s] 28%|██▊       | 3022/10696 [51:30<1:03:20,  2.02it/s] 28%|██▊       | 3023/10696 [51:30<1:03:23,  2.02it/s] 28%|██▊       | 3024/10696 [51:31<1:03:18,  2.02it/s] 28%|██▊       | 3025/10696 [51:31<1:03:21,  2.02it/s]{'loss': 3.9357, 'grad_norm': 0.2091565728187561, 'learning_rate': 0.0009016311037420877, 'epoch': 0.28}
-                                                       28%|██▊       | 3025/10696 [51:31<1:03:21,  2.02it/s] 28%|██▊       | 3026/10696 [51:32<1:03:23,  2.02it/s] 28%|██▊       | 3027/10696 [51:32<1:03:20,  2.02it/s] 28%|██▊       | 3028/10696 [51:33<1:03:24,  2.02it/s] 28%|██▊       | 3029/10696 [51:33<1:03:21,  2.02it/s] 28%|██▊       | 3030/10696 [51:34<1:03:22,  2.02it/s] 28%|██▊       | 3031/10696 [51:34<1:03:16,  2.02it/s] 28%|██▊       | 3032/10696 [51:34<1:03:19,  2.02it/s] 28%|██▊       | 3033/10696 [51:35<1:03:15,  2.02it/s] 28%|██▊       | 3034/10696 [51:35<1:03:18,  2.02it/s] 28%|██▊       | 3035/10696 [51:36<1:03:21,  2.02it/s] 28%|██▊       | 3036/10696 [51:36<1:03:21,  2.02it/s] 28%|██▊       | 3037/10696 [51:37<1:03:18,  2.02it/s] 28%|██▊       | 3038/10696 [51:37<1:03:18,  2.02it/s] 28%|██▊       | 3039/10696 [51:38<1:03:18,  2.02it/s] 28%|██▊       | 3040/10696 [51:38<1:03:18,  2.02it/s] 28%|██▊       | 3041/10696 [51:39<1:03:13,  2.02it/s] 28%|██▊       | 3042/10696 [51:39<1:03:14,  2.02it/s] 28%|██▊       | 3043/10696 [51:40<1:03:08,  2.02it/s] 28%|██▊       | 3044/10696 [51:40<1:03:11,  2.02it/s] 28%|██▊       | 3045/10696 [51:41<1:03:13,  2.02it/s] 28%|██▊       | 3046/10696 [51:41<1:03:13,  2.02it/s] 28%|██▊       | 3047/10696 [51:42<1:03:14,  2.02it/s] 28%|██▊       | 3048/10696 [51:42<1:03:13,  2.02it/s] 29%|██▊       | 3049/10696 [51:43<1:03:13,  2.02it/s] 29%|██▊       | 3050/10696 [51:43<1:03:09,  2.02it/s]{'loss': 3.934, 'grad_norm': 0.23582634329795837, 'learning_rate': 0.0008991878679847805, 'epoch': 0.29}
-                                                       29%|██▊       | 3050/10696 [51:43<1:03:09,  2.02it/s] 29%|██▊       | 3051/10696 [51:44<1:03:17,  2.01it/s] 29%|██▊       | 3052/10696 [51:44<1:03:12,  2.02it/s] 29%|██▊       | 3053/10696 [51:45<1:03:12,  2.02it/s] 29%|██▊       | 3054/10696 [51:45<1:03:11,  2.02it/s] 29%|██▊       | 3055/10696 [51:46<1:03:11,  2.02it/s] 29%|██▊       | 3056/10696 [51:46<1:03:16,  2.01it/s] 29%|██▊       | 3057/10696 [51:47<1:03:12,  2.01it/s] 29%|██▊       | 3058/10696 [51:47<1:03:16,  2.01it/s] 29%|██▊       | 3059/10696 [51:48<1:03:12,  2.01it/s] 29%|██▊       | 3060/10696 [51:48<1:03:12,  2.01it/s] 29%|██▊       | 3061/10696 [51:49<1:03:13,  2.01it/s] 29%|██▊       | 3062/10696 [51:49<1:03:08,  2.01it/s] 29%|██▊       | 3063/10696 [51:50<1:03:10,  2.01it/s] 29%|██▊       | 3064/10696 [51:50<1:03:05,  2.02it/s] 29%|██▊       | 3065/10696 [51:51<1:03:09,  2.01it/s] 29%|██▊       | 3066/10696 [51:51<1:03:05,  2.02it/s] 29%|██▊       | 3067/10696 [51:52<1:03:02,  2.02it/s] 29%|██▊       | 3068/10696 [51:52<1:03:00,  2.02it/s] 29%|██▊       | 3069/10696 [51:53<1:03:00,  2.02it/s] 29%|██▊       | 3070/10696 [51:53<1:02:56,  2.02it/s] 29%|██▊       | 3071/10696 [51:54<1:02:59,  2.02it/s] 29%|██▊       | 3072/10696 [51:54<1:02:57,  2.02it/s] 29%|██▊       | 3073/10696 [51:55<1:02:58,  2.02it/s] 29%|██▊       | 3074/10696 [51:55<1:02:59,  2.02it/s] 29%|██▊       | 3075/10696 [51:56<1:02:58,  2.02it/s]{'loss': 3.9234, 'grad_norm': 0.20969223976135254, 'learning_rate': 0.0008967180578577719, 'epoch': 0.29}
-                                                       29%|██▊       | 3075/10696 [51:56<1:02:58,  2.02it/s] 29%|██▉       | 3076/10696 [51:56<1:03:05,  2.01it/s] 29%|██▉       | 3077/10696 [51:57<1:03:00,  2.02it/s] 29%|██▉       | 3078/10696 [51:57<1:03:03,  2.01it/s] 29%|██▉       | 3079/10696 [51:58<1:03:01,  2.01it/s] 29%|██▉       | 3080/10696 [51:58<1:02:59,  2.02it/s] 29%|██▉       | 3081/10696 [51:59<1:03:01,  2.01it/s] 29%|██▉       | 3082/10696 [51:59<1:03:00,  2.01it/s] 29%|██▉       | 3083/10696 [52:00<1:02:59,  2.01it/s] 29%|██▉       | 3084/10696 [52:00<1:02:57,  2.01it/s] 29%|██▉       | 3085/10696 [52:01<1:02:55,  2.02it/s] 29%|██▉       | 3086/10696 [52:01<1:02:52,  2.02it/s] 29%|██▉       | 3087/10696 [52:02<1:02:53,  2.02it/s] 29%|██▉       | 3088/10696 [52:02<1:02:59,  2.01it/s] 29%|██▉       | 3089/10696 [52:03<1:02:56,  2.01it/s] 29%|██▉       | 3090/10696 [52:03<1:02:57,  2.01it/s] 29%|██▉       | 3091/10696 [52:04<1:02:50,  2.02it/s] 29%|██▉       | 3092/10696 [52:04<1:02:48,  2.02it/s] 29%|██▉       | 3093/10696 [52:05<1:02:43,  2.02it/s] 29%|██▉       | 3094/10696 [52:05<1:02:46,  2.02it/s] 29%|██▉       | 3095/10696 [52:06<1:02:46,  2.02it/s] 29%|██▉       | 3096/10696 [52:06<1:02:48,  2.02it/s] 29%|██▉       | 3097/10696 [52:07<1:02:44,  2.02it/s] 29%|██▉       | 3098/10696 [52:07<1:02:47,  2.02it/s] 29%|██▉       | 3099/10696 [52:08<1:02:45,  2.02it/s] 29%|██▉       | 3100/10696 [52:08<1:02:46,  2.02it/s]{'loss': 3.9238, 'grad_norm': 0.23054443299770355, 'learning_rate': 0.000894221837779003, 'epoch': 0.29}
-                                                       29%|██▉       | 3100/10696 [52:08<1:02:46,  2.02it/s] 29%|██▉       | 3101/10696 [52:09<1:02:52,  2.01it/s] 29%|██▉       | 3102/10696 [52:09<1:02:52,  2.01it/s] 29%|██▉       | 3103/10696 [52:10<1:02:48,  2.01it/s] 29%|██▉       | 3104/10696 [52:10<1:02:52,  2.01it/s] 29%|██▉       | 3105/10696 [52:11<1:02:46,  2.02it/s] 29%|██▉       | 3106/10696 [52:11<1:02:49,  2.01it/s] 29%|██▉       | 3107/10696 [52:12<1:02:47,  2.01it/s] 29%|██▉       | 3108/10696 [52:12<1:02:47,  2.01it/s] 29%|██▉       | 3109/10696 [52:13<1:02:46,  2.01it/s] 29%|██▉       | 3110/10696 [52:13<1:02:44,  2.01it/s] 29%|██▉       | 3111/10696 [52:14<1:02:43,  2.02it/s] 29%|██▉       | 3112/10696 [52:14<1:02:43,  2.01it/s] 29%|██▉       | 3113/10696 [52:15<1:02:42,  2.02it/s] 29%|██▉       | 3114/10696 [52:15<1:02:42,  2.02it/s] 29%|██▉       | 3115/10696 [52:16<1:02:39,  2.02it/s] 29%|██▉       | 3116/10696 [52:16<1:02:41,  2.02it/s] 29%|██▉       | 3117/10696 [52:17<1:02:40,  2.02it/s] 29%|██▉       | 3118/10696 [52:17<1:02:42,  2.01it/s] 29%|██▉       | 3119/10696 [52:18<1:02:41,  2.01it/s] 29%|██▉       | 3120/10696 [52:18<1:02:37,  2.02it/s] 29%|██▉       | 3121/10696 [52:19<1:02:38,  2.02it/s] 29%|██▉       | 3122/10696 [52:19<1:02:37,  2.02it/s] 29%|██▉       | 3123/10696 [52:20<1:02:37,  2.02it/s] 29%|██▉       | 3124/10696 [52:20<1:02:39,  2.01it/s] 29%|██▉       | 3125/10696 [52:21<1:02:36,  2.02it/s]{'loss': 3.9275, 'grad_norm': 0.24429048597812653, 'learning_rate': 0.000891699373924554, 'epoch': 0.29}
-                                                       29%|██▉       | 3125/10696 [52:21<1:02:36,  2.02it/s] 29%|██▉       | 3126/10696 [52:21<1:02:42,  2.01it/s] 29%|██▉       | 3127/10696 [52:22<1:02:41,  2.01it/s] 29%|██▉       | 3128/10696 [52:22<1:02:38,  2.01it/s] 29%|██▉       | 3129/10696 [52:23<1:02:39,  2.01it/s] 29%|██▉       | 3130/10696 [52:23<1:02:36,  2.01it/s] 29%|██▉       | 3131/10696 [52:24<1:02:33,  2.02it/s] 29%|██▉       | 3132/10696 [52:24<1:02:32,  2.02it/s] 29%|██▉       | 3133/10696 [52:25<1:02:30,  2.02it/s] 29%|██▉       | 3134/10696 [52:25<1:02:31,  2.02it/s] 29%|██▉       | 3135/10696 [52:26<1:02:29,  2.02it/s] 29%|██▉       | 3136/10696 [52:26<1:02:31,  2.02it/s] 29%|██▉       | 3137/10696 [52:27<1:02:29,  2.02it/s] 29%|██▉       | 3138/10696 [52:27<1:02:33,  2.01it/s] 29%|██▉       | 3139/10696 [52:28<1:02:28,  2.02it/s] 29%|██▉       | 3140/10696 [52:28<1:02:29,  2.02it/s] 29%|██▉       | 3141/10696 [52:29<1:02:27,  2.02it/s] 29%|██▉       | 3142/10696 [52:29<1:02:28,  2.02it/s] 29%|██▉       | 3143/10696 [52:30<1:02:29,  2.01it/s] 29%|██▉       | 3144/10696 [52:30<1:02:25,  2.02it/s] 29%|██▉       | 3145/10696 [52:31<1:02:26,  2.02it/s] 29%|██▉       | 3146/10696 [52:31<1:02:23,  2.02it/s] 29%|██▉       | 3147/10696 [52:32<1:02:25,  2.02it/s] 29%|██▉       | 3148/10696 [52:32<1:02:19,  2.02it/s] 29%|██▉       | 3149/10696 [52:33<1:02:22,  2.02it/s] 29%|██▉       | 3150/10696 [52:33<1:02:19,  2.02it/s]{'loss': 3.9187, 'grad_norm': 0.2098945528268814, 'learning_rate': 0.0008891508342175823, 'epoch': 0.29}
-                                                       29%|██▉       | 3150/10696 [52:33<1:02:19,  2.02it/s] 29%|██▉       | 3151/10696 [52:34<1:02:22,  2.02it/s] 29%|██▉       | 3152/10696 [52:34<1:02:23,  2.02it/s] 29%|██▉       | 3153/10696 [52:35<1:02:18,  2.02it/s] 29%|██▉       | 3154/10696 [52:35<1:02:20,  2.02it/s] 29%|██▉       | 3155/10696 [52:36<1:02:16,  2.02it/s] 30%|██▉       | 3156/10696 [52:36<1:02:20,  2.02it/s] 30%|██▉       | 3157/10696 [52:37<1:02:16,  2.02it/s] 30%|██▉       | 3158/10696 [52:37<1:02:17,  2.02it/s] 30%|██▉       | 3159/10696 [52:38<1:02:14,  2.02it/s] 30%|██▉       | 3160/10696 [52:38<1:02:16,  2.02it/s] 30%|██▉       | 3161/10696 [52:38<1:02:12,  2.02it/s] 30%|██▉       | 3162/10696 [52:39<1:02:13,  2.02it/s] 30%|██▉       | 3163/10696 [52:39<1:02:10,  2.02it/s] 30%|██▉       | 3164/10696 [52:40<1:02:13,  2.02it/s] 30%|██▉       | 3165/10696 [52:40<1:02:13,  2.02it/s] 30%|██▉       | 3166/10696 [52:41<1:02:10,  2.02it/s] 30%|██▉       | 3167/10696 [52:41<1:02:14,  2.02it/s] 30%|██▉       | 3168/10696 [52:42<1:02:12,  2.02it/s] 30%|██▉       | 3169/10696 [52:42<1:02:13,  2.02it/s] 30%|██▉       | 3170/10696 [52:43<1:02:10,  2.02it/s] 30%|██▉       | 3171/10696 [52:43<1:02:10,  2.02it/s] 30%|██▉       | 3172/10696 [52:44<1:02:09,  2.02it/s] 30%|██▉       | 3173/10696 [52:44<1:02:09,  2.02it/s] 30%|██▉       | 3174/10696 [52:45<1:02:07,  2.02it/s] 30%|██▉       | 3175/10696 [52:45<1:02:11,  2.02it/s]                                                      {'loss': 3.9106, 'grad_norm': 0.2126377671957016, 'learning_rate': 0.0008865763883171424, 'epoch': 0.3}
- 30%|██▉       | 3175/10696 [52:45<1:02:11,  2.02it/s] 30%|██▉       | 3176/10696 [52:46<1:02:14,  2.01it/s] 30%|██▉       | 3177/10696 [52:46<1:02:14,  2.01it/s] 30%|██▉       | 3178/10696 [52:47<1:02:10,  2.02it/s] 30%|██▉       | 3179/10696 [52:47<1:02:09,  2.02it/s] 30%|██▉       | 3180/10696 [52:48<1:02:13,  2.01it/s] 30%|██▉       | 3181/10696 [52:48<1:02:07,  2.02it/s] 30%|██▉       | 3182/10696 [52:49<1:02:08,  2.02it/s] 30%|██▉       | 3183/10696 [52:49<1:02:03,  2.02it/s] 30%|██▉       | 3184/10696 [52:50<1:02:07,  2.02it/s] 30%|██▉       | 3185/10696 [52:50<1:02:09,  2.01it/s] 30%|██▉       | 3186/10696 [52:51<1:02:08,  2.01it/s] 30%|██▉       | 3187/10696 [52:51<1:02:07,  2.01it/s] 30%|██▉       | 3188/10696 [52:52<1:02:04,  2.02it/s] 30%|██▉       | 3189/10696 [52:52<1:02:01,  2.02it/s] 30%|██▉       | 3190/10696 [52:53<1:02:03,  2.02it/s] 30%|██▉       | 3191/10696 [52:53<1:02:04,  2.02it/s] 30%|██▉       | 3192/10696 [52:54<1:02:01,  2.02it/s] 30%|██▉       | 3193/10696 [52:54<1:02:03,  2.02it/s] 30%|██▉       | 3194/10696 [52:55<1:02:02,  2.02it/s] 30%|██▉       | 3195/10696 [52:55<1:02:03,  2.01it/s] 30%|██▉       | 3196/10696 [52:56<1:02:01,  2.02it/s] 30%|██▉       | 3197/10696 [52:57<1:12:01,  1.74it/s] 30%|██▉       | 3198/10696 [52:57<1:08:57,  1.81it/s] 30%|██▉       | 3199/10696 [52:58<1:06:51,  1.87it/s] 30%|██▉       | 3200/10696 [52:58<1:05:23,  1.91it/s]{'loss': 3.9231, 'grad_norm': 0.20184122025966644, 'learning_rate': 0.0008839762076068926, 'epoch': 0.3}
-                                                       30%|██▉       | 3200/10696 [52:58<1:05:23,  1.91it/s] 30%|██▉       | 3201/10696 [52:59<1:04:33,  1.93it/s] 30%|██▉       | 3202/10696 [52:59<1:03:46,  1.96it/s] 30%|██▉       | 3203/10696 [53:00<1:03:14,  1.97it/s] 30%|██▉       | 3204/10696 [53:00<1:02:49,  1.99it/s] 30%|██▉       | 3205/10696 [53:01<1:02:36,  1.99it/s] 30%|██▉       | 3206/10696 [53:01<1:02:20,  2.00it/s] 30%|██▉       | 3207/10696 [53:02<1:02:13,  2.01it/s] 30%|██▉       | 3208/10696 [53:02<1:02:05,  2.01it/s] 30%|███       | 3209/10696 [53:03<1:02:04,  2.01it/s] 30%|███       | 3210/10696 [53:03<1:12:03,  1.73it/s] 30%|███       | 3211/10696 [53:04<1:08:58,  1.81it/s] 30%|███       | 3212/10696 [53:04<1:06:49,  1.87it/s] 30%|███       | 3213/10696 [53:05<1:05:17,  1.91it/s] 30%|███       | 3214/10696 [53:05<1:04:16,  1.94it/s] 30%|███       | 3215/10696 [53:06<1:03:36,  1.96it/s] 30%|███       | 3216/10696 [53:06<1:03:04,  1.98it/s] 30%|███       | 3217/10696 [53:07<1:02:48,  1.98it/s] 30%|███       | 3218/10696 [53:07<1:02:30,  1.99it/s] 30%|███       | 3219/10696 [53:08<1:02:17,  2.00it/s] 30%|███       | 3220/10696 [53:08<1:02:10,  2.00it/s] 30%|███       | 3221/10696 [53:09<1:02:04,  2.01it/s] 30%|███       | 3222/10696 [53:09<1:01:58,  2.01it/s] 30%|███       | 3223/10696 [53:10<1:01:49,  2.01it/s] 30%|███       | 3224/10696 [53:10<1:01:50,  2.01it/s] 30%|███       | 3225/10696 [53:11<1:01:44,  2.02it/s]{'loss': 3.9162, 'grad_norm': 0.2175758183002472, 'learning_rate': 0.0008813504651836853, 'epoch': 0.3}
-                                                       30%|███       | 3225/10696 [53:11<1:01:44,  2.02it/s] 30%|███       | 3226/10696 [53:11<1:01:53,  2.01it/s] 30%|███       | 3227/10696 [53:12<1:01:53,  2.01it/s] 30%|███       | 3228/10696 [53:12<1:01:48,  2.01it/s] 30%|███       | 3229/10696 [53:13<1:01:47,  2.01it/s] 30%|███       | 3230/10696 [53:13<1:01:43,  2.02it/s] 30%|███       | 3231/10696 [53:14<1:01:47,  2.01it/s] 30%|███       | 3232/10696 [53:14<1:01:42,  2.02it/s] 30%|███       | 3233/10696 [53:15<1:01:46,  2.01it/s] 30%|███       | 3234/10696 [53:15<1:01:45,  2.01it/s] 30%|███       | 3235/10696 [53:16<1:01:44,  2.01it/s] 30%|███       | 3236/10696 [53:16<1:01:42,  2.02it/s] 30%|███       | 3237/10696 [53:17<1:01:43,  2.01it/s] 30%|███       | 3238/10696 [53:17<1:01:40,  2.02it/s] 30%|███       | 3239/10696 [53:18<1:01:42,  2.01it/s] 30%|███       | 3240/10696 [53:18<1:01:38,  2.02it/s] 30%|███       | 3241/10696 [53:19<1:01:41,  2.01it/s] 30%|███       | 3242/10696 [53:19<1:01:36,  2.02it/s] 30%|███       | 3243/10696 [53:20<1:01:34,  2.02it/s] 30%|███       | 3244/10696 [53:20<1:01:33,  2.02it/s] 30%|███       | 3245/10696 [53:21<1:01:32,  2.02it/s] 30%|███       | 3246/10696 [53:21<1:01:36,  2.02it/s] 30%|███       | 3247/10696 [53:22<1:01:36,  2.02it/s] 30%|███       | 3248/10696 [53:22<1:01:37,  2.01it/s] 30%|███       | 3249/10696 [53:23<1:01:34,  2.02it/s] 30%|███       | 3250/10696 [53:23<1:01:33,  2.02it/s]                                                      {'loss': 3.9061, 'grad_norm': 0.2301662117242813, 'learning_rate': 0.0008786993358460442, 'epoch': 0.3}
- 30%|███       | 3250/10696 [53:23<1:01:33,  2.02it/s] 30%|███       | 3251/10696 [53:24<1:01:39,  2.01it/s] 30%|███       | 3252/10696 [53:24<1:01:37,  2.01it/s] 30%|███       | 3253/10696 [53:25<1:01:33,  2.02it/s] 30%|███       | 3254/10696 [53:25<1:01:34,  2.01it/s] 30%|███       | 3255/10696 [53:26<1:01:33,  2.01it/s] 30%|███       | 3256/10696 [53:26<1:01:35,  2.01it/s] 30%|███       | 3257/10696 [53:27<1:01:36,  2.01it/s] 30%|███       | 3258/10696 [53:27<1:01:31,  2.02it/s] 30%|███       | 3259/10696 [53:28<1:01:31,  2.01it/s] 30%|███       | 3260/10696 [53:28<1:01:25,  2.02it/s] 30%|███       | 3261/10696 [53:29<1:01:27,  2.02it/s] 30%|███       | 3262/10696 [53:29<1:01:24,  2.02it/s] 31%|███       | 3263/10696 [53:30<1:01:26,  2.02it/s] 31%|███       | 3264/10696 [53:30<1:01:33,  2.01it/s] 31%|███       | 3265/10696 [53:31<1:01:30,  2.01it/s] 31%|███       | 3266/10696 [53:31<1:01:33,  2.01it/s] 31%|███       | 3267/10696 [53:32<1:01:30,  2.01it/s] 31%|███       | 3268/10696 [53:32<1:01:25,  2.02it/s] 31%|███       | 3269/10696 [53:33<1:01:26,  2.01it/s] 31%|███       | 3270/10696 [53:33<1:01:22,  2.02it/s] 31%|███       | 3271/10696 [53:34<1:01:25,  2.01it/s] 31%|███       | 3272/10696 [53:34<1:01:20,  2.02it/s] 31%|███       | 3273/10696 [53:35<1:01:22,  2.02it/s] 31%|███       | 3274/10696 [53:35<1:01:18,  2.02it/s] 31%|███       | 3275/10696 [53:36<1:01:20,  2.02it/s]{'loss': 3.908, 'grad_norm': 0.23561865091323853, 'learning_rate': 0.0008760229960825267, 'epoch': 0.31}
-                                                       31%|███       | 3275/10696 [53:36<1:01:20,  2.02it/s] 31%|███       | 3276/10696 [53:36<1:01:29,  2.01it/s] 31%|███       | 3277/10696 [53:37<1:01:27,  2.01it/s] 31%|███       | 3278/10696 [53:37<1:01:25,  2.01it/s] 31%|███       | 3279/10696 [53:38<1:01:25,  2.01it/s] 31%|███       | 3280/10696 [53:38<1:01:22,  2.01it/s] 31%|███       | 3281/10696 [53:39<1:01:21,  2.01it/s] 31%|███       | 3282/10696 [53:39<1:01:18,  2.02it/s] 31%|███       | 3283/10696 [53:40<1:01:19,  2.01it/s] 31%|███       | 3284/10696 [53:40<1:01:15,  2.02it/s] 31%|███       | 3285/10696 [53:41<1:01:17,  2.02it/s] 31%|███       | 3286/10696 [53:41<1:01:14,  2.02it/s] 31%|███       | 3287/10696 [53:42<1:01:16,  2.02it/s] 31%|███       | 3288/10696 [53:42<1:01:17,  2.01it/s] 31%|███       | 3289/10696 [53:43<1:01:16,  2.01it/s] 31%|███       | 3290/10696 [53:43<1:01:17,  2.01it/s] 31%|███       | 3291/10696 [53:44<1:01:13,  2.02it/s] 31%|███       | 3292/10696 [53:44<1:01:13,  2.02it/s] 31%|███       | 3293/10696 [53:45<1:01:07,  2.02it/s] 31%|███       | 3294/10696 [53:45<1:01:12,  2.02it/s] 31%|███       | 3295/10696 [53:46<1:01:08,  2.02it/s] 31%|███       | 3296/10696 [53:46<1:01:12,  2.02it/s] 31%|███       | 3297/10696 [53:47<1:01:15,  2.01it/s] 31%|███       | 3298/10696 [53:47<1:01:11,  2.02it/s] 31%|███       | 3299/10696 [53:48<1:01:14,  2.01it/s] 31%|███       | 3300/10696 [53:48<1:01:10,  2.02it/s]{'loss': 3.9041, 'grad_norm': 0.2146521806716919, 'learning_rate': 0.0008733216240599766, 'epoch': 0.31}
-                                                       31%|███       | 3300/10696 [53:48<1:01:10,  2.02it/s] 31%|███       | 3301/10696 [53:49<1:01:13,  2.01it/s] 31%|███       | 3302/10696 [53:49<1:01:13,  2.01it/s] 31%|███       | 3303/10696 [53:49<1:01:06,  2.02it/s] 31%|███       | 3304/10696 [53:50<1:01:12,  2.01it/s] 31%|███       | 3305/10696 [53:50<1:01:07,  2.02it/s] 31%|███       | 3306/10696 [53:51<1:01:09,  2.01it/s] 31%|███       | 3307/10696 [53:51<1:01:04,  2.02it/s] 31%|███       | 3308/10696 [53:52<1:01:07,  2.01it/s] 31%|███       | 3309/10696 [53:52<1:01:08,  2.01it/s] 31%|███       | 3310/10696 [53:53<1:01:08,  2.01it/s] 31%|███       | 3311/10696 [53:53<1:01:12,  2.01it/s] 31%|███       | 3312/10696 [53:54<1:01:08,  2.01it/s] 31%|███       | 3313/10696 [53:54<1:01:07,  2.01it/s] 31%|███       | 3314/10696 [53:55<1:01:03,  2.01it/s] 31%|███       | 3315/10696 [53:55<1:01:05,  2.01it/s] 31%|███       | 3316/10696 [53:56<1:01:00,  2.02it/s] 31%|███       | 3317/10696 [53:56<1:01:03,  2.01it/s] 31%|███       | 3318/10696 [53:57<1:01:00,  2.02it/s] 31%|███       | 3319/10696 [53:57<1:00:58,  2.02it/s] 31%|███       | 3320/10696 [53:58<1:00:58,  2.02it/s] 31%|███       | 3321/10696 [53:58<1:00:57,  2.02it/s] 31%|███       | 3322/10696 [53:59<1:00:57,  2.02it/s] 31%|███       | 3323/10696 [53:59<1:00:54,  2.02it/s] 31%|███       | 3324/10696 [54:00<1:00:56,  2.02it/s] 31%|███       | 3325/10696 [54:00<1:00:56,  2.02it/s]{'loss': 3.898, 'grad_norm': 0.22058379650115967, 'learning_rate': 0.0008705953996116615, 'epoch': 0.31}
-                                                       31%|███       | 3325/10696 [54:00<1:00:56,  2.02it/s] 31%|███       | 3326/10696 [54:01<1:01:01,  2.01it/s] 31%|███       | 3327/10696 [54:01<1:00:57,  2.01it/s] 31%|███       | 3328/10696 [54:02<1:00:59,  2.01it/s] 31%|███       | 3329/10696 [54:02<1:00:59,  2.01it/s] 31%|███       | 3330/10696 [54:03<1:00:56,  2.01it/s] 31%|███       | 3331/10696 [54:03<1:00:54,  2.02it/s] 31%|███       | 3332/10696 [54:04<1:00:48,  2.02it/s] 31%|███       | 3333/10696 [54:04<1:00:49,  2.02it/s] 31%|███       | 3334/10696 [54:05<1:00:47,  2.02it/s] 31%|███       | 3335/10696 [54:05<1:00:56,  2.01it/s] 31%|███       | 3336/10696 [54:06<1:00:53,  2.01it/s] 31%|███       | 3337/10696 [54:06<1:00:53,  2.01it/s] 31%|███       | 3338/10696 [54:07<1:00:56,  2.01it/s] 31%|███       | 3339/10696 [54:07<1:00:54,  2.01it/s] 31%|███       | 3340/10696 [54:08<1:00:53,  2.01it/s] 31%|███       | 3341/10696 [54:08<1:00:50,  2.02it/s] 31%|███       | 3342/10696 [54:09<1:00:49,  2.01it/s] 31%|███▏      | 3343/10696 [54:09<1:00:44,  2.02it/s] 31%|███▏      | 3344/10696 [54:10<1:00:45,  2.02it/s] 31%|███▏      | 3345/10696 [54:10<1:00:50,  2.01it/s] 31%|███▏      | 3346/10696 [54:11<1:00:47,  2.02it/s] 31%|███▏      | 3347/10696 [54:11<1:00:49,  2.01it/s] 31%|███▏      | 3348/10696 [54:12<1:00:45,  2.02it/s] 31%|███▏      | 3349/10696 [54:12<1:00:44,  2.02it/s] 31%|███▏      | 3350/10696 [54:13<1:00:42,  2.02it/s]{'loss': 3.9059, 'grad_norm': 0.21702715754508972, 'learning_rate': 0.0008678445042253025, 'epoch': 0.31}
-                                                       31%|███▏      | 3350/10696 [54:13<1:00:42,  2.02it/s] 31%|███▏      | 3351/10696 [54:13<1:00:45,  2.01it/s] 31%|███▏      | 3352/10696 [54:14<1:00:44,  2.02it/s] 31%|███▏      | 3353/10696 [54:14<1:00:46,  2.01it/s] 31%|███▏      | 3354/10696 [54:15<1:00:50,  2.01it/s] 31%|███▏      | 3355/10696 [54:15<1:00:46,  2.01it/s] 31%|███▏      | 3356/10696 [54:16<1:00:44,  2.01it/s] 31%|███▏      | 3357/10696 [54:16<1:00:46,  2.01it/s] 31%|███▏      | 3358/10696 [54:17<1:00:47,  2.01it/s] 31%|███▏      | 3359/10696 [54:17<1:00:46,  2.01it/s] 31%|███▏      | 3360/10696 [54:18<1:00:42,  2.01it/s] 31%|███▏      | 3361/10696 [54:18<1:00:42,  2.01it/s] 31%|███▏      | 3362/10696 [54:19<1:00:40,  2.01it/s] 31%|███▏      | 3363/10696 [54:19<1:00:41,  2.01it/s] 31%|███▏      | 3364/10696 [54:20<1:00:38,  2.02it/s] 31%|███▏      | 3365/10696 [54:20<1:00:39,  2.01it/s] 31%|███▏      | 3366/10696 [54:21<1:00:38,  2.01it/s] 31%|███▏      | 3367/10696 [54:21<1:00:38,  2.01it/s] 31%|███▏      | 3368/10696 [54:22<1:00:40,  2.01it/s] 31%|███▏      | 3369/10696 [54:22<1:00:35,  2.02it/s] 32%|███▏      | 3370/10696 [54:23<1:00:38,  2.01it/s] 32%|███▏      | 3371/10696 [54:23<1:00:33,  2.02it/s] 32%|███▏      | 3372/10696 [54:24<1:00:37,  2.01it/s] 32%|███▏      | 3373/10696 [54:24<1:00:35,  2.01it/s] 32%|███▏      | 3374/10696 [54:25<1:00:37,  2.01it/s] 32%|███▏      | 3375/10696 [54:25<1:00:34,  2.01it/s]{'loss': 3.9012, 'grad_norm': 0.2135583460330963, 'learning_rate': 0.0008650691210309915, 'epoch': 0.32}
-                                                       32%|███▏      | 3375/10696 [54:25<1:00:34,  2.01it/s] 32%|███▏      | 3376/10696 [54:26<1:00:37,  2.01it/s] 32%|███▏      | 3377/10696 [54:26<1:00:35,  2.01it/s] 32%|███▏      | 3378/10696 [54:27<1:00:35,  2.01it/s] 32%|███▏      | 3379/10696 [54:27<1:00:31,  2.01it/s] 32%|███▏      | 3380/10696 [54:28<1:00:32,  2.01it/s] 32%|███▏      | 3381/10696 [54:28<1:00:31,  2.01it/s] 32%|███▏      | 3382/10696 [54:29<1:00:29,  2.02it/s] 32%|███▏      | 3383/10696 [54:29<1:00:28,  2.02it/s] 32%|███▏      | 3384/10696 [54:30<1:00:27,  2.02it/s] 32%|███▏      | 3385/10696 [54:30<1:00:30,  2.01it/s] 32%|███▏      | 3386/10696 [54:31<1:00:25,  2.02it/s] 32%|███▏      | 3387/10696 [54:31<1:00:30,  2.01it/s] 32%|███▏      | 3388/10696 [54:32<1:00:28,  2.01it/s] 32%|███▏      | 3389/10696 [54:32<1:00:28,  2.01it/s] 32%|███▏      | 3390/10696 [54:33<1:00:26,  2.01it/s] 32%|███▏      | 3391/10696 [54:33<1:00:27,  2.01it/s] 32%|███▏      | 3392/10696 [54:34<1:00:22,  2.02it/s] 32%|███▏      | 3393/10696 [54:34<1:00:22,  2.02it/s] 32%|███▏      | 3394/10696 [54:35<1:00:23,  2.01it/s] 32%|███▏      | 3395/10696 [54:35<1:00:20,  2.02it/s] 32%|███▏      | 3396/10696 [54:36<1:00:21,  2.02it/s] 32%|███▏      | 3397/10696 [54:36<1:00:21,  2.02it/s] 32%|███▏      | 3398/10696 [54:37<1:00:23,  2.01it/s] 32%|███▏      | 3399/10696 [54:37<1:00:21,  2.02it/s] 32%|███▏      | 3400/10696 [54:38<1:00:22,  2.01it/s]{'loss': 3.8874, 'grad_norm': 0.20732925832271576, 'learning_rate': 0.0008622694347890007, 'epoch': 0.32}
-                                                       32%|███▏      | 3400/10696 [54:38<1:00:22,  2.01it/s] 32%|███▏      | 3401/10696 [54:38<1:00:29,  2.01it/s] 32%|███▏      | 3402/10696 [54:39<1:00:21,  2.01it/s] 32%|███▏      | 3403/10696 [54:39<1:00:22,  2.01it/s] 32%|███▏      | 3404/10696 [54:40<1:00:15,  2.02it/s] 32%|███▏      | 3405/10696 [54:40<1:00:17,  2.02it/s] 32%|███▏      | 3406/10696 [54:41<1:00:15,  2.02it/s] 32%|███▏      | 3407/10696 [54:41<1:00:14,  2.02it/s] 32%|███▏      | 3408/10696 [54:42<1:00:13,  2.02it/s] 32%|███▏      | 3409/10696 [54:42<1:00:11,  2.02it/s] 32%|███▏      | 3410/10696 [54:43<1:00:14,  2.02it/s] 32%|███▏      | 3411/10696 [54:43<1:00:09,  2.02it/s] 32%|███▏      | 3412/10696 [54:44<1:00:13,  2.02it/s] 32%|███▏      | 3413/10696 [54:44<1:00:08,  2.02it/s] 32%|███▏      | 3414/10696 [54:45<1:00:10,  2.02it/s] 32%|███▏      | 3415/10696 [54:45<1:00:07,  2.02it/s] 32%|███▏      | 3416/10696 [54:46<1:00:08,  2.02it/s] 32%|███▏      | 3417/10696 [54:46<1:00:09,  2.02it/s] 32%|███▏      | 3418/10696 [54:47<1:00:11,  2.02it/s] 32%|███▏      | 3419/10696 [54:47<1:00:08,  2.02it/s] 32%|███▏      | 3420/10696 [54:48<1:00:06,  2.02it/s] 32%|███▏      | 3421/10696 [54:48<1:00:05,  2.02it/s] 32%|███▏      | 3422/10696 [54:49<1:00:01,  2.02it/s] 32%|███▏      | 3423/10696 [54:49<1:00:05,  2.02it/s] 32%|███▏      | 3424/10696 [54:50<1:00:00,  2.02it/s] 32%|███▏      | 3425/10696 [54:50<1:00:04,  2.02it/s]{'loss': 3.8991, 'grad_norm': 0.2106785774230957, 'learning_rate': 0.0008594456318774822, 'epoch': 0.32}
-                                                       32%|███▏      | 3425/10696 [54:50<1:00:04,  2.02it/s] 32%|███▏      | 3426/10696 [54:51<1:00:05,  2.02it/s] 32%|███▏      | 3427/10696 [54:51<1:00:05,  2.02it/s] 32%|███▏      | 3428/10696 [54:52<1:00:06,  2.02it/s] 32%|███▏      | 3429/10696 [54:52<1:00:02,  2.02it/s] 32%|███▏      | 3430/10696 [54:53<1:00:03,  2.02it/s] 32%|███▏      | 3431/10696 [54:53<59:57,  2.02it/s]   32%|███▏      | 3432/10696 [54:54<1:00:03,  2.02it/s] 32%|███▏      | 3433/10696 [54:54<1:00:01,  2.02it/s] 32%|███▏      | 3434/10696 [54:55<1:00:02,  2.02it/s] 32%|███▏      | 3435/10696 [54:55<59:59,  2.02it/s]   32%|███▏      | 3436/10696 [54:55<1:00:01,  2.02it/s] 32%|███▏      | 3437/10696 [54:56<1:00:01,  2.02it/s] 32%|███▏      | 3438/10696 [54:56<1:00:01,  2.02it/s] 32%|███▏      | 3439/10696 [54:57<1:00:02,  2.01it/s] 32%|███▏      | 3440/10696 [54:57<59:57,  2.02it/s]   32%|███▏      | 3441/10696 [54:58<59:59,  2.02it/s] 32%|███▏      | 3442/10696 [54:58<59:54,  2.02it/s] 32%|███▏      | 3443/10696 [54:59<59:57,  2.02it/s] 32%|███▏      | 3444/10696 [54:59<59:56,  2.02it/s] 32%|███▏      | 3445/10696 [55:00<59:58,  2.01it/s] 32%|███▏      | 3446/10696 [55:00<59:57,  2.02it/s] 32%|███▏      | 3447/10696 [55:01<59:57,  2.01it/s] 32%|███▏      | 3448/10696 [55:01<59:56,  2.02it/s] 32%|███▏      | 3449/10696 [55:02<59:53,  2.02it/s] 32%|███▏      | 3450/10696 [55:02<59:52,  2.02it/s]{'loss': 3.8915, 'grad_norm': 0.2366541177034378, 'learning_rate': 0.0008565979002800613, 'epoch': 0.32}
-                                                     32%|███▏      | 3450/10696 [55:02<59:52,  2.02it/s] 32%|███▏      | 3451/10696 [55:03<59:54,  2.02it/s] 32%|███▏      | 3452/10696 [55:03<59:54,  2.02it/s] 32%|███▏      | 3453/10696 [55:04<59:52,  2.02it/s] 32%|███▏      | 3454/10696 [55:04<59:51,  2.02it/s] 32%|███▏      | 3455/10696 [55:05<59:49,  2.02it/s] 32%|███▏      | 3456/10696 [55:05<59:51,  2.02it/s] 32%|███▏      | 3457/10696 [55:06<59:50,  2.02it/s] 32%|███▏      | 3458/10696 [55:06<59:52,  2.01it/s] 32%|███▏      | 3459/10696 [55:07<59:46,  2.02it/s] 32%|███▏      | 3460/10696 [55:07<59:48,  2.02it/s] 32%|███▏      | 3461/10696 [55:08<1:00:21,  2.00it/s] 32%|███▏      | 3462/10696 [55:08<1:00:10,  2.00it/s] 32%|███▏      | 3463/10696 [55:09<1:00:00,  2.01it/s] 32%|███▏      | 3464/10696 [55:09<59:58,  2.01it/s]   32%|███▏      | 3465/10696 [55:10<59:52,  2.01it/s] 32%|███▏      | 3466/10696 [55:10<59:51,  2.01it/s] 32%|███▏      | 3467/10696 [55:11<59:49,  2.01it/s] 32%|███▏      | 3468/10696 [55:11<59:48,  2.01it/s] 32%|███▏      | 3469/10696 [55:12<59:46,  2.02it/s] 32%|███▏      | 3470/10696 [55:12<59:42,  2.02it/s] 32%|███▏      | 3471/10696 [55:13<59:41,  2.02it/s] 32%|███▏      | 3472/10696 [55:13<59:38,  2.02it/s] 32%|███▏      | 3473/10696 [55:14<59:43,  2.02it/s] 32%|███▏      | 3474/10696 [55:14<59:38,  2.02it/s] 32%|███▏      | 3475/10696 [55:15<59:42,  2.02it/s]{'loss': 3.8894, 'grad_norm': 0.2263108342885971, 'learning_rate': 0.0008537264295733215, 'epoch': 0.32}
-                                                     32%|███▏      | 3475/10696 [55:15<59:42,  2.02it/s] 32%|███▏      | 3476/10696 [55:15<59:42,  2.02it/s] 33%|███▎      | 3477/10696 [55:16<59:41,  2.02it/s] 33%|███▎      | 3478/10696 [55:16<59:39,  2.02it/s] 33%|███▎      | 3479/10696 [55:17<59:39,  2.02it/s] 33%|███▎      | 3480/10696 [55:17<59:44,  2.01it/s] 33%|███▎      | 3481/10696 [55:18<59:40,  2.02it/s] 33%|███▎      | 3482/10696 [55:18<59:38,  2.02it/s] 33%|███▎      | 3483/10696 [55:19<59:39,  2.02it/s] 33%|███▎      | 3484/10696 [55:19<59:42,  2.01it/s] 33%|███▎      | 3485/10696 [55:20<59:40,  2.01it/s] 33%|███▎      | 3486/10696 [55:20<59:40,  2.01it/s] 33%|███▎      | 3487/10696 [55:21<59:38,  2.01it/s] 33%|███▎      | 3488/10696 [55:21<59:35,  2.02it/s] 33%|███▎      | 3489/10696 [55:22<59:35,  2.02it/s] 33%|███▎      | 3490/10696 [55:22<59:35,  2.02it/s] 33%|███▎      | 3491/10696 [55:23<59:35,  2.02it/s] 33%|███▎      | 3492/10696 [55:23<59:34,  2.02it/s] 33%|███▎      | 3493/10696 [55:24<59:36,  2.01it/s] 33%|███▎      | 3494/10696 [55:24<59:34,  2.01it/s] 33%|███▎      | 3495/10696 [55:25<59:33,  2.01it/s] 33%|███▎      | 3496/10696 [55:25<59:35,  2.01it/s] 33%|███▎      | 3497/10696 [55:26<59:31,  2.02it/s] 33%|███▎      | 3498/10696 [55:26<59:33,  2.01it/s] 33%|███▎      | 3499/10696 [55:27<59:29,  2.02it/s] 33%|███▎      | 3500/10696 [55:27<59:32,  2.01it/s]                                                    {'loss': 3.8838, 'grad_norm': 0.2106657773256302, 'learning_rate': 0.0008508314109141851, 'epoch': 0.33}
- 33%|███▎      | 3500/10696 [55:27<59:32,  2.01it/s] 33%|███▎      | 3501/10696 [55:28<59:30,  2.02it/s] 33%|███▎      | 3502/10696 [55:28<59:29,  2.02it/s] 33%|███▎      | 3503/10696 [55:29<59:25,  2.02it/s] 33%|███▎      | 3504/10696 [55:29<59:27,  2.02it/s] 33%|███▎      | 3505/10696 [55:30<59:29,  2.01it/s] 33%|███▎      | 3506/10696 [55:30<59:31,  2.01it/s] 33%|███▎      | 3507/10696 [55:31<59:30,  2.01it/s] 33%|███▎      | 3508/10696 [55:31<59:29,  2.01it/s] 33%|███▎      | 3509/10696 [55:32<59:25,  2.02it/s] 33%|███▎      | 3510/10696 [55:32<59:26,  2.01it/s] 33%|███▎      | 3511/10696 [55:33<59:23,  2.02it/s] 33%|███▎      | 3512/10696 [55:33<59:24,  2.02it/s] 33%|███▎      | 3513/10696 [55:34<59:24,  2.02it/s] 33%|███▎      | 3514/10696 [55:34<59:26,  2.01it/s] 33%|███▎      | 3515/10696 [55:35<59:24,  2.01it/s] 33%|███▎      | 3516/10696 [55:35<59:24,  2.01it/s] 33%|███▎      | 3517/10696 [55:36<59:23,  2.01it/s] 33%|███▎      | 3518/10696 [55:36<59:23,  2.01it/s] 33%|███▎      | 3519/10696 [55:37<59:23,  2.01it/s] 33%|███▎      | 3520/10696 [55:37<59:19,  2.02it/s] 33%|███▎      | 3521/10696 [55:38<59:20,  2.02it/s] 33%|███▎      | 3522/10696 [55:38<59:15,  2.02it/s] 33%|███▎      | 3523/10696 [55:39<59:17,  2.02it/s] 33%|███▎      | 3524/10696 [55:39<59:17,  2.02it/s] 33%|███▎      | 3525/10696 [55:40<59:18,  2.01it/s]{'loss': 3.8866, 'grad_norm': 0.20420025289058685, 'learning_rate': 0.0008479130370271866, 'epoch': 0.33}
-                                                     33%|███▎      | 3525/10696 [55:40<59:18,  2.01it/s] 33%|███▎      | 3526/10696 [55:40<59:23,  2.01it/s] 33%|███▎      | 3527/10696 [55:41<59:19,  2.01it/s] 33%|███▎      | 3528/10696 [55:41<59:17,  2.01it/s] 33%|███▎      | 3529/10696 [55:42<59:18,  2.01it/s] 33%|███▎      | 3530/10696 [55:42<59:18,  2.01it/s] 33%|███▎      | 3531/10696 [55:43<59:15,  2.02it/s] 33%|███▎      | 3532/10696 [55:43<59:16,  2.01it/s] 33%|███▎      | 3533/10696 [55:44<59:12,  2.02it/s] 33%|███▎      | 3534/10696 [55:44<59:14,  2.01it/s] 33%|███▎      | 3535/10696 [55:45<59:11,  2.02it/s] 33%|███▎      | 3536/10696 [55:45<59:13,  2.01it/s] 33%|███▎      | 3537/10696 [55:46<59:15,  2.01it/s] 33%|███▎      | 3538/10696 [55:46<59:13,  2.01it/s] 33%|███▎      | 3539/10696 [55:47<59:16,  2.01it/s] 33%|███▎      | 3540/10696 [55:47<59:10,  2.02it/s] 33%|███▎      | 3541/10696 [55:48<59:11,  2.01it/s] 33%|███▎      | 3542/10696 [55:48<59:08,  2.02it/s] 33%|███▎      | 3543/10696 [55:49<59:09,  2.01it/s] 33%|███▎      | 3544/10696 [55:49<59:09,  2.02it/s] 33%|███▎      | 3545/10696 [55:50<59:06,  2.02it/s] 33%|███▎      | 3546/10696 [55:50<59:09,  2.01it/s] 33%|███▎      | 3547/10696 [55:51<59:06,  2.02it/s] 33%|███▎      | 3548/10696 [55:51<59:10,  2.01it/s] 33%|███▎      | 3549/10696 [55:52<59:05,  2.02it/s] 33%|███▎      | 3550/10696 [55:52<59:06,  2.02it/s]{'loss': 3.8892, 'grad_norm': 0.20385104417800903, 'learning_rate': 0.0008449715021916438, 'epoch': 0.33}
-                                                     33%|███▎      | 3550/10696 [55:52<59:06,  2.02it/s] 33%|███▎      | 3551/10696 [55:53<59:06,  2.01it/s] 33%|███▎      | 3552/10696 [55:53<59:02,  2.02it/s] 33%|███▎      | 3553/10696 [55:54<59:04,  2.02it/s] 33%|███▎      | 3554/10696 [55:54<59:00,  2.02it/s] 33%|███▎      | 3555/10696 [55:55<59:01,  2.02it/s] 33%|███▎      | 3556/10696 [55:55<58:59,  2.02it/s] 33%|███▎      | 3557/10696 [55:56<59:01,  2.02it/s] 33%|███▎      | 3558/10696 [55:56<58:57,  2.02it/s] 33%|███▎      | 3559/10696 [55:57<59:00,  2.02it/s] 33%|███▎      | 3560/10696 [55:57<58:58,  2.02it/s] 33%|███▎      | 3561/10696 [55:58<58:58,  2.02it/s] 33%|███▎      | 3562/10696 [55:58<58:57,  2.02it/s] 33%|███▎      | 3563/10696 [55:59<58:57,  2.02it/s] 33%|███▎      | 3564/10696 [55:59<58:59,  2.02it/s] 33%|███▎      | 3565/10696 [56:00<58:57,  2.02it/s] 33%|███▎      | 3566/10696 [56:00<58:57,  2.02it/s] 33%|███▎      | 3567/10696 [56:01<58:54,  2.02it/s] 33%|███▎      | 3568/10696 [56:01<58:55,  2.02it/s] 33%|███▎      | 3569/10696 [56:01<58:51,  2.02it/s] 33%|███▎      | 3570/10696 [56:02<58:55,  2.02it/s] 33%|███▎      | 3571/10696 [56:02<58:53,  2.02it/s] 33%|███▎      | 3572/10696 [56:03<58:52,  2.02it/s] 33%|███▎      | 3573/10696 [56:03<58:53,  2.02it/s] 33%|███▎      | 3574/10696 [56:04<58:52,  2.02it/s] 33%|███▎      | 3575/10696 [56:04<58:52,  2.02it/s]{'loss': 3.8792, 'grad_norm': 0.23372365534305573, 'learning_rate': 0.0008420070022287236, 'epoch': 0.33}                                                    
- 33%|███▎      | 3575/10696 [56:04<58:52,  2.02it/s] 33%|███▎      | 3576/10696 [56:05<58:56,  2.01it/s] 33%|███▎      | 3577/10696 [56:05<58:57,  2.01it/s] 33%|███▎      | 3578/10696 [56:06<58:53,  2.01it/s] 33%|███▎      | 3579/10696 [56:06<58:57,  2.01it/s] 33%|███▎      | 3580/10696 [56:07<58:50,  2.02it/s] 33%|███▎      | 3581/10696 [56:07<58:51,  2.01it/s] 33%|███▎      | 3582/10696 [56:08<58:50,  2.01it/s] 33%|███▎      | 3583/10696 [56:08<58:49,  2.02it/s] 34%|███▎      | 3584/10696 [56:09<58:47,  2.02it/s] 34%|███▎      | 3585/10696 [56:09<58:45,  2.02it/s] 34%|███▎      | 3586/10696 [56:10<58:47,  2.02it/s] 34%|███▎      | 3587/10696 [56:10<58:46,  2.02it/s] 34%|███▎      | 3588/10696 [56:11<58:45,  2.02it/s] 34%|███▎      | 3589/10696 [56:11<58:43,  2.02it/s] 34%|███▎      | 3590/10696 [56:12<58:45,  2.02it/s] 34%|███▎      | 3591/10696 [56:12<58:45,  2.02it/s] 34%|███▎      | 3592/10696 [56:13<58:46,  2.01it/s] 34%|███▎      | 3593/10696 [56:13<58:41,  2.02it/s] 34%|███▎      | 3594/10696 [56:14<58:46,  2.01it/s] 34%|███▎      | 3595/10696 [56:14<58:41,  2.02it/s] 34%|███▎      | 3596/10696 [56:15<58:46,  2.01it/s] 34%|███▎      | 3597/10696 [56:15<58:42,  2.02it/s] 34%|███▎      | 3598/10696 [56:16<58:43,  2.01it/s] 34%|███▎      | 3599/10696 [56:16<58:40,  2.02it/s] 34%|███▎      | 3600/10696 [56:17<58:41,  2.02it/s]                                                    {'loss': 3.8768, 'grad_norm': 0.20482398569583893, 'learning_rate': 0.0008390197344884069, 'epoch': 0.34}
- 34%|███▎      | 3600/10696 [56:17<58:41,  2.02it/s] 34%|███▎      | 3601/10696 [56:17<58:45,  2.01it/s] 34%|███▎      | 3602/10696 [56:18<58:40,  2.01it/s] 34%|███▎      | 3603/10696 [56:18<58:43,  2.01it/s] 34%|███▎      | 3604/10696 [56:19<58:38,  2.02it/s] 34%|███▎      | 3605/10696 [56:19<58:39,  2.01it/s] 34%|███▎      | 3606/10696 [56:20<58:37,  2.02it/s] 34%|███▎      | 3607/10696 [56:20<58:38,  2.02it/s] 34%|███▎      | 3608/10696 [56:21<58:37,  2.01it/s] 34%|███▎      | 3609/10696 [56:21<58:36,  2.02it/s] 34%|███▍      | 3610/10696 [56:22<58:37,  2.01it/s] 34%|███▍      | 3611/10696 [56:22<58:34,  2.02it/s] 34%|███▍      | 3612/10696 [56:23<58:36,  2.01it/s] 34%|███▍      | 3613/10696 [56:23<58:30,  2.02it/s] 34%|███▍      | 3614/10696 [56:24<58:31,  2.02it/s] 34%|███▍      | 3615/10696 [56:24<58:32,  2.02it/s] 34%|███▍      | 3616/10696 [56:25<58:34,  2.01it/s] 34%|███▍      | 3617/10696 [56:25<58:33,  2.01it/s] 34%|███▍      | 3618/10696 [56:26<58:33,  2.01it/s] 34%|███▍      | 3619/10696 [56:26<58:31,  2.02it/s] 34%|███▍      | 3620/10696 [56:27<58:28,  2.02it/s] 34%|███▍      | 3621/10696 [56:27<58:26,  2.02it/s] 34%|███▍      | 3622/10696 [56:28<58:25,  2.02it/s] 34%|███▍      | 3623/10696 [56:28<58:25,  2.02it/s] 34%|███▍      | 3624/10696 [56:29<58:27,  2.02it/s] 34%|███▍      | 3625/10696 [56:29<58:23,  2.02it/s]{'loss': 3.8678, 'grad_norm': 0.21963758766651154, 'learning_rate': 0.0008360098978363498, 'epoch': 0.34}
-                                                     34%|███▍      | 3625/10696 [56:29<58:23,  2.02it/s] 34%|███▍      | 3626/10696 [56:30<58:32,  2.01it/s] 34%|███▍      | 3627/10696 [56:30<58:30,  2.01it/s] 34%|███▍      | 3628/10696 [56:31<58:30,  2.01it/s] 34%|███▍      | 3629/10696 [56:31<58:28,  2.01it/s] 34%|███▍      | 3630/10696 [56:32<58:27,  2.01it/s] 34%|███▍      | 3631/10696 [56:32<58:22,  2.02it/s] 34%|███▍      | 3632/10696 [56:33<58:21,  2.02it/s] 34%|███▍      | 3633/10696 [56:33<58:23,  2.02it/s] 34%|███▍      | 3634/10696 [56:34<58:25,  2.01it/s] 34%|███▍      | 3635/10696 [56:34<58:25,  2.01it/s] 34%|███▍      | 3636/10696 [56:35<58:23,  2.02it/s] 34%|███▍      | 3637/10696 [56:35<58:23,  2.01it/s] 34%|███▍      | 3638/10696 [56:36<58:20,  2.02it/s] 34%|███▍      | 3639/10696 [56:36<58:22,  2.01it/s] 34%|███▍      | 3640/10696 [56:37<58:15,  2.02it/s] 34%|███▍      | 3641/10696 [56:37<58:17,  2.02it/s] 34%|███▍      | 3642/10696 [56:38<58:15,  2.02it/s] 34%|███▍      | 3643/10696 [56:38<58:17,  2.02it/s] 34%|███▍      | 3644/10696 [56:39<58:14,  2.02it/s] 34%|███▍      | 3645/10696 [56:39<58:16,  2.02it/s] 34%|███▍      | 3646/10696 [56:40<58:15,  2.02it/s] 34%|███▍      | 3647/10696 [56:40<58:14,  2.02it/s] 34%|███▍      | 3648/10696 [56:41<58:14,  2.02it/s] 34%|███▍      | 3649/10696 [56:41<58:15,  2.02it/s] 34%|███▍      | 3650/10696 [56:42<58:12,  2.02it/s]{'loss': 3.8734, 'grad_norm': 0.22601906955242157, 'learning_rate': 0.0008329776926406454, 'epoch': 0.34}                                                    
- 34%|███▍      | 3650/10696 [56:42<58:12,  2.02it/s] 34%|███▍      | 3651/10696 [56:42<58:19,  2.01it/s] 34%|███▍      | 3652/10696 [56:43<58:14,  2.02it/s] 34%|███▍      | 3653/10696 [56:43<58:15,  2.01it/s] 34%|███▍      | 3654/10696 [56:44<58:18,  2.01it/s] 34%|███▍      | 3655/10696 [56:44<58:16,  2.01it/s] 34%|███▍      | 3656/10696 [56:45<58:13,  2.02it/s] 34%|███▍      | 3657/10696 [56:45<58:12,  2.02it/s] 34%|███▍      | 3658/10696 [56:46<58:13,  2.01it/s] 34%|███▍      | 3659/10696 [56:46<58:11,  2.02it/s] 34%|███▍      | 3660/10696 [56:47<58:14,  2.01it/s] 34%|███▍      | 3661/10696 [56:47<58:11,  2.01it/s] 34%|███▍      | 3662/10696 [56:48<58:10,  2.02it/s] 34%|███▍      | 3663/10696 [56:48<58:06,  2.02it/s] 34%|███▍      | 3664/10696 [56:49<58:09,  2.02it/s] 34%|███▍      | 3665/10696 [56:49<58:11,  2.01it/s] 34%|███▍      | 3666/10696 [56:50<58:08,  2.01it/s] 34%|███▍      | 3667/10696 [56:50<58:09,  2.01it/s] 34%|███▍      | 3668/10696 [56:51<58:07,  2.01it/s] 34%|███▍      | 3669/10696 [56:51<58:09,  2.01it/s] 34%|███▍      | 3670/10696 [56:52<58:09,  2.01it/s] 34%|███▍      | 3671/10696 [56:52<58:05,  2.02it/s] 34%|███▍      | 3672/10696 [56:53<58:04,  2.02it/s] 34%|███▍      | 3673/10696 [56:53<58:04,  2.02it/s] 34%|███▍      | 3674/10696 [56:54<58:08,  2.01it/s] 34%|███▍      | 3675/10696 [56:54<58:03,  2.02it/s]                                                    {'loss': 3.8701, 'grad_norm': 0.24123533070087433, 'learning_rate': 0.0008299233207584853, 'epoch': 0.34}
- 34%|███▍      | 3675/10696 [56:54<58:03,  2.02it/s] 34%|███▍      | 3676/10696 [56:55<58:06,  2.01it/s] 34%|███▍      | 3677/10696 [56:55<58:07,  2.01it/s] 34%|███▍      | 3678/10696 [56:56<58:06,  2.01it/s] 34%|███▍      | 3679/10696 [56:56<58:06,  2.01it/s] 34%|███▍      | 3680/10696 [56:57<58:00,  2.02it/s] 34%|███▍      | 3681/10696 [56:57<57:59,  2.02it/s] 34%|███▍      | 3682/10696 [56:58<57:57,  2.02it/s] 34%|███▍      | 3683/10696 [56:58<57:58,  2.02it/s] 34%|███▍      | 3684/10696 [56:59<57:58,  2.02it/s] 34%|███▍      | 3685/10696 [56:59<57:59,  2.01it/s] 34%|███▍      | 3686/10696 [57:00<58:00,  2.01it/s] 34%|███▍      | 3687/10696 [57:00<57:56,  2.02it/s] 34%|███▍      | 3688/10696 [57:01<57:58,  2.01it/s] 34%|███▍      | 3689/10696 [57:01<57:52,  2.02it/s] 34%|███▍      | 3690/10696 [57:02<57:56,  2.02it/s] 35%|███▍      | 3691/10696 [57:02<57:54,  2.02it/s] 35%|███▍      | 3692/10696 [57:03<57:56,  2.01it/s] 35%|███▍      | 3693/10696 [57:03<57:55,  2.02it/s] 35%|███▍      | 3694/10696 [57:04<57:51,  2.02it/s] 35%|███▍      | 3695/10696 [57:04<57:55,  2.01it/s] 35%|███▍      | 3696/10696 [57:05<57:52,  2.02it/s] 35%|███▍      | 3697/10696 [57:05<57:53,  2.02it/s] 35%|███▍      | 3698/10696 [57:06<57:51,  2.02it/s] 35%|███▍      | 3699/10696 [57:06<57:52,  2.01it/s] 35%|███▍      | 3700/10696 [57:07<57:50,  2.02it/s]{'loss': 3.8656, 'grad_norm': 0.23591849207878113, 'learning_rate': 0.000826846985522721, 'epoch': 0.35}
-                                                     35%|███▍      | 3700/10696 [57:07<57:50,  2.02it/s] 35%|███▍      | 3701/10696 [57:07<58:07,  2.01it/s] 35%|███▍      | 3702/10696 [57:07<57:58,  2.01it/s] 35%|███▍      | 3703/10696 [57:08<57:59,  2.01it/s] 35%|███▍      | 3704/10696 [57:08<57:52,  2.01it/s] 35%|███▍      | 3705/10696 [57:09<57:55,  2.01it/s] 35%|███▍      | 3706/10696 [57:09<57:48,  2.02it/s] 35%|███▍      | 3707/10696 [57:10<57:47,  2.02it/s] 35%|███▍      | 3708/10696 [57:10<57:44,  2.02it/s] 35%|███▍      | 3709/10696 [57:11<57:43,  2.02it/s] 35%|███▍      | 3710/10696 [57:11<57:41,  2.02it/s] 35%|███▍      | 3711/10696 [57:12<57:42,  2.02it/s] 35%|███▍      | 3712/10696 [57:12<57:43,  2.02it/s] 35%|███▍      | 3713/10696 [57:13<57:42,  2.02it/s] 35%|███▍      | 3714/10696 [57:13<57:41,  2.02it/s] 35%|███▍      | 3715/10696 [57:14<57:41,  2.02it/s] 35%|███▍      | 3716/10696 [57:14<57:44,  2.01it/s] 35%|███▍      | 3717/10696 [57:15<57:40,  2.02it/s] 35%|███▍      | 3718/10696 [57:15<57:43,  2.01it/s] 35%|███▍      | 3719/10696 [57:16<57:39,  2.02it/s] 35%|███▍      | 3720/10696 [57:16<57:42,  2.01it/s] 35%|███▍      | 3721/10696 [57:17<57:43,  2.01it/s] 35%|███▍      | 3722/10696 [57:17<57:41,  2.01it/s] 35%|███▍      | 3723/10696 [57:18<57:42,  2.01it/s] 35%|███▍      | 3724/10696 [57:18<57:40,  2.01it/s] 35%|███▍      | 3725/10696 [57:19<57:44,  2.01it/s]                                                    {'loss': 3.868, 'grad_norm': 0.22230562567710876, 'learning_rate': 0.0008237488917283291, 'epoch': 0.35}
- 35%|███▍      | 3725/10696 [57:19<57:44,  2.01it/s] 35%|███▍      | 3726/10696 [57:19<57:44,  2.01it/s] 35%|███▍      | 3727/10696 [57:20<57:43,  2.01it/s] 35%|███▍      | 3728/10696 [57:20<57:37,  2.02it/s] 35%|███▍      | 3729/10696 [57:21<57:36,  2.02it/s] 35%|███▍      | 3730/10696 [57:21<57:32,  2.02it/s] 35%|███▍      | 3731/10696 [57:22<57:33,  2.02it/s] 35%|███▍      | 3732/10696 [57:22<57:33,  2.02it/s] 35%|███▍      | 3733/10696 [57:23<57:39,  2.01it/s] 35%|███▍      | 3734/10696 [57:23<57:37,  2.01it/s] 35%|███▍      | 3735/10696 [57:24<57:34,  2.02it/s] 35%|███▍      | 3736/10696 [57:24<57:37,  2.01it/s] 35%|███▍      | 3737/10696 [57:25<57:32,  2.02it/s] 35%|███▍      | 3738/10696 [57:25<57:37,  2.01it/s] 35%|███▍      | 3739/10696 [57:26<57:33,  2.01it/s] 35%|███▍      | 3740/10696 [57:26<57:32,  2.01it/s] 35%|███▍      | 3741/10696 [57:27<57:29,  2.02it/s] 35%|███▍      | 3742/10696 [57:27<57:27,  2.02it/s] 35%|███▍      | 3743/10696 [57:28<57:32,  2.01it/s] 35%|███▌      | 3744/10696 [57:28<57:27,  2.02it/s] 35%|███▌      | 3745/10696 [57:29<57:30,  2.01it/s] 35%|███▌      | 3746/10696 [57:29<57:26,  2.02it/s] 35%|███▌      | 3747/10696 [57:30<57:29,  2.01it/s] 35%|███▌      | 3748/10696 [57:30<57:29,  2.01it/s] 35%|███▌      | 3749/10696 [57:31<57:29,  2.01it/s] 35%|███▌      | 3750/10696 [57:31<57:28,  2.01it/s]{'loss': 3.8711, 'grad_norm': 0.2018350511789322, 'learning_rate': 0.0008206292456187761, 'epoch': 0.35}
-                                                     35%|███▌      | 3750/10696 [57:31<57:28,  2.01it/s] 35%|███▌      | 3751/10696 [57:32<57:30,  2.01it/s] 35%|███▌      | 3752/10696 [57:32<57:30,  2.01it/s] 35%|███▌      | 3753/10696 [57:33<57:29,  2.01it/s] 35%|███▌      | 3754/10696 [57:33<57:28,  2.01it/s] 35%|███▌      | 3755/10696 [57:34<57:32,  2.01it/s] 35%|███▌      | 3756/10696 [57:34<57:25,  2.01it/s] 35%|███▌      | 3757/10696 [57:35<57:24,  2.01it/s] 35%|███▌      | 3758/10696 [57:35<57:23,  2.02it/s] 35%|███▌      | 3759/10696 [57:36<57:21,  2.02it/s] 35%|███▌      | 3760/10696 [57:36<57:19,  2.02it/s] 35%|███▌      | 3761/10696 [57:37<57:18,  2.02it/s] 35%|███▌      | 3762/10696 [57:37<57:19,  2.02it/s] 35%|███▌      | 3763/10696 [57:38<57:18,  2.02it/s] 35%|███▌      | 3764/10696 [57:38<57:18,  2.02it/s] 35%|███▌      | 3765/10696 [57:39<57:19,  2.01it/s] 35%|███▌      | 3766/10696 [57:39<57:21,  2.01it/s] 35%|███▌      | 3767/10696 [57:40<57:17,  2.02it/s] 35%|███▌      | 3768/10696 [57:40<57:17,  2.02it/s] 35%|███▌      | 3769/10696 [57:41<57:10,  2.02it/s] 35%|███▌      | 3770/10696 [57:41<57:12,  2.02it/s] 35%|███▌      | 3771/10696 [57:42<57:10,  2.02it/s] 35%|███▌      | 3772/10696 [57:42<57:13,  2.02it/s] 35%|███▌      | 3773/10696 [57:43<57:14,  2.02it/s] 35%|███▌      | 3774/10696 [57:43<57:13,  2.02it/s] 35%|███▌      | 3775/10696 [57:44<57:12,  2.02it/s]                                                    {'loss': 3.8621, 'grad_norm': 0.20217163860797882, 'learning_rate': 0.00081748825487229, 'epoch': 0.35}
- 35%|███▌      | 3775/10696 [57:44<57:12,  2.02it/s] 35%|███▌      | 3776/10696 [57:44<57:15,  2.01it/s] 35%|███▌      | 3777/10696 [57:45<57:11,  2.02it/s] 35%|███▌      | 3778/10696 [57:45<57:12,  2.02it/s] 35%|███▌      | 3779/10696 [57:46<57:11,  2.02it/s] 35%|███▌      | 3780/10696 [57:46<57:12,  2.01it/s] 35%|███▌      | 3781/10696 [57:47<57:11,  2.02it/s] 35%|███▌      | 3782/10696 [57:47<57:14,  2.01it/s] 35%|███▌      | 3783/10696 [57:48<57:09,  2.02it/s] 35%|███▌      | 3784/10696 [57:48<57:11,  2.01it/s] 35%|███▌      | 3785/10696 [57:49<57:10,  2.01it/s] 35%|███▌      | 3786/10696 [57:49<57:11,  2.01it/s] 35%|███▌      | 3787/10696 [57:50<57:13,  2.01it/s] 35%|███▌      | 3788/10696 [57:50<57:10,  2.01it/s] 35%|███▌      | 3789/10696 [57:51<57:42,  1.99it/s] 35%|███▌      | 3790/10696 [57:51<57:30,  2.00it/s] 35%|███▌      | 3791/10696 [57:52<57:23,  2.01it/s] 35%|███▌      | 3792/10696 [57:52<57:15,  2.01it/s] 35%|███▌      | 3793/10696 [57:53<57:13,  2.01it/s] 35%|███▌      | 3794/10696 [57:53<57:13,  2.01it/s] 35%|███▌      | 3795/10696 [57:54<57:12,  2.01it/s] 35%|███▌      | 3796/10696 [57:54<57:07,  2.01it/s] 35%|███▌      | 3797/10696 [57:55<57:07,  2.01it/s] 36%|███▌      | 3798/10696 [57:55<57:07,  2.01it/s] 36%|███▌      | 3799/10696 [57:56<57:05,  2.01it/s] 36%|███▌      | 3800/10696 [57:56<57:06,  2.01it/s]                                                    {'loss': 3.8601, 'grad_norm': 0.2352420538663864, 'learning_rate': 0.0008143261285880346, 'epoch': 0.36}
- 36%|███▌      | 3800/10696 [57:56<57:06,  2.01it/s] 36%|███▌      | 3801/10696 [57:57<57:07,  2.01it/s] 36%|███▌      | 3802/10696 [57:57<57:06,  2.01it/s] 36%|███▌      | 3803/10696 [57:58<57:04,  2.01it/s] 36%|███▌      | 3804/10696 [57:58<57:03,  2.01it/s] 36%|███▌      | 3805/10696 [57:59<57:04,  2.01it/s] 36%|███▌      | 3806/10696 [57:59<57:00,  2.01it/s] 36%|███▌      | 3807/10696 [58:00<56:59,  2.01it/s] 36%|███▌      | 3808/10696 [58:00<56:53,  2.02it/s] 36%|███▌      | 3809/10696 [58:01<56:57,  2.02it/s] 36%|███▌      | 3810/10696 [58:01<56:54,  2.02it/s] 36%|███▌      | 3811/10696 [58:02<56:55,  2.02it/s] 36%|███▌      | 3812/10696 [58:02<56:55,  2.02it/s] 36%|███▌      | 3813/10696 [58:03<56:53,  2.02it/s] 36%|███▌      | 3814/10696 [58:03<56:54,  2.02it/s] 36%|███▌      | 3815/10696 [58:04<56:49,  2.02it/s] 36%|███▌      | 3816/10696 [58:04<56:54,  2.01it/s] 36%|███▌      | 3817/10696 [58:05<57:26,  2.00it/s] 36%|███▌      | 3818/10696 [58:05<57:20,  2.00it/s] 36%|███▌      | 3819/10696 [58:06<57:10,  2.00it/s] 36%|███▌      | 3820/10696 [58:06<57:05,  2.01it/s] 36%|███▌      | 3821/10696 [58:07<57:04,  2.01it/s] 36%|███▌      | 3822/10696 [58:07<56:56,  2.01it/s] 36%|███▌      | 3823/10696 [58:08<56:54,  2.01it/s] 36%|███▌      | 3824/10696 [58:08<56:48,  2.02it/s] 36%|███▌      | 3825/10696 [58:09<56:50,  2.01it/s]{'loss': 3.8601, 'grad_norm': 0.2140682339668274, 'learning_rate': 0.0008111430772721893, 'epoch': 0.36}
-                                                     36%|███▌      | 3825/10696 [58:09<56:50,  2.01it/s] 36%|███▌      | 3826/10696 [58:09<56:52,  2.01it/s] 36%|███▌      | 3827/10696 [58:10<56:50,  2.01it/s] 36%|███▌      | 3828/10696 [58:10<56:51,  2.01it/s] 36%|███▌      | 3829/10696 [58:11<56:48,  2.01it/s] 36%|███▌      | 3830/10696 [58:11<56:51,  2.01it/s] 36%|███▌      | 3831/10696 [58:12<56:49,  2.01it/s] 36%|███▌      | 3832/10696 [58:12<56:47,  2.01it/s] 36%|███▌      | 3833/10696 [58:13<56:44,  2.02it/s] 36%|███▌      | 3834/10696 [58:13<56:45,  2.02it/s] 36%|███▌      | 3835/10696 [58:14<56:44,  2.02it/s] 36%|███▌      | 3836/10696 [58:14<56:42,  2.02it/s] 36%|███▌      | 3837/10696 [58:15<56:42,  2.02it/s] 36%|███▌      | 3838/10696 [58:15<56:40,  2.02it/s] 36%|███▌      | 3839/10696 [58:16<56:39,  2.02it/s] 36%|███▌      | 3840/10696 [58:16<56:35,  2.02it/s] 36%|███▌      | 3841/10696 [58:17<56:40,  2.02it/s] 36%|███▌      | 3842/10696 [58:17<56:36,  2.02it/s] 36%|███▌      | 3843/10696 [58:18<56:40,  2.02it/s] 36%|███▌      | 3844/10696 [58:18<56:41,  2.01it/s] 36%|███▌      | 3845/10696 [58:18<56:39,  2.02it/s] 36%|███▌      | 3846/10696 [58:19<56:40,  2.01it/s] 36%|███▌      | 3847/10696 [58:19<56:36,  2.02it/s] 36%|███▌      | 3848/10696 [58:20<56:39,  2.01it/s] 36%|███▌      | 3849/10696 [58:20<56:36,  2.02it/s] 36%|███▌      | 3850/10696 [58:21<56:35,  2.02it/s]{'loss': 3.8536, 'grad_norm': 0.2103479653596878, 'learning_rate': 0.0008079393128239354, 'epoch': 0.36}
-                                                     36%|███▌      | 3850/10696 [58:21<56:35,  2.02it/s] 36%|███▌      | 3851/10696 [58:21<56:40,  2.01it/s] 36%|███▌      | 3852/10696 [58:22<56:38,  2.01it/s] 36%|███▌      | 3853/10696 [58:22<56:43,  2.01it/s] 36%|███▌      | 3854/10696 [58:23<56:38,  2.01it/s] 36%|███▌      | 3855/10696 [58:23<56:41,  2.01it/s] 36%|███▌      | 3856/10696 [58:24<56:34,  2.01it/s] 36%|███▌      | 3857/10696 [58:24<56:36,  2.01it/s] 36%|███▌      | 3858/10696 [58:25<56:31,  2.02it/s] 36%|███▌      | 3859/10696 [58:25<56:33,  2.01it/s] 36%|███▌      | 3860/10696 [58:26<56:32,  2.02it/s] 36%|███▌      | 3861/10696 [58:26<56:32,  2.01it/s] 36%|███▌      | 3862/10696 [58:27<56:31,  2.01it/s] 36%|███▌      | 3863/10696 [58:27<56:29,  2.02it/s] 36%|███▌      | 3864/10696 [58:28<56:29,  2.02it/s] 36%|███▌      | 3865/10696 [58:28<56:24,  2.02it/s] 36%|███▌      | 3866/10696 [58:29<56:25,  2.02it/s] 36%|███▌      | 3867/10696 [58:29<56:22,  2.02it/s] 36%|███▌      | 3868/10696 [58:30<56:24,  2.02it/s] 36%|███▌      | 3869/10696 [58:30<56:22,  2.02it/s] 36%|███▌      | 3870/10696 [58:31<56:26,  2.02it/s] 36%|███▌      | 3871/10696 [58:31<56:23,  2.02it/s] 36%|███▌      | 3872/10696 [58:32<56:28,  2.01it/s] 36%|███▌      | 3873/10696 [58:32<56:28,  2.01it/s] 36%|███▌      | 3874/10696 [58:33<56:25,  2.01it/s] 36%|███▌      | 3875/10696 [58:33<56:25,  2.01it/s]                                                    {'loss': 3.8505, 'grad_norm': 0.2258002907037735, 'learning_rate': 0.0008047150485213499, 'epoch': 0.36}
- 36%|███▌      | 3875/10696 [58:33<56:25,  2.01it/s] 36%|███▌      | 3876/10696 [58:34<56:28,  2.01it/s] 36%|███▌      | 3877/10696 [58:34<56:30,  2.01it/s] 36%|███▋      | 3878/10696 [58:35<56:27,  2.01it/s] 36%|███▋      | 3879/10696 [58:35<56:27,  2.01it/s] 36%|███▋      | 3880/10696 [58:36<56:29,  2.01it/s] 36%|███▋      | 3881/10696 [58:36<56:23,  2.01it/s] 36%|███▋      | 3882/10696 [58:37<56:26,  2.01it/s] 36%|███▋      | 3883/10696 [58:37<56:21,  2.02it/s] 36%|███▋      | 3884/10696 [58:38<56:22,  2.01it/s] 36%|███▋      | 3885/10696 [58:38<56:24,  2.01it/s] 36%|███▋      | 3886/10696 [58:39<56:20,  2.01it/s] 36%|███▋      | 3887/10696 [58:39<56:23,  2.01it/s] 36%|███▋      | 3888/10696 [58:40<56:18,  2.01it/s] 36%|███▋      | 3889/10696 [58:40<56:18,  2.01it/s] 36%|███▋      | 3890/10696 [58:41<56:17,  2.02it/s] 36%|███▋      | 3891/10696 [58:41<56:17,  2.01it/s] 36%|███▋      | 3892/10696 [58:42<56:16,  2.02it/s] 36%|███▋      | 3893/10696 [58:42<56:16,  2.02it/s] 36%|███▋      | 3894/10696 [58:43<56:17,  2.01it/s] 36%|███▋      | 3895/10696 [58:43<56:16,  2.01it/s] 36%|███▋      | 3896/10696 [58:44<56:14,  2.02it/s] 36%|███▋      | 3897/10696 [58:44<56:13,  2.02it/s] 36%|███▋      | 3898/10696 [58:45<56:12,  2.02it/s] 36%|███▋      | 3899/10696 [58:45<56:09,  2.02it/s] 36%|███▋      | 3900/10696 [58:46<56:09,  2.02it/s]{'loss': 3.8598, 'grad_norm': 0.22705762088298798, 'learning_rate': 0.0008014704990072075, 'epoch': 0.36}
-                                                     36%|███▋      | 3900/10696 [58:46<56:09,  2.02it/s] 36%|███▋      | 3901/10696 [58:46<56:12,  2.01it/s] 36%|███▋      | 3902/10696 [58:47<56:13,  2.01it/s] 36%|███▋      | 3903/10696 [58:47<56:14,  2.01it/s] 36%|███▋      | 3904/10696 [58:48<56:14,  2.01it/s] 37%|███▋      | 3905/10696 [58:48<56:11,  2.01it/s] 37%|███▋      | 3906/10696 [58:49<56:07,  2.02it/s] 37%|███▋      | 3907/10696 [58:49<56:09,  2.01it/s] 37%|███▋      | 3908/10696 [58:50<56:05,  2.02it/s] 37%|███▋      | 3909/10696 [58:50<56:06,  2.02it/s] 37%|███▋      | 3910/10696 [58:51<56:03,  2.02it/s] 37%|███▋      | 3911/10696 [58:51<56:05,  2.02it/s] 37%|███▋      | 3912/10696 [58:52<1:05:22,  1.73it/s] 37%|███▋      | 3913/10696 [58:53<1:02:37,  1.81it/s] 37%|███▋      | 3914/10696 [58:53<1:00:38,  1.86it/s] 37%|███▋      | 3915/10696 [58:54<59:10,  1.91it/s]   37%|███▋      | 3916/10696 [58:54<58:15,  1.94it/s] 37%|███▋      | 3917/10696 [58:55<57:33,  1.96it/s] 37%|███▋      | 3918/10696 [58:55<57:08,  1.98it/s] 37%|███▋      | 3919/10696 [58:55<56:42,  1.99it/s] 37%|███▋      | 3920/10696 [58:56<56:32,  2.00it/s] 37%|███▋      | 3921/10696 [58:56<56:19,  2.00it/s] 37%|███▋      | 3922/10696 [58:57<56:15,  2.01it/s] 37%|███▋      | 3923/10696 [58:57<56:07,  2.01it/s] 37%|███▋      | 3924/10696 [58:58<56:05,  2.01it/s] 37%|███▋      | 3925/10696 [58:58<55:59,  2.02it/s]                                                    {'loss': 3.8493, 'grad_norm': 0.21331314742565155, 'learning_rate': 0.0007982058802746914, 'epoch': 0.37}
- 37%|███▋      | 3925/10696 [58:58<55:59,  2.02it/s] 37%|███▋      | 3926/10696 [58:59<56:03,  2.01it/s] 37%|███▋      | 3927/10696 [58:59<56:00,  2.01it/s] 37%|███▋      | 3928/10696 [59:00<55:59,  2.01it/s] 37%|███▋      | 3929/10696 [59:00<55:57,  2.02it/s] 37%|███▋      | 3930/10696 [59:01<1:05:13,  1.73it/s] 37%|███▋      | 3931/10696 [59:02<1:02:23,  1.81it/s] 37%|███▋      | 3932/10696 [59:02<1:00:30,  1.86it/s] 37%|███▋      | 3933/10696 [59:03<59:06,  1.91it/s]   37%|███▋      | 3934/10696 [59:03<58:08,  1.94it/s] 37%|███▋      | 3935/10696 [59:04<57:28,  1.96it/s] 37%|███▋      | 3936/10696 [59:04<57:01,  1.98it/s] 37%|███▋      | 3937/10696 [59:05<56:38,  1.99it/s] 37%|███▋      | 3938/10696 [59:05<56:27,  2.00it/s] 37%|███▋      | 3939/10696 [59:06<56:17,  2.00it/s] 37%|███▋      | 3940/10696 [59:06<56:09,  2.00it/s] 37%|███▋      | 3941/10696 [59:07<56:04,  2.01it/s] 37%|███▋      | 3942/10696 [59:07<56:03,  2.01it/s] 37%|███▋      | 3943/10696 [59:08<55:56,  2.01it/s] 37%|███▋      | 3944/10696 [59:08<55:54,  2.01it/s] 37%|███▋      | 3945/10696 [59:09<55:53,  2.01it/s] 37%|███▋      | 3946/10696 [59:09<55:52,  2.01it/s] 37%|███▋      | 3947/10696 [59:10<55:46,  2.02it/s] 37%|███▋      | 3948/10696 [59:10<55:49,  2.01it/s] 37%|███▋      | 3949/10696 [59:11<55:47,  2.02it/s] 37%|███▋      | 3950/10696 [59:11<55:44,  2.02it/s]{'loss': 3.843, 'grad_norm': 0.19791017472743988, 'learning_rate': 0.0007949214096530144, 'epoch': 0.37}
-                                                     37%|███▋      | 3950/10696 [59:11<55:44,  2.02it/s] 37%|███▋      | 3951/10696 [59:12<55:49,  2.01it/s] 37%|███▋      | 3952/10696 [59:12<55:44,  2.02it/s] 37%|███▋      | 3953/10696 [59:13<55:47,  2.01it/s] 37%|███▋      | 3954/10696 [59:13<55:41,  2.02it/s] 37%|███▋      | 3955/10696 [59:14<55:45,  2.01it/s] 37%|███▋      | 3956/10696 [59:14<55:40,  2.02it/s] 37%|███▋      | 3957/10696 [59:15<55:41,  2.02it/s] 37%|███▋      | 3958/10696 [59:15<55:40,  2.02it/s] 37%|███▋      | 3959/10696 [59:16<55:39,  2.02it/s] 37%|███▋      | 3960/10696 [59:16<55:37,  2.02it/s] 37%|███▋      | 3961/10696 [59:17<55:38,  2.02it/s] 37%|███▋      | 3962/10696 [59:17<55:39,  2.02it/s] 37%|███▋      | 3963/10696 [59:18<55:39,  2.02it/s] 37%|███▋      | 3964/10696 [59:18<55:41,  2.01it/s] 37%|███▋      | 3965/10696 [59:19<55:39,  2.02it/s] 37%|███▋      | 3966/10696 [59:19<55:39,  2.02it/s] 37%|███▋      | 3967/10696 [59:20<55:36,  2.02it/s] 37%|███▋      | 3968/10696 [59:20<55:36,  2.02it/s] 37%|███▋      | 3969/10696 [59:21<55:36,  2.02it/s] 37%|███▋      | 3970/10696 [59:21<55:34,  2.02it/s] 37%|███▋      | 3971/10696 [59:22<55:37,  2.01it/s] 37%|███▋      | 3972/10696 [59:22<55:34,  2.02it/s] 37%|███▋      | 3973/10696 [59:23<55:36,  2.01it/s] 37%|███▋      | 3974/10696 [59:23<55:33,  2.02it/s] 37%|███▋      | 3975/10696 [59:24<55:36,  2.01it/s]{'loss': 3.8521, 'grad_norm': 0.21031983196735382, 'learning_rate': 0.0007916173057929514, 'epoch': 0.37}
-                                                     37%|███▋      | 3975/10696 [59:24<55:36,  2.01it/s] 37%|███▋      | 3976/10696 [59:24<55:40,  2.01it/s] 37%|███▋      | 3977/10696 [59:25<55:33,  2.02it/s] 37%|███▋      | 3978/10696 [59:25<55:36,  2.01it/s] 37%|███▋      | 3979/10696 [59:26<55:31,  2.02it/s] 37%|███▋      | 3980/10696 [59:26<55:33,  2.01it/s] 37%|███▋      | 3981/10696 [59:27<55:34,  2.01it/s] 37%|███▋      | 3982/10696 [59:27<55:33,  2.01it/s] 37%|███▋      | 3983/10696 [59:28<55:36,  2.01it/s] 37%|███▋      | 3984/10696 [59:28<55:31,  2.01it/s] 37%|███▋      | 3985/10696 [59:29<55:30,  2.01it/s] 37%|███▋      | 3986/10696 [59:29<55:27,  2.02it/s] 37%|███▋      | 3987/10696 [59:30<55:25,  2.02it/s] 37%|███▋      | 3988/10696 [59:30<55:26,  2.02it/s] 37%|███▋      | 3989/10696 [59:30<55:25,  2.02it/s] 37%|███▋      | 3990/10696 [59:31<55:24,  2.02it/s] 37%|███▋      | 3991/10696 [59:31<55:24,  2.02it/s] 37%|███▋      | 3992/10696 [59:32<55:22,  2.02it/s] 37%|███▋      | 3993/10696 [59:32<55:28,  2.01it/s] 37%|███▋      | 3994/10696 [59:33<55:21,  2.02it/s] 37%|███▋      | 3995/10696 [59:33<55:23,  2.02it/s] 37%|███▋      | 3996/10696 [59:34<55:21,  2.02it/s] 37%|███▋      | 3997/10696 [59:34<55:22,  2.02it/s] 37%|███▋      | 3998/10696 [59:35<55:23,  2.02it/s] 37%|███▋      | 3999/10696 [59:35<55:23,  2.02it/s] 37%|███▋      | 4000/10696 [59:36<55:25,  2.01it/s]{'loss': 3.8502, 'grad_norm': 0.22494031488895416, 'learning_rate': 0.0007882937886522829, 'epoch': 0.37}
-                                                     37%|███▋      | 4000/10696 [59:36<55:25,  2.01it/s] 37%|███▋      | 4001/10696 [59:36<55:28,  2.01it/s] 37%|███▋      | 4002/10696 [59:37<55:25,  2.01it/s] 37%|███▋      | 4003/10696 [59:37<55:24,  2.01it/s] 37%|███▋      | 4004/10696 [59:38<55:24,  2.01it/s] 37%|███▋      | 4005/10696 [59:38<55:21,  2.01it/s] 37%|███▋      | 4006/10696 [59:39<55:20,  2.02it/s] 37%|███▋      | 4007/10696 [59:39<55:16,  2.02it/s] 37%|███▋      | 4008/10696 [59:40<55:18,  2.02it/s] 37%|███▋      | 4009/10696 [59:40<55:17,  2.02it/s] 37%|███▋      | 4010/10696 [59:41<55:15,  2.02it/s] 38%|███▊      | 4011/10696 [59:41<55:16,  2.02it/s] 38%|███▊      | 4012/10696 [59:42<55:13,  2.02it/s] 38%|███▊      | 4013/10696 [59:42<55:18,  2.01it/s] 38%|███▊      | 4014/10696 [59:43<55:12,  2.02it/s] 38%|███▊      | 4015/10696 [59:43<55:14,  2.02it/s] 38%|███▊      | 4016/10696 [59:44<55:11,  2.02it/s] 38%|███▊      | 4017/10696 [59:44<55:11,  2.02it/s] 38%|███▊      | 4018/10696 [59:45<55:11,  2.02it/s] 38%|███▊      | 4019/10696 [59:45<55:09,  2.02it/s] 38%|███▊      | 4020/10696 [59:46<55:09,  2.02it/s] 38%|███▊      | 4021/10696 [59:46<55:12,  2.02it/s] 38%|███▊      | 4022/10696 [59:47<55:13,  2.01it/s] 38%|███▊      | 4023/10696 [59:47<55:09,  2.02it/s] 38%|███▊      | 4024/10696 [59:48<55:10,  2.02it/s] 38%|███▊      | 4025/10696 [59:48<55:08,  2.02it/s]{'loss': 3.8433, 'grad_norm': 0.21362492442131042, 'learning_rate': 0.0007849510794811528, 'epoch': 0.38}
-                                                     38%|███▊      | 4025/10696 [59:48<55:08,  2.02it/s] 38%|███▊      | 4026/10696 [59:49<55:10,  2.01it/s] 38%|███▊      | 4027/10696 [59:49<55:11,  2.01it/s] 38%|███▊      | 4028/10696 [59:50<55:12,  2.01it/s] 38%|███▊      | 4029/10696 [59:50<55:13,  2.01it/s] 38%|███▊      | 4030/10696 [59:51<55:10,  2.01it/s] 38%|███▊      | 4031/10696 [59:51<55:10,  2.01it/s] 38%|███▊      | 4032/10696 [59:52<55:08,  2.01it/s] 38%|███▊      | 4033/10696 [59:52<55:07,  2.01it/s] 38%|███▊      | 4034/10696 [59:53<55:09,  2.01it/s] 38%|███▊      | 4035/10696 [59:53<55:07,  2.01it/s] 38%|███▊      | 4036/10696 [59:54<55:07,  2.01it/s] 38%|███▊      | 4037/10696 [59:54<55:06,  2.01it/s] 38%|███▊      | 4038/10696 [59:55<55:05,  2.01it/s] 38%|███▊      | 4039/10696 [59:55<55:05,  2.01it/s] 38%|███▊      | 4040/10696 [59:56<55:03,  2.02it/s] 38%|███▊      | 4041/10696 [59:56<55:04,  2.01it/s] 38%|███▊      | 4042/10696 [59:57<55:00,  2.02it/s] 38%|███▊      | 4043/10696 [59:57<55:01,  2.02it/s] 38%|███▊      | 4044/10696 [59:58<54:58,  2.02it/s] 38%|███▊      | 4045/10696 [59:58<55:01,  2.01it/s] 38%|███▊      | 4046/10696 [59:59<54:57,  2.02it/s] 38%|███▊      | 4047/10696 [59:59<54:59,  2.01it/s] 38%|███▊      | 4048/10696 [1:00:00<54:56,  2.02it/s] 38%|███▊      | 4049/10696 [1:00:00<54:55,  2.02it/s] 38%|███▊      | 4050/10696 [1:00:01<54:52,  2.02it/s]{'loss': 3.8409, 'grad_norm': 0.2034182846546173, 'learning_rate': 0.000781589400807339, 'epoch': 0.38}
-                                                       38%|███▊      | 4050/10696 [1:00:01<54:52,  2.02it/s] 38%|███▊      | 4051/10696 [1:00:01<55:01,  2.01it/s] 38%|███▊      | 4052/10696 [1:00:02<55:00,  2.01it/s] 38%|███▊      | 4053/10696 [1:00:02<55:00,  2.01it/s] 38%|███▊      | 4054/10696 [1:00:03<54:55,  2.02it/s] 38%|███▊      | 4055/10696 [1:00:03<54:55,  2.02it/s] 38%|███▊      | 4056/10696 [1:00:04<54:52,  2.02it/s] 38%|███▊      | 4057/10696 [1:00:04<54:54,  2.01it/s] 38%|███▊      | 4058/10696 [1:00:05<54:53,  2.02it/s] 38%|███▊      | 4059/10696 [1:00:05<54:51,  2.02it/s] 38%|███▊      | 4060/10696 [1:00:06<54:51,  2.02it/s] 38%|███▊      | 4061/10696 [1:00:06<54:54,  2.01it/s] 38%|███▊      | 4062/10696 [1:00:07<54:52,  2.01it/s] 38%|███▊      | 4063/10696 [1:00:07<54:50,  2.02it/s] 38%|███▊      | 4064/10696 [1:00:08<54:51,  2.02it/s] 38%|███▊      | 4065/10696 [1:00:08<54:48,  2.02it/s] 38%|███▊      | 4066/10696 [1:00:09<54:49,  2.02it/s] 38%|███▊      | 4067/10696 [1:00:09<54:47,  2.02it/s] 38%|███▊      | 4068/10696 [1:00:10<54:48,  2.02it/s] 38%|███▊      | 4069/10696 [1:00:10<55:31,  1.99it/s] 38%|███▊      | 4070/10696 [1:00:11<55:13,  2.00it/s] 38%|███▊      | 4071/10696 [1:00:11<55:09,  2.00it/s] 38%|███▊      | 4072/10696 [1:00:12<55:00,  2.01it/s] 38%|███▊      | 4073/10696 [1:00:12<54:58,  2.01it/s] 38%|███▊      | 4074/10696 [1:00:13<54:53,  2.01it/s] 38%|███▊      | 4075/10696 [1:00:13<54:49,  2.01it/s]{'loss': 3.8431, 'grad_norm': 0.21854202449321747, 'learning_rate': 0.0007782089764214402, 'epoch': 0.38}                                                      
- 38%|███▊      | 4075/10696 [1:00:13<54:49,  2.01it/s] 38%|███▊      | 4076/10696 [1:00:14<54:53,  2.01it/s] 38%|███▊      | 4077/10696 [1:00:14<54:48,  2.01it/s] 38%|███▊      | 4078/10696 [1:00:15<54:49,  2.01it/s] 38%|███▊      | 4079/10696 [1:00:15<54:47,  2.01it/s] 38%|███▊      | 4080/10696 [1:00:16<54:46,  2.01it/s] 38%|███▊      | 4081/10696 [1:00:16<54:47,  2.01it/s] 38%|███▊      | 4082/10696 [1:00:17<54:48,  2.01it/s] 38%|███▊      | 4083/10696 [1:00:17<54:46,  2.01it/s] 38%|███▊      | 4084/10696 [1:00:18<54:43,  2.01it/s] 38%|███▊      | 4085/10696 [1:00:18<54:42,  2.01it/s] 38%|███▊      | 4086/10696 [1:00:19<54:42,  2.01it/s] 38%|███▊      | 4087/10696 [1:00:19<54:40,  2.01it/s] 38%|███▊      | 4088/10696 [1:00:20<54:37,  2.02it/s] 38%|███▊      | 4089/10696 [1:00:20<54:32,  2.02it/s] 38%|███▊      | 4090/10696 [1:00:21<54:33,  2.02it/s] 38%|███▊      | 4091/10696 [1:00:21<54:30,  2.02it/s] 38%|███▊      | 4092/10696 [1:00:22<54:35,  2.02it/s] 38%|███▊      | 4093/10696 [1:00:22<54:35,  2.02it/s] 38%|███▊      | 4094/10696 [1:00:23<54:37,  2.01it/s] 38%|███▊      | 4095/10696 [1:00:23<54:37,  2.01it/s] 38%|███▊      | 4096/10696 [1:00:24<54:34,  2.02it/s] 38%|███▊      | 4097/10696 [1:00:24<54:33,  2.02it/s] 38%|███▊      | 4098/10696 [1:00:25<54:31,  2.02it/s] 38%|███▊      | 4099/10696 [1:00:25<54:33,  2.02it/s] 38%|███▊      | 4100/10696 [1:00:26<54:31,  2.02it/s]{'loss': 3.8392, 'grad_norm': 0.22323822975158691, 'learning_rate': 0.0007748100313619775, 'epoch': 0.38}                                                      
- 38%|███▊      | 4100/10696 [1:00:26<54:31,  2.02it/s] 38%|███▊      | 4101/10696 [1:00:26<54:37,  2.01it/s] 38%|███▊      | 4102/10696 [1:00:27<54:39,  2.01it/s] 38%|███▊      | 4103/10696 [1:00:27<54:34,  2.01it/s] 38%|███▊      | 4104/10696 [1:00:28<54:34,  2.01it/s] 38%|███▊      | 4105/10696 [1:00:28<54:31,  2.01it/s] 38%|███▊      | 4106/10696 [1:00:29<54:32,  2.01it/s] 38%|███▊      | 4107/10696 [1:00:29<54:27,  2.02it/s] 38%|███▊      | 4108/10696 [1:00:30<54:28,  2.02it/s] 38%|███▊      | 4109/10696 [1:00:30<54:28,  2.02it/s] 38%|███▊      | 4110/10696 [1:00:31<54:28,  2.02it/s] 38%|███▊      | 4111/10696 [1:00:31<54:30,  2.01it/s] 38%|███▊      | 4112/10696 [1:00:32<54:30,  2.01it/s] 38%|███▊      | 4113/10696 [1:00:32<54:28,  2.01it/s] 38%|███▊      | 4114/10696 [1:00:33<54:25,  2.02it/s] 38%|███▊      | 4115/10696 [1:00:33<54:27,  2.01it/s] 38%|███▊      | 4116/10696 [1:00:34<54:24,  2.02it/s] 38%|███▊      | 4117/10696 [1:00:34<54:25,  2.01it/s] 39%|███▊      | 4118/10696 [1:00:35<54:24,  2.01it/s] 39%|███▊      | 4119/10696 [1:00:35<54:23,  2.02it/s] 39%|███▊      | 4120/10696 [1:00:36<54:26,  2.01it/s] 39%|███▊      | 4121/10696 [1:00:36<54:26,  2.01it/s] 39%|███▊      | 4122/10696 [1:00:37<54:29,  2.01it/s] 39%|███▊      | 4123/10696 [1:00:37<54:23,  2.01it/s] 39%|███▊      | 4124/10696 [1:00:38<54:24,  2.01it/s] 39%|███▊      | 4125/10696 [1:00:38<54:24,  2.01it/s]{'loss': 3.8338, 'grad_norm': 0.20927882194519043, 'learning_rate': 0.0007713927919004126, 'epoch': 0.39}
-                                                       39%|███▊      | 4125/10696 [1:00:38<54:24,  2.01it/s] 39%|███▊      | 4126/10696 [1:00:39<54:24,  2.01it/s] 39%|███▊      | 4127/10696 [1:00:39<54:25,  2.01it/s] 39%|███▊      | 4128/10696 [1:00:40<54:22,  2.01it/s] 39%|███▊      | 4129/10696 [1:00:40<54:19,  2.01it/s] 39%|███▊      | 4130/10696 [1:00:40<54:17,  2.02it/s] 39%|███▊      | 4131/10696 [1:00:41<54:20,  2.01it/s] 39%|███▊      | 4132/10696 [1:00:41<54:18,  2.01it/s] 39%|███▊      | 4133/10696 [1:00:42<54:17,  2.01it/s] 39%|███▊      | 4134/10696 [1:00:42<54:14,  2.02it/s] 39%|███▊      | 4135/10696 [1:00:43<54:15,  2.02it/s] 39%|███▊      | 4136/10696 [1:00:43<54:13,  2.02it/s] 39%|███▊      | 4137/10696 [1:00:44<54:15,  2.01it/s] 39%|███▊      | 4138/10696 [1:00:44<54:12,  2.02it/s] 39%|███▊      | 4139/10696 [1:00:45<54:11,  2.02it/s] 39%|███▊      | 4140/10696 [1:00:45<54:10,  2.02it/s] 39%|███▊      | 4141/10696 [1:00:46<54:07,  2.02it/s] 39%|███▊      | 4142/10696 [1:00:46<54:14,  2.01it/s] 39%|███▊      | 4143/10696 [1:00:47<54:07,  2.02it/s] 39%|███▊      | 4144/10696 [1:00:47<54:09,  2.02it/s] 39%|███▉      | 4145/10696 [1:00:48<54:07,  2.02it/s] 39%|███▉      | 4146/10696 [1:00:48<54:09,  2.02it/s] 39%|███▉      | 4147/10696 [1:00:49<54:07,  2.02it/s] 39%|███▉      | 4148/10696 [1:00:49<54:07,  2.02it/s] 39%|███▉      | 4149/10696 [1:00:50<54:04,  2.02it/s] 39%|███▉      | 4150/10696 [1:00:50<54:06,  2.02it/s]{'loss': 3.8341, 'grad_norm': 0.2241625338792801, 'learning_rate': 0.0007679574855260867, 'epoch': 0.39}
-                                                       39%|███▉      | 4150/10696 [1:00:50<54:06,  2.02it/s] 39%|███▉      | 4151/10696 [1:00:51<54:14,  2.01it/s] 39%|███▉      | 4152/10696 [1:00:51<54:10,  2.01it/s] 39%|███▉      | 4153/10696 [1:00:52<54:10,  2.01it/s] 39%|███▉      | 4154/10696 [1:00:52<54:07,  2.01it/s] 39%|███▉      | 4155/10696 [1:00:53<54:06,  2.01it/s] 39%|███▉      | 4156/10696 [1:00:53<54:06,  2.01it/s] 39%|███▉      | 4157/10696 [1:00:54<54:03,  2.02it/s] 39%|███▉      | 4158/10696 [1:00:54<54:02,  2.02it/s] 39%|███▉      | 4159/10696 [1:00:55<54:03,  2.02it/s] 39%|███▉      | 4160/10696 [1:00:55<54:04,  2.01it/s] 39%|███▉      | 4161/10696 [1:00:56<54:04,  2.01it/s] 39%|███▉      | 4162/10696 [1:00:56<54:03,  2.01it/s] 39%|███▉      | 4163/10696 [1:00:57<54:04,  2.01it/s] 39%|███▉      | 4164/10696 [1:00:57<54:01,  2.02it/s] 39%|███▉      | 4165/10696 [1:00:58<54:02,  2.01it/s] 39%|███▉      | 4166/10696 [1:00:58<53:58,  2.02it/s] 39%|███▉      | 4167/10696 [1:00:59<54:03,  2.01it/s] 39%|███▉      | 4168/10696 [1:00:59<54:00,  2.01it/s] 39%|███▉      | 4169/10696 [1:01:00<54:00,  2.01it/s] 39%|███▉      | 4170/10696 [1:01:00<53:57,  2.02it/s] 39%|███▉      | 4171/10696 [1:01:01<53:57,  2.02it/s] 39%|███▉      | 4172/10696 [1:01:01<54:00,  2.01it/s] 39%|███▉      | 4173/10696 [1:01:02<53:57,  2.01it/s] 39%|███▉      | 4174/10696 [1:01:02<53:59,  2.01it/s] 39%|███▉      | 4175/10696 [1:01:03<53:58,  2.01it/s]{'loss': 3.8249, 'grad_norm': 0.20125088095664978, 'learning_rate': 0.0007645043409310739, 'epoch': 0.39}
-                                                       39%|███▉      | 4175/10696 [1:01:03<53:58,  2.01it/s] 39%|███▉      | 4176/10696 [1:01:03<54:00,  2.01it/s] 39%|███▉      | 4177/10696 [1:01:04<54:00,  2.01it/s] 39%|███▉      | 4178/10696 [1:01:04<53:57,  2.01it/s] 39%|███▉      | 4179/10696 [1:01:05<53:56,  2.01it/s] 39%|███▉      | 4180/10696 [1:01:05<53:55,  2.01it/s] 39%|███▉      | 4181/10696 [1:01:06<53:56,  2.01it/s] 39%|███▉      | 4182/10696 [1:01:06<53:54,  2.01it/s] 39%|███▉      | 4183/10696 [1:01:07<53:54,  2.01it/s] 39%|███▉      | 4184/10696 [1:01:07<53:49,  2.02it/s] 39%|███▉      | 4185/10696 [1:01:08<53:49,  2.02it/s] 39%|███▉      | 4186/10696 [1:01:08<53:45,  2.02it/s] 39%|███▉      | 4187/10696 [1:01:09<53:49,  2.02it/s] 39%|███▉      | 4188/10696 [1:01:09<53:44,  2.02it/s] 39%|███▉      | 4189/10696 [1:01:10<53:46,  2.02it/s] 39%|███▉      | 4190/10696 [1:01:10<53:45,  2.02it/s] 39%|███▉      | 4191/10696 [1:01:11<53:47,  2.02it/s] 39%|███▉      | 4192/10696 [1:01:11<53:47,  2.01it/s] 39%|███▉      | 4193/10696 [1:01:12<53:47,  2.01it/s] 39%|███▉      | 4194/10696 [1:01:12<53:46,  2.01it/s] 39%|███▉      | 4195/10696 [1:01:13<53:48,  2.01it/s] 39%|███▉      | 4196/10696 [1:01:13<53:42,  2.02it/s] 39%|███▉      | 4197/10696 [1:01:14<53:43,  2.02it/s] 39%|███▉      | 4198/10696 [1:01:14<53:39,  2.02it/s] 39%|███▉      | 4199/10696 [1:01:15<53:41,  2.02it/s] 39%|███▉      | 4200/10696 [1:01:15<53:40,  2.02it/s]{'loss': 3.8345, 'grad_norm': 0.22263403236865997, 'learning_rate': 0.000761033587994958, 'epoch': 0.39}                                                      
- 39%|███▉      | 4200/10696 [1:01:15<53:40,  2.02it/s] 39%|███▉      | 4201/10696 [1:01:16<53:42,  2.02it/s] 39%|███▉      | 4202/10696 [1:01:16<53:43,  2.01it/s] 39%|███▉      | 4203/10696 [1:01:17<53:39,  2.02it/s] 39%|███▉      | 4204/10696 [1:01:17<53:40,  2.02it/s] 39%|███▉      | 4205/10696 [1:01:18<53:38,  2.02it/s] 39%|███▉      | 4206/10696 [1:01:18<53:38,  2.02it/s] 39%|███▉      | 4207/10696 [1:01:19<53:40,  2.02it/s] 39%|███▉      | 4208/10696 [1:01:19<53:39,  2.02it/s] 39%|███▉      | 4209/10696 [1:01:20<53:38,  2.02it/s] 39%|███▉      | 4210/10696 [1:01:20<53:37,  2.02it/s] 39%|███▉      | 4211/10696 [1:01:21<53:36,  2.02it/s] 39%|███▉      | 4212/10696 [1:01:21<53:37,  2.02it/s] 39%|███▉      | 4213/10696 [1:01:22<53:38,  2.01it/s] 39%|███▉      | 4214/10696 [1:01:22<53:36,  2.02it/s] 39%|███▉      | 4215/10696 [1:01:23<53:35,  2.02it/s] 39%|███▉      | 4216/10696 [1:01:23<53:35,  2.02it/s] 39%|███▉      | 4217/10696 [1:01:24<53:34,  2.02it/s] 39%|███▉      | 4218/10696 [1:01:24<53:34,  2.02it/s] 39%|███▉      | 4219/10696 [1:01:25<53:31,  2.02it/s] 39%|███▉      | 4220/10696 [1:01:25<53:33,  2.02it/s] 39%|███▉      | 4221/10696 [1:01:26<53:29,  2.02it/s] 39%|███▉      | 4222/10696 [1:01:26<53:33,  2.01it/s] 39%|███▉      | 4223/10696 [1:01:27<53:32,  2.01it/s] 39%|███▉      | 4224/10696 [1:01:27<53:28,  2.02it/s] 40%|███▉      | 4225/10696 [1:01:28<53:28,  2.02it/s]{'loss': 3.8261, 'grad_norm': 0.21405266225337982, 'learning_rate': 0.0007575454577695302, 'epoch': 0.39}
-                                                       40%|███▉      | 4225/10696 [1:01:28<53:28,  2.02it/s] 40%|███▉      | 4226/10696 [1:01:28<53:29,  2.02it/s] 40%|███▉      | 4227/10696 [1:01:29<53:29,  2.02it/s] 40%|███▉      | 4228/10696 [1:01:29<53:25,  2.02it/s] 40%|███▉      | 4229/10696 [1:01:30<53:28,  2.02it/s] 40%|███▉      | 4230/10696 [1:01:30<53:24,  2.02it/s] 40%|███▉      | 4231/10696 [1:01:31<53:25,  2.02it/s] 40%|███▉      | 4232/10696 [1:01:31<53:30,  2.01it/s] 40%|███▉      | 4233/10696 [1:01:32<53:27,  2.01it/s] 40%|███▉      | 4234/10696 [1:01:32<53:28,  2.01it/s] 40%|███▉      | 4235/10696 [1:01:33<53:23,  2.02it/s] 40%|███▉      | 4236/10696 [1:01:33<53:24,  2.02it/s] 40%|███▉      | 4237/10696 [1:01:34<53:26,  2.01it/s] 40%|███▉      | 4238/10696 [1:01:34<53:24,  2.02it/s] 40%|███▉      | 4239/10696 [1:01:35<53:23,  2.02it/s] 40%|███▉      | 4240/10696 [1:01:35<53:22,  2.02it/s] 40%|███▉      | 4241/10696 [1:01:36<53:23,  2.02it/s] 40%|███▉      | 4242/10696 [1:01:36<53:22,  2.02it/s] 40%|███▉      | 4243/10696 [1:01:37<53:22,  2.01it/s] 40%|███▉      | 4244/10696 [1:01:37<53:18,  2.02it/s] 40%|███▉      | 4245/10696 [1:01:38<53:21,  2.01it/s] 40%|███▉      | 4246/10696 [1:01:38<53:19,  2.02it/s] 40%|███▉      | 4247/10696 [1:01:39<53:21,  2.01it/s] 40%|███▉      | 4248/10696 [1:01:39<53:18,  2.02it/s] 40%|███▉      | 4249/10696 [1:01:40<53:16,  2.02it/s] 40%|███▉      | 4250/10696 [1:01:40<53:14,  2.02it/s]{'loss': 3.8231, 'grad_norm': 0.22599980235099792, 'learning_rate': 0.0007540401824634058, 'epoch': 0.4}
-                                                       40%|███▉      | 4250/10696 [1:01:40<53:14,  2.02it/s] 40%|███▉      | 4251/10696 [1:01:41<53:24,  2.01it/s] 40%|███▉      | 4252/10696 [1:01:41<53:25,  2.01it/s] 40%|███▉      | 4253/10696 [1:01:42<53:21,  2.01it/s] 40%|███▉      | 4254/10696 [1:01:42<53:19,  2.01it/s] 40%|███▉      | 4255/10696 [1:01:43<53:15,  2.02it/s] 40%|███▉      | 4256/10696 [1:01:43<53:15,  2.02it/s] 40%|███▉      | 4257/10696 [1:01:44<53:16,  2.01it/s] 40%|███▉      | 4258/10696 [1:01:44<53:14,  2.02it/s] 40%|███▉      | 4259/10696 [1:01:45<53:14,  2.02it/s] 40%|███▉      | 4260/10696 [1:01:45<53:11,  2.02it/s] 40%|███▉      | 4261/10696 [1:01:46<53:09,  2.02it/s] 40%|███▉      | 4262/10696 [1:01:46<53:10,  2.02it/s] 40%|███▉      | 4263/10696 [1:01:46<53:12,  2.02it/s] 40%|███▉      | 4264/10696 [1:01:47<53:09,  2.02it/s] 40%|███▉      | 4265/10696 [1:01:47<53:11,  2.02it/s] 40%|███▉      | 4266/10696 [1:01:48<53:07,  2.02it/s] 40%|███▉      | 4267/10696 [1:01:48<53:11,  2.01it/s] 40%|███▉      | 4268/10696 [1:01:49<53:08,  2.02it/s] 40%|███▉      | 4269/10696 [1:01:49<53:08,  2.02it/s] 40%|███▉      | 4270/10696 [1:01:50<53:07,  2.02it/s] 40%|███▉      | 4271/10696 [1:01:50<53:06,  2.02it/s] 40%|███▉      | 4272/10696 [1:01:51<53:11,  2.01it/s] 40%|███▉      | 4273/10696 [1:01:51<53:08,  2.01it/s] 40%|███▉      | 4274/10696 [1:01:52<53:09,  2.01it/s] 40%|███▉      | 4275/10696 [1:01:52<53:04,  2.02it/s]{'loss': 3.8231, 'grad_norm': 0.2256966531276703, 'learning_rate': 0.0007505179954265668, 'epoch': 0.4}
-                                                       40%|███▉      | 4275/10696 [1:01:52<53:04,  2.02it/s] 40%|███▉      | 4276/10696 [1:01:53<53:08,  2.01it/s] 40%|███▉      | 4277/10696 [1:01:53<53:11,  2.01it/s] 40%|███▉      | 4278/10696 [1:01:54<53:08,  2.01it/s] 40%|████      | 4279/10696 [1:01:54<53:07,  2.01it/s] 40%|████      | 4280/10696 [1:01:55<53:05,  2.01it/s] 40%|████      | 4281/10696 [1:01:55<53:04,  2.01it/s] 40%|████      | 4282/10696 [1:01:56<53:01,  2.02it/s] 40%|████      | 4283/10696 [1:01:56<53:00,  2.02it/s] 40%|████      | 4284/10696 [1:01:57<52:58,  2.02it/s] 40%|████      | 4285/10696 [1:01:57<52:59,  2.02it/s] 40%|████      | 4286/10696 [1:01:58<52:55,  2.02it/s] 40%|████      | 4287/10696 [1:01:58<52:59,  2.02it/s] 40%|████      | 4288/10696 [1:01:59<52:57,  2.02it/s] 40%|████      | 4289/10696 [1:01:59<52:57,  2.02it/s] 40%|████      | 4290/10696 [1:02:00<52:56,  2.02it/s] 40%|████      | 4291/10696 [1:02:00<52:57,  2.02it/s] 40%|████      | 4292/10696 [1:02:01<52:57,  2.02it/s] 40%|████      | 4293/10696 [1:02:01<52:55,  2.02it/s] 40%|████      | 4294/10696 [1:02:02<52:56,  2.02it/s] 40%|████      | 4295/10696 [1:02:02<52:54,  2.02it/s] 40%|████      | 4296/10696 [1:02:03<52:55,  2.02it/s] 40%|████      | 4297/10696 [1:02:03<52:54,  2.02it/s] 40%|████      | 4298/10696 [1:02:04<52:55,  2.02it/s] 40%|████      | 4299/10696 [1:02:04<52:54,  2.02it/s] 40%|████      | 4300/10696 [1:02:05<52:55,  2.01it/s]{'loss': 3.8248, 'grad_norm': 0.20538859069347382, 'learning_rate': 0.0007469791311348282, 'epoch': 0.4}
-                                                       40%|████      | 4300/10696 [1:02:05<52:55,  2.01it/s] 40%|████      | 4301/10696 [1:02:05<52:59,  2.01it/s] 40%|████      | 4302/10696 [1:02:06<52:55,  2.01it/s] 40%|████      | 4303/10696 [1:02:06<52:59,  2.01it/s] 40%|████      | 4304/10696 [1:02:07<52:56,  2.01it/s] 40%|████      | 4305/10696 [1:02:07<52:54,  2.01it/s] 40%|████      | 4306/10696 [1:02:08<52:52,  2.01it/s] 40%|████      | 4307/10696 [1:02:08<52:48,  2.02it/s] 40%|████      | 4308/10696 [1:02:09<52:48,  2.02it/s] 40%|████      | 4309/10696 [1:02:09<52:44,  2.02it/s] 40%|████      | 4310/10696 [1:02:10<52:48,  2.02it/s] 40%|████      | 4311/10696 [1:02:10<52:46,  2.02it/s] 40%|████      | 4312/10696 [1:02:11<52:50,  2.01it/s] 40%|████      | 4313/10696 [1:02:11<52:46,  2.02it/s] 40%|████      | 4314/10696 [1:02:12<52:47,  2.01it/s] 40%|████      | 4315/10696 [1:02:12<52:46,  2.01it/s] 40%|████      | 4316/10696 [1:02:13<52:46,  2.01it/s] 40%|████      | 4317/10696 [1:02:13<52:43,  2.02it/s] 40%|████      | 4318/10696 [1:02:14<52:43,  2.02it/s] 40%|████      | 4319/10696 [1:02:14<52:43,  2.02it/s] 40%|████      | 4320/10696 [1:02:15<52:45,  2.01it/s] 40%|████      | 4321/10696 [1:02:15<52:41,  2.02it/s] 40%|████      | 4322/10696 [1:02:16<52:42,  2.02it/s] 40%|████      | 4323/10696 [1:02:16<52:38,  2.02it/s] 40%|████      | 4324/10696 [1:02:17<52:42,  2.02it/s] 40%|████      | 4325/10696 [1:02:17<52:38,  2.02it/s]{'loss': 3.8221, 'grad_norm': 0.23231540620326996, 'learning_rate': 0.0007434238251742268, 'epoch': 0.4}
-                                                       40%|████      | 4325/10696 [1:02:17<52:38,  2.02it/s] 40%|████      | 4326/10696 [1:02:18<52:43,  2.01it/s] 40%|████      | 4327/10696 [1:02:18<52:41,  2.01it/s] 40%|████      | 4328/10696 [1:02:19<52:41,  2.01it/s] 40%|████      | 4329/10696 [1:02:19<52:42,  2.01it/s] 40%|████      | 4330/10696 [1:02:20<52:40,  2.01it/s] 40%|████      | 4331/10696 [1:02:20<52:38,  2.02it/s] 41%|████      | 4332/10696 [1:02:21<52:37,  2.02it/s] 41%|████      | 4333/10696 [1:02:21<52:36,  2.02it/s] 41%|████      | 4334/10696 [1:02:22<52:36,  2.02it/s] 41%|████      | 4335/10696 [1:02:22<52:38,  2.01it/s] 41%|████      | 4336/10696 [1:02:23<52:35,  2.02it/s] 41%|████      | 4337/10696 [1:02:23<52:35,  2.02it/s] 41%|████      | 4338/10696 [1:02:24<52:32,  2.02it/s] 41%|████      | 4339/10696 [1:02:24<52:34,  2.02it/s] 41%|████      | 4340/10696 [1:02:25<52:36,  2.01it/s] 41%|████      | 4341/10696 [1:02:25<52:36,  2.01it/s] 41%|████      | 4342/10696 [1:02:26<52:35,  2.01it/s] 41%|████      | 4343/10696 [1:02:26<52:31,  2.02it/s] 41%|████      | 4344/10696 [1:02:27<52:33,  2.01it/s] 41%|████      | 4345/10696 [1:02:27<52:30,  2.02it/s] 41%|████      | 4346/10696 [1:02:28<52:31,  2.02it/s] 41%|████      | 4347/10696 [1:02:28<52:31,  2.01it/s] 41%|████      | 4348/10696 [1:02:29<52:30,  2.01it/s] 41%|████      | 4349/10696 [1:02:29<52:25,  2.02it/s] 41%|████      | 4350/10696 [1:02:30<52:25,  2.02it/s]{'loss': 3.8134, 'grad_norm': 0.2010430097579956, 'learning_rate': 0.0007398523142253402, 'epoch': 0.41}
-                                                       41%|████      | 4350/10696 [1:02:30<52:25,  2.02it/s] 41%|████      | 4351/10696 [1:02:30<52:32,  2.01it/s] 41%|████      | 4352/10696 [1:02:31<52:27,  2.02it/s] 41%|████      | 4353/10696 [1:02:31<52:28,  2.01it/s] 41%|████      | 4354/10696 [1:02:32<52:23,  2.02it/s] 41%|████      | 4355/10696 [1:02:32<52:25,  2.02it/s] 41%|████      | 4356/10696 [1:02:33<52:22,  2.02it/s] 41%|████      | 4357/10696 [1:02:33<52:22,  2.02it/s] 41%|████      | 4358/10696 [1:02:34<52:21,  2.02it/s] 41%|████      | 4359/10696 [1:02:34<52:19,  2.02it/s] 41%|████      | 4360/10696 [1:02:35<52:20,  2.02it/s] 41%|████      | 4361/10696 [1:02:35<52:18,  2.02it/s] 41%|████      | 4362/10696 [1:02:36<52:17,  2.02it/s] 41%|████      | 4363/10696 [1:02:36<52:17,  2.02it/s] 41%|████      | 4364/10696 [1:02:37<52:17,  2.02it/s] 41%|████      | 4365/10696 [1:02:37<52:15,  2.02it/s] 41%|████      | 4366/10696 [1:02:38<52:16,  2.02it/s] 41%|████      | 4367/10696 [1:02:38<52:14,  2.02it/s] 41%|████      | 4368/10696 [1:02:39<52:17,  2.02it/s] 41%|████      | 4369/10696 [1:02:39<52:13,  2.02it/s] 41%|████      | 4370/10696 [1:02:40<52:16,  2.02it/s] 41%|████      | 4371/10696 [1:02:40<52:16,  2.02it/s] 41%|████      | 4372/10696 [1:02:41<52:14,  2.02it/s] 41%|████      | 4373/10696 [1:02:41<52:15,  2.02it/s] 41%|████      | 4374/10696 [1:02:42<52:13,  2.02it/s] 41%|████      | 4375/10696 [1:02:42<52:13,  2.02it/s]                                                      {'loss': 3.8224, 'grad_norm': 0.22150859236717224, 'learning_rate': 0.000736264836047529, 'epoch': 0.41}
- 41%|████      | 4375/10696 [1:02:42<52:13,  2.02it/s] 41%|████      | 4376/10696 [1:02:43<52:15,  2.02it/s] 41%|████      | 4377/10696 [1:02:43<52:17,  2.01it/s] 41%|████      | 4378/10696 [1:02:44<52:15,  2.02it/s] 41%|████      | 4379/10696 [1:02:44<52:15,  2.01it/s] 41%|████      | 4380/10696 [1:02:45<52:10,  2.02it/s] 41%|████      | 4381/10696 [1:02:45<52:12,  2.02it/s] 41%|████      | 4382/10696 [1:02:46<52:13,  2.01it/s] 41%|████      | 4383/10696 [1:02:46<52:12,  2.02it/s] 41%|████      | 4384/10696 [1:02:47<52:13,  2.01it/s] 41%|████      | 4385/10696 [1:02:47<52:10,  2.02it/s] 41%|████      | 4386/10696 [1:02:48<52:10,  2.02it/s] 41%|████      | 4387/10696 [1:02:48<52:08,  2.02it/s] 41%|████      | 4388/10696 [1:02:49<52:08,  2.02it/s] 41%|████      | 4389/10696 [1:02:49<52:06,  2.02it/s] 41%|████      | 4390/10696 [1:02:49<52:07,  2.02it/s] 41%|████      | 4391/10696 [1:02:50<52:06,  2.02it/s] 41%|████      | 4392/10696 [1:02:50<52:07,  2.02it/s] 41%|████      | 4393/10696 [1:02:51<52:07,  2.02it/s] 41%|████      | 4394/10696 [1:02:51<52:06,  2.02it/s] 41%|████      | 4395/10696 [1:02:52<52:10,  2.01it/s] 41%|████      | 4396/10696 [1:02:52<52:05,  2.02it/s] 41%|████      | 4397/10696 [1:02:53<52:06,  2.01it/s] 41%|████      | 4398/10696 [1:02:53<52:03,  2.02it/s] 41%|████      | 4399/10696 [1:02:54<52:03,  2.02it/s] 41%|████      | 4400/10696 [1:02:54<52:03,  2.02it/s]{'loss': 3.8167, 'grad_norm': 0.24482029676437378, 'learning_rate': 0.0007326616294631103, 'epoch': 0.41}
-                                                       41%|████      | 4400/10696 [1:02:54<52:03,  2.02it/s] 41%|████      | 4401/10696 [1:02:55<52:06,  2.01it/s] 41%|████      | 4402/10696 [1:02:55<52:05,  2.01it/s] 41%|████      | 4403/10696 [1:02:56<52:02,  2.02it/s] 41%|████      | 4404/10696 [1:02:56<52:05,  2.01it/s] 41%|████      | 4405/10696 [1:02:57<51:59,  2.02it/s] 41%|████      | 4406/10696 [1:02:57<52:00,  2.02it/s] 41%|████      | 4407/10696 [1:02:58<51:57,  2.02it/s] 41%|████      | 4408/10696 [1:02:58<51:59,  2.02it/s] 41%|████      | 4409/10696 [1:02:59<51:54,  2.02it/s] 41%|████      | 4410/10696 [1:02:59<51:55,  2.02it/s] 41%|████      | 4411/10696 [1:03:00<51:53,  2.02it/s] 41%|████      | 4412/10696 [1:03:00<51:55,  2.02it/s] 41%|████▏     | 4413/10696 [1:03:01<51:53,  2.02it/s] 41%|████▏     | 4414/10696 [1:03:01<51:54,  2.02it/s] 41%|████▏     | 4415/10696 [1:03:02<51:55,  2.02it/s] 41%|████▏     | 4416/10696 [1:03:02<51:55,  2.02it/s] 41%|████▏     | 4417/10696 [1:03:03<51:53,  2.02it/s] 41%|████▏     | 4418/10696 [1:03:03<51:52,  2.02it/s] 41%|████▏     | 4419/10696 [1:03:04<51:54,  2.02it/s] 41%|████▏     | 4420/10696 [1:03:04<51:52,  2.02it/s] 41%|████▏     | 4421/10696 [1:03:05<51:54,  2.01it/s] 41%|████▏     | 4422/10696 [1:03:05<51:49,  2.02it/s] 41%|████▏     | 4423/10696 [1:03:06<51:52,  2.02it/s] 41%|████▏     | 4424/10696 [1:03:06<51:52,  2.02it/s] 41%|████▏     | 4425/10696 [1:03:07<51:51,  2.02it/s]{'loss': 3.8169, 'grad_norm': 0.22931143641471863, 'learning_rate': 0.0007290429343414572, 'epoch': 0.41}
-                                                       41%|████▏     | 4425/10696 [1:03:07<51:51,  2.02it/s] 41%|████▏     | 4426/10696 [1:03:07<51:58,  2.01it/s] 41%|████▏     | 4427/10696 [1:03:08<51:50,  2.02it/s] 41%|████▏     | 4428/10696 [1:03:08<51:52,  2.01it/s] 41%|████▏     | 4429/10696 [1:03:09<51:49,  2.02it/s] 41%|████▏     | 4430/10696 [1:03:09<51:53,  2.01it/s] 41%|████▏     | 4431/10696 [1:03:10<51:51,  2.01it/s] 41%|████▏     | 4432/10696 [1:03:10<51:50,  2.01it/s] 41%|████▏     | 4433/10696 [1:03:11<51:51,  2.01it/s] 41%|████▏     | 4434/10696 [1:03:11<51:49,  2.01it/s] 41%|████▏     | 4435/10696 [1:03:12<51:48,  2.01it/s] 41%|████▏     | 4436/10696 [1:03:12<51:48,  2.01it/s] 41%|████▏     | 4437/10696 [1:03:13<51:44,  2.02it/s] 41%|████▏     | 4438/10696 [1:03:13<51:44,  2.02it/s] 42%|████▏     | 4439/10696 [1:03:14<51:40,  2.02it/s] 42%|████▏     | 4440/10696 [1:03:14<51:44,  2.02it/s] 42%|████▏     | 4441/10696 [1:03:15<51:43,  2.02it/s] 42%|████▏     | 4442/10696 [1:03:15<51:41,  2.02it/s] 42%|████▏     | 4443/10696 [1:03:16<51:42,  2.02it/s] 42%|████▏     | 4444/10696 [1:03:16<51:39,  2.02it/s] 42%|████▏     | 4445/10696 [1:03:17<51:39,  2.02it/s] 42%|████▏     | 4446/10696 [1:03:17<51:38,  2.02it/s] 42%|████▏     | 4447/10696 [1:03:18<51:39,  2.02it/s] 42%|████▏     | 4448/10696 [1:03:18<51:36,  2.02it/s] 42%|████▏     | 4449/10696 [1:03:19<51:36,  2.02it/s] 42%|████▏     | 4450/10696 [1:03:19<51:35,  2.02it/s]{'loss': 3.8167, 'grad_norm': 0.20970694720745087, 'learning_rate': 0.0007254089915830325, 'epoch': 0.42}
-                                                       42%|████▏     | 4450/10696 [1:03:19<51:35,  2.02it/s] 42%|████▏     | 4451/10696 [1:03:20<51:40,  2.01it/s] 42%|████▏     | 4452/10696 [1:03:20<51:34,  2.02it/s] 42%|████▏     | 4453/10696 [1:03:21<51:37,  2.02it/s] 42%|████▏     | 4454/10696 [1:03:21<51:34,  2.02it/s] 42%|████▏     | 4455/10696 [1:03:22<51:35,  2.02it/s] 42%|████▏     | 4456/10696 [1:03:22<51:35,  2.02it/s] 42%|████▏     | 4457/10696 [1:03:23<51:35,  2.02it/s] 42%|████▏     | 4458/10696 [1:03:23<51:33,  2.02it/s] 42%|████▏     | 4459/10696 [1:03:24<51:31,  2.02it/s] 42%|████▏     | 4460/10696 [1:03:24<51:34,  2.02it/s] 42%|████▏     | 4461/10696 [1:03:25<51:30,  2.02it/s] 42%|████▏     | 4462/10696 [1:03:25<51:31,  2.02it/s] 42%|████▏     | 4463/10696 [1:03:26<51:29,  2.02it/s] 42%|████▏     | 4464/10696 [1:03:26<51:30,  2.02it/s] 42%|████▏     | 4465/10696 [1:03:27<51:31,  2.02it/s] 42%|████▏     | 4466/10696 [1:03:27<51:31,  2.02it/s] 42%|████▏     | 4467/10696 [1:03:28<51:27,  2.02it/s] 42%|████▏     | 4468/10696 [1:03:28<51:28,  2.02it/s] 42%|████▏     | 4469/10696 [1:03:29<51:27,  2.02it/s] 42%|████▏     | 4470/10696 [1:03:29<51:27,  2.02it/s] 42%|████▏     | 4471/10696 [1:03:30<51:28,  2.02it/s] 42%|████▏     | 4472/10696 [1:03:30<51:24,  2.02it/s] 42%|████▏     | 4473/10696 [1:03:31<51:26,  2.02it/s] 42%|████▏     | 4474/10696 [1:03:31<51:26,  2.02it/s] 42%|████▏     | 4475/10696 [1:03:32<51:28,  2.01it/s]{'loss': 3.8131, 'grad_norm': 0.20692044496536255, 'learning_rate': 0.0007217600431033502, 'epoch': 0.42}
-                                                       42%|████▏     | 4475/10696 [1:03:32<51:28,  2.01it/s] 42%|████▏     | 4476/10696 [1:03:32<51:27,  2.01it/s] 42%|████▏     | 4477/10696 [1:03:33<51:25,  2.02it/s] 42%|████▏     | 4478/10696 [1:03:33<51:22,  2.02it/s] 42%|████▏     | 4479/10696 [1:03:34<51:25,  2.02it/s] 42%|████▏     | 4480/10696 [1:03:34<51:25,  2.01it/s] 42%|████▏     | 4481/10696 [1:03:35<51:24,  2.01it/s] 42%|████▏     | 4482/10696 [1:03:35<51:24,  2.01it/s] 42%|████▏     | 4483/10696 [1:03:36<51:24,  2.01it/s] 42%|████▏     | 4484/10696 [1:03:36<51:26,  2.01it/s] 42%|████▏     | 4485/10696 [1:03:37<51:22,  2.01it/s] 42%|████▏     | 4486/10696 [1:03:37<51:21,  2.02it/s] 42%|████▏     | 4487/10696 [1:03:38<51:23,  2.01it/s] 42%|████▏     | 4488/10696 [1:03:38<51:20,  2.02it/s] 42%|████▏     | 4489/10696 [1:03:39<51:23,  2.01it/s] 42%|████▏     | 4490/10696 [1:03:39<51:19,  2.02it/s] 42%|████▏     | 4491/10696 [1:03:40<51:21,  2.01it/s] 42%|████▏     | 4492/10696 [1:03:40<51:17,  2.02it/s] 42%|████▏     | 4493/10696 [1:03:41<51:18,  2.02it/s] 42%|████▏     | 4494/10696 [1:03:41<51:17,  2.02it/s] 42%|████▏     | 4495/10696 [1:03:42<51:14,  2.02it/s] 42%|████▏     | 4496/10696 [1:03:42<51:17,  2.01it/s] 42%|████▏     | 4497/10696 [1:03:43<51:14,  2.02it/s] 42%|████▏     | 4498/10696 [1:03:43<51:15,  2.02it/s] 42%|████▏     | 4499/10696 [1:03:44<51:12,  2.02it/s] 42%|████▏     | 4500/10696 [1:03:44<51:13,  2.02it/s]{'loss': 3.8096, 'grad_norm': 0.20035557448863983, 'learning_rate': 0.0007180963318168716, 'epoch': 0.42}
-                                                       42%|████▏     | 4500/10696 [1:03:44<51:13,  2.02it/s] 42%|████▏     | 4501/10696 [1:03:45<51:22,  2.01it/s] 42%|████▏     | 4502/10696 [1:03:45<51:15,  2.01it/s] 42%|████▏     | 4503/10696 [1:03:46<51:18,  2.01it/s] 42%|████▏     | 4504/10696 [1:03:46<51:16,  2.01it/s] 42%|████▏     | 4505/10696 [1:03:47<51:15,  2.01it/s] 42%|████▏     | 4506/10696 [1:03:47<51:13,  2.01it/s] 42%|████▏     | 4507/10696 [1:03:48<51:09,  2.02it/s] 42%|████▏     | 4508/10696 [1:03:48<51:08,  2.02it/s] 42%|████▏     | 4509/10696 [1:03:49<51:07,  2.02it/s] 42%|████▏     | 4510/10696 [1:03:49<51:09,  2.02it/s] 42%|████▏     | 4511/10696 [1:03:50<51:05,  2.02it/s] 42%|████▏     | 4512/10696 [1:03:50<51:07,  2.02it/s] 42%|████▏     | 4513/10696 [1:03:51<51:08,  2.02it/s] 42%|████▏     | 4514/10696 [1:03:51<51:08,  2.01it/s] 42%|████▏     | 4515/10696 [1:03:52<51:08,  2.01it/s] 42%|████▏     | 4516/10696 [1:03:52<51:04,  2.02it/s] 42%|████▏     | 4517/10696 [1:03:53<51:05,  2.02it/s] 42%|████▏     | 4518/10696 [1:03:53<51:00,  2.02it/s] 42%|████▏     | 4519/10696 [1:03:54<51:03,  2.02it/s] 42%|████▏     | 4520/10696 [1:03:54<51:01,  2.02it/s] 42%|████▏     | 4521/10696 [1:03:54<51:03,  2.02it/s] 42%|████▏     | 4522/10696 [1:03:55<51:01,  2.02it/s] 42%|████▏     | 4523/10696 [1:03:55<50:59,  2.02it/s] 42%|████▏     | 4524/10696 [1:03:56<51:03,  2.01it/s] 42%|████▏     | 4525/10696 [1:03:56<50:59,  2.02it/s]{'loss': 3.8155, 'grad_norm': 0.21277429163455963, 'learning_rate': 0.0007144181016208344, 'epoch': 0.42}
-                                                       42%|████▏     | 4525/10696 [1:03:56<50:59,  2.02it/s] 42%|████▏     | 4526/10696 [1:03:57<51:07,  2.01it/s] 42%|████▏     | 4527/10696 [1:03:57<51:02,  2.01it/s] 42%|████▏     | 4528/10696 [1:03:58<51:00,  2.02it/s] 42%|████▏     | 4529/10696 [1:03:58<51:01,  2.01it/s] 42%|████▏     | 4530/10696 [1:03:59<51:00,  2.01it/s] 42%|████▏     | 4531/10696 [1:03:59<51:00,  2.01it/s] 42%|████▏     | 4532/10696 [1:04:00<50:57,  2.02it/s] 42%|████▏     | 4533/10696 [1:04:00<50:59,  2.01it/s] 42%|████▏     | 4534/10696 [1:04:01<50:58,  2.01it/s] 42%|████▏     | 4535/10696 [1:04:01<50:59,  2.01it/s] 42%|████▏     | 4536/10696 [1:04:02<50:58,  2.01it/s] 42%|████▏     | 4537/10696 [1:04:02<50:55,  2.02it/s] 42%|████▏     | 4538/10696 [1:04:03<50:53,  2.02it/s] 42%|████▏     | 4539/10696 [1:04:03<50:54,  2.02it/s] 42%|████▏     | 4540/10696 [1:04:04<50:55,  2.01it/s] 42%|████▏     | 4541/10696 [1:04:04<50:54,  2.01it/s] 42%|████▏     | 4542/10696 [1:04:05<50:54,  2.01it/s] 42%|████▏     | 4543/10696 [1:04:05<50:54,  2.01it/s] 42%|████▏     | 4544/10696 [1:04:06<50:55,  2.01it/s] 42%|████▏     | 4545/10696 [1:04:06<50:53,  2.01it/s] 43%|████▎     | 4546/10696 [1:04:07<50:54,  2.01it/s] 43%|████▎     | 4547/10696 [1:04:07<50:48,  2.02it/s] 43%|████▎     | 4548/10696 [1:04:08<50:48,  2.02it/s] 43%|████▎     | 4549/10696 [1:04:08<50:47,  2.02it/s] 43%|████▎     | 4550/10696 [1:04:09<50:46,  2.02it/s]{'loss': 3.8096, 'grad_norm': 0.21329288184642792, 'learning_rate': 0.0007107255973790153, 'epoch': 0.43}
-                                                       43%|████▎     | 4550/10696 [1:04:09<50:46,  2.02it/s] 43%|████▎     | 4551/10696 [1:04:09<50:52,  2.01it/s] 43%|████▎     | 4552/10696 [1:04:10<50:49,  2.01it/s] 43%|████▎     | 4553/10696 [1:04:10<50:50,  2.01it/s] 43%|████▎     | 4554/10696 [1:04:11<50:45,  2.02it/s] 43%|████▎     | 4555/10696 [1:04:11<50:46,  2.02it/s] 43%|████▎     | 4556/10696 [1:04:12<50:43,  2.02it/s] 43%|████▎     | 4557/10696 [1:04:12<50:43,  2.02it/s] 43%|████▎     | 4558/10696 [1:04:13<50:43,  2.02it/s] 43%|████▎     | 4559/10696 [1:04:13<50:44,  2.02it/s] 43%|████▎     | 4560/10696 [1:04:14<50:45,  2.01it/s] 43%|████▎     | 4561/10696 [1:04:14<50:42,  2.02it/s] 43%|████▎     | 4562/10696 [1:04:15<50:43,  2.02it/s] 43%|████▎     | 4563/10696 [1:04:15<50:42,  2.02it/s] 43%|████▎     | 4564/10696 [1:04:16<50:43,  2.02it/s] 43%|████▎     | 4565/10696 [1:04:16<50:42,  2.02it/s] 43%|████▎     | 4566/10696 [1:04:17<50:41,  2.02it/s] 43%|████▎     | 4567/10696 [1:04:17<50:40,  2.02it/s] 43%|████▎     | 4568/10696 [1:04:18<50:39,  2.02it/s] 43%|████▎     | 4569/10696 [1:04:18<50:41,  2.01it/s] 43%|████▎     | 4570/10696 [1:04:19<50:40,  2.01it/s] 43%|████▎     | 4571/10696 [1:04:19<50:43,  2.01it/s] 43%|████▎     | 4572/10696 [1:04:20<50:40,  2.01it/s] 43%|████▎     | 4573/10696 [1:04:20<50:39,  2.01it/s] 43%|████▎     | 4574/10696 [1:04:21<50:37,  2.02it/s] 43%|████▎     | 4575/10696 [1:04:21<50:35,  2.02it/s]{'loss': 3.81, 'grad_norm': 0.20572157204151154, 'learning_rate': 0.00070701906490543, 'epoch': 0.43}
-                                                       43%|████▎     | 4575/10696 [1:04:21<50:35,  2.02it/s] 43%|████▎     | 4576/10696 [1:04:22<50:40,  2.01it/s] 43%|████▎     | 4577/10696 [1:04:22<50:35,  2.02it/s] 43%|████▎     | 4578/10696 [1:04:23<50:38,  2.01it/s] 43%|████▎     | 4579/10696 [1:04:23<50:35,  2.01it/s] 43%|████▎     | 4580/10696 [1:04:24<50:35,  2.02it/s] 43%|████▎     | 4581/10696 [1:04:24<50:36,  2.01it/s] 43%|████▎     | 4582/10696 [1:04:25<50:35,  2.01it/s] 43%|████▎     | 4583/10696 [1:04:25<50:34,  2.01it/s] 43%|████▎     | 4584/10696 [1:04:26<50:33,  2.01it/s] 43%|████▎     | 4585/10696 [1:04:26<50:34,  2.01it/s] 43%|████▎     | 4586/10696 [1:04:27<50:30,  2.02it/s] 43%|████▎     | 4587/10696 [1:04:27<50:29,  2.02it/s] 43%|████▎     | 4588/10696 [1:04:28<50:25,  2.02it/s] 43%|████▎     | 4589/10696 [1:04:28<50:31,  2.01it/s] 43%|████▎     | 4590/10696 [1:04:29<50:24,  2.02it/s] 43%|████▎     | 4591/10696 [1:04:29<50:27,  2.02it/s] 43%|████▎     | 4592/10696 [1:04:30<50:25,  2.02it/s] 43%|████▎     | 4593/10696 [1:04:30<50:29,  2.01it/s] 43%|████▎     | 4594/10696 [1:04:31<50:28,  2.01it/s] 43%|████▎     | 4595/10696 [1:04:31<50:27,  2.02it/s] 43%|████▎     | 4596/10696 [1:04:32<50:26,  2.02it/s] 43%|████▎     | 4597/10696 [1:04:32<50:27,  2.01it/s] 43%|████▎     | 4598/10696 [1:04:33<50:23,  2.02it/s] 43%|████▎     | 4599/10696 [1:04:33<50:26,  2.01it/s] 43%|████▎     | 4600/10696 [1:04:34<50:21,  2.02it/s]{'loss': 3.803, 'grad_norm': 0.20710183680057526, 'learning_rate': 0.000703298750947969, 'epoch': 0.43}
-                                                       43%|████▎     | 4600/10696 [1:04:34<50:21,  2.02it/s] 43%|████▎     | 4601/10696 [1:04:34<50:28,  2.01it/s] 43%|████▎     | 4602/10696 [1:04:35<50:23,  2.02it/s] 43%|████▎     | 4603/10696 [1:04:35<50:24,  2.01it/s] 43%|████▎     | 4604/10696 [1:04:36<50:25,  2.01it/s] 43%|████▎     | 4605/10696 [1:04:36<50:21,  2.02it/s] 43%|████▎     | 4606/10696 [1:04:37<50:23,  2.01it/s] 43%|████▎     | 4607/10696 [1:04:37<50:19,  2.02it/s] 43%|████▎     | 4608/10696 [1:04:38<50:21,  2.01it/s] 43%|████▎     | 4609/10696 [1:04:38<50:22,  2.01it/s] 43%|████▎     | 4610/10696 [1:04:39<50:22,  2.01it/s] 43%|████▎     | 4611/10696 [1:04:39<50:23,  2.01it/s] 43%|████▎     | 4612/10696 [1:04:40<50:20,  2.01it/s] 43%|████▎     | 4613/10696 [1:04:40<50:21,  2.01it/s] 43%|████▎     | 4614/10696 [1:04:41<50:19,  2.01it/s] 43%|████▎     | 4615/10696 [1:04:41<50:18,  2.01it/s] 43%|████▎     | 4616/10696 [1:04:42<50:18,  2.01it/s] 43%|████▎     | 4617/10696 [1:04:42<50:16,  2.02it/s] 43%|████▎     | 4618/10696 [1:04:43<50:14,  2.02it/s] 43%|████▎     | 4619/10696 [1:04:43<50:14,  2.02it/s] 43%|████▎     | 4620/10696 [1:04:44<50:16,  2.01it/s] 43%|████▎     | 4621/10696 [1:04:44<50:13,  2.02it/s] 43%|████▎     | 4622/10696 [1:04:45<50:16,  2.01it/s] 43%|████▎     | 4623/10696 [1:04:45<50:15,  2.01it/s] 43%|████▎     | 4624/10696 [1:04:46<50:13,  2.02it/s] 43%|████▎     | 4625/10696 [1:04:46<50:12,  2.02it/s]                                                      {'loss': 3.7999, 'grad_norm': 0.22232350707054138, 'learning_rate': 0.0006995649031719709, 'epoch': 0.43}
- 43%|████▎     | 4625/10696 [1:04:46<50:12,  2.02it/s] 43%|████▎     | 4626/10696 [1:04:47<50:13,  2.01it/s] 43%|████▎     | 4627/10696 [1:04:47<50:14,  2.01it/s] 43%|████▎     | 4628/10696 [1:04:48<50:12,  2.01it/s] 43%|████▎     | 4629/10696 [1:04:48<50:13,  2.01it/s] 43%|████▎     | 4630/10696 [1:04:49<50:13,  2.01it/s] 43%|████▎     | 4631/10696 [1:04:49<50:10,  2.01it/s] 43%|████▎     | 4632/10696 [1:04:50<58:47,  1.72it/s] 43%|████▎     | 4633/10696 [1:04:50<56:11,  1.80it/s] 43%|████▎     | 4634/10696 [1:04:51<54:23,  1.86it/s] 43%|████▎     | 4635/10696 [1:04:51<53:06,  1.90it/s] 43%|████▎     | 4636/10696 [1:04:52<52:09,  1.94it/s] 43%|████▎     | 4637/10696 [1:04:52<51:31,  1.96it/s] 43%|████▎     | 4638/10696 [1:04:53<51:04,  1.98it/s] 43%|████▎     | 4639/10696 [1:04:53<50:46,  1.99it/s] 43%|████▎     | 4640/10696 [1:04:54<50:32,  2.00it/s] 43%|████▎     | 4641/10696 [1:04:54<50:24,  2.00it/s] 43%|████▎     | 4642/10696 [1:04:55<50:17,  2.01it/s] 43%|████▎     | 4643/10696 [1:04:55<50:14,  2.01it/s] 43%|████▎     | 4644/10696 [1:04:56<50:08,  2.01it/s] 43%|████▎     | 4645/10696 [1:04:56<50:06,  2.01it/s] 43%|████▎     | 4646/10696 [1:04:57<50:03,  2.01it/s] 43%|████▎     | 4647/10696 [1:04:57<50:00,  2.02it/s] 43%|████▎     | 4648/10696 [1:04:58<49:59,  2.02it/s] 43%|████▎     | 4649/10696 [1:04:58<49:56,  2.02it/s] 43%|████▎     | 4650/10696 [1:04:59<49:59,  2.02it/s]{'loss': 3.799, 'grad_norm': 0.24023817479610443, 'learning_rate': 0.0006958177701437352, 'epoch': 0.43}                                                      
- 43%|████▎     | 4650/10696 [1:04:59<49:59,  2.02it/s] 43%|████▎     | 4651/10696 [1:05:00<58:16,  1.73it/s] 43%|████▎     | 4652/10696 [1:05:00<55:44,  1.81it/s] 44%|████▎     | 4653/10696 [1:05:01<54:01,  1.86it/s] 44%|████▎     | 4654/10696 [1:05:01<52:45,  1.91it/s] 44%|████▎     | 4655/10696 [1:05:02<51:56,  1.94it/s] 44%|████▎     | 4656/10696 [1:05:02<51:19,  1.96it/s] 44%|████▎     | 4657/10696 [1:05:03<50:53,  1.98it/s] 44%|████▎     | 4658/10696 [1:05:03<50:32,  1.99it/s] 44%|████▎     | 4659/10696 [1:05:04<50:21,  2.00it/s] 44%|████▎     | 4660/10696 [1:05:04<50:13,  2.00it/s] 44%|████▎     | 4661/10696 [1:05:05<50:08,  2.01it/s] 44%|████▎     | 4662/10696 [1:05:05<50:03,  2.01it/s] 44%|████▎     | 4663/10696 [1:05:06<49:58,  2.01it/s] 44%|████▎     | 4664/10696 [1:05:06<50:00,  2.01it/s] 44%|████▎     | 4665/10696 [1:05:07<49:54,  2.01it/s] 44%|████▎     | 4666/10696 [1:05:07<49:55,  2.01it/s] 44%|████▎     | 4667/10696 [1:05:07<49:50,  2.02it/s] 44%|████▎     | 4668/10696 [1:05:08<49:52,  2.01it/s] 44%|████▎     | 4669/10696 [1:05:08<49:48,  2.02it/s] 44%|████▎     | 4670/10696 [1:05:09<49:49,  2.02it/s] 44%|████▎     | 4671/10696 [1:05:09<49:51,  2.01it/s] 44%|████▎     | 4672/10696 [1:05:10<49:47,  2.02it/s] 44%|████▎     | 4673/10696 [1:05:10<49:47,  2.02it/s] 44%|████▎     | 4674/10696 [1:05:11<49:47,  2.02it/s] 44%|████▎     | 4675/10696 [1:05:11<49:47,  2.02it/s]{'loss': 3.7979, 'grad_norm': 0.23147276043891907, 'learning_rate': 0.0006920576013139752, 'epoch': 0.44}
-                                                       44%|████▎     | 4675/10696 [1:05:11<49:47,  2.02it/s] 44%|████▎     | 4676/10696 [1:05:12<49:51,  2.01it/s] 44%|████▎     | 4677/10696 [1:05:12<49:50,  2.01it/s] 44%|████▎     | 4678/10696 [1:05:13<49:46,  2.02it/s] 44%|████▎     | 4679/10696 [1:05:13<49:46,  2.01it/s] 44%|████▍     | 4680/10696 [1:05:14<49:43,  2.02it/s] 44%|████▍     | 4681/10696 [1:05:14<49:46,  2.01it/s] 44%|████▍     | 4682/10696 [1:05:15<49:41,  2.02it/s] 44%|████▍     | 4683/10696 [1:05:15<49:42,  2.02it/s] 44%|████▍     | 4684/10696 [1:05:16<49:40,  2.02it/s] 44%|████▍     | 4685/10696 [1:05:16<49:41,  2.02it/s] 44%|████▍     | 4686/10696 [1:05:17<49:43,  2.01it/s] 44%|████▍     | 4687/10696 [1:05:17<49:41,  2.02it/s] 44%|████▍     | 4688/10696 [1:05:18<49:40,  2.02it/s] 44%|████▍     | 4689/10696 [1:05:18<49:37,  2.02it/s] 44%|████▍     | 4690/10696 [1:05:19<49:41,  2.01it/s] 44%|████▍     | 4691/10696 [1:05:19<49:40,  2.01it/s] 44%|████▍     | 4692/10696 [1:05:20<49:41,  2.01it/s] 44%|████▍     | 4693/10696 [1:05:20<49:41,  2.01it/s] 44%|████▍     | 4694/10696 [1:05:21<49:39,  2.01it/s] 44%|████▍     | 4695/10696 [1:05:21<49:40,  2.01it/s] 44%|████▍     | 4696/10696 [1:05:22<49:38,  2.01it/s] 44%|████▍     | 4697/10696 [1:05:22<49:37,  2.02it/s] 44%|████▍     | 4698/10696 [1:05:23<49:36,  2.02it/s] 44%|████▍     | 4699/10696 [1:05:23<49:33,  2.02it/s] 44%|████▍     | 4700/10696 [1:05:24<49:34,  2.02it/s]{'loss': 3.8049, 'grad_norm': 0.2059028446674347, 'learning_rate': 0.0006882846470012119, 'epoch': 0.44}
-                                                       44%|████▍     | 4700/10696 [1:05:24<49:34,  2.02it/s] 44%|████▍     | 4701/10696 [1:05:24<49:36,  2.01it/s] 44%|████▍     | 4702/10696 [1:05:25<49:36,  2.01it/s] 44%|████▍     | 4703/10696 [1:05:25<49:59,  2.00it/s] 44%|████▍     | 4704/10696 [1:05:26<49:52,  2.00it/s] 44%|████▍     | 4705/10696 [1:05:26<49:42,  2.01it/s] 44%|████▍     | 4706/10696 [1:05:27<49:41,  2.01it/s] 44%|████▍     | 4707/10696 [1:05:27<49:34,  2.01it/s] 44%|████▍     | 4708/10696 [1:05:28<49:33,  2.01it/s] 44%|████▍     | 4709/10696 [1:05:28<49:30,  2.02it/s] 44%|████▍     | 4710/10696 [1:05:29<49:31,  2.01it/s] 44%|████▍     | 4711/10696 [1:05:29<49:30,  2.01it/s] 44%|████▍     | 4712/10696 [1:05:30<49:28,  2.02it/s] 44%|████▍     | 4713/10696 [1:05:30<49:32,  2.01it/s] 44%|████▍     | 4714/10696 [1:05:31<49:29,  2.01it/s] 44%|████▍     | 4715/10696 [1:05:31<49:29,  2.01it/s] 44%|████▍     | 4716/10696 [1:05:32<49:24,  2.02it/s] 44%|████▍     | 4717/10696 [1:05:32<49:26,  2.02it/s] 44%|████▍     | 4718/10696 [1:05:33<49:22,  2.02it/s] 44%|████▍     | 4719/10696 [1:05:33<49:23,  2.02it/s] 44%|████▍     | 4720/10696 [1:05:34<49:23,  2.02it/s] 44%|████▍     | 4721/10696 [1:05:34<49:23,  2.02it/s] 44%|████▍     | 4722/10696 [1:05:35<49:24,  2.01it/s] 44%|████▍     | 4723/10696 [1:05:35<49:24,  2.01it/s] 44%|████▍     | 4724/10696 [1:05:36<49:25,  2.01it/s] 44%|████▍     | 4725/10696 [1:05:36<49:22,  2.02it/s]{'loss': 3.7978, 'grad_norm': 0.21587711572647095, 'learning_rate': 0.0006844991583751092, 'epoch': 0.44}
-                                                       44%|████▍     | 4725/10696 [1:05:36<49:22,  2.02it/s] 44%|████▍     | 4726/10696 [1:05:37<49:25,  2.01it/s] 44%|████▍     | 4727/10696 [1:05:37<49:24,  2.01it/s] 44%|████▍     | 4728/10696 [1:05:38<49:23,  2.01it/s] 44%|████▍     | 4729/10696 [1:05:38<49:21,  2.01it/s] 44%|████▍     | 4730/10696 [1:05:39<49:21,  2.01it/s] 44%|████▍     | 4731/10696 [1:05:39<49:20,  2.01it/s] 44%|████▍     | 4732/10696 [1:05:40<49:20,  2.01it/s] 44%|████▍     | 4733/10696 [1:05:40<49:17,  2.02it/s] 44%|████▍     | 4734/10696 [1:05:41<49:17,  2.02it/s] 44%|████▍     | 4735/10696 [1:05:41<49:13,  2.02it/s] 44%|████▍     | 4736/10696 [1:05:42<49:15,  2.02it/s] 44%|████▍     | 4737/10696 [1:05:42<49:15,  2.02it/s] 44%|████▍     | 4738/10696 [1:05:43<49:13,  2.02it/s] 44%|████▍     | 4739/10696 [1:05:43<49:13,  2.02it/s] 44%|████▍     | 4740/10696 [1:05:44<49:16,  2.01it/s] 44%|████▍     | 4741/10696 [1:05:44<49:14,  2.02it/s] 44%|████▍     | 4742/10696 [1:05:45<49:14,  2.02it/s] 44%|████▍     | 4743/10696 [1:05:45<49:14,  2.02it/s] 44%|████▍     | 4744/10696 [1:05:46<49:16,  2.01it/s] 44%|████▍     | 4745/10696 [1:05:46<49:14,  2.01it/s] 44%|████▍     | 4746/10696 [1:05:47<49:13,  2.01it/s] 44%|████▍     | 4747/10696 [1:05:47<49:13,  2.01it/s] 44%|████▍     | 4748/10696 [1:05:48<49:10,  2.02it/s] 44%|████▍     | 4749/10696 [1:05:48<49:11,  2.01it/s] 44%|████▍     | 4750/10696 [1:05:49<49:07,  2.02it/s]{'loss': 3.7895, 'grad_norm': 0.21676522493362427, 'learning_rate': 0.0006807013874397547, 'epoch': 0.44}
-                                                       44%|████▍     | 4750/10696 [1:05:49<49:07,  2.02it/s] 44%|████▍     | 4751/10696 [1:05:49<49:14,  2.01it/s] 44%|████▍     | 4752/10696 [1:05:50<49:13,  2.01it/s] 44%|████▍     | 4753/10696 [1:05:50<49:09,  2.01it/s] 44%|████▍     | 4754/10696 [1:05:51<49:12,  2.01it/s] 44%|████▍     | 4755/10696 [1:05:51<49:09,  2.01it/s] 44%|████▍     | 4756/10696 [1:05:52<49:11,  2.01it/s] 44%|████▍     | 4757/10696 [1:05:52<49:08,  2.01it/s] 44%|████▍     | 4758/10696 [1:05:53<49:05,  2.02it/s] 44%|████▍     | 4759/10696 [1:05:53<49:07,  2.01it/s] 45%|████▍     | 4760/10696 [1:05:54<49:05,  2.02it/s] 45%|████▍     | 4761/10696 [1:05:54<49:07,  2.01it/s] 45%|████▍     | 4762/10696 [1:05:55<49:03,  2.02it/s] 45%|████▍     | 4763/10696 [1:05:55<49:04,  2.02it/s] 45%|████▍     | 4764/10696 [1:05:56<49:01,  2.02it/s] 45%|████▍     | 4765/10696 [1:05:56<49:01,  2.02it/s] 45%|████▍     | 4766/10696 [1:05:57<49:00,  2.02it/s] 45%|████▍     | 4767/10696 [1:05:57<48:58,  2.02it/s] 45%|████▍     | 4768/10696 [1:05:58<49:00,  2.02it/s] 45%|████▍     | 4769/10696 [1:05:58<48:59,  2.02it/s] 45%|████▍     | 4770/10696 [1:05:59<49:01,  2.01it/s] 45%|████▍     | 4771/10696 [1:05:59<48:59,  2.02it/s] 45%|████▍     | 4772/10696 [1:06:00<49:01,  2.01it/s] 45%|████▍     | 4773/10696 [1:06:00<49:00,  2.01it/s] 45%|████▍     | 4774/10696 [1:06:01<48:57,  2.02it/s] 45%|████▍     | 4775/10696 [1:06:01<48:57,  2.02it/s]{'loss': 3.8007, 'grad_norm': 0.2164454162120819, 'learning_rate': 0.0006768915870168817, 'epoch': 0.45}
-                                                       45%|████▍     | 4775/10696 [1:06:01<48:57,  2.02it/s] 45%|████▍     | 4776/10696 [1:06:02<48:58,  2.01it/s] 45%|████���     | 4777/10696 [1:06:02<48:59,  2.01it/s] 45%|████▍     | 4778/10696 [1:06:03<48:55,  2.02it/s] 45%|████▍     | 4779/10696 [1:06:03<48:56,  2.01it/s] 45%|████▍     | 4780/10696 [1:06:04<48:56,  2.01it/s] 45%|████▍     | 4781/10696 [1:06:04<48:54,  2.02it/s] 45%|████▍     | 4782/10696 [1:06:05<48:55,  2.01it/s] 45%|████▍     | 4783/10696 [1:06:05<48:51,  2.02it/s] 45%|████▍     | 4784/10696 [1:06:06<48:54,  2.01it/s] 45%|████▍     | 4785/10696 [1:06:06<48:52,  2.02it/s] 45%|████▍     | 4786/10696 [1:06:07<48:52,  2.02it/s] 45%|████▍     | 4787/10696 [1:06:07<48:47,  2.02it/s] 45%|████▍     | 4788/10696 [1:06:08<48:48,  2.02it/s] 45%|████▍     | 4789/10696 [1:06:08<48:47,  2.02it/s] 45%|████▍     | 4790/10696 [1:06:09<48:48,  2.02it/s] 45%|████▍     | 4791/10696 [1:06:09<48:46,  2.02it/s] 45%|████▍     | 4792/10696 [1:06:10<48:49,  2.02it/s] 45%|████▍     | 4793/10696 [1:06:10<48:48,  2.02it/s] 45%|████▍     | 4794/10696 [1:06:11<48:45,  2.02it/s] 45%|████▍     | 4795/10696 [1:06:11<48:48,  2.02it/s] 45%|████▍     | 4796/10696 [1:06:12<48:44,  2.02it/s] 45%|████▍     | 4797/10696 [1:06:12<48:46,  2.02it/s] 45%|████▍     | 4798/10696 [1:06:13<48:42,  2.02it/s] 45%|████▍     | 4799/10696 [1:06:13<48:45,  2.02it/s] 45%|████▍     | 4800/10696 [1:06:14<48:48,  2.01it/s]{'loss': 3.7881, 'grad_norm': 0.22306159138679504, 'learning_rate': 0.0006730700107290403, 'epoch': 0.45}
-                                                       45%|████▍     | 4800/10696 [1:06:14<48:48,  2.01it/s] 45%|████▍     | 4801/10696 [1:06:14<48:48,  2.01it/s] 45%|████▍     | 4802/10696 [1:06:14<48:48,  2.01it/s] 45%|████▍     | 4803/10696 [1:06:15<48:44,  2.01it/s] 45%|████▍     | 4804/10696 [1:06:15<48:47,  2.01it/s] 45%|████▍     | 4805/10696 [1:06:16<48:46,  2.01it/s] 45%|████▍     | 4806/10696 [1:06:16<48:46,  2.01it/s] 45%|████▍     | 4807/10696 [1:06:17<48:43,  2.01it/s] 45%|████▍     | 4808/10696 [1:06:17<48:42,  2.02it/s] 45%|████▍     | 4809/10696 [1:06:18<48:41,  2.02it/s] 45%|████▍     | 4810/10696 [1:06:18<48:42,  2.01it/s] 45%|████▍     | 4811/10696 [1:06:19<48:42,  2.01it/s] 45%|████▍     | 4812/10696 [1:06:19<48:42,  2.01it/s] 45%|████▍     | 4813/10696 [1:06:20<48:41,  2.01it/s] 45%|████▌     | 4814/10696 [1:06:20<48:39,  2.02it/s] 45%|████▌     | 4815/10696 [1:06:21<48:41,  2.01it/s] 45%|████▌     | 4816/10696 [1:06:21<48:36,  2.02it/s] 45%|████▌     | 4817/10696 [1:06:22<48:37,  2.02it/s] 45%|████▌     | 4818/10696 [1:06:22<48:32,  2.02it/s] 45%|████▌     | 4819/10696 [1:06:23<48:34,  2.02it/s] 45%|████▌     | 4820/10696 [1:06:23<48:32,  2.02it/s] 45%|████▌     | 4821/10696 [1:06:24<48:32,  2.02it/s] 45%|████▌     | 4822/10696 [1:06:24<48:30,  2.02it/s] 45%|████▌     | 4823/10696 [1:06:25<48:32,  2.02it/s] 45%|████▌     | 4824/10696 [1:06:25<48:34,  2.01it/s] 45%|████▌     | 4825/10696 [1:06:26<48:32,  2.02it/s]                                                      {'loss': 3.7891, 'grad_norm': 0.2199602723121643, 'learning_rate': 0.000669236912982712, 'epoch': 0.45}
- 45%|████▌     | 4825/10696 [1:06:26<48:32,  2.02it/s] 45%|████▌     | 4826/10696 [1:06:26<48:38,  2.01it/s] 45%|████▌     | 4827/10696 [1:06:27<48:33,  2.01it/s] 45%|████▌     | 4828/10696 [1:06:27<48:35,  2.01it/s] 45%|████▌     | 4829/10696 [1:06:28<48:37,  2.01it/s] 45%|████▌     | 4830/10696 [1:06:28<48:33,  2.01it/s] 45%|████▌     | 4831/10696 [1:06:29<48:34,  2.01it/s] 45%|████▌     | 4832/10696 [1:06:29<48:29,  2.02it/s] 45%|████▌     | 4833/10696 [1:06:30<48:29,  2.01it/s] 45%|████▌     | 4834/10696 [1:06:30<48:28,  2.02it/s] 45%|████▌     | 4835/10696 [1:06:31<48:29,  2.01it/s] 45%|████▌     | 4836/10696 [1:06:31<48:24,  2.02it/s] 45%|████▌     | 4837/10696 [1:06:32<48:26,  2.02it/s] 45%|████▌     | 4838/10696 [1:06:32<48:22,  2.02it/s] 45%|████▌     | 4839/10696 [1:06:33<48:24,  2.02it/s] 45%|████▌     | 4840/10696 [1:06:33<48:24,  2.02it/s] 45%|████▌     | 4841/10696 [1:06:34<48:23,  2.02it/s] 45%|████▌     | 4842/10696 [1:06:34<48:25,  2.01it/s] 45%|████▌     | 4843/10696 [1:06:35<48:25,  2.01it/s] 45%|████▌     | 4844/10696 [1:06:35<48:26,  2.01it/s] 45%|████▌     | 4845/10696 [1:06:36<48:23,  2.02it/s] 45%|████▌     | 4846/10696 [1:06:36<48:22,  2.02it/s] 45%|████▌     | 4847/10696 [1:06:37<48:20,  2.02it/s] 45%|████▌     | 4848/10696 [1:06:37<48:19,  2.02it/s] 45%|████▌     | 4849/10696 [1:06:38<48:20,  2.02it/s] 45%|████▌     | 4850/10696 [1:06:38<48:21,  2.02it/s]{'loss': 3.7888, 'grad_norm': 0.21513058245182037, 'learning_rate': 0.0006653925489513752, 'epoch': 0.45}
-                                                       45%|████▌     | 4850/10696 [1:06:38<48:21,  2.02it/s] 45%|████▌     | 4851/10696 [1:06:39<48:31,  2.01it/s] 45%|████▌     | 4852/10696 [1:06:39<48:27,  2.01it/s] 45%|████▌     | 4853/10696 [1:06:40<48:25,  2.01it/s] 45%|████▌     | 4854/10696 [1:06:40<48:20,  2.01it/s] 45%|████▌     | 4855/10696 [1:06:41<48:19,  2.01it/s] 45%|████▌     | 4856/10696 [1:06:41<48:17,  2.02it/s] 45%|████▌     | 4857/10696 [1:06:42<48:16,  2.02it/s] 45%|████▌     | 4858/10696 [1:06:42<48:14,  2.02it/s] 45%|████▌     | 4859/10696 [1:06:43<48:15,  2.02it/s] 45%|████▌     | 4860/10696 [1:06:43<48:18,  2.01it/s] 45%|████▌     | 4861/10696 [1:06:44<48:16,  2.01it/s] 45%|████▌     | 4862/10696 [1:06:44<48:15,  2.02it/s] 45%|████▌     | 4863/10696 [1:06:45<48:15,  2.01it/s] 45%|████▌     | 4864/10696 [1:06:45<48:10,  2.02it/s] 45%|████▌     | 4865/10696 [1:06:46<48:15,  2.01it/s] 45%|████▌     | 4866/10696 [1:06:46<48:12,  2.02it/s] 46%|████▌     | 4867/10696 [1:06:47<48:14,  2.01it/s] 46%|████▌     | 4868/10696 [1:06:47<48:11,  2.02it/s] 46%|████▌     | 4869/10696 [1:06:48<48:13,  2.01it/s] 46%|████▌     | 4870/10696 [1:06:48<48:14,  2.01it/s] 46%|████▌     | 4871/10696 [1:06:49<48:11,  2.01it/s] 46%|████▌     | 4872/10696 [1:06:49<48:09,  2.02it/s] 46%|████▌     | 4873/10696 [1:06:50<48:10,  2.01it/s] 46%|████▌     | 4874/10696 [1:06:50<48:07,  2.02it/s] 46%|████▌     | 4875/10696 [1:06:51<48:08,  2.02it/s]{'loss': 3.784, 'grad_norm': 0.2107124924659729, 'learning_rate': 0.0006615371745585162, 'epoch': 0.46}
-                                                       46%|████▌     | 4875/10696 [1:06:51<48:08,  2.02it/s] 46%|████▌     | 4876/10696 [1:06:51<48:11,  2.01it/s] 46%|████▌     | 4877/10696 [1:06:52<48:09,  2.01it/s] 46%|████▌     | 4878/10696 [1:06:52<48:09,  2.01it/s] 46%|████▌     | 4879/10696 [1:06:53<48:05,  2.02it/s] 46%|████▌     | 4880/10696 [1:06:53<48:08,  2.01it/s] 46%|████▌     | 4881/10696 [1:06:54<48:03,  2.02it/s] 46%|████▌     | 4882/10696 [1:06:54<48:05,  2.01it/s] 46%|████▌     | 4883/10696 [1:06:55<48:05,  2.01it/s] 46%|████▌     | 4884/10696 [1:06:55<48:03,  2.02it/s] 46%|████▌     | 4885/10696 [1:06:56<48:01,  2.02it/s] 46%|████▌     | 4886/10696 [1:06:56<47:58,  2.02it/s] 46%|████▌     | 4887/10696 [1:06:57<47:59,  2.02it/s] 46%|████▌     | 4888/10696 [1:06:57<47:57,  2.02it/s] 46%|████▌     | 4889/10696 [1:06:58<48:00,  2.02it/s] 46%|████▌     | 4890/10696 [1:06:58<48:01,  2.01it/s] 46%|████▌     | 4891/10696 [1:06:59<48:00,  2.01it/s] 46%|████▌     | 4892/10696 [1:06:59<48:01,  2.01it/s] 46%|████▌     | 4893/10696 [1:07:00<47:58,  2.02it/s] 46%|████▌     | 4894/10696 [1:07:00<47:56,  2.02it/s] 46%|████▌     | 4895/10696 [1:07:01<47:54,  2.02it/s] 46%|████▌     | 4896/10696 [1:07:01<47:53,  2.02it/s] 46%|████▌     | 4897/10696 [1:07:02<47:51,  2.02it/s] 46%|████▌     | 4898/10696 [1:07:02<47:56,  2.02it/s] 46%|████▌     | 4899/10696 [1:07:03<47:53,  2.02it/s] 46%|████▌     | 4900/10696 [1:07:03<47:56,  2.01it/s]{'loss': 3.7837, 'grad_norm': 0.21509666740894318, 'learning_rate': 0.0006576710464605939, 'epoch': 0.46}                                                      
- 46%|████▌     | 4900/10696 [1:07:03<47:56,  2.01it/s] 46%|████▌     | 4901/10696 [1:07:04<47:56,  2.01it/s] 46%|████▌     | 4902/10696 [1:07:04<47:56,  2.01it/s] 46%|████▌     | 4903/10696 [1:07:05<47:55,  2.01it/s] 46%|████▌     | 4904/10696 [1:07:05<47:52,  2.02it/s] 46%|████▌     | 4905/10696 [1:07:06<47:56,  2.01it/s] 46%|████▌     | 4906/10696 [1:07:06<47:53,  2.02it/s] 46%|████▌     | 4907/10696 [1:07:07<47:53,  2.01it/s] 46%|████▌     | 4908/10696 [1:07:07<47:48,  2.02it/s] 46%|████▌     | 4909/10696 [1:07:08<47:50,  2.02it/s] 46%|████▌     | 4910/10696 [1:07:08<47:51,  2.02it/s] 46%|████▌     | 4911/10696 [1:07:09<47:49,  2.02it/s] 46%|████▌     | 4912/10696 [1:07:09<47:53,  2.01it/s] 46%|████▌     | 4913/10696 [1:07:10<47:49,  2.02it/s] 46%|████▌     | 4914/10696 [1:07:10<47:50,  2.01it/s] 46%|████▌     | 4915/10696 [1:07:11<47:49,  2.01it/s] 46%|████▌     | 4916/10696 [1:07:11<47:48,  2.01it/s] 46%|████▌     | 4917/10696 [1:07:12<47:48,  2.01it/s] 46%|████▌     | 4918/10696 [1:07:12<47:44,  2.02it/s] 46%|████▌     | 4919/10696 [1:07:13<47:45,  2.02it/s] 46%|████▌     | 4920/10696 [1:07:13<47:45,  2.02it/s] 46%|████▌     | 4921/10696 [1:07:14<47:45,  2.02it/s] 46%|████▌     | 4922/10696 [1:07:14<47:42,  2.02it/s] 46%|████▌     | 4923/10696 [1:07:15<47:44,  2.02it/s] 46%|████▌     | 4924/10696 [1:07:15<47:42,  2.02it/s] 46%|████▌     | 4925/10696 [1:07:16<47:44,  2.01it/s]                                                      {'loss': 3.7866, 'grad_norm': 0.21996110677719116, 'learning_rate': 0.0006537944220299522, 'epoch': 0.46}
- 46%|████▌     | 4925/10696 [1:07:16<47:44,  2.01it/s] 46%|████▌     | 4926/10696 [1:07:16<47:48,  2.01it/s] 46%|████▌     | 4927/10696 [1:07:17<47:44,  2.01it/s] 46%|████▌     | 4928/10696 [1:07:17<47:46,  2.01it/s] 46%|████▌     | 4929/10696 [1:07:18<47:44,  2.01it/s] 46%|████▌     | 4930/10696 [1:07:18<47:46,  2.01it/s] 46%|████▌     | 4931/10696 [1:07:19<47:43,  2.01it/s] 46%|████▌     | 4932/10696 [1:07:19<47:42,  2.01it/s] 46%|████▌     | 4933/10696 [1:07:20<47:41,  2.01it/s] 46%|████▌     | 4934/10696 [1:07:20<47:40,  2.01it/s] 46%|████▌     | 4935/10696 [1:07:21<47:39,  2.01it/s] 46%|████▌     | 4936/10696 [1:07:21<47:35,  2.02it/s] 46%|████▌     | 4937/10696 [1:07:21<47:35,  2.02it/s] 46%|████▌     | 4938/10696 [1:07:22<47:32,  2.02it/s] 46%|████▌     | 4939/10696 [1:07:22<47:34,  2.02it/s] 46%|████▌     | 4940/10696 [1:07:23<47:32,  2.02it/s] 46%|████▌     | 4941/10696 [1:07:23<47:34,  2.02it/s] 46%|████▌     | 4942/10696 [1:07:24<47:34,  2.02it/s] 46%|████▌     | 4943/10696 [1:07:24<47:34,  2.02it/s] 46%|████▌     | 4944/10696 [1:07:25<47:33,  2.02it/s] 46%|████▌     | 4945/10696 [1:07:25<47:32,  2.02it/s] 46%|████▌     | 4946/10696 [1:07:26<47:30,  2.02it/s] 46%|████▋     | 4947/10696 [1:07:26<47:30,  2.02it/s] 46%|████▋     | 4948/10696 [1:07:27<47:31,  2.02it/s] 46%|████▋     | 4949/10696 [1:07:27<47:29,  2.02it/s] 46%|████▋     | 4950/10696 [1:07:28<47:30,  2.02it/s]{'loss': 3.7825, 'grad_norm': 0.2319992035627365, 'learning_rate': 0.0006499075593376877, 'epoch': 0.46}
-                                                       46%|████▋     | 4950/10696 [1:07:28<47:30,  2.02it/s] 46%|████▋     | 4951/10696 [1:07:28<47:30,  2.02it/s] 46%|████▋     | 4952/10696 [1:07:29<47:33,  2.01it/s] 46%|████▋     | 4953/10696 [1:07:29<47:33,  2.01it/s] 46%|████▋     | 4954/10696 [1:07:30<47:31,  2.01it/s] 46%|████▋     | 4955/10696 [1:07:30<47:31,  2.01it/s] 46%|████▋     | 4956/10696 [1:07:31<47:29,  2.01it/s] 46%|████▋     | 4957/10696 [1:07:31<47:26,  2.02it/s] 46%|████▋     | 4958/10696 [1:07:32<47:26,  2.02it/s] 46%|████▋     | 4959/10696 [1:07:32<47:28,  2.01it/s] 46%|████▋     | 4960/10696 [1:07:33<47:27,  2.01it/s] 46%|████▋     | 4961/10696 [1:07:33<47:27,  2.01it/s] 46%|████▋     | 4962/10696 [1:07:34<47:29,  2.01it/s] 46%|████▋     | 4963/10696 [1:07:34<47:24,  2.02it/s] 46%|████▋     | 4964/10696 [1:07:35<47:27,  2.01it/s] 46%|████▋     | 4965/10696 [1:07:35<47:23,  2.02it/s] 46%|████▋     | 4966/10696 [1:07:36<47:23,  2.01it/s] 46%|████▋     | 4967/10696 [1:07:36<47:21,  2.02it/s] 46%|████▋     | 4968/10696 [1:07:37<47:21,  2.02it/s] 46%|████▋     | 4969/10696 [1:07:37<47:21,  2.02it/s] 46%|████▋     | 4970/10696 [1:07:38<47:20,  2.02it/s] 46%|████▋     | 4971/10696 [1:07:38<47:20,  2.02it/s] 46%|████▋     | 4972/10696 [1:07:39<47:20,  2.02it/s] 46%|████▋     | 4973/10696 [1:07:39<47:21,  2.01it/s] 47%|████▋     | 4974/10696 [1:07:40<47:17,  2.02it/s] 47%|████▋     | 4975/10696 [1:07:40<47:18,  2.02it/s]{'loss': 3.7735, 'grad_norm': 0.21171511709690094, 'learning_rate': 0.0006460107171364695, 'epoch': 0.47}
-                                                       47%|████▋     | 4975/10696 [1:07:40<47:18,  2.02it/s] 47%|████▋     | 4976/10696 [1:07:41<47:23,  2.01it/s] 47%|████▋     | 4977/10696 [1:07:41<47:19,  2.01it/s] 47%|████▋     | 4978/10696 [1:07:42<47:20,  2.01it/s] 47%|████▋     | 4979/10696 [1:07:42<47:14,  2.02it/s] 47%|████▋     | 4980/10696 [1:07:43<47:17,  2.01it/s] 47%|████▋     | 4981/10696 [1:07:43<47:14,  2.02it/s] 47%|████▋     | 4982/10696 [1:07:44<47:14,  2.02it/s] 47%|████▋     | 4983/10696 [1:07:44<47:12,  2.02it/s] 47%|████▋     | 4984/10696 [1:07:45<47:12,  2.02it/s] 47%|████▋     | 4985/10696 [1:07:45<47:12,  2.02it/s] 47%|████▋     | 4986/10696 [1:07:46<47:11,  2.02it/s] 47%|████▋     | 4987/10696 [1:07:46<47:12,  2.02it/s] 47%|████▋     | 4988/10696 [1:07:47<47:11,  2.02it/s] 47%|████▋     | 4989/10696 [1:07:47<47:11,  2.02it/s] 47%|████▋     | 4990/10696 [1:07:48<47:09,  2.02it/s] 47%|████▋     | 4991/10696 [1:07:48<47:09,  2.02it/s] 47%|████▋     | 4992/10696 [1:07:49<47:07,  2.02it/s] 47%|████▋     | 4993/10696 [1:07:49<47:10,  2.02it/s] 47%|████▋     | 4994/10696 [1:07:50<47:06,  2.02it/s] 47%|████▋     | 4995/10696 [1:07:50<47:09,  2.02it/s] 47%|████▋     | 4996/10696 [1:07:51<47:06,  2.02it/s] 47%|████▋     | 4997/10696 [1:07:51<47:07,  2.02it/s] 47%|████▋     | 4998/10696 [1:07:52<47:02,  2.02it/s] 47%|████▋     | 4999/10696 [1:07:52<47:04,  2.02it/s] 47%|████▋     | 5000/10696 [1:07:53<47:11,  2.01it/s]{'loss': 3.7789, 'grad_norm': 0.2250993400812149, 'learning_rate': 0.0006421041548433124, 'epoch': 0.47}
-                                                       47%|████▋     | 5000/10696 [1:07:53<47:11,  2.01it/s] 47%|████▋     | 5001/10696 [1:07:53<47:11,  2.01it/s] 47%|████▋     | 5002/10696 [1:07:54<47:09,  2.01it/s] 47%|████▋     | 5003/10696 [1:07:54<47:08,  2.01it/s] 47%|████▋     | 5004/10696 [1:07:55<47:06,  2.01it/s] 47%|████▋     | 5005/10696 [1:07:55<47:07,  2.01it/s] 47%|████▋     | 5006/10696 [1:07:56<47:03,  2.02it/s] 47%|████▋     | 5007/10696 [1:07:56<47:00,  2.02it/s] 47%|████▋     | 5008/10696 [1:07:57<46:59,  2.02it/s] 47%|████▋     | 5009/10696 [1:07:57<46:59,  2.02it/s] 47%|████▋     | 5010/10696 [1:07:58<47:06,  2.01it/s] 47%|████▋     | 5011/10696 [1:07:58<47:02,  2.01it/s] 47%|████▋     | 5012/10696 [1:07:59<47:02,  2.01it/s] 47%|████▋     | 5013/10696 [1:07:59<46:57,  2.02it/s] 47%|████▋     | 5014/10696 [1:08:00<47:00,  2.01it/s] 47%|████▋     | 5015/10696 [1:08:00<46:58,  2.02it/s] 47%|████▋     | 5016/10696 [1:08:01<46:59,  2.01it/s] 47%|████▋     | 5017/10696 [1:08:01<46:58,  2.02it/s] 47%|████▋     | 5018/10696 [1:08:02<46:55,  2.02it/s] 47%|████▋     | 5019/10696 [1:08:02<46:55,  2.02it/s] 47%|████▋     | 5020/10696 [1:08:03<46:54,  2.02it/s] 47%|████▋     | 5021/10696 [1:08:03<46:56,  2.01it/s] 47%|████▋     | 5022/10696 [1:08:04<46:55,  2.02it/s] 47%|████▋     | 5023/10696 [1:08:04<46:56,  2.01it/s] 47%|████▋     | 5024/10696 [1:08:05<46:55,  2.01it/s] 47%|████▋     | 5025/10696 [1:08:05<46:54,  2.02it/s]                                                      {'loss': 3.7818, 'grad_norm': 0.20157113671302795, 'learning_rate': 0.0006381881325223096, 'epoch': 0.47}
- 47%|████▋     | 5025/10696 [1:08:05<46:54,  2.02it/s] 47%|████▋     | 5026/10696 [1:08:06<46:57,  2.01it/s] 47%|████▋     | 5027/10696 [1:08:06<46:59,  2.01it/s] 47%|████▋     | 5028/10696 [1:08:07<46:59,  2.01it/s] 47%|████▋     | 5029/10696 [1:08:07<46:56,  2.01it/s] 47%|████▋     | 5030/10696 [1:08:08<46:56,  2.01it/s] 47%|████▋     | 5031/10696 [1:08:08<46:54,  2.01it/s] 47%|████▋     | 5032/10696 [1:08:09<46:53,  2.01it/s] 47%|████▋     | 5033/10696 [1:08:09<46:54,  2.01it/s] 47%|████▋     | 5034/10696 [1:08:10<46:49,  2.02it/s] 47%|████▋     | 5035/10696 [1:08:10<46:49,  2.01it/s] 47%|████▋     | 5036/10696 [1:08:11<46:49,  2.01it/s] 47%|████▋     | 5037/10696 [1:08:11<46:48,  2.02it/s] 47%|████▋     | 5038/10696 [1:08:12<46:49,  2.01it/s] 47%|████▋     | 5039/10696 [1:08:12<46:46,  2.02it/s] 47%|████▋     | 5040/10696 [1:08:13<46:48,  2.01it/s] 47%|████▋     | 5041/10696 [1:08:13<46:44,  2.02it/s] 47%|████▋     | 5042/10696 [1:08:14<46:46,  2.01it/s] 47%|████▋     | 5043/10696 [1:08:14<46:47,  2.01it/s] 47%|████▋     | 5044/10696 [1:08:15<46:47,  2.01it/s] 47%|████▋     | 5045/10696 [1:08:15<46:48,  2.01it/s] 47%|████▋     | 5046/10696 [1:08:16<46:45,  2.01it/s] 47%|████▋     | 5047/10696 [1:08:16<46:45,  2.01it/s] 47%|████▋     | 5048/10696 [1:08:17<46:45,  2.01it/s] 47%|████▋     | 5049/10696 [1:08:17<46:44,  2.01it/s] 47%|████▋     | 5050/10696 [1:08:18<46:44,  2.01it/s]                                                      {'loss': 3.7828, 'grad_norm': 0.23523028194904327, 'learning_rate': 0.0006342629108673174, 'epoch': 0.47}
- 47%|████▋     | 5050/10696 [1:08:18<46:44,  2.01it/s] 47%|████▋     | 5051/10696 [1:08:18<46:46,  2.01it/s] 47%|████▋     | 5052/10696 [1:08:19<46:47,  2.01it/s] 47%|████▋     | 5053/10696 [1:08:19<46:46,  2.01it/s] 47%|████▋     | 5054/10696 [1:08:20<46:44,  2.01it/s] 47%|████▋     | 5055/10696 [1:08:20<46:44,  2.01it/s] 47%|████▋     | 5056/10696 [1:08:21<46:40,  2.01it/s] 47%|████▋     | 5057/10696 [1:08:21<46:38,  2.01it/s] 47%|████▋     | 5058/10696 [1:08:22<46:40,  2.01it/s] 47%|████▋     | 5059/10696 [1:08:22<46:38,  2.01it/s] 47%|████▋     | 5060/10696 [1:08:23<46:37,  2.01it/s] 47%|████▋     | 5061/10696 [1:08:23<46:36,  2.02it/s] 47%|████▋     | 5062/10696 [1:08:24<46:37,  2.01it/s] 47%|████▋     | 5063/10696 [1:08:24<46:34,  2.02it/s] 47%|████▋     | 5064/10696 [1:08:25<46:32,  2.02it/s] 47%|████▋     | 5065/10696 [1:08:25<46:32,  2.02it/s] 47%|████▋     | 5066/10696 [1:08:26<46:32,  2.02it/s] 47%|████▋     | 5067/10696 [1:08:26<46:31,  2.02it/s] 47%|████▋     | 5068/10696 [1:08:27<46:31,  2.02it/s] 47%|████▋     | 5069/10696 [1:08:27<46:29,  2.02it/s] 47%|████▋     | 5070/10696 [1:08:28<46:29,  2.02it/s] 47%|████▋     | 5071/10696 [1:08:28<46:29,  2.02it/s] 47%|████▋     | 5072/10696 [1:08:28<46:27,  2.02it/s] 47%|████▋     | 5073/10696 [1:08:29<46:26,  2.02it/s] 47%|████▋     | 5074/10696 [1:08:29<46:23,  2.02it/s] 47%|████▋     | 5075/10696 [1:08:30<46:26,  2.02it/s]{'loss': 3.775, 'grad_norm': 0.2151375412940979, 'learning_rate': 0.0006303287511846028, 'epoch': 0.47}
-                                                       47%|████▋     | 5075/10696 [1:08:30<46:26,  2.02it/s] 47%|████▋     | 5076/10696 [1:08:30<46:31,  2.01it/s] 47%|████▋     | 5077/10696 [1:08:31<46:30,  2.01it/s] 47%|████▋     | 5078/10696 [1:08:31<46:29,  2.01it/s] 47%|████▋     | 5079/10696 [1:08:32<46:29,  2.01it/s] 47%|████▋     | 5080/10696 [1:08:32<46:28,  2.01it/s] 48%|████▊     | 5081/10696 [1:08:33<46:26,  2.02it/s] 48%|████▊     | 5082/10696 [1:08:33<46:27,  2.01it/s] 48%|████▊     | 5083/10696 [1:08:34<46:26,  2.01it/s] 48%|████▊     | 5084/10696 [1:08:34<46:29,  2.01it/s] 48%|████▊     | 5085/10696 [1:08:35<46:23,  2.02it/s] 48%|████▊     | 5086/10696 [1:08:35<46:25,  2.01it/s] 48%|████▊     | 5087/10696 [1:08:36<46:26,  2.01it/s] 48%|████▊     | 5088/10696 [1:08:36<46:24,  2.01it/s] 48%|████▊     | 5089/10696 [1:08:37<46:25,  2.01it/s] 48%|████▊     | 5090/10696 [1:08:37<46:21,  2.02it/s] 48%|████▊     | 5091/10696 [1:08:38<46:22,  2.01it/s] 48%|████▊     | 5092/10696 [1:08:38<46:19,  2.02it/s] 48%|████▊     | 5093/10696 [1:08:39<46:22,  2.01it/s] 48%|████▊     | 5094/10696 [1:08:39<46:18,  2.02it/s] 48%|████▊     | 5095/10696 [1:08:40<46:18,  2.02it/s] 48%|████▊     | 5096/10696 [1:08:40<46:15,  2.02it/s] 48%|████▊     | 5097/10696 [1:08:41<46:17,  2.02it/s] 48%|████▊     | 5098/10696 [1:08:41<46:19,  2.01it/s] 48%|████▊     | 5099/10696 [1:08:42<46:16,  2.02it/s] 48%|████▊     | 5100/10696 [1:08:42<46:14,  2.02it/s]{'loss': 3.7746, 'grad_norm': 0.2175765335559845, 'learning_rate': 0.000626385915375446, 'epoch': 0.48}
-                                                       48%|████▊     | 5100/10696 [1:08:42<46:14,  2.02it/s] 48%|████▊     | 5101/10696 [1:08:43<46:17,  2.01it/s] 48%|████▊     | 5102/10696 [1:08:43<46:17,  2.01it/s] 48%|████▊     | 5103/10696 [1:08:44<46:15,  2.02it/s] 48%|████▊     | 5104/10696 [1:08:44<46:14,  2.02it/s] 48%|████▊     | 5105/10696 [1:08:45<46:11,  2.02it/s] 48%|████▊     | 5106/10696 [1:08:45<46:12,  2.02it/s] 48%|████▊     | 5107/10696 [1:08:46<46:10,  2.02it/s] 48%|████▊     | 5108/10696 [1:08:46<46:11,  2.02it/s] 48%|████▊     | 5109/10696 [1:08:47<46:12,  2.01it/s] 48%|████▊     | 5110/10696 [1:08:47<46:13,  2.01it/s] 48%|████▊     | 5111/10696 [1:08:48<46:15,  2.01it/s] 48%|████▊     | 5112/10696 [1:08:48<46:12,  2.01it/s] 48%|████▊     | 5113/10696 [1:08:49<46:10,  2.01it/s] 48%|████▊     | 5114/10696 [1:08:49<46:08,  2.02it/s] 48%|████▊     | 5115/10696 [1:08:50<46:07,  2.02it/s] 48%|████▊     | 5116/10696 [1:08:50<46:05,  2.02it/s] 48%|████▊     | 5117/10696 [1:08:51<46:06,  2.02it/s] 48%|████▊     | 5118/10696 [1:08:51<46:06,  2.02it/s] 48%|████▊     | 5119/10696 [1:08:52<46:06,  2.02it/s] 48%|████▊     | 5120/10696 [1:08:52<46:05,  2.02it/s] 48%|████▊     | 5121/10696 [1:08:53<46:05,  2.02it/s] 48%|████▊     | 5122/10696 [1:08:53<46:06,  2.01it/s] 48%|████▊     | 5123/10696 [1:08:54<46:03,  2.02it/s] 48%|████▊     | 5124/10696 [1:08:54<46:04,  2.02it/s] 48%|████▊     | 5125/10696 [1:08:55<46:02,  2.02it/s]{'loss': 3.7746, 'grad_norm': 0.21035093069076538, 'learning_rate': 0.0006224346659187074, 'epoch': 0.48}
-                                                       48%|████▊     | 5125/10696 [1:08:55<46:02,  2.02it/s] 48%|████▊     | 5126/10696 [1:08:55<46:11,  2.01it/s] 48%|████▊     | 5127/10696 [1:08:56<46:09,  2.01it/s] 48%|████▊     | 5128/10696 [1:08:56<46:06,  2.01it/s] 48%|████▊     | 5129/10696 [1:08:57<46:07,  2.01it/s] 48%|████▊     | 5130/10696 [1:08:57<46:02,  2.01it/s] 48%|████▊     | 5131/10696 [1:08:58<46:03,  2.01it/s] 48%|████▊     | 5132/10696 [1:08:58<46:02,  2.01it/s] 48%|████▊     | 5133/10696 [1:08:59<46:01,  2.01it/s] 48%|████▊     | 5134/10696 [1:08:59<46:01,  2.01it/s] 48%|████▊     | 5135/10696 [1:09:00<46:00,  2.01it/s] 48%|████▊     | 5136/10696 [1:09:00<46:01,  2.01it/s] 48%|████▊     | 5137/10696 [1:09:01<45:59,  2.01it/s] 48%|████▊     | 5138/10696 [1:09:01<45:57,  2.02it/s] 48%|████▊     | 5139/10696 [1:09:02<45:58,  2.01it/s] 48%|████▊     | 5140/10696 [1:09:02<45:56,  2.02it/s] 48%|████▊     | 5141/10696 [1:09:03<45:58,  2.01it/s] 48%|████▊     | 5142/10696 [1:09:03<45:55,  2.02it/s] 48%|████▊     | 5143/10696 [1:09:04<45:54,  2.02it/s] 48%|████▊     | 5144/10696 [1:09:04<45:54,  2.02it/s] 48%|████▊     | 5145/10696 [1:09:05<45:52,  2.02it/s] 48%|████▊     | 5146/10696 [1:09:05<45:49,  2.02it/s] 48%|████▊     | 5147/10696 [1:09:06<45:51,  2.02it/s] 48%|████▊     | 5148/10696 [1:09:06<45:51,  2.02it/s] 48%|████▊     | 5149/10696 [1:09:07<45:51,  2.02it/s] 48%|████▊     | 5150/10696 [1:09:07<45:52,  2.02it/s]{'loss': 3.7784, 'grad_norm': 0.2126336544752121, 'learning_rate': 0.0006184752658533522, 'epoch': 0.48}
-                                                       48%|████▊     | 5150/10696 [1:09:07<45:52,  2.02it/s] 48%|████▊     | 5151/10696 [1:09:08<45:52,  2.01it/s] 48%|████▊     | 5152/10696 [1:09:08<45:53,  2.01it/s] 48%|████▊     | 5153/10696 [1:09:09<45:51,  2.01it/s] 48%|████▊     | 5154/10696 [1:09:09<45:52,  2.01it/s] 48%|████▊     | 5155/10696 [1:09:10<45:51,  2.01it/s] 48%|████▊     | 5156/10696 [1:09:10<45:48,  2.02it/s] 48%|████▊     | 5157/10696 [1:09:11<45:51,  2.01it/s] 48%|████▊     | 5158/10696 [1:09:11<45:47,  2.02it/s] 48%|████▊     | 5159/10696 [1:09:12<45:48,  2.01it/s] 48%|████▊     | 5160/10696 [1:09:12<45:46,  2.02it/s] 48%|████▊     | 5161/10696 [1:09:13<45:46,  2.02it/s] 48%|████▊     | 5162/10696 [1:09:13<45:46,  2.02it/s] 48%|████▊     | 5163/10696 [1:09:14<45:43,  2.02it/s] 48%|████▊     | 5164/10696 [1:09:14<45:45,  2.01it/s] 48%|████▊     | 5165/10696 [1:09:15<45:42,  2.02it/s] 48%|████▊     | 5166/10696 [1:09:15<45:44,  2.01it/s] 48%|████▊     | 5167/10696 [1:09:16<45:45,  2.01it/s] 48%|████▊     | 5168/10696 [1:09:16<45:42,  2.02it/s] 48%|████▊     | 5169/10696 [1:09:17<45:44,  2.01it/s] 48%|████▊     | 5170/10696 [1:09:17<45:42,  2.02it/s] 48%|████▊     | 5171/10696 [1:09:18<45:45,  2.01it/s] 48%|████▊     | 5172/10696 [1:09:18<45:46,  2.01it/s] 48%|████▊     | 5173/10696 [1:09:19<45:41,  2.01it/s] 48%|████▊     | 5174/10696 [1:09:19<45:41,  2.01it/s] 48%|████▊     | 5175/10696 [1:09:20<45:37,  2.02it/s]{'loss': 3.7748, 'grad_norm': 0.21794524788856506, 'learning_rate': 0.0006145079787609408, 'epoch': 0.48}
-                                                       48%|████▊     | 5175/10696 [1:09:20<45:37,  2.02it/s] 48%|████▊     | 5176/10696 [1:09:20<45:40,  2.01it/s] 48%|████▊     | 5177/10696 [1:09:21<45:37,  2.02it/s] 48%|████▊     | 5178/10696 [1:09:21<45:38,  2.01it/s] 48%|████▊     | 5179/10696 [1:09:22<45:41,  2.01it/s] 48%|████▊     | 5180/10696 [1:09:22<45:40,  2.01it/s] 48%|████▊     | 5181/10696 [1:09:23<45:41,  2.01it/s] 48%|████▊     | 5182/10696 [1:09:23<45:38,  2.01it/s] 48%|████▊     | 5183/10696 [1:09:24<45:37,  2.01it/s] 48%|████▊     | 5184/10696 [1:09:24<45:34,  2.02it/s] 48%|████▊     | 5185/10696 [1:09:25<45:33,  2.02it/s] 48%|████▊     | 5186/10696 [1:09:25<45:30,  2.02it/s] 48%|████▊     | 5187/10696 [1:09:26<45:31,  2.02it/s] 49%|████▊     | 5188/10696 [1:09:26<45:31,  2.02it/s] 49%|████▊     | 5189/10696 [1:09:27<45:31,  2.02it/s] 49%|████▊     | 5190/10696 [1:09:27<45:30,  2.02it/s] 49%|████▊     | 5191/10696 [1:09:28<45:28,  2.02it/s] 49%|████▊     | 5192/10696 [1:09:28<45:29,  2.02it/s] 49%|████▊     | 5193/10696 [1:09:29<45:25,  2.02it/s] 49%|████▊     | 5194/10696 [1:09:29<45:29,  2.02it/s] 49%|████▊     | 5195/10696 [1:09:30<45:25,  2.02it/s] 49%|████▊     | 5196/10696 [1:09:30<45:28,  2.02it/s] 49%|████▊     | 5197/10696 [1:09:31<45:27,  2.02it/s] 49%|████▊     | 5198/10696 [1:09:31<45:26,  2.02it/s] 49%|████▊     | 5199/10696 [1:09:32<45:28,  2.01it/s] 49%|████▊     | 5200/10696 [1:09:32<45:26,  2.02it/s]{'loss': 3.7674, 'grad_norm': 0.21483051776885986, 'learning_rate': 0.0006105330687480818, 'epoch': 0.49}
-                                                       49%|████▊     | 5200/10696 [1:09:32<45:26,  2.02it/s] 49%|████▊     | 5201/10696 [1:09:33<45:30,  2.01it/s] 49%|████▊     | 5202/10696 [1:09:33<45:30,  2.01it/s] 49%|████▊     | 5203/10696 [1:09:34<45:30,  2.01it/s] 49%|████▊     | 5204/10696 [1:09:34<45:27,  2.01it/s] 49%|████▊     | 5205/10696 [1:09:35<45:26,  2.01it/s] 49%|████▊     | 5206/10696 [1:09:35<45:22,  2.02it/s] 49%|████▊     | 5207/10696 [1:09:35<45:23,  2.02it/s] 49%|████▊     | 5208/10696 [1:09:36<45:23,  2.02it/s] 49%|████▊     | 5209/10696 [1:09:36<45:23,  2.01it/s] 49%|████▊     | 5210/10696 [1:09:37<45:24,  2.01it/s] 49%|████▊     | 5211/10696 [1:09:37<45:22,  2.01it/s] 49%|████▊     | 5212/10696 [1:09:38<45:23,  2.01it/s] 49%|████▊     | 5213/10696 [1:09:38<45:22,  2.01it/s] 49%|████▊     | 5214/10696 [1:09:39<45:22,  2.01it/s] 49%|████▉     | 5215/10696 [1:09:39<45:22,  2.01it/s] 49%|████▉     | 5216/10696 [1:09:40<45:19,  2.01it/s] 49%|████▉     | 5217/10696 [1:09:40<45:21,  2.01it/s] 49%|████▉     | 5218/10696 [1:09:41<45:18,  2.01it/s] 49%|████▉     | 5219/10696 [1:09:41<45:21,  2.01it/s] 49%|████▉     | 5220/10696 [1:09:42<45:19,  2.01it/s] 49%|████▉     | 5221/10696 [1:09:42<45:19,  2.01it/s] 49%|████▉     | 5222/10696 [1:09:43<45:17,  2.01it/s] 49%|████▉     | 5223/10696 [1:09:43<45:15,  2.02it/s] 49%|████▉     | 5224/10696 [1:09:44<45:11,  2.02it/s] 49%|████▉     | 5225/10696 [1:09:44<45:11,  2.02it/s]{'loss': 3.7704, 'grad_norm': 0.19827376306056976, 'learning_rate': 0.0006065508004288494, 'epoch': 0.49}
-                                                       49%|████▉     | 5225/10696 [1:09:44<45:11,  2.02it/s] 49%|████▉     | 5226/10696 [1:09:45<45:15,  2.01it/s] 49%|████▉     | 5227/10696 [1:09:45<45:13,  2.02it/s] 49%|████▉     | 5228/10696 [1:09:46<45:13,  2.02it/s] 49%|████▉     | 5229/10696 [1:09:46<45:10,  2.02it/s] 49%|████▉     | 5230/10696 [1:09:47<45:12,  2.01it/s] 49%|████▉     | 5231/10696 [1:09:47<45:11,  2.02it/s] 49%|████▉     | 5232/10696 [1:09:48<45:13,  2.01it/s] 49%|████▉     | 5233/10696 [1:09:48<45:11,  2.01it/s] 49%|████▉     | 5234/10696 [1:09:49<45:09,  2.02it/s] 49%|████▉     | 5235/10696 [1:09:49<45:08,  2.02it/s] 49%|████▉     | 5236/10696 [1:09:50<45:08,  2.02it/s] 49%|████▉     | 5237/10696 [1:09:50<45:11,  2.01it/s] 49%|████▉     | 5238/10696 [1:09:51<45:09,  2.01it/s] 49%|████▉     | 5239/10696 [1:09:51<45:09,  2.01it/s] 49%|████▉     | 5240/10696 [1:09:52<45:11,  2.01it/s] 49%|████▉     | 5241/10696 [1:09:52<45:11,  2.01it/s] 49%|████▉     | 5242/10696 [1:09:53<45:10,  2.01it/s] 49%|████▉     | 5243/10696 [1:09:53<45:09,  2.01it/s] 49%|████▉     | 5244/10696 [1:09:54<45:05,  2.01it/s] 49%|████▉     | 5245/10696 [1:09:54<45:06,  2.01it/s] 49%|████▉     | 5246/10696 [1:09:55<45:03,  2.02it/s] 49%|████▉     | 5247/10696 [1:09:55<45:03,  2.02it/s] 49%|████▉     | 5248/10696 [1:09:56<45:01,  2.02it/s] 49%|████▉     | 5249/10696 [1:09:56<45:02,  2.02it/s] 49%|████▉     | 5250/10696 [1:09:57<44:59,  2.02it/s]{'loss': 3.7685, 'grad_norm': 0.21743915975093842, 'learning_rate': 0.0006025614389071686, 'epoch': 0.49}
-                                                       49%|████▉     | 5250/10696 [1:09:57<44:59,  2.02it/s] 49%|████▉     | 5251/10696 [1:09:57<45:04,  2.01it/s] 49%|████▉     | 5252/10696 [1:09:58<45:02,  2.01it/s] 49%|████▉     | 5253/10696 [1:09:58<45:01,  2.01it/s] 49%|████▉     | 5254/10696 [1:09:59<45:02,  2.01it/s] 49%|████▉     | 5255/10696 [1:09:59<44:58,  2.02it/s] 49%|████▉     | 5256/10696 [1:10:00<44:59,  2.02it/s] 49%|████▉     | 5257/10696 [1:10:00<44:57,  2.02it/s] 49%|████▉     | 5258/10696 [1:10:01<44:58,  2.02it/s] 49%|████▉     | 5259/10696 [1:10:01<44:58,  2.02it/s] 49%|████▉     | 5260/10696 [1:10:02<44:59,  2.01it/s] 49%|████▉     | 5261/10696 [1:10:02<45:00,  2.01it/s] 49%|██���█▉     | 5262/10696 [1:10:03<44:58,  2.01it/s] 49%|████▉     | 5263/10696 [1:10:03<44:55,  2.02it/s] 49%|████▉     | 5264/10696 [1:10:04<44:55,  2.02it/s] 49%|████▉     | 5265/10696 [1:10:04<44:51,  2.02it/s] 49%|████▉     | 5266/10696 [1:10:05<44:54,  2.02it/s] 49%|████▉     | 5267/10696 [1:10:05<44:52,  2.02it/s] 49%|████▉     | 5268/10696 [1:10:06<44:56,  2.01it/s] 49%|████▉     | 5269/10696 [1:10:06<44:53,  2.02it/s] 49%|████▉     | 5270/10696 [1:10:07<44:55,  2.01it/s] 49%|████▉     | 5271/10696 [1:10:07<44:53,  2.01it/s] 49%|████▉     | 5272/10696 [1:10:08<44:51,  2.01it/s] 49%|████▉     | 5273/10696 [1:10:08<44:51,  2.01it/s] 49%|████▉     | 5274/10696 [1:10:09<44:49,  2.02it/s] 49%|████▉     | 5275/10696 [1:10:09<44:47,  2.02it/s]{'loss': 3.77, 'grad_norm': 0.20956309139728546, 'learning_rate': 0.0005985652497591663, 'epoch': 0.49}
-                                                       49%|████▉     | 5275/10696 [1:10:09<44:47,  2.02it/s] 49%|████▉     | 5276/10696 [1:10:10<44:51,  2.01it/s] 49%|████▉     | 5277/10696 [1:10:10<44:47,  2.02it/s] 49%|████▉     | 5278/10696 [1:10:11<44:53,  2.01it/s] 49%|████▉     | 5279/10696 [1:10:11<44:47,  2.02it/s] 49%|████▉     | 5280/10696 [1:10:12<44:47,  2.02it/s] 49%|████▉     | 5281/10696 [1:10:12<44:44,  2.02it/s] 49%|████▉     | 5282/10696 [1:10:13<44:46,  2.02it/s] 49%|████▉     | 5283/10696 [1:10:13<44:48,  2.01it/s] 49%|████▉     | 5284/10696 [1:10:14<44:45,  2.02it/s] 49%|████▉     | 5285/10696 [1:10:14<44:45,  2.01it/s] 49%|████▉     | 5286/10696 [1:10:15<44:44,  2.02it/s] 49%|████▉     | 5287/10696 [1:10:15<44:45,  2.01it/s] 49%|████▉     | 5288/10696 [1:10:16<44:43,  2.02it/s] 49%|████▉     | 5289/10696 [1:10:16<44:42,  2.02it/s] 49%|████▉     | 5290/10696 [1:10:17<44:45,  2.01it/s] 49%|████▉     | 5291/10696 [1:10:17<44:41,  2.02it/s] 49%|████▉     | 5292/10696 [1:10:18<44:43,  2.01it/s] 49%|████▉     | 5293/10696 [1:10:18<44:42,  2.01it/s] 49%|████▉     | 5294/10696 [1:10:19<44:43,  2.01it/s] 50%|████▉     | 5295/10696 [1:10:19<44:40,  2.01it/s] 50%|████▉     | 5296/10696 [1:10:20<44:39,  2.02it/s] 50%|████▉     | 5297/10696 [1:10:20<44:40,  2.01it/s] 50%|████▉     | 5298/10696 [1:10:21<44:38,  2.02it/s] 50%|████▉     | 5299/10696 [1:10:21<44:40,  2.01it/s] 50%|████▉     | 5300/10696 [1:10:22<44:41,  2.01it/s]{'loss': 3.7611, 'grad_norm': 0.23501995205879211, 'learning_rate': 0.0005945624990154922, 'epoch': 0.5}
-                                                       50%|████▉     | 5300/10696 [1:10:22<44:41,  2.01it/s] 50%|████▉     | 5301/10696 [1:10:22<44:43,  2.01it/s] 50%|████▉     | 5302/10696 [1:10:23<44:44,  2.01it/s] 50%|████▉     | 5303/10696 [1:10:23<44:40,  2.01it/s] 50%|████▉     | 5304/10696 [1:10:24<44:39,  2.01it/s] 50%|████▉     | 5305/10696 [1:10:24<44:39,  2.01it/s] 50%|████▉     | 5306/10696 [1:10:25<44:36,  2.01it/s] 50%|████▉     | 5307/10696 [1:10:25<44:36,  2.01it/s] 50%|████▉     | 5308/10696 [1:10:26<44:35,  2.01it/s] 50%|████▉     | 5309/10696 [1:10:26<44:35,  2.01it/s] 50%|████▉     | 5310/10696 [1:10:27<44:35,  2.01it/s] 50%|████▉     | 5311/10696 [1:10:27<44:34,  2.01it/s] 50%|████▉     | 5312/10696 [1:10:28<44:34,  2.01it/s] 50%|████▉     | 5313/10696 [1:10:28<44:32,  2.01it/s] 50%|████▉     | 5314/10696 [1:10:29<44:33,  2.01it/s] 50%|████▉     | 5315/10696 [1:10:29<44:29,  2.02it/s] 50%|████▉     | 5316/10696 [1:10:30<44:32,  2.01it/s] 50%|████▉     | 5317/10696 [1:10:30<44:30,  2.01it/s] 50%|████▉     | 5318/10696 [1:10:31<44:29,  2.01it/s] 50%|████▉     | 5319/10696 [1:10:31<44:30,  2.01it/s] 50%|████▉     | 5320/10696 [1:10:32<44:27,  2.02it/s] 50%|████▉     | 5321/10696 [1:10:32<44:28,  2.01it/s] 50%|████▉     | 5322/10696 [1:10:33<44:25,  2.02it/s] 50%|████▉     | 5323/10696 [1:10:33<44:27,  2.01it/s] 50%|████▉     | 5324/10696 [1:10:34<44:23,  2.02it/s] 50%|████▉     | 5325/10696 [1:10:34<44:23,  2.02it/s]{'loss': 3.7573, 'grad_norm': 0.21879275143146515, 'learning_rate': 0.0005905534531436083, 'epoch': 0.5}                                                      
- 50%|████▉     | 5325/10696 [1:10:34<44:23,  2.02it/s] 50%|████▉     | 5326/10696 [1:10:35<44:29,  2.01it/s] 50%|████▉     | 5327/10696 [1:10:35<44:24,  2.02it/s] 50%|████▉     | 5328/10696 [1:10:36<44:27,  2.01it/s] 50%|████▉     | 5329/10696 [1:10:36<44:24,  2.01it/s] 50%|████▉     | 5330/10696 [1:10:37<44:25,  2.01it/s] 50%|████▉     | 5331/10696 [1:10:37<44:23,  2.01it/s] 50%|████▉     | 5332/10696 [1:10:38<44:22,  2.01it/s] 50%|████▉     | 5333/10696 [1:10:38<44:22,  2.01it/s] 50%|████▉     | 5334/10696 [1:10:39<44:19,  2.02it/s] 50%|████▉     | 5335/10696 [1:10:39<44:21,  2.01it/s] 50%|████▉     | 5336/10696 [1:10:40<44:20,  2.01it/s] 50%|████▉     | 5337/10696 [1:10:40<44:21,  2.01it/s] 50%|████▉     | 5338/10696 [1:10:41<44:19,  2.01it/s] 50%|████▉     | 5339/10696 [1:10:41<44:19,  2.01it/s] 50%|████▉     | 5340/10696 [1:10:42<44:20,  2.01it/s] 50%|████▉     | 5341/10696 [1:10:42<44:17,  2.02it/s] 50%|████▉     | 5342/10696 [1:10:43<44:15,  2.02it/s] 50%|████▉     | 5343/10696 [1:10:43<44:15,  2.02it/s] 50%|████▉     | 5344/10696 [1:10:44<44:15,  2.02it/s] 50%|████▉     | 5345/10696 [1:10:44<44:12,  2.02it/s] 50%|████▉     | 5346/10696 [1:10:44<44:16,  2.01it/s] 50%|████▉     | 5347/10696 [1:10:45<51:27,  1.73it/s] 50%|█████     | 5348/10696 [1:10:46<49:17,  1.81it/s] 50%|█████     | 5349/10696 [1:10:46<47:49,  1.86it/s] 50%|█████     | 5350/10696 [1:10:47<46:44,  1.91it/s]{'loss': 3.7587, 'grad_norm': 0.2047397792339325, 'learning_rate': 0.0005865383790300503, 'epoch': 0.5}
-                                                       50%|█████     | 5350/10696 [1:10:47<46:44,  1.91it/s] 50%|█████     | 5351/10696 [1:10:47<46:02,  1.93it/s] 50%|█████     | 5352/10696 [1:10:48<45:29,  1.96it/s] 50%|█████     | 5353/10696 [1:10:48<45:05,  1.98it/s] 50%|█████     | 5354/10696 [1:10:49<44:51,  1.98it/s] 50%|█████     | 5355/10696 [1:10:49<44:37,  2.00it/s] 50%|█████     | 5356/10696 [1:10:50<44:29,  2.00it/s] 50%|█████     | 5357/10696 [1:10:50<44:21,  2.01it/s] 50%|█████     | 5358/10696 [1:10:51<44:18,  2.01it/s] 50%|█████     | 5359/10696 [1:10:51<44:13,  2.01it/s] 50%|█████     | 5360/10696 [1:10:52<44:13,  2.01it/s] 50%|█████     | 5361/10696 [1:10:52<44:10,  2.01it/s] 50%|█████     | 5362/10696 [1:10:53<44:08,  2.01it/s] 50%|█████     | 5363/10696 [1:10:53<44:08,  2.01it/s] 50%|█████     | 5364/10696 [1:10:54<44:07,  2.01it/s] 50%|█████     | 5365/10696 [1:10:54<44:05,  2.02it/s] 50%|█████     | 5366/10696 [1:10:55<44:03,  2.02it/s] 50%|█████     | 5367/10696 [1:10:55<44:05,  2.01it/s] 50%|█████     | 5368/10696 [1:10:56<44:01,  2.02it/s] 50%|█████     | 5369/10696 [1:10:56<44:06,  2.01it/s] 50%|█████     | 5370/10696 [1:10:57<44:07,  2.01it/s] 50%|█████     | 5371/10696 [1:10:57<51:28,  1.72it/s] 50%|█████     | 5372/10696 [1:10:58<49:11,  1.80it/s] 50%|█████     | 5373/10696 [1:10:58<47:40,  1.86it/s] 50%|█████     | 5374/10696 [1:10:59<46:28,  1.91it/s] 50%|█████     | 5375/10696 [1:10:59<45:43,  1.94it/s]                                                      {'loss': 3.7531, 'grad_norm': 0.2090434730052948, 'learning_rate': 0.0005825175439626606, 'epoch': 0.5}
- 50%|█████     | 5375/10696 [1:10:59<45:43,  1.94it/s] 50%|█████     | 5376/10696 [1:11:00<45:12,  1.96it/s] 50%|█████     | 5377/10696 [1:11:00<44:51,  1.98it/s] 50%|█████     | 5378/10696 [1:11:01<44:32,  1.99it/s] 50%|█████     | 5379/10696 [1:11:01<44:21,  2.00it/s] 50%|█████     | 5380/10696 [1:11:02<44:16,  2.00it/s] 50%|█████     | 5381/10696 [1:11:02<44:12,  2.00it/s] 50%|█████     | 5382/10696 [1:11:03<44:08,  2.01it/s] 50%|█████     | 5383/10696 [1:11:03<44:03,  2.01it/s] 50%|█████     | 5384/10696 [1:11:04<44:00,  2.01it/s] 50%|█████     | 5385/10696 [1:11:04<43:54,  2.02it/s] 50%|█████     | 5386/10696 [1:11:05<43:54,  2.02it/s] 50%|█████     | 5387/10696 [1:11:05<43:52,  2.02it/s] 50%|█████     | 5388/10696 [1:11:06<43:54,  2.02it/s] 50%|█████     | 5389/10696 [1:11:06<43:53,  2.02it/s] 50%|█████     | 5390/10696 [1:11:07<43:52,  2.02it/s] 50%|█████     | 5391/10696 [1:11:07<43:53,  2.01it/s] 50%|█████     | 5392/10696 [1:11:08<43:50,  2.02it/s] 50%|█████     | 5393/10696 [1:11:08<43:51,  2.01it/s] 50%|█████     | 5394/10696 [1:11:09<43:48,  2.02it/s] 50%|█████     | 5395/10696 [1:11:09<43:50,  2.02it/s] 50%|█████     | 5396/10696 [1:11:10<43:45,  2.02it/s] 50%|█████     | 5397/10696 [1:11:10<43:47,  2.02it/s] 50%|█████     | 5398/10696 [1:11:11<43:50,  2.01it/s] 50%|█████     | 5399/10696 [1:11:11<43:49,  2.01it/s] 50%|█████     | 5400/10696 [1:11:12<43:49,  2.01it/s]                                                      {'loss': 3.7565, 'grad_norm': 0.1983434110879898, 'learning_rate': 0.0005784912156127941, 'epoch': 0.5}
- 50%|█████     | 5400/10696 [1:11:12<43:49,  2.01it/s] 50%|█████     | 5401/10696 [1:11:12<43:51,  2.01it/s] 51%|█████     | 5402/10696 [1:11:13<43:48,  2.01it/s] 51%|█████     | 5403/10696 [1:11:13<43:48,  2.01it/s] 51%|█████     | 5404/10696 [1:11:14<43:44,  2.02it/s] 51%|█████     | 5405/10696 [1:11:14<43:45,  2.02it/s] 51%|█████     | 5406/10696 [1:11:15<43:43,  2.02it/s] 51%|█████     | 5407/10696 [1:11:15<43:43,  2.02it/s] 51%|█████     | 5408/10696 [1:11:16<43:42,  2.02it/s] 51%|█████     | 5409/10696 [1:11:16<43:42,  2.02it/s] 51%|█████     | 5410/10696 [1:11:17<43:42,  2.02it/s] 51%|█████     | 5411/10696 [1:11:17<43:43,  2.01it/s] 51%|█████     | 5412/10696 [1:11:18<43:41,  2.02it/s] 51%|█████     | 5413/10696 [1:11:18<43:42,  2.01it/s] 51%|█████     | 5414/10696 [1:11:19<43:40,  2.02it/s] 51%|█████     | 5415/10696 [1:11:19<43:39,  2.02it/s] 51%|█████     | 5416/10696 [1:11:20<43:37,  2.02it/s] 51%|█████     | 5417/10696 [1:11:20<43:36,  2.02it/s] 51%|█████     | 5418/10696 [1:11:21<43:36,  2.02it/s] 51%|█████     | 5419/10696 [1:11:21<43:35,  2.02it/s] 51%|█████     | 5420/10696 [1:11:22<43:34,  2.02it/s] 51%|█████     | 5421/10696 [1:11:22<43:36,  2.02it/s] 51%|█████     | 5422/10696 [1:11:23<43:37,  2.02it/s] 51%|█████     | 5423/10696 [1:11:23<43:34,  2.02it/s] 51%|█████     | 5424/10696 [1:11:24<43:33,  2.02it/s] 51%|█████     | 5425/10696 [1:11:24<43:29,  2.02it/s]{'loss': 3.7628, 'grad_norm': 0.20909835398197174, 'learning_rate': 0.0005744596620174997, 'epoch': 0.51}
-                                                       51%|█████     | 5425/10696 [1:11:24<43:29,  2.02it/s] 51%|█████     | 5426/10696 [1:11:25<43:37,  2.01it/s] 51%|█████     | 5427/10696 [1:11:25<43:34,  2.02it/s] 51%|█████     | 5428/10696 [1:11:26<43:33,  2.02it/s] 51%|█████     | 5429/10696 [1:11:26<43:33,  2.02it/s] 51%|█████     | 5430/10696 [1:11:27<43:30,  2.02it/s] 51%|█████     | 5431/10696 [1:11:27<43:31,  2.02it/s] 51%|█████     | 5432/10696 [1:11:28<43:28,  2.02it/s] 51%|█████     | 5433/10696 [1:11:28<43:32,  2.01it/s] 51%|█████     | 5434/10696 [1:11:29<43:26,  2.02it/s] 51%|█████     | 5435/10696 [1:11:29<43:28,  2.02it/s] 51%|█████     | 5436/10696 [1:11:30<43:25,  2.02it/s] 51%|█████     | 5437/10696 [1:11:30<43:26,  2.02it/s] 51%|█████     | 5438/10696 [1:11:31<43:24,  2.02it/s] 51%|█████     | 5439/10696 [1:11:31<43:25,  2.02it/s] 51%|█████     | 5440/10696 [1:11:32<43:24,  2.02it/s] 51%|█████     | 5441/10696 [1:11:32<43:23,  2.02it/s] 51%|█████     | 5442/10696 [1:11:33<43:25,  2.02it/s] 51%|█████     | 5443/10696 [1:11:33<43:23,  2.02it/s] 51%|█████     | 5444/10696 [1:11:34<43:24,  2.02it/s] 51%|█████     | 5445/10696 [1:11:34<43:21,  2.02it/s] 51%|█████     | 5446/10696 [1:11:35<43:24,  2.02it/s] 51%|█████     | 5447/10696 [1:11:35<43:19,  2.02it/s] 51%|█████     | 5448/10696 [1:11:36<43:22,  2.02it/s] 51%|█████     | 5449/10696 [1:11:36<43:23,  2.02it/s] 51%|█████     | 5450/10696 [1:11:37<43:20,  2.02it/s]{'loss': 3.7533, 'grad_norm': 0.21371927857398987, 'learning_rate': 0.0005704231515616768, 'epoch': 0.51}
-                                                       51%|█████     | 5450/10696 [1:11:37<43:20,  2.02it/s] 51%|█████     | 5451/10696 [1:11:37<43:25,  2.01it/s] 51%|█████     | 5452/10696 [1:11:38<43:22,  2.02it/s] 51%|█████     | 5453/10696 [1:11:38<43:22,  2.01it/s] 51%|█████     | 5454/10696 [1:11:39<43:19,  2.02it/s] 51%|█████     | 5455/10696 [1:11:39<43:17,  2.02it/s] 51%|█████     | 5456/10696 [1:11:40<43:16,  2.02it/s] 51%|█████     | 5457/10696 [1:11:40<43:17,  2.02it/s] 51%|█████     | 5458/10696 [1:11:41<43:13,  2.02it/s] 51%|█████     | 5459/10696 [1:11:41<43:16,  2.02it/s] 51%|█████     | 5460/10696 [1:11:42<43:15,  2.02it/s] 51%|█████     | 5461/10696 [1:11:42<43:14,  2.02it/s] 51%|█████     | 5462/10696 [1:11:43<43:14,  2.02it/s] 51%|█████     | 5463/10696 [1:11:43<43:13,  2.02it/s] 51%|█████     | 5464/10696 [1:11:44<43:15,  2.02it/s] 51%|█████     | 5465/10696 [1:11:44<43:11,  2.02it/s] 51%|█████     | 5466/10696 [1:11:45<43:12,  2.02it/s] 51%|█████     | 5467/10696 [1:11:45<43:11,  2.02it/s] 51%|█████     | 5468/10696 [1:11:46<43:13,  2.02it/s] 51%|█████     | 5469/10696 [1:11:46<43:13,  2.02it/s] 51%|█████     | 5470/10696 [1:11:47<43:14,  2.01it/s] 51%|█████     | 5471/10696 [1:11:47<43:12,  2.02it/s] 51%|█████     | 5472/10696 [1:11:48<43:11,  2.02it/s] 51%|█████     | 5473/10696 [1:11:48<43:10,  2.02it/s] 51%|█████     | 5474/10696 [1:11:49<43:09,  2.02it/s] 51%|█████     | 5475/10696 [1:11:49<43:08,  2.02it/s]{'loss': 3.755, 'grad_norm': 0.22085385024547577, 'learning_rate': 0.0005663819529602082, 'epoch': 0.51}
-                                                       51%|█████     | 5475/10696 [1:11:49<43:08,  2.02it/s] 51%|█████     | 5476/10696 [1:11:50<43:12,  2.01it/s] 51%|█████     | 5477/10696 [1:11:50<43:12,  2.01it/s] 51%|█████     | 5478/10696 [1:11:51<43:10,  2.01it/s] 51%|█████     | 5479/10696 [1:11:51<43:10,  2.01it/s] 51%|█████     | 5480/10696 [1:11:52<43:07,  2.02it/s] 51%|█████     | 5481/10696 [1:11:52<43:09,  2.01it/s] 51%|█████▏    | 5482/10696 [1:11:53<43:09,  2.01it/s] 51%|█████▏    | 5483/10696 [1:11:53<43:08,  2.01it/s] 51%|█████▏    | 5484/10696 [1:11:54<43:06,  2.02it/s] 51%|█████▏    | 5485/10696 [1:11:54<43:04,  2.02it/s] 51%|█████▏    | 5486/10696 [1:11:54<43:05,  2.02it/s] 51%|█████▏    | 5487/10696 [1:11:55<43:03,  2.02it/s] 51%|█████▏    | 5488/10696 [1:11:55<43:06,  2.01it/s] 51%|█████▏    | 5489/10696 [1:11:56<43:02,  2.02it/s] 51%|█████▏    | 5490/10696 [1:11:56<43:03,  2.02it/s] 51%|█████▏    | 5491/10696 [1:11:57<42:58,  2.02it/s] 51%|█████▏    | 5492/10696 [1:11:57<42:59,  2.02it/s] 51%|█████▏    | 5493/10696 [1:11:58<42:57,  2.02it/s] 51%|█████▏    | 5494/10696 [1:11:58<42:59,  2.02it/s] 51%|█████▏    | 5495/10696 [1:11:59<42:56,  2.02it/s] 51%|█████▏    | 5496/10696 [1:11:59<43:00,  2.02it/s] 51%|█████▏    | 5497/10696 [1:12:00<42:57,  2.02it/s] 51%|█████▏    | 5498/10696 [1:12:00<42:56,  2.02it/s] 51%|█████▏    | 5499/10696 [1:12:01<42:55,  2.02it/s] 51%|█████▏    | 5500/10696 [1:12:01<42:55,  2.02it/s]{'loss': 3.7524, 'grad_norm': 0.22442051768302917, 'learning_rate': 0.0005623363352400714, 'epoch': 0.51}
-                                                       51%|█████▏    | 5500/10696 [1:12:01<42:55,  2.02it/s] 51%|█████▏    | 5501/10696 [1:12:02<42:57,  2.02it/s] 51%|█████▏    | 5502/10696 [1:12:02<43:00,  2.01it/s] 51%|█████▏    | 5503/10696 [1:12:03<42:57,  2.01it/s] 51%|█████▏    | 5504/10696 [1:12:03<42:55,  2.02it/s] 51%|█████▏    | 5505/10696 [1:12:04<42:55,  2.02it/s] 51%|█████▏    | 5506/10696 [1:12:04<42:55,  2.02it/s] 51%|█████▏    | 5507/10696 [1:12:05<42:55,  2.01it/s] 51%|█████▏    | 5508/10696 [1:12:05<42:54,  2.02it/s] 52%|█████▏    | 5509/10696 [1:12:06<42:54,  2.02it/s] 52%|█████▏    | 5510/10696 [1:12:06<42:55,  2.01it/s] 52%|█████▏    | 5511/10696 [1:12:07<42:54,  2.01it/s] 52%|█████▏    | 5512/10696 [1:12:07<42:54,  2.01it/s] 52%|█████▏    | 5513/10696 [1:12:08<42:52,  2.01it/s] 52%|█████▏    | 5514/10696 [1:12:08<42:49,  2.02it/s] 52%|█████▏    | 5515/10696 [1:12:09<42:49,  2.02it/s] 52%|█████▏    | 5516/10696 [1:12:09<42:49,  2.02it/s] 52%|█████▏    | 5517/10696 [1:12:10<42:50,  2.01it/s] 52%|█████▏    | 5518/10696 [1:12:10<42:46,  2.02it/s] 52%|█████▏    | 5519/10696 [1:12:11<42:49,  2.01it/s] 52%|█████▏    | 5520/10696 [1:12:11<42:46,  2.02it/s] 52%|█████▏    | 5521/10696 [1:12:12<42:48,  2.01it/s] 52%|█████▏    | 5522/10696 [1:12:12<42:46,  2.02it/s] 52%|█████▏    | 5523/10696 [1:12:13<42:46,  2.02it/s] 52%|█████▏    | 5524/10696 [1:12:13<42:43,  2.02it/s] 52%|█████▏    | 5525/10696 [1:12:14<42:41,  2.02it/s]{'loss': 3.746, 'grad_norm': 0.21789433062076569, 'learning_rate': 0.0005582865677224297, 'epoch': 0.52}
-                                                       52%|█████▏    | 5525/10696 [1:12:14<42:41,  2.02it/s] 52%|█████▏    | 5526/10696 [1:12:14<42:49,  2.01it/s] 52%|█████▏    | 5527/10696 [1:12:15<42:44,  2.02it/s] 52%|█████▏    | 5528/10696 [1:12:15<42:44,  2.01it/s] 52%|█████▏    | 5529/10696 [1:12:16<42:41,  2.02it/s] 52%|█████▏    | 5530/10696 [1:12:16<42:42,  2.02it/s] 52%|█████▏    | 5531/10696 [1:12:17<42:43,  2.02it/s] 52%|█████▏    | 5532/10696 [1:12:17<42:42,  2.02it/s] 52%|█████▏    | 5533/10696 [1:12:18<42:39,  2.02it/s] 52%|█████▏    | 5534/10696 [1:12:18<42:39,  2.02it/s] 52%|█████▏    | 5535/10696 [1:12:19<42:40,  2.02it/s] 52%|█████▏    | 5536/10696 [1:12:19<42:39,  2.02it/s] 52%|��████▏    | 5537/10696 [1:12:20<42:40,  2.01it/s] 52%|█████▏    | 5538/10696 [1:12:20<42:39,  2.02it/s] 52%|█████▏    | 5539/10696 [1:12:21<42:37,  2.02it/s] 52%|█████▏    | 5540/10696 [1:12:21<42:36,  2.02it/s] 52%|█████▏    | 5541/10696 [1:12:22<42:36,  2.02it/s] 52%|█████▏    | 5542/10696 [1:12:22<42:39,  2.01it/s] 52%|█████▏    | 5543/10696 [1:12:23<42:37,  2.02it/s] 52%|█████▏    | 5544/10696 [1:12:23<42:36,  2.02it/s] 52%|█████▏    | 5545/10696 [1:12:24<42:33,  2.02it/s] 52%|█████▏    | 5546/10696 [1:12:24<42:35,  2.02it/s] 52%|█████▏    | 5547/10696 [1:12:25<42:34,  2.02it/s] 52%|█████▏    | 5548/10696 [1:12:25<42:34,  2.02it/s] 52%|█████▏    | 5549/10696 [1:12:26<42:32,  2.02it/s] 52%|█████▏    | 5550/10696 [1:12:26<42:34,  2.01it/s]{'loss': 3.742, 'grad_norm': 0.20959243178367615, 'learning_rate': 0.0005542329200047032, 'epoch': 0.52}                                                      
- 52%|█████▏    | 5550/10696 [1:12:26<42:34,  2.01it/s] 52%|█████▏    | 5551/10696 [1:12:27<42:40,  2.01it/s] 52%|█████▏    | 5552/10696 [1:12:27<42:36,  2.01it/s] 52%|█████▏    | 5553/10696 [1:12:28<42:39,  2.01it/s] 52%|█████▏    | 5554/10696 [1:12:28<42:32,  2.01it/s] 52%|█████▏    | 5555/10696 [1:12:29<42:32,  2.01it/s] 52%|█████▏    | 5556/10696 [1:12:29<42:30,  2.01it/s] 52%|█████▏    | 5557/10696 [1:12:30<42:31,  2.01it/s] 52%|█████▏    | 5558/10696 [1:12:30<42:30,  2.01it/s] 52%|█████▏    | 5559/10696 [1:12:31<42:29,  2.02it/s] 52%|█████▏    | 5560/10696 [1:12:31<42:30,  2.01it/s] 52%|█████▏    | 5561/10696 [1:12:32<42:28,  2.02it/s] 52%|█████▏    | 5562/10696 [1:12:32<42:29,  2.01it/s] 52%|█████▏    | 5563/10696 [1:12:33<42:27,  2.01it/s] 52%|█████▏    | 5564/10696 [1:12:33<42:26,  2.01it/s] 52%|█████▏    | 5565/10696 [1:12:34<42:24,  2.02it/s] 52%|█████▏    | 5566/10696 [1:12:34<42:26,  2.01it/s] 52%|█████▏    | 5567/10696 [1:12:35<42:25,  2.01it/s] 52%|█████▏    | 5568/10696 [1:12:35<42:22,  2.02it/s] 52%|█████▏    | 5569/10696 [1:12:36<42:27,  2.01it/s] 52%|█████▏    | 5570/10696 [1:12:36<42:24,  2.01it/s] 52%|█████▏    | 5571/10696 [1:12:37<42:24,  2.01it/s] 52%|█████▏    | 5572/10696 [1:12:37<42:22,  2.02it/s] 52%|█████▏    | 5573/10696 [1:12:38<42:20,  2.02it/s] 52%|█████▏    | 5574/10696 [1:12:38<42:20,  2.02it/s] 52%|█████▏    | 5575/10696 [1:12:39<42:18,  2.02it/s]{'loss': 3.7475, 'grad_norm': 0.20938147604465485, 'learning_rate': 0.0005501756619426206, 'epoch': 0.52}
-                                                       52%|█████▏    | 5575/10696 [1:12:39<42:18,  2.02it/s] 52%|█████▏    | 5576/10696 [1:12:39<42:25,  2.01it/s] 52%|█████▏    | 5577/10696 [1:12:40<42:22,  2.01it/s] 52%|█████▏    | 5578/10696 [1:12:40<42:21,  2.01it/s] 52%|█████▏    | 5579/10696 [1:12:41<42:21,  2.01it/s] 52%|█████▏    | 5580/10696 [1:12:41<42:17,  2.02it/s] 52%|█████▏    | 5581/10696 [1:12:42<42:17,  2.02it/s] 52%|█████▏    | 5582/10696 [1:12:42<42:15,  2.02it/s] 52%|█████▏    | 5583/10696 [1:12:43<42:17,  2.02it/s] 52%|█████▏    | 5584/10696 [1:12:43<42:13,  2.02it/s] 52%|█████▏    | 5585/10696 [1:12:44<42:15,  2.02it/s] 52%|█████▏    | 5586/10696 [1:12:44<42:13,  2.02it/s] 52%|█████▏    | 5587/10696 [1:12:45<42:14,  2.02it/s] 52%|█████▏    | 5588/10696 [1:12:45<42:13,  2.02it/s] 52%|█████▏    | 5589/10696 [1:12:46<42:15,  2.01it/s] 52%|█████▏    | 5590/10696 [1:12:46<42:15,  2.01it/s] 52%|█████▏    | 5591/10696 [1:12:47<42:14,  2.01it/s] 52%|█████▏    | 5592/10696 [1:12:47<42:15,  2.01it/s] 52%|█████▏    | 5593/10696 [1:12:48<42:12,  2.01it/s] 52%|█████▏    | 5594/10696 [1:12:48<42:13,  2.01it/s] 52%|█████▏    | 5595/10696 [1:12:49<42:12,  2.01it/s] 52%|█████▏    | 5596/10696 [1:12:49<42:11,  2.01it/s] 52%|█████▏    | 5597/10696 [1:12:50<42:10,  2.01it/s] 52%|█████▏    | 5598/10696 [1:12:50<42:09,  2.02it/s] 52%|█████▏    | 5599/10696 [1:12:51<42:11,  2.01it/s] 52%|█████▏    | 5600/10696 [1:12:51<42:06,  2.02it/s]{'loss': 3.7489, 'grad_norm': 0.20849280059337616, 'learning_rate': 0.0005461150636322553, 'epoch': 0.52}
-                                                       52%|█████▏    | 5600/10696 [1:12:51<42:06,  2.02it/s] 52%|█████▏    | 5601/10696 [1:12:52<42:08,  2.01it/s] 52%|█████▏    | 5602/10696 [1:12:52<42:09,  2.01it/s] 52%|███��█▏    | 5603/10696 [1:12:53<42:07,  2.02it/s] 52%|█████▏    | 5604/10696 [1:12:53<42:06,  2.02it/s] 52%|█████▏    | 5605/10696 [1:12:54<42:04,  2.02it/s] 52%|█████▏    | 5606/10696 [1:12:54<42:05,  2.02it/s] 52%|█████▏    | 5607/10696 [1:12:55<42:04,  2.02it/s] 52%|█████▏    | 5608/10696 [1:12:55<42:04,  2.02it/s] 52%|█████▏    | 5609/10696 [1:12:56<42:03,  2.02it/s] 52%|█████▏    | 5610/10696 [1:12:56<42:03,  2.02it/s] 52%|█████▏    | 5611/10696 [1:12:57<42:04,  2.01it/s] 52%|█████▏    | 5612/10696 [1:12:57<42:02,  2.02it/s] 52%|█████▏    | 5613/10696 [1:12:58<42:02,  2.02it/s] 52%|█████▏    | 5614/10696 [1:12:58<42:00,  2.02it/s] 52%|█████▏    | 5615/10696 [1:12:59<42:01,  2.02it/s] 53%|█████▎    | 5616/10696 [1:12:59<41:59,  2.02it/s] 53%|█████▎    | 5617/10696 [1:12:59<42:01,  2.01it/s] 53%|█████▎    | 5618/10696 [1:13:00<41:59,  2.02it/s] 53%|█████▎    | 5619/10696 [1:13:00<42:01,  2.01it/s] 53%|█████▎    | 5620/10696 [1:13:01<41:58,  2.02it/s] 53%|█████▎    | 5621/10696 [1:13:01<42:00,  2.01it/s] 53%|█████▎    | 5622/10696 [1:13:02<41:59,  2.01it/s] 53%|█████▎    | 5623/10696 [1:13:02<41:58,  2.01it/s] 53%|█████▎    | 5624/10696 [1:13:03<41:58,  2.01it/s] 53%|█████▎    | 5625/10696 [1:13:03<41:55,  2.02it/s]{'loss': 3.746, 'grad_norm': 0.20339977741241455, 'learning_rate': 0.0005420513953920448, 'epoch': 0.53}
-                                                       53%|█████▎    | 5625/10696 [1:13:03<41:55,  2.02it/s] 53%|█████▎    | 5626/10696 [1:13:04<41:59,  2.01it/s] 53%|█████▎    | 5627/10696 [1:13:04<41:58,  2.01it/s] 53%|█████▎    | 5628/10696 [1:13:05<41:57,  2.01it/s] 53%|█████▎    | 5629/10696 [1:13:05<41:55,  2.01it/s] 53%|█████▎    | 5630/10696 [1:13:06<41:56,  2.01it/s] 53%|█████▎    | 5631/10696 [1:13:06<41:58,  2.01it/s] 53%|█████▎    | 5632/10696 [1:13:07<41:55,  2.01it/s] 53%|█████▎    | 5633/10696 [1:13:07<41:53,  2.01it/s] 53%|█████▎    | 5634/10696 [1:13:08<41:49,  2.02it/s] 53%|█████▎    | 5635/10696 [1:13:08<41:51,  2.02it/s] 53%|█████▎    | 5636/10696 [1:13:09<41:51,  2.01it/s] 53%|█████▎    | 5637/10696 [1:13:09<41:50,  2.01it/s] 53%|█████▎    | 5638/10696 [1:13:10<41:48,  2.02it/s] 53%|█████▎    | 5639/10696 [1:13:10<41:47,  2.02it/s] 53%|█████▎    | 5640/10696 [1:13:11<41:47,  2.02it/s] 53%|█████▎    | 5641/10696 [1:13:11<41:44,  2.02it/s] 53%|█████▎    | 5642/10696 [1:13:12<41:47,  2.02it/s] 53%|█████▎    | 5643/10696 [1:13:12<41:44,  2.02it/s] 53%|█████▎    | 5644/10696 [1:13:13<41:44,  2.02it/s] 53%|█████▎    | 5645/10696 [1:13:13<41:42,  2.02it/s] 53%|█████▎    | 5646/10696 [1:13:14<41:46,  2.02it/s] 53%|█████▎    | 5647/10696 [1:13:14<41:44,  2.02it/s] 53%|█████▎    | 5648/10696 [1:13:15<41:44,  2.02it/s] 53%|█████▎    | 5649/10696 [1:13:15<41:44,  2.01it/s] 53%|█████▎    | 5650/10696 [1:13:16<41:43,  2.02it/s]{'loss': 3.7373, 'grad_norm': 0.23417438566684723, 'learning_rate': 0.0005379849277447952, 'epoch': 0.53}                                                      
- 53%|█████▎    | 5650/10696 [1:13:16<41:43,  2.02it/s] 53%|█████▎    | 5651/10696 [1:13:16<41:48,  2.01it/s] 53%|█████▎    | 5652/10696 [1:13:17<41:45,  2.01it/s] 53%|█████▎    | 5653/10696 [1:13:17<41:43,  2.01it/s] 53%|█████▎    | 5654/10696 [1:13:18<41:41,  2.02it/s] 53%|█████▎    | 5655/10696 [1:13:18<41:40,  2.02it/s] 53%|█████▎    | 5656/10696 [1:13:19<41:40,  2.02it/s] 53%|█████▎    | 5657/10696 [1:13:19<41:40,  2.02it/s] 53%|█████▎    | 5658/10696 [1:13:20<41:39,  2.02it/s] 53%|█████▎    | 5659/10696 [1:13:20<41:40,  2.01it/s] 53%|█████▎    | 5660/10696 [1:13:21<41:42,  2.01it/s] 53%|█████▎    | 5661/10696 [1:13:21<41:37,  2.02it/s] 53%|█████▎    | 5662/10696 [1:13:22<41:39,  2.01it/s] 53%|█████▎    | 5663/10696 [1:13:22<41:37,  2.02it/s] 53%|█████▎    | 5664/10696 [1:13:23<41:37,  2.02it/s] 53%|█████▎    | 5665/10696 [1:13:23<41:35,  2.02it/s] 53%|█████▎    | 5666/10696 [1:13:24<41:33,  2.02it/s] 53%|█████▎    | 5667/10696 [1:13:24<41:36,  2.01it/s] 53%|█████▎    | 5668/10696 [1:13:25<41:33,  2.02it/s] 53%|█████▎    | 5669/10696 [1:13:25<41:33,  2.02it/s] 53%|█████▎    | 5670/10696 [1:13:26<41:30,  2.02it/s] 53%|█████▎    | 5671/10696 [1:13:26<41:33,  2.02it/s] 53%|█████▎    | 5672/10696 [1:13:27<41:31,  2.02it/s] 53%|█████▎    | 5673/10696 [1:13:27<41:33,  2.01it/s] 53%|█████▎    | 5674/10696 [1:13:28<41:29,  2.02it/s] 53%|█████▎    | 5675/10696 [1:13:28<41:32,  2.01it/s]{'loss': 3.7339, 'grad_norm': 0.20696191489696503, 'learning_rate': 0.0005339159313996717, 'epoch': 0.53}
-                                                       53%|█████▎    | 5675/10696 [1:13:28<41:32,  2.01it/s] 53%|█████▎    | 5676/10696 [1:13:29<41:33,  2.01it/s] 53%|█████▎    | 5677/10696 [1:13:29<41:34,  2.01it/s] 53%|█████▎    | 5678/10696 [1:13:30<41:31,  2.01it/s] 53%|█████▎    | 5679/10696 [1:13:30<41:31,  2.01it/s] 53%|█████▎    | 5680/10696 [1:13:31<41:30,  2.01it/s] 53%|█████▎    | 5681/10696 [1:13:31<41:29,  2.01it/s] 53%|█████▎    | 5682/10696 [1:13:32<41:27,  2.02it/s] 53%|█████▎    | 5683/10696 [1:13:32<41:29,  2.01it/s] 53%|█████▎    | 5684/10696 [1:13:33<41:26,  2.02it/s] 53%|█████▎    | 5685/10696 [1:13:33<41:28,  2.01it/s] 53%|█████▎    | 5686/10696 [1:13:34<41:26,  2.01it/s] 53%|█████▎    | 5687/10696 [1:13:34<41:26,  2.01it/s] 53%|█████▎    | 5688/10696 [1:13:35<41:25,  2.02it/s] 53%|█████▎    | 5689/10696 [1:13:35<41:23,  2.02it/s] 53%|█████▎    | 5690/10696 [1:13:36<41:23,  2.02it/s] 53%|█████▎    | 5691/10696 [1:13:36<41:20,  2.02it/s] 53%|█████▎    | 5692/10696 [1:13:37<41:22,  2.02it/s] 53%|█████▎    | 5693/10696 [1:13:37<41:20,  2.02it/s] 53%|█████▎    | 5694/10696 [1:13:38<41:21,  2.02it/s] 53%|█████▎    | 5695/10696 [1:13:38<41:22,  2.01it/s] 53%|█████▎    | 5696/10696 [1:13:39<41:19,  2.02it/s] 53%|█████▎    | 5697/10696 [1:13:39<41:23,  2.01it/s] 53%|█████▎    | 5698/10696 [1:13:40<41:19,  2.02it/s] 53%|█████▎    | 5699/10696 [1:13:40<41:21,  2.01it/s] 53%|█████▎    | 5700/10696 [1:13:41<41:21,  2.01it/s]                                                      {'loss': 3.7368, 'grad_norm': 0.21931882202625275, 'learning_rate': 0.0005298446772341785, 'epoch': 0.53}
- 53%|█████▎    | 5700/10696 [1:13:41<41:21,  2.01it/s] 53%|█████▎    | 5701/10696 [1:13:41<41:21,  2.01it/s] 53%|█████▎    | 5702/10696 [1:13:42<41:22,  2.01it/s] 53%|█████▎    | 5703/10696 [1:13:42<41:19,  2.01it/s] 53%|█████▎    | 5704/10696 [1:13:43<41:17,  2.01it/s] 53%|█████▎    | 5705/10696 [1:13:43<41:18,  2.01it/s] 53%|█████▎    | 5706/10696 [1:13:44<41:18,  2.01it/s] 53%|█████▎    | 5707/10696 [1:13:44<41:15,  2.02it/s] 53%|█████▎    | 5708/10696 [1:13:45<41:13,  2.02it/s] 53%|█████▎    | 5709/10696 [1:13:45<41:14,  2.01it/s] 53%|█████▎    | 5710/10696 [1:13:46<41:11,  2.02it/s] 53%|█████▎    | 5711/10696 [1:13:46<41:14,  2.01it/s] 53%|█████▎    | 5712/10696 [1:13:47<41:14,  2.01it/s] 53%|█████▎    | 5713/10696 [1:13:47<41:13,  2.01it/s] 53%|█████▎    | 5714/10696 [1:13:48<41:11,  2.02it/s] 53%|█████▎    | 5715/10696 [1:13:48<41:10,  2.02it/s] 53%|█████▎    | 5716/10696 [1:13:49<41:09,  2.02it/s] 53%|█████▎    | 5717/10696 [1:13:49<41:09,  2.02it/s] 53%|█████▎    | 5718/10696 [1:13:50<41:11,  2.01it/s] 53%|█████▎    | 5719/10696 [1:13:50<41:08,  2.02it/s] 53%|█████▎    | 5720/10696 [1:13:51<41:09,  2.02it/s] 53%|█████▎    | 5721/10696 [1:13:51<41:06,  2.02it/s] 53%|█████▎    | 5722/10696 [1:13:52<41:07,  2.02it/s] 54%|█████▎    | 5723/10696 [1:13:52<41:06,  2.02it/s] 54%|█████▎    | 5724/10696 [1:13:53<41:04,  2.02it/s] 54%|█████▎    | 5725/10696 [1:13:53<41:05,  2.02it/s]{'loss': 3.7373, 'grad_norm': 0.2241683304309845, 'learning_rate': 0.0005257714362761243, 'epoch': 0.54}
-                                                       54%|█████▎    | 5725/10696 [1:13:53<41:05,  2.02it/s] 54%|█████▎    | 5726/10696 [1:13:54<41:05,  2.02it/s] 54%|█████▎    | 5727/10696 [1:13:54<41:08,  2.01it/s] 54%|█████▎    | 5728/10696 [1:13:55<41:08,  2.01it/s] 54%|█████▎    | 5729/10696 [1:13:55<41:06,  2.01it/s] 54%|█████▎    | 5730/10696 [1:13:56<41:05,  2.01it/s] 54%|█████▎    | 5731/10696 [1:13:56<41:02,  2.02it/s] 54%|█████▎    | 5732/10696 [1:13:57<41:06,  2.01it/s] 54%|█████▎    | 5733/10696 [1:13:57<41:01,  2.02it/s] 54%|█████▎    | 5734/10696 [1:13:58<41:03,  2.01it/s] 54%|█████▎    | 5735/10696 [1:13:58<41:03,  2.01it/s] 54%|█████▎    | 5736/10696 [1:13:59<41:02,  2.01it/s] 54%|█████▎    | 5737/10696 [1:13:59<41:01,  2.01it/s] 54%|█████▎    | 5738/10696 [1:14:00<40:59,  2.02it/s] 54%|█████▎    | 5739/10696 [1:14:00<41:01,  2.01it/s] 54%|█████▎    | 5740/10696 [1:14:01<41:00,  2.01it/s] 54%|█████▎    | 5741/10696 [1:14:01<41:00,  2.01it/s] 54%|█████▎    | 5742/10696 [1:14:02<40:59,  2.01it/s] 54%|█████▎    | 5743/10696 [1:14:02<40:58,  2.01it/s] 54%|█████▎    | 5744/10696 [1:14:03<40:58,  2.01it/s] 54%|█████▎    | 5745/10696 [1:14:03<40:59,  2.01it/s] 54%|█████▎    | 5746/10696 [1:14:04<41:01,  2.01it/s] 54%|█████▎    | 5747/10696 [1:14:04<40:57,  2.01it/s] 54%|█████▎    | 5748/10696 [1:14:05<41:00,  2.01it/s] 54%|█████▎    | 5749/10696 [1:14:05<40:55,  2.01it/s] 54%|█████▍    | 5750/10696 [1:14:06<40:55,  2.01it/s]                                                      {'loss': 3.7382, 'grad_norm': 0.21045862138271332, 'learning_rate': 0.0005216964796855817, 'epoch': 0.54}
- 54%|█████▍    | 5750/10696 [1:14:06<40:55,  2.01it/s] 54%|█████▍    | 5751/10696 [1:14:06<40:57,  2.01it/s] 54%|█████▍    | 5752/10696 [1:14:07<40:54,  2.01it/s] 54%|█████▍    | 5753/10696 [1:14:07<40:52,  2.02it/s] 54%|█████▍    | 5754/10696 [1:14:07<40:49,  2.02it/s] 54%|█████▍    | 5755/10696 [1:14:08<40:51,  2.02it/s] 54%|█████▍    | 5756/10696 [1:14:08<40:49,  2.02it/s] 54%|█████▍    | 5757/10696 [1:14:09<40:50,  2.02it/s] 54%|█████▍    | 5758/10696 [1:14:09<40:51,  2.01it/s] 54%|█████▍    | 5759/10696 [1:14:10<40:52,  2.01it/s] 54%|█████▍    | 5760/10696 [1:14:10<40:51,  2.01it/s] 54%|█████▍    | 5761/10696 [1:14:11<40:49,  2.02it/s] 54%|█████▍    | 5762/10696 [1:14:11<40:50,  2.01it/s] 54%|█████▍    | 5763/10696 [1:14:12<40:46,  2.02it/s] 54%|█████▍    | 5764/10696 [1:14:12<40:46,  2.02it/s] 54%|█████▍    | 5765/10696 [1:14:13<40:44,  2.02it/s] 54%|█████▍    | 5766/10696 [1:14:13<40:46,  2.02it/s] 54%|█████▍    | 5767/10696 [1:14:14<40:44,  2.02it/s] 54%|█████▍    | 5768/10696 [1:14:14<40:46,  2.01it/s] 54%|█████▍    | 5769/10696 [1:14:15<40:45,  2.01it/s] 54%|█████▍    | 5770/10696 [1:14:15<40:45,  2.01it/s] 54%|█████▍    | 5771/10696 [1:14:16<40:45,  2.01it/s] 54%|█████▍    | 5772/10696 [1:14:16<40:44,  2.01it/s] 54%|█████▍    | 5773/10696 [1:14:17<40:44,  2.01it/s] 54%|█████▍    | 5774/10696 [1:14:17<40:44,  2.01it/s] 54%|█████▍    | 5775/10696 [1:14:18<40:44,  2.01it/s]{'loss': 3.7362, 'grad_norm': 0.21309588849544525, 'learning_rate': 0.0005176200787368343, 'epoch': 0.54}
-                                                       54%|█████▍    | 5775/10696 [1:14:18<40:44,  2.01it/s] 54%|█████▍    | 5776/10696 [1:14:18<40:48,  2.01it/s] 54%|█████▍    | 5777/10696 [1:14:19<40:44,  2.01it/s] 54%|█████▍    | 5778/10696 [1:14:19<40:45,  2.01it/s] 54%|█████▍    | 5779/10696 [1:14:20<40:43,  2.01it/s] 54%|█████▍    | 5780/10696 [1:14:20<40:41,  2.01it/s] 54%|█████▍    | 5781/10696 [1:14:21<40:40,  2.01it/s] 54%|█████▍    | 5782/10696 [1:14:21<40:38,  2.02it/s] 54%|█████▍    | 5783/10696 [1:14:22<40:37,  2.02it/s] 54%|█████▍    | 5784/10696 [1:14:22<40:35,  2.02it/s] 54%|█████▍    | 5785/10696 [1:14:23<40:38,  2.01it/s] 54%|█████▍    | 5786/10696 [1:14:23<40:39,  2.01it/s] 54%|█████▍    | 5787/10696 [1:14:24<40:36,  2.01it/s] 54%|█████▍    | 5788/10696 [1:14:24<40:35,  2.01it/s] 54%|█████▍    | 5789/10696 [1:14:25<40:34,  2.02it/s] 54%|█████▍    | 5790/10696 [1:14:25<40:35,  2.01it/s] 54%|█████▍    | 5791/10696 [1:14:26<40:31,  2.02it/s] 54%|█████▍    | 5792/10696 [1:14:26<40:33,  2.01it/s] 54%|█████▍    | 5793/10696 [1:14:27<40:31,  2.02it/s] 54%|█████▍    | 5794/10696 [1:14:27<40:31,  2.02it/s] 54%|█████▍    | 5795/10696 [1:14:28<40:28,  2.02it/s] 54%|█████▍    | 5796/10696 [1:14:28<40:31,  2.02it/s] 54%|█████▍    | 5797/10696 [1:14:29<40:27,  2.02it/s] 54%|█████▍    | 5798/10696 [1:14:29<40:29,  2.02it/s] 54%|█████▍    | 5799/10696 [1:14:30<40:25,  2.02it/s] 54%|█████▍    | 5800/10696 [1:14:30<40:27,  2.02it/s]{'loss': 3.7306, 'grad_norm': 0.2067779004573822, 'learning_rate': 0.0005135425048003183, 'epoch': 0.54}                                                      
- 54%|█████▍    | 5800/10696 [1:14:30<40:27,  2.02it/s] 54%|█████▍    | 5801/10696 [1:14:31<40:32,  2.01it/s] 54%|█████▍    | 5802/10696 [1:14:31<40:29,  2.01it/s] 54%|█████▍    | 5803/10696 [1:14:32<40:30,  2.01it/s] 54%|█████▍    | 5804/10696 [1:14:32<40:26,  2.02it/s] 54%|█████▍    | 5805/10696 [1:14:33<40:27,  2.01it/s] 54%|█████▍    | 5806/10696 [1:14:33<40:28,  2.01it/s] 54%|█████▍    | 5807/10696 [1:14:34<40:26,  2.01it/s] 54%|█████▍    | 5808/10696 [1:14:34<40:24,  2.02it/s] 54%|█████▍    | 5809/10696 [1:14:35<40:25,  2.01it/s] 54%|█████▍    | 5810/10696 [1:14:35<40:25,  2.01it/s] 54%|█████▍    | 5811/10696 [1:14:36<40:26,  2.01it/s] 54%|█████▍    | 5812/10696 [1:14:36<40:24,  2.01it/s] 54%|█████▍    | 5813/10696 [1:14:37<40:24,  2.01it/s] 54%|█████▍    | 5814/10696 [1:14:37<40:22,  2.01it/s] 54%|█████▍    | 5815/10696 [1:14:38<40:23,  2.01it/s] 54%|█████▍    | 5816/10696 [1:14:38<40:24,  2.01it/s] 54%|█████▍    | 5817/10696 [1:14:39<40:20,  2.02it/s] 54%|█████▍    | 5818/10696 [1:14:39<40:20,  2.02it/s] 54%|█████▍    | 5819/10696 [1:14:40<40:19,  2.02it/s] 54%|█████▍    | 5820/10696 [1:14:40<40:19,  2.02it/s] 54%|█████▍    | 5821/10696 [1:14:41<40:18,  2.02it/s] 54%|█████▍    | 5822/10696 [1:14:41<40:17,  2.02it/s] 54%|█████▍    | 5823/10696 [1:14:42<40:16,  2.02it/s] 54%|█████▍    | 5824/10696 [1:14:42<40:15,  2.02it/s] 54%|█████▍    | 5825/10696 [1:14:43<40:16,  2.02it/s]{'loss': 3.742, 'grad_norm': 0.21587657928466797, 'learning_rate': 0.000509464029324557, 'epoch': 0.54}
-                                                       54%|█████▍    | 5825/10696 [1:14:43<40:16,  2.02it/s] 54%|█████▍    | 5826/10696 [1:14:43<40:22,  2.01it/s] 54%|█████▍    | 5827/10696 [1:14:44<40:18,  2.01it/s] 54%|█████▍    | 5828/10696 [1:14:44<40:19,  2.01it/s] 54%|█████▍    | 5829/10696 [1:14:45<40:16,  2.01it/s] 55%|█████▍    | 5830/10696 [1:14:45<40:15,  2.01it/s] 55%|█████▍    | 5831/10696 [1:14:46<40:13,  2.02it/s] 55%|█████▍    | 5832/10696 [1:14:46<40:10,  2.02it/s] 55%|█████▍    | 5833/10696 [1:14:47<40:11,  2.02it/s] 55%|█████▍    | 5834/10696 [1:14:47<40:10,  2.02it/s] 55%|█████▍    | 5835/10696 [1:14:48<40:11,  2.02it/s] 55%|█████▍    | 5836/10696 [1:14:48<40:09,  2.02it/s] 55%|█████▍    | 5837/10696 [1:14:49<40:09,  2.02it/s] 55%|█████▍    | 5838/10696 [1:14:49<40:12,  2.01it/s] 55%|█████▍    | 5839/10696 [1:14:50<40:09,  2.02it/s] 55%|█████▍    | 5840/10696 [1:14:50<40:09,  2.02it/s] 55%|█████▍    | 5841/10696 [1:14:51<40:06,  2.02it/s] 55%|█████▍    | 5842/10696 [1:14:51<40:07,  2.02it/s] 55%|█████▍    | 5843/10696 [1:14:52<40:05,  2.02it/s] 55%|█████▍    | 5844/10696 [1:14:52<40:07,  2.02it/s] 55%|█████▍    | 5845/10696 [1:14:53<40:06,  2.02it/s] 55%|█████▍    | 5846/10696 [1:14:53<40:06,  2.02it/s] 55%|█████▍    | 5847/10696 [1:14:54<40:06,  2.02it/s] 55%|█████▍    | 5848/10696 [1:14:54<40:03,  2.02it/s] 55%|█████▍    | 5849/10696 [1:14:55<40:07,  2.01it/s] 55%|█████▍    | 5850/10696 [1:14:55<40:03,  2.02it/s]{'loss': 3.7254, 'grad_norm': 0.22544875741004944, 'learning_rate': 0.00050538492381809, 'epoch': 0.55}
-                                                       55%|█████▍    | 5850/10696 [1:14:55<40:03,  2.02it/s] 55%|█████▍    | 5851/10696 [1:14:56<40:08,  2.01it/s] 55%|█████▍    | 5852/10696 [1:14:56<40:05,  2.01it/s] 55%|█████▍    | 5853/10696 [1:14:57<40:03,  2.02it/s] 55%|█████▍    | 5854/10696 [1:14:57<40:02,  2.02it/s] 55%|█████▍    | 5855/10696 [1:14:58<40:00,  2.02it/s] 55%|█████▍    | 5856/10696 [1:14:58<40:03,  2.01it/s] 55%|█████▍    | 5857/10696 [1:14:59<40:01,  2.02it/s] 55%|█████▍    | 5858/10696 [1:14:59<40:02,  2.01it/s] 55%|█████▍    | 5859/10696 [1:15:00<39:59,  2.02it/s] 55%|█████▍    | 5860/10696 [1:15:00<39:57,  2.02it/s] 55%|█████▍    | 5861/10696 [1:15:01<39:57,  2.02it/s] 55%|█████▍    | 5862/10696 [1:15:01<39:56,  2.02it/s] 55%|█████▍    | 5863/10696 [1:15:02<39:57,  2.02it/s] 55%|█████▍    | 5864/10696 [1:15:02<39:56,  2.02it/s] 55%|█████▍    | 5865/10696 [1:15:03<39:57,  2.01it/s] 55%|█████▍    | 5866/10696 [1:15:03<39:59,  2.01it/s] 55%|█████▍    | 5867/10696 [1:15:04<39:57,  2.01it/s] 55%|█████▍    | 5868/10696 [1:15:04<39:55,  2.02it/s] 55%|█████▍    | 5869/10696 [1:15:05<39:54,  2.02it/s] 55%|█████▍    | 5870/10696 [1:15:05<39:54,  2.02it/s] 55%|█████▍    | 5871/10696 [1:15:06<39:51,  2.02it/s] 55%|█████▍    | 5872/10696 [1:15:06<39:53,  2.02it/s] 55%|█████▍    | 5873/10696 [1:15:07<39:50,  2.02it/s] 55%|█████▍    | 5874/10696 [1:15:07<39:50,  2.02it/s] 55%|█████▍    | 5875/10696 [1:15:08<39:48,  2.02it/s]{'loss': 3.7262, 'grad_norm': 0.2060302048921585, 'learning_rate': 0.000501305459831399, 'epoch': 0.55}
-                                                       55%|█████▍    | 5875/10696 [1:15:08<39:48,  2.02it/s] 55%|█████▍    | 5876/10696 [1:15:08<39:58,  2.01it/s] 55%|█████▍    | 5877/10696 [1:15:09<39:57,  2.01it/s] 55%|█████▍    | 5878/10696 [1:15:09<39:53,  2.01it/s] 55%|█████▍    | 5879/10696 [1:15:10<39:52,  2.01it/s] 55%|█████▍    | 5880/10696 [1:15:10<39:48,  2.02it/s] 55%|█████▍    | 5881/10696 [1:15:11<39:50,  2.01it/s] 55%|█████▍    | 5882/10696 [1:15:11<39:47,  2.02it/s] 55%|█████▌    | 5883/10696 [1:15:12<39:47,  2.02it/s] 55%|█████▌    | 5884/10696 [1:15:12<39:47,  2.02it/s] 55%|█████▌    | 5885/10696 [1:15:13<39:47,  2.02it/s] 55%|█████▌    | 5886/10696 [1:15:13<39:49,  2.01it/s] 55%|█████▌    | 5887/10696 [1:15:13<39:47,  2.01it/s] 55%|█████▌    | 5888/10696 [1:15:14<39:46,  2.01it/s] 55%|█████▌    | 5889/10696 [1:15:14<39:43,  2.02it/s] 55%|█████▌    | 5890/10696 [1:15:15<39:44,  2.02it/s] 55%|█████▌    | 5891/10696 [1:15:15<39:42,  2.02it/s] 55%|█████▌    | 5892/10696 [1:15:16<39:42,  2.02it/s] 55%|█████▌    | 5893/10696 [1:15:16<39:41,  2.02it/s] 55%|█████▌    | 5894/10696 [1:15:17<39:41,  2.02it/s] 55%|█████▌    | 5895/10696 [1:15:17<39:41,  2.02it/s] 55%|█████▌    | 5896/10696 [1:15:18<39:41,  2.02it/s] 55%|█████▌    | 5897/10696 [1:15:18<39:42,  2.01it/s] 55%|█████▌    | 5898/10696 [1:15:19<39:39,  2.02it/s] 55%|█████▌    | 5899/10696 [1:15:19<39:39,  2.02it/s] 55%|█████▌    | 5900/10696 [1:15:20<39:36,  2.02it/s]{'loss': 3.7309, 'grad_norm': 0.21393577754497528, 'learning_rate': 0.0004972259089388298, 'epoch': 0.55}                                                      
- 55%|█████▌    | 5900/10696 [1:15:20<39:36,  2.02it/s] 55%|█████▌    | 5901/10696 [1:15:20<39:41,  2.01it/s] 55%|█████▌    | 5902/10696 [1:15:21<39:38,  2.02it/s] 55%|█████▌    | 5903/10696 [1:15:21<39:38,  2.02it/s] 55%|█████▌    | 5904/10696 [1:15:22<39:36,  2.02it/s] 55%|█████▌    | 5905/10696 [1:15:22<39:36,  2.02it/s] 55%|█████▌    | 5906/10696 [1:15:23<39:35,  2.02it/s] 55%|█████▌    | 5907/10696 [1:15:23<39:35,  2.02it/s] 55%|█████▌    | 5908/10696 [1:15:24<39:35,  2.02it/s] 55%|█████▌    | 5909/10696 [1:15:24<39:34,  2.02it/s] 55%|█████▌    | 5910/10696 [1:15:25<39:34,  2.02it/s] 55%|█████▌    | 5911/10696 [1:15:25<39:31,  2.02it/s] 55%|█████▌    | 5912/10696 [1:15:26<39:34,  2.01it/s] 55%|█████▌    | 5913/10696 [1:15:26<39:31,  2.02it/s] 55%|█████▌    | 5914/10696 [1:15:27<39:33,  2.01it/s] 55%|█████▌    | 5915/10696 [1:15:27<39:30,  2.02it/s] 55%|█████▌    | 5916/10696 [1:15:28<39:31,  2.02it/s] 55%|█████▌    | 5917/10696 [1:15:28<39:32,  2.01it/s] 55%|█████▌    | 5918/10696 [1:15:29<39:30,  2.02it/s] 55%|█████▌    | 5919/10696 [1:15:29<39:31,  2.01it/s] 55%|█████▌    | 5920/10696 [1:15:30<39:30,  2.02it/s] 55%|█████▌    | 5921/10696 [1:15:30<39:29,  2.02it/s] 55%|█████▌    | 5922/10696 [1:15:31<39:28,  2.02it/s] 55%|█████▌    | 5923/10696 [1:15:31<39:26,  2.02it/s] 55%|█████▌    | 5924/10696 [1:15:32<39:26,  2.02it/s] 55%|█████▌    | 5925/10696 [1:15:32<39:26,  2.02it/s]{'loss': 3.7279, 'grad_norm': 0.234230175614357, 'learning_rate': 0.0004931465427205141, 'epoch': 0.55}                                                      
- 55%|█████▌    | 5925/10696 [1:15:32<39:26,  2.02it/s] 55%|█████▌    | 5926/10696 [1:15:33<39:31,  2.01it/s] 55%|█████▌    | 5927/10696 [1:15:33<39:28,  2.01it/s] 55%|█████▌    | 5928/10696 [1:15:34<39:27,  2.01it/s] 55%|█████▌    | 5929/10696 [1:15:34<39:24,  2.02it/s] 55%|█████▌    | 5930/10696 [1:15:35<39:25,  2.01it/s] 55%|█████▌    | 5931/10696 [1:15:35<39:24,  2.02it/s] 55%|█████▌    | 5932/10696 [1:15:36<39:23,  2.02it/s] 55%|█████▌    | 5933/10696 [1:15:36<39:24,  2.01it/s] 55%|█████▌    | 5934/10696 [1:15:37<39:23,  2.01it/s] 55%|█████▌    | 5935/10696 [1:15:37<39:24,  2.01it/s] 55%|█████▌    | 5936/10696 [1:15:38<39:23,  2.01it/s] 56%|█████▌    | 5937/10696 [1:15:38<39:22,  2.01it/s] 56%|█████▌    | 5938/10696 [1:15:39<39:23,  2.01it/s] 56%|█████▌    | 5939/10696 [1:15:39<39:22,  2.01it/s] 56%|█████▌    | 5940/10696 [1:15:40<39:24,  2.01it/s] 56%|█████▌    | 5941/10696 [1:15:40<39:21,  2.01it/s] 56%|█████▌    | 5942/10696 [1:15:41<39:22,  2.01it/s] 56%|█████▌    | 5943/10696 [1:15:41<39:20,  2.01it/s] 56%|█████▌    | 5944/10696 [1:15:42<39:21,  2.01it/s] 56%|█████▌    | 5945/10696 [1:15:42<39:18,  2.01it/s] 56%|█████▌    | 5946/10696 [1:15:43<39:18,  2.01it/s] 56%|█████▌    | 5947/10696 [1:15:43<39:17,  2.01it/s] 56%|█████▌    | 5948/10696 [1:15:44<39:18,  2.01it/s] 56%|█████▌    | 5949/10696 [1:15:44<39:17,  2.01it/s] 56%|█████▌    | 5950/10696 [1:15:45<39:17,  2.01it/s]                                                      {'loss': 3.7288, 'grad_norm': 0.21949997544288635, 'learning_rate': 0.0004890676327442891, 'epoch': 0.56}
- 56%|█████▌    | 5950/10696 [1:15:45<39:17,  2.01it/s] 56%|█████▌    | 5951/10696 [1:15:45<39:19,  2.01it/s] 56%|█████▌    | 5952/10696 [1:15:46<39:16,  2.01it/s] 56%|█████▌    | 5953/10696 [1:15:46<39:14,  2.01it/s] 56%|█████▌    | 5954/10696 [1:15:47<39:15,  2.01it/s] 56%|█████▌    | 5955/10696 [1:15:47<39:17,  2.01it/s] 56%|█████▌    | 5956/10696 [1:15:48<39:13,  2.01it/s] 56%|█████▌    | 5957/10696 [1:15:48<39:14,  2.01it/s] 56%|█████▌    | 5958/10696 [1:15:49<39:12,  2.01it/s] 56%|█████▌    | 5959/10696 [1:15:49<39:13,  2.01it/s] 56%|█████▌    | 5960/10696 [1:15:50<39:11,  2.01it/s] 56%|█████▌    | 5961/10696 [1:15:50<39:10,  2.01it/s] 56%|█████▌    | 5962/10696 [1:15:51<39:07,  2.02it/s] 56%|█████▌    | 5963/10696 [1:15:51<39:07,  2.02it/s] 56%|█████▌    | 5964/10696 [1:15:52<39:09,  2.01it/s] 56%|█████▌    | 5965/10696 [1:15:52<39:06,  2.02it/s] 56%|█████▌    | 5966/10696 [1:15:53<39:06,  2.02it/s] 56%|█████▌    | 5967/10696 [1:15:53<39:05,  2.02it/s] 56%|█████▌    | 5968/10696 [1:15:54<39:06,  2.02it/s] 56%|█████▌    | 5969/10696 [1:15:54<39:04,  2.02it/s] 56%|█████▌    | 5970/10696 [1:15:55<39:05,  2.01it/s] 56%|█████▌    | 5971/10696 [1:15:55<39:05,  2.01it/s] 56%|█████▌    | 5972/10696 [1:15:56<39:01,  2.02it/s] 56%|█████▌    | 5973/10696 [1:15:56<39:04,  2.01it/s] 56%|█████▌    | 5974/10696 [1:15:57<39:00,  2.02it/s] 56%|█████▌    | 5975/10696 [1:15:57<39:01,  2.02it/s]                                                      {'loss': 3.7275, 'grad_norm': 0.21110029518604279, 'learning_rate': 0.00048498945054761957, 'epoch': 0.56}
- 56%|█████▌    | 5975/10696 [1:15:57<39:01,  2.02it/s] 56%|█████▌    | 5976/10696 [1:15:58<39:11,  2.01it/s] 56%|█████▌    | 5977/10696 [1:15:58<39:06,  2.01it/s] 56%|█████▌    | 5978/10696 [1:15:59<39:05,  2.01it/s] 56%|█████▌    | 5979/10696 [1:15:59<39:02,  2.01it/s] 56%|█████▌    | 5980/10696 [1:16:00<39:02,  2.01it/s] 56%|█████▌    | 5981/10696 [1:16:00<38:59,  2.02it/s] 56%|█████▌    | 5982/10696 [1:16:01<38:59,  2.02it/s] 56%|█████▌    | 5983/10696 [1:16:01<38:59,  2.01it/s] 56%|█████▌    | 5984/10696 [1:16:02<38:58,  2.02it/s] 56%|█████▌    | 5985/10696 [1:16:02<38:59,  2.01it/s] 56%|█████▌    | 5986/10696 [1:16:03<38:57,  2.02it/s] 56%|█████▌    | 5987/10696 [1:16:03<38:58,  2.01it/s] 56%|█████▌    | 5988/10696 [1:16:04<38:54,  2.02it/s] 56%|█████▌    | 5989/10696 [1:16:04<38:54,  2.02it/s] 56%|█████▌    | 5990/10696 [1:16:05<38:52,  2.02it/s] 56%|█████▌    | 5991/10696 [1:16:05<38:52,  2.02it/s] 56%|█████▌    | 5992/10696 [1:16:06<38:50,  2.02it/s] 56%|█████▌    | 5993/10696 [1:16:06<38:53,  2.02it/s] 56%|█████▌    | 5994/10696 [1:16:07<38:54,  2.01it/s] 56%|█████▌    | 5995/10696 [1:16:07<38:52,  2.02it/s] 56%|█████▌    | 5996/10696 [1:16:08<38:54,  2.01it/s] 56%|█████▌    | 5997/10696 [1:16:08<38:54,  2.01it/s] 56%|█████▌    | 5998/10696 [1:16:09<38:53,  2.01it/s] 56%|█████▌    | 5999/10696 [1:16:09<38:52,  2.01it/s] 56%|█████▌    | 6000/10696 [1:16:10<38:50,  2.02it/s]                                                      {'loss': 3.7307, 'grad_norm': 0.2038554698228836, 'learning_rate': 0.0004809122676195214, 'epoch': 0.56}
- 56%|█████▌    | 6000/10696 [1:16:10<38:50,  2.02it/s] 56%|█████▌    | 6001/10696 [1:16:10<38:54,  2.01it/s] 56%|█████▌    | 6002/10696 [1:16:11<38:52,  2.01it/s] 56%|█████▌    | 6003/10696 [1:16:11<38:53,  2.01it/s] 56%|█████▌    | 6004/10696 [1:16:12<38:52,  2.01it/s] 56%|█████▌    | 6005/10696 [1:16:12<38:49,  2.01it/s] 56%|█████▌    | 6006/10696 [1:16:13<38:49,  2.01it/s] 56%|█████▌    | 6007/10696 [1:16:13<38:47,  2.01it/s] 56%|█████▌    | 6008/10696 [1:16:14<38:46,  2.02it/s] 56%|█████▌    | 6009/10696 [1:16:14<38:45,  2.02it/s] 56%|█████▌    | 6010/10696 [1:16:15<38:46,  2.01it/s] 56%|█████▌    | 6011/10696 [1:16:15<38:44,  2.02it/s] 56%|█████▌    | 6012/10696 [1:16:16<38:41,  2.02it/s] 56%|█████▌    | 6013/10696 [1:16:16<38:42,  2.02it/s] 56%|█████▌    | 6014/10696 [1:16:17<38:40,  2.02it/s] 56%|█████▌    | 6015/10696 [1:16:17<38:44,  2.01it/s] 56%|█████▌    | 6016/10696 [1:16:18<38:44,  2.01it/s] 56%|█████▋    | 6017/10696 [1:16:18<38:45,  2.01it/s] 56%|█████▋    | 6018/10696 [1:16:19<38:43,  2.01it/s] 56%|█████▋    | 6019/10696 [1:16:19<38:42,  2.01it/s] 56%|█████▋    | 6020/10696 [1:16:20<38:44,  2.01it/s] 56%|█████▋    | 6021/10696 [1:16:20<38:41,  2.01it/s] 56%|█████▋    | 6022/10696 [1:16:21<38:42,  2.01it/s] 56%|█████▋    | 6023/10696 [1:16:21<38:39,  2.01it/s] 56%|█████▋    | 6024/10696 [1:16:22<38:40,  2.01it/s] 56%|█████▋    | 6025/10696 [1:16:22<38:39,  2.01it/s]                                                      {'loss': 3.7276, 'grad_norm': 0.1997026801109314, 'learning_rate': 0.00047683635538248815, 'epoch': 0.56}
- 56%|█████▋    | 6025/10696 [1:16:22<38:39,  2.01it/s] 56%|█████▋    | 6026/10696 [1:16:22<38:41,  2.01it/s] 56%|█████▋    | 6027/10696 [1:16:23<38:41,  2.01it/s] 56%|█████▋    | 6028/10696 [1:16:23<38:37,  2.01it/s] 56%|█████▋    | 6029/10696 [1:16:24<38:40,  2.01it/s] 56%|█████▋    | 6030/10696 [1:16:24<38:38,  2.01it/s] 56%|█████▋    | 6031/10696 [1:16:25<38:38,  2.01it/s] 56%|█████▋    | 6032/10696 [1:16:25<38:36,  2.01it/s] 56%|█████▋    | 6033/10696 [1:16:26<38:36,  2.01it/s] 56%|█████▋    | 6034/10696 [1:16:26<38:35,  2.01it/s] 56%|█████▋    | 6035/10696 [1:16:27<38:34,  2.01it/s] 56%|█████▋    | 6036/10696 [1:16:27<38:33,  2.01it/s] 56%|█████▋    | 6037/10696 [1:16:28<38:30,  2.02it/s] 56%|█████▋    | 6038/10696 [1:16:28<38:29,  2.02it/s] 56%|█████▋    | 6039/10696 [1:16:29<38:30,  2.02it/s] 56%|█████▋    | 6040/10696 [1:16:29<38:32,  2.01it/s] 56%|█████▋    | 6041/10696 [1:16:30<38:29,  2.02it/s] 56%|█████▋    | 6042/10696 [1:16:30<38:29,  2.01it/s] 56%|█████▋    | 6043/10696 [1:16:31<38:27,  2.02it/s] 57%|█████▋    | 6044/10696 [1:16:31<38:28,  2.02it/s] 57%|█████▋    | 6045/10696 [1:16:32<38:26,  2.02it/s] 57%|█████▋    | 6046/10696 [1:16:32<38:27,  2.02it/s] 57%|█████▋    | 6047/10696 [1:16:33<38:27,  2.01it/s] 57%|█████▋    | 6048/10696 [1:16:33<38:26,  2.02it/s] 57%|█████▋    | 6049/10696 [1:16:34<38:29,  2.01it/s] 57%|█████▋    | 6050/10696 [1:16:34<38:27,  2.01it/s]{'loss': 3.7197, 'grad_norm': 0.2074691206216812, 'learning_rate': 0.00047276198517442206, 'epoch': 0.57}                                                      
- 57%|█████▋    | 6050/10696 [1:16:34<38:27,  2.01it/s] 57%|█████▋    | 6051/10696 [1:16:35<38:29,  2.01it/s] 57%|█████▋    | 6052/10696 [1:16:35<38:27,  2.01it/s] 57%|█████▋    | 6053/10696 [1:16:36<38:24,  2.01it/s] 57%|█████▋    | 6054/10696 [1:16:36<38:25,  2.01it/s] 57%|█████▋    | 6055/10696 [1:16:37<38:23,  2.01it/s] 57%|█████▋    | 6056/10696 [1:16:37<38:24,  2.01it/s] 57%|█████▋    | 6057/10696 [1:16:38<38:23,  2.01it/s] 57%|█████▋    | 6058/10696 [1:16:38<38:22,  2.01it/s] 57%|█████▋    | 6059/10696 [1:16:39<38:23,  2.01it/s] 57%|█████▋    | 6060/10696 [1:16:39<38:20,  2.02it/s] 57%|█████▋    | 6061/10696 [1:16:40<38:19,  2.02it/s] 57%|█████▋    | 6062/10696 [1:16:40<38:15,  2.02it/s] 57%|█████▋    | 6063/10696 [1:16:41<38:18,  2.02it/s] 57%|█████▋    | 6064/10696 [1:16:41<38:18,  2.02it/s] 57%|█████▋    | 6065/10696 [1:16:42<38:18,  2.02it/s] 57%|█████▋    | 6066/10696 [1:16:42<38:21,  2.01it/s] 57%|█████▋    | 6067/10696 [1:16:43<44:40,  1.73it/s] 57%|█████▋    | 6068/10696 [1:16:44<42:42,  1.81it/s] 57%|█████▋    | 6069/10696 [1:16:44<41:24,  1.86it/s] 57%|█████▋    | 6070/10696 [1:16:45<40:25,  1.91it/s] 57%|█████▋    | 6071/10696 [1:16:45<39:45,  1.94it/s] 57%|█████▋    | 6072/10696 [1:16:46<39:15,  1.96it/s] 57%|█████▋    | 6073/10696 [1:16:46<38:56,  1.98it/s] 57%|█████▋    | 6074/10696 [1:16:47<38:49,  1.98it/s] 57%|█████▋    | 6075/10696 [1:16:47<38:36,  2.00it/s]                                                      {'loss': 3.7236, 'grad_norm': 0.21709196269512177, 'learning_rate': 0.00046868942823057036, 'epoch': 0.57}
- 57%|█████▋    | 6075/10696 [1:16:47<38:36,  2.00it/s] 57%|█████▋    | 6076/10696 [1:16:48<38:31,  2.00it/s] 57%|█████▋    | 6077/10696 [1:16:48<38:20,  2.01it/s] 57%|█████▋    | 6078/10696 [1:16:49<38:19,  2.01it/s] 57%|█████▋    | 6079/10696 [1:16:49<38:15,  2.01it/s] 57%|█████▋    | 6080/10696 [1:16:50<38:15,  2.01it/s] 57%|█████▋    | 6081/10696 [1:16:50<38:11,  2.01it/s] 57%|█████▋    | 6082/10696 [1:16:51<38:11,  2.01it/s] 57%|█████▋    | 6083/10696 [1:16:51<38:08,  2.02it/s] 57%|█████▋    | 6084/10696 [1:16:52<38:11,  2.01it/s] 57%|█████▋    | 6085/10696 [1:16:52<38:09,  2.01it/s] 57%|█████▋    | 6086/10696 [1:16:53<38:10,  2.01it/s] 57%|█████▋    | 6087/10696 [1:16:53<38:05,  2.02it/s] 57%|█████▋    | 6088/10696 [1:16:54<38:07,  2.01it/s] 57%|█████▋    | 6089/10696 [1:16:54<38:05,  2.02it/s] 57%|█████▋    | 6090/10696 [1:16:55<38:06,  2.01it/s] 57%|█████▋    | 6091/10696 [1:16:55<38:04,  2.02it/s] 57%|█████▋    | 6092/10696 [1:16:56<44:51,  1.71it/s] 57%|█████▋    | 6093/10696 [1:16:56<42:48,  1.79it/s] 57%|█████▋    | 6094/10696 [1:16:57<41:22,  1.85it/s] 57%|█████▋    | 6095/10696 [1:16:57<40:23,  1.90it/s] 57%|█████▋    | 6096/10696 [1:16:58<39:39,  1.93it/s] 57%|█████▋    | 6097/10696 [1:16:58<39:10,  1.96it/s] 57%|█████▋    | 6098/10696 [1:16:59<38:49,  1.97it/s] 57%|█████▋    | 6099/10696 [1:16:59<38:32,  1.99it/s] 57%|█████▋    | 6100/10696 [1:17:00<38:25,  1.99it/s]{'loss': 3.7257, 'grad_norm': 0.19652211666107178, 'learning_rate': 0.0004646189556654699, 'epoch': 0.57}
-                                                       57%|█████▋    | 6100/10696 [1:17:00<38:25,  1.99it/s] 57%|█████▋    | 6101/10696 [1:17:00<38:19,  2.00it/s] 57%|█████▋    | 6102/10696 [1:17:01<38:14,  2.00it/s] 57%|█████▋    | 6103/10696 [1:17:01<38:08,  2.01it/s] 57%|█████▋    | 6104/10696 [1:17:02<38:06,  2.01it/s] 57%|█████▋    | 6105/10696 [1:17:02<38:07,  2.01it/s] 57%|█████▋    | 6106/10696 [1:17:03<38:03,  2.01it/s] 57%|█████▋    | 6107/10696 [1:17:03<38:03,  2.01it/s] 57%|█████▋    | 6108/10696 [1:17:04<37:58,  2.01it/s] 57%|█████▋    | 6109/10696 [1:17:04<37:57,  2.01it/s] 57%|█████▋    | 6110/10696 [1:17:05<37:55,  2.02it/s] 57%|█████▋    | 6111/10696 [1:17:05<37:55,  2.01it/s] 57%|█████▋    | 6112/10696 [1:17:06<37:56,  2.01it/s] 57%|█████▋    | 6113/10696 [1:17:06<37:55,  2.01it/s] 57%|█████▋    | 6114/10696 [1:17:07<37:55,  2.01it/s] 57%|█████▋    | 6115/10696 [1:17:07<37:54,  2.01it/s] 57%|█████▋    | 6116/10696 [1:17:08<37:55,  2.01it/s] 57%|█████▋    | 6117/10696 [1:17:08<37:54,  2.01it/s] 57%|█████▋    | 6118/10696 [1:17:09<37:51,  2.02it/s] 57%|█████▋    | 6119/10696 [1:17:09<37:50,  2.02it/s] 57%|█████▋    | 6120/10696 [1:17:10<37:49,  2.02it/s] 57%|█████▋    | 6121/10696 [1:17:10<37:49,  2.02it/s] 57%|█████▋    | 6122/10696 [1:17:11<37:46,  2.02it/s] 57%|█████▋    | 6123/10696 [1:17:11<37:47,  2.02it/s] 57%|█████▋    | 6124/10696 [1:17:12<37:44,  2.02it/s] 57%|█████▋    | 6125/10696 [1:17:12<37:47,  2.02it/s]                                                      {'loss': 3.7167, 'grad_norm': 0.216637521982193, 'learning_rate': 0.00046055083845489774, 'epoch': 0.57}
- 57%|█████▋    | 6125/10696 [1:17:12<37:47,  2.02it/s] 57%|█████▋    | 6126/10696 [1:17:13<37:48,  2.01it/s] 57%|█████▋    | 6127/10696 [1:17:13<37:48,  2.01it/s] 57%|█████▋    | 6128/10696 [1:17:14<37:47,  2.01it/s] 57%|█████▋    | 6129/10696 [1:17:14<37:46,  2.01it/s] 57%|█████▋    | 6130/10696 [1:17:15<37:47,  2.01it/s] 57%|█████▋    | 6131/10696 [1:17:15<37:44,  2.02it/s] 57%|█████▋    | 6132/10696 [1:17:16<37:44,  2.02it/s] 57%|█████▋    | 6133/10696 [1:17:16<37:42,  2.02it/s] 57%|█████▋    | 6134/10696 [1:17:17<37:42,  2.02it/s] 57%|█████▋    | 6135/10696 [1:17:17<37:42,  2.02it/s] 57%|█████▋    | 6136/10696 [1:17:18<37:42,  2.02it/s] 57%|█████▋    | 6137/10696 [1:17:18<37:42,  2.01it/s] 57%|█████▋    | 6138/10696 [1:17:19<37:40,  2.02it/s] 57%|█████▋    | 6139/10696 [1:17:19<37:40,  2.02it/s] 57%|█████▋    | 6140/10696 [1:17:20<37:38,  2.02it/s] 57%|█████▋    | 6141/10696 [1:17:20<37:38,  2.02it/s] 57%|█████▋    | 6142/10696 [1:17:21<37:36,  2.02it/s] 57%|█████▋    | 6143/10696 [1:17:21<37:38,  2.02it/s] 57%|█████▋    | 6144/10696 [1:17:22<37:35,  2.02it/s] 57%|█████▋    | 6145/10696 [1:17:22<37:36,  2.02it/s] 57%|█████▋    | 6146/10696 [1:17:23<37:34,  2.02it/s] 57%|█████▋    | 6147/10696 [1:17:23<37:35,  2.02it/s] 57%|█████▋    | 6148/10696 [1:17:24<37:33,  2.02it/s] 57%|█████▋    | 6149/10696 [1:17:24<37:34,  2.02it/s] 57%|█████▋    | 6150/10696 [1:17:25<37:35,  2.02it/s]{'loss': 3.7194, 'grad_norm': 0.21312838792800903, 'learning_rate': 0.0004564853474178331, 'epoch': 0.57}
-                                                       57%|█████▋    | 6150/10696 [1:17:25<37:35,  2.02it/s] 58%|█████▊    | 6151/10696 [1:17:25<37:37,  2.01it/s] 58%|█████▊    | 6152/10696 [1:17:26<37:36,  2.01it/s] 58%|█████▊    | 6153/10696 [1:17:26<37:35,  2.01it/s] 58%|█████▊    | 6154/10696 [1:17:27<37:36,  2.01it/s] 58%|█████▊    | 6155/10696 [1:17:27<37:34,  2.01it/s] 58%|█████▊    | 6156/10696 [1:17:28<37:34,  2.01it/s] 58%|█████▊    | 6157/10696 [1:17:28<37:32,  2.01it/s] 58%|█████▊    | 6158/10696 [1:17:29<37:32,  2.01it/s] 58%|█████▊    | 6159/10696 [1:17:29<37:31,  2.02it/s] 58%|█████▊    | 6160/10696 [1:17:30<37:30,  2.02it/s] 58%|█████▊    | 6161/10696 [1:17:30<37:30,  2.02it/s] 58%|█████▊    | 6162/10696 [1:17:31<37:29,  2.02it/s] 58%|█████▊    | 6163/10696 [1:17:31<37:31,  2.01it/s] 58%|█████▊    | 6164/10696 [1:17:32<37:28,  2.02it/s] 58%|█████▊    | 6165/10696 [1:17:32<37:29,  2.01it/s] 58%|█████▊    | 6166/10696 [1:17:33<37:26,  2.02it/s] 58%|█████▊    | 6167/10696 [1:17:33<37:28,  2.01it/s] 58%|█████▊    | 6168/10696 [1:17:34<37:26,  2.02it/s] 58%|█████▊    | 6169/10696 [1:17:34<37:25,  2.02it/s] 58%|█████▊    | 6170/10696 [1:17:35<37:25,  2.02it/s] 58%|█████▊    | 6171/10696 [1:17:35<37:24,  2.02it/s] 58%|█████▊    | 6172/10696 [1:17:36<37:22,  2.02it/s] 58%|█████▊    | 6173/10696 [1:17:36<37:25,  2.01it/s] 58%|█████▊    | 6174/10696 [1:17:37<37:24,  2.02it/s] 58%|█████▊    | 6175/10696 [1:17:37<37:23,  2.02it/s]{'loss': 3.718, 'grad_norm': 0.20135745406150818, 'learning_rate': 0.0004524227531984272, 'epoch': 0.58}
-                                                       58%|█████▊    | 6175/10696 [1:17:37<37:23,  2.02it/s] 58%|█████▊    | 6176/10696 [1:17:38<37:26,  2.01it/s] 58%|█████▊    | 6177/10696 [1:17:38<37:25,  2.01it/s] 58%|█████▊    | 6178/10696 [1:17:39<37:24,  2.01it/s] 58%|█████▊    | 6179/10696 [1:17:39<37:22,  2.01it/s] 58%|█████▊    | 6180/10696 [1:17:39<37:21,  2.01it/s] 58%|█████▊    | 6181/10696 [1:17:40<37:21,  2.01it/s] 58%|█████▊    | 6182/10696 [1:17:40<37:19,  2.02it/s] 58%|█████▊    | 6183/10696 [1:17:41<37:21,  2.01it/s] 58%|█████▊    | 6184/10696 [1:17:41<37:17,  2.02it/s] 58%|█████▊    | 6185/10696 [1:17:42<37:19,  2.01it/s] 58%|█████▊    | 6186/10696 [1:17:42<37:17,  2.02it/s] 58%|█████▊    | 6187/10696 [1:17:43<37:16,  2.02it/s] 58%|█████▊    | 6188/10696 [1:17:43<37:18,  2.01it/s] 58%|█████▊    | 6189/10696 [1:17:44<37:15,  2.02it/s] 58%|█████▊    | 6190/10696 [1:17:44<37:17,  2.01it/s] 58%|█████▊    | 6191/10696 [1:17:45<37:14,  2.02it/s] 58%|█████▊    | 6192/10696 [1:17:45<37:15,  2.01it/s] 58%|█████▊    | 6193/10696 [1:17:46<37:12,  2.02it/s] 58%|█████▊    | 6194/10696 [1:17:46<37:13,  2.02it/s] 58%|█████▊    | 6195/10696 [1:17:47<37:15,  2.01it/s] 58%|█████▊    | 6196/10696 [1:17:47<37:13,  2.01it/s] 58%|█████▊    | 6197/10696 [1:17:48<37:14,  2.01it/s] 58%|█████▊    | 6198/10696 [1:17:48<37:13,  2.01it/s] 58%|█████▊    | 6199/10696 [1:17:49<37:12,  2.01it/s] 58%|█████▊    | 6200/10696 [1:17:49<37:10,  2.02it/s]{'loss': 3.7165, 'grad_norm': 0.21146850287914276, 'learning_rate': 0.00044836332624798725, 'epoch': 0.58}
-                                                       58%|█████▊    | 6200/10696 [1:17:49<37:10,  2.02it/s] 58%|█████▊    | 6201/10696 [1:17:50<37:12,  2.01it/s] 58%|█████▊    | 6202/10696 [1:17:50<37:11,  2.01it/s] 58%|█████▊    | 6203/10696 [1:17:51<37:11,  2.01it/s] 58%|█████▊    | 6204/10696 [1:17:51<37:11,  2.01it/s] 58%|█████▊    | 6205/10696 [1:17:52<37:11,  2.01it/s] 58%|█████▊    | 6206/10696 [1:17:52<37:12,  2.01it/s] 58%|█████▊    | 6207/10696 [1:17:53<37:11,  2.01it/s] 58%|█████▊    | 6208/10696 [1:17:53<37:08,  2.01it/s] 58%|█████▊    | 6209/10696 [1:17:54<37:07,  2.01it/s] 58%|█████▊    | 6210/10696 [1:17:54<37:06,  2.02it/s] 58%|█████▊    | 6211/10696 [1:17:55<37:06,  2.01it/s] 58%|█████▊    | 6212/10696 [1:17:55<37:02,  2.02it/s] 58%|█████▊    | 6213/10696 [1:17:56<37:05,  2.01it/s] 58%|█████▊    | 6214/10696 [1:17:56<37:01,  2.02it/s] 58%|█████▊    | 6215/10696 [1:17:57<37:06,  2.01it/s] 58%|█████▊    | 6216/10696 [1:17:57<37:03,  2.01it/s] 58%|█████▊    | 6217/10696 [1:17:58<37:04,  2.01it/s] 58%|█████▊    | 6218/10696 [1:17:58<37:03,  2.01it/s] 58%|█████▊    | 6219/10696 [1:17:59<37:05,  2.01it/s] 58%|█████▊    | 6220/10696 [1:17:59<37:02,  2.01it/s] 58%|█████▊    | 6221/10696 [1:18:00<37:03,  2.01it/s] 58%|█████▊    | 6222/10696 [1:18:00<36:57,  2.02it/s] 58%|█████▊    | 6223/10696 [1:18:01<36:58,  2.02it/s] 58%|█████▊    | 6224/10696 [1:18:01<36:56,  2.02it/s] 58%|█████▊    | 6225/10696 [1:18:02<36:56,  2.02it/s]{'loss': 3.7082, 'grad_norm': 0.21022465825080872, 'learning_rate': 0.00044430733680697214, 'epoch': 0.58}
-                                                       58%|█████▊    | 6225/10696 [1:18:02<36:56,  2.02it/s] 58%|█████▊    | 6226/10696 [1:18:02<36:57,  2.02it/s] 58%|█████▊    | 6227/10696 [1:18:03<36:59,  2.01it/s] 58%|█████▊    | 6228/10696 [1:18:03<36:59,  2.01it/s] 58%|█████▊    | 6229/10696 [1:18:04<36:59,  2.01it/s] 58%|█████▊    | 6230/10696 [1:18:04<36:57,  2.01it/s] 58%|█████▊    | 6231/10696 [1:18:05<36:54,  2.02it/s] 58%|█████▊    | 6232/10696 [1:18:05<36:52,  2.02it/s] 58%|█████▊    | 6233/10696 [1:18:06<36:52,  2.02it/s] 58%|█████▊    | 6234/10696 [1:18:06<36:52,  2.02it/s] 58%|█████▊    | 6235/10696 [1:18:07<36:52,  2.02it/s] 58%|█████▊    | 6236/10696 [1:18:07<36:53,  2.01it/s] 58%|█████▊    | 6237/10696 [1:18:08<36:52,  2.01it/s] 58%|█████▊    | 6238/10696 [1:18:08<36:53,  2.01it/s] 58%|█████▊    | 6239/10696 [1:18:09<36:51,  2.02it/s] 58%|█████▊    | 6240/10696 [1:18:09<36:51,  2.01it/s] 58%|█████▊    | 6241/10696 [1:18:10<36:47,  2.02it/s] 58%|█████▊    | 6242/10696 [1:18:10<36:47,  2.02it/s] 58%|█████▊    | 6243/10696 [1:18:11<36:47,  2.02it/s] 58%|█████▊    | 6244/10696 [1:18:11<36:47,  2.02it/s] 58%|█████▊    | 6245/10696 [1:18:12<36:47,  2.02it/s] 58%|█████▊    | 6246/10696 [1:18:12<36:47,  2.02it/s] 58%|█████▊    | 6247/10696 [1:18:13<36:47,  2.02it/s] 58%|█████▊    | 6248/10696 [1:18:13<36:44,  2.02it/s] 58%|█████▊    | 6249/10696 [1:18:14<36:45,  2.02it/s] 58%|█████▊    | 6250/10696 [1:18:14<36:44,  2.02it/s]{'loss': 3.7097, 'grad_norm': 0.20950563251972198, 'learning_rate': 0.0004402550548870015, 'epoch': 0.58}                                                      
- 58%|█████▊    | 6250/10696 [1:18:14<36:44,  2.02it/s] 58%|█████▊    | 6251/10696 [1:18:15<36:46,  2.01it/s] 58%|█████▊    | 6252/10696 [1:18:15<36:45,  2.01it/s] 58%|█████▊    | 6253/10696 [1:18:16<36:45,  2.01it/s] 58%|█████▊    | 6254/10696 [1:18:16<36:44,  2.01it/s] 58%|█████▊    | 6255/10696 [1:18:17<36:42,  2.02it/s] 58%|█████▊    | 6256/10696 [1:18:17<36:43,  2.01it/s] 58%|█████▊    | 6257/10696 [1:18:18<36:41,  2.02it/s] 59%|█████▊    | 6258/10696 [1:18:18<36:42,  2.01it/s] 59%|█████▊    | 6259/10696 [1:18:19<36:40,  2.02it/s] 59%|█████▊    | 6260/10696 [1:18:19<36:39,  2.02it/s] 59%|█████▊    | 6261/10696 [1:18:20<36:38,  2.02it/s] 59%|█████▊    | 6262/10696 [1:18:20<36:37,  2.02it/s] 59%|█████▊    | 6263/10696 [1:18:21<36:38,  2.02it/s] 59%|█████▊    | 6264/10696 [1:18:21<36:36,  2.02it/s] 59%|█████▊    | 6265/10696 [1:18:22<36:37,  2.02it/s] 59%|█████▊    | 6266/10696 [1:18:22<36:35,  2.02it/s] 59%|█████▊    | 6267/10696 [1:18:23<36:37,  2.02it/s] 59%|█████▊    | 6268/10696 [1:18:23<36:36,  2.02it/s] 59%|█████▊    | 6269/10696 [1:18:24<36:36,  2.02it/s] 59%|█████▊    | 6270/10696 [1:18:24<36:35,  2.02it/s] 59%|█████▊    | 6271/10696 [1:18:25<36:33,  2.02it/s] 59%|█████▊    | 6272/10696 [1:18:25<36:34,  2.02it/s] 59%|█████▊    | 6273/10696 [1:18:26<36:32,  2.02it/s] 59%|█████▊    | 6274/10696 [1:18:26<36:35,  2.01it/s] 59%|█████▊    | 6275/10696 [1:18:27<36:32,  2.02it/s]{'loss': 3.7052, 'grad_norm': 0.2053607702255249, 'learning_rate': 0.00043620675025288214, 'epoch': 0.59}
-                                                       59%|█████▊    | 6275/10696 [1:18:27<36:32,  2.02it/s] 59%|█████▊    | 6276/10696 [1:18:27<36:34,  2.01it/s] 59%|█████▊    | 6277/10696 [1:18:28<36:33,  2.01it/s] 59%|█████▊    | 6278/10696 [1:18:28<36:31,  2.02it/s] 59%|█████▊    | 6279/10696 [1:18:29<36:33,  2.01it/s] 59%|█████▊    | 6280/10696 [1:18:29<36:31,  2.02it/s] 59%|█████▊    | 6281/10696 [1:18:30<36:30,  2.02it/s] 59%|█████▊    | 6282/10696 [1:18:30<36:29,  2.02it/s] 59%|█████▊    | 6283/10696 [1:18:31<36:30,  2.01it/s] 59%|█████▉    | 6284/10696 [1:18:31<36:32,  2.01it/s] 59%|█████▉    | 6285/10696 [1:18:32<36:28,  2.02it/s] 59%|█████▉    | 6286/10696 [1:18:32<36:28,  2.01it/s] 59%|█████▉    | 6287/10696 [1:18:33<36:26,  2.02it/s] 59%|█████▉    | 6288/10696 [1:18:33<36:28,  2.01it/s] 59%|█████▉    | 6289/10696 [1:18:34<36:26,  2.02it/s] 59%|█████▉    | 6290/10696 [1:18:34<36:26,  2.02it/s] 59%|█████▉    | 6291/10696 [1:18:35<36:24,  2.02it/s] 59%|█████▉    | 6292/10696 [1:18:35<36:24,  2.02it/s] 59%|█████▉    | 6293/10696 [1:18:36<36:25,  2.02it/s] 59%|█████▉    | 6294/10696 [1:18:36<36:26,  2.01it/s] 59%|█████▉    | 6295/10696 [1:18:37<36:24,  2.01it/s] 59%|█████▉    | 6296/10696 [1:18:37<36:22,  2.02it/s] 59%|█████▉    | 6297/10696 [1:18:38<36:22,  2.02it/s] 59%|█████▉    | 6298/10696 [1:18:38<36:23,  2.01it/s] 59%|█████▉    | 6299/10696 [1:18:39<36:23,  2.01it/s] 59%|█████▉    | 6300/10696 [1:18:39<36:22,  2.01it/s]{'loss': 3.7167, 'grad_norm': 0.22066211700439453, 'learning_rate': 0.00043216269240464766, 'epoch': 0.59}
-                                                       59%|█████▉    | 6300/10696 [1:18:39<36:22,  2.01it/s] 59%|█████▉    | 6301/10696 [1:18:40<36:25,  2.01it/s] 59%|█████▉    | 6302/10696 [1:18:40<36:22,  2.01it/s] 59%|█████▉    | 6303/10696 [1:18:41<36:21,  2.01it/s] 59%|█████▉    | 6304/10696 [1:18:41<36:22,  2.01it/s] 59%|█████▉    | 6305/10696 [1:18:42<36:19,  2.01it/s] 59%|█████▉    | 6306/10696 [1:18:42<36:22,  2.01it/s] 59%|█████▉    | 6307/10696 [1:18:43<36:21,  2.01it/s] 59%|█████▉    | 6308/10696 [1:18:43<36:19,  2.01it/s] 59%|█████▉    | 6309/10696 [1:18:44<36:19,  2.01it/s] 59%|█████▉    | 6310/10696 [1:18:44<36:17,  2.01it/s] 59%|█████▉    | 6311/10696 [1:18:45<36:17,  2.01it/s] 59%|█████▉    | 6312/10696 [1:18:45<36:15,  2.02it/s] 59%|█████▉    | 6313/10696 [1:18:45<36:17,  2.01it/s] 59%|█████▉    | 6314/10696 [1:18:46<36:15,  2.01it/s] 59%|█████▉    | 6315/10696 [1:18:46<36:15,  2.01it/s] 59%|█████▉    | 6316/10696 [1:18:47<36:17,  2.01it/s] 59%|█████▉    | 6317/10696 [1:18:47<36:14,  2.01it/s] 59%|█████▉    | 6318/10696 [1:18:48<36:14,  2.01it/s] 59%|█████▉    | 6319/10696 [1:18:48<36:10,  2.02it/s] 59%|█████▉    | 6320/10696 [1:18:49<36:11,  2.01it/s] 59%|█████▉    | 6321/10696 [1:18:49<36:09,  2.02it/s] 59%|█████▉    | 6322/10696 [1:18:50<36:11,  2.01it/s] 59%|█████▉    | 6323/10696 [1:18:50<36:11,  2.01it/s] 59%|█████▉    | 6324/10696 [1:18:51<36:10,  2.01it/s] 59%|█████▉    | 6325/10696 [1:18:51<36:10,  2.01it/s]{'loss': 3.7179, 'grad_norm': 0.21443286538124084, 'learning_rate': 0.0004281231505596192, 'epoch': 0.59}
-                                                       59%|█████▉    | 6325/10696 [1:18:51<36:10,  2.01it/s] 59%|█████▉    | 6326/10696 [1:18:52<36:11,  2.01it/s] 59%|█████▉    | 6327/10696 [1:18:52<36:10,  2.01it/s] 59%|█████▉    | 6328/10696 [1:18:53<36:09,  2.01it/s] 59%|█████▉    | 6329/10696 [1:18:53<36:08,  2.01it/s] 59%|█████▉    | 6330/10696 [1:18:54<36:09,  2.01it/s] 59%|█████▉    | 6331/10696 [1:18:54<36:07,  2.01it/s] 59%|█████▉    | 6332/10696 [1:18:55<36:08,  2.01it/s] 59%|█████▉    | 6333/10696 [1:18:55<36:07,  2.01it/s] 59%|█████▉    | 6334/10696 [1:18:56<36:06,  2.01it/s] 59%|█████▉    | 6335/10696 [1:18:56<36:06,  2.01it/s] 59%|█████▉    | 6336/10696 [1:18:57<36:05,  2.01it/s] 59%|█████▉    | 6337/10696 [1:18:57<36:06,  2.01it/s] 59%|█████▉    | 6338/10696 [1:18:58<36:02,  2.01it/s] 59%|█████▉    | 6339/10696 [1:18:58<36:03,  2.01it/s] 59%|█████▉    | 6340/10696 [1:18:59<36:01,  2.02it/s] 59%|█████▉    | 6341/10696 [1:18:59<36:01,  2.02it/s] 59%|█████▉    | 6342/10696 [1:19:00<36:00,  2.02it/s] 59%|█████▉    | 6343/10696 [1:19:00<36:01,  2.01it/s] 59%|█████▉    | 6344/10696 [1:19:01<36:01,  2.01it/s] 59%|█████▉    | 6345/10696 [1:19:01<35:58,  2.02it/s] 59%|█████▉    | 6346/10696 [1:19:02<36:00,  2.01it/s] 59%|█████▉    | 6347/10696 [1:19:02<35:58,  2.02it/s] 59%|█████▉    | 6348/10696 [1:19:03<35:58,  2.01it/s] 59%|█████▉    | 6349/10696 [1:19:03<35:57,  2.01it/s] 59%|█████▉    | 6350/10696 [1:19:04<35:56,  2.01it/s]{'loss': 3.7118, 'grad_norm': 0.2141450196504593, 'learning_rate': 0.0004240883936344824, 'epoch': 0.59}
-                                                       59%|█████▉    | 6350/10696 [1:19:04<35:56,  2.01it/s] 59%|█████▉    | 6351/10696 [1:19:04<35:59,  2.01it/s] 59%|█████▉    | 6352/10696 [1:19:05<35:59,  2.01it/s] 59%|█████▉    | 6353/10696 [1:19:05<35:57,  2.01it/s] 59%|█████▉    | 6354/10696 [1:19:06<35:56,  2.01it/s] 59%|█████▉    | 6355/10696 [1:19:06<35:56,  2.01it/s] 59%|█████▉    | 6356/10696 [1:19:07<35:55,  2.01it/s] 59%|█████▉    | 6357/10696 [1:19:07<35:55,  2.01it/s] 59%|█████▉    | 6358/10696 [1:19:08<35:53,  2.01it/s] 59%|█████▉    | 6359/10696 [1:19:08<35:53,  2.01it/s] 59%|█████▉    | 6360/10696 [1:19:09<35:51,  2.02it/s] 59%|█████▉    | 6361/10696 [1:19:09<35:50,  2.02it/s] 59%|█████▉    | 6362/10696 [1:19:10<35:49,  2.02it/s] 59%|█████▉    | 6363/10696 [1:19:10<35:49,  2.02it/s] 59%|█████▉    | 6364/10696 [1:19:11<35:49,  2.02it/s] 60%|█████▉    | 6365/10696 [1:19:11<35:49,  2.01it/s] 60%|█████▉    | 6366/10696 [1:19:12<35:46,  2.02it/s] 60%|█████▉    | 6367/10696 [1:19:12<35:49,  2.01it/s] 60%|█████▉    | 6368/10696 [1:19:13<35:47,  2.02it/s] 60%|█████▉    | 6369/10696 [1:19:13<35:49,  2.01it/s] 60%|█████▉    | 6370/10696 [1:19:14<35:46,  2.02it/s] 60%|█████▉    | 6371/10696 [1:19:14<35:47,  2.01it/s] 60%|█████▉    | 6372/10696 [1:19:15<35:46,  2.01it/s] 60%|█████▉    | 6373/10696 [1:19:15<35:46,  2.01it/s] 60%|█████▉    | 6374/10696 [1:19:16<35:47,  2.01it/s] 60%|█████▉    | 6375/10696 [1:19:16<35:45,  2.01it/s]                                                      {'loss': 3.6978, 'grad_norm': 0.2134978324174881, 'learning_rate': 0.0004200586902273854, 'epoch': 0.6}
- 60%|█████▉    | 6375/10696 [1:19:16<35:45,  2.01it/s] 60%|█████▉    | 6376/10696 [1:19:17<35:48,  2.01it/s] 60%|█████▉    | 6377/10696 [1:19:17<35:46,  2.01it/s] 60%|█████▉    | 6378/10696 [1:19:18<35:45,  2.01it/s] 60%|█████▉    | 6379/10696 [1:19:18<35:46,  2.01it/s] 60%|█████▉    | 6380/10696 [1:19:19<35:43,  2.01it/s] 60%|█████▉    | 6381/10696 [1:19:19<35:42,  2.01it/s] 60%|█████▉    | 6382/10696 [1:19:20<35:40,  2.02it/s] 60%|█████▉    | 6383/10696 [1:19:20<35:40,  2.02it/s] 60%|█████▉    | 6384/10696 [1:19:21<35:40,  2.01it/s] 60%|█████▉    | 6385/10696 [1:19:21<35:39,  2.01it/s] 60%|█████▉    | 6386/10696 [1:19:22<35:39,  2.01it/s] 60%|█████▉    | 6387/10696 [1:19:22<35:37,  2.02it/s] 60%|█████▉    | 6388/10696 [1:19:23<35:39,  2.01it/s] 60%|█████▉    | 6389/10696 [1:19:23<35:37,  2.02it/s] 60%|█████▉    | 6390/10696 [1:19:24<35:37,  2.01it/s] 60%|█████▉    | 6391/10696 [1:19:24<35:35,  2.02it/s] 60%|█████▉    | 6392/10696 [1:19:25<35:35,  2.02it/s] 60%|█████▉    | 6393/10696 [1:19:25<35:37,  2.01it/s] 60%|█████▉    | 6394/10696 [1:19:26<35:34,  2.02it/s] 60%|█████▉    | 6395/10696 [1:19:26<35:37,  2.01it/s] 60%|█████▉    | 6396/10696 [1:19:27<35:35,  2.01it/s] 60%|█████▉    | 6397/10696 [1:19:27<35:34,  2.01it/s] 60%|█████▉    | 6398/10696 [1:19:28<35:33,  2.01it/s] 60%|█████▉    | 6399/10696 [1:19:28<35:31,  2.02it/s] 60%|█████▉    | 6400/10696 [1:19:29<35:32,  2.01it/s]{'loss': 3.6959, 'grad_norm': 0.20956368744373322, 'learning_rate': 0.00041603430860005856, 'epoch': 0.6}
-                                                       60%|█████▉    | 6400/10696 [1:19:29<35:32,  2.01it/s] 60%|█████▉    | 6401/10696 [1:19:29<35:31,  2.02it/s] 60%|█████▉    | 6402/10696 [1:19:30<35:33,  2.01it/s] 60%|█████▉    | 6403/10696 [1:19:30<35:30,  2.02it/s] 60%|█████▉    | 6404/10696 [1:19:31<35:30,  2.01it/s] 60%|█████▉    | 6405/10696 [1:19:31<35:30,  2.01it/s] 60%|█████▉    | 6406/10696 [1:19:32<35:28,  2.02it/s] 60%|█████▉    | 6407/10696 [1:19:32<35:27,  2.02it/s] 60%|█████▉    | 6408/10696 [1:19:33<35:25,  2.02it/s] 60%|█████▉    | 6409/10696 [1:19:33<35:25,  2.02it/s] 60%|█████▉    | 6410/10696 [1:19:34<35:24,  2.02it/s] 60%|█████▉    | 6411/10696 [1:19:34<35:25,  2.02it/s] 60%|█████▉    | 6412/10696 [1:19:35<35:25,  2.02it/s] 60%|█████▉    | 6413/10696 [1:19:35<35:26,  2.01it/s] 60%|█████▉    | 6414/10696 [1:19:36<35:26,  2.01it/s] 60%|█████▉    | 6415/10696 [1:19:36<35:23,  2.02it/s] 60%|█████▉    | 6416/10696 [1:19:37<35:26,  2.01it/s] 60%|█████▉    | 6417/10696 [1:19:37<35:22,  2.02it/s] 60%|██████    | 6418/10696 [1:19:38<35:23,  2.01it/s] 60%|██████    | 6419/10696 [1:19:38<35:20,  2.02it/s] 60%|██████    | 6420/10696 [1:19:39<35:21,  2.02it/s] 60%|██████    | 6421/10696 [1:19:39<35:18,  2.02it/s] 60%|██████    | 6422/10696 [1:19:40<35:19,  2.02it/s] 60%|██████    | 6423/10696 [1:19:40<35:19,  2.02it/s] 60%|██████    | 6424/10696 [1:19:41<35:18,  2.02it/s] 60%|██████    | 6425/10696 [1:19:41<35:20,  2.01it/s]{'loss': 3.7054, 'grad_norm': 0.2298075258731842, 'learning_rate': 0.0004120155166599554, 'epoch': 0.6}
-                                                       60%|██████    | 6425/10696 [1:19:41<35:20,  2.01it/s] 60%|██████    | 6426/10696 [1:19:42<35:17,  2.02it/s] 60%|██████    | 6427/10696 [1:19:42<35:17,  2.02it/s] 60%|██████    | 6428/10696 [1:19:43<35:14,  2.02it/s] 60%|██████    | 6429/10696 [1:19:43<35:15,  2.02it/s] 60%|██████    | 6430/10696 [1:19:44<35:13,  2.02it/s] 60%|██████    | 6431/10696 [1:19:44<35:16,  2.01it/s] 60%|██████    | 6432/10696 [1:19:45<35:16,  2.01it/s] 60%|██████    | 6433/10696 [1:19:45<35:16,  2.01it/s] 60%|██████    | 6434/10696 [1:19:46<35:16,  2.01it/s] 60%|██████    | 6435/10696 [1:19:46<35:15,  2.01it/s] 60%|██████    | 6436/10696 [1:19:47<35:17,  2.01it/s] 60%|██████    | 6437/10696 [1:19:47<35:14,  2.01it/s] 60%|██████    | 6438/10696 [1:19:48<35:14,  2.01it/s] 60%|██████    | 6439/10696 [1:19:48<35:12,  2.02it/s] 60%|██████    | 6440/10696 [1:19:49<35:11,  2.02it/s] 60%|██████    | 6441/10696 [1:19:49<35:09,  2.02it/s] 60%|██████    | 6442/10696 [1:19:50<35:10,  2.02it/s] 60%|██████    | 6443/10696 [1:19:50<35:08,  2.02it/s] 60%|██████    | 6444/10696 [1:19:51<35:09,  2.02it/s] 60%|██████    | 6445/10696 [1:19:51<35:09,  2.01it/s] 60%|██████    | 6446/10696 [1:19:52<35:08,  2.02it/s] 60%|██████    | 6447/10696 [1:19:52<35:07,  2.02it/s] 60%|██████    | 6448/10696 [1:19:53<35:04,  2.02it/s] 60%|██████    | 6449/10696 [1:19:53<35:06,  2.02it/s] 60%|██████    | 6450/10696 [1:19:54<35:05,  2.02it/s]{'loss': 3.6984, 'grad_norm': 0.20484435558319092, 'learning_rate': 0.00040800258194241795, 'epoch': 0.6}
-                                                       60%|██████    | 6450/10696 [1:19:54<35:05,  2.02it/s] 60%|██████    | 6451/10696 [1:19:54<35:08,  2.01it/s] 60%|██████    | 6452/10696 [1:19:54<35:07,  2.01it/s] 60%|██████    | 6453/10696 [1:19:55<35:06,  2.01it/s] 60%|██████    | 6454/10696 [1:19:55<35:03,  2.02it/s] 60%|██████    | 6455/10696 [1:19:56<35:04,  2.02it/s] 60%|██████    | 6456/10696 [1:19:56<35:04,  2.01it/s] 60%|██████    | 6457/10696 [1:19:57<35:03,  2.01it/s] 60%|██████    | 6458/10696 [1:19:57<35:04,  2.01it/s] 60%|██████    | 6459/10696 [1:19:58<35:02,  2.02it/s] 60%|██████    | 6460/10696 [1:19:58<35:01,  2.02it/s] 60%|██████    | 6461/10696 [1:19:59<34:59,  2.02it/s] 60%|██████    | 6462/10696 [1:19:59<34:59,  2.02it/s] 60%|██████    | 6463/10696 [1:20:00<34:58,  2.02it/s] 60%|██████    | 6464/10696 [1:20:00<34:57,  2.02it/s] 60%|██████    | 6465/10696 [1:20:01<34:57,  2.02it/s] 60%|██████    | 6466/10696 [1:20:01<34:55,  2.02it/s] 60%|██████    | 6467/10696 [1:20:02<34:58,  2.02it/s] 60%|██████    | 6468/10696 [1:20:02<34:55,  2.02it/s] 60%|██████    | 6469/10696 [1:20:03<34:56,  2.02it/s] 60%|██████    | 6470/10696 [1:20:03<34:53,  2.02it/s] 60%|██████    | 6471/10696 [1:20:04<34:54,  2.02it/s] 61%|██████    | 6472/10696 [1:20:04<34:56,  2.02it/s] 61%|██████    | 6473/10696 [1:20:05<34:55,  2.02it/s] 61%|██████    | 6474/10696 [1:20:05<34:55,  2.01it/s] 61%|██████    | 6475/10696 [1:20:06<34:54,  2.01it/s]{'loss': 3.7046, 'grad_norm': 0.21229323744773865, 'learning_rate': 0.00040399577159286624, 'epoch': 0.61}
-                                                       61%|██████    | 6475/10696 [1:20:06<34:54,  2.01it/s] 61%|██████    | 6476/10696 [1:20:06<34:59,  2.01it/s] 61%|██████    | 6477/10696 [1:20:07<34:58,  2.01it/s] 61%|██████    | 6478/10696 [1:20:07<34:56,  2.01it/s] 61%|██████    | 6479/10696 [1:20:08<34:56,  2.01it/s] 61%|██████    | 6480/10696 [1:20:08<34:52,  2.01it/s] 61%|██████    | 6481/10696 [1:20:09<34:51,  2.02it/s] 61%|██████    | 6482/10696 [1:20:09<34:50,  2.02it/s] 61%|██████    | 6483/10696 [1:20:10<34:52,  2.01it/s] 61%|██████    | 6484/10696 [1:20:10<34:50,  2.02it/s] 61%|██████    | 6485/10696 [1:20:11<34:51,  2.01it/s] 61%|██████    | 6486/10696 [1:20:11<34:50,  2.01it/s] 61%|██████    | 6487/10696 [1:20:12<34:50,  2.01it/s] 61%|██████    | 6488/10696 [1:20:12<34:46,  2.02it/s] 61%|██████    | 6489/10696 [1:20:13<34:48,  2.01it/s] 61%|██████    | 6490/10696 [1:20:13<34:44,  2.02it/s] 61%|██████    | 6491/10696 [1:20:14<34:45,  2.02it/s] 61%|██████    | 6492/10696 [1:20:14<34:42,  2.02it/s] 61%|██████    | 6493/10696 [1:20:15<34:45,  2.02it/s] 61%|██████    | 6494/10696 [1:20:15<34:42,  2.02it/s] 61%|██████    | 6495/10696 [1:20:16<34:43,  2.02it/s] 61%|██████    | 6496/10696 [1:20:16<34:43,  2.02it/s] 61%|██████    | 6497/10696 [1:20:17<34:42,  2.02it/s] 61%|██████    | 6498/10696 [1:20:17<34:41,  2.02it/s] 61%|██████    | 6499/10696 [1:20:18<34:41,  2.02it/s] 61%|██████    | 6500/10696 [1:20:18<34:39,  2.02it/s]{'loss': 3.7002, 'grad_norm': 0.210738867521286, 'learning_rate': 0.00039999535234901487, 'epoch': 0.61}
-                                                       61%|██████    | 6500/10696 [1:20:18<34:39,  2.02it/s] 61%|██████    | 6501/10696 [1:20:19<34:43,  2.01it/s] 61%|██████    | 6502/10696 [1:20:19<34:41,  2.01it/s] 61%|██████    | 6503/10696 [1:20:20<34:42,  2.01it/s] 61%|██████    | 6504/10696 [1:20:20<34:41,  2.01it/s] 61%|██████    | 6505/10696 [1:20:21<34:40,  2.01it/s] 61%|██████    | 6506/10696 [1:20:21<34:41,  2.01it/s] 61%|██████    | 6507/10696 [1:20:22<34:37,  2.02it/s] 61%|██████    | 6508/10696 [1:20:22<34:38,  2.01it/s] 61%|██████    | 6509/10696 [1:20:23<34:36,  2.02it/s] 61%|██████    | 6510/10696 [1:20:23<34:36,  2.02it/s] 61%|██████    | 6511/10696 [1:20:24<34:37,  2.01it/s] 61%|██████    | 6512/10696 [1:20:24<34:34,  2.02it/s] 61%|██████    | 6513/10696 [1:20:25<34:37,  2.01it/s] 61%|██████    | 6514/10696 [1:20:25<34:34,  2.02it/s] 61%|██████    | 6515/10696 [1:20:26<34:34,  2.02it/s] 61%|██████    | 6516/10696 [1:20:26<34:31,  2.02it/s] 61%|██████    | 6517/10696 [1:20:27<34:31,  2.02it/s] 61%|██████    | 6518/10696 [1:20:27<34:31,  2.02it/s] 61%|██████    | 6519/10696 [1:20:28<34:31,  2.02it/s] 61%|██████    | 6520/10696 [1:20:28<34:31,  2.02it/s] 61%|██████    | 6521/10696 [1:20:29<34:29,  2.02it/s] 61%|██████    | 6522/10696 [1:20:29<34:30,  2.02it/s] 61%|██████    | 6523/10696 [1:20:30<34:31,  2.01it/s] 61%|██████    | 6524/10696 [1:20:30<34:31,  2.01it/s] 61%|██████    | 6525/10696 [1:20:31<34:33,  2.01it/s]{'loss': 3.7093, 'grad_norm': 0.21366599202156067, 'learning_rate': 0.00039600159052311553, 'epoch': 0.61}
-                                                       61%|██████    | 6525/10696 [1:20:31<34:33,  2.01it/s] 61%|██████    | 6526/10696 [1:20:31<34:32,  2.01it/s] 61%|██████    | 6527/10696 [1:20:32<34:31,  2.01it/s] 61%|██████    | 6528/10696 [1:20:32<34:28,  2.01it/s] 61%|██████    | 6529/10696 [1:20:33<34:26,  2.02it/s] 61%|██████    | 6530/10696 [1:20:33<34:25,  2.02it/s] 61%|██████    | 6531/10696 [1:20:34<34:25,  2.02it/s] 61%|██████    | 6532/10696 [1:20:34<34:25,  2.02it/s] 61%|██████    | 6533/10696 [1:20:35<34:25,  2.02it/s] 61%|██████    | 6534/10696 [1:20:35<34:24,  2.02it/s] 61%|██████    | 6535/10696 [1:20:36<34:23,  2.02it/s] 61%|██████    | 6536/10696 [1:20:36<34:24,  2.01it/s] 61%|██████    | 6537/10696 [1:20:37<34:20,  2.02it/s] 61%|██████    | 6538/10696 [1:20:37<34:23,  2.02it/s] 61%|██████    | 6539/10696 [1:20:38<34:21,  2.02it/s] 61%|██████    | 6540/10696 [1:20:38<34:22,  2.02it/s] 61%|██████    | 6541/10696 [1:20:39<34:23,  2.01it/s] 61%|██████    | 6542/10696 [1:20:39<34:20,  2.02it/s] 61%|██████    | 6543/10696 [1:20:40<34:23,  2.01it/s] 61%|██████    | 6544/10696 [1:20:40<34:19,  2.02it/s] 61%|██████    | 6545/10696 [1:20:41<34:19,  2.02it/s] 61%|████���█    | 6546/10696 [1:20:41<34:19,  2.02it/s] 61%|██████    | 6547/10696 [1:20:42<34:19,  2.01it/s] 61%|██████    | 6548/10696 [1:20:42<34:19,  2.01it/s] 61%|██████    | 6549/10696 [1:20:43<34:17,  2.02it/s] 61%|██████    | 6550/10696 [1:20:43<34:16,  2.02it/s]{'loss': 3.6958, 'grad_norm': 0.22236166894435883, 'learning_rate': 0.0003920147519842283, 'epoch': 0.61}                                                      
- 61%|██████    | 6550/10696 [1:20:43<34:16,  2.02it/s] 61%|██████    | 6551/10696 [1:20:44<34:17,  2.01it/s] 61%|██████▏   | 6552/10696 [1:20:44<34:17,  2.01it/s] 61%|██████▏   | 6553/10696 [1:20:45<34:14,  2.02it/s] 61%|██████▏   | 6554/10696 [1:20:45<34:14,  2.02it/s] 61%|██████▏   | 6555/10696 [1:20:46<34:14,  2.02it/s] 61%|██████▏   | 6556/10696 [1:20:46<34:14,  2.02it/s] 61%|██████▏   | 6557/10696 [1:20:47<34:14,  2.01it/s] 61%|██████▏   | 6558/10696 [1:20:47<34:13,  2.02it/s] 61%|██████▏   | 6559/10696 [1:20:48<34:12,  2.02it/s] 61%|██████▏   | 6560/10696 [1:20:48<34:11,  2.02it/s] 61%|██████▏   | 6561/10696 [1:20:49<34:11,  2.02it/s] 61%|██████▏   | 6562/10696 [1:20:49<34:12,  2.01it/s] 61%|██████▏   | 6563/10696 [1:20:50<34:13,  2.01it/s] 61%|██████▏   | 6564/10696 [1:20:50<34:09,  2.02it/s] 61%|██████▏   | 6565/10696 [1:20:51<34:10,  2.01it/s] 61%|██████▏   | 6566/10696 [1:20:51<34:10,  2.01it/s] 61%|██████▏   | 6567/10696 [1:20:52<34:09,  2.01it/s] 61%|██████▏   | 6568/10696 [1:20:52<34:09,  2.01it/s] 61%|██████▏   | 6569/10696 [1:20:53<34:07,  2.02it/s] 61%|██████▏   | 6570/10696 [1:20:53<34:06,  2.02it/s] 61%|██████▏   | 6571/10696 [1:20:54<34:04,  2.02it/s] 61%|██████▏   | 6572/10696 [1:20:54<34:06,  2.02it/s] 61%|██████▏   | 6573/10696 [1:20:55<34:04,  2.02it/s] 61%|██████▏   | 6574/10696 [1:20:55<34:04,  2.02it/s] 61%|██████▏   | 6575/10696 [1:20:56<34:04,  2.02it/s]                                                      {'loss': 3.7019, 'grad_norm': 0.23082630336284637, 'learning_rate': 0.00038803510214052266, 'epoch': 0.61}
- 61%|██████▏   | 6575/10696 [1:20:56<34:04,  2.02it/s] 61%|██████▏   | 6576/10696 [1:20:56<34:11,  2.01it/s] 61%|██████▏   | 6577/10696 [1:20:57<34:08,  2.01it/s] 61%|██████▏   | 6578/10696 [1:20:57<34:05,  2.01it/s] 62%|██████▏   | 6579/10696 [1:20:58<34:04,  2.01it/s] 62%|██████▏   | 6580/10696 [1:20:58<34:01,  2.02it/s] 62%|██████▏   | 6581/10696 [1:20:59<34:02,  2.01it/s] 62%|██████▏   | 6582/10696 [1:20:59<34:02,  2.01it/s] 62%|██████▏   | 6583/10696 [1:21:00<34:03,  2.01it/s] 62%|██████▏   | 6584/10696 [1:21:00<34:02,  2.01it/s] 62%|██████▏   | 6585/10696 [1:21:00<34:00,  2.01it/s] 62%|██████▏   | 6586/10696 [1:21:01<34:00,  2.01it/s] 62%|██████▏   | 6587/10696 [1:21:01<33:57,  2.02it/s] 62%|██████▏   | 6588/10696 [1:21:02<34:00,  2.01it/s] 62%|██████▏   | 6589/10696 [1:21:02<33:56,  2.02it/s] 62%|██████▏   | 6590/10696 [1:21:03<33:57,  2.02it/s] 62%|██████▏   | 6591/10696 [1:21:03<33:57,  2.02it/s] 62%|██████▏   | 6592/10696 [1:21:04<33:55,  2.02it/s] 62%|██████▏   | 6593/10696 [1:21:04<33:57,  2.01it/s] 62%|██████▏   | 6594/10696 [1:21:05<33:54,  2.02it/s] 62%|██████▏   | 6595/10696 [1:21:05<33:55,  2.01it/s] 62%|██████▏   | 6596/10696 [1:21:06<33:56,  2.01it/s] 62%|██████▏   | 6597/10696 [1:21:06<33:55,  2.01it/s] 62%|██████▏   | 6598/10696 [1:21:07<33:55,  2.01it/s] 62%|██████▏   | 6599/10696 [1:21:07<33:51,  2.02it/s] 62%|██████▏   | 6600/10696 [1:21:08<33:52,  2.01it/s]                                                      {'loss': 3.6982, 'grad_norm': 0.21844807267189026, 'learning_rate': 0.00038406290592160846, 'epoch': 0.62}
- 62%|██████▏   | 6600/10696 [1:21:08<33:52,  2.01it/s] 62%|██████▏   | 6601/10696 [1:21:08<33:56,  2.01it/s] 62%|██████▏   | 6602/10696 [1:21:09<33:54,  2.01it/s] 62%|██████▏   | 6603/10696 [1:21:09<33:52,  2.01it/s] 62%|██████▏   | 6604/10696 [1:21:10<33:50,  2.02it/s] 62%|██████▏   | 6605/10696 [1:21:10<33:52,  2.01it/s] 62%|██████▏   | 6606/10696 [1:21:11<33:51,  2.01it/s] 62%|██████▏   | 6607/10696 [1:21:11<33:50,  2.01it/s] 62%|██████▏   | 6608/10696 [1:21:12<33:50,  2.01it/s] 62%|██████▏   | 6609/10696 [1:21:12<33:48,  2.01it/s] 62%|██████▏   | 6610/10696 [1:21:13<33:48,  2.01it/s] 62%|██████▏   | 6611/10696 [1:21:13<33:47,  2.01it/s] 62%|██████▏   | 6612/10696 [1:21:14<33:48,  2.01it/s] 62%|██████▏   | 6613/10696 [1:21:14<33:47,  2.01it/s] 62%|██████▏   | 6614/10696 [1:21:15<33:47,  2.01it/s] 62%|██████▏   | 6615/10696 [1:21:15<33:48,  2.01it/s] 62%|██████▏   | 6616/10696 [1:21:16<33:47,  2.01it/s] 62%|██████▏   | 6617/10696 [1:21:16<33:47,  2.01it/s] 62%|██████▏   | 6618/10696 [1:21:17<33:44,  2.01it/s] 62%|██████▏   | 6619/10696 [1:21:17<33:43,  2.01it/s] 62%|██████▏   | 6620/10696 [1:21:18<33:40,  2.02it/s] 62%|██████▏   | 6621/10696 [1:21:18<33:43,  2.01it/s] 62%|██████▏   | 6622/10696 [1:21:19<33:40,  2.02it/s] 62%|██████▏   | 6623/10696 [1:21:19<33:41,  2.01it/s] 62%|██████▏   | 6624/10696 [1:21:20<33:38,  2.02it/s] 62%|██████▏   | 6625/10696 [1:21:20<33:41,  2.01it/s]{'loss': 3.6945, 'grad_norm': 0.21719342470169067, 'learning_rate': 0.0003800984277609, 'epoch': 0.62}
-                                                       62%|██████▏   | 6625/10696 [1:21:20<33:41,  2.01it/s] 62%|██████▏   | 6626/10696 [1:21:21<33:41,  2.01it/s] 62%|██████▏   | 6627/10696 [1:21:21<33:40,  2.01it/s] 62%|██████▏   | 6628/10696 [1:21:22<33:39,  2.01it/s] 62%|██████▏   | 6629/10696 [1:21:22<33:38,  2.01it/s] 62%|██████▏   | 6630/10696 [1:21:23<33:36,  2.02it/s] 62%|██████▏   | 6631/10696 [1:21:23<33:37,  2.01it/s] 62%|██████▏   | 6632/10696 [1:21:24<33:34,  2.02it/s] 62%|██████▏   | 6633/10696 [1:21:24<33:37,  2.01it/s] 62%|██████▏   | 6634/10696 [1:21:25<33:33,  2.02it/s] 62%|██████▏   | 6635/10696 [1:21:25<33:35,  2.01it/s] 62%|██████▏   | 6636/10696 [1:21:26<33:33,  2.02it/s] 62%|██████▏   | 6637/10696 [1:21:26<33:34,  2.01it/s] 62%|██████▏   | 6638/10696 [1:21:27<33:33,  2.02it/s] 62%|██████▏   | 6639/10696 [1:21:27<33:31,  2.02it/s] 62%|██████▏   | 6640/10696 [1:21:28<33:30,  2.02it/s] 62%|██████▏   | 6641/10696 [1:21:28<33:31,  2.02it/s] 62%|██████▏   | 6642/10696 [1:21:29<33:30,  2.02it/s] 62%|██████▏   | 6643/10696 [1:21:29<33:30,  2.02it/s] 62%|██████▏   | 6644/10696 [1:21:30<33:30,  2.01it/s] 62%|██████▏   | 6645/10696 [1:21:30<33:30,  2.02it/s] 62%|██████▏   | 6646/10696 [1:21:31<33:31,  2.01it/s] 62%|██████▏   | 6647/10696 [1:21:31<33:28,  2.02it/s] 62%|██████▏   | 6648/10696 [1:21:32<33:28,  2.02it/s] 62%|██████▏   | 6649/10696 [1:21:32<33:26,  2.02it/s] 62%|██████▏   | 6650/10696 [1:21:33<33:26,  2.02it/s]{'loss': 3.6932, 'grad_norm': 0.22338543832302094, 'learning_rate': 0.0003761419315780121, 'epoch': 0.62}
-                                                       62%|██████▏   | 6650/10696 [1:21:33<33:26,  2.02it/s] 62%|██████▏   | 6651/10696 [1:21:33<33:32,  2.01it/s] 62%|██████▏   | 6652/10696 [1:21:34<33:27,  2.01it/s] 62%|██████▏   | 6653/10696 [1:21:34<33:28,  2.01it/s] 62%|██████▏   | 6654/10696 [1:21:35<33:25,  2.02it/s] 62%|██████▏   | 6655/10696 [1:21:35<33:24,  2.02it/s] 62%|██████▏   | 6656/10696 [1:21:36<33:21,  2.02it/s] 62%|██████▏   | 6657/10696 [1:21:36<33:22,  2.02it/s] 62%|██████▏   | 6658/10696 [1:21:37<33:22,  2.02it/s] 62%|██████▏   | 6659/10696 [1:21:37<33:21,  2.02it/s] 62%|██████▏   | 6660/10696 [1:21:38<33:21,  2.02it/s] 62%|██████▏   | 6661/10696 [1:21:38<33:21,  2.02it/s] 62%|██████▏   | 6662/10696 [1:21:39<33:22,  2.01it/s] 62%|██████▏   | 6663/10696 [1:21:39<33:20,  2.02it/s] 62%|██████▏   | 6664/10696 [1:21:40<33:20,  2.02it/s] 62%|██████▏   | 6665/10696 [1:21:40<33:21,  2.01it/s] 62%|██████▏   | 6666/10696 [1:21:41<33:21,  2.01it/s] 62%|██████▏   | 6667/10696 [1:21:41<33:20,  2.01it/s] 62%|██████▏   | 6668/10696 [1:21:42<33:17,  2.02it/s] 62%|██████▏   | 6669/10696 [1:21:42<33:18,  2.02it/s] 62%|██████▏   | 6670/10696 [1:21:43<33:15,  2.02it/s] 62%|██████▏   | 6671/10696 [1:21:43<33:16,  2.02it/s] 62%|██████▏   | 6672/10696 [1:21:44<33:18,  2.01it/s] 62%|██████▏   | 6673/10696 [1:21:44<33:17,  2.01it/s] 62%|██████▏   | 6674/10696 [1:21:45<33:16,  2.01it/s] 62%|██████▏   | 6675/10696 [1:21:45<33:15,  2.02it/s]{'loss': 3.6918, 'grad_norm': 0.19816622138023376, 'learning_rate': 0.00037219368076119063, 'epoch': 0.62}
-                                                       62%|██████▏   | 6675/10696 [1:21:45<33:15,  2.02it/s] 62%|██████▏   | 6676/10696 [1:21:46<33:17,  2.01it/s] 62%|██████▏   | 6677/10696 [1:21:46<33:16,  2.01it/s] 62%|██████▏   | 6678/10696 [1:21:47<33:16,  2.01it/s] 62%|██████▏   | 6679/10696 [1:21:47<33:16,  2.01it/s] 62%|██████▏   | 6680/10696 [1:21:48<33:14,  2.01it/s] 62%|██████▏   | 6681/10696 [1:21:48<33:16,  2.01it/s] 62%|██████▏   | 6682/10696 [1:21:49<33:13,  2.01it/s] 62%|██████▏   | 6683/10696 [1:21:49<33:12,  2.01it/s] 62%|██████▏   | 6684/10696 [1:21:50<33:10,  2.02it/s] 62%|██████▎   | 6685/10696 [1:21:50<33:11,  2.01it/s] 63%|██████▎   | 6686/10696 [1:21:51<33:11,  2.01it/s] 63%|██████▎   | 6687/10696 [1:21:51<33:08,  2.02it/s] 63%|██████▎   | 6688/10696 [1:21:52<33:09,  2.01it/s] 63%|██████▎   | 6689/10696 [1:21:52<33:06,  2.02it/s] 63%|██████▎   | 6690/10696 [1:21:53<33:06,  2.02it/s] 63%|██████▎   | 6691/10696 [1:21:53<33:05,  2.02it/s] 63%|██████▎   | 6692/10696 [1:21:54<33:05,  2.02it/s] 63%|██████▎   | 6693/10696 [1:21:54<33:04,  2.02it/s] 63%|██████▎   | 6694/10696 [1:21:55<33:03,  2.02it/s] 63%|██████▎   | 6695/10696 [1:21:55<33:03,  2.02it/s] 63%|██████▎   | 6696/10696 [1:21:56<33:03,  2.02it/s] 63%|██████▎   | 6697/10696 [1:21:56<33:01,  2.02it/s] 63%|██████▎   | 6698/10696 [1:21:57<33:02,  2.02it/s] 63%|██████▎   | 6699/10696 [1:21:57<33:00,  2.02it/s] 63%|██████▎   | 6700/10696 [1:21:58<33:01,  2.02it/s]{'loss': 3.6889, 'grad_norm': 0.20481255650520325, 'learning_rate': 0.00036825393814977816, 'epoch': 0.63}
-                                                       63%|██████▎   | 6700/10696 [1:21:58<33:01,  2.02it/s] 63%|██████▎   | 6701/10696 [1:21:58<33:04,  2.01it/s] 63%|██████▎   | 6702/10696 [1:21:59<33:01,  2.02it/s] 63%|██████▎   | 6703/10696 [1:21:59<33:02,  2.01it/s] 63%|██████▎   | 6704/10696 [1:22:00<33:01,  2.01it/s] 63%|██████▎   | 6705/10696 [1:22:00<33:01,  2.01it/s] 63%|██████▎   | 6706/10696 [1:22:01<33:00,  2.01it/s] 63%|██████▎   | 6707/10696 [1:22:01<32:59,  2.02it/s] 63%|██████▎   | 6708/10696 [1:22:02<32:58,  2.02it/s] 63%|██████▎   | 6709/10696 [1:22:02<32:57,  2.02it/s] 63%|██████▎   | 6710/10696 [1:22:03<32:57,  2.02it/s] 63%|██████▎   | 6711/10696 [1:22:03<32:58,  2.01it/s] 63%|██████▎   | 6712/10696 [1:22:04<32:56,  2.02it/s] 63%|██████▎   | 6713/10696 [1:22:04<32:54,  2.02it/s] 63%|██████▎   | 6714/10696 [1:22:05<32:52,  2.02it/s] 63%|██████▎   | 6715/10696 [1:22:05<32:54,  2.02it/s] 63%|██████▎   | 6716/10696 [1:22:06<32:54,  2.02it/s] 63%|██████▎   | 6717/10696 [1:22:06<32:54,  2.01it/s] 63%|██████▎   | 6718/10696 [1:22:06<32:56,  2.01it/s] 63%|██████▎   | 6719/10696 [1:22:07<32:52,  2.02it/s] 63%|██████▎   | 6720/10696 [1:22:07<32:52,  2.02it/s] 63%|██████▎   | 6721/10696 [1:22:08<32:52,  2.02it/s] 63%|██████▎   | 6722/10696 [1:22:08<32:51,  2.02it/s] 63%|██████▎   | 6723/10696 [1:22:09<32:52,  2.01it/s] 63%|██████▎   | 6724/10696 [1:22:09<32:49,  2.02it/s] 63%|██████▎   | 6725/10696 [1:22:10<32:52,  2.01it/s]{'loss': 3.6956, 'grad_norm': 0.2148236483335495, 'learning_rate': 0.0003643229660167171, 'epoch': 0.63}
-                                                       63%|██████▎   | 6725/10696 [1:22:10<32:52,  2.01it/s] 63%|██████▎   | 6726/10696 [1:22:10<32:53,  2.01it/s] 63%|██████▎   | 6727/10696 [1:22:11<32:51,  2.01it/s] 63%|██████▎   | 6728/10696 [1:22:11<32:49,  2.01it/s] 63%|██████▎   | 6729/10696 [1:22:12<32:47,  2.02it/s] 63%|██████▎   | 6730/10696 [1:22:12<32:46,  2.02it/s] 63%|██████▎   | 6731/10696 [1:22:13<32:46,  2.02it/s] 63%|██████▎   | 6732/10696 [1:22:13<32:48,  2.01it/s] 63%|██████▎   | 6733/10696 [1:22:14<32:44,  2.02it/s] 63%|██████▎   | 6734/10696 [1:22:14<32:44,  2.02it/s] 63%|██████▎   | 6735/10696 [1:22:15<32:43,  2.02it/s] 63%|██████▎   | 6736/10696 [1:22:15<32:44,  2.02it/s] 63%|██████▎   | 6737/10696 [1:22:16<32:43,  2.02it/s] 63%|██████▎   | 6738/10696 [1:22:16<32:43,  2.02it/s] 63%|██████▎   | 6739/10696 [1:22:17<32:42,  2.02it/s] 63%|██████▎   | 6740/10696 [1:22:17<32:41,  2.02it/s] 63%|██████▎   | 6741/10696 [1:22:18<32:39,  2.02it/s] 63%|██���███▎   | 6742/10696 [1:22:18<32:40,  2.02it/s] 63%|██████▎   | 6743/10696 [1:22:19<32:41,  2.02it/s] 63%|██████▎   | 6744/10696 [1:22:19<32:38,  2.02it/s] 63%|██████▎   | 6745/10696 [1:22:20<32:41,  2.01it/s] 63%|██████▎   | 6746/10696 [1:22:20<32:38,  2.02it/s] 63%|██████▎   | 6747/10696 [1:22:21<32:38,  2.02it/s] 63%|██████▎   | 6748/10696 [1:22:21<32:39,  2.01it/s] 63%|██████▎   | 6749/10696 [1:22:22<32:38,  2.02it/s] 63%|██████▎   | 6750/10696 [1:22:22<32:38,  2.01it/s]{'loss': 3.6937, 'grad_norm': 0.2137901335954666, 'learning_rate': 0.0003604010260510895, 'epoch': 0.63}
-                                                       63%|██████▎   | 6750/10696 [1:22:22<32:38,  2.01it/s] 63%|██████▎   | 6751/10696 [1:22:23<32:44,  2.01it/s] 63%|██████▎   | 6752/10696 [1:22:23<32:41,  2.01it/s] 63%|██████▎   | 6753/10696 [1:22:24<32:39,  2.01it/s] 63%|██████▎   | 6754/10696 [1:22:24<32:37,  2.01it/s] 63%|██████▎   | 6755/10696 [1:22:25<32:40,  2.01it/s] 63%|██████▎   | 6756/10696 [1:22:25<32:38,  2.01it/s] 63%|██████▎   | 6757/10696 [1:22:26<32:37,  2.01it/s] 63%|██████▎   | 6758/10696 [1:22:26<32:36,  2.01it/s] 63%|██████▎   | 6759/10696 [1:22:27<32:35,  2.01it/s] 63%|██████▎   | 6760/10696 [1:22:27<32:32,  2.02it/s] 63%|██████▎   | 6761/10696 [1:22:28<32:33,  2.01it/s] 63%|██████▎   | 6762/10696 [1:22:28<32:32,  2.02it/s] 63%|██████▎   | 6763/10696 [1:22:29<32:33,  2.01it/s] 63%|██████▎   | 6764/10696 [1:22:29<32:30,  2.02it/s] 63%|██████▎   | 6765/10696 [1:22:30<32:32,  2.01it/s] 63%|██████▎   | 6766/10696 [1:22:30<32:31,  2.01it/s] 63%|██████▎   | 6767/10696 [1:22:31<32:31,  2.01it/s] 63%|██████▎   | 6768/10696 [1:22:31<32:29,  2.01it/s] 63%|██████▎   | 6769/10696 [1:22:32<32:29,  2.01it/s] 63%|██████▎   | 6770/10696 [1:22:32<32:27,  2.02it/s] 63%|██████▎   | 6771/10696 [1:22:33<32:28,  2.01it/s] 63%|██████▎   | 6772/10696 [1:22:33<32:25,  2.02it/s] 63%|██████▎   | 6773/10696 [1:22:34<32:25,  2.02it/s] 63%|██████▎   | 6774/10696 [1:22:34<32:23,  2.02it/s] 63%|██████▎   | 6775/10696 [1:22:35<32:24,  2.02it/s]{'loss': 3.6875, 'grad_norm': 0.21026833355426788, 'learning_rate': 0.00035648837934069646, 'epoch': 0.63}
-                                                       63%|██████▎   | 6775/10696 [1:22:35<32:24,  2.02it/s] 63%|██████▎   | 6776/10696 [1:22:35<32:31,  2.01it/s] 63%|██████▎   | 6777/10696 [1:22:36<32:27,  2.01it/s] 63%|██████▎   | 6778/10696 [1:22:36<32:26,  2.01it/s] 63%|██████▎   | 6779/10696 [1:22:37<32:22,  2.02it/s] 63%|██████▎   | 6780/10696 [1:22:37<32:22,  2.02it/s] 63%|██████▎   | 6781/10696 [1:22:38<32:20,  2.02it/s] 63%|██████▎   | 6782/10696 [1:22:39<37:45,  1.73it/s] 63%|██████▎   | 6783/10696 [1:22:39<36:05,  1.81it/s] 63%|██████▎   | 6784/10696 [1:22:40<35:00,  1.86it/s] 63%|██████▎   | 6785/10696 [1:22:40<34:10,  1.91it/s] 63%|██████▎   | 6786/10696 [1:22:41<33:37,  1.94it/s] 63%|██████▎   | 6787/10696 [1:22:41<33:11,  1.96it/s] 63%|██████▎   | 6788/10696 [1:22:42<32:56,  1.98it/s] 63%|██████▎   | 6789/10696 [1:22:42<32:48,  1.98it/s] 63%|██████▎   | 6790/10696 [1:22:43<32:36,  2.00it/s] 63%|██████▎   | 6791/10696 [1:22:43<32:30,  2.00it/s] 64%|██████▎   | 6792/10696 [1:22:43<32:23,  2.01it/s] 64%|██████▎   | 6793/10696 [1:22:44<32:20,  2.01it/s] 64%|██████▎   | 6794/10696 [1:22:44<32:16,  2.01it/s] 64%|██████▎   | 6795/10696 [1:22:45<32:15,  2.02it/s] 64%|██████▎   | 6796/10696 [1:22:45<32:13,  2.02it/s] 64%|██████▎   | 6797/10696 [1:22:46<32:14,  2.02it/s] 64%|██████▎   | 6798/10696 [1:22:46<32:11,  2.02it/s] 64%|██████▎   | 6799/10696 [1:22:47<32:12,  2.02it/s] 64%|██████▎   | 6800/10696 [1:22:47<32:10,  2.02it/s]{'loss': 3.6899, 'grad_norm': 0.20225094258785248, 'learning_rate': 0.00035258528635467666, 'epoch': 0.64}
-                                                       64%|██████▎   | 6800/10696 [1:22:47<32:10,  2.02it/s] 64%|██████▎   | 6801/10696 [1:22:48<32:12,  2.02it/s] 64%|██████▎   | 6802/10696 [1:22:48<32:11,  2.02it/s] 64%|██████▎   | 6803/10696 [1:22:49<32:12,  2.01it/s] 64%|██████▎   | 6804/10696 [1:22:49<32:14,  2.01it/s] 64%|██████▎   | 6805/10696 [1:22:50<32:10,  2.02it/s] 64%|████��█▎   | 6806/10696 [1:22:50<32:11,  2.01it/s] 64%|██████▎   | 6807/10696 [1:22:51<32:07,  2.02it/s] 64%|██████▎   | 6808/10696 [1:22:51<32:08,  2.02it/s] 64%|██████▎   | 6809/10696 [1:22:52<32:06,  2.02it/s] 64%|██████▎   | 6810/10696 [1:22:52<32:07,  2.02it/s] 64%|██████▎   | 6811/10696 [1:22:53<32:06,  2.02it/s] 64%|██████▎   | 6812/10696 [1:22:54<37:13,  1.74it/s] 64%|██████▎   | 6813/10696 [1:22:54<35:40,  1.81it/s] 64%|██████▎   | 6814/10696 [1:22:55<34:36,  1.87it/s] 64%|██████▎   | 6815/10696 [1:22:55<33:51,  1.91it/s] 64%|██████▎   | 6816/10696 [1:22:56<33:17,  1.94it/s] 64%|██████▎   | 6817/10696 [1:22:56<32:55,  1.96it/s] 64%|██████▎   | 6818/10696 [1:22:57<32:39,  1.98it/s] 64%|██████▍   | 6819/10696 [1:22:57<32:27,  1.99it/s] 64%|██████▍   | 6820/10696 [1:22:58<32:19,  2.00it/s] 64%|██████▍   | 6821/10696 [1:22:58<32:16,  2.00it/s] 64%|██████▍   | 6822/10696 [1:22:59<32:14,  2.00it/s] 64%|██████▍   | 6823/10696 [1:22:59<32:08,  2.01it/s] 64%|██████▍   | 6824/10696 [1:23:00<32:09,  2.01it/s] 64%|██████▍   | 6825/10696 [1:23:00<32:05,  2.01it/s]                                                      {'loss': 3.6923, 'grad_norm': 0.20757026970386505, 'learning_rate': 0.00034869200692616705, 'epoch': 0.64}
- 64%|██████▍   | 6825/10696 [1:23:00<32:05,  2.01it/s] 64%|██████▍   | 6826/10696 [1:23:01<32:05,  2.01it/s] 64%|██████▍   | 6827/10696 [1:23:01<32:03,  2.01it/s] 64%|██████▍   | 6828/10696 [1:23:02<32:03,  2.01it/s] 64%|██████▍   | 6829/10696 [1:23:02<32:02,  2.01it/s] 64%|██████▍   | 6830/10696 [1:23:03<31:59,  2.01it/s] 64%|██████▍   | 6831/10696 [1:23:03<31:57,  2.02it/s] 64%|██████▍   | 6832/10696 [1:23:04<31:55,  2.02it/s] 64%|██████▍   | 6833/10696 [1:23:04<31:57,  2.02it/s] 64%|██████▍   | 6834/10696 [1:23:05<31:55,  2.02it/s] 64%|██████▍   | 6835/10696 [1:23:05<31:56,  2.01it/s] 64%|██████▍   | 6836/10696 [1:23:06<31:55,  2.02it/s] 64%|██████▍   | 6837/10696 [1:23:06<31:55,  2.01it/s] 64%|██████▍   | 6838/10696 [1:23:07<31:55,  2.01it/s] 64%|██████▍   | 6839/10696 [1:23:07<31:53,  2.02it/s] 64%|██████▍   | 6840/10696 [1:23:08<31:52,  2.02it/s] 64%|██████▍   | 6841/10696 [1:23:08<31:51,  2.02it/s] 64%|██████▍   | 6842/10696 [1:23:09<31:51,  2.02it/s] 64%|██████▍   | 6843/10696 [1:23:09<31:49,  2.02it/s] 64%|██████▍   | 6844/10696 [1:23:10<31:51,  2.02it/s] 64%|██████▍   | 6845/10696 [1:23:10<31:48,  2.02it/s] 64%|██████▍   | 6846/10696 [1:23:11<31:50,  2.01it/s] 64%|██████▍   | 6847/10696 [1:23:11<31:50,  2.02it/s] 64%|██████▍   | 6848/10696 [1:23:12<31:49,  2.02it/s] 64%|██████▍   | 6849/10696 [1:23:12<31:46,  2.02it/s] 64%|██████▍   | 6850/10696 [1:23:13<31:46,  2.02it/s]{'loss': 3.6798, 'grad_norm': 0.20846058428287506, 'learning_rate': 0.00034480880023500553, 'epoch': 0.64}
-                                                       64%|██████▍   | 6850/10696 [1:23:13<31:46,  2.02it/s] 64%|██████▍   | 6851/10696 [1:23:13<31:48,  2.01it/s] 64%|██████▍   | 6852/10696 [1:23:14<31:47,  2.02it/s] 64%|██████▍   | 6853/10696 [1:23:14<31:44,  2.02it/s] 64%|██████▍   | 6854/10696 [1:23:15<31:46,  2.01it/s] 64%|██████▍   | 6855/10696 [1:23:15<31:47,  2.01it/s] 64%|██████▍   | 6856/10696 [1:23:16<31:46,  2.01it/s] 64%|██████▍   | 6857/10696 [1:23:16<31:45,  2.01it/s] 64%|██████▍   | 6858/10696 [1:23:17<31:45,  2.01it/s] 64%|██████▍   | 6859/10696 [1:23:17<31:44,  2.01it/s] 64%|██████▍   | 6860/10696 [1:23:17<31:42,  2.02it/s] 64%|██████▍   | 6861/10696 [1:23:18<31:41,  2.02it/s] 64%|██████▍   | 6862/10696 [1:23:18<31:42,  2.01it/s] 64%|██████▍   | 6863/10696 [1:23:19<31:40,  2.02it/s] 64%|██████▍   | 6864/10696 [1:23:19<31:41,  2.01it/s] 64%|██████▍   | 6865/10696 [1:23:20<31:39,  2.02it/s] 64%|██████▍   | 6866/10696 [1:23:20<31:40,  2.01it/s] 64%|██████▍   | 6867/10696 [1:23:21<31:38,  2.02it/s] 64%|██████▍   | 6868/10696 [1:23:21<31:38,  2.02it/s] 64%|██████▍   | 6869/10696 [1:23:22<31:39,  2.01it/s] 64%|██████▍   | 6870/10696 [1:23:22<31:37,  2.02it/s] 64%|██████▍   | 6871/10696 [1:23:23<31:36,  2.02it/s] 64%|██████▍   | 6872/10696 [1:23:23<31:35,  2.02it/s] 64%|██████▍   | 6873/10696 [1:23:24<31:36,  2.02it/s] 64%|██████▍   | 6874/10696 [1:23:24<31:36,  2.02it/s] 64%|██████▍   | 6875/10696 [1:23:25<31:36,  2.02it/s]{'loss': 3.6844, 'grad_norm': 0.2041950523853302, 'learning_rate': 0.0003409359247904765, 'epoch': 0.64}
-                                                       64%|██████▍   | 6875/10696 [1:23:25<31:36,  2.02it/s] 64%|██████▍   | 6876/10696 [1:23:25<31:37,  2.01it/s] 64%|██████▍   | 6877/10696 [1:23:26<31:35,  2.01it/s] 64%|██████▍   | 6878/10696 [1:23:26<31:36,  2.01it/s] 64%|██████▍   | 6879/10696 [1:23:27<31:33,  2.02it/s] 64%|██████▍   | 6880/10696 [1:23:27<31:34,  2.01it/s] 64%|██████▍   | 6881/10696 [1:23:28<31:30,  2.02it/s] 64%|██████▍   | 6882/10696 [1:23:28<31:32,  2.02it/s] 64%|██████▍   | 6883/10696 [1:23:29<31:29,  2.02it/s] 64%|██████▍   | 6884/10696 [1:23:29<31:32,  2.01it/s] 64%|██████▍   | 6885/10696 [1:23:30<31:29,  2.02it/s] 64%|██████▍   | 6886/10696 [1:23:30<31:30,  2.02it/s] 64%|██████▍   | 6887/10696 [1:23:31<31:29,  2.02it/s] 64%|██████▍   | 6888/10696 [1:23:31<31:27,  2.02it/s] 64%|██████▍   | 6889/10696 [1:23:32<31:28,  2.02it/s] 64%|██████▍   | 6890/10696 [1:23:32<31:26,  2.02it/s] 64%|██████▍   | 6891/10696 [1:23:33<31:26,  2.02it/s] 64%|██████▍   | 6892/10696 [1:23:33<31:26,  2.02it/s] 64%|██████▍   | 6893/10696 [1:23:34<31:26,  2.02it/s] 64%|██████▍   | 6894/10696 [1:23:34<31:25,  2.02it/s] 64%|██████▍   | 6895/10696 [1:23:35<31:25,  2.02it/s] 64%|██████▍   | 6896/10696 [1:23:35<31:26,  2.01it/s] 64%|██████▍   | 6897/10696 [1:23:36<31:23,  2.02it/s] 64%|██████▍   | 6898/10696 [1:23:36<31:24,  2.02it/s] 65%|██████▍   | 6899/10696 [1:23:37<31:20,  2.02it/s] 65%|██████▍   | 6900/10696 [1:23:37<31:22,  2.02it/s]{'loss': 3.6852, 'grad_norm': 0.21579983830451965, 'learning_rate': 0.0003370736384141031, 'epoch': 0.65}
-                                                       65%|██████▍   | 6900/10696 [1:23:37<31:22,  2.02it/s] 65%|██████▍   | 6901/10696 [1:23:38<31:24,  2.01it/s] 65%|██████▍   | 6902/10696 [1:23:38<31:24,  2.01it/s] 65%|██████▍   | 6903/10696 [1:23:39<31:24,  2.01it/s] 65%|██████▍   | 6904/10696 [1:23:39<31:23,  2.01it/s] 65%|██████▍   | 6905/10696 [1:23:40<31:21,  2.01it/s] 65%|██████▍   | 6906/10696 [1:23:40<31:21,  2.01it/s] 65%|██████▍   | 6907/10696 [1:23:41<31:18,  2.02it/s] 65%|██████▍   | 6908/10696 [1:23:41<31:19,  2.02it/s] 65%|██████▍   | 6909/10696 [1:23:42<31:17,  2.02it/s] 65%|██████▍   | 6910/10696 [1:23:42<31:18,  2.02it/s] 65%|██████▍   | 6911/10696 [1:23:43<31:17,  2.02it/s] 65%|██████▍   | 6912/10696 [1:23:43<31:17,  2.02it/s] 65%|██████▍   | 6913/10696 [1:23:44<31:17,  2.01it/s] 65%|██████▍   | 6914/10696 [1:23:44<31:15,  2.02it/s] 65%|██████▍   | 6915/10696 [1:23:45<31:16,  2.01it/s] 65%|██████▍   | 6916/10696 [1:23:45<31:12,  2.02it/s] 65%|██████▍   | 6917/10696 [1:23:46<31:13,  2.02it/s] 65%|██████▍   | 6918/10696 [1:23:46<31:12,  2.02it/s] 65%|██████▍   | 6919/10696 [1:23:47<31:13,  2.02it/s] 65%|██████▍   | 6920/10696 [1:23:47<31:13,  2.02it/s] 65%|██████▍   | 6921/10696 [1:23:48<31:12,  2.02it/s] 65%|██████▍   | 6922/10696 [1:23:48<31:13,  2.01it/s] 65%|██████▍   | 6923/10696 [1:23:49<31:11,  2.02it/s] 65%|██████▍   | 6924/10696 [1:23:49<31:12,  2.01it/s] 65%|██████▍   | 6925/10696 [1:23:50<31:11,  2.01it/s]{'loss': 3.6886, 'grad_norm': 0.21700400114059448, 'learning_rate': 0.00033322219822248144, 'epoch': 0.65}
-                                                       65%|██████▍   | 6925/10696 [1:23:50<31:11,  2.01it/s] 65%|██████▍   | 6926/10696 [1:23:50<31:13,  2.01it/s] 65%|██████▍   | 6927/10696 [1:23:51<31:13,  2.01it/s] 65%|██████▍   | 6928/10696 [1:23:51<31:10,  2.01it/s] 65%|██████▍   | 6929/10696 [1:23:52<31:12,  2.01it/s] 65%|██████▍   | 6930/10696 [1:23:52<31:09,  2.01it/s] 65%|██████▍   | 6931/10696 [1:23:53<31:08,  2.01it/s] 65%|██████▍   | 6932/10696 [1:23:53<31:07,  2.02it/s] 65%|██████▍   | 6933/10696 [1:23:54<31:07,  2.02it/s] 65%|██████▍   | 6934/10696 [1:23:54<31:07,  2.01it/s] 65%|██████▍   | 6935/10696 [1:23:55<31:05,  2.02it/s] 65%|██████▍   | 6936/10696 [1:23:55<31:06,  2.01it/s] 65%|██████▍   | 6937/10696 [1:23:56<31:03,  2.02it/s] 65%|██████▍   | 6938/10696 [1:23:56<31:05,  2.01it/s] 65%|██████▍   | 6939/10696 [1:23:57<31:03,  2.02it/s] 65%|██████▍   | 6940/10696 [1:23:57<31:03,  2.02it/s] 65%|██████▍   | 6941/10696 [1:23:58<31:01,  2.02it/s] 65%|██████▍   | 6942/10696 [1:23:58<31:02,  2.02it/s] 65%|██████▍   | 6943/10696 [1:23:59<31:00,  2.02it/s] 65%|██████▍   | 6944/10696 [1:23:59<30:59,  2.02it/s] 65%|██████▍   | 6945/10696 [1:24:00<31:01,  2.02it/s] 65%|██████▍   | 6946/10696 [1:24:00<31:00,  2.02it/s] 65%|██████▍   | 6947/10696 [1:24:01<30:59,  2.02it/s] 65%|██████▍   | 6948/10696 [1:24:01<30:56,  2.02it/s] 65%|██████▍   | 6949/10696 [1:24:02<30:57,  2.02it/s] 65%|██████▍   | 6950/10696 [1:24:02<30:55,  2.02it/s]                                                      {'loss': 3.6801, 'grad_norm': 0.21871207654476166, 'learning_rate': 0.0003293818606101662, 'epoch': 0.65}
- 65%|██████▍   | 6950/10696 [1:24:02<30:55,  2.02it/s] 65%|██████▍   | 6951/10696 [1:24:03<30:58,  2.02it/s] 65%|██████▍   | 6952/10696 [1:24:03<30:57,  2.02it/s] 65%|██████▌   | 6953/10696 [1:24:04<30:55,  2.02it/s] 65%|██████▌   | 6954/10696 [1:24:04<30:58,  2.01it/s] 65%|██████▌   | 6955/10696 [1:24:05<30:55,  2.02it/s] 65%|██████▌   | 6956/10696 [1:24:05<30:56,  2.01it/s] 65%|██████▌   | 6957/10696 [1:24:06<30:55,  2.02it/s] 65%|██████▌   | 6958/10696 [1:24:06<30:55,  2.01it/s] 65%|██████▌   | 6959/10696 [1:24:07<30:54,  2.01it/s] 65%|██████▌   | 6960/10696 [1:24:07<30:53,  2.02it/s] 65%|██████▌   | 6961/10696 [1:24:08<30:53,  2.01it/s] 65%|██████▌   | 6962/10696 [1:24:08<30:52,  2.02it/s] 65%|██████▌   | 6963/10696 [1:24:09<30:55,  2.01it/s] 65%|██████▌   | 6964/10696 [1:24:09<30:54,  2.01it/s] 65%|██████▌   | 6965/10696 [1:24:10<30:52,  2.01it/s] 65%|██████▌   | 6966/10696 [1:24:10<30:53,  2.01it/s] 65%|██████▌   | 6967/10696 [1:24:11<30:51,  2.01it/s] 65%|██████▌   | 6968/10696 [1:24:11<30:52,  2.01it/s] 65%|██████▌   | 6969/10696 [1:24:12<30:52,  2.01it/s] 65%|██████▌   | 6970/10696 [1:24:12<30:50,  2.01it/s] 65%|██████▌   | 6971/10696 [1:24:13<30:49,  2.01it/s] 65%|██████▌   | 6972/10696 [1:24:13<30:48,  2.01it/s] 65%|██████▌   | 6973/10696 [1:24:14<30:47,  2.02it/s] 65%|██████▌   | 6974/10696 [1:24:14<30:47,  2.01it/s] 65%|██████▌   | 6975/10696 [1:24:15<30:48,  2.01it/s]{'loss': 3.6794, 'grad_norm': 0.19976946711540222, 'learning_rate': 0.00032555288123260105, 'epoch': 0.65}
-                                                       65%|██████▌   | 6975/10696 [1:24:15<30:48,  2.01it/s] 65%|██████▌   | 6976/10696 [1:24:15<30:48,  2.01it/s] 65%|██████▌   | 6977/10696 [1:24:16<30:46,  2.01it/s] 65%|██████▌   | 6978/10696 [1:24:16<30:45,  2.01it/s] 65%|██████▌   | 6979/10696 [1:24:17<30:46,  2.01it/s] 65%|██████▌   | 6980/10696 [1:24:17<30:44,  2.01it/s] 65%|██████▌   | 6981/10696 [1:24:18<30:45,  2.01it/s] 65%|██████▌   | 6982/10696 [1:24:18<30:43,  2.01it/s] 65%|██████▌   | 6983/10696 [1:24:19<30:43,  2.01it/s] 65%|██████▌   | 6984/10696 [1:24:19<30:41,  2.02it/s] 65%|██████▌   | 6985/10696 [1:24:20<30:42,  2.01it/s] 65%|██████▌   | 6986/10696 [1:24:20<30:43,  2.01it/s] 65%|██████▌   | 6987/10696 [1:24:21<30:40,  2.01it/s] 65%|██████▌   | 6988/10696 [1:24:21<30:41,  2.01it/s] 65%|██████▌   | 6989/10696 [1:24:22<30:39,  2.02it/s] 65%|██████▌   | 6990/10696 [1:24:22<30:38,  2.02it/s] 65%|██████▌   | 6991/10696 [1:24:23<30:38,  2.01it/s] 65%|██████▌   | 6992/10696 [1:24:23<30:38,  2.01it/s] 65%|██████▌   | 6993/10696 [1:24:23<30:39,  2.01it/s] 65%|██████▌   | 6994/10696 [1:24:24<30:36,  2.02it/s] 65%|██████▌   | 6995/10696 [1:24:24<30:37,  2.01it/s] 65%|██████▌   | 6996/10696 [1:24:25<30:35,  2.02it/s] 65%|██████▌   | 6997/10696 [1:24:25<30:35,  2.01it/s] 65%|██████▌   | 6998/10696 [1:24:26<30:35,  2.02it/s] 65%|██████▌   | 6999/10696 [1:24:26<30:34,  2.02it/s] 65%|██████▌   | 7000/10696 [1:24:27<30:31,  2.02it/s]{'loss': 3.6887, 'grad_norm': 0.20427118241786957, 'learning_rate': 0.0003217355149890993, 'epoch': 0.65}
-                                                       65%|██████▌   | 7000/10696 [1:24:27<30:31,  2.02it/s] 65%|██████▌   | 7001/10696 [1:24:27<30:35,  2.01it/s] 65%|██████▌   | 7002/10696 [1:24:28<30:35,  2.01it/s] 65%|██████▌   | 7003/10696 [1:24:28<30:32,  2.01it/s] 65%|██████▌   | 7004/10696 [1:24:29<30:32,  2.01it/s] 65%|██████▌   | 7005/10696 [1:24:29<30:31,  2.02it/s] 66%|██████▌   | 7006/10696 [1:24:30<30:30,  2.02it/s] 66%|██████▌   | 7007/10696 [1:24:30<30:29,  2.02it/s] 66%|██████▌   | 7008/10696 [1:24:31<30:30,  2.01it/s] 66%|██████▌   | 7009/10696 [1:24:31<30:31,  2.01it/s] 66%|██████▌   | 7010/10696 [1:24:32<30:30,  2.01it/s] 66%|██████▌   | 7011/10696 [1:24:32<30:31,  2.01it/s] 66%|██████▌   | 7012/10696 [1:24:33<30:30,  2.01it/s] 66%|██████▌   | 7013/10696 [1:24:33<30:33,  2.01it/s] 66%|██████▌   | 7014/10696 [1:24:34<30:31,  2.01it/s] 66%|██████▌   | 7015/10696 [1:24:34<30:29,  2.01it/s] 66%|██████▌   | 7016/10696 [1:24:35<30:30,  2.01it/s] 66%|██████▌   | 7017/10696 [1:24:35<30:27,  2.01it/s] 66%|██████▌   | 7018/10696 [1:24:36<30:28,  2.01it/s] 66%|██████▌   | 7019/10696 [1:24:36<30:27,  2.01it/s] 66%|██████▌   | 7020/10696 [1:24:37<30:25,  2.01it/s] 66%|██████▌   | 7021/10696 [1:24:37<30:25,  2.01it/s] 66%|██████▌   | 7022/10696 [1:24:38<30:21,  2.02it/s] 66%|██████▌   | 7023/10696 [1:24:38<30:24,  2.01it/s] 66%|██████▌   | 7024/10696 [1:24:39<30:24,  2.01it/s] 66%|██████▌   | 7025/10696 [1:24:39<30:22,  2.01it/s]{'loss': 3.6747, 'grad_norm': 0.2095073163509369, 'learning_rate': 0.0003179300160058761, 'epoch': 0.66}
-                                                       66%|██████▌   | 7025/10696 [1:24:39<30:22,  2.01it/s] 66%|██████▌   | 7026/10696 [1:24:40<30:25,  2.01it/s] 66%|██████▌   | 7027/10696 [1:24:40<30:22,  2.01it/s] 66%|██████▌   | 7028/10696 [1:24:41<30:23,  2.01it/s] 66%|██████▌   | 7029/10696 [1:24:41<30:20,  2.01it/s] 66%|██████▌   | 7030/10696 [1:24:42<30:20,  2.01it/s] 66%|██████▌   | 7031/10696 [1:24:42<30:20,  2.01it/s] 66%|██████▌   | 7032/10696 [1:24:43<30:20,  2.01it/s] 66%|██████▌   | 7033/10696 [1:24:43<30:21,  2.01it/s] 66%|██████▌   | 7034/10696 [1:24:44<30:20,  2.01it/s] 66%|██████▌   | 7035/10696 [1:24:44<30:20,  2.01it/s] 66%|██████▌   | 7036/10696 [1:24:45<30:18,  2.01it/s] 66%|██████▌   | 7037/10696 [1:24:45<30:18,  2.01it/s] 66%|██████▌   | 7038/10696 [1:24:46<30:16,  2.01it/s] 66%|██████▌   | 7039/10696 [1:24:46<30:16,  2.01it/s] 66%|██████▌   | 7040/10696 [1:24:47<30:15,  2.01it/s] 66%|██████▌   | 7041/10696 [1:24:47<30:14,  2.01it/s] 66%|██████▌   | 7042/10696 [1:24:48<30:11,  2.02it/s] 66%|██████▌   | 7043/10696 [1:24:48<30:15,  2.01it/s] 66%|██████▌   | 7044/10696 [1:24:49<30:13,  2.01it/s] 66%|██████▌   | 7045/10696 [1:24:49<30:14,  2.01it/s] 66%|██████▌   | 7046/10696 [1:24:50<30:13,  2.01it/s] 66%|██████▌   | 7047/10696 [1:24:50<30:11,  2.01it/s] 66%|██████▌   | 7048/10696 [1:24:51<30:10,  2.01it/s] 66%|██████▌   | 7049/10696 [1:24:51<30:08,  2.02it/s] 66%|██████▌   | 7050/10696 [1:24:52<30:10,  2.01it/s]{'loss': 3.6778, 'grad_norm': 0.20982585847377777, 'learning_rate': 0.0003141366376191295, 'epoch': 0.66}
-                                                       66%|██████▌   | 7050/10696 [1:24:52<30:10,  2.01it/s] 66%|██████▌   | 7051/10696 [1:24:52<30:12,  2.01it/s] 66%|██████▌   | 7052/10696 [1:24:53<30:09,  2.01it/s] 66%|██████▌   | 7053/10696 [1:24:53<30:08,  2.01it/s] 66%|██████▌   | 7054/10696 [1:24:54<30:07,  2.01it/s] 66%|██████▌   | 7055/10696 [1:24:54<30:09,  2.01it/s] 66%|██████▌   | 7056/10696 [1:24:55<30:08,  2.01it/s] 66%|██████▌   | 7057/10696 [1:24:55<30:08,  2.01it/s] 66%|██████▌   | 7058/10696 [1:24:56<30:06,  2.01it/s] 66%|██████▌   | 7059/10696 [1:24:56<30:05,  2.01it/s] 66%|██████▌   | 7060/10696 [1:24:57<30:04,  2.02it/s] 66%|██████▌   | 7061/10696 [1:24:57<30:04,  2.01it/s] 66%|██████▌   | 7062/10696 [1:24:58<30:04,  2.01it/s] 66%|██████▌   | 7063/10696 [1:24:58<30:02,  2.02it/s] 66%|██████▌   | 7064/10696 [1:24:59<30:04,  2.01it/s] 66%|██████▌   | 7065/10696 [1:24:59<30:03,  2.01it/s] 66%|██████▌   | 7066/10696 [1:25:00<30:01,  2.01it/s] 66%|██████▌   | 7067/10696 [1:25:00<30:01,  2.01it/s] 66%|██████▌   | 7068/10696 [1:25:01<30:00,  2.02it/s] 66%|██████▌   | 7069/10696 [1:25:01<29:59,  2.02it/s] 66%|██████▌   | 7070/10696 [1:25:02<29:57,  2.02it/s] 66%|██████▌   | 7071/10696 [1:25:02<29:58,  2.02it/s] 66%|██████▌   | 7072/10696 [1:25:03<29:58,  2.02it/s] 66%|██████▌   | 7073/10696 [1:25:03<29:58,  2.01it/s] 66%|██████▌   | 7074/10696 [1:25:04<29:58,  2.01it/s] 66%|██████▌   | 7075/10696 [1:25:04<29:57,  2.01it/s]                                                      {'loss': 3.6812, 'grad_norm': 0.20295394957065582, 'learning_rate': 0.0003103556323581765, 'epoch': 0.66}
- 66%|██████▌   | 7075/10696 [1:25:04<29:57,  2.01it/s] 66%|██████▌   | 7076/10696 [1:25:05<30:00,  2.01it/s] 66%|██████▌   | 7077/10696 [1:25:05<29:58,  2.01it/s] 66%|██████▌   | 7078/10696 [1:25:06<29:57,  2.01it/s] 66%|██████▌   | 7079/10696 [1:25:06<29:56,  2.01it/s] 66%|██████▌   | 7080/10696 [1:25:07<29:55,  2.01it/s] 66%|██████▌   | 7081/10696 [1:25:07<29:55,  2.01it/s] 66%|██████▌   | 7082/10696 [1:25:08<29:54,  2.01it/s] 66%|██████▌   | 7083/10696 [1:25:08<29:53,  2.01it/s] 66%|██████▌   | 7084/10696 [1:25:09<29:55,  2.01it/s] 66%|██████▌   | 7085/10696 [1:25:09<29:54,  2.01it/s] 66%|██████▌   | 7086/10696 [1:25:10<29:54,  2.01it/s] 66%|██████▋   | 7087/10696 [1:25:10<29:51,  2.01it/s] 66%|██████▋   | 7088/10696 [1:25:11<29:50,  2.01it/s] 66%|██████▋   | 7089/10696 [1:25:11<29:48,  2.02it/s] 66%|██████▋   | 7090/10696 [1:25:12<29:48,  2.02it/s] 66%|██████▋   | 7091/10696 [1:25:12<29:46,  2.02it/s] 66%|██████▋   | 7092/10696 [1:25:13<29:48,  2.02it/s] 66%|██████▋   | 7093/10696 [1:25:13<29:46,  2.02it/s] 66%|██████▋   | 7094/10696 [1:25:14<29:46,  2.02it/s] 66%|██████▋   | 7095/10696 [1:25:14<29:47,  2.01it/s] 66%|██████▋   | 7096/10696 [1:25:15<29:46,  2.02it/s] 66%|██████▋   | 7097/10696 [1:25:15<29:47,  2.01it/s] 66%|██████▋   | 7098/10696 [1:25:16<29:44,  2.02it/s] 66%|██████▋   | 7099/10696 [1:25:16<29:44,  2.02it/s] 66%|██████▋   | 7100/10696 [1:25:17<29:45,  2.01it/s]{'loss': 3.6761, 'grad_norm': 0.21182562410831451, 'learning_rate': 0.0003065872519286418, 'epoch': 0.66}
-                                                       66%|██████▋   | 7100/10696 [1:25:17<29:45,  2.01it/s] 66%|██████▋   | 7101/10696 [1:25:17<29:52,  2.01it/s] 66%|██████▋   | 7102/10696 [1:25:18<29:50,  2.01it/s] 66%|██████▋   | 7103/10696 [1:25:18<29:48,  2.01it/s] 66%|██████▋   | 7104/10696 [1:25:19<29:47,  2.01it/s] 66%|██████▋   | 7105/10696 [1:25:19<29:46,  2.01it/s] 66%|██████▋   | 7106/10696 [1:25:20<29:46,  2.01it/s] 66%|██████▋   | 7107/10696 [1:25:20<29:46,  2.01it/s] 66%|██████▋   | 7108/10696 [1:25:21<29:43,  2.01it/s] 66%|██████▋   | 7109/10696 [1:25:21<29:42,  2.01it/s] 66%|██████▋   | 7110/10696 [1:25:22<29:42,  2.01it/s] 66%|██████▋   | 7111/10696 [1:25:22<29:40,  2.01it/s] 66%|██████▋   | 7112/10696 [1:25:23<29:44,  2.01it/s] 67%|██████▋   | 7113/10696 [1:25:23<29:41,  2.01it/s] 67%|██████▋   | 7114/10696 [1:25:24<29:40,  2.01it/s] 67%|██████▋   | 7115/10696 [1:25:24<29:36,  2.02it/s] 67%|██████▋   | 7116/10696 [1:25:25<29:37,  2.01it/s] 67%|██████▋   | 7117/10696 [1:25:25<29:35,  2.02it/s] 67%|██████▋   | 7118/10696 [1:25:26<29:36,  2.01it/s] 67%|██████▋   | 7119/10696 [1:25:26<29:33,  2.02it/s] 67%|██████▋   | 7120/10696 [1:25:27<29:34,  2.02it/s] 67%|██████▋   | 7121/10696 [1:25:27<29:32,  2.02it/s] 67%|██████▋   | 7122/10696 [1:25:28<29:32,  2.02it/s] 67%|██████▋   | 7123/10696 [1:25:28<29:33,  2.02it/s] 67%|██████▋   | 7124/10696 [1:25:29<29:31,  2.02it/s] 67%|██████▋   | 7125/10696 [1:25:29<29:31,  2.02it/s]                                                      {'loss': 3.6666, 'grad_norm': 0.22143453359603882, 'learning_rate': 0.000302831747195701, 'epoch': 0.67}
- 67%|██████▋   | 7125/10696 [1:25:29<29:31,  2.02it/s] 67%|██████▋   | 7126/10696 [1:25:30<29:31,  2.02it/s] 67%|██████▋   | 7127/10696 [1:25:30<29:30,  2.02it/s] 67%|██████▋   | 7128/10696 [1:25:31<29:28,  2.02it/s] 67%|██████▋   | 7129/10696 [1:25:31<29:29,  2.02it/s] 67%|██████▋   | 7130/10696 [1:25:32<29:29,  2.01it/s] 67%|██████▋   | 7131/10696 [1:25:32<29:29,  2.01it/s] 67%|██████▋   | 7132/10696 [1:25:33<29:29,  2.01it/s] 67%|██████▋   | 7133/10696 [1:25:33<29:27,  2.02it/s] 67%|██████▋   | 7134/10696 [1:25:34<29:28,  2.01it/s] 67%|██████▋   | 7135/10696 [1:25:34<29:26,  2.02it/s] 67%|██████▋   | 7136/10696 [1:25:35<29:27,  2.01it/s] 67%|██████▋   | 7137/10696 [1:25:35<29:27,  2.01it/s] 67%|██████▋   | 7138/10696 [1:25:36<29:27,  2.01it/s] 67%|██████▋   | 7139/10696 [1:25:36<29:28,  2.01it/s] 67%|██████▋   | 7140/10696 [1:25:36<29:25,  2.01it/s] 67%|██████▋   | 7141/10696 [1:25:37<29:26,  2.01it/s] 67%|██████▋   | 7142/10696 [1:25:37<29:23,  2.02it/s] 67%|██████▋   | 7143/10696 [1:25:38<29:23,  2.01it/s] 67%|██████▋   | 7144/10696 [1:25:38<29:24,  2.01it/s] 67%|██████▋   | 7145/10696 [1:25:39<29:22,  2.01it/s] 67%|██████▋   | 7146/10696 [1:25:39<29:23,  2.01it/s] 67%|██████▋   | 7147/10696 [1:25:40<29:21,  2.01it/s] 67%|██████▋   | 7148/10696 [1:25:40<29:20,  2.01it/s] 67%|██████▋   | 7149/10696 [1:25:41<29:20,  2.01it/s] 67%|██████▋   | 7150/10696 [1:25:41<29:19,  2.02it/s]{'loss': 3.6744, 'grad_norm': 0.2113507241010666, 'learning_rate': 0.0002990893681673813, 'epoch': 0.67}
-                                                       67%|██████▋   | 7150/10696 [1:25:41<29:19,  2.02it/s] 67%|██████▋   | 7151/10696 [1:25:42<29:23,  2.01it/s] 67%|██████▋   | 7152/10696 [1:25:42<29:22,  2.01it/s] 67%|██████▋   | 7153/10696 [1:25:43<29:21,  2.01it/s] 67%|██████▋   | 7154/10696 [1:25:43<29:21,  2.01it/s] 67%|██████▋   | 7155/10696 [1:25:44<29:19,  2.01it/s] 67%|██████▋   | 7156/10696 [1:25:44<29:20,  2.01it/s] 67%|██████▋   | 7157/10696 [1:25:45<29:18,  2.01it/s] 67%|██████▋   | 7158/10696 [1:25:45<29:17,  2.01it/s] 67%|██████▋   | 7159/10696 [1:25:46<29:17,  2.01it/s] 67%|██████▋   | 7160/10696 [1:25:46<29:16,  2.01it/s] 67%|██████▋   | 7161/10696 [1:25:47<29:18,  2.01it/s] 67%|██████▋   | 7162/10696 [1:25:47<29:15,  2.01it/s] 67%|██████▋   | 7163/10696 [1:25:48<29:16,  2.01it/s] 67%|██████▋   | 7164/10696 [1:25:48<29:13,  2.01it/s] 67%|██████▋   | 7165/10696 [1:25:49<29:14,  2.01it/s] 67%|██████▋   | 7166/10696 [1:25:49<29:12,  2.01it/s] 67%|██████▋   | 7167/10696 [1:25:50<29:13,  2.01it/s] 67%|██████▋   | 7168/10696 [1:25:50<29:12,  2.01it/s] 67%|██████▋   | 7169/10696 [1:25:51<29:13,  2.01it/s] 67%|██████▋   | 7170/10696 [1:25:51<29:11,  2.01it/s] 67%|██████▋   | 7171/10696 [1:25:52<29:09,  2.01it/s] 67%|██████▋   | 7172/10696 [1:25:52<29:08,  2.02it/s] 67%|██████▋   | 7173/10696 [1:25:53<29:09,  2.01it/s] 67%|██████▋   | 7174/10696 [1:25:53<29:06,  2.02it/s] 67%|██████▋   | 7175/10696 [1:25:54<29:08,  2.01it/s]{'loss': 3.6718, 'grad_norm': 0.20773306488990784, 'learning_rate': 0.00029536036397791675, 'epoch': 0.67}
-                                                       67%|██████▋   | 7175/10696 [1:25:54<29:08,  2.01it/s] 67%|██████▋   | 7176/10696 [1:25:54<29:10,  2.01it/s] 67%|██████▋   | 7177/10696 [1:25:55<29:07,  2.01it/s] 67%|██████▋   | 7178/10696 [1:25:55<29:07,  2.01it/s] 67%|██████▋   | 7179/10696 [1:25:56<29:06,  2.01it/s] 67%|██████▋   | 7180/10696 [1:25:56<29:04,  2.01it/s] 67%|██████▋   | 7181/10696 [1:25:57<29:04,  2.01it/s] 67%|██████▋   | 7182/10696 [1:25:57<29:05,  2.01it/s] 67%|██████▋   | 7183/10696 [1:25:58<29:05,  2.01it/s] 67%|██████▋   | 7184/10696 [1:25:58<29:05,  2.01it/s] 67%|██████▋   | 7185/10696 [1:25:59<29:04,  2.01it/s] 67%|██████▋   | 7186/10696 [1:25:59<29:03,  2.01it/s] 67%|██████▋   | 7187/10696 [1:26:00<29:01,  2.01it/s] 67%|██████▋   | 7188/10696 [1:26:00<29:02,  2.01it/s] 67%|██████▋   | 7189/10696 [1:26:01<29:01,  2.01it/s] 67%|██████▋   | 7190/10696 [1:26:01<29:01,  2.01it/s] 67%|██████▋   | 7191/10696 [1:26:02<28:59,  2.01it/s] 67%|██████▋   | 7192/10696 [1:26:02<28:59,  2.01it/s] 67%|██████▋   | 7193/10696 [1:26:03<28:57,  2.02it/s] 67%|██████▋   | 7194/10696 [1:26:03<28:57,  2.02it/s] 67%|██████▋   | 7195/10696 [1:26:04<28:56,  2.02it/s] 67%|██████▋   | 7196/10696 [1:26:04<28:58,  2.01it/s] 67%|██████▋   | 7197/10696 [1:26:05<28:56,  2.01it/s] 67%|██████▋   | 7198/10696 [1:26:05<28:55,  2.02it/s] 67%|██████▋   | 7199/10696 [1:26:06<28:55,  2.02it/s] 67%|██████▋   | 7200/10696 [1:26:06<28:54,  2.02it/s]{'loss': 3.6759, 'grad_norm': 0.22245606780052185, 'learning_rate': 0.0002916449828711646, 'epoch': 0.67}
-                                                       67%|██████▋   | 7200/10696 [1:26:06<28:54,  2.02it/s] 67%|██████▋   | 7201/10696 [1:26:07<28:55,  2.01it/s] 67%|██████▋   | 7202/10696 [1:26:07<28:54,  2.01it/s] 67%|██████▋   | 7203/10696 [1:26:08<28:55,  2.01it/s] 67%|██████▋   | 7204/10696 [1:26:08<28:53,  2.01it/s] 67%|██████▋   | 7205/10696 [1:26:09<28:53,  2.01it/s] 67%|██████▋   | 7206/10696 [1:26:09<28:51,  2.02it/s] 67%|██████▋   | 7207/10696 [1:26:10<28:49,  2.02it/s] 67%|██████▋   | 7208/10696 [1:26:10<28:51,  2.01it/s] 67%|██████▋   | 7209/10696 [1:26:11<28:49,  2.02it/s] 67%|██████▋   | 7210/10696 [1:26:11<28:50,  2.01it/s] 67%|██████▋   | 7211/10696 [1:26:12<28:48,  2.02it/s] 67%|██████▋   | 7212/10696 [1:26:12<28:49,  2.01it/s] 67%|██████▋   | 7213/10696 [1:26:13<28:46,  2.02it/s] 67%|██████▋   | 7214/10696 [1:26:13<28:47,  2.02it/s] 67%|██████▋   | 7215/10696 [1:26:14<28:46,  2.02it/s] 67%|██████▋   | 7216/10696 [1:26:14<28:45,  2.02it/s] 67%|██████▋   | 7217/10696 [1:26:15<28:45,  2.02it/s] 67%|██████▋   | 7218/10696 [1:26:15<28:43,  2.02it/s] 67%|██████▋   | 7219/10696 [1:26:16<28:43,  2.02it/s] 68%|██████▊   | 7220/10696 [1:26:16<28:42,  2.02it/s] 68%|██████▊   | 7221/10696 [1:26:17<28:43,  2.02it/s] 68%|██████▊   | 7222/10696 [1:26:17<28:40,  2.02it/s] 68%|██████▊   | 7223/10696 [1:26:18<28:42,  2.02it/s] 68%|██████▊   | 7224/10696 [1:26:18<28:41,  2.02it/s] 68%|██████▊   | 7225/10696 [1:26:19<28:43,  2.01it/s]{'loss': 3.671, 'grad_norm': 0.21882252395153046, 'learning_rate': 0.00028794347218407784, 'epoch': 0.68}
-                                                       68%|██████▊   | 7225/10696 [1:26:19<28:43,  2.01it/s] 68%|██████▊   | 7226/10696 [1:26:19<28:43,  2.01it/s] 68%|██████▊   | 7227/10696 [1:26:20<28:40,  2.02it/s] 68%|██████▊   | 7228/10696 [1:26:20<28:42,  2.01it/s] 68%|██████▊   | 7229/10696 [1:26:21<28:39,  2.02it/s] 68%|██████▊   | 7230/10696 [1:26:21<28:40,  2.01it/s] 68%|██████▊   | 7231/10696 [1:26:22<28:38,  2.02it/s] 68%|██████▊   | 7232/10696 [1:26:22<28:39,  2.01it/s] 68%|██████▊   | 7233/10696 [1:26:23<28:37,  2.02it/s] 68%|██████▊   | 7234/10696 [1:26:23<28:37,  2.02it/s] 68%|██████▊   | 7235/10696 [1:26:24<28:36,  2.02it/s] 68%|██████▊   | 7236/10696 [1:26:24<28:36,  2.02it/s] 68%|██████▊   | 7237/10696 [1:26:25<28:36,  2.02it/s] 68%|██████▊   | 7238/10696 [1:26:25<28:37,  2.01it/s] 68%|██████▊   | 7239/10696 [1:26:26<28:37,  2.01it/s] 68%|██████▊   | 7240/10696 [1:26:26<28:36,  2.01it/s] 68%|██████▊   | 7241/10696 [1:26:27<28:36,  2.01it/s] 68%|██████▊   | 7242/10696 [1:26:27<28:34,  2.01it/s] 68%|██████▊   | 7243/10696 [1:26:28<28:34,  2.01it/s] 68%|██████▊   | 7244/10696 [1:26:28<28:33,  2.02it/s] 68%|██████▊   | 7245/10696 [1:26:29<28:31,  2.02it/s] 68%|██████▊   | 7246/10696 [1:26:29<28:30,  2.02it/s] 68%|██████▊   | 7247/10696 [1:26:30<28:29,  2.02it/s] 68%|██████▊   | 7248/10696 [1:26:30<28:31,  2.01it/s] 68%|██████▊   | 7249/10696 [1:26:31<28:29,  2.02it/s] 68%|██████▊   | 7250/10696 [1:26:31<28:29,  2.02it/s]{'loss': 3.6735, 'grad_norm': 0.2080610692501068, 'learning_rate': 0.0002842560783302408, 'epoch': 0.68}
-                                                       68%|██████▊   | 7250/10696 [1:26:31<28:29,  2.02it/s] 68%|██████▊   | 7251/10696 [1:26:32<28:30,  2.01it/s] 68%|██████▊   | 7252/10696 [1:26:32<28:30,  2.01it/s] 68%|██████▊   | 7253/10696 [1:26:33<28:27,  2.02it/s] 68%|██████▊   | 7254/10696 [1:26:33<28:28,  2.01it/s] 68%|██████▊   | 7255/10696 [1:26:34<28:26,  2.02it/s] 68%|██████▊   | 7256/10696 [1:26:34<28:26,  2.02it/s] 68%|██████▊   | 7257/10696 [1:26:35<28:26,  2.02it/s] 68%|██████▊   | 7258/10696 [1:26:35<28:24,  2.02it/s] 68%|██████▊   | 7259/10696 [1:26:36<28:26,  2.01it/s] 68%|██████▊   | 7260/10696 [1:26:36<28:24,  2.02it/s] 68%|██████▊   | 7261/10696 [1:26:37<28:25,  2.01it/s] 68%|██████▊   | 7262/10696 [1:26:37<28:23,  2.02it/s] 68%|██████▊   | 7263/10696 [1:26:38<28:24,  2.01it/s] 68%|██████▊   | 7264/10696 [1:26:38<28:22,  2.02it/s] 68%|██���███▊   | 7265/10696 [1:26:39<28:22,  2.02it/s] 68%|██████▊   | 7266/10696 [1:26:39<28:21,  2.02it/s] 68%|██████▊   | 7267/10696 [1:26:40<28:21,  2.02it/s] 68%|██████▊   | 7268/10696 [1:26:40<28:21,  2.01it/s] 68%|██████▊   | 7269/10696 [1:26:41<28:19,  2.02it/s] 68%|██████▊   | 7270/10696 [1:26:41<28:18,  2.02it/s] 68%|██████▊   | 7271/10696 [1:26:42<28:17,  2.02it/s] 68%|██████▊   | 7272/10696 [1:26:42<28:17,  2.02it/s] 68%|██████▊   | 7273/10696 [1:26:43<28:16,  2.02it/s] 68%|██████▊   | 7274/10696 [1:26:43<28:16,  2.02it/s] 68%|██████▊   | 7275/10696 [1:26:44<28:14,  2.02it/s]{'loss': 3.662, 'grad_norm': 0.21391847729682922, 'learning_rate': 0.0002805830467834659, 'epoch': 0.68}                                                      
- 68%|██████▊   | 7275/10696 [1:26:44<28:14,  2.02it/s] 68%|██████▊   | 7276/10696 [1:26:44<28:15,  2.02it/s] 68%|██████▊   | 7277/10696 [1:26:44<28:14,  2.02it/s] 68%|██████▊   | 7278/10696 [1:26:45<28:14,  2.02it/s] 68%|██████▊   | 7279/10696 [1:26:45<28:14,  2.02it/s] 68%|██████▊   | 7280/10696 [1:26:46<28:14,  2.02it/s] 68%|██████▊   | 7281/10696 [1:26:46<28:14,  2.02it/s] 68%|██████▊   | 7282/10696 [1:26:47<28:13,  2.02it/s] 68%|██████▊   | 7283/10696 [1:26:47<28:12,  2.02it/s] 68%|██████▊   | 7284/10696 [1:26:48<28:11,  2.02it/s] 68%|██████▊   | 7285/10696 [1:26:48<28:12,  2.02it/s] 68%|██████▊   | 7286/10696 [1:26:49<28:10,  2.02it/s] 68%|██████▊   | 7287/10696 [1:26:49<28:12,  2.01it/s] 68%|██████▊   | 7288/10696 [1:26:50<28:11,  2.01it/s] 68%|██████▊   | 7289/10696 [1:26:50<28:11,  2.01it/s] 68%|██████▊   | 7290/10696 [1:26:51<28:11,  2.01it/s] 68%|██████▊   | 7291/10696 [1:26:51<28:08,  2.02it/s] 68%|██████▊   | 7292/10696 [1:26:52<28:10,  2.01it/s] 68%|██████▊   | 7293/10696 [1:26:52<28:07,  2.02it/s] 68%|██████▊   | 7294/10696 [1:26:53<28:07,  2.02it/s] 68%|██████▊   | 7295/10696 [1:26:53<28:04,  2.02it/s] 68%|██████▊   | 7296/10696 [1:26:54<28:05,  2.02it/s] 68%|██████▊   | 7297/10696 [1:26:54<28:03,  2.02it/s] 68%|██████▊   | 7298/10696 [1:26:55<28:05,  2.02it/s] 68%|██████▊   | 7299/10696 [1:26:55<28:05,  2.02it/s] 68%|██████▊   | 7300/10696 [1:26:56<28:06,  2.01it/s]{'loss': 3.6618, 'grad_norm': 0.21242527663707733, 'learning_rate': 0.0002769246220614499, 'epoch': 0.68}                                                      
- 68%|██████▊   | 7300/10696 [1:26:56<28:06,  2.01it/s] 68%|██████▊   | 7301/10696 [1:26:56<28:07,  2.01it/s] 68%|██████▊   | 7302/10696 [1:26:57<28:06,  2.01it/s] 68%|██████▊   | 7303/10696 [1:26:57<28:04,  2.01it/s] 68%|██████▊   | 7304/10696 [1:26:58<28:04,  2.01it/s] 68%|██████▊   | 7305/10696 [1:26:58<28:02,  2.02it/s] 68%|██████▊   | 7306/10696 [1:26:59<28:04,  2.01it/s] 68%|██████▊   | 7307/10696 [1:26:59<28:02,  2.01it/s] 68%|██████▊   | 7308/10696 [1:27:00<28:02,  2.01it/s] 68%|██████▊   | 7309/10696 [1:27:00<28:04,  2.01it/s] 68%|██████▊   | 7310/10696 [1:27:01<28:01,  2.01it/s] 68%|██████▊   | 7311/10696 [1:27:01<28:00,  2.01it/s] 68%|██████▊   | 7312/10696 [1:27:02<27:59,  2.02it/s] 68%|██████▊   | 7313/10696 [1:27:02<28:00,  2.01it/s] 68%|██████▊   | 7314/10696 [1:27:03<27:58,  2.01it/s] 68%|██████▊   | 7315/10696 [1:27:03<27:59,  2.01it/s] 68%|██████▊   | 7316/10696 [1:27:04<27:58,  2.01it/s] 68%|██████▊   | 7317/10696 [1:27:04<27:58,  2.01it/s] 68%|██████▊   | 7318/10696 [1:27:05<27:57,  2.01it/s] 68%|██████▊   | 7319/10696 [1:27:05<27:55,  2.02it/s] 68%|██████▊   | 7320/10696 [1:27:06<27:56,  2.01it/s] 68%|██████▊   | 7321/10696 [1:27:06<27:55,  2.01it/s] 68%|██████▊   | 7322/10696 [1:27:07<27:55,  2.01it/s] 68%|██████▊   | 7323/10696 [1:27:07<27:54,  2.01it/s] 68%|██████▊   | 7324/10696 [1:27:08<27:54,  2.01it/s] 68%|██████▊   | 7325/10696 [1:27:08<27:52,  2.02it/s]{'loss': 3.666, 'grad_norm': 0.2148560881614685, 'learning_rate': 0.00027328104770949765, 'epoch': 0.68}
-                                                       68%|██████▊   | 7325/10696 [1:27:08<27:52,  2.02it/s] 68%|██████▊   | 7326/10696 [1:27:09<27:53,  2.01it/s] 69%|██████▊   | 7327/10696 [1:27:09<27:55,  2.01it/s] 69%|██████▊   | 7328/10696 [1:27:10<27:52,  2.01it/s] 69%|█████��▊   | 7329/10696 [1:27:10<27:52,  2.01it/s] 69%|██████▊   | 7330/10696 [1:27:11<27:50,  2.01it/s] 69%|██████▊   | 7331/10696 [1:27:11<27:50,  2.01it/s] 69%|██████▊   | 7332/10696 [1:27:12<27:49,  2.02it/s] 69%|██████▊   | 7333/10696 [1:27:12<27:48,  2.02it/s] 69%|██████▊   | 7334/10696 [1:27:13<27:49,  2.01it/s] 69%|██████▊   | 7335/10696 [1:27:13<27:46,  2.02it/s] 69%|██████▊   | 7336/10696 [1:27:14<27:47,  2.02it/s] 69%|██████▊   | 7337/10696 [1:27:14<27:46,  2.02it/s] 69%|██████▊   | 7338/10696 [1:27:15<27:46,  2.01it/s] 69%|██████▊   | 7339/10696 [1:27:15<27:45,  2.02it/s] 69%|██████▊   | 7340/10696 [1:27:16<27:44,  2.02it/s] 69%|██████▊   | 7341/10696 [1:27:16<27:45,  2.01it/s] 69%|██████▊   | 7342/10696 [1:27:17<27:43,  2.02it/s] 69%|██████▊   | 7343/10696 [1:27:17<27:43,  2.02it/s] 69%|██████▊   | 7344/10696 [1:27:18<27:41,  2.02it/s] 69%|██████▊   | 7345/10696 [1:27:18<27:42,  2.02it/s] 69%|██████▊   | 7346/10696 [1:27:19<27:41,  2.02it/s] 69%|██████▊   | 7347/10696 [1:27:19<27:39,  2.02it/s] 69%|██████▊   | 7348/10696 [1:27:20<27:41,  2.02it/s] 69%|██████▊   | 7349/10696 [1:27:20<27:40,  2.02it/s] 69%|██████▊   | 7350/10696 [1:27:21<27:41,  2.01it/s]{'loss': 3.6659, 'grad_norm': 0.21670132875442505, 'learning_rate': 0.00026965256628430943, 'epoch': 0.69}
-                                                       69%|██████▊   | 7350/10696 [1:27:21<27:41,  2.01it/s] 69%|██████▊   | 7351/10696 [1:27:21<27:41,  2.01it/s] 69%|██████▊   | 7352/10696 [1:27:22<27:39,  2.01it/s] 69%|██████▊   | 7353/10696 [1:27:22<27:39,  2.01it/s] 69%|██████▉   | 7354/10696 [1:27:23<27:37,  2.02it/s] 69%|██████▉   | 7355/10696 [1:27:23<27:38,  2.01it/s] 69%|██████▉   | 7356/10696 [1:27:24<27:37,  2.02it/s] 69%|██████▉   | 7357/10696 [1:27:24<27:37,  2.01it/s] 69%|██████▉   | 7358/10696 [1:27:25<27:35,  2.02it/s] 69%|██████▉   | 7359/10696 [1:27:25<27:36,  2.01it/s] 69%|██████▉   | 7360/10696 [1:27:26<27:34,  2.02it/s] 69%|██████▉   | 7361/10696 [1:27:26<27:35,  2.01it/s] 69%|██████▉   | 7362/10696 [1:27:27<27:35,  2.01it/s] 69%|██████▉   | 7363/10696 [1:27:27<27:34,  2.01it/s] 69%|██████▉   | 7364/10696 [1:27:28<27:33,  2.02it/s] 69%|██████▉   | 7365/10696 [1:27:28<27:32,  2.02it/s] 69%|██████▉   | 7366/10696 [1:27:29<27:32,  2.01it/s] 69%|██████▉   | 7367/10696 [1:27:29<27:31,  2.02it/s] 69%|██████▉   | 7368/10696 [1:27:30<27:32,  2.01it/s] 69%|██████▉   | 7369/10696 [1:27:30<27:31,  2.01it/s] 69%|██████▉   | 7370/10696 [1:27:31<27:30,  2.02it/s] 69%|██████▉   | 7371/10696 [1:27:31<27:29,  2.02it/s] 69%|██████▉   | 7372/10696 [1:27:32<27:28,  2.02it/s] 69%|██████▉   | 7373/10696 [1:27:32<27:28,  2.02it/s] 69%|██████▉   | 7374/10696 [1:27:33<27:26,  2.02it/s] 69%|██████▉   | 7375/10696 [1:27:33<27:26,  2.02it/s]{'loss': 3.6636, 'grad_norm': 0.22464464604854584, 'learning_rate': 0.00026603941933783223, 'epoch': 0.69}
-                                                       69%|██████▉   | 7375/10696 [1:27:33<27:26,  2.02it/s] 69%|██████▉   | 7376/10696 [1:27:34<27:28,  2.01it/s] 69%|██████▉   | 7377/10696 [1:27:34<27:29,  2.01it/s] 69%|██████▉   | 7378/10696 [1:27:35<27:28,  2.01it/s] 69%|██████▉   | 7379/10696 [1:27:35<27:28,  2.01it/s] 69%|██████▉   | 7380/10696 [1:27:36<27:28,  2.01it/s] 69%|██████▉   | 7381/10696 [1:27:36<27:28,  2.01it/s] 69%|██████▉   | 7382/10696 [1:27:37<27:27,  2.01it/s] 69%|██████▉   | 7383/10696 [1:27:37<27:25,  2.01it/s] 69%|██████▉   | 7384/10696 [1:27:38<27:24,  2.01it/s] 69%|██████▉   | 7385/10696 [1:27:38<27:22,  2.02it/s] 69%|██████▉   | 7386/10696 [1:27:39<27:23,  2.01it/s] 69%|██████▉   | 7387/10696 [1:27:39<27:22,  2.01it/s] 69%|██████▉   | 7388/10696 [1:27:40<27:21,  2.02it/s] 69%|██████▉   | 7389/10696 [1:27:40<27:20,  2.02it/s] 69%|██████▉   | 7390/10696 [1:27:41<27:21,  2.01it/s] 69%|██████▉   | 7391/10696 [1:27:41<27:21,  2.01it/s] 69%|██████▉   | 7392/10696 [1:27:42<27:19,  2.01it/s] 69%|██████▉   | 7393/10696 [1:27:42<27:20,  2.01it/s] 69%|██████▉   | 7394/10696 [1:27:43<27:18,  2.01it/s] 69%|██████▉   | 7395/10696 [1:27:43<27:19,  2.01it/s] 69%|██████▉   | 7396/10696 [1:27:44<27:18,  2.01it/s] 69%|██████▉   | 7397/10696 [1:27:44<27:19,  2.01it/s] 69%|██████▉   | 7398/10696 [1:27:45<27:17,  2.01it/s] 69%|██████▉   | 7399/10696 [1:27:45<27:15,  2.02it/s] 69%|██████▉   | 7400/10696 [1:27:46<27:16,  2.01it/s]{'loss': 3.6689, 'grad_norm': 0.20849648118019104, 'learning_rate': 0.0002624418474011807, 'epoch': 0.69}                                                      
- 69%|██████▉   | 7400/10696 [1:27:46<27:16,  2.01it/s] 69%|██████▉   | 7401/10696 [1:27:46<27:16,  2.01it/s] 69%|██████▉   | 7402/10696 [1:27:47<27:16,  2.01it/s] 69%|██████▉   | 7403/10696 [1:27:47<27:13,  2.02it/s] 69%|██████▉   | 7404/10696 [1:27:48<27:12,  2.02it/s] 69%|██████▉   | 7405/10696 [1:27:48<27:13,  2.02it/s] 69%|██████▉   | 7406/10696 [1:27:49<27:13,  2.01it/s] 69%|██████▉   | 7407/10696 [1:27:49<27:14,  2.01it/s] 69%|██████▉   | 7408/10696 [1:27:50<27:13,  2.01it/s] 69%|██████▉   | 7409/10696 [1:27:50<27:12,  2.01it/s] 69%|██████▉   | 7410/10696 [1:27:51<27:11,  2.01it/s] 69%|██████▉   | 7411/10696 [1:27:51<27:09,  2.02it/s] 69%|██████▉   | 7412/10696 [1:27:52<27:09,  2.02it/s] 69%|██████▉   | 7413/10696 [1:27:52<27:08,  2.02it/s] 69%|██████▉   | 7414/10696 [1:27:52<27:08,  2.02it/s] 69%|██████▉   | 7415/10696 [1:27:53<27:07,  2.02it/s] 69%|██████▉   | 7416/10696 [1:27:53<27:07,  2.02it/s] 69%|██████▉   | 7417/10696 [1:27:54<27:06,  2.02it/s] 69%|██████▉   | 7418/10696 [1:27:54<27:06,  2.02it/s] 69%|██████▉   | 7419/10696 [1:27:55<27:07,  2.01it/s] 69%|██████▉   | 7420/10696 [1:27:55<27:05,  2.02it/s] 69%|██████▉   | 7421/10696 [1:27:56<27:05,  2.01it/s] 69%|██████▉   | 7422/10696 [1:27:56<27:04,  2.02it/s] 69%|██████▉   | 7423/10696 [1:27:57<27:04,  2.01it/s] 69%|██████▉   | 7424/10696 [1:27:57<27:02,  2.02it/s] 69%|██████▉   | 7425/10696 [1:27:58<27:03,  2.01it/s]{'loss': 3.6559, 'grad_norm': 0.2083885818719864, 'learning_rate': 0.00025886008996862356, 'epoch': 0.69}
-                                                       69%|██████▉   | 7425/10696 [1:27:58<27:03,  2.01it/s] 69%|██████▉   | 7426/10696 [1:27:58<27:05,  2.01it/s] 69%|██████▉   | 7427/10696 [1:27:59<27:02,  2.01it/s] 69%|██████▉   | 7428/10696 [1:27:59<27:02,  2.01it/s] 69%|██████▉   | 7429/10696 [1:28:00<27:00,  2.02it/s] 69%|██████▉   | 7430/10696 [1:28:00<27:02,  2.01it/s] 69%|██████▉   | 7431/10696 [1:28:01<27:01,  2.01it/s] 69%|██████▉   | 7432/10696 [1:28:01<27:00,  2.01it/s] 69%|██████▉   | 7433/10696 [1:28:02<26:59,  2.02it/s] 70%|██████▉   | 7434/10696 [1:28:02<26:59,  2.01it/s] 70%|██████▉   | 7435/10696 [1:28:03<26:58,  2.01it/s] 70%|██████▉   | 7436/10696 [1:28:03<26:59,  2.01it/s] 70%|██████▉   | 7437/10696 [1:28:04<26:57,  2.02it/s] 70%|██████▉   | 7438/10696 [1:28:04<26:57,  2.01it/s] 70%|██████▉   | 7439/10696 [1:28:05<26:57,  2.01it/s] 70%|██████▉   | 7440/10696 [1:28:05<26:57,  2.01it/s] 70%|██████▉   | 7441/10696 [1:28:06<26:56,  2.01it/s] 70%|██████▉   | 7442/10696 [1:28:06<26:55,  2.01it/s] 70%|██████▉   | 7443/10696 [1:28:07<26:53,  2.02it/s] 70%|██████▉   | 7444/10696 [1:28:07<26:54,  2.01it/s] 70%|██████▉   | 7445/10696 [1:28:08<26:52,  2.02it/s] 70%|██████▉   | 7446/10696 [1:28:08<26:53,  2.01it/s] 70%|██████▉   | 7447/10696 [1:28:09<26:52,  2.02it/s] 70%|██████▉   | 7448/10696 [1:28:09<26:51,  2.01it/s] 70%|██████▉   | 7449/10696 [1:28:10<26:50,  2.02it/s] 70%|██████▉   | 7450/10696 [1:28:10<26:50,  2.02it/s]{'loss': 3.6553, 'grad_norm': 0.21707549691200256, 'learning_rate': 0.00025529438548164166, 'epoch': 0.7}                                                      
- 70%|██████▉   | 7450/10696 [1:28:10<26:50,  2.02it/s] 70%|██████▉   | 7451/10696 [1:28:11<26:58,  2.00it/s] 70%|██████▉   | 7452/10696 [1:28:11<26:55,  2.01it/s] 70%|██████▉   | 7453/10696 [1:28:12<26:52,  2.01it/s] 70%|██████▉   | 7454/10696 [1:28:12<26:51,  2.01it/s] 70%|██████▉   | 7455/10696 [1:28:13<26:50,  2.01it/s] 70%|██████▉   | 7456/10696 [1:28:13<26:50,  2.01it/s] 70%|██████▉   | 7457/10696 [1:28:14<26:47,  2.01it/s] 70%|██████▉   | 7458/10696 [1:28:14<26:49,  2.01it/s] 70%|██████▉   | 7459/10696 [1:28:15<26:48,  2.01it/s] 70%|██████▉   | 7460/10696 [1:28:15<26:47,  2.01it/s] 70%|██████▉   | 7461/10696 [1:28:16<26:46,  2.01it/s] 70%|██████▉   | 7462/10696 [1:28:16<26:44,  2.02it/s] 70%|██████▉   | 7463/10696 [1:28:17<26:43,  2.02it/s] 70%|██████▉   | 7464/10696 [1:28:17<26:42,  2.02it/s] 70%|██████▉   | 7465/10696 [1:28:18<26:43,  2.02it/s] 70%|██████▉   | 7466/10696 [1:28:18<26:42,  2.02it/s] 70%|██████▉   | 7467/10696 [1:28:19<26:42,  2.02it/s] 70%|██████▉   | 7468/10696 [1:28:19<26:41,  2.02it/s] 70%|██████▉   | 7469/10696 [1:28:20<26:41,  2.01it/s] 70%|██████▉   | 7470/10696 [1:28:20<26:40,  2.02it/s] 70%|██████▉   | 7471/10696 [1:28:21<26:40,  2.01it/s] 70%|██████▉   | 7472/10696 [1:28:21<26:39,  2.02it/s] 70%|██████▉   | 7473/10696 [1:28:22<26:38,  2.02it/s] 70%|██████▉   | 7474/10696 [1:28:22<26:39,  2.01it/s] 70%|██████▉   | 7475/10696 [1:28:23<26:38,  2.02it/s]{'loss': 3.653, 'grad_norm': 0.21175535023212433, 'learning_rate': 0.00025174497131305286, 'epoch': 0.7}                                                      
- 70%|██████▉   | 7475/10696 [1:28:23<26:38,  2.02it/s] 70%|██████▉   | 7476/10696 [1:28:23<26:44,  2.01it/s] 70%|██████▉   | 7477/10696 [1:28:24<26:42,  2.01it/s] 70%|██████▉   | 7478/10696 [1:28:24<26:39,  2.01it/s] 70%|██████▉   | 7479/10696 [1:28:25<26:38,  2.01it/s] 70%|██████▉   | 7480/10696 [1:28:25<26:39,  2.01it/s] 70%|██████▉   | 7481/10696 [1:28:26<26:36,  2.01it/s] 70%|██████▉   | 7482/10696 [1:28:26<26:36,  2.01it/s] 70%|██████▉   | 7483/10696 [1:28:27<26:34,  2.02it/s] 70%|██████▉   | 7484/10696 [1:28:27<26:35,  2.01it/s] 70%|██████▉   | 7485/10696 [1:28:28<26:32,  2.02it/s] 70%|██████▉   | 7486/10696 [1:28:28<26:32,  2.02it/s] 70%|██████▉   | 7487/10696 [1:28:29<26:30,  2.02it/s] 70%|███████   | 7488/10696 [1:28:29<26:31,  2.02it/s] 70%|███████   | 7489/10696 [1:28:30<26:31,  2.02it/s] 70%|███████   | 7490/10696 [1:28:30<26:29,  2.02it/s] 70%|███████   | 7491/10696 [1:28:31<26:30,  2.01it/s] 70%|███████   | 7492/10696 [1:28:31<26:28,  2.02it/s] 70%|███████   | 7493/10696 [1:28:32<26:28,  2.02it/s] 70%|███████   | 7494/10696 [1:28:32<26:29,  2.02it/s] 70%|███████   | 7495/10696 [1:28:33<26:29,  2.01it/s] 70%|███████   | 7496/10696 [1:28:33<26:28,  2.01it/s] 70%|███████   | 7497/10696 [1:28:34<26:27,  2.02it/s] 70%|███████   | 7498/10696 [1:28:34<26:28,  2.01it/s] 70%|███████   | 7499/10696 [1:28:35<26:26,  2.02it/s] 70%|███████   | 7500/10696 [1:28:35<26:26,  2.01it/s]                                                      {'loss': 3.6542, 'grad_norm': 0.21332766115665436, 'learning_rate': 0.0002482120837512118, 'epoch': 0.7}
- 70%|███████   | 7500/10696 [1:28:35<26:26,  2.01it/s] 70%|███████   | 7501/10696 [1:28:36<26:28,  2.01it/s] 70%|███████   | 7502/10696 [1:28:36<30:48,  1.73it/s] 70%|███████   | 7503/10696 [1:28:37<29:28,  1.81it/s] 70%|███████   | 7504/10696 [1:28:37<28:34,  1.86it/s] 70%|███████   | 7505/10696 [1:28:38<27:55,  1.90it/s] 70%|███████   | 7506/10696 [1:28:38<27:28,  1.94it/s] 70%|███████   | 7507/10696 [1:28:39<27:07,  1.96it/s] 70%|███████   | 7508/10696 [1:28:39<26:55,  1.97it/s] 70%|███████   | 7509/10696 [1:28:40<26:44,  1.99it/s] 70%|███████   | 7510/10696 [1:28:40<26:37,  1.99it/s] 70%|███████   | 7511/10696 [1:28:41<26:32,  2.00it/s] 70%|███████   | 7512/10696 [1:28:41<26:27,  2.01it/s] 70%|███████   | 7513/10696 [1:28:42<26:25,  2.01it/s] 70%|███████   | 7514/10696 [1:28:42<26:22,  2.01it/s] 70%|███████   | 7515/10696 [1:28:43<26:22,  2.01it/s] 70%|███████   | 7516/10696 [1:28:43<26:19,  2.01it/s] 70%|███████   | 7517/10696 [1:28:44<26:19,  2.01it/s] 70%|███████   | 7518/10696 [1:28:44<26:17,  2.01it/s] 70%|███████   | 7519/10696 [1:28:45<26:17,  2.01it/s] 70%|███████   | 7520/10696 [1:28:45<26:16,  2.02it/s] 70%|███████   | 7521/10696 [1:28:46<26:16,  2.01it/s] 70%|███████   | 7522/10696 [1:28:46<26:13,  2.02it/s] 70%|███████   | 7523/10696 [1:28:47<26:13,  2.02it/s] 70%|███████   | 7524/10696 [1:28:47<26:13,  2.02it/s] 70%|███████   | 7525/10696 [1:28:48<26:12,  2.02it/s]                                                      {'loss': 3.659, 'grad_norm': 0.20835785567760468, 'learning_rate': 0.0002446959579842782, 'epoch': 0.7}
- 70%|███████   | 7525/10696 [1:28:48<26:12,  2.02it/s] 70%|███████   | 7526/10696 [1:28:48<26:18,  2.01it/s] 70%|███████   | 7527/10696 [1:28:49<26:15,  2.01it/s] 70%|███████   | 7528/10696 [1:28:49<26:15,  2.01it/s] 70%|███████   | 7529/10696 [1:28:50<26:13,  2.01it/s] 70%|███████   | 7530/10696 [1:28:50<26:13,  2.01it/s] 70%|███████   | 7531/10696 [1:28:51<26:12,  2.01it/s] 70%|███████   | 7532/10696 [1:28:51<26:09,  2.02it/s] 70%|███████   | 7533/10696 [1:28:52<30:30,  1.73it/s] 70%|███████   | 7534/10696 [1:28:53<29:12,  1.80it/s] 70%|███████   | 7535/10696 [1:28:53<28:16,  1.86it/s] 70%|███████   | 7536/10696 [1:28:54<27:38,  1.91it/s] 70%|███████   | 7537/10696 [1:28:54<27:11,  1.94it/s] 70%|███████   | 7538/10696 [1:28:55<26:52,  1.96it/s] 70%|███████   | 7539/10696 [1:28:55<26:38,  1.97it/s] 70%|███████   | 7540/10696 [1:28:56<26:27,  1.99it/s] 71%|███████   | 7541/10696 [1:28:56<26:20,  2.00it/s] 71%|███████   | 7542/10696 [1:28:57<26:14,  2.00it/s] 71%|███████   | 7543/10696 [1:28:57<26:12,  2.01it/s] 71%|███████   | 7544/10696 [1:28:58<26:08,  2.01it/s] 71%|███████   | 7545/10696 [1:28:58<26:07,  2.01it/s] 71%|███████   | 7546/10696 [1:28:59<26:05,  2.01it/s] 71%|███████   | 7547/10696 [1:28:59<26:02,  2.01it/s] 71%|███████   | 7548/10696 [1:29:00<26:02,  2.01it/s] 71%|███████   | 7549/10696 [1:29:00<26:01,  2.02it/s] 71%|███████   | 7550/10696 [1:29:01<26:01,  2.01it/s]                                                      {'loss': 3.6562, 'grad_norm': 0.20994803309440613, 'learning_rate': 0.0002411968280845615, 'epoch': 0.71}
- 71%|███████   | 7550/10696 [1:29:01<26:01,  2.01it/s] 71%|███████   | 7551/10696 [1:29:01<26:07,  2.01it/s] 71%|███████   | 7552/10696 [1:29:02<26:03,  2.01it/s] 71%|███████   | 7553/10696 [1:29:02<26:01,  2.01it/s] 71%|███████   | 7554/10696 [1:29:03<26:00,  2.01it/s] 71%|███████   | 7555/10696 [1:29:03<26:00,  2.01it/s] 71%|███████   | 7556/10696 [1:29:04<25:58,  2.02it/s] 71%|███████   | 7557/10696 [1:29:04<25:57,  2.02it/s] 71%|███████   | 7558/10696 [1:29:05<25:55,  2.02it/s] 71%|███████   | 7559/10696 [1:29:05<25:55,  2.02it/s] 71%|███████   | 7560/10696 [1:29:06<25:54,  2.02it/s] 71%|███████   | 7561/10696 [1:29:06<25:55,  2.02it/s] 71%|███████   | 7562/10696 [1:29:07<25:54,  2.02it/s] 71%|███████   | 7563/10696 [1:29:07<25:55,  2.01it/s] 71%|███████   | 7564/10696 [1:29:08<25:55,  2.01it/s] 71%|███████   | 7565/10696 [1:29:08<25:53,  2.02it/s] 71%|███████   | 7566/10696 [1:29:09<25:53,  2.02it/s] 71%|███████   | 7567/10696 [1:29:09<25:51,  2.02it/s] 71%|███████   | 7568/10696 [1:29:09<25:51,  2.02it/s] 71%|███████   | 7569/10696 [1:29:10<25:51,  2.02it/s] 71%|███████   | 7570/10696 [1:29:10<25:51,  2.01it/s] 71%|███████   | 7571/10696 [1:29:11<25:50,  2.02it/s] 71%|███████   | 7572/10696 [1:29:11<25:48,  2.02it/s] 71%|███████   | 7573/10696 [1:29:12<25:48,  2.02it/s] 71%|███████   | 7574/10696 [1:29:12<25:48,  2.02it/s] 71%|███████   | 7575/10696 [1:29:13<25:46,  2.02it/s]                                                      {'loss': 3.653, 'grad_norm': 0.23082323372364044, 'learning_rate': 0.00023771492699293744, 'epoch': 0.71}
- 71%|███████   | 7575/10696 [1:29:13<25:46,  2.02it/s] 71%|███████   | 7576/10696 [1:29:13<25:50,  2.01it/s] 71%|███████   | 7577/10696 [1:29:14<25:48,  2.01it/s] 71%|███████   | 7578/10696 [1:29:14<25:49,  2.01it/s] 71%|███████   | 7579/10696 [1:29:15<25:46,  2.02it/s] 71%|███████   | 7580/10696 [1:29:15<25:45,  2.02it/s] 71%|███████   | 7581/10696 [1:29:16<25:43,  2.02it/s] 71%|███████   | 7582/10696 [1:29:16<25:46,  2.01it/s] 71%|███████   | 7583/10696 [1:29:17<25:46,  2.01it/s] 71%|███████   | 7584/10696 [1:29:17<25:45,  2.01it/s] 71%|███████   | 7585/10696 [1:29:18<25:43,  2.02it/s] 71%|███████   | 7586/10696 [1:29:18<25:43,  2.01it/s] 71%|███████   | 7587/10696 [1:29:19<25:44,  2.01it/s] 71%|███████   | 7588/10696 [1:29:19<25:42,  2.01it/s] 71%|███████   | 7589/10696 [1:29:20<25:42,  2.01it/s] 71%|███████   | 7590/10696 [1:29:20<25:40,  2.02it/s] 71%|███████   | 7591/10696 [1:29:21<25:40,  2.02it/s] 71%|███████   | 7592/10696 [1:29:21<25:38,  2.02it/s] 71%|███████   | 7593/10696 [1:29:22<25:38,  2.02it/s] 71%|███████   | 7594/10696 [1:29:22<25:36,  2.02it/s] 71%|███████   | 7595/10696 [1:29:23<25:37,  2.02it/s] 71%|███████   | 7596/10696 [1:29:23<25:36,  2.02it/s] 71%|███████   | 7597/10696 [1:29:24<25:36,  2.02it/s] 71%|███████   | 7598/10696 [1:29:24<25:37,  2.01it/s] 71%|███████   | 7599/10696 [1:29:25<25:36,  2.02it/s] 71%|███████   | 7600/10696 [1:29:25<25:36,  2.02it/s]                                                      {'loss': 3.6609, 'grad_norm': 0.2221626490354538, 'learning_rate': 0.00023425048650334114, 'epoch': 0.71}
- 71%|███████   | 7600/10696 [1:29:25<25:36,  2.02it/s] 71%|███████   | 7601/10696 [1:29:26<25:36,  2.01it/s] 71%|███████   | 7602/10696 [1:29:26<25:36,  2.01it/s] 71%|███████   | 7603/10696 [1:29:27<25:33,  2.02it/s] 71%|███████   | 7604/10696 [1:29:27<25:35,  2.01it/s] 71%|███████   | 7605/10696 [1:29:28<25:33,  2.02it/s] 71%|███████   | 7606/10696 [1:29:28<25:31,  2.02it/s] 71%|███████   | 7607/10696 [1:29:29<25:31,  2.02it/s] 71%|███████   | 7608/10696 [1:29:29<25:30,  2.02it/s] 71%|███████   | 7609/10696 [1:29:30<25:30,  2.02it/s] 71%|███████   | 7610/10696 [1:29:30<25:29,  2.02it/s] 71%|███████   | 7611/10696 [1:29:31<25:30,  2.02it/s] 71%|███████   | 7612/10696 [1:29:31<25:28,  2.02it/s] 71%|███████   | 7613/10696 [1:29:32<25:28,  2.02it/s] 71%|███████   | 7614/10696 [1:29:32<25:27,  2.02it/s] 71%|███████   | 7615/10696 [1:29:33<25:27,  2.02it/s] 71%|███████   | 7616/10696 [1:29:33<25:27,  2.02it/s] 71%|███████   | 7617/10696 [1:29:34<25:26,  2.02it/s] 71%|███████   | 7618/10696 [1:29:34<25:26,  2.02it/s] 71%|███████   | 7619/10696 [1:29:35<25:25,  2.02it/s] 71%|███████   | 7620/10696 [1:29:35<25:25,  2.02it/s] 71%|███████▏  | 7621/10696 [1:29:36<25:25,  2.02it/s] 71%|███████▏  | 7622/10696 [1:29:36<25:26,  2.01it/s] 71%|███████▏  | 7623/10696 [1:29:37<25:27,  2.01it/s] 71%|███████▏  | 7624/10696 [1:29:37<25:25,  2.01it/s] 71%|███████▏  | 7625/10696 [1:29:38<25:23,  2.02it/s]                                                      {'loss': 3.6579, 'grad_norm': 0.21142809092998505, 'learning_rate': 0.00023080373724733688, 'epoch': 0.71}
- 71%|███████▏  | 7625/10696 [1:29:38<25:23,  2.02it/s] 71%|███████▏  | 7626/10696 [1:29:38<25:24,  2.01it/s] 71%|███████▏  | 7627/10696 [1:29:39<25:24,  2.01it/s] 71%|███████▏  | 7628/10696 [1:29:39<25:22,  2.02it/s] 71%|███████▏  | 7629/10696 [1:29:40<25:22,  2.01it/s] 71%|███████▏  | 7630/10696 [1:29:40<25:20,  2.02it/s] 71%|███████▏  | 7631/10696 [1:29:41<25:20,  2.02it/s] 71%|███████▏  | 7632/10696 [1:29:41<25:18,  2.02it/s] 71%|███████▏  | 7633/10696 [1:29:42<25:18,  2.02it/s] 71%|███████▏  | 7634/10696 [1:29:42<25:17,  2.02it/s] 71%|███████▏  | 7635/10696 [1:29:43<25:18,  2.02it/s] 71%|███████▏  | 7636/10696 [1:29:43<25:18,  2.01it/s] 71%|███████▏  | 7637/10696 [1:29:44<25:16,  2.02it/s] 71%|███████▏  | 7638/10696 [1:29:44<25:16,  2.02it/s] 71%|███████▏  | 7639/10696 [1:29:45<25:14,  2.02it/s] 71%|███████▏  | 7640/10696 [1:29:45<25:13,  2.02it/s] 71%|███████▏  | 7641/10696 [1:29:46<25:13,  2.02it/s] 71%|███████▏  | 7642/10696 [1:29:46<25:14,  2.02it/s] 71%|███████▏  | 7643/10696 [1:29:47<25:13,  2.02it/s] 71%|███████▏  | 7644/10696 [1:29:47<25:13,  2.02it/s] 71%|███████▏  | 7645/10696 [1:29:48<25:13,  2.02it/s] 71%|███████▏  | 7646/10696 [1:29:48<25:14,  2.01it/s] 71%|███████▏  | 7647/10696 [1:29:49<25:13,  2.01it/s] 72%|███████▏  | 7648/10696 [1:29:49<25:13,  2.01it/s] 72%|███████▏  | 7649/10696 [1:29:50<25:11,  2.02it/s] 72%|███████▏  | 7650/10696 [1:29:50<25:10,  2.02it/s]                                                      {'loss': 3.6522, 'grad_norm': 0.21931134164333344, 'learning_rate': 0.00022737490867876447, 'epoch': 0.72}
- 72%|███████▏  | 7650/10696 [1:29:50<25:10,  2.02it/s] 72%|███████▏  | 7651/10696 [1:29:51<25:20,  2.00it/s] 72%|███████▏  | 7652/10696 [1:29:51<25:17,  2.01it/s] 72%|███████▏  | 7653/10696 [1:29:52<25:16,  2.01it/s] 72%|███████▏  | 7654/10696 [1:29:52<25:14,  2.01it/s] 72%|███████▏  | 7655/10696 [1:29:53<25:12,  2.01it/s] 72%|███████▏  | 7656/10696 [1:29:53<25:11,  2.01it/s] 72%|███████▏  | 7657/10696 [1:29:54<25:09,  2.01it/s] 72%|███████▏  | 7658/10696 [1:29:54<25:08,  2.01it/s] 72%|███████▏  | 7659/10696 [1:29:55<25:08,  2.01it/s] 72%|███████▏  | 7660/10696 [1:29:55<25:06,  2.02it/s] 72%|███████▏  | 7661/10696 [1:29:56<25:06,  2.01it/s] 72%|███████▏  | 7662/10696 [1:29:56<25:03,  2.02it/s] 72%|███████▏  | 7663/10696 [1:29:57<25:04,  2.02it/s] 72%|███████▏  | 7664/10696 [1:29:57<25:03,  2.02it/s] 72%|███████▏  | 7665/10696 [1:29:58<25:04,  2.01it/s] 72%|███████▏  | 7666/10696 [1:29:58<25:03,  2.01it/s] 72%|███████▏  | 7667/10696 [1:29:59<25:04,  2.01it/s] 72%|███████▏  | 7668/10696 [1:29:59<25:03,  2.01it/s] 72%|███████▏  | 7669/10696 [1:30:00<25:02,  2.01it/s] 72%|███████▏  | 7670/10696 [1:30:00<25:00,  2.02it/s] 72%|███████▏  | 7671/10696 [1:30:01<25:00,  2.02it/s] 72%|███████▏  | 7672/10696 [1:30:01<25:00,  2.02it/s] 72%|███████▏  | 7673/10696 [1:30:02<24:58,  2.02it/s] 72%|███████▏  | 7674/10696 [1:30:02<24:58,  2.02it/s] 72%|███████▏  | 7675/10696 [1:30:03<24:57,  2.02it/s]{'loss': 3.6535, 'grad_norm': 0.2108832150697708, 'learning_rate': 0.00022396422905846352, 'epoch': 0.72}                                                      
- 72%|███████▏  | 7675/10696 [1:30:03<24:57,  2.02it/s] 72%|███████▏  | 7676/10696 [1:30:03<24:59,  2.01it/s] 72%|███████▏  | 7677/10696 [1:30:04<24:58,  2.01it/s] 72%|███████▏  | 7678/10696 [1:30:04<24:58,  2.01it/s] 72%|███████▏  | 7679/10696 [1:30:05<24:56,  2.02it/s] 72%|███████▏  | 7680/10696 [1:30:05<24:56,  2.02it/s] 72%|███████▏  | 7681/10696 [1:30:06<24:56,  2.01it/s] 72%|███████▏  | 7682/10696 [1:30:06<24:57,  2.01it/s] 72%|███████▏  | 7683/10696 [1:30:07<24:57,  2.01it/s] 72%|███████▏  | 7684/10696 [1:30:07<24:54,  2.02it/s] 72%|███████▏  | 7685/10696 [1:30:08<24:54,  2.01it/s] 72%|███████▏  | 7686/10696 [1:30:08<24:51,  2.02it/s] 72%|███████▏  | 7687/10696 [1:30:09<24:51,  2.02it/s] 72%|███████▏  | 7688/10696 [1:30:09<24:50,  2.02it/s] 72%|███████▏  | 7689/10696 [1:30:10<24:51,  2.02it/s] 72%|███████▏  | 7690/10696 [1:30:10<24:49,  2.02it/s] 72%|███████▏  | 7691/10696 [1:30:11<24:50,  2.02it/s] 72%|███████▏  | 7692/10696 [1:30:11<24:50,  2.02it/s] 72%|███████▏  | 7693/10696 [1:30:12<24:49,  2.02it/s] 72%|███████▏  | 7694/10696 [1:30:12<24:51,  2.01it/s] 72%|███████▏  | 7695/10696 [1:30:13<24:49,  2.02it/s] 72%|███████▏  | 7696/10696 [1:30:13<24:47,  2.02it/s] 72%|███████▏  | 7697/10696 [1:30:14<24:46,  2.02it/s] 72%|███████▏  | 7698/10696 [1:30:14<24:46,  2.02it/s] 72%|███████▏  | 7699/10696 [1:30:14<24:46,  2.02it/s] 72%|███████▏  | 7700/10696 [1:30:15<24:46,  2.02it/s]                                                      {'loss': 3.6534, 'grad_norm': 0.21333953738212585, 'learning_rate': 0.00022057192543907867, 'epoch': 0.72}
- 72%|███████▏  | 7700/10696 [1:30:15<24:46,  2.02it/s] 72%|███████▏  | 7701/10696 [1:30:15<24:49,  2.01it/s] 72%|███████▏  | 7702/10696 [1:30:16<24:46,  2.01it/s] 72%|███████▏  | 7703/10696 [1:30:16<24:47,  2.01it/s] 72%|███████▏  | 7704/10696 [1:30:17<24:45,  2.01it/s] 72%|███████▏  | 7705/10696 [1:30:17<24:46,  2.01it/s] 72%|███████▏  | 7706/10696 [1:30:18<24:43,  2.01it/s] 72%|███████▏  | 7707/10696 [1:30:18<24:44,  2.01it/s] 72%|███████▏  | 7708/10696 [1:30:19<24:43,  2.01it/s] 72%|███████▏  | 7709/10696 [1:30:19<24:43,  2.01it/s] 72%|███████▏  | 7710/10696 [1:30:20<24:41,  2.02it/s] 72%|███████▏  | 7711/10696 [1:30:20<24:41,  2.02it/s] 72%|███████▏  | 7712/10696 [1:30:21<24:40,  2.02it/s] 72%|███████▏  | 7713/10696 [1:30:21<24:39,  2.02it/s] 72%|███████▏  | 7714/10696 [1:30:22<24:38,  2.02it/s] 72%|███████▏  | 7715/10696 [1:30:22<24:38,  2.02it/s] 72%|███████▏  | 7716/10696 [1:30:23<24:37,  2.02it/s] 72%|███████▏  | 7717/10696 [1:30:23<24:38,  2.01it/s] 72%|███████▏  | 7718/10696 [1:30:24<24:34,  2.02it/s] 72%|███████▏  | 7719/10696 [1:30:24<24:35,  2.02it/s] 72%|███████▏  | 7720/10696 [1:30:25<24:34,  2.02it/s] 72%|███████▏  | 7721/10696 [1:30:25<24:34,  2.02it/s] 72%|███████▏  | 7722/10696 [1:30:26<24:34,  2.02it/s] 72%|███████▏  | 7723/10696 [1:30:26<24:33,  2.02it/s] 72%|███████▏  | 7724/10696 [1:30:27<24:33,  2.02it/s] 72%|███████▏  | 7725/10696 [1:30:27<24:32,  2.02it/s]                                                      {'loss': 3.6549, 'grad_norm': 0.22457312047481537, 'learning_rate': 0.0002171982236499444, 'epoch': 0.72}
- 72%|███████▏  | 7725/10696 [1:30:27<24:32,  2.02it/s] 72%|███████▏  | 7726/10696 [1:30:28<24:33,  2.02it/s] 72%|███████▏  | 7727/10696 [1:30:28<24:33,  2.01it/s] 72%|███████▏  | 7728/10696 [1:30:29<24:31,  2.02it/s] 72%|███████▏  | 7729/10696 [1:30:29<24:31,  2.02it/s] 72%|███████▏  | 7730/10696 [1:30:30<24:31,  2.02it/s] 72%|███████▏  | 7731/10696 [1:30:30<24:30,  2.02it/s] 72%|███████▏  | 7732/10696 [1:30:31<24:33,  2.01it/s] 72%|███████▏  | 7733/10696 [1:30:31<24:30,  2.01it/s] 72%|███████▏  | 7734/10696 [1:30:32<24:30,  2.01it/s] 72%|███████▏  | 7735/10696 [1:30:32<24:28,  2.02it/s] 72%|███████▏  | 7736/10696 [1:30:33<24:28,  2.02it/s] 72%|███████▏  | 7737/10696 [1:30:33<24:27,  2.02it/s] 72%|███████▏  | 7738/10696 [1:30:34<24:27,  2.02it/s] 72%|███████▏  | 7739/10696 [1:30:34<24:28,  2.01it/s] 72%|███████▏  | 7740/10696 [1:30:35<24:26,  2.02it/s] 72%|███████▏  | 7741/10696 [1:30:35<24:27,  2.01it/s] 72%|███████▏  | 7742/10696 [1:30:36<24:24,  2.02it/s] 72%|███████▏  | 7743/10696 [1:30:36<24:26,  2.01it/s] 72%|███████▏  | 7744/10696 [1:30:37<24:25,  2.01it/s] 72%|███████▏  | 7745/10696 [1:30:37<24:23,  2.02it/s] 72%|███████▏  | 7746/10696 [1:30:38<24:22,  2.02it/s] 72%|███████▏  | 7747/10696 [1:30:38<24:21,  2.02it/s] 72%|███████▏  | 7748/10696 [1:30:39<24:21,  2.02it/s] 72%|███████▏  | 7749/10696 [1:30:39<24:20,  2.02it/s] 72%|███████▏  | 7750/10696 [1:30:40<24:21,  2.02it/s]                                                      {'loss': 3.6452, 'grad_norm': 0.21458929777145386, 'learning_rate': 0.00021384334828205133, 'epoch': 0.72}
- 72%|███████▏  | 7750/10696 [1:30:40<24:21,  2.02it/s] 72%|███████▏  | 7751/10696 [1:30:40<24:21,  2.01it/s] 72%|███████▏  | 7752/10696 [1:30:41<24:22,  2.01it/s] 72%|███████▏  | 7753/10696 [1:30:41<24:21,  2.01it/s] 72%|███████▏  | 7754/10696 [1:30:42<24:20,  2.01it/s] 73%|███████▎  | 7755/10696 [1:30:42<24:20,  2.01it/s] 73%|███████▎  | 7756/10696 [1:30:43<24:18,  2.02it/s] 73%|███████▎  | 7757/10696 [1:30:43<24:19,  2.01it/s] 73%|███████▎  | 7758/10696 [1:30:44<24:17,  2.02it/s] 73%|███████▎  | 7759/10696 [1:30:44<24:17,  2.02it/s] 73%|███████▎  | 7760/10696 [1:30:45<24:17,  2.01it/s] 73%|███████▎  | 7761/10696 [1:30:45<24:16,  2.01it/s] 73%|███████▎  | 7762/10696 [1:30:46<24:16,  2.01it/s] 73%|███████▎  | 7763/10696 [1:30:46<24:14,  2.02it/s] 73%|███████▎  | 7764/10696 [1:30:47<24:16,  2.01it/s] 73%|███████▎  | 7765/10696 [1:30:47<24:14,  2.02it/s] 73%|███████▎  | 7766/10696 [1:30:48<24:15,  2.01it/s] 73%|███████▎  | 7767/10696 [1:30:48<24:14,  2.01it/s] 73%|███████▎  | 7768/10696 [1:30:49<24:13,  2.02it/s] 73%|███████▎  | 7769/10696 [1:30:49<24:13,  2.01it/s] 73%|███████▎  | 7770/10696 [1:30:50<24:10,  2.02it/s] 73%|███████▎  | 7771/10696 [1:30:50<24:10,  2.02it/s] 73%|███████▎  | 7772/10696 [1:30:51<24:09,  2.02it/s] 73%|███████▎  | 7773/10696 [1:30:51<24:09,  2.02it/s] 73%|███████▎  | 7774/10696 [1:30:52<24:07,  2.02it/s] 73%|███████▎  | 7775/10696 [1:30:52<24:08,  2.02it/s]                                                      {'loss': 3.6458, 'grad_norm': 0.20776259899139404, 'learning_rate': 0.00021050752267309404, 'epoch': 0.73}
- 73%|███████▎  | 7775/10696 [1:30:52<24:08,  2.02it/s] 73%|███████▎  | 7776/10696 [1:30:53<24:10,  2.01it/s] 73%|███████▎  | 7777/10696 [1:30:53<24:08,  2.01it/s] 73%|███████▎  | 7778/10696 [1:30:54<24:09,  2.01it/s] 73%|███████▎  | 7779/10696 [1:30:54<24:06,  2.02it/s] 73%|███████▎  | 7780/10696 [1:30:55<24:08,  2.01it/s] 73%|███████▎  | 7781/10696 [1:30:55<24:05,  2.02it/s] 73%|███████▎  | 7782/10696 [1:30:56<24:05,  2.02it/s] 73%|████��██▎  | 7783/10696 [1:30:56<24:06,  2.01it/s] 73%|███████▎  | 7784/10696 [1:30:57<24:05,  2.01it/s] 73%|███████▎  | 7785/10696 [1:30:57<24:03,  2.02it/s] 73%|███████▎  | 7786/10696 [1:30:58<24:03,  2.02it/s] 73%|███████▎  | 7787/10696 [1:30:58<24:02,  2.02it/s] 73%|███████▎  | 7788/10696 [1:30:59<24:02,  2.02it/s] 73%|███████▎  | 7789/10696 [1:30:59<24:01,  2.02it/s] 73%|███████▎  | 7790/10696 [1:31:00<24:01,  2.02it/s] 73%|███████▎  | 7791/10696 [1:31:00<24:01,  2.02it/s] 73%|███████▎  | 7792/10696 [1:31:01<24:01,  2.01it/s] 73%|███████▎  | 7793/10696 [1:31:01<24:01,  2.01it/s] 73%|███████▎  | 7794/10696 [1:31:02<24:00,  2.01it/s] 73%|███████▎  | 7795/10696 [1:31:02<24:00,  2.01it/s] 73%|███████▎  | 7796/10696 [1:31:03<23:59,  2.02it/s] 73%|███████▎  | 7797/10696 [1:31:03<23:58,  2.01it/s] 73%|███████▎  | 7798/10696 [1:31:04<23:57,  2.02it/s] 73%|███████▎  | 7799/10696 [1:31:04<23:58,  2.01it/s] 73%|███████▎  | 7800/10696 [1:31:05<23:55,  2.02it/s]                                                      {'loss': 3.6515, 'grad_norm': 0.21239539980888367, 'learning_rate': 0.00020719096889260485, 'epoch': 0.73}
- 73%|███████▎  | 7800/10696 [1:31:05<23:55,  2.02it/s] 73%|███████▎  | 7801/10696 [1:31:05<23:57,  2.01it/s] 73%|███████▎  | 7802/10696 [1:31:06<23:57,  2.01it/s] 73%|███████▎  | 7803/10696 [1:31:06<23:56,  2.01it/s] 73%|███████▎  | 7804/10696 [1:31:07<23:56,  2.01it/s] 73%|███████▎  | 7805/10696 [1:31:07<23:54,  2.02it/s] 73%|███████▎  | 7806/10696 [1:31:08<23:55,  2.01it/s] 73%|███████▎  | 7807/10696 [1:31:08<23:52,  2.02it/s] 73%|███████▎  | 7808/10696 [1:31:09<23:52,  2.02it/s] 73%|███████▎  | 7809/10696 [1:31:09<23:51,  2.02it/s] 73%|███████▎  | 7810/10696 [1:31:10<23:52,  2.02it/s] 73%|███████▎  | 7811/10696 [1:31:10<23:52,  2.01it/s] 73%|███████▎  | 7812/10696 [1:31:11<23:51,  2.01it/s] 73%|███████▎  | 7813/10696 [1:31:11<23:52,  2.01it/s] 73%|███████▎  | 7814/10696 [1:31:12<23:49,  2.02it/s] 73%|███████▎  | 7815/10696 [1:31:12<23:49,  2.02it/s] 73%|███████▎  | 7816/10696 [1:31:13<23:48,  2.02it/s] 73%|███████▎  | 7817/10696 [1:31:13<23:46,  2.02it/s] 73%|███████▎  | 7818/10696 [1:31:14<23:46,  2.02it/s] 73%|███████▎  | 7819/10696 [1:31:14<23:46,  2.02it/s] 73%|███████▎  | 7820/10696 [1:31:15<23:46,  2.02it/s] 73%|███████▎  | 7821/10696 [1:31:15<23:44,  2.02it/s] 73%|███████▎  | 7822/10696 [1:31:16<23:45,  2.02it/s] 73%|███████▎  | 7823/10696 [1:31:16<23:44,  2.02it/s] 73%|███████▎  | 7824/10696 [1:31:17<23:44,  2.02it/s] 73%|███████▎  | 7825/10696 [1:31:17<23:43,  2.02it/s]                                                      {'loss': 3.6463, 'grad_norm': 0.2098025232553482, 'learning_rate': 0.00020389390772716898, 'epoch': 0.73}
- 73%|███████▎  | 7825/10696 [1:31:17<23:43,  2.02it/s] 73%|███████▎  | 7826/10696 [1:31:18<23:44,  2.02it/s] 73%|███████▎  | 7827/10696 [1:31:18<23:45,  2.01it/s] 73%|███████▎  | 7828/10696 [1:31:19<23:42,  2.02it/s] 73%|███████▎  | 7829/10696 [1:31:19<23:43,  2.01it/s] 73%|███████▎  | 7830/10696 [1:31:20<23:44,  2.01it/s] 73%|███████▎  | 7831/10696 [1:31:20<23:42,  2.01it/s] 73%|███████▎  | 7832/10696 [1:31:20<23:41,  2.01it/s] 73%|███████▎  | 7833/10696 [1:31:21<23:41,  2.01it/s] 73%|███████▎  | 7834/10696 [1:31:21<23:41,  2.01it/s] 73%|███████▎  | 7835/10696 [1:31:22<23:40,  2.01it/s] 73%|███████▎  | 7836/10696 [1:31:22<23:40,  2.01it/s] 73%|███████▎  | 7837/10696 [1:31:23<23:38,  2.02it/s] 73%|███████▎  | 7838/10696 [1:31:23<23:39,  2.01it/s] 73%|███████▎  | 7839/10696 [1:31:24<23:37,  2.02it/s] 73%|███████▎  | 7840/10696 [1:31:24<23:37,  2.01it/s] 73%|███████▎  | 7841/10696 [1:31:25<23:36,  2.02it/s] 73%|███████▎  | 7842/10696 [1:31:25<23:37,  2.01it/s] 73%|███████▎  | 7843/10696 [1:31:26<23:35,  2.02it/s] 73%|███████▎  | 7844/10696 [1:31:26<23:35,  2.01it/s] 73%|███████▎  | 7845/10696 [1:31:27<23:35,  2.01it/s] 73%|███████▎  | 7846/10696 [1:31:27<23:34,  2.01it/s] 73%|███████▎  | 7847/10696 [1:31:28<23:33,  2.02it/s] 73%|███████▎  | 7848/10696 [1:31:28<23:33,  2.01it/s] 73%|███████▎  | 7849/10696 [1:31:29<23:31,  2.02it/s] 73%|███████▎  | 7850/10696 [1:31:29<23:31,  2.02it/s]                                                      {'loss': 3.6433, 'grad_norm': 0.21409019827842712, 'learning_rate': 0.0002006165586657271, 'epoch': 0.73}
- 73%|███████▎  | 7850/10696 [1:31:29<23:31,  2.02it/s] 73%|███████▎  | 7851/10696 [1:31:30<23:33,  2.01it/s] 73%|███████▎  | 7852/10696 [1:31:30<23:33,  2.01it/s] 73%|███████▎  | 7853/10696 [1:31:31<23:33,  2.01it/s] 73%|███████▎  | 7854/10696 [1:31:31<23:31,  2.01it/s] 73%|███████▎  | 7855/10696 [1:31:32<23:31,  2.01it/s] 73%|███████▎  | 7856/10696 [1:31:32<23:29,  2.01it/s] 73%|███████▎  | 7857/10696 [1:31:33<23:28,  2.01it/s] 73%|███████▎  | 7858/10696 [1:31:33<23:27,  2.02it/s] 73%|███████▎  | 7859/10696 [1:31:34<23:28,  2.01it/s] 73%|███████▎  | 7860/10696 [1:31:34<23:26,  2.02it/s] 73%|███████▎  | 7861/10696 [1:31:35<23:27,  2.01it/s] 74%|███████▎  | 7862/10696 [1:31:35<23:27,  2.01it/s] 74%|███████▎  | 7863/10696 [1:31:36<23:26,  2.01it/s] 74%|███████▎  | 7864/10696 [1:31:36<23:26,  2.01it/s] 74%|███████▎  | 7865/10696 [1:31:37<23:24,  2.02it/s] 74%|███████▎  | 7866/10696 [1:31:37<23:25,  2.01it/s] 74%|███████▎  | 7867/10696 [1:31:38<23:23,  2.02it/s] 74%|███████▎  | 7868/10696 [1:31:38<23:23,  2.01it/s] 74%|███████▎  | 7869/10696 [1:31:39<23:23,  2.01it/s] 74%|███████▎  | 7870/10696 [1:31:39<23:21,  2.02it/s] 74%|███████▎  | 7871/10696 [1:31:40<23:22,  2.01it/s] 74%|███████▎  | 7872/10696 [1:31:40<23:20,  2.02it/s] 74%|███████▎  | 7873/10696 [1:31:41<23:21,  2.01it/s] 74%|███████▎  | 7874/10696 [1:31:41<23:21,  2.01it/s] 74%|███████▎  | 7875/10696 [1:31:42<23:20,  2.01it/s]{'loss': 3.6396, 'grad_norm': 0.21837428212165833, 'learning_rate': 0.00019735913988496408, 'epoch': 0.74}
-                                                       74%|███████▎  | 7875/10696 [1:31:42<23:20,  2.01it/s] 74%|███████▎  | 7876/10696 [1:31:42<23:21,  2.01it/s] 74%|███████▎  | 7877/10696 [1:31:43<23:19,  2.01it/s] 74%|███████▎  | 7878/10696 [1:31:43<23:19,  2.01it/s] 74%|███████▎  | 7879/10696 [1:31:44<23:21,  2.01it/s] 74%|███████▎  | 7880/10696 [1:31:44<23:19,  2.01it/s] 74%|███████▎  | 7881/10696 [1:31:45<23:20,  2.01it/s] 74%|███████▎  | 7882/10696 [1:31:45<23:19,  2.01it/s] 74%|███████▎  | 7883/10696 [1:31:46<23:17,  2.01it/s] 74%|███████▎  | 7884/10696 [1:31:46<23:17,  2.01it/s] 74%|███████▎  | 7885/10696 [1:31:47<23:15,  2.01it/s] 74%|███████▎  | 7886/10696 [1:31:47<23:14,  2.01it/s] 74%|███████▎  | 7887/10696 [1:31:48<23:13,  2.02it/s] 74%|███████▎  | 7888/10696 [1:31:48<23:14,  2.01it/s] 74%|███████▍  | 7889/10696 [1:31:49<23:12,  2.02it/s] 74%|███████▍  | 7890/10696 [1:31:49<23:12,  2.01it/s] 74%|███████▍  | 7891/10696 [1:31:50<23:12,  2.01it/s] 74%|███████▍  | 7892/10696 [1:31:50<23:12,  2.01it/s] 74%|███████▍  | 7893/10696 [1:31:51<23:11,  2.01it/s] 74%|███████▍  | 7894/10696 [1:31:51<23:10,  2.02it/s] 74%|███████▍  | 7895/10696 [1:31:52<23:10,  2.01it/s] 74%|███████▍  | 7896/10696 [1:31:52<23:09,  2.02it/s] 74%|███████▍  | 7897/10696 [1:31:53<23:10,  2.01it/s] 74%|███████▍  | 7898/10696 [1:31:53<23:09,  2.01it/s] 74%|███████▍  | 7899/10696 [1:31:54<23:08,  2.01it/s] 74%|███████▍  | 7900/10696 [1:31:54<23:08,  2.01it/s]{'loss': 3.6421, 'grad_norm': 0.1987410932779312, 'learning_rate': 0.0001941218682347843, 'epoch': 0.74}
-                                                       74%|███████▍  | 7900/10696 [1:31:54<23:08,  2.01it/s] 74%|███████▍  | 7901/10696 [1:31:55<23:07,  2.01it/s] 74%|███████▍  | 7902/10696 [1:31:55<23:08,  2.01it/s] 74%|███████▍  | 7903/10696 [1:31:56<23:07,  2.01it/s] 74%|███████▍  | 7904/10696 [1:31:56<23:06,  2.01it/s] 74%|███████▍  | 7905/10696 [1:31:57<23:06,  2.01it/s] 74%|███████▍  | 7906/10696 [1:31:57<23:04,  2.02it/s] 74%|███████▍  | 7907/10696 [1:31:58<23:04,  2.02it/s] 74%|███████▍  | 7908/10696 [1:31:58<23:02,  2.02it/s] 74%|███████▍  | 7909/10696 [1:31:59<23:05,  2.01it/s] 74%|███████▍  | 7910/10696 [1:31:59<23:03,  2.01it/s] 74%|███████▍  | 7911/10696 [1:32:00<23:03,  2.01it/s] 74%|███████▍  | 7912/10696 [1:32:00<23:01,  2.02it/s] 74%|███████▍  | 7913/10696 [1:32:01<23:01,  2.02it/s] 74%|███████▍  | 7914/10696 [1:32:01<23:01,  2.01it/s] 74%|███████▍  | 7915/10696 [1:32:02<22:59,  2.02it/s] 74%|███████▍  | 7916/10696 [1:32:02<22:58,  2.02it/s] 74%|███████▍  | 7917/10696 [1:32:03<22:58,  2.02it/s] 74%|███████▍  | 7918/10696 [1:32:03<22:58,  2.01it/s] 74%|███████▍  | 7919/10696 [1:32:04<22:56,  2.02it/s] 74%|███████▍  | 7920/10696 [1:32:04<22:57,  2.02it/s] 74%|███████▍  | 7921/10696 [1:32:05<22:56,  2.02it/s] 74%|███████▍  | 7922/10696 [1:32:05<22:56,  2.02it/s] 74%|███████▍  | 7923/10696 [1:32:06<22:55,  2.02it/s] 74%|███████▍  | 7924/10696 [1:32:06<22:56,  2.01it/s] 74%|███████▍  | 7925/10696 [1:32:07<22:55,  2.01it/s]{'loss': 3.6456, 'grad_norm': 0.203362837433815, 'learning_rate': 0.00019090495922387547, 'epoch': 0.74}
-                                                       74%|███████▍  | 7925/10696 [1:32:07<22:55,  2.01it/s] 74%|███████▍  | 7926/10696 [1:32:07<22:56,  2.01it/s] 74%|███████▍  | 7927/10696 [1:32:08<22:55,  2.01it/s] 74%|███████▍  | 7928/10696 [1:32:08<22:54,  2.01it/s] 74%|███████▍  | 7929/10696 [1:32:09<22:52,  2.02it/s] 74%|███████▍  | 7930/10696 [1:32:09<22:52,  2.02it/s] 74%|███████▍  | 7931/10696 [1:32:10<22:52,  2.01it/s] 74%|███████▍  | 7932/10696 [1:32:10<22:53,  2.01it/s] 74%|███████▍  | 7933/10696 [1:32:11<22:54,  2.01it/s] 74%|███████▍  | 7934/10696 [1:32:11<22:51,  2.01it/s] 74%|███████▍  | 7935/10696 [1:32:12<22:50,  2.01it/s] 74%|███████▍  | 7936/10696 [1:32:12<22:47,  2.02it/s] 74%|███████▍  | 7937/10696 [1:32:13<22:48,  2.02it/s] 74%|███████▍  | 7938/10696 [1:32:13<22:47,  2.02it/s] 74%|███████▍  | 7939/10696 [1:32:14<22:47,  2.02it/s] 74%|███████▍  | 7940/10696 [1:32:14<22:45,  2.02it/s] 74%|███████▍  | 7941/10696 [1:32:15<22:45,  2.02it/s] 74%|███████▍  | 7942/10696 [1:32:15<22:45,  2.02it/s] 74%|███████▍  | 7943/10696 [1:32:16<22:45,  2.02it/s] 74%|███████▍  | 7944/10696 [1:32:16<22:44,  2.02it/s] 74%|███████▍  | 7945/10696 [1:32:17<22:45,  2.02it/s] 74%|███████▍  | 7946/10696 [1:32:17<22:44,  2.02it/s] 74%|███████▍  | 7947/10696 [1:32:18<22:44,  2.01it/s] 74%|███████▍  | 7948/10696 [1:32:18<22:44,  2.01it/s] 74%|███████▍  | 7949/10696 [1:32:19<22:43,  2.01it/s] 74%|███████▍  | 7950/10696 [1:32:19<22:42,  2.02it/s]{'loss': 3.6474, 'grad_norm': 0.21233385801315308, 'learning_rate': 0.0001877086270053624, 'epoch': 0.74}                                                      
- 74%|███████▍  | 7950/10696 [1:32:19<22:42,  2.02it/s] 74%|███████▍  | 7951/10696 [1:32:20<22:44,  2.01it/s] 74%|███████▍  | 7952/10696 [1:32:20<22:43,  2.01it/s] 74%|███████▍  | 7953/10696 [1:32:21<22:42,  2.01it/s] 74%|███████▍  | 7954/10696 [1:32:21<22:40,  2.02it/s] 74%|███████▍  | 7955/10696 [1:32:22<22:39,  2.02it/s] 74%|███████▍  | 7956/10696 [1:32:22<22:39,  2.02it/s] 74%|███████▍  | 7957/10696 [1:32:23<22:37,  2.02it/s] 74%|███████▍  | 7958/10696 [1:32:23<22:40,  2.01it/s] 74%|███████▍  | 7959/10696 [1:32:24<22:36,  2.02it/s] 74%|███████▍  | 7960/10696 [1:32:24<22:38,  2.01it/s] 74%|███████▍  | 7961/10696 [1:32:25<22:35,  2.02it/s] 74%|███████▍  | 7962/10696 [1:32:25<22:36,  2.02it/s] 74%|███████▍  | 7963/10696 [1:32:26<22:35,  2.02it/s] 74%|███████▍  | 7964/10696 [1:32:26<22:35,  2.02it/s] 74%|███████▍  | 7965/10696 [1:32:27<22:34,  2.02it/s] 74%|███████▍  | 7966/10696 [1:32:27<22:33,  2.02it/s] 74%|███████▍  | 7967/10696 [1:32:28<22:34,  2.02it/s] 74%|███████▍  | 7968/10696 [1:32:28<22:32,  2.02it/s] 75%|███████▍  | 7969/10696 [1:32:28<22:32,  2.02it/s] 75%|███████▍  | 7970/10696 [1:32:29<22:30,  2.02it/s] 75%|███████▍  | 7971/10696 [1:32:29<22:31,  2.02it/s] 75%|███████▍  | 7972/10696 [1:32:30<22:30,  2.02it/s] 75%|███████▍  | 7973/10696 [1:32:30<22:30,  2.02it/s] 75%|███████▍  | 7974/10696 [1:32:31<22:29,  2.02it/s] 75%|███████▍  | 7975/10696 [1:32:31<22:29,  2.02it/s]                                                      {'loss': 3.643, 'grad_norm': 0.20952410995960236, 'learning_rate': 0.00018453308436255068, 'epoch': 0.75}
- 75%|███████▍  | 7975/10696 [1:32:31<22:29,  2.02it/s] 75%|███████▍  | 7976/10696 [1:32:32<22:30,  2.01it/s] 75%|███████▍  | 7977/10696 [1:32:32<22:29,  2.01it/s] 75%|███████▍  | 7978/10696 [1:32:33<22:28,  2.01it/s] 75%|███████▍  | 7979/10696 [1:32:33<22:29,  2.01it/s] 75%|███████▍  | 7980/10696 [1:32:34<22:28,  2.01it/s] 75%|███████▍  | 7981/10696 [1:32:34<22:28,  2.01it/s] 75%|███████▍  | 7982/10696 [1:32:35<22:25,  2.02it/s] 75%|███████▍  | 7983/10696 [1:32:35<22:26,  2.01it/s] 75%|███████▍  | 7984/10696 [1:32:36<22:24,  2.02it/s] 75%|███████▍  | 7985/10696 [1:32:36<22:24,  2.02it/s] 75%|███████▍  | 7986/10696 [1:32:37<22:24,  2.02it/s] 75%|███████▍  | 7987/10696 [1:32:37<22:23,  2.02it/s] 75%|███████▍  | 7988/10696 [1:32:38<22:24,  2.01it/s] 75%|███████▍  | 7989/10696 [1:32:38<22:24,  2.01it/s] 75%|███████▍  | 7990/10696 [1:32:39<22:23,  2.01it/s] 75%|███████▍  | 7991/10696 [1:32:39<22:24,  2.01it/s] 75%|███████▍  | 7992/10696 [1:32:40<22:22,  2.01it/s] 75%|███████▍  | 7993/10696 [1:32:40<22:21,  2.01it/s] 75%|███████▍  | 7994/10696 [1:32:41<22:19,  2.02it/s] 75%|███████▍  | 7995/10696 [1:32:41<22:18,  2.02it/s] 75%|███████▍  | 7996/10696 [1:32:42<22:18,  2.02it/s] 75%|███████▍  | 7997/10696 [1:32:42<22:18,  2.02it/s] 75%|███████▍  | 7998/10696 [1:32:43<22:18,  2.02it/s] 75%|███████▍  | 7999/10696 [1:32:43<22:16,  2.02it/s] 75%|███████▍  | 8000/10696 [1:32:44<22:17,  2.02it/s]{'loss': 3.6396, 'grad_norm': 0.2029985934495926, 'learning_rate': 0.0001813785426947614, 'epoch': 0.75}
-                                                       75%|███████▍  | 8000/10696 [1:32:44<22:17,  2.02it/s] 75%|███████▍  | 8001/10696 [1:32:44<22:17,  2.01it/s] 75%|███████▍  | 8002/10696 [1:32:45<22:17,  2.01it/s] 75%|███████▍  | 8003/10696 [1:32:45<22:17,  2.01it/s] 75%|███████▍  | 8004/10696 [1:32:46<22:15,  2.02it/s] 75%|███████▍  | 8005/10696 [1:32:46<22:15,  2.01it/s] 75%|███████▍  | 8006/10696 [1:32:47<22:15,  2.01it/s] 75%|███████▍  | 8007/10696 [1:32:47<22:14,  2.01it/s] 75%|███████▍  | 8008/10696 [1:32:48<22:15,  2.01it/s] 75%|███████▍  | 8009/10696 [1:32:48<22:14,  2.01it/s] 75%|███████▍  | 8010/10696 [1:32:49<22:13,  2.01it/s] 75%|███████▍  | 8011/10696 [1:32:49<22:13,  2.01it/s] 75%|███████▍  | 8012/10696 [1:32:50<22:11,  2.02it/s] 75%|███████▍  | 8013/10696 [1:32:50<22:11,  2.02it/s] 75%|███████▍  | 8014/10696 [1:32:51<22:09,  2.02it/s] 75%|███████▍  | 8015/10696 [1:32:51<22:08,  2.02it/s] 75%|███████▍  | 8016/10696 [1:32:52<22:08,  2.02it/s] 75%|███████▍  | 8017/10696 [1:32:52<22:07,  2.02it/s] 75%|███████▍  | 8018/10696 [1:32:53<22:07,  2.02it/s] 75%|███████▍  | 8019/10696 [1:32:53<22:07,  2.02it/s] 75%|███████▍  | 8020/10696 [1:32:54<22:08,  2.01it/s] 75%|███████▍  | 8021/10696 [1:32:54<22:07,  2.01it/s] 75%|███████▌  | 8022/10696 [1:32:55<22:07,  2.01it/s] 75%|███████▌  | 8023/10696 [1:32:55<22:07,  2.01it/s] 75%|███████▌  | 8024/10696 [1:32:56<22:05,  2.02it/s] 75%|███████▌  | 8025/10696 [1:32:56<22:04,  2.02it/s]{'loss': 3.6406, 'grad_norm': 0.20678909122943878, 'learning_rate': 0.00017824521200325756, 'epoch': 0.75}                                                      
- 75%|███████▌  | 8025/10696 [1:32:56<22:04,  2.02it/s] 75%|███████▌  | 8026/10696 [1:32:57<22:05,  2.01it/s] 75%|███████▌  | 8027/10696 [1:32:57<22:05,  2.01it/s] 75%|███████▌  | 8028/10696 [1:32:58<22:03,  2.02it/s] 75%|███████▌  | 8029/10696 [1:32:58<22:04,  2.01it/s] 75%|███████▌  | 8030/10696 [1:32:59<22:02,  2.02it/s] 75%|███████▌  | 8031/10696 [1:32:59<22:02,  2.02it/s] 75%|███████▌  | 8032/10696 [1:33:00<22:01,  2.02it/s] 75%|███████▌  | 8033/10696 [1:33:00<21:59,  2.02it/s] 75%|███████▌  | 8034/10696 [1:33:01<21:59,  2.02it/s] 75%|███████▌  | 8035/10696 [1:33:01<21:58,  2.02it/s] 75%|███████▌  | 8036/10696 [1:33:02<22:00,  2.02it/s] 75%|███████▌  | 8037/10696 [1:33:02<21:57,  2.02it/s] 75%|███████▌  | 8038/10696 [1:33:03<21:58,  2.02it/s] 75%|███████▌  | 8039/10696 [1:33:03<21:57,  2.02it/s] 75%|███████▌  | 8040/10696 [1:33:04<21:57,  2.02it/s] 75%|███████▌  | 8041/10696 [1:33:04<21:57,  2.02it/s] 75%|███████▌  | 8042/10696 [1:33:05<21:55,  2.02it/s] 75%|███████▌  | 8043/10696 [1:33:05<21:56,  2.02it/s] 75%|███████▌  | 8044/10696 [1:33:06<21:54,  2.02it/s] 75%|███████▌  | 8045/10696 [1:33:06<21:55,  2.02it/s] 75%|███████▌  | 8046/10696 [1:33:07<21:53,  2.02it/s] 75%|███████▌  | 8047/10696 [1:33:07<21:55,  2.01it/s] 75%|███████▌  | 8048/10696 [1:33:08<21:55,  2.01it/s] 75%|███████▌  | 8049/10696 [1:33:08<21:55,  2.01it/s] 75%|███████▌  | 8050/10696 [1:33:09<21:54,  2.01it/s]{'loss': 3.6397, 'grad_norm': 0.20373226702213287, 'learning_rate': 0.00017513330087726443, 'epoch': 0.75}
-                                                       75%|███████▌  | 8050/10696 [1:33:09<21:54,  2.01it/s] 75%|███████▌  | 8051/10696 [1:33:09<21:55,  2.01it/s] 75%|███████▌  | 8052/10696 [1:33:10<21:54,  2.01it/s] 75%|███████▌  | 8053/10696 [1:33:10<21:53,  2.01it/s] 75%|███████▌  | 8054/10696 [1:33:11<21:51,  2.01it/s] 75%|███████▌  | 8055/10696 [1:33:11<21:51,  2.01it/s] 75%|███████▌  | 8056/10696 [1:33:12<21:49,  2.02it/s] 75%|███████▌  | 8057/10696 [1:33:12<21:49,  2.01it/s] 75%|███████▌  | 8058/10696 [1:33:13<21:48,  2.02it/s] 75%|███████▌  | 8059/10696 [1:33:13<21:46,  2.02it/s] 75%|███████▌  | 8060/10696 [1:33:14<21:47,  2.02it/s] 75%|███████▌  | 8061/10696 [1:33:14<21:47,  2.02it/s] 75%|███████▌  | 8062/10696 [1:33:15<21:46,  2.02it/s] 75%|███████▌  | 8063/10696 [1:33:15<21:45,  2.02it/s] 75%|███████▌  | 8064/10696 [1:33:16<21:45,  2.02it/s] 75%|███████▌  | 8065/10696 [1:33:16<21:45,  2.02it/s] 75%|███████▌  | 8066/10696 [1:33:17<21:45,  2.02it/s] 75%|███████▌  | 8067/10696 [1:33:17<21:45,  2.01it/s] 75%|███████▌  | 8068/10696 [1:33:18<21:43,  2.02it/s] 75%|███████▌  | 8069/10696 [1:33:18<21:45,  2.01it/s] 75%|███████▌  | 8070/10696 [1:33:19<21:44,  2.01it/s] 75%|███████▌  | 8071/10696 [1:33:19<21:43,  2.01it/s] 75%|███████▌  | 8072/10696 [1:33:20<21:42,  2.01it/s] 75%|███████▌  | 8073/10696 [1:33:20<21:41,  2.02it/s] 75%|███████▌  | 8074/10696 [1:33:21<21:40,  2.02it/s] 75%|███████▌  | 8075/10696 [1:33:21<21:39,  2.02it/s]{'loss': 3.6436, 'grad_norm': 0.22790107131004333, 'learning_rate': 0.00017204301648008401, 'epoch': 0.75}                                                      
- 75%|███████▌  | 8075/10696 [1:33:21<21:39,  2.02it/s] 76%|███████▌  | 8076/10696 [1:33:22<21:41,  2.01it/s] 76%|███████▌  | 8077/10696 [1:33:22<21:39,  2.02it/s] 76%|███████▌  | 8078/10696 [1:33:23<21:40,  2.01it/s] 76%|███████▌  | 8079/10696 [1:33:23<21:38,  2.02it/s] 76%|███████▌  | 8080/10696 [1:33:24<21:38,  2.01it/s] 76%|███████▌  | 8081/10696 [1:33:24<21:37,  2.02it/s] 76%|███████▌  | 8082/10696 [1:33:25<21:37,  2.01it/s] 76%|███████▌  | 8083/10696 [1:33:25<21:36,  2.02it/s] 76%|███████▌  | 8084/10696 [1:33:26<21:35,  2.02it/s] 76%|███████▌  | 8085/10696 [1:33:26<21:36,  2.01it/s] 76%|███████▌  | 8086/10696 [1:33:27<21:35,  2.01it/s] 76%|███████▌  | 8087/10696 [1:33:27<21:35,  2.01it/s] 76%|███████▌  | 8088/10696 [1:33:28<21:34,  2.01it/s] 76%|███████▌  | 8089/10696 [1:33:28<21:33,  2.02it/s] 76%|███████▌  | 8090/10696 [1:33:29<21:34,  2.01it/s] 76%|███████▌  | 8091/10696 [1:33:29<21:32,  2.02it/s] 76%|███████▌  | 8092/10696 [1:33:30<21:33,  2.01it/s] 76%|███████▌  | 8093/10696 [1:33:30<21:32,  2.01it/s] 76%|███████▌  | 8094/10696 [1:33:31<21:31,  2.01it/s] 76%|███████▌  | 8095/10696 [1:33:31<21:31,  2.01it/s] 76%|███████▌  | 8096/10696 [1:33:32<21:29,  2.02it/s] 76%|███████▌  | 8097/10696 [1:33:32<21:30,  2.01it/s] 76%|███████▌  | 8098/10696 [1:33:33<21:30,  2.01it/s] 76%|███████▌  | 8099/10696 [1:33:33<21:30,  2.01it/s] 76%|███████▌  | 8100/10696 [1:33:34<21:28,  2.01it/s]{'loss': 3.6463, 'grad_norm': 0.20710542798042297, 'learning_rate': 0.000168974564535303, 'epoch': 0.76}
-                                                       76%|███████▌  | 8100/10696 [1:33:34<21:28,  2.01it/s] 76%|███████▌  | 8101/10696 [1:33:34<21:31,  2.01it/s] 76%|███████▌  | 8102/10696 [1:33:34<21:29,  2.01it/s] 76%|███████▌  | 8103/10696 [1:33:35<21:28,  2.01it/s] 76%|███████▌  | 8104/10696 [1:33:35<21:27,  2.01it/s] 76%|███████▌  | 8105/10696 [1:33:36<21:26,  2.01it/s] 76%|███████▌  | 8106/10696 [1:33:36<21:26,  2.01it/s] 76%|███████▌  | 8107/10696 [1:33:37<21:24,  2.02it/s] 76%|███████▌  | 8108/10696 [1:33:37<21:24,  2.01it/s] 76%|███████▌  | 8109/10696 [1:33:38<21:24,  2.01it/s] 76%|███████▌  | 8110/10696 [1:33:38<21:23,  2.02it/s] 76%|███████▌  | 8111/10696 [1:33:39<21:23,  2.01it/s] 76%|███████▌  | 8112/10696 [1:33:39<21:21,  2.02it/s] 76%|███████▌  | 8113/10696 [1:33:40<21:21,  2.02it/s] 76%|███████▌  | 8114/10696 [1:33:40<21:20,  2.02it/s] 76%|███████▌  | 8115/10696 [1:33:41<21:20,  2.01it/s] 76%|███████▌  | 8116/10696 [1:33:41<21:20,  2.02it/s] 76%|███████▌  | 8117/10696 [1:33:42<21:19,  2.02it/s] 76%|███████▌  | 8118/10696 [1:33:42<21:18,  2.02it/s] 76%|███████▌  | 8119/10696 [1:33:43<21:19,  2.01it/s] 76%|███████▌  | 8120/10696 [1:33:43<21:18,  2.02it/s] 76%|███████▌  | 8121/10696 [1:33:44<21:18,  2.01it/s] 76%|███████▌  | 8122/10696 [1:33:44<21:16,  2.02it/s] 76%|███████▌  | 8123/10696 [1:33:45<21:15,  2.02it/s] 76%|███████▌  | 8124/10696 [1:33:45<21:14,  2.02it/s] 76%|███████▌  | 8125/10696 [1:33:46<21:17,  2.01it/s]{'loss': 3.6357, 'grad_norm': 0.20233149826526642, 'learning_rate': 0.0001659281493130985, 'epoch': 0.76}
-                                                       76%|███████▌  | 8125/10696 [1:33:46<21:17,  2.01it/s] 76%|███████▌  | 8126/10696 [1:33:46<21:16,  2.01it/s] 76%|███████▌  | 8127/10696 [1:33:47<21:16,  2.01it/s] 76%|███████▌  | 8128/10696 [1:33:47<21:14,  2.01it/s] 76%|███████▌  | 8129/10696 [1:33:48<21:14,  2.01it/s] 76%|███████▌  | 8130/10696 [1:33:48<21:14,  2.01it/s] 76%|███████▌  | 8131/10696 [1:33:49<21:13,  2.01it/s] 76%|███████▌  | 8132/10696 [1:33:49<21:13,  2.01it/s] 76%|███████▌  | 8133/10696 [1:33:50<21:11,  2.01it/s] 76%|███████▌  | 8134/10696 [1:33:50<21:11,  2.01it/s] 76%|███████▌  | 8135/10696 [1:33:51<21:11,  2.01it/s] 76%|███████▌  | 8136/10696 [1:33:51<21:13,  2.01it/s] 76%|███████▌  | 8137/10696 [1:33:52<21:11,  2.01it/s] 76%|███████▌  | 8138/10696 [1:33:52<21:10,  2.01it/s] 76%|███████▌  | 8139/10696 [1:33:53<21:11,  2.01it/s] 76%|███████▌  | 8140/10696 [1:33:53<21:09,  2.01it/s] 76%|███████▌  | 8141/10696 [1:33:54<21:08,  2.01it/s] 76%|███████▌  | 8142/10696 [1:33:54<21:07,  2.02it/s] 76%|███████▌  | 8143/10696 [1:33:55<21:06,  2.02it/s] 76%|███████▌  | 8144/10696 [1:33:55<21:05,  2.02it/s] 76%|███████▌  | 8145/10696 [1:33:56<21:05,  2.02it/s] 76%|███████▌  | 8146/10696 [1:33:56<21:06,  2.01it/s] 76%|███████▌  | 8147/10696 [1:33:57<21:06,  2.01it/s] 76%|███████▌  | 8148/10696 [1:33:57<21:05,  2.01it/s] 76%|███████▌  | 8149/10696 [1:33:58<21:05,  2.01it/s] 76%|███████▌  | 8150/10696 [1:33:58<21:04,  2.01it/s]                                                      {'loss': 3.6351, 'grad_norm': 0.21251598000526428, 'learning_rate': 0.00016290397361663856, 'epoch': 0.76}
- 76%|███████▌  | 8150/10696 [1:33:58<21:04,  2.01it/s] 76%|███████▌  | 8151/10696 [1:33:59<21:06,  2.01it/s] 76%|███████▌  | 8152/10696 [1:33:59<21:04,  2.01it/s] 76%|███████▌  | 8153/10696 [1:34:00<21:03,  2.01it/s] 76%|███████▌  | 8154/10696 [1:34:00<21:01,  2.01it/s] 76%|███████▌  | 8155/10696 [1:34:01<21:01,  2.01it/s] 76%|███████▋  | 8156/10696 [1:34:01<21:00,  2.01it/s] 76%|███████▋  | 8157/10696 [1:34:02<21:00,  2.01it/s] 76%|███████▋  | 8158/10696 [1:34:02<21:00,  2.01it/s] 76%|███████▋  | 8159/10696 [1:34:03<20:58,  2.02it/s] 76%|███████▋  | 8160/10696 [1:34:03<20:59,  2.01it/s] 76%|███████▋  | 8161/10696 [1:34:04<20:58,  2.01it/s] 76%|███████▋  | 8162/10696 [1:34:04<20:57,  2.02it/s] 76%|███████▋  | 8163/10696 [1:34:05<20:56,  2.02it/s] 76%|███████▋  | 8164/10696 [1:34:05<20:56,  2.01it/s] 76%|███████▋  | 8165/10696 [1:34:06<20:57,  2.01it/s] 76%|███████▋  | 8166/10696 [1:34:06<20:55,  2.02it/s] 76%|███████▋  | 8167/10696 [1:34:07<20:53,  2.02it/s] 76%|███████▋  | 8168/10696 [1:34:07<20:53,  2.02it/s] 76%|███████▋  | 8169/10696 [1:34:08<20:53,  2.02it/s] 76%|███████▋  | 8170/10696 [1:34:08<20:52,  2.02it/s] 76%|███████▋  | 8171/10696 [1:34:09<20:52,  2.02it/s] 76%|███████▋  | 8172/10696 [1:34:09<20:52,  2.02it/s] 76%|███████▋  | 8173/10696 [1:34:10<20:51,  2.02it/s] 76%|███████▋  | 8174/10696 [1:34:10<20:51,  2.02it/s] 76%|███████▋  | 8175/10696 [1:34:11<20:51,  2.01it/s]                                                      {'loss': 3.6349, 'grad_norm': 0.21025384962558746, 'learning_rate': 0.0001599022387685824, 'epoch': 0.76}
- 76%|███████▋  | 8175/10696 [1:34:11<20:51,  2.01it/s] 76%|███████▋  | 8176/10696 [1:34:11<20:51,  2.01it/s] 76%|███████▋  | 8177/10696 [1:34:12<20:51,  2.01it/s] 76%|███████▋  | 8178/10696 [1:34:12<20:50,  2.01it/s] 76%|███████▋  | 8179/10696 [1:34:13<20:49,  2.02it/s] 76%|███████▋  | 8180/10696 [1:34:13<20:48,  2.02it/s] 76%|███████▋  | 8181/10696 [1:34:14<20:49,  2.01it/s] 76%|███████▋  | 8182/10696 [1:34:14<20:47,  2.02it/s] 77%|███████▋  | 8183/10696 [1:34:15<20:47,  2.01it/s] 77%|███████▋  | 8184/10696 [1:34:15<20:46,  2.02it/s] 77%|███████▋  | 8185/10696 [1:34:16<20:46,  2.02it/s] 77%|███████▋  | 8186/10696 [1:34:16<20:45,  2.02it/s] 77%|███████▋  | 8187/10696 [1:34:17<20:45,  2.01it/s] 77%|███████▋  | 8188/10696 [1:34:17<20:45,  2.01it/s] 77%|███████▋  | 8189/10696 [1:34:18<20:44,  2.01it/s] 77%|███████▋  | 8190/10696 [1:34:18<20:44,  2.01it/s] 77%|███████▋  | 8191/10696 [1:34:19<20:43,  2.01it/s] 77%|███████▋  | 8192/10696 [1:34:19<20:43,  2.01it/s] 77%|███████▋  | 8193/10696 [1:34:20<20:42,  2.01it/s] 77%|███████▋  | 8194/10696 [1:34:20<20:42,  2.01it/s] 77%|███████▋  | 8195/10696 [1:34:21<20:42,  2.01it/s] 77%|███████▋  | 8196/10696 [1:34:21<20:41,  2.01it/s] 77%|███████▋  | 8197/10696 [1:34:22<20:41,  2.01it/s] 77%|███████▋  | 8198/10696 [1:34:22<20:40,  2.01it/s] 77%|███████▋  | 8199/10696 [1:34:23<20:39,  2.01it/s] 77%|███████▋  | 8200/10696 [1:34:23<20:38,  2.01it/s]{'loss': 3.631, 'grad_norm': 0.2079133242368698, 'learning_rate': 0.00015692314459767715, 'epoch': 0.77}                                                      
- 77%|███████▋  | 8200/10696 [1:34:23<20:38,  2.01it/s] 77%|███████▋  | 8201/10696 [1:34:24<20:41,  2.01it/s] 77%|███████▋  | 8202/10696 [1:34:24<20:39,  2.01it/s] 77%|███████▋  | 8203/10696 [1:34:25<20:39,  2.01it/s] 77%|███████▋  | 8204/10696 [1:34:25<20:38,  2.01it/s] 77%|███████▋  | 8205/10696 [1:34:26<20:37,  2.01it/s] 77%|███████▋  | 8206/10696 [1:34:26<20:38,  2.01it/s] 77%|███████▋  | 8207/10696 [1:34:27<20:36,  2.01it/s] 77%|███████▋  | 8208/10696 [1:34:27<20:36,  2.01it/s] 77%|███████▋  | 8209/10696 [1:34:28<20:35,  2.01it/s] 77%|███████▋  | 8210/10696 [1:34:28<20:34,  2.01it/s] 77%|███████▋  | 8211/10696 [1:34:29<20:33,  2.01it/s] 77%|███████▋  | 8212/10696 [1:34:29<20:32,  2.02it/s] 77%|███████▋  | 8213/10696 [1:34:30<20:33,  2.01it/s] 77%|███████▋  | 8214/10696 [1:34:30<20:30,  2.02it/s] 77%|███████▋  | 8215/10696 [1:34:31<20:32,  2.01it/s] 77%|███████▋  | 8216/10696 [1:34:31<20:30,  2.02it/s] 77%|███████▋  | 8217/10696 [1:34:32<23:53,  1.73it/s] 77%|███████▋  | 8218/10696 [1:34:32<22:52,  1.81it/s] 77%|███████▋  | 8219/10696 [1:34:33<22:08,  1.86it/s] 77%|███████▋  | 8220/10696 [1:34:33<21:37,  1.91it/s] 77%|███████▋  | 8221/10696 [1:34:34<21:20,  1.93it/s] 77%|███████▋  | 8222/10696 [1:34:34<21:03,  1.96it/s] 77%|███████▋  | 8223/10696 [1:34:35<20:52,  1.97it/s] 77%|███████▋  | 8224/10696 [1:34:35<20:44,  1.99it/s] 77%|███████▋  | 8225/10696 [1:34:36<20:38,  2.00it/s]                                                      {'loss': 3.6367, 'grad_norm': 0.21409523487091064, 'learning_rate': 0.00015396688942545533, 'epoch': 0.77}
- 77%|███████▋  | 8225/10696 [1:34:36<20:38,  2.00it/s] 77%|███████▋  | 8226/10696 [1:34:36<20:36,  2.00it/s] 77%|███████▋  | 8227/10696 [1:34:37<20:32,  2.00it/s] 77%|███████▋  | 8228/10696 [1:34:37<20:30,  2.01it/s] 77%|███████▋  | 8229/10696 [1:34:38<20:26,  2.01it/s] 77%|███████▋  | 8230/10696 [1:34:38<20:25,  2.01it/s] 77%|███████▋  | 8231/10696 [1:34:39<20:24,  2.01it/s] 77%|███████▋  | 8232/10696 [1:34:39<20:24,  2.01it/s] 77%|███████▋  | 8233/10696 [1:34:40<20:23,  2.01it/s] 77%|███████▋  | 8234/10696 [1:34:40<20:22,  2.01it/s] 77%|███████▋  | 8235/10696 [1:34:41<20:21,  2.01it/s] 77%|███████▋  | 8236/10696 [1:34:41<20:20,  2.02it/s] 77%|███████▋  | 8237/10696 [1:34:42<20:20,  2.02it/s] 77%|███████▋  | 8238/10696 [1:34:42<20:20,  2.01it/s] 77%|███████▋  | 8239/10696 [1:34:43<20:20,  2.01it/s] 77%|███████▋  | 8240/10696 [1:34:43<20:20,  2.01it/s] 77%|███████▋  | 8241/10696 [1:34:44<20:18,  2.01it/s] 77%|███████▋  | 8242/10696 [1:34:44<20:18,  2.01it/s] 77%|███████▋  | 8243/10696 [1:34:45<20:16,  2.02it/s] 77%|███████▋  | 8244/10696 [1:34:45<20:17,  2.01it/s] 77%|███████▋  | 8245/10696 [1:34:46<20:15,  2.02it/s] 77%|███████▋  | 8246/10696 [1:34:46<20:15,  2.02it/s] 77%|███████▋  | 8247/10696 [1:34:47<20:15,  2.02it/s] 77%|███████▋  | 8248/10696 [1:34:47<20:14,  2.02it/s] 77%|███████▋  | 8249/10696 [1:34:48<20:13,  2.02it/s] 77%|███████▋  | 8250/10696 [1:34:48<20:15,  2.01it/s]                                                      {'loss': 3.6387, 'grad_norm': 0.20665451884269714, 'learning_rate': 0.00015103367005303358, 'epoch': 0.77}
- 77%|███████▋  | 8250/10696 [1:34:48<20:15,  2.01it/s] 77%|███████▋  | 8251/10696 [1:34:49<20:15,  2.01it/s] 77%|███████▋  | 8252/10696 [1:34:49<20:14,  2.01it/s] 77%|███████▋  | 8253/10696 [1:34:50<23:36,  1.72it/s] 77%|███████▋  | 8254/10696 [1:34:51<22:35,  1.80it/s] 77%|███████▋  | 8255/10696 [1:34:51<21:51,  1.86it/s] 77%|███████▋  | 8256/10696 [1:34:52<21:22,  1.90it/s] 77%|███████▋  | 8257/10696 [1:34:52<20:58,  1.94it/s] 77%|███████▋  | 8258/10696 [1:34:52<20:44,  1.96it/s] 77%|███████▋  | 8259/10696 [1:34:53<20:33,  1.98it/s] 77%|███████▋  | 8260/10696 [1:34:53<20:25,  1.99it/s] 77%|███████▋  | 8261/10696 [1:34:54<20:19,  2.00it/s] 77%|███████▋  | 8262/10696 [1:34:54<20:15,  2.00it/s] 77%|███████▋  | 8263/10696 [1:34:55<20:12,  2.01it/s] 77%|███████▋  | 8264/10696 [1:34:55<20:11,  2.01it/s] 77%|███████▋  | 8265/10696 [1:34:56<20:09,  2.01it/s] 77%|███████▋  | 8266/10696 [1:34:56<20:09,  2.01it/s] 77%|███████▋  | 8267/10696 [1:34:57<20:07,  2.01it/s] 77%|███████▋  | 8268/10696 [1:34:57<20:06,  2.01it/s] 77%|███████▋  | 8269/10696 [1:34:58<20:05,  2.01it/s] 77%|███████▋  | 8270/10696 [1:34:58<20:04,  2.01it/s] 77%|███████▋  | 8271/10696 [1:34:59<20:03,  2.01it/s] 77%|███████▋  | 8272/10696 [1:34:59<20:01,  2.02it/s] 77%|███████▋  | 8273/10696 [1:35:00<20:02,  2.02it/s] 77%|███████▋  | 8274/10696 [1:35:00<20:00,  2.02it/s] 77%|███████▋  | 8275/10696 [1:35:01<20:00,  2.02it/s]{'loss': 3.6358, 'grad_norm': 0.21327315270900726, 'learning_rate': 0.00014812368174800923, 'epoch': 0.77}
-                                                       77%|███████▋  | 8275/10696 [1:35:01<20:00,  2.02it/s] 77%|███████▋  | 8276/10696 [1:35:01<20:03,  2.01it/s] 77%|███████▋  | 8277/10696 [1:35:02<20:01,  2.01it/s] 77%|███████▋  | 8278/10696 [1:35:02<20:01,  2.01it/s] 77%|███████▋  | 8279/10696 [1:35:03<20:00,  2.01it/s] 77%|███████▋  | 8280/10696 [1:35:03<19:59,  2.01it/s] 77%|███████▋  | 8281/10696 [1:35:04<19:58,  2.02it/s] 77%|███████▋  | 8282/10696 [1:35:04<19:58,  2.01it/s] 77%|███████▋  | 8283/10696 [1:35:05<19:59,  2.01it/s] 77%|███████▋  | 8284/10696 [1:35:05<19:57,  2.01it/s] 77%|███████▋  | 8285/10696 [1:35:06<19:58,  2.01it/s] 77%|███████▋  | 8286/10696 [1:35:06<19:56,  2.01it/s] 77%|███████▋  | 8287/10696 [1:35:07<19:56,  2.01it/s] 77%|███████▋  | 8288/10696 [1:35:07<19:55,  2.01it/s] 77%|███████▋  | 8289/10696 [1:35:08<19:54,  2.02it/s] 78%|███████▊  | 8290/10696 [1:35:08<19:53,  2.02it/s] 78%|███████▊  | 8291/10696 [1:35:09<19:52,  2.02it/s] 78%|███████▊  | 8292/10696 [1:35:09<19:51,  2.02it/s] 78%|███████▊  | 8293/10696 [1:35:10<19:51,  2.02it/s] 78%|███████▊  | 8294/10696 [1:35:10<19:51,  2.02it/s] 78%|███████▊  | 8295/10696 [1:35:11<19:51,  2.02it/s] 78%|███████▊  | 8296/10696 [1:35:11<19:51,  2.01it/s] 78%|███████▊  | 8297/10696 [1:35:12<19:51,  2.01it/s] 78%|███████▊  | 8298/10696 [1:35:12<19:48,  2.02it/s] 78%|███████▊  | 8299/10696 [1:35:13<19:49,  2.02it/s] 78%|███████▊  | 8300/10696 [1:35:13<19:47,  2.02it/s]{'loss': 3.6316, 'grad_norm': 0.20415090024471283, 'learning_rate': 0.00014523711823146256, 'epoch': 0.78}
-                                                       78%|███████▊  | 8300/10696 [1:35:13<19:47,  2.02it/s] 78%|███████▊  | 8301/10696 [1:35:14<19:49,  2.01it/s] 78%|███████▊  | 8302/10696 [1:35:14<19:47,  2.02it/s] 78%|███████▊  | 8303/10696 [1:35:15<19:46,  2.02it/s] 78%|███████▊  | 8304/10696 [1:35:15<19:46,  2.02it/s] 78%|███████▊  | 8305/10696 [1:35:16<19:46,  2.02it/s] 78%|███████▊  | 8306/10696 [1:35:16<19:46,  2.01it/s] 78%|███████▊  | 8307/10696 [1:35:17<19:45,  2.02it/s] 78%|███████▊  | 8308/10696 [1:35:17<19:44,  2.02it/s] 78%|███████▊  | 8309/10696 [1:35:18<19:42,  2.02it/s] 78%|███████▊  | 8310/10696 [1:35:18<19:42,  2.02it/s] 78%|███████▊  | 8311/10696 [1:35:19<19:41,  2.02it/s] 78%|███████▊  | 8312/10696 [1:35:19<19:42,  2.02it/s] 78%|███████▊  | 8313/10696 [1:35:20<19:41,  2.02it/s] 78%|███████▊  | 8314/10696 [1:35:20<19:42,  2.02it/s] 78%|███████▊  | 8315/10696 [1:35:21<19:42,  2.01it/s] 78%|███████▊  | 8316/10696 [1:35:21<19:40,  2.02it/s] 78%|███████▊  | 8317/10696 [1:35:22<19:41,  2.01it/s] 78%|███████▊  | 8318/10696 [1:35:22<19:39,  2.02it/s] 78%|███████▊  | 8319/10696 [1:35:23<19:40,  2.01it/s] 78%|███████▊  | 8320/10696 [1:35:23<19:39,  2.01it/s] 78%|███████▊  | 8321/10696 [1:35:24<19:37,  2.02it/s] 78%|███████▊  | 8322/10696 [1:35:24<19:37,  2.02it/s] 78%|███████▊  | 8323/10696 [1:35:25<19:37,  2.02it/s] 78%|███████▊  | 8324/10696 [1:35:25<19:36,  2.02it/s] 78%|███████▊  | 8325/10696 [1:35:26<19:35,  2.02it/s]{'loss': 3.6306, 'grad_norm': 0.20637065172195435, 'learning_rate': 0.00014237417166506028, 'epoch': 0.78}
-                                                       78%|███████▊  | 8325/10696 [1:35:26<19:35,  2.02it/s] 78%|███████▊  | 8326/10696 [1:35:26<19:36,  2.01it/s] 78%|███████▊  | 8327/10696 [1:35:27<19:34,  2.02it/s] 78%|███████▊  | 8328/10696 [1:35:27<19:35,  2.01it/s] 78%|███████▊  | 8329/10696 [1:35:28<19:34,  2.02it/s] 78%|███████▊  | 8330/10696 [1:35:28<19:34,  2.02it/s] 78%|███████▊  | 8331/10696 [1:35:29<19:33,  2.02it/s] 78%|███████▊  | 8332/10696 [1:35:29<19:33,  2.02it/s] 78%|███████▊  | 8333/10696 [1:35:30<19:32,  2.02it/s] 78%|███████▊  | 8334/10696 [1:35:30<19:32,  2.02it/s] 78%|███████▊  | 8335/10696 [1:35:31<19:31,  2.02it/s] 78%|███████▊  | 8336/10696 [1:35:31<19:30,  2.02it/s] 78%|███████▊  | 8337/10696 [1:35:32<19:29,  2.02it/s] 78%|███████▊  | 8338/10696 [1:35:32<19:29,  2.02it/s] 78%|███████▊  | 8339/10696 [1:35:33<19:27,  2.02it/s] 78%|███████▊  | 8340/10696 [1:35:33<19:27,  2.02it/s] 78%|███████▊  | 8341/10696 [1:35:34<19:27,  2.02it/s] 78%|███████▊  | 8342/10696 [1:35:34<19:27,  2.02it/s] 78%|███████▊  | 8343/10696 [1:35:35<19:25,  2.02it/s] 78%|███████▊  | 8344/10696 [1:35:35<19:25,  2.02it/s] 78%|███████▊  | 8345/10696 [1:35:36<19:26,  2.02it/s] 78%|███████▊  | 8346/10696 [1:35:36<19:25,  2.02it/s] 78%|███████▊  | 8347/10696 [1:35:37<19:25,  2.02it/s] 78%|███████▊  | 8348/10696 [1:35:37<19:23,  2.02it/s] 78%|███████▊  | 8349/10696 [1:35:38<19:23,  2.02it/s] 78%|███████▊  | 8350/10696 [1:35:38<19:22,  2.02it/s]{'loss': 3.6325, 'grad_norm': 0.19924674928188324, 'learning_rate': 0.00013953503263826317, 'epoch': 0.78}
-                                                       78%|███████▊  | 8350/10696 [1:35:38<19:22,  2.02it/s] 78%|███████▊  | 8351/10696 [1:35:39<19:23,  2.02it/s] 78%|███████▊  | 8352/10696 [1:35:39<19:23,  2.02it/s] 78%|███████▊  | 8353/10696 [1:35:40<19:22,  2.02it/s] 78%|███████▊  | 8354/10696 [1:35:40<19:21,  2.02it/s] 78%|███████▊  | 8355/10696 [1:35:41<19:21,  2.01it/s] 78%|███████���  | 8356/10696 [1:35:41<19:22,  2.01it/s] 78%|███████▊  | 8357/10696 [1:35:42<19:21,  2.01it/s] 78%|███████▊  | 8358/10696 [1:35:42<19:20,  2.01it/s] 78%|███████▊  | 8359/10696 [1:35:43<19:20,  2.01it/s] 78%|███████▊  | 8360/10696 [1:35:43<19:18,  2.02it/s] 78%|███████▊  | 8361/10696 [1:35:44<19:18,  2.02it/s] 78%|███████▊  | 8362/10696 [1:35:44<19:17,  2.02it/s] 78%|███████▊  | 8363/10696 [1:35:45<19:18,  2.01it/s] 78%|███████▊  | 8364/10696 [1:35:45<19:17,  2.02it/s] 78%|███████▊  | 8365/10696 [1:35:46<19:17,  2.01it/s] 78%|███████▊  | 8366/10696 [1:35:46<19:16,  2.01it/s] 78%|███████▊  | 8367/10696 [1:35:47<19:16,  2.01it/s] 78%|███████▊  | 8368/10696 [1:35:47<19:16,  2.01it/s] 78%|███████▊  | 8369/10696 [1:35:48<19:14,  2.02it/s] 78%|███████▊  | 8370/10696 [1:35:48<19:14,  2.02it/s] 78%|███████▊  | 8371/10696 [1:35:49<19:13,  2.02it/s] 78%|███████▊  | 8372/10696 [1:35:49<19:13,  2.01it/s] 78%|███████▊  | 8373/10696 [1:35:50<19:12,  2.02it/s] 78%|███████▊  | 8374/10696 [1:35:50<19:12,  2.01it/s] 78%|███████▊  | 8375/10696 [1:35:51<19:13,  2.01it/s]{'loss': 3.6308, 'grad_norm': 0.20416498184204102, 'learning_rate': 0.00013671989015563845, 'epoch': 0.78}
-                                                       78%|███████▊  | 8375/10696 [1:35:51<19:13,  2.01it/s] 78%|███████▊  | 8376/10696 [1:35:51<19:12,  2.01it/s] 78%|███████▊  | 8377/10696 [1:35:52<19:11,  2.01it/s] 78%|███████▊  | 8378/10696 [1:35:52<19:10,  2.01it/s] 78%|███████▊  | 8379/10696 [1:35:53<19:11,  2.01it/s] 78%|███████▊  | 8380/10696 [1:35:53<19:09,  2.01it/s] 78%|███████▊  | 8381/10696 [1:35:54<19:08,  2.02it/s] 78%|███████▊  | 8382/10696 [1:35:54<19:07,  2.02it/s] 78%|███████▊  | 8383/10696 [1:35:55<19:07,  2.02it/s] 78%|███████▊  | 8384/10696 [1:35:55<19:05,  2.02it/s] 78%|███████▊  | 8385/10696 [1:35:56<19:07,  2.01it/s] 78%|███████▊  | 8386/10696 [1:35:56<19:05,  2.02it/s] 78%|███████▊  | 8387/10696 [1:35:57<19:05,  2.02it/s] 78%|███████▊  | 8388/10696 [1:35:57<19:03,  2.02it/s] 78%|███████▊  | 8389/10696 [1:35:57<19:04,  2.01it/s] 78%|███████▊  | 8390/10696 [1:35:58<19:03,  2.02it/s] 78%|███████▊  | 8391/10696 [1:35:58<19:03,  2.02it/s] 78%|███████▊  | 8392/10696 [1:35:59<19:02,  2.02it/s] 78%|███████▊  | 8393/10696 [1:35:59<19:03,  2.01it/s] 78%|███████▊  | 8394/10696 [1:36:00<19:01,  2.02it/s] 78%|███████▊  | 8395/10696 [1:36:00<19:01,  2.02it/s] 78%|███████▊  | 8396/10696 [1:36:01<19:00,  2.02it/s] 79%|███████▊  | 8397/10696 [1:36:01<19:00,  2.02it/s] 79%|███████▊  | 8398/10696 [1:36:02<18:59,  2.02it/s] 79%|███████▊  | 8399/10696 [1:36:02<18:59,  2.02it/s] 79%|███████▊  | 8400/10696 [1:36:03<18:57,  2.02it/s]{'loss': 3.6289, 'grad_norm': 0.20391421020030975, 'learning_rate': 0.00013392893162427678, 'epoch': 0.79}                                                      
- 79%|███████▊  | 8400/10696 [1:36:03<18:57,  2.02it/s] 79%|███████▊  | 8401/10696 [1:36:03<18:59,  2.01it/s] 79%|███████▊  | 8402/10696 [1:36:04<18:58,  2.01it/s] 79%|███████▊  | 8403/10696 [1:36:04<18:58,  2.01it/s] 79%|███████▊  | 8404/10696 [1:36:05<18:58,  2.01it/s] 79%|███████▊  | 8405/10696 [1:36:05<18:56,  2.02it/s] 79%|███████▊  | 8406/10696 [1:36:06<18:56,  2.01it/s] 79%|███████▊  | 8407/10696 [1:36:06<18:56,  2.01it/s] 79%|███████▊  | 8408/10696 [1:36:07<18:55,  2.01it/s] 79%|███████▊  | 8409/10696 [1:36:07<18:55,  2.01it/s] 79%|███████▊  | 8410/10696 [1:36:08<18:52,  2.02it/s] 79%|███████▊  | 8411/10696 [1:36:08<18:53,  2.02it/s] 79%|███████▊  | 8412/10696 [1:36:09<18:51,  2.02it/s] 79%|███████▊  | 8413/10696 [1:36:09<18:53,  2.01it/s] 79%|███████▊  | 8414/10696 [1:36:10<18:51,  2.02it/s] 79%|███████▊  | 8415/10696 [1:36:10<18:52,  2.01it/s] 79%|███████▊  | 8416/10696 [1:36:11<18:51,  2.01it/s] 79%|███████▊  | 8417/10696 [1:36:11<18:51,  2.01it/s] 79%|███████▊  | 8418/10696 [1:36:12<18:50,  2.01it/s] 79%|███████▊  | 8419/10696 [1:36:12<18:49,  2.02it/s] 79%|███████▊  | 8420/10696 [1:36:13<18:48,  2.02it/s] 79%|███████▊  | 8421/10696 [1:36:13<18:46,  2.02it/s] 79%|███████▊  | 8422/10696 [1:36:14<18:47,  2.02it/s] 79%|███████▊  | 8423/10696 [1:36:14<18:46,  2.02it/s] 79%|███████▉  | 8424/10696 [1:36:15<18:47,  2.01it/s] 79%|███████▉  | 8425/10696 [1:36:15<18:47,  2.01it/s]                                                      {'loss': 3.6256, 'grad_norm': 0.21004469692707062, 'learning_rate': 0.00013116234284131755, 'epoch': 0.79}
- 79%|███████▉  | 8425/10696 [1:36:15<18:47,  2.01it/s] 79%|███████▉  | 8426/10696 [1:36:16<18:47,  2.01it/s] 79%|███████▉  | 8427/10696 [1:36:16<18:47,  2.01it/s] 79%|███████▉  | 8428/10696 [1:36:17<18:46,  2.01it/s] 79%|███████▉  | 8429/10696 [1:36:17<18:46,  2.01it/s] 79%|███████▉  | 8430/10696 [1:36:18<18:44,  2.01it/s] 79%|███████▉  | 8431/10696 [1:36:18<18:44,  2.01it/s] 79%|███████▉  | 8432/10696 [1:36:19<18:44,  2.01it/s] 79%|███████▉  | 8433/10696 [1:36:19<18:42,  2.02it/s] 79%|███████▉  | 8434/10696 [1:36:20<18:43,  2.01it/s] 79%|███████▉  | 8435/10696 [1:36:20<18:41,  2.02it/s] 79%|███████▉  | 8436/10696 [1:36:21<18:42,  2.01it/s] 79%|███████▉  | 8437/10696 [1:36:21<18:40,  2.02it/s] 79%|███████▉  | 8438/10696 [1:36:22<18:40,  2.01it/s] 79%|███████▉  | 8439/10696 [1:36:22<18:40,  2.01it/s] 79%|███████▉  | 8440/10696 [1:36:23<18:39,  2.02it/s] 79%|███████▉  | 8441/10696 [1:36:23<18:39,  2.01it/s] 79%|███████▉  | 8442/10696 [1:36:24<18:37,  2.02it/s] 79%|███████▉  | 8443/10696 [1:36:24<18:37,  2.02it/s] 79%|███████▉  | 8444/10696 [1:36:25<18:36,  2.02it/s] 79%|███████▉  | 8445/10696 [1:36:25<18:37,  2.02it/s] 79%|███████▉  | 8446/10696 [1:36:26<18:35,  2.02it/s] 79%|███████▉  | 8447/10696 [1:36:26<18:35,  2.02it/s] 79%|███████▉  | 8448/10696 [1:36:27<18:35,  2.02it/s] 79%|███████▉  | 8449/10696 [1:36:27<18:34,  2.02it/s] 79%|███████▉  | 8450/10696 [1:36:28<18:34,  2.02it/s]                                                      {'loss': 3.6291, 'grad_norm': 0.20312950015068054, 'learning_rate': 0.00012842030798157906, 'epoch': 0.79}
- 79%|███████▉  | 8450/10696 [1:36:28<18:34,  2.02it/s] 79%|███████▉  | 8451/10696 [1:36:28<18:34,  2.01it/s] 79%|███████▉  | 8452/10696 [1:36:29<18:34,  2.01it/s] 79%|███████▉  | 8453/10696 [1:36:29<18:34,  2.01it/s] 79%|███████▉  | 8454/10696 [1:36:30<18:33,  2.01it/s] 79%|███████▉  | 8455/10696 [1:36:30<18:32,  2.01it/s] 79%|███████▉  | 8456/10696 [1:36:31<18:32,  2.01it/s] 79%|███████▉  | 8457/10696 [1:36:31<18:32,  2.01it/s] 79%|███████▉  | 8458/10696 [1:36:32<18:29,  2.02it/s] 79%|███████▉  | 8459/10696 [1:36:32<18:29,  2.02it/s] 79%|███████▉  | 8460/10696 [1:36:33<18:29,  2.02it/s] 79%|███████▉  | 8461/10696 [1:36:33<18:29,  2.02it/s] 79%|███████▉  | 8462/10696 [1:36:34<18:28,  2.02it/s] 79%|███████▉  | 8463/10696 [1:36:34<18:28,  2.01it/s] 79%|███████▉  | 8464/10696 [1:36:35<18:27,  2.02it/s] 79%|███████▉  | 8465/10696 [1:36:35<18:27,  2.01it/s] 79%|███████▉  | 8466/10696 [1:36:36<18:25,  2.02it/s] 79%|███████▉  | 8467/10696 [1:36:36<18:26,  2.01it/s] 79%|███████▉  | 8468/10696 [1:36:37<18:25,  2.01it/s] 79%|███████▉  | 8469/10696 [1:36:37<18:24,  2.02it/s] 79%|███████▉  | 8470/10696 [1:36:38<18:24,  2.01it/s] 79%|███████▉  | 8471/10696 [1:36:38<18:24,  2.01it/s] 79%|███████▉  | 8472/10696 [1:36:39<18:25,  2.01it/s] 79%|███████▉  | 8473/10696 [1:36:39<18:22,  2.02it/s] 79%|███████▉  | 8474/10696 [1:36:40<18:22,  2.02it/s] 79%|███████▉  | 8475/10696 [1:36:40<18:20,  2.02it/s]{'loss': 3.6273, 'grad_norm': 0.20640422403812408, 'learning_rate': 0.0001257030095852984, 'epoch': 0.79}
-                                                       79%|███████▉  | 8475/10696 [1:36:40<18:20,  2.02it/s] 79%|███████▉  | 8476/10696 [1:36:41<18:22,  2.01it/s] 79%|███████▉  | 8477/10696 [1:36:41<18:22,  2.01it/s] 79%|███████▉  | 8478/10696 [1:36:42<18:20,  2.01it/s] 79%|███████▉  | 8479/10696 [1:36:42<18:19,  2.02it/s] 79%|███████▉  | 8480/10696 [1:36:43<18:19,  2.02it/s] 79%|███████▉  | 8481/10696 [1:36:43<18:18,  2.02it/s] 79%|███████▉  | 8482/10696 [1:36:44<18:18,  2.02it/s] 79%|███████▉  | 8483/10696 [1:36:44<18:18,  2.01it/s] 79%|███████▉  | 8484/10696 [1:36:45<18:16,  2.02it/s] 79%|███████▉  | 8485/10696 [1:36:45<18:17,  2.02it/s] 79%|███████▉  | 8486/10696 [1:36:46<18:16,  2.02it/s] 79%|███████▉  | 8487/10696 [1:36:46<18:15,  2.02it/s] 79%|███████▉  | 8488/10696 [1:36:47<18:14,  2.02it/s] 79%|███████▉  | 8489/10696 [1:36:47<18:14,  2.02it/s] 79%|███████▉  | 8490/10696 [1:36:48<18:15,  2.01it/s] 79%|███████▉  | 8491/10696 [1:36:48<18:14,  2.02it/s] 79%|███████▉  | 8492/10696 [1:36:49<18:13,  2.01it/s] 79%|███████▉  | 8493/10696 [1:36:49<18:12,  2.02it/s] 79%|███████▉  | 8494/10696 [1:36:50<18:12,  2.02it/s] 79%|███████▉  | 8495/10696 [1:36:50<18:11,  2.02it/s] 79%|███████▉  | 8496/10696 [1:36:51<18:12,  2.01it/s] 79%|███████▉  | 8497/10696 [1:36:51<18:09,  2.02it/s] 79%|███████▉  | 8498/10696 [1:36:52<18:10,  2.02it/s] 79%|███████▉  | 8499/10696 [1:36:52<18:08,  2.02it/s] 79%|███████▉  | 8500/10696 [1:36:53<18:08,  2.02it/s]{'loss': 3.6276, 'grad_norm': 0.21076063811779022, 'learning_rate': 0.00012301062854597962, 'epoch': 0.79}                                                      
- 79%|███████▉  | 8500/10696 [1:36:53<18:08,  2.02it/s] 79%|███████▉  | 8501/10696 [1:36:53<18:11,  2.01it/s] 79%|███████▉  | 8502/10696 [1:36:54<18:09,  2.01it/s] 79%|███████▉  | 8503/10696 [1:36:54<18:10,  2.01it/s] 80%|███████▉  | 8504/10696 [1:36:55<18:09,  2.01it/s] 80%|███████▉  | 8505/10696 [1:36:55<18:08,  2.01it/s] 80%|███████▉  | 8506/10696 [1:36:56<18:08,  2.01it/s] 80%|███████▉  | 8507/10696 [1:36:56<18:06,  2.01it/s] 80%|███████▉  | 8508/10696 [1:36:57<18:07,  2.01it/s] 80%|███████▉  | 8509/10696 [1:36:57<18:05,  2.02it/s] 80%|███████▉  | 8510/10696 [1:36:58<18:05,  2.01it/s] 80%|███████▉  | 8511/10696 [1:36:58<18:04,  2.01it/s] 80%|███████▉  | 8512/10696 [1:36:59<18:03,  2.02it/s] 80%|███████▉  | 8513/10696 [1:36:59<18:05,  2.01it/s] 80%|███████▉  | 8514/10696 [1:37:00<18:03,  2.01it/s] 80%|███████▉  | 8515/10696 [1:37:00<18:03,  2.01it/s] 80%|███████▉  | 8516/10696 [1:37:01<18:01,  2.02it/s] 80%|███████▉  | 8517/10696 [1:37:01<18:01,  2.01it/s] 80%|███████▉  | 8518/10696 [1:37:02<18:00,  2.02it/s] 80%|███████▉  | 8519/10696 [1:37:02<18:00,  2.01it/s] 80%|███████▉  | 8520/10696 [1:37:03<17:59,  2.02it/s] 80%|███████▉  | 8521/10696 [1:37:03<18:00,  2.01it/s] 80%|███████▉  | 8522/10696 [1:37:04<17:59,  2.01it/s] 80%|███████▉  | 8523/10696 [1:37:04<17:59,  2.01it/s] 80%|███████▉  | 8524/10696 [1:37:04<17:57,  2.01it/s] 80%|███████▉  | 8525/10696 [1:37:05<17:57,  2.01it/s]{'loss': 3.6263, 'grad_norm': 0.2137216031551361, 'learning_rate': 0.00012034334409835129, 'epoch': 0.8}                                                      
- 80%|███████▉  | 8525/10696 [1:37:05<17:57,  2.01it/s] 80%|███████▉  | 8526/10696 [1:37:05<17:59,  2.01it/s] 80%|███████▉  | 8527/10696 [1:37:06<17:57,  2.01it/s] 80%|███████▉  | 8528/10696 [1:37:06<17:55,  2.02it/s] 80%|███████▉  | 8529/10696 [1:37:07<17:55,  2.01it/s] 80%|███████▉  | 8530/10696 [1:37:07<17:54,  2.02it/s] 80%|███████▉  | 8531/10696 [1:37:08<17:55,  2.01it/s] 80%|███████▉  | 8532/10696 [1:37:08<17:54,  2.01it/s] 80%|███████▉  | 8533/10696 [1:37:09<17:53,  2.02it/s] 80%|███████▉  | 8534/10696 [1:37:09<17:52,  2.02it/s] 80%|███████▉  | 8535/10696 [1:37:10<17:52,  2.02it/s] 80%|███████▉  | 8536/10696 [1:37:10<17:52,  2.01it/s] 80%|███████▉  | 8537/10696 [1:37:11<17:51,  2.01it/s] 80%|███████▉  | 8538/10696 [1:37:11<17:51,  2.01it/s] 80%|███████▉  | 8539/10696 [1:37:12<17:50,  2.02it/s] 80%|███████▉  | 8540/10696 [1:37:12<17:50,  2.01it/s] 80%|███████▉  | 8541/10696 [1:37:13<17:48,  2.02it/s] 80%|███████▉  | 8542/10696 [1:37:13<17:48,  2.02it/s] 80%|███████▉  | 8543/10696 [1:37:14<17:48,  2.02it/s] 80%|███████▉  | 8544/10696 [1:37:14<17:47,  2.02it/s] 80%|███████▉  | 8545/10696 [1:37:15<17:47,  2.01it/s] 80%|███████▉  | 8546/10696 [1:37:15<17:47,  2.01it/s] 80%|███████▉  | 8547/10696 [1:37:16<17:46,  2.01it/s] 80%|███████▉  | 8548/10696 [1:37:16<17:45,  2.02it/s] 80%|███████▉  | 8549/10696 [1:37:17<17:46,  2.01it/s] 80%|███████▉  | 8550/10696 [1:37:17<17:45,  2.01it/s]                                                      {'loss': 3.6229, 'grad_norm': 0.21627148985862732, 'learning_rate': 0.00011770133380643444, 'epoch': 0.8}
- 80%|███████▉  | 8550/10696 [1:37:17<17:45,  2.01it/s] 80%|███████▉  | 8551/10696 [1:37:18<17:45,  2.01it/s] 80%|███████▉  | 8552/10696 [1:37:18<17:45,  2.01it/s] 80%|███████▉  | 8553/10696 [1:37:19<17:43,  2.01it/s] 80%|███████▉  | 8554/10696 [1:37:19<17:43,  2.01it/s] 80%|███████▉  | 8555/10696 [1:37:20<17:42,  2.01it/s] 80%|███████▉  | 8556/10696 [1:37:20<17:42,  2.01it/s] 80%|████████  | 8557/10696 [1:37:21<17:41,  2.02it/s] 80%|████████  | 8558/10696 [1:37:21<17:40,  2.02it/s] 80%|████████  | 8559/10696 [1:37:22<17:41,  2.01it/s] 80%|████████  | 8560/10696 [1:37:22<17:41,  2.01it/s] 80%|████████  | 8561/10696 [1:37:23<17:40,  2.01it/s] 80%|████████  | 8562/10696 [1:37:23<17:39,  2.01it/s] 80%|████████  | 8563/10696 [1:37:24<17:39,  2.01it/s] 80%|████████  | 8564/10696 [1:37:24<17:38,  2.01it/s] 80%|████████  | 8565/10696 [1:37:25<17:37,  2.02it/s] 80%|████████  | 8566/10696 [1:37:25<17:36,  2.02it/s] 80%|████████  | 8567/10696 [1:37:26<17:35,  2.02it/s] 80%|████████  | 8568/10696 [1:37:26<17:35,  2.02it/s] 80%|████████  | 8569/10696 [1:37:27<17:34,  2.02it/s] 80%|████████  | 8570/10696 [1:37:27<17:34,  2.02it/s] 80%|████████  | 8571/10696 [1:37:28<17:33,  2.02it/s] 80%|████████  | 8572/10696 [1:37:28<17:34,  2.01it/s] 80%|████████  | 8573/10696 [1:37:29<17:34,  2.01it/s] 80%|████████  | 8574/10696 [1:37:29<17:33,  2.01it/s] 80%|████████  | 8575/10696 [1:37:30<17:33,  2.01it/s]{'loss': 3.6339, 'grad_norm': 0.20404820144176483, 'learning_rate': 0.00011508477355172192, 'epoch': 0.8}
-                                                       80%|████████  | 8575/10696 [1:37:30<17:33,  2.01it/s] 80%|████████  | 8576/10696 [1:37:30<17:33,  2.01it/s] 80%|████████  | 8577/10696 [1:37:31<17:32,  2.01it/s] 80%|████████  | 8578/10696 [1:37:31<17:33,  2.01it/s] 80%|████████  | 8579/10696 [1:37:32<17:31,  2.01it/s] 80%|████████  | 8580/10696 [1:37:32<17:30,  2.01it/s] 80%|████████  | 8581/10696 [1:37:33<17:29,  2.01it/s] 80%|████████  | 8582/10696 [1:37:33<17:29,  2.01it/s] 80%|████████  | 8583/10696 [1:37:34<17:30,  2.01it/s] 80%|████████  | 8584/10696 [1:37:34<17:27,  2.02it/s] 80%|████████  | 8585/10696 [1:37:35<17:28,  2.01it/s] 80%|████████  | 8586/10696 [1:37:35<17:27,  2.02it/s] 80%|████████  | 8587/10696 [1:37:36<17:26,  2.01it/s] 80%|████████  | 8588/10696 [1:37:36<17:25,  2.02it/s] 80%|████████  | 8589/10696 [1:37:37<17:25,  2.02it/s] 80%|████████  | 8590/10696 [1:37:37<17:25,  2.01it/s] 80%|████████  | 8591/10696 [1:37:38<17:24,  2.01it/s] 80%|████████  | 8592/10696 [1:37:38<17:25,  2.01it/s] 80%|████████  | 8593/10696 [1:37:39<17:24,  2.01it/s] 80%|████████  | 8594/10696 [1:37:39<17:24,  2.01it/s] 80%|████████  | 8595/10696 [1:37:40<17:24,  2.01it/s] 80%|████████  | 8596/10696 [1:37:40<17:23,  2.01it/s] 80%|████████  | 8597/10696 [1:37:41<17:22,  2.01it/s] 80%|████████  | 8598/10696 [1:37:41<17:21,  2.01it/s] 80%|████████  | 8599/10696 [1:37:42<17:21,  2.01it/s] 80%|████████  | 8600/10696 [1:37:42<17:21,  2.01it/s]{'loss': 3.6292, 'grad_norm': 0.21097137033939362, 'learning_rate': 0.00011249383752147052, 'epoch': 0.8}
-                                                       80%|████████  | 8600/10696 [1:37:42<17:21,  2.01it/s] 80%|████████  | 8601/10696 [1:37:43<17:23,  2.01it/s] 80%|████████  | 8602/10696 [1:37:43<17:20,  2.01it/s] 80%|████████  | 8603/10696 [1:37:44<17:20,  2.01it/s] 80%|████████  | 8604/10696 [1:37:44<17:19,  2.01it/s] 80%|████████  | 8605/10696 [1:37:45<17:18,  2.01it/s] 80%|████████  | 8606/10696 [1:37:45<17:17,  2.01it/s] 80%|████████  | 8607/10696 [1:37:46<17:16,  2.02it/s] 80%|████████  | 8608/10696 [1:37:46<17:16,  2.01it/s] 80%|████████  | 8609/10696 [1:37:47<17:15,  2.02it/s] 80%|████████  | 8610/10696 [1:37:47<17:15,  2.01it/s] 81%|████████  | 8611/10696 [1:37:48<17:14,  2.01it/s] 81%|████████  | 8612/10696 [1:37:48<17:14,  2.01it/s] 81%|████████  | 8613/10696 [1:37:49<17:13,  2.02it/s] 81%|████████  | 8614/10696 [1:37:49<17:13,  2.01it/s] 81%|████████  | 8615/10696 [1:37:50<17:13,  2.01it/s] 81%|████████  | 8616/10696 [1:37:50<17:12,  2.01it/s] 81%|████████  | 8617/10696 [1:37:51<17:11,  2.02it/s] 81%|████████  | 8618/10696 [1:37:51<17:11,  2.01it/s] 81%|████████  | 8619/10696 [1:37:52<17:11,  2.01it/s] 81%|████████  | 8620/10696 [1:37:52<17:10,  2.01it/s] 81%|████████  | 8621/10696 [1:37:53<17:10,  2.01it/s] 81%|████████  | 8622/10696 [1:37:53<17:09,  2.01it/s] 81%|████████  | 8623/10696 [1:37:54<17:08,  2.01it/s] 81%|████████  | 8624/10696 [1:37:54<17:08,  2.02it/s] 81%|████████  | 8625/10696 [1:37:55<17:07,  2.02it/s]{'loss': 3.6297, 'grad_norm': 0.20839093625545502, 'learning_rate': 0.00010992869819710432, 'epoch': 0.81}                                                      
- 81%|████████  | 8625/10696 [1:37:55<17:07,  2.02it/s] 81%|████████  | 8626/10696 [1:37:55<17:08,  2.01it/s] 81%|████████  | 8627/10696 [1:37:56<17:06,  2.01it/s] 81%|████████  | 8628/10696 [1:37:56<17:07,  2.01it/s] 81%|████████  | 8629/10696 [1:37:57<17:05,  2.02it/s] 81%|████████  | 8630/10696 [1:37:57<17:05,  2.02it/s] 81%|████████  | 8631/10696 [1:37:58<17:05,  2.01it/s] 81%|████████  | 8632/10696 [1:37:58<17:06,  2.01it/s] 81%|████████  | 8633/10696 [1:37:59<17:05,  2.01it/s] 81%|████████  | 8634/10696 [1:37:59<17:05,  2.01it/s] 81%|████████  | 8635/10696 [1:38:00<17:03,  2.01it/s] 81%|████████  | 8636/10696 [1:38:00<17:02,  2.01it/s] 81%|████████  | 8637/10696 [1:38:01<17:01,  2.02it/s] 81%|████████  | 8638/10696 [1:38:01<17:01,  2.01it/s] 81%|████████  | 8639/10696 [1:38:02<17:02,  2.01it/s] 81%|████████  | 8640/10696 [1:38:02<17:01,  2.01it/s] 81%|████████  | 8641/10696 [1:38:03<17:00,  2.01it/s] 81%|████████  | 8642/10696 [1:38:03<16:59,  2.01it/s] 81%|████████  | 8643/10696 [1:38:04<17:00,  2.01it/s] 81%|████████  | 8644/10696 [1:38:04<16:59,  2.01it/s] 81%|████████  | 8645/10696 [1:38:05<16:58,  2.01it/s] 81%|████████  | 8646/10696 [1:38:05<16:58,  2.01it/s] 81%|████████  | 8647/10696 [1:38:06<16:57,  2.01it/s] 81%|████████  | 8648/10696 [1:38:06<16:57,  2.01it/s] 81%|████████  | 8649/10696 [1:38:07<16:57,  2.01it/s] 81%|████████  | 8650/10696 [1:38:07<16:56,  2.01it/s]                                                      {'loss': 3.6309, 'grad_norm': 0.20239612460136414, 'learning_rate': 0.00010738952634273258, 'epoch': 0.81}
- 81%|████████  | 8650/10696 [1:38:07<16:56,  2.01it/s] 81%|████████  | 8651/10696 [1:38:08<16:56,  2.01it/s] 81%|████████  | 8652/10696 [1:38:08<16:55,  2.01it/s] 81%|████████  | 8653/10696 [1:38:09<16:53,  2.02it/s] 81%|████████  | 8654/10696 [1:38:09<16:53,  2.01it/s] 81%|████████  | 8655/10696 [1:38:10<16:52,  2.02it/s] 81%|████████  | 8656/10696 [1:38:10<16:52,  2.02it/s] 81%|████████  | 8657/10696 [1:38:11<16:50,  2.02it/s] 81%|████████  | 8658/10696 [1:38:11<16:51,  2.02it/s] 81%|████████  | 8659/10696 [1:38:12<16:49,  2.02it/s] 81%|████████  | 8660/10696 [1:38:12<16:50,  2.02it/s] 81%|████████  | 8661/10696 [1:38:13<16:49,  2.02it/s] 81%|████████  | 8662/10696 [1:38:13<16:49,  2.01it/s] 81%|████████  | 8663/10696 [1:38:14<16:49,  2.01it/s] 81%|████████  | 8664/10696 [1:38:14<16:50,  2.01it/s] 81%|████████  | 8665/10696 [1:38:15<16:48,  2.01it/s] 81%|████████  | 8666/10696 [1:38:15<16:48,  2.01it/s] 81%|████████  | 8667/10696 [1:38:15<16:47,  2.01it/s] 81%|████████  | 8668/10696 [1:38:16<16:46,  2.02it/s] 81%|████████  | 8669/10696 [1:38:16<16:45,  2.02it/s] 81%|████████  | 8670/10696 [1:38:17<16:45,  2.02it/s] 81%|████████  | 8671/10696 [1:38:17<16:45,  2.01it/s] 81%|████████  | 8672/10696 [1:38:18<16:44,  2.02it/s] 81%|████████  | 8673/10696 [1:38:18<16:44,  2.01it/s] 81%|████████  | 8674/10696 [1:38:19<16:43,  2.01it/s] 81%|████████  | 8675/10696 [1:38:19<16:43,  2.01it/s]{'loss': 3.6288, 'grad_norm': 0.20031024515628815, 'learning_rate': 0.00010487649099378188, 'epoch': 0.81}
-                                                       81%|████████  | 8675/10696 [1:38:19<16:43,  2.01it/s] 81%|████████  | 8676/10696 [1:38:20<16:43,  2.01it/s] 81%|████████  | 8677/10696 [1:38:20<16:43,  2.01it/s] 81%|████████  | 8678/10696 [1:38:21<16:41,  2.01it/s] 81%|████████  | 8679/10696 [1:38:21<16:41,  2.01it/s] 81%|████████  | 8680/10696 [1:38:22<16:41,  2.01it/s] 81%|████████  | 8681/10696 [1:38:22<16:41,  2.01it/s] 81%|████████  | 8682/10696 [1:38:23<16:40,  2.01it/s] 81%|████████  | 8683/10696 [1:38:23<16:40,  2.01it/s] 81%|████████  | 8684/10696 [1:38:24<16:38,  2.01it/s] 81%|████████  | 8685/10696 [1:38:24<16:38,  2.01it/s] 81%|████████  | 8686/10696 [1:38:25<16:37,  2.01it/s] 81%|████████  | 8687/10696 [1:38:25<16:37,  2.01it/s] 81%|████████  | 8688/10696 [1:38:26<16:37,  2.01it/s] 81%|████████  | 8689/10696 [1:38:26<16:36,  2.01it/s] 81%|████████  | 8690/10696 [1:38:27<16:37,  2.01it/s] 81%|████████▏ | 8691/10696 [1:38:27<16:35,  2.01it/s] 81%|████████▏ | 8692/10696 [1:38:28<16:35,  2.01it/s] 81%|████████▏ | 8693/10696 [1:38:28<16:35,  2.01it/s] 81%|████████▏ | 8694/10696 [1:38:29<16:33,  2.01it/s] 81%|████████▏ | 8695/10696 [1:38:29<16:33,  2.01it/s] 81%|████████▏ | 8696/10696 [1:38:30<16:32,  2.01it/s] 81%|████████▏ | 8697/10696 [1:38:30<16:33,  2.01it/s] 81%|████████▏ | 8698/10696 [1:38:31<16:32,  2.01it/s] 81%|████████▏ | 8699/10696 [1:38:31<16:31,  2.01it/s] 81%|████████▏ | 8700/10696 [1:38:32<16:31,  2.01it/s]{'loss': 3.6229, 'grad_norm': 0.20752455294132233, 'learning_rate': 0.00010238975944574364, 'epoch': 0.81}
-                                                       81%|████████▏ | 8700/10696 [1:38:32<16:31,  2.01it/s] 81%|████████▏ | 8701/10696 [1:38:32<16:32,  2.01it/s] 81%|████████▏ | 8702/10696 [1:38:33<16:31,  2.01it/s] 81%|████████▏ | 8703/10696 [1:38:33<16:30,  2.01it/s] 81%|████████▏ | 8704/10696 [1:38:34<16:29,  2.01it/s] 81%|████████▏ | 8705/10696 [1:38:34<16:28,  2.01it/s] 81%|████████▏ | 8706/10696 [1:38:35<16:27,  2.02it/s] 81%|████████▏ | 8707/10696 [1:38:35<16:28,  2.01it/s] 81%|████████▏ | 8708/10696 [1:38:36<16:26,  2.02it/s] 81%|████████▏ | 8709/10696 [1:38:36<16:26,  2.01it/s] 81%|████████▏ | 8710/10696 [1:38:37<16:26,  2.01it/s] 81%|████████▏ | 8711/10696 [1:38:37<16:25,  2.01it/s] 81%|████████▏ | 8712/10696 [1:38:38<16:26,  2.01it/s] 81%|████████▏ | 8713/10696 [1:38:38<16:25,  2.01it/s] 81%|████████▏ | 8714/10696 [1:38:39<16:25,  2.01it/s] 81%|████████▏ | 8715/10696 [1:38:39<16:23,  2.01it/s] 81%|████████▏ | 8716/10696 [1:38:40<16:22,  2.01it/s] 81%|████████▏ | 8717/10696 [1:38:40<16:22,  2.01it/s] 82%|████████▏ | 8718/10696 [1:38:41<16:21,  2.02it/s] 82%|████████▏ | 8719/10696 [1:38:41<16:21,  2.01it/s] 82%|████████▏ | 8720/10696 [1:38:42<16:20,  2.02it/s] 82%|████████▏ | 8721/10696 [1:38:42<16:20,  2.01it/s] 82%|████████▏ | 8722/10696 [1:38:43<16:20,  2.01it/s] 82%|████████▏ | 8723/10696 [1:38:43<16:19,  2.01it/s] 82%|████████▏ | 8724/10696 [1:38:44<16:18,  2.02it/s] 82%|████████▏ | 8725/10696 [1:38:44<16:17,  2.02it/s]{'loss': 3.6229, 'grad_norm': 0.21130669116973877, 'learning_rate': 9.992949724303613e-05, 'epoch': 0.82}                                                      
- 82%|████████▏ | 8725/10696 [1:38:44<16:17,  2.02it/s] 82%|████████▏ | 8726/10696 [1:38:45<16:18,  2.01it/s] 82%|████████▏ | 8727/10696 [1:38:45<16:17,  2.02it/s] 82%|████████▏ | 8728/10696 [1:38:46<16:18,  2.01it/s] 82%|████████▏ | 8729/10696 [1:38:46<16:17,  2.01it/s] 82%|████████▏ | 8730/10696 [1:38:47<16:16,  2.01it/s] 82%|████████▏ | 8731/10696 [1:38:47<16:15,  2.02it/s] 82%|████████▏ | 8732/10696 [1:38:48<16:14,  2.02it/s] 82%|████████▏ | 8733/10696 [1:38:48<16:14,  2.01it/s] 82%|████████▏ | 8734/10696 [1:38:49<16:13,  2.02it/s] 82%|████████▏ | 8735/10696 [1:38:49<16:12,  2.02it/s] 82%|████████▏ | 8736/10696 [1:38:50<16:11,  2.02it/s] 82%|████████▏ | 8737/10696 [1:38:50<16:12,  2.02it/s] 82%|█���██████▏ | 8738/10696 [1:38:51<16:11,  2.02it/s] 82%|████████▏ | 8739/10696 [1:38:51<16:11,  2.01it/s] 82%|████████▏ | 8740/10696 [1:38:52<16:10,  2.02it/s] 82%|████████▏ | 8741/10696 [1:38:52<16:09,  2.02it/s] 82%|████████▏ | 8742/10696 [1:38:53<16:08,  2.02it/s] 82%|████████▏ | 8743/10696 [1:38:53<16:09,  2.02it/s] 82%|████████▏ | 8744/10696 [1:38:54<16:08,  2.02it/s] 82%|████████▏ | 8745/10696 [1:38:54<16:08,  2.01it/s] 82%|████████▏ | 8746/10696 [1:38:55<16:07,  2.02it/s] 82%|████████▏ | 8747/10696 [1:38:55<16:07,  2.01it/s] 82%|████████▏ | 8748/10696 [1:38:56<16:06,  2.01it/s] 82%|████████▏ | 8749/10696 [1:38:56<16:06,  2.01it/s] 82%|████████▏ | 8750/10696 [1:38:57<16:07,  2.01it/s]                                                      {'loss': 3.6255, 'grad_norm': 0.19748961925506592, 'learning_rate': 9.749586816798511e-05, 'epoch': 0.82}
- 82%|████████▏ | 8750/10696 [1:38:57<16:07,  2.01it/s] 82%|████████▏ | 8751/10696 [1:38:57<16:07,  2.01it/s] 82%|████████▏ | 8752/10696 [1:38:58<16:06,  2.01it/s] 82%|████████▏ | 8753/10696 [1:38:58<16:05,  2.01it/s] 82%|████████▏ | 8754/10696 [1:38:59<16:05,  2.01it/s] 82%|████████▏ | 8755/10696 [1:38:59<16:05,  2.01it/s] 82%|████████▏ | 8756/10696 [1:39:00<16:04,  2.01it/s] 82%|████████▏ | 8757/10696 [1:39:00<16:03,  2.01it/s] 82%|████████▏ | 8758/10696 [1:39:01<16:02,  2.01it/s] 82%|████████▏ | 8759/10696 [1:39:01<16:01,  2.01it/s] 82%|████████▏ | 8760/10696 [1:39:02<16:01,  2.01it/s] 82%|████████▏ | 8761/10696 [1:39:02<16:00,  2.01it/s] 82%|████████▏ | 8762/10696 [1:39:03<16:00,  2.01it/s] 82%|████████▏ | 8763/10696 [1:39:03<15:59,  2.01it/s] 82%|████████▏ | 8764/10696 [1:39:04<15:58,  2.02it/s] 82%|████████▏ | 8765/10696 [1:39:04<15:57,  2.02it/s] 82%|████████▏ | 8766/10696 [1:39:05<15:57,  2.02it/s] 82%|████████▏ | 8767/10696 [1:39:05<15:58,  2.01it/s] 82%|████████▏ | 8768/10696 [1:39:06<15:56,  2.02it/s] 82%|████████▏ | 8769/10696 [1:39:06<15:57,  2.01it/s] 82%|████████▏ | 8770/10696 [1:39:07<15:56,  2.01it/s] 82%|████████▏ | 8771/10696 [1:39:07<15:56,  2.01it/s] 82%|████████▏ | 8772/10696 [1:39:08<15:56,  2.01it/s] 82%|████████▏ | 8773/10696 [1:39:08<15:54,  2.01it/s] 82%|████████▏ | 8774/10696 [1:39:09<15:54,  2.01it/s] 82%|████████▏ | 8775/10696 [1:39:09<15:53,  2.02it/s]{'loss': 3.6255, 'grad_norm': 0.21049495041370392, 'learning_rate': 9.508903422991966e-05, 'epoch': 0.82}                                                      
- 82%|████████▏ | 8775/10696 [1:39:09<15:53,  2.02it/s] 82%|████████▏ | 8776/10696 [1:39:10<15:54,  2.01it/s] 82%|████████▏ | 8777/10696 [1:39:10<15:54,  2.01it/s] 82%|████████▏ | 8778/10696 [1:39:11<15:54,  2.01it/s] 82%|████████▏ | 8779/10696 [1:39:11<15:53,  2.01it/s] 82%|████████▏ | 8780/10696 [1:39:12<15:53,  2.01it/s] 82%|████████▏ | 8781/10696 [1:39:12<15:50,  2.01it/s] 82%|████████▏ | 8782/10696 [1:39:13<15:51,  2.01it/s] 82%|████████▏ | 8783/10696 [1:39:13<15:48,  2.02it/s] 82%|████████▏ | 8784/10696 [1:39:14<15:49,  2.01it/s] 82%|████████▏ | 8785/10696 [1:39:14<15:48,  2.01it/s] 82%|████████▏ | 8786/10696 [1:39:15<15:47,  2.02it/s] 82%|████████▏ | 8787/10696 [1:39:15<15:47,  2.01it/s] 82%|████████▏ | 8788/10696 [1:39:16<15:46,  2.02it/s] 82%|████████▏ | 8789/10696 [1:39:16<15:47,  2.01it/s] 82%|████████▏ | 8790/10696 [1:39:17<15:45,  2.02it/s] 82%|████████▏ | 8791/10696 [1:39:17<15:45,  2.01it/s] 82%|████████▏ | 8792/10696 [1:39:18<15:44,  2.02it/s] 82%|████████▏ | 8793/10696 [1:39:18<15:44,  2.01it/s] 82%|████████▏ | 8794/10696 [1:39:19<15:43,  2.02it/s] 82%|████████▏ | 8795/10696 [1:39:19<15:43,  2.02it/s] 82%|████████▏ | 8796/10696 [1:39:20<15:42,  2.02it/s] 82%|████████▏ | 8797/10696 [1:39:20<15:41,  2.02it/s] 82%|████████▏ | 8798/10696 [1:39:21<15:41,  2.02it/s] 82%|████████▏ | 8799/10696 [1:39:21<15:41,  2.01it/s] 82%|████████▏ | 8800/10696 [1:39:22<15:40,  2.01it/s]{'loss': 3.623, 'grad_norm': 0.20646554231643677, 'learning_rate': 9.270915565438798e-05, 'epoch': 0.82}                                                      
- 82%|████████▏ | 8800/10696 [1:39:22<15:40,  2.01it/s] 82%|████████▏ | 8801/10696 [1:39:22<15:42,  2.01it/s] 82%|████████▏ | 8802/10696 [1:39:23<15:41,  2.01it/s] 82%|████████▏ | 8803/10696 [1:39:23<15:40,  2.01it/s] 82%|████████▏ | 8804/10696 [1:39:24<15:39,  2.01it/s] 82%|████████▏ | 8805/10696 [1:39:24<15:39,  2.01it/s] 82%|████████▏ | 8806/10696 [1:39:25<15:38,  2.01it/s] 82%|████████▏ | 8807/10696 [1:39:25<15:37,  2.02it/s] 82%|████████▏ | 8808/10696 [1:39:26<15:36,  2.02it/s] 82%|████████▏ | 8809/10696 [1:39:26<15:35,  2.02it/s] 82%|████████▏ | 8810/10696 [1:39:27<15:36,  2.01it/s] 82%|████████▏ | 8811/10696 [1:39:27<15:35,  2.02it/s] 82%|████████▏ | 8812/10696 [1:39:27<15:35,  2.01it/s] 82%|████████▏ | 8813/10696 [1:39:28<15:34,  2.02it/s] 82%|████████▏ | 8814/10696 [1:39:28<15:33,  2.02it/s] 82%|████████▏ | 8815/10696 [1:39:29<15:33,  2.01it/s] 82%|████████▏ | 8816/10696 [1:39:29<15:33,  2.01it/s] 82%|████████▏ | 8817/10696 [1:39:30<15:33,  2.01it/s] 82%|████████▏ | 8818/10696 [1:39:30<15:32,  2.01it/s] 82%|████████▏ | 8819/10696 [1:39:31<15:32,  2.01it/s] 82%|████████▏ | 8820/10696 [1:39:31<15:30,  2.02it/s] 82%|████████▏ | 8821/10696 [1:39:32<15:30,  2.01it/s] 82%|████████▏ | 8822/10696 [1:39:32<15:30,  2.01it/s] 82%|████████▏ | 8823/10696 [1:39:33<15:29,  2.01it/s] 82%|████████▏ | 8824/10696 [1:39:33<15:28,  2.02it/s] 83%|████████▎ | 8825/10696 [1:39:34<15:28,  2.01it/s]                                                      {'loss': 3.6266, 'grad_norm': 0.20715846121311188, 'learning_rate': 9.035639087249015e-05, 'epoch': 0.83}
- 83%|████████▎ | 8825/10696 [1:39:34<15:28,  2.01it/s] 83%|████████▎ | 8826/10696 [1:39:34<15:29,  2.01it/s] 83%|████████▎ | 8827/10696 [1:39:35<15:28,  2.01it/s] 83%|████████▎ | 8828/10696 [1:39:35<15:28,  2.01it/s] 83%|████████▎ | 8829/10696 [1:39:36<15:27,  2.01it/s] 83%|████████▎ | 8830/10696 [1:39:36<15:27,  2.01it/s] 83%|████████▎ | 8831/10696 [1:39:37<15:27,  2.01it/s] 83%|████████▎ | 8832/10696 [1:39:37<15:25,  2.01it/s] 83%|████████▎ | 8833/10696 [1:39:38<15:25,  2.01it/s] 83%|████████▎ | 8834/10696 [1:39:38<15:24,  2.01it/s] 83%|████████▎ | 8835/10696 [1:39:39<15:24,  2.01it/s] 83%|████████▎ | 8836/10696 [1:39:39<15:25,  2.01it/s] 83%|████████▎ | 8837/10696 [1:39:40<15:23,  2.01it/s] 83%|████████▎ | 8838/10696 [1:39:40<15:23,  2.01it/s] 83%|████████▎ | 8839/10696 [1:39:41<15:22,  2.01it/s] 83%|████████▎ | 8840/10696 [1:39:41<15:21,  2.01it/s] 83%|████████▎ | 8841/10696 [1:39:42<15:21,  2.01it/s] 83%|████████▎ | 8842/10696 [1:39:42<15:20,  2.01it/s] 83%|████████▎ | 8843/10696 [1:39:43<15:20,  2.01it/s] 83%|████████▎ | 8844/10696 [1:39:43<15:19,  2.01it/s] 83%|████████▎ | 8845/10696 [1:39:44<15:19,  2.01it/s] 83%|████████▎ | 8846/10696 [1:39:44<15:19,  2.01it/s] 83%|████████▎ | 8847/10696 [1:39:45<15:18,  2.01it/s] 83%|████████▎ | 8848/10696 [1:39:45<15:19,  2.01it/s] 83%|████████▎ | 8849/10696 [1:39:46<15:17,  2.01it/s] 83%|████████▎ | 8850/10696 [1:39:46<15:16,  2.01it/s]{'loss': 3.6241, 'grad_norm': 0.19800788164138794, 'learning_rate': 8.803089651033142e-05, 'epoch': 0.83}
-                                                       83%|████████▎ | 8850/10696 [1:39:46<15:16,  2.01it/s] 83%|████████▎ | 8851/10696 [1:39:47<15:18,  2.01it/s] 83%|████████▎ | 8852/10696 [1:39:47<15:16,  2.01it/s] 83%|████████▎ | 8853/10696 [1:39:48<15:15,  2.01it/s] 83%|████████▎ | 8854/10696 [1:39:48<15:14,  2.01it/s] 83%|████████▎ | 8855/10696 [1:39:49<15:14,  2.01it/s] 83%|████████▎ | 8856/10696 [1:39:49<15:14,  2.01it/s] 83%|████████▎ | 8857/10696 [1:39:50<15:12,  2.01it/s] 83%|████████▎ | 8858/10696 [1:39:50<15:14,  2.01it/s] 83%|████████▎ | 8859/10696 [1:39:51<15:12,  2.01it/s] 83%|████████▎ | 8860/10696 [1:39:51<15:11,  2.01it/s] 83%|████████▎ | 8861/10696 [1:39:52<15:11,  2.01it/s] 83%|████���███▎ | 8862/10696 [1:39:52<15:10,  2.01it/s] 83%|████████▎ | 8863/10696 [1:39:53<15:10,  2.01it/s] 83%|████████▎ | 8864/10696 [1:39:53<15:09,  2.01it/s] 83%|████████▎ | 8865/10696 [1:39:54<15:10,  2.01it/s] 83%|████████▎ | 8866/10696 [1:39:54<15:08,  2.01it/s] 83%|████████▎ | 8867/10696 [1:39:55<15:09,  2.01it/s] 83%|████████▎ | 8868/10696 [1:39:55<15:08,  2.01it/s] 83%|████████▎ | 8869/10696 [1:39:56<15:07,  2.01it/s] 83%|████████▎ | 8870/10696 [1:39:56<15:07,  2.01it/s] 83%|████████▎ | 8871/10696 [1:39:57<15:07,  2.01it/s] 83%|████████▎ | 8872/10696 [1:39:57<15:07,  2.01it/s] 83%|████████▎ | 8873/10696 [1:39:58<15:06,  2.01it/s] 83%|████████▎ | 8874/10696 [1:39:58<15:05,  2.01it/s] 83%|████████▎ | 8875/10696 [1:39:59<15:05,  2.01it/s]{'loss': 3.6217, 'grad_norm': 0.20425638556480408, 'learning_rate': 8.573282737859639e-05, 'epoch': 0.83}                                                      
- 83%|████████▎ | 8875/10696 [1:39:59<15:05,  2.01it/s] 83%|████████▎ | 8876/10696 [1:39:59<15:05,  2.01it/s] 83%|████████▎ | 8877/10696 [1:40:00<15:06,  2.01it/s] 83%|████████▎ | 8878/10696 [1:40:00<15:04,  2.01it/s] 83%|████████▎ | 8879/10696 [1:40:01<15:03,  2.01it/s] 83%|████████▎ | 8880/10696 [1:40:01<15:03,  2.01it/s] 83%|████████▎ | 8881/10696 [1:40:02<15:02,  2.01it/s] 83%|████████▎ | 8882/10696 [1:40:02<15:01,  2.01it/s] 83%|████████▎ | 8883/10696 [1:40:03<15:00,  2.01it/s] 83%|████████▎ | 8884/10696 [1:40:03<15:00,  2.01it/s] 83%|████████▎ | 8885/10696 [1:40:04<14:59,  2.01it/s] 83%|████████▎ | 8886/10696 [1:40:04<14:59,  2.01it/s] 83%|████████▎ | 8887/10696 [1:40:05<14:59,  2.01it/s] 83%|████████▎ | 8888/10696 [1:40:05<14:57,  2.01it/s] 83%|████████▎ | 8889/10696 [1:40:06<14:57,  2.01it/s] 83%|████████▎ | 8890/10696 [1:40:06<14:56,  2.01it/s] 83%|████████▎ | 8891/10696 [1:40:07<14:56,  2.01it/s] 83%|████████▎ | 8892/10696 [1:40:07<14:55,  2.01it/s] 83%|████████▎ | 8893/10696 [1:40:08<14:54,  2.01it/s] 83%|████████▎ | 8894/10696 [1:40:08<14:53,  2.02it/s] 83%|████████▎ | 8895/10696 [1:40:09<14:53,  2.01it/s] 83%|████████▎ | 8896/10696 [1:40:09<14:53,  2.02it/s] 83%|████████▎ | 8897/10696 [1:40:10<14:53,  2.01it/s] 83%|████████▎ | 8898/10696 [1:40:10<14:52,  2.01it/s] 83%|████████▎ | 8899/10696 [1:40:11<14:51,  2.02it/s] 83%|████████▎ | 8900/10696 [1:40:11<14:51,  2.01it/s]{'loss': 3.6229, 'grad_norm': 0.2112487107515335, 'learning_rate': 8.34623364622415e-05, 'epoch': 0.83}
-                                                       83%|████████▎ | 8900/10696 [1:40:11<14:51,  2.01it/s] 83%|████████▎ | 8901/10696 [1:40:12<14:52,  2.01it/s] 83%|████████▎ | 8902/10696 [1:40:12<14:50,  2.01it/s] 83%|████████▎ | 8903/10696 [1:40:13<14:50,  2.01it/s] 83%|████████▎ | 8904/10696 [1:40:13<14:49,  2.01it/s] 83%|████████▎ | 8905/10696 [1:40:14<14:50,  2.01it/s] 83%|████████▎ | 8906/10696 [1:40:14<14:49,  2.01it/s] 83%|████████▎ | 8907/10696 [1:40:15<14:48,  2.01it/s] 83%|████████▎ | 8908/10696 [1:40:15<14:47,  2.01it/s] 83%|████████▎ | 8909/10696 [1:40:16<14:46,  2.02it/s] 83%|████████▎ | 8910/10696 [1:40:16<14:46,  2.02it/s] 83%|████████▎ | 8911/10696 [1:40:17<14:45,  2.02it/s] 83%|████████▎ | 8912/10696 [1:40:17<14:45,  2.02it/s] 83%|████████▎ | 8913/10696 [1:40:18<14:44,  2.02it/s] 83%|████████▎ | 8914/10696 [1:40:18<14:44,  2.01it/s] 83%|████████▎ | 8915/10696 [1:40:19<14:44,  2.01it/s] 83%|████████▎ | 8916/10696 [1:40:19<14:43,  2.02it/s] 83%|████████▎ | 8917/10696 [1:40:20<14:42,  2.02it/s] 83%|████████▎ | 8918/10696 [1:40:20<14:42,  2.01it/s] 83%|████████▎ | 8919/10696 [1:40:21<14:42,  2.01it/s] 83%|████████▎ | 8920/10696 [1:40:21<14:41,  2.01it/s] 83%|████████▎ | 8921/10696 [1:40:22<14:41,  2.01it/s] 83%|████████▎ | 8922/10696 [1:40:22<14:40,  2.01it/s] 83%|████████▎ | 8923/10696 [1:40:23<14:40,  2.01it/s] 83%|████████▎ | 8924/10696 [1:40:23<14:39,  2.02it/s] 83%|████████▎ | 8925/10696 [1:40:24<14:39,  2.01it/s]{'loss': 3.6163, 'grad_norm': 0.20973698794841766, 'learning_rate': 8.121957491031163e-05, 'epoch': 0.83}                                                      
- 83%|████████▎ | 8925/10696 [1:40:24<14:39,  2.01it/s] 83%|████████▎ | 8926/10696 [1:40:24<14:40,  2.01it/s] 83%|████████▎ | 8927/10696 [1:40:25<14:39,  2.01it/s] 83%|████████▎ | 8928/10696 [1:40:25<14:39,  2.01it/s] 83%|████████▎ | 8929/10696 [1:40:26<14:37,  2.01it/s] 83%|████████▎ | 8930/10696 [1:40:26<14:37,  2.01it/s] 83%|████████▎ | 8931/10696 [1:40:27<14:36,  2.01it/s] 84%|████████▎ | 8932/10696 [1:40:27<14:36,  2.01it/s] 84%|████████▎ | 8933/10696 [1:40:28<14:36,  2.01it/s] 84%|████████▎ | 8934/10696 [1:40:28<14:35,  2.01it/s] 84%|████████▎ | 8935/10696 [1:40:29<14:35,  2.01it/s] 84%|████████▎ | 8936/10696 [1:40:29<14:35,  2.01it/s] 84%|████████▎ | 8937/10696 [1:40:30<16:53,  1.74it/s] 84%|████████▎ | 8938/10696 [1:40:30<16:11,  1.81it/s] 84%|████████▎ | 8939/10696 [1:40:31<15:41,  1.87it/s] 84%|████████▎ | 8940/10696 [1:40:31<15:19,  1.91it/s] 84%|████████▎ | 8941/10696 [1:40:32<15:07,  1.93it/s] 84%|████████▎ | 8942/10696 [1:40:32<14:55,  1.96it/s] 84%|████████▎ | 8943/10696 [1:40:33<14:48,  1.97it/s] 84%|████████▎ | 8944/10696 [1:40:33<14:42,  1.99it/s] 84%|████████▎ | 8945/10696 [1:40:34<14:37,  2.00it/s] 84%|████████▎ | 8946/10696 [1:40:34<14:35,  2.00it/s] 84%|████████▎ | 8947/10696 [1:40:35<14:33,  2.00it/s] 84%|████████▎ | 8948/10696 [1:40:35<14:31,  2.00it/s] 84%|████████▎ | 8949/10696 [1:40:36<14:29,  2.01it/s] 84%|████████▎ | 8950/10696 [1:40:36<14:28,  2.01it/s]                                                      {'loss': 3.6184, 'grad_norm': 0.20695656538009644, 'learning_rate': 7.900469202587801e-05, 'epoch': 0.84}
- 84%|████████▎ | 8950/10696 [1:40:36<14:28,  2.01it/s] 84%|████████▎ | 8951/10696 [1:40:37<14:28,  2.01it/s] 84%|████████▎ | 8952/10696 [1:40:37<14:26,  2.01it/s] 84%|████████▎ | 8953/10696 [1:40:38<14:26,  2.01it/s] 84%|████████▎ | 8954/10696 [1:40:38<14:25,  2.01it/s] 84%|████████▎ | 8955/10696 [1:40:39<14:24,  2.01it/s] 84%|████████▎ | 8956/10696 [1:40:39<14:23,  2.02it/s] 84%|████████▎ | 8957/10696 [1:40:40<14:23,  2.01it/s] 84%|████████▍ | 8958/10696 [1:40:40<14:22,  2.02it/s] 84%|████████▍ | 8959/10696 [1:40:41<14:22,  2.01it/s] 84%|████████▍ | 8960/10696 [1:40:41<14:21,  2.02it/s] 84%|████████▍ | 8961/10696 [1:40:42<14:20,  2.02it/s] 84%|████████▍ | 8962/10696 [1:40:42<14:20,  2.01it/s] 84%|████████▍ | 8963/10696 [1:40:43<14:18,  2.02it/s] 84%|████████▍ | 8964/10696 [1:40:43<14:19,  2.02it/s] 84%|████████▍ | 8965/10696 [1:40:44<14:19,  2.01it/s] 84%|████████▍ | 8966/10696 [1:40:44<14:18,  2.02it/s] 84%|████████▍ | 8967/10696 [1:40:45<14:17,  2.02it/s] 84%|████████▍ | 8968/10696 [1:40:45<14:17,  2.01it/s] 84%|████████▍ | 8969/10696 [1:40:46<14:17,  2.01it/s] 84%|████████▍ | 8970/10696 [1:40:46<14:16,  2.01it/s] 84%|████████▍ | 8971/10696 [1:40:47<14:16,  2.01it/s] 84%|████████▍ | 8972/10696 [1:40:47<14:14,  2.02it/s] 84%|████████▍ | 8973/10696 [1:40:48<14:14,  2.02it/s] 84%|████████▍ | 8974/10696 [1:40:49<16:37,  1.73it/s] 84%|████████▍ | 8975/10696 [1:40:49<15:54,  1.80it/s]{'loss': 3.621, 'grad_norm': 0.21010099351406097, 'learning_rate': 7.681783525609864e-05, 'epoch': 0.84}                                                      
- 84%|████████▍ | 8975/10696 [1:40:49<15:54,  1.80it/s] 84%|████████▍ | 8976/10696 [1:40:49<15:26,  1.86it/s] 84%|████████▍ | 8977/10696 [1:40:50<15:03,  1.90it/s] 84%|████████▍ | 8978/10696 [1:40:50<14:48,  1.93it/s] 84%|████████▍ | 8979/10696 [1:40:51<14:36,  1.96it/s] 84%|████████▍ | 8980/10696 [1:40:51<14:29,  1.97it/s] 84%|████████▍ | 8981/10696 [1:40:52<14:22,  1.99it/s] 84%|████████▍ | 8982/10696 [1:40:52<14:19,  1.99it/s] 84%|████████▍ | 8983/10696 [1:40:53<14:15,  2.00it/s] 84%|████████▍ | 8984/10696 [1:40:53<14:14,  2.00it/s] 84%|████████▍ | 8985/10696 [1:40:54<14:12,  2.01it/s] 84%|████████▍ | 8986/10696 [1:40:54<14:11,  2.01it/s] 84%|████████▍ | 8987/10696 [1:40:55<14:10,  2.01it/s] 84%|████████▍ | 8988/10696 [1:40:55<14:08,  2.01it/s] 84%|████████▍ | 8989/10696 [1:40:56<14:08,  2.01it/s] 84%|████████▍ | 8990/10696 [1:40:56<14:06,  2.01it/s] 84%|████████▍ | 8991/10696 [1:40:57<14:06,  2.02it/s] 84%|████████▍ | 8992/10696 [1:40:57<14:05,  2.02it/s] 84%|████████▍ | 8993/10696 [1:40:58<14:04,  2.02it/s] 84%|████████▍ | 8994/10696 [1:40:58<14:04,  2.02it/s] 84%|████████▍ | 8995/10696 [1:40:59<14:02,  2.02it/s] 84%|████████▍ | 8996/10696 [1:40:59<14:04,  2.01it/s] 84%|████████▍ | 8997/10696 [1:41:00<14:03,  2.01it/s] 84%|████████▍ | 8998/10696 [1:41:00<14:02,  2.01it/s] 84%|████████▍ | 8999/10696 [1:41:01<14:02,  2.01it/s] 84%|████████▍ | 9000/10696 [1:41:01<14:01,  2.01it/s]{'loss': 3.609, 'grad_norm': 0.20411859452724457, 'learning_rate': 7.465915018240254e-05, 'epoch': 0.84}                                                      
- 84%|████████▍ | 9000/10696 [1:41:01<14:01,  2.01it/s] 84%|████████▍ | 9001/10696 [1:41:02<14:02,  2.01it/s] 84%|████████▍ | 9002/10696 [1:41:02<14:01,  2.01it/s] 84%|████████▍ | 9003/10696 [1:41:03<14:00,  2.01it/s] 84%|████████▍ | 9004/10696 [1:41:03<13:59,  2.02it/s] 84%|████████▍ | 9005/10696 [1:41:04<13:58,  2.02it/s] 84%|████████▍ | 9006/10696 [1:41:04<13:58,  2.02it/s] 84%|████████▍ | 9007/10696 [1:41:05<13:59,  2.01it/s] 84%|████████▍ | 9008/10696 [1:41:05<13:57,  2.02it/s] 84%|████████▍ | 9009/10696 [1:41:06<13:57,  2.01it/s] 84%|████████▍ | 9010/10696 [1:41:06<13:56,  2.01it/s] 84%|████████▍ | 9011/10696 [1:41:07<13:56,  2.01it/s] 84%|████████▍ | 9012/10696 [1:41:07<13:55,  2.02it/s] 84%|████████▍ | 9013/10696 [1:41:08<13:54,  2.02it/s] 84%|████████▍ | 9014/10696 [1:41:08<13:55,  2.01it/s] 84%|████████▍ | 9015/10696 [1:41:09<13:54,  2.01it/s] 84%|████████▍ | 9016/10696 [1:41:09<13:54,  2.01it/s] 84%|████████▍ | 9017/10696 [1:41:10<13:53,  2.02it/s] 84%|████████▍ | 9018/10696 [1:41:10<13:54,  2.01it/s] 84%|████████▍ | 9019/10696 [1:41:11<13:52,  2.01it/s] 84%|████████▍ | 9020/10696 [1:41:11<13:52,  2.01it/s] 84%|████████▍ | 9021/10696 [1:41:12<13:51,  2.01it/s] 84%|████████▍ | 9022/10696 [1:41:12<13:51,  2.01it/s] 84%|████████▍ | 9023/10696 [1:41:13<13:51,  2.01it/s] 84%|████████▍ | 9024/10696 [1:41:13<13:50,  2.01it/s] 84%|████████▍ | 9025/10696 [1:41:14<13:50,  2.01it/s]{'loss': 3.613, 'grad_norm': 0.19991718232631683, 'learning_rate': 7.25287805107982e-05, 'epoch': 0.84}
-                                                       84%|████████▍ | 9025/10696 [1:41:14<13:50,  2.01it/s] 84%|████████▍ | 9026/10696 [1:41:14<13:49,  2.01it/s] 84%|████████▍ | 9027/10696 [1:41:15<13:49,  2.01it/s] 84%|████████▍ | 9028/10696 [1:41:15<13:49,  2.01it/s] 84%|████████▍ | 9029/10696 [1:41:16<13:47,  2.01it/s] 84%|████████▍ | 9030/10696 [1:41:16<13:47,  2.01it/s] 84%|████████▍ | 9031/10696 [1:41:17<13:45,  2.02it/s] 84%|████████▍ | 9032/10696 [1:41:17<13:46,  2.01it/s] 84%|████████▍ | 9033/10696 [1:41:18<13:45,  2.01it/s] 84%|████████▍ | 9034/10696 [1:41:18<13:45,  2.01it/s] 84%|████████▍ | 9035/10696 [1:41:19<13:45,  2.01it/s] 84%|████████▍ | 9036/10696 [1:41:19<13:44,  2.01it/s] 84%|████████▍ | 9037/10696 [1:41:20<13:44,  2.01it/s] 84%|████████▍ | 9038/10696 [1:41:20<13:43,  2.01it/s] 85%|████████▍ | 9039/10696 [1:41:21<13:42,  2.01it/s] 85%|████████▍ | 9040/10696 [1:41:21<13:42,  2.01it/s] 85%|████████▍ | 9041/10696 [1:41:22<13:41,  2.02it/s] 85%|████████▍ | 9042/10696 [1:41:22<13:41,  2.01it/s] 85%|████████▍ | 9043/10696 [1:41:23<13:41,  2.01it/s] 85%|████████▍ | 9044/10696 [1:41:23<13:39,  2.01it/s] 85%|████████▍ | 9045/10696 [1:41:24<13:39,  2.01it/s] 85%|████████▍ | 9046/10696 [1:41:24<13:38,  2.02it/s] 85%|████████▍ | 9047/10696 [1:41:25<13:38,  2.02it/s] 85%|████████▍ | 9048/10696 [1:41:25<13:37,  2.02it/s] 85%|████████▍ | 9049/10696 [1:41:26<13:37,  2.01it/s] 85%|████████▍ | 9050/10696 [1:41:26<13:36,  2.02it/s]                                                      {'loss': 3.6203, 'grad_norm': 0.19646131992340088, 'learning_rate': 7.042686806230747e-05, 'epoch': 0.85}
- 85%|████████▍ | 9050/10696 [1:41:26<13:36,  2.02it/s] 85%|████████▍ | 9051/10696 [1:41:27<13:37,  2.01it/s] 85%|████████▍ | 9052/10696 [1:41:27<13:36,  2.01it/s] 85%|████████▍ | 9053/10696 [1:41:28<13:36,  2.01it/s] 85%|████████▍ | 9054/10696 [1:41:28<13:35,  2.01it/s] 85%|████████▍ | 9055/10696 [1:41:29<13:35,  2.01it/s] 85%|████████▍ | 9056/10696 [1:41:29<13:34,  2.01it/s] 85%|████████▍ | 9057/10696 [1:41:30<13:33,  2.01it/s] 85%|████████▍ | 9058/10696 [1:41:30<13:33,  2.01it/s] 85%|████████▍ | 9059/10696 [1:41:31<13:32,  2.01it/s] 85%|████████▍ | 9060/10696 [1:41:31<13:32,  2.01it/s] 85%|████████▍ | 9061/10696 [1:41:32<13:31,  2.02it/s] 85%|████████▍ | 9062/10696 [1:41:32<13:30,  2.01it/s] 85%|████████▍ | 9063/10696 [1:41:33<13:30,  2.01it/s] 85%|████████▍ | 9064/10696 [1:41:33<13:29,  2.02it/s] 85%|████████▍ | 9065/10696 [1:41:34<13:30,  2.01it/s] 85%|████████▍ | 9066/10696 [1:41:34<13:29,  2.01it/s] 85%|████████▍ | 9067/10696 [1:41:35<13:29,  2.01it/s] 85%|████████▍ | 9068/10696 [1:41:35<13:28,  2.01it/s] 85%|████████▍ | 9069/10696 [1:41:36<13:28,  2.01it/s] 85%|████████▍ | 9070/10696 [1:41:36<13:26,  2.01it/s] 85%|████████▍ | 9071/10696 [1:41:37<13:27,  2.01it/s] 85%|████████▍ | 9072/10696 [1:41:37<13:25,  2.02it/s] 85%|████████▍ | 9073/10696 [1:41:38<13:25,  2.01it/s] 85%|████████▍ | 9074/10696 [1:41:38<13:25,  2.01it/s] 85%|████████▍ | 9075/10696 [1:41:39<13:25,  2.01it/s]{'loss': 3.612, 'grad_norm': 0.2031993865966797, 'learning_rate': 6.835355276352357e-05, 'epoch': 0.85}
-                                                       85%|████████▍ | 9075/10696 [1:41:39<13:25,  2.01it/s] 85%|████████▍ | 9076/10696 [1:41:39<13:25,  2.01it/s] 85%|████████▍ | 9077/10696 [1:41:40<13:24,  2.01it/s] 85%|████████▍ | 9078/10696 [1:41:40<13:24,  2.01it/s] 85%|████████▍ | 9079/10696 [1:41:41<13:22,  2.01it/s] 85%|████████▍ | 9080/10696 [1:41:41<13:22,  2.01it/s] 85%|████████▍ | 9081/10696 [1:41:42<13:20,  2.02it/s] 85%|████████▍ | 9082/10696 [1:41:42<13:21,  2.01it/s] 85%|████████▍ | 9083/10696 [1:41:43<13:20,  2.02it/s] 85%|████████▍ | 9084/10696 [1:41:43<13:19,  2.02it/s] 85%|████████▍ | 9085/10696 [1:41:44<13:19,  2.01it/s] 85%|████████▍ | 9086/10696 [1:41:44<13:18,  2.02it/s] 85%|████████▍ | 9087/10696 [1:41:45<13:18,  2.01it/s] 85%|████████▍ | 9088/10696 [1:41:45<13:18,  2.01it/s] 85%|████████▍ | 9089/10696 [1:41:46<13:18,  2.01it/s] 85%|████████▍ | 9090/10696 [1:41:46<13:17,  2.01it/s] 85%|████████▍ | 9091/10696 [1:41:47<13:16,  2.01it/s] 85%|████████▌ | 9092/10696 [1:41:47<13:16,  2.01it/s] 85%|████████▌ | 9093/10696 [1:41:48<13:16,  2.01it/s] 85%|████████▌ | 9094/10696 [1:41:48<13:16,  2.01it/s] 85%|████████▌ | 9095/10696 [1:41:49<13:15,  2.01it/s] 85%|████████▌ | 9096/10696 [1:41:49<13:14,  2.01it/s] 85%|████████▌ | 9097/10696 [1:41:50<13:14,  2.01it/s] 85%|████████▌ | 9098/10696 [1:41:50<13:13,  2.01it/s] 85%|████████▌ | 9099/10696 [1:41:51<13:13,  2.01it/s] 85%|████████▌ | 9100/10696 [1:41:51<13:12,  2.01it/s]{'loss': 3.6261, 'grad_norm': 0.20238928496837616, 'learning_rate': 6.630897263729674e-05, 'epoch': 0.85}                                                      
- 85%|████████▌ | 9100/10696 [1:41:51<13:12,  2.01it/s] 85%|████████▌ | 9101/10696 [1:41:52<13:12,  2.01it/s] 85%|████████▌ | 9102/10696 [1:41:52<13:12,  2.01it/s] 85%|████████▌ | 9103/10696 [1:41:53<13:11,  2.01it/s] 85%|████████▌ | 9104/10696 [1:41:53<13:11,  2.01it/s] 85%|████████▌ | 9105/10696 [1:41:54<13:10,  2.01it/s] 85%|████████▌ | 9106/10696 [1:41:54<13:09,  2.01it/s] 85%|████████▌ | 9107/10696 [1:41:55<13:08,  2.01it/s] 85%|████████▌ | 9108/10696 [1:41:55<13:07,  2.02it/s] 85%|████████▌ | 9109/10696 [1:41:56<13:07,  2.01it/s] 85%|████████▌ | 9110/10696 [1:41:56<13:06,  2.02it/s] 85%|████████▌ | 9111/10696 [1:41:57<13:06,  2.02it/s] 85%|████████▌ | 9112/10696 [1:41:57<13:05,  2.02it/s] 85%|████████▌ | 9113/10696 [1:41:58<13:05,  2.02it/s] 85%|████████▌ | 9114/10696 [1:41:58<13:04,  2.02it/s] 85%|████████▌ | 9115/10696 [1:41:59<13:04,  2.02it/s] 85%|████████▌ | 9116/10696 [1:41:59<13:04,  2.01it/s] 85%|████████▌ | 9117/10696 [1:42:00<13:03,  2.02it/s] 85%|████████▌ | 9118/10696 [1:42:00<13:03,  2.02it/s] 85%|████████▌ | 9119/10696 [1:42:00<13:02,  2.02it/s] 85%|████████▌ | 9120/10696 [1:42:01<13:01,  2.02it/s] 85%|████████▌ | 9121/10696 [1:42:01<13:01,  2.02it/s] 85%|████████▌ | 9122/10696 [1:42:02<13:00,  2.02it/s] 85%|████████▌ | 9123/10696 [1:42:02<13:00,  2.02it/s] 85%|████████▌ | 9124/10696 [1:42:03<12:59,  2.02it/s] 85%|████████▌ | 9125/10696 [1:42:03<12:59,  2.01it/s]                                                      {'loss': 3.6136, 'grad_norm': 0.2036823332309723, 'learning_rate': 6.429326379354522e-05, 'epoch': 0.85}
- 85%|████████▌ | 9125/10696 [1:42:03<12:59,  2.01it/s] 85%|████████▌ | 9126/10696 [1:42:04<13:00,  2.01it/s] 85%|████████▌ | 9127/10696 [1:42:04<12:59,  2.01it/s] 85%|████████▌ | 9128/10696 [1:42:05<12:58,  2.01it/s] 85%|████████▌ | 9129/10696 [1:42:05<12:58,  2.01it/s] 85%|████████▌ | 9130/10696 [1:42:06<12:57,  2.01it/s] 85%|████████▌ | 9131/10696 [1:42:06<12:57,  2.01it/s] 85%|████████▌ | 9132/10696 [1:42:07<12:57,  2.01it/s] 85%|████████▌ | 9133/10696 [1:42:07<12:56,  2.01it/s] 85%|████████▌ | 9134/10696 [1:42:08<12:55,  2.01it/s] 85%|████████▌ | 9135/10696 [1:42:08<12:54,  2.02it/s] 85%|████████▌ | 9136/10696 [1:42:09<12:54,  2.02it/s] 85%|████████▌ | 9137/10696 [1:42:09<12:54,  2.01it/s] 85%|████████▌ | 9138/10696 [1:42:10<12:53,  2.01it/s] 85%|████████▌ | 9139/10696 [1:42:10<12:52,  2.02it/s] 85%|████████▌ | 9140/10696 [1:42:11<12:51,  2.02it/s] 85%|████████▌ | 9141/10696 [1:42:11<12:51,  2.02it/s] 85%|████████▌ | 9142/10696 [1:42:12<12:50,  2.02it/s] 85%|████████▌ | 9143/10696 [1:42:12<12:50,  2.02it/s] 85%|████████▌ | 9144/10696 [1:42:13<12:49,  2.02it/s] 85%|████████▌ | 9145/10696 [1:42:13<12:49,  2.01it/s] 86%|████████▌ | 9146/10696 [1:42:14<12:48,  2.02it/s] 86%|████████▌ | 9147/10696 [1:42:14<12:48,  2.02it/s] 86%|████████▌ | 9148/10696 [1:42:15<12:46,  2.02it/s] 86%|████████▌ | 9149/10696 [1:42:15<12:47,  2.02it/s] 86%|████████▌ | 9150/10696 [1:42:16<12:46,  2.02it/s]{'loss': 3.623, 'grad_norm': 0.19768545031547546, 'learning_rate': 6.230656042019506e-05, 'epoch': 0.86}
-                                                       86%|████████▌ | 9150/10696 [1:42:16<12:46,  2.02it/s] 86%|████████▌ | 9151/10696 [1:42:16<12:47,  2.01it/s] 86%|████████▌ | 9152/10696 [1:42:17<12:47,  2.01it/s] 86%|████████▌ | 9153/10696 [1:42:17<12:45,  2.02it/s] 86%|████████▌ | 9154/10696 [1:42:18<12:45,  2.01it/s] 86%|████████▌ | 9155/10696 [1:42:18<12:43,  2.02it/s] 86%|████████▌ | 9156/10696 [1:42:19<12:44,  2.02it/s] 86%|████████▌ | 9157/10696 [1:42:19<12:42,  2.02it/s] 86%|████████▌ | 9158/10696 [1:42:20<12:43,  2.01it/s] 86%|████████▌ | 9159/10696 [1:42:20<12:42,  2.02it/s] 86%|████████▌ | 9160/10696 [1:42:21<12:42,  2.01it/s] 86%|████████▌ | 9161/10696 [1:42:21<12:41,  2.01it/s] 86%|████████▌ | 9162/10696 [1:42:22<12:41,  2.02it/s] 86%|████████▌ | 9163/10696 [1:42:22<12:41,  2.01it/s] 86%|████████▌ | 9164/10696 [1:42:23<12:40,  2.02it/s] 86%|████████▌ | 9165/10696 [1:42:23<12:40,  2.01it/s] 86%|████████▌ | 9166/10696 [1:42:24<12:38,  2.02it/s] 86%|████████▌ | 9167/10696 [1:42:24<12:38,  2.02it/s] 86%|████████▌ | 9168/10696 [1:42:25<12:38,  2.02it/s] 86%|████████▌ | 9169/10696 [1:42:25<12:37,  2.02it/s] 86%|████████▌ | 9170/10696 [1:42:26<12:37,  2.01it/s] 86%|████████▌ | 9171/10696 [1:42:26<12:36,  2.02it/s] 86%|████████▌ | 9172/10696 [1:42:27<12:36,  2.02it/s] 86%|████████▌ | 9173/10696 [1:42:27<12:35,  2.02it/s] 86%|████████▌ | 9174/10696 [1:42:28<12:35,  2.01it/s] 86%|████████▌ | 9175/10696 [1:42:28<12:34,  2.02it/s]{'loss': 3.6159, 'grad_norm': 0.20120611786842346, 'learning_rate': 6.034899477424638e-05, 'epoch': 0.86}
-                                                       86%|████████▌ | 9175/10696 [1:42:28<12:34,  2.02it/s] 86%|████████▌ | 9176/10696 [1:42:29<12:35,  2.01it/s] 86%|████████▌ | 9177/10696 [1:42:29<12:34,  2.01it/s] 86%|████████▌ | 9178/10696 [1:42:30<12:33,  2.01it/s] 86%|████████▌ | 9179/10696 [1:42:30<12:33,  2.01it/s] 86%|████████▌ | 9180/10696 [1:42:31<12:31,  2.02it/s] 86%|████████▌ | 9181/10696 [1:42:31<12:32,  2.01it/s] 86%|████████▌ | 9182/10696 [1:42:32<12:30,  2.02it/s] 86%|████████▌ | 9183/10696 [1:42:32<12:30,  2.02it/s] 86%|████████▌ | 9184/10696 [1:42:33<12:29,  2.02it/s] 86%|████████▌ | 9185/10696 [1:42:33<12:29,  2.02it/s] 86%|████████▌ | 9186/10696 [1:42:34<12:28,  2.02it/s] 86%|████████▌ | 9187/10696 [1:42:34<12:28,  2.02it/s] 86%|████████▌ | 9188/10696 [1:42:35<12:27,  2.02it/s] 86%|████████▌ | 9189/10696 [1:42:35<12:27,  2.02it/s] 86%|████████▌ | 9190/10696 [1:42:36<12:27,  2.01it/s] 86%|████████▌ | 9191/10696 [1:42:36<12:26,  2.02it/s] 86%|████████▌ | 9192/10696 [1:42:37<12:26,  2.01it/s] 86%|████████▌ | 9193/10696 [1:42:37<12:25,  2.02it/s] 86%|████████▌ | 9194/10696 [1:42:38<12:25,  2.01it/s] 86%|████████▌ | 9195/10696 [1:42:38<12:24,  2.02it/s] 86%|████████▌ | 9196/10696 [1:42:39<12:24,  2.01it/s] 86%|████████▌ | 9197/10696 [1:42:39<12:24,  2.01it/s] 86%|████████▌ | 9198/10696 [1:42:40<12:23,  2.01it/s] 86%|████████▌ | 9199/10696 [1:42:40<12:23,  2.01it/s] 86%|████████▌ | 9200/10696 [1:42:41<12:23,  2.01it/s]                                                      {'loss': 3.6208, 'grad_norm': 0.20389492809772491, 'learning_rate': 5.8420697172969054e-05, 'epoch': 0.86}
- 86%|████████▌ | 9200/10696 [1:42:41<12:23,  2.01it/s] 86%|████████▌ | 9201/10696 [1:42:41<12:23,  2.01it/s] 86%|████████▌ | 9202/10696 [1:42:42<12:22,  2.01it/s] 86%|████████▌ | 9203/10696 [1:42:42<12:22,  2.01it/s] 86%|████████▌ | 9204/10696 [1:42:43<12:20,  2.01it/s] 86%|████████▌ | 9205/10696 [1:42:43<12:20,  2.01it/s] 86%|████████▌ | 9206/10696 [1:42:44<12:19,  2.02it/s] 86%|████████▌ | 9207/10696 [1:42:44<12:18,  2.02it/s] 86%|████████▌ | 9208/10696 [1:42:45<12:17,  2.02it/s] 86%|████████▌ | 9209/10696 [1:42:45<12:17,  2.02it/s] 86%|████████▌ | 9210/10696 [1:42:46<12:16,  2.02it/s] 86%|████████▌ | 9211/10696 [1:42:46<12:16,  2.02it/s] 86%|████████▌ | 9212/10696 [1:42:47<12:16,  2.02it/s] 86%|████████▌ | 9213/10696 [1:42:47<12:15,  2.02it/s] 86%|████████▌ | 9214/10696 [1:42:48<12:15,  2.01it/s] 86%|████████▌ | 9215/10696 [1:42:48<12:15,  2.01it/s] 86%|████████▌ | 9216/10696 [1:42:49<12:14,  2.02it/s] 86%|████████▌ | 9217/10696 [1:42:49<12:13,  2.02it/s] 86%|████████▌ | 9218/10696 [1:42:50<12:12,  2.02it/s] 86%|████████▌ | 9219/10696 [1:42:50<12:12,  2.02it/s] 86%|████████▌ | 9220/10696 [1:42:51<12:11,  2.02it/s] 86%|████████▌ | 9221/10696 [1:42:51<12:11,  2.02it/s] 86%|████████▌ | 9222/10696 [1:42:52<12:12,  2.01it/s] 86%|████████▌ | 9223/10696 [1:42:52<12:10,  2.02it/s] 86%|████████▌ | 9224/10696 [1:42:53<12:10,  2.01it/s] 86%|████████▌ | 9225/10696 [1:42:53<12:10,  2.01it/s]                                                      {'loss': 3.606, 'grad_norm': 0.20445184409618378, 'learning_rate': 5.6521795985227834e-05, 'epoch': 0.86}
- 86%|████████▌ | 9225/10696 [1:42:53<12:10,  2.01it/s] 86%|████████▋ | 9226/10696 [1:42:54<12:10,  2.01it/s] 86%|████████▋ | 9227/10696 [1:42:54<12:10,  2.01it/s] 86%|████████▋ | 9228/10696 [1:42:55<12:08,  2.01it/s] 86%|████████▋ | 9229/10696 [1:42:55<12:08,  2.01it/s] 86%|████████▋ | 9230/10696 [1:42:56<12:06,  2.02it/s] 86%|████████▋ | 9231/10696 [1:42:56<12:06,  2.02it/s] 86%|████████▋ | 9232/10696 [1:42:57<12:05,  2.02it/s] 86%|████████▋ | 9233/10696 [1:42:57<12:05,  2.02it/s] 86%|████████▋ | 9234/10696 [1:42:58<12:05,  2.02it/s] 86%|████████▋ | 9235/10696 [1:42:58<12:04,  2.02it/s] 86%|████████▋ | 9236/10696 [1:42:59<12:03,  2.02it/s] 86%|████████▋ | 9237/10696 [1:42:59<12:03,  2.02it/s] 86%|████████▋ | 9238/10696 [1:43:00<12:02,  2.02it/s] 86%|████████▋ | 9239/10696 [1:43:00<12:02,  2.02it/s] 86%|████████▋ | 9240/10696 [1:43:01<12:02,  2.01it/s] 86%|████████▋ | 9241/10696 [1:43:01<12:01,  2.02it/s] 86%|████████▋ | 9242/10696 [1:43:02<12:01,  2.02it/s] 86%|████████▋ | 9243/10696 [1:43:02<12:00,  2.02it/s] 86%|████████▋ | 9244/10696 [1:43:03<12:00,  2.02it/s] 86%|████████▋ | 9245/10696 [1:43:03<12:00,  2.01it/s] 86%|████████▋ | 9246/10696 [1:43:04<11:59,  2.02it/s] 86%|████████▋ | 9247/10696 [1:43:04<11:59,  2.02it/s] 86%|████████▋ | 9248/10696 [1:43:05<11:57,  2.02it/s] 86%|████████▋ | 9249/10696 [1:43:05<11:57,  2.02it/s] 86%|████████▋ | 9250/10696 [1:43:05<11:57,  2.02it/s]{'loss': 3.6129, 'grad_norm': 0.2020481675863266, 'learning_rate': 5.465241762293605e-05, 'epoch': 0.86}
-                                                       86%|████████▋ | 9250/10696 [1:43:06<11:57,  2.02it/s] 86%|████████▋ | 9251/10696 [1:43:06<11:57,  2.01it/s] 86%|████████▋ | 9252/10696 [1:43:06<11:57,  2.01it/s] 87%|████████▋ | 9253/10696 [1:43:07<11:56,  2.02it/s] 87%|████████▋ | 9254/10696 [1:43:07<11:55,  2.01it/s] 87%|████████▋ | 9255/10696 [1:43:08<11:55,  2.02it/s] 87%|████████▋ | 9256/10696 [1:43:08<11:54,  2.02it/s] 87%|████████▋ | 9257/10696 [1:43:09<11:53,  2.02it/s] 87%|████████▋ | 9258/10696 [1:43:09<11:53,  2.02it/s] 87%|████████▋ | 9259/10696 [1:43:10<11:52,  2.02it/s] 87%|████████▋ | 9260/10696 [1:43:10<11:52,  2.02it/s] 87%|████████▋ | 9261/10696 [1:43:11<11:51,  2.02it/s] 87%|████████▋ | 9262/10696 [1:43:11<11:50,  2.02it/s] 87%|████████▋ | 9263/10696 [1:43:12<11:51,  2.02it/s] 87%|████████▋ | 9264/10696 [1:43:12<11:49,  2.02it/s] 87%|████████▋ | 9265/10696 [1:43:13<11:49,  2.02it/s] 87%|████████▋ | 9266/10696 [1:43:13<11:48,  2.02it/s] 87%|████████▋ | 9267/10696 [1:43:14<11:48,  2.02it/s] 87%|████████▋ | 9268/10696 [1:43:14<11:47,  2.02it/s] 87%|████████▋ | 9269/10696 [1:43:15<11:47,  2.02it/s] 87%|████████▋ | 9270/10696 [1:43:15<11:47,  2.01it/s] 87%|████████▋ | 9271/10696 [1:43:16<11:47,  2.02it/s] 87%|████████▋ | 9272/10696 [1:43:16<11:46,  2.02it/s] 87%|████████▋ | 9273/10696 [1:43:17<11:45,  2.02it/s] 87%|████████▋ | 9274/10696 [1:43:17<11:44,  2.02it/s] 87%|████████▋ | 9275/10696 [1:43:18<11:44,  2.02it/s]                                                      {'loss': 3.6131, 'grad_norm': 0.1995936781167984, 'learning_rate': 5.2812686532640594e-05, 'epoch': 0.87}
- 87%|████████▋ | 9275/10696 [1:43:18<11:44,  2.02it/s] 87%|████████▋ | 9276/10696 [1:43:18<11:44,  2.01it/s] 87%|████████▋ | 9277/10696 [1:43:19<11:44,  2.02it/s] 87%|████████▋ | 9278/10696 [1:43:19<11:44,  2.01it/s] 87%|████████▋ | 9279/10696 [1:43:20<11:43,  2.01it/s] 87%|████████▋ | 9280/10696 [1:43:20<11:43,  2.01it/s] 87%|████████▋ | 9281/10696 [1:43:21<11:42,  2.01it/s] 87%|████████▋ | 9282/10696 [1:43:21<11:42,  2.01it/s] 87%|████████▋ | 9283/10696 [1:43:22<11:41,  2.02it/s] 87%|████████▋ | 9284/10696 [1:43:22<11:40,  2.01it/s] 87%|████████▋ | 9285/10696 [1:43:23<11:39,  2.02it/s] 87%|████████▋ | 9286/10696 [1:43:23<11:39,  2.02it/s] 87%|████████▋ | 9287/10696 [1:43:24<11:39,  2.02it/s] 87%|████████▋ | 9288/10696 [1:43:24<11:37,  2.02it/s] 87%|████████▋ | 9289/10696 [1:43:25<11:38,  2.02it/s] 87%|████████▋ | 9290/10696 [1:43:25<11:37,  2.02it/s] 87%|████████▋ | 9291/10696 [1:43:26<11:37,  2.01it/s] 87%|████████▋ | 9292/10696 [1:43:26<11:36,  2.02it/s] 87%|████████▋ | 9293/10696 [1:43:27<11:36,  2.01it/s] 87%|████████▋ | 9294/10696 [1:43:27<11:35,  2.01it/s] 87%|████████▋ | 9295/10696 [1:43:28<11:35,  2.01it/s] 87%|████████▋ | 9296/10696 [1:43:28<11:34,  2.02it/s] 87%|████████▋ | 9297/10696 [1:43:29<11:33,  2.02it/s] 87%|███████��▋ | 9298/10696 [1:43:29<11:33,  2.02it/s] 87%|████████▋ | 9299/10696 [1:43:30<11:32,  2.02it/s] 87%|████████▋ | 9300/10696 [1:43:30<11:32,  2.01it/s]                                                      {'loss': 3.6077, 'grad_norm': 0.2047315090894699, 'learning_rate': 5.100272518723698e-05, 'epoch': 0.87}
- 87%|████████▋ | 9300/10696 [1:43:30<11:32,  2.01it/s] 87%|████████▋ | 9301/10696 [1:43:31<11:34,  2.01it/s] 87%|████████▋ | 9302/10696 [1:43:31<11:32,  2.01it/s] 87%|████████▋ | 9303/10696 [1:43:32<11:31,  2.01it/s] 87%|████████▋ | 9304/10696 [1:43:32<11:30,  2.02it/s] 87%|████████▋ | 9305/10696 [1:43:33<11:30,  2.01it/s] 87%|████████▋ | 9306/10696 [1:43:33<11:29,  2.02it/s] 87%|████████▋ | 9307/10696 [1:43:34<11:29,  2.02it/s] 87%|████████▋ | 9308/10696 [1:43:34<11:29,  2.01it/s] 87%|████████▋ | 9309/10696 [1:43:35<11:28,  2.01it/s] 87%|████████▋ | 9310/10696 [1:43:35<11:28,  2.01it/s] 87%|████████▋ | 9311/10696 [1:43:36<11:28,  2.01it/s] 87%|████████▋ | 9312/10696 [1:43:36<11:27,  2.01it/s] 87%|████████▋ | 9313/10696 [1:43:37<11:27,  2.01it/s] 87%|████████▋ | 9314/10696 [1:43:37<11:26,  2.01it/s] 87%|████████▋ | 9315/10696 [1:43:38<11:26,  2.01it/s] 87%|████████▋ | 9316/10696 [1:43:38<11:24,  2.01it/s] 87%|████████▋ | 9317/10696 [1:43:39<11:24,  2.01it/s] 87%|████████▋ | 9318/10696 [1:43:39<11:24,  2.01it/s] 87%|████████▋ | 9319/10696 [1:43:40<11:23,  2.01it/s] 87%|████████▋ | 9320/10696 [1:43:40<11:23,  2.01it/s] 87%|████████▋ | 9321/10696 [1:43:41<11:22,  2.01it/s] 87%|████████▋ | 9322/10696 [1:43:41<11:22,  2.01it/s] 87%|████████▋ | 9323/10696 [1:43:42<11:21,  2.01it/s] 87%|████████▋ | 9324/10696 [1:43:42<11:20,  2.02it/s] 87%|████████▋ | 9325/10696 [1:43:43<11:20,  2.02it/s]{'loss': 3.6089, 'grad_norm': 0.20109917223453522, 'learning_rate': 4.922265407781695e-05, 'epoch': 0.87}                                                      
- 87%|████████▋ | 9325/10696 [1:43:43<11:20,  2.02it/s] 87%|████████▋ | 9326/10696 [1:43:43<11:20,  2.01it/s] 87%|████████▋ | 9327/10696 [1:43:44<11:19,  2.01it/s] 87%|████████▋ | 9328/10696 [1:43:44<11:19,  2.01it/s] 87%|████████▋ | 9329/10696 [1:43:45<11:19,  2.01it/s] 87%|████████▋ | 9330/10696 [1:43:45<11:18,  2.01it/s] 87%|████████▋ | 9331/10696 [1:43:46<11:18,  2.01it/s] 87%|████████▋ | 9332/10696 [1:43:46<11:17,  2.01it/s] 87%|████████▋ | 9333/10696 [1:43:47<11:17,  2.01it/s] 87%|████████▋ | 9334/10696 [1:43:47<11:16,  2.01it/s] 87%|████████▋ | 9335/10696 [1:43:48<11:15,  2.01it/s] 87%|████████▋ | 9336/10696 [1:43:48<11:14,  2.02it/s] 87%|████████▋ | 9337/10696 [1:43:49<11:14,  2.01it/s] 87%|████████▋ | 9338/10696 [1:43:49<11:14,  2.01it/s] 87%|████████▋ | 9339/10696 [1:43:50<11:14,  2.01it/s] 87%|████████▋ | 9340/10696 [1:43:50<11:12,  2.02it/s] 87%|████████▋ | 9341/10696 [1:43:51<11:12,  2.01it/s] 87%|████████▋ | 9342/10696 [1:43:51<11:11,  2.02it/s] 87%|████████▋ | 9343/10696 [1:43:52<11:11,  2.01it/s] 87%|████████▋ | 9344/10696 [1:43:52<11:10,  2.02it/s] 87%|████████▋ | 9345/10696 [1:43:53<11:10,  2.02it/s] 87%|████████▋ | 9346/10696 [1:43:53<11:09,  2.02it/s] 87%|████████▋ | 9347/10696 [1:43:54<11:09,  2.02it/s] 87%|████████▋ | 9348/10696 [1:43:54<11:08,  2.02it/s] 87%|████████▋ | 9349/10696 [1:43:55<11:08,  2.01it/s] 87%|████████▋ | 9350/10696 [1:43:55<11:08,  2.01it/s]{'loss': 3.6086, 'grad_norm': 0.20058654248714447, 'learning_rate': 4.747259170564666e-05, 'epoch': 0.87}
-                                                       87%|████████▋ | 9350/10696 [1:43:55<11:08,  2.01it/s] 87%|████████▋ | 9351/10696 [1:43:56<11:07,  2.01it/s] 87%|████████▋ | 9352/10696 [1:43:56<11:07,  2.01it/s] 87%|████████▋ | 9353/10696 [1:43:57<11:06,  2.02it/s] 87%|████████▋ | 9354/10696 [1:43:57<11:07,  2.01it/s] 87%|████████▋ | 9355/10696 [1:43:58<11:05,  2.01it/s] 87%|████████▋ | 9356/10696 [1:43:58<11:05,  2.01it/s] 87%|████████▋ | 9357/10696 [1:43:59<11:04,  2.01it/s] 87%|████████▋ | 9358/10696 [1:43:59<11:03,  2.02it/s] 88%|████████▊ | 9359/10696 [1:44:00<11:03,  2.02it/s] 88%|████████▊ | 9360/10696 [1:44:00<11:02,  2.02it/s] 88%|████████▊ | 9361/10696 [1:44:01<11:02,  2.01it/s] 88%|████████▊ | 9362/10696 [1:44:01<11:01,  2.02it/s] 88%|████████▊ | 9363/10696 [1:44:02<11:01,  2.01it/s] 88%|████████▊ | 9364/10696 [1:44:02<11:01,  2.01it/s] 88%|████████▊ | 9365/10696 [1:44:03<11:00,  2.02it/s] 88%|████████▊ | 9366/10696 [1:44:03<10:59,  2.02it/s] 88%|████████▊ | 9367/10696 [1:44:04<10:58,  2.02it/s] 88%|████████▊ | 9368/10696 [1:44:04<10:58,  2.02it/s] 88%|████████▊ | 9369/10696 [1:44:05<10:57,  2.02it/s] 88%|████████▊ | 9370/10696 [1:44:05<10:58,  2.01it/s] 88%|████████▊ | 9371/10696 [1:44:06<10:57,  2.02it/s] 88%|████████▊ | 9372/10696 [1:44:06<10:57,  2.01it/s] 88%|████████▊ | 9373/10696 [1:44:07<10:56,  2.01it/s] 88%|████████▊ | 9374/10696 [1:44:07<10:55,  2.02it/s] 88%|████████▊ | 9375/10696 [1:44:08<10:55,  2.02it/s]                                                      {'loss': 3.6013, 'grad_norm': 0.20044969022274017, 'learning_rate': 4.575265457427774e-05, 'epoch': 0.88}
- 88%|████████▊ | 9375/10696 [1:44:08<10:55,  2.02it/s] 88%|████████▊ | 9376/10696 [1:44:08<10:54,  2.02it/s] 88%|████████▊ | 9377/10696 [1:44:09<10:55,  2.01it/s] 88%|████████▊ | 9378/10696 [1:44:09<10:53,  2.02it/s] 88%|████████▊ | 9379/10696 [1:44:10<10:53,  2.01it/s] 88%|████████▊ | 9380/10696 [1:44:10<10:53,  2.01it/s] 88%|████████▊ | 9381/10696 [1:44:11<10:52,  2.02it/s] 88%|████████▊ | 9382/10696 [1:44:11<10:52,  2.01it/s] 88%|████████▊ | 9383/10696 [1:44:12<10:51,  2.02it/s] 88%|████████▊ | 9384/10696 [1:44:12<10:51,  2.01it/s] 88%|████████▊ | 9385/10696 [1:44:13<10:50,  2.02it/s] 88%|████████▊ | 9386/10696 [1:44:13<10:49,  2.02it/s] 88%|████████▊ | 9387/10696 [1:44:13<10:48,  2.02it/s] 88%|████████▊ | 9388/10696 [1:44:14<10:48,  2.02it/s] 88%|████████▊ | 9389/10696 [1:44:14<10:47,  2.02it/s] 88%|████████▊ | 9390/10696 [1:44:15<10:47,  2.02it/s] 88%|████████▊ | 9391/10696 [1:44:15<10:47,  2.01it/s] 88%|████████▊ | 9392/10696 [1:44:16<10:46,  2.02it/s] 88%|████████▊ | 9393/10696 [1:44:16<10:46,  2.02it/s] 88%|████████▊ | 9394/10696 [1:44:17<10:44,  2.02it/s] 88%|████████▊ | 9395/10696 [1:44:17<10:44,  2.02it/s] 88%|████████▊ | 9396/10696 [1:44:18<10:44,  2.02it/s] 88%|████████▊ | 9397/10696 [1:44:18<10:44,  2.02it/s] 88%|████████▊ | 9398/10696 [1:44:19<10:43,  2.02it/s] 88%|████████▊ | 9399/10696 [1:44:19<10:43,  2.02it/s] 88%|████████▊ | 9400/10696 [1:44:20<10:43,  2.02it/s]                                                      {'loss': 3.6125, 'grad_norm': 0.20624631643295288, 'learning_rate': 4.406295718179226e-05, 'epoch': 0.88}
- 88%|████████▊ | 9400/10696 [1:44:20<10:43,  2.02it/s] 88%|████████▊ | 9401/10696 [1:44:20<10:43,  2.01it/s] 88%|████████▊ | 9402/10696 [1:44:21<10:43,  2.01it/s] 88%|████████▊ | 9403/10696 [1:44:21<10:42,  2.01it/s] 88%|████████▊ | 9404/10696 [1:44:22<10:41,  2.01it/s] 88%|████████▊ | 9405/10696 [1:44:22<10:40,  2.01it/s] 88%|████████▊ | 9406/10696 [1:44:23<10:40,  2.01it/s] 88%|████████▊ | 9407/10696 [1:44:23<10:39,  2.01it/s] 88%|████████▊ | 9408/10696 [1:44:24<10:39,  2.01it/s] 88%|████████▊ | 9409/10696 [1:44:24<10:38,  2.01it/s] 88%|████████▊ | 9410/10696 [1:44:25<10:38,  2.02it/s] 88%|████████▊ | 9411/10696 [1:44:25<10:37,  2.02it/s] 88%|████████▊ | 9412/10696 [1:44:26<10:37,  2.02it/s] 88%|████████▊ | 9413/10696 [1:44:26<10:37,  2.01it/s] 88%|████████▊ | 9414/10696 [1:44:27<10:36,  2.02it/s] 88%|████████▊ | 9415/10696 [1:44:27<10:35,  2.01it/s] 88%|████████▊ | 9416/10696 [1:44:28<10:34,  2.02it/s] 88%|████████▊ | 9417/10696 [1:44:28<10:35,  2.01it/s] 88%|████████▊ | 9418/10696 [1:44:29<10:34,  2.02it/s] 88%|████████▊ | 9419/10696 [1:44:29<10:33,  2.02it/s] 88%|████████▊ | 9420/10696 [1:44:30<10:32,  2.02it/s] 88%|████████▊ | 9421/10696 [1:44:30<10:32,  2.02it/s] 88%|████████▊ | 9422/10696 [1:44:31<10:31,  2.02it/s] 88%|████████▊ | 9423/10696 [1:44:31<10:31,  2.02it/s] 88%|████████▊ | 9424/10696 [1:44:32<10:31,  2.01it/s] 88%|████████▊ | 9425/10696 [1:44:32<10:30,  2.02it/s]{'loss': 3.606, 'grad_norm': 0.1968357264995575, 'learning_rate': 4.240361201317972e-05, 'epoch': 0.88}                                                      
- 88%|████████▊ | 9425/10696 [1:44:32<10:30,  2.02it/s] 88%|████████▊ | 9426/10696 [1:44:33<10:30,  2.01it/s] 88%|████████▊ | 9427/10696 [1:44:33<10:29,  2.02it/s] 88%|████████▊ | 9428/10696 [1:44:34<10:30,  2.01it/s] 88%|████████▊ | 9429/10696 [1:44:34<10:29,  2.01it/s] 88%|████████▊ | 9430/10696 [1:44:35<10:29,  2.01it/s] 88%|████████▊ | 9431/10696 [1:44:35<10:28,  2.01it/s] 88%|████████▊ | 9432/10696 [1:44:36<10:27,  2.01it/s] 88%|████████▊ | 9433/10696 [1:44:36<10:27,  2.01it/s] 88%|████████▊ | 9434/10696 [1:44:37<10:26,  2.01it/s] 88%|████████▊ | 9435/10696 [1:44:37<10:26,  2.01it/s] 88%|████████▊ | 9436/10696 [1:44:38<10:25,  2.01it/s] 88%|████████▊ | 9437/10696 [1:44:38<10:24,  2.02it/s] 88%|████████▊ | 9438/10696 [1:44:39<10:25,  2.01it/s] 88%|████████▊ | 9439/10696 [1:44:39<10:23,  2.01it/s] 88%|████████▊ | 9440/10696 [1:44:40<10:23,  2.02it/s] 88%|████████▊ | 9441/10696 [1:44:40<10:21,  2.02it/s] 88%|████████▊ | 9442/10696 [1:44:41<10:22,  2.02it/s] 88%|████████▊ | 9443/10696 [1:44:41<10:20,  2.02it/s] 88%|████████▊ | 9444/10696 [1:44:42<10:20,  2.02it/s] 88%|████████▊ | 9445/10696 [1:44:42<10:20,  2.02it/s] 88%|████████▊ | 9446/10696 [1:44:43<10:19,  2.02it/s] 88%|████████▊ | 9447/10696 [1:44:43<10:19,  2.02it/s] 88%|████████▊ | 9448/10696 [1:44:44<10:18,  2.02it/s] 88%|████████▊ | 9449/10696 [1:44:44<10:18,  2.02it/s] 88%|████████▊ | 9450/10696 [1:44:45<10:18,  2.01it/s]                                                      {'loss': 3.6178, 'grad_norm': 0.20025713741779327, 'learning_rate': 4.077472953284928e-05, 'epoch': 0.88}
- 88%|████████▊ | 9450/10696 [1:44:45<10:18,  2.01it/s] 88%|████████▊ | 9451/10696 [1:44:45<10:18,  2.01it/s] 88%|████████▊ | 9452/10696 [1:44:46<10:17,  2.01it/s] 88%|████████▊ | 9453/10696 [1:44:46<10:17,  2.01it/s] 88%|████████▊ | 9454/10696 [1:44:47<10:16,  2.01it/s] 88%|████████▊ | 9455/10696 [1:44:47<10:15,  2.02it/s] 88%|████████▊ | 9456/10696 [1:44:48<10:15,  2.02it/s] 88%|████████▊ | 9457/10696 [1:44:48<10:14,  2.02it/s] 88%|████████▊ | 9458/10696 [1:44:49<10:14,  2.01it/s] 88%|████████▊ | 9459/10696 [1:44:49<10:13,  2.02it/s] 88%|████████▊ | 9460/10696 [1:44:50<10:13,  2.01it/s] 88%|████████▊ | 9461/10696 [1:44:50<10:13,  2.01it/s] 88%|████████▊ | 9462/10696 [1:44:51<10:12,  2.01it/s] 88%|████████▊ | 9463/10696 [1:44:51<10:12,  2.01it/s] 88%|████████▊ | 9464/10696 [1:44:52<10:11,  2.02it/s] 88%|████████▊ | 9465/10696 [1:44:52<10:11,  2.01it/s] 89%|████████▊ | 9466/10696 [1:44:53<10:09,  2.02it/s] 89%|████████▊ | 9467/10696 [1:44:53<10:10,  2.01it/s] 89%|████████▊ | 9468/10696 [1:44:54<10:09,  2.01it/s] 89%|████████▊ | 9469/10696 [1:44:54<10:09,  2.01it/s] 89%|████████▊ | 9470/10696 [1:44:55<10:08,  2.02it/s] 89%|████████▊ | 9471/10696 [1:44:55<10:08,  2.01it/s] 89%|████████▊ | 9472/10696 [1:44:56<10:07,  2.01it/s] 89%|████████▊ | 9473/10696 [1:44:56<10:07,  2.01it/s] 89%|████████▊ | 9474/10696 [1:44:57<10:06,  2.02it/s] 89%|████████▊ | 9475/10696 [1:44:57<10:06,  2.01it/s]{'loss': 3.609, 'grad_norm': 0.20021380484104156, 'learning_rate': 3.91764181772758e-05, 'epoch': 0.89}                                                      
- 89%|████████▊ | 9475/10696 [1:44:57<10:06,  2.01it/s] 89%|████████▊ | 9476/10696 [1:44:58<10:06,  2.01it/s] 89%|████████▊ | 9477/10696 [1:44:58<10:05,  2.01it/s] 89%|████████▊ | 9478/10696 [1:44:59<10:06,  2.01it/s] 89%|████████▊ | 9479/10696 [1:44:59<10:04,  2.01it/s] 89%|████████▊ | 9480/10696 [1:45:00<10:04,  2.01it/s] 89%|████████▊ | 9481/10696 [1:45:00<10:03,  2.01it/s] 89%|████████▊ | 9482/10696 [1:45:01<10:02,  2.01it/s] 89%|████████▊ | 9483/10696 [1:45:01<10:02,  2.01it/s] 89%|████████▊ | 9484/10696 [1:45:02<10:01,  2.01it/s] 89%|████████▊ | 9485/10696 [1:45:02<10:00,  2.02it/s] 89%|████████▊ | 9486/10696 [1:45:03<10:00,  2.01it/s] 89%|████████▊ | 9487/10696 [1:45:03<09:59,  2.02it/s] 89%|████████▊ | 9488/10696 [1:45:04<10:00,  2.01it/s] 89%|████████▊ | 9489/10696 [1:45:04<09:59,  2.01it/s] 89%|████████▊ | 9490/10696 [1:45:05<09:58,  2.02it/s] 89%|████████▊ | 9491/10696 [1:45:05<09:58,  2.01it/s] 89%|████████▊ | 9492/10696 [1:45:06<09:57,  2.01it/s] 89%|████████▉ | 9493/10696 [1:45:06<09:57,  2.01it/s] 89%|████████▉ | 9494/10696 [1:45:07<09:56,  2.02it/s] 89%|████████▉ | 9495/10696 [1:45:07<09:55,  2.02it/s] 89%|████████▉ | 9496/10696 [1:45:08<09:55,  2.02it/s] 89%|████████▉ | 9497/10696 [1:45:08<09:54,  2.02it/s] 89%|████████▉ | 9498/10696 [1:45:09<09:55,  2.01it/s] 89%|████████▉ | 9499/10696 [1:45:09<09:54,  2.01it/s] 89%|████████▉ | 9500/10696 [1:45:10<09:53,  2.01it/s]                                                      {'loss': 3.5981, 'grad_norm': 0.20616786181926727, 'learning_rate': 3.760878434778148e-05, 'epoch': 0.89}
- 89%|████████▉ | 9500/10696 [1:45:10<09:53,  2.01it/s] 89%|████████▉ | 9501/10696 [1:45:10<09:54,  2.01it/s] 89%|████████▉ | 9502/10696 [1:45:11<09:53,  2.01it/s] 89%|████████▉ | 9503/10696 [1:45:11<09:53,  2.01it/s] 89%|████████▉ | 9504/10696 [1:45:12<09:51,  2.01it/s] 89%|████████▉ | 9505/10696 [1:45:12<09:51,  2.01it/s] 89%|████████▉ | 9506/10696 [1:45:13<09:50,  2.01it/s] 89%|████████▉ | 9507/10696 [1:45:13<09:49,  2.02it/s] 89%|████████▉ | 9508/10696 [1:45:14<09:49,  2.02it/s] 89%|████████▉ | 9509/10696 [1:45:14<09:48,  2.02it/s] 89%|████████▉ | 9510/10696 [1:45:15<09:49,  2.01it/s] 89%|████████▉ | 9511/10696 [1:45:15<09:48,  2.01it/s] 89%|████████▉ | 9512/10696 [1:45:16<09:47,  2.01it/s] 89%|████████▉ | 9513/10696 [1:45:16<09:47,  2.02it/s] 89%|████████▉ | 9514/10696 [1:45:17<09:46,  2.02it/s] 89%|████████▉ | 9515/10696 [1:45:17<09:45,  2.02it/s] 89%|████████▉ | 9516/10696 [1:45:18<09:45,  2.02it/s] 89%|████████▉ | 9517/10696 [1:45:18<09:44,  2.02it/s] 89%|████████▉ | 9518/10696 [1:45:19<09:44,  2.02it/s] 89%|████████▉ | 9519/10696 [1:45:19<09:43,  2.02it/s] 89%|████████▉ | 9520/10696 [1:45:20<09:43,  2.01it/s] 89%|████████▉ | 9521/10696 [1:45:20<09:43,  2.01it/s] 89%|████████▉ | 9522/10696 [1:45:20<09:42,  2.01it/s] 89%|████████▉ | 9523/10696 [1:45:21<09:42,  2.01it/s] 89%|████████▉ | 9524/10696 [1:45:21<09:41,  2.02it/s] 89%|████████▉ | 9525/10696 [1:45:22<09:40,  2.02it/s]{'loss': 3.6125, 'grad_norm': 0.19652938842773438, 'learning_rate': 3.60719324034518e-05, 'epoch': 0.89}                                                      
- 89%|████████▉ | 9525/10696 [1:45:22<09:40,  2.02it/s] 89%|████████▉ | 9526/10696 [1:45:22<09:40,  2.01it/s] 89%|████████▉ | 9527/10696 [1:45:23<09:40,  2.01it/s] 89%|████████▉ | 9528/10696 [1:45:23<09:40,  2.01it/s] 89%|████████▉ | 9529/10696 [1:45:24<09:39,  2.02it/s] 89%|████████▉ | 9530/10696 [1:45:24<09:38,  2.01it/s] 89%|████████▉ | 9531/10696 [1:45:25<09:37,  2.02it/s] 89%|████████▉ | 9532/10696 [1:45:25<09:37,  2.01it/s] 89%|████████▉ | 9533/10696 [1:45:26<09:36,  2.02it/s] 89%|████████▉ | 9534/10696 [1:45:26<09:36,  2.02it/s] 89%|████████▉ | 9535/10696 [1:45:27<09:36,  2.01it/s] 89%|████████▉ | 9536/10696 [1:45:27<09:35,  2.02it/s] 89%|████████▉ | 9537/10696 [1:45:28<09:35,  2.01it/s] 89%|████████▉ | 9538/10696 [1:45:28<09:34,  2.02it/s] 89%|████████▉ | 9539/10696 [1:45:29<09:33,  2.02it/s] 89%|████████▉ | 9540/10696 [1:45:29<09:32,  2.02it/s] 89%|████████▉ | 9541/10696 [1:45:30<09:32,  2.02it/s] 89%|████████▉ | 9542/10696 [1:45:30<09:31,  2.02it/s] 89%|████████▉ | 9543/10696 [1:45:31<09:31,  2.02it/s] 89%|████████▉ | 9544/10696 [1:45:31<09:30,  2.02it/s] 89%|████████▉ | 9545/10696 [1:45:32<09:30,  2.02it/s] 89%|████████▉ | 9546/10696 [1:45:32<09:29,  2.02it/s] 89%|████████▉ | 9547/10696 [1:45:33<09:30,  2.02it/s] 89%|████████▉ | 9548/10696 [1:45:33<09:28,  2.02it/s] 89%|████████▉ | 9549/10696 [1:45:34<09:29,  2.02it/s] 89%|████████▉ | 9550/10696 [1:45:34<09:28,  2.01it/s]{'loss': 3.6135, 'grad_norm': 0.20406295359134674, 'learning_rate': 3.456596465418904e-05, 'epoch': 0.89}
-                                                       89%|████████▉ | 9550/10696 [1:45:34<09:28,  2.01it/s] 89%|████████▉ | 9551/10696 [1:45:35<09:28,  2.01it/s] 89%|████████▉ | 9552/10696 [1:45:35<09:28,  2.01it/s] 89%|████████▉ | 9553/10696 [1:45:36<09:27,  2.01it/s] 89%|████████▉ | 9554/10696 [1:45:36<09:27,  2.01it/s] 89%|████████▉ | 9555/10696 [1:45:37<09:26,  2.01it/s] 89%|████████▉ | 9556/10696 [1:45:37<09:26,  2.01it/s] 89%|████████▉ | 9557/10696 [1:45:38<09:25,  2.01it/s] 89%|████████▉ | 9558/10696 [1:45:38<09:24,  2.02it/s] 89%|████████▉ | 9559/10696 [1:45:39<09:24,  2.01it/s] 89%|████████▉ | 9560/10696 [1:45:39<09:24,  2.01it/s] 89%|████████▉ | 9561/10696 [1:45:40<09:23,  2.01it/s] 89%|████████▉ | 9562/10696 [1:45:40<09:22,  2.02it/s] 89%|████████▉ | 9563/10696 [1:45:41<09:22,  2.01it/s] 89%|████████▉ | 9564/10696 [1:45:41<09:21,  2.02it/s] 89%|████████▉ | 9565/10696 [1:45:42<09:21,  2.01it/s] 89%|████████▉ | 9566/10696 [1:45:42<09:20,  2.02it/s] 89%|████████▉ | 9567/10696 [1:45:43<09:20,  2.02it/s] 89%|████████▉ | 9568/10696 [1:45:43<09:19,  2.02it/s] 89%|████████▉ | 9569/10696 [1:45:44<09:18,  2.02it/s] 89%|████████▉ | 9570/10696 [1:45:44<09:18,  2.01it/s] 89%|████████▉ | 9571/10696 [1:45:45<09:17,  2.02it/s] 89%|████████▉ | 9572/10696 [1:45:45<09:17,  2.02it/s] 90%|████████▉ | 9573/10696 [1:45:46<09:16,  2.02it/s] 90%|████████▉ | 9574/10696 [1:45:46<09:16,  2.02it/s] 90%|████████▉ | 9575/10696 [1:45:47<09:16,  2.02it/s]                                                      {'loss': 3.6099, 'grad_norm': 0.20166268944740295, 'learning_rate': 3.309098135390109e-05, 'epoch': 0.9}
- 90%|████████▉ | 9575/10696 [1:45:47<09:16,  2.02it/s] 90%|████████▉ | 9576/10696 [1:45:47<09:16,  2.01it/s] 90%|████████▉ | 9577/10696 [1:45:48<09:16,  2.01it/s] 90%|████████▉ | 9578/10696 [1:45:48<09:15,  2.01it/s] 90%|████████▉ | 9579/10696 [1:45:49<09:15,  2.01it/s] 90%|████████▉ | 9580/10696 [1:45:49<09:14,  2.01it/s] 90%|████████▉ | 9581/10696 [1:45:50<09:13,  2.01it/s] 90%|████████▉ | 9582/10696 [1:45:50<09:13,  2.01it/s] 90%|████████▉ | 9583/10696 [1:45:51<09:12,  2.02it/s] 90%|████████▉ | 9584/10696 [1:45:51<09:11,  2.02it/s] 90%|████████▉ | 9585/10696 [1:45:52<09:11,  2.02it/s] 90%|████████▉ | 9586/10696 [1:45:52<09:10,  2.01it/s] 90%|████████▉ | 9587/10696 [1:45:53<09:10,  2.02it/s] 90%|████████▉ | 9588/10696 [1:45:53<09:09,  2.02it/s] 90%|████████▉ | 9589/10696 [1:45:54<09:09,  2.02it/s] 90%|████████▉ | 9590/10696 [1:45:54<09:08,  2.02it/s] 90%|████████▉ | 9591/10696 [1:45:55<09:08,  2.02it/s] 90%|████████▉ | 9592/10696 [1:45:55<09:07,  2.02it/s] 90%|████████▉ | 9593/10696 [1:45:56<09:07,  2.02it/s] 90%|████████▉ | 9594/10696 [1:45:56<09:06,  2.02it/s] 90%|████████▉ | 9595/10696 [1:45:57<09:06,  2.02it/s] 90%|████████▉ | 9596/10696 [1:45:57<09:05,  2.02it/s] 90%|████████▉ | 9597/10696 [1:45:58<09:04,  2.02it/s] 90%|████████▉ | 9598/10696 [1:45:58<09:04,  2.02it/s] 90%|████████▉ | 9599/10696 [1:45:59<09:04,  2.02it/s] 90%|████████▉ | 9600/10696 [1:45:59<09:03,  2.01it/s]{'loss': 3.6062, 'grad_norm': 0.2013302594423294, 'learning_rate': 3.164708069382749e-05, 'epoch': 0.9}
-                                                       90%|████████▉ | 9600/10696 [1:45:59<09:03,  2.01it/s] 90%|████████▉ | 9601/10696 [1:46:00<09:04,  2.01it/s] 90%|████████▉ | 9602/10696 [1:46:00<09:03,  2.01it/s] 90%|████████▉ | 9603/10696 [1:46:01<09:02,  2.01it/s] 90%|████████▉ | 9604/10696 [1:46:01<09:02,  2.01it/s] 90%|████████▉ | 9605/10696 [1:46:02<09:01,  2.01it/s] 90%|████████▉ | 9606/10696 [1:46:02<09:01,  2.01it/s] 90%|██���█████▉ | 9607/10696 [1:46:03<09:00,  2.02it/s] 90%|████████▉ | 9608/10696 [1:46:03<09:00,  2.01it/s] 90%|████████▉ | 9609/10696 [1:46:04<08:58,  2.02it/s] 90%|████████▉ | 9610/10696 [1:46:04<08:59,  2.01it/s] 90%|████████▉ | 9611/10696 [1:46:05<08:58,  2.02it/s] 90%|████████▉ | 9612/10696 [1:46:05<08:57,  2.02it/s] 90%|████████▉ | 9613/10696 [1:46:06<08:57,  2.02it/s] 90%|████████▉ | 9614/10696 [1:46:06<08:56,  2.02it/s] 90%|████████▉ | 9615/10696 [1:46:07<08:56,  2.01it/s] 90%|████████▉ | 9616/10696 [1:46:07<08:56,  2.01it/s] 90%|████████▉ | 9617/10696 [1:46:08<08:55,  2.02it/s] 90%|████████▉ | 9618/10696 [1:46:08<08:55,  2.01it/s] 90%|████████▉ | 9619/10696 [1:46:09<08:54,  2.02it/s] 90%|████████▉ | 9620/10696 [1:46:09<08:53,  2.02it/s] 90%|████████▉ | 9621/10696 [1:46:10<08:52,  2.02it/s] 90%|████████▉ | 9622/10696 [1:46:10<08:52,  2.02it/s] 90%|████████▉ | 9623/10696 [1:46:11<08:51,  2.02it/s] 90%|████████▉ | 9624/10696 [1:46:11<08:51,  2.02it/s] 90%|████████▉ | 9625/10696 [1:46:12<08:50,  2.02it/s]                                                      {'loss': 3.6122, 'grad_norm': 0.197072833776474, 'learning_rate': 3.0234358796002392e-05, 'epoch': 0.9}
- 90%|████████▉ | 9625/10696 [1:46:12<08:50,  2.02it/s] 90%|████████▉ | 9626/10696 [1:46:12<08:50,  2.02it/s] 90%|█████████ | 9627/10696 [1:46:13<08:50,  2.01it/s] 90%|█████████ | 9628/10696 [1:46:13<08:49,  2.02it/s] 90%|█████████ | 9629/10696 [1:46:14<08:49,  2.01it/s] 90%|█████████ | 9630/10696 [1:46:14<08:48,  2.02it/s] 90%|█████████ | 9631/10696 [1:46:15<08:48,  2.01it/s] 90%|█████████ | 9632/10696 [1:46:15<08:48,  2.01it/s] 90%|█████████ | 9633/10696 [1:46:16<08:47,  2.02it/s] 90%|█████████ | 9634/10696 [1:46:16<08:46,  2.02it/s] 90%|█████████ | 9635/10696 [1:46:17<08:45,  2.02it/s] 90%|█████████ | 9636/10696 [1:46:17<08:46,  2.02it/s] 90%|█████████ | 9637/10696 [1:46:18<08:44,  2.02it/s] 90%|█████████ | 9638/10696 [1:46:18<08:45,  2.01it/s] 90%|█████████ | 9639/10696 [1:46:19<08:44,  2.02it/s] 90%|█████████ | 9640/10696 [1:46:19<08:44,  2.02it/s] 90%|█████████ | 9641/10696 [1:46:20<08:43,  2.02it/s] 90%|█████████ | 9642/10696 [1:46:20<08:42,  2.02it/s] 90%|█████████ | 9643/10696 [1:46:21<08:42,  2.02it/s] 90%|█████████ | 9644/10696 [1:46:21<08:41,  2.02it/s] 90%|█████████ | 9645/10696 [1:46:22<08:41,  2.01it/s] 90%|█████████ | 9646/10696 [1:46:22<08:40,  2.02it/s] 90%|█████████ | 9647/10696 [1:46:23<08:40,  2.01it/s] 90%|█████████ | 9648/10696 [1:46:23<08:40,  2.01it/s] 90%|█████████ | 9649/10696 [1:46:24<08:39,  2.02it/s] 90%|█████████ | 9650/10696 [1:46:24<08:39,  2.01it/s]{'loss': 3.6135, 'grad_norm': 0.20050783455371857, 'learning_rate': 2.885290970685611e-05, 'epoch': 0.9}
-                                                       90%|█████████ | 9650/10696 [1:46:24<08:39,  2.01it/s] 90%|█████████ | 9651/10696 [1:46:25<08:39,  2.01it/s] 90%|█████████ | 9652/10696 [1:46:25<10:05,  1.72it/s] 90%|█████████ | 9653/10696 [1:46:26<09:38,  1.80it/s] 90%|█████████ | 9654/10696 [1:46:26<09:19,  1.86it/s] 90%|█████████ | 9655/10696 [1:46:27<09:05,  1.91it/s] 90%|█████████ | 9656/10696 [1:46:27<08:56,  1.94it/s] 90%|█████████ | 9657/10696 [1:46:28<08:49,  1.96it/s] 90%|█████████ | 9658/10696 [1:46:28<08:45,  1.98it/s] 90%|█████████ | 9659/10696 [1:46:29<08:41,  1.99it/s] 90%|█████████ | 9660/10696 [1:46:29<08:39,  2.00it/s] 90%|█████████ | 9661/10696 [1:46:30<08:36,  2.00it/s] 90%|█████████ | 9662/10696 [1:46:30<08:35,  2.01it/s] 90%|█████████ | 9663/10696 [1:46:31<08:34,  2.01it/s] 90%|█████████ | 9664/10696 [1:46:31<08:32,  2.01it/s] 90%|█████████ | 9665/10696 [1:46:32<08:31,  2.01it/s] 90%|█████████ | 9666/10696 [1:46:32<08:31,  2.01it/s] 90%|█████████ | 9667/10696 [1:46:33<08:31,  2.01it/s] 90%|█████████ | 9668/10696 [1:46:33<08:30,  2.01it/s] 90%|█████████ | 9669/10696 [1:46:34<08:30,  2.01it/s] 90%|█████████ | 9670/10696 [1:46:34<08:29,  2.01it/s] 90%|█████████ | 9671/10696 [1:46:35<08:28,  2.02it/s] 90%|█████████ | 9672/10696 [1:46:35<08:27,  2.02it/s] 90%|█████████ | 9673/10696 [1:46:36<08:26,  2.02it/s] 90%|█████████ | 9674/10696 [1:46:36<08:26,  2.02it/s] 90%|█████████ | 9675/10696 [1:46:37<08:26,  2.02it/s]{'loss': 3.6153, 'grad_norm': 0.1988074630498886, 'learning_rate': 2.7502825390954222e-05, 'epoch': 0.9}                                                      
- 90%|█████████ | 9675/10696 [1:46:37<08:26,  2.02it/s] 90%|█████████ | 9676/10696 [1:46:37<08:28,  2.01it/s] 90%|█████████ | 9677/10696 [1:46:38<08:27,  2.01it/s] 90%|█████████ | 9678/10696 [1:46:38<08:25,  2.01it/s] 90%|█████████ | 9679/10696 [1:46:39<08:25,  2.01it/s] 91%|█████████ | 9680/10696 [1:46:39<08:25,  2.01it/s] 91%|█████████ | 9681/10696 [1:46:40<08:24,  2.01it/s] 91%|█████████ | 9682/10696 [1:46:40<08:23,  2.01it/s] 91%|█████████ | 9683/10696 [1:46:41<08:22,  2.01it/s] 91%|█████████ | 9684/10696 [1:46:41<08:21,  2.02it/s] 91%|█████████ | 9685/10696 [1:46:42<08:21,  2.02it/s] 91%|█████████ | 9686/10696 [1:46:42<08:20,  2.02it/s] 91%|█████████ | 9687/10696 [1:46:43<08:20,  2.02it/s] 91%|█████████ | 9688/10696 [1:46:43<08:20,  2.02it/s] 91%|█████████ | 9689/10696 [1:46:44<08:19,  2.02it/s] 91%|█████████ | 9690/10696 [1:46:44<08:18,  2.02it/s] 91%|█████████ | 9691/10696 [1:46:45<08:18,  2.02it/s] 91%|█████████ | 9692/10696 [1:46:45<08:17,  2.02it/s] 91%|█████████ | 9693/10696 [1:46:46<08:16,  2.02it/s] 91%|█████████ | 9694/10696 [1:46:46<09:36,  1.74it/s] 91%|█████████ | 9695/10696 [1:46:47<09:11,  1.81it/s] 91%|█████████ | 9696/10696 [1:46:47<08:54,  1.87it/s] 91%|█████████ | 9697/10696 [1:46:48<08:42,  1.91it/s] 91%|█████████ | 9698/10696 [1:46:48<08:34,  1.94it/s] 91%|█████████ | 9699/10696 [1:46:49<08:27,  1.96it/s] 91%|█████████ | 9700/10696 [1:46:49<08:23,  1.98it/s]                                                      {'loss': 3.6095, 'grad_norm': 0.2004021555185318, 'learning_rate': 2.618419572487507e-05, 'epoch': 0.91}
- 91%|█████████ | 9700/10696 [1:46:49<08:23,  1.98it/s] 91%|█████████ | 9701/10696 [1:46:50<08:20,  1.99it/s] 91%|█████████ | 9702/10696 [1:46:50<08:18,  1.99it/s] 91%|█████████ | 9703/10696 [1:46:51<08:16,  2.00it/s] 91%|█████████ | 9704/10696 [1:46:51<08:14,  2.00it/s] 91%|█████████ | 9705/10696 [1:46:52<08:14,  2.00it/s] 91%|█████████ | 9706/10696 [1:46:52<08:12,  2.01it/s] 91%|█████████ | 9707/10696 [1:46:53<08:11,  2.01it/s] 91%|█████████ | 9708/10696 [1:46:53<08:11,  2.01it/s] 91%|█████████ | 9709/10696 [1:46:54<08:10,  2.01it/s] 91%|█████████ | 9710/10696 [1:46:54<08:09,  2.01it/s] 91%|█████████ | 9711/10696 [1:46:55<08:08,  2.02it/s] 91%|█████████ | 9712/10696 [1:46:55<08:08,  2.02it/s] 91%|█████████ | 9713/10696 [1:46:56<08:07,  2.02it/s] 91%|█████████ | 9714/10696 [1:46:56<08:07,  2.01it/s] 91%|█████████ | 9715/10696 [1:46:57<08:06,  2.01it/s] 91%|█████████ | 9716/10696 [1:46:57<08:06,  2.01it/s] 91%|█████████ | 9717/10696 [1:46:58<08:06,  2.01it/s] 91%|█████████ | 9718/10696 [1:46:58<08:05,  2.01it/s] 91%|█████████ | 9719/10696 [1:46:59<08:05,  2.01it/s] 91%|█████████ | 9720/10696 [1:46:59<08:04,  2.02it/s] 91%|█████████ | 9721/10696 [1:47:00<08:04,  2.01it/s] 91%|█████████ | 9722/10696 [1:47:00<08:02,  2.02it/s] 91%|█████████ | 9723/10696 [1:47:01<08:03,  2.01it/s] 91%|█████████ | 9724/10696 [1:47:01<08:02,  2.02it/s] 91%|█████████ | 9725/10696 [1:47:02<08:01,  2.01it/s]                                                      {'loss': 3.6146, 'grad_norm': 0.20714204013347626, 'learning_rate': 2.4897108491227004e-05, 'epoch': 0.91}
- 91%|█████████ | 9725/10696 [1:47:02<08:01,  2.01it/s] 91%|█████████ | 9726/10696 [1:47:02<08:02,  2.01it/s] 91%|█████████ | 9727/10696 [1:47:03<08:01,  2.01it/s] 91%|█████████ | 9728/10696 [1:47:03<08:00,  2.01it/s] 91%|█████████ | 9729/10696 [1:47:04<07:59,  2.01it/s] 91%|█████████ | 9730/10696 [1:47:04<08:00,  2.01it/s] 91%|██████���██ | 9731/10696 [1:47:05<07:59,  2.01it/s] 91%|█████████ | 9732/10696 [1:47:05<07:58,  2.01it/s] 91%|█████████ | 9733/10696 [1:47:06<07:58,  2.01it/s] 91%|█████████ | 9734/10696 [1:47:06<07:57,  2.01it/s] 91%|█████████ | 9735/10696 [1:47:07<07:57,  2.01it/s] 91%|█████████ | 9736/10696 [1:47:07<07:56,  2.02it/s] 91%|█████████ | 9737/10696 [1:47:08<07:56,  2.01it/s] 91%|█████████ | 9738/10696 [1:47:08<07:55,  2.01it/s] 91%|█████████ | 9739/10696 [1:47:09<07:55,  2.01it/s] 91%|█████████ | 9740/10696 [1:47:09<07:54,  2.01it/s] 91%|█████████ | 9741/10696 [1:47:10<07:54,  2.01it/s] 91%|█████████ | 9742/10696 [1:47:10<07:53,  2.02it/s] 91%|█████████ | 9743/10696 [1:47:11<07:52,  2.02it/s] 91%|█████████ | 9744/10696 [1:47:11<07:51,  2.02it/s] 91%|█████████ | 9745/10696 [1:47:12<07:52,  2.01it/s] 91%|█████████ | 9746/10696 [1:47:12<07:51,  2.02it/s] 91%|█████████ | 9747/10696 [1:47:13<07:51,  2.01it/s] 91%|█████████ | 9748/10696 [1:47:13<07:49,  2.02it/s] 91%|█████████ | 9749/10696 [1:47:14<07:50,  2.01it/s] 91%|█████████ | 9750/10696 [1:47:14<07:50,  2.01it/s]{'loss': 3.6012, 'grad_norm': 0.19493255019187927, 'learning_rate': 2.364164937280433e-05, 'epoch': 0.91}
-                                                       91%|█████████ | 9750/10696 [1:47:14<07:50,  2.01it/s] 91%|█████████ | 9751/10696 [1:47:15<07:49,  2.01it/s] 91%|█████████ | 9752/10696 [1:47:15<07:48,  2.01it/s] 91%|█████████ | 9753/10696 [1:47:16<07:48,  2.01it/s] 91%|█████████ | 9754/10696 [1:47:16<07:48,  2.01it/s] 91%|█████████ | 9755/10696 [1:47:17<07:47,  2.01it/s] 91%|█████████ | 9756/10696 [1:47:17<07:46,  2.02it/s] 91%|█████████ | 9757/10696 [1:47:18<07:46,  2.01it/s] 91%|█████████ | 9758/10696 [1:47:18<07:45,  2.02it/s] 91%|█████████ | 9759/10696 [1:47:19<07:44,  2.02it/s] 91%|█████████ | 9760/10696 [1:47:19<07:44,  2.02it/s] 91%|█████████▏| 9761/10696 [1:47:20<07:43,  2.02it/s] 91%|█████████▏| 9762/10696 [1:47:20<07:43,  2.02it/s] 91%|█████████▏| 9763/10696 [1:47:21<07:43,  2.01it/s] 91%|█████████▏| 9764/10696 [1:47:21<07:42,  2.01it/s] 91%|█████████▏| 9765/10696 [1:47:22<07:42,  2.01it/s] 91%|█████████▏| 9766/10696 [1:47:22<07:41,  2.02it/s] 91%|█████████▏| 9767/10696 [1:47:23<07:41,  2.01it/s] 91%|█████████▏| 9768/10696 [1:47:23<07:40,  2.02it/s] 91%|█████████▏| 9769/10696 [1:47:24<07:39,  2.02it/s] 91%|█████████▏| 9770/10696 [1:47:24<07:39,  2.01it/s] 91%|█████████▏| 9771/10696 [1:47:25<07:39,  2.01it/s] 91%|█████████▏| 9772/10696 [1:47:25<07:38,  2.02it/s] 91%|█████████▏| 9773/10696 [1:47:26<07:37,  2.02it/s] 91%|█████████▏| 9774/10696 [1:47:26<07:37,  2.01it/s] 91%|█████████▏| 9775/10696 [1:47:27<07:37,  2.02it/s]{'loss': 3.6065, 'grad_norm': 0.1961304396390915, 'learning_rate': 2.2417901946883424e-05, 'epoch': 0.91}
-                                                       91%|█████████▏| 9775/10696 [1:47:27<07:37,  2.02it/s] 91%|█████████▏| 9776/10696 [1:47:27<07:37,  2.01it/s] 91%|█████████▏| 9777/10696 [1:47:28<07:36,  2.01it/s] 91%|█████████▏| 9778/10696 [1:47:28<07:35,  2.02it/s] 91%|█████████▏| 9779/10696 [1:47:29<07:35,  2.01it/s] 91%|█████████▏| 9780/10696 [1:47:29<07:34,  2.02it/s] 91%|█████████▏| 9781/10696 [1:47:30<07:34,  2.01it/s] 91%|█████████▏| 9782/10696 [1:47:30<07:33,  2.02it/s] 91%|█████████▏| 9783/10696 [1:47:31<07:32,  2.02it/s] 91%|█████████▏| 9784/10696 [1:47:31<07:32,  2.02it/s] 91%|█████████▏| 9785/10696 [1:47:32<07:31,  2.02it/s] 91%|█████████▏| 9786/10696 [1:47:32<07:31,  2.01it/s] 92%|█████████▏| 9787/10696 [1:47:33<07:30,  2.02it/s] 92%|█████████▏| 9788/10696 [1:47:33<07:30,  2.01it/s] 92%|█████████▏| 9789/10696 [1:47:34<07:30,  2.02it/s] 92%|█████████▏| 9790/10696 [1:47:34<07:29,  2.01it/s] 92%|█████████▏| 9791/10696 [1:47:35<07:28,  2.02it/s] 92%|█████████▏| 9792/10696 [1:47:35<07:28,  2.01it/s] 92%|█████████▏| 9793/10696 [1:47:36<07:28,  2.01it/s] 92%|█████████▏| 9794/10696 [1:47:36<07:27,  2.02it/s] 92%|█████████▏| 9795/10696 [1:47:37<07:27,  2.01it/s] 92%|█████████▏| 9796/10696 [1:47:37<07:26,  2.01it/s] 92%|█████████▏| 9797/10696 [1:47:38<07:26,  2.01it/s] 92%|█████████▏| 9798/10696 [1:47:38<07:25,  2.02it/s] 92%|█████████▏| 9799/10696 [1:47:39<07:24,  2.02it/s] 92%|█████████▏| 9800/10696 [1:47:39<07:24,  2.02it/s]                                                      {'loss': 3.6116, 'grad_norm': 0.1958046555519104, 'learning_rate': 2.1225947679658798e-05, 'epoch': 0.92}
- 92%|█████████▏| 9800/10696 [1:47:39<07:24,  2.02it/s] 92%|█████████▏| 9801/10696 [1:47:39<07:24,  2.01it/s] 92%|█████████▏| 9802/10696 [1:47:40<07:24,  2.01it/s] 92%|█████████▏| 9803/10696 [1:47:40<07:23,  2.01it/s] 92%|█████████▏| 9804/10696 [1:47:41<07:22,  2.01it/s] 92%|█████████▏| 9805/10696 [1:47:41<07:22,  2.01it/s] 92%|█████████▏| 9806/10696 [1:47:42<07:21,  2.01it/s] 92%|█████████▏| 9807/10696 [1:47:42<07:21,  2.01it/s] 92%|█████████▏| 9808/10696 [1:47:43<07:20,  2.01it/s] 92%|█████████▏| 9809/10696 [1:47:43<07:20,  2.01it/s] 92%|█████████▏| 9810/10696 [1:47:44<07:20,  2.01it/s] 92%|█████████▏| 9811/10696 [1:47:44<07:19,  2.01it/s] 92%|█████████▏| 9812/10696 [1:47:45<07:19,  2.01it/s] 92%|█████████▏| 9813/10696 [1:47:45<07:18,  2.01it/s] 92%|█████████▏| 9814/10696 [1:47:46<07:17,  2.01it/s] 92%|█████████▏| 9815/10696 [1:47:46<07:17,  2.02it/s] 92%|█████████▏| 9816/10696 [1:47:47<07:16,  2.02it/s] 92%|█████████▏| 9817/10696 [1:47:47<07:16,  2.02it/s] 92%|█████████▏| 9818/10696 [1:47:48<07:15,  2.02it/s] 92%|█████████▏| 9819/10696 [1:47:48<07:15,  2.01it/s] 92%|█████████▏| 9820/10696 [1:47:49<07:14,  2.01it/s] 92%|█████████▏| 9821/10696 [1:47:49<07:14,  2.02it/s] 92%|█████████▏| 9822/10696 [1:47:50<07:14,  2.01it/s] 92%|█████████▏| 9823/10696 [1:47:50<07:13,  2.01it/s] 92%|█████████▏| 9824/10696 [1:47:51<07:12,  2.01it/s] 92%|█████████▏| 9825/10696 [1:47:51<07:12,  2.01it/s]                                                      {'loss': 3.6024, 'grad_norm': 0.1982419490814209, 'learning_rate': 2.0065865920819825e-05, 'epoch': 0.92}
- 92%|█████████▏| 9825/10696 [1:47:51<07:12,  2.01it/s] 92%|█████████▏| 9826/10696 [1:47:52<07:12,  2.01it/s] 92%|█████████▏| 9827/10696 [1:47:52<07:12,  2.01it/s] 92%|█████████▏| 9828/10696 [1:47:53<07:11,  2.01it/s] 92%|█████████▏| 9829/10696 [1:47:53<07:10,  2.01it/s] 92%|█████████▏| 9830/10696 [1:47:54<07:09,  2.02it/s] 92%|█████████▏| 9831/10696 [1:47:54<07:09,  2.02it/s] 92%|█████████▏| 9832/10696 [1:47:55<07:08,  2.02it/s] 92%|█████████▏| 9833/10696 [1:47:55<07:08,  2.02it/s] 92%|█████████▏| 9834/10696 [1:47:56<07:08,  2.01it/s] 92%|█████████▏| 9835/10696 [1:47:56<07:07,  2.02it/s] 92%|█████████▏| 9836/10696 [1:47:57<07:06,  2.01it/s] 92%|█████████▏| 9837/10696 [1:47:57<07:05,  2.02it/s] 92%|█████████▏| 9838/10696 [1:47:58<07:05,  2.01it/s] 92%|█████████▏| 9839/10696 [1:47:58<07:05,  2.01it/s] 92%|█████████▏| 9840/10696 [1:47:59<07:04,  2.01it/s] 92%|█████████▏| 9841/10696 [1:47:59<07:04,  2.01it/s] 92%|█████████▏| 9842/10696 [1:48:00<07:03,  2.01it/s] 92%|█████████▏| 9843/10696 [1:48:00<07:03,  2.01it/s] 92%|█████████▏| 9844/10696 [1:48:01<07:03,  2.01it/s] 92%|█████████▏| 9845/10696 [1:48:01<07:02,  2.01it/s] 92%|█████████▏| 9846/10696 [1:48:02<07:01,  2.02it/s] 92%|█████████▏| 9847/10696 [1:48:02<07:01,  2.01it/s] 92%|█████████▏| 9848/10696 [1:48:03<07:00,  2.01it/s] 92%|█████████▏| 9849/10696 [1:48:03<07:00,  2.02it/s] 92%|█████████▏| 9850/10696 [1:48:04<07:00,  2.01it/s]{'loss': 3.6017, 'grad_norm': 0.20141735672950745, 'learning_rate': 1.8937733898268693e-05, 'epoch': 0.92}
-                                                       92%|█████████▏| 9850/10696 [1:48:04<07:00,  2.01it/s] 92%|█████████▏| 9851/10696 [1:48:04<06:59,  2.01it/s] 92%|█████████▏| 9852/10696 [1:48:05<06:59,  2.01it/s] 92%|█████████▏| 9853/10696 [1:48:05<06:58,  2.01it/s] 92%|█████████▏| 9854/10696 [1:48:06<06:57,  2.01it/s] 92%|█████████▏| 9855/10696 [1:48:06<06:57,  2.01it/s] 92%|█████████▏| 9856/10696 [1:48:07<06:56,  2.01it/s] 92%|█████████▏| 9857/10696 [1:48:07<06:56,  2.01it/s] 92%|█████████▏| 9858/10696 [1:48:08<06:56,  2.01it/s] 92%|█████████▏| 9859/10696 [1:48:08<06:55,  2.01it/s] 92%|█████████▏| 9860/10696 [1:48:09<06:55,  2.01it/s] 92%|█████████▏| 9861/10696 [1:48:09<06:54,  2.01it/s] 92%|█████████▏| 9862/10696 [1:48:10<06:54,  2.01it/s] 92%|█████████▏| 9863/10696 [1:48:10<06:53,  2.01it/s] 92%|█████████▏| 9864/10696 [1:48:11<06:53,  2.01it/s] 92%|█████████▏| 9865/10696 [1:48:11<06:52,  2.01it/s] 92%|█████████▏| 9866/10696 [1:48:12<06:52,  2.01it/s] 92%|█████████▏| 9867/10696 [1:48:12<06:51,  2.01it/s] 92%|█████████▏| 9868/10696 [1:48:13<06:50,  2.02it/s] 92%|█████████▏| 9869/10696 [1:48:13<06:50,  2.01it/s] 92%|█████████▏| 9870/10696 [1:48:14<06:49,  2.02it/s] 92%|█████████▏| 9871/10696 [1:48:14<06:49,  2.01it/s] 92%|█████████▏| 9872/10696 [1:48:15<06:48,  2.02it/s] 92%|█████████▏| 9873/10696 [1:48:15<06:48,  2.01it/s] 92%|█████████▏| 9874/10696 [1:48:16<06:48,  2.01it/s] 92%|█████████▏| 9875/10696 [1:48:16<06:47,  2.01it/s]{'loss': 3.6019, 'grad_norm': 0.20275738835334778, 'learning_rate': 1.7841626712978677e-05, 'epoch': 0.92}
-                                                       92%|█████████▏| 9875/10696 [1:48:16<06:47,  2.01it/s] 92%|█████████▏| 9876/10696 [1:48:17<06:47,  2.01it/s] 92%|█████████▏| 9877/10696 [1:48:17<06:46,  2.01it/s] 92%|█████████▏| 9878/10696 [1:48:18<06:45,  2.02it/s] 92%|█████████▏| 9879/10696 [1:48:18<06:45,  2.01it/s] 92%|█████████▏| 9880/10696 [1:48:19<06:45,  2.01it/s] 92%|█████████▏| 9881/10696 [1:48:19<06:44,  2.01it/s] 92%|█████████▏| 9882/10696 [1:48:20<06:44,  2.01it/s] 92%|█████████▏| 9883/10696 [1:48:20<06:43,  2.01it/s] 92%|█████████▏| 9884/10696 [1:48:21<06:43,  2.01it/s] 92%|█████████▏| 9885/10696 [1:48:21<06:43,  2.01it/s] 92%|█████████▏| 9886/10696 [1:48:22<06:42,  2.01it/s] 92%|█████████▏| 9887/10696 [1:48:22<06:41,  2.01it/s] 92%|█████████▏| 9888/10696 [1:48:23<06:41,  2.01it/s] 92%|█████████▏| 9889/10696 [1:48:23<06:40,  2.01it/s] 92%|█████████▏| 9890/10696 [1:48:24<06:40,  2.01it/s] 92%|█████████▏| 9891/10696 [1:48:24<06:39,  2.02it/s] 92%|█████████▏| 9892/10696 [1:48:25<06:39,  2.01it/s] 92%|█████████▏| 9893/10696 [1:48:25<06:38,  2.02it/s] 93%|█████████▎| 9894/10696 [1:48:26<06:37,  2.02it/s] 93%|█████████▎| 9895/10696 [1:48:26<06:36,  2.02it/s] 93%|█████████▎| 9896/10696 [1:48:27<06:36,  2.02it/s] 93%|█████████▎| 9897/10696 [1:48:27<06:36,  2.01it/s] 93%|█████████▎| 9898/10696 [1:48:28<06:35,  2.02it/s] 93%|█████████▎| 9899/10696 [1:48:28<06:35,  2.01it/s] 93%|█████████▎| 9900/10696 [1:48:29<06:34,  2.02it/s]{'loss': 3.6114, 'grad_norm': 0.19685718417167664, 'learning_rate': 1.6777617333994964e-05, 'epoch': 0.93}
-                                                       93%|█████████▎| 9900/10696 [1:48:29<06:34,  2.02it/s] 93%|█████████▎| 9901/10696 [1:48:29<06:35,  2.01it/s] 93%|█████████▎| 9902/10696 [1:48:30<06:34,  2.01it/s] 93%|█████████▎| 9903/10696 [1:48:30<06:34,  2.01it/s] 93%|█████████▎| 9904/10696 [1:48:31<06:33,  2.01it/s] 93%|█████████▎| 9905/10696 [1:48:31<06:32,  2.01it/s] 93%|█████████▎| 9906/10696 [1:48:32<06:32,  2.01it/s] 93%|█████████▎| 9907/10696 [1:48:32<06:31,  2.01it/s] 93%|█████████▎| 9908/10696 [1:48:33<06:31,  2.01it/s] 93%|█████████▎| 9909/10696 [1:48:33<06:30,  2.01it/s] 93%|█████████▎| 9910/10696 [1:48:34<06:30,  2.01it/s] 93%|█████████▎| 9911/10696 [1:48:34<06:29,  2.01it/s] 93%|█████████▎| 9912/10696 [1:48:35<06:29,  2.02it/s] 93%|█████████▎| 9913/10696 [1:48:35<06:28,  2.01it/s] 93%|█████████▎| 9914/10696 [1:48:36<06:28,  2.01it/s] 93%|█████████▎| 9915/10696 [1:48:36<06:28,  2.01it/s] 93%|█████████▎| 9916/10696 [1:48:37<06:27,  2.01it/s] 93%|█████████▎| 9917/10696 [1:48:37<06:26,  2.02it/s] 93%|█████████▎| 9918/10696 [1:48:38<06:26,  2.01it/s] 93%|█████████▎| 9919/10696 [1:48:38<06:25,  2.02it/s] 93%|█████████▎| 9920/10696 [1:48:39<06:25,  2.01it/s] 93%|█████████▎| 9921/10696 [1:48:39<06:24,  2.01it/s] 93%|█████████▎| 9922/10696 [1:48:40<06:24,  2.01it/s] 93%|█████████▎| 9923/10696 [1:48:40<06:23,  2.02it/s] 93%|█████████▎| 9924/10696 [1:48:41<06:22,  2.02it/s] 93%|█████████▎| 9925/10696 [1:48:41<06:22,  2.02it/s]{'loss': 3.6078, 'grad_norm': 0.19925819337368011, 'learning_rate': 1.5745776593576842e-05, 'epoch': 0.93}
-                                                       93%|█████████▎| 9925/10696 [1:48:41<06:22,  2.02it/s] 93%|█████████▎| 9926/10696 [1:48:42<06:22,  2.01it/s] 93%|█████████▎| 9927/10696 [1:48:42<06:21,  2.01it/s] 93%|█████████▎| 9928/10696 [1:48:43<06:21,  2.01it/s] 93%|█████████▎| 9929/10696 [1:48:43<06:20,  2.01it/s] 93%|█████████▎| 9930/10696 [1:48:44<06:20,  2.02it/s] 93%|█████████▎| 9931/10696 [1:48:44<06:19,  2.02it/s] 93%|█████████▎| 9932/10696 [1:48:45<06:19,  2.01it/s] 93%|█████████▎| 9933/10696 [1:48:45<06:18,  2.01it/s] 93%|█████████▎| 9934/10696 [1:48:46<06:18,  2.01it/s] 93%|█████████▎| 9935/10696 [1:48:46<06:17,  2.02it/s] 93%|█████████▎| 9936/10696 [1:48:47<06:17,  2.01it/s] 93%|█████████▎| 9937/10696 [1:48:47<06:16,  2.01it/s] 93%|█████████▎| 9938/10696 [1:48:48<06:16,  2.01it/s] 93%|█████████▎| 9939/10696 [1:48:48<06:15,  2.01it/s] 93%|█████████▎| 9940/10696 [1:48:49<06:14,  2.02it/s] 93%|█████████▎| 9941/10696 [1:48:49<06:14,  2.02it/s] 93%|█████████▎| 9942/10696 [1:48:49<06:13,  2.02it/s] 93%|█████████▎| 9943/10696 [1:48:50<06:14,  2.01it/s] 93%|█████████▎| 9944/10696 [1:48:50<06:13,  2.01it/s] 93%|█████████▎| 9945/10696 [1:48:51<06:12,  2.01it/s] 93%|█████████▎| 9946/10696 [1:48:51<06:12,  2.01it/s] 93%|█████████▎| 9947/10696 [1:48:52<06:11,  2.02it/s] 93%|█████████▎| 9948/10696 [1:48:52<06:11,  2.01it/s] 93%|█████████▎| 9949/10696 [1:48:53<06:10,  2.02it/s] 93%|█████████▎| 9950/10696 [1:48:53<06:10,  2.02it/s]                                                      {'loss': 3.6127, 'grad_norm': 0.1987472027540207, 'learning_rate': 1.4746173182482558e-05, 'epoch': 0.93}
- 93%|█████████▎| 9950/10696 [1:48:53<06:10,  2.02it/s] 93%|█████████▎| 9951/10696 [1:48:54<06:09,  2.01it/s] 93%|█████████▎| 9952/10696 [1:48:54<06:09,  2.01it/s] 93%|█████████▎| 9953/10696 [1:48:55<06:08,  2.01it/s] 93%|█████████▎| 9954/10696 [1:48:55<06:08,  2.01it/s] 93%|█████████▎| 9955/10696 [1:48:56<06:07,  2.01it/s] 93%|█████████▎| 9956/10696 [1:48:56<06:07,  2.02it/s] 93%|█████████▎| 9957/10696 [1:48:57<06:06,  2.01it/s] 93%|█████████▎| 9958/10696 [1:48:57<06:06,  2.02it/s] 93%|█████████▎| 9959/10696 [1:48:58<06:05,  2.02it/s] 93%|█████████▎| 9960/10696 [1:48:58<06:04,  2.02it/s] 93%|█████████▎| 9961/10696 [1:48:59<06:04,  2.01it/s] 93%|█████████▎| 9962/10696 [1:48:59<06:04,  2.01it/s] 93%|█████████▎| 9963/10696 [1:49:00<06:03,  2.02it/s] 93%|█████████▎| 9964/10696 [1:49:00<06:03,  2.02it/s] 93%|█████████▎| 9965/10696 [1:49:01<06:02,  2.02it/s] 93%|█████████▎| 9966/10696 [1:49:01<06:02,  2.01it/s] 93%|█████████▎| 9967/10696 [1:49:02<06:01,  2.01it/s] 93%|█████████▎| 9968/10696 [1:49:02<06:01,  2.01it/s] 93%|█████████▎| 9969/10696 [1:49:03<06:01,  2.01it/s] 93%|█████████▎| 9970/10696 [1:49:03<06:00,  2.01it/s] 93%|█████████▎| 9971/10696 [1:49:04<06:00,  2.01it/s] 93%|█████████▎| 9972/10696 [1:49:04<05:59,  2.02it/s] 93%|█████████▎| 9973/10696 [1:49:05<05:58,  2.01it/s] 93%|█████████▎| 9974/10696 [1:49:05<05:58,  2.01it/s] 93%|█████████▎| 9975/10696 [1:49:06<05:58,  2.01it/s]{'loss': 3.6071, 'grad_norm': 0.19522610306739807, 'learning_rate': 1.3778873645396372e-05, 'epoch': 0.93}
-                                                       93%|█████████▎| 9975/10696 [1:49:06<05:58,  2.01it/s] 93%|█████████▎| 9976/10696 [1:49:06<05:57,  2.01it/s] 93%|█████████▎| 9977/10696 [1:49:07<05:57,  2.01it/s] 93%|█████████▎| 9978/10696 [1:49:07<05:57,  2.01it/s] 93%|█████████▎| 9979/10696 [1:49:08<05:55,  2.01it/s] 93%|█████████▎| 9980/10696 [1:49:08<05:55,  2.01it/s] 93%|█████████▎| 9981/10696 [1:49:09<05:54,  2.01it/s] 93%|█████████▎| 9982/10696 [1:49:09<05:54,  2.01it/s] 93%|█████████▎| 9983/10696 [1:49:10<05:53,  2.02it/s] 93%|█████████▎| 9984/10696 [1:49:10<05:53,  2.02it/s] 93%|█████████▎| 9985/10696 [1:49:11<05:52,  2.01it/s] 93%|█████████▎| 9986/10696 [1:49:11<05:52,  2.01it/s] 93%|█████████▎| 9987/10696 [1:49:12<05:52,  2.01it/s] 93%|█████████▎| 9988/10696 [1:49:12<05:51,  2.01it/s] 93%|█████████▎| 9989/10696 [1:49:13<05:51,  2.01it/s] 93%|█████████▎| 9990/10696 [1:49:13<05:50,  2.01it/s] 93%|█████████▎| 9991/10696 [1:49:14<05:49,  2.01it/s] 93%|█████████▎| 9992/10696 [1:49:14<05:49,  2.01it/s] 93%|█████████▎| 9993/10696 [1:49:15<05:49,  2.01it/s] 93%|█████████▎| 9994/10696 [1:49:15<05:48,  2.01it/s] 93%|█████████▎| 9995/10696 [1:49:16<05:48,  2.01it/s] 93%|█████████▎| 9996/10696 [1:49:16<05:47,  2.01it/s] 93%|█████████▎| 9997/10696 [1:49:17<05:47,  2.01it/s] 93%|█████████▎| 9998/10696 [1:49:17<05:46,  2.01it/s] 93%|█████████▎| 9999/10696 [1:49:18<05:46,  2.01it/s] 93%|█████████▎| 10000/10696 [1:49:18<05:45,  2.01it/s]{'loss': 3.6, 'grad_norm': 0.19617585837841034, 'learning_rate': 1.284394237649833e-05, 'epoch': 0.93}                                                       
- 93%|█████████▎| 10000/10696 [1:49:18<05:45,  2.01it/s] 94%|█████████▎| 10001/10696 [1:49:19<05:45,  2.01it/s] 94%|█████████▎| 10002/10696 [1:49:19<05:44,  2.01it/s] 94%|█████████▎| 10003/10696 [1:49:20<05:44,  2.01it/s] 94%|█████████▎| 10004/10696 [1:49:20<05:43,  2.01it/s] 94%|█████████▎| 10005/10696 [1:49:21<05:42,  2.02it/s] 94%|█████████▎| 10006/10696 [1:49:21<05:42,  2.01it/s] 94%|█████████▎| 10007/10696 [1:49:22<05:41,  2.01it/s] 94%|█████████▎| 10008/10696 [1:49:22<05:41,  2.01it/s] 94%|█████████▎| 10009/10696 [1:49:23<05:40,  2.01it/s] 94%|█████████▎| 10010/10696 [1:49:23<05:40,  2.01it/s] 94%|█████████▎| 10011/10696 [1:49:24<05:40,  2.01it/s] 94%|█████████▎| 10012/10696 [1:49:24<05:39,  2.01it/s] 94%|█████████▎| 10013/10696 [1:49:25<05:39,  2.01it/s] 94%|█████████▎| 10014/10696 [1:49:25<05:38,  2.01it/s] 94%|█████████▎| 10015/10696 [1:49:26<05:37,  2.02it/s] 94%|█████████▎| 10016/10696 [1:49:26<05:37,  2.01it/s] 94%|█████████▎| 10017/10696 [1:49:27<05:36,  2.02it/s] 94%|█████████▎| 10018/10696 [1:49:27<05:36,  2.02it/s] 94%|█████████▎| 10019/10696 [1:49:28<05:35,  2.02it/s] 94%|█████████▎| 10020/10696 [1:49:28<05:35,  2.02it/s] 94%|█████████▎| 10021/10696 [1:49:29<05:34,  2.02it/s] 94%|█████████▎| 10022/10696 [1:49:29<05:34,  2.02it/s] 94%|█████████▎| 10023/10696 [1:49:30<05:33,  2.02it/s] 94%|█████████▎| 10024/10696 [1:49:30<05:33,  2.02it/s] 94%|█████████▎| 10025/10696 [1:49:31<05:32,  2.02it/s]{'loss': 3.5972, 'grad_norm': 0.19664520025253296, 'learning_rate': 1.1941441615178016e-05, 'epoch': 0.94}
-                                                        94%|█████████▎| 10025/10696 [1:49:31<05:32,  2.02it/s] 94%|█████████▎| 10026/10696 [1:49:31<05:32,  2.01it/s] 94%|█████████▎| 10027/10696 [1:49:32<05:32,  2.01it/s] 94%|█████████▍| 10028/10696 [1:49:32<05:31,  2.02it/s] 94%|█████████▍| 10029/10696 [1:49:33<05:31,  2.01it/s] 94%|█████████▍| 10030/10696 [1:49:33<05:30,  2.01it/s] 94%|█████████▍| 10031/10696 [1:49:34<05:30,  2.01it/s] 94%|█████████▍| 10032/10696 [1:49:34<05:29,  2.01it/s] 94%|█████████▍| 10033/10696 [1:49:35<05:29,  2.01it/s] 94%|█████████▍| 10034/10696 [1:49:35<05:28,  2.02it/s] 94%|█████████▍| 10035/10696 [1:49:36<05:28,  2.01it/s] 94%|█████████▍| 10036/10696 [1:49:36<05:28,  2.01it/s] 94%|█████████▍| 10037/10696 [1:49:37<05:27,  2.01it/s] 94%|█████████▍| 10038/10696 [1:49:37<05:26,  2.01it/s] 94%|█████████▍| 10039/10696 [1:49:38<05:26,  2.01it/s] 94%|█████████▍| 10040/10696 [1:49:38<05:25,  2.01it/s] 94%|█████████▍| 10041/10696 [1:49:39<05:25,  2.01it/s] 94%|█████████▍| 10042/10696 [1:49:39<05:24,  2.01it/s] 94%|█████████▍| 10043/10696 [1:49:40<05:24,  2.01it/s] 94%|█████████▍| 10044/10696 [1:49:40<05:23,  2.02it/s] 94%|█████████▍| 10045/10696 [1:49:41<05:23,  2.02it/s] 94%|█████████▍| 10046/10696 [1:49:41<05:22,  2.01it/s] 94%|█████████▍| 10047/10696 [1:49:42<05:22,  2.01it/s] 94%|█████████▍| 10048/10696 [1:49:42<05:22,  2.01it/s] 94%|█████████▍| 10049/10696 [1:49:43<05:21,  2.01it/s] 94%|█████████▍| 10050/10696 [1:49:43<05:20,  2.02it/s]{'loss': 3.5968, 'grad_norm': 0.2002364695072174, 'learning_rate': 1.1071431441890822e-05, 'epoch': 0.94}                                                       
- 94%|█████████▍| 10050/10696 [1:49:43<05:20,  2.02it/s] 94%|█████████▍| 10051/10696 [1:49:44<05:20,  2.01it/s] 94%|█████████▍| 10052/10696 [1:49:44<05:20,  2.01it/s] 94%|█████████▍| 10053/10696 [1:49:45<05:19,  2.01it/s] 94%|█████████▍| 10054/10696 [1:49:45<05:19,  2.01it/s] 94%|█████████▍| 10055/10696 [1:49:46<05:18,  2.01it/s] 94%|█████████▍| 10056/10696 [1:49:46<05:17,  2.01it/s] 94%|█████████▍| 10057/10696 [1:49:47<05:17,  2.01it/s] 94%|█████████▍| 10058/10696 [1:49:47<05:16,  2.01it/s] 94%|█████████▍| 10059/10696 [1:49:48<05:16,  2.01it/s] 94%|█████████▍| 10060/10696 [1:49:48<05:15,  2.01it/s] 94%|█████████▍| 10061/10696 [1:49:49<05:15,  2.01it/s] 94%|█████████▍| 10062/10696 [1:49:49<05:14,  2.01it/s] 94%|█████████▍| 10063/10696 [1:49:50<05:14,  2.01it/s] 94%|█████████▍| 10064/10696 [1:49:50<05:13,  2.02it/s] 94%|█████████▍| 10065/10696 [1:49:51<05:13,  2.01it/s] 94%|█████████▍| 10066/10696 [1:49:51<05:12,  2.01it/s] 94%|█████████▍| 10067/10696 [1:49:52<05:12,  2.01it/s] 94%|█████████▍| 10068/10696 [1:49:52<05:12,  2.01it/s] 94%|█████████▍| 10069/10696 [1:49:53<05:11,  2.02it/s] 94%|█████████▍| 10070/10696 [1:49:53<05:10,  2.01it/s] 94%|█████████▍| 10071/10696 [1:49:54<05:10,  2.02it/s] 94%|█████████▍| 10072/10696 [1:49:54<05:09,  2.01it/s] 94%|█████████▍| 10073/10696 [1:49:55<05:09,  2.01it/s] 94%|█████████▍| 10074/10696 [1:49:55<05:08,  2.02it/s] 94%|█████████▍| 10075/10696 [1:49:56<05:08,  2.01it/s]{'loss': 3.6061, 'grad_norm': 0.20111623406410217, 'learning_rate': 1.0233969774158302e-05, 'epoch': 0.94}
-                                                        94%|█████████▍| 10075/10696 [1:49:56<05:08,  2.01it/s] 94%|█████████▍| 10076/10696 [1:49:56<05:07,  2.01it/s] 94%|█████████▍| 10077/10696 [1:49:57<05:07,  2.01it/s] 94%|█████████▍| 10078/10696 [1:49:57<05:06,  2.02it/s] 94%|█████████▍| 10079/10696 [1:49:58<05:06,  2.01it/s] 94%|█████████▍| 10080/10696 [1:49:58<05:05,  2.02it/s] 94%|█████████▍| 10081/10696 [1:49:59<05:05,  2.01it/s] 94%|█████████▍| 10082/10696 [1:49:59<05:04,  2.01it/s] 94%|█████████▍| 10083/10696 [1:50:00<05:04,  2.02it/s] 94%|█████████▍| 10084/10696 [1:50:00<05:03,  2.01it/s] 94%|█████████▍| 10085/10696 [1:50:01<05:03,  2.02it/s] 94%|█████████▍| 10086/10696 [1:50:01<05:02,  2.02it/s] 94%|█████████▍| 10087/10696 [1:50:01<05:01,  2.02it/s] 94%|█████████▍| 10088/10696 [1:50:02<05:01,  2.02it/s] 94%|█████████▍| 10089/10696 [1:50:02<05:01,  2.02it/s] 94%|█████████▍| 10090/10696 [1:50:03<05:00,  2.01it/s] 94%|█████████▍| 10091/10696 [1:50:03<04:59,  2.02it/s] 94%|█████████▍| 10092/10696 [1:50:04<04:59,  2.02it/s] 94%|█████████▍| 10093/10696 [1:50:04<04:59,  2.02it/s] 94%|█████████▍| 10094/10696 [1:50:05<04:58,  2.02it/s] 94%|█████████▍| 10095/10696 [1:50:05<04:58,  2.02it/s] 94%|█████████▍| 10096/10696 [1:50:06<04:57,  2.01it/s] 94%|█████████▍| 10097/10696 [1:50:06<04:56,  2.02it/s] 94%|█████████▍| 10098/10696 [1:50:07<04:56,  2.02it/s] 94%|█████████▍| 10099/10696 [1:50:07<04:56,  2.02it/s] 94%|█████████▍| 10100/10696 [1:50:08<04:55,  2.01it/s]                                                       {'loss': 3.611, 'grad_norm': 0.1951916515827179, 'learning_rate': 9.429112362712766e-06, 'epoch': 0.94}
- 94%|█████████▍| 10100/10696 [1:50:08<04:55,  2.01it/s] 94%|█████████▍| 10101/10696 [1:50:08<04:55,  2.01it/s] 94%|█████████▍| 10102/10696 [1:50:09<04:54,  2.01it/s] 94%|█████████▍| 10103/10696 [1:50:09<04:54,  2.01it/s] 94%|█████████▍| 10104/10696 [1:50:10<04:53,  2.02it/s] 94%|█████████▍| 10105/10696 [1:50:10<04:53,  2.01it/s] 94%|█████████▍| 10106/10696 [1:50:11<04:52,  2.02it/s] 94%|█████████▍| 10107/10696 [1:50:11<04:52,  2.01it/s] 95%|█████████▍| 10108/10696 [1:50:12<04:51,  2.02it/s] 95%|█████████▍| 10109/10696 [1:50:12<04:51,  2.01it/s] 95%|█████████▍| 10110/10696 [1:50:13<04:50,  2.02it/s] 95%|█████████▍| 10111/10696 [1:50:13<04:50,  2.02it/s] 95%|█████████▍| 10112/10696 [1:50:14<04:49,  2.02it/s] 95%|█████████▍| 10113/10696 [1:50:14<04:49,  2.02it/s] 95%|█████████▍| 10114/10696 [1:50:15<04:48,  2.01it/s] 95%|█████████▍| 10115/10696 [1:50:15<04:48,  2.02it/s] 95%|█████████▍| 10116/10696 [1:50:16<04:47,  2.02it/s] 95%|█████████▍| 10117/10696 [1:50:16<04:47,  2.01it/s] 95%|█████████▍| 10118/10696 [1:50:17<04:46,  2.01it/s] 95%|█████████▍| 10119/10696 [1:50:17<04:46,  2.01it/s] 95%|█████████▍| 10120/10696 [1:50:18<04:46,  2.01it/s] 95%|█████████▍| 10121/10696 [1:50:18<04:45,  2.01it/s] 95%|█████████▍| 10122/10696 [1:50:19<04:45,  2.01it/s] 95%|█████████▍| 10123/10696 [1:50:19<04:44,  2.01it/s] 95%|█████████▍| 10124/10696 [1:50:20<04:44,  2.01it/s] 95%|█████████▍| 10125/10696 [1:50:20<04:43,  2.01it/s]                                                       {'loss': 3.6088, 'grad_norm': 0.19970227777957916, 'learning_rate': 8.65691278778591e-06, 'epoch': 0.95}
- 95%|█████████▍| 10125/10696 [1:50:20<04:43,  2.01it/s] 95%|█████████▍| 10126/10696 [1:50:21<04:43,  2.01it/s] 95%|█████████▍| 10127/10696 [1:50:21<04:42,  2.01it/s] 95%|█████████▍| 10128/10696 [1:50:22<04:42,  2.01it/s] 95%|█████████▍| 10129/10696 [1:50:22<04:41,  2.01it/s] 95%|█████████▍| 10130/10696 [1:50:23<04:40,  2.02it/s] 95%|█████████▍| 10131/10696 [1:50:23<04:40,  2.01it/s] 95%|█████████▍| 10132/10696 [1:50:24<04:40,  2.01it/s] 95%|█████████▍| 10133/10696 [1:50:24<04:39,  2.01it/s] 95%|█████████▍| 10134/10696 [1:50:25<04:39,  2.01it/s] 95%|█████████▍| 10135/10696 [1:50:25<04:38,  2.02it/s] 95%|█████████▍| 10136/10696 [1:50:26<04:38,  2.01it/s] 95%|█████████▍| 10137/10696 [1:50:26<04:37,  2.01it/s] 95%|█████████▍| 10138/10696 [1:50:27<04:37,  2.01it/s] 95%|█████████▍| 10139/10696 [1:50:27<04:36,  2.01it/s] 95%|█████████▍| 10140/10696 [1:50:28<04:35,  2.02it/s] 95%|█████████▍| 10141/10696 [1:50:28<04:35,  2.02it/s] 95%|█████████▍| 10142/10696 [1:50:29<04:34,  2.02it/s] 95%|█████████▍| 10143/10696 [1:50:29<04:34,  2.02it/s] 95%|█████████▍| 10144/10696 [1:50:30<04:33,  2.01it/s] 95%|█████████▍| 10145/10696 [1:50:30<04:33,  2.01it/s] 95%|█████████▍| 10146/10696 [1:50:31<04:32,  2.02it/s] 95%|█████████▍| 10147/10696 [1:50:31<04:32,  2.01it/s] 95%|█████████▍| 10148/10696 [1:50:32<04:31,  2.02it/s] 95%|█████████▍| 10149/10696 [1:50:32<04:31,  2.01it/s] 95%|█████████▍| 10150/10696 [1:50:33<04:30,  2.02it/s]{'loss': 3.6074, 'grad_norm': 0.19932547211647034, 'learning_rate': 7.917422455541612e-06, 'epoch': 0.95}
-                                                        95%|█████████▍| 10150/10696 [1:50:33<04:30,  2.02it/s] 95%|█████████▍| 10151/10696 [1:50:33<04:30,  2.01it/s] 95%|█████████▍| 10152/10696 [1:50:34<04:30,  2.01it/s] 95%|█████████▍| 10153/10696 [1:50:34<04:29,  2.01it/s] 95%|█████████▍| 10154/10696 [1:50:35<04:29,  2.01it/s] 95%|█████████▍| 10155/10696 [1:50:35<04:28,  2.01it/s] 95%|█████████▍| 10156/10696 [1:50:36<04:28,  2.01it/s] 95%|█████████▍| 10157/10696 [1:50:36<04:27,  2.01it/s] 95%|█████████▍| 10158/10696 [1:50:37<04:27,  2.01it/s] 95%|█████████▍| 10159/10696 [1:50:37<04:26,  2.01it/s] 95%|█████████▍| 10160/10696 [1:50:38<04:26,  2.01it/s] 95%|█████████▍| 10161/10696 [1:50:38<04:25,  2.01it/s] 95%|█████████▌| 10162/10696 [1:50:39<04:25,  2.01it/s] 95%|█████████▌| 10163/10696 [1:50:39<04:24,  2.02it/s] 95%|█████████▌| 10164/10696 [1:50:40<04:24,  2.01it/s] 95%|█████████▌| 10165/10696 [1:50:40<04:23,  2.02it/s] 95%|█████████▌| 10166/10696 [1:50:41<04:22,  2.02it/s] 95%|█████████▌| 10167/10696 [1:50:41<04:22,  2.02it/s] 95%|█████████▌| 10168/10696 [1:50:42<04:21,  2.02it/s] 95%|█████████▌| 10169/10696 [1:50:42<04:21,  2.02it/s] 95%|█████████▌| 10170/10696 [1:50:43<04:20,  2.02it/s] 95%|█████████▌| 10171/10696 [1:50:43<04:20,  2.02it/s] 95%|█████████▌| 10172/10696 [1:50:44<04:19,  2.02it/s] 95%|█████████▌| 10173/10696 [1:50:44<04:19,  2.02it/s] 95%|█████████▌| 10174/10696 [1:50:45<04:18,  2.02it/s] 95%|█████████▌| 10175/10696 [1:50:45<04:18,  2.01it/s]                                                       {'loss': 3.6002, 'grad_norm': 0.19450533390045166, 'learning_rate': 7.210690594653957e-06, 'epoch': 0.95}
- 95%|█████████▌| 10175/10696 [1:50:45<04:18,  2.01it/s] 95%|█████████▌| 10176/10696 [1:50:46<04:18,  2.01it/s] 95%|█████████▌| 10177/10696 [1:50:46<04:17,  2.01it/s] 95%|█████████▌| 10178/10696 [1:50:47<04:17,  2.01it/s] 95%|█████████▌| 10179/10696 [1:50:47<04:16,  2.01it/s] 95%|█████████▌| 10180/10696 [1:50:48<04:16,  2.01it/s] 95%|█████████▌| 10181/10696 [1:50:48<04:15,  2.01it/s] 95%|█████████▌| 10182/10696 [1:50:49<04:15,  2.01it/s] 95%|█████████▌| 10183/10696 [1:50:49<04:14,  2.01it/s] 95%|█████████▌| 10184/10696 [1:50:50<04:14,  2.01it/s] 95%|█████████▌| 10185/10696 [1:50:50<04:13,  2.01it/s] 95%|█████████▌| 10186/10696 [1:50:51<04:12,  2.02it/s] 95%|█████████▌| 10187/10696 [1:50:51<04:12,  2.01it/s] 95%|█████████▌| 10188/10696 [1:50:52<04:12,  2.01it/s] 95%|█████████▌| 10189/10696 [1:50:52<04:11,  2.01it/s] 95%|█████████▌| 10190/10696 [1:50:53<04:11,  2.01it/s] 95%|█████████▌| 10191/10696 [1:50:53<04:10,  2.02it/s] 95%|█████████▌| 10192/10696 [1:50:54<04:10,  2.01it/s] 95%|█████████▌| 10193/10696 [1:50:54<04:09,  2.02it/s] 95%|█████████▌| 10194/10696 [1:50:55<04:09,  2.02it/s] 95%|█████████▌| 10195/10696 [1:50:55<04:08,  2.02it/s] 95%|█████████▌| 10196/10696 [1:50:56<04:08,  2.02it/s] 95%|█████████▌| 10197/10696 [1:50:56<04:07,  2.01it/s] 95%|█████████▌| 10198/10696 [1:50:57<04:07,  2.02it/s] 95%|█████████▌| 10199/10696 [1:50:57<04:06,  2.01it/s] 95%|█████████▌| 10200/10696 [1:50:58<04:05,  2.02it/s]{'loss': 3.604, 'grad_norm': 0.19288310408592224, 'learning_rate': 6.536764253030236e-06, 'epoch': 0.95}                                                       
- 95%|█████████▌| 10200/10696 [1:50:58<04:05,  2.02it/s] 95%|█████████▌| 10201/10696 [1:50:58<04:05,  2.01it/s] 95%|█████████▌| 10202/10696 [1:50:59<04:05,  2.01it/s] 95%|█████████▌| 10203/10696 [1:50:59<04:04,  2.01it/s] 95%|█████████▌| 10204/10696 [1:51:00<04:04,  2.02it/s] 95%|█████████▌| 10205/10696 [1:51:00<04:03,  2.02it/s] 95%|█████████▌| 10206/10696 [1:51:01<04:03,  2.02it/s] 95%|█████████▌| 10207/10696 [1:51:01<04:02,  2.02it/s] 95%|█████████▌| 10208/10696 [1:51:02<04:02,  2.02it/s] 95%|█████████▌| 10209/10696 [1:51:02<04:01,  2.02it/s] 95%|█████████▌| 10210/10696 [1:51:03<04:01,  2.01it/s] 95%|█████████▌| 10211/10696 [1:51:03<04:00,  2.02it/s] 95%|█████████▌| 10212/10696 [1:51:04<04:00,  2.02it/s] 95%|█████████▌| 10213/10696 [1:51:04<03:59,  2.02it/s] 95%|█████████▌| 10214/10696 [1:51:05<03:58,  2.02it/s] 96%|█████████▌| 10215/10696 [1:51:05<03:58,  2.01it/s] 96%|█████████▌| 10216/10696 [1:51:06<03:58,  2.02it/s] 96%|█████████▌| 10217/10696 [1:51:06<03:57,  2.01it/s] 96%|█████████▌| 10218/10696 [1:51:07<03:57,  2.02it/s] 96%|█████████▌| 10219/10696 [1:51:07<03:56,  2.02it/s] 96%|█████████▌| 10220/10696 [1:51:08<03:55,  2.02it/s] 96%|█████████▌| 10221/10696 [1:51:08<03:55,  2.02it/s] 96%|█████████▌| 10222/10696 [1:51:09<03:55,  2.02it/s] 96%|█████████▌| 10223/10696 [1:51:09<03:54,  2.02it/s] 96%|█████████▌| 10224/10696 [1:51:09<03:54,  2.02it/s] 96%|█████████▌| 10225/10696 [1:51:10<03:53,  2.02it/s]{'loss': 3.6017, 'grad_norm': 0.19837884604930878, 'learning_rate': 5.895688294678514e-06, 'epoch': 0.96}                                                       
- 96%|█████████▌| 10225/10696 [1:51:10<03:53,  2.02it/s] 96%|█████████▌| 10226/10696 [1:51:10<03:54,  2.01it/s] 96%|█████████▌| 10227/10696 [1:51:11<03:53,  2.01it/s] 96%|█████████▌| 10228/10696 [1:51:11<03:52,  2.01it/s] 96%|█████████▌| 10229/10696 [1:51:12<03:51,  2.01it/s] 96%|█████████▌| 10230/10696 [1:51:12<03:51,  2.01it/s] 96%|█████████▌| 10231/10696 [1:51:13<03:51,  2.01it/s] 96%|█████████▌| 10232/10696 [1:51:13<03:50,  2.01it/s] 96%|█████████▌| 10233/10696 [1:51:14<03:50,  2.01it/s] 96%|█████████▌| 10234/10696 [1:51:14<03:49,  2.01it/s] 96%|█████████▌| 10235/10696 [1:51:15<03:48,  2.01it/s] 96%|█████████▌| 10236/10696 [1:51:15<03:48,  2.01it/s] 96%|█████████▌| 10237/10696 [1:51:16<03:47,  2.01it/s] 96%|█████████▌| 10238/10696 [1:51:16<03:47,  2.01it/s] 96%|█████████▌| 10239/10696 [1:51:17<03:46,  2.01it/s] 96%|█████████▌| 10240/10696 [1:51:17<03:46,  2.01it/s] 96%|█████████▌| 10241/10696 [1:51:18<03:45,  2.01it/s] 96%|█████████▌| 10242/10696 [1:51:18<03:45,  2.01it/s] 96%|█████████▌| 10243/10696 [1:51:19<03:44,  2.02it/s] 96%|█████████▌| 10244/10696 [1:51:19<03:44,  2.01it/s] 96%|█████████▌| 10245/10696 [1:51:20<03:43,  2.02it/s] 96%|█████████▌| 10246/10696 [1:51:20<03:43,  2.02it/s] 96%|█████████▌| 10247/10696 [1:51:21<03:42,  2.02it/s] 96%|█████████▌| 10248/10696 [1:51:21<03:42,  2.02it/s] 96%|█████████▌| 10249/10696 [1:51:22<03:41,  2.02it/s] 96%|█████████▌| 10250/10696 [1:51:22<03:41,  2.02it/s]{'loss': 3.6089, 'grad_norm': 0.19667600095272064, 'learning_rate': 5.287505396721182e-06, 'epoch': 0.96}
-                                                        96%|█████████▌| 10250/10696 [1:51:22<03:41,  2.02it/s] 96%|█████████▌| 10251/10696 [1:51:23<03:41,  2.01it/s] 96%|█████████▌| 10252/10696 [1:51:23<03:40,  2.01it/s] 96%|█████████▌| 10253/10696 [1:51:24<03:40,  2.01it/s] 96%|█████████▌| 10254/10696 [1:51:24<03:39,  2.01it/s] 96%|█████████▌| 10255/10696 [1:51:25<03:38,  2.01it/s] 96%|█████████▌| 10256/10696 [1:51:25<03:38,  2.02it/s] 96%|█████████▌| 10257/10696 [1:51:26<03:37,  2.01it/s] 96%|█████████▌| 10258/10696 [1:51:26<03:37,  2.01it/s] 96%|█████████▌| 10259/10696 [1:51:27<03:36,  2.01it/s] 96%|█████████▌| 10260/10696 [1:51:27<03:36,  2.01it/s] 96%|█████████▌| 10261/10696 [1:51:28<03:35,  2.01it/s] 96%|█████████▌| 10262/10696 [1:51:28<03:35,  2.01it/s] 96%|█████████▌| 10263/10696 [1:51:29<03:34,  2.02it/s] 96%|█████████▌| 10264/10696 [1:51:29<03:34,  2.01it/s] 96%|█████████▌| 10265/10696 [1:51:30<03:33,  2.01it/s] 96%|█████████▌| 10266/10696 [1:51:30<03:33,  2.01it/s] 96%|█████████▌| 10267/10696 [1:51:31<03:33,  2.01it/s] 96%|█████████▌| 10268/10696 [1:51:31<03:32,  2.01it/s] 96%|█████████▌| 10269/10696 [1:51:32<03:32,  2.01it/s] 96%|█████████▌| 10270/10696 [1:51:32<03:31,  2.01it/s] 96%|█████████▌| 10271/10696 [1:51:33<03:30,  2.01it/s] 96%|█████████▌| 10272/10696 [1:51:33<03:30,  2.01it/s] 96%|█████████▌| 10273/10696 [1:51:34<03:29,  2.02it/s] 96%|█████████▌| 10274/10696 [1:51:34<03:29,  2.01it/s] 96%|█████████▌| 10275/10696 [1:51:35<03:28,  2.02it/s]{'loss': 3.6036, 'grad_norm': 0.19788886606693268, 'learning_rate': 4.712256046554064e-06, 'epoch': 0.96}                                                       
- 96%|█████████▌| 10275/10696 [1:51:35<03:28,  2.02it/s] 96%|█████████▌| 10276/10696 [1:51:35<03:28,  2.01it/s] 96%|█████████▌| 10277/10696 [1:51:36<03:28,  2.01it/s] 96%|█████████▌| 10278/10696 [1:51:36<03:27,  2.01it/s] 96%|█████████▌| 10279/10696 [1:51:37<03:26,  2.02it/s] 96%|█████████▌| 10280/10696 [1:51:37<03:26,  2.01it/s] 96%|█████████▌| 10281/10696 [1:51:38<03:26,  2.01it/s] 96%|█████████▌| 10282/10696 [1:51:38<03:25,  2.02it/s] 96%|█████████▌| 10283/10696 [1:51:39<03:25,  2.01it/s] 96%|█████████▌| 10284/10696 [1:51:39<03:24,  2.01it/s] 96%|█████████▌| 10285/10696 [1:51:40<03:23,  2.02it/s] 96%|█████████▌| 10286/10696 [1:51:40<03:23,  2.02it/s] 96%|█████████▌| 10287/10696 [1:51:41<03:22,  2.02it/s] 96%|█████████▌| 10288/10696 [1:51:41<03:22,  2.01it/s] 96%|█████████▌| 10289/10696 [1:51:42<03:21,  2.02it/s] 96%|█████████▌| 10290/10696 [1:51:42<03:21,  2.01it/s] 96%|█████████▌| 10291/10696 [1:51:43<03:20,  2.02it/s] 96%|█████████▌| 10292/10696 [1:51:43<03:20,  2.01it/s] 96%|█████████▌| 10293/10696 [1:51:44<03:20,  2.01it/s] 96%|█████████▌| 10294/10696 [1:51:44<03:19,  2.01it/s] 96%|█████████▋| 10295/10696 [1:51:45<03:19,  2.01it/s] 96%|█████████▋| 10296/10696 [1:51:45<03:18,  2.01it/s] 96%|█████████▋| 10297/10696 [1:51:46<03:18,  2.01it/s] 96%|█████████▋| 10298/10696 [1:51:46<03:17,  2.01it/s] 96%|█████████▋| 10299/10696 [1:51:47<03:17,  2.01it/s] 96%|█████████▋| 10300/10696 [1:51:47<03:16,  2.01it/s]{'loss': 3.6029, 'grad_norm': 0.1935957819223404, 'learning_rate': 4.169978539150798e-06, 'epoch': 0.96}                                                       
- 96%|█████████▋| 10300/10696 [1:51:47<03:16,  2.01it/s] 96%|█████████▋| 10301/10696 [1:51:48<03:16,  2.01it/s] 96%|█████████▋| 10302/10696 [1:51:48<03:15,  2.01it/s] 96%|█████████▋| 10303/10696 [1:51:49<03:15,  2.01it/s] 96%|█████████▋| 10304/10696 [1:51:49<03:14,  2.01it/s] 96%|█████████▋| 10305/10696 [1:51:50<03:14,  2.01it/s] 96%|█████████▋| 10306/10696 [1:51:50<03:13,  2.01it/s] 96%|█████████▋| 10307/10696 [1:51:51<03:13,  2.01it/s] 96%|█████████▋| 10308/10696 [1:51:51<03:12,  2.01it/s] 96%|█████████▋| 10309/10696 [1:51:52<03:12,  2.01it/s] 96%|█████████▋| 10310/10696 [1:51:52<03:11,  2.02it/s] 96%|█████████▋| 10311/10696 [1:51:53<03:11,  2.01it/s] 96%|█████████▋| 10312/10696 [1:51:53<03:10,  2.02it/s] 96%|█████████▋| 10313/10696 [1:51:54<03:10,  2.01it/s] 96%|█████████▋| 10314/10696 [1:51:54<03:09,  2.01it/s] 96%|█████████▋| 10315/10696 [1:51:55<03:09,  2.02it/s] 96%|█████████▋| 10316/10696 [1:51:55<03:08,  2.01it/s] 96%|█████████▋| 10317/10696 [1:51:56<03:07,  2.02it/s] 96%|█████████▋| 10318/10696 [1:51:56<03:07,  2.02it/s] 96%|█████████▋| 10319/10696 [1:51:57<03:06,  2.02it/s] 96%|█████████▋| 10320/10696 [1:51:57<03:06,  2.02it/s] 96%|█████████▋| 10321/10696 [1:51:58<03:05,  2.02it/s] 97%|█████████▋| 10322/10696 [1:51:58<03:05,  2.02it/s] 97%|█████████▋| 10323/10696 [1:51:59<03:04,  2.02it/s] 97%|█████████▋| 10324/10696 [1:51:59<03:04,  2.02it/s] 97%|█████████▋| 10325/10696 [1:52:00<03:04,  2.02it/s]{'loss': 3.5989, 'grad_norm': 0.19787149131298065, 'learning_rate': 3.6607089745137044e-06, 'epoch': 0.97}                                                       
- 97%|█████████▋| 10325/10696 [1:52:00<03:04,  2.02it/s] 97%|█████████▋| 10326/10696 [1:52:00<03:03,  2.01it/s] 97%|█████████▋| 10327/10696 [1:52:01<03:03,  2.01it/s] 97%|█████████▋| 10328/10696 [1:52:01<03:02,  2.01it/s] 97%|█████████▋| 10329/10696 [1:52:02<03:02,  2.01it/s] 97%|█████████▋| 10330/10696 [1:52:02<03:01,  2.01it/s] 97%|█████████▋| 10331/10696 [1:52:03<03:01,  2.01it/s] 97%|█████████▋| 10332/10696 [1:52:03<03:00,  2.01it/s] 97%|█████████▋| 10333/10696 [1:52:04<03:00,  2.02it/s] 97%|█████████▋| 10334/10696 [1:52:04<02:59,  2.01it/s] 97%|█████████▋| 10335/10696 [1:52:05<02:59,  2.02it/s] 97%|█████████▋| 10336/10696 [1:52:05<02:58,  2.01it/s] 97%|█████████▋| 10337/10696 [1:52:06<02:58,  2.02it/s] 97%|█████████▋| 10338/10696 [1:52:06<02:57,  2.02it/s] 97%|█████████▋| 10339/10696 [1:52:07<02:57,  2.01it/s] 97%|█████████▋| 10340/10696 [1:52:07<02:56,  2.02it/s] 97%|█████████▋| 10341/10696 [1:52:08<02:56,  2.01it/s] 97%|█████████▋| 10342/10696 [1:52:08<02:55,  2.02it/s] 97%|█████████▋| 10343/10696 [1:52:09<02:55,  2.02it/s] 97%|█████████▋| 10344/10696 [1:52:09<02:54,  2.02it/s] 97%|█████████▋| 10345/10696 [1:52:10<02:54,  2.02it/s] 97%|█████████▋| 10346/10696 [1:52:10<02:53,  2.02it/s] 97%|█████████▋| 10347/10696 [1:52:11<02:53,  2.01it/s] 97%|█████████▋| 10348/10696 [1:52:11<02:52,  2.01it/s] 97%|█████████▋| 10349/10696 [1:52:12<02:52,  2.02it/s] 97%|█████████▋| 10350/10696 [1:52:12<02:51,  2.01it/s]{'loss': 3.6069, 'grad_norm': 0.19335459172725677, 'learning_rate': 3.1844812552705436e-06, 'epoch': 0.97}
-                                                        97%|█████████▋| 10350/10696 [1:52:12<02:51,  2.01it/s] 97%|█████████▋| 10351/10696 [1:52:13<02:51,  2.01it/s] 97%|█████████▋| 10352/10696 [1:52:13<02:50,  2.01it/s] 97%|█████████▋| 10353/10696 [1:52:14<02:50,  2.01it/s] 97%|█████████▋| 10354/10696 [1:52:14<02:49,  2.01it/s] 97%|█████████▋| 10355/10696 [1:52:15<02:49,  2.01it/s] 97%|█████████▋| 10356/10696 [1:52:15<02:48,  2.01it/s] 97%|█████████▋| 10357/10696 [1:52:16<02:48,  2.01it/s] 97%|█████████▋| 10358/10696 [1:52:16<02:47,  2.01it/s] 97%|█████████▋| 10359/10696 [1:52:17<02:47,  2.01it/s] 97%|█████████▋| 10360/10696 [1:52:17<02:46,  2.01it/s] 97%|█████████▋| 10361/10696 [1:52:18<02:46,  2.01it/s] 97%|█████████▋| 10362/10696 [1:52:18<02:45,  2.01it/s] 97%|█████████▋| 10363/10696 [1:52:19<02:45,  2.01it/s] 97%|█████████▋| 10364/10696 [1:52:19<02:44,  2.02it/s] 97%|█████████▋| 10365/10696 [1:52:19<02:44,  2.01it/s] 97%|█████████▋| 10366/10696 [1:52:20<02:43,  2.02it/s] 97%|█████████▋| 10367/10696 [1:52:20<02:43,  2.02it/s] 97%|█████████▋| 10368/10696 [1:52:21<02:42,  2.02it/s] 97%|█████████▋| 10369/10696 [1:52:21<02:42,  2.02it/s] 97%|█████████▋| 10370/10696 [1:52:22<02:41,  2.01it/s] 97%|█████████▋| 10371/10696 [1:52:22<02:41,  2.02it/s] 97%|█████████▋| 10372/10696 [1:52:23<03:07,  1.73it/s] 97%|█████████▋| 10373/10696 [1:52:24<02:59,  1.80it/s] 97%|█████████▋| 10374/10696 [1:52:24<02:52,  1.86it/s] 97%|█████████▋| 10375/10696 [1:52:25<02:48,  1.91it/s]                                                       {'loss': 3.5973, 'grad_norm': 0.19415892660617828, 'learning_rate': 2.741327084417489e-06, 'epoch': 0.97}
- 97%|█████████▋| 10375/10696 [1:52:25<02:48,  1.91it/s] 97%|█████████▋| 10376/10696 [1:52:25<02:45,  1.94it/s] 97%|█████████▋| 10377/10696 [1:52:26<02:43,  1.96it/s] 97%|█████████▋| 10378/10696 [1:52:26<02:41,  1.97it/s] 97%|█████████▋| 10379/10696 [1:52:27<02:39,  1.98it/s] 97%|█████████▋| 10380/10696 [1:52:27<02:38,  1.99it/s] 97%|█████████▋| 10381/10696 [1:52:28<02:37,  2.00it/s] 97%|█████████▋| 10382/10696 [1:52:28<02:36,  2.00it/s] 97%|█████████▋| 10383/10696 [1:52:29<02:36,  2.00it/s] 97%|█████████▋| 10384/10696 [1:52:29<02:35,  2.01it/s] 97%|█████████▋| 10385/10696 [1:52:30<02:34,  2.01it/s] 97%|█████████▋| 10386/10696 [1:52:30<02:34,  2.01it/s] 97%|█████████▋| 10387/10696 [1:52:31<02:33,  2.01it/s] 97%|█████████▋| 10388/10696 [1:52:31<02:33,  2.01it/s] 97%|█████████▋| 10389/10696 [1:52:32<02:32,  2.02it/s] 97%|█████████▋| 10390/10696 [1:52:32<02:31,  2.01it/s] 97%|█████████▋| 10391/10696 [1:52:33<02:31,  2.02it/s] 97%|█████████▋| 10392/10696 [1:52:33<02:30,  2.01it/s] 97%|█████████▋| 10393/10696 [1:52:34<02:30,  2.01it/s] 97%|█████████▋| 10394/10696 [1:52:34<02:29,  2.01it/s] 97%|█████████▋| 10395/10696 [1:52:35<02:29,  2.01it/s] 97%|█████████▋| 10396/10696 [1:52:35<02:28,  2.02it/s] 97%|█████████▋| 10397/10696 [1:52:36<02:28,  2.01it/s] 97%|█████████▋| 10398/10696 [1:52:36<02:27,  2.01it/s] 97%|█████████▋| 10399/10696 [1:52:37<02:27,  2.01it/s] 97%|█████████▋| 10400/10696 [1:52:37<02:26,  2.02it/s]{'loss': 3.6015, 'grad_norm': 0.19549937546253204, 'learning_rate': 2.3312759632088675e-06, 'epoch': 0.97}                                                       
- 97%|█████████▋| 10400/10696 [1:52:37<02:26,  2.02it/s] 97%|█████████▋| 10401/10696 [1:52:38<02:26,  2.01it/s] 97%|█████████▋| 10402/10696 [1:52:38<02:26,  2.01it/s] 97%|█████████▋| 10403/10696 [1:52:39<02:25,  2.01it/s] 97%|█████████▋| 10404/10696 [1:52:39<02:25,  2.01it/s] 97%|█████████▋| 10405/10696 [1:52:40<02:24,  2.02it/s] 97%|█████████▋| 10406/10696 [1:52:40<02:23,  2.01it/s] 97%|█████████▋| 10407/10696 [1:52:41<02:23,  2.01it/s] 97%|█████████▋| 10408/10696 [1:52:41<02:22,  2.01it/s] 97%|█████████▋| 10409/10696 [1:52:42<02:22,  2.01it/s] 97%|█████████▋| 10410/10696 [1:52:42<02:21,  2.02it/s] 97%|█████████▋| 10411/10696 [1:52:43<02:21,  2.01it/s] 97%|█████████▋| 10412/10696 [1:52:43<02:21,  2.01it/s] 97%|█████████▋| 10413/10696 [1:52:44<02:20,  2.01it/s] 97%|█████████▋| 10414/10696 [1:52:44<02:20,  2.01it/s] 97%|█████████▋| 10415/10696 [1:52:45<02:42,  1.73it/s] 97%|█████████▋| 10416/10696 [1:52:45<02:35,  1.81it/s] 97%|█████████▋| 10417/10696 [1:52:46<02:29,  1.86it/s] 97%|█████████▋| 10418/10696 [1:52:46<02:25,  1.91it/s] 97%|█████████▋| 10419/10696 [1:52:47<02:22,  1.94it/s] 97%|█████████▋| 10420/10696 [1:52:47<02:20,  1.96it/s] 97%|█████████▋| 10421/10696 [1:52:48<02:18,  1.98it/s] 97%|█████████▋| 10422/10696 [1:52:48<02:17,  1.99it/s] 97%|█████████▋| 10423/10696 [1:52:49<02:16,  2.00it/s] 97%|█████████▋| 10424/10696 [1:52:49<02:15,  2.00it/s] 97%|█████████▋| 10425/10696 [1:52:50<02:14,  2.01it/s]{'loss': 3.6035, 'grad_norm': 0.19567134976387024, 'learning_rate': 1.9543551891927913e-06, 'epoch': 0.97}                                                       
- 97%|█████████▋| 10425/10696 [1:52:50<02:14,  2.01it/s] 97%|█████████▋| 10426/10696 [1:52:50<02:14,  2.00it/s] 97%|█████████▋| 10427/10696 [1:52:51<02:14,  2.01it/s] 97%|█████████▋| 10428/10696 [1:52:51<02:13,  2.01it/s] 98%|█████████▊| 10429/10696 [1:52:52<02:12,  2.01it/s] 98%|█████████▊| 10430/10696 [1:52:52<02:12,  2.01it/s] 98%|█████████▊| 10431/10696 [1:52:53<02:11,  2.01it/s] 98%|█████████▊| 10432/10696 [1:52:53<02:11,  2.01it/s] 98%|█████████▊| 10433/10696 [1:52:54<02:10,  2.01it/s] 98%|█████████▊| 10434/10696 [1:52:54<02:10,  2.01it/s] 98%|█████████▊| 10435/10696 [1:52:55<02:09,  2.01it/s] 98%|█████████▊| 10436/10696 [1:52:55<02:08,  2.02it/s] 98%|█████████▊| 10437/10696 [1:52:56<02:08,  2.02it/s] 98%|█████████▊| 10438/10696 [1:52:56<02:07,  2.02it/s] 98%|█████████▊| 10439/10696 [1:52:57<02:07,  2.02it/s] 98%|█████████▊| 10440/10696 [1:52:57<02:06,  2.02it/s] 98%|█████████▊| 10441/10696 [1:52:58<02:06,  2.02it/s] 98%|█████████▊| 10442/10696 [1:52:58<02:05,  2.02it/s] 98%|█████████▊| 10443/10696 [1:52:59<02:05,  2.02it/s] 98%|█████████▊| 10444/10696 [1:52:59<02:05,  2.01it/s] 98%|█████████▊| 10445/10696 [1:53:00<02:04,  2.02it/s] 98%|█████████▊| 10446/10696 [1:53:00<02:03,  2.02it/s] 98%|█████████▊| 10447/10696 [1:53:01<02:03,  2.02it/s] 98%|█████████▊| 10448/10696 [1:53:01<02:03,  2.01it/s] 98%|█████████▊| 10449/10696 [1:53:02<02:02,  2.01it/s] 98%|█████████▊| 10450/10696 [1:53:02<02:02,  2.01it/s]{'loss': 3.6052, 'grad_norm': 0.1949242502450943, 'learning_rate': 1.6105898543944951e-06, 'epoch': 0.98}                                                       
- 98%|█████████▊| 10450/10696 [1:53:02<02:02,  2.01it/s] 98%|█████████▊| 10451/10696 [1:53:03<02:01,  2.01it/s] 98%|█████████▊| 10452/10696 [1:53:03<02:01,  2.01it/s] 98%|█████████▊| 10453/10696 [1:53:04<02:00,  2.01it/s] 98%|█████████▊| 10454/10696 [1:53:04<02:00,  2.02it/s] 98%|█████████▊| 10455/10696 [1:53:05<01:59,  2.01it/s] 98%|█████████▊| 10456/10696 [1:53:05<01:59,  2.02it/s] 98%|█████████▊| 10457/10696 [1:53:06<01:58,  2.02it/s] 98%|█████████▊| 10458/10696 [1:53:06<01:58,  2.01it/s] 98%|█████████▊| 10459/10696 [1:53:07<01:57,  2.02it/s] 98%|█████████▊| 10460/10696 [1:53:07<01:57,  2.02it/s] 98%|█████████▊| 10461/10696 [1:53:08<01:56,  2.02it/s] 98%|█████████▊| 10462/10696 [1:53:08<01:56,  2.01it/s] 98%|█████████▊| 10463/10696 [1:53:09<01:55,  2.02it/s] 98%|█████████▊| 10464/10696 [1:53:09<01:55,  2.01it/s] 98%|█████████▊| 10465/10696 [1:53:10<01:54,  2.01it/s] 98%|█████████▊| 10466/10696 [1:53:10<01:54,  2.02it/s] 98%|█████████▊| 10467/10696 [1:53:11<01:53,  2.01it/s] 98%|█████████▊| 10468/10696 [1:53:11<01:53,  2.02it/s] 98%|█████████▊| 10469/10696 [1:53:12<01:52,  2.01it/s] 98%|█████████▊| 10470/10696 [1:53:12<01:52,  2.01it/s] 98%|█████████▊| 10471/10696 [1:53:13<01:51,  2.02it/s] 98%|█████████▊| 10472/10696 [1:53:13<01:51,  2.02it/s] 98%|█████████▊| 10473/10696 [1:53:14<01:50,  2.02it/s] 98%|█████████▊| 10474/10696 [1:53:14<01:50,  2.02it/s] 98%|█████████▊| 10475/10696 [1:53:15<01:49,  2.02it/s]{'loss': 3.6035, 'grad_norm': 0.19763338565826416, 'learning_rate': 1.3000028436453981e-06, 'epoch': 0.98}
-                                                        98%|█████████▊| 10475/10696 [1:53:15<01:49,  2.02it/s] 98%|█████████▊| 10476/10696 [1:53:15<01:49,  2.01it/s] 98%|█████████▊| 10477/10696 [1:53:16<01:48,  2.01it/s] 98%|█████████▊| 10478/10696 [1:53:16<01:48,  2.01it/s] 98%|█████████▊| 10479/10696 [1:53:17<01:47,  2.01it/s] 98%|█████████▊| 10480/10696 [1:53:17<01:47,  2.01it/s] 98%|█████████▊| 10481/10696 [1:53:18<01:46,  2.01it/s] 98%|█████████▊| 10482/10696 [1:53:18<01:46,  2.02it/s] 98%|█████████▊| 10483/10696 [1:53:19<01:45,  2.01it/s] 98%|█████████▊| 10484/10696 [1:53:19<01:45,  2.01it/s] 98%|█████████▊| 10485/10696 [1:53:20<01:44,  2.01it/s] 98%|█████████▊| 10486/10696 [1:53:20<01:44,  2.01it/s] 98%|█████████▊| 10487/10696 [1:53:21<01:43,  2.02it/s] 98%|█████████▊| 10488/10696 [1:53:21<01:43,  2.01it/s] 98%|█████████▊| 10489/10696 [1:53:22<01:42,  2.02it/s] 98%|█████████▊| 10490/10696 [1:53:22<01:42,  2.01it/s] 98%|█████████▊| 10491/10696 [1:53:23<01:41,  2.02it/s] 98%|█████████▊| 10492/10696 [1:53:23<01:41,  2.02it/s] 98%|█████████▊| 10493/10696 [1:53:24<01:40,  2.02it/s] 98%|█████████▊| 10494/10696 [1:53:24<01:40,  2.02it/s] 98%|█████████▊| 10495/10696 [1:53:25<01:39,  2.01it/s] 98%|█████████▊| 10496/10696 [1:53:25<01:39,  2.02it/s] 98%|█████████▊| 10497/10696 [1:53:26<01:38,  2.02it/s] 98%|█████████▊| 10498/10696 [1:53:26<01:38,  2.02it/s] 98%|█████████▊| 10499/10696 [1:53:27<01:37,  2.02it/s] 98%|█████████▊| 10500/10696 [1:53:27<01:37,  2.02it/s]                                                       {'loss': 3.601, 'grad_norm': 0.19620297849178314, 'learning_rate': 1.0226148330599872e-06, 'epoch': 0.98}
- 98%|█████████▊| 10500/10696 [1:53:27<01:37,  2.02it/s] 98%|█████████▊| 10501/10696 [1:53:28<01:36,  2.01it/s] 98%|█████████▊| 10502/10696 [1:53:28<01:36,  2.01it/s] 98%|█████████▊| 10503/10696 [1:53:29<01:35,  2.01it/s] 98%|█████████▊| 10504/10696 [1:53:29<01:35,  2.02it/s] 98%|█████████▊| 10505/10696 [1:53:30<01:34,  2.01it/s] 98%|█████████▊| 10506/10696 [1:53:30<01:34,  2.02it/s] 98%|█████████▊| 10507/10696 [1:53:31<01:33,  2.01it/s] 98%|█████████▊| 10508/10696 [1:53:31<01:33,  2.02it/s] 98%|█████████▊| 10509/10696 [1:53:32<01:32,  2.02it/s] 98%|█████████▊| 10510/10696 [1:53:32<01:32,  2.02it/s] 98%|█████████▊| 10511/10696 [1:53:33<01:31,  2.02it/s] 98%|█████████▊| 10512/10696 [1:53:33<01:31,  2.02it/s] 98%|█████████▊| 10513/10696 [1:53:34<01:30,  2.02it/s] 98%|█████████▊| 10514/10696 [1:53:34<01:30,  2.02it/s] 98%|█████████▊| 10515/10696 [1:53:34<01:29,  2.02it/s] 98%|█████████▊| 10516/10696 [1:53:35<01:29,  2.02it/s] 98%|█████████▊| 10517/10696 [1:53:35<01:28,  2.02it/s] 98%|█████████▊| 10518/10696 [1:53:36<01:28,  2.01it/s] 98%|█████████▊| 10519/10696 [1:53:36<01:27,  2.02it/s] 98%|█████████▊| 10520/10696 [1:53:37<01:27,  2.02it/s] 98%|█████████▊| 10521/10696 [1:53:37<01:26,  2.02it/s] 98%|█████████▊| 10522/10696 [1:53:38<01:26,  2.02it/s] 98%|█████████▊| 10523/10696 [1:53:38<01:25,  2.02it/s] 98%|█████████▊| 10524/10696 [1:53:39<01:25,  2.02it/s] 98%|█████████▊| 10525/10696 [1:53:39<01:24,  2.01it/s]                                                       {'loss': 3.6022, 'grad_norm': 0.19827377796173096, 'learning_rate': 7.784442886591414e-07, 'epoch': 0.98}
- 98%|█████████▊| 10525/10696 [1:53:39<01:24,  2.01it/s] 98%|█████████▊| 10526/10696 [1:53:40<01:24,  2.01it/s] 98%|█████████▊| 10527/10696 [1:53:40<01:23,  2.01it/s] 98%|█████████▊| 10528/10696 [1:53:41<01:23,  2.01it/s] 98%|█████████▊| 10529/10696 [1:53:41<01:22,  2.02it/s] 98%|█████████▊| 10530/10696 [1:53:42<01:22,  2.02it/s] 98%|█████████▊| 10531/10696 [1:53:42<01:21,  2.02it/s] 98%|█████████▊| 10532/10696 [1:53:43<01:21,  2.02it/s] 98%|█████████▊| 10533/10696 [1:53:43<01:20,  2.02it/s] 98%|█████████▊| 10534/10696 [1:53:44<01:20,  2.02it/s] 98%|█████████▊| 10535/10696 [1:53:44<01:19,  2.02it/s] 99%|█████████▊| 10536/10696 [1:53:45<01:19,  2.02it/s] 99%|█████████▊| 10537/10696 [1:53:45<01:18,  2.02it/s] 99%|█████████▊| 10538/10696 [1:53:46<01:18,  2.01it/s] 99%|█████████▊| 10539/10696 [1:53:46<01:17,  2.02it/s] 99%|█████████▊| 10540/10696 [1:53:47<01:17,  2.02it/s] 99%|█████████▊| 10541/10696 [1:53:47<01:16,  2.02it/s] 99%|█████████▊| 10542/10696 [1:53:48<01:16,  2.02it/s] 99%|█████████▊| 10543/10696 [1:53:48<01:15,  2.02it/s] 99%|█████████▊| 10544/10696 [1:53:49<01:15,  2.02it/s] 99%|█████████▊| 10545/10696 [1:53:49<01:14,  2.01it/s] 99%|█████████▊| 10546/10696 [1:53:50<01:14,  2.02it/s] 99%|█████████▊| 10547/10696 [1:53:50<01:13,  2.02it/s] 99%|█████████▊| 10548/10696 [1:53:51<01:13,  2.02it/s] 99%|█████████▊| 10549/10696 [1:53:51<01:12,  2.02it/s] 99%|█████████▊| 10550/10696 [1:53:52<01:12,  2.02it/s]{'loss': 3.6091, 'grad_norm': 0.19889529049396515, 'learning_rate': 5.67507465141226e-07, 'epoch': 0.99}                                                       
- 99%|█████████▊| 10550/10696 [1:53:52<01:12,  2.02it/s] 99%|█████████▊| 10551/10696 [1:53:52<01:12,  2.01it/s] 99%|█████████▊| 10552/10696 [1:53:53<01:11,  2.02it/s] 99%|█████████▊| 10553/10696 [1:53:53<01:10,  2.02it/s] 99%|█████████▊| 10554/10696 [1:53:54<01:10,  2.02it/s] 99%|█████████▊| 10555/10696 [1:53:54<01:09,  2.02it/s] 99%|█████████▊| 10556/10696 [1:53:55<01:09,  2.02it/s] 99%|█████████▊| 10557/10696 [1:53:55<01:08,  2.01it/s] 99%|█████████▊| 10558/10696 [1:53:56<01:08,  2.01it/s] 99%|█████████▊| 10559/10696 [1:53:56<01:08,  2.01it/s] 99%|█████████▊| 10560/10696 [1:53:57<01:07,  2.02it/s] 99%|█████████▊| 10561/10696 [1:53:57<01:06,  2.02it/s] 99%|█████████▊| 10562/10696 [1:53:58<01:06,  2.02it/s] 99%|█████████▉| 10563/10696 [1:53:58<01:05,  2.02it/s] 99%|█████████▉| 10564/10696 [1:53:59<01:05,  2.02it/s] 99%|█████████▉| 10565/10696 [1:53:59<01:04,  2.02it/s] 99%|█████████▉| 10566/10696 [1:54:00<01:04,  2.02it/s] 99%|█████████▉| 10567/10696 [1:54:00<01:03,  2.02it/s] 99%|█████████▉| 10568/10696 [1:54:01<01:03,  2.02it/s] 99%|█████████▉| 10569/10696 [1:54:01<01:03,  2.02it/s] 99%|█████████▉| 10570/10696 [1:54:02<01:02,  2.02it/s] 99%|█████████▉| 10571/10696 [1:54:02<01:01,  2.02it/s] 99%|█████████▉| 10572/10696 [1:54:03<01:01,  2.01it/s] 99%|█████████▉| 10573/10696 [1:54:03<01:01,  2.02it/s] 99%|█████████▉| 10574/10696 [1:54:04<01:00,  2.01it/s] 99%|█████████▉| 10575/10696 [1:54:04<00:59,  2.02it/s]{'loss': 3.5993, 'grad_norm': 0.19536428153514862, 'learning_rate': 3.89818404799458e-07, 'epoch': 0.99}
-                                                        99%|█████████▉| 10575/10696 [1:54:04<00:59,  2.02it/s] 99%|█████████▉| 10576/10696 [1:54:05<00:59,  2.01it/s] 99%|█████████▉| 10577/10696 [1:54:05<00:59,  2.01it/s] 99%|█████████▉| 10578/10696 [1:54:06<00:58,  2.01it/s] 99%|█████████▉| 10579/10696 [1:54:06<00:58,  2.01it/s] 99%|█████████▉| 10580/10696 [1:54:07<00:57,  2.02it/s] 99%|█████████▉| 10581/10696 [1:54:07<00:57,  2.01it/s] 99%|█████████▉| 10582/10696 [1:54:08<00:56,  2.01it/s] 99%|█████████▉| 10583/10696 [1:54:08<00:56,  2.02it/s] 99%|█████████▉| 10584/10696 [1:54:09<00:55,  2.01it/s] 99%|█████████▉| 10585/10696 [1:54:09<00:55,  2.02it/s] 99%|█████████▉| 10586/10696 [1:54:10<00:54,  2.01it/s] 99%|█████████▉| 10587/10696 [1:54:10<00:54,  2.02it/s] 99%|█████████▉| 10588/10696 [1:54:11<00:53,  2.02it/s] 99%|█████████▉| 10589/10696 [1:54:11<00:53,  2.02it/s] 99%|█████████▉| 10590/10696 [1:54:12<00:52,  2.02it/s] 99%|█████████▉| 10591/10696 [1:54:12<00:52,  2.02it/s] 99%|█████████▉| 10592/10696 [1:54:13<00:51,  2.02it/s] 99%|█████████▉| 10593/10696 [1:54:13<00:51,  2.02it/s] 99%|█████████▉| 10594/10696 [1:54:14<00:50,  2.01it/s] 99%|█████████▉| 10595/10696 [1:54:14<00:50,  2.01it/s] 99%|█████████▉| 10596/10696 [1:54:15<00:49,  2.02it/s] 99%|█████████▉| 10597/10696 [1:54:15<00:49,  2.02it/s] 99%|█████████▉| 10598/10696 [1:54:16<00:48,  2.02it/s] 99%|█████████▉| 10599/10696 [1:54:16<00:48,  2.01it/s] 99%|█████████▉| 10600/10696 [1:54:17<00:47,  2.01it/s]                                                       {'loss': 3.6045, 'grad_norm': 0.19849486649036407, 'learning_rate': 2.453889365874873e-07, 'epoch': 0.99}
- 99%|█████████▉| 10600/10696 [1:54:17<00:47,  2.01it/s] 99%|█████████▉| 10601/10696 [1:54:17<00:47,  2.01it/s] 99%|█████████▉| 10602/10696 [1:54:18<00:46,  2.01it/s] 99%|█████████▉| 10603/10696 [1:54:18<00:46,  2.02it/s] 99%|█████████▉| 10604/10696 [1:54:19<00:45,  2.01it/s] 99%|█████████▉| 10605/10696 [1:54:19<00:45,  2.02it/s] 99%|█████████▉| 10606/10696 [1:54:20<00:44,  2.02it/s] 99%|█████████▉| 10607/10696 [1:54:20<00:44,  2.01it/s] 99%|█████████▉| 10608/10696 [1:54:21<00:43,  2.01it/s] 99%|█████████▉| 10609/10696 [1:54:21<00:43,  2.01it/s] 99%|█████████▉| 10610/10696 [1:54:22<00:42,  2.02it/s] 99%|█████████▉| 10611/10696 [1:54:22<00:42,  2.01it/s] 99%|█████████▉| 10612/10696 [1:54:23<00:41,  2.01it/s] 99%|█████████▉| 10613/10696 [1:54:23<00:41,  2.01it/s] 99%|█████████▉| 10614/10696 [1:54:24<00:40,  2.01it/s] 99%|█████████▉| 10615/10696 [1:54:24<00:40,  2.02it/s] 99%|█████████▉| 10616/10696 [1:54:25<00:39,  2.02it/s] 99%|█████████▉| 10617/10696 [1:54:25<00:39,  2.02it/s] 99%|█████████▉| 10618/10696 [1:54:26<00:38,  2.01it/s] 99%|█████████▉| 10619/10696 [1:54:26<00:38,  2.01it/s] 99%|█████████▉| 10620/10696 [1:54:27<00:37,  2.01it/s] 99%|█████████▉| 10621/10696 [1:54:27<00:37,  2.01it/s] 99%|█████████▉| 10622/10696 [1:54:28<00:36,  2.02it/s] 99%|█████████▉| 10623/10696 [1:54:28<00:36,  2.02it/s] 99%|█████████▉| 10624/10696 [1:54:29<00:35,  2.02it/s] 99%|█████████▉| 10625/10696 [1:54:29<00:35,  2.01it/s]                                                       {'loss': 3.6001, 'grad_norm': 0.19333095848560333, 'learning_rate': 1.34228675331749e-07, 'epoch': 0.99}
- 99%|█████████▉| 10625/10696 [1:54:29<00:35,  2.01it/s] 99%|█████████▉| 10626/10696 [1:54:30<00:34,  2.01it/s] 99%|█████████▉| 10627/10696 [1:54:30<00:34,  2.01it/s] 99%|█████████▉| 10628/10696 [1:54:31<00:33,  2.01it/s] 99%|█████████▉| 10629/10696 [1:54:31<00:33,  2.01it/s] 99%|█████████▉| 10630/10696 [1:54:32<00:32,  2.01it/s] 99%|█████████▉| 10631/10696 [1:54:32<00:32,  2.01it/s] 99%|█████████▉| 10632/10696 [1:54:33<00:31,  2.01it/s] 99%|█████████▉| 10633/10696 [1:54:33<00:31,  2.01it/s] 99%|█████████▉| 10634/10696 [1:54:34<00:30,  2.01it/s] 99%|█████████▉| 10635/10696 [1:54:34<00:30,  2.01it/s] 99%|█████████▉| 10636/10696 [1:54:35<00:29,  2.01it/s] 99%|█████████▉| 10637/10696 [1:54:35<00:29,  2.02it/s] 99%|█████████▉| 10638/10696 [1:54:36<00:28,  2.02it/s] 99%|█████████▉| 10639/10696 [1:54:36<00:28,  2.01it/s] 99%|█████████▉| 10640/10696 [1:54:37<00:27,  2.02it/s] 99%|█████████▉| 10641/10696 [1:54:37<00:27,  2.01it/s] 99%|█████████▉| 10642/10696 [1:54:38<00:26,  2.02it/s]100%|█████████▉| 10643/10696 [1:54:38<00:26,  2.01it/s]100%|█████████▉| 10644/10696 [1:54:39<00:25,  2.01it/s]100%|█████████▉| 10645/10696 [1:54:39<00:25,  2.01it/s]100%|█████████▉| 10646/10696 [1:54:40<00:24,  2.01it/s]100%|█████████▉| 10647/10696 [1:54:40<00:24,  2.02it/s]100%|█████████▉| 10648/10696 [1:54:41<00:23,  2.01it/s]100%|█████████▉| 10649/10696 [1:54:41<00:23,  2.01it/s]100%|█████████▉| 10650/10696 [1:54:41<00:22,  2.01it/s]{'loss': 3.6011, 'grad_norm': 0.19635756313800812, 'learning_rate': 5.634502109158612e-08, 'epoch': 1.0}
-                                                       100%|█████████▉| 10650/10696 [1:54:42<00:22,  2.01it/s]100%|█████████▉| 10651/10696 [1:54:42<00:22,  2.01it/s]100%|█████████▉| 10652/10696 [1:54:42<00:21,  2.01it/s]100%|█████████▉| 10653/10696 [1:54:43<00:21,  2.01it/s]100%|█████████▉| 10654/10696 [1:54:43<00:20,  2.02it/s]100%|█████████▉| 10655/10696 [1:54:44<00:20,  2.01it/s]100%|█████████▉| 10656/10696 [1:54:44<00:19,  2.02it/s]100%|█████████▉| 10657/10696 [1:54:45<00:19,  2.02it/s]100%|█████████▉| 10658/10696 [1:54:45<00:18,  2.02it/s]100%|█████████▉| 10659/10696 [1:54:46<00:18,  2.02it/s]100%|█████████▉| 10660/10696 [1:54:46<00:17,  2.01it/s]100%|█████████▉| 10661/10696 [1:54:47<00:17,  2.02it/s]100%|█████████▉| 10662/10696 [1:54:47<00:16,  2.02it/s]100%|█████████▉| 10663/10696 [1:54:48<00:16,  2.02it/s]100%|█████████▉| 10664/10696 [1:54:48<00:15,  2.01it/s]100%|█████████▉| 10665/10696 [1:54:49<00:15,  2.01it/s]100%|█████████▉| 10666/10696 [1:54:49<00:14,  2.02it/s]100%|█████████▉| 10667/10696 [1:54:50<00:14,  2.01it/s]100%|█████████▉| 10668/10696 [1:54:50<00:13,  2.02it/s]100%|█████████▉| 10669/10696 [1:54:51<00:13,  2.01it/s]100%|█████████▉| 10670/10696 [1:54:51<00:12,  2.01it/s]100%|█████████▉| 10671/10696 [1:54:52<00:12,  2.01it/s]100%|█████████▉| 10672/10696 [1:54:52<00:11,  2.01it/s]100%|█████████▉| 10673/10696 [1:54:53<00:11,  2.01it/s]100%|█████████▉| 10674/10696 [1:54:53<00:10,  2.01it/s]100%|█████████▉| 10675/10696 [1:54:54<00:10,  2.01it/s]{'loss': 3.604, 'grad_norm': 0.19714075326919556, 'learning_rate': 1.1743158666366327e-08, 'epoch': 1.0}                                                       
-100%|█████████▉| 10675/10696 [1:54:54<00:10,  2.01it/s]100%|█████████▉| 10676/10696 [1:54:54<00:09,  2.01it/s]100%|█████████▉| 10677/10696 [1:54:55<00:09,  2.01it/s]100%|█████████▉| 10678/10696 [1:54:55<00:08,  2.02it/s]100%|█████████▉| 10679/10696 [1:54:56<00:08,  2.02it/s]100%|█████████▉| 10680/10696 [1:54:56<00:07,  2.02it/s]100%|█████████▉| 10681/10696 [1:54:57<00:07,  2.02it/s]100%|█████████▉| 10682/10696 [1:54:57<00:06,  2.02it/s]100%|█████████▉| 10683/10696 [1:54:58<00:06,  2.02it/s]100%|█████████▉| 10684/10696 [1:54:58<00:05,  2.02it/s]100%|█████████▉| 10685/10696 [1:54:59<00:05,  2.01it/s]100%|█████████▉| 10686/10696 [1:54:59<00:04,  2.02it/s]100%|█████████▉| 10687/10696 [1:55:00<00:04,  2.01it/s]100%|█████████▉| 10688/10696 [1:55:00<00:03,  2.02it/s]100%|█████████▉| 10689/10696 [1:55:01<00:03,  2.01it/s]100%|█████████▉| 10690/10696 [1:55:01<00:02,  2.01it/s]100%|█████████▉| 10691/10696 [1:55:02<00:02,  2.01it/s]100%|█████████▉| 10692/10696 [1:55:02<00:01,  2.01it/s]100%|█████████▉| 10693/10696 [1:55:03<00:01,  2.01it/s]100%|█████████▉| 10694/10696 [1:55:03<00:00,  2.01it/s]100%|█████████▉| 10695/10696 [1:55:04<00:00,  2.01it/s]100%|██████████| 10696/10696 [1:55:05<00:00,  1.30it/s]                                                       {'train_runtime': 6917.2103, 'train_samples_per_second': 1583.429, 'train_steps_per_second': 1.546, 'train_loss': 3.9810526098167176, 'epoch': 1.0}
-100%|██████████| 10696/10696 [1:55:17<00:00,  1.30it/s]100%|██████████| 10696/10696 [1:55:17<00:00,  1.55it/s]
+  0%|          | 1/10712 [00:16<49:50:45, 16.75s/it]  0%|          | 2/10712 [00:22<29:53:05, 10.05s/it]  0%|          | 3/10712 [00:26<22:07:17,  7.44s/it]  0%|          | 4/10712 [00:30<18:15:54,  6.14s/it]  0%|          | 5/10712 [00:34<15:45:51,  5.30s/it]  0%|          | 6/10712 [00:38<14:08:05,  4.75s/it]  0%|          | 7/10712 [00:41<12:57:57,  4.36s/it]  0%|          | 8/10712 [00:45<12:04:29,  4.06s/it]  0%|          | 9/10712 [00:48<11:14:04,  3.78s/it]  0%|          | 10/10712 [00:51<10:34:24,  3.56s/it]  0%|          | 11/10712 [00:54<9:58:53,  3.36s/it]   0%|          | 12/10712 [00:57<9:32:55,  3.21s/it]  0%|          | 13/10712 [00:59<9:01:37,  3.04s/it]  0%|          | 14/10712 [01:02<8:36:20,  2.90s/it]  0%|          | 15/10712 [01:04<8:14:25,  2.77s/it]  0%|          | 16/10712 [01:07<7:50:45,  2.64s/it]  0%|          | 17/10712 [01:09<7:37:18,  2.57s/it]  0%|          | 18/10712 [01:11<7:20:10,  2.47s/it]  0%|          | 19/10712 [01:14<7:10:35,  2.42s/it]  0%|          | 20/10712 [01:16<6:56:03,  2.33s/it]  0%|          | 21/10712 [01:18<6:35:55,  2.22s/it]  0%|          | 22/10712 [01:20<6:25:25,  2.16s/it]  0%|          | 23/10712 [01:22<6:15:31,  2.11s/it]  0%|          | 24/10712 [01:24<6:08:46,  2.07s/it]  0%|          | 25/10712 [01:26<5:59:43,  2.02s/it]                                                    {'loss': 10.637, 'grad_norm': 1.5590431690216064, 'learning_rate': 2.332089552238806e-05, 'epoch': 0.0}
+  0%|          | 25/10712 [01:26<5:59:43,  2.02s/it]  0%|          | 26/10712 [01:27<5:57:36,  2.01s/it]  0%|          | 27/10712 [01:29<5:44:07,  1.93s/it]  0%|          | 28/10712 [01:31<5:31:19,  1.86s/it]  0%|          | 29/10712 [01:33<5:22:18,  1.81s/it]  0%|          | 30/10712 [01:34<5:15:52,  1.77s/it]  0%|          | 31/10712 [01:36<5:10:34,  1.74s/it]  0%|          | 32/10712 [01:38<5:00:08,  1.69s/it]  0%|          | 33/10712 [01:39<4:56:01,  1.66s/it]  0%|          | 34/10712 [01:41<4:52:11,  1.64s/it]  0%|          | 35/10712 [01:42<4:41:23,  1.58s/it]  0%|          | 36/10712 [01:44<4:38:35,  1.57s/it]  0%|          | 37/10712 [01:45<4:32:02,  1.53s/it]  0%|          | 38/10712 [01:47<4:28:43,  1.51s/it]  0%|          | 39/10712 [01:48<4:26:36,  1.50s/it]  0%|          | 40/10712 [01:49<4:20:34,  1.47s/it]  0%|          | 41/10712 [01:51<4:15:41,  1.44s/it]  0%|          | 42/10712 [01:52<4:14:02,  1.43s/it]  0%|          | 43/10712 [01:54<4:09:43,  1.40s/it]  0%|          | 44/10712 [01:55<4:03:28,  1.37s/it]  0%|          | 45/10712 [01:56<3:56:32,  1.33s/it]  0%|          | 46/10712 [01:57<3:54:14,  1.32s/it]  0%|          | 47/10712 [01:59<3:55:04,  1.32s/it]  0%|          | 48/10712 [02:00<3:48:49,  1.29s/it]  0%|          | 49/10712 [02:01<3:47:08,  1.28s/it]  0%|          | 50/10712 [02:02<3:44:27,  1.26s/it]                                                    {'loss': 9.8854, 'grad_norm': 1.4596444368362427, 'learning_rate': 4.664179104477612e-05, 'epoch': 0.0}
+  0%|          | 50/10712 [02:02<3:44:27,  1.26s/it]  0%|          | 51/10712 [02:04<3:46:50,  1.28s/it]  0%|          | 52/10712 [02:05<3:42:07,  1.25s/it]  0%|          | 53/10712 [02:06<3:36:46,  1.22s/it]  1%|          | 54/10712 [02:07<3:35:30,  1.21s/it]  1%|          | 55/10712 [02:08<3:33:43,  1.20s/it]  1%|          | 56/10712 [02:10<3:30:21,  1.18s/it]  1%|          | 57/10712 [02:11<3:27:03,  1.17s/it]  1%|          | 58/10712 [02:12<3:24:02,  1.15s/it]  1%|          | 59/10712 [02:13<3:22:36,  1.14s/it]  1%|          | 60/10712 [02:14<3:19:58,  1.13s/it]  1%|          | 61/10712 [02:15<3:14:34,  1.10s/it]  1%|          | 62/10712 [02:16<3:12:14,  1.08s/it]  1%|          | 63/10712 [02:17<3:12:13,  1.08s/it]  1%|          | 64/10712 [02:18<3:10:09,  1.07s/it]  1%|          | 65/10712 [02:19<3:08:29,  1.06s/it]  1%|          | 66/10712 [02:20<3:08:33,  1.06s/it]  1%|          | 67/10712 [02:21<3:07:03,  1.05s/it]  1%|          | 68/10712 [02:22<3:04:15,  1.04s/it]  1%|          | 69/10712 [02:23<3:01:19,  1.02s/it]  1%|          | 70/10712 [02:24<2:59:21,  1.01s/it]  1%|          | 71/10712 [02:25<2:58:55,  1.01s/it]  1%|          | 72/10712 [02:26<2:57:34,  1.00s/it]  1%|          | 73/10712 [02:27<2:56:35,  1.00it/s]  1%|          | 74/10712 [02:28<2:57:03,  1.00it/s]  1%|          | 75/10712 [02:29<2:55:38,  1.01it/s]                                                    {'loss': 9.1946, 'grad_norm': 1.232470989227295, 'learning_rate': 6.996268656716417e-05, 'epoch': 0.01}
+  1%|          | 75/10712 [02:29<2:55:38,  1.01it/s]  1%|          | 76/10712 [02:30<2:53:00,  1.02it/s]  1%|          | 77/10712 [02:31<2:54:49,  1.01it/s]  1%|          | 78/10712 [02:32<2:52:02,  1.03it/s]  1%|          | 79/10712 [02:33<2:50:44,  1.04it/s]  1%|          | 80/10712 [02:34<2:49:28,  1.05it/s]  1%|          | 81/10712 [02:35<2:46:35,  1.06it/s]  1%|          | 82/10712 [02:36<2:45:56,  1.07it/s]  1%|          | 83/10712 [02:37<2:46:30,  1.06it/s]  1%|          | 84/10712 [02:38<2:44:58,  1.07it/s]  1%|          | 85/10712 [02:39<2:45:08,  1.07it/s]  1%|          | 86/10712 [02:40<2:43:12,  1.09it/s]  1%|          | 87/10712 [02:41<2:41:03,  1.10it/s]  1%|          | 88/10712 [02:41<2:41:00,  1.10it/s]  1%|          | 89/10712 [02:42<2:40:04,  1.11it/s]  1%|          | 90/10712 [02:43<2:37:04,  1.13it/s]  1%|          | 91/10712 [02:44<2:37:29,  1.12it/s]  1%|          | 92/10712 [02:45<2:36:50,  1.13it/s]  1%|          | 93/10712 [02:46<2:34:02,  1.15it/s]  1%|          | 94/10712 [02:47<2:34:34,  1.14it/s]  1%|          | 95/10712 [02:48<2:34:33,  1.14it/s]  1%|          | 96/10712 [02:48<2:33:17,  1.15it/s]  1%|          | 97/10712 [02:49<2:30:31,  1.18it/s]  1%|          | 98/10712 [02:50<2:29:58,  1.18it/s]  1%|          | 99/10712 [02:51<2:29:49,  1.18it/s]  1%|          | 100/10712 [02:52<2:29:01,  1.19it/s]                                                     {'loss': 8.4466, 'grad_norm': 0.8701647520065308, 'learning_rate': 9.328358208955224e-05, 'epoch': 0.01}
+  1%|          | 100/10712 [02:52<2:29:01,  1.19it/s]  1%|          | 101/10712 [02:53<2:28:50,  1.19it/s]  1%|          | 102/10712 [02:53<2:28:03,  1.19it/s]  1%|          | 103/10712 [02:54<2:27:02,  1.20it/s]  1%|          | 104/10712 [02:55<2:25:59,  1.21it/s]  1%|          | 105/10712 [02:56<2:24:17,  1.23it/s]  1%|          | 106/10712 [02:57<2:24:10,  1.23it/s]  1%|          | 107/10712 [02:57<2:22:44,  1.24it/s]  1%|          | 108/10712 [02:58<2:21:13,  1.25it/s]  1%|          | 109/10712 [02:59<2:21:13,  1.25it/s]  1%|          | 110/10712 [03:00<2:19:44,  1.26it/s]  1%|          | 111/10712 [03:01<2:18:44,  1.27it/s]  1%|          | 112/10712 [03:01<2:18:25,  1.28it/s]  1%|          | 113/10712 [03:02<2:16:48,  1.29it/s]  1%|          | 114/10712 [03:03<2:16:36,  1.29it/s]  1%|          | 115/10712 [03:04<2:16:23,  1.29it/s]  1%|          | 116/10712 [03:04<2:15:43,  1.30it/s]  1%|          | 117/10712 [03:05<2:15:12,  1.31it/s]  1%|          | 118/10712 [03:06<2:15:26,  1.30it/s]  1%|          | 119/10712 [03:07<2:15:28,  1.30it/s]  1%|          | 120/10712 [03:07<2:15:28,  1.30it/s]  1%|          | 121/10712 [03:08<2:13:33,  1.32it/s]  1%|          | 122/10712 [03:09<2:13:10,  1.33it/s]  1%|          | 123/10712 [03:10<2:13:21,  1.32it/s]  1%|          | 124/10712 [03:10<2:12:28,  1.33it/s]  1%|          | 125/10712 [03:11<2:12:10,  1.33it/s]                                                     {'loss': 7.8219, 'grad_norm': 0.4748566448688507, 'learning_rate': 0.00011660447761194031, 'epoch': 0.01}
+  1%|          | 125/10712 [03:11<2:12:10,  1.33it/s]  1%|          | 126/10712 [03:12<2:11:22,  1.34it/s]  1%|          | 127/10712 [03:13<2:09:58,  1.36it/s]  1%|          | 128/10712 [03:13<2:09:52,  1.36it/s]  1%|          | 129/10712 [03:14<2:09:34,  1.36it/s]  1%|          | 130/10712 [03:15<2:11:24,  1.34it/s]  1%|          | 131/10712 [03:16<2:10:55,  1.35it/s]  1%|          | 132/10712 [03:16<2:10:54,  1.35it/s]  1%|          | 133/10712 [03:17<2:11:34,  1.34it/s]  1%|▏         | 134/10712 [03:18<2:09:26,  1.36it/s]  1%|▏         | 135/10712 [03:19<2:10:11,  1.35it/s]  1%|▏         | 136/10712 [03:19<2:08:22,  1.37it/s]  1%|▏         | 137/10712 [03:20<2:06:45,  1.39it/s]  1%|▏         | 138/10712 [03:21<2:04:40,  1.41it/s]  1%|▏         | 139/10712 [03:21<2:04:06,  1.42it/s]  1%|▏         | 140/10712 [03:22<2:03:03,  1.43it/s]  1%|▏         | 141/10712 [03:23<2:04:50,  1.41it/s]  1%|▏         | 142/10712 [03:23<2:02:49,  1.43it/s]  1%|▏         | 143/10712 [03:24<2:03:51,  1.42it/s]  1%|▏         | 144/10712 [03:25<2:02:32,  1.44it/s]  1%|▏         | 145/10712 [03:25<2:01:20,  1.45it/s]  1%|▏         | 146/10712 [03:26<2:01:20,  1.45it/s]  1%|▏         | 147/10712 [03:27<2:13:03,  1.32it/s]  1%|▏         | 148/10712 [03:28<2:08:35,  1.37it/s]  1%|▏         | 149/10712 [03:28<2:05:41,  1.40it/s]  1%|▏         | 150/10712 [03:29<2:04:02,  1.42it/s]                                                     {'loss': 7.3884, 'grad_norm': 0.3904429078102112, 'learning_rate': 0.00013992537313432834, 'epoch': 0.01}
+  1%|▏         | 150/10712 [03:29<2:04:02,  1.42it/s]  1%|▏         | 151/10712 [03:30<2:02:29,  1.44it/s]  1%|▏         | 152/10712 [03:30<2:01:16,  1.45it/s]  1%|▏         | 153/10712 [03:32<2:23:03,  1.23it/s]  1%|▏         | 154/10712 [03:32<2:15:07,  1.30it/s]  1%|▏         | 155/10712 [03:33<2:20:23,  1.25it/s]  1%|▏         | 156/10712 [03:34<2:27:35,  1.19it/s]  1%|▏         | 157/10712 [03:35<2:18:14,  1.27it/s]  1%|▏         | 158/10712 [03:35<2:12:25,  1.33it/s]  1%|▏         | 159/10712 [03:36<2:08:15,  1.37it/s]  1%|▏         | 160/10712 [03:37<2:04:42,  1.41it/s]  2%|▏         | 161/10712 [03:37<2:04:38,  1.41it/s]  2%|▏         | 162/10712 [03:38<2:00:55,  1.45it/s]  2%|▏         | 163/10712 [03:39<2:00:00,  1.46it/s]  2%|▏         | 164/10712 [03:39<1:58:40,  1.48it/s]  2%|▏         | 165/10712 [03:40<2:06:53,  1.39it/s]  2%|▏         | 166/10712 [03:41<2:03:54,  1.42it/s]  2%|▏         | 167/10712 [03:42<2:01:37,  1.45it/s]  2%|▏         | 168/10712 [03:42<1:59:46,  1.47it/s]  2%|▏         | 169/10712 [03:43<1:58:54,  1.48it/s]  2%|▏         | 170/10712 [03:43<1:56:44,  1.51it/s]  2%|▏         | 171/10712 [03:44<2:02:00,  1.44it/s]  2%|▏         | 172/10712 [03:45<1:56:45,  1.50it/s]  2%|▏         | 173/10712 [03:46<2:22:24,  1.23it/s]  2%|▏         | 174/10712 [03:47<2:14:36,  1.30it/s]  2%|▏         | 175/10712 [03:47<2:12:42,  1.32it/s]                                                     {'loss': 7.0429, 'grad_norm': 0.36491721868515015, 'learning_rate': 0.00016324626865671642, 'epoch': 0.02}
+  2%|▏         | 175/10712 [03:47<2:12:42,  1.32it/s]  2%|▏         | 176/10712 [03:48<2:06:18,  1.39it/s]  2%|▏         | 177/10712 [03:49<2:06:01,  1.39it/s]  2%|▏         | 178/10712 [03:50<2:15:34,  1.29it/s]  2%|▏         | 179/10712 [03:51<2:32:46,  1.15it/s]  2%|▏         | 180/10712 [03:51<2:20:12,  1.25it/s]  2%|▏         | 181/10712 [03:52<2:23:24,  1.22it/s]  2%|▏         | 182/10712 [03:53<2:16:49,  1.28it/s]  2%|▏         | 183/10712 [03:54<2:13:35,  1.31it/s]  2%|▏         | 184/10712 [03:54<2:09:38,  1.35it/s]  2%|▏         | 185/10712 [03:55<2:03:04,  1.43it/s]  2%|▏         | 186/10712 [03:56<1:59:16,  1.47it/s]  2%|▏         | 187/10712 [03:56<2:08:40,  1.36it/s]  2%|▏         | 188/10712 [03:57<2:03:36,  1.42it/s]  2%|▏         | 189/10712 [03:58<2:10:53,  1.34it/s]  2%|▏         | 190/10712 [03:58<2:03:13,  1.42it/s]  2%|▏         | 191/10712 [03:59<2:14:28,  1.30it/s]  2%|▏         | 192/10712 [04:00<2:06:19,  1.39it/s]  2%|▏         | 193/10712 [04:01<2:10:33,  1.34it/s]  2%|▏         | 194/10712 [04:01<2:03:56,  1.41it/s]  2%|▏         | 195/10712 [04:02<2:09:08,  1.36it/s]  2%|▏         | 196/10712 [04:03<2:02:39,  1.43it/s]  2%|▏         | 197/10712 [04:04<2:17:53,  1.27it/s]  2%|▏         | 198/10712 [04:05<2:18:45,  1.26it/s]  2%|▏         | 199/10712 [04:05<2:08:45,  1.36it/s]  2%|▏         | 200/10712 [04:06<2:02:02,  1.44it/s]                                                     {'loss': 6.7755, 'grad_norm': 0.36932021379470825, 'learning_rate': 0.00018656716417910448, 'epoch': 0.02}
+  2%|▏         | 200/10712 [04:06<2:02:02,  1.44it/s]  2%|▏         | 201/10712 [04:06<1:56:47,  1.50it/s]  2%|▏         | 202/10712 [04:07<2:07:29,  1.37it/s]  2%|▏         | 203/10712 [04:08<2:01:29,  1.44it/s]  2%|▏         | 204/10712 [04:09<2:41:06,  1.09it/s]  2%|▏         | 205/10712 [04:10<2:24:23,  1.21it/s]  2%|▏         | 206/10712 [04:11<2:22:40,  1.23it/s]  2%|▏         | 207/10712 [04:11<2:11:17,  1.33it/s]  2%|▏         | 208/10712 [04:12<2:15:01,  1.30it/s]  2%|▏         | 209/10712 [04:13<2:09:57,  1.35it/s]  2%|▏         | 210/10712 [04:13<2:03:05,  1.42it/s]  2%|▏         | 211/10712 [04:14<2:06:29,  1.38it/s]  2%|▏         | 212/10712 [04:15<1:59:28,  1.46it/s]  2%|▏         | 213/10712 [04:15<1:55:23,  1.52it/s]  2%|▏         | 214/10712 [04:16<2:13:11,  1.31it/s]  2%|▏         | 215/10712 [04:17<2:17:30,  1.27it/s]  2%|▏         | 216/10712 [04:18<2:06:58,  1.38it/s]  2%|▏         | 217/10712 [04:19<2:45:02,  1.06it/s]  2%|▏         | 218/10712 [04:20<2:41:23,  1.08it/s]  2%|▏         | 219/10712 [04:21<2:29:52,  1.17it/s]  2%|▏         | 220/10712 [04:22<2:27:08,  1.19it/s]  2%|▏         | 221/10712 [04:22<2:22:38,  1.23it/s]  2%|▏         | 222/10712 [04:23<2:11:35,  1.33it/s]  2%|▏         | 223/10712 [04:24<2:02:30,  1.43it/s]  2%|▏         | 224/10712 [04:25<2:11:31,  1.33it/s]  2%|▏         | 225/10712 [04:25<2:02:09,  1.43it/s]                                                     {'loss': 6.5533, 'grad_norm': 0.4625686705112457, 'learning_rate': 0.00020988805970149256, 'epoch': 0.02}
+  2%|▏         | 225/10712 [04:25<2:02:09,  1.43it/s]  2%|▏         | 226/10712 [04:26<2:04:56,  1.40it/s]  2%|▏         | 227/10712 [04:26<1:57:53,  1.48it/s]  2%|▏         | 228/10712 [04:27<1:57:56,  1.48it/s]  2%|▏         | 229/10712 [04:28<2:04:23,  1.40it/s]  2%|▏         | 230/10712 [04:29<2:07:25,  1.37it/s]  2%|▏         | 231/10712 [04:29<2:11:09,  1.33it/s]  2%|▏         | 232/10712 [04:30<2:00:19,  1.45it/s]  2%|▏         | 233/10712 [04:31<1:53:37,  1.54it/s]  2%|▏         | 234/10712 [04:31<1:49:13,  1.60it/s]  2%|▏         | 235/10712 [04:32<1:55:22,  1.51it/s]  2%|▏         | 236/10712 [04:33<1:59:48,  1.46it/s]  2%|▏         | 237/10712 [04:33<1:54:14,  1.53it/s]  2%|▏         | 238/10712 [04:34<2:05:19,  1.39it/s]  2%|▏         | 239/10712 [04:35<2:24:46,  1.21it/s]  2%|▏         | 240/10712 [04:36<2:17:02,  1.27it/s]  2%|▏         | 241/10712 [04:37<2:16:13,  1.28it/s]  2%|▏         | 242/10712 [04:37<2:06:11,  1.38it/s]  2%|▏         | 243/10712 [04:38<2:18:07,  1.26it/s]  2%|▏         | 244/10712 [04:39<2:21:59,  1.23it/s]  2%|▏         | 245/10712 [04:40<2:48:59,  1.03it/s]  2%|▏         | 246/10712 [04:41<2:40:46,  1.08it/s]  2%|▏         | 247/10712 [04:42<2:28:45,  1.17it/s]  2%|▏         | 248/10712 [04:42<2:13:22,  1.31it/s]  2%|▏         | 249/10712 [04:44<2:32:14,  1.15it/s]  2%|▏         | 250/10712 [04:44<2:16:32,  1.28it/s]                                                     {'loss': 6.3652, 'grad_norm': 0.6517781615257263, 'learning_rate': 0.00023320895522388062, 'epoch': 0.02}
+  2%|▏         | 250/10712 [04:44<2:16:32,  1.28it/s]  2%|▏         | 251/10712 [04:45<2:23:14,  1.22it/s]  2%|▏         | 252/10712 [04:46<2:21:08,  1.24it/s]  2%|▏         | 253/10712 [04:46<2:14:06,  1.30it/s]  2%|▏         | 254/10712 [04:47<2:13:46,  1.30it/s]  2%|▏         | 255/10712 [04:48<2:17:58,  1.26it/s]  2%|▏         | 256/10712 [04:49<2:18:14,  1.26it/s]  2%|▏         | 257/10712 [04:50<2:51:56,  1.01it/s]  2%|▏         | 258/10712 [04:51<2:29:10,  1.17it/s]  2%|▏         | 259/10712 [04:51<2:14:19,  1.30it/s]  2%|▏         | 260/10712 [04:52<2:02:22,  1.42it/s]  2%|▏         | 261/10712 [04:53<2:05:19,  1.39it/s]  2%|▏         | 262/10712 [04:53<1:56:29,  1.50it/s]  2%|▏         | 263/10712 [04:54<2:15:26,  1.29it/s]  2%|▏         | 264/10712 [04:55<2:28:11,  1.18it/s]  2%|▏         | 265/10712 [04:57<2:44:32,  1.06it/s]  2%|▏         | 266/10712 [04:57<2:23:42,  1.21it/s]  2%|▏         | 267/10712 [04:58<2:24:29,  1.20it/s]  3%|▎         | 268/10712 [04:59<2:29:51,  1.16it/s]  3%|▎         | 269/10712 [05:00<2:24:36,  1.20it/s]  3%|▎         | 270/10712 [05:01<2:28:25,  1.17it/s]  3%|▎         | 271/10712 [05:01<2:29:20,  1.17it/s]  3%|▎         | 272/10712 [05:02<2:20:23,  1.24it/s]  3%|▎         | 273/10712 [05:03<2:17:25,  1.27it/s]  3%|▎         | 274/10712 [05:04<3:02:12,  1.05s/it]  3%|▎         | 275/10712 [05:05<2:45:48,  1.05it/s]                                                     {'loss': 6.2057, 'grad_norm': 0.521963357925415, 'learning_rate': 0.00025652985074626865, 'epoch': 0.03}
+  3%|▎         | 275/10712 [05:05<2:45:48,  1.05it/s]  3%|▎         | 276/10712 [05:06<2:37:11,  1.11it/s]  3%|▎         | 277/10712 [05:07<2:34:56,  1.12it/s]  3%|▎         | 278/10712 [05:08<2:41:40,  1.08it/s]  3%|▎         | 279/10712 [05:09<2:55:37,  1.01s/it]  3%|▎         | 280/10712 [05:10<2:51:38,  1.01it/s]  3%|▎         | 281/10712 [05:11<2:38:49,  1.09it/s]  3%|▎         | 282/10712 [05:11<2:19:45,  1.24it/s]  3%|▎         | 283/10712 [05:12<2:17:09,  1.27it/s]  3%|▎         | 284/10712 [05:13<2:28:13,  1.17it/s]  3%|▎         | 285/10712 [05:14<2:15:03,  1.29it/s]  3%|▎         | 286/10712 [05:14<2:09:38,  1.34it/s]  3%|▎         | 287/10712 [05:15<2:26:21,  1.19it/s]  3%|▎         | 288/10712 [05:16<2:30:30,  1.15it/s]  3%|▎         | 289/10712 [05:17<2:13:43,  1.30it/s]  3%|▎         | 290/10712 [05:18<2:21:54,  1.22it/s]  3%|▎         | 291/10712 [05:19<2:38:14,  1.10it/s]  3%|▎         | 292/10712 [05:20<2:36:17,  1.11it/s]  3%|▎         | 293/10712 [05:21<2:40:57,  1.08it/s]  3%|▎         | 294/10712 [05:22<2:51:15,  1.01it/s]  3%|▎         | 295/10712 [05:23<2:53:11,  1.00it/s]  3%|▎         | 296/10712 [05:24<3:05:26,  1.07s/it]  3%|▎         | 297/10712 [05:25<2:47:19,  1.04it/s]  3%|▎         | 298/10712 [05:26<2:57:31,  1.02s/it]  3%|▎         | 299/10712 [05:27<2:37:24,  1.10it/s]  3%|▎         | 300/10712 [05:28<2:34:30,  1.12it/s]                                                     {'loss': 6.0639, 'grad_norm': 0.6356621384620667, 'learning_rate': 0.0002798507462686567, 'epoch': 0.03}
+  3%|▎         | 300/10712 [05:28<2:34:30,  1.12it/s]  3%|▎         | 301/10712 [05:28<2:23:47,  1.21it/s]  3%|▎         | 302/10712 [05:29<2:36:16,  1.11it/s]  3%|▎         | 303/10712 [05:31<3:25:26,  1.18s/it]  3%|▎         | 304/10712 [05:32<3:04:15,  1.06s/it]  3%|▎         | 305/10712 [05:33<2:51:27,  1.01it/s]  3%|▎         | 306/10712 [05:33<2:37:28,  1.10it/s]  3%|▎         | 307/10712 [05:34<2:40:25,  1.08it/s]  3%|▎         | 308/10712 [05:35<2:33:00,  1.13it/s]  3%|▎         | 309/10712 [05:36<2:30:07,  1.15it/s]  3%|▎         | 310/10712 [05:37<2:42:21,  1.07it/s]  3%|▎         | 311/10712 [05:38<2:33:51,  1.13it/s]  3%|▎         | 312/10712 [05:39<2:48:42,  1.03it/s]  3%|▎         | 313/10712 [05:41<3:46:30,  1.31s/it]  3%|▎         | 314/10712 [05:43<3:51:15,  1.33s/it]  3%|▎         | 315/10712 [05:44<3:37:22,  1.25s/it]  3%|▎         | 316/10712 [05:45<4:09:02,  1.44s/it]  3%|▎         | 317/10712 [05:47<4:05:17,  1.42s/it]  3%|▎         | 318/10712 [05:47<3:21:23,  1.16s/it]  3%|▎         | 319/10712 [05:48<3:02:02,  1.05s/it]  3%|▎         | 320/10712 [05:49<3:06:20,  1.08s/it]  3%|▎         | 321/10712 [05:51<3:10:10,  1.10s/it]  3%|▎         | 322/10712 [05:51<2:52:58,  1.00it/s]  3%|▎         | 323/10712 [05:52<2:35:18,  1.11it/s]  3%|▎         | 324/10712 [05:54<3:25:15,  1.19s/it]  3%|▎         | 325/10712 [05:55<3:39:07,  1.27s/it]                                                     {'loss': 5.9374, 'grad_norm': 0.9694742560386658, 'learning_rate': 0.00030317164179104476, 'epoch': 0.03}
+  3%|▎         | 325/10712 [05:55<3:39:07,  1.27s/it]  3%|▎         | 326/10712 [05:56<3:26:19,  1.19s/it]  3%|▎         | 327/10712 [05:57<3:25:26,  1.19s/it]  3%|▎         | 328/10712 [05:59<3:37:50,  1.26s/it]  3%|▎         | 329/10712 [06:00<3:50:39,  1.33s/it]  3%|▎         | 330/10712 [06:02<3:46:43,  1.31s/it]  3%|▎         | 331/10712 [06:03<3:42:41,  1.29s/it]  3%|▎         | 332/10712 [06:04<3:41:24,  1.28s/it]  3%|▎         | 333/10712 [06:06<4:22:44,  1.52s/it]  3%|▎         | 334/10712 [06:07<4:00:56,  1.39s/it]  3%|▎         | 335/10712 [06:08<3:39:36,  1.27s/it]  3%|▎         | 336/10712 [06:09<3:17:41,  1.14s/it]  3%|▎         | 337/10712 [06:10<2:58:33,  1.03s/it]  3%|▎         | 338/10712 [06:11<3:16:03,  1.13s/it]  3%|▎         | 339/10712 [06:12<3:07:46,  1.09s/it]  3%|▎         | 340/10712 [06:13<2:45:00,  1.05it/s]  3%|▎         | 341/10712 [06:14<2:58:48,  1.03s/it]  3%|▎         | 342/10712 [06:15<2:44:10,  1.05it/s]  3%|▎         | 343/10712 [06:17<3:24:39,  1.18s/it]  3%|▎         | 344/10712 [06:17<3:06:56,  1.08s/it]  3%|▎         | 345/10712 [06:19<3:23:20,  1.18s/it]  3%|▎         | 346/10712 [06:20<3:32:28,  1.23s/it]  3%|▎         | 347/10712 [06:21<3:32:43,  1.23s/it]  3%|▎         | 348/10712 [06:23<3:53:07,  1.35s/it]  3%|▎         | 349/10712 [06:25<4:06:03,  1.42s/it]  3%|▎         | 350/10712 [06:26<3:42:16,  1.29s/it]                                                     {'loss': 5.8363, 'grad_norm': 0.6399821043014526, 'learning_rate': 0.00032649253731343285, 'epoch': 0.03}
+  3%|▎         | 350/10712 [06:26<3:42:16,  1.29s/it]  3%|▎         | 351/10712 [06:26<3:19:54,  1.16s/it]  3%|▎         | 352/10712 [06:28<4:00:55,  1.40s/it]  3%|▎         | 353/10712 [06:30<3:48:56,  1.33s/it]  3%|▎         | 354/10712 [06:31<3:40:14,  1.28s/it]  3%|▎         | 355/10712 [06:33<4:23:32,  1.53s/it]  3%|▎         | 356/10712 [06:34<3:42:53,  1.29s/it]  3%|▎         | 357/10712 [06:35<3:52:54,  1.35s/it]  3%|▎         | 358/10712 [06:37<4:20:52,  1.51s/it]  3%|▎         | 359/10712 [06:39<4:29:41,  1.56s/it]  3%|▎         | 360/10712 [06:41<4:45:47,  1.66s/it]  3%|▎         | 361/10712 [06:42<4:30:57,  1.57s/it]  3%|▎         | 362/10712 [06:44<4:47:03,  1.66s/it]  3%|▎         | 363/10712 [06:45<4:35:07,  1.60s/it]  3%|▎         | 364/10712 [06:47<4:57:16,  1.72s/it]  3%|▎         | 365/10712 [06:49<4:37:42,  1.61s/it]  3%|▎         | 366/10712 [06:50<4:28:43,  1.56s/it]  3%|▎         | 367/10712 [06:51<3:56:42,  1.37s/it]  3%|▎         | 368/10712 [06:53<4:23:11,  1.53s/it]  3%|▎         | 369/10712 [06:55<4:50:02,  1.68s/it]  3%|▎         | 370/10712 [06:56<4:29:15,  1.56s/it]  3%|▎         | 371/10712 [06:58<4:27:20,  1.55s/it]  3%|▎         | 372/10712 [06:59<3:50:51,  1.34s/it]  3%|▎         | 373/10712 [07:00<4:13:41,  1.47s/it]  3%|▎         | 374/10712 [07:01<3:57:16,  1.38s/it]  4%|▎         | 375/10712 [07:03<4:09:00,  1.45s/it]                                                     {'loss': 5.7355, 'grad_norm': 0.6212801933288574, 'learning_rate': 0.0003498134328358209, 'epoch': 0.04}
+  4%|▎         | 375/10712 [07:03<4:09:00,  1.45s/it]  4%|▎         | 376/10712 [07:05<4:44:25,  1.65s/it]  4%|▎         | 377/10712 [07:07<4:52:31,  1.70s/it]  4%|▎         | 378/10712 [07:08<4:26:07,  1.55s/it]  4%|▎         | 379/10712 [07:10<4:47:36,  1.67s/it]  4%|▎         | 380/10712 [07:12<4:49:06,  1.68s/it]  4%|▎         | 381/10712 [07:13<4:30:25,  1.57s/it]  4%|▎         | 382/10712 [07:15<4:46:18,  1.66s/it]  4%|▎         | 383/10712 [07:17<4:35:43,  1.60s/it]  4%|▎         | 384/10712 [07:18<4:52:46,  1.70s/it]  4%|▎         | 385/10712 [07:19<4:01:26,  1.40s/it]  4%|▎         | 386/10712 [07:21<4:03:37,  1.42s/it]  4%|▎         | 387/10712 [07:22<4:15:14,  1.48s/it]  4%|▎         | 388/10712 [07:23<3:49:21,  1.33s/it]  4%|▎         | 389/10712 [07:25<4:16:25,  1.49s/it]  4%|▎         | 390/10712 [07:27<4:19:38,  1.51s/it]  4%|▎         | 391/10712 [07:28<4:21:00,  1.52s/it]  4%|▎         | 392/10712 [07:31<5:21:45,  1.87s/it]  4%|▎         | 393/10712 [07:32<4:40:07,  1.63s/it]  4%|▎         | 394/10712 [07:33<4:23:32,  1.53s/it]  4%|▎         | 395/10712 [07:34<3:31:20,  1.23s/it]  4%|▎         | 396/10712 [07:35<3:32:44,  1.24s/it]  4%|▎         | 397/10712 [07:36<3:31:39,  1.23s/it]  4%|▎         | 398/10712 [07:38<4:02:49,  1.41s/it]  4%|▎         | 399/10712 [07:40<4:23:48,  1.53s/it]  4%|▎         | 400/10712 [07:41<4:22:43,  1.53s/it]                                                     {'loss': 5.6503, 'grad_norm': 0.6092248558998108, 'learning_rate': 0.00037313432835820896, 'epoch': 0.04}
+  4%|▎         | 400/10712 [07:41<4:22:43,  1.53s/it]  4%|▎         | 401/10712 [07:43<4:27:34,  1.56s/it]  4%|▍         | 402/10712 [07:44<4:12:20,  1.47s/it]  4%|▍         | 403/10712 [07:46<4:28:08,  1.56s/it]  4%|▍         | 404/10712 [07:47<4:14:27,  1.48s/it]  4%|▍         | 405/10712 [07:49<4:33:04,  1.59s/it]  4%|▍         | 406/10712 [07:51<4:56:04,  1.72s/it]  4%|▍         | 407/10712 [07:54<5:31:15,  1.93s/it]  4%|▍         | 408/10712 [07:56<5:58:12,  2.09s/it]  4%|▍         | 409/10712 [07:57<5:11:43,  1.82s/it]  4%|▍         | 410/10712 [07:59<5:22:34,  1.88s/it]  4%|▍         | 411/10712 [08:02<5:40:25,  1.98s/it]  4%|▍         | 412/10712 [08:04<5:44:55,  2.01s/it]  4%|▍         | 413/10712 [08:05<5:07:26,  1.79s/it]  4%|▍         | 414/10712 [08:07<5:03:58,  1.77s/it]  4%|▍         | 415/10712 [08:08<4:46:15,  1.67s/it]  4%|▍         | 416/10712 [08:10<4:51:24,  1.70s/it]  4%|▍         | 417/10712 [08:12<4:57:18,  1.73s/it]  4%|▍         | 418/10712 [08:13<4:47:58,  1.68s/it]  4%|▍         | 419/10712 [08:15<4:58:06,  1.74s/it]  4%|▍         | 420/10712 [08:16<4:27:47,  1.56s/it]  4%|▍         | 421/10712 [08:18<4:23:50,  1.54s/it]  4%|▍         | 422/10712 [08:20<4:48:06,  1.68s/it]  4%|▍         | 423/10712 [08:21<4:40:54,  1.64s/it]  4%|▍         | 424/10712 [08:23<4:28:49,  1.57s/it]  4%|▍         | 425/10712 [08:24<4:29:24,  1.57s/it]                                                     {'loss': 5.5606, 'grad_norm': 0.5750597715377808, 'learning_rate': 0.00039645522388059704, 'epoch': 0.04}
+  4%|▍         | 425/10712 [08:24<4:29:24,  1.57s/it]  4%|▍         | 426/10712 [08:26<4:14:50,  1.49s/it]  4%|▍         | 427/10712 [08:27<4:31:13,  1.58s/it]  4%|▍         | 428/10712 [08:29<4:41:34,  1.64s/it]  4%|▍         | 429/10712 [08:31<4:47:47,  1.68s/it]  4%|▍         | 430/10712 [08:32<4:02:04,  1.41s/it]  4%|▍         | 431/10712 [08:33<4:11:09,  1.47s/it]  4%|▍         | 432/10712 [08:35<4:06:39,  1.44s/it]  4%|▍         | 433/10712 [08:36<3:55:52,  1.38s/it]  4%|▍         | 434/10712 [08:38<4:16:57,  1.50s/it]  4%|▍         | 435/10712 [08:39<4:07:54,  1.45s/it]  4%|▍         | 436/10712 [08:41<4:57:42,  1.74s/it]  4%|▍         | 437/10712 [08:43<4:54:00,  1.72s/it]  4%|▍         | 438/10712 [08:45<5:19:43,  1.87s/it]  4%|▍         | 439/10712 [08:48<5:40:14,  1.99s/it]  4%|▍         | 440/10712 [08:50<6:07:04,  2.14s/it]  4%|▍         | 441/10712 [08:52<5:44:07,  2.01s/it]  4%|▍         | 442/10712 [08:54<5:35:01,  1.96s/it]  4%|▍         | 443/10712 [08:56<5:59:24,  2.10s/it]  4%|▍         | 444/10712 [08:57<5:07:44,  1.80s/it]  4%|▍         | 445/10712 [08:58<4:36:37,  1.62s/it]  4%|▍         | 446/10712 [09:00<4:42:24,  1.65s/it]  4%|▍         | 447/10712 [09:02<5:04:05,  1.78s/it]  4%|▍         | 448/10712 [09:04<4:46:14,  1.67s/it]  4%|▍         | 449/10712 [09:05<4:57:37,  1.74s/it]  4%|▍         | 450/10712 [09:07<4:59:05,  1.75s/it]                                                     {'loss': 5.4866, 'grad_norm': 0.6031320095062256, 'learning_rate': 0.0004197761194029851, 'epoch': 0.04}
+  4%|▍         | 450/10712 [09:07<4:59:05,  1.75s/it]  4%|▍         | 451/10712 [09:09<4:54:50,  1.72s/it]  4%|▍         | 452/10712 [09:11<5:14:25,  1.84s/it]  4%|▍         | 453/10712 [09:13<5:15:09,  1.84s/it]  4%|▍         | 454/10712 [09:15<5:12:01,  1.83s/it]  4%|▍         | 455/10712 [09:16<4:39:35,  1.64s/it]  4%|▍         | 456/10712 [09:18<5:04:23,  1.78s/it]  4%|▍         | 457/10712 [09:20<4:57:57,  1.74s/it]  4%|▍         | 458/10712 [09:21<4:32:00,  1.59s/it]  4%|▍         | 459/10712 [09:23<5:16:35,  1.85s/it]  4%|▍         | 460/10712 [09:25<5:17:38,  1.86s/it]  4%|▍         | 461/10712 [09:27<5:20:13,  1.87s/it]  4%|▍         | 462/10712 [09:29<5:00:06,  1.76s/it]  4%|▍         | 463/10712 [09:31<5:19:59,  1.87s/it]  4%|▍         | 464/10712 [09:32<4:58:07,  1.75s/it]  4%|▍         | 465/10712 [09:33<4:31:49,  1.59s/it]  4%|▍         | 466/10712 [09:35<4:27:06,  1.56s/it]  4%|▍         | 467/10712 [09:36<4:21:38,  1.53s/it]  4%|▍         | 468/10712 [09:38<4:17:23,  1.51s/it]  4%|▍         | 469/10712 [09:39<4:20:54,  1.53s/it]  4%|▍         | 470/10712 [09:42<4:58:06,  1.75s/it]  4%|▍         | 471/10712 [09:44<5:22:57,  1.89s/it]  4%|▍         | 472/10712 [09:46<5:33:03,  1.95s/it]  4%|▍         | 473/10712 [09:47<4:50:52,  1.70s/it]  4%|▍         | 474/10712 [09:49<5:26:21,  1.91s/it]  4%|▍         | 475/10712 [09:51<5:04:01,  1.78s/it]                                                     {'loss': 5.426, 'grad_norm': 0.5352821350097656, 'learning_rate': 0.00044309701492537316, 'epoch': 0.04}
+  4%|▍         | 475/10712 [09:51<5:04:01,  1.78s/it]  4%|▍         | 476/10712 [09:53<5:30:58,  1.94s/it]  4%|▍         | 477/10712 [09:55<5:30:42,  1.94s/it]  4%|▍         | 478/10712 [09:57<5:35:54,  1.97s/it]  4%|▍         | 479/10712 [09:59<5:49:25,  2.05s/it]  4%|▍         | 480/10712 [10:01<5:39:55,  1.99s/it]  4%|▍         | 481/10712 [10:04<6:30:55,  2.29s/it]  4%|▍         | 482/10712 [10:06<6:19:05,  2.22s/it]  5%|▍         | 483/10712 [10:09<6:31:44,  2.30s/it]  5%|▍         | 484/10712 [10:11<6:02:09,  2.12s/it]  5%|▍         | 485/10712 [10:12<5:34:55,  1.96s/it]  5%|▍         | 486/10712 [10:14<5:51:16,  2.06s/it]  5%|▍         | 487/10712 [10:17<6:10:50,  2.18s/it]  5%|▍         | 488/10712 [10:20<6:46:38,  2.39s/it]  5%|▍         | 489/10712 [10:22<7:00:31,  2.47s/it]  5%|▍         | 490/10712 [10:25<7:13:35,  2.55s/it]  5%|▍         | 491/10712 [10:27<6:23:22,  2.25s/it]  5%|▍         | 492/10712 [10:28<5:50:37,  2.06s/it]  5%|▍         | 493/10712 [10:31<6:09:28,  2.17s/it]  5%|▍         | 494/10712 [10:33<6:27:44,  2.28s/it]  5%|▍         | 495/10712 [10:36<6:39:46,  2.35s/it]  5%|▍         | 496/10712 [10:38<6:38:18,  2.34s/it]  5%|▍         | 497/10712 [10:41<6:52:50,  2.42s/it]  5%|▍         | 498/10712 [10:43<6:54:16,  2.43s/it]  5%|▍         | 499/10712 [10:46<6:48:58,  2.40s/it]  5%|▍         | 500/10712 [10:48<6:35:03,  2.32s/it]                                                     {'loss': 5.3474, 'grad_norm': 0.582328736782074, 'learning_rate': 0.00046641791044776124, 'epoch': 0.05}
+  5%|▍         | 500/10712 [10:48<6:35:03,  2.32s/it]  5%|▍         | 501/10712 [10:50<6:16:22,  2.21s/it]  5%|▍         | 502/10712 [10:51<5:48:26,  2.05s/it]  5%|▍         | 503/10712 [10:54<6:03:10,  2.13s/it]  5%|▍         | 504/10712 [10:55<5:49:44,  2.06s/it]  5%|▍         | 505/10712 [10:58<5:55:19,  2.09s/it]  5%|▍         | 506/10712 [11:00<5:45:08,  2.03s/it]  5%|▍         | 507/10712 [11:01<5:34:52,  1.97s/it]  5%|▍         | 508/10712 [11:03<5:26:37,  1.92s/it]  5%|▍         | 509/10712 [11:05<5:28:18,  1.93s/it]  5%|▍         | 510/10712 [11:08<6:13:13,  2.19s/it]  5%|▍         | 511/10712 [11:10<6:29:48,  2.29s/it]  5%|▍         | 512/10712 [11:13<6:46:34,  2.39s/it]  5%|▍         | 513/10712 [11:16<6:49:38,  2.41s/it]  5%|▍         | 514/10712 [11:19<7:42:23,  2.72s/it]  5%|▍         | 515/10712 [11:21<7:09:31,  2.53s/it]  5%|▍         | 516/10712 [11:25<7:58:56,  2.82s/it]  5%|▍         | 517/10712 [11:27<7:57:45,  2.81s/it]  5%|▍         | 518/10712 [11:31<8:31:20,  3.01s/it]  5%|▍         | 519/10712 [11:33<8:06:32,  2.86s/it]  5%|▍         | 520/10712 [11:36<7:43:22,  2.73s/it]  5%|▍         | 521/10712 [11:38<7:08:28,  2.52s/it]  5%|▍         | 522/10712 [11:40<6:55:16,  2.45s/it]  5%|▍         | 523/10712 [11:43<7:31:15,  2.66s/it]  5%|▍         | 524/10712 [11:46<7:50:49,  2.77s/it]  5%|▍         | 525/10712 [11:48<7:00:23,  2.48s/it]                                                     {'loss': 5.2846, 'grad_norm': 0.7820909023284912, 'learning_rate': 0.0004897388059701492, 'epoch': 0.05}
+  5%|▍         | 525/10712 [11:48<7:00:23,  2.48s/it]  5%|▍         | 526/10712 [11:50<6:55:53,  2.45s/it]  5%|▍         | 527/10712 [11:53<6:59:44,  2.47s/it]  5%|▍         | 528/10712 [11:55<6:29:45,  2.30s/it]  5%|▍         | 529/10712 [11:57<6:16:25,  2.22s/it]  5%|▍         | 530/10712 [12:00<6:36:33,  2.34s/it]  5%|▍         | 531/10712 [12:02<6:45:18,  2.39s/it]  5%|▍         | 532/10712 [12:04<6:33:34,  2.32s/it]  5%|▍         | 533/10712 [12:07<6:44:19,  2.38s/it]  5%|▍         | 534/10712 [12:09<6:38:52,  2.35s/it]  5%|▍         | 535/10712 [12:12<6:53:14,  2.44s/it]  5%|▌         | 536/10712 [12:15<7:17:51,  2.58s/it]  5%|▌         | 537/10712 [12:17<7:31:39,  2.66s/it]  5%|▌         | 538/10712 [12:21<8:18:35,  2.94s/it]  5%|▌         | 539/10712 [12:24<8:30:24,  3.01s/it]  5%|▌         | 540/10712 [12:27<8:12:32,  2.91s/it]  5%|▌         | 541/10712 [12:29<7:34:20,  2.68s/it]  5%|▌         | 542/10712 [12:32<8:05:26,  2.86s/it]  5%|▌         | 543/10712 [12:36<8:24:40,  2.98s/it]  5%|▌         | 544/10712 [12:38<8:01:59,  2.84s/it]  5%|▌         | 545/10712 [12:41<8:16:46,  2.93s/it]  5%|▌         | 546/10712 [12:44<7:54:58,  2.80s/it]  5%|▌         | 547/10712 [12:46<7:33:10,  2.67s/it]  5%|▌         | 548/10712 [12:48<7:15:19,  2.57s/it]  5%|▌         | 549/10712 [12:51<7:29:01,  2.65s/it]  5%|▌         | 550/10712 [12:54<7:16:39,  2.58s/it]                                                     {'loss': 5.2276, 'grad_norm': 0.4914645552635193, 'learning_rate': 0.0005130597014925373, 'epoch': 0.05}
+  5%|▌         | 550/10712 [12:54<7:16:39,  2.58s/it]  5%|▌         | 551/10712 [12:56<7:16:40,  2.58s/it]  5%|▌         | 552/10712 [12:59<7:29:34,  2.65s/it]  5%|▌         | 553/10712 [13:02<7:40:54,  2.72s/it]  5%|▌         | 554/10712 [13:04<7:26:17,  2.64s/it]  5%|▌         | 555/10712 [13:06<6:43:05,  2.38s/it]  5%|▌         | 556/10712 [13:10<7:59:37,  2.83s/it]  5%|▌         | 557/10712 [13:12<7:32:27,  2.67s/it]  5%|▌         | 558/10712 [13:15<7:56:03,  2.81s/it]  5%|▌         | 559/10712 [13:18<7:31:00,  2.67s/it]  5%|▌         | 560/10712 [13:20<7:09:07,  2.54s/it]  5%|▌         | 561/10712 [13:22<6:23:36,  2.27s/it]  5%|▌         | 562/10712 [13:24<6:02:59,  2.15s/it]  5%|▌         | 563/10712 [13:26<6:24:01,  2.27s/it]  5%|▌         | 564/10712 [13:29<7:01:31,  2.49s/it]  5%|▌         | 565/10712 [13:32<7:38:22,  2.71s/it]  5%|▌         | 566/10712 [13:35<7:46:36,  2.76s/it]  5%|▌         | 567/10712 [13:39<8:27:26,  3.00s/it]  5%|▌         | 568/10712 [13:41<8:13:28,  2.92s/it]  5%|▌         | 569/10712 [13:45<8:43:44,  3.10s/it]  5%|▌         | 570/10712 [13:49<9:18:28,  3.30s/it]  5%|▌         | 571/10712 [13:52<9:22:44,  3.33s/it]  5%|▌         | 572/10712 [13:56<9:53:50,  3.51s/it]  5%|▌         | 573/10712 [13:59<9:22:22,  3.33s/it]  5%|▌         | 574/10712 [14:03<9:42:45,  3.45s/it]  5%|▌         | 575/10712 [14:06<9:35:02,  3.40s/it]                                                     {'loss': 5.1826, 'grad_norm': 0.5939364433288574, 'learning_rate': 0.0005363805970149254, 'epoch': 0.05}
+  5%|▌         | 575/10712 [14:06<9:35:02,  3.40s/it]  5%|▌         | 576/10712 [14:09<9:08:09,  3.24s/it]  5%|▌         | 577/10712 [14:12<9:17:06,  3.30s/it]  5%|▌         | 578/10712 [14:15<8:50:21,  3.14s/it]  5%|▌         | 579/10712 [14:18<8:44:55,  3.11s/it]  5%|▌         | 580/10712 [14:21<8:16:54,  2.94s/it]  5%|▌         | 581/10712 [14:24<8:58:09,  3.19s/it]  5%|▌         | 582/10712 [14:28<9:19:54,  3.32s/it]  5%|▌         | 583/10712 [14:31<8:46:00,  3.12s/it]  5%|▌         | 584/10712 [14:35<9:20:59,  3.32s/it]  5%|▌         | 585/10712 [14:37<8:28:55,  3.02s/it]  5%|▌         | 586/10712 [14:41<9:16:23,  3.30s/it]  5%|▌         | 587/10712 [14:43<8:19:00,  2.96s/it]  5%|▌         | 588/10712 [14:47<9:33:05,  3.40s/it]  5%|▌         | 589/10712 [14:50<9:10:49,  3.26s/it]  6%|▌         | 590/10712 [14:53<8:43:37,  3.10s/it]  6%|▌         | 591/10712 [14:57<9:48:46,  3.49s/it]  6%|▌         | 592/10712 [15:01<9:35:37,  3.41s/it]  6%|▌         | 593/10712 [15:05<10:18:47,  3.67s/it]  6%|▌         | 594/10712 [15:08<9:49:21,  3.49s/it]   6%|▌         | 595/10712 [15:11<9:46:44,  3.48s/it]  6%|▌         | 596/10712 [15:15<9:51:28,  3.51s/it]  6%|▌         | 597/10712 [15:17<8:57:54,  3.19s/it]  6%|▌         | 598/10712 [15:20<8:28:18,  3.02s/it]  6%|▌         | 599/10712 [15:23<8:21:23,  2.97s/it]  6%|▌         | 600/10712 [15:26<8:39:58,  3.09s/it]                                                     {'loss': 5.127, 'grad_norm': 0.5419163107872009, 'learning_rate': 0.0005597014925373134, 'epoch': 0.06}
+  6%|▌         | 600/10712 [15:26<8:39:58,  3.09s/it]  6%|▌         | 601/10712 [15:30<9:14:42,  3.29s/it]  6%|▌         | 602/10712 [15:33<8:36:20,  3.06s/it]  6%|▌         | 603/10712 [15:36<8:53:22,  3.17s/it]  6%|▌         | 604/10712 [15:38<8:01:04,  2.86s/it]  6%|▌         | 605/10712 [15:40<7:15:15,  2.58s/it]  6%|▌         | 606/10712 [15:43<7:53:51,  2.81s/it]  6%|▌         | 607/10712 [15:47<8:16:05,  2.95s/it]  6%|▌         | 608/10712 [15:49<8:02:57,  2.87s/it]  6%|▌         | 609/10712 [15:51<7:16:12,  2.59s/it]  6%|▌         | 610/10712 [15:54<7:18:28,  2.60s/it]  6%|▌         | 611/10712 [15:58<8:24:51,  3.00s/it]  6%|▌         | 612/10712 [16:01<8:10:41,  2.91s/it]  6%|▌         | 613/10712 [16:04<8:14:14,  2.94s/it]  6%|▌         | 614/10712 [16:06<7:31:37,  2.68s/it]  6%|▌         | 615/10712 [16:08<7:21:18,  2.62s/it]  6%|▌         | 616/10712 [16:10<7:01:15,  2.50s/it]  6%|▌         | 617/10712 [16:13<6:52:46,  2.45s/it]  6%|▌         | 618/10712 [16:17<8:29:10,  3.03s/it]  6%|▌         | 619/10712 [16:21<9:05:53,  3.25s/it]  6%|▌         | 620/10712 [16:25<9:54:11,  3.53s/it]  6%|▌         | 621/10712 [16:27<8:57:01,  3.19s/it]  6%|▌         | 622/10712 [16:31<9:13:03,  3.29s/it]  6%|▌         | 623/10712 [16:35<9:50:21,  3.51s/it]  6%|▌         | 624/10712 [16:39<9:51:05,  3.52s/it]  6%|▌         | 625/10712 [16:41<9:14:21,  3.30s/it]                                                     {'loss': 5.0888, 'grad_norm': 0.4555201828479767, 'learning_rate': 0.0005830223880597015, 'epoch': 0.06}
+  6%|▌         | 625/10712 [16:41<9:14:21,  3.30s/it]  6%|▌         | 626/10712 [16:45<9:08:12,  3.26s/it]  6%|▌         | 627/10712 [16:47<8:50:13,  3.15s/it]  6%|▌         | 628/10712 [16:50<8:35:34,  3.07s/it]  6%|▌         | 629/10712 [16:53<8:18:24,  2.97s/it]  6%|▌         | 630/10712 [16:55<7:52:03,  2.81s/it]  6%|▌         | 631/10712 [17:00<8:57:20,  3.20s/it]  6%|▌         | 632/10712 [17:03<9:24:22,  3.36s/it]  6%|▌         | 633/10712 [17:05<8:21:08,  2.98s/it]  6%|▌         | 634/10712 [17:08<7:55:11,  2.83s/it]  6%|▌         | 635/10712 [17:11<8:02:31,  2.87s/it]  6%|▌         | 636/10712 [17:13<7:42:54,  2.76s/it]  6%|▌         | 637/10712 [17:17<8:05:46,  2.89s/it]  6%|▌         | 638/10712 [17:20<8:40:11,  3.10s/it]  6%|▌         | 639/10712 [17:24<9:05:49,  3.25s/it]  6%|▌         | 640/10712 [17:26<8:11:47,  2.93s/it]  6%|▌         | 641/10712 [17:30<8:52:38,  3.17s/it]  6%|▌         | 642/10712 [17:32<8:00:02,  2.86s/it]  6%|▌         | 643/10712 [17:35<8:16:24,  2.96s/it]  6%|▌         | 644/10712 [17:39<8:50:42,  3.16s/it]  6%|▌         | 645/10712 [17:43<9:35:17,  3.43s/it]  6%|▌         | 646/10712 [17:46<9:24:24,  3.36s/it]  6%|▌         | 647/10712 [17:49<9:05:23,  3.25s/it]  6%|▌         | 648/10712 [17:52<9:02:49,  3.24s/it]  6%|▌         | 649/10712 [17:55<8:42:58,  3.12s/it]  6%|▌         | 650/10712 [17:58<8:31:05,  3.05s/it]                                                     {'loss': 5.0436, 'grad_norm': 0.521930992603302, 'learning_rate': 0.0006063432835820895, 'epoch': 0.06}
+  6%|▌         | 650/10712 [17:58<8:31:05,  3.05s/it]  6%|▌         | 651/10712 [18:01<8:35:59,  3.08s/it]  6%|▌         | 652/10712 [18:04<8:14:11,  2.95s/it]  6%|▌         | 653/10712 [18:06<7:40:33,  2.75s/it]  6%|▌         | 654/10712 [18:10<8:44:30,  3.13s/it]  6%|▌         | 655/10712 [18:12<8:01:57,  2.88s/it]  6%|▌         | 656/10712 [18:15<7:55:43,  2.84s/it]  6%|▌         | 657/10712 [18:19<8:59:19,  3.22s/it]  6%|▌         | 658/10712 [18:22<8:39:45,  3.10s/it]  6%|▌         | 659/10712 [18:26<9:11:06,  3.29s/it]  6%|▌         | 660/10712 [18:29<9:19:59,  3.34s/it]  6%|▌         | 661/10712 [18:33<9:27:37,  3.39s/it]  6%|▌         | 662/10712 [18:36<9:54:13,  3.55s/it]  6%|▌         | 663/10712 [18:40<9:45:58,  3.50s/it]  6%|▌         | 664/10712 [18:44<10:34:31,  3.79s/it]  6%|▌         | 665/10712 [18:46<8:35:16,  3.08s/it]   6%|▌         | 666/10712 [18:48<8:11:27,  2.94s/it]  6%|▌         | 667/10712 [18:51<8:23:15,  3.01s/it]  6%|▌         | 668/10712 [18:56<9:42:49,  3.48s/it]  6%|▌         | 669/10712 [19:00<9:42:19,  3.48s/it]  6%|▋         | 670/10712 [19:02<9:03:47,  3.25s/it]  6%|▋         | 671/10712 [19:06<9:32:18,  3.42s/it]  6%|▋         | 672/10712 [19:09<9:13:45,  3.31s/it]  6%|▋         | 673/10712 [19:13<9:51:16,  3.53s/it]  6%|▋         | 674/10712 [19:18<10:38:48,  3.82s/it]  6%|▋         | 675/10712 [19:20<9:17:57,  3.34s/it]                                                      {'loss': 4.9987, 'grad_norm': 0.5239168405532837, 'learning_rate': 0.0006296641791044776, 'epoch': 0.06}
+  6%|▋         | 675/10712 [19:20<9:17:57,  3.34s/it]  6%|▋         | 676/10712 [19:23<8:45:43,  3.14s/it]  6%|▋         | 677/10712 [19:27<9:54:19,  3.55s/it]  6%|▋         | 678/10712 [19:30<9:37:17,  3.45s/it]  6%|▋         | 679/10712 [19:33<9:02:01,  3.24s/it]  6%|▋         | 680/10712 [19:37<9:43:46,  3.49s/it]  6%|▋         | 681/10712 [19:41<9:40:37,  3.47s/it]  6%|▋         | 682/10712 [19:43<8:47:41,  3.16s/it]  6%|▋         | 683/10712 [19:47<9:36:44,  3.45s/it]  6%|▋         | 684/10712 [19:50<9:03:18,  3.25s/it]  6%|▋         | 685/10712 [19:53<9:04:48,  3.26s/it]  6%|▋         | 686/10712 [19:57<9:32:50,  3.43s/it]  6%|▋         | 687/10712 [20:00<9:14:01,  3.32s/it]  6%|▋         | 688/10712 [20:04<9:21:10,  3.36s/it]  6%|▋         | 689/10712 [20:08<9:57:05,  3.57s/it]  6%|▋         | 690/10712 [20:11<10:07:51,  3.64s/it]  6%|▋         | 691/10712 [20:15<10:03:33,  3.61s/it]  6%|▋         | 692/10712 [20:17<8:34:27,  3.08s/it]   6%|▋         | 693/10712 [20:20<8:29:29,  3.05s/it]  6%|▋         | 694/10712 [20:22<8:04:22,  2.90s/it]  6%|▋         | 695/10712 [20:26<8:39:43,  3.11s/it]  6%|▋         | 696/10712 [20:29<8:34:32,  3.08s/it]  7%|▋         | 697/10712 [20:32<8:12:54,  2.95s/it]  7%|▋         | 698/10712 [20:33<7:19:27,  2.63s/it]  7%|▋         | 699/10712 [20:36<7:10:51,  2.58s/it]  7%|▋         | 700/10712 [20:39<7:19:28,  2.63s/it]                                                     {'loss': 4.9646, 'grad_norm': 0.42984968423843384, 'learning_rate': 0.0006529850746268657, 'epoch': 0.07}
+  7%|▋         | 700/10712 [20:39<7:19:28,  2.63s/it]  7%|▋         | 701/10712 [20:41<7:24:01,  2.66s/it]  7%|▋         | 702/10712 [20:43<6:52:25,  2.47s/it]  7%|▋         | 703/10712 [20:46<7:08:27,  2.57s/it]  7%|▋         | 704/10712 [20:49<6:57:31,  2.50s/it]  7%|▋         | 705/10712 [20:52<7:52:34,  2.83s/it]  7%|▋         | 706/10712 [20:55<8:07:00,  2.92s/it]  7%|▋         | 707/10712 [20:58<7:46:13,  2.80s/it]  7%|▋         | 708/10712 [20:59<6:48:51,  2.45s/it]  7%|▋         | 709/10712 [21:02<6:58:16,  2.51s/it]  7%|▋         | 710/10712 [21:05<7:08:36,  2.57s/it]  7%|���         | 711/10712 [21:07<6:32:11,  2.35s/it]  7%|▋         | 712/10712 [21:10<7:34:57,  2.73s/it]  7%|▋         | 713/10712 [21:14<8:48:21,  3.17s/it]  7%|▋         | 714/10712 [21:17<8:18:00,  2.99s/it]  7%|▋         | 715/10712 [21:20<8:37:39,  3.11s/it]  7%|▋         | 716/10712 [21:22<7:33:57,  2.72s/it]  7%|▋         | 717/10712 [21:25<7:53:18,  2.84s/it]  7%|▋         | 718/10712 [21:29<8:41:22,  3.13s/it]  7%|▋         | 719/10712 [21:31<7:55:53,  2.86s/it]  7%|▋         | 720/10712 [21:36<9:03:07,  3.26s/it]  7%|▋         | 721/10712 [21:38<8:07:35,  2.93s/it]  7%|▋         | 722/10712 [21:41<8:07:01,  2.93s/it]  7%|▋         | 723/10712 [21:42<7:12:35,  2.60s/it]  7%|▋         | 724/10712 [21:46<7:38:48,  2.76s/it]  7%|▋         | 725/10712 [21:49<8:09:50,  2.94s/it]                                                     {'loss': 4.9297, 'grad_norm': 0.484243243932724, 'learning_rate': 0.0006763059701492538, 'epoch': 0.07}
+  7%|▋         | 725/10712 [21:49<8:09:50,  2.94s/it]  7%|▋         | 726/10712 [21:52<8:10:58,  2.95s/it]  7%|▋         | 727/10712 [21:55<7:53:53,  2.85s/it]  7%|▋         | 728/10712 [21:58<8:16:06,  2.98s/it]  7%|▋         | 729/10712 [22:00<7:38:50,  2.76s/it]  7%|▋         | 730/10712 [22:03<7:41:24,  2.77s/it]  7%|▋         | 731/10712 [22:06<7:37:19,  2.75s/it]  7%|▋         | 732/10712 [22:07<6:47:07,  2.45s/it]  7%|▋         | 733/10712 [22:12<8:45:06,  3.16s/it]  7%|▋         | 734/10712 [22:14<7:24:28,  2.67s/it]  7%|▋         | 735/10712 [22:16<6:42:05,  2.42s/it]  7%|▋         | 736/10712 [22:18<6:36:27,  2.38s/it]  7%|▋         | 737/10712 [22:20<6:21:24,  2.29s/it]  7%|▋         | 738/10712 [22:22<6:07:41,  2.21s/it]  7%|▋         | 739/10712 [22:24<5:59:02,  2.16s/it]  7%|▋         | 740/10712 [22:27<6:29:25,  2.34s/it]  7%|▋         | 741/10712 [22:29<6:46:44,  2.45s/it]  7%|▋         | 742/10712 [22:32<6:35:39,  2.38s/it]  7%|▋         | 743/10712 [22:33<5:28:43,  1.98s/it]  7%|▋         | 744/10712 [22:36<6:12:00,  2.24s/it]  7%|▋         | 745/10712 [22:37<5:47:22,  2.09s/it]  7%|▋         | 746/10712 [22:39<5:28:21,  1.98s/it]  7%|▋         | 747/10712 [22:42<6:02:40,  2.18s/it]  7%|▋         | 748/10712 [22:44<6:03:14,  2.19s/it]  7%|▋         | 749/10712 [22:46<6:14:51,  2.26s/it]  7%|▋         | 750/10712 [22:48<5:43:59,  2.07s/it]                                                     {'loss': 4.8905, 'grad_norm': 0.40631452202796936, 'learning_rate': 0.0006996268656716418, 'epoch': 0.07}
+  7%|▋         | 750/10712 [22:48<5:43:59,  2.07s/it]  7%|▋         | 751/10712 [22:50<5:54:56,  2.14s/it]  7%|▋         | 752/10712 [22:52<5:29:19,  1.98s/it]  7%|▋         | 753/10712 [22:54<5:59:37,  2.17s/it]  7%|▋         | 754/10712 [22:57<6:18:46,  2.28s/it]  7%|▋         | 755/10712 [23:00<7:10:19,  2.59s/it]  7%|▋         | 756/10712 [23:03<7:18:12,  2.64s/it]  7%|▋         | 757/10712 [23:05<7:05:36,  2.57s/it]  7%|▋         | 758/10712 [23:08<6:54:25,  2.50s/it]  7%|▋         | 759/10712 [23:10<6:42:24,  2.43s/it]  7%|▋         | 760/10712 [23:13<7:03:34,  2.55s/it]  7%|▋         | 761/10712 [23:14<6:13:48,  2.25s/it]  7%|▋         | 762/10712 [23:17<6:38:52,  2.41s/it]  7%|▋         | 763/10712 [23:20<6:56:01,  2.51s/it]  7%|▋         | 764/10712 [23:24<7:57:37,  2.88s/it]  7%|▋         | 765/10712 [23:26<7:32:41,  2.73s/it]  7%|▋         | 766/10712 [23:28<7:06:40,  2.57s/it]  7%|▋         | 767/10712 [23:31<6:49:47,  2.47s/it]  7%|▋         | 768/10712 [23:33<6:25:10,  2.32s/it]  7%|▋         | 769/10712 [23:36<7:31:08,  2.72s/it]  7%|▋         | 770/10712 [23:38<6:56:10,  2.51s/it]  7%|▋         | 771/10712 [23:40<6:40:19,  2.42s/it]  7%|▋         | 772/10712 [23:42<5:51:40,  2.12s/it]  7%|▋         | 773/10712 [23:44<6:14:53,  2.26s/it]  7%|▋         | 774/10712 [23:47<6:20:29,  2.30s/it]  7%|▋         | 775/10712 [23:49<6:11:25,  2.24s/it]                                                     {'loss': 4.8599, 'grad_norm': 0.46862027049064636, 'learning_rate': 0.0007229477611940298, 'epoch': 0.07}
+  7%|▋         | 775/10712 [23:49<6:11:25,  2.24s/it]  7%|▋         | 776/10712 [23:51<6:20:16,  2.30s/it]  7%|▋         | 777/10712 [23:53<6:13:31,  2.26s/it]  7%|▋         | 778/10712 [23:56<6:14:25,  2.26s/it]  7%|▋         | 779/10712 [23:58<6:24:10,  2.32s/it]  7%|▋         | 780/10712 [24:00<6:07:05,  2.22s/it]  7%|▋         | 781/10712 [24:01<5:19:28,  1.93s/it]  7%|▋         | 782/10712 [24:03<5:24:30,  1.96s/it]  7%|▋         | 783/10712 [24:06<5:42:34,  2.07s/it]  7%|▋         | 784/10712 [24:08<5:54:23,  2.14s/it]  7%|▋         | 785/10712 [24:10<5:30:29,  2.00s/it]  7%|▋         | 786/10712 [24:12<5:54:47,  2.14s/it]  7%|▋         | 787/10712 [24:14<5:11:36,  1.88s/it]  7%|▋         | 788/10712 [24:16<5:38:20,  2.05s/it]  7%|▋         | 789/10712 [24:19<6:14:26,  2.26s/it]  7%|▋         | 790/10712 [24:21<6:15:11,  2.27s/it]  7%|▋         | 791/10712 [24:23<6:19:26,  2.29s/it]  7%|▋         | 792/10712 [24:26<6:17:46,  2.28s/it]  7%|▋         | 793/10712 [24:28<6:29:58,  2.36s/it]  7%|▋         | 794/10712 [24:30<6:05:06,  2.21s/it]  7%|▋         | 795/10712 [24:31<5:24:33,  1.96s/it]  7%|▋         | 796/10712 [24:34<5:38:24,  2.05s/it]  7%|▋         | 797/10712 [24:36<5:57:13,  2.16s/it]  7%|▋         | 798/10712 [24:38<5:52:03,  2.13s/it]  7%|▋         | 799/10712 [24:40<5:57:56,  2.17s/it]  7%|▋         | 800/10712 [24:42<5:11:54,  1.89s/it]                                                     {'loss': 4.8285, 'grad_norm': 0.5541700720787048, 'learning_rate': 0.0007462686567164179, 'epoch': 0.07}
+  7%|▋         | 800/10712 [24:42<5:11:54,  1.89s/it]  7%|▋         | 801/10712 [24:43<4:42:11,  1.71s/it]  7%|▋         | 802/10712 [24:44<4:13:55,  1.54s/it]  7%|▋         | 803/10712 [24:46<4:10:20,  1.52s/it]  8%|▊         | 804/10712 [24:47<4:21:03,  1.58s/it]  8%|▊         | 805/10712 [24:49<4:18:36,  1.57s/it]  8%|▊         | 806/10712 [24:51<4:33:43,  1.66s/it]  8%|▊         | 807/10712 [24:52<4:36:05,  1.67s/it]  8%|▊         | 808/10712 [24:54<4:36:55,  1.68s/it]  8%|▊         | 809/10712 [24:57<5:33:21,  2.02s/it]  8%|▊         | 810/10712 [24:59<5:23:39,  1.96s/it]  8%|▊         | 811/10712 [25:00<5:02:39,  1.83s/it]  8%|▊         | 812/10712 [25:02<4:55:42,  1.79s/it]  8%|▊         | 813/10712 [25:03<4:42:16,  1.71s/it]  8%|▊         | 814/10712 [25:05<4:18:21,  1.57s/it]  8%|▊         | 815/10712 [25:07<4:50:40,  1.76s/it]  8%|▊         | 816/10712 [25:09<5:08:27,  1.87s/it]  8%|▊         | 817/10712 [25:10<4:29:12,  1.63s/it]  8%|▊         | 818/10712 [25:12<4:26:20,  1.62s/it]  8%|▊         | 819/10712 [25:13<4:24:20,  1.60s/it]  8%|▊         | 820/10712 [25:15<4:29:04,  1.63s/it]  8%|▊         | 821/10712 [25:17<4:46:41,  1.74s/it]  8%|▊         | 822/10712 [25:19<4:41:16,  1.71s/it]  8%|▊         | 823/10712 [25:20<4:19:51,  1.58s/it]  8%|▊         | 824/10712 [25:21<4:08:05,  1.51s/it]  8%|▊         | 825/10712 [25:23<4:47:05,  1.74s/it]                                                     {'loss': 4.799, 'grad_norm': 0.4129628837108612, 'learning_rate': 0.000769589552238806, 'epoch': 0.08}
+  8%|▊         | 825/10712 [25:23<4:47:05,  1.74s/it]  8%|▊         | 826/10712 [25:25<4:34:50,  1.67s/it]  8%|▊         | 827/10712 [25:28<5:20:25,  1.94s/it]  8%|▊         | 828/10712 [25:30<5:35:24,  2.04s/it]  8%|▊         | 829/10712 [25:31<5:04:03,  1.85s/it]  8%|▊         | 830/10712 [25:33<4:57:37,  1.81s/it]  8%|▊         | 831/10712 [25:35<4:56:57,  1.80s/it]  8%|▊         | 832/10712 [25:37<5:11:10,  1.89s/it]  8%|▊         | 833/10712 [25:38<4:35:05,  1.67s/it]  8%|▊         | 834/10712 [25:40<4:32:44,  1.66s/it]  8%|▊         | 835/10712 [25:41<4:11:11,  1.53s/it]  8%|▊         | 836/10712 [25:42<4:03:51,  1.48s/it]  8%|▊         | 837/10712 [25:43<3:48:07,  1.39s/it]  8%|▊         | 838/10712 [25:45<4:16:15,  1.56s/it]  8%|▊         | 839/10712 [25:47<4:07:42,  1.51s/it]  8%|▊         | 840/10712 [25:48<3:51:54,  1.41s/it]  8%|▊         | 841/10712 [25:50<4:02:59,  1.48s/it]  8%|▊         | 842/10712 [25:52<4:44:20,  1.73s/it]  8%|▊         | 843/10712 [25:55<5:32:10,  2.02s/it]  8%|▊         | 844/10712 [25:57<5:40:02,  2.07s/it]  8%|▊         | 845/10712 [25:59<5:58:51,  2.18s/it]  8%|▊         | 846/10712 [26:01<5:42:39,  2.08s/it]  8%|▊         | 847/10712 [26:03<5:56:10,  2.17s/it]  8%|▊         | 848/10712 [26:05<5:18:29,  1.94s/it]  8%|▊         | 849/10712 [26:07<5:11:34,  1.90s/it]  8%|▊         | 850/10712 [26:08<4:54:38,  1.79s/it]                                                     {'loss': 4.7757, 'grad_norm': 0.37515711784362793, 'learning_rate': 0.0007929104477611941, 'epoch': 0.08}
+  8%|▊         | 850/10712 [26:08<4:54:38,  1.79s/it]  8%|▊         | 851/10712 [26:10<4:39:49,  1.70s/it]  8%|▊         | 852/10712 [26:12<5:09:05,  1.88s/it]  8%|▊         | 853/10712 [26:13<4:40:49,  1.71s/it]  8%|▊         | 854/10712 [26:14<4:16:08,  1.56s/it]  8%|▊         | 855/10712 [26:15<3:50:38,  1.40s/it]  8%|▊         | 856/10712 [26:18<4:34:12,  1.67s/it]  8%|▊         | 857/10712 [26:19<3:55:31,  1.43s/it]  8%|▊         | 858/10712 [26:20<3:41:27,  1.35s/it]  8%|▊         | 859/10712 [26:22<3:58:16,  1.45s/it]  8%|▊         | 860/10712 [26:23<4:11:38,  1.53s/it]  8%|▊         | 861/10712 [26:25<4:28:10,  1.63s/it]  8%|▊         | 862/10712 [26:27<4:24:29,  1.61s/it]  8%|▊         | 863/10712 [26:29<5:17:20,  1.93s/it]  8%|▊         | 864/10712 [26:31<5:13:26,  1.91s/it]  8%|▊         | 865/10712 [26:33<4:44:22,  1.73s/it]  8%|▊         | 866/10712 [26:35<5:39:44,  2.07s/it]  8%|▊         | 867/10712 [26:37<5:12:06,  1.90s/it]  8%|▊         | 868/10712 [26:38<4:28:59,  1.64s/it]  8%|▊         | 869/10712 [26:39<4:25:17,  1.62s/it]  8%|▊         | 870/10712 [26:41<4:15:09,  1.56s/it]  8%|▊         | 871/10712 [26:42<4:16:27,  1.56s/it]  8%|▊         | 872/10712 [26:44<4:16:43,  1.57s/it]  8%|▊         | 873/10712 [26:46<4:20:47,  1.59s/it]  8%|▊         | 874/10712 [26:48<4:40:38,  1.71s/it]  8%|▊         | 875/10712 [26:50<5:04:05,  1.85s/it]                                                     {'loss': 4.7367, 'grad_norm': 0.4243326783180237, 'learning_rate': 0.0008162313432835821, 'epoch': 0.08}
+  8%|▊         | 875/10712 [26:50<5:04:05,  1.85s/it]  8%|▊         | 876/10712 [26:52<5:04:03,  1.85s/it]  8%|▊         | 877/10712 [26:54<5:28:24,  2.00s/it]  8%|▊         | 878/10712 [26:56<5:19:22,  1.95s/it]  8%|▊         | 879/10712 [26:57<4:55:55,  1.81s/it]  8%|▊         | 880/10712 [26:58<4:07:02,  1.51s/it]  8%|▊         | 881/10712 [27:00<4:34:19,  1.67s/it]  8%|▊         | 882/10712 [27:02<4:25:13,  1.62s/it]  8%|▊         | 883/10712 [27:03<4:03:52,  1.49s/it]  8%|▊         | 884/10712 [27:04<3:36:18,  1.32s/it]  8%|▊         | 885/10712 [27:06<4:14:46,  1.56s/it]  8%|▊         | 886/10712 [27:08<4:26:42,  1.63s/it]  8%|▊         | 887/10712 [27:09<4:30:47,  1.65s/it]  8%|▊         | 888/10712 [27:11<4:07:28,  1.51s/it]  8%|▊         | 889/10712 [27:12<3:57:57,  1.45s/it]  8%|▊         | 890/10712 [27:14<4:12:56,  1.55s/it]  8%|▊         | 891/10712 [27:17<5:29:54,  2.02s/it]  8%|▊         | 892/10712 [27:19<5:16:29,  1.93s/it]  8%|▊         | 893/10712 [27:20<5:08:57,  1.89s/it]  8%|▊         | 894/10712 [27:23<5:30:31,  2.02s/it]  8%|▊         | 895/10712 [27:23<4:31:04,  1.66s/it]  8%|▊         | 896/10712 [27:26<4:58:47,  1.83s/it]  8%|▊         | 897/10712 [27:27<4:21:14,  1.60s/it]  8%|▊         | 898/10712 [27:29<4:33:30,  1.67s/it]  8%|▊         | 899/10712 [27:30<4:28:05,  1.64s/it]  8%|▊         | 900/10712 [27:32<4:29:33,  1.65s/it]                                                     {'loss': 4.7162, 'grad_norm': 0.35857799649238586, 'learning_rate': 0.0008395522388059703, 'epoch': 0.08}
+  8%|▊         | 900/10712 [27:32<4:29:33,  1.65s/it]  8%|▊         | 901/10712 [27:34<4:38:35,  1.70s/it]  8%|▊         | 902/10712 [27:35<4:34:23,  1.68s/it]  8%|▊         | 903/10712 [27:36<3:59:10,  1.46s/it]  8%|▊         | 904/10712 [27:38<4:20:36,  1.59s/it]  8%|▊         | 905/10712 [27:41<5:39:25,  2.08s/it]  8%|▊         | 906/10712 [27:42<4:37:58,  1.70s/it]  8%|▊         | 907/10712 [27:44<4:19:58,  1.59s/it]  8%|▊         | 908/10712 [27:45<4:12:57,  1.55s/it]  8%|▊         | 909/10712 [27:47<4:12:52,  1.55s/it]  8%|▊         | 910/10712 [27:48<3:53:58,  1.43s/it]  9%|▊         | 911/10712 [27:49<3:55:11,  1.44s/it]  9%|▊         | 912/10712 [27:51<4:32:30,  1.67s/it]  9%|▊         | 913/10712 [27:53<4:17:37,  1.58s/it]  9%|▊         | 914/10712 [27:54<4:00:35,  1.47s/it]  9%|▊         | 915/10712 [27:55<3:30:22,  1.29s/it]  9%|▊         | 916/10712 [27:56<3:47:53,  1.40s/it]  9%|▊         | 917/10712 [27:58<4:08:31,  1.52s/it]  9%|▊         | 918/10712 [28:00<4:02:55,  1.49s/it]  9%|▊         | 919/10712 [28:02<4:23:56,  1.62s/it]  9%|▊         | 920/10712 [28:03<4:05:19,  1.50s/it]  9%|▊         | 921/10712 [28:04<3:37:41,  1.33s/it]  9%|▊         | 922/10712 [28:05<3:36:56,  1.33s/it]  9%|▊         | 923/10712 [28:07<3:58:11,  1.46s/it]  9%|▊         | 924/10712 [28:08<3:59:14,  1.47s/it]  9%|▊         | 925/10712 [28:09<3:33:36,  1.31s/it]                                                     {'loss': 4.6957, 'grad_norm': 0.39365464448928833, 'learning_rate': 0.0008628731343283582, 'epoch': 0.09}
+  9%|▊         | 925/10712 [28:09<3:33:36,  1.31s/it]  9%|▊         | 926/10712 [28:10<3:27:59,  1.28s/it]  9%|▊         | 927/10712 [28:12<3:47:01,  1.39s/it]  9%|▊         | 928/10712 [28:13<3:25:39,  1.26s/it]  9%|▊         | 929/10712 [28:14<3:07:04,  1.15s/it]  9%|▊         | 930/10712 [28:15<2:51:16,  1.05s/it]  9%|▊         | 931/10712 [28:17<3:48:27,  1.40s/it]  9%|▊         | 932/10712 [28:19<4:04:47,  1.50s/it]  9%|▊         | 933/10712 [28:20<3:58:11,  1.46s/it]  9%|▊         | 934/10712 [28:22<4:16:19,  1.57s/it]  9%|▊         | 935/10712 [28:23<3:30:14,  1.29s/it]  9%|▊         | 936/10712 [28:24<3:49:50,  1.41s/it]  9%|▊         | 937/10712 [28:26<3:41:25,  1.36s/it]  9%|▉         | 938/10712 [28:27<3:37:35,  1.34s/it]  9%|▉         | 939/10712 [28:28<3:34:46,  1.32s/it]  9%|▉         | 940/10712 [28:29<3:24:00,  1.25s/it]  9%|▉         | 941/10712 [28:31<3:35:55,  1.33s/it]  9%|▉         | 942/10712 [28:33<4:02:31,  1.49s/it]  9%|▉         | 943/10712 [28:34<4:07:37,  1.52s/it]  9%|▉         | 944/10712 [28:35<3:49:00,  1.41s/it]  9%|▉         | 945/10712 [28:37<4:10:10,  1.54s/it]  9%|▉         | 946/10712 [28:39<4:31:07,  1.67s/it]  9%|▉         | 947/10712 [28:41<4:43:55,  1.74s/it]  9%|▉         | 948/10712 [28:43<4:43:49,  1.74s/it]  9%|▉         | 949/10712 [28:45<4:45:25,  1.75s/it]  9%|▉         | 950/10712 [28:46<4:20:32,  1.60s/it]                                                     {'loss': 4.6594, 'grad_norm': 0.4399496614933014, 'learning_rate': 0.0008861940298507463, 'epoch': 0.09}
+  9%|▉         | 950/10712 [28:46<4:20:32,  1.60s/it]  9%|▉         | 951/10712 [28:47<4:11:47,  1.55s/it]  9%|▉         | 952/10712 [28:49<4:13:23,  1.56s/it]  9%|▉         | 953/10712 [28:50<4:03:02,  1.49s/it]  9%|▉         | 954/10712 [28:52<4:07:01,  1.52s/it]  9%|▉         | 955/10712 [28:53<3:51:56,  1.43s/it]  9%|▉         | 956/10712 [28:54<3:46:12,  1.39s/it]  9%|▉         | 957/10712 [28:55<3:31:12,  1.30s/it]  9%|▉         | 958/10712 [28:57<3:42:19,  1.37s/it]  9%|▉         | 959/10712 [28:59<4:01:20,  1.48s/it]  9%|▉         | 960/10712 [29:00<3:51:10,  1.42s/it]  9%|▉         | 961/10712 [29:01<3:23:47,  1.25s/it]  9%|▉         | 962/10712 [29:02<3:15:22,  1.20s/it]  9%|▉         | 963/10712 [29:03<3:27:31,  1.28s/it]  9%|▉         | 964/10712 [29:05<4:13:09,  1.56s/it]  9%|▉         | 965/10712 [29:06<3:40:43,  1.36s/it]  9%|▉         | 966/10712 [29:07<3:07:07,  1.15s/it]  9%|▉         | 967/10712 [29:08<2:58:13,  1.10s/it]  9%|▉         | 968/10712 [29:10<3:24:36,  1.26s/it]  9%|▉         | 969/10712 [29:11<3:32:12,  1.31s/it]  9%|▉         | 970/10712 [29:12<3:34:04,  1.32s/it]  9%|▉         | 971/10712 [29:14<3:51:35,  1.43s/it]  9%|▉         | 972/10712 [29:15<3:31:04,  1.30s/it]  9%|▉         | 973/10712 [29:16<3:09:03,  1.16s/it]  9%|▉         | 974/10712 [29:17<2:53:22,  1.07s/it]  9%|▉         | 975/10712 [29:18<2:54:48,  1.08s/it]                                                     {'loss': 4.6502, 'grad_norm': 0.34628477692604065, 'learning_rate': 0.0009095149253731343, 'epoch': 0.09}
+  9%|▉         | 975/10712 [29:18<2:54:48,  1.08s/it]  9%|▉         | 976/10712 [29:19<2:55:49,  1.08s/it]  9%|▉         | 977/10712 [29:20<2:52:38,  1.06s/it]  9%|▉         | 978/10712 [29:21<3:06:12,  1.15s/it]  9%|▉         | 979/10712 [29:23<3:26:09,  1.27s/it]  9%|▉         | 980/10712 [29:24<3:24:09,  1.26s/it]  9%|▉         | 981/10712 [29:25<3:13:35,  1.19s/it]  9%|▉         | 982/10712 [29:27<3:33:10,  1.31s/it]  9%|▉         | 983/10712 [29:28<3:20:39,  1.24s/it]  9%|▉         | 984/10712 [29:29<3:04:44,  1.14s/it]  9%|▉         | 985/10712 [29:30<2:59:00,  1.10s/it]  9%|▉         | 986/10712 [29:31<3:15:19,  1.20s/it]  9%|▉         | 987/10712 [29:33<3:40:04,  1.36s/it]  9%|▉         | 988/10712 [29:35<4:13:11,  1.56s/it]  9%|▉         | 989/10712 [29:36<3:54:49,  1.45s/it]  9%|▉         | 990/10712 [29:37<3:50:24,  1.42s/it]  9%|▉         | 991/10712 [29:39<3:32:17,  1.31s/it]  9%|▉         | 992/10712 [29:39<3:03:19,  1.13s/it]  9%|▉         | 993/10712 [29:40<2:53:24,  1.07s/it]  9%|▉         | 994/10712 [29:41<2:44:56,  1.02s/it]  9%|▉         | 995/10712 [29:42<2:59:08,  1.11s/it]  9%|▉         | 996/10712 [29:43<2:53:22,  1.07s/it]  9%|▉         | 997/10712 [29:44<2:25:40,  1.11it/s]  9%|▉         | 998/10712 [29:45<2:54:50,  1.08s/it]  9%|▉         | 999/10712 [29:47<2:56:54,  1.09s/it]  9%|▉         | 1000/10712 [29:48<3:32:46,  1.31s/it]                                                      {'loss': 4.6188, 'grad_norm': 0.4109642207622528, 'learning_rate': 0.0009328358208955225, 'epoch': 0.09}
+  9%|▉         | 1000/10712 [29:48<3:32:46,  1.31s/it]  9%|▉         | 1001/10712 [29:50<3:27:23,  1.28s/it]  9%|▉         | 1002/10712 [29:51<3:35:55,  1.33s/it]  9%|▉         | 1003/10712 [29:52<3:39:37,  1.36s/it]  9%|▉         | 1004/10712 [29:54<3:43:11,  1.38s/it]  9%|▉         | 1005/10712 [29:56<4:18:54,  1.60s/it]  9%|▉         | 1006/10712 [29:58<4:16:40,  1.59s/it]  9%|▉         | 1007/10712 [29:59<4:03:52,  1.51s/it]  9%|▉         | 1008/10712 [30:00<4:01:39,  1.49s/it]  9%|▉         | 1009/10712 [30:01<3:39:34,  1.36s/it]  9%|▉         | 1010/10712 [30:02<3:29:06,  1.29s/it]  9%|▉         | 1011/10712 [30:04<3:55:55,  1.46s/it]  9%|▉         | 1012/10712 [30:06<3:50:42,  1.43s/it]  9%|▉         | 1013/10712 [30:07<3:43:07,  1.38s/it]  9%|▉         | 1014/10712 [30:08<3:44:19,  1.39s/it]  9%|▉         | 1015/10712 [30:09<3:30:41,  1.30s/it]  9%|▉         | 1016/10712 [30:10<3:05:26,  1.15s/it]  9%|▉         | 1017/10712 [30:11<3:07:16,  1.16s/it] 10%|▉         | 1018/10712 [30:13<3:07:23,  1.16s/it] 10%|▉         | 1019/10712 [30:14<3:06:27,  1.15s/it] 10%|▉         | 1020/10712 [30:14<2:46:41,  1.03s/it] 10%|▉         | 1021/10712 [30:16<2:49:14,  1.05s/it] 10%|▉         | 1022/10712 [30:16<2:40:31,  1.01it/s] 10%|▉         | 1023/10712 [30:18<2:53:04,  1.07s/it] 10%|▉         | 1024/10712 [30:19<3:15:03,  1.21s/it] 10%|▉         | 1025/10712 [30:20<3:06:37,  1.16s/it]                                                      {'loss': 4.5874, 'grad_norm': 0.3740506172180176, 'learning_rate': 0.0009561567164179105, 'epoch': 0.1}
+ 10%|▉         | 1025/10712 [30:20<3:06:37,  1.16s/it] 10%|▉         | 1026/10712 [30:22<3:17:58,  1.23s/it] 10%|▉         | 1027/10712 [30:23<3:37:01,  1.34s/it] 10%|▉         | 1028/10712 [30:24<3:29:56,  1.30s/it] 10%|▉         | 1029/10712 [30:26<3:21:03,  1.25s/it] 10%|▉         | 1030/10712 [30:27<3:07:42,  1.16s/it] 10%|▉         | 1031/10712 [30:27<2:53:20,  1.07s/it] 10%|▉         | 1032/10712 [30:28<2:25:31,  1.11it/s] 10%|▉         | 1033/10712 [30:29<2:55:06,  1.09s/it] 10%|▉         | 1034/10712 [30:31<3:01:49,  1.13s/it] 10%|▉         | 1035/10712 [30:31<2:42:27,  1.01s/it] 10%|▉         | 1036/10712 [30:33<3:01:36,  1.13s/it] 10%|▉         | 1037/10712 [30:34<2:52:40,  1.07s/it] 10%|▉         | 1038/10712 [30:36<3:27:28,  1.29s/it] 10%|▉         | 1039/10712 [30:37<3:34:15,  1.33s/it] 10%|▉         | 1040/10712 [30:38<3:07:43,  1.16s/it] 10%|▉         | 1041/10712 [30:39<3:25:13,  1.27s/it] 10%|▉         | 1042/10712 [30:41<3:44:09,  1.39s/it] 10%|▉         | 1043/10712 [30:42<3:30:42,  1.31s/it] 10%|▉         | 1044/10712 [30:43<3:29:27,  1.30s/it] 10%|▉         | 1045/10712 [30:45<3:37:10,  1.35s/it] 10%|▉         | 1046/10712 [30:46<3:34:46,  1.33s/it] 10%|▉         | 1047/10712 [30:47<3:21:02,  1.25s/it] 10%|▉         | 1048/10712 [30:48<3:21:48,  1.25s/it] 10%|▉         | 1049/10712 [30:50<3:22:03,  1.25s/it] 10%|▉         | 1050/10712 [30:51<3:19:30,  1.24s/it]                                                      {'loss': 4.574, 'grad_norm': 0.3145410120487213, 'learning_rate': 0.0009794776119402984, 'epoch': 0.1}
+ 10%|▉         | 1050/10712 [30:51<3:19:30,  1.24s/it] 10%|▉         | 1051/10712 [30:52<3:08:46,  1.17s/it] 10%|▉         | 1052/10712 [30:53<3:21:43,  1.25s/it] 10%|▉         | 1053/10712 [30:54<2:53:11,  1.08s/it] 10%|▉         | 1054/10712 [30:55<2:50:44,  1.06s/it] 10%|▉         | 1055/10712 [30:56<2:50:50,  1.06s/it] 10%|▉         | 1056/10712 [30:57<3:04:06,  1.14s/it] 10%|▉         | 1057/10712 [30:58<2:56:31,  1.10s/it] 10%|▉         | 1058/10712 [31:00<2:58:18,  1.11s/it] 10%|▉         | 1059/10712 [31:01<3:03:02,  1.14s/it] 10%|▉         | 1060/10712 [31:02<3:13:14,  1.20s/it] 10%|▉         | 1061/10712 [31:03<3:23:36,  1.27s/it] 10%|▉         | 1062/10712 [31:05<3:48:36,  1.42s/it] 10%|▉         | 1063/10712 [31:07<3:46:29,  1.41s/it] 10%|▉         | 1064/10712 [31:08<3:34:03,  1.33s/it] 10%|▉         | 1065/10712 [31:10<3:52:29,  1.45s/it] 10%|▉         | 1066/10712 [31:10<3:27:51,  1.29s/it] 10%|▉         | 1067/10712 [31:11<3:09:42,  1.18s/it] 10%|▉         | 1068/10712 [31:13<3:23:01,  1.26s/it] 10%|▉         | 1069/10712 [31:14<3:04:00,  1.14s/it] 10%|▉         | 1070/10712 [31:15<3:14:46,  1.21s/it] 10%|▉         | 1071/10712 [31:16<3:19:15,  1.24s/it] 10%|█         | 1072/10712 [31:18<3:22:09,  1.26s/it] 10%|█         | 1073/10712 [31:18<2:54:45,  1.09s/it] 10%|█         | 1074/10712 [31:20<2:59:02,  1.11s/it] 10%|█         | 1075/10712 [31:21<3:06:09,  1.16s/it]                                                      {'loss': 4.55, 'grad_norm': 0.3126870393753052, 'learning_rate': 0.0009999997610383759, 'epoch': 0.1}
+ 10%|█         | 1075/10712 [31:21<3:06:09,  1.16s/it] 10%|█         | 1076/10712 [31:22<3:02:42,  1.14s/it] 10%|█         | 1077/10712 [31:23<2:51:00,  1.06s/it] 10%|█         | 1078/10712 [31:24<2:39:47,  1.00it/s] 10%|█         | 1079/10712 [31:25<3:13:33,  1.21s/it] 10%|█         | 1080/10712 [31:26<2:59:32,  1.12s/it] 10%|█         | 1081/10712 [31:27<3:03:49,  1.15s/it] 10%|█         | 1082/10712 [31:28<2:53:16,  1.08s/it] 10%|█         | 1083/10712 [31:29<2:38:54,  1.01it/s] 10%|█         | 1084/10712 [31:30<2:35:52,  1.03it/s] 10%|█         | 1085/10712 [31:31<2:44:08,  1.02s/it] 10%|█         | 1086/10712 [31:32<2:52:17,  1.07s/it] 10%|█         | 1087/10712 [31:33<2:51:47,  1.07s/it] 10%|█         | 1088/10712 [31:35<3:11:31,  1.19s/it] 10%|█         | 1089/10712 [31:36<3:10:58,  1.19s/it] 10%|█         | 1090/10712 [31:37<3:08:22,  1.17s/it] 10%|█         | 1091/10712 [31:38<3:04:40,  1.15s/it] 10%|█         | 1092/10712 [31:40<3:08:33,  1.18s/it] 10%|█         | 1093/10712 [31:41<3:06:06,  1.16s/it] 10%|█         | 1094/10712 [31:42<2:59:13,  1.12s/it] 10%|█         | 1095/10712 [31:43<2:58:56,  1.12s/it] 10%|█         | 1096/10712 [31:44<2:59:27,  1.12s/it] 10%|█         | 1097/10712 [31:45<3:01:20,  1.13s/it] 10%|█         | 1098/10712 [31:46<2:55:23,  1.09s/it] 10%|█         | 1099/10712 [31:47<2:46:53,  1.04s/it] 10%|█         | 1100/10712 [31:48<2:51:20,  1.07s/it]                                                      {'loss': 4.5359, 'grad_norm': 0.30544576048851013, 'learning_rate': 0.0009999791839302003, 'epoch': 0.1}
+ 10%|█         | 1100/10712 [31:48<2:51:20,  1.07s/it] 10%|█         | 1101/10712 [31:49<2:46:20,  1.04s/it] 10%|█         | 1102/10712 [31:50<2:36:02,  1.03it/s] 10%|█         | 1103/10712 [31:51<2:48:40,  1.05s/it] 10%|█         | 1104/10712 [31:52<2:40:32,  1.00s/it] 10%|█         | 1105/10712 [31:53<2:43:08,  1.02s/it] 10%|█         | 1106/10712 [31:54<2:31:53,  1.05it/s] 10%|█         | 1107/10712 [31:55<2:19:03,  1.15it/s] 10%|█         | 1108/10712 [31:56<2:22:26,  1.12it/s] 10%|█         | 1109/10712 [31:56<2:18:48,  1.15it/s] 10%|█         | 1110/10712 [31:57<2:22:05,  1.13it/s] 10%|█         | 1111/10712 [31:58<2:13:49,  1.20it/s] 10%|█         | 1112/10712 [31:59<2:15:35,  1.18it/s] 10%|█         | 1113/10712 [32:00<2:14:24,  1.19it/s] 10%|█         | 1114/10712 [32:01<2:47:57,  1.05s/it] 10%|█         | 1115/10712 [32:02<2:30:52,  1.06it/s] 10%|█         | 1116/10712 [32:03<2:38:34,  1.01it/s] 10%|█         | 1117/10712 [32:04<2:19:12,  1.15it/s] 10%|█         | 1118/10712 [32:04<2:15:04,  1.18it/s] 10%|█         | 1119/10712 [32:05<2:14:20,  1.19it/s] 10%|█         | 1120/10712 [32:06<2:20:26,  1.14it/s] 10%|█         | 1121/10712 [32:07<2:05:36,  1.27it/s] 10%|█         | 1122/10712 [32:08<2:30:35,  1.06it/s] 10%|█         | 1123/10712 [32:09<2:26:19,  1.09it/s] 10%|█         | 1124/10712 [32:10<2:27:35,  1.08it/s] 11%|█         | 1125/10712 [32:11<2:15:52,  1.18it/s]                                                      {'loss': 4.5109, 'grad_norm': 0.34079593420028687, 'learning_rate': 0.0009999254192702488, 'epoch': 0.11}
+ 11%|█         | 1125/10712 [32:11<2:15:52,  1.18it/s] 11%|█         | 1126/10712 [32:11<2:06:42,  1.26it/s] 11%|█         | 1127/10712 [32:12<2:24:14,  1.11it/s] 11%|█         | 1128/10712 [32:13<2:26:41,  1.09it/s] 11%|█         | 1129/10712 [32:14<2:31:42,  1.05it/s] 11%|█         | 1130/10712 [32:15<2:26:25,  1.09it/s] 11%|█         | 1131/10712 [32:16<2:31:41,  1.05it/s] 11%|█         | 1132/10712 [32:17<2:17:15,  1.16it/s] 11%|█         | 1133/10712 [32:18<2:08:06,  1.25it/s] 11%|█         | 1134/10712 [32:18<1:53:22,  1.41it/s] 11%|█         | 1135/10712 [32:19<2:01:24,  1.31it/s] 11%|█         | 1136/10712 [32:20<1:58:52,  1.34it/s] 11%|█         | 1137/10712 [32:21<2:19:16,  1.15it/s] 11%|█         | 1138/10712 [32:22<2:37:04,  1.02it/s] 11%|█         | 1139/10712 [32:23<2:28:16,  1.08it/s] 11%|█         | 1140/10712 [32:24<2:25:31,  1.10it/s] 11%|█         | 1141/10712 [32:24<2:15:15,  1.18it/s] 11%|█         | 1142/10712 [32:25<2:18:12,  1.15it/s] 11%|█         | 1143/10712 [32:26<2:12:22,  1.20it/s] 11%|█         | 1144/10712 [32:27<2:01:28,  1.31it/s] 11%|█         | 1145/10712 [32:28<2:30:02,  1.06it/s] 11%|█         | 1146/10712 [32:29<2:41:58,  1.02s/it] 11%|█         | 1147/10712 [32:30<2:26:49,  1.09it/s] 11%|█         | 1148/10712 [32:31<2:10:46,  1.22it/s] 11%|█         | 1149/10712 [32:31<2:01:18,  1.31it/s] 11%|█         | 1150/10712 [32:32<2:10:46,  1.22it/s]                                                      {'loss': 4.5008, 'grad_norm': 0.30385568737983704, 'learning_rate': 0.0009998384706273048, 'epoch': 0.11}
+ 11%|█         | 1150/10712 [32:32<2:10:46,  1.22it/s] 11%|█         | 1151/10712 [32:33<2:01:19,  1.31it/s] 11%|█         | 1152/10712 [32:33<1:58:59,  1.34it/s] 11%|█         | 1153/10712 [32:35<2:14:23,  1.19it/s] 11%|█         | 1154/10712 [32:35<2:08:09,  1.24it/s] 11%|█         | 1155/10712 [32:36<2:14:30,  1.18it/s] 11%|█         | 1156/10712 [32:37<2:08:52,  1.24it/s] 11%|█         | 1157/10712 [32:38<2:01:26,  1.31it/s] 11%|█         | 1158/10712 [32:38<2:00:28,  1.32it/s] 11%|█         | 1159/10712 [32:39<2:06:53,  1.25it/s] 11%|█         | 1160/10712 [32:40<1:58:01,  1.35it/s] 11%|█         | 1161/10712 [32:41<2:13:24,  1.19it/s] 11%|█         | 1162/10712 [32:42<2:15:03,  1.18it/s] 11%|█         | 1163/10712 [32:42<2:01:59,  1.30it/s] 11%|█         | 1164/10712 [32:43<2:03:20,  1.29it/s] 11%|█         | 1165/10712 [32:44<1:50:10,  1.44it/s] 11%|█         | 1166/10712 [32:45<2:01:51,  1.31it/s] 11%|█         | 1167/10712 [32:45<2:03:10,  1.29it/s] 11%|█         | 1168/10712 [32:46<2:07:31,  1.25it/s] 11%|█         | 1169/10712 [32:47<2:22:21,  1.12it/s] 11%|█         | 1170/10712 [32:48<2:31:48,  1.05it/s] 11%|█         | 1171/10712 [32:49<2:23:20,  1.11it/s] 11%|█         | 1172/10712 [32:50<2:39:35,  1.00s/it] 11%|█         | 1173/10712 [32:51<2:34:05,  1.03it/s] 11%|█         | 1174/10712 [32:52<2:28:49,  1.07it/s] 11%|█         | 1175/10712 [32:53<2:21:09,  1.13it/s]                                                      {'loss': 4.4789, 'grad_norm': 0.30299264192581177, 'learning_rate': 0.000999718343772834, 'epoch': 0.11}
+ 11%|█         | 1175/10712 [32:53<2:21:09,  1.13it/s] 11%|█         | 1176/10712 [32:54<2:06:00,  1.26it/s] 11%|█         | 1177/10712 [32:54<2:07:35,  1.25it/s] 11%|█         | 1178/10712 [32:56<2:28:40,  1.07it/s] 11%|█         | 1179/10712 [32:57<2:33:37,  1.03it/s] 11%|█         | 1180/10712 [32:57<2:11:21,  1.21it/s] 11%|█         | 1181/10712 [32:58<2:09:59,  1.22it/s] 11%|█         | 1182/10712 [32:59<2:37:34,  1.01it/s] 11%|█         | 1183/10712 [33:00<2:23:30,  1.11it/s] 11%|█         | 1184/10712 [33:01<2:05:45,  1.26it/s] 11%|█         | 1185/10712 [33:02<2:59:24,  1.13s/it] 11%|█         | 1186/10712 [33:04<3:00:28,  1.14s/it] 11%|█         | 1187/10712 [33:05<3:00:54,  1.14s/it] 11%|█         | 1188/10712 [33:06<3:08:53,  1.19s/it] 11%|█         | 1189/10712 [33:07<2:52:21,  1.09s/it] 11%|█         | 1190/10712 [33:08<3:00:44,  1.14s/it] 11%|█         | 1191/10712 [33:09<2:53:47,  1.10s/it] 11%|█         | 1192/10712 [33:10<2:25:18,  1.09it/s] 11%|█         | 1193/10712 [33:11<2:38:35,  1.00it/s] 11%|█         | 1194/10712 [33:12<2:30:37,  1.05it/s] 11%|█         | 1195/10712 [33:13<2:30:08,  1.06it/s] 11%|█         | 1196/10712 [33:14<2:33:20,  1.03it/s] 11%|█         | 1197/10712 [33:14<2:26:04,  1.09it/s] 11%|█         | 1198/10712 [33:15<2:22:09,  1.12it/s] 11%|█         | 1199/10712 [33:16<2:03:51,  1.28it/s] 11%|█         | 1200/10712 [33:17<2:01:05,  1.31it/s]                                                      {'loss': 4.4534, 'grad_norm': 0.30539777874946594, 'learning_rate': 0.0009995650466806004, 'epoch': 0.11}
+ 11%|█         | 1200/10712 [33:17<2:01:05,  1.31it/s] 11%|█         | 1201/10712 [33:18<2:14:33,  1.18it/s] 11%|█         | 1202/10712 [33:18<2:08:10,  1.24it/s] 11%|█         | 1203/10712 [33:19<2:21:34,  1.12it/s] 11%|█         | 1204/10712 [33:20<2:02:48,  1.29it/s] 11%|█         | 1205/10712 [33:20<1:49:41,  1.44it/s] 11%|█▏        | 1206/10712 [33:22<2:09:44,  1.22it/s] 11%|█▏        | 1207/10712 [33:23<2:17:22,  1.15it/s] 11%|█▏        | 1208/10712 [33:24<2:58:22,  1.13s/it] 11%|█▏        | 1209/10712 [33:25<2:51:59,  1.09s/it] 11%|█▏        | 1210/10712 [33:26<2:40:22,  1.01s/it] 11%|█▏        | 1211/10712 [33:27<2:28:36,  1.07it/s] 11%|█▏        | 1212/10712 [33:28<2:23:28,  1.10it/s] 11%|█▏        | 1213/10712 [33:29<2:27:56,  1.07it/s] 11%|█▏        | 1214/10712 [33:30<2:31:55,  1.04it/s] 11%|█▏        | 1215/10712 [33:30<2:09:50,  1.22it/s] 11%|█▏        | 1216/10712 [33:31<2:32:47,  1.04it/s] 11%|█▏        | 1217/10712 [33:33<2:59:15,  1.13s/it] 11%|█▏        | 1218/10712 [33:34<2:50:33,  1.08s/it] 11%|█▏        | 1219/10712 [33:35<2:37:25,  1.00it/s] 11%|█▏        | 1220/10712 [33:35<2:17:08,  1.15it/s] 11%|█▏        | 1221/10712 [33:36<2:08:14,  1.23it/s] 11%|█▏        | 1222/10712 [33:37<2:00:56,  1.31it/s] 11%|█▏        | 1223/10712 [33:37<2:02:42,  1.29it/s] 11%|█▏        | 1224/10712 [33:38<2:01:40,  1.30it/s] 11%|█▏        | 1225/10712 [33:39<1:59:37,  1.32it/s]                                                      {'loss': 4.4415, 'grad_norm': 0.3044697046279907, 'learning_rate': 0.0009993785895261384, 'epoch': 0.11}
+ 11%|█▏        | 1225/10712 [33:39<1:59:37,  1.32it/s] 11%|█▏        | 1226/10712 [33:40<1:57:34,  1.34it/s] 11%|█▏        | 1227/10712 [33:41<2:02:35,  1.29it/s] 11%|█▏        | 1228/10712 [33:42<2:22:25,  1.11it/s] 11%|█▏        | 1229/10712 [33:42<2:07:00,  1.24it/s] 11%|█▏        | 1230/10712 [33:43<2:08:32,  1.23it/s] 11%|█▏        | 1231/10712 [33:45<2:58:40,  1.13s/it] 12%|█▏        | 1232/10712 [33:45<2:28:51,  1.06it/s] 12%|█▏        | 1233/10712 [33:47<2:58:37,  1.13s/it] 12%|█▏        | 1234/10712 [33:48<2:55:01,  1.11s/it] 12%|█▏        | 1235/10712 [33:49<2:31:03,  1.05it/s] 12%|█▏        | 1236/10712 [33:50<2:39:53,  1.01s/it] 12%|█▏        | 1237/10712 [33:51<3:00:19,  1.14s/it] 12%|█▏        | 1238/10712 [33:52<3:02:19,  1.15s/it] 12%|█▏        | 1239/10712 [33:53<2:43:14,  1.03s/it] 12%|█▏        | 1240/10712 [33:55<3:07:05,  1.19s/it] 12%|█▏        | 1241/10712 [33:56<3:08:40,  1.20s/it] 12%|█▏        | 1242/10712 [33:57<3:19:35,  1.26s/it] 12%|█▏        | 1243/10712 [33:58<2:43:17,  1.03s/it] 12%|█▏        | 1244/10712 [33:59<2:44:00,  1.04s/it] 12%|█▏        | 1245/10712 [34:00<2:28:53,  1.06it/s] 12%|█▏        | 1246/10712 [34:00<2:09:30,  1.22it/s] 12%|█▏        | 1247/10712 [34:01<1:54:12,  1.38it/s] 12%|█▏        | 1248/10712 [34:01<1:46:47,  1.48it/s] 12%|█▏        | 1249/10712 [34:02<2:04:47,  1.26it/s] 12%|█▏        | 1250/10712 [34:03<2:06:41,  1.24it/s]                                                      {'loss': 4.4289, 'grad_norm': 0.31845763325691223, 'learning_rate': 0.000999158984686076, 'epoch': 0.12}
+ 12%|█▏        | 1250/10712 [34:03<2:06:41,  1.24it/s] 12%|█▏        | 1251/10712 [34:04<2:13:04,  1.18it/s] 12%|█▏        | 1252/10712 [34:05<2:18:37,  1.14it/s] 12%|█▏        | 1253/10712 [34:06<2:13:49,  1.18it/s] 12%|█▏        | 1254/10712 [34:07<2:46:17,  1.05s/it] 12%|█▏        | 1255/10712 [34:08<2:20:08,  1.12it/s] 12%|█▏        | 1256/10712 [34:09<2:27:04,  1.07it/s] 12%|█▏        | 1257/10712 [34:10<2:28:27,  1.06it/s] 12%|█▏        | 1258/10712 [34:10<2:08:04,  1.23it/s] 12%|█▏        | 1259/10712 [34:11<1:53:48,  1.38it/s] 12%|█▏        | 1260/10712 [34:12<2:18:29,  1.14it/s] 12%|█▏        | 1261/10712 [34:13<2:24:53,  1.09it/s] 12%|█▏        | 1262/10712 [34:14<2:25:33,  1.08it/s] 12%|█▏        | 1263/10712 [34:15<2:22:20,  1.11it/s] 12%|█▏        | 1264/10712 [34:16<2:17:29,  1.15it/s] 12%|█▏        | 1265/10712 [34:17<2:19:33,  1.13it/s] 12%|█▏        | 1266/10712 [34:17<2:15:26,  1.16it/s] 12%|█▏        | 1267/10712 [34:19<2:40:03,  1.02s/it] 12%|█▏        | 1268/10712 [34:20<2:35:20,  1.01it/s] 12%|█▏        | 1269/10712 [34:20<2:12:54,  1.18it/s] 12%|█▏        | 1270/10712 [34:21<2:16:03,  1.16it/s] 12%|█▏        | 1271/10712 [34:22<2:17:29,  1.14it/s] 12%|█▏        | 1272/10712 [34:23<2:17:07,  1.15it/s] 12%|█▏        | 1273/10712 [34:24<2:19:52,  1.12it/s] 12%|█▏        | 1274/10712 [34:25<2:28:39,  1.06it/s] 12%|█▏        | 1275/10712 [34:26<2:18:38,  1.13it/s]                                                      {'loss': 4.4053, 'grad_norm': 0.2737877666950226, 'learning_rate': 0.000998906246737314, 'epoch': 0.12}
+ 12%|█▏        | 1275/10712 [34:26<2:18:38,  1.13it/s] 12%|█▏        | 1276/10712 [34:27<2:27:00,  1.07it/s] 12%|█▏        | 1277/10712 [34:27<2:12:06,  1.19it/s] 12%|█▏        | 1278/10712 [34:28<2:11:44,  1.19it/s] 12%|█▏        | 1279/10712 [34:29<2:32:03,  1.03it/s] 12%|█▏        | 1280/10712 [34:30<2:28:13,  1.06it/s] 12%|█▏        | 1281/10712 [34:31<2:23:21,  1.10it/s] 12%|█▏        | 1282/10712 [34:32<2:03:48,  1.27it/s] 12%|█▏        | 1283/10712 [34:33<2:27:43,  1.06it/s] 12%|█▏        | 1284/10712 [34:34<2:16:43,  1.15it/s] 12%|█▏        | 1285/10712 [34:34<1:59:11,  1.32it/s] 12%|█▏        | 1286/10712 [34:35<2:21:26,  1.11it/s] 12%|█▏        | 1287/10712 [34:37<2:36:20,  1.00it/s] 12%|█▏        | 1288/10712 [34:37<2:12:57,  1.18it/s] 12%|█▏        | 1289/10712 [34:38<2:02:28,  1.28it/s] 12%|█▏        | 1290/10712 [34:38<1:57:27,  1.34it/s] 12%|█▏        | 1291/10712 [34:40<2:11:58,  1.19it/s] 12%|█▏        | 1292/10712 [34:41<2:20:19,  1.12it/s] 12%|█▏        | 1293/10712 [34:42<2:31:54,  1.03it/s] 12%|█▏        | 1294/10712 [34:43<2:56:50,  1.13s/it] 12%|█▏        | 1295/10712 [34:44<2:56:06,  1.12s/it] 12%|█▏        | 1296/10712 [34:45<2:36:29,  1.00it/s] 12%|█▏        | 1297/10712 [34:46<2:44:11,  1.05s/it] 12%|█▏        | 1298/10712 [34:47<2:18:22,  1.13it/s] 12%|█▏        | 1299/10712 [34:47<2:10:02,  1.21it/s] 12%|█▏        | 1300/10712 [34:48<2:02:04,  1.29it/s]                                                      {'loss': 4.4012, 'grad_norm': 0.2995099425315857, 'learning_rate': 0.0009986203924560587, 'epoch': 0.12}
+ 12%|█▏        | 1300/10712 [34:48<2:02:04,  1.29it/s] 12%|█▏        | 1301/10712 [34:49<1:55:55,  1.35it/s] 12%|█▏        | 1302/10712 [34:49<1:52:41,  1.39it/s] 12%|█▏        | 1303/10712 [34:50<1:42:11,  1.53it/s] 12%|█▏        | 1304/10712 [34:51<1:55:46,  1.35it/s] 12%|█▏        | 1305/10712 [34:51<1:44:24,  1.50it/s] 12%|█▏        | 1306/10712 [34:52<1:59:44,  1.31it/s] 12%|█▏        | 1307/10712 [34:53<1:47:23,  1.46it/s] 12%|█▏        | 1308/10712 [34:54<1:58:05,  1.33it/s] 12%|█▏        | 1309/10712 [34:55<2:04:04,  1.26it/s] 12%|█▏        | 1310/10712 [34:55<1:57:47,  1.33it/s] 12%|█▏        | 1311/10712 [34:56<2:02:03,  1.28it/s] 12%|█▏        | 1312/10712 [34:57<2:02:15,  1.28it/s] 12%|█▏        | 1313/10712 [34:57<1:49:11,  1.43it/s] 12%|█▏        | 1314/10712 [34:58<2:07:51,  1.23it/s] 12%|█▏        | 1315/10712 [34:59<2:14:55,  1.16it/s] 12%|█▏        | 1316/10712 [35:00<1:57:55,  1.33it/s] 12%|█▏        | 1317/10712 [35:01<2:07:17,  1.23it/s] 12%|█▏        | 1318/10712 [35:01<1:56:52,  1.34it/s] 12%|█▏        | 1319/10712 [35:02<2:06:50,  1.23it/s] 12%|█▏        | 1320/10712 [35:03<2:01:55,  1.28it/s] 12%|█▏        | 1321/10712 [35:04<2:16:57,  1.14it/s] 12%|█▏        | 1322/10712 [35:05<2:13:32,  1.17it/s] 12%|█▏        | 1323/10712 [35:06<1:56:51,  1.34it/s] 12%|█▏        | 1324/10712 [35:07<2:08:33,  1.22it/s] 12%|█▏        | 1325/10712 [35:07<1:53:18,  1.38it/s]                                                      {'loss': 4.39, 'grad_norm': 0.3088318407535553, 'learning_rate': 0.0009983014408167072, 'epoch': 0.12}
+ 12%|█▏        | 1325/10712 [35:07<1:53:18,  1.38it/s] 12%|█▏        | 1326/10712 [35:08<1:45:23,  1.48it/s] 12%|█▏        | 1327/10712 [35:08<1:37:12,  1.61it/s] 12%|█▏        | 1328/10712 [35:09<1:40:42,  1.55it/s] 12%|█▏        | 1329/10712 [35:10<1:57:25,  1.33it/s] 12%|█▏        | 1330/10712 [35:10<1:50:25,  1.42it/s] 12%|█▏        | 1331/10712 [35:11<2:05:14,  1.25it/s] 12%|█▏        | 1332/10712 [35:12<2:15:02,  1.16it/s] 12%|█▏        | 1333/10712 [35:13<2:10:01,  1.20it/s] 12%|█▏        | 1334/10712 [35:14<2:28:04,  1.06it/s] 12%|█▏        | 1335/10712 [35:15<2:15:32,  1.15it/s] 12%|█▏        | 1336/10712 [35:16<2:08:30,  1.22it/s] 12%|█▏        | 1337/10712 [35:17<2:25:20,  1.08it/s] 12%|█▏        | 1338/10712 [35:18<2:09:30,  1.21it/s] 12%|█▎        | 1339/10712 [35:18<2:09:24,  1.21it/s] 13%|█▎        | 1340/10712 [35:20<2:23:40,  1.09it/s] 13%|█▎        | 1341/10712 [35:20<2:11:30,  1.19it/s] 13%|█▎        | 1342/10712 [35:21<1:55:25,  1.35it/s] 13%|█▎        | 1343/10712 [35:22<2:02:20,  1.28it/s] 13%|█▎        | 1344/10712 [35:23<2:11:30,  1.19it/s] 13%|█▎        | 1345/10712 [35:23<2:08:38,  1.21it/s] 13%|█▎        | 1346/10712 [35:24<2:05:18,  1.25it/s] 13%|█▎        | 1347/10712 [35:25<2:07:08,  1.23it/s] 13%|█▎        | 1348/10712 [35:26<2:06:03,  1.24it/s] 13%|█▎        | 1349/10712 [35:27<2:08:18,  1.22it/s] 13%|█▎        | 1350/10712 [35:27<1:53:02,  1.38it/s]                                                      {'loss': 4.3715, 'grad_norm': 0.28549715876579285, 'learning_rate': 0.0009979494129905891, 'epoch': 0.13}
+ 13%|█▎        | 1350/10712 [35:27<1:53:02,  1.38it/s] 13%|█▎        | 1351/10712 [35:28<1:55:43,  1.35it/s] 13%|█▎        | 1352/10712 [35:29<2:04:39,  1.25it/s] 13%|█▎        | 1353/10712 [35:29<1:54:29,  1.36it/s] 13%|█▎        | 1354/10712 [35:31<2:24:11,  1.08it/s] 13%|█▎        | 1355/10712 [35:32<2:50:32,  1.09s/it] 13%|█▎        | 1356/10712 [35:33<2:22:40,  1.09it/s] 13%|█▎        | 1357/10712 [35:34<2:40:41,  1.03s/it] 13%|█▎        | 1358/10712 [35:35<2:29:51,  1.04it/s] 13%|█▎        | 1359/10712 [35:36<2:32:11,  1.02it/s] 13%|█▎        | 1360/10712 [35:37<2:42:55,  1.05s/it] 13%|█▎        | 1361/10712 [35:38<2:24:23,  1.08it/s] 13%|█▎        | 1362/10712 [35:38<2:10:54,  1.19it/s] 13%|█▎        | 1363/10712 [35:39<1:54:47,  1.36it/s] 13%|█▎        | 1364/10712 [35:40<2:00:56,  1.29it/s] 13%|█▎        | 1365/10712 [35:41<2:03:20,  1.26it/s] 13%|█▎        | 1366/10712 [35:42<2:14:41,  1.16it/s] 13%|█▎        | 1367/10712 [35:43<2:21:24,  1.10it/s] 13%|█▎        | 1368/10712 [35:43<2:09:47,  1.20it/s] 13%|█▎        | 1369/10712 [35:44<2:13:15,  1.17it/s] 13%|█▎        | 1370/10712 [35:45<2:22:54,  1.09it/s] 13%|█▎        | 1371/10712 [35:46<2:03:30,  1.26it/s] 13%|█▎        | 1372/10712 [35:46<1:56:34,  1.34it/s] 13%|█▎        | 1373/10712 [35:47<2:14:01,  1.16it/s] 13%|█▎        | 1374/10712 [35:48<2:03:26,  1.26it/s] 13%|█▎        | 1375/10712 [35:49<2:18:17,  1.13it/s]                                                      {'loss': 4.3583, 'grad_norm': 0.25411444902420044, 'learning_rate': 0.0009975643323445608, 'epoch': 0.13}
+ 13%|█▎        | 1375/10712 [35:49<2:18:17,  1.13it/s] 13%|█▎        | 1376/10712 [35:50<2:05:30,  1.24it/s] 13%|█▎        | 1377/10712 [35:51<2:14:45,  1.15it/s] 13%|█▎        | 1378/10712 [35:51<2:00:16,  1.29it/s] 13%|█▎        | 1379/10712 [35:52<2:01:49,  1.28it/s] 13%|█▎        | 1380/10712 [35:53<1:59:13,  1.30it/s] 13%|█▎        | 1381/10712 [35:54<1:51:47,  1.39it/s] 13%|█▎        | 1382/10712 [35:54<1:50:48,  1.40it/s] 13%|█▎        | 1383/10712 [35:55<1:40:52,  1.54it/s] 13%|█▎        | 1384/10712 [35:56<2:02:16,  1.27it/s] 13%|█▎        | 1385/10712 [35:57<2:17:01,  1.13it/s] 13%|█▎        | 1386/10712 [35:58<2:28:08,  1.05it/s] 13%|█▎        | 1387/10712 [35:59<2:31:14,  1.03it/s] 13%|█▎        | 1388/10712 [36:00<2:31:49,  1.02it/s] 13%|█▎        | 1389/10712 [36:01<2:21:59,  1.09it/s] 13%|█▎        | 1390/10712 [36:02<2:16:59,  1.13it/s] 13%|█▎        | 1391/10712 [36:02<1:59:06,  1.30it/s] 13%|█▎        | 1392/10712 [36:03<2:19:21,  1.11it/s] 13%|█▎        | 1393/10712 [36:04<2:00:40,  1.29it/s] 13%|█▎        | 1394/10712 [36:04<1:47:45,  1.44it/s] 13%|█▎        | 1395/10712 [36:05<1:38:42,  1.57it/s] 13%|█▎        | 1396/10712 [36:05<1:32:28,  1.68it/s] 13%|█▎        | 1397/10712 [36:06<1:37:45,  1.59it/s] 13%|█▎        | 1398/10712 [36:07<1:47:56,  1.44it/s] 13%|█▎        | 1399/10712 [36:08<1:54:37,  1.35it/s] 13%|█▎        | 1400/10712 [36:08<1:43:20,  1.50it/s]                                                      {'loss': 4.3563, 'grad_norm': 0.2650745213031769, 'learning_rate': 0.0009971462244394538, 'epoch': 0.13}
+ 13%|█▎        | 1400/10712 [36:08<1:43:20,  1.50it/s] 13%|█▎        | 1401/10712 [36:09<2:00:53,  1.28it/s] 13%|█▎        | 1402/10712 [36:10<1:52:53,  1.37it/s] 13%|█▎        | 1403/10712 [36:10<1:42:07,  1.52it/s] 13%|█▎        | 1404/10712 [36:11<1:49:41,  1.41it/s] 13%|█▎        | 1405/10712 [36:12<1:39:57,  1.55it/s] 13%|█▎        | 1406/10712 [36:12<1:39:55,  1.55it/s] 13%|█▎        | 1407/10712 [36:13<1:46:31,  1.46it/s] 13%|█▎        | 1408/10712 [36:14<2:14:54,  1.15it/s] 13%|█▎        | 1409/10712 [36:15<1:57:36,  1.32it/s] 13%|█▎        | 1410/10712 [36:16<2:13:13,  1.16it/s] 13%|█▎        | 1411/10712 [36:17<1:56:46,  1.33it/s] 13%|█▎        | 1412/10712 [36:17<1:49:28,  1.42it/s] 13%|█▎        | 1413/10712 [36:18<1:46:01,  1.46it/s] 13%|█▎        | 1414/10712 [36:19<1:50:05,  1.41it/s] 13%|█▎        | 1415/10712 [36:19<1:47:00,  1.45it/s] 13%|█▎        | 1416/10712 [36:20<1:38:06,  1.58it/s] 13%|█▎        | 1417/10712 [36:20<1:40:08,  1.55it/s] 13%|█▎        | 1418/10712 [36:21<1:55:44,  1.34it/s] 13%|█▎        | 1419/10712 [36:22<1:44:14,  1.49it/s] 13%|█▎        | 1420/10712 [36:23<1:46:27,  1.45it/s] 13%|█▎        | 1421/10712 [36:23<1:37:32,  1.59it/s] 13%|█▎        | 1422/10712 [36:24<1:44:46,  1.48it/s] 13%|█▎        | 1423/10712 [36:25<1:45:28,  1.47it/s] 13%|█▎        | 1424/10712 [36:25<1:45:17,  1.47it/s] 13%|█▎        | 1425/10712 [36:26<1:37:01,  1.60it/s]                                                      {'loss': 4.3328, 'grad_norm': 0.2654881477355957, 'learning_rate': 0.0009966951170283793, 'epoch': 0.13}
+ 13%|█▎        | 1425/10712 [36:26<1:37:01,  1.60it/s] 13%|█▎        | 1426/10712 [36:27<1:56:02,  1.33it/s] 13%|█▎        | 1427/10712 [36:28<2:05:59,  1.23it/s] 13%|█▎        | 1428/10712 [36:28<1:59:40,  1.29it/s] 13%|█▎        | 1429/10712 [36:29<1:46:48,  1.45it/s] 13%|█▎        | 1430/10712 [36:30<1:56:14,  1.33it/s] 13%|█▎        | 1431/10712 [36:30<1:47:48,  1.43it/s] 13%|█▎        | 1432/10712 [36:31<1:38:40,  1.57it/s] 13%|█▎        | 1433/10712 [36:32<1:50:55,  1.39it/s] 13%|█▎        | 1434/10712 [36:33<2:02:14,  1.26it/s] 13%|█▎        | 1435/10712 [36:34<2:09:44,  1.19it/s] 13%|█▎        | 1436/10712 [36:35<2:15:13,  1.14it/s] 13%|█▎        | 1437/10712 [36:35<1:57:42,  1.31it/s] 13%|█▎        | 1438/10712 [36:36<1:46:26,  1.45it/s] 13%|█▎        | 1439/10712 [36:36<1:38:11,  1.57it/s] 13%|█▎        | 1440/10712 [36:37<1:42:42,  1.50it/s] 13%|█▎        | 1441/10712 [36:38<1:47:54,  1.43it/s] 13%|█▎        | 1442/10712 [36:38<1:47:59,  1.43it/s] 13%|█▎        | 1443/10712 [36:39<1:38:41,  1.57it/s] 13%|█▎        | 1444/10712 [36:39<1:39:13,  1.56it/s] 13%|█▎        | 1445/10712 [36:41<2:13:31,  1.16it/s] 13%|█▎        | 1446/10712 [36:42<2:08:26,  1.20it/s] 14%|█▎        | 1447/10712 [36:42<1:53:28,  1.36it/s] 14%|█▎        | 1448/10712 [36:43<1:53:17,  1.36it/s] 14%|█▎        | 1449/10712 [36:43<1:42:12,  1.51it/s] 14%|█▎        | 1450/10712 [36:44<1:42:36,  1.50it/s]                                                      {'loss': 4.3309, 'grad_norm': 0.29075887799263, 'learning_rate': 0.000996211040054885, 'epoch': 0.14}
+ 14%|█▎        | 1450/10712 [36:44<1:42:36,  1.50it/s] 14%|█▎        | 1451/10712 [36:45<1:53:52,  1.36it/s] 14%|█▎        | 1452/10712 [36:45<1:42:44,  1.50it/s] 14%|█▎        | 1453/10712 [36:46<1:34:59,  1.62it/s] 14%|█▎        | 1454/10712 [36:47<1:46:00,  1.46it/s] 14%|█▎        | 1455/10712 [36:48<1:59:43,  1.29it/s] 14%|█▎        | 1456/10712 [36:48<1:46:54,  1.44it/s] 14%|█▎        | 1457/10712 [36:49<1:52:15,  1.37it/s] 14%|█▎        | 1458/10712 [36:50<1:42:14,  1.51it/s] 14%|█▎        | 1459/10712 [36:50<1:44:29,  1.48it/s] 14%|█▎        | 1460/10712 [36:51<1:51:49,  1.38it/s] 14%|█▎        | 1461/10712 [36:52<1:41:29,  1.52it/s] 14%|█▎        | 1462/10712 [36:52<1:41:17,  1.52it/s] 14%|█▎        | 1463/10712 [36:53<1:34:06,  1.64it/s] 14%|█▎        | 1464/10712 [36:54<1:47:00,  1.44it/s] 14%|█▎        | 1465/10712 [36:54<1:37:59,  1.57it/s] 14%|█▎        | 1466/10712 [36:55<1:49:04,  1.41it/s] 14%|█▎        | 1467/10712 [36:56<2:18:26,  1.11it/s] 14%|█▎        | 1468/10712 [36:57<2:14:10,  1.15it/s] 14%|█▎        | 1469/10712 [36:58<1:57:02,  1.32it/s] 14%|█▎        | 1470/10712 [36:58<1:44:52,  1.47it/s] 14%|█▎        | 1471/10712 [36:59<1:36:22,  1.60it/s] 14%|█▎        | 1472/10712 [36:59<1:30:31,  1.70it/s] 14%|█▍        | 1473/10712 [37:00<1:26:20,  1.78it/s] 14%|█▍        | 1474/10712 [37:00<1:34:35,  1.63it/s] 14%|█▍        | 1475/10712 [37:01<1:39:14,  1.55it/s]                                                      {'loss': 4.3112, 'grad_norm': 0.24770638346672058, 'learning_rate': 0.0009956940256509682, 'epoch': 0.14}
+ 14%|█▍        | 1475/10712 [37:01<1:39:14,  1.55it/s] 14%|█▍        | 1476/10712 [37:02<1:32:38,  1.66it/s] 14%|█▍        | 1477/10712 [37:02<1:34:34,  1.63it/s] 14%|█▍        | 1478/10712 [37:03<1:32:49,  1.66it/s] 14%|█▍        | 1479/10712 [37:03<1:28:08,  1.75it/s] 14%|█▍        | 1480/10712 [37:04<1:24:45,  1.82it/s] 14%|█▍        | 1481/10712 [37:04<1:22:19,  1.87it/s] 14%|█▍        | 1482/10712 [37:05<1:20:38,  1.91it/s] 14%|█▍        | 1483/10712 [37:06<1:43:46,  1.48it/s] 14%|█▍        | 1484/10712 [37:07<1:56:51,  1.32it/s] 14%|█▍        | 1485/10712 [37:08<1:52:47,  1.36it/s] 14%|█▍        | 1486/10712 [37:08<1:42:03,  1.51it/s] 14%|█▍        | 1487/10712 [37:09<1:34:39,  1.62it/s] 14%|█▍        | 1488/10712 [37:09<1:35:01,  1.62it/s] 14%|█▍        | 1489/10712 [37:10<1:53:47,  1.35it/s] 14%|█▍        | 1490/10712 [37:11<1:59:28,  1.29it/s] 14%|█▍        | 1491/10712 [37:12<2:16:12,  1.13it/s] 14%|█▍        | 1492/10712 [37:13<2:06:35,  1.21it/s] 14%|█▍        | 1493/10712 [37:14<2:12:30,  1.16it/s] 14%|█▍        | 1494/10712 [37:14<1:56:23,  1.32it/s] 14%|█▍        | 1495/10712 [37:15<1:50:27,  1.39it/s] 14%|█▍        | 1496/10712 [37:16<1:50:19,  1.39it/s] 14%|█▍        | 1497/10712 [37:17<2:03:51,  1.24it/s] 14%|█▍        | 1498/10712 [37:17<2:03:25,  1.24it/s] 14%|█▍        | 1499/10712 [37:19<2:14:35,  1.14it/s] 14%|█▍        | 1500/10712 [37:19<1:57:10,  1.31it/s]                                                      {'loss': 4.3045, 'grad_norm': 0.24644799530506134, 'learning_rate': 0.0009951441081349414, 'epoch': 0.14}
+ 14%|█▍        | 1500/10712 [37:19<1:57:10,  1.31it/s] 14%|█▍        | 1501/10712 [37:20<1:55:57,  1.32it/s] 14%|█▍        | 1502/10712 [37:21<2:24:54,  1.06it/s] 14%|█▍        | 1503/10712 [37:22<2:33:29,  1.00s/it] 14%|█▍        | 1504/10712 [37:23<2:27:37,  1.04it/s] 14%|█▍        | 1505/10712 [37:24<2:06:43,  1.21it/s] 14%|█▍        | 1506/10712 [37:25<2:07:51,  1.20it/s] 14%|█▍        | 1507/10712 [37:25<2:00:47,  1.27it/s] 14%|█▍        | 1508/10712 [37:26<2:06:09,  1.22it/s] 14%|█▍        | 1509/10712 [37:27<2:14:12,  1.14it/s] 14%|█▍        | 1510/10712 [37:28<2:14:24,  1.14it/s] 14%|█▍        | 1511/10712 [37:29<2:24:49,  1.06it/s] 14%|█▍        | 1512/10712 [37:30<2:07:19,  1.20it/s] 14%|█▍        | 1513/10712 [37:31<2:25:53,  1.05it/s] 14%|█▍        | 1514/10712 [37:32<2:23:06,  1.07it/s] 14%|█▍        | 1515/10712 [37:32<2:03:16,  1.24it/s] 14%|█▍        | 1516/10712 [37:34<2:30:59,  1.02it/s] 14%|█▍        | 1517/10712 [37:34<2:08:47,  1.19it/s] 14%|█▍        | 1518/10712 [37:35<1:53:05,  1.36it/s] 14%|█▍        | 1519/10712 [37:35<1:46:45,  1.44it/s] 14%|█▍        | 1520/10712 [37:36<1:56:30,  1.31it/s] 14%|█▍        | 1521/10712 [37:37<2:03:57,  1.24it/s] 14%|█▍        | 1522/10712 [37:38<1:56:05,  1.32it/s] 14%|█▍        | 1523/10712 [37:38<1:44:06,  1.47it/s] 14%|█▍        | 1524/10712 [37:39<1:35:47,  1.60it/s] 14%|█▍        | 1525/10712 [37:40<1:52:27,  1.36it/s]                                                      {'loss': 4.2978, 'grad_norm': 0.26171353459358215, 'learning_rate': 0.0009945613240091573, 'epoch': 0.14}
+ 14%|█▍        | 1525/10712 [37:40<1:52:27,  1.36it/s] 14%|█▍        | 1526/10712 [37:41<1:56:40,  1.31it/s] 14%|█▍        | 1527/10712 [37:41<1:54:30,  1.34it/s] 14%|█▍        | 1528/10712 [37:42<1:42:59,  1.49it/s] 14%|█▍        | 1529/10712 [37:43<1:57:22,  1.30it/s] 14%|█▍        | 1530/10712 [37:43<1:45:31,  1.45it/s] 14%|█▍        | 1531/10712 [37:44<1:52:47,  1.36it/s] 14%|█▍        | 1532/10712 [37:45<1:45:52,  1.45it/s] 14%|█▍        | 1533/10712 [37:46<1:57:05,  1.31it/s] 14%|█▍        | 1534/10712 [37:46<1:44:59,  1.46it/s] 14%|█▍        | 1535/10712 [37:47<1:52:14,  1.36it/s] 14%|█▍        | 1536/10712 [37:48<2:15:38,  1.13it/s] 14%|█▍        | 1537/10712 [37:49<2:05:44,  1.22it/s] 14%|█▍        | 1538/10712 [37:50<2:11:14,  1.17it/s] 14%|█▍        | 1539/10712 [37:51<2:03:19,  1.24it/s] 14%|█▍        | 1540/10712 [37:51<2:08:04,  1.19it/s] 14%|█▍        | 1541/10712 [37:52<1:52:30,  1.36it/s] 14%|█▍        | 1542/10712 [37:52<1:41:42,  1.50it/s] 14%|█▍        | 1543/10712 [37:53<1:43:08,  1.48it/s] 14%|█▍        | 1544/10712 [37:54<1:35:05,  1.61it/s] 14%|█▍        | 1545/10712 [37:54<1:29:23,  1.71it/s] 14%|█▍        | 1546/10712 [37:55<1:25:22,  1.79it/s] 14%|█▍        | 1547/10712 [37:55<1:22:34,  1.85it/s] 14%|█▍        | 1548/10712 [37:56<1:25:47,  1.78it/s] 14%|█▍        | 1549/10712 [37:56<1:22:54,  1.84it/s] 14%|█▍        | 1550/10712 [37:57<1:36:57,  1.57it/s]                                                      {'loss': 4.2824, 'grad_norm': 0.25666242837905884, 'learning_rate': 0.0009939457119575823, 'epoch': 0.14}
+ 14%|█▍        | 1550/10712 [37:57<1:36:57,  1.57it/s] 14%|█▍        | 1551/10712 [37:58<1:40:39,  1.52it/s] 14%|█▍        | 1552/10712 [37:58<1:33:22,  1.63it/s] 14%|█▍        | 1553/10712 [37:59<1:59:26,  1.28it/s] 15%|█▍        | 1554/10712 [38:00<1:57:19,  1.30it/s] 15%|█▍        | 1555/10712 [38:01<1:57:57,  1.29it/s] 15%|█▍        | 1556/10712 [38:02<2:25:38,  1.05it/s] 15%|█▍        | 1557/10712 [38:03<2:16:46,  1.12it/s] 15%|█▍        | 1558/10712 [38:04<2:14:35,  1.13it/s] 15%|█▍        | 1559/10712 [38:05<2:01:33,  1.25it/s] 15%|█▍        | 1560/10712 [38:05<1:48:11,  1.41it/s] 15%|█▍        | 1561/10712 [38:06<1:39:10,  1.54it/s] 15%|█▍        | 1562/10712 [38:06<1:40:44,  1.51it/s] 15%|█▍        | 1563/10712 [38:07<1:41:57,  1.50it/s] 15%|█▍        | 1564/10712 [38:08<1:46:54,  1.43it/s] 15%|█▍        | 1565/10712 [38:08<1:38:31,  1.55it/s] 15%|█▍        | 1566/10712 [38:09<1:31:47,  1.66it/s] 15%|█▍        | 1567/10712 [38:10<1:37:14,  1.57it/s] 15%|█▍        | 1568/10712 [38:11<2:01:01,  1.26it/s] 15%|█▍        | 1569/10712 [38:12<2:11:28,  1.16it/s] 15%|█▍        | 1570/10712 [38:12<1:54:59,  1.32it/s] 15%|█▍        | 1571/10712 [38:13<1:43:18,  1.47it/s] 15%|█▍        | 1572/10712 [38:13<1:41:16,  1.50it/s] 15%|█▍        | 1573/10712 [38:14<1:45:48,  1.44it/s] 15%|█▍        | 1574/10712 [38:15<1:41:36,  1.50it/s] 15%|█▍        | 1575/10712 [38:15<1:34:00,  1.62it/s]                                                      {'loss': 4.2776, 'grad_norm': 0.2592921555042267, 'learning_rate': 0.000993297312843232, 'epoch': 0.15}
+ 15%|█▍        | 1575/10712 [38:15<1:34:00,  1.62it/s] 15%|█▍        | 1576/10712 [38:16<1:28:41,  1.72it/s] 15%|█▍        | 1577/10712 [38:16<1:37:40,  1.56it/s] 15%|█▍        | 1578/10712 [38:17<1:31:14,  1.67it/s] 15%|█▍        | 1579/10712 [38:18<1:34:08,  1.62it/s] 15%|█▍        | 1580/10712 [38:18<1:36:56,  1.57it/s] 15%|█▍        | 1581/10712 [38:19<1:37:52,  1.55it/s] 15%|█▍        | 1582/10712 [38:20<1:37:51,  1.56it/s] 15%|█▍        | 1583/10712 [38:20<1:31:18,  1.67it/s] 15%|█▍        | 1584/10712 [38:21<1:26:47,  1.75it/s] 15%|█▍        | 1585/10712 [38:21<1:23:31,  1.82it/s] 15%|█▍        | 1586/10712 [38:22<1:30:13,  1.69it/s] 15%|█▍        | 1587/10712 [38:23<1:34:46,  1.60it/s] 15%|█▍        | 1588/10712 [38:23<1:37:15,  1.56it/s] 15%|█▍        | 1589/10712 [38:24<1:37:06,  1.57it/s] 15%|█▍        | 1590/10712 [38:24<1:30:44,  1.68it/s] 15%|█▍        | 1591/10712 [38:25<1:47:31,  1.41it/s] 15%|█▍        | 1592/10712 [38:26<1:49:17,  1.39it/s] 15%|█▍        | 1593/10712 [38:27<1:39:19,  1.53it/s] 15%|█▍        | 1594/10712 [38:27<1:32:22,  1.65it/s] 15%|█▍        | 1595/10712 [38:28<1:37:55,  1.55it/s] 15%|█▍        | 1596/10712 [38:28<1:36:38,  1.57it/s] 15%|█▍        | 1597/10712 [38:29<1:47:55,  1.41it/s] 15%|█▍        | 1598/10712 [38:30<1:58:00,  1.29it/s] 15%|█▍        | 1599/10712 [38:31<2:00:55,  1.26it/s] 15%|█▍        | 1600/10712 [38:32<1:47:20,  1.41it/s]                                                      {'loss': 4.2663, 'grad_norm': 0.2505224347114563, 'learning_rate': 0.0009926161697054558, 'epoch': 0.15}
+ 15%|█▍        | 1600/10712 [38:32<1:47:20,  1.41it/s] 15%|█▍        | 1601/10712 [38:33<2:00:08,  1.26it/s] 15%|█▍        | 1602/10712 [38:34<2:10:51,  1.16it/s] 15%|█▍        | 1603/10712 [38:34<2:00:40,  1.26it/s] 15%|█▍        | 1604/10712 [38:35<1:47:05,  1.42it/s] 15%|█▍        | 1605/10712 [38:35<1:37:36,  1.56it/s] 15%|█▍        | 1606/10712 [38:36<1:31:02,  1.67it/s] 15%|█▌        | 1607/10712 [38:36<1:26:32,  1.75it/s] 15%|█▌        | 1608/10712 [38:37<1:36:52,  1.57it/s] 15%|█▌        | 1609/10712 [38:38<1:44:49,  1.45it/s] 15%|█▌        | 1610/10712 [38:38<1:43:38,  1.46it/s] 15%|█▌        | 1611/10712 [38:39<1:35:19,  1.59it/s] 15%|█▌        | 1612/10712 [38:40<1:35:33,  1.59it/s] 15%|█▌        | 1613/10712 [38:40<1:39:14,  1.53it/s] 15%|█▌        | 1614/10712 [38:41<1:33:13,  1.63it/s] 15%|█▌        | 1615/10712 [38:42<1:44:39,  1.45it/s] 15%|█▌        | 1616/10712 [38:42<1:35:54,  1.58it/s] 15%|█▌        | 1617/10712 [38:43<1:45:27,  1.44it/s] 15%|█▌        | 1618/10712 [38:44<1:36:31,  1.57it/s] 15%|█▌        | 1619/10712 [38:44<1:30:24,  1.68it/s] 15%|█▌        | 1620/10712 [38:45<1:26:18,  1.76it/s] 15%|█▌        | 1621/10712 [38:45<1:25:01,  1.78it/s] 15%|█▌        | 1622/10712 [38:46<1:36:39,  1.57it/s] 15%|█▌        | 1623/10712 [38:47<1:47:14,  1.41it/s] 15%|█▌        | 1624/10712 [38:48<1:53:35,  1.33it/s] 15%|█▌        | 1625/10712 [38:48<1:51:02,  1.36it/s]                                                      {'loss': 4.2583, 'grad_norm': 0.2425021529197693, 'learning_rate': 0.000991902327757083, 'epoch': 0.15}
+ 15%|█▌        | 1625/10712 [38:48<1:51:02,  1.36it/s] 15%|█▌        | 1626/10712 [38:49<1:40:35,  1.51it/s] 15%|█▌        | 1627/10712 [38:50<1:48:19,  1.40it/s] 15%|█▌        | 1628/10712 [38:50<1:38:30,  1.54it/s] 15%|█▌        | 1629/10712 [38:51<1:43:26,  1.46it/s] 15%|█▌        | 1630/10712 [38:52<1:57:22,  1.29it/s] 15%|█▌        | 1631/10712 [38:53<1:55:55,  1.31it/s] 15%|█▌        | 1632/10712 [38:53<1:43:48,  1.46it/s] 15%|█▌        | 1633/10712 [38:54<1:40:57,  1.50it/s] 15%|█▌        | 1634/10712 [38:54<1:33:25,  1.62it/s] 15%|█▌        | 1635/10712 [38:55<1:28:00,  1.72it/s] 15%|█▌        | 1636/10712 [38:55<1:24:14,  1.80it/s] 15%|█▌        | 1637/10712 [38:56<1:21:31,  1.86it/s] 15%|█▌        | 1638/10712 [38:56<1:19:42,  1.90it/s] 15%|█▌        | 1639/10712 [38:57<1:46:05,  1.43it/s] 15%|█▌        | 1640/10712 [38:58<1:36:54,  1.56it/s] 15%|█▌        | 1641/10712 [38:59<1:41:19,  1.49it/s] 15%|█▌        | 1642/10712 [39:00<1:51:49,  1.35it/s] 15%|█▌        | 1643/10712 [39:00<1:40:56,  1.50it/s] 15%|█▌        | 1644/10712 [39:01<1:36:22,  1.57it/s] 15%|█▌        | 1645/10712 [39:01<1:42:04,  1.48it/s] 15%|█▌        | 1646/10712 [39:02<1:33:59,  1.61it/s] 15%|█▌        | 1647/10712 [39:02<1:28:30,  1.71it/s] 15%|█▌        | 1648/10712 [39:03<1:27:59,  1.72it/s] 15%|█▌        | 1649/10712 [39:04<1:40:06,  1.51it/s] 15%|█▌        | 1650/10712 [39:04<1:42:19,  1.48it/s]                                                      {'loss': 4.2497, 'grad_norm': 0.2643587291240692, 'learning_rate': 0.000991155834381419, 'epoch': 0.15}
+ 15%|█▌        | 1650/10712 [39:04<1:42:19,  1.48it/s] 15%|█▌        | 1651/10712 [39:05<1:34:46,  1.59it/s] 15%|█▌        | 1652/10712 [39:05<1:28:53,  1.70it/s] 15%|█▌        | 1653/10712 [39:06<1:31:45,  1.65it/s] 15%|█▌        | 1654/10712 [39:07<1:49:00,  1.38it/s] 15%|█▌        | 1655/10712 [39:08<1:38:58,  1.53it/s] 15%|█▌        | 1656/10712 [39:08<1:37:16,  1.55it/s] 15%|█▌        | 1657/10712 [39:10<2:08:31,  1.17it/s] 15%|█▌        | 1658/10712 [39:10<1:59:37,  1.26it/s] 15%|█▌        | 1659/10712 [39:11<1:46:14,  1.42it/s] 15%|█▌        | 1660/10712 [39:11<1:44:25,  1.44it/s] 16%|█▌        | 1661/10712 [39:12<1:35:36,  1.58it/s] 16%|█▌        | 1662/10712 [39:13<1:52:37,  1.34it/s] 16%|█▌        | 1663/10712 [39:14<1:55:13,  1.31it/s] 16%|█▌        | 1664/10712 [39:15<2:30:01,  1.01it/s] 16%|█▌        | 1665/10712 [39:16<2:15:16,  1.11it/s] 16%|█▌        | 1666/10712 [39:16<1:57:21,  1.28it/s] 16%|█▌        | 1667/10712 [39:17<1:44:41,  1.44it/s] 16%|█▌        | 1668/10712 [39:17<1:35:53,  1.57it/s] 16%|█▌        | 1669/10712 [39:18<1:36:55,  1.55it/s] 16%|█▌        | 1670/10712 [39:19<1:30:27,  1.67it/s] 16%|█▌        | 1671/10712 [39:19<1:38:46,  1.53it/s] 16%|█▌        | 1672/10712 [39:20<1:31:36,  1.64it/s] 16%|█▌        | 1673/10712 [39:20<1:26:36,  1.74it/s] 16%|█▌        | 1674/10712 [39:21<1:22:59,  1.81it/s] 16%|█▌        | 1675/10712 [39:21<1:20:39,  1.87it/s]                                                      {'loss': 4.2508, 'grad_norm': 0.24532604217529297, 'learning_rate': 0.0009903767391291024, 'epoch': 0.16}
+ 16%|█▌        | 1675/10712 [39:21<1:20:39,  1.87it/s] 16%|█▌        | 1676/10712 [39:22<1:27:45,  1.72it/s] 16%|█▌        | 1677/10712 [39:23<1:23:58,  1.79it/s] 16%|█▌        | 1678/10712 [39:23<1:21:30,  1.85it/s] 16%|█▌        | 1679/10712 [39:24<1:21:42,  1.84it/s] 16%|█▌        | 1680/10712 [39:24<1:19:46,  1.89it/s] 16%|█▌        | 1681/10712 [39:25<1:34:01,  1.60it/s] 16%|█▌        | 1682/10712 [39:26<1:41:04,  1.49it/s] 16%|█▌        | 1683/10712 [39:27<1:59:14,  1.26it/s] 16%|█▌        | 1684/10712 [39:28<2:00:25,  1.25it/s] 16%|█▌        | 1685/10712 [39:28<1:46:55,  1.41it/s] 16%|█▌        | 1686/10712 [39:29<1:37:19,  1.55it/s] 16%|█▌        | 1687/10712 [39:29<1:30:34,  1.66it/s] 16%|█▌        | 1688/10712 [39:30<1:26:03,  1.75it/s] 16%|█▌        | 1689/10712 [39:30<1:24:44,  1.77it/s] 16%|█▌        | 1690/10712 [39:31<1:21:54,  1.84it/s] 16%|█▌        | 1691/10712 [39:31<1:30:16,  1.67it/s] 16%|█▌        | 1692/10712 [39:32<1:25:38,  1.76it/s] 16%|█▌        | 1693/10712 [39:32<1:22:34,  1.82it/s] 16%|█▌        | 1694/10712 [39:33<1:20:19,  1.87it/s] 16%|█▌        | 1695/10712 [39:34<1:26:13,  1.74it/s] 16%|█▌        | 1696/10712 [39:34<1:22:54,  1.81it/s] 16%|█▌        | 1697/10712 [39:35<1:20:34,  1.86it/s] 16%|█▌        | 1698/10712 [39:35<1:18:50,  1.91it/s] 16%|█▌        | 1699/10712 [39:36<1:25:46,  1.75it/s] 16%|█▌        | 1700/10712 [39:36<1:31:18,  1.65it/s]                                                      {'loss': 4.2363, 'grad_norm': 0.25432372093200684, 'learning_rate': 0.0009895650937148137, 'epoch': 0.16}
+ 16%|█▌        | 1700/10712 [39:36<1:31:18,  1.65it/s] 16%|█▌        | 1701/10712 [39:37<1:26:35,  1.73it/s] 16%|█▌        | 1702/10712 [39:38<1:34:24,  1.59it/s] 16%|█▌        | 1703/10712 [39:38<1:31:48,  1.64it/s] 16%|█▌        | 1704/10712 [39:39<1:44:07,  1.44it/s] 16%|█▌        | 1705/10712 [39:40<1:43:56,  1.44it/s] 16%|█▌        | 1706/10712 [39:40<1:35:22,  1.57it/s] 16%|█▌        | 1707/10712 [39:41<1:29:15,  1.68it/s] 16%|█▌        | 1708/10712 [39:41<1:24:51,  1.77it/s] 16%|█▌        | 1709/10712 [39:42<1:21:53,  1.83it/s] 16%|█▌        | 1710/10712 [39:42<1:27:04,  1.72it/s] 16%|█▌        | 1711/10712 [39:43<1:23:27,  1.80it/s] 16%|█���        | 1712/10712 [39:43<1:20:47,  1.86it/s] 16%|█▌        | 1713/10712 [39:44<1:19:02,  1.90it/s] 16%|█▌        | 1714/10712 [39:45<1:39:30,  1.51it/s] 16%|█▌        | 1715/10712 [39:45<1:32:09,  1.63it/s] 16%|█▌        | 1716/10712 [39:46<1:35:04,  1.58it/s] 16%|█▌        | 1717/10712 [39:47<1:39:29,  1.51it/s] 16%|█▌        | 1718/10712 [39:47<1:31:59,  1.63it/s] 16%|█▌        | 1719/10712 [39:48<1:37:10,  1.54it/s] 16%|█▌        | 1720/10712 [39:49<1:31:02,  1.65it/s] 16%|█▌        | 1721/10712 [39:49<1:26:08,  1.74it/s] 16%|█▌        | 1722/10712 [39:50<1:36:44,  1.55it/s] 16%|█▌        | 1723/10712 [39:50<1:30:15,  1.66it/s] 16%|█▌        | 1724/10712 [39:51<1:37:51,  1.53it/s] 16%|█▌        | 1725/10712 [39:52<1:41:24,  1.48it/s]                                                      {'loss': 4.2263, 'grad_norm': 0.23738078773021698, 'learning_rate': 0.0009887209520138443, 'epoch': 0.16}
+ 16%|█▌        | 1725/10712 [39:52<1:41:24,  1.48it/s] 16%|█▌        | 1726/10712 [39:52<1:33:29,  1.60it/s] 16%|█▌        | 1727/10712 [39:53<1:27:45,  1.71it/s] 16%|█▌        | 1728/10712 [39:53<1:23:52,  1.79it/s] 16%|█▌        | 1729/10712 [39:54<1:21:10,  1.84it/s] 16%|█▌        | 1730/10712 [39:54<1:19:14,  1.89it/s] 16%|█▌        | 1731/10712 [39:55<1:27:42,  1.71it/s] 16%|█▌        | 1732/10712 [39:56<1:27:40,  1.71it/s] 16%|█▌        | 1733/10712 [39:56<1:34:04,  1.59it/s] 16%|█▌        | 1734/10712 [39:57<1:28:18,  1.69it/s] 16%|█▌        | 1735/10712 [39:58<1:33:02,  1.61it/s] 16%|█▌        | 1736/10712 [39:58<1:27:29,  1.71it/s] 16%|█▌        | 1737/10712 [39:59<1:23:36,  1.79it/s] 16%|█▌        | 1738/10712 [39:59<1:20:55,  1.85it/s] 16%|█▌        | 1739/10712 [40:00<1:47:19,  1.39it/s] 16%|█▌        | 1740/10712 [40:01<1:38:34,  1.52it/s] 16%|█▋        | 1741/10712 [40:02<1:40:55,  1.48it/s] 16%|█▋        | 1742/10712 [40:02<1:33:02,  1.61it/s] 16%|█▋        | 1743/10712 [40:03<1:27:26,  1.71it/s] 16%|█▋        | 1744/10712 [40:03<1:23:33,  1.79it/s] 16%|█▋        | 1745/10712 [40:04<1:20:48,  1.85it/s] 16%|█▋        | 1746/10712 [40:04<1:33:03,  1.61it/s] 16%|█▋        | 1747/10712 [40:05<1:35:29,  1.56it/s] 16%|█▋        | 1748/10712 [40:06<1:32:58,  1.61it/s] 16%|█▋        | 1749/10712 [40:06<1:27:23,  1.71it/s] 16%|█▋        | 1750/10712 [40:07<1:23:36,  1.79it/s]                                                      {'loss': 4.227, 'grad_norm': 0.2520458698272705, 'learning_rate': 0.0009878443700585202, 'epoch': 0.16}
+ 16%|█▋        | 1750/10712 [40:07<1:23:36,  1.79it/s] 16%|█▋        | 1751/10712 [40:07<1:21:01,  1.84it/s] 16%|█▋        | 1752/10712 [40:08<1:24:45,  1.76it/s] 16%|█▋        | 1753/10712 [40:08<1:21:42,  1.83it/s] 16%|█▋        | 1754/10712 [40:09<1:19:30,  1.88it/s] 16%|█▋        | 1755/10712 [40:09<1:18:06,  1.91it/s] 16%|█▋        | 1756/10712 [40:10<1:26:50,  1.72it/s] 16%|█▋        | 1757/10712 [40:11<1:34:17,  1.58it/s] 16%|█▋        | 1758/10712 [40:11<1:36:05,  1.55it/s] 16%|█▋        | 1759/10712 [40:12<1:38:41,  1.51it/s] 16%|█▋        | 1760/10712 [40:13<1:37:29,  1.53it/s] 16%|█▋        | 1761/10712 [40:13<1:30:35,  1.65it/s] 16%|█▋        | 1762/10712 [40:14<1:40:01,  1.49it/s] 16%|█▋        | 1763/10712 [40:15<1:32:28,  1.61it/s] 16%|█▋        | 1764/10712 [40:15<1:40:06,  1.49it/s] 16%|█▋        | 1765/10712 [40:16<1:55:58,  1.29it/s] 16%|█▋        | 1766/10712 [40:17<1:51:31,  1.34it/s] 16%|█▋        | 1767/10712 [40:18<1:40:27,  1.48it/s] 17%|█▋        | 1768/10712 [40:18<1:44:42,  1.42it/s] 17%|█▋        | 1769/10712 [40:19<1:49:52,  1.36it/s] 17%|█▋        | 1770/10712 [40:20<1:39:18,  1.50it/s] 17%|█▋        | 1771/10712 [40:20<1:32:03,  1.62it/s] 17%|█▋        | 1772/10712 [40:21<1:52:18,  1.33it/s] 17%|█▋        | 1773/10712 [40:22<1:41:34,  1.47it/s] 17%|█▋        | 1774/10712 [40:22<1:33:22,  1.60it/s] 17%|█▋        | 1775/10712 [40:23<1:44:44,  1.42it/s]                                                      {'loss': 4.2151, 'grad_norm': 0.22984232008457184, 'learning_rate': 0.0009869354060344812, 'epoch': 0.17}
+ 17%|█▋        | 1775/10712 [40:23<1:44:44,  1.42it/s] 17%|█▋        | 1776/10712 [40:24<1:44:17,  1.43it/s] 17%|█▋        | 1777/10712 [40:24<1:41:17,  1.47it/s] 17%|█▋        | 1778/10712 [40:25<1:57:27,  1.27it/s] 17%|█▋        | 1779/10712 [40:26<1:51:03,  1.34it/s] 17%|█▋        | 1780/10712 [40:27<1:50:30,  1.35it/s] 17%|█▋        | 1781/10712 [40:27<1:46:50,  1.39it/s] 17%|█▋        | 1782/10712 [40:28<1:37:03,  1.53it/s] 17%|█▋        | 1783/10712 [40:29<1:50:28,  1.35it/s] 17%|█▋        | 1784/10712 [40:29<1:39:38,  1.49it/s] 17%|█▋        | 1785/10712 [40:31<1:59:25,  1.25it/s] 17%|█▋        | 1786/10712 [40:31<1:45:56,  1.40it/s] 17%|█▋        | 1787/10712 [40:32<1:43:47,  1.43it/s] 17%|█▋        | 1788/10712 [40:32<1:34:59,  1.57it/s] 17%|█▋        | 1789/10712 [40:33<1:28:52,  1.67it/s] 17%|█▋        | 1790/10712 [40:34<1:40:04,  1.49it/s] 17%|█▋        | 1791/10712 [40:34<1:42:16,  1.45it/s] 17%|█▋        | 1792/10712 [40:35<1:46:14,  1.40it/s] 17%|█▋        | 1793/10712 [40:36<1:36:41,  1.54it/s] 17%|█▋        | 1794/10712 [40:36<1:29:58,  1.65it/s] 17%|█▋        | 1795/10712 [40:37<1:45:54,  1.40it/s] 17%|█▋        | 1796/10712 [40:38<1:36:28,  1.54it/s] 17%|█▋        | 1797/10712 [40:38<1:29:46,  1.65it/s] 17%|█▋        | 1798/10712 [40:39<1:24:59,  1.75it/s] 17%|█▋        | 1799/10712 [40:39<1:21:46,  1.82it/s] 17%|█▋        | 1800/10712 [40:40<1:19:35,  1.87it/s]                                                      {'loss': 4.2111, 'grad_norm': 0.24741072952747345, 'learning_rate': 0.000985994120276821, 'epoch': 0.17}
+ 17%|█▋        | 1800/10712 [40:40<1:19:35,  1.87it/s] 17%|█▋        | 1801/10712 [40:40<1:26:15,  1.72it/s] 17%|█▋        | 1802/10712 [40:41<1:22:45,  1.79it/s] 17%|█▋        | 1803/10712 [40:41<1:20:07,  1.85it/s] 17%|█▋        | 1804/10712 [40:42<1:18:19,  1.90it/s] 17%|█▋        | 1805/10712 [40:43<1:32:37,  1.60it/s] 17%|█▋        | 1806/10712 [40:43<1:44:43,  1.42it/s] 17%|█▋        | 1807/10712 [40:44<1:35:31,  1.55it/s] 17%|█▋        | 1808/10712 [40:44<1:28:59,  1.67it/s] 17%|█▋        | 1809/10712 [40:45<1:24:30,  1.76it/s] 17%|█▋        | 1810/10712 [40:45<1:21:11,  1.83it/s] 17%|█▋        | 1811/10712 [40:46<1:18:59,  1.88it/s] 17%|█▋        | 1812/10712 [40:47<1:41:47,  1.46it/s] 17%|█▋        | 1813/10712 [40:47<1:33:20,  1.59it/s] 17%|█▋        | 1814/10712 [40:48<1:27:24,  1.70it/s] 17%|█▋        | 1815/10712 [40:49<1:38:27,  1.51it/s] 17%|█▋        | 1816/10712 [40:49<1:31:00,  1.63it/s] 17%|█▋        | 1817/10712 [40:50<1:25:53,  1.73it/s] 17%|█▋        | 1818/10712 [40:51<1:31:38,  1.62it/s] 17%|█▋        | 1819/10712 [40:53<2:53:40,  1.17s/it] 17%|█▋        | 1820/10712 [40:53<2:23:46,  1.03it/s] 17%|█▋        | 1821/10712 [40:54<2:02:52,  1.21it/s] 17%|█▋        | 1822/10712 [40:54<1:48:00,  1.37it/s] 17%|█▋        | 1823/10712 [40:55<1:37:45,  1.52it/s] 17%|█▋        | 1824/10712 [40:56<1:52:25,  1.32it/s] 17%|█▋        | 1825/10712 [40:56<1:40:52,  1.47it/s]                                                      {'loss': 4.2049, 'grad_norm': 0.2311837077140808, 'learning_rate': 0.0009850205752660803, 'epoch': 0.17}
+ 17%|█▋        | 1825/10712 [40:56<1:40:52,  1.47it/s] 17%|█▋        | 1826/10712 [40:57<1:52:36,  1.32it/s] 17%|█▋        | 1827/10712 [40:58<1:40:57,  1.47it/s] 17%|█▋        | 1828/10712 [40:58<1:33:13,  1.59it/s] 17%|█▋        | 1829/10712 [40:59<1:38:24,  1.50it/s] 17%|█▋        | 1830/10712 [41:00<2:06:42,  1.17it/s] 17%|█▋        | 1831/10712 [41:02<2:28:05,  1.00s/it] 17%|█▋        | 1832/10712 [41:02<2:05:48,  1.18it/s] 17%|█▋        | 1833/10712 [41:03<1:50:10,  1.34it/s] 17%|█▋        | 1834/10712 [41:03<1:39:18,  1.49it/s] 17%|█▋        | 1835/10712 [41:04<1:31:32,  1.62it/s] 17%|█▋        | 1836/10712 [41:05<1:39:41,  1.48it/s] 17%|█▋        | 1837/10712 [41:06<2:07:27,  1.16it/s] 17%|█▋        | 1838/10712 [41:07<2:14:45,  1.10it/s] 17%|█▋        | 1839/10712 [41:08<2:16:26,  1.08it/s] 17%|█▋        | 1840/10712 [41:08<1:57:37,  1.26it/s] 17%|█▋        | 1841/10712 [41:09<1:55:29,  1.28it/s] 17%|█▋        | 1842/10712 [41:10<1:50:40,  1.34it/s] 17%|█▋        | 1843/10712 [41:11<1:51:25,  1.33it/s] 17%|█▋        | 1844/10712 [41:11<1:40:06,  1.48it/s] 17%|█▋        | 1845/10712 [41:12<1:32:07,  1.60it/s] 17%|█▋        | 1846/10712 [41:13<2:06:10,  1.17it/s] 17%|█▋        | 1847/10712 [41:14<2:10:16,  1.13it/s] 17%|█▋        | 1848/10712 [41:15<2:01:37,  1.21it/s] 17%|█▋        | 1849/10712 [41:15<1:47:23,  1.38it/s] 17%|█▋        | 1850/10712 [41:16<1:56:17,  1.27it/s]                                                      {'loss': 4.1946, 'grad_norm': 0.23028145730495453, 'learning_rate': 0.0009840148356241001, 'epoch': 0.17}
+ 17%|█▋        | 1850/10712 [41:16<1:56:17,  1.27it/s] 17%|█▋        | 1851/10712 [41:17<1:43:49,  1.42it/s] 17%|█▋        | 1852/10712 [41:17<1:34:57,  1.56it/s] 17%|█▋        | 1853/10712 [41:18<1:28:37,  1.67it/s] 17%|█▋        | 1854/10712 [41:18<1:24:07,  1.75it/s] 17%|█▋        | 1855/10712 [41:19<1:37:03,  1.52it/s] 17%|█▋        | 1856/10712 [41:19<1:30:00,  1.64it/s] 17%|█▋        | 1857/10712 [41:20<1:31:29,  1.61it/s] 17%|█▋        | 1858/10712 [41:21<1:56:02,  1.27it/s] 17%|█▋        | 1859/10712 [41:22<1:43:25,  1.43it/s] 17%|█▋        | 1860/10712 [41:22<1:34:30,  1.56it/s] 17%|█▋        | 1861/10712 [41:23<1:41:11,  1.46it/s] 17%|█▋        | 1862/10712 [41:23<1:33:00,  1.59it/s] 17%|█▋        | 1863/10712 [41:25<2:05:53,  1.17it/s] 17%|█▋        | 1864/10712 [41:26<2:22:48,  1.03it/s] 17%|█▋        | 1865/10712 [41:27<2:23:15,  1.03it/s] 17%|█▋        | 1866/10712 [41:28<2:02:20,  1.21it/s] 17%|█▋        | 1867/10712 [41:28<1:47:54,  1.37it/s] 17%|█▋        | 1868/10712 [41:29<1:49:38,  1.34it/s] 17%|█▋        | 1869/10712 [41:29<1:38:50,  1.49it/s] 17%|█▋        | 1870/10712 [41:30<1:31:15,  1.61it/s] 17%|█▋        | 1871/10712 [41:30<1:25:59,  1.71it/s] 17%|█▋        | 1872/10712 [41:31<1:28:23,  1.67it/s] 17%|█▋        | 1873/10712 [41:31<1:23:58,  1.75it/s] 17%|█▋        | 1874/10712 [41:32<1:20:44,  1.82it/s] 18%|█▊        | 1875/10712 [41:32<1:18:29,  1.88it/s]                                                      {'loss': 4.1866, 'grad_norm': 0.2419293373823166, 'learning_rate': 0.0009829769681097328, 'epoch': 0.18}
+ 18%|█▊        | 1875/10712 [41:32<1:18:29,  1.88it/s] 18%|█▊        | 1876/10712 [41:33<1:28:16,  1.67it/s] 18%|█▊        | 1877/10712 [41:34<1:23:40,  1.76it/s] 18%|█▊        | 1878/10712 [41:34<1:20:35,  1.83it/s] 18%|█▊        | 1879/10712 [41:35<1:18:24,  1.88it/s] 18%|█▊        | 1880/10712 [41:35<1:16:48,  1.92it/s] 18%|█▊        | 1881/10712 [41:36<1:29:32,  1.64it/s] 18%|█▊        | 1882/10712 [41:37<1:51:49,  1.32it/s] 18%|█▊        | 1883/10712 [41:38<1:54:30,  1.29it/s] 18%|█▊        | 1884/10712 [41:39<1:54:54,  1.28it/s] 18%|█▊        | 1885/10712 [41:39<1:42:28,  1.44it/s] 18%|█▊        | 1886/10712 [41:40<1:33:53,  1.57it/s] 18%|█▊        | 1887/10712 [41:40<1:27:42,  1.68it/s] 18%|█▊        | 1888/10712 [41:42<1:57:27,  1.25it/s] 18%|█▊        | 1889/10712 [41:42<1:44:21,  1.41it/s] 18%|█▊        | 1890/10712 [41:43<1:35:43,  1.54it/s] 18%|█▊        | 1891/10712 [41:43<1:36:40,  1.52it/s] 18%|█▊        | 1892/10712 [41:44<1:45:48,  1.39it/s] 18%|█▊        | 1893/10712 [41:45<1:45:02,  1.40it/s] 18%|█▊        | 1894/10712 [41:46<1:51:51,  1.31it/s] 18%|█▊        | 1895/10712 [41:46<1:53:04,  1.30it/s] 18%|█▊        | 1896/10712 [41:47<1:50:07,  1.33it/s] 18%|█▊        | 1897/10712 [41:48<1:38:59,  1.48it/s] 18%|█▊        | 1898/10712 [41:48<1:40:38,  1.46it/s] 18%|█▊        | 1899/10712 [41:49<1:39:46,  1.47it/s] 18%|█▊        | 1900/10712 [41:50<1:31:58,  1.60it/s]                                                      {'loss': 4.1844, 'grad_norm': 0.23229561746120453, 'learning_rate': 0.00098190704161441, 'epoch': 0.18}
+ 18%|█▊        | 1900/10712 [41:50<1:31:58,  1.60it/s] 18%|█▊        | 1901/10712 [41:50<1:26:28,  1.70it/s] 18%|█▊        | 1902/10712 [41:51<1:22:37,  1.78it/s] 18%|█▊        | 1903/10712 [41:51<1:19:47,  1.84it/s] 18%|█▊        | 1904/10712 [41:52<1:26:03,  1.71it/s] 18%|█▊        | 1905/10712 [41:52<1:27:39,  1.67it/s] 18%|█▊        | 1906/10712 [41:53<1:23:16,  1.76it/s] 18%|█▊        | 1907/10712 [41:53<1:20:13,  1.83it/s] 18%|█▊        | 1908/10712 [41:54<1:40:30,  1.46it/s] 18%|█▊        | 1909/10712 [41:55<1:32:19,  1.59it/s] 18%|█▊        | 1910/10712 [41:56<1:38:55,  1.48it/s] 18%|█▊        | 1911/10712 [41:57<1:57:12,  1.25it/s] 18%|█▊        | 1912/10712 [41:57<1:43:55,  1.41it/s] 18%|█▊        | 1913/10712 [41:58<1:57:46,  1.25it/s] 18%|█▊        | 1914/10712 [41:59<1:44:15,  1.41it/s] 18%|█▊        | 1915/10712 [41:59<1:34:47,  1.55it/s] 18%|█▊        | 1916/10712 [42:00<1:28:19,  1.66it/s] 18%|█▊        | 1917/10712 [42:00<1:23:48,  1.75it/s] 18%|█▊        | 1918/10712 [42:01<1:20:39,  1.82it/s] 18%|█▊        | 1919/10712 [42:02<1:35:51,  1.53it/s] 18%|█▊        | 1920/10712 [42:02<1:29:00,  1.65it/s] 18%|█▊        | 1921/10712 [42:03<1:24:14,  1.74it/s] 18%|█▊        | 1922/10712 [42:03<1:25:51,  1.71it/s] 18%|█▊        | 1923/10712 [42:04<1:22:03,  1.79it/s] 18%|█▊        | 1924/10712 [42:04<1:19:21,  1.85it/s] 18%|█▊        | 1925/10712 [42:05<1:17:27,  1.89it/s]                                                      {'loss': 4.176, 'grad_norm': 0.2197273224592209, 'learning_rate': 0.0009808051271575705, 'epoch': 0.18}
+ 18%|█▊        | 1925/10712 [42:05<1:17:27,  1.89it/s] 18%|█▊        | 1926/10712 [42:05<1:16:10,  1.92it/s] 18%|█▊        | 1927/10712 [42:06<1:15:13,  1.95it/s] 18%|█▊        | 1928/10712 [42:06<1:14:30,  1.96it/s] 18%|█▊        | 1929/10712 [42:07<1:14:05,  1.98it/s] 18%|█▊        | 1930/10712 [42:08<1:29:17,  1.64it/s] 18%|█▊        | 1931/10712 [42:09<2:15:31,  1.08it/s] 18%|█▊        | 1932/10712 [42:10<1:56:52,  1.25it/s] 18%|█▊        | 1933/10712 [42:11<1:57:09,  1.25it/s] 18%|█▊        | 1934/10712 [42:11<1:43:51,  1.41it/s] 18%|█▊        | 1935/10712 [42:12<1:34:36,  1.55it/s] 18%|█▊        | 1936/10712 [42:12<1:39:46,  1.47it/s] 18%|█▊        | 1937/10712 [42:13<1:31:47,  1.59it/s] 18%|█▊        | 1938/10712 [42:13<1:26:13,  1.70it/s] 18%|█▊        | 1939/10712 [42:14<1:22:15,  1.78it/s] 18%|█▊        | 1940/10712 [42:15<1:37:03,  1.51it/s] 18%|█▊        | 1941/10712 [42:15<1:29:55,  1.63it/s] 18%|█▊        | 1942/10712 [42:16<1:56:01,  1.26it/s] 18%|█▊        | 1943/10712 [42:17<1:58:59,  1.23it/s] 18%|█▊        | 1944/10712 [42:18<1:45:12,  1.39it/s] 18%|█▊        | 1945/10712 [42:18<1:35:26,  1.53it/s] 18%|█▊        | 1946/10712 [42:19<1:28:49,  1.64it/s] 18%|█▊        | 1947/10712 [42:19<1:24:00,  1.74it/s] 18%|█▊        | 1948/10712 [42:20<1:20:40,  1.81it/s] 18%|█▊        | 1949/10712 [42:20<1:18:28,  1.86it/s] 18%|█▊        | 1950/10712 [42:21<1:16:48,  1.90it/s]                                                      {'loss': 4.1689, 'grad_norm': 0.23823750019073486, 'learning_rate': 0.0009796712978819458, 'epoch': 0.18}
+ 18%|█▊        | 1950/10712 [42:21<1:16:48,  1.90it/s] 18%|█▊        | 1951/10712 [42:21<1:15:47,  1.93it/s] 18%|█▊        | 1952/10712 [42:22<1:14:53,  1.95it/s] 18%|█▊        | 1953/10712 [42:22<1:14:15,  1.97it/s] 18%|█▊        | 1954/10712 [42:23<1:13:54,  1.97it/s] 18%|█▊        | 1955/10712 [42:23<1:13:32,  1.98it/s] 18%|█▊        | 1956/10712 [42:24<1:13:17,  1.99it/s] 18%|█▊        | 1957/10712 [42:24<1:13:12,  1.99it/s] 18%|█▊        | 1958/10712 [42:25<1:13:13,  1.99it/s] 18%|█▊        | 1959/10712 [42:25<1:13:06,  2.00it/s] 18%|█▊        | 1960/10712 [42:26<1:33:02,  1.57it/s] 18%|█▊        | 1961/10712 [42:27<1:27:06,  1.67it/s] 18%|█▊        | 1962/10712 [42:28<2:15:59,  1.07it/s] 18%|█▊        | 1963/10712 [42:29<1:57:05,  1.25it/s] 18%|█▊        | 1964/10712 [42:30<2:22:09,  1.03it/s] 18%|█▊        | 1965/10712 [42:31<2:01:22,  1.20it/s] 18%|█▊        | 1966/10712 [42:32<1:55:49,  1.26it/s] 18%|█▊        | 1967/10712 [42:32<1:42:52,  1.42it/s] 18%|█▊        | 1968/10712 [42:33<1:34:02,  1.55it/s] 18%|█▊        | 1969/10712 [42:33<1:27:52,  1.66it/s] 18%|█▊        | 1970/10712 [42:34<1:23:35,  1.74it/s] 18%|█▊        | 1971/10712 [42:34<1:20:21,  1.81it/s] 18%|█▊        | 1972/10712 [42:35<1:25:28,  1.70it/s] 18%|█▊        | 1973/10712 [42:35<1:21:41,  1.78it/s] 18%|█▊        | 1974/10712 [42:36<1:18:56,  1.84it/s] 18%|█▊        | 1975/10712 [42:36<1:17:48,  1.87it/s]                                                      {'loss': 4.1711, 'grad_norm': 0.24251116812229156, 'learning_rate': 0.0009785056290487041, 'epoch': 0.18}
+ 18%|█▊        | 1975/10712 [42:36<1:17:48,  1.87it/s] 18%|█▊        | 1976/10712 [42:37<1:16:35,  1.90it/s] 18%|█▊        | 1977/10712 [42:37<1:15:23,  1.93it/s] 18%|█▊        | 1978/10712 [42:38<1:14:46,  1.95it/s] 18%|█▊        | 1979/10712 [42:38<1:14:03,  1.97it/s] 18%|█▊        | 1980/10712 [42:39<1:13:45,  1.97it/s] 18%|█▊        | 1981/10712 [42:39<1:13:30,  1.98it/s] 19%|█▊        | 1982/10712 [42:40<1:13:21,  1.98it/s] 19%|█▊        | 1983/10712 [42:41<1:24:31,  1.72it/s] 19%|█▊        | 1984/10712 [42:41<1:20:55,  1.80it/s] 19%|█▊        | 1985/10712 [42:42<1:40:50,  1.44it/s] 19%|█▊        | 1986/10712 [42:43<1:32:24,  1.57it/s] 19%|█▊        | 1987/10712 [42:43<1:26:47,  1.68it/s] 19%|█▊        | 1988/10712 [42:44<1:22:25,  1.76it/s] 19%|█▊        | 1989/10712 [42:44<1:19:29,  1.83it/s] 19%|█▊        | 1990/10712 [42:45<1:17:26,  1.88it/s] 19%|█▊        | 1991/10712 [42:45<1:16:30,  1.90it/s] 19%|█▊        | 1992/10712 [42:46<1:15:27,  1.93it/s] 19%|█▊        | 1993/10712 [42:46<1:14:34,  1.95it/s] 19%|█▊        | 1994/10712 [42:47<1:13:57,  1.96it/s] 19%|█▊        | 1995/10712 [42:47<1:13:32,  1.98it/s] 19%|█▊        | 1996/10712 [42:48<1:13:17,  1.98it/s] 19%|█▊        | 1997/10712 [42:48<1:12:57,  1.99it/s] 19%|█▊        | 1998/10712 [42:49<1:12:55,  1.99it/s] 19%|█▊        | 1999/10712 [42:49<1:12:58,  1.99it/s] 19%|█▊        | 2000/10712 [42:50<1:12:49,  1.99it/s]                                                      {'loss': 4.1565, 'grad_norm': 0.231139674782753, 'learning_rate': 0.000977308198032457, 'epoch': 0.19}
+ 19%|█▊        | 2000/10712 [42:50<1:12:49,  1.99it/s] 19%|█▊        | 2001/10712 [42:50<1:12:54,  1.99it/s] 19%|█▊        | 2002/10712 [42:51<1:12:46,  1.99it/s] 19%|█▊        | 2003/10712 [42:51<1:12:43,  2.00it/s] 19%|█▊        | 2004/10712 [42:52<1:12:40,  2.00it/s] 19%|█▊        | 2005/10712 [42:52<1:12:36,  2.00it/s] 19%|█▊        | 2006/10712 [42:53<1:41:39,  1.43it/s] 19%|█▊        | 2007/10712 [42:54<1:33:01,  1.56it/s] 19%|█▊        | 2008/10712 [42:54<1:37:49,  1.48it/s] 19%|█▉        | 2009/10712 [42:55<1:30:18,  1.61it/s] 19%|█▉        | 2010/10712 [42:55<1:24:57,  1.71it/s] 19%|█▉        | 2011/10712 [42:56<1:21:11,  1.79it/s] 19%|█▉        | 2012/10712 [42:56<1:18:33,  1.85it/s] 19%|█▉        | 2013/10712 [42:57<1:16:39,  1.89it/s] 19%|█▉        | 2014/10712 [42:58<1:19:49,  1.82it/s] 19%|█▉        | 2015/10712 [42:58<1:32:13,  1.57it/s] 19%|█▉        | 2016/10712 [42:59<1:26:17,  1.68it/s] 19%|█▉        | 2017/10712 [42:59<1:22:10,  1.76it/s] 19%|█▉        | 2018/10712 [43:00<1:19:20,  1.83it/s] 19%|█▉        | 2019/10712 [43:00<1:17:24,  1.87it/s] 19%|█▉        | 2020/10712 [43:01<1:35:23,  1.52it/s] 19%|█▉        | 2021/10712 [43:02<1:28:27,  1.64it/s] 19%|█▉        | 2022/10712 [43:02<1:23:30,  1.73it/s] 19%|█▉        | 2023/10712 [43:03<1:20:07,  1.81it/s] 19%|█▉        | 2024/10712 [43:03<1:17:39,  1.86it/s] 19%|█▉        | 2025/10712 [43:04<1:15:59,  1.91it/s]                                                      {'loss': 4.1544, 'grad_norm': 0.24080336093902588, 'learning_rate': 0.0009760790843161207, 'epoch': 0.19}
+ 19%|█▉        | 2025/10712 [43:04<1:15:59,  1.91it/s] 19%|█▉        | 2026/10712 [43:04<1:15:00,  1.93it/s] 19%|█▉        | 2027/10712 [43:05<1:14:02,  1.96it/s] 19%|█▉        | 2028/10712 [43:05<1:13:26,  1.97it/s] 19%|█▉        | 2029/10712 [43:06<1:13:03,  1.98it/s] 19%|█▉        | 2030/10712 [43:07<1:32:35,  1.56it/s] 19%|█▉        | 2031/10712 [43:07<1:26:24,  1.67it/s] 19%|█▉        | 2032/10712 [43:08<1:22:02,  1.76it/s] 19%|█▉        | 2033/10712 [43:08<1:19:16,  1.82it/s] 19%|█▉        | 2034/10712 [43:09<1:17:13,  1.87it/s] 19%|█▉        | 2035/10712 [43:09<1:15:42,  1.91it/s] 19%|█▉        | 2036/10712 [43:10<1:14:35,  1.94it/s] 19%|█▉        | 2037/10712 [43:11<1:36:58,  1.49it/s] 19%|█▉        | 2038/10712 [43:11<1:29:36,  1.61it/s] 19%|█▉        | 2039/10712 [43:12<1:24:20,  1.71it/s] 19%|█▉        | 2040/10712 [43:12<1:20:39,  1.79it/s] 19%|█▉        | 2041/10712 [43:13<1:36:27,  1.50it/s] 19%|█▉        | 2042/10712 [43:14<1:29:10,  1.62it/s] 19%|█▉        | 2043/10712 [43:14<1:24:14,  1.72it/s] 19%|█▉        | 2044/10712 [43:15<1:35:59,  1.50it/s] 19%|█▉        | 2045/10712 [43:16<1:29:00,  1.62it/s] 19%|█▉        | 2046/10712 [43:16<1:32:50,  1.56it/s] 19%|█▉        | 2047/10712 [43:17<1:26:43,  1.67it/s] 19%|█▉        | 2048/10712 [43:17<1:22:32,  1.75it/s] 19%|█▉        | 2049/10712 [43:18<1:19:24,  1.82it/s] 19%|█▉        | 2050/10712 [43:18<1:17:07,  1.87it/s]                                                      {'loss': 4.1398, 'grad_norm': 0.23006339371204376, 'learning_rate': 0.0009748183694856421, 'epoch': 0.19}
+ 19%|█▉        | 2050/10712 [43:18<1:17:07,  1.87it/s] 19%|█▉        | 2051/10712 [43:19<1:15:40,  1.91it/s] 19%|█▉        | 2052/10712 [43:19<1:19:55,  1.81it/s] 19%|█▉        | 2053/10712 [43:20<1:29:32,  1.61it/s] 19%|█▉        | 2054/10712 [43:21<1:46:56,  1.35it/s] 19%|█▉        | 2055/10712 [43:22<1:49:07,  1.32it/s] 19%|█▉        | 2056/10712 [43:23<1:37:59,  1.47it/s] 19%|█▉        | 2057/10712 [43:23<1:30:11,  1.60it/s] 19%|█▉        | 2058/10712 [43:24<1:24:43,  1.70it/s] 19%|█▉        | 2059/10712 [43:24<1:20:58,  1.78it/s] 19%|█▉        | 2060/10712 [43:25<1:25:40,  1.68it/s] 19%|█▉        | 2061/10712 [43:25<1:21:42,  1.76it/s] 19%|█▉        | 2062/10712 [43:26<1:18:44,  1.83it/s] 19%|█▉        | 2063/10712 [43:28<2:17:46,  1.05it/s] 19%|█▉        | 2064/10712 [43:28<2:07:21,  1.13it/s] 19%|█▉        | 2065/10712 [43:29<1:50:47,  1.30it/s] 19%|█▉        | 2066/10712 [43:29<1:39:05,  1.45it/s] 19%|█▉        | 2067/10712 [43:30<1:34:54,  1.52it/s] 19%|█▉        | 2068/10712 [43:30<1:28:05,  1.64it/s] 19%|█▉        | 2069/10712 [43:31<1:23:07,  1.73it/s] 19%|█▉        | 2070/10712 [43:31<1:19:43,  1.81it/s] 19%|█▉        | 2071/10712 [43:32<1:17:25,  1.86it/s] 19%|█▉        | 2072/10712 [43:32<1:15:40,  1.90it/s] 19%|█▉        | 2073/10712 [43:33<1:14:35,  1.93it/s] 19%|█▉        | 2074/10712 [43:33<1:13:39,  1.95it/s] 19%|█▉        | 2075/10712 [43:34<1:34:15,  1.53it/s]                                                      {'loss': 4.1476, 'grad_norm': 0.2322188764810562, 'learning_rate': 0.0009735261372245824, 'epoch': 0.19}
+ 19%|█▉        | 2075/10712 [43:34<1:34:15,  1.53it/s] 19%|█▉        | 2076/10712 [43:35<1:46:28,  1.35it/s] 19%|█▉        | 2077/10712 [43:36<1:36:00,  1.50it/s] 19%|█▉        | 2078/10712 [43:36<1:28:38,  1.62it/s] 19%|█▉        | 2079/10712 [43:37<1:23:27,  1.72it/s] 19%|█▉        | 2080/10712 [43:38<1:41:28,  1.42it/s] 19%|█▉        | 2081/10712 [43:38<1:32:27,  1.56it/s] 19%|█▉        | 2082/10712 [43:39<1:26:12,  1.67it/s] 19%|█▉        | 2083/10712 [43:39<1:21:55,  1.76it/s] 19%|█▉        | 2084/10712 [43:40<1:18:51,  1.82it/s] 19%|█▉        | 2085/10712 [43:40<1:16:47,  1.87it/s] 19%|█▉        | 2086/10712 [43:41<1:15:19,  1.91it/s] 19%|█▉        | 2087/10712 [43:41<1:14:13,  1.94it/s] 19%|█▉        | 2088/10712 [43:42<1:13:23,  1.96it/s] 20%|█▉        | 2089/10712 [43:42<1:12:53,  1.97it/s] 20%|█▉        | 2090/10712 [43:43<1:39:05,  1.45it/s] 20%|█▉        | 2091/10712 [43:44<1:43:01,  1.39it/s] 20%|█▉        | 2092/10712 [43:45<1:33:39,  1.53it/s] 20%|█▉        | 2093/10712 [43:45<1:26:53,  1.65it/s] 20%|█▉        | 2094/10712 [43:46<1:22:15,  1.75it/s] 20%|█▉        | 2095/10712 [43:46<1:18:56,  1.82it/s] 20%|█▉        | 2096/10712 [43:47<1:28:25,  1.62it/s] 20%|█▉        | 2097/10712 [43:47<1:23:14,  1.72it/s] 20%|█▉        | 2098/10712 [43:48<1:19:47,  1.80it/s] 20%|█▉        | 2099/10712 [43:48<1:17:14,  1.86it/s] 20%|█▉        | 2100/10712 [43:49<1:15:27,  1.90it/s]                                                      {'loss': 4.1436, 'grad_norm': 0.22273346781730652, 'learning_rate': 0.0009722024733085633, 'epoch': 0.2}
+ 20%|█▉        | 2100/10712 [43:49<1:15:27,  1.90it/s] 20%|█▉        | 2101/10712 [43:49<1:14:15,  1.93it/s] 20%|█▉        | 2102/10712 [43:50<1:13:25,  1.95it/s] 20%|█▉        | 2103/10712 [43:50<1:12:47,  1.97it/s] 20%|█▉        | 2104/10712 [43:51<1:21:15,  1.77it/s] 20%|█▉        | 2105/10712 [43:52<1:18:14,  1.83it/s] 20%|█▉        | 2106/10712 [43:52<1:16:08,  1.88it/s] 20%|█▉        | 2107/10712 [43:53<1:22:12,  1.74it/s] 20%|█▉        | 2108/10712 [43:53<1:23:55,  1.71it/s] 20%|█▉        | 2109/10712 [43:54<1:23:46,  1.71it/s] 20%|█▉        | 2110/10712 [43:55<1:20:09,  1.79it/s] 20%|█▉        | 2111/10712 [43:55<1:34:15,  1.52it/s] 20%|█▉        | 2112/10712 [43:56<1:27:21,  1.64it/s] 20%|█▉        | 2113/10712 [43:56<1:22:35,  1.74it/s] 20%|█▉        | 2114/10712 [43:57<1:19:13,  1.81it/s] 20%|█▉        | 2115/10712 [43:57<1:16:47,  1.87it/s] 20%|█▉        | 2116/10712 [43:59<1:45:37,  1.36it/s] 20%|█▉        | 2117/10712 [43:59<1:43:11,  1.39it/s] 20%|█▉        | 2118/10712 [44:00<1:33:35,  1.53it/s] 20%|█▉        | 2119/10712 [44:00<1:26:54,  1.65it/s] 20%|█▉        | 2120/10712 [44:01<1:22:19,  1.74it/s] 20%|█▉        | 2121/10712 [44:01<1:24:05,  1.70it/s] 20%|█▉        | 2122/10712 [44:02<1:20:17,  1.78it/s] 20%|█▉        | 2123/10712 [44:02<1:18:05,  1.83it/s] 20%|█▉        | 2124/10712 [44:03<1:16:06,  1.88it/s] 20%|█▉        | 2125/10712 [44:03<1:14:37,  1.92it/s]                                                      {'loss': 4.1237, 'grad_norm': 0.236967995762825, 'learning_rate': 0.0009708474655995716, 'epoch': 0.2}
+ 20%|█▉        | 2125/10712 [44:03<1:14:37,  1.92it/s] 20%|█▉        | 2126/10712 [44:04<1:20:04,  1.79it/s] 20%|█▉        | 2127/10712 [44:05<1:17:28,  1.85it/s] 20%|█▉        | 2128/10712 [44:05<1:15:41,  1.89it/s] 20%|█▉        | 2129/10712 [44:06<1:14:28,  1.92it/s] 20%|█▉        | 2130/10712 [44:06<1:25:27,  1.67it/s] 20%|█▉        | 2131/10712 [44:07<1:21:20,  1.76it/s] 20%|█▉        | 2132/10712 [44:07<1:18:19,  1.83it/s] 20%|█▉        | 2133/10712 [44:08<1:16:20,  1.87it/s] 20%|█▉        | 2134/10712 [44:08<1:18:30,  1.82it/s] 20%|█▉        | 2135/10712 [44:09<1:16:22,  1.87it/s] 20%|█▉        | 2136/10712 [44:09<1:14:50,  1.91it/s] 20%|█▉        | 2137/10712 [44:10<1:13:40,  1.94it/s] 20%|█▉        | 2138/10712 [44:10<1:12:55,  1.96it/s] 20%|█▉        | 2139/10712 [44:11<1:16:20,  1.87it/s] 20%|█▉        | 2140/10712 [44:11<1:14:45,  1.91it/s] 20%|█▉        | 2141/10712 [44:12<1:13:32,  1.94it/s] 20%|█▉        | 2142/10712 [44:12<1:12:50,  1.96it/s] 20%|██        | 2143/10712 [44:13<1:12:16,  1.98it/s] 20%|██        | 2144/10712 [44:13<1:11:51,  1.99it/s] 20%|██        | 2145/10712 [44:14<1:11:35,  1.99it/s] 20%|██        | 2146/10712 [44:14<1:11:23,  2.00it/s] 20%|██        | 2147/10712 [44:15<1:11:15,  2.00it/s] 20%|██        | 2148/10712 [44:15<1:11:03,  2.01it/s] 20%|██        | 2149/10712 [44:17<1:40:01,  1.43it/s] 20%|██        | 2150/10712 [44:17<1:32:01,  1.55it/s]                                                      {'loss': 4.1329, 'grad_norm': 0.22125343978405, 'learning_rate': 0.0009694612040401292, 'epoch': 0.2}
+ 20%|██        | 2150/10712 [44:17<1:32:01,  1.55it/s] 20%|██        | 2151/10712 [44:18<1:36:41,  1.48it/s] 20%|██        | 2152/10712 [44:18<1:29:06,  1.60it/s] 20%|██        | 2153/10712 [44:19<1:23:47,  1.70it/s] 20%|██        | 2154/10712 [44:19<1:20:06,  1.78it/s] 20%|██        | 2155/10712 [44:20<1:17:19,  1.84it/s] 20%|██        | 2156/10712 [44:20<1:15:37,  1.89it/s] 20%|██        | 2157/10712 [44:21<1:14:31,  1.91it/s] 20%|██        | 2158/10712 [44:21<1:13:33,  1.94it/s] 20%|██        | 2159/10712 [44:22<1:12:53,  1.96it/s] 20%|██        | 2160/10712 [44:22<1:12:26,  1.97it/s] 20%|██        | 2161/10712 [44:23<1:12:02,  1.98it/s] 20%|██        | 2162/10712 [44:23<1:11:45,  1.99it/s] 20%|██        | 2163/10712 [44:24<1:11:30,  1.99it/s] 20%|██        | 2164/10712 [44:25<1:22:52,  1.72it/s] 20%|██        | 2165/10712 [44:25<1:19:19,  1.80it/s] 20%|██        | 2166/10712 [44:26<1:22:56,  1.72it/s] 20%|██        | 2167/10712 [44:26<1:19:23,  1.79it/s] 20%|██        | 2168/10712 [44:27<1:22:40,  1.72it/s] 20%|██        | 2169/10712 [44:27<1:19:16,  1.80it/s] 20%|██        | 2170/10712 [44:28<1:16:42,  1.86it/s] 20%|██        | 2171/10712 [44:29<1:19:42,  1.79it/s] 20%|██        | 2172/10712 [44:29<1:17:01,  1.85it/s] 20%|██        | 2173/10712 [44:30<1:15:22,  1.89it/s] 20%|██        | 2174/10712 [44:30<1:14:00,  1.92it/s] 20%|██        | 2175/10712 [44:31<1:18:27,  1.81it/s]                                                      {'loss': 4.1174, 'grad_norm': 0.23412485420703888, 'learning_rate': 0.0009680437806473211, 'epoch': 0.2}
+ 20%|██        | 2175/10712 [44:31<1:18:27,  1.81it/s] 20%|██        | 2176/10712 [44:31<1:16:20,  1.86it/s] 20%|██        | 2177/10712 [44:32<1:14:36,  1.91it/s] 20%|██        | 2178/10712 [44:32<1:13:35,  1.93it/s] 20%|██        | 2179/10712 [44:33<1:12:50,  1.95it/s] 20%|██        | 2180/10712 [44:33<1:12:07,  1.97it/s] 20%|██        | 2181/10712 [44:34<1:11:43,  1.98it/s] 20%|██        | 2182/10712 [44:34<1:14:42,  1.90it/s] 20%|██        | 2183/10712 [44:35<1:13:25,  1.94it/s] 20%|██        | 2184/10712 [44:35<1:12:38,  1.96it/s] 20%|██        | 2185/10712 [44:36<1:12:02,  1.97it/s] 20%|██        | 2186/10712 [44:36<1:14:57,  1.90it/s] 20%|██        | 2187/10712 [44:37<1:17:25,  1.84it/s] 20%|██        | 2188/10712 [44:37<1:15:36,  1.88it/s] 20%|██        | 2189/10712 [44:38<1:14:15,  1.91it/s] 20%|██        | 2190/10712 [44:38<1:13:11,  1.94it/s] 20%|██        | 2191/10712 [44:39<1:12:28,  1.96it/s] 20%|██        | 2192/10712 [44:39<1:12:03,  1.97it/s] 20%|██        | 2193/10712 [44:40<1:11:47,  1.98it/s] 20%|██        | 2194/10712 [44:40<1:11:30,  1.99it/s] 20%|██        | 2195/10712 [44:41<1:11:20,  1.99it/s] 21%|██        | 2196/10712 [44:41<1:11:08,  2.00it/s] 21%|██        | 2197/10712 [44:42<1:19:43,  1.78it/s] 21%|██        | 2198/10712 [44:43<1:16:57,  1.84it/s] 21%|██        | 2199/10712 [44:43<1:24:58,  1.67it/s] 21%|██        | 2200/10712 [44:44<1:20:39,  1.76it/s]                                                      {'loss': 4.1208, 'grad_norm': 0.24572426080703735, 'learning_rate': 0.0009665952895066891, 'epoch': 0.21}
+ 21%|██        | 2200/10712 [44:44<1:20:39,  1.76it/s] 21%|██        | 2201/10712 [44:44<1:17:44,  1.82it/s] 21%|██        | 2202/10712 [44:45<1:15:41,  1.87it/s] 21%|██        | 2203/10712 [44:45<1:14:13,  1.91it/s] 21%|██        | 2204/10712 [44:46<1:13:10,  1.94it/s] 21%|██        | 2205/10712 [44:46<1:12:21,  1.96it/s] 21%|██        | 2206/10712 [44:47<1:12:03,  1.97it/s] 21%|██        | 2207/10712 [44:47<1:11:36,  1.98it/s] 21%|██        | 2208/10712 [44:48<1:11:24,  1.98it/s] 21%|██        | 2209/10712 [44:49<1:27:45,  1.61it/s] 21%|██        | 2210/10712 [44:49<1:28:48,  1.60it/s] 21%|██        | 2211/10712 [44:50<1:23:40,  1.69it/s] 21%|██        | 2212/10712 [44:50<1:19:44,  1.78it/s] 21%|██        | 2213/10712 [44:51<1:29:12,  1.59it/s] 21%|██        | 2214/10712 [44:52<1:23:30,  1.70it/s] 21%|██        | 2215/10712 [44:52<1:19:38,  1.78it/s] 21%|██        | 2216/10712 [44:53<1:25:08,  1.66it/s] 21%|██        | 2217/10712 [44:53<1:20:40,  1.76it/s] 21%|██        | 2218/10712 [44:54<1:17:40,  1.82it/s] 21%|██        | 2219/10712 [44:54<1:15:26,  1.88it/s] 21%|██        | 2220/10712 [44:55<1:13:53,  1.92it/s] 21%|██        | 2221/10712 [44:56<1:23:31,  1.69it/s] 21%|██        | 2222/10712 [44:56<1:19:43,  1.77it/s] 21%|██        | 2223/10712 [44:57<1:16:57,  1.84it/s] 21%|██        | 2224/10712 [44:57<1:15:02,  1.89it/s] 21%|██        | 2225/10712 [44:58<1:13:40,  1.92it/s]                                                      {'loss': 4.1182, 'grad_norm': 0.22761030495166779, 'learning_rate': 0.0009651158267659854, 'epoch': 0.21}
+ 21%|██        | 2225/10712 [44:58<1:13:40,  1.92it/s] 21%|██        | 2226/10712 [44:58<1:12:52,  1.94it/s] 21%|██        | 2227/10712 [44:59<1:12:12,  1.96it/s] 21%|██        | 2228/10712 [44:59<1:11:45,  1.97it/s] 21%|██        | 2229/10712 [45:00<1:11:16,  1.98it/s] 21%|██        | 2230/10712 [45:00<1:11:00,  1.99it/s] 21%|██        | 2231/10712 [45:01<1:10:55,  1.99it/s] 21%|██        | 2232/10712 [45:01<1:10:45,  2.00it/s] 21%|██        | 2233/10712 [45:02<1:10:45,  2.00it/s] 21%|██        | 2234/10712 [45:02<1:10:39,  2.00it/s] 21%|██        | 2235/10712 [45:03<1:10:38,  2.00it/s] 21%|██        | 2236/10712 [45:03<1:10:32,  2.00it/s] 21%|██        | 2237/10712 [45:04<1:15:44,  1.86it/s] 21%|██        | 2238/10712 [45:04<1:14:10,  1.90it/s] 21%|██        | 2239/10712 [45:05<1:13:04,  1.93it/s] 21%|██        | 2240/10712 [45:05<1:12:17,  1.95it/s] 21%|██        | 2241/10712 [45:06<1:11:41,  1.97it/s] 21%|██        | 2242/10712 [45:06<1:11:17,  1.98it/s] 21%|██        | 2243/10712 [45:07<1:10:52,  1.99it/s] 21%|██        | 2244/10712 [45:07<1:10:38,  2.00it/s] 21%|██        | 2245/10712 [45:08<1:10:34,  2.00it/s] 21%|██        | 2246/10712 [45:08<1:10:23,  2.00it/s] 21%|██        | 2247/10712 [45:09<1:10:22,  2.00it/s] 21%|██        | 2248/10712 [45:09<1:10:20,  2.01it/s] 21%|██        | 2249/10712 [45:10<1:10:13,  2.01it/s] 21%|██        | 2250/10712 [45:10<1:10:08,  2.01it/s]                                                      {'loss': 4.1062, 'grad_norm': 0.2252587080001831, 'learning_rate': 0.0009636054906287911, 'epoch': 0.21}
+ 21%|██        | 2250/10712 [45:10<1:10:08,  2.01it/s] 21%|██        | 2251/10712 [45:11<1:42:22,  1.38it/s] 21%|██        | 2252/10712 [45:12<1:32:50,  1.52it/s] 21%|██        | 2253/10712 [45:12<1:26:01,  1.64it/s] 21%|██        | 2254/10712 [45:13<1:21:40,  1.73it/s] 21%|██        | 2255/10712 [45:13<1:18:23,  1.80it/s] 21%|██        | 2256/10712 [45:14<1:15:56,  1.86it/s] 21%|██        | 2257/10712 [45:14<1:14:17,  1.90it/s] 21%|██        | 2258/10712 [45:15<1:13:06,  1.93it/s] 21%|██        | 2259/10712 [45:15<1:12:25,  1.95it/s] 21%|██        | 2260/10712 [45:16<1:11:46,  1.96it/s] 21%|██        | 2261/10712 [45:16<1:11:16,  1.98it/s] 21%|██        | 2262/10712 [45:17<1:10:58,  1.98it/s] 21%|██        | 2263/10712 [45:17<1:10:38,  1.99it/s] 21%|██        | 2264/10712 [45:18<1:10:26,  2.00it/s] 21%|██        | 2265/10712 [45:19<1:16:01,  1.85it/s] 21%|██        | 2266/10712 [45:19<1:14:16,  1.90it/s] 21%|██        | 2267/10712 [45:20<1:22:15,  1.71it/s] 21%|██        | 2268/10712 [45:20<1:24:15,  1.67it/s] 21%|██        | 2269/10712 [45:21<1:20:13,  1.75it/s] 21%|██        | 2270/10712 [45:21<1:17:22,  1.82it/s] 21%|██        | 2271/10712 [45:22<1:15:13,  1.87it/s] 21%|██        | 2272/10712 [45:23<1:21:42,  1.72it/s] 21%|██        | 2273/10712 [45:23<1:18:13,  1.80it/s] 21%|██        | 2274/10712 [45:24<1:15:45,  1.86it/s] 21%|██        | 2275/10712 [45:24<1:14:06,  1.90it/s]                                                      {'loss': 4.1046, 'grad_norm': 0.22365300357341766, 'learning_rate': 0.0009620643813479973, 'epoch': 0.21}
+ 21%|██        | 2275/10712 [45:24<1:14:06,  1.90it/s] 21%|██        | 2276/10712 [45:25<1:12:57,  1.93it/s] 21%|██▏       | 2277/10712 [45:25<1:12:04,  1.95it/s] 21%|██▏       | 2278/10712 [45:26<1:11:27,  1.97it/s] 21%|██▏       | 2279/10712 [45:26<1:11:00,  1.98it/s] 21%|██▏       | 2280/10712 [45:27<1:10:44,  1.99it/s] 21%|██▏       | 2281/10712 [45:27<1:20:24,  1.75it/s] 21%|██▏       | 2282/10712 [45:28<1:18:20,  1.79it/s] 21%|██▏       | 2283/10712 [45:28<1:15:46,  1.85it/s] 21%|██▏       | 2284/10712 [45:29<1:14:02,  1.90it/s] 21%|██▏       | 2285/10712 [45:29<1:12:49,  1.93it/s] 21%|██▏       | 2286/10712 [45:30<1:11:54,  1.95it/s] 21%|██▏       | 2287/10712 [45:30<1:15:57,  1.85it/s] 21%|██▏       | 2288/10712 [45:31<1:14:04,  1.90it/s] 21%|██▏       | 2289/10712 [45:31<1:12:48,  1.93it/s] 21%|██▏       | 2290/10712 [45:32<1:11:57,  1.95it/s] 21%|██▏       | 2291/10712 [45:32<1:11:17,  1.97it/s] 21%|██▏       | 2292/10712 [45:33<1:10:47,  1.98it/s] 21%|██▏       | 2293/10712 [45:33<1:10:26,  1.99it/s] 21%|██▏       | 2294/10712 [45:34<1:10:15,  2.00it/s] 21%|██▏       | 2295/10712 [45:34<1:10:03,  2.00it/s] 21%|██▏       | 2296/10712 [45:35<1:09:58,  2.00it/s] 21%|██▏       | 2297/10712 [45:35<1:09:50,  2.01it/s] 21%|██▏       | 2298/10712 [45:36<1:09:49,  2.01it/s] 21%|██▏       | 2299/10712 [45:36<1:09:52,  2.01it/s] 21%|██▏       | 2300/10712 [45:37<1:10:25,  1.99it/s]                                                      {'loss': 4.0922, 'grad_norm': 0.22491547465324402, 'learning_rate': 0.000960492601219151, 'epoch': 0.21}
+ 21%|██▏       | 2300/10712 [45:37<1:10:25,  1.99it/s] 21%|██▏       | 2301/10712 [45:37<1:10:26,  1.99it/s] 21%|██▏       | 2302/10712 [45:38<1:10:20,  1.99it/s] 21%|██▏       | 2303/10712 [45:38<1:10:09,  2.00it/s] 22%|██▏       | 2304/10712 [45:39<1:10:09,  2.00it/s] 22%|██▏       | 2305/10712 [45:40<1:14:20,  1.88it/s] 22%|██▏       | 2306/10712 [45:40<1:13:11,  1.91it/s] 22%|██▏       | 2307/10712 [45:41<1:12:24,  1.93it/s] 22%|██▏       | 2308/10712 [45:41<1:11:41,  1.95it/s] 22%|██▏       | 2309/10712 [45:42<1:34:40,  1.48it/s] 22%|██▏       | 2310/10712 [45:43<1:27:21,  1.60it/s] 22%|██▏       | 2311/10712 [45:43<1:22:03,  1.71it/s] 22%|██▏       | 2312/10712 [45:44<1:18:21,  1.79it/s] 22%|██▏       | 2313/10712 [45:44<1:15:49,  1.85it/s] 22%|██▏       | 2314/10712 [45:45<1:14:07,  1.89it/s] 22%|█��▏       | 2315/10712 [45:45<1:12:48,  1.92it/s] 22%|██▏       | 2316/10712 [45:46<1:11:49,  1.95it/s] 22%|██▏       | 2317/10712 [45:46<1:11:14,  1.96it/s] 22%|██▏       | 2318/10712 [45:47<1:10:49,  1.98it/s] 22%|██▏       | 2319/10712 [45:47<1:10:26,  1.99it/s] 22%|██▏       | 2320/10712 [45:48<1:10:14,  1.99it/s] 22%|██▏       | 2321/10712 [45:48<1:10:02,  2.00it/s] 22%|██▏       | 2322/10712 [45:49<1:10:00,  2.00it/s] 22%|██▏       | 2323/10712 [45:49<1:09:54,  2.00it/s] 22%|██▏       | 2324/10712 [45:50<1:09:56,  2.00it/s] 22%|██▏       | 2325/10712 [45:50<1:09:54,  2.00it/s]                                                      {'loss': 4.1002, 'grad_norm': 0.2159612476825714, 'learning_rate': 0.0009588902545736645, 'epoch': 0.22}
+ 22%|██▏       | 2325/10712 [45:50<1:09:54,  2.00it/s] 22%|██▏       | 2326/10712 [45:51<1:10:03,  1.99it/s] 22%|██▏       | 2327/10712 [45:51<1:09:58,  2.00it/s] 22%|██▏       | 2328/10712 [45:52<1:09:53,  2.00it/s] 22%|██▏       | 2329/10712 [45:52<1:09:44,  2.00it/s] 22%|██▏       | 2330/10712 [45:53<1:09:51,  2.00it/s] 22%|██▏       | 2331/10712 [45:53<1:09:53,  2.00it/s] 22%|██▏       | 2332/10712 [45:54<1:09:49,  2.00it/s] 22%|██▏       | 2333/10712 [45:54<1:09:44,  2.00it/s] 22%|██▏       | 2334/10712 [45:55<1:09:46,  2.00it/s] 22%|██▏       | 2335/10712 [45:55<1:09:44,  2.00it/s] 22%|██▏       | 2336/10712 [45:56<1:09:42,  2.00it/s] 22%|██▏       | 2337/10712 [45:56<1:09:41,  2.00it/s] 22%|██▏       | 2338/10712 [45:57<1:09:48,  2.00it/s] 22%|██▏       | 2339/10712 [45:57<1:09:45,  2.00it/s] 22%|██▏       | 2340/10712 [45:58<1:09:39,  2.00it/s] 22%|██▏       | 2341/10712 [45:58<1:09:44,  2.00it/s] 22%|██▏       | 2342/10712 [45:59<1:09:45,  2.00it/s] 22%|██▏       | 2343/10712 [45:59<1:09:46,  2.00it/s] 22%|██▏       | 2344/10712 [46:00<1:09:42,  2.00it/s] 22%|██▏       | 2345/10712 [46:00<1:15:11,  1.85it/s] 22%|██▏       | 2346/10712 [46:01<1:21:03,  1.72it/s] 22%|██▏       | 2347/10712 [46:01<1:17:31,  1.80it/s] 22%|██▏       | 2348/10712 [46:02<1:15:12,  1.85it/s] 22%|██▏       | 2349/10712 [46:02<1:13:36,  1.89it/s] 22%|██▏       | 2350/10712 [46:03<1:12:29,  1.92it/s]                                                      {'loss': 4.0943, 'grad_norm': 0.2216760814189911, 'learning_rate': 0.0009572574477718903, 'epoch': 0.22}
+ 22%|██▏       | 2350/10712 [46:03<1:12:29,  1.92it/s] 22%|██▏       | 2351/10712 [46:03<1:11:45,  1.94it/s] 22%|██▏       | 2352/10712 [46:04<1:11:08,  1.96it/s] 22%|██▏       | 2353/10712 [46:04<1:10:41,  1.97it/s] 22%|██▏       | 2354/10712 [46:05<1:10:26,  1.98it/s] 22%|██▏       | 2355/10712 [46:05<1:10:12,  1.98it/s] 22%|██▏       | 2356/10712 [46:06<1:10:06,  1.99it/s] 22%|██▏       | 2357/10712 [46:06<1:09:54,  1.99it/s] 22%|██▏       | 2358/10712 [46:07<1:09:50,  1.99it/s] 22%|██▏       | 2359/10712 [46:07<1:09:48,  1.99it/s] 22%|██▏       | 2360/10712 [46:08<1:17:50,  1.79it/s] 22%|██▏       | 2361/10712 [46:09<1:15:18,  1.85it/s] 22%|██▏       | 2362/10712 [46:09<1:13:39,  1.89it/s] 22%|██▏       | 2363/10712 [46:10<1:19:03,  1.76it/s] 22%|██▏       | 2364/10712 [46:10<1:22:45,  1.68it/s] 22%|██▏       | 2365/10712 [46:11<1:18:44,  1.77it/s] 22%|██▏       | 2366/10712 [46:12<1:25:26,  1.63it/s] 22%|██▏       | 2367/10712 [46:12<1:20:34,  1.73it/s] 22%|██▏       | 2368/10712 [46:13<1:17:08,  1.80it/s] 22%|██▏       | 2369/10712 [46:14<1:34:08,  1.48it/s] 22%|██▏       | 2370/10712 [46:14<1:26:48,  1.60it/s] 22%|██▏       | 2371/10712 [46:15<1:27:29,  1.59it/s] 22%|██▏       | 2372/10712 [46:15<1:21:59,  1.70it/s] 22%|██▏       | 2373/10712 [46:16<1:18:11,  1.78it/s] 22%|██▏       | 2374/10712 [46:16<1:16:12,  1.82it/s] 22%|██▏       | 2375/10712 [46:17<1:14:08,  1.87it/s]                                                      {'loss': 4.0904, 'grad_norm': 0.24070511758327484, 'learning_rate': 0.0009555942891960611, 'epoch': 0.22}
+ 22%|██▏       | 2375/10712 [46:17<1:14:08,  1.87it/s] 22%|██▏       | 2376/10712 [46:17<1:12:45,  1.91it/s] 22%|██▏       | 2377/10712 [46:18<1:26:15,  1.61it/s] 22%|██▏       | 2378/10712 [46:19<1:21:12,  1.71it/s] 22%|██▏       | 2379/10712 [46:19<1:22:47,  1.68it/s] 22%|██▏       | 2380/10712 [46:20<1:18:39,  1.77it/s] 22%|██▏       | 2381/10712 [46:20<1:15:46,  1.83it/s] 22%|██▏       | 2382/10712 [46:21<1:13:46,  1.88it/s] 22%|██▏       | 2383/10712 [46:21<1:12:19,  1.92it/s] 22%|██▏       | 2384/10712 [46:22<1:11:27,  1.94it/s] 22%|██▏       | 2385/10712 [46:22<1:10:57,  1.96it/s] 22%|██▏       | 2386/10712 [46:23<1:10:33,  1.97it/s] 22%|██▏       | 2387/10712 [46:23<1:10:09,  1.98it/s] 22%|��█▏       | 2388/10712 [46:24<1:09:49,  1.99it/s] 22%|██▏       | 2389/10712 [46:24<1:09:42,  1.99it/s] 22%|██▏       | 2390/10712 [46:25<1:09:39,  1.99it/s] 22%|██▏       | 2391/10712 [46:25<1:09:33,  1.99it/s] 22%|██▏       | 2392/10712 [46:26<1:37:33,  1.42it/s] 22%|██▏       | 2393/10712 [46:27<1:28:58,  1.56it/s] 22%|██▏       | 2394/10712 [46:27<1:23:00,  1.67it/s] 22%|██▏       | 2395/10712 [46:28<1:28:06,  1.57it/s] 22%|██▏       | 2396/10712 [46:29<1:22:23,  1.68it/s] 22%|██▏       | 2397/10712 [46:29<1:18:23,  1.77it/s] 22%|██▏       | 2398/10712 [46:30<1:31:49,  1.51it/s] 22%|██▏       | 2399/10712 [46:30<1:25:07,  1.63it/s] 22%|██▏       | 2400/10712 [46:31<1:20:24,  1.72it/s]                                                      {'loss': 4.0935, 'grad_norm': 0.23899497091770172, 'learning_rate': 0.000953900889243096, 'epoch': 0.22}
+ 22%|██▏       | 2400/10712 [46:31<1:20:24,  1.72it/s] 22%|██▏       | 2401/10712 [46:31<1:17:15,  1.79it/s] 22%|██▏       | 2402/10712 [46:32<1:14:59,  1.85it/s] 22%|██▏       | 2403/10712 [46:32<1:13:15,  1.89it/s] 22%|██▏       | 2404/10712 [46:33<1:12:02,  1.92it/s] 22%|██▏       | 2405/10712 [46:33<1:11:07,  1.95it/s] 22%|██▏       | 2406/10712 [46:34<1:10:29,  1.96it/s] 22%|██▏       | 2407/10712 [46:34<1:09:58,  1.98it/s] 22%|██▏       | 2408/10712 [46:35<1:09:44,  1.98it/s] 22%|██▏       | 2409/10712 [46:35<1:09:38,  1.99it/s] 22%|██▏       | 2410/10712 [46:36<1:09:22,  1.99it/s] 23%|██▎       | 2411/10712 [46:36<1:09:08,  2.00it/s] 23%|██▎       | 2412/10712 [46:37<1:09:05,  2.00it/s] 23%|██▎       | 2413/10712 [46:37<1:09:07,  2.00it/s] 23%|██▎       | 2414/10712 [46:38<1:08:56,  2.01it/s] 23%|██▎       | 2415/10712 [46:38<1:08:52,  2.01it/s] 23%|██▎       | 2416/10712 [46:39<1:08:46,  2.01it/s] 23%|██▎       | 2417/10712 [46:39<1:08:47,  2.01it/s] 23%|██▎       | 2418/10712 [46:40<1:08:46,  2.01it/s] 23%|██▎       | 2419/10712 [46:40<1:08:52,  2.01it/s] 23%|██▎       | 2420/10712 [46:41<1:08:53,  2.01it/s] 23%|██▎       | 2421/10712 [46:41<1:08:55,  2.00it/s] 23%|██▎       | 2422/10712 [46:42<1:08:58,  2.00it/s] 23%|██▎       | 2423/10712 [46:42<1:09:17,  1.99it/s] 23%|██▎       | 2424/10712 [46:43<1:17:49,  1.77it/s] 23%|██▎       | 2425/10712 [46:44<1:15:12,  1.84it/s]                                                      {'loss': 4.0859, 'grad_norm': 0.2153318077325821, 'learning_rate': 0.0009521773603172715, 'epoch': 0.23}
+ 23%|██▎       | 2425/10712 [46:44<1:15:12,  1.84it/s] 23%|██▎       | 2426/10712 [46:44<1:13:32,  1.88it/s] 23%|██▎       | 2427/10712 [46:45<1:12:14,  1.91it/s] 23%|██▎       | 2428/10712 [46:45<1:11:24,  1.93it/s] 23%|██▎       | 2429/10712 [46:46<1:10:35,  1.96it/s] 23%|██▎       | 2430/10712 [46:46<1:10:04,  1.97it/s] 23%|██▎       | 2431/10712 [46:47<1:09:45,  1.98it/s] 23%|██▎       | 2432/10712 [46:47<1:09:27,  1.99it/s] 23%|██▎       | 2433/10712 [46:48<1:09:23,  1.99it/s] 23%|██▎       | 2434/10712 [46:48<1:09:09,  1.99it/s] 23%|██▎       | 2435/10712 [46:49<1:31:59,  1.50it/s] 23%|██▎       | 2436/10712 [46:50<1:38:40,  1.40it/s] 23%|██▎       | 2437/10712 [46:51<1:29:38,  1.54it/s] 23%|██▎       | 2438/10712 [46:51<1:23:19,  1.66it/s] 23%|██▎       | 2439/10712 [46:52<1:18:53,  1.75it/s] 23%|██▎       | 2440/10712 [46:52<1:15:48,  1.82it/s] 23%|██▎       | 2441/10712 [46:53<1:13:49,  1.87it/s] 23%|██▎       | 2442/10712 [46:53<1:12:21,  1.90it/s] 23%|██▎       | 2443/10712 [46:54<1:46:33,  1.29it/s] 23%|██▎       | 2444/10712 [46:55<1:35:08,  1.45it/s] 23%|██▎       | 2445/10712 [46:55<1:27:18,  1.58it/s] 23%|██▎       | 2446/10712 [46:56<1:21:49,  1.68it/s] 23%|██▎       | 2447/10712 [46:56<1:17:49,  1.77it/s] 23%|██▎       | 2448/10712 [46:57<1:15:08,  1.83it/s] 23%|██▎       | 2449/10712 [46:58<1:25:31,  1.61it/s] 23%|██▎       | 2450/10712 [46:58<1:20:59,  1.70it/s]                                                      {'loss': 4.0803, 'grad_norm': 0.21983036398887634, 'learning_rate': 0.0009504238168227613, 'epoch': 0.23}
+ 23%|██▎       | 2450/10712 [46:58<1:20:59,  1.70it/s] 23%|██▎       | 2451/10712 [47:00<1:59:36,  1.15it/s] 23%|██▎       | 2452/10712 [47:00<1:44:27,  1.32it/s] 23%|██▎       | 2453/10712 [47:01<1:33:53,  1.47it/s] 23%|██▎       | 2454/10712 [47:01<1:26:25,  1.59it/s] 23%|██▎       | 2455/10712 [47:02<1:21:08,  1.70it/s] 23%|██▎       | 2456/10712 [47:03<1:52:16,  1.23it/s] 23%|██▎       | 2457/10712 [47:04<1:39:16,  1.39it/s] 23%|██▎       | 2458/10712 [47:05<2:01:01,  1.14it/s] 23%|██▎       | 2459/10712 [47:06<2:03:05,  1.12it/s] 23%|██▎       | 2460/10712 [47:06<1:46:50,  1.29it/s] 23%|██▎       | 2461/10712 [47:07<1:45:01,  1.31it/s] 23%|██▎       | 2462/10712 [47:08<1:34:07,  1.46it/s] 23%|██▎       | 2463/10712 [47:08<1:26:30,  1.59it/s] 23%|██▎       | 2464/10712 [47:09<1:21:15,  1.69it/s] 23%|██▎       | 2465/10712 [47:09<1:17:32,  1.77it/s] 23%|██▎       | 2466/10712 [47:10<1:14:49,  1.84it/s] 23%|██▎       | 2467/10712 [47:10<1:12:50,  1.89it/s] 23%|██▎       | 2468/10712 [47:11<1:17:13,  1.78it/s] 23%|██▎       | 2469/10712 [47:11<1:14:33,  1.84it/s] 23%|██▎       | 2470/10712 [47:12<1:12:40,  1.89it/s] 23%|██▎       | 2471/10712 [47:12<1:11:25,  1.92it/s] 23%|██▎       | 2472/10712 [47:13<1:10:24,  1.95it/s] 23%|██▎       | 2473/10712 [47:13<1:09:47,  1.97it/s] 23%|██▎       | 2474/10712 [47:14<1:19:30,  1.73it/s] 23%|██▎       | 2475/10712 [47:14<1:16:14,  1.80it/s]                                                      {'loss': 4.0776, 'grad_norm': 0.22949561476707458, 'learning_rate': 0.0009486403751560427, 'epoch': 0.23}
+ 23%|██▎       | 2475/10712 [47:14<1:16:14,  1.80it/s] 23%|██▎       | 2476/10712 [47:15<1:25:15,  1.61it/s] 23%|██▎       | 2477/10712 [47:16<1:32:26,  1.48it/s] 23%|██▎       | 2478/10712 [47:16<1:25:09,  1.61it/s] 23%|██▎       | 2479/10712 [47:17<1:20:14,  1.71it/s] 23%|██▎       | 2480/10712 [47:17<1:16:39,  1.79it/s] 23%|██▎       | 2481/10712 [47:18<1:14:06,  1.85it/s] 23%|██▎       | 2482/10712 [47:19<1:25:56,  1.60it/s] 23%|██▎       | 2483/10712 [47:19<1:20:37,  1.70it/s] 23%|██▎       | 2484/10712 [47:20<1:17:15,  1.78it/s] 23%|██▎       | 2485/10712 [47:20<1:14:34,  1.84it/s] 23%|██▎       | 2486/10712 [47:21<1:12:59,  1.88it/s] 23%|██▎       | 2487/10712 [47:21<1:15:03,  1.83it/s] 23%|██▎       | 2488/10712 [47:22<1:19:38,  1.72it/s] 23%|██▎       | 2489/10712 [47:23<1:45:47,  1.30it/s] 23%|██▎       | 2490/10712 [47:24<1:49:54,  1.25it/s] 23%|██▎       | 2491/10712 [47:25<1:37:22,  1.41it/s] 23%|██▎       | 2492/10712 [47:25<1:28:38,  1.55it/s] 23%|██▎       | 2493/10712 [47:26<1:22:35,  1.66it/s] 23%|██▎       | 2494/10712 [47:26<1:18:18,  1.75it/s] 23%|██▎       | 2495/10712 [47:27<1:15:15,  1.82it/s] 23%|██▎       | 2496/10712 [47:27<1:25:07,  1.61it/s] 23%|██▎       | 2497/10712 [47:28<1:20:04,  1.71it/s] 23%|██▎       | 2498/10712 [47:28<1:16:36,  1.79it/s] 23%|██▎       | 2499/10712 [47:29<1:14:16,  1.84it/s] 23%|██▎       | 2500/10712 [47:29<1:12:31,  1.89it/s]                                                      {'loss': 4.0713, 'grad_norm': 0.21205829083919525, 'learning_rate': 0.000946827153698169, 'epoch': 0.23}
+ 23%|██▎       | 2500/10712 [47:29<1:12:31,  1.89it/s] 23%|██▎       | 2501/10712 [47:30<1:11:24,  1.92it/s] 23%|██▎       | 2502/10712 [47:30<1:10:30,  1.94it/s] 23%|██▎       | 2503/10712 [47:31<1:09:51,  1.96it/s] 23%|██▎       | 2504/10712 [47:31<1:09:25,  1.97it/s] 23%|██▎       | 2505/10712 [47:32<1:09:02,  1.98it/s] 23%|██▎       | 2506/10712 [47:32<1:08:46,  1.99it/s] 23%|██▎       | 2507/10712 [47:33<1:08:40,  1.99it/s] 23%|██▎       | 2508/10712 [47:34<1:23:51,  1.63it/s] 23%|██▎       | 2509/10712 [47:34<1:19:08,  1.73it/s] 23%|██▎       | 2510/10712 [47:35<1:15:56,  1.80it/s] 23%|██▎       | 2511/10712 [47:35<1:13:35,  1.86it/s] 23%|██▎       | 2512/10712 [47:36<1:11:59,  1.90it/s] 23%|██▎       | 2513/10712 [47:36<1:10:53,  1.93it/s] 23%|██▎       | 2514/10712 [47:37<1:10:06,  1.95it/s] 23%|██▎       | 2515/10712 [47:37<1:09:30,  1.97it/s] 23%|██▎       | 2516/10712 [47:38<1:09:02,  1.98it/s] 23%|██▎       | 2517/10712 [47:38<1:08:41,  1.99it/s] 24%|██▎       | 2518/10712 [47:39<1:13:59,  1.85it/s] 24%|██▎       | 2519/10712 [47:39<1:12:08,  1.89it/s] 24%|██▎       | 2520/10712 [47:40<1:10:58,  1.92it/s] 24%|██▎       | 2521/10712 [47:40<1:10:03,  1.95it/s] 24%|██▎       | 2522/10712 [47:41<1:09:23,  1.97it/s] 24%|██▎       | 2523/10712 [47:41<1:08:52,  1.98it/s] 24%|██▎       | 2524/10712 [47:42<1:08:35,  1.99it/s] 24%|██▎       | 2525/10712 [47:43<1:20:30,  1.69it/s]                                                      {'loss': 4.0674, 'grad_norm': 0.23921458423137665, 'learning_rate': 0.0009449842728069133, 'epoch': 0.24}
+ 24%|██▎       | 2525/10712 [47:43<1:20:30,  1.69it/s] 24%|██▎       | 2526/10712 [47:43<1:16:49,  1.78it/s] 24%|██▎       | 2527/10712 [47:44<1:14:30,  1.83it/s] 24%|██▎       | 2528/10712 [47:44<1:12:41,  1.88it/s] 24%|██▎       | 2529/10712 [47:45<1:29:02,  1.53it/s] 24%|██▎       | 2530/10712 [47:46<1:22:50,  1.65it/s] 24%|██▎       | 2531/10712 [47:46<1:18:20,  1.74it/s] 24%|██▎       | 2532/10712 [47:47<1:15:15,  1.81it/s] 24%|██▎       | 2533/10712 [47:47<1:25:40,  1.59it/s] 24%|██▎       | 2534/10712 [47:48<1:20:20,  1.70it/s] 24%|██▎       | 2535/10712 [47:48<1:16:40,  1.78it/s] 24%|██▎       | 2536/10712 [47:49<1:13:59,  1.84it/s] 24%|██▎       | 2537/10712 [47:49<1:12:04,  1.89it/s] 24%|██▎       | 2538/10712 [47:50<1:10:49,  1.92it/s] 24%|██▎       | 2539/10712 [47:50<1:09:56,  1.95it/s] 24%|██▎       | 2540/10712 [47:51<1:09:17,  1.97it/s] 24%|██▎       | 2541/10712 [47:51<1:08:49,  1.98it/s] 24%|██▎       | 2542/10712 [47:52<1:08:31,  1.99it/s] 24%|██▎       | 2543/10712 [47:52<1:08:13,  2.00it/s] 24%|██▎       | 2544/10712 [47:53<1:08:47,  1.98it/s] 24%|██▍       | 2545/10712 [47:53<1:12:18,  1.88it/s] 24%|██▍       | 2546/10712 [47:54<1:10:59,  1.92it/s] 24%|██▍       | 2547/10712 [47:55<1:16:47,  1.77it/s] 24%|██▍       | 2548/10712 [47:55<1:14:12,  1.83it/s] 24%|██▍       | 2549/10712 [47:56<1:12:27,  1.88it/s] 24%|██▍       | 2550/10712 [47:56<1:10:56,  1.92it/s]                                                      {'loss': 4.0686, 'grad_norm': 0.2394738346338272, 'learning_rate': 0.0009431118548087783, 'epoch': 0.24}
+ 24%|██▍       | 2550/10712 [47:56<1:10:56,  1.92it/s] 24%|██▍       | 2551/10712 [47:57<1:10:11,  1.94it/s] 24%|██▍       | 2552/10712 [47:57<1:09:27,  1.96it/s] 24%|██▍       | 2553/10712 [47:58<1:08:51,  1.97it/s] 24%|██▍       | 2554/10712 [47:58<1:08:31,  1.98it/s] 24%|██▍       | 2555/10712 [47:59<1:08:14,  1.99it/s] 24%|██▍       | 2556/10712 [47:59<1:07:57,  2.00it/s] 24%|██▍       | 2557/10712 [48:00<1:07:54,  2.00it/s] 24%|██▍       | 2558/10712 [48:00<1:07:47,  2.00it/s] 24%|██▍       | 2559/10712 [48:01<1:07:38,  2.01it/s] 24%|██▍       | 2560/10712 [48:01<1:07:38,  2.01it/s] 24%|██▍       | 2561/10712 [48:02<1:07:36,  2.01it/s] 24%|██▍       | 2562/10712 [48:02<1:07:40,  2.01it/s] 24%|██▍       | 2563/10712 [48:03<1:07:34,  2.01it/s] 24%|██▍       | 2564/10712 [48:03<1:07:32,  2.01it/s] 24%|██▍       | 2565/10712 [48:04<1:07:31,  2.01it/s] 24%|██▍       | 2566/10712 [48:04<1:07:38,  2.01it/s] 24%|██▍       | 2567/10712 [48:05<1:07:47,  2.00it/s] 24%|██▍       | 2568/10712 [48:05<1:07:52,  2.00it/s] 24%|██▍       | 2569/10712 [48:06<1:07:50,  2.00it/s] 24%|██▍       | 2570/10712 [48:06<1:07:42,  2.00it/s] 24%|██▍       | 2571/10712 [48:07<1:07:46,  2.00it/s] 24%|██▍       | 2572/10712 [48:07<1:07:42,  2.00it/s] 24%|██▍       | 2573/10712 [48:08<1:07:37,  2.01it/s] 24%|██▍       | 2574/10712 [48:08<1:11:20,  1.90it/s] 24%|██▍       | 2575/10712 [48:09<1:10:11,  1.93it/s]                                                      {'loss': 4.0643, 'grad_norm': 0.20525667071342468, 'learning_rate': 0.0009412100239908767, 'epoch': 0.24}
+ 24%|██▍       | 2575/10712 [48:09<1:10:11,  1.93it/s] 24%|██▍       | 2576/10712 [48:09<1:09:29,  1.95it/s] 24%|██▍       | 2577/10712 [48:10<1:08:57,  1.97it/s] 24%|██▍       | 2578/10712 [48:10<1:08:30,  1.98it/s] 24%|██▍       | 2579/10712 [48:11<1:08:07,  1.99it/s] 24%|██▍       | 2580/10712 [48:11<1:07:55,  2.00it/s] 24%|██▍       | 2581/10712 [48:12<1:07:46,  2.00it/s] 24%|██▍       | 2582/10712 [48:12<1:07:52,  2.00it/s] 24%|██▍       | 2583/10712 [48:13<1:22:58,  1.63it/s] 24%|██▍       | 2584/10712 [48:14<1:18:24,  1.73it/s] 24%|██▍       | 2585/10712 [48:14<1:15:09,  1.80it/s] 24%|██▍       | 2586/10712 [48:15<1:12:48,  1.86it/s] 24%|██▍       | 2587/10712 [48:16<1:31:08,  1.49it/s] 24%|██▍       | 2588/10712 [48:16<1:24:10,  1.61it/s] 24%|██▍       | 2589/10712 [48:17<1:19:11,  1.71it/s] 24%|██▍       | 2590/10712 [48:17<1:15:51,  1.78it/s] 24%|██▍       | 2591/10712 [48:18<1:13:43,  1.84it/s] 24%|██▍       | 2592/10712 [48:18<1:12:25,  1.87it/s] 24%|██▍       | 2593/10712 [48:19<1:10:51,  1.91it/s] 24%|██▍       | 2594/10712 [48:19<1:09:55,  1.93it/s] 24%|██▍       | 2595/10712 [48:20<1:09:09,  1.96it/s] 24%|██▍       | 2596/10712 [48:21<1:34:33,  1.43it/s] 24%|██▍       | 2597/10712 [48:22<1:45:03,  1.29it/s] 24%|██▍       | 2598/10712 [48:22<1:33:49,  1.44it/s] 24%|██▍       | 2599/10712 [48:23<1:25:46,  1.58it/s] 24%|██▍       | 2600/10712 [48:23<1:20:12,  1.69it/s]                                                      {'loss': 4.0532, 'grad_norm': 0.21949905157089233, 'learning_rate': 0.0009392789065926817, 'epoch': 0.24}
+ 24%|██▍       | 2600/10712 [48:23<1:20:12,  1.69it/s] 24%|██▍       | 2601/10712 [48:24<1:16:34,  1.77it/s] 24%|██▍       | 2602/10712 [48:24<1:13:49,  1.83it/s] 24%|██▍       | 2603/10712 [48:25<1:11:55,  1.88it/s] 24%|██▍       | 2604/10712 [48:25<1:10:35,  1.91it/s] 24%|██▍       | 2605/10712 [48:26<1:09:46,  1.94it/s] 24%|██▍       | 2606/10712 [48:26<1:21:03,  1.67it/s] 24%|██▍       | 2607/10712 [48:27<1:16:59,  1.75it/s] 24%|██▍       | 2608/10712 [48:27<1:14:35,  1.81it/s] 24%|██▍       | 2609/10712 [48:28<1:12:29,  1.86it/s] 24%|██▍       | 2610/10712 [48:28<1:10:59,  1.90it/s] 24%|██▍       | 2611/10712 [48:29<1:10:05,  1.93it/s] 24%|██▍       | 2612/10712 [48:29<1:09:10,  1.95it/s] 24%|██▍       | 2613/10712 [48:30<1:08:35,  1.97it/s] 24%|██▍       | 2614/10712 [48:30<1:08:13,  1.98it/s] 24%|██▍       | 2615/10712 [48:31<1:07:56,  1.99it/s] 24%|██▍       | 2616/10712 [48:31<1:07:36,  2.00it/s] 24%|██▍       | 2617/10712 [48:33<1:29:39,  1.50it/s] 24%|██▍       | 2618/10712 [48:33<1:22:59,  1.63it/s] 24%|██▍       | 2619/10712 [48:34<1:18:11,  1.73it/s] 24%|██▍       | 2620/10712 [48:34<1:14:46,  1.80it/s] 24%|██▍       | 2621/10712 [48:35<1:12:31,  1.86it/s] 24%|██▍       | 2622/10712 [48:35<1:21:33,  1.65it/s] 24%|██▍       | 2623/10712 [48:36<1:17:16,  1.74it/s] 24%|██▍       | 2624/10712 [48:36<1:14:22,  1.81it/s] 25%|██▍       | 2625/10712 [48:37<1:12:49,  1.85it/s]                                                      {'loss': 4.0525, 'grad_norm': 0.22180511057376862, 'learning_rate': 0.000937318630797647, 'epoch': 0.25}
+ 25%|██▍       | 2625/10712 [48:37<1:12:49,  1.85it/s] 25%|██▍       | 2626/10712 [48:37<1:11:09,  1.89it/s] 25%|██▍       | 2627/10712 [48:38<1:10:01,  1.92it/s] 25%|██▍       | 2628/10712 [48:38<1:09:13,  1.95it/s] 25%|██▍       | 2629/10712 [48:39<1:19:58,  1.68it/s] 25%|██▍       | 2630/10712 [48:40<1:28:58,  1.51it/s] 25%|██▍       | 2631/10712 [48:40<1:22:24,  1.63it/s] 25%|██▍       | 2632/10712 [48:41<1:17:45,  1.73it/s] 25%|██▍       | 2633/10712 [48:41<1:14:33,  1.81it/s] 25%|██▍       | 2634/10712 [48:42<1:12:16,  1.86it/s] 25%|██▍       | 2635/10712 [48:42<1:10:38,  1.91it/s] 25%|██▍       | 2636/10712 [48:43<1:09:36,  1.93it/s] 25%|██▍       | 2637/10712 [48:43<1:08:46,  1.96it/s] 25%|██▍       | 2638/10712 [48:44<1:08:10,  1.97it/s] 25%|██▍       | 2639/10712 [48:44<1:10:54,  1.90it/s] 25%|██▍       | 2640/10712 [48:45<1:09:38,  1.93it/s] 25%|██▍       | 2641/10712 [48:45<1:08:43,  1.96it/s] 25%|██▍       | 2642/10712 [48:46<1:08:09,  1.97it/s] 25%|██▍       | 2643/10712 [48:46<1:07:45,  1.98it/s] 25%|██▍       | 2644/10712 [48:47<1:07:29,  1.99it/s] 25%|██▍       | 2645/10712 [48:47<1:07:11,  2.00it/s] 25%|██▍       | 2646/10712 [48:48<1:07:05,  2.00it/s] 25%|██▍       | 2647/10712 [48:48<1:06:57,  2.01it/s] 25%|██▍       | 2648/10712 [48:49<1:06:54,  2.01it/s] 25%|██▍       | 2649/10712 [48:49<1:06:54,  2.01it/s] 25%|██▍       | 2650/10712 [48:50<1:06:52,  2.01it/s]                                                      {'loss': 4.0504, 'grad_norm': 0.22880275547504425, 'learning_rate': 0.0009353293267246988, 'epoch': 0.25}
+ 25%|██▍       | 2650/10712 [48:50<1:06:52,  2.01it/s] 25%|██▍       | 2651/10712 [48:50<1:06:57,  2.01it/s] 25%|██▍       | 2652/10712 [48:51<1:06:51,  2.01it/s] 25%|██▍       | 2653/10712 [48:51<1:06:47,  2.01it/s] 25%|██▍       | 2654/10712 [48:52<1:06:42,  2.01it/s] 25%|██▍       | 2655/10712 [48:52<1:06:38,  2.01it/s] 25%|██▍       | 2656/10712 [48:53<1:06:41,  2.01it/s] 25%|██▍       | 2657/10712 [48:54<1:16:34,  1.75it/s] 25%|██▍       | 2658/10712 [48:54<1:13:41,  1.82it/s] 25%|██▍       | 2659/10712 [48:55<1:11:29,  1.88it/s] 25%|██▍       | 2660/10712 [48:55<1:10:05,  1.91it/s] 25%|██▍       | 2661/10712 [48:56<1:09:01,  1.94it/s] 25%|██▍       | 2662/10712 [48:56<1:08:12,  1.97it/s] 25%|██▍       | 2663/10712 [48:57<1:08:36,  1.96it/s] 25%|██▍       | 2664/10712 [48:57<1:08:05,  1.97it/s] 25%|██▍       | 2665/10712 [48:58<1:07:42,  1.98it/s] 25%|██▍       | 2666/10712 [48:58<1:07:32,  1.99it/s] 25%|██▍       | 2667/10712 [48:59<1:19:29,  1.69it/s] 25%|██▍       | 2668/10712 [48:59<1:15:39,  1.77it/s] 25%|██▍       | 2669/10712 [49:00<1:12:55,  1.84it/s] 25%|██▍       | 2670/10712 [49:00<1:11:14,  1.88it/s] 25%|██▍       | 2671/10712 [49:01<1:09:59,  1.91it/s] 25%|██▍       | 2672/10712 [49:01<1:09:00,  1.94it/s] 25%|██▍       | 2673/10712 [49:02<1:08:21,  1.96it/s] 25%|██▍       | 2674/10712 [49:02<1:07:54,  1.97it/s] 25%|██▍       | 2675/10712 [49:03<1:07:35,  1.98it/s]                                                      {'loss': 4.0476, 'grad_norm': 0.21763809025287628, 'learning_rate': 0.0009333111264195981, 'epoch': 0.25}
+ 25%|██▍       | 2675/10712 [49:03<1:07:35,  1.98it/s] 25%|██▍       | 2676/10712 [49:03<1:07:24,  1.99it/s] 25%|██▍       | 2677/10712 [49:04<1:07:08,  1.99it/s] 25%|██▌       | 2678/10712 [49:04<1:06:59,  2.00it/s] 25%|██▌       | 2679/10712 [49:05<1:06:48,  2.00it/s] 25%|██▌       | 2680/10712 [49:05<1:06:47,  2.00it/s] 25%|██▌       | 2681/10712 [49:06<1:06:45,  2.00it/s] 25%|██▌       | 2682/10712 [49:06<1:06:36,  2.01it/s] 25%|██▌       | 2683/10712 [49:07<1:17:25,  1.73it/s] 25%|██▌       | 2684/10712 [49:08<1:14:11,  1.80it/s] 25%|██▌       | 2685/10712 [49:08<1:11:52,  1.86it/s] 25%|██▌       | 2686/10712 [49:09<1:10:13,  1.90it/s] 25%|██▌       | 2687/10712 [49:09<1:09:08,  1.93it/s] 25%|██▌       | 2688/10712 [49:10<1:08:17,  1.96it/s] 25%|██▌       | 2689/10712 [49:10<1:07:46,  1.97it/s] 25%|██▌       | 2690/10712 [49:11<1:07:18,  1.99it/s] 25%|██▌       | 2691/10712 [49:11<1:07:02,  1.99it/s] 25%|██▌       | 2692/10712 [49:12<1:06:46,  2.00it/s] 25%|██▌       | 2693/10712 [49:12<1:06:44,  2.00it/s] 25%|██▌       | 2694/10712 [49:13<1:06:45,  2.00it/s] 25%|██▌       | 2695/10712 [49:14<1:51:57,  1.19it/s] 25%|██▌       | 2696/10712 [49:15<1:38:27,  1.36it/s] 25%|██▌       | 2697/10712 [49:15<1:28:55,  1.50it/s] 25%|██▌       | 2698/10712 [49:16<1:22:11,  1.62it/s] 25%|██▌       | 2699/10712 [49:16<1:17:29,  1.72it/s] 25%|██▌       | 2700/10712 [49:17<1:14:18,  1.80it/s]                                                      {'loss': 4.0486, 'grad_norm': 0.22851434350013733, 'learning_rate': 0.0009312641638461767, 'epoch': 0.25}
+ 25%|██▌       | 2700/10712 [49:17<1:14:18,  1.80it/s] 25%|██▌       | 2701/10712 [49:17<1:12:14,  1.85it/s] 25%|██▌       | 2702/10712 [49:18<1:11:02,  1.88it/s] 25%|██▌       | 2703/10712 [49:18<1:09:47,  1.91it/s] 25%|██▌       | 2704/10712 [49:19<1:08:50,  1.94it/s] 25%|██▌       | 2705/10712 [49:19<1:08:12,  1.96it/s] 25%|██▌       | 2706/10712 [49:20<1:07:43,  1.97it/s] 25%|██▌       | 2707/10712 [49:21<1:19:12,  1.68it/s] 25%|██▌       | 2708/10712 [49:21<1:15:30,  1.77it/s] 25%|██▌       | 2709/10712 [49:22<1:12:48,  1.83it/s] 25%|██▌       | 2710/10712 [49:22<1:10:59,  1.88it/s] 25%|██▌       | 2711/10712 [49:23<1:09:40,  1.91it/s] 25%|██▌       | 2712/10712 [49:23<1:08:42,  1.94it/s] 25%|██▌       | 2713/10712 [49:24<1:07:58,  1.96it/s] 25%|██▌       | 2714/10712 [49:24<1:07:31,  1.97it/s] 25%|██▌       | 2715/10712 [49:25<1:18:58,  1.69it/s] 25%|██▌       | 2716/10712 [49:25<1:15:17,  1.77it/s] 25%|██▌       | 2717/10712 [49:26<1:12:36,  1.84it/s] 25%|██▌       | 2718/10712 [49:26<1:10:56,  1.88it/s] 25%|██▌       | 2719/10712 [49:27<1:09:37,  1.91it/s] 25%|██▌       | 2720/10712 [49:27<1:08:38,  1.94it/s] 25%|██▌       | 2721/10712 [49:28<1:07:59,  1.96it/s] 25%|██▌       | 2722/10712 [49:28<1:07:28,  1.97it/s] 25%|██▌       | 2723/10712 [49:29<1:07:07,  1.98it/s] 25%|██▌       | 2724/10712 [49:29<1:06:50,  1.99it/s] 25%|██▌       | 2725/10712 [49:30<1:06:36,  2.00it/s]                                                      {'loss': 4.0435, 'grad_norm': 0.22952334582805634, 'learning_rate': 0.0009291885748774436, 'epoch': 0.25}
+ 25%|██▌       | 2725/10712 [49:30<1:06:36,  2.00it/s] 25%|██▌       | 2726/10712 [49:30<1:06:38,  2.00it/s] 25%|██▌       | 2727/10712 [49:31<1:06:32,  2.00it/s] 25%|██▌       | 2728/10712 [49:31<1:06:26,  2.00it/s] 25%|██▌       | 2729/10712 [49:32<1:06:18,  2.01it/s] 25%|██▌       | 2730/10712 [49:32<1:06:14,  2.01it/s] 25%|██▌       | 2731/10712 [49:33<1:27:31,  1.52it/s] 26%|██▌       | 2732/10712 [49:34<1:21:06,  1.64it/s] 26%|██▌       | 2733/10712 [49:34<1:16:31,  1.74it/s] 26%|██▌       | 2734/10712 [49:35<1:13:25,  1.81it/s] 26%|██▌       | 2735/10712 [49:35<1:11:14,  1.87it/s] 26%|██▌       | 2736/10712 [49:36<1:09:36,  1.91it/s] 26%|██▌       | 2737/10712 [49:36<1:14:08,  1.79it/s] 26%|██▌       | 2738/10712 [49:37<1:11:42,  1.85it/s] 26%|██▌       | 2739/10712 [49:37<1:09:57,  1.90it/s] 26%|██▌       | 2740/10712 [49:38<1:08:44,  1.93it/s] 26%|██▌       | 2741/10712 [49:39<1:13:26,  1.81it/s] 26%|██▌       | 2742/10712 [49:39<1:11:13,  1.87it/s] 26%|██▌       | 2743/10712 [49:40<1:09:33,  1.91it/s] 26%|██▌       | 2744/10712 [49:40<1:08:37,  1.94it/s] 26%|██▌       | 2745/10712 [49:41<1:07:53,  1.96it/s] 26%|██▌       | 2746/10712 [49:41<1:07:23,  1.97it/s] 26%|██▌       | 2747/10712 [49:42<1:06:59,  1.98it/s] 26%|██▌       | 2748/10712 [49:42<1:06:39,  1.99it/s] 26%|██▌       | 2749/10712 [49:43<1:06:28,  2.00it/s] 26%|██▌       | 2750/10712 [49:43<1:06:23,  2.00it/s]                                                      {'loss': 4.033, 'grad_norm': 0.23193401098251343, 'learning_rate': 0.0009270844972865675, 'epoch': 0.26}
+ 26%|██▌       | 2750/10712 [49:43<1:06:23,  2.00it/s] 26%|██▌       | 2751/10712 [49:44<1:06:22,  2.00it/s] 26%|██▌       | 2752/10712 [49:44<1:06:12,  2.00it/s] 26%|██▌       | 2753/10712 [49:45<1:06:10,  2.00it/s] 26%|██▌       | 2754/10712 [49:45<1:06:15,  2.00it/s] 26%|██▌       | 2755/10712 [49:46<1:06:10,  2.00it/s] 26%|██▌       | 2756/10712 [49:46<1:06:16,  2.00it/s] 26%|██▌       | 2757/10712 [49:47<1:06:13,  2.00it/s] 26%|██▌       | 2758/10712 [49:47<1:06:17,  2.00it/s] 26%|██▌       | 2759/10712 [49:48<1:06:09,  2.00it/s] 26%|██▌       | 2760/10712 [49:48<1:06:10,  2.00it/s] 26%|██▌       | 2761/10712 [49:49<1:06:08,  2.00it/s] 26%|██▌       | 2762/10712 [49:49<1:06:01,  2.01it/s] 26%|██▌       | 2763/10712 [49:50<1:06:08,  2.00it/s] 26%|██▌       | 2764/10712 [49:50<1:06:08,  2.00it/s] 26%|██▌       | 2765/10712 [49:51<1:06:02,  2.01it/s] 26%|██▌       | 2766/10712 [49:51<1:06:00,  2.01it/s] 26%|██▌       | 2767/10712 [49:52<1:05:57,  2.01it/s] 26%|██▌       | 2768/10712 [49:52<1:05:51,  2.01it/s] 26%|██▌       | 2769/10712 [49:53<1:05:57,  2.01it/s] 26%|██▌       | 2770/10712 [49:53<1:05:57,  2.01it/s] 26%|██▌       | 2771/10712 [49:54<1:05:54,  2.01it/s] 26%|██▌       | 2772/10712 [49:54<1:05:53,  2.01it/s] 26%|██▌       | 2773/10712 [49:55<1:05:49,  2.01it/s] 26%|██▌       | 2774/10712 [49:55<1:05:47,  2.01it/s] 26%|██▌       | 2775/10712 [49:56<1:05:46,  2.01it/s]                                                      {'loss': 4.0334, 'grad_norm': 0.21900106966495514, 'learning_rate': 0.0009249520707377309, 'epoch': 0.26}
+ 26%|██▌       | 2775/10712 [49:56<1:05:46,  2.01it/s] 26%|██▌       | 2776/10712 [49:56<1:05:59,  2.00it/s] 26%|██▌       | 2777/10712 [49:57<1:05:57,  2.01it/s] 26%|██▌       | 2778/10712 [49:57<1:06:00,  2.00it/s] 26%|██▌       | 2779/10712 [49:58<1:06:03,  2.00it/s] 26%|██▌       | 2780/10712 [49:58<1:06:02,  2.00it/s] 26%|██▌       | 2781/10712 [49:59<1:06:01,  2.00it/s] 26%|██▌       | 2782/10712 [49:59<1:06:01,  2.00it/s] 26%|██▌       | 2783/10712 [50:00<1:05:55,  2.00it/s] 26%|██▌       | 2784/10712 [50:00<1:05:54,  2.00it/s] 26%|██▌       | 2785/10712 [50:01<1:05:55,  2.00it/s] 26%|██▌       | 2786/10712 [50:01<1:05:57,  2.00it/s] 26%|██▌       | 2787/10712 [50:02<1:05:54,  2.00it/s] 26%|██▌       | 2788/10712 [50:02<1:05:56,  2.00it/s] 26%|██▌       | 2789/10712 [50:03<1:05:52,  2.00it/s] 26%|██▌       | 2790/10712 [50:03<1:05:47,  2.01it/s] 26%|██▌       | 2791/10712 [50:04<1:05:51,  2.00it/s] 26%|██▌       | 2792/10712 [50:04<1:05:58,  2.00it/s] 26%|██▌       | 2793/10712 [50:05<1:06:10,  1.99it/s] 26%|██▌       | 2794/10712 [50:05<1:06:05,  2.00it/s] 26%|██▌       | 2795/10712 [50:06<1:05:58,  2.00it/s] 26%|██▌       | 2796/10712 [50:06<1:05:55,  2.00it/s] 26%|██▌       | 2797/10712 [50:07<1:16:11,  1.73it/s] 26%|██▌       | 2798/10712 [50:07<1:13:05,  1.80it/s] 26%|██▌       | 2799/10712 [50:08<1:10:52,  1.86it/s] 26%|██▌       | 2800/10712 [50:09<1:22:44,  1.59it/s]                                                      {'loss': 4.0336, 'grad_norm': 0.22678866982460022, 'learning_rate': 0.0009227914367768598, 'epoch': 0.26}
+ 26%|██▌       | 2800/10712 [50:09<1:22:44,  1.59it/s] 26%|██▌       | 2801/10712 [50:09<1:17:44,  1.70it/s] 26%|██▌       | 2802/10712 [50:10<1:14:07,  1.78it/s] 26%|██▌       | 2803/10712 [50:10<1:11:37,  1.84it/s] 26%|██▌       | 2804/10712 [50:11<1:09:56,  1.88it/s] 26%|██▌       | 2805/10712 [50:11<1:08:44,  1.92it/s] 26%|██▌       | 2806/10712 [50:12<1:07:47,  1.94it/s] 26%|██▌       | 2807/10712 [50:12<1:07:09,  1.96it/s] 26%|██▌       | 2808/10712 [50:13<1:06:52,  1.97it/s] 26%|██▌       | 2809/10712 [50:13<1:06:33,  1.98it/s] 26%|██▌       | 2810/10712 [50:14<1:06:09,  1.99it/s] 26%|██▌       | 2811/10712 [50:14<1:06:05,  1.99it/s] 26%|██▋       | 2812/10712 [50:15<1:06:06,  1.99it/s] 26%|██▋       | 2813/10712 [50:15<1:06:02,  1.99it/s] 26%|██▋       | 2814/10712 [50:16<1:05:55,  2.00it/s] 26%|██▋       | 2815/10712 [50:17<1:52:54,  1.17it/s] 26%|██▋       | 2816/10712 [50:18<1:38:46,  1.33it/s] 26%|██▋       | 2817/10712 [50:18<1:28:51,  1.48it/s] 26%|██▋       | 2818/10712 [50:19<1:21:46,  1.61it/s] 26%|██▋       | 2819/10712 [50:19<1:16:56,  1.71it/s] 26%|██▋       | 2820/10712 [50:20<1:13:31,  1.79it/s] 26%|██▋       | 2821/10712 [50:20<1:11:08,  1.85it/s] 26%|██▋       | 2822/10712 [50:21<1:09:24,  1.89it/s] 26%|██▋       | 2823/10712 [50:21<1:08:10,  1.93it/s] 26%|██▋       | 2824/10712 [50:22<1:07:23,  1.95it/s] 26%|██▋       | 2825/10712 [50:22<1:06:46,  1.97it/s]                                                      {'loss': 4.0352, 'grad_norm': 0.2122090756893158, 'learning_rate': 0.0009206027388222276, 'epoch': 0.26}
+ 26%|██▋       | 2825/10712 [50:22<1:06:46,  1.97it/s] 26%|██▋       | 2826/10712 [50:23<1:06:23,  1.98it/s] 26%|██▋       | 2827/10712 [50:23<1:06:07,  1.99it/s] 26%|██▋       | 2828/10712 [50:24<1:05:52,  1.99it/s] 26%|██▋       | 2829/10712 [50:24<1:05:41,  2.00it/s] 26%|██▋       | 2830/10712 [50:25<1:05:45,  2.00it/s] 26%|██▋       | 2831/10712 [50:26<1:34:04,  1.40it/s] 26%|██▋       | 2832/10712 [50:27<1:25:27,  1.54it/s] 26%|██▋       | 2833/10712 [50:27<1:19:33,  1.65it/s] 26%|██▋       | 2834/10712 [50:28<1:15:22,  1.74it/s] 26%|██▋       | 2835/10712 [50:28<1:12:24,  1.81it/s] 26%|██▋       | 2836/10712 [50:29<1:10:19,  1.87it/s] 26%|██▋       | 2837/10712 [50:29<1:12:00,  1.82it/s] 26%|██▋       | 2838/10712 [50:30<1:10:01,  1.87it/s] 27%|██▋       | 2839/10712 [50:30<1:08:35,  1.91it/s] 27%|██▋       | 2840/10712 [50:31<1:07:39,  1.94it/s] 27%|██▋       | 2841/10712 [50:31<1:07:00,  1.96it/s] 27%|██▋       | 2842/10712 [50:32<1:06:28,  1.97it/s] 27%|██▋       | 2843/10712 [50:33<1:29:33,  1.46it/s] 27%|██▋       | 2844/10712 [50:33<1:30:58,  1.44it/s] 27%|██▋       | 2845/10712 [50:34<1:23:17,  1.57it/s] 27%|██▋       | 2846/10712 [50:34<1:17:51,  1.68it/s] 27%|██▋       | 2847/10712 [50:35<1:14:01,  1.77it/s] 27%|██▋       | 2848/10712 [50:35<1:11:22,  1.84it/s] 27%|██▋       | 2849/10712 [50:36<1:09:31,  1.89it/s] 27%|██▋       | 2850/10712 [50:36<1:08:08,  1.92it/s]                                                      {'loss': 4.0265, 'grad_norm': 0.221161887049675, 'learning_rate': 0.0009183861221549363, 'epoch': 0.27}
+ 27%|██▋       | 2850/10712 [50:36<1:08:08,  1.92it/s] 27%|██▋       | 2851/10712 [50:37<1:07:19,  1.95it/s] 27%|██▋       | 2852/10712 [50:37<1:06:38,  1.97it/s] 27%|██▋       | 2853/10712 [50:38<1:06:15,  1.98it/s] 27%|██▋       | 2854/10712 [50:38<1:05:56,  1.99it/s] 27%|██▋       | 2855/10712 [50:39<1:05:51,  1.99it/s] 27%|██▋       | 2856/10712 [50:39<1:05:42,  1.99it/s] 27%|██▋       | 2857/10712 [50:40<1:05:31,  2.00it/s] 27%|██▋       | 2858/10712 [50:40<1:05:25,  2.00it/s] 27%|██▋       | 2859/10712 [50:41<1:05:19,  2.00it/s] 27%|██▋       | 2860/10712 [50:41<1:05:12,  2.01it/s] 27%|██▋       | 2861/10712 [50:42<1:05:16,  2.00it/s] 27%|██▋       | 2862/10712 [50:42<1:05:08,  2.01it/s] 27%|██▋       | 2863/10712 [50:43<1:05:05,  2.01it/s] 27%|██▋       | 2864/10712 [50:43<1:05:07,  2.01it/s] 27%|██▋       | 2865/10712 [50:44<1:05:01,  2.01it/s] 27%|██▋       | 2866/10712 [50:44<1:05:00,  2.01it/s] 27%|██▋       | 2867/10712 [50:45<1:04:59,  2.01it/s] 27%|██▋       | 2868/10712 [50:45<1:04:53,  2.01it/s] 27%|██▋       | 2869/10712 [50:46<1:04:54,  2.01it/s] 27%|██▋       | 2870/10712 [50:46<1:04:54,  2.01it/s] 27%|██▋       | 2871/10712 [50:47<1:04:52,  2.01it/s] 27%|██▋       | 2872/10712 [50:47<1:04:52,  2.01it/s] 27%|██▋       | 2873/10712 [50:48<1:04:49,  2.02it/s] 27%|██▋       | 2874/10712 [50:48<1:04:53,  2.01it/s] 27%|██▋       | 2875/10712 [50:49<1:04:54,  2.01it/s]                                                      {'loss': 4.0239, 'grad_norm': 0.2102159857749939, 'learning_rate': 0.0009161417339092721, 'epoch': 0.27}
+ 27%|██▋       | 2875/10712 [50:49<1:04:54,  2.01it/s] 27%|██▋       | 2876/10712 [50:49<1:04:56,  2.01it/s] 27%|██▋       | 2877/10712 [50:50<1:04:56,  2.01it/s] 27%|██▋       | 2878/10712 [50:50<1:04:48,  2.01it/s] 27%|██▋       | 2879/10712 [50:51<1:04:47,  2.02it/s] 27%|██▋       | 2880/10712 [50:51<1:04:47,  2.01it/s] 27%|██▋       | 2881/10712 [50:52<1:04:44,  2.02it/s] 27%|██▋       | 2882/10712 [50:53<1:16:04,  1.72it/s] 27%|██▋       | 2883/10712 [50:53<1:12:40,  1.80it/s] 27%|██▋       | 2884/10712 [50:54<1:10:20,  1.85it/s] 27%|██▋       | 2885/10712 [50:54<1:08:51,  1.89it/s] 27%|██▋       | 2886/10712 [50:55<1:07:46,  1.92it/s] 27%|██▋       | 2887/10712 [50:55<1:06:51,  1.95it/s] 27%|██▋       | 2888/10712 [50:56<1:06:16,  1.97it/s] 27%|██▋       | 2889/10712 [50:56<1:05:56,  1.98it/s] 27%|██▋       | 2890/10712 [50:57<1:05:43,  1.98it/s] 27%|██▋       | 2891/10712 [50:57<1:05:31,  1.99it/s] 27%|██▋       | 2892/10712 [50:58<1:05:25,  1.99it/s] 27%|██▋       | 2893/10712 [50:58<1:05:21,  1.99it/s] 27%|██▋       | 2894/10712 [50:59<1:05:14,  2.00it/s] 27%|██▋       | 2895/10712 [50:59<1:05:04,  2.00it/s] 27%|██▋       | 2896/10712 [51:00<1:04:59,  2.00it/s] 27%|██▋       | 2897/10712 [51:00<1:04:53,  2.01it/s] 27%|██▋       | 2898/10712 [51:01<1:04:54,  2.01it/s] 27%|██▋       | 2899/10712 [51:01<1:05:00,  2.00it/s] 27%|██▋       | 2900/10712 [51:02<1:05:03,  2.00it/s]                                                      {'loss': 4.012, 'grad_norm': 0.21164174377918243, 'learning_rate': 0.0009138697230629397, 'epoch': 0.27}
+ 27%|██▋       | 2900/10712 [51:02<1:05:03,  2.00it/s] 27%|██▋       | 2901/10712 [51:02<1:05:16,  1.99it/s] 27%|██▋       | 2902/10712 [51:03<1:05:04,  2.00it/s] 27%|██▋       | 2903/10712 [51:03<1:05:07,  2.00it/s] 27%|██▋       | 2904/10712 [51:04<1:05:07,  2.00it/s] 27%|██▋       | 2905/10712 [51:04<1:05:08,  2.00it/s] 27%|██▋       | 2906/10712 [51:05<1:05:03,  2.00it/s] 27%|██▋       | 2907/10712 [51:05<1:05:03,  2.00it/s] 27%|██▋       | 2908/10712 [51:06<1:04:59,  2.00it/s] 27%|██▋       | 2909/10712 [51:07<1:38:24,  1.32it/s] 27%|██▋       | 2910/10712 [51:07<1:28:20,  1.47it/s] 27%|██▋       | 2911/10712 [51:08<1:21:11,  1.60it/s] 27%|██▋       | 2912/10712 [51:08<1:16:21,  1.70it/s] 27%|██▋       | 2913/10712 [51:09<1:12:47,  1.79it/s] 27%|██▋       | 2914/10712 [51:09<1:10:30,  1.84it/s] 27%|██▋       | 2915/10712 [51:10<1:08:50,  1.89it/s] 27%|██▋       | 2916/10712 [51:11<1:28:06,  1.47it/s] 27%|██▋       | 2917/10712 [51:11<1:21:09,  1.60it/s] 27%|██▋       | 2918/10712 [51:12<1:16:12,  1.70it/s] 27%|██▋       | 2919/10712 [51:13<1:43:13,  1.26it/s] 27%|██▋       | 2920/10712 [51:14<1:31:41,  1.42it/s] 27%|██▋       | 2921/10712 [51:14<1:23:30,  1.55it/s] 27%|██▋       | 2922/10712 [51:15<1:17:46,  1.67it/s] 27%|██▋       | 2923/10712 [51:15<1:13:51,  1.76it/s] 27%|██▋       | 2924/10712 [51:16<1:10:57,  1.83it/s] 27%|██▋       | 2925/10712 [51:16<1:09:04,  1.88it/s]                                                      {'loss': 4.0148, 'grad_norm': 0.2197403460741043, 'learning_rate': 0.0009115702404271726, 'epoch': 0.27}
+ 27%|██▋       | 2925/10712 [51:16<1:09:04,  1.88it/s] 27%|██▋       | 2926/10712 [51:17<1:07:44,  1.92it/s] 27%|██▋       | 2927/10712 [51:17<1:06:40,  1.95it/s] 27%|██▋       | 2928/10712 [51:18<1:06:01,  1.97it/s] 27%|██▋       | 2929/10712 [51:18<1:05:36,  1.98it/s] 27%|██▋       | 2930/10712 [51:19<1:05:21,  1.98it/s] 27%|██▋       | 2931/10712 [51:19<1:05:12,  1.99it/s] 27%|██▋       | 2932/10712 [51:20<1:05:00,  1.99it/s] 27%|██▋       | 2933/10712 [51:20<1:04:50,  2.00it/s] 27%|██▋       | 2934/10712 [51:21<1:04:44,  2.00it/s] 27%|██▋       | 2935/10712 [51:21<1:04:42,  2.00it/s] 27%|██▋       | 2936/10712 [51:22<1:04:38,  2.01it/s] 27%|██▋       | 2937/10712 [51:22<1:04:37,  2.01it/s] 27%|██▋       | 2938/10712 [51:23<1:04:33,  2.01it/s] 27%|██▋       | 2939/10712 [51:23<1:04:29,  2.01it/s] 27%|██▋       | 2940/10712 [51:24<1:04:25,  2.01it/s] 27%|██▋       | 2941/10712 [51:24<1:04:21,  2.01it/s] 27%|██▋       | 2942/10712 [51:25<1:04:30,  2.01it/s] 27%|██▋       | 2943/10712 [51:25<1:04:30,  2.01it/s] 27%|██▋       | 2944/10712 [51:26<1:04:29,  2.01it/s] 27%|██▋       | 2945/10712 [51:26<1:04:33,  2.01it/s] 28%|██▊       | 2946/10712 [51:27<1:04:36,  2.00it/s] 28%|██▊       | 2947/10712 [51:27<1:04:32,  2.01it/s] 28%|██▊       | 2948/10712 [51:28<1:04:37,  2.00it/s] 28%|██▊       | 2949/10712 [51:28<1:04:25,  2.01it/s] 28%|██▊       | 2950/10712 [51:29<1:04:24,  2.01it/s]                                                      {'loss': 4.0125, 'grad_norm': 0.22883053123950958, 'learning_rate': 0.0009092434386367234, 'epoch': 0.28}
+ 28%|██▊       | 2950/10712 [51:29<1:04:24,  2.01it/s] 28%|██▊       | 2951/10712 [51:29<1:04:35,  2.00it/s] 28%|██▊       | 2952/10712 [51:30<1:04:27,  2.01it/s] 28%|██▊       | 2953/10712 [51:30<1:04:26,  2.01it/s] 28%|██▊       | 2954/10712 [51:31<1:04:22,  2.01it/s] 28%|██▊       | 2955/10712 [51:31<1:04:14,  2.01it/s] 28%|██▊       | 2956/10712 [51:32<1:04:15,  2.01it/s] 28%|██▊       | 2957/10712 [51:32<1:04:11,  2.01it/s] 28%|██▊       | 2958/10712 [51:33<1:04:10,  2.01it/s] 28%|██▊       | 2959/10712 [51:33<1:04:15,  2.01it/s] 28%|██▊       | 2960/10712 [51:34<1:04:14,  2.01it/s] 28%|██▊       | 2961/10712 [51:34<1:04:19,  2.01it/s] 28%|██▊       | 2962/10712 [51:35<1:04:28,  2.00it/s] 28%|██▊       | 2963/10712 [51:35<1:04:27,  2.00it/s] 28%|██▊       | 2964/10712 [51:36<1:04:23,  2.01it/s] 28%|██▊       | 2965/10712 [51:36<1:04:22,  2.01it/s] 28%|██▊       | 2966/10712 [51:37<1:04:19,  2.01it/s] 28%|██▊       | 2967/10712 [51:37<1:04:22,  2.01it/s] 28%|██▊       | 2968/10712 [51:38<1:04:19,  2.01it/s] 28%|██▊       | 2969/10712 [51:38<1:04:18,  2.01it/s] 28%|██▊       | 2970/10712 [51:39<1:04:13,  2.01it/s] 28%|██▊       | 2971/10712 [51:39<1:04:12,  2.01it/s] 28%|██▊       | 2972/10712 [51:40<1:04:08,  2.01it/s] 28%|██▊       | 2973/10712 [51:40<1:04:04,  2.01it/s] 28%|██▊       | 2974/10712 [51:41<1:04:12,  2.01it/s] 28%|██▊       | 2975/10712 [51:41<1:04:10,  2.01it/s]                                                      {'loss': 4.0127, 'grad_norm': 0.2082654982805252, 'learning_rate': 0.0009068894721397322, 'epoch': 0.28}
+ 28%|██▊       | 2975/10712 [51:41<1:04:10,  2.01it/s] 28%|██▊       | 2976/10712 [51:42<1:04:08,  2.01it/s] 28%|██▊       | 2977/10712 [51:42<1:04:10,  2.01it/s] 28%|██▊       | 2978/10712 [51:43<1:04:10,  2.01it/s] 28%|██▊       | 2979/10712 [51:43<1:04:08,  2.01it/s] 28%|██▊       | 2980/10712 [51:44<1:04:12,  2.01it/s] 28%|██▊       | 2981/10712 [51:44<1:04:13,  2.01it/s] 28%|██▊       | 2982/10712 [51:45<1:20:06,  1.61it/s] 28%|██▊       | 2983/10712 [51:46<1:15:19,  1.71it/s] 28%|██▊       | 2984/10712 [51:46<1:11:54,  1.79it/s] 28%|██▊       | 2985/10712 [51:47<1:09:35,  1.85it/s] 28%|██▊       | 2986/10712 [51:47<1:08:05,  1.89it/s] 28%|██▊       | 2987/10712 [51:48<1:06:53,  1.92it/s] 28%|██▊       | 2988/10712 [51:48<1:06:05,  1.95it/s] 28%|██▊       | 2989/10712 [51:49<1:05:31,  1.96it/s] 28%|██▊       | 2990/10712 [51:49<1:05:00,  1.98it/s] 28%|██▊       | 2991/10712 [51:49<1:04:44,  1.99it/s] 28%|██▊       | 2992/10712 [51:50<1:04:37,  1.99it/s] 28%|██▊       | 2993/10712 [51:50<1:04:37,  1.99it/s] 28%|██▊       | 2994/10712 [51:51<1:04:30,  1.99it/s] 28%|██▊       | 2995/10712 [51:51<1:04:22,  2.00it/s] 28%|██▊       | 2996/10712 [51:52<1:04:18,  2.00it/s] 28%|██▊       | 2997/10712 [51:52<1:04:15,  2.00it/s] 28%|██▊       | 2998/10712 [51:53<1:04:05,  2.01it/s] 28%|██▊       | 2999/10712 [51:53<1:04:10,  2.00it/s] 28%|██▊       | 3000/10712 [51:54<1:04:05,  2.01it/s]                                                      {'loss': 4.0129, 'grad_norm': 0.21015842258930206, 'learning_rate': 0.0009045084971874737, 'epoch': 0.28}
+ 28%|██▊       | 3000/10712 [51:54<1:04:05,  2.01it/s] 28%|██▊       | 3001/10712 [51:54<1:04:03,  2.01it/s] 28%|██▊       | 3002/10712 [51:55<1:03:59,  2.01it/s] 28%|██▊       | 3003/10712 [51:55<1:04:08,  2.00it/s] 28%|██▊       | 3004/10712 [51:56<1:04:55,  1.98it/s] 28%|██▊       | 3005/10712 [51:57<1:04:42,  1.99it/s] 28%|██▊       | 3006/10712 [51:57<1:04:31,  1.99it/s] 28%|██▊       | 3007/10712 [51:58<1:04:23,  1.99it/s] 28%|██▊       | 3008/10712 [51:58<1:04:16,  2.00it/s] 28%|██▊       | 3009/10712 [51:59<1:04:07,  2.00it/s] 28%|██▊       | 3010/10712 [51:59<1:04:02,  2.00it/s] 28%|██▊       | 3011/10712 [51:59<1:04:05,  2.00it/s] 28%|██▊       | 3012/10712 [52:01<1:34:08,  1.36it/s] 28%|██▊       | 3013/10712 [52:02<1:49:51,  1.17it/s] 28%|██▊       | 3014/10712 [52:02<1:36:01,  1.34it/s] 28%|██▊       | 3015/10712 [52:03<1:26:19,  1.49it/s] 28%|██▊       | 3016/10712 [52:03<1:19:35,  1.61it/s] 28%|██▊       | 3017/10712 [52:04<1:14:48,  1.71it/s] 28%|██▊       | 3018/10712 [52:04<1:11:28,  1.79it/s] 28%|██▊       | 3019/10712 [52:05<1:09:05,  1.86it/s] 28%|██▊       | 3020/10712 [52:05<1:07:29,  1.90it/s] 28%|██▊       | 3021/10712 [52:06<1:06:21,  1.93it/s] 28%|██▊       | 3022/10712 [52:06<1:05:28,  1.96it/s] 28%|██▊       | 3023/10712 [52:07<1:04:56,  1.97it/s] 28%|██▊       | 3024/10712 [52:07<1:04:30,  1.99it/s] 28%|██▊       | 3025/10712 [52:08<1:04:15,  1.99it/s]                                                      {'loss': 4.0051, 'grad_norm': 0.20694366097450256, 'learning_rate': 0.0009021006718239868, 'epoch': 0.28}
+ 28%|██▊       | 3025/10712 [52:08<1:04:15,  1.99it/s] 28%|██▊       | 3026/10712 [52:08<1:04:12,  1.99it/s] 28%|██▊       | 3027/10712 [52:09<1:03:58,  2.00it/s] 28%|██▊       | 3028/10712 [52:09<1:03:53,  2.00it/s] 28%|██▊       | 3029/10712 [52:10<1:03:59,  2.00it/s] 28%|██▊       | 3030/10712 [52:10<1:03:56,  2.00it/s] 28%|██▊       | 3031/10712 [52:11<1:03:53,  2.00it/s] 28%|██▊       | 3032/10712 [52:11<1:03:51,  2.00it/s] 28%|██▊       | 3033/10712 [52:12<1:03:50,  2.00it/s] 28%|██▊       | 3034/10712 [52:12<1:03:52,  2.00it/s] 28%|██▊       | 3035/10712 [52:13<1:03:54,  2.00it/s] 28%|██▊       | 3036/10712 [52:13<1:03:53,  2.00it/s] 28%|██▊       | 3037/10712 [52:14<1:03:46,  2.01it/s] 28%|██▊       | 3038/10712 [52:14<1:03:45,  2.01it/s] 28%|██▊       | 3039/10712 [52:15<1:03:46,  2.01it/s] 28%|██▊       | 3040/10712 [52:15<1:03:40,  2.01it/s] 28%|██▊       | 3041/10712 [52:16<1:03:38,  2.01it/s] 28%|██▊       | 3042/10712 [52:16<1:03:38,  2.01it/s] 28%|██▊       | 3043/10712 [52:17<1:03:35,  2.01it/s] 28%|██▊       | 3044/10712 [52:17<1:03:32,  2.01it/s] 28%|██▊       | 3045/10712 [52:18<1:03:40,  2.01it/s] 28%|██▊       | 3046/10712 [52:18<1:03:35,  2.01it/s] 28%|██▊       | 3047/10712 [52:19<1:03:32,  2.01it/s] 28%|██▊       | 3048/10712 [52:20<1:34:25,  1.35it/s] 28%|██▊       | 3049/10712 [52:21<1:25:13,  1.50it/s] 28%|██▊       | 3050/10712 [52:21<1:18:46,  1.62it/s]                                                      {'loss': 3.9962, 'grad_norm': 0.22039678692817688, 'learning_rate': 0.0008996661558755833, 'epoch': 0.28}
+ 28%|██▊       | 3050/10712 [52:21<1:18:46,  1.62it/s] 28%|██▊       | 3051/10712 [52:22<1:14:28,  1.71it/s] 28%|██▊       | 3052/10712 [52:22<1:11:18,  1.79it/s] 29%|██▊       | 3053/10712 [52:23<1:09:00,  1.85it/s] 29%|██▊       | 3054/10712 [52:23<1:07:24,  1.89it/s] 29%|██▊       | 3055/10712 [52:24<1:06:15,  1.93it/s] 29%|██▊       | 3056/10712 [52:24<1:05:26,  1.95it/s] 29%|██▊       | 3057/10712 [52:25<1:04:50,  1.97it/s] 29%|██▊       | 3058/10712 [52:25<1:04:31,  1.98it/s] 29%|██▊       | 3059/10712 [52:26<1:04:18,  1.98it/s] 29%|██▊       | 3060/10712 [52:26<1:04:07,  1.99it/s] 29%|██▊       | 3061/10712 [52:27<1:04:03,  1.99it/s] 29%|██▊       | 3062/10712 [52:27<1:03:55,  1.99it/s] 29%|██▊       | 3063/10712 [52:28<1:03:52,  2.00it/s] 29%|██▊       | 3064/10712 [52:28<1:03:50,  2.00it/s] 29%|██▊       | 3065/10712 [52:29<1:03:45,  2.00it/s] 29%|██▊       | 3066/10712 [52:29<1:03:51,  2.00it/s] 29%|██▊       | 3067/10712 [52:30<1:03:44,  2.00it/s] 29%|██▊       | 3068/10712 [52:30<1:03:44,  2.00it/s] 29%|██▊       | 3069/10712 [52:31<1:03:45,  2.00it/s] 29%|██▊       | 3070/10712 [52:31<1:03:44,  2.00it/s] 29%|██▊       | 3071/10712 [52:32<1:03:43,  2.00it/s] 29%|██▊       | 3072/10712 [52:32<1:03:37,  2.00it/s] 29%|██▊       | 3073/10712 [52:33<1:03:38,  2.00it/s] 29%|██▊       | 3074/10712 [52:33<1:03:38,  2.00it/s] 29%|██▊       | 3075/10712 [52:34<1:03:37,  2.00it/s]                                                      {'loss': 3.9934, 'grad_norm': 0.21867643296718597, 'learning_rate': 0.000897205110940239, 'epoch': 0.29}
+ 29%|██▊       | 3075/10712 [52:34<1:03:37,  2.00it/s] 29%|██▊       | 3076/10712 [52:34<1:04:26,  1.97it/s] 29%|██▊       | 3077/10712 [52:35<1:04:19,  1.98it/s] 29%|██▊       | 3078/10712 [52:35<1:04:00,  1.99it/s] 29%|██▊       | 3079/10712 [52:36<1:03:52,  1.99it/s] 29%|██▉       | 3080/10712 [52:36<1:03:50,  1.99it/s] 29%|██▉       | 3081/10712 [52:37<1:03:42,  2.00it/s] 29%|██▉       | 3082/10712 [52:37<1:03:35,  2.00it/s] 29%|██▉       | 3083/10712 [52:38<1:03:35,  2.00it/s] 29%|██▉       | 3084/10712 [52:38<1:03:28,  2.00it/s] 29%|██▉       | 3085/10712 [52:39<1:03:22,  2.01it/s] 29%|██▉       | 3086/10712 [52:39<1:03:21,  2.01it/s] 29%|██▉       | 3087/10712 [52:40<1:03:18,  2.01it/s] 29%|██▉       | 3088/10712 [52:40<1:03:17,  2.01it/s] 29%|██▉       | 3089/10712 [52:41<1:03:13,  2.01it/s] 29%|██▉       | 3090/10712 [52:41<1:03:11,  2.01it/s] 29%|██▉       | 3091/10712 [52:42<1:03:09,  2.01it/s] 29%|██▉       | 3092/10712 [52:42<1:03:10,  2.01it/s] 29%|██▉       | 3093/10712 [52:43<1:03:09,  2.01it/s] 29%|██▉       | 3094/10712 [52:43<1:04:36,  1.97it/s] 29%|██▉       | 3095/10712 [52:44<1:04:14,  1.98it/s] 29%|██▉       | 3096/10712 [52:44<1:04:07,  1.98it/s] 29%|██▉       | 3097/10712 [52:45<1:03:50,  1.99it/s] 29%|██▉       | 3098/10712 [52:45<1:03:42,  1.99it/s] 29%|██▉       | 3099/10712 [52:46<1:03:34,  2.00it/s] 29%|██▉       | 3100/10712 [52:46<1:03:31,  2.00it/s]                                                      {'loss': 3.9913, 'grad_norm': 0.20916356146335602, 'learning_rate': 0.0008947177003768671, 'epoch': 0.29}
+ 29%|██▉       | 3100/10712 [52:46<1:03:31,  2.00it/s] 29%|██▉       | 3101/10712 [52:47<1:03:25,  2.00it/s] 29%|██▉       | 3102/10712 [52:47<1:03:24,  2.00it/s] 29%|██▉       | 3103/10712 [52:48<1:03:20,  2.00it/s] 29%|██▉       | 3104/10712 [52:48<1:03:15,  2.00it/s] 29%|██▉       | 3105/10712 [52:49<1:03:12,  2.01it/s] 29%|██▉       | 3106/10712 [52:49<1:03:12,  2.01it/s] 29%|██▉       | 3107/10712 [52:50<1:03:08,  2.01it/s] 29%|██▉       | 3108/10712 [52:50<1:03:08,  2.01it/s] 29%|██▉       | 3109/10712 [52:51<1:03:05,  2.01it/s] 29%|██▉       | 3110/10712 [52:51<1:03:00,  2.01it/s] 29%|██▉       | 3111/10712 [52:52<1:03:01,  2.01it/s] 29%|██▉       | 3112/10712 [52:52<1:02:59,  2.01it/s] 29%|██▉       | 3113/10712 [52:53<1:02:55,  2.01it/s] 29%|██▉       | 3114/10712 [52:53<1:03:02,  2.01it/s] 29%|██▉       | 3115/10712 [52:54<1:03:09,  2.01it/s] 29%|██▉       | 3116/10712 [52:54<1:03:13,  2.00it/s] 29%|██▉       | 3117/10712 [52:55<1:03:06,  2.01it/s] 29%|██▉       | 3118/10712 [52:55<1:03:08,  2.00it/s] 29%|██▉       | 3119/10712 [52:56<1:03:08,  2.00it/s] 29%|██▉       | 3120/10712 [52:56<1:03:03,  2.01it/s] 29%|██���       | 3121/10712 [52:57<1:03:09,  2.00it/s] 29%|██▉       | 3122/10712 [52:57<1:03:08,  2.00it/s] 29%|██▉       | 3123/10712 [52:58<1:02:59,  2.01it/s] 29%|██▉       | 3124/10712 [52:58<1:02:54,  2.01it/s] 29%|██▉       | 3125/10712 [52:59<1:02:55,  2.01it/s]                                                      {'loss': 3.9949, 'grad_norm': 0.22793959081172943, 'learning_rate': 0.0008922040892944755, 'epoch': 0.29}
+ 29%|██▉       | 3125/10712 [52:59<1:02:55,  2.01it/s] 29%|██▉       | 3126/10712 [52:59<1:02:55,  2.01it/s] 29%|██▉       | 3127/10712 [53:00<1:02:52,  2.01it/s] 29%|██▉       | 3128/10712 [53:00<1:02:59,  2.01it/s] 29%|██▉       | 3129/10712 [53:01<1:02:53,  2.01it/s] 29%|██▉       | 3130/10712 [53:01<1:02:51,  2.01it/s] 29%|██▉       | 3131/10712 [53:02<1:02:47,  2.01it/s] 29%|██▉       | 3132/10712 [53:02<1:02:45,  2.01it/s] 29%|██▉       | 3133/10712 [53:03<1:02:49,  2.01it/s] 29%|██▉       | 3134/10712 [53:03<1:02:42,  2.01it/s] 29%|██▉       | 3135/10712 [53:04<1:16:31,  1.65it/s] 29%|██▉       | 3136/10712 [53:04<1:12:21,  1.75it/s] 29%|██▉       | 3137/10712 [53:05<1:09:27,  1.82it/s] 29%|██▉       | 3138/10712 [53:05<1:07:27,  1.87it/s] 29%|██▉       | 3139/10712 [53:06<1:05:55,  1.91it/s] 29%|██▉       | 3140/10712 [53:06<1:04:57,  1.94it/s] 29%|██▉       | 3141/10712 [53:07<1:04:11,  1.97it/s] 29%|██▉       | 3142/10712 [53:07<1:03:43,  1.98it/s] 29%|██▉       | 3143/10712 [53:08<1:03:20,  1.99it/s] 29%|██▉       | 3144/10712 [53:08<1:03:04,  2.00it/s] 29%|██▉       | 3145/10712 [53:09<1:02:50,  2.01it/s] 29%|██▉       | 3146/10712 [53:09<1:02:43,  2.01it/s] 29%|██▉       | 3147/10712 [53:10<1:02:41,  2.01it/s] 29%|██▉       | 3148/10712 [53:10<1:02:35,  2.01it/s] 29%|██▉       | 3149/10712 [53:11<1:02:35,  2.01it/s] 29%|██▉       | 3150/10712 [53:11<1:02:28,  2.02it/s]                                                      {'loss': 3.9855, 'grad_norm': 0.20497047901153564, 'learning_rate': 0.0008896644445412061, 'epoch': 0.29}
+ 29%|██▉       | 3150/10712 [53:11<1:02:28,  2.02it/s] 29%|██▉       | 3151/10712 [53:12<1:02:32,  2.02it/s] 29%|██▉       | 3152/10712 [53:12<1:02:31,  2.02it/s] 29%|██▉       | 3153/10712 [53:13<1:02:32,  2.01it/s] 29%|██▉       | 3154/10712 [53:13<1:02:36,  2.01it/s] 29%|██▉       | 3155/10712 [53:14<1:22:46,  1.52it/s] 29%|██▉       | 3156/10712 [53:15<1:16:39,  1.64it/s] 29%|██▉       | 3157/10712 [53:15<1:12:23,  1.74it/s] 29%|██▉       | 3158/10712 [53:16<1:09:23,  1.81it/s] 29%|██▉       | 3159/10712 [53:16<1:07:21,  1.87it/s] 29%|██▉       | 3160/10712 [53:17<1:05:50,  1.91it/s] 30%|██▉       | 3161/10712 [53:17<1:04:47,  1.94it/s] 30%|██▉       | 3162/10712 [53:18<1:04:06,  1.96it/s] 30%|██▉       | 3163/10712 [53:18<1:03:40,  1.98it/s] 30%|██▉       | 3164/10712 [53:19<1:03:30,  1.98it/s] 30%|██▉       | 3165/10712 [53:19<1:03:14,  1.99it/s] 30%|██▉       | 3166/10712 [53:20<1:03:13,  1.99it/s] 30%|██▉       | 3167/10712 [53:20<1:03:11,  1.99it/s] 30%|██▉       | 3168/10712 [53:21<1:03:01,  1.99it/s] 30%|██▉       | 3169/10712 [53:21<1:03:58,  1.97it/s] 30%|██▉       | 3170/10712 [53:22<1:03:42,  1.97it/s] 30%|██▉       | 3171/10712 [53:22<1:03:20,  1.98it/s] 30%|██▉       | 3172/10712 [53:23<1:03:06,  1.99it/s] 30%|██▉       | 3173/10712 [53:24<1:25:12,  1.47it/s] 30%|██▉       | 3174/10712 [53:25<1:18:25,  1.60it/s] 30%|██▉       | 3175/10712 [53:25<1:13:37,  1.71it/s]                                                      {'loss': 3.9871, 'grad_norm': 0.22478143870830536, 'learning_rate': 0.0008870989346932607, 'epoch': 0.3}
+ 30%|██▉       | 3175/10712 [53:25<1:13:37,  1.71it/s] 30%|██▉       | 3176/10712 [53:25<1:10:26,  1.78it/s] 30%|██▉       | 3177/10712 [53:26<1:08:06,  1.84it/s] 30%|██▉       | 3178/10712 [53:26<1:06:21,  1.89it/s] 30%|██▉       | 3179/10712 [53:27<1:05:07,  1.93it/s] 30%|██▉       | 3180/10712 [53:27<1:04:19,  1.95it/s] 30%|██▉       | 3181/10712 [53:28<1:03:42,  1.97it/s] 30%|██▉       | 3182/10712 [53:28<1:03:23,  1.98it/s] 30%|██▉       | 3183/10712 [53:29<1:03:01,  1.99it/s] 30%|██▉       | 3184/10712 [53:29<1:02:47,  2.00it/s] 30%|██▉       | 3185/10712 [53:30<1:02:38,  2.00it/s] 30%|██▉       | 3186/10712 [53:30<1:02:30,  2.01it/s] 30%|██▉       | 3187/10712 [53:31<1:12:36,  1.73it/s] 30%|██▉       | 3188/10712 [53:32<1:09:30,  1.80it/s] 30%|██▉       | 3189/10712 [53:32<1:07:32,  1.86it/s] 30%|██▉       | 3190/10712 [53:33<1:06:02,  1.90it/s] 30%|██▉       | 3191/10712 [53:33<1:05:01,  1.93it/s] 30%|██▉       | 3192/10712 [53:34<1:04:17,  1.95it/s] 30%|██▉       | 3193/10712 [53:34<1:03:51,  1.96it/s] 30%|██▉       | 3194/10712 [53:35<1:03:24,  1.98it/s] 30%|██▉       | 3195/10712 [53:35<1:03:11,  1.98it/s] 30%|██▉       | 3196/10712 [53:36<1:02:57,  1.99it/s] 30%|██▉       | 3197/10712 [53:37<1:14:22,  1.68it/s] 30%|██▉       | 3198/10712 [53:37<1:10:50,  1.77it/s] 30%|██▉       | 3199/10712 [53:38<1:08:37,  1.82it/s] 30%|██▉       | 3200/10712 [53:38<1:06:47,  1.87it/s]                                                      {'loss': 3.9887, 'grad_norm': 0.22492775321006775, 'learning_rate': 0.0008845077300437107, 'epoch': 0.3}
+ 30%|██▉       | 3200/10712 [53:38<1:06:47,  1.87it/s] 30%|██▉       | 3201/10712 [53:39<1:05:28,  1.91it/s] 30%|██▉       | 3202/10712 [53:39<1:04:37,  1.94it/s] 30%|██▉       | 3203/10712 [53:40<1:03:57,  1.96it/s] 30%|██▉       | 3204/10712 [53:40<1:03:24,  1.97it/s] 30%|██▉       | 3205/10712 [53:41<1:03:06,  1.98it/s] 30%|██▉       | 3206/10712 [53:41<1:03:01,  1.98it/s] 30%|██▉       | 3207/10712 [53:42<1:02:46,  1.99it/s] 30%|██▉       | 3208/10712 [53:42<1:03:12,  1.98it/s] 30%|██▉       | 3209/10712 [53:43<1:03:03,  1.98it/s] 30%|██▉       | 3210/10712 [53:43<1:14:55,  1.67it/s] 30%|██▉       | 3211/10712 [53:44<1:11:09,  1.76it/s] 30%|██▉       | 3212/10712 [53:44<1:08:29,  1.83it/s] 30%|██▉       | 3213/10712 [53:45<1:06:37,  1.88it/s] 30%|███       | 3214/10712 [53:45<1:05:18,  1.91it/s] 30%|███       | 3215/10712 [53:46<1:04:18,  1.94it/s] 30%|███       | 3216/10712 [53:46<1:03:44,  1.96it/s] 30%|███       | 3217/10712 [53:47<1:03:14,  1.98it/s] 30%|███       | 3218/10712 [53:47<1:02:56,  1.98it/s] 30%|███       | 3219/10712 [53:48<1:02:40,  1.99it/s] 30%|███       | 3220/10712 [53:48<1:02:31,  2.00it/s] 30%|███       | 3221/10712 [53:49<1:02:22,  2.00it/s] 30%|███       | 3222/10712 [53:49<1:02:14,  2.01it/s] 30%|███       | 3223/10712 [53:50<1:02:05,  2.01it/s] 30%|███       | 3224/10712 [53:50<1:02:12,  2.01it/s] 30%|███       | 3225/10712 [53:51<1:02:16,  2.00it/s]                                                      {'loss': 3.9845, 'grad_norm': 0.20808009803295135, 'learning_rate': 0.0008818910025911937, 'epoch': 0.3}
+ 30%|███       | 3225/10712 [53:51<1:02:16,  2.00it/s] 30%|███       | 3226/10712 [53:51<1:02:20,  2.00it/s] 30%|███       | 3227/10712 [53:52<1:02:12,  2.01it/s] 30%|███       | 3228/10712 [53:52<1:02:09,  2.01it/s] 30%|███       | 3229/10712 [53:53<1:02:06,  2.01it/s] 30%|███       | 3230/10712 [53:53<1:02:05,  2.01it/s] 30%|███       | 3231/10712 [53:54<1:02:05,  2.01it/s] 30%|███       | 3232/10712 [53:54<1:02:10,  2.01it/s] 30%|███       | 3233/10712 [53:55<1:02:10,  2.00it/s] 30%|███       | 3234/10712 [53:55<1:02:10,  2.00it/s] 30%|███       | 3235/10712 [53:56<1:02:09,  2.00it/s] 30%|███       | 3236/10712 [53:56<1:02:04,  2.01it/s] 30%|███       | 3237/10712 [53:57<1:02:03,  2.01it/s] 30%|███       | 3238/10712 [53:57<1:01:58,  2.01it/s] 30%|███       | 3239/10712 [53:58<1:01:59,  2.01it/s] 30%|███       | 3240/10712 [53:58<1:02:04,  2.01it/s] 30%|███       | 3241/10712 [53:59<1:01:59,  2.01it/s] 30%|███       | 3242/10712 [53:59<1:01:57,  2.01it/s] 30%|███       | 3243/10712 [54:00<1:01:54,  2.01it/s] 30%|███       | 3244/10712 [54:00<1:02:22,  2.00it/s] 30%|███       | 3245/10712 [54:01<1:02:19,  2.00it/s] 30%|███       | 3246/10712 [54:01<1:02:15,  2.00it/s] 30%|███       | 3247/10712 [54:02<1:02:13,  2.00it/s] 30%|███       | 3248/10712 [54:03<1:20:41,  1.54it/s] 30%|███       | 3249/10712 [54:03<1:15:00,  1.66it/s] 30%|███       | 3250/10712 [54:04<1:11:06,  1.75it/s]                                                      {'loss': 3.9818, 'grad_norm': 0.2027365118265152, 'learning_rate': 0.0008792489260284965, 'epoch': 0.3}
+ 30%|███       | 3250/10712 [54:04<1:11:06,  1.75it/s] 30%|███       | 3251/10712 [54:04<1:08:25,  1.82it/s] 30%|███       | 3252/10712 [54:05<1:06:29,  1.87it/s] 30%|███       | 3253/10712 [54:05<1:05:15,  1.90it/s] 30%|███       | 3254/10712 [54:06<1:04:21,  1.93it/s] 30%|███       | 3255/10712 [54:06<1:03:40,  1.95it/s] 30%|███       | 3256/10712 [54:07<1:18:47,  1.58it/s] 30%|███       | 3257/10712 [54:08<1:13:48,  1.68it/s] 30%|███       | 3258/10712 [54:08<1:10:16,  1.77it/s] 30%|███       | 3259/10712 [54:09<1:07:39,  1.84it/s] 30%|███       | 3260/10712 [54:09<1:05:56,  1.88it/s] 30%|███       | 3261/10712 [54:10<1:04:37,  1.92it/s] 30%|███       | 3262/10712 [54:11<1:20:17,  1.55it/s] 30%|███       | 3263/10712 [54:11<1:14:40,  1.66it/s] 30%|███       | 3264/10712 [54:12<1:10:41,  1.76it/s] 30%|███       | 3265/10712 [54:12<1:08:06,  1.82it/s] 30%|███       | 3266/10712 [54:13<1:06:06,  1.88it/s] 30%|��██       | 3267/10712 [54:13<1:04:51,  1.91it/s] 31%|███       | 3268/10712 [54:14<1:03:59,  1.94it/s] 31%|███       | 3269/10712 [54:14<1:03:23,  1.96it/s] 31%|███       | 3270/10712 [54:15<1:02:53,  1.97it/s] 31%|███       | 3271/10712 [54:15<1:02:41,  1.98it/s] 31%|███       | 3272/10712 [54:16<1:02:27,  1.99it/s] 31%|███       | 3273/10712 [54:16<1:02:18,  1.99it/s] 31%|███       | 3274/10712 [54:17<1:02:04,  2.00it/s] 31%|███       | 3275/10712 [54:17<1:02:03,  2.00it/s]                                                      {'loss': 3.9725, 'grad_norm': 0.20646992325782776, 'learning_rate': 0.0008765816757310259, 'epoch': 0.31}
+ 31%|███       | 3275/10712 [54:17<1:02:03,  2.00it/s] 31%|███       | 3276/10712 [54:18<1:01:59,  2.00it/s] 31%|███       | 3277/10712 [54:18<1:02:00,  2.00it/s] 31%|███       | 3278/10712 [54:19<1:01:49,  2.00it/s] 31%|███       | 3279/10712 [54:19<1:03:24,  1.95it/s] 31%|███       | 3280/10712 [54:20<1:02:53,  1.97it/s] 31%|███       | 3281/10712 [54:20<1:02:34,  1.98it/s] 31%|███       | 3282/10712 [54:21<1:21:45,  1.51it/s] 31%|███       | 3283/10712 [54:22<1:15:44,  1.63it/s] 31%|███       | 3284/10712 [54:22<1:11:25,  1.73it/s] 31%|███       | 3285/10712 [54:23<1:08:33,  1.81it/s] 31%|███       | 3286/10712 [54:23<1:06:25,  1.86it/s] 31%|███       | 3287/10712 [54:24<1:04:52,  1.91it/s] 31%|███       | 3288/10712 [54:24<1:03:53,  1.94it/s] 31%|███       | 3289/10712 [54:25<1:03:10,  1.96it/s] 31%|███       | 3290/10712 [54:25<1:02:39,  1.97it/s] 31%|███       | 3291/10712 [54:26<1:02:22,  1.98it/s] 31%|███       | 3292/10712 [54:26<1:02:01,  1.99it/s] 31%|███       | 3293/10712 [54:27<1:01:52,  2.00it/s] 31%|███       | 3294/10712 [54:27<1:01:44,  2.00it/s] 31%|███       | 3295/10712 [54:28<1:13:32,  1.68it/s] 31%|███       | 3296/10712 [54:28<1:09:56,  1.77it/s] 31%|███       | 3297/10712 [54:29<1:07:22,  1.83it/s] 31%|███       | 3298/10712 [54:30<1:25:07,  1.45it/s] 31%|███       | 3299/10712 [54:31<1:18:07,  1.58it/s] 31%|███       | 3300/10712 [54:31<1:13:06,  1.69it/s]                                                      {'loss': 3.9797, 'grad_norm': 0.23129908740520477, 'learning_rate': 0.0008738894287451674, 'epoch': 0.31}
+ 31%|███       | 3300/10712 [54:31<1:13:06,  1.69it/s] 31%|███       | 3301/10712 [54:32<1:09:41,  1.77it/s] 31%|███       | 3302/10712 [54:32<1:07:09,  1.84it/s] 31%|███       | 3303/10712 [54:32<1:05:25,  1.89it/s] 31%|███       | 3304/10712 [54:33<1:04:20,  1.92it/s] 31%|███       | 3305/10712 [54:34<1:23:00,  1.49it/s] 31%|███       | 3306/10712 [54:35<1:16:33,  1.61it/s] 31%|███       | 3307/10712 [54:35<1:12:04,  1.71it/s] 31%|███       | 3308/10712 [54:36<1:08:59,  1.79it/s] 31%|███       | 3309/10712 [54:36<1:06:53,  1.84it/s] 31%|███       | 3310/10712 [54:37<1:05:16,  1.89it/s] 31%|███       | 3311/10712 [54:37<1:04:18,  1.92it/s] 31%|███       | 3312/10712 [54:38<1:03:28,  1.94it/s] 31%|███       | 3313/10712 [54:38<1:02:53,  1.96it/s] 31%|███       | 3314/10712 [54:39<1:02:28,  1.97it/s] 31%|███       | 3315/10712 [54:39<1:02:15,  1.98it/s] 31%|███       | 3316/10712 [54:40<1:01:58,  1.99it/s] 31%|███       | 3317/10712 [54:40<1:01:52,  1.99it/s] 31%|███       | 3318/10712 [54:41<1:01:48,  1.99it/s] 31%|███       | 3319/10712 [54:41<1:01:40,  2.00it/s] 31%|███       | 3320/10712 [54:42<1:01:30,  2.00it/s] 31%|███       | 3321/10712 [54:42<1:01:30,  2.00it/s] 31%|███       | 3322/10712 [54:43<1:01:27,  2.00it/s] 31%|███       | 3323/10712 [54:43<1:01:27,  2.00it/s] 31%|███       | 3324/10712 [54:44<1:01:22,  2.01it/s] 31%|███       | 3325/10712 [54:44<1:01:17,  2.01it/s]                                                      {'loss': 3.9708, 'grad_norm': 0.20462816953659058, 'learning_rate': 0.0008711723637765334, 'epoch': 0.31}
+ 31%|███       | 3325/10712 [54:44<1:01:17,  2.01it/s] 31%|███       | 3326/10712 [54:45<1:01:25,  2.00it/s] 31%|███       | 3327/10712 [54:45<1:01:17,  2.01it/s] 31%|███       | 3328/10712 [54:46<1:01:17,  2.01it/s] 31%|███       | 3329/10712 [54:46<1:01:13,  2.01it/s] 31%|███       | 3330/10712 [54:46<1:01:13,  2.01it/s] 31%|███       | 3331/10712 [54:47<1:01:23,  2.00it/s] 31%|███       | 3332/10712 [54:47<1:01:30,  2.00it/s] 31%|███       | 3333/10712 [54:48<1:01:22,  2.00it/s] 31%|███       | 3334/10712 [54:48<1:01:25,  2.00it/s] 31%|███       | 3335/10712 [54:49<1:01:23,  2.00it/s] 31%|███       | 3336/10712 [54:49<1:01:26,  2.00it/s] 31%|███       | 3337/10712 [54:50<1:01:21,  2.00it/s] 31%|███       | 3338/10712 [54:50<1:01:17,  2.01it/s] 31%|███       | 3339/10712 [54:51<1:01:15,  2.01it/s] 31%|███       | 3340/10712 [54:51<1:01:11,  2.01it/s] 31%|███       | 3341/10712 [54:52<1:01:17,  2.00it/s] 31%|███       | 3342/10712 [54:52<1:01:21,  2.00it/s] 31%|███       | 3343/10712 [54:53<1:01:23,  2.00it/s] 31%|███       | 3344/10712 [54:53<1:01:20,  2.00it/s] 31%|███       | 3345/10712 [54:54<1:01:27,  2.00it/s] 31%|███       | 3346/10712 [54:54<1:01:26,  2.00it/s] 31%|███       | 3347/10712 [54:55<1:01:25,  2.00it/s] 31%|███▏      | 3348/10712 [54:55<1:01:25,  2.00it/s] 31%|███▏      | 3349/10712 [54:56<1:01:23,  2.00it/s] 31%|███▏      | 3350/10712 [54:56<1:01:28,  2.00it/s]                                                      {'loss': 3.973, 'grad_norm': 0.21348722279071808, 'learning_rate': 0.0008684306611781009, 'epoch': 0.31}
+ 31%|███▏      | 3350/10712 [54:56<1:01:28,  2.00it/s] 31%|███▏      | 3351/10712 [54:57<1:01:28,  2.00it/s] 31%|███▏      | 3352/10712 [54:57<1:01:30,  1.99it/s] 31%|███▏      | 3353/10712 [54:58<1:03:22,  1.94it/s] 31%|███▏      | 3354/10712 [54:59<1:02:41,  1.96it/s] 31%|███▏      | 3355/10712 [54:59<1:02:16,  1.97it/s] 31%|███▏      | 3356/10712 [55:00<1:01:55,  1.98it/s] 31%|███▏      | 3357/10712 [55:00<1:01:43,  1.99it/s] 31%|███▏      | 3358/10712 [55:01<1:01:39,  1.99it/s] 31%|███▏      | 3359/10712 [55:01<1:01:37,  1.99it/s] 31%|███▏      | 3360/10712 [55:02<1:01:31,  1.99it/s] 31%|███▏      | 3361/10712 [55:02<1:01:23,  2.00it/s] 31%|███▏      | 3362/10712 [55:03<1:01:18,  2.00it/s] 31%|███▏      | 3363/10712 [55:03<1:01:20,  2.00it/s] 31%|███▏      | 3364/10712 [55:04<1:01:14,  2.00it/s] 31%|███▏      | 3365/10712 [55:04<1:01:49,  1.98it/s] 31%|███▏      | 3366/10712 [55:05<1:01:40,  1.99it/s] 31%|███▏      | 3367/10712 [55:05<1:01:32,  1.99it/s] 31%|███▏      | 3368/10712 [55:06<1:01:26,  1.99it/s] 31%|███▏      | 3369/10712 [55:06<1:01:19,  2.00it/s] 31%|███▏      | 3370/10712 [55:07<1:01:16,  2.00it/s] 31%|███▏      | 3371/10712 [55:07<1:01:06,  2.00it/s] 31%|███▏      | 3372/10712 [55:08<1:01:09,  2.00it/s] 31%|███▏      | 3373/10712 [55:08<1:01:07,  2.00it/s] 31%|███▏      | 3374/10712 [55:09<1:01:08,  2.00it/s] 32%|███▏      | 3375/10712 [55:09<1:01:08,  2.00it/s]                                                      {'loss': 3.974, 'grad_norm': 0.21654319763183594, 'learning_rate': 0.0008656645029382404, 'epoch': 0.32}
+ 32%|███▏      | 3375/10712 [55:09<1:01:08,  2.00it/s] 32%|███▏      | 3376/10712 [55:10<1:01:15,  2.00it/s] 32%|███▏      | 3377/10712 [55:10<1:01:08,  2.00it/s] 32%|███▏      | 3378/10712 [55:11<1:01:06,  2.00it/s] 32%|███▏      | 3379/10712 [55:11<1:01:01,  2.00it/s] 32%|███▏      | 3380/10712 [55:12<1:01:00,  2.00it/s] 32%|███▏      | 3381/10712 [55:12<1:01:03,  2.00it/s] 32%|███▏      | 3382/10712 [55:13<1:01:04,  2.00it/s] 32%|███▏      | 3383/10712 [55:13<1:00:59,  2.00it/s] 32%|███▏      | 3384/10712 [55:14<1:00:58,  2.00it/s] 32%|███▏      | 3385/10712 [55:14<1:01:03,  2.00it/s] 32%|███▏      | 3386/10712 [55:15<1:01:09,  2.00it/s] 32%|███▏      | 3387/10712 [55:15<1:01:07,  2.00it/s] 32%|███▏      | 3388/10712 [55:16<1:01:08,  2.00it/s] 32%|███▏      | 3389/10712 [55:16<1:01:04,  2.00it/s] 32%|███▏      | 3390/10712 [55:17<1:01:02,  2.00it/s] 32%|███▏      | 3391/10712 [55:17<1:00:59,  2.00it/s] 32%|███▏      | 3392/10712 [55:18<1:01:02,  2.00it/s] 32%|███▏      | 3393/10712 [55:18<1:00:58,  2.00it/s] 32%|███▏      | 3394/10712 [55:19<1:00:56,  2.00it/s] 32%|███▏      | 3395/10712 [55:19<1:00:57,  2.00it/s] 32%|███▏      | 3396/10712 [55:20<1:01:00,  2.00it/s] 32%|███▏      | 3397/10712 [55:20<1:01:01,  2.00it/s] 32%|███▏      | 3398/10712 [55:21<1:01:02,  2.00it/s] 32%|███▏      | 3399/10712 [55:21<1:00:56,  2.00it/s] 32%|███▏      | 3400/10712 [55:22<1:00:58,  2.00it/s]                                                      {'loss': 3.969, 'grad_norm': 0.24296072125434875, 'learning_rate': 0.0008628740726686357, 'epoch': 0.32}
+ 32%|███▏      | 3400/10712 [55:22<1:00:58,  2.00it/s] 32%|███▏      | 3401/10712 [55:22<1:00:56,  2.00it/s] 32%|███▏      | 3402/10712 [55:23<1:00:51,  2.00it/s] 32%|███▏      | 3403/10712 [55:23<1:00:54,  2.00it/s] 32%|███▏      | 3404/10712 [55:24<1:00:51,  2.00it/s] 32%|███▏      | 3405/10712 [55:24<1:00:56,  2.00it/s] 32%|███▏      | 3406/10712 [55:25<1:01:31,  1.98it/s] 32%|███▏      | 3407/10712 [55:25<1:02:30,  1.95it/s] 32%|███▏      | 3408/10712 [55:26<1:02:05,  1.96it/s] 32%|███▏      | 3409/10712 [55:26<1:01:37,  1.98it/s] 32%|███▏      | 3410/10712 [55:27<1:01:29,  1.98it/s] 32%|███▏      | 3411/10712 [55:27<1:01:21,  1.98it/s] 32%|███▏      | 3412/10712 [55:28<1:01:19,  1.98it/s] 32%|███▏      | 3413/10712 [55:28<1:01:08,  1.99it/s] 32%|███▏      | 3414/10712 [55:29<1:01:03,  1.99it/s] 32%|███▏      | 3415/10712 [55:29<1:00:58,  1.99it/s] 32%|███▏      | 3416/10712 [55:30<1:00:51,  2.00it/s] 32%|███▏      | 3417/10712 [55:30<1:00:44,  2.00it/s] 32%|███▏      | 3418/10712 [55:31<1:00:44,  2.00it/s] 32%|███▏      | 3419/10712 [55:31<1:00:42,  2.00it/s] 32%|███▏      | 3420/10712 [55:32<1:00:45,  2.00it/s] 32%|███▏      | 3421/10712 [55:32<1:00:45,  2.00it/s] 32%|███▏      | 3422/10712 [55:33<1:00:44,  2.00it/s] 32%|███▏      | 3423/10712 [55:33<1:00:37,  2.00it/s] 32%|███▏      | 3424/10712 [55:34<1:00:39,  2.00it/s] 32%|███▏      | 3425/10712 [55:34<1:00:38,  2.00it/s]                                                      {'loss': 3.9651, 'grad_norm': 0.2045918107032776, 'learning_rate': 0.000860059555592096, 'epoch': 0.32}
+ 32%|███▏      | 3425/10712 [55:34<1:00:38,  2.00it/s] 32%|███▏      | 3426/10712 [55:35<1:00:36,  2.00it/s] 32%|███▏      | 3427/10712 [55:35<1:00:35,  2.00it/s] 32%|███▏      | 3428/10712 [55:36<1:00:33,  2.00it/s] 32%|███▏      | 3429/10712 [55:36<1:01:12,  1.98it/s] 32%|███▏      | 3430/10712 [55:37<1:03:01,  1.93it/s] 32%|███▏      | 3431/10712 [55:37<1:02:17,  1.95it/s] 32%|███▏      | 3432/10712 [55:38<1:11:40,  1.69it/s] 32%|███▏      | 3433/10712 [55:38<1:08:20,  1.78it/s] 32%|███▏      | 3434/10712 [55:39<1:05:58,  1.84it/s] 32%|███▏      | 3435/10712 [55:39<1:04:16,  1.89it/s] 32%|███▏      | 3436/10712 [55:40<1:03:00,  1.92it/s] 32%|███▏      | 3437/10712 [55:40<1:02:11,  1.95it/s] 32%|███▏      | 3438/10712 [55:41<1:01:34,  1.97it/s] 32%|███▏      | 3439/10712 [55:41<1:01:09,  1.98it/s] 32%|███▏      | 3440/10712 [55:42<1:00:55,  1.99it/s] 32%|███▏      | 3441/10712 [55:42<1:00:39,  2.00it/s] 32%|███▏      | 3442/10712 [55:43<1:00:30,  2.00it/s] 32%|███▏      | 3443/10712 [55:43<1:00:24,  2.01it/s] 32%|███▏      | 3444/10712 [55:44<1:00:17,  2.01it/s] 32%|███▏      | 3445/10712 [55:44<1:00:13,  2.01it/s] 32%|███▏      | 3446/10712 [55:45<1:00:08,  2.01it/s] 32%|███▏      | 3447/10712 [55:45<1:00:10,  2.01it/s] 32%|███▏      | 3448/10712 [55:46<1:00:06,  2.01it/s] 32%|███▏      | 3449/10712 [55:46<1:00:06,  2.01it/s] 32%|███▏      | 3450/10712 [55:47<1:00:07,  2.01it/s]                                                      {'loss': 3.9612, 'grad_norm': 0.2068096250295639, 'learning_rate': 0.0008572211385302617, 'epoch': 0.32}
+ 32%|███▏      | 3450/10712 [55:47<1:00:07,  2.01it/s] 32%|███▏      | 3451/10712 [55:47<1:00:10,  2.01it/s] 32%|███▏      | 3452/10712 [55:48<1:00:11,  2.01it/s] 32%|███▏      | 3453/10712 [55:48<1:00:09,  2.01it/s] 32%|███▏      | 3454/10712 [55:49<1:00:03,  2.01it/s] 32%|███▏      | 3455/10712 [55:49<1:00:06,  2.01it/s] 32%|███▏      | 3456/10712 [55:50<1:00:22,  2.00it/s] 32%|███▏      | 3457/10712 [55:50<1:00:16,  2.01it/s] 32%|███▏      | 3458/10712 [55:51<1:00:37,  1.99it/s] 32%|███▏      | 3459/10712 [55:51<1:00:52,  1.99it/s] 32%|███▏      | 3460/10712 [55:52<1:00:42,  1.99it/s] 32%|███▏      | 3461/10712 [55:52<1:00:31,  2.00it/s] 32%|███▏      | 3462/10712 [55:53<1:00:28,  2.00it/s] 32%|███▏      | 3463/10712 [55:53<1:00:28,  2.00it/s] 32%|███▏      | 3464/10712 [55:54<1:00:23,  2.00it/s] 32%|███▏      | 3465/10712 [55:54<1:00:19,  2.00it/s] 32%|███▏      | 3466/10712 [55:55<1:00:18,  2.00it/s] 32%|███▏      | 3467/10712 [55:55<1:00:12,  2.01it/s] 32%|███▏      | 3468/10712 [55:56<1:00:15,  2.00it/s] 32%|███▏      | 3469/10712 [55:56<1:00:12,  2.00it/s] 32%|███▏      | 3470/10712 [55:57<1:00:07,  2.01it/s] 32%|███▏      | 3471/10712 [55:57<1:00:02,  2.01it/s] 32%|███▏      | 3472/10712 [55:58<1:00:05,  2.01it/s] 32%|███▏      | 3473/10712 [55:58<1:00:01,  2.01it/s] 32%|███▏      | 3474/10712 [55:59<59:55,  2.01it/s]   32%|███▏      | 3475/10712 [55:59<59:59,  2.01it/s]                                                    {'loss': 3.9625, 'grad_norm': 0.21065793931484222, 'learning_rate': 0.0008543590098912028, 'epoch': 0.32}
+ 32%|███▏      | 3475/10712 [55:59<59:59,  2.01it/s] 32%|███▏      | 3476/10712 [56:00<59:59,  2.01it/s] 32%|███▏      | 3477/10712 [56:00<59:54,  2.01it/s] 32%|███▏      | 3478/10712 [56:01<59:51,  2.01it/s] 32%|███▏      | 3479/10712 [56:01<59:49,  2.02it/s] 32%|███▏      | 3480/10712 [56:02<59:59,  2.01it/s] 32%|███▏      | 3481/10712 [56:02<1:00:10,  2.00it/s] 33%|███▎      | 3482/10712 [56:03<1:00:07,  2.00it/s] 33%|███▎      | 3483/10712 [56:03<1:00:02,  2.01it/s] 33%|███▎      | 3484/10712 [56:04<1:00:09,  2.00it/s] 33%|███▎      | 3485/10712 [56:04<1:00:12,  2.00it/s] 33%|███▎      | 3486/10712 [56:05<1:00:09,  2.00it/s] 33%|███▎      | 3487/10712 [56:05<1:00:07,  2.00it/s] 33%|███▎      | 3488/10712 [56:06<1:00:04,  2.00it/s] 33%|███▎      | 3489/10712 [56:06<59:57,  2.01it/s]   33%|███▎      | 3490/10712 [56:07<59:54,  2.01it/s] 33%|███▎      | 3491/10712 [56:07<59:55,  2.01it/s] 33%|███▎      | 3492/10712 [56:08<59:51,  2.01it/s] 33%|███▎      | 3493/10712 [56:08<59:48,  2.01it/s] 33%|███▎      | 3494/10712 [56:09<59:56,  2.01it/s] 33%|███▎      | 3495/10712 [56:09<59:50,  2.01it/s] 33%|███▎      | 3496/10712 [56:10<59:51,  2.01it/s] 33%|███▎      | 3497/10712 [56:10<1:02:08,  1.94it/s] 33%|███▎      | 3498/10712 [56:11<1:01:59,  1.94it/s] 33%|███▎      | 3499/10712 [56:11<1:04:12,  1.87it/s] 33%|███▎      | 3500/10712 [56:12<1:03:03,  1.91it/s]                                                      {'loss': 3.9633, 'grad_norm': 0.21324597299098969, 'learning_rate': 0.0008514733596569138, 'epoch': 0.33}
+ 33%|███▎      | 3500/10712 [56:12<1:03:03,  1.91it/s] 33%|███▎      | 3501/10712 [56:12<1:02:21,  1.93it/s] 33%|███▎      | 3502/10712 [56:13<1:01:45,  1.95it/s] 33%|███▎      | 3503/10712 [56:13<1:01:09,  1.96it/s] 33%|███▎      | 3504/10712 [56:14<1:00:46,  1.98it/s] 33%|███▎      | 3505/10712 [56:14<1:00:27,  1.99it/s] 33%|███▎      | 3506/10712 [56:15<1:00:22,  1.99it/s] 33%|███▎      | 3507/10712 [56:15<1:00:11,  1.99it/s] 33%|███▎      | 3508/10712 [56:16<1:00:06,  2.00it/s] 33%|███▎      | 3509/10712 [56:16<1:00:02,  2.00it/s] 33%|███▎      | 3510/10712 [56:17<59:57,  2.00it/s]   33%|███▎      | 3511/10712 [56:17<1:00:03,  2.00it/s] 33%|███▎      | 3512/10712 [56:18<1:00:01,  2.00it/s] 33%|███▎      | 3513/10712 [56:18<1:00:00,  2.00it/s] 33%|███▎      | 3514/10712 [56:19<59:58,  2.00it/s]   33%|███▎      | 3515/10712 [56:19<59:56,  2.00it/s] 33%|███▎      | 3516/10712 [56:20<59:56,  2.00it/s] 33%|███▎      | 3517/10712 [56:20<59:54,  2.00it/s] 33%|███▎      | 3518/10712 [56:21<59:56,  2.00it/s] 33%|███▎      | 3519/10712 [56:21<59:57,  2.00it/s] 33%|███▎      | 3520/10712 [56:22<59:53,  2.00it/s] 33%|███▎      | 3521/10712 [56:22<59:53,  2.00it/s] 33%|███▎      | 3522/10712 [56:23<59:49,  2.00it/s] 33%|███▎      | 3523/10712 [56:23<59:42,  2.01it/s] 33%|███▎      | 3524/10712 [56:24<59:42,  2.01it/s] 33%|███▎      | 3525/10712 [56:24<59:42,  2.01it/s]                                                    {'loss': 3.9529, 'grad_norm': 0.22072970867156982, 'learning_rate': 0.0008485643793707016, 'epoch': 0.33}
+ 33%|███▎      | 3525/10712 [56:24<59:42,  2.01it/s] 33%|███▎      | 3526/10712 [56:25<59:55,  2.00it/s] 33%|███▎      | 3527/10712 [56:25<59:57,  2.00it/s] 33%|███▎      | 3528/10712 [56:26<59:49,  2.00it/s] 33%|███▎      | 3529/10712 [56:26<59:45,  2.00it/s] 33%|███▎      | 3530/10712 [56:27<59:41,  2.01it/s] 33%|███▎      | 3531/10712 [56:27<59:37,  2.01it/s] 33%|███▎      | 3532/10712 [56:28<59:45,  2.00it/s] 33%|███▎      | 3533/10712 [56:28<59:38,  2.01it/s] 33%|███▎      | 3534/10712 [56:29<59:33,  2.01it/s] 33%|███▎      | 3535/10712 [56:29<59:34,  2.01it/s] 33%|███▎      | 3536/10712 [56:30<59:31,  2.01it/s] 33%|███▎      | 3537/10712 [56:30<59:27,  2.01it/s] 33%|███▎      | 3538/10712 [56:31<59:39,  2.00it/s] 33%|███▎      | 3539/10712 [56:31<59:39,  2.00it/s] 33%|███▎      | 3540/10712 [56:32<59:44,  2.00it/s] 33%|███▎      | 3541/10712 [56:32<59:38,  2.00it/s] 33%|███▎      | 3542/10712 [56:33<59:41,  2.00it/s] 33%|███▎      | 3543/10712 [56:34<1:11:27,  1.67it/s] 33%|███▎      | 3544/10712 [56:34<1:07:59,  1.76it/s] 33%|███▎      | 3545/10712 [56:35<1:05:32,  1.82it/s] 33%|███▎      | 3546/10712 [56:35<1:03:50,  1.87it/s] 33%|███▎      | 3547/10712 [56:36<1:02:46,  1.90it/s] 33%|███▎      | 3548/10712 [56:36<1:02:15,  1.92it/s] 33%|███▎      | 3549/10712 [56:37<1:01:31,  1.94it/s] 33%|███▎      | 3550/10712 [56:37<1:01:11,  1.95it/s]                                                      {'loss': 3.948, 'grad_norm': 0.20108561217784882, 'learning_rate': 0.0008456322621244734, 'epoch': 0.33}
+ 33%|███▎      | 3550/10712 [56:37<1:01:11,  1.95it/s] 33%|███▎      | 3551/10712 [56:38<1:00:49,  1.96it/s] 33%|███▎      | 3552/10712 [56:38<1:00:24,  1.98it/s] 33%|███▎      | 3553/10712 [56:39<1:00:11,  1.98it/s] 33%|███▎      | 3554/10712 [56:39<1:00:01,  1.99it/s] 33%|███▎      | 3555/10712 [56:40<59:54,  1.99it/s]   33%|███▎      | 3556/10712 [56:40<59:48,  1.99it/s] 33%|███▎      | 3557/10712 [56:41<59:46,  1.99it/s] 33%|███▎      | 3558/10712 [56:41<59:47,  1.99it/s] 33%|███▎      | 3559/10712 [56:42<59:43,  2.00it/s] 33%|███▎      | 3560/10712 [56:42<59:44,  2.00it/s] 33%|███▎      | 3561/10712 [56:43<59:43,  2.00it/s] 33%|███▎      | 3562/10712 [56:43<59:39,  2.00it/s] 33%|███▎      | 3563/10712 [56:44<59:35,  2.00it/s] 33%|███▎      | 3564/10712 [56:45<1:15:43,  1.57it/s] 33%|███▎      | 3565/10712 [56:45<1:10:52,  1.68it/s] 33%|███▎      | 3566/10712 [56:46<1:07:55,  1.75it/s] 33%|███▎      | 3567/10712 [56:46<1:05:48,  1.81it/s] 33%|███▎      | 3568/10712 [56:47<1:03:55,  1.86it/s] 33%|███▎      | 3569/10712 [56:47<1:02:35,  1.90it/s] 33%|███▎      | 3570/10712 [56:48<1:01:35,  1.93it/s] 33%|███▎      | 3571/10712 [56:48<1:01:00,  1.95it/s] 33%|███▎      | 3572/10712 [56:49<1:00:34,  1.96it/s] 33%|███▎      | 3573/10712 [56:49<1:00:12,  1.98it/s] 33%|███▎      | 3574/10712 [56:50<1:00:02,  1.98it/s] 33%|███▎      | 3575/10712 [56:50<59:51,  1.99it/s]                                                      {'loss': 3.9502, 'grad_norm': 0.21259693801403046, 'learning_rate': 0.0008426772025459173, 'epoch': 0.33}
+ 33%|███▎      | 3575/10712 [56:50<59:51,  1.99it/s] 33%|███▎      | 3576/10712 [56:51<59:45,  1.99it/s] 33%|███▎      | 3577/10712 [56:51<59:37,  1.99it/s] 33%|███▎      | 3578/10712 [56:52<59:29,  2.00it/s] 33%|███▎      | 3579/10712 [56:52<59:38,  1.99it/s] 33%|███▎      | 3580/10712 [56:53<59:34,  2.00it/s] 33%|███▎      | 3581/10712 [56:53<59:30,  2.00it/s] 33%|███▎      | 3582/10712 [56:54<59:28,  2.00it/s] 33%|███▎      | 3583/10712 [56:54<59:27,  2.00it/s] 33%|███▎      | 3584/10712 [56:55<59:23,  2.00it/s] 33%|███▎      | 3585/10712 [56:55<59:13,  2.01it/s] 33%|███▎      | 3586/10712 [56:56<59:22,  2.00it/s] 33%|███▎      | 3587/10712 [56:56<59:29,  2.00it/s] 33%|███▎      | 3588/10712 [56:57<59:26,  2.00it/s] 34%|███▎      | 3589/10712 [56:57<59:19,  2.00it/s] 34%|███▎      | 3590/10712 [56:58<59:21,  2.00it/s] 34%|███▎      | 3591/10712 [56:58<59:20,  2.00it/s] 34%|███▎      | 3592/10712 [56:59<59:22,  2.00it/s] 34%|███▎      | 3593/10712 [56:59<59:21,  2.00it/s] 34%|███▎      | 3594/10712 [57:00<59:13,  2.00it/s] 34%|███▎      | 3595/10712 [57:00<59:54,  1.98it/s] 34%|███▎      | 3596/10712 [57:01<59:41,  1.99it/s] 34%|███▎      | 3597/10712 [57:01<59:32,  1.99it/s] 34%|███▎      | 3598/10712 [57:02<59:33,  1.99it/s] 34%|███▎      | 3599/10712 [57:02<59:33,  1.99it/s] 34%|███▎      | 3600/10712 [57:03<59:31,  1.99it/s]                                                    {'loss': 3.9481, 'grad_norm': 0.20228517055511475, 'learning_rate': 0.0008396993967855852, 'epoch': 0.34}
+ 34%|███▎      | 3600/10712 [57:03<59:31,  1.99it/s] 34%|███▎      | 3601/10712 [57:03<59:29,  1.99it/s] 34%|███▎      | 3602/10712 [57:04<59:22,  2.00it/s] 34%|███▎      | 3603/10712 [57:04<59:19,  2.00it/s] 34%|███▎      | 3604/10712 [57:05<59:21,  2.00it/s] 34%|███▎      | 3605/10712 [57:05<59:15,  2.00it/s] 34%|███▎      | 3606/10712 [57:06<59:14,  2.00it/s] 34%|███▎      | 3607/10712 [57:06<59:12,  2.00it/s] 34%|███▎      | 3608/10712 [57:07<59:11,  2.00it/s] 34%|███▎      | 3609/10712 [57:07<59:05,  2.00it/s] 34%|███▎      | 3610/10712 [57:08<59:05,  2.00it/s] 34%|███▎      | 3611/10712 [57:08<59:16,  2.00it/s] 34%|███▎      | 3612/10712 [57:09<59:23,  1.99it/s] 34%|███▎      | 3613/10712 [57:09<59:20,  1.99it/s] 34%|███▎      | 3614/10712 [57:10<59:17,  2.00it/s] 34%|███▎      | 3615/10712 [57:10<59:15,  2.00it/s] 34%|███▍      | 3616/10712 [57:11<59:10,  2.00it/s] 34%|███▍      | 3617/10712 [57:11<59:08,  2.00it/s] 34%|███▍      | 3618/10712 [57:12<59:01,  2.00it/s] 34%|███▍      | 3619/10712 [57:12<58:57,  2.01it/s] 34%|███▍      | 3620/10712 [57:13<59:02,  2.00it/s] 34%|███▍      | 3621/10712 [57:13<58:58,  2.00it/s] 34%|███▍      | 3622/10712 [57:14<58:56,  2.00it/s] 34%|███▍      | 3623/10712 [57:14<59:01,  2.00it/s] 34%|███▍      | 3624/10712 [57:15<59:02,  2.00it/s] 34%|███▍      | 3625/10712 [57:15<58:55,  2.00it/s]                                                    {'loss': 3.9454, 'grad_norm': 0.21809101104736328, 'learning_rate': 0.000836699042503872, 'epoch': 0.34}
+ 34%|███▍      | 3625/10712 [57:15<58:55,  2.00it/s] 34%|███▍      | 3626/10712 [57:16<58:58,  2.00it/s] 34%|███▍      | 3627/10712 [57:16<59:39,  1.98it/s] 34%|███▍      | 3628/10712 [57:17<59:33,  1.98it/s] 34%|███▍      | 3629/10712 [57:17<59:28,  1.98it/s] 34%|███▍      | 3630/10712 [57:18<59:21,  1.99it/s] 34%|███▍      | 3631/10712 [57:18<59:12,  1.99it/s] 34%|███▍      | 3632/10712 [57:19<59:05,  2.00it/s] 34%|███▍      | 3633/10712 [57:19<59:07,  2.00it/s] 34%|███▍      | 3634/10712 [57:20<59:01,  2.00it/s] 34%|███▍      | 3635/10712 [57:20<58:53,  2.00it/s] 34%|███▍      | 3636/10712 [57:21<58:51,  2.00it/s] 34%|███▍      | 3637/10712 [57:21<58:51,  2.00it/s] 34%|███▍      | 3638/10712 [57:22<58:44,  2.01it/s] 34%|███▍      | 3639/10712 [57:22<58:46,  2.01it/s] 34%|███▍      | 3640/10712 [57:23<58:49,  2.00it/s] 34%|███▍      | 3641/10712 [57:23<58:40,  2.01it/s] 34%|███▍      | 3642/10712 [57:24<58:40,  2.01it/s] 34%|███▍      | 3643/10712 [57:24<58:42,  2.01it/s] 34%|███▍      | 3644/10712 [57:25<59:22,  1.98it/s] 34%|███▍      | 3645/10712 [57:25<1:00:31,  1.95it/s] 34%|███▍      | 3646/10712 [57:26<1:00:11,  1.96it/s] 34%|███▍      | 3647/10712 [57:26<59:50,  1.97it/s]   34%|███▍      | 3648/10712 [57:27<59:34,  1.98it/s] 34%|███▍      | 3649/10712 [57:27<59:21,  1.98it/s] 34%|███▍      | 3650/10712 [57:28<59:14,  1.99it/s]                                                    {'loss': 3.9358, 'grad_norm': 0.2336927205324173, 'learning_rate': 0.000833676338857895, 'epoch': 0.34}
+ 34%|███▍      | 3650/10712 [57:28<59:14,  1.99it/s] 34%|███▍      | 3651/10712 [57:28<59:21,  1.98it/s] 34%|███▍      | 3652/10712 [57:29<59:19,  1.98it/s] 34%|███▍      | 3653/10712 [57:29<59:44,  1.97it/s] 34%|███▍      | 3654/10712 [57:30<59:32,  1.98it/s] 34%|███▍      | 3655/10712 [57:30<59:18,  1.98it/s] 34%|███▍      | 3656/10712 [57:31<59:08,  1.99it/s] 34%|███▍      | 3657/10712 [57:31<59:03,  1.99it/s] 34%|███▍      | 3658/10712 [57:32<58:57,  1.99it/s] 34%|███▍      | 3659/10712 [57:32<58:56,  1.99it/s] 34%|███▍      | 3660/10712 [57:33<58:50,  2.00it/s] 34%|███▍      | 3661/10712 [57:33<58:59,  1.99it/s] 34%|███▍      | 3662/10712 [57:34<1:00:14,  1.95it/s] 34%|███▍      | 3663/10712 [57:34<59:52,  1.96it/s]   34%|███▍      | 3664/10712 [57:35<59:34,  1.97it/s] 34%|███▍      | 3665/10712 [57:35<59:24,  1.98it/s] 34%|███▍      | 3666/10712 [57:36<59:12,  1.98it/s] 34%|███▍      | 3667/10712 [57:36<59:08,  1.99it/s] 34%|███▍      | 3668/10712 [57:37<58:57,  1.99it/s] 34%|███▍      | 3669/10712 [57:37<58:53,  1.99it/s] 34%|███▍      | 3670/10712 [57:38<58:45,  2.00it/s] 34%|███▍      | 3671/10712 [57:38<58:39,  2.00it/s] 34%|███▍      | 3672/10712 [57:39<58:37,  2.00it/s] 34%|███▍      | 3673/10712 [57:39<58:36,  2.00it/s] 34%|███▍      | 3674/10712 [57:40<58:34,  2.00it/s] 34%|███▍      | 3675/10712 [57:40<58:34,  2.00it/s]                                                    {'loss': 3.9365, 'grad_norm': 0.2014588713645935, 'learning_rate': 0.0008306314864882747, 'epoch': 0.34}
+ 34%|███▍      | 3675/10712 [57:40<58:34,  2.00it/s] 34%|███▍      | 3676/10712 [57:41<58:34,  2.00it/s] 34%|███▍      | 3677/10712 [57:41<58:47,  1.99it/s] 34%|███▍      | 3678/10712 [57:42<58:47,  1.99it/s] 34%|███▍      | 3679/10712 [57:42<58:41,  2.00it/s] 34%|███▍      | 3680/10712 [57:43<58:37,  2.00it/s] 34%|███▍      | 3681/10712 [57:43<58:35,  2.00it/s] 34%|███▍      | 3682/10712 [57:44<58:36,  2.00it/s] 34%|███▍      | 3683/10712 [57:44<58:30,  2.00it/s] 34%|███▍      | 3684/10712 [57:45<58:26,  2.00it/s] 34%|███▍      | 3685/10712 [57:45<58:23,  2.01it/s] 34%|███▍      | 3686/10712 [57:46<58:20,  2.01it/s] 34%|███▍      | 3687/10712 [57:46<58:20,  2.01it/s] 34%|███▍      | 3688/10712 [57:47<58:20,  2.01it/s] 34%|███▍      | 3689/10712 [57:47<58:20,  2.01it/s] 34%|███▍      | 3690/10712 [57:48<58:21,  2.01it/s] 34%|███▍      | 3691/10712 [57:48<58:21,  2.01it/s] 34%|███▍      | 3692/10712 [57:49<58:15,  2.01it/s] 34%|███▍      | 3693/10712 [57:49<58:16,  2.01it/s] 34%|███▍      | 3694/10712 [57:50<58:16,  2.01it/s] 34%|███▍      | 3695/10712 [57:50<58:18,  2.01it/s] 35%|███▍      | 3696/10712 [57:51<58:19,  2.00it/s] 35%|███▍      | 3697/10712 [57:51<58:22,  2.00it/s] 35%|███▍      | 3698/10712 [57:52<58:29,  2.00it/s] 35%|███▍      | 3699/10712 [57:52<58:26,  2.00it/s] 35%|███▍      | 3700/10712 [57:53<58:51,  1.99it/s]                                                    {'loss': 3.9473, 'grad_norm': 0.21547779440879822, 'learning_rate': 0.0008275646875058169, 'epoch': 0.35}
+ 35%|███▍      | 3700/10712 [57:53<58:51,  1.99it/s] 35%|███▍      | 3701/10712 [57:53<59:21,  1.97it/s] 35%|███▍      | 3702/10712 [57:54<59:11,  1.97it/s] 35%|███▍      | 3703/10712 [57:54<59:01,  1.98it/s] 35%|███▍      | 3704/10712 [57:55<58:50,  1.99it/s] 35%|███▍      | 3705/10712 [57:55<58:37,  1.99it/s] 35%|███▍      | 3706/10712 [57:56<58:36,  1.99it/s] 35%|███▍      | 3707/10712 [57:56<58:41,  1.99it/s] 35%|███▍      | 3708/10712 [57:57<58:45,  1.99it/s] 35%|███▍      | 3709/10712 [57:58<59:53,  1.95it/s] 35%|███▍      | 3710/10712 [57:58<1:00:20,  1.93it/s] 35%|███▍      | 3711/10712 [57:59<59:48,  1.95it/s]   35%|███▍      | 3712/10712 [57:59<59:26,  1.96it/s] 35%|███▍      | 3713/10712 [58:00<59:07,  1.97it/s] 35%|███▍      | 3714/10712 [58:00<58:53,  1.98it/s] 35%|███▍      | 3715/10712 [58:01<58:44,  1.99it/s] 35%|███▍      | 3716/10712 [58:01<58:36,  1.99it/s] 35%|███▍      | 3717/10712 [58:02<58:38,  1.99it/s] 35%|███▍      | 3718/10712 [58:02<58:27,  1.99it/s] 35%|███▍      | 3719/10712 [58:03<58:28,  1.99it/s] 35%|███▍      | 3720/10712 [58:03<58:22,  2.00it/s] 35%|███▍      | 3721/10712 [58:04<58:21,  2.00it/s] 35%|███▍      | 3722/10712 [58:04<58:16,  2.00it/s] 35%|███▍      | 3723/10712 [58:05<58:17,  2.00it/s] 35%|███▍      | 3724/10712 [58:05<58:15,  2.00it/s] 35%|███▍      | 3725/10712 [58:06<58:22,  1.99it/s]                                                    {'loss': 3.9402, 'grad_norm': 0.21840572357177734, 'learning_rate': 0.0008244761454780962, 'epoch': 0.35}
+ 35%|███▍      | 3725/10712 [58:06<58:22,  1.99it/s] 35%|███▍      | 3726/10712 [58:06<58:24,  1.99it/s] 35%|███▍      | 3727/10712 [58:07<58:17,  2.00it/s] 35%|███▍      | 3728/10712 [58:07<58:14,  2.00it/s] 35%|███▍      | 3729/10712 [58:08<58:13,  2.00it/s] 35%|███▍      | 3730/10712 [58:08<58:17,  2.00it/s] 35%|███▍      | 3731/10712 [58:09<58:18,  2.00it/s] 35%|███▍      | 3732/10712 [58:09<58:18,  2.00it/s] 35%|███▍      | 3733/10712 [58:10<58:15,  2.00it/s] 35%|███▍      | 3734/10712 [58:10<58:20,  1.99it/s] 35%|███▍      | 3735/10712 [58:11<58:17,  1.99it/s] 35%|███▍      | 3736/10712 [58:11<58:16,  1.99it/s] 35%|███▍      | 3737/10712 [58:12<58:15,  2.00it/s] 35%|███▍      | 3738/10712 [58:12<58:15,  2.00it/s] 35%|███▍      | 3739/10712 [58:13<58:11,  2.00it/s] 35%|███▍      | 3740/10712 [58:13<58:35,  1.98it/s] 35%|███▍      | 3741/10712 [58:14<58:28,  1.99it/s] 35%|███▍      | 3742/10712 [58:14<58:16,  1.99it/s] 35%|███▍      | 3743/10712 [58:15<58:05,  2.00it/s] 35%|███▍      | 3744/10712 [58:15<58:02,  2.00it/s] 35%|███▍      | 3745/10712 [58:16<57:54,  2.01it/s] 35%|███▍      | 3746/10712 [58:16<57:54,  2.01it/s] 35%|███▍      | 3747/10712 [58:17<57:57,  2.00it/s] 35%|███▍      | 3748/10712 [58:17<58:23,  1.99it/s] 35%|███▍      | 3749/10712 [58:18<58:17,  1.99it/s] 35%|███▌      | 3750/10712 [58:18<1:00:56,  1.90it/s]                                                      {'loss': 3.9434, 'grad_norm': 0.21011513471603394, 'learning_rate': 0.0008213660654159454, 'epoch': 0.35}
+ 35%|███▌      | 3750/10712 [58:18<1:00:56,  1.90it/s] 35%|███▌      | 3751/10712 [58:19<1:00:05,  1.93it/s] 35%|███▌      | 3752/10712 [58:19<59:31,  1.95it/s]   35%|███▌      | 3753/10712 [58:20<59:00,  1.97it/s] 35%|███▌      | 3754/10712 [58:20<58:49,  1.97it/s] 35%|███▌      | 3755/10712 [58:21<58:32,  1.98it/s] 35%|███▌      | 3756/10712 [58:21<58:16,  1.99it/s] 35%|███▌      | 3757/10712 [58:22<58:05,  2.00it/s] 35%|███▌      | 3758/10712 [58:22<58:02,  2.00it/s] 35%|███▌      | 3759/10712 [58:23<57:59,  2.00it/s] 35%|███▌      | 3760/10712 [58:23<57:49,  2.00it/s] 35%|███▌      | 3761/10712 [58:24<57:48,  2.00it/s] 35%|███▌      | 3762/10712 [58:24<57:41,  2.01it/s] 35%|███▌      | 3763/10712 [58:25<57:44,  2.01it/s] 35%|███▌      | 3764/10712 [58:25<57:45,  2.00it/s] 35%|███▌      | 3765/10712 [58:26<57:48,  2.00it/s] 35%|███▌      | 3766/10712 [58:26<57:57,  2.00it/s] 35%|███▌      | 3767/10712 [58:27<57:54,  2.00it/s] 35%|███▌      | 3768/10712 [58:27<57:50,  2.00it/s] 35%|███▌      | 3769/10712 [58:28<57:48,  2.00it/s] 35%|███▌      | 3770/10712 [58:28<57:50,  2.00it/s] 35%|███▌      | 3771/10712 [58:29<57:43,  2.00it/s] 35%|███▌      | 3772/10712 [58:29<57:39,  2.01it/s] 35%|███▌      | 3773/10712 [58:30<57:43,  2.00it/s] 35%|███▌      | 3774/10712 [58:30<57:38,  2.01it/s] 35%|███▌      | 3775/10712 [58:31<57:33,  2.01it/s]                                                    {'loss': 3.9385, 'grad_norm': 0.21535202860832214, 'learning_rate': 0.0008182346537598444, 'epoch': 0.35}
+ 35%|███▌      | 3775/10712 [58:31<57:33,  2.01it/s] 35%|███▌      | 3776/10712 [58:31<57:41,  2.00it/s] 35%|███▌      | 3777/10712 [58:32<57:39,  2.00it/s] 35%|███▌      | 3778/10712 [58:32<57:29,  2.01it/s] 35%|███▌      | 3779/10712 [58:33<57:32,  2.01it/s] 35%|███▌      | 3780/10712 [58:33<57:35,  2.01it/s] 35%|███▌      | 3781/10712 [58:34<57:43,  2.00it/s] 35%|███▌      | 3782/10712 [58:34<57:39,  2.00it/s] 35%|███▌      | 3783/10712 [58:35<57:39,  2.00it/s] 35%|███▌      | 3784/10712 [58:35<57:41,  2.00it/s] 35%|███▌      | 3785/10712 [58:36<57:36,  2.00it/s] 35%|███▌      | 3786/10712 [58:36<57:39,  2.00it/s] 35%|███▌      | 3787/10712 [58:37<57:39,  2.00it/s] 35%|███▌      | 3788/10712 [58:37<57:37,  2.00it/s] 35%|███▌      | 3789/10712 [58:38<57:39,  2.00it/s] 35%|███▌      | 3790/10712 [58:38<57:33,  2.00it/s] 35%|███▌      | 3791/10712 [58:39<57:32,  2.00it/s] 35%|███▌      | 3792/10712 [58:39<57:36,  2.00it/s] 35%|███▌      | 3793/10712 [58:40<57:32,  2.00it/s] 35%|███▌      | 3794/10712 [58:40<57:28,  2.01it/s] 35%|███▌      | 3795/10712 [58:41<57:29,  2.01it/s] 35%|███▌      | 3796/10712 [58:41<57:29,  2.00it/s] 35%|███▌      | 3797/10712 [58:42<57:26,  2.01it/s] 35%|███▌      | 3798/10712 [58:42<57:24,  2.01it/s] 35%|███▌      | 3799/10712 [58:43<57:21,  2.01it/s] 35%|███▌      | 3800/10712 [58:43<57:20,  2.01it/s]                                                    {'loss': 3.9341, 'grad_norm': 0.2287270724773407, 'learning_rate': 0.0008150821183662201, 'epoch': 0.35}
+ 35%|███▌      | 3800/10712 [58:43<57:20,  2.01it/s] 35%|███▌      | 3801/10712 [58:44<57:26,  2.01it/s] 35%|███▌      | 3802/10712 [58:44<57:23,  2.01it/s] 36%|███▌      | 3803/10712 [58:45<57:19,  2.01it/s] 36%|███▌      | 3804/10712 [58:45<57:20,  2.01it/s] 36%|███▌      | 3805/10712 [58:46<57:14,  2.01it/s] 36%|███▌      | 3806/10712 [58:46<57:11,  2.01it/s] 36%|███▌      | 3807/10712 [58:47<57:12,  2.01it/s] 36%|███▌      | 3808/10712 [58:47<57:21,  2.01it/s] 36%|███▌      | 3809/10712 [58:48<57:19,  2.01it/s] 36%|███▌      | 3810/10712 [58:48<57:23,  2.00it/s] 36%|███▌      | 3811/10712 [58:49<57:33,  2.00it/s] 36%|███▌      | 3812/10712 [58:49<57:27,  2.00it/s] 36%|███▌      | 3813/10712 [58:50<57:20,  2.01it/s] 36%|███▌      | 3814/10712 [58:50<57:20,  2.00it/s] 36%|███▌      | 3815/10712 [58:51<57:15,  2.01it/s] 36%|███▌      | 3816/10712 [58:51<57:12,  2.01it/s] 36%|███▌      | 3817/10712 [58:52<57:12,  2.01it/s] 36%|███▌      | 3818/10712 [58:52<57:13,  2.01it/s] 36%|███▌      | 3819/10712 [58:53<57:14,  2.01it/s] 36%|███▌      | 3820/10712 [58:53<57:15,  2.01it/s] 36%|███▌      | 3821/10712 [58:54<57:10,  2.01it/s] 36%|███▌      | 3822/10712 [58:54<57:12,  2.01it/s] 36%|███▌      | 3823/10712 [58:55<57:12,  2.01it/s] 36%|███▌      | 3824/10712 [58:55<57:16,  2.00it/s] 36%|███▌      | 3825/10712 [58:56<57:09,  2.01it/s]                                                    {'loss': 3.9312, 'grad_norm': 0.2248304784297943, 'learning_rate': 0.0008119086684936474, 'epoch': 0.36}
+ 36%|███▌      | 3825/10712 [58:56<57:09,  2.01it/s] 36%|███▌      | 3826/10712 [58:56<57:20,  2.00it/s] 36%|███▌      | 3827/10712 [58:57<57:14,  2.00it/s] 36%|███▌      | 3828/10712 [58:57<57:13,  2.01it/s] 36%|███▌      | 3829/10712 [58:58<57:05,  2.01it/s] 36%|███▌      | 3830/10712 [58:58<57:04,  2.01it/s] 36%|███▌      | 3831/10712 [58:59<57:00,  2.01it/s] 36%|███▌      | 3832/10712 [58:59<57:01,  2.01it/s] 36%|███▌      | 3833/10712 [59:00<57:02,  2.01it/s] 36%|███▌      | 3834/10712 [59:00<57:13,  2.00it/s] 36%|███▌      | 3835/10712 [59:01<57:11,  2.00it/s] 36%|███▌      | 3836/10712 [59:01<57:07,  2.01it/s] 36%|███▌      | 3837/10712 [59:02<57:07,  2.01it/s] 36%|███▌      | 3838/10712 [59:02<57:09,  2.00it/s] 36%|███▌      | 3839/10712 [59:03<57:06,  2.01it/s] 36%|███▌      | 3840/10712 [59:03<57:05,  2.01it/s] 36%|███▌      | 3841/10712 [59:04<57:08,  2.00it/s] 36%|███▌      | 3842/10712 [59:04<57:07,  2.00it/s] 36%|███▌      | 3843/10712 [59:05<57:11,  2.00it/s] 36%|███▌      | 3844/10712 [59:05<57:11,  2.00it/s] 36%|███▌      | 3845/10712 [59:06<57:08,  2.00it/s] 36%|███▌      | 3846/10712 [59:06<57:09,  2.00it/s] 36%|███▌      | 3847/10712 [59:07<57:08,  2.00it/s] 36%|███▌      | 3848/10712 [59:07<57:34,  1.99it/s] 36%|███▌      | 3849/10712 [59:08<57:39,  1.98it/s] 36%|███▌      | 3850/10712 [59:08<58:27,  1.96it/s]                                                    {'loss': 3.932, 'grad_norm': 0.20805129408836365, 'learning_rate': 0.00080871451478896, 'epoch': 0.36}
+ 36%|███▌      | 3850/10712 [59:08<58:27,  1.96it/s] 36%|███▌      | 3851/10712 [59:09<58:06,  1.97it/s] 36%|███▌      | 3852/10712 [59:09<57:43,  1.98it/s] 36%|███▌      | 3853/10712 [59:10<57:27,  1.99it/s] 36%|███▌      | 3854/10712 [59:10<57:20,  1.99it/s] 36%|███▌      | 3855/10712 [59:11<57:08,  2.00it/s] 36%|███▌      | 3856/10712 [59:11<57:09,  2.00it/s] 36%|███▌      | 3857/10712 [59:12<57:07,  2.00it/s] 36%|███▌      | 3858/10712 [59:12<57:03,  2.00it/s] 36%|███▌      | 3859/10712 [59:13<56:58,  2.00it/s] 36%|███▌      | 3860/10712 [59:13<57:00,  2.00it/s] 36%|███▌      | 3861/10712 [59:14<57:02,  2.00it/s] 36%|███▌      | 3862/10712 [59:14<57:01,  2.00it/s] 36%|███▌      | 3863/10712 [59:15<57:00,  2.00it/s] 36%|███▌      | 3864/10712 [59:15<56:58,  2.00it/s] 36%|███▌      | 3865/10712 [59:16<56:54,  2.01it/s] 36%|███▌      | 3866/10712 [59:16<56:53,  2.01it/s] 36%|███▌      | 3867/10712 [59:17<56:59,  2.00it/s] 36%|███▌      | 3868/10712 [59:17<56:52,  2.01it/s] 36%|███▌      | 3869/10712 [59:18<56:49,  2.01it/s] 36%|███▌      | 3870/10712 [59:18<56:49,  2.01it/s] 36%|███▌      | 3871/10712 [59:19<56:42,  2.01it/s] 36%|███▌      | 3872/10712 [59:19<56:44,  2.01it/s] 36%|███▌      | 3873/10712 [59:20<56:44,  2.01it/s] 36%|███▌      | 3874/10712 [59:20<56:47,  2.01it/s] 36%|███▌      | 3875/10712 [59:21<56:54,  2.00it/s]                                                    {'loss': 3.9186, 'grad_norm': 0.22739370167255402, 'learning_rate': 0.0008054998692732676, 'epoch': 0.36}
+ 36%|███▌      | 3875/10712 [59:21<56:54,  2.00it/s] 36%|███▌      | 3876/10712 [59:21<57:01,  2.00it/s] 36%|███▌      | 3877/10712 [59:22<56:58,  2.00it/s] 36%|███▌      | 3878/10712 [59:22<56:55,  2.00it/s] 36%|███▌      | 3879/10712 [59:23<56:53,  2.00it/s] 36%|███▌      | 3880/10712 [59:23<56:48,  2.00it/s] 36%|███▌      | 3881/10712 [59:24<56:45,  2.01it/s] 36%|███▌      | 3882/10712 [59:24<56:50,  2.00it/s] 36%|███▌      | 3883/10712 [59:25<56:52,  2.00it/s] 36%|███▋      | 3884/10712 [59:25<56:52,  2.00it/s] 36%|███▋      | 3885/10712 [59:26<56:51,  2.00it/s] 36%|███▋      | 3886/10712 [59:26<56:49,  2.00it/s] 36%|███▋      | 3887/10712 [59:27<56:54,  2.00it/s] 36%|███▋      | 3888/10712 [59:27<56:48,  2.00it/s] 36%|███▋      | 3889/10712 [59:28<56:43,  2.00it/s] 36%|███▋      | 3890/10712 [59:28<56:41,  2.01it/s] 36%|███▋      | 3891/10712 [59:29<56:46,  2.00it/s] 36%|███▋      | 3892/10712 [59:29<56:43,  2.00it/s] 36%|███▋      | 3893/10712 [59:30<56:46,  2.00it/s] 36%|███▋      | 3894/10712 [59:30<56:43,  2.00it/s] 36%|███▋      | 3895/10712 [59:31<56:47,  2.00it/s] 36%|███▋      | 3896/10712 [59:31<56:44,  2.00it/s] 36%|███▋      | 3897/10712 [59:32<56:43,  2.00it/s] 36%|███▋      | 3898/10712 [59:32<56:50,  2.00it/s] 36%|███▋      | 3899/10712 [59:33<57:11,  1.99it/s] 36%|███▋      | 3900/10712 [59:33<57:48,  1.96it/s]                                                    {'loss': 3.9251, 'grad_norm': 0.20691752433776855, 'learning_rate': 0.0008022649453278827, 'epoch': 0.36}
+ 36%|███▋      | 3900/10712 [59:33<57:48,  1.96it/s] 36%|███▋      | 3901/10712 [59:34<57:33,  1.97it/s] 36%|███▋      | 3902/10712 [59:34<57:13,  1.98it/s] 36%|███▋      | 3903/10712 [59:35<57:04,  1.99it/s] 36%|███▋      | 3904/10712 [59:35<56:53,  1.99it/s] 36%|███▋      | 3905/10712 [59:36<56:46,  2.00it/s] 36%|███▋      | 3906/10712 [59:36<56:38,  2.00it/s] 36%|███▋      | 3907/10712 [59:37<56:35,  2.00it/s] 36%|███▋      | 3908/10712 [59:37<56:29,  2.01it/s] 36%|███▋      | 3909/10712 [59:38<56:28,  2.01it/s] 37%|███▋      | 3910/10712 [59:38<56:34,  2.00it/s] 37%|███▋      | 3911/10712 [59:39<56:26,  2.01it/s] 37%|███▋      | 3912/10712 [59:39<1:06:33,  1.70it/s] 37%|███▋      | 3913/10712 [59:40<1:17:12,  1.47it/s] 37%|███▋      | 3914/10712 [59:41<1:10:58,  1.60it/s] 37%|███▋      | 3915/10712 [59:41<1:06:33,  1.70it/s] 37%|███▋      | 3916/10712 [59:42<1:03:46,  1.78it/s] 37%|███▋      | 3917/10712 [59:42<1:02:06,  1.82it/s] 37%|███▋      | 3918/10712 [59:43<1:00:25,  1.87it/s] 37%|███▋      | 3919/10712 [59:43<59:14,  1.91it/s]   37%|███▋      | 3920/10712 [59:44<58:19,  1.94it/s] 37%|███▋      | 3921/10712 [59:44<57:42,  1.96it/s] 37%|███▋      | 3922/10712 [59:45<57:19,  1.97it/s] 37%|███▋      | 3923/10712 [59:45<59:45,  1.89it/s] 37%|███▋      | 3924/10712 [59:46<58:47,  1.92it/s] 37%|███▋      | 3925/10712 [59:46<58:07,  1.95it/s]                                                    {'loss': 3.9261, 'grad_norm': 0.2151794731616974, 'learning_rate': 0.0007990099576801568, 'epoch': 0.37}
+ 37%|███▋      | 3925/10712 [59:46<58:07,  1.95it/s] 37%|███▋      | 3926/10712 [59:47<57:41,  1.96it/s] 37%|███▋      | 3927/10712 [59:47<57:17,  1.97it/s] 37%|███▋      | 3928/10712 [59:48<57:01,  1.98it/s] 37%|███▋      | 3929/10712 [59:48<56:48,  1.99it/s] 37%|███▋      | 3930/10712 [59:49<1:07:36,  1.67it/s] 37%|███▋      | 3931/10712 [59:50<1:04:15,  1.76it/s] 37%|███▋      | 3932/10712 [59:50<1:01:49,  1.83it/s] 37%|███▋      | 3933/10712 [59:51<1:00:07,  1.88it/s] 37%|███▋      | 3934/10712 [59:51<58:52,  1.92it/s]   37%|███▋      | 3935/10712 [59:52<58:03,  1.95it/s] 37%|███▋      | 3936/10712 [59:52<57:30,  1.96it/s] 37%|███▋      | 3937/10712 [59:53<57:02,  1.98it/s] 37%|███▋      | 3938/10712 [59:53<56:41,  1.99it/s] 37%|███▋      | 3939/10712 [59:54<56:26,  2.00it/s] 37%|███▋      | 3940/10712 [59:54<56:25,  2.00it/s] 37%|███▋      | 3941/10712 [59:55<56:16,  2.01it/s] 37%|███▋      | 3942/10712 [59:55<56:10,  2.01it/s] 37%|███▋      | 3943/10712 [59:56<56:02,  2.01it/s] 37%|███▋      | 3944/10712 [59:56<56:01,  2.01it/s] 37%|███▋      | 3945/10712 [59:57<55:59,  2.01it/s] 37%|███▋      | 3946/10712 [59:57<56:01,  2.01it/s] 37%|███▋      | 3947/10712 [59:58<55:59,  2.01it/s] 37%|███▋      | 3948/10712 [59:58<55:57,  2.01it/s] 37%|███▋      | 3949/10712 [59:59<55:56,  2.01it/s] 37%|███▋      | 3950/10712 [59:59<55:55,  2.02it/s]                                                    {'loss': 3.9225, 'grad_norm': 0.22644701600074768, 'learning_rate': 0.0007957351223892271, 'epoch': 0.37}
+ 37%|███▋      | 3950/10712 [59:59<55:55,  2.02it/s] 37%|███▋      | 3951/10712 [1:00:00<55:54,  2.02it/s] 37%|███▋      | 3952/10712 [1:00:00<55:57,  2.01it/s] 37%|███▋      | 3953/10712 [1:00:01<55:51,  2.02it/s] 37%|███▋      | 3954/10712 [1:00:01<55:52,  2.02it/s] 37%|███▋      | 3955/10712 [1:00:02<55:55,  2.01it/s] 37%|███▋      | 3956/10712 [1:00:02<55:58,  2.01it/s] 37%|███▋      | 3957/10712 [1:00:03<56:05,  2.01it/s] 37%|███▋      | 3958/10712 [1:00:03<56:11,  2.00it/s] 37%|███▋      | 3959/10712 [1:00:04<56:15,  2.00it/s] 37%|███▋      | 3960/10712 [1:00:04<56:14,  2.00it/s] 37%|███▋      | 3961/10712 [1:00:05<56:12,  2.00it/s] 37%|███▋      | 3962/10712 [1:00:05<56:11,  2.00it/s] 37%|███▋      | 3963/10712 [1:00:06<56:14,  2.00it/s] 37%|███▋      | 3964/10712 [1:00:06<56:14,  2.00it/s] 37%|███▋      | 3965/10712 [1:00:07<56:09,  2.00it/s] 37%|███▋      | 3966/10712 [1:00:07<58:52,  1.91it/s] 37%|███▋      | 3967/10712 [1:00:08<58:03,  1.94it/s] 37%|███▋      | 3968/10712 [1:00:08<57:29,  1.96it/s] 37%|███▋      | 3969/10712 [1:00:09<57:02,  1.97it/s] 37%|███▋      | 3970/10712 [1:00:09<56:44,  1.98it/s] 37%|███▋      | 3971/10712 [1:00:10<56:32,  1.99it/s] 37%|███▋      | 3972/10712 [1:00:10<56:32,  1.99it/s] 37%|███▋      | 3973/10712 [1:00:11<56:21,  1.99it/s] 37%|███▋      | 3974/10712 [1:00:11<56:17,  1.99it/s] 37%|███▋      | 3975/10712 [1:00:12<56:09,  2.00it/s]                                                      {'loss': 3.9239, 'grad_norm': 0.21284539997577667, 'learning_rate': 0.0007924406568316749, 'epoch': 0.37}
+ 37%|███▋      | 3975/10712 [1:00:12<56:09,  2.00it/s] 37%|███▋      | 3976/10712 [1:00:12<56:27,  1.99it/s] 37%|███▋      | 3977/10712 [1:00:13<56:23,  1.99it/s] 37%|███▋      | 3978/10712 [1:00:13<56:18,  1.99it/s] 37%|███▋      | 3979/10712 [1:00:14<56:11,  2.00it/s] 37%|███▋      | 3980/10712 [1:00:14<56:09,  2.00it/s] 37%|███▋      | 3981/10712 [1:00:15<56:07,  2.00it/s] 37%|███▋      | 3982/10712 [1:00:15<56:07,  2.00it/s] 37%|███▋      | 3983/10712 [1:00:16<56:02,  2.00it/s] 37%|███▋      | 3984/10712 [1:00:16<56:05,  2.00it/s] 37%|███▋      | 3985/10712 [1:00:17<56:05,  2.00it/s] 37%|███▋      | 3986/10712 [1:00:17<56:02,  2.00it/s] 37%|███▋      | 3987/10712 [1:00:18<55:56,  2.00it/s] 37%|███▋      | 3988/10712 [1:00:18<55:54,  2.00it/s] 37%|███▋      | 3989/10712 [1:00:19<55:57,  2.00it/s] 37%|███▋      | 3990/10712 [1:00:19<55:57,  2.00it/s] 37%|███▋      | 3991/10712 [1:00:20<55:57,  2.00it/s] 37%|███▋      | 3992/10712 [1:00:20<55:52,  2.00it/s] 37%|███▋      | 3993/10712 [1:00:21<55:59,  2.00it/s] 37%|███▋      | 3994/10712 [1:00:21<55:56,  2.00it/s] 37%|███▋      | 3995/10712 [1:00:22<55:58,  2.00it/s] 37%|███▋      | 3996/10712 [1:00:22<55:54,  2.00it/s] 37%|███▋      | 3997/10712 [1:00:23<55:55,  2.00it/s] 37%|███▋      | 3998/10712 [1:00:23<55:53,  2.00it/s] 37%|███▋      | 3999/10712 [1:00:24<55:48,  2.00it/s] 37%|███▋      | 4000/10712 [1:00:24<55:51,  2.00it/s]                                                      {'loss': 3.9222, 'grad_norm': 0.20855498313903809, 'learning_rate': 0.0007891267796870969, 'epoch': 0.37}
+ 37%|███▋      | 4000/10712 [1:00:24<55:51,  2.00it/s] 37%|███▋      | 4001/10712 [1:00:25<55:59,  2.00it/s] 37%|███▋      | 4002/10712 [1:00:25<55:56,  2.00it/s] 37%|███▋      | 4003/10712 [1:00:26<55:53,  2.00it/s] 37%|███▋      | 4004/10712 [1:00:26<55:49,  2.00it/s] 37%|███▋      | 4005/10712 [1:00:27<55:47,  2.00it/s] 37%|███▋      | 4006/10712 [1:00:27<55:48,  2.00it/s] 37%|███▋      | 4007/10712 [1:00:28<55:53,  2.00it/s] 37%|███▋      | 4008/10712 [1:00:28<55:50,  2.00it/s] 37%|███▋      | 4009/10712 [1:00:29<55:43,  2.01it/s] 37%|███▋      | 4010/10712 [1:00:29<55:45,  2.00it/s] 37%|███▋      | 4011/10712 [1:00:30<55:35,  2.01it/s] 37%|███▋      | 4012/10712 [1:00:30<55:35,  2.01it/s] 37%|███▋      | 4013/10712 [1:00:31<55:36,  2.01it/s] 37%|███▋      | 4014/10712 [1:00:31<55:33,  2.01it/s] 37%|███▋      | 4015/10712 [1:00:32<55:40,  2.00it/s] 37%|███▋      | 4016/10712 [1:00:32<55:46,  2.00it/s] 38%|███▊      | 4017/10712 [1:00:33<55:47,  2.00it/s] 38%|███▊      | 4018/10712 [1:00:33<55:55,  2.00it/s] 38%|███▊      | 4019/10712 [1:00:34<55:49,  2.00it/s] 38%|███▊      | 4020/10712 [1:00:34<55:44,  2.00it/s] 38%|███▊      | 4021/10712 [1:00:35<55:42,  2.00it/s] 38%|███▊      | 4022/10712 [1:00:35<55:42,  2.00it/s] 38%|███▊      | 4023/10712 [1:00:36<55:48,  2.00it/s] 38%|███▊      | 4024/10712 [1:00:36<55:39,  2.00it/s] 38%|███▊      | 4025/10712 [1:00:37<55:45,  2.00it/s]                                                      {'loss': 3.9196, 'grad_norm': 0.24686047434806824, 'learning_rate': 0.0007857937109235893, 'epoch': 0.38}
+ 38%|███▊      | 4025/10712 [1:00:37<55:45,  2.00it/s] 38%|███▊      | 4026/10712 [1:00:37<55:46,  2.00it/s] 38%|███▊      | 4027/10712 [1:00:38<55:44,  2.00it/s] 38%|███▊      | 4028/10712 [1:00:38<55:47,  2.00it/s] 38%|███▊      | 4029/10712 [1:00:39<55:40,  2.00it/s] 38%|███▊      | 4030/10712 [1:00:39<55:33,  2.00it/s] 38%|███▊      | 4031/10712 [1:00:40<55:34,  2.00it/s] 38%|███▊      | 4032/10712 [1:00:40<55:41,  2.00it/s] 38%|███▊      | 4033/10712 [1:00:41<55:37,  2.00it/s] 38%|███▊      | 4034/10712 [1:00:41<55:36,  2.00it/s] 38%|███▊      | 4035/10712 [1:00:42<55:49,  1.99it/s] 38%|███▊      | 4036/10712 [1:00:42<55:45,  2.00it/s] 38%|███▊      | 4037/10712 [1:00:43<55:49,  1.99it/s] 38%|███▊      | 4038/10712 [1:00:43<55:46,  1.99it/s] 38%|███▊      | 4039/10712 [1:00:44<55:45,  1.99it/s] 38%|███▊      | 4040/10712 [1:00:44<55:41,  2.00it/s] 38%|███▊      | 4041/10712 [1:00:45<55:38,  2.00it/s] 38%|███▊      | 4042/10712 [1:00:45<55:36,  2.00it/s] 38%|███▊      | 4043/10712 [1:00:46<55:30,  2.00it/s] 38%|███▊      | 4044/10712 [1:00:47<1:07:26,  1.65it/s] 38%|███▊      | 4045/10712 [1:00:47<1:04:13,  1.73it/s] 38%|███▊      | 4046/10712 [1:00:48<1:01:41,  1.80it/s] 38%|███▊      | 4047/10712 [1:00:48<59:51,  1.86it/s]   38%|███▊      | 4048/10712 [1:00:49<58:25,  1.90it/s] 38%|███▊      | 4049/10712 [1:00:49<57:37,  1.93it/s] 38%|███▊      | 4050/10712 [1:00:50<56:57,  1.95it/s]                                                      {'loss': 3.9155, 'grad_norm': 0.2394084334373474, 'learning_rate': 0.0007824416717831475, 'epoch': 0.38}
+ 38%|███▊      | 4050/10712 [1:00:50<56:57,  1.95it/s] 38%|███▊      | 4051/10712 [1:00:50<56:45,  1.96it/s] 38%|███▊      | 4052/10712 [1:00:51<56:23,  1.97it/s] 38%|███▊      | 4053/10712 [1:00:51<56:02,  1.98it/s] 38%|███▊      | 4054/10712 [1:00:52<55:51,  1.99it/s] 38%|███▊      | 4055/10712 [1:00:52<55:44,  1.99it/s] 38%|███▊      | 4056/10712 [1:00:53<55:43,  1.99it/s] 38%|███▊      | 4057/10712 [1:00:53<55:36,  1.99it/s] 38%|███▊      | 4058/10712 [1:00:54<55:31,  2.00it/s] 38%|███▊      | 4059/10712 [1:00:54<55:25,  2.00it/s] 38%|███▊      | 4060/10712 [1:00:55<55:27,  2.00it/s] 38%|███▊      | 4061/10712 [1:00:55<55:26,  2.00it/s] 38%|███▊      | 4062/10712 [1:00:56<55:56,  1.98it/s] 38%|███▊      | 4063/10712 [1:00:56<55:55,  1.98it/s] 38%|███▊      | 4064/10712 [1:00:57<55:49,  1.98it/s] 38%|███▊      | 4065/10712 [1:00:57<56:31,  1.96it/s] 38%|███▊      | 4066/10712 [1:00:58<56:35,  1.96it/s] 38%|███▊      | 4067/10712 [1:00:58<56:11,  1.97it/s] 38%|███▊      | 4068/10712 [1:00:59<56:01,  1.98it/s] 38%|███▊      | 4069/10712 [1:00:59<55:48,  1.98it/s] 38%|███▊      | 4070/10712 [1:01:00<55:35,  1.99it/s] 38%|███▊      | 4071/10712 [1:01:00<55:26,  2.00it/s] 38%|███▊      | 4072/10712 [1:01:01<55:24,  2.00it/s] 38%|███▊      | 4073/10712 [1:01:01<55:25,  2.00it/s] 38%|███▊      | 4074/10712 [1:01:02<55:22,  2.00it/s] 38%|███▊      | 4075/10712 [1:01:02<55:13,  2.00it/s]                                                      {'loss': 3.9109, 'grad_norm': 0.21282514929771423, 'learning_rate': 0.0007790708847669796, 'epoch': 0.38}
+ 38%|███▊      | 4075/10712 [1:01:02<55:13,  2.00it/s] 38%|███▊      | 4076/10712 [1:01:03<55:14,  2.00it/s] 38%|███▊      | 4077/10712 [1:01:03<55:08,  2.01it/s] 38%|███▊      | 4078/10712 [1:01:04<55:04,  2.01it/s] 38%|███▊      | 4079/10712 [1:01:04<55:06,  2.01it/s] 38%|███▊      | 4080/10712 [1:01:05<55:09,  2.00it/s] 38%|███▊      | 4081/10712 [1:01:05<55:04,  2.01it/s] 38%|███▊      | 4082/10712 [1:01:06<55:11,  2.00it/s] 38%|███▊      | 4083/10712 [1:01:06<55:11,  2.00it/s] 38%|███▊      | 4084/10712 [1:01:07<55:06,  2.00it/s] 38%|███▊      | 4085/10712 [1:01:07<55:06,  2.00it/s] 38%|███▊      | 4086/10712 [1:01:08<55:07,  2.00it/s] 38%|███▊      | 4087/10712 [1:01:08<55:08,  2.00it/s] 38%|███▊      | 4088/10712 [1:01:09<55:09,  2.00it/s] 38%|███▊      | 4089/10712 [1:01:09<55:08,  2.00it/s] 38%|███▊      | 4090/10712 [1:01:10<55:07,  2.00it/s] 38%|███▊      | 4091/10712 [1:01:10<55:03,  2.00it/s] 38%|███▊      | 4092/10712 [1:01:11<55:05,  2.00it/s] 38%|███▊      | 4093/10712 [1:01:11<54:59,  2.01it/s] 38%|███▊      | 4094/10712 [1:01:12<55:00,  2.01it/s] 38%|███▊      | 4095/10712 [1:01:12<55:03,  2.00it/s] 38%|███▊      | 4096/10712 [1:01:13<55:03,  2.00it/s] 38%|███▊      | 4097/10712 [1:01:13<55:02,  2.00it/s] 38%|███▊      | 4098/10712 [1:01:14<55:14,  2.00it/s] 38%|███▊      | 4099/10712 [1:01:14<58:53,  1.87it/s] 38%|███▊      | 4100/10712 [1:01:15<57:42,  1.91it/s]                                                      {'loss': 3.91, 'grad_norm': 0.21939793229103088, 'learning_rate': 0.0007756815736207379, 'epoch': 0.38}
+ 38%|███▊      | 4100/10712 [1:01:15<57:42,  1.91it/s] 38%|███▊      | 4101/10712 [1:01:15<56:57,  1.93it/s] 38%|███▊      | 4102/10712 [1:01:16<56:22,  1.95it/s] 38%|███▊      | 4103/10712 [1:01:16<55:56,  1.97it/s] 38%|███▊      | 4104/10712 [1:01:17<55:34,  1.98it/s] 38%|███▊      | 4105/10712 [1:01:17<55:20,  1.99it/s] 38%|███▊      | 4106/10712 [1:01:18<55:16,  1.99it/s] 38%|███▊      | 4107/10712 [1:01:18<55:05,  2.00it/s] 38%|███▊      | 4108/10712 [1:01:19<55:03,  2.00it/s] 38%|███▊      | 4109/10712 [1:01:19<54:59,  2.00it/s] 38%|███▊      | 4110/10712 [1:01:20<54:56,  2.00it/s] 38%|███▊      | 4111/10712 [1:01:20<54:52,  2.00it/s] 38%|███▊      | 4112/10712 [1:01:21<54:51,  2.01it/s] 38%|███▊      | 4113/10712 [1:01:21<54:49,  2.01it/s] 38%|███▊      | 4114/10712 [1:01:22<54:47,  2.01it/s] 38%|███▊      | 4115/10712 [1:01:22<54:43,  2.01it/s] 38%|███▊      | 4116/10712 [1:01:23<54:42,  2.01it/s] 38%|███▊      | 4117/10712 [1:01:23<54:38,  2.01it/s] 38%|███▊      | 4118/10712 [1:01:24<54:41,  2.01it/s] 38%|███▊      | 4119/10712 [1:01:24<54:48,  2.00it/s] 38%|███▊      | 4120/10712 [1:01:25<56:31,  1.94it/s] 38%|███▊      | 4121/10712 [1:01:25<56:00,  1.96it/s] 38%|███▊      | 4122/10712 [1:01:26<58:28,  1.88it/s] 38%|███▊      | 4123/10712 [1:01:26<57:24,  1.91it/s] 38%|███▊      | 4124/10712 [1:01:27<56:36,  1.94it/s] 39%|███▊      | 4125/10712 [1:01:27<56:03,  1.96it/s]                                                      {'loss': 3.9054, 'grad_norm': 0.20735333859920502, 'learning_rate': 0.000772273963319667, 'epoch': 0.39}
+ 39%|███▊      | 4125/10712 [1:01:27<56:03,  1.96it/s] 39%|███▊      | 4126/10712 [1:01:28<55:47,  1.97it/s] 39%|███▊      | 4127/10712 [1:01:28<55:29,  1.98it/s] 39%|███▊      | 4128/10712 [1:01:29<55:19,  1.98it/s] 39%|███▊      | 4129/10712 [1:01:29<55:05,  1.99it/s] 39%|███▊      | 4130/10712 [1:01:30<55:04,  1.99it/s] 39%|███▊      | 4131/10712 [1:01:30<54:55,  2.00it/s] 39%|███▊      | 4132/10712 [1:01:31<54:53,  2.00it/s] 39%|███▊      | 4133/10712 [1:01:31<54:54,  2.00it/s] 39%|███▊      | 4134/10712 [1:01:32<54:52,  2.00it/s] 39%|███▊      | 4135/10712 [1:01:32<54:55,  2.00it/s] 39%|███▊      | 4136/10712 [1:01:33<54:51,  2.00it/s] 39%|███▊      | 4137/10712 [1:01:33<54:44,  2.00it/s] 39%|███▊      | 4138/10712 [1:01:34<54:43,  2.00it/s] 39%|███▊      | 4139/10712 [1:01:34<54:46,  2.00it/s] 39%|███▊      | 4140/10712 [1:01:35<54:50,  2.00it/s] 39%|███▊      | 4141/10712 [1:01:35<54:53,  2.00it/s] 39%|███▊      | 4142/10712 [1:01:36<54:51,  2.00it/s] 39%|███▊      | 4143/10712 [1:01:36<54:50,  2.00it/s] 39%|███▊      | 4144/10712 [1:01:37<54:48,  2.00it/s] 39%|███▊      | 4145/10712 [1:01:37<54:45,  2.00it/s] 39%|███▊      | 4146/10712 [1:01:38<54:41,  2.00it/s] 39%|███▊      | 4147/10712 [1:01:38<54:44,  2.00it/s] 39%|███▊      | 4148/10712 [1:01:39<54:42,  2.00it/s] 39%|███▊      | 4149/10712 [1:01:39<54:42,  2.00it/s] 39%|███▊      | 4150/10712 [1:01:40<54:48,  2.00it/s]                                                      {'loss': 3.9001, 'grad_norm': 0.2054857313632965, 'learning_rate': 0.0007688482800536699, 'epoch': 0.39}
+ 39%|███▊      | 4150/10712 [1:01:40<54:48,  2.00it/s] 39%|███▉      | 4151/10712 [1:01:40<54:58,  1.99it/s] 39%|███▉      | 4152/10712 [1:01:41<54:53,  1.99it/s] 39%|███▉      | 4153/10712 [1:01:41<54:55,  1.99it/s] 39%|███▉      | 4154/10712 [1:01:42<54:54,  1.99it/s] 39%|███▉      | 4155/10712 [1:01:42<54:51,  1.99it/s] 39%|███▉      | 4156/10712 [1:01:43<54:44,  2.00it/s] 39%|███▉      | 4157/10712 [1:01:43<57:18,  1.91it/s] 39%|███▉      | 4158/10712 [1:01:44<56:37,  1.93it/s] 39%|███▉      | 4159/10712 [1:01:44<55:59,  1.95it/s] 39%|███▉      | 4160/10712 [1:01:45<55:27,  1.97it/s] 39%|███▉      | 4161/10712 [1:01:45<55:13,  1.98it/s] 39%|███▉      | 4162/10712 [1:01:46<55:01,  1.98it/s] 39%|███▉      | 4163/10712 [1:01:46<54:46,  1.99it/s] 39%|███▉      | 4164/10712 [1:01:47<54:37,  2.00it/s] 39%|███▉      | 4165/10712 [1:01:47<54:32,  2.00it/s] 39%|███▉      | 4166/10712 [1:01:48<54:25,  2.00it/s] 39%|███▉      | 4167/10712 [1:01:48<54:22,  2.01it/s] 39%|███▉      | 4168/10712 [1:01:49<54:26,  2.00it/s] 39%|███▉      | 4169/10712 [1:01:49<54:26,  2.00it/s] 39%|███▉      | 4170/10712 [1:01:50<54:18,  2.01it/s] 39%|███▉      | 4171/10712 [1:01:50<54:21,  2.01it/s] 39%|███▉      | 4172/10712 [1:01:51<54:17,  2.01it/s] 39%|███▉      | 4173/10712 [1:01:51<54:12,  2.01it/s] 39%|███▉      | 4174/10712 [1:01:52<54:14,  2.01it/s] 39%|███▉      | 4175/10712 [1:01:52<54:09,  2.01it/s]                                                      {'loss': 3.9049, 'grad_norm': 0.22095957398414612, 'learning_rate': 0.000765404751212295, 'epoch': 0.39}
+ 39%|███▉      | 4175/10712 [1:01:52<54:09,  2.01it/s] 39%|███▉      | 4176/10712 [1:01:53<54:16,  2.01it/s] 39%|███▉      | 4177/10712 [1:01:53<54:11,  2.01it/s] 39%|███▉      | 4178/10712 [1:01:54<54:07,  2.01it/s] 39%|███▉      | 4179/10712 [1:01:54<54:06,  2.01it/s] 39%|███▉      | 4180/10712 [1:01:55<54:04,  2.01it/s] 39%|███▉      | 4181/10712 [1:01:55<54:06,  2.01it/s] 39%|███▉      | 4182/10712 [1:01:56<54:04,  2.01it/s] 39%|███▉      | 4183/10712 [1:01:56<53:59,  2.02it/s] 39%|███▉      | 4184/10712 [1:01:57<54:03,  2.01it/s] 39%|███▉      | 4185/10712 [1:01:57<54:06,  2.01it/s] 39%|███▉      | 4186/10712 [1:01:58<54:02,  2.01it/s] 39%|███▉      | 4187/10712 [1:01:58<54:02,  2.01it/s] 39%|███▉      | 4188/10712 [1:01:59<54:06,  2.01it/s] 39%|███▉      | 4189/10712 [1:01:59<54:01,  2.01it/s] 39%|███▉      | 4190/10712 [1:02:00<53:59,  2.01it/s] 39%|███▉      | 4191/10712 [1:02:00<54:22,  2.00it/s] 39%|███▉      | 4192/10712 [1:02:01<56:54,  1.91it/s] 39%|███▉      | 4193/10712 [1:02:01<56:03,  1.94it/s] 39%|███▉      | 4194/10712 [1:02:02<55:31,  1.96it/s] 39%|███▉      | 4195/10712 [1:02:02<55:13,  1.97it/s] 39%|███▉      | 4196/10712 [1:02:03<54:57,  1.98it/s] 39%|███▉      | 4197/10712 [1:02:03<54:39,  1.99it/s] 39%|███▉      | 4198/10712 [1:02:04<54:28,  1.99it/s] 39%|███▉      | 4199/10712 [1:02:04<54:29,  1.99it/s] 39%|███▉      | 4200/10712 [1:02:05<54:28,  1.99it/s]                                                      {'loss': 3.9073, 'grad_norm': 0.2129284292459488, 'learning_rate': 0.0007619436053696421, 'epoch': 0.39}
+ 39%|███▉      | 4200/10712 [1:02:05<54:28,  1.99it/s] 39%|███▉      | 4201/10712 [1:02:05<54:24,  1.99it/s] 39%|███▉      | 4202/10712 [1:02:06<54:17,  2.00it/s] 39%|███▉      | 4203/10712 [1:02:06<54:17,  2.00it/s] 39%|███▉      | 4204/10712 [1:02:07<54:15,  2.00it/s] 39%|███▉      | 4205/10712 [1:02:07<54:12,  2.00it/s] 39%|███▉      | 4206/10712 [1:02:08<54:14,  2.00it/s] 39%|███▉      | 4207/10712 [1:02:08<54:06,  2.00it/s] 39%|███▉      | 4208/10712 [1:02:09<54:06,  2.00it/s] 39%|███▉      | 4209/10712 [1:02:09<54:09,  2.00it/s] 39%|███▉      | 4210/10712 [1:02:10<54:11,  2.00it/s] 39%|███▉      | 4211/10712 [1:02:10<54:07,  2.00it/s] 39%|███▉      | 4212/10712 [1:02:11<54:07,  2.00it/s] 39%|███▉      | 4213/10712 [1:02:11<54:01,  2.01it/s] 39%|███▉      | 4214/10712 [1:02:12<54:00,  2.01it/s] 39%|███▉      | 4215/10712 [1:02:12<54:00,  2.00it/s] 39%|███▉      | 4216/10712 [1:02:13<53:57,  2.01it/s] 39%|███▉      | 4217/10712 [1:02:13<53:55,  2.01it/s] 39%|███▉      | 4218/10712 [1:02:14<53:56,  2.01it/s] 39%|███▉      | 4219/10712 [1:02:14<53:51,  2.01it/s] 39%|███▉      | 4220/10712 [1:02:15<53:50,  2.01it/s] 39%|███▉      | 4221/10712 [1:02:15<53:50,  2.01it/s] 39%|███▉      | 4222/10712 [1:02:16<53:52,  2.01it/s] 39%|███▉      | 4223/10712 [1:02:16<53:53,  2.01it/s] 39%|███▉      | 4224/10712 [1:02:17<53:47,  2.01it/s] 39%|███▉      | 4225/10712 [1:02:17<53:49,  2.01it/s]                                                      {'loss': 3.8962, 'grad_norm': 0.20480123162269592, 'learning_rate': 0.0007584650722691891, 'epoch': 0.39}
+ 39%|███▉      | 4225/10712 [1:02:17<53:49,  2.01it/s] 39%|███▉      | 4226/10712 [1:02:18<53:54,  2.01it/s] 39%|███▉      | 4227/10712 [1:02:18<53:54,  2.00it/s] 39%|███▉      | 4228/10712 [1:02:19<53:54,  2.00it/s] 39%|███▉      | 4229/10712 [1:02:19<53:57,  2.00it/s] 39%|███▉      | 4230/10712 [1:02:20<53:55,  2.00it/s] 39%|███▉      | 4231/10712 [1:02:20<53:55,  2.00it/s] 40%|███▉      | 4232/10712 [1:02:21<54:00,  2.00it/s] 40%|███▉      | 4233/10712 [1:02:21<53:58,  2.00it/s] 40%|███▉      | 4234/10712 [1:02:22<54:02,  2.00it/s] 40%|███▉      | 4235/10712 [1:02:22<53:59,  2.00it/s] 40%|███▉      | 4236/10712 [1:02:23<53:57,  2.00it/s] 40%|███▉      | 4237/10712 [1:02:23<53:57,  2.00it/s] 40%|███▉      | 4238/10712 [1:02:24<53:54,  2.00it/s] 40%|███▉      | 4239/10712 [1:02:24<53:50,  2.00it/s] 40%|███▉      | 4240/10712 [1:02:25<53:50,  2.00it/s] 40%|███▉      | 4241/10712 [1:02:25<53:52,  2.00it/s] 40%|███▉      | 4242/10712 [1:02:26<53:54,  2.00it/s] 40%|███▉      | 4243/10712 [1:02:26<53:48,  2.00it/s] 40%|███▉      | 4244/10712 [1:02:27<53:50,  2.00it/s] 40%|███▉      | 4245/10712 [1:02:27<53:51,  2.00it/s] 40%|███▉      | 4246/10712 [1:02:28<53:49,  2.00it/s] 40%|███▉      | 4247/10712 [1:02:28<53:48,  2.00it/s] 40%|███▉      | 4248/10712 [1:02:29<53:49,  2.00it/s] 40%|███▉      | 4249/10712 [1:02:29<53:50,  2.00it/s] 40%|███▉      | 4250/10712 [1:02:30<53:49,  2.00it/s]                                                      {'loss': 3.8935, 'grad_norm': 0.20969925820827484, 'learning_rate': 0.0007549693828085437, 'epoch': 0.4}
+ 40%|███▉      | 4250/10712 [1:02:30<53:49,  2.00it/s] 40%|███▉      | 4251/10712 [1:02:30<53:51,  2.00it/s] 40%|███▉      | 4252/10712 [1:02:31<53:50,  2.00it/s] 40%|███▉      | 4253/10712 [1:02:31<53:49,  2.00it/s] 40%|███▉      | 4254/10712 [1:02:32<53:50,  2.00it/s] 40%|███▉      | 4255/10712 [1:02:32<53:51,  2.00it/s] 40%|███▉      | 4256/10712 [1:02:33<53:50,  2.00it/s] 40%|███▉      | 4257/10712 [1:02:33<53:47,  2.00it/s] 40%|███▉      | 4258/10712 [1:02:34<53:44,  2.00it/s] 40%|███▉      | 4259/10712 [1:02:34<53:41,  2.00it/s] 40%|███▉      | 4260/10712 [1:02:35<53:37,  2.01it/s] 40%|███▉      | 4261/10712 [1:02:35<53:36,  2.01it/s] 40%|███▉      | 4262/10712 [1:02:36<53:36,  2.01it/s] 40%|███▉      | 4263/10712 [1:02:36<53:36,  2.00it/s] 40%|███▉      | 4264/10712 [1:02:37<53:32,  2.01it/s] 40%|███▉      | 4265/10712 [1:02:37<53:35,  2.00it/s] 40%|███▉      | 4266/10712 [1:02:38<53:35,  2.00it/s] 40%|███▉      | 4267/10712 [1:02:38<53:34,  2.01it/s] 40%|███▉      | 4268/10712 [1:02:39<53:41,  2.00it/s] 40%|███▉      | 4269/10712 [1:02:39<53:39,  2.00it/s] 40%|███▉      | 4270/10712 [1:02:40<53:38,  2.00it/s] 40%|███▉      | 4271/10712 [1:02:40<53:39,  2.00it/s] 40%|███▉      | 4272/10712 [1:02:41<53:33,  2.00it/s] 40%|███▉      | 4273/10712 [1:02:41<53:33,  2.00it/s] 40%|███▉      | 4274/10712 [1:02:42<53:30,  2.01it/s] 40%|███▉      | 4275/10712 [1:02:42<53:26,  2.01it/s]                                                      {'loss': 3.9013, 'grad_norm': 0.20632144808769226, 'learning_rate': 0.0007514567690241163, 'epoch': 0.4}
+ 40%|███▉      | 4275/10712 [1:02:42<53:26,  2.01it/s] 40%|███▉      | 4276/10712 [1:02:43<53:29,  2.01it/s] 40%|███▉      | 4277/10712 [1:02:43<53:29,  2.00it/s] 40%|███▉      | 4278/10712 [1:02:44<53:32,  2.00it/s] 40%|███▉      | 4279/10712 [1:02:44<53:29,  2.00it/s] 40%|███▉      | 4280/10712 [1:02:45<53:34,  2.00it/s] 40%|███▉      | 4281/10712 [1:02:45<53:33,  2.00it/s] 40%|███▉      | 4282/10712 [1:02:46<53:28,  2.00it/s] 40%|███▉      | 4283/10712 [1:02:46<53:22,  2.01it/s] 40%|███▉      | 4284/10712 [1:02:47<53:27,  2.00it/s] 40%|████      | 4285/10712 [1:02:47<53:52,  1.99it/s] 40%|████      | 4286/10712 [1:02:48<53:43,  1.99it/s] 40%|████      | 4287/10712 [1:02:48<53:41,  1.99it/s] 40%|████      | 4288/10712 [1:02:49<53:34,  2.00it/s] 40%|████      | 4289/10712 [1:02:49<53:36,  2.00it/s] 40%|████      | 4290/10712 [1:02:50<53:31,  2.00it/s] 40%|████      | 4291/10712 [1:02:50<53:30,  2.00it/s] 40%|████      | 4292/10712 [1:02:51<53:34,  2.00it/s] 40%|████      | 4293/10712 [1:02:51<53:31,  2.00it/s] 40%|████      | 4294/10712 [1:02:52<53:27,  2.00it/s] 40%|████      | 4295/10712 [1:02:52<53:26,  2.00it/s] 40%|████      | 4296/10712 [1:02:53<53:32,  2.00it/s] 40%|████      | 4297/10712 [1:02:53<53:25,  2.00it/s] 40%|████      | 4298/10712 [1:02:54<53:15,  2.01it/s] 40%|████      | 4299/10712 [1:02:54<53:17,  2.01it/s] 40%|████      | 4300/10712 [1:02:55<53:15,  2.01it/s]                                                      {'loss': 3.898, 'grad_norm': 0.23164430260658264, 'learning_rate': 0.0007479274640757172, 'epoch': 0.4}
+ 40%|████      | 4300/10712 [1:02:55<53:15,  2.01it/s] 40%|████      | 4301/10712 [1:02:55<53:17,  2.00it/s] 40%|████      | 4302/10712 [1:02:56<53:16,  2.01it/s] 40%|████      | 4303/10712 [1:02:56<53:15,  2.01it/s] 40%|████      | 4304/10712 [1:02:57<53:16,  2.00it/s] 40%|████      | 4305/10712 [1:02:57<53:15,  2.00it/s] 40%|████      | 4306/10712 [1:02:58<53:15,  2.00it/s] 40%|████      | 4307/10712 [1:02:58<53:15,  2.00it/s] 40%|████      | 4308/10712 [1:02:59<53:10,  2.01it/s] 40%|████      | 4309/10712 [1:02:59<53:15,  2.00it/s] 40%|████      | 4310/10712 [1:03:00<53:18,  2.00it/s] 40%|████      | 4311/10712 [1:03:00<53:20,  2.00it/s] 40%|████      | 4312/10712 [1:03:01<53:17,  2.00it/s] 40%|████      | 4313/10712 [1:03:01<53:16,  2.00it/s] 40%|████      | 4314/10712 [1:03:02<53:24,  2.00it/s] 40%|████      | 4315/10712 [1:03:02<53:19,  2.00it/s] 40%|████      | 4316/10712 [1:03:03<53:11,  2.00it/s] 40%|████      | 4317/10712 [1:03:03<53:08,  2.01it/s] 40%|████      | 4318/10712 [1:03:04<53:07,  2.01it/s] 40%|████      | 4319/10712 [1:03:04<53:03,  2.01it/s] 40%|████      | 4320/10712 [1:03:05<53:10,  2.00it/s] 40%|████      | 4321/10712 [1:03:05<53:06,  2.01it/s] 40%|████      | 4322/10712 [1:03:06<53:13,  2.00it/s] 40%|████      | 4323/10712 [1:03:06<53:13,  2.00it/s] 40%|████      | 4324/10712 [1:03:07<53:20,  2.00it/s] 40%|████      | 4325/10712 [1:03:07<53:15,  2.00it/s]                                                      {'loss': 3.8877, 'grad_norm': 0.2103457748889923, 'learning_rate': 0.0007443817022310808, 'epoch': 0.4}
+ 40%|████      | 4325/10712 [1:03:07<53:15,  2.00it/s] 40%|████      | 4326/10712 [1:03:08<53:14,  2.00it/s] 40%|████      | 4327/10712 [1:03:08<53:15,  2.00it/s] 40%|████      | 4328/10712 [1:03:09<53:17,  2.00it/s] 40%|████      | 4329/10712 [1:03:09<53:11,  2.00it/s] 40%|████      | 4330/10712 [1:03:10<54:35,  1.95it/s] 40%|████      | 4331/10712 [1:03:10<54:57,  1.94it/s] 40%|████      | 4332/10712 [1:03:11<54:22,  1.96it/s] 40%|████      | 4333/10712 [1:03:11<54:01,  1.97it/s] 40%|████      | 4334/10712 [1:03:12<53:48,  1.98it/s] 40%|████      | 4335/10712 [1:03:12<53:41,  1.98it/s] 40%|████      | 4336/10712 [1:03:13<53:30,  1.99it/s] 40%|████      | 4337/10712 [1:03:13<53:19,  1.99it/s] 40%|████      | 4338/10712 [1:03:14<53:16,  1.99it/s] 41%|████      | 4339/10712 [1:03:14<53:10,  2.00it/s] 41%|████      | 4340/10712 [1:03:15<53:14,  1.99it/s] 41%|████      | 4341/10712 [1:03:15<55:29,  1.91it/s] 41%|████      | 4342/10712 [1:03:16<54:50,  1.94it/s] 41%|████      | 4343/10712 [1:03:16<54:15,  1.96it/s] 41%|████      | 4344/10712 [1:03:17<53:52,  1.97it/s] 41%|████      | 4345/10712 [1:03:17<53:36,  1.98it/s] 41%|████      | 4346/10712 [1:03:18<53:29,  1.98it/s] 41%|████      | 4347/10712 [1:03:18<53:11,  1.99it/s] 41%|████      | 4348/10712 [1:03:19<53:03,  2.00it/s] 41%|████      | 4349/10712 [1:03:19<52:53,  2.01it/s] 41%|████      | 4350/10712 [1:03:20<52:50,  2.01it/s]                                                      {'loss': 3.892, 'grad_norm': 0.2115333378314972, 'learning_rate': 0.0007408197188503156, 'epoch': 0.41}
+ 41%|████      | 4350/10712 [1:03:20<52:50,  2.01it/s] 41%|████      | 4351/10712 [1:03:20<52:59,  2.00it/s] 41%|████      | 4352/10712 [1:03:21<52:52,  2.00it/s] 41%|████      | 4353/10712 [1:03:21<52:45,  2.01it/s] 41%|████      | 4354/10712 [1:03:22<52:42,  2.01it/s] 41%|████      | 4355/10712 [1:03:22<52:44,  2.01it/s] 41%|████      | 4356/10712 [1:03:23<52:46,  2.01it/s] 41%|████      | 4357/10712 [1:03:23<52:50,  2.00it/s] 41%|████      | 4358/10712 [1:03:24<52:51,  2.00it/s] 41%|████      | 4359/10712 [1:03:24<52:48,  2.01it/s] 41%|████      | 4360/10712 [1:03:25<52:47,  2.01it/s] 41%|████      | 4361/10712 [1:03:25<52:45,  2.01it/s] 41%|████      | 4362/10712 [1:03:26<52:43,  2.01it/s] 41%|████      | 4363/10712 [1:03:26<52:37,  2.01it/s] 41%|████      | 4364/10712 [1:03:27<52:39,  2.01it/s] 41%|████      | 4365/10712 [1:03:27<52:40,  2.01it/s] 41%|████      | 4366/10712 [1:03:28<52:34,  2.01it/s] 41%|████      | 4367/10712 [1:03:28<52:32,  2.01it/s] 41%|████      | 4368/10712 [1:03:29<52:30,  2.01it/s] 41%|████      | 4369/10712 [1:03:29<52:29,  2.01it/s] 41%|████      | 4370/10712 [1:03:30<52:30,  2.01it/s] 41%|████      | 4371/10712 [1:03:30<52:35,  2.01it/s] 41%|████      | 4372/10712 [1:03:31<52:35,  2.01it/s] 41%|████      | 4373/10712 [1:03:31<52:39,  2.01it/s] 41%|████      | 4374/10712 [1:03:32<52:43,  2.00it/s] 41%|████      | 4375/10712 [1:03:32<52:40,  2.01it/s]                                                      {'loss': 3.8892, 'grad_norm': 0.21711914241313934, 'learning_rate': 0.0007372417503702805, 'epoch': 0.41}
+ 41%|████      | 4375/10712 [1:03:32<52:40,  2.01it/s] 41%|████      | 4376/10712 [1:03:33<52:41,  2.00it/s] 41%|████      | 4377/10712 [1:03:33<52:45,  2.00it/s] 41%|████      | 4378/10712 [1:03:34<52:50,  2.00it/s] 41%|████      | 4379/10712 [1:03:34<52:51,  2.00it/s] 41%|████      | 4380/10712 [1:03:35<52:45,  2.00it/s] 41%|████      | 4381/10712 [1:03:35<52:42,  2.00it/s] 41%|████      | 4382/10712 [1:03:36<52:42,  2.00it/s] 41%|████      | 4383/10712 [1:03:36<52:43,  2.00it/s] 41%|████      | 4384/10712 [1:03:37<52:40,  2.00it/s] 41%|████      | 4385/10712 [1:03:37<52:38,  2.00it/s] 41%|████      | 4386/10712 [1:03:38<52:40,  2.00it/s] 41%|████      | 4387/10712 [1:03:38<52:34,  2.00it/s] 41%|████      | 4388/10712 [1:03:39<52:29,  2.01it/s] 41%|████      | 4389/10712 [1:03:39<52:28,  2.01it/s] 41%|████      | 4390/10712 [1:03:40<52:30,  2.01it/s] 41%|████      | 4391/10712 [1:03:40<52:33,  2.00it/s] 41%|████      | 4392/10712 [1:03:41<52:37,  2.00it/s] 41%|████      | 4393/10712 [1:03:41<52:38,  2.00it/s] 41%|████      | 4394/10712 [1:03:42<52:33,  2.00it/s] 41%|████      | 4395/10712 [1:03:42<52:31,  2.00it/s] 41%|████      | 4396/10712 [1:03:43<52:37,  2.00it/s] 41%|████      | 4397/10712 [1:03:43<52:33,  2.00it/s] 41%|████      | 4398/10712 [1:03:44<52:29,  2.00it/s] 41%|████      | 4399/10712 [1:03:44<52:32,  2.00it/s] 41%|████      | 4400/10712 [1:03:45<52:36,  2.00it/s]                                                      {'loss': 3.8854, 'grad_norm': 0.20337072014808655, 'learning_rate': 0.0007336480342888914, 'epoch': 0.41}
+ 41%|████      | 4400/10712 [1:03:45<52:36,  2.00it/s] 41%|████      | 4401/10712 [1:03:45<52:40,  2.00it/s] 41%|████      | 4402/10712 [1:03:46<52:38,  2.00it/s] 41%|████      | 4403/10712 [1:03:46<52:40,  2.00it/s] 41%|████      | 4404/10712 [1:03:47<52:43,  1.99it/s] 41%|████      | 4405/10712 [1:03:47<52:47,  1.99it/s] 41%|████      | 4406/10712 [1:03:48<53:17,  1.97it/s] 41%|████      | 4407/10712 [1:03:48<53:16,  1.97it/s] 41%|████      | 4408/10712 [1:03:49<53:00,  1.98it/s] 41%|████      | 4409/10712 [1:03:49<52:49,  1.99it/s] 41%|████      | 4410/10712 [1:03:50<52:49,  1.99it/s] 41%|████      | 4411/10712 [1:03:50<52:46,  1.99it/s] 41%|████      | 4412/10712 [1:03:51<52:37,  2.00it/s] 41%|████      | 4413/10712 [1:03:51<52:34,  2.00it/s] 41%|████      | 4414/10712 [1:03:52<52:34,  2.00it/s] 41%|████      | 4415/10712 [1:03:52<52:32,  2.00it/s] 41%|████      | 4416/10712 [1:03:53<52:32,  2.00it/s] 41%|████      | 4417/10712 [1:03:53<52:29,  2.00it/s] 41%|████      | 4418/10712 [1:03:54<52:28,  2.00it/s] 41%|████▏     | 4419/10712 [1:03:54<52:27,  2.00it/s] 41%|████▏     | 4420/10712 [1:03:55<52:24,  2.00it/s] 41%|████▏     | 4421/10712 [1:03:55<52:26,  2.00it/s] 41%|████▏     | 4422/10712 [1:03:56<52:23,  2.00it/s] 41%|████▏     | 4423/10712 [1:03:56<52:21,  2.00it/s] 41%|████▏     | 4424/10712 [1:03:57<52:19,  2.00it/s] 41%|████▏     | 4425/10712 [1:03:57<52:28,  2.00it/s]                                                      {'loss': 3.879, 'grad_norm': 0.21024949848651886, 'learning_rate': 0.0007300388091493566, 'epoch': 0.41}
+ 41%|████▏     | 4425/10712 [1:03:57<52:28,  2.00it/s] 41%|████▏     | 4426/10712 [1:03:58<52:29,  2.00it/s] 41%|████▏     | 4427/10712 [1:03:58<52:28,  2.00it/s] 41%|████▏     | 4428/10712 [1:03:59<52:27,  2.00it/s] 41%|████▏     | 4429/10712 [1:03:59<52:25,  2.00it/s] 41%|████▏     | 4430/10712 [1:04:00<52:21,  2.00it/s] 41%|████▏     | 4431/10712 [1:04:00<52:14,  2.00it/s] 41%|████▏     | 4432/10712 [1:04:01<52:14,  2.00it/s] 41%|████▏     | 4433/10712 [1:04:01<52:17,  2.00it/s] 41%|████▏     | 4434/10712 [1:04:02<52:18,  2.00it/s] 41%|████▏     | 4435/10712 [1:04:03<54:58,  1.90it/s] 41%|████▏     | 4436/10712 [1:04:03<54:08,  1.93it/s] 41%|████▏     | 4437/10712 [1:04:04<53:31,  1.95it/s] 41%|████▏     | 4438/10712 [1:04:04<53:08,  1.97it/s] 41%|████▏     | 4439/10712 [1:04:05<52:52,  1.98it/s] 41%|████▏     | 4440/10712 [1:04:05<52:34,  1.99it/s] 41%|████▏     | 4441/10712 [1:04:06<52:30,  1.99it/s] 41%|████▏     | 4442/10712 [1:04:06<52:29,  1.99it/s] 41%|████▏     | 4443/10712 [1:04:07<52:19,  2.00it/s] 41%|████▏     | 4444/10712 [1:04:07<52:19,  2.00it/s] 41%|████▏     | 4445/10712 [1:04:08<52:14,  2.00it/s] 42%|████▏     | 4446/10712 [1:04:08<52:14,  2.00it/s] 42%|████▏     | 4447/10712 [1:04:08<52:06,  2.00it/s] 42%|████▏     | 4448/10712 [1:04:09<52:03,  2.01it/s] 42%|████▏     | 4449/10712 [1:04:09<52:00,  2.01it/s] 42%|████▏     | 4450/10712 [1:04:10<51:58,  2.01it/s]                                                      {'loss': 3.889, 'grad_norm': 0.22498299181461334, 'learning_rate': 0.0007264143145243422, 'epoch': 0.42}
+ 42%|████▏     | 4450/10712 [1:04:10<51:58,  2.01it/s] 42%|████▏     | 4451/10712 [1:04:10<52:02,  2.01it/s] 42%|████▏     | 4452/10712 [1:04:11<51:59,  2.01it/s] 42%|████▏     | 4453/10712 [1:04:11<51:53,  2.01it/s] 42%|████▏     | 4454/10712 [1:04:12<51:54,  2.01it/s] 42%|████▏     | 4455/10712 [1:04:12<51:59,  2.01it/s] 42%|████▏     | 4456/10712 [1:04:13<52:11,  2.00it/s] 42%|████▏     | 4457/10712 [1:04:13<52:08,  2.00it/s] 42%|████▏     | 4458/10712 [1:04:14<52:09,  2.00it/s] 42%|████▏     | 4459/10712 [1:04:14<52:03,  2.00it/s] 42%|████▏     | 4460/10712 [1:04:15<52:06,  2.00it/s] 42%|████▏     | 4461/10712 [1:04:15<51:59,  2.00it/s] 42%|████▏     | 4462/10712 [1:04:16<51:56,  2.01it/s] 42%|████▏     | 4463/10712 [1:04:16<51:58,  2.00it/s] 42%|████▏     | 4464/10712 [1:04:17<51:56,  2.00it/s] 42%|████▏     | 4465/10712 [1:04:17<52:05,  2.00it/s] 42%|████▏     | 4466/10712 [1:04:18<51:59,  2.00it/s] 42%|████▏     | 4467/10712 [1:04:18<51:56,  2.00it/s] 42%|████▏     | 4468/10712 [1:04:19<51:52,  2.01it/s] 42%|████▏     | 4469/10712 [1:04:19<51:52,  2.01it/s] 42%|████▏     | 4470/10712 [1:04:20<51:52,  2.01it/s] 42%|████▏     | 4471/10712 [1:04:20<51:57,  2.00it/s] 42%|████▏     | 4472/10712 [1:04:21<51:57,  2.00it/s] 42%|████▏     | 4473/10712 [1:04:21<51:52,  2.00it/s] 42%|████▏     | 4474/10712 [1:04:22<51:55,  2.00it/s] 42%|████▏     | 4475/10712 [1:04:22<51:56,  2.00it/s]                                                      {'loss': 3.8776, 'grad_norm': 0.21598780155181885, 'learning_rate': 0.0007227747910000704, 'epoch': 0.42}
+ 42%|████▏     | 4475/10712 [1:04:22<51:56,  2.00it/s] 42%|████▏     | 4476/10712 [1:04:23<51:58,  2.00it/s] 42%|████▏     | 4477/10712 [1:04:23<51:50,  2.00it/s] 42%|████▏     | 4478/10712 [1:04:24<51:48,  2.01it/s] 42%|████▏     | 4479/10712 [1:04:24<51:46,  2.01it/s] 42%|████▏     | 4480/10712 [1:04:25<51:42,  2.01it/s] 42%|████▏     | 4481/10712 [1:04:25<51:53,  2.00it/s] 42%|████▏     | 4482/10712 [1:04:26<51:53,  2.00it/s] 42%|████▏     | 4483/10712 [1:04:26<51:51,  2.00it/s] 42%|████▏     | 4484/10712 [1:04:27<51:49,  2.00it/s] 42%|████▏     | 4485/10712 [1:04:27<51:50,  2.00it/s] 42%|████▏     | 4486/10712 [1:04:28<51:47,  2.00it/s] 42%|████▏     | 4487/10712 [1:04:28<51:44,  2.01it/s] 42%|████▏     | 4488/10712 [1:04:29<51:44,  2.01it/s] 42%|████▏     | 4489/10712 [1:04:29<51:43,  2.01it/s] 42%|████▏     | 4490/10712 [1:04:30<51:39,  2.01it/s] 42%|████▏     | 4491/10712 [1:04:30<51:41,  2.01it/s] 42%|████▏     | 4492/10712 [1:04:31<51:38,  2.01it/s] 42%|████▏     | 4493/10712 [1:04:31<51:35,  2.01it/s] 42%|████▏     | 4494/10712 [1:04:32<51:32,  2.01it/s] 42%|████▏     | 4495/10712 [1:04:32<51:31,  2.01it/s] 42%|████▏     | 4496/10712 [1:04:33<51:30,  2.01it/s] 42%|████▏     | 4497/10712 [1:04:33<51:31,  2.01it/s] 42%|████▏     | 4498/10712 [1:04:34<51:38,  2.01it/s] 42%|████▏     | 4499/10712 [1:04:34<51:40,  2.00it/s] 42%|████▏     | 4500/10712 [1:04:35<51:39,  2.00it/s]                                                      {'loss': 3.876, 'grad_norm': 0.2106993943452835, 'learning_rate': 0.0007191204801603497, 'epoch': 0.42}
+ 42%|████▏     | 4500/10712 [1:04:35<51:39,  2.00it/s] 42%|████▏     | 4501/10712 [1:04:35<51:36,  2.01it/s] 42%|████▏     | 4502/10712 [1:04:36<51:36,  2.01it/s] 42%|████▏     | 4503/10712 [1:04:36<51:35,  2.01it/s] 42%|████▏     | 4504/10712 [1:04:37<51:28,  2.01it/s] 42%|████▏     | 4505/10712 [1:04:37<51:34,  2.01it/s] 42%|████▏     | 4506/10712 [1:04:38<51:32,  2.01it/s] 42%|████▏     | 4507/10712 [1:04:38<51:26,  2.01it/s] 42%|████▏     | 4508/10712 [1:04:39<51:31,  2.01it/s] 42%|████▏     | 4509/10712 [1:04:39<51:26,  2.01it/s] 42%|████▏     | 4510/10712 [1:04:40<51:23,  2.01it/s] 42%|████▏     | 4511/10712 [1:04:40<51:27,  2.01it/s] 42%|████▏     | 4512/10712 [1:04:41<51:27,  2.01it/s] 42%|████▏     | 4513/10712 [1:04:41<51:21,  2.01it/s] 42%|████▏     | 4514/10712 [1:04:42<51:22,  2.01it/s] 42%|████▏     | 4515/10712 [1:04:42<51:26,  2.01it/s] 42%|████▏     | 4516/10712 [1:04:43<51:23,  2.01it/s] 42%|████▏     | 4517/10712 [1:04:43<51:21,  2.01it/s] 42%|████▏     | 4518/10712 [1:04:44<51:16,  2.01it/s] 42%|████▏     | 4519/10712 [1:04:44<51:20,  2.01it/s] 42%|████▏     | 4520/10712 [1:04:45<51:30,  2.00it/s] 42%|████▏     | 4521/10712 [1:04:45<51:28,  2.00it/s] 42%|████▏     | 4522/10712 [1:04:46<51:30,  2.00it/s] 42%|████▏     | 4523/10712 [1:04:46<51:30,  2.00it/s] 42%|████▏     | 4524/10712 [1:04:47<51:46,  1.99it/s] 42%|████▏     | 4525/10712 [1:04:47<51:47,  1.99it/s]                                                      {'loss': 3.8711, 'grad_norm': 0.22296272218227386, 'learning_rate': 0.000715451624570539, 'epoch': 0.42}
+ 42%|████▏     | 4525/10712 [1:04:47<51:47,  1.99it/s] 42%|████▏     | 4526/10712 [1:04:48<51:42,  1.99it/s] 42%|████▏     | 4527/10712 [1:04:48<51:39,  2.00it/s] 42%|████▏     | 4528/10712 [1:04:49<51:34,  2.00it/s] 42%|████▏     | 4529/10712 [1:04:49<51:34,  2.00it/s] 42%|████▏     | 4530/10712 [1:04:50<51:31,  2.00it/s] 42%|████▏     | 4531/10712 [1:04:50<51:29,  2.00it/s] 42%|████▏     | 4532/10712 [1:04:51<51:30,  2.00it/s] 42%|████▏     | 4533/10712 [1:04:51<51:25,  2.00it/s] 42%|████▏     | 4534/10712 [1:04:52<51:27,  2.00it/s] 42%|████▏     | 4535/10712 [1:04:52<51:28,  2.00it/s] 42%|████▏     | 4536/10712 [1:04:53<51:25,  2.00it/s] 42%|████▏     | 4537/10712 [1:04:53<51:24,  2.00it/s] 42%|████▏     | 4538/10712 [1:04:54<51:32,  2.00it/s] 42%|████▏     | 4539/10712 [1:04:54<51:35,  1.99it/s] 42%|████▏     | 4540/10712 [1:04:55<51:33,  2.00it/s] 42%|████▏     | 4541/10712 [1:04:55<51:28,  2.00it/s] 42%|████▏     | 4542/10712 [1:04:56<51:25,  2.00it/s] 42%|████▏     | 4543/10712 [1:04:56<51:27,  2.00it/s] 42%|████▏     | 4544/10712 [1:04:57<51:24,  2.00it/s] 42%|████▏     | 4545/10712 [1:04:57<51:18,  2.00it/s] 42%|████▏     | 4546/10712 [1:04:58<51:13,  2.01it/s] 42%|████▏     | 4547/10712 [1:04:58<51:17,  2.00it/s] 42%|████▏     | 4548/10712 [1:04:59<51:12,  2.01it/s] 42%|████▏     | 4549/10712 [1:04:59<51:10,  2.01it/s] 42%|████▏     | 4550/10712 [1:05:00<51:08,  2.01it/s]                                                      {'loss': 3.8772, 'grad_norm': 0.2102101594209671, 'learning_rate': 0.0007117684677614468, 'epoch': 0.42}
+ 42%|████▏     | 4550/10712 [1:05:00<51:08,  2.01it/s] 42%|████▏     | 4551/10712 [1:05:00<51:09,  2.01it/s] 42%|████▏     | 4552/10712 [1:05:01<51:06,  2.01it/s] 43%|████▎     | 4553/10712 [1:05:01<51:08,  2.01it/s] 43%|████▎     | 4554/10712 [1:05:02<51:22,  2.00it/s] 43%|████▎     | 4555/10712 [1:05:02<51:20,  2.00it/s] 43%|████▎     | 4556/10712 [1:05:03<51:19,  2.00it/s] 43%|████▎     | 4557/10712 [1:05:03<51:15,  2.00it/s] 43%|████▎     | 4558/10712 [1:05:04<51:12,  2.00it/s] 43%|████▎     | 4559/10712 [1:05:04<51:12,  2.00it/s] 43%|████▎     | 4560/10712 [1:05:05<51:07,  2.01it/s] 43%|████▎     | 4561/10712 [1:05:05<51:17,  2.00it/s] 43%|████▎     | 4562/10712 [1:05:06<51:17,  2.00it/s] 43%|████▎     | 4563/10712 [1:05:06<51:19,  2.00it/s] 43%|████▎     | 4564/10712 [1:05:07<51:16,  2.00it/s] 43%|████▎     | 4565/10712 [1:05:07<51:16,  2.00it/s] 43%|████▎     | 4566/10712 [1:05:08<51:13,  2.00it/s] 43%|████▎     | 4567/10712 [1:05:08<51:15,  2.00it/s] 43%|████▎     | 4568/10712 [1:05:09<51:15,  2.00it/s] 43%|████▎     | 4569/10712 [1:05:09<51:13,  2.00it/s] 43%|████▎     | 4570/10712 [1:05:10<51:13,  2.00it/s] 43%|████▎     | 4571/10712 [1:05:10<51:09,  2.00it/s] 43%|████▎     | 4572/10712 [1:05:11<51:07,  2.00it/s] 43%|████▎     | 4573/10712 [1:05:11<51:01,  2.01it/s] 43%|████▎     | 4574/10712 [1:05:12<51:10,  2.00it/s] 43%|████▎     | 4575/10712 [1:05:12<51:09,  2.00it/s]                                                      {'loss': 3.8779, 'grad_norm': 0.21556006371974945, 'learning_rate': 0.0007080712542131656, 'epoch': 0.43}
+ 43%|████▎     | 4575/10712 [1:05:12<51:09,  2.00it/s] 43%|████▎     | 4576/10712 [1:05:13<51:10,  2.00it/s] 43%|████▎     | 4577/10712 [1:05:13<51:05,  2.00it/s] 43%|████▎     | 4578/10712 [1:05:14<51:01,  2.00it/s] 43%|████▎     | 4579/10712 [1:05:14<50:58,  2.00it/s] 43%|████▎     | 4580/10712 [1:05:15<51:09,  2.00it/s] 43%|████▎     | 4581/10712 [1:05:15<53:46,  1.90it/s] 43%|████▎     | 4582/10712 [1:05:16<53:02,  1.93it/s] 43%|████▎     | 4583/10712 [1:05:16<52:33,  1.94it/s] 43%|████▎     | 4584/10712 [1:05:17<52:06,  1.96it/s] 43%|████▎     | 4585/10712 [1:05:17<51:44,  1.97it/s] 43%|████▎     | 4586/10712 [1:05:18<51:30,  1.98it/s] 43%|████▎     | 4587/10712 [1:05:18<51:20,  1.99it/s] 43%|████▎     | 4588/10712 [1:05:19<51:09,  2.00it/s] 43%|████▎     | 4589/10712 [1:05:19<51:00,  2.00it/s] 43%|████▎     | 4590/10712 [1:05:20<51:05,  2.00it/s] 43%|████▎     | 4591/10712 [1:05:20<51:01,  2.00it/s] 43%|████▎     | 4592/10712 [1:05:21<50:55,  2.00it/s] 43%|████▎     | 4593/10712 [1:05:21<50:52,  2.00it/s] 43%|████▎     | 4594/10712 [1:05:22<50:59,  2.00it/s] 43%|████▎     | 4595/10712 [1:05:22<50:55,  2.00it/s] 43%|████▎     | 4596/10712 [1:05:23<50:49,  2.01it/s] 43%|████▎     | 4597/10712 [1:05:23<50:48,  2.01it/s] 43%|████▎     | 4598/10712 [1:05:24<50:44,  2.01it/s] 43%|████▎     | 4599/10712 [1:05:24<50:42,  2.01it/s] 43%|████▎     | 4600/10712 [1:05:25<50:43,  2.01it/s]                                                      {'loss': 3.872, 'grad_norm': 0.2141294926404953, 'learning_rate': 0.000704360229338845, 'epoch': 0.43}
+ 43%|████▎     | 4600/10712 [1:05:25<50:43,  2.01it/s] 43%|████▎     | 4601/10712 [1:05:25<50:44,  2.01it/s] 43%|████▎     | 4602/10712 [1:05:26<50:50,  2.00it/s] 43%|████▎     | 4603/10712 [1:05:26<50:47,  2.00it/s] 43%|████▎     | 4604/10712 [1:05:27<50:51,  2.00it/s] 43%|████▎     | 4605/10712 [1:05:27<50:48,  2.00it/s] 43%|████▎     | 4606/10712 [1:05:28<50:48,  2.00it/s] 43%|████▎     | 4607/10712 [1:05:28<50:53,  2.00it/s] 43%|████▎     | 4608/10712 [1:05:29<50:52,  2.00it/s] 43%|████▎     | 4609/10712 [1:05:29<50:50,  2.00it/s] 43%|████▎     | 4610/10712 [1:05:30<50:46,  2.00it/s] 43%|████▎     | 4611/10712 [1:05:30<50:44,  2.00it/s] 43%|████▎     | 4612/10712 [1:05:31<50:48,  2.00it/s] 43%|████▎     | 4613/10712 [1:05:31<50:41,  2.01it/s] 43%|████▎     | 4614/10712 [1:05:32<50:36,  2.01it/s] 43%|████▎     | 4615/10712 [1:05:32<50:37,  2.01it/s] 43%|████▎     | 4616/10712 [1:05:33<50:44,  2.00it/s] 43%|████▎     | 4617/10712 [1:05:33<50:40,  2.00it/s] 43%|████▎     | 4618/10712 [1:05:34<50:40,  2.00it/s] 43%|████▎     | 4619/10712 [1:05:34<51:08,  1.99it/s] 43%|████▎     | 4620/10712 [1:05:35<51:03,  1.99it/s] 43%|████▎     | 4621/10712 [1:05:35<51:00,  1.99it/s] 43%|████▎     | 4622/10712 [1:05:36<50:56,  1.99it/s] 43%|████▎     | 4623/10712 [1:05:36<50:56,  1.99it/s] 43%|████▎     | 4624/10712 [1:05:37<50:50,  2.00it/s] 43%|████▎     | 4625/10712 [1:05:37<50:50,  2.00it/s]                                                      {'loss': 3.8689, 'grad_norm': 0.2034437209367752, 'learning_rate': 0.0007006356394684002, 'epoch': 0.43}
+ 43%|████▎     | 4625/10712 [1:05:37<50:50,  2.00it/s] 43%|████▎     | 4626/10712 [1:05:38<50:48,  2.00it/s] 43%|████▎     | 4627/10712 [1:05:38<50:48,  2.00it/s] 43%|████▎     | 4628/10712 [1:05:39<50:49,  2.00it/s] 43%|████▎     | 4629/10712 [1:05:39<50:47,  2.00it/s] 43%|████▎     | 4630/10712 [1:05:40<50:41,  2.00it/s] 43%|████▎     | 4631/10712 [1:05:40<50:38,  2.00it/s] 43%|████▎     | 4632/10712 [1:05:41<1:00:02,  1.69it/s] 43%|████▎     | 4633/10712 [1:05:42<57:12,  1.77it/s]   43%|████▎     | 4634/10712 [1:05:42<55:05,  1.84it/s] 43%|████▎     | 4635/10712 [1:05:43<53:39,  1.89it/s] 43%|████▎     | 4636/10712 [1:05:43<52:38,  1.92it/s] 43%|████▎     | 4637/10712 [1:05:44<51:56,  1.95it/s] 43%|████▎     | 4638/10712 [1:05:44<51:25,  1.97it/s] 43%|████▎     | 4639/10712 [1:05:45<51:03,  1.98it/s] 43%|████▎     | 4640/10712 [1:05:45<50:54,  1.99it/s] 43%|████▎     | 4641/10712 [1:05:46<50:51,  1.99it/s] 43%|████▎     | 4642/10712 [1:05:46<50:51,  1.99it/s] 43%|████▎     | 4643/10712 [1:05:47<50:43,  1.99it/s] 43%|████▎     | 4644/10712 [1:05:47<50:37,  2.00it/s] 43%|████▎     | 4645/10712 [1:05:48<50:38,  2.00it/s] 43%|████▎     | 4646/10712 [1:05:48<50:37,  2.00it/s] 43%|████▎     | 4647/10712 [1:05:49<50:30,  2.00it/s] 43%|████▎     | 4648/10712 [1:05:49<50:27,  2.00it/s] 43%|████▎     | 4649/10712 [1:05:50<50:27,  2.00it/s] 43%|████▎     | 4650/10712 [1:05:50<50:31,  2.00it/s]                                                      {'loss': 3.8761, 'grad_norm': 0.219057098031044, 'learning_rate': 0.0006968977318321625, 'epoch': 0.43}
+ 43%|████▎     | 4650/10712 [1:05:50<50:31,  2.00it/s] 43%|████▎     | 4651/10712 [1:05:51<1:00:20,  1.67it/s] 43%|████▎     | 4652/10712 [1:05:52<57:31,  1.76it/s]   43%|████▎     | 4653/10712 [1:05:52<55:15,  1.83it/s] 43%|████▎     | 4654/10712 [1:05:53<53:46,  1.88it/s] 43%|████▎     | 4655/10712 [1:05:53<52:45,  1.91it/s] 43%|████▎     | 4656/10712 [1:05:54<51:57,  1.94it/s] 43%|████▎     | 4657/10712 [1:05:54<51:29,  1.96it/s] 43%|████▎     | 4658/10712 [1:05:55<51:08,  1.97it/s] 43%|████▎     | 4659/10712 [1:05:55<50:50,  1.98it/s] 44%|████▎     | 4660/10712 [1:05:56<50:38,  1.99it/s] 44%|████▎     | 4661/10712 [1:05:56<50:40,  1.99it/s] 44%|████▎     | 4662/10712 [1:05:57<50:36,  1.99it/s] 44%|████▎     | 4663/10712 [1:05:57<50:32,  1.99it/s] 44%|████▎     | 4664/10712 [1:05:58<50:28,  2.00it/s] 44%|████▎     | 4665/10712 [1:05:58<50:21,  2.00it/s] 44%|████▎     | 4666/10712 [1:05:59<50:21,  2.00it/s] 44%|████▎     | 4667/10712 [1:05:59<50:27,  2.00it/s] 44%|████▎     | 4668/10712 [1:06:00<50:19,  2.00it/s] 44%|████▎     | 4669/10712 [1:06:00<50:21,  2.00it/s] 44%|████▎     | 4670/10712 [1:06:01<50:21,  2.00it/s] 44%|████▎     | 4671/10712 [1:06:01<50:18,  2.00it/s] 44%|████▎     | 4672/10712 [1:06:02<50:15,  2.00it/s] 44%|████▎     | 4673/10712 [1:06:02<50:19,  2.00it/s] 44%|████▎     | 4674/10712 [1:06:03<50:23,  2.00it/s] 44%|████▎     | 4675/10712 [1:06:03<50:19,  2.00it/s]                                                      {'loss': 3.8611, 'grad_norm': 0.1960822343826294, 'learning_rate': 0.000693146754544468, 'epoch': 0.44}
+ 44%|████▎     | 4675/10712 [1:06:03<50:19,  2.00it/s] 44%|████▎     | 4676/10712 [1:06:04<50:17,  2.00it/s] 44%|████▎     | 4677/10712 [1:06:04<50:17,  2.00it/s] 44%|████▎     | 4678/10712 [1:06:05<50:13,  2.00it/s] 44%|████▎     | 4679/10712 [1:06:05<52:32,  1.91it/s] 44%|████▎     | 4680/10712 [1:06:06<51:50,  1.94it/s] 44%|████▎     | 4681/10712 [1:06:06<51:19,  1.96it/s] 44%|████▎     | 4682/10712 [1:06:07<50:58,  1.97it/s] 44%|████▎     | 4683/10712 [1:06:07<50:40,  1.98it/s] 44%|████▎     | 4684/10712 [1:06:08<50:32,  1.99it/s] 44%|████▎     | 4685/10712 [1:06:08<50:24,  1.99it/s] 44%|████▎     | 4686/10712 [1:06:09<50:19,  2.00it/s] 44%|████▍     | 4687/10712 [1:06:09<50:19,  2.00it/s] 44%|████▍     | 4688/10712 [1:06:10<50:09,  2.00it/s] 44%|████▍     | 4689/10712 [1:06:10<50:05,  2.00it/s] 44%|████▍     | 4690/10712 [1:06:11<50:06,  2.00it/s] 44%|████▍     | 4691/10712 [1:06:11<49:59,  2.01it/s] 44%|████▍     | 4692/10712 [1:06:12<49:57,  2.01it/s] 44%|████▍     | 4693/10712 [1:06:12<49:59,  2.01it/s] 44%|████▍     | 4694/10712 [1:06:13<49:58,  2.01it/s] 44%|████▍     | 4695/10712 [1:06:13<49:55,  2.01it/s] 44%|████▍     | 4696/10712 [1:06:14<49:55,  2.01it/s] 44%|████▍     | 4697/10712 [1:06:14<49:51,  2.01it/s] 44%|████▍     | 4698/10712 [1:06:15<49:52,  2.01it/s] 44%|████▍     | 4699/10712 [1:06:15<49:51,  2.01it/s] 44%|████▍     | 4700/10712 [1:06:16<49:46,  2.01it/s]                                                      {'loss': 3.8659, 'grad_norm': 0.20461201667785645, 'learning_rate': 0.0006893829565871878, 'epoch': 0.44}
+ 44%|████▍     | 4700/10712 [1:06:16<49:46,  2.01it/s] 44%|████▍     | 4701/10712 [1:06:16<49:51,  2.01it/s] 44%|████▍     | 4702/10712 [1:06:17<49:53,  2.01it/s] 44%|████▍     | 4703/10712 [1:06:17<49:50,  2.01it/s] 44%|████▍     | 4704/10712 [1:06:18<49:47,  2.01it/s] 44%|████▍     | 4705/10712 [1:06:18<49:44,  2.01it/s] 44%|████▍     | 4706/10712 [1:06:19<49:42,  2.01it/s] 44%|████▍     | 4707/10712 [1:06:19<49:42,  2.01it/s] 44%|████▍     | 4708/10712 [1:06:20<49:39,  2.01it/s] 44%|████▍     | 4709/10712 [1:06:20<49:42,  2.01it/s] 44%|████▍     | 4710/10712 [1:06:21<51:11,  1.95it/s] 44%|████▍     | 4711/10712 [1:06:21<51:02,  1.96it/s] 44%|████▍     | 4712/10712 [1:06:22<50:50,  1.97it/s] 44%|████▍     | 4713/10712 [1:06:22<50:35,  1.98it/s] 44%|████▍     | 4714/10712 [1:06:23<50:26,  1.98it/s] 44%|████▍     | 4715/10712 [1:06:23<50:18,  1.99it/s] 44%|████▍     | 4716/10712 [1:06:24<50:09,  1.99it/s] 44%|████▍     | 4717/10712 [1:06:24<50:05,  1.99it/s] 44%|████▍     | 4718/10712 [1:06:25<49:57,  2.00it/s] 44%|████▍     | 4719/10712 [1:06:25<49:55,  2.00it/s] 44%|████▍     | 4720/10712 [1:06:26<49:58,  2.00it/s] 44%|████▍     | 4721/10712 [1:06:26<49:57,  2.00it/s] 44%|████▍     | 4722/10712 [1:06:27<50:00,  2.00it/s] 44%|████▍     | 4723/10712 [1:06:27<49:57,  2.00it/s] 44%|████▍     | 4724/10712 [1:06:28<49:54,  2.00it/s] 44%|████▍     | 4725/10712 [1:06:28<49:48,  2.00it/s]                                                      {'loss': 3.865, 'grad_norm': 0.21092836558818817, 'learning_rate': 0.0006856065877932025, 'epoch': 0.44}
+ 44%|████▍     | 4725/10712 [1:06:28<49:48,  2.00it/s] 44%|████▍     | 4726/10712 [1:06:29<49:48,  2.00it/s] 44%|████▍     | 4727/10712 [1:06:29<49:49,  2.00it/s] 44%|████▍     | 4728/10712 [1:06:30<49:48,  2.00it/s] 44%|████▍     | 4729/10712 [1:06:30<49:45,  2.00it/s] 44%|████▍     | 4730/10712 [1:06:31<49:42,  2.01it/s] 44%|████▍     | 4731/10712 [1:06:31<49:40,  2.01it/s] 44%|████▍     | 4732/10712 [1:06:32<49:35,  2.01it/s] 44%|████▍     | 4733/10712 [1:06:32<49:36,  2.01it/s] 44%|████▍     | 4734/10712 [1:06:33<49:37,  2.01it/s] 44%|████▍     | 4735/10712 [1:06:33<49:34,  2.01it/s] 44%|████▍     | 4736/10712 [1:06:34<49:34,  2.01it/s] 44%|████▍     | 4737/10712 [1:06:34<49:32,  2.01it/s] 44%|████▍     | 4738/10712 [1:06:35<49:32,  2.01it/s] 44%|████▍     | 4739/10712 [1:06:35<49:34,  2.01it/s] 44%|████▍     | 4740/10712 [1:06:36<49:37,  2.01it/s] 44%|████▍     | 4741/10712 [1:06:36<49:31,  2.01it/s] 44%|████▍     | 4742/10712 [1:06:37<50:06,  1.99it/s] 44%|████▍     | 4743/10712 [1:06:37<50:03,  1.99it/s] 44%|████▍     | 4744/10712 [1:06:38<50:01,  1.99it/s] 44%|████▍     | 4745/10712 [1:06:38<49:55,  1.99it/s] 44%|████▍     | 4746/10712 [1:06:39<49:51,  1.99it/s] 44%|████▍     | 4747/10712 [1:06:39<49:48,  2.00it/s] 44%|████▍     | 4748/10712 [1:06:40<49:43,  2.00it/s] 44%|████▍     | 4749/10712 [1:06:40<49:39,  2.00it/s] 44%|████▍     | 4750/10712 [1:06:41<49:35,  2.00it/s]                                                      {'loss': 3.8661, 'grad_norm': 0.22660763561725616, 'learning_rate': 0.0006818178988298176, 'epoch': 0.44}
+ 44%|████▍     | 4750/10712 [1:06:41<49:35,  2.00it/s] 44%|████▍     | 4751/10712 [1:06:41<49:45,  2.00it/s] 44%|████▍     | 4752/10712 [1:06:42<49:42,  2.00it/s] 44%|████▍     | 4753/10712 [1:06:42<49:34,  2.00it/s] 44%|████▍     | 4754/10712 [1:06:43<49:30,  2.01it/s] 44%|████▍     | 4755/10712 [1:06:43<49:28,  2.01it/s] 44%|████▍     | 4756/10712 [1:06:44<49:29,  2.01it/s] 44%|████▍     | 4757/10712 [1:06:44<49:28,  2.01it/s] 44%|████▍     | 4758/10712 [1:06:45<49:26,  2.01it/s] 44%|████▍     | 4759/10712 [1:06:45<49:23,  2.01it/s] 44%|████▍     | 4760/10712 [1:06:46<49:26,  2.01it/s] 44%|████▍     | 4761/10712 [1:06:46<49:25,  2.01it/s] 44%|████▍     | 4762/10712 [1:06:47<49:21,  2.01it/s] 44%|████▍     | 4763/10712 [1:06:47<49:21,  2.01it/s] 44%|��███▍     | 4764/10712 [1:06:48<49:24,  2.01it/s] 44%|████▍     | 4765/10712 [1:06:48<49:25,  2.01it/s] 44%|████▍     | 4766/10712 [1:06:49<49:31,  2.00it/s] 45%|████▍     | 4767/10712 [1:06:49<49:33,  2.00it/s] 45%|████▍     | 4768/10712 [1:06:50<49:39,  2.00it/s] 45%|████▍     | 4769/10712 [1:06:50<49:32,  2.00it/s] 45%|████▍     | 4770/10712 [1:06:51<49:32,  2.00it/s] 45%|████▍     | 4771/10712 [1:06:51<49:31,  2.00it/s] 45%|████▍     | 4772/10712 [1:06:52<49:30,  2.00it/s] 45%|████▍     | 4773/10712 [1:06:52<49:28,  2.00it/s] 45%|████▍     | 4774/10712 [1:06:53<49:23,  2.00it/s] 45%|████▍     | 4775/10712 [1:06:53<49:22,  2.00it/s]                                                      {'loss': 3.8626, 'grad_norm': 0.21123173832893372, 'learning_rate': 0.000678017141182125, 'epoch': 0.45}
+ 45%|████▍     | 4775/10712 [1:06:53<49:22,  2.00it/s] 45%|████▍     | 4776/10712 [1:06:54<49:35,  2.00it/s] 45%|████▍     | 4777/10712 [1:06:54<49:28,  2.00it/s] 45%|████▍     | 4778/10712 [1:06:55<49:26,  2.00it/s] 45%|████▍     | 4779/10712 [1:06:55<49:28,  2.00it/s] 45%|████▍     | 4780/10712 [1:06:56<49:31,  2.00it/s] 45%|████▍     | 4781/10712 [1:06:56<49:29,  2.00it/s] 45%|████▍     | 4782/10712 [1:06:57<49:26,  2.00it/s] 45%|████▍     | 4783/10712 [1:06:57<49:19,  2.00it/s] 45%|████▍     | 4784/10712 [1:06:58<49:20,  2.00it/s] 45%|████▍     | 4785/10712 [1:06:58<49:22,  2.00it/s] 45%|████▍     | 4786/10712 [1:06:59<49:17,  2.00it/s] 45%|████▍     | 4787/10712 [1:06:59<49:13,  2.01it/s] 45%|████▍     | 4788/10712 [1:07:00<49:14,  2.01it/s] 45%|████▍     | 4789/10712 [1:07:00<49:12,  2.01it/s] 45%|████▍     | 4790/10712 [1:07:01<49:13,  2.00it/s] 45%|████▍     | 4791/10712 [1:07:01<49:15,  2.00it/s] 45%|████▍     | 4792/10712 [1:07:02<49:24,  2.00it/s] 45%|████▍     | 4793/10712 [1:07:02<49:30,  1.99it/s] 45%|████▍     | 4794/10712 [1:07:03<49:53,  1.98it/s] 45%|████▍     | 4795/10712 [1:07:03<49:42,  1.98it/s] 45%|████▍     | 4796/10712 [1:07:04<49:36,  1.99it/s] 45%|████▍     | 4797/10712 [1:07:04<49:30,  1.99it/s] 45%|████▍     | 4798/10712 [1:07:05<49:30,  1.99it/s] 45%|████▍     | 4799/10712 [1:07:05<49:20,  2.00it/s] 45%|████▍     | 4800/10712 [1:07:06<49:21,  2.00it/s]                                                      {'loss': 3.8614, 'grad_norm': 0.20315948128700256, 'learning_rate': 0.0006742045671363106, 'epoch': 0.45}
+ 45%|████▍     | 4800/10712 [1:07:06<49:21,  2.00it/s] 45%|████▍     | 4801/10712 [1:07:06<49:28,  1.99it/s] 45%|████▍     | 4802/10712 [1:07:07<49:26,  1.99it/s] 45%|████▍     | 4803/10712 [1:07:07<49:30,  1.99it/s] 45%|████▍     | 4804/10712 [1:07:08<49:24,  1.99it/s] 45%|████▍     | 4805/10712 [1:07:08<49:29,  1.99it/s] 45%|████▍     | 4806/10712 [1:07:09<49:26,  1.99it/s] 45%|████▍     | 4807/10712 [1:07:09<49:20,  1.99it/s] 45%|████▍     | 4808/10712 [1:07:10<49:17,  2.00it/s] 45%|████▍     | 4809/10712 [1:07:10<49:13,  2.00it/s] 45%|████▍     | 4810/10712 [1:07:11<49:12,  2.00it/s] 45%|████▍     | 4811/10712 [1:07:11<49:10,  2.00it/s] 45%|████▍     | 4812/10712 [1:07:12<49:12,  2.00it/s] 45%|████▍     | 4813/10712 [1:07:12<49:09,  2.00it/s] 45%|████▍     | 4814/10712 [1:07:13<49:06,  2.00it/s] 45%|████▍     | 4815/10712 [1:07:13<49:12,  2.00it/s] 45%|████▍     | 4816/10712 [1:07:14<49:14,  2.00it/s] 45%|████▍     | 4817/10712 [1:07:14<49:07,  2.00it/s] 45%|████▍     | 4818/10712 [1:07:15<49:07,  2.00it/s] 45%|████▍     | 4819/10712 [1:07:15<49:05,  2.00it/s] 45%|████▍     | 4820/10712 [1:07:16<49:15,  1.99it/s] 45%|████▌     | 4821/10712 [1:07:16<49:19,  1.99it/s] 45%|████▌     | 4822/10712 [1:07:17<49:14,  1.99it/s] 45%|████▌     | 4823/10712 [1:07:17<49:10,  2.00it/s] 45%|████▌     | 4824/10712 [1:07:18<49:07,  2.00it/s] 45%|████▌     | 4825/10712 [1:07:18<49:05,  2.00it/s]                                                      {'loss': 3.8619, 'grad_norm': 0.20469607412815094, 'learning_rate': 0.0006703804297629074, 'epoch': 0.45}
+ 45%|████▌     | 4825/10712 [1:07:18<49:05,  2.00it/s] 45%|████▌     | 4826/10712 [1:07:19<49:14,  1.99it/s] 45%|████▌     | 4827/10712 [1:07:19<49:10,  1.99it/s] 45%|████▌     | 4828/10712 [1:07:20<49:08,  2.00it/s] 45%|████▌     | 4829/10712 [1:07:20<49:02,  2.00it/s] 45%|████▌     | 4830/10712 [1:07:21<49:05,  2.00it/s] 45%|████▌     | 4831/10712 [1:07:21<49:02,  2.00it/s] 45%|████▌     | 4832/10712 [1:07:22<49:02,  2.00it/s] 45%|████▌     | 4833/10712 [1:07:22<49:02,  2.00it/s] 45%|████▌     | 4834/10712 [1:07:23<49:11,  1.99it/s] 45%|████▌     | 4835/10712 [1:07:23<50:55,  1.92it/s] 45%|████▌     | 4836/10712 [1:07:24<50:22,  1.94it/s] 45%|████▌     | 4837/10712 [1:07:24<49:57,  1.96it/s] 45%|████▌     | 4838/10712 [1:07:25<49:38,  1.97it/s] 45%|████▌     | 4839/10712 [1:07:25<49:29,  1.98it/s] 45%|████▌     | 4840/10712 [1:07:26<49:19,  1.98it/s] 45%|████▌     | 4841/10712 [1:07:26<49:11,  1.99it/s] 45%|████▌     | 4842/10712 [1:07:27<49:03,  1.99it/s] 45%|████▌     | 4843/10712 [1:07:27<49:00,  2.00it/s] 45%|████▌     | 4844/10712 [1:07:28<48:57,  2.00it/s] 45%|████▌     | 4845/10712 [1:07:28<49:03,  1.99it/s] 45%|████▌     | 4846/10712 [1:07:29<48:59,  2.00it/s] 45%|████▌     | 4847/10712 [1:07:29<48:56,  2.00it/s] 45%|████▌     | 4848/10712 [1:07:30<48:55,  2.00it/s] 45%|████▌     | 4849/10712 [1:07:30<48:55,  2.00it/s] 45%|████▌     | 4850/10712 [1:07:31<48:51,  2.00it/s]                                                      {'loss': 3.858, 'grad_norm': 0.2119603455066681, 'learning_rate': 0.0006665449828999971, 'epoch': 0.45}
+ 45%|████▌     | 4850/10712 [1:07:31<48:51,  2.00it/s] 45%|████▌     | 4851/10712 [1:07:31<48:51,  2.00it/s] 45%|████▌     | 4852/10712 [1:07:32<48:56,  2.00it/s] 45%|████▌     | 4853/10712 [1:07:32<48:54,  2.00it/s] 45%|████▌     | 4854/10712 [1:07:33<48:53,  2.00it/s] 45%|████▌     | 4855/10712 [1:07:33<48:53,  2.00it/s] 45%|████▌     | 4856/10712 [1:07:34<48:51,  2.00it/s] 45%|████▌     | 4857/10712 [1:07:34<48:51,  2.00it/s] 45%|████▌     | 4858/10712 [1:07:35<48:50,  2.00it/s] 45%|████▌     | 4859/10712 [1:07:35<48:49,  2.00it/s] 45%|████▌     | 4860/10712 [1:07:36<48:48,  2.00it/s] 45%|████▌     | 4861/10712 [1:07:36<48:51,  2.00it/s] 45%|████▌     | 4862/10712 [1:07:37<48:49,  2.00it/s] 45%|████▌     | 4863/10712 [1:07:37<48:47,  2.00it/s] 45%|████▌     | 4864/10712 [1:07:38<48:45,  2.00it/s] 45%|████▌     | 4865/10712 [1:07:38<48:48,  2.00it/s] 45%|████▌     | 4866/10712 [1:07:39<48:57,  1.99it/s] 45%|████▌     | 4867/10712 [1:07:39<48:56,  1.99it/s] 45%|████▌     | 4868/10712 [1:07:40<48:51,  1.99it/s] 45%|████▌     | 4869/10712 [1:07:40<48:53,  1.99it/s] 45%|████▌     | 4870/10712 [1:07:41<48:49,  1.99it/s] 45%|████▌     | 4871/10712 [1:07:41<48:44,  2.00it/s] 45%|████▌     | 4872/10712 [1:07:42<48:45,  2.00it/s] 45%|████▌     | 4873/10712 [1:07:42<48:45,  2.00it/s] 46%|████▌     | 4874/10712 [1:07:43<48:44,  2.00it/s] 46%|████▌     | 4875/10712 [1:07:43<48:41,  2.00it/s]                                                      {'loss': 3.8568, 'grad_norm': 0.20451584458351135, 'learning_rate': 0.0006626984811363616, 'epoch': 0.46}
+ 46%|████▌     | 4875/10712 [1:07:43<48:41,  2.00it/s] 46%|████▌     | 4876/10712 [1:07:44<48:46,  1.99it/s] 46%|████▌     | 4877/10712 [1:07:44<48:40,  2.00it/s] 46%|████▌     | 4878/10712 [1:07:45<48:43,  2.00it/s] 46%|████▌     | 4879/10712 [1:07:45<48:43,  2.00it/s] 46%|████▌     | 4880/10712 [1:07:46<48:40,  2.00it/s] 46%|████▌     | 4881/10712 [1:07:46<48:43,  1.99it/s] 46%|████▌     | 4882/10712 [1:07:47<48:37,  2.00it/s] 46%|████▌     | 4883/10712 [1:07:47<48:41,  2.00it/s] 46%|████▌     | 4884/10712 [1:07:48<48:39,  2.00it/s] 46%|████▌     | 4885/10712 [1:07:48<48:40,  2.00it/s] 46%|████▌     | 4886/10712 [1:07:49<48:33,  2.00it/s] 46%|████▌     | 4887/10712 [1:07:49<48:32,  2.00it/s] 46%|████▌     | 4888/10712 [1:07:50<48:34,  2.00it/s] 46%|████▌     | 4889/10712 [1:07:50<48:26,  2.00it/s] 46%|████▌     | 4890/10712 [1:07:51<48:35,  2.00it/s] 46%|████▌     | 4891/10712 [1:07:51<48:34,  2.00it/s] 46%|████▌     | 4892/10712 [1:07:52<48:32,  2.00it/s] 46%|████▌     | 4893/10712 [1:07:52<48:31,  2.00it/s] 46%|████▌     | 4894/10712 [1:07:53<48:31,  2.00it/s] 46%|████▌     | 4895/10712 [1:07:53<48:27,  2.00it/s] 46%|████▌     | 4896/10712 [1:07:54<48:27,  2.00it/s] 46%|████▌     | 4897/10712 [1:07:54<48:30,  2.00it/s] 46%|████▌     | 4898/10712 [1:07:55<48:26,  2.00it/s] 46%|████▌     | 4899/10712 [1:07:55<48:23,  2.00it/s] 46%|████▌     | 4900/10712 [1:07:56<48:22,  2.00it/s]                                                      {'loss': 3.8575, 'grad_norm': 0.20463266968727112, 'learning_rate': 0.0006588411797945836, 'epoch': 0.46}
+ 46%|████▌     | 4900/10712 [1:07:56<48:22,  2.00it/s] 46%|████▌     | 4901/10712 [1:07:56<48:28,  2.00it/s] 46%|████▌     | 4902/10712 [1:07:57<48:30,  2.00it/s] 46%|████▌     | 4903/10712 [1:07:57<48:25,  2.00it/s] 46%|████▌     | 4904/10712 [1:07:58<48:28,  2.00it/s] 46%|████▌     | 4905/10712 [1:07:58<48:29,  2.00it/s] 46%|████▌     | 4906/10712 [1:07:59<48:27,  2.00it/s] 46%|████▌     | 4907/10712 [1:07:59<48:26,  2.00it/s] 46%|████▌     | 4908/10712 [1:08:00<48:29,  2.00it/s] 46%|████▌     | 4909/10712 [1:08:00<48:24,  2.00it/s] 46%|████▌     | 4910/10712 [1:08:01<48:23,  2.00it/s] 46%|████▌     | 4911/10712 [1:08:01<48:24,  2.00it/s] 46%|████▌     | 4912/10712 [1:08:02<48:19,  2.00it/s] 46%|████▌     | 4913/10712 [1:08:02<48:20,  2.00it/s] 46%|████▌     | 4914/10712 [1:08:03<48:26,  1.99it/s] 46%|████▌     | 4915/10712 [1:08:03<48:34,  1.99it/s] 46%|████▌     | 4916/10712 [1:08:04<48:33,  1.99it/s] 46%|████▌     | 4917/10712 [1:08:04<48:32,  1.99it/s] 46%|████▌     | 4918/10712 [1:08:05<48:24,  1.99it/s] 46%|████▌     | 4919/10712 [1:08:05<48:19,  2.00it/s] 46%|████▌     | 4920/10712 [1:08:06<48:21,  2.00it/s] 46%|████▌     | 4921/10712 [1:08:06<48:18,  2.00it/s] 46%|████▌     | 4922/10712 [1:08:07<48:18,  2.00it/s] 46%|████▌     | 4923/10712 [1:08:07<48:17,  2.00it/s] 46%|████▌     | 4924/10712 [1:08:08<48:13,  2.00it/s] 46%|████▌     | 4925/10712 [1:08:08<48:13,  2.00it/s]                                                      {'loss': 3.8472, 'grad_norm': 0.2138034999370575, 'learning_rate': 0.0006549733349140982, 'epoch': 0.46}
+ 46%|████▌     | 4925/10712 [1:08:08<48:13,  2.00it/s] 46%|████▌     | 4926/10712 [1:08:09<48:17,  2.00it/s] 46%|████▌     | 4927/10712 [1:08:09<48:21,  1.99it/s] 46%|████▌     | 4928/10712 [1:08:10<48:12,  2.00it/s] 46%|████▌     | 4929/10712 [1:08:10<48:07,  2.00it/s] 46%|████▌     | 4930/10712 [1:08:11<48:04,  2.00it/s] 46%|████▌     | 4931/10712 [1:08:11<47:57,  2.01it/s] 46%|████▌     | 4932/10712 [1:08:12<47:57,  2.01it/s] 46%|████▌     | 4933/10712 [1:08:12<48:03,  2.00it/s] 46%|████▌     | 4934/10712 [1:08:13<48:03,  2.00it/s] 46%|████▌     | 4935/10712 [1:08:13<48:06,  2.00it/s] 46%|████▌     | 4936/10712 [1:08:14<48:05,  2.00it/s] 46%|████▌     | 4937/10712 [1:08:14<48:12,  2.00it/s] 46%|████▌     | 4938/10712 [1:08:15<48:06,  2.00it/s] 46%|████▌     | 4939/10712 [1:08:15<48:19,  1.99it/s] 46%|████▌     | 4940/10712 [1:08:16<48:16,  1.99it/s] 46%|████▌     | 4941/10712 [1:08:16<48:35,  1.98it/s] 46%|████▌     | 4942/10712 [1:08:17<50:07,  1.92it/s] 46%|████▌     | 4943/10712 [1:08:17<49:35,  1.94it/s] 46%|████▌     | 4944/10712 [1:08:18<49:06,  1.96it/s] 46%|████▌     | 4945/10712 [1:08:18<48:45,  1.97it/s] 46%|████▌     | 4946/10712 [1:08:19<48:31,  1.98it/s] 46%|████▌     | 4947/10712 [1:08:19<48:20,  1.99it/s] 46%|████▌     | 4948/10712 [1:08:20<48:13,  1.99it/s] 46%|████▌     | 4949/10712 [1:08:20<48:09,  1.99it/s] 46%|████▌     | 4950/10712 [1:08:21<48:03,  2.00it/s]                                                      {'loss': 3.8502, 'grad_norm': 0.21833238005638123, 'learning_rate': 0.0006510952032341988, 'epoch': 0.46}
+ 46%|████▌     | 4950/10712 [1:08:21<48:03,  2.00it/s] 46%|████▌     | 4951/10712 [1:08:21<48:04,  2.00it/s] 46%|████▌     | 4952/10712 [1:08:22<47:57,  2.00it/s] 46%|████▌     | 4953/10712 [1:08:22<47:50,  2.01it/s] 46%|████▌     | 4954/10712 [1:08:23<47:49,  2.01it/s] 46%|████▋     | 4955/10712 [1:08:23<47:47,  2.01it/s] 46%|████▋     | 4956/10712 [1:08:24<47:45,  2.01it/s] 46%|████▋     | 4957/10712 [1:08:24<47:44,  2.01it/s] 46%|████▋     | 4958/10712 [1:08:25<47:44,  2.01it/s] 46%|████▋     | 4959/10712 [1:08:25<47:42,  2.01it/s] 46%|████▋     | 4960/10712 [1:08:26<48:30,  1.98it/s] 46%|████▋     | 4961/10712 [1:08:26<48:22,  1.98it/s] 46%|████▋     | 4962/10712 [1:08:27<48:20,  1.98it/s] 46%|████▋     | 4963/10712 [1:08:27<48:09,  1.99it/s] 46%|████▋     | 4964/10712 [1:08:28<48:00,  2.00it/s] 46%|████▋     | 4965/10712 [1:08:28<47:58,  2.00it/s] 46%|████▋     | 4966/10712 [1:08:29<47:59,  2.00it/s] 46%|████▋     | 4967/10712 [1:08:29<47:56,  2.00it/s] 46%|████▋     | 4968/10712 [1:08:30<48:08,  1.99it/s] 46%|████▋     | 4969/10712 [1:08:30<48:10,  1.99it/s] 46%|████▋     | 4970/10712 [1:08:31<48:01,  1.99it/s] 46%|████▋     | 4971/10712 [1:08:31<48:00,  1.99it/s] 46%|████▋     | 4972/10712 [1:08:32<47:53,  2.00it/s] 46%|████▋     | 4973/10712 [1:08:32<47:55,  2.00it/s] 46%|████▋     | 4974/10712 [1:08:33<47:51,  2.00it/s] 46%|████▋     | 4975/10712 [1:08:33<47:44,  2.00it/s]                                                      {'loss': 3.8464, 'grad_norm': 0.21125322580337524, 'learning_rate': 0.000647207042176994, 'epoch': 0.46}
+ 46%|████▋     | 4975/10712 [1:08:33<47:44,  2.00it/s] 46%|████▋     | 4976/10712 [1:08:34<47:46,  2.00it/s] 46%|████▋     | 4977/10712 [1:08:34<47:41,  2.00it/s] 46%|████▋     | 4978/10712 [1:08:35<47:41,  2.00it/s] 46%|████▋     | 4979/10712 [1:08:35<47:38,  2.01it/s] 46%|████▋     | 4980/10712 [1:08:36<47:35,  2.01it/s] 46%|████▋     | 4981/10712 [1:08:36<47:36,  2.01it/s] 47%|████▋     | 4982/10712 [1:08:37<47:35,  2.01it/s] 47%|████▋     | 4983/10712 [1:08:37<47:43,  2.00it/s] 47%|████▋     | 4984/10712 [1:08:38<47:42,  2.00it/s] 47%|████▋     | 4985/10712 [1:08:38<47:46,  2.00it/s] 47%|████▋     | 4986/10712 [1:08:39<47:38,  2.00it/s] 47%|████▋     | 4987/10712 [1:08:39<47:36,  2.00it/s] 47%|████▋     | 4988/10712 [1:08:40<47:33,  2.01it/s] 47%|████▋     | 4989/10712 [1:08:40<47:32,  2.01it/s] 47%|████▋     | 4990/10712 [1:08:41<47:36,  2.00it/s] 47%|████▋     | 4991/10712 [1:08:41<47:38,  2.00it/s] 47%|████▋     | 4992/10712 [1:08:42<47:35,  2.00it/s] 47%|████▋     | 4993/10712 [1:08:42<47:37,  2.00it/s] 47%|████▋     | 4994/10712 [1:08:43<47:33,  2.00it/s] 47%|████▋     | 4995/10712 [1:08:43<48:09,  1.98it/s] 47%|████▋     | 4996/10712 [1:08:44<47:58,  1.99it/s] 47%|████▋     | 4997/10712 [1:08:44<47:52,  1.99it/s] 47%|████▋     | 4998/10712 [1:08:45<47:45,  1.99it/s] 47%|████▋     | 4999/10712 [1:08:45<47:43,  2.00it/s] 47%|████▋     | 5000/10712 [1:08:46<47:40,  2.00it/s]                                                      {'loss': 3.853, 'grad_norm': 0.20933189988136292, 'learning_rate': 0.0006433091098303216, 'epoch': 0.47}
+ 47%|████▋     | 5000/10712 [1:08:46<47:40,  2.00it/s] 47%|████▋     | 5001/10712 [1:08:46<47:39,  2.00it/s] 47%|████▋     | 5002/10712 [1:08:47<47:39,  2.00it/s] 47%|████▋     | 5003/10712 [1:08:47<47:34,  2.00it/s] 47%|████▋     | 5004/10712 [1:08:48<47:30,  2.00it/s] 47%|████▋     | 5005/10712 [1:08:48<47:25,  2.01it/s] 47%|████▋     | 5006/10712 [1:08:49<47:23,  2.01it/s] 47%|████▋     | 5007/10712 [1:08:49<47:23,  2.01it/s] 47%|████▋     | 5008/10712 [1:08:50<47:22,  2.01it/s] 47%|████▋     | 5009/10712 [1:08:50<47:23,  2.01it/s] 47%|████▋     | 5010/10712 [1:08:51<47:24,  2.00it/s] 47%|████▋     | 5011/10712 [1:08:51<47:17,  2.01it/s] 47%|████▋     | 5012/10712 [1:08:52<47:18,  2.01it/s] 47%|████▋     | 5013/10712 [1:08:52<47:19,  2.01it/s] 47%|████▋     | 5014/10712 [1:08:53<47:13,  2.01it/s] 47%|████▋     | 5015/10712 [1:08:53<47:10,  2.01it/s] 47%|████▋     | 5016/10712 [1:08:54<47:08,  2.01it/s] 47%|████▋     | 5017/10712 [1:08:54<47:16,  2.01it/s] 47%|████▋     | 5018/10712 [1:08:55<47:20,  2.00it/s] 47%|████▋     | 5019/10712 [1:08:55<47:22,  2.00it/s] 47%|████▋     | 5020/10712 [1:08:56<47:22,  2.00it/s] 47%|████▋     | 5021/10712 [1:08:56<47:25,  2.00it/s] 47%|████▋     | 5022/10712 [1:08:57<47:26,  2.00it/s] 47%|████▋     | 5023/10712 [1:08:57<47:27,  2.00it/s] 47%|████▋     | 5024/10712 [1:08:58<47:30,  2.00it/s] 47%|████▋     | 5025/10712 [1:08:58<47:33,  1.99it/s]                                                      {'loss': 3.8444, 'grad_norm': 0.21680133044719696, 'learning_rate': 0.0006394016649306164, 'epoch': 0.47}
+ 47%|████▋     | 5025/10712 [1:08:58<47:33,  1.99it/s] 47%|████▋     | 5026/10712 [1:08:59<47:35,  1.99it/s] 47%|████▋     | 5027/10712 [1:08:59<47:26,  2.00it/s] 47%|████▋     | 5028/10712 [1:09:00<47:24,  2.00it/s] 47%|████▋     | 5029/10712 [1:09:00<47:26,  2.00it/s] 47%|████▋     | 5030/10712 [1:09:01<47:22,  2.00it/s] 47%|████▋     | 5031/10712 [1:09:01<47:17,  2.00it/s] 47%|████▋     | 5032/10712 [1:09:02<47:16,  2.00it/s] 47%|████▋     | 5033/10712 [1:09:02<47:11,  2.01it/s] 47%|████▋     | 5034/10712 [1:09:03<47:23,  2.00it/s] 47%|████▋     | 5035/10712 [1:09:03<47:20,  2.00it/s] 47%|████▋     | 5036/10712 [1:09:04<47:20,  2.00it/s] 47%|████▋     | 5037/10712 [1:09:04<47:15,  2.00it/s] 47%|████▋     | 5038/10712 [1:09:05<47:13,  2.00it/s] 47%|████▋     | 5039/10712 [1:09:05<47:14,  2.00it/s] 47%|████▋     | 5040/10712 [1:09:06<47:15,  2.00it/s] 47%|████▋     | 5041/10712 [1:09:06<47:09,  2.00it/s] 47%|████▋     | 5042/10712 [1:09:07<47:08,  2.00it/s] 47%|████▋     | 5043/10712 [1:09:07<47:11,  2.00it/s] 47%|████▋     | 5044/10712 [1:09:08<47:06,  2.01it/s] 47%|████▋     | 5045/10712 [1:09:08<47:04,  2.01it/s] 47%|████▋     | 5046/10712 [1:09:09<47:06,  2.00it/s] 47%|████▋     | 5047/10712 [1:09:09<47:03,  2.01it/s] 47%|████▋     | 5048/10712 [1:09:10<46:59,  2.01it/s] 47%|████▋     | 5049/10712 [1:09:10<46:57,  2.01it/s] 47%|████▋     | 5050/10712 [1:09:11<46:56,  2.01it/s]                                                      {'loss': 3.8452, 'grad_norm': 0.2101084291934967, 'learning_rate': 0.0006354849668457362, 'epoch': 0.47}
+ 47%|████▋     | 5050/10712 [1:09:11<46:56,  2.01it/s] 47%|████▋     | 5051/10712 [1:09:11<46:59,  2.01it/s] 47%|████▋     | 5052/10712 [1:09:12<46:58,  2.01it/s] 47%|████▋     | 5053/10712 [1:09:12<46:54,  2.01it/s] 47%|████▋     | 5054/10712 [1:09:13<46:58,  2.01it/s] 47%|████▋     | 5055/10712 [1:09:13<47:06,  2.00it/s] 47%|████▋     | 5056/10712 [1:09:14<47:10,  2.00it/s] 47%|████▋     | 5057/10712 [1:09:14<47:08,  2.00it/s] 47%|████▋     | 5058/10712 [1:09:15<47:03,  2.00it/s] 47%|████▋     | 5059/10712 [1:09:15<47:05,  2.00it/s] 47%|████▋     | 5060/10712 [1:09:16<47:02,  2.00it/s] 47%|████▋     | 5061/10712 [1:09:16<47:27,  1.98it/s] 47%|████▋     | 5062/10712 [1:09:17<47:21,  1.99it/s] 47%|████▋     | 5063/10712 [1:09:17<47:21,  1.99it/s] 47%|████▋     | 5064/10712 [1:09:18<47:12,  1.99it/s] 47%|████▋     | 5065/10712 [1:09:18<47:04,  2.00it/s] 47%|████▋     | 5066/10712 [1:09:19<47:00,  2.00it/s] 47%|████▋     | 5067/10712 [1:09:19<47:03,  2.00it/s] 47%|████▋     | 5068/10712 [1:09:20<46:57,  2.00it/s] 47%|████▋     | 5069/10712 [1:09:20<47:00,  2.00it/s] 47%|████▋     | 5070/10712 [1:09:21<46:56,  2.00it/s] 47%|████▋     | 5071/10712 [1:09:21<46:57,  2.00it/s] 47%|████▋     | 5072/10712 [1:09:22<46:57,  2.00it/s] 47%|████▋     | 5073/10712 [1:09:22<46:52,  2.01it/s] 47%|████▋     | 5074/10712 [1:09:23<46:51,  2.01it/s] 47%|████▋     | 5075/10712 [1:09:23<46:54,  2.00it/s]                                                      {'loss': 3.8442, 'grad_norm': 0.2246551811695099, 'learning_rate': 0.0006315592755577455, 'epoch': 0.47}
+ 47%|████▋     | 5075/10712 [1:09:23<46:54,  2.00it/s] 47%|████▋     | 5076/10712 [1:09:24<47:01,  2.00it/s] 47%|████▋     | 5077/10712 [1:09:24<46:59,  2.00it/s] 47%|████▋     | 5078/10712 [1:09:25<47:06,  1.99it/s] 47%|████▋     | 5079/10712 [1:09:25<48:00,  1.96it/s] 47%|████▋     | 5080/10712 [1:09:26<47:44,  1.97it/s] 47%|████▋     | 5081/10712 [1:09:26<48:55,  1.92it/s] 47%|████▋     | 5082/10712 [1:09:27<48:20,  1.94it/s] 47%|████▋     | 5083/10712 [1:09:27<47:52,  1.96it/s] 47%|████▋     | 5084/10712 [1:09:28<47:28,  1.98it/s] 47%|████▋     | 5085/10712 [1:09:28<47:19,  1.98it/s] 47%|████▋     | 5086/10712 [1:09:29<47:07,  1.99it/s] 47%|████▋     | 5087/10712 [1:09:29<46:58,  2.00it/s] 47%|████▋     | 5088/10712 [1:09:30<46:59,  1.99it/s] 48%|████▊     | 5089/10712 [1:09:30<46:59,  1.99it/s] 48%|████▊     | 5090/10712 [1:09:31<46:55,  2.00it/s] 48%|████▊     | 5091/10712 [1:09:31<46:53,  2.00it/s] 48%|████▊     | 5092/10712 [1:09:32<46:53,  2.00it/s] 48%|████▊     | 5093/10712 [1:09:32<46:51,  2.00it/s] 48%|████▊     | 5094/10712 [1:09:33<46:50,  2.00it/s] 48%|████▊     | 5095/10712 [1:09:33<46:51,  2.00it/s] 48%|████▊     | 5096/10712 [1:09:34<46:48,  2.00it/s] 48%|████▊     | 5097/10712 [1:09:34<46:42,  2.00it/s] 48%|████▊     | 5098/10712 [1:09:35<46:40,  2.00it/s] 48%|████▊     | 5099/10712 [1:09:35<46:43,  2.00it/s] 48%|████▊     | 5100/10712 [1:09:36<46:45,  2.00it/s]                                                      {'loss': 3.8416, 'grad_norm': 0.20728498697280884, 'learning_rate': 0.0006276248516456589, 'epoch': 0.48}
+ 48%|████▊     | 5100/10712 [1:09:36<46:45,  2.00it/s] 48%|████▊     | 5101/10712 [1:09:36<46:48,  2.00it/s] 48%|████▊     | 5102/10712 [1:09:37<46:47,  2.00it/s] 48%|████▊     | 5103/10712 [1:09:37<46:46,  2.00it/s] 48%|████▊     | 5104/10712 [1:09:38<46:42,  2.00it/s] 48%|████▊     | 5105/10712 [1:09:38<46:39,  2.00it/s] 48%|████▊     | 5106/10712 [1:09:39<46:39,  2.00it/s] 48%|████▊     | 5107/10712 [1:09:39<46:40,  2.00it/s] 48%|████▊     | 5108/10712 [1:09:40<46:34,  2.01it/s] 48%|████▊     | 5109/10712 [1:09:40<46:30,  2.01it/s] 48%|████▊     | 5110/10712 [1:09:41<46:31,  2.01it/s] 48%|████▊     | 5111/10712 [1:09:41<46:28,  2.01it/s] 48%|████▊     | 5112/10712 [1:09:42<46:25,  2.01it/s] 48%|████▊     | 5113/10712 [1:09:42<46:26,  2.01it/s] 48%|████▊     | 5114/10712 [1:09:43<46:25,  2.01it/s] 48%|████▊     | 5115/10712 [1:09:43<46:27,  2.01it/s] 48%|████▊     | 5116/10712 [1:09:44<46:30,  2.01it/s] 48%|████▊     | 5117/10712 [1:09:44<46:28,  2.01it/s] 48%|████▊     | 5118/10712 [1:09:45<46:35,  2.00it/s] 48%|████▊     | 5119/10712 [1:09:45<48:50,  1.91it/s] 48%|████▊     | 5120/10712 [1:09:46<48:09,  1.94it/s] 48%|████▊     | 5121/10712 [1:09:46<47:39,  1.96it/s] 48%|████▊     | 5122/10712 [1:09:47<47:16,  1.97it/s] 48%|████▊     | 5123/10712 [1:09:47<47:00,  1.98it/s] 48%|████▊     | 5124/10712 [1:09:48<46:51,  1.99it/s] 48%|████▊     | 5125/10712 [1:09:48<46:45,  1.99it/s]                                                      {'loss': 3.8465, 'grad_norm': 0.22376541793346405, 'learning_rate': 0.0006236819562681432, 'epoch': 0.48}
+ 48%|████▊     | 5125/10712 [1:09:48<46:45,  1.99it/s] 48%|████▊     | 5126/10712 [1:09:49<46:46,  1.99it/s] 48%|████▊     | 5127/10712 [1:09:50<48:55,  1.90it/s] 48%|████▊     | 5128/10712 [1:09:50<48:10,  1.93it/s] 48%|████▊     | 5129/10712 [1:09:51<47:40,  1.95it/s] 48%|████▊     | 5130/10712 [1:09:51<47:15,  1.97it/s] 48%|████▊     | 5131/10712 [1:09:52<47:29,  1.96it/s] 48%|████▊     | 5132/10712 [1:09:52<48:03,  1.94it/s] 48%|████▊     | 5133/10712 [1:09:53<47:35,  1.95it/s] 48%|████▊     | 5134/10712 [1:09:53<47:14,  1.97it/s] 48%|████▊     | 5135/10712 [1:09:54<46:59,  1.98it/s] 48%|████▊     | 5136/10712 [1:09:54<46:44,  1.99it/s] 48%|████▊     | 5137/10712 [1:09:55<46:39,  1.99it/s] 48%|████▊     | 5138/10712 [1:09:55<46:31,  2.00it/s] 48%|████▊     | 5139/10712 [1:09:56<46:27,  2.00it/s] 48%|████▊     | 5140/10712 [1:09:56<46:24,  2.00it/s] 48%|████▊     | 5141/10712 [1:09:57<46:18,  2.00it/s] 48%|████▊     | 5142/10712 [1:09:57<46:20,  2.00it/s] 48%|████▊     | 5143/10712 [1:09:58<46:17,  2.01it/s] 48%|████▊     | 5144/10712 [1:09:58<46:11,  2.01it/s] 48%|████▊     | 5145/10712 [1:09:59<46:12,  2.01it/s] 48%|████▊     | 5146/10712 [1:09:59<46:22,  2.00it/s] 48%|████▊     | 5147/10712 [1:10:00<46:49,  1.98it/s] 48%|████▊     | 5148/10712 [1:10:00<46:38,  1.99it/s] 48%|████▊     | 5149/10712 [1:10:01<46:33,  1.99it/s] 48%|████▊     | 5150/10712 [1:10:01<46:26,  2.00it/s]                                                      {'loss': 3.8417, 'grad_norm': 0.20333391427993774, 'learning_rate': 0.0006197308511461836, 'epoch': 0.48}
+ 48%|████▊     | 5150/10712 [1:10:01<46:26,  2.00it/s] 48%|████▊     | 5151/10712 [1:10:02<46:29,  1.99it/s] 48%|████▊     | 5152/10712 [1:10:02<46:21,  2.00it/s] 48%|████▊     | 5153/10712 [1:10:03<46:16,  2.00it/s] 48%|████▊     | 5154/10712 [1:10:03<46:15,  2.00it/s] 48%|████▊     | 5155/10712 [1:10:04<46:14,  2.00it/s] 48%|████▊     | 5156/10712 [1:10:04<46:14,  2.00it/s] 48%|████▊     | 5157/10712 [1:10:05<46:13,  2.00it/s] 48%|████▊     | 5158/10712 [1:10:05<46:10,  2.00it/s] 48%|████▊     | 5159/10712 [1:10:06<46:09,  2.01it/s] 48%|████▊     | 5160/10712 [1:10:06<46:08,  2.01it/s] 48%|████▊     | 5161/10712 [1:10:07<46:07,  2.01it/s] 48%|████▊     | 5162/10712 [1:10:07<46:03,  2.01it/s] 48%|████▊     | 5163/10712 [1:10:08<46:04,  2.01it/s] 48%|████▊     | 5164/10712 [1:10:08<46:11,  2.00it/s] 48%|████▊     | 5165/10712 [1:10:09<46:09,  2.00it/s] 48%|████▊     | 5166/10712 [1:10:09<46:14,  2.00it/s] 48%|████▊     | 5167/10712 [1:10:10<46:13,  2.00it/s] 48%|████▊     | 5168/10712 [1:10:10<46:10,  2.00it/s] 48%|████▊     | 5169/10712 [1:10:11<46:11,  2.00it/s] 48%|████▊     | 5170/10712 [1:10:11<46:13,  2.00it/s] 48%|████▊     | 5171/10712 [1:10:12<46:17,  2.00it/s] 48%|████▊     | 5172/10712 [1:10:12<46:10,  2.00it/s] 48%|████▊     | 5173/10712 [1:10:13<46:30,  1.98it/s] 48%|████▊     | 5174/10712 [1:10:13<46:25,  1.99it/s] 48%|████▊     | 5175/10712 [1:10:14<46:19,  1.99it/s]                                                      {'loss': 3.8356, 'grad_norm': 0.20645564794540405, 'learning_rate': 0.0006157717985457101, 'epoch': 0.48}
+ 48%|████▊     | 5175/10712 [1:10:14<46:19,  1.99it/s] 48%|████▊     | 5176/10712 [1:10:14<46:18,  1.99it/s] 48%|████▊     | 5177/10712 [1:10:15<46:14,  1.99it/s] 48%|████▊     | 5178/10712 [1:10:15<46:14,  1.99it/s] 48%|████▊     | 5179/10712 [1:10:16<46:19,  1.99it/s] 48%|████▊     | 5180/10712 [1:10:16<46:16,  1.99it/s] 48%|████▊     | 5181/10712 [1:10:17<46:14,  1.99it/s] 48%|████▊     | 5182/10712 [1:10:17<46:06,  2.00it/s] 48%|████▊     | 5183/10712 [1:10:18<46:03,  2.00it/s] 48%|████▊     | 5184/10712 [1:10:18<46:01,  2.00it/s] 48%|████▊     | 5185/10712 [1:10:19<45:58,  2.00it/s] 48%|████▊     | 5186/10712 [1:10:19<45:57,  2.00it/s] 48%|████▊     | 5187/10712 [1:10:20<45:53,  2.01it/s] 48%|████▊     | 5188/10712 [1:10:20<45:47,  2.01it/s] 48%|████▊     | 5189/10712 [1:10:21<45:53,  2.01it/s] 48%|████▊     | 5190/10712 [1:10:21<45:52,  2.01it/s] 48%|████▊     | 5191/10712 [1:10:22<45:47,  2.01it/s] 48%|████▊     | 5192/10712 [1:10:22<45:46,  2.01it/s] 48%|████▊     | 5193/10712 [1:10:23<45:44,  2.01it/s] 48%|████▊     | 5194/10712 [1:10:23<45:43,  2.01it/s] 48%|████▊     | 5195/10712 [1:10:24<45:52,  2.00it/s] 49%|████▊     | 5196/10712 [1:10:24<45:56,  2.00it/s] 49%|████▊     | 5197/10712 [1:10:25<45:55,  2.00it/s] 49%|████▊     | 5198/10712 [1:10:25<45:59,  2.00it/s] 49%|████▊     | 5199/10712 [1:10:26<46:03,  2.00it/s] 49%|████▊     | 5200/10712 [1:10:26<45:58,  2.00it/s]                                                      {'loss': 3.8449, 'grad_norm': 0.20761875808238983, 'learning_rate': 0.00061180506126019, 'epoch': 0.49}
+ 49%|████▊     | 5200/10712 [1:10:26<45:58,  2.00it/s] 49%|████▊     | 5201/10712 [1:10:27<46:00,  2.00it/s] 49%|████▊     | 5202/10712 [1:10:27<45:59,  2.00it/s] 49%|████▊     | 5203/10712 [1:10:28<45:57,  2.00it/s] 49%|████▊     | 5204/10712 [1:10:28<45:51,  2.00it/s] 49%|████▊     | 5205/10712 [1:10:29<45:52,  2.00it/s] 49%|████▊     | 5206/10712 [1:10:29<45:57,  2.00it/s] 49%|████▊     | 5207/10712 [1:10:30<45:59,  1.99it/s] 49%|████▊     | 5208/10712 [1:10:30<45:58,  2.00it/s] 49%|████▊     | 5209/10712 [1:10:31<45:52,  2.00it/s] 49%|████▊     | 5210/10712 [1:10:31<45:54,  2.00it/s] 49%|████▊     | 5211/10712 [1:10:32<45:47,  2.00it/s] 49%|████▊     | 5212/10712 [1:10:32<45:51,  2.00it/s] 49%|████▊     | 5213/10712 [1:10:33<45:49,  2.00it/s] 49%|████▊     | 5214/10712 [1:10:33<45:44,  2.00it/s] 49%|████▊     | 5215/10712 [1:10:34<45:41,  2.01it/s] 49%|████▊     | 5216/10712 [1:10:34<45:41,  2.01it/s] 49%|████▊     | 5217/10712 [1:10:35<45:43,  2.00it/s] 49%|████▊     | 5218/10712 [1:10:35<45:45,  2.00it/s] 49%|████▊     | 5219/10712 [1:10:36<45:43,  2.00it/s] 49%|████▊     | 5220/10712 [1:10:36<45:43,  2.00it/s] 49%|████▊     | 5221/10712 [1:10:37<45:40,  2.00it/s] 49%|████▊     | 5222/10712 [1:10:37<45:39,  2.00it/s] 49%|████▉     | 5223/10712 [1:10:38<45:40,  2.00it/s] 49%|████▉     | 5224/10712 [1:10:38<45:38,  2.00it/s] 49%|████▉     | 5225/10712 [1:10:39<45:38,  2.00it/s]                                                      {'loss': 3.8369, 'grad_norm': 0.2203957885503769, 'learning_rate': 0.0006078309025931831, 'epoch': 0.49}
+ 49%|████▉     | 5225/10712 [1:10:39<45:38,  2.00it/s] 49%|████▉     | 5226/10712 [1:10:39<45:42,  2.00it/s] 49%|████▉     | 5227/10712 [1:10:40<45:43,  2.00it/s] 49%|████▉     | 5228/10712 [1:10:40<45:47,  2.00it/s] 49%|████▉     | 5229/10712 [1:10:41<45:44,  2.00it/s] 49%|████▉     | 5230/10712 [1:10:41<45:45,  2.00it/s] 49%|████▉     | 5231/10712 [1:10:42<45:37,  2.00it/s] 49%|████▉     | 5232/10712 [1:10:42<48:04,  1.90it/s] 49%|████▉     | 5233/10712 [1:10:43<47:18,  1.93it/s] 49%|████▉     | 5234/10712 [1:10:43<46:47,  1.95it/s] 49%|████▉     | 5235/10712 [1:10:44<46:21,  1.97it/s] 49%|████▉     | 5236/10712 [1:10:44<46:03,  1.98it/s] 49%|████▉     | 5237/10712 [1:10:45<45:50,  1.99it/s] 49%|████▉     | 5238/10712 [1:10:45<45:46,  1.99it/s] 49%|████▉     | 5239/10712 [1:10:46<45:35,  2.00it/s] 49%|████▉     | 5240/10712 [1:10:46<45:32,  2.00it/s] 49%|████▉     | 5241/10712 [1:10:47<45:27,  2.01it/s] 49%|████▉     | 5242/10712 [1:10:47<45:25,  2.01it/s] 49%|████▉     | 5243/10712 [1:10:48<45:29,  2.00it/s] 49%|████▉     | 5244/10712 [1:10:48<45:32,  2.00it/s] 49%|████▉     | 5245/10712 [1:10:49<45:31,  2.00it/s] 49%|████▉     | 5246/10712 [1:10:49<45:34,  2.00it/s] 49%|████▉     | 5247/10712 [1:10:50<45:32,  2.00it/s] 49%|████▉     | 5248/10712 [1:10:50<45:33,  2.00it/s] 49%|████▉     | 5249/10712 [1:10:51<45:32,  2.00it/s] 49%|████▉     | 5250/10712 [1:10:51<45:31,  2.00it/s]                                                      {'loss': 3.8352, 'grad_norm': 0.2095993012189865, 'learning_rate': 0.0006038495863408649, 'epoch': 0.49}
+ 49%|████▉     | 5250/10712 [1:10:51<45:31,  2.00it/s] 49%|████▉     | 5251/10712 [1:10:52<45:35,  2.00it/s] 49%|████▉     | 5252/10712 [1:10:52<45:30,  2.00it/s] 49%|████▉     | 5253/10712 [1:10:53<45:31,  2.00it/s] 49%|████▉     | 5254/10712 [1:10:53<45:28,  2.00it/s] 49%|████▉     | 5255/10712 [1:10:54<45:20,  2.01it/s] 49%|████▉     | 5256/10712 [1:10:54<45:29,  2.00it/s] 49%|████▉     | 5257/10712 [1:10:55<45:25,  2.00it/s] 49%|████▉     | 5258/10712 [1:10:55<47:40,  1.91it/s] 49%|████▉     | 5259/10712 [1:10:56<46:58,  1.94it/s] 49%|████▉     | 5260/10712 [1:10:56<46:27,  1.96it/s] 49%|████▉     | 5261/10712 [1:10:57<46:05,  1.97it/s] 49%|████▉     | 5262/10712 [1:10:57<45:52,  1.98it/s] 49%|████▉     | 5263/10712 [1:10:58<45:42,  1.99it/s] 49%|████▉     | 5264/10712 [1:10:58<45:36,  1.99it/s] 49%|████▉     | 5265/10712 [1:10:59<45:31,  1.99it/s] 49%|████▉     | 5266/10712 [1:10:59<45:26,  2.00it/s] 49%|████▉     | 5267/10712 [1:11:00<45:22,  2.00it/s] 49%|████▉     | 5268/10712 [1:11:00<45:17,  2.00it/s] 49%|████▉     | 5269/10712 [1:11:01<45:17,  2.00it/s] 49%|████▉     | 5270/10712 [1:11:01<45:16,  2.00it/s] 49%|████▉     | 5271/10712 [1:11:02<45:15,  2.00it/s] 49%|████▉     | 5272/10712 [1:11:02<45:18,  2.00it/s] 49%|████▉     | 5273/10712 [1:11:03<45:16,  2.00it/s] 49%|████▉     | 5274/10712 [1:11:03<45:11,  2.01it/s] 49%|████▉     | 5275/10712 [1:11:04<45:10,  2.01it/s]                                                      {'loss': 3.83, 'grad_norm': 0.19913402199745178, 'learning_rate': 0.0005998613767745162, 'epoch': 0.49}
+ 49%|████▉     | 5275/10712 [1:11:04<45:10,  2.01it/s] 49%|████▉     | 5276/10712 [1:11:04<45:16,  2.00it/s] 49%|████▉     | 5277/10712 [1:11:05<45:17,  2.00it/s] 49%|████▉     | 5278/10712 [1:11:05<45:12,  2.00it/s] 49%|████▉     | 5279/10712 [1:11:06<45:09,  2.01it/s] 49%|████▉     | 5280/10712 [1:11:06<45:12,  2.00it/s] 49%|████▉     | 5281/10712 [1:11:07<45:05,  2.01it/s] 49%|████▉     | 5282/10712 [1:11:07<45:04,  2.01it/s] 49%|████▉     | 5283/10712 [1:11:08<45:08,  2.00it/s] 49%|████▉     | 5284/10712 [1:11:08<45:04,  2.01it/s] 49%|████▉     | 5285/10712 [1:11:09<45:03,  2.01it/s] 49%|████▉     | 5286/10712 [1:11:09<45:02,  2.01it/s] 49%|████▉     | 5287/10712 [1:11:10<44:59,  2.01it/s] 49%|████▉     | 5288/10712 [1:11:10<44:58,  2.01it/s] 49%|████▉     | 5289/10712 [1:11:11<45:01,  2.01it/s] 49%|████▉     | 5290/10712 [1:11:11<44:55,  2.01it/s] 49%|████▉     | 5291/10712 [1:11:12<44:52,  2.01it/s] 49%|████▉     | 5292/10712 [1:11:12<44:54,  2.01it/s] 49%|████▉     | 5293/10712 [1:11:13<44:55,  2.01it/s] 49%|████▉     | 5294/10712 [1:11:13<44:59,  2.01it/s] 49%|████▉     | 5295/10712 [1:11:14<44:58,  2.01it/s] 49%|████▉     | 5296/10712 [1:11:14<44:59,  2.01it/s] 49%|████▉     | 5297/10712 [1:11:15<44:56,  2.01it/s] 49%|████▉     | 5298/10712 [1:11:15<45:02,  2.00it/s] 49%|████▉     | 5299/10712 [1:11:16<44:59,  2.01it/s] 49%|████▉     | 5300/10712 [1:11:16<44:58,  2.01it/s]                                                      {'loss': 3.8412, 'grad_norm': 0.21788804233074188, 'learning_rate': 0.0005958665386229811, 'epoch': 0.49}
+ 49%|████▉     | 5300/10712 [1:11:16<44:58,  2.01it/s] 49%|████▉     | 5301/10712 [1:11:17<45:00,  2.00it/s] 49%|████▉     | 5302/10712 [1:11:17<44:56,  2.01it/s] 50%|████▉     | 5303/10712 [1:11:18<44:51,  2.01it/s] 50%|████▉     | 5304/10712 [1:11:18<44:52,  2.01it/s] 50%|████▉     | 5305/10712 [1:11:19<45:00,  2.00it/s] 50%|████▉     | 5306/10712 [1:11:19<45:04,  2.00it/s] 50%|████▉     | 5307/10712 [1:11:20<45:04,  2.00it/s] 50%|████▉     | 5308/10712 [1:11:20<44:59,  2.00it/s] 50%|████▉     | 5309/10712 [1:11:21<44:58,  2.00it/s] 50%|████▉     | 5310/10712 [1:11:21<44:58,  2.00it/s] 50%|████▉     | 5311/10712 [1:11:22<44:55,  2.00it/s] 50%|████▉     | 5312/10712 [1:11:22<44:49,  2.01it/s] 50%|████▉     | 5313/10712 [1:11:23<44:49,  2.01it/s] 50%|████▉     | 5314/10712 [1:11:23<44:50,  2.01it/s] 50%|████▉     | 5315/10712 [1:11:24<44:47,  2.01it/s] 50%|████▉     | 5316/10712 [1:11:24<44:47,  2.01it/s] 50%|████▉     | 5317/10712 [1:11:25<44:41,  2.01it/s] 50%|████▉     | 5318/10712 [1:11:25<44:47,  2.01it/s] 50%|████▉     | 5319/10712 [1:11:26<44:50,  2.00it/s] 50%|████▉     | 5320/10712 [1:11:26<44:52,  2.00it/s] 50%|████▉     | 5321/10712 [1:11:27<44:48,  2.01it/s] 50%|████▉     | 5322/10712 [1:11:27<44:49,  2.00it/s] 50%|████▉     | 5323/10712 [1:11:28<44:51,  2.00it/s] 50%|████▉     | 5324/10712 [1:11:28<44:53,  2.00it/s] 50%|████▉     | 5325/10712 [1:11:29<44:51,  2.00it/s]                                                      {'loss': 3.8296, 'grad_norm': 0.23261277377605438, 'learning_rate': 0.0005918653370550951, 'epoch': 0.5}
+ 50%|████▉     | 5325/10712 [1:11:29<44:51,  2.00it/s] 50%|████▉     | 5326/10712 [1:11:29<45:00,  1.99it/s] 50%|████▉     | 5327/10712 [1:11:30<44:55,  2.00it/s] 50%|████▉     | 5328/10712 [1:11:30<44:56,  2.00it/s] 50%|████▉     | 5329/10712 [1:11:31<44:54,  2.00it/s] 50%|████▉     | 5330/10712 [1:11:31<44:52,  2.00it/s] 50%|████▉     | 5331/10712 [1:11:32<44:50,  2.00it/s] 50%|████▉     | 5332/10712 [1:11:32<44:46,  2.00it/s] 50%|████▉     | 5333/10712 [1:11:33<44:48,  2.00it/s] 50%|████▉     | 5334/10712 [1:11:33<44:48,  2.00it/s] 50%|████▉     | 5335/10712 [1:11:34<44:42,  2.00it/s] 50%|████▉     | 5336/10712 [1:11:34<44:44,  2.00it/s] 50%|████▉     | 5337/10712 [1:11:35<44:39,  2.01it/s] 50%|████▉     | 5338/10712 [1:11:35<44:34,  2.01it/s] 50%|████▉     | 5339/10712 [1:11:36<44:39,  2.01it/s] 50%|████▉     | 5340/10712 [1:11:36<44:40,  2.00it/s] 50%|████▉     | 5341/10712 [1:11:37<44:37,  2.01it/s] 50%|████▉     | 5342/10712 [1:11:37<44:34,  2.01it/s] 50%|████▉     | 5343/10712 [1:11:38<44:30,  2.01it/s] 50%|████▉     | 5344/10712 [1:11:38<44:30,  2.01it/s] 50%|████▉     | 5345/10712 [1:11:39<44:30,  2.01it/s] 50%|████▉     | 5346/10712 [1:11:39<44:29,  2.01it/s] 50%|████▉     | 5347/10712 [1:11:40<52:54,  1.69it/s] 50%|████▉     | 5348/10712 [1:11:40<50:31,  1.77it/s] 50%|████▉     | 5349/10712 [1:11:41<48:54,  1.83it/s] 50%|████▉     | 5350/10712 [1:11:41<47:40,  1.87it/s]                                                      {'loss': 3.8278, 'grad_norm': 0.22338207066059113, 'learning_rate': 0.0005878580376620838, 'epoch': 0.5}
+ 50%|████▉     | 5350/10712 [1:11:41<47:40,  1.87it/s] 50%|████▉     | 5351/10712 [1:11:42<46:48,  1.91it/s] 50%|████▉     | 5352/10712 [1:11:42<46:05,  1.94it/s] 50%|████▉     | 5353/10712 [1:11:43<45:37,  1.96it/s] 50%|████▉     | 5354/10712 [1:11:43<45:19,  1.97it/s] 50%|████▉     | 5355/10712 [1:11:44<45:05,  1.98it/s] 50%|█████     | 5356/10712 [1:11:44<44:52,  1.99it/s] 50%|█████     | 5357/10712 [1:11:45<44:46,  1.99it/s] 50%|█████     | 5358/10712 [1:11:45<44:39,  2.00it/s] 50%|█████     | 5359/10712 [1:11:46<44:37,  2.00it/s] 50%|█████     | 5360/10712 [1:11:46<44:34,  2.00it/s] 50%|█████     | 5361/10712 [1:11:47<44:32,  2.00it/s] 50%|█████     | 5362/10712 [1:11:47<44:28,  2.00it/s] 50%|█████     | 5363/10712 [1:11:48<44:26,  2.01it/s] 50%|█████     | 5364/10712 [1:11:48<44:25,  2.01it/s] 50%|█████     | 5365/10712 [1:11:49<44:25,  2.01it/s] 50%|█████     | 5366/10712 [1:11:49<44:23,  2.01it/s] 50%|█████     | 5367/10712 [1:11:50<44:26,  2.00it/s] 50%|█████     | 5368/10712 [1:11:50<44:27,  2.00it/s] 50%|█████     | 5369/10712 [1:11:51<44:20,  2.01it/s] 50%|█████     | 5370/10712 [1:11:51<44:19,  2.01it/s] 50%|█████     | 5371/10712 [1:11:52<52:29,  1.70it/s] 50%|█████     | 5372/10712 [1:11:53<49:59,  1.78it/s] 50%|█████     | 5373/10712 [1:11:53<48:13,  1.85it/s] 50%|█████     | 5374/10712 [1:11:54<47:01,  1.89it/s] 50%|█████     | 5375/10712 [1:11:54<46:11,  1.93it/s]                                                      {'loss': 3.833, 'grad_norm': 0.2176012396812439, 'learning_rate': 0.0005838449064399331, 'epoch': 0.5}
+ 50%|█████     | 5375/10712 [1:11:54<46:11,  1.93it/s] 50%|█████     | 5376/10712 [1:11:55<45:37,  1.95it/s] 50%|█████     | 5377/10712 [1:11:55<45:34,  1.95it/s] 50%|█████     | 5378/10712 [1:11:56<45:17,  1.96it/s] 50%|█████     | 5379/10712 [1:11:56<44:59,  1.98it/s] 50%|█████     | 5380/10712 [1:11:57<44:47,  1.98it/s] 50%|█████     | 5381/10712 [1:11:57<44:42,  1.99it/s] 50%|█████     | 5382/10712 [1:11:58<44:35,  1.99it/s] 50%|█████     | 5383/10712 [1:11:58<44:28,  2.00it/s] 50%|█████     | 5384/10712 [1:11:59<44:22,  2.00it/s] 50%|█████     | 5385/10712 [1:11:59<44:19,  2.00it/s] 50%|█████     | 5386/10712 [1:12:00<44:18,  2.00it/s] 50%|█████     | 5387/10712 [1:12:00<44:15,  2.01it/s] 50%|█████     | 5388/10712 [1:12:01<44:18,  2.00it/s] 50%|█████     | 5389/10712 [1:12:01<44:19,  2.00it/s] 50%|█████     | 5390/10712 [1:12:02<44:13,  2.01it/s] 50%|█████     | 5391/10712 [1:12:02<44:16,  2.00it/s] 50%|█████     | 5392/10712 [1:12:03<44:13,  2.00it/s] 50%|█████     | 5393/10712 [1:12:03<44:20,  2.00it/s] 50%|█████     | 5394/10712 [1:12:04<44:12,  2.00it/s] 50%|█████     | 5395/10712 [1:12:04<44:12,  2.00it/s] 50%|█████     | 5396/10712 [1:12:05<44:18,  2.00it/s] 50%|█████     | 5397/10712 [1:12:05<44:16,  2.00it/s] 50%|█████     | 5398/10712 [1:12:06<44:18,  2.00it/s] 50%|█████     | 5399/10712 [1:12:06<44:14,  2.00it/s] 50%|█████     | 5400/10712 [1:12:07<44:13,  2.00it/s]                                                      {'loss': 3.8242, 'grad_norm': 0.22367160022258759, 'learning_rate': 0.0005798262097717339, 'epoch': 0.5}
+ 50%|█████     | 5400/10712 [1:12:07<44:13,  2.00it/s] 50%|█████     | 5401/10712 [1:12:07<44:11,  2.00it/s] 50%|█████     | 5402/10712 [1:12:08<44:13,  2.00it/s] 50%|█████     | 5403/10712 [1:12:08<44:11,  2.00it/s] 50%|█████     | 5404/10712 [1:12:09<44:19,  2.00it/s] 50%|█████     | 5405/10712 [1:12:09<44:18,  2.00it/s] 50%|█████     | 5406/10712 [1:12:10<44:12,  2.00it/s] 50%|█████     | 5407/10712 [1:12:10<44:10,  2.00it/s] 50%|█████     | 5408/10712 [1:12:11<44:18,  2.00it/s] 50%|█████     | 5409/10712 [1:12:11<44:18,  1.99it/s] 51%|█████     | 5410/10712 [1:12:12<44:18,  1.99it/s] 51%|█████     | 5411/10712 [1:12:12<44:17,  1.99it/s] 51%|█████     | 5412/10712 [1:12:13<44:15,  2.00it/s] 51%|█████     | 5413/10712 [1:12:13<44:12,  2.00it/s] 51%|█████     | 5414/10712 [1:12:14<44:08,  2.00it/s] 51%|█████     | 5415/10712 [1:12:14<44:08,  2.00it/s] 51%|█████     | 5416/10712 [1:12:15<44:07,  2.00it/s] 51%|█████     | 5417/10712 [1:12:15<44:07,  2.00it/s] 51%|█████     | 5418/10712 [1:12:16<44:03,  2.00it/s] 51%|█████     | 5419/10712 [1:12:16<44:07,  2.00it/s] 51%|█████     | 5420/10712 [1:12:17<43:59,  2.01it/s] 51%|█████     | 5421/10712 [1:12:17<43:57,  2.01it/s] 51%|█████     | 5422/10712 [1:12:18<43:59,  2.00it/s] 51%|█████     | 5423/10712 [1:12:18<43:54,  2.01it/s] 51%|█████     | 5424/10712 [1:12:19<43:52,  2.01it/s] 51%|█████     | 5425/10712 [1:12:19<43:48,  2.01it/s]                                                      {'loss': 3.8272, 'grad_norm': 0.2013348788022995, 'learning_rate': 0.0005758022144099991, 'epoch': 0.51}
+ 51%|█████     | 5425/10712 [1:12:19<43:48,  2.01it/s] 51%|█████     | 5426/10712 [1:12:20<43:55,  2.01it/s] 51%|█████     | 5427/10712 [1:12:20<44:25,  1.98it/s] 51%|█████     | 5428/10712 [1:12:21<44:19,  1.99it/s] 51%|█████     | 5429/10712 [1:12:21<44:13,  1.99it/s] 51%|█████     | 5430/10712 [1:12:22<44:11,  1.99it/s] 51%|█████     | 5431/10712 [1:12:22<44:19,  1.99it/s] 51%|█████     | 5432/10712 [1:12:23<44:23,  1.98it/s] 51%|█████     | 5433/10712 [1:12:23<44:17,  1.99it/s] 51%|█████     | 5434/10712 [1:12:24<44:07,  1.99it/s] 51%|█████     | 5435/10712 [1:12:24<44:06,  1.99it/s] 51%|█████     | 5436/10712 [1:12:25<44:04,  2.00it/s] 51%|█████     | 5437/10712 [1:12:25<44:00,  2.00it/s] 51%|█████     | 5438/10712 [1:12:26<43:55,  2.00it/s] 51%|█████     | 5439/10712 [1:12:26<43:54,  2.00it/s] 51%|█████     | 5440/10712 [1:12:27<43:52,  2.00it/s] 51%|█████     | 5441/10712 [1:12:27<43:48,  2.01it/s] 51%|█████     | 5442/10712 [1:12:28<43:45,  2.01it/s] 51%|█████     | 5443/10712 [1:12:28<43:43,  2.01it/s] 51%|█████     | 5444/10712 [1:12:29<43:39,  2.01it/s] 51%|█████     | 5445/10712 [1:12:29<44:12,  1.99it/s] 51%|█████     | 5446/10712 [1:12:30<44:04,  1.99it/s] 51%|█████     | 5447/10712 [1:12:30<43:58,  2.00it/s] 51%|█████     | 5448/10712 [1:12:31<43:52,  2.00it/s] 51%|█████     | 5449/10712 [1:12:31<43:55,  2.00it/s] 51%|█████     | 5450/10712 [1:12:32<43:49,  2.00it/s]                                                      {'loss': 3.8215, 'grad_norm': 0.2175263911485672, 'learning_rate': 0.0005717731874589576, 'epoch': 0.51}
+ 51%|█████     | 5450/10712 [1:12:32<43:49,  2.00it/s] 51%|█████     | 5451/10712 [1:12:32<43:52,  2.00it/s] 51%|█████     | 5452/10712 [1:12:33<43:49,  2.00it/s] 51%|█████     | 5453/10712 [1:12:33<43:44,  2.00it/s] 51%|█████     | 5454/10712 [1:12:34<43:38,  2.01it/s] 51%|█████     | 5455/10712 [1:12:34<43:40,  2.01it/s] 51%|█████     | 5456/10712 [1:12:35<43:37,  2.01it/s] 51%|█████     | 5457/10712 [1:12:35<43:36,  2.01it/s] 51%|█████     | 5458/10712 [1:12:36<43:36,  2.01it/s] 51%|█████     | 5459/10712 [1:12:36<43:34,  2.01it/s] 51%|█████     | 5460/10712 [1:12:37<43:31,  2.01it/s] 51%|█████     | 5461/10712 [1:12:37<43:32,  2.01it/s] 51%|█████     | 5462/10712 [1:12:38<43:34,  2.01it/s] 51%|█████     | 5463/10712 [1:12:38<43:31,  2.01it/s] 51%|█████     | 5464/10712 [1:12:39<43:29,  2.01it/s] 51%|█████     | 5465/10712 [1:12:39<43:29,  2.01it/s] 51%|█████     | 5466/10712 [1:12:40<43:29,  2.01it/s] 51%|█████     | 5467/10712 [1:12:40<43:29,  2.01it/s] 51%|█████     | 5468/10712 [1:12:41<43:26,  2.01it/s] 51%|█████     | 5469/10712 [1:12:41<43:24,  2.01it/s] 51%|█████     | 5470/10712 [1:12:42<43:23,  2.01it/s] 51%|█████     | 5471/10712 [1:12:42<43:21,  2.01it/s] 51%|█████     | 5472/10712 [1:12:43<43:21,  2.01it/s] 51%|█████     | 5473/10712 [1:12:43<43:18,  2.02it/s] 51%|█████     | 5474/10712 [1:12:44<43:24,  2.01it/s] 51%|█████     | 5475/10712 [1:12:44<43:31,  2.01it/s]                                                      {'loss': 3.8256, 'grad_norm': 0.21246854960918427, 'learning_rate': 0.0005677393963568244, 'epoch': 0.51}
+ 51%|█████     | 5475/10712 [1:12:44<43:31,  2.01it/s] 51%|█████     | 5476/10712 [1:12:45<43:40,  2.00it/s] 51%|█████     | 5477/10712 [1:12:45<43:38,  2.00it/s] 51%|█████     | 5478/10712 [1:12:46<43:39,  2.00it/s] 51%|█████     | 5479/10712 [1:12:46<43:40,  2.00it/s] 51%|█████     | 5480/10712 [1:12:47<43:39,  2.00it/s] 51%|█████     | 5481/10712 [1:12:47<43:38,  2.00it/s] 51%|█████     | 5482/10712 [1:12:48<43:36,  2.00it/s] 51%|█████     | 5483/10712 [1:12:48<43:43,  1.99it/s] 51%|█████     | 5484/10712 [1:12:49<44:54,  1.94it/s] 51%|█████     | 5485/10712 [1:12:49<44:31,  1.96it/s] 51%|█████     | 5486/10712 [1:12:50<44:12,  1.97it/s] 51%|█████     | 5487/10712 [1:12:50<44:04,  1.98it/s] 51%|█████     | 5488/10712 [1:12:51<43:49,  1.99it/s] 51%|█████     | 5489/10712 [1:12:51<43:44,  1.99it/s] 51%|█████▏    | 5490/10712 [1:12:52<43:38,  1.99it/s] 51%|█████▏    | 5491/10712 [1:12:52<43:30,  2.00it/s] 51%|█████▏    | 5492/10712 [1:12:53<43:26,  2.00it/s] 51%|█████▏    | 5493/10712 [1:12:53<43:23,  2.00it/s] 51%|█████▏    | 5494/10712 [1:12:54<43:19,  2.01it/s] 51%|█████▏    | 5495/10712 [1:12:54<43:18,  2.01it/s] 51%|█████▏    | 5496/10712 [1:12:55<43:21,  2.01it/s] 51%|█████▏    | 5497/10712 [1:12:55<43:15,  2.01it/s] 51%|█████▏    | 5498/10712 [1:12:56<43:15,  2.01it/s] 51%|█████▏    | 5499/10712 [1:12:56<43:19,  2.01it/s] 51%|█████▏    | 5500/10712 [1:12:57<43:19,  2.01it/s]                                                      {'loss': 3.8176, 'grad_norm': 0.21241505444049835, 'learning_rate': 0.0005637011088580488, 'epoch': 0.51}
+ 51%|█████▏    | 5500/10712 [1:12:57<43:19,  2.01it/s] 51%|█████▏    | 5501/10712 [1:12:57<43:19,  2.00it/s] 51%|█████▏    | 5502/10712 [1:12:58<43:17,  2.01it/s] 51%|█████▏    | 5503/10712 [1:12:58<43:14,  2.01it/s] 51%|█████▏    | 5504/10712 [1:12:59<43:17,  2.00it/s] 51%|█████▏    | 5505/10712 [1:12:59<43:14,  2.01it/s] 51%|█████▏    | 5506/10712 [1:13:00<43:10,  2.01it/s] 51%|█████▏    | 5507/10712 [1:13:00<43:11,  2.01it/s] 51%|█████▏    | 5508/10712 [1:13:01<43:13,  2.01it/s] 51%|█████▏    | 5509/10712 [1:13:01<43:17,  2.00it/s] 51%|█████▏    | 5510/10712 [1:13:02<43:22,  2.00it/s] 51%|█████▏    | 5511/10712 [1:13:02<43:23,  2.00it/s] 51%|█████▏    | 5512/10712 [1:13:03<43:22,  2.00it/s] 51%|█████▏    | 5513/10712 [1:13:03<43:17,  2.00it/s] 51%|█████▏    | 5514/10712 [1:13:04<43:19,  2.00it/s] 51%|█████▏    | 5515/10712 [1:13:04<43:21,  2.00it/s] 51%|█████▏    | 5516/10712 [1:13:05<43:21,  2.00it/s] 52%|█████▏    | 5517/10712 [1:13:05<43:23,  2.00it/s] 52%|█████▏    | 5518/10712 [1:13:06<43:21,  2.00it/s] 52%|█████▏    | 5519/10712 [1:13:06<43:20,  2.00it/s] 52%|█████▏    | 5520/10712 [1:13:07<43:14,  2.00it/s] 52%|█████▏    | 5521/10712 [1:13:07<43:14,  2.00it/s] 52%|█████▏    | 5522/10712 [1:13:08<43:17,  2.00it/s] 52%|█████▏    | 5523/10712 [1:13:08<43:18,  2.00it/s] 52%|█████▏    | 5524/10712 [1:13:09<43:16,  2.00it/s] 52%|█████▏    | 5525/10712 [1:13:09<43:12,  2.00it/s]                                                      {'loss': 3.8251, 'grad_norm': 0.20916153490543365, 'learning_rate': 0.0005596585930155414, 'epoch': 0.52}
+ 52%|█████▏    | 5525/10712 [1:13:09<43:12,  2.00it/s] 52%|█████▏    | 5526/10712 [1:13:10<43:14,  2.00it/s] 52%|█████▏    | 5527/10712 [1:13:10<43:17,  2.00it/s] 52%|█████▏    | 5528/10712 [1:13:11<43:15,  2.00it/s] 52%|█████▏    | 5529/10712 [1:13:11<45:14,  1.91it/s] 52%|█████▏    | 5530/10712 [1:13:12<44:35,  1.94it/s] 52%|█████▏    | 5531/10712 [1:13:12<44:14,  1.95it/s] 52%|█████▏    | 5532/10712 [1:13:13<43:57,  1.96it/s] 52%|█████▏    | 5533/10712 [1:13:13<43:43,  1.97it/s] 52%|█████▏    | 5534/10712 [1:13:14<43:31,  1.98it/s] 52%|█████▏    | 5535/10712 [1:13:14<43:20,  1.99it/s] 52%|█████▏    | 5536/10712 [1:13:15<43:12,  2.00it/s] 52%|█████▏    | 5537/10712 [1:13:15<43:06,  2.00it/s] 52%|█████▏    | 5538/10712 [1:13:16<43:08,  2.00it/s] 52%|█████▏    | 5539/10712 [1:13:16<43:08,  2.00it/s] 52%|█████▏    | 5540/10712 [1:13:17<43:09,  2.00it/s] 52%|█████▏    | 5541/10712 [1:13:17<43:07,  2.00it/s] 52%|█████▏    | 5542/10712 [1:13:18<43:05,  2.00it/s] 52%|█████▏    | 5543/10712 [1:13:18<43:01,  2.00it/s] 52%|█████▏    | 5544/10712 [1:13:19<42:58,  2.00it/s] 52%|█████▏    | 5545/10712 [1:13:19<42:55,  2.01it/s] 52%|█████▏    | 5546/10712 [1:13:20<42:55,  2.01it/s] 52%|█████▏    | 5547/10712 [1:13:20<42:58,  2.00it/s] 52%|█████▏    | 5548/10712 [1:13:21<42:55,  2.00it/s] 52%|█████▏    | 5549/10712 [1:13:21<42:55,  2.00it/s] 52%|█████▏    | 5550/10712 [1:13:22<42:58,  2.00it/s]                                                      {'loss': 3.8133, 'grad_norm': 0.2094469517469406, 'learning_rate': 0.0005556121171628811, 'epoch': 0.52}
+ 52%|█████▏    | 5550/10712 [1:13:22<42:58,  2.00it/s] 52%|█████▏    | 5551/10712 [1:13:22<43:01,  2.00it/s] 52%|█████▏    | 5552/10712 [1:13:23<42:58,  2.00it/s] 52%|█████▏    | 5553/10712 [1:13:23<42:52,  2.01it/s] 52%|█████▏    | 5554/10712 [1:13:24<42:53,  2.00it/s] 52%|█████▏    | 5555/10712 [1:13:24<42:55,  2.00it/s] 52%|█████▏    | 5556/10712 [1:13:25<42:52,  2.00it/s] 52%|█████▏    | 5557/10712 [1:13:25<42:51,  2.00it/s] 52%|█████▏    | 5558/10712 [1:13:26<42:50,  2.01it/s] 52%|█████▏    | 5559/10712 [1:13:26<42:45,  2.01it/s] 52%|█████▏    | 5560/10712 [1:13:27<42:45,  2.01it/s] 52%|█████▏    | 5561/10712 [1:13:27<42:47,  2.01it/s] 52%|█████▏    | 5562/10712 [1:13:28<42:43,  2.01it/s] 52%|█████▏    | 5563/10712 [1:13:28<42:41,  2.01it/s] 52%|█████▏    | 5564/10712 [1:13:29<42:40,  2.01it/s] 52%|█████▏    | 5565/10712 [1:13:29<42:38,  2.01it/s] 52%|█████▏    | 5566/10712 [1:13:30<42:59,  1.99it/s] 52%|█████▏    | 5567/10712 [1:13:30<45:03,  1.90it/s] 52%|█████▏    | 5568/10712 [1:13:31<44:27,  1.93it/s] 52%|█████▏    | 5569/10712 [1:13:31<44:37,  1.92it/s] 52%|█████▏    | 5570/10712 [1:13:32<44:08,  1.94it/s] 52%|█████▏    | 5571/10712 [1:13:32<43:51,  1.95it/s] 52%|█████▏    | 5572/10712 [1:13:33<43:29,  1.97it/s] 52%|█████▏    | 5573/10712 [1:13:33<43:16,  1.98it/s] 52%|█████▏    | 5574/10712 [1:13:34<43:03,  1.99it/s] 52%|█████▏    | 5575/10712 [1:13:34<43:00,  1.99it/s]                                                      {'loss': 3.8167, 'grad_norm': 0.21600766479969025, 'learning_rate': 0.000551561949896504, 'epoch': 0.52}
+ 52%|█████▏    | 5575/10712 [1:13:34<43:00,  1.99it/s] 52%|█████▏    | 5576/10712 [1:13:35<42:56,  1.99it/s] 52%|█████▏    | 5577/10712 [1:13:35<42:49,  2.00it/s] 52%|█████▏    | 5578/10712 [1:13:36<42:49,  2.00it/s] 52%|█████▏    | 5579/10712 [1:13:36<42:46,  2.00it/s] 52%|█████▏    | 5580/10712 [1:13:37<42:39,  2.01it/s] 52%|█████▏    | 5581/10712 [1:13:37<42:39,  2.00it/s] 52%|█████▏    | 5582/10712 [1:13:38<42:39,  2.00it/s] 52%|█████▏    | 5583/10712 [1:13:38<42:48,  2.00it/s] 52%|█████▏    | 5584/10712 [1:13:39<42:39,  2.00it/s] 52%|█████▏    | 5585/10712 [1:13:39<42:35,  2.01it/s] 52%|█████▏    | 5586/10712 [1:13:40<42:36,  2.00it/s] 52%|█████▏    | 5587/10712 [1:13:40<42:32,  2.01it/s] 52%|█████▏    | 5588/10712 [1:13:41<42:29,  2.01it/s] 52%|█████▏    | 5589/10712 [1:13:41<42:29,  2.01it/s] 52%|█████▏    | 5590/10712 [1:13:42<42:27,  2.01it/s] 52%|█████▏    | 5591/10712 [1:13:42<42:26,  2.01it/s] 52%|█████▏    | 5592/10712 [1:13:43<42:39,  2.00it/s] 52%|█████▏    | 5593/10712 [1:13:43<42:41,  2.00it/s] 52%|█████▏    | 5594/10712 [1:13:44<42:38,  2.00it/s] 52%|█████▏    | 5595/10712 [1:13:44<42:37,  2.00it/s] 52%|█████▏    | 5596/10712 [1:13:45<42:40,  2.00it/s] 52%|█████▏    | 5597/10712 [1:13:45<42:38,  2.00it/s] 52%|█████▏    | 5598/10712 [1:13:46<42:35,  2.00it/s] 52%|█████▏    | 5599/10712 [1:13:46<42:37,  2.00it/s] 52%|█████▏    | 5600/10712 [1:13:47<42:33,  2.00it/s]                                                      {'loss': 3.8188, 'grad_norm': 0.2076546549797058, 'learning_rate': 0.0005475083600578742, 'epoch': 0.52}
+ 52%|█████▏    | 5600/10712 [1:13:47<42:33,  2.00it/s] 52%|█████▏    | 5601/10712 [1:13:47<42:32,  2.00it/s] 52%|█████▏    | 5602/10712 [1:13:48<42:31,  2.00it/s] 52%|█████▏    | 5603/10712 [1:13:48<42:32,  2.00it/s] 52%|█████▏    | 5604/10712 [1:13:49<42:33,  2.00it/s] 52%|█████▏    | 5605/10712 [1:13:49<42:31,  2.00it/s] 52%|█████▏    | 5606/10712 [1:13:50<42:36,  2.00it/s] 52%|█████▏    | 5607/10712 [1:13:50<42:33,  2.00it/s] 52%|█████▏    | 5608/10712 [1:13:51<42:30,  2.00it/s] 52%|█████▏    | 5609/10712 [1:13:51<42:29,  2.00it/s] 52%|█████▏    | 5610/10712 [1:13:52<42:31,  2.00it/s] 52%|█████▏    | 5611/10712 [1:13:52<42:28,  2.00it/s] 52%|█████▏    | 5612/10712 [1:13:53<42:28,  2.00it/s] 52%|█████▏    | 5613/10712 [1:13:53<42:28,  2.00it/s] 52%|█████▏    | 5614/10712 [1:13:54<42:27,  2.00it/s] 52%|█████▏    | 5615/10712 [1:13:54<42:27,  2.00it/s] 52%|█████▏    | 5616/10712 [1:13:55<42:26,  2.00it/s] 52%|█████▏    | 5617/10712 [1:13:55<42:25,  2.00it/s] 52%|█████▏    | 5618/10712 [1:13:56<42:30,  2.00it/s] 52%|█████▏    | 5619/10712 [1:13:56<42:25,  2.00it/s] 52%|█████▏    | 5620/10712 [1:13:57<42:27,  2.00it/s] 52%|█████▏    | 5621/10712 [1:13:57<42:26,  2.00it/s] 52%|█████▏    | 5622/10712 [1:13:58<42:25,  2.00it/s] 52%|█████▏    | 5623/10712 [1:13:58<42:23,  2.00it/s] 53%|█████▎    | 5624/10712 [1:13:59<42:24,  2.00it/s] 53%|█████▎    | 5625/10712 [1:13:59<42:26,  2.00it/s]                                                      {'loss': 3.8132, 'grad_norm': 0.20434843003749847, 'learning_rate': 0.0005434516167156389, 'epoch': 0.53}
+ 53%|█████▎    | 5625/10712 [1:13:59<42:26,  2.00it/s] 53%|█████▎    | 5626/10712 [1:14:00<42:31,  1.99it/s] 53%|█████▎    | 5627/10712 [1:14:00<42:27,  2.00it/s] 53%|█████▎    | 5628/10712 [1:14:01<42:23,  2.00it/s] 53%|█████▎    | 5629/10712 [1:14:01<42:22,  2.00it/s] 53%|█████▎    | 5630/10712 [1:14:02<42:26,  2.00it/s] 53%|█████▎    | 5631/10712 [1:14:02<42:25,  2.00it/s] 53%|█████▎    | 5632/10712 [1:14:03<42:21,  2.00it/s] 53%|█████▎    | 5633/10712 [1:14:03<42:16,  2.00it/s] 53%|█████▎    | 5634/10712 [1:14:04<42:17,  2.00it/s] 53%|█████▎    | 5635/10712 [1:14:04<42:14,  2.00it/s] 53%|█████▎    | 5636/10712 [1:14:05<42:10,  2.01it/s] 53%|█████▎    | 5637/10712 [1:14:05<42:07,  2.01it/s] 53%|█████▎    | 5638/10712 [1:14:06<42:24,  1.99it/s] 53%|█████▎    | 5639/10712 [1:14:06<43:45,  1.93it/s] 53%|█████▎    | 5640/10712 [1:14:07<43:26,  1.95it/s] 53%|█████▎    | 5641/10712 [1:14:07<43:00,  1.97it/s] 53%|█████▎    | 5642/10712 [1:14:08<42:43,  1.98it/s] 53%|█████▎    | 5643/10712 [1:14:08<42:33,  1.98it/s] 53%|█████▎    | 5644/10712 [1:14:09<42:39,  1.98it/s] 53%|█████▎    | 5645/10712 [1:14:09<44:06,  1.91it/s] 53%|█████▎    | 5646/10712 [1:14:10<43:31,  1.94it/s] 53%|█████▎    | 5647/10712 [1:14:10<43:06,  1.96it/s] 53%|█████▎    | 5648/10712 [1:14:11<42:46,  1.97it/s] 53%|█████▎    | 5649/10712 [1:14:11<42:34,  1.98it/s] 53%|█████▎    | 5650/10712 [1:14:12<42:20,  1.99it/s]                                                      {'loss': 3.8132, 'grad_norm': 0.2072751820087433, 'learning_rate': 0.0005393919891477681, 'epoch': 0.53}
+ 53%|█████▎    | 5650/10712 [1:14:12<42:20,  1.99it/s] 53%|█████▎    | 5651/10712 [1:14:12<42:15,  2.00it/s] 53%|█████▎    | 5652/10712 [1:14:13<42:12,  2.00it/s] 53%|█████▎    | 5653/10712 [1:14:13<42:06,  2.00it/s] 53%|█████▎    | 5654/10712 [1:14:14<42:02,  2.00it/s] 53%|█████▎    | 5655/10712 [1:14:14<42:00,  2.01it/s] 53%|█████▎    | 5656/10712 [1:14:15<41:54,  2.01it/s] 53%|█████▎    | 5657/10712 [1:14:15<41:54,  2.01it/s] 53%|█████▎    | 5658/10712 [1:14:16<41:56,  2.01it/s] 53%|█████▎    | 5659/10712 [1:14:16<41:54,  2.01it/s] 53%|█████▎    | 5660/10712 [1:14:17<41:56,  2.01it/s] 53%|█████▎    | 5661/10712 [1:14:17<41:57,  2.01it/s] 53%|█████▎    | 5662/10712 [1:14:18<41:52,  2.01it/s] 53%|█████▎    | 5663/10712 [1:14:18<41:52,  2.01it/s] 53%|█████▎    | 5664/10712 [1:14:19<41:49,  2.01it/s] 53%|█████▎    | 5665/10712 [1:14:19<41:47,  2.01it/s] 53%|█████▎    | 5666/10712 [1:14:20<41:48,  2.01it/s] 53%|█████▎    | 5667/10712 [1:14:20<41:49,  2.01it/s] 53%|█████▎    | 5668/10712 [1:14:21<41:46,  2.01it/s] 53%|█████▎    | 5669/10712 [1:14:21<41:44,  2.01it/s] 53%|█████▎    | 5670/10712 [1:14:22<41:42,  2.02it/s] 53%|█████▎    | 5671/10712 [1:14:22<41:45,  2.01it/s] 53%|█████▎    | 5672/10712 [1:14:23<41:42,  2.01it/s] 53%|█████▎    | 5673/10712 [1:14:23<41:44,  2.01it/s] 53%|█████▎    | 5674/10712 [1:14:24<41:51,  2.01it/s] 53%|█████▎    | 5675/10712 [1:14:24<41:56,  2.00it/s]                                                      {'loss': 3.8213, 'grad_norm': 0.20008933544158936, 'learning_rate': 0.0005353297468236806, 'epoch': 0.53}
+ 53%|█████▎    | 5675/10712 [1:14:24<41:56,  2.00it/s] 53%|█████▎    | 5676/10712 [1:14:25<42:00,  2.00it/s] 53%|█████▎    | 5677/10712 [1:14:25<41:56,  2.00it/s] 53%|█████▎    | 5678/10712 [1:14:26<41:54,  2.00it/s] 53%|█████▎    | 5679/10712 [1:14:26<41:55,  2.00it/s] 53%|█████▎    | 5680/10712 [1:14:27<41:55,  2.00it/s] 53%|█████▎    | 5681/10712 [1:14:27<41:53,  2.00it/s] 53%|█████▎    | 5682/10712 [1:14:28<41:50,  2.00it/s] 53%|█████▎    | 5683/10712 [1:14:28<41:52,  2.00it/s] 53%|█████▎    | 5684/10712 [1:14:29<41:51,  2.00it/s] 53%|█████▎    | 5685/10712 [1:14:29<41:48,  2.00it/s] 53%|█████▎    | 5686/10712 [1:14:30<41:47,  2.00it/s] 53%|█████▎    | 5687/10712 [1:14:30<41:51,  2.00it/s] 53%|█████▎    | 5688/10712 [1:14:31<41:48,  2.00it/s] 53%|█████▎    | 5689/10712 [1:14:31<41:47,  2.00it/s] 53%|█████▎    | 5690/10712 [1:14:32<41:49,  2.00it/s] 53%|█████▎    | 5691/10712 [1:14:32<41:47,  2.00it/s] 53%|█████▎    | 5692/10712 [1:14:33<41:46,  2.00it/s] 53%|█████▎    | 5693/10712 [1:14:33<41:44,  2.00it/s] 53%|█████▎    | 5694/10712 [1:14:34<41:44,  2.00it/s] 53%|█████▎    | 5695/10712 [1:14:34<41:40,  2.01it/s] 53%|█████▎    | 5696/10712 [1:14:35<41:36,  2.01it/s] 53%|█████▎    | 5697/10712 [1:14:35<41:36,  2.01it/s] 53%|█████▎    | 5698/10712 [1:14:36<41:40,  2.00it/s] 53%|█████▎    | 5699/10712 [1:14:36<41:41,  2.00it/s] 53%|█████▎    | 5700/10712 [1:14:37<41:40,  2.00it/s]                                                      {'loss': 3.8083, 'grad_norm': 0.20227479934692383, 'learning_rate': 0.0005312651593863571, 'epoch': 0.53}
+ 53%|█████▎    | 5700/10712 [1:14:37<41:40,  2.00it/s] 53%|█████▎    | 5701/10712 [1:14:37<41:43,  2.00it/s] 53%|█████▎    | 5702/10712 [1:14:38<41:39,  2.00it/s] 53%|█████▎    | 5703/10712 [1:14:38<41:35,  2.01it/s] 53%|█████▎    | 5704/10712 [1:14:39<41:47,  2.00it/s] 53%|█████▎    | 5705/10712 [1:14:39<41:43,  2.00it/s] 53%|█████▎    | 5706/10712 [1:14:40<41:39,  2.00it/s] 53%|█████▎    | 5707/10712 [1:14:40<41:37,  2.00it/s] 53%|█████▎    | 5708/10712 [1:14:41<41:37,  2.00it/s] 53%|█████▎    | 5709/10712 [1:14:41<41:38,  2.00it/s] 53%|█████▎    | 5710/10712 [1:14:42<41:34,  2.01it/s] 53%|█████▎    | 5711/10712 [1:14:42<41:32,  2.01it/s] 53%|█████▎    | 5712/10712 [1:14:43<41:30,  2.01it/s] 53%|█████▎    | 5713/10712 [1:14:43<41:33,  2.01it/s] 53%|█████▎    | 5714/10712 [1:14:44<41:27,  2.01it/s] 53%|█████▎    | 5715/10712 [1:14:44<41:28,  2.01it/s] 53%|█████▎    | 5716/10712 [1:14:45<41:26,  2.01it/s] 53%|█████▎    | 5717/10712 [1:14:45<41:25,  2.01it/s] 53%|█████▎    | 5718/10712 [1:14:46<41:23,  2.01it/s] 53%|█████▎    | 5719/10712 [1:14:46<41:22,  2.01it/s] 53%|█████▎    | 5720/10712 [1:14:47<41:36,  2.00it/s] 53%|█████▎    | 5721/10712 [1:14:47<41:33,  2.00it/s] 53%|█████▎    | 5722/10712 [1:14:48<41:34,  2.00it/s] 53%|█████▎    | 5723/10712 [1:14:48<41:31,  2.00it/s] 53%|█████▎    | 5724/10712 [1:14:49<41:26,  2.01it/s] 53%|█████▎    | 5725/10712 [1:14:49<41:28,  2.00it/s]                                                      {'loss': 3.8099, 'grad_norm': 0.21218886971473694, 'learning_rate': 0.0005271984966344421, 'epoch': 0.53}
+ 53%|█████▎    | 5725/10712 [1:14:49<41:28,  2.00it/s] 53%|█████▎    | 5726/10712 [1:14:50<41:29,  2.00it/s] 53%|█████▎    | 5727/10712 [1:14:50<41:30,  2.00it/s] 53%|█████▎    | 5728/10712 [1:14:51<41:24,  2.01it/s] 53%|█████▎    | 5729/10712 [1:14:51<41:21,  2.01it/s] 53%|█████▎    | 5730/10712 [1:14:52<41:18,  2.01it/s] 54%|█████▎    | 5731/10712 [1:14:52<41:17,  2.01it/s] 54%|█████▎    | 5732/10712 [1:14:53<41:43,  1.99it/s] 54%|█████▎    | 5733/10712 [1:14:53<43:46,  1.90it/s] 54%|█████▎    | 5734/10712 [1:14:54<43:10,  1.92it/s] 54%|█████▎    | 5735/10712 [1:14:54<42:34,  1.95it/s] 54%|█████▎    | 5736/10712 [1:14:55<42:14,  1.96it/s] 54%|█████▎    | 5737/10712 [1:14:55<41:59,  1.97it/s] 54%|█████▎    | 5738/10712 [1:14:56<41:46,  1.98it/s] 54%|█████▎    | 5739/10712 [1:14:56<41:38,  1.99it/s] 54%|█████▎    | 5740/10712 [1:14:57<41:30,  2.00it/s] 54%|█████▎    | 5741/10712 [1:14:57<41:23,  2.00it/s] 54%|█████▎    | 5742/10712 [1:14:58<41:27,  2.00it/s] 54%|█████▎    | 5743/10712 [1:14:58<41:22,  2.00it/s] 54%|█████▎    | 5744/10712 [1:14:59<41:19,  2.00it/s] 54%|█████▎    | 5745/10712 [1:14:59<41:17,  2.00it/s] 54%|█████▎    | 5746/10712 [1:15:00<41:14,  2.01it/s] 54%|█████▎    | 5747/10712 [1:15:00<41:11,  2.01it/s] 54%|█████▎    | 5748/10712 [1:15:01<41:09,  2.01it/s] 54%|█████▎    | 5749/10712 [1:15:01<41:05,  2.01it/s] 54%|█████▎    | 5750/10712 [1:15:02<41:06,  2.01it/s]                                                      {'loss': 3.8059, 'grad_norm': 0.22931993007659912, 'learning_rate': 0.0005231300285043346, 'epoch': 0.54}
+ 54%|█████▎    | 5750/10712 [1:15:02<41:06,  2.01it/s] 54%|█████▎    | 5751/10712 [1:15:02<41:06,  2.01it/s] 54%|█████▎    | 5752/10712 [1:15:03<41:06,  2.01it/s] 54%|█████▎    | 5753/10712 [1:15:03<41:03,  2.01it/s] 54%|█████▎    | 5754/10712 [1:15:04<41:03,  2.01it/s] 54%|█████▎    | 5755/10712 [1:15:04<41:04,  2.01it/s] 54%|█████▎    | 5756/10712 [1:15:05<41:09,  2.01it/s] 54%|█████▎    | 5757/10712 [1:15:05<42:28,  1.94it/s] 54%|█████▍    | 5758/10712 [1:15:06<42:03,  1.96it/s] 54%|█████▍    | 5759/10712 [1:15:06<41:48,  1.97it/s] 54%|█████▍    | 5760/10712 [1:15:07<41:40,  1.98it/s] 54%|█████▍    | 5761/10712 [1:15:07<41:35,  1.98it/s] 54%|█████▍    | 5762/10712 [1:15:08<41:27,  1.99it/s] 54%|█████▍    | 5763/10712 [1:15:08<41:18,  2.00it/s] 54%|█████▍    | 5764/10712 [1:15:09<41:16,  2.00it/s] 54%|█████▍    | 5765/10712 [1:15:09<41:11,  2.00it/s] 54%|█████▍    | 5766/10712 [1:15:10<41:07,  2.00it/s] 54%|█████▍    | 5767/10712 [1:15:10<41:09,  2.00it/s] 54%|█████▍    | 5768/10712 [1:15:11<41:07,  2.00it/s] 54%|█████▍    | 5769/10712 [1:15:11<41:05,  2.00it/s] 54%|█████▍    | 5770/10712 [1:15:12<41:05,  2.00it/s] 54%|█████▍    | 5771/10712 [1:15:12<41:03,  2.01it/s] 54%|█████▍    | 5772/10712 [1:15:13<40:58,  2.01it/s] 54%|█████▍    | 5773/10712 [1:15:13<41:00,  2.01it/s] 54%|█████▍    | 5774/10712 [1:15:14<40:59,  2.01it/s] 54%|█████▍    | 5775/10712 [1:15:14<40:55,  2.01it/s]                                                      {'loss': 3.8098, 'grad_norm': 0.20363205671310425, 'learning_rate': 0.0005190600250522716, 'epoch': 0.54}
+ 54%|█████▍    | 5775/10712 [1:15:14<40:55,  2.01it/s] 54%|█████▍    | 5776/10712 [1:15:15<41:01,  2.01it/s] 54%|█████▍    | 5777/10712 [1:15:15<40:59,  2.01it/s] 54%|█████▍    | 5778/10712 [1:15:16<41:00,  2.01it/s] 54%|█████▍    | 5779/10712 [1:15:16<40:56,  2.01it/s] 54%|█████▍    | 5780/10712 [1:15:17<40:52,  2.01it/s] 54%|█████▍    | 5781/10712 [1:15:17<40:51,  2.01it/s] 54%|█████▍    | 5782/10712 [1:15:18<40:53,  2.01it/s] 54%|█████▍    | 5783/10712 [1:15:18<40:57,  2.01it/s] 54%|█████▍    | 5784/10712 [1:15:19<40:57,  2.01it/s] 54%|█████▍    | 5785/10712 [1:15:19<41:01,  2.00it/s] 54%|█████▍    | 5786/10712 [1:15:20<41:06,  2.00it/s] 54%|█████▍    | 5787/10712 [1:15:20<41:24,  1.98it/s] 54%|█████▍    | 5788/10712 [1:15:21<41:24,  1.98it/s] 54%|█████▍    | 5789/10712 [1:15:21<41:21,  1.98it/s] 54%|█████▍    | 5790/10712 [1:15:22<41:11,  1.99it/s] 54%|█████▍    | 5791/10712 [1:15:22<41:06,  2.00it/s] 54%|█████▍    | 5792/10712 [1:15:23<41:04,  2.00it/s] 54%|█████▍    | 5793/10712 [1:15:23<41:03,  2.00it/s] 54%|█████▍    | 5794/10712 [1:15:24<41:05,  2.00it/s] 54%|█████▍    | 5795/10712 [1:15:24<41:12,  1.99it/s] 54%|█████▍    | 5796/10712 [1:15:25<41:08,  1.99it/s] 54%|█████▍    | 5797/10712 [1:15:25<41:02,  2.00it/s] 54%|█████▍    | 5798/10712 [1:15:26<42:03,  1.95it/s] 54%|█████▍    | 5799/10712 [1:15:26<41:49,  1.96it/s] 54%|█████▍    | 5800/10712 [1:15:27<41:36,  1.97it/s]                                                      {'loss': 3.8045, 'grad_norm': 0.2048569917678833, 'learning_rate': 0.0005149887564364004, 'epoch': 0.54}
+ 54%|█████▍    | 5800/10712 [1:15:27<41:36,  1.97it/s] 54%|█████▍    | 5801/10712 [1:15:27<41:26,  1.98it/s] 54%|█████▍    | 5802/10712 [1:15:28<41:17,  1.98it/s] 54%|█████▍    | 5803/10712 [1:15:28<41:05,  1.99it/s] 54%|█████▍    | 5804/10712 [1:15:29<41:00,  1.99it/s] 54%|█████▍    | 5805/10712 [1:15:29<40:54,  2.00it/s] 54%|█████▍    | 5806/10712 [1:15:30<40:50,  2.00it/s] 54%|█████▍    | 5807/10712 [1:15:30<40:48,  2.00it/s] 54%|█████▍    | 5808/10712 [1:15:31<40:47,  2.00it/s] 54%|█████▍    | 5809/10712 [1:15:31<40:42,  2.01it/s] 54%|█████▍    | 5810/10712 [1:15:32<40:39,  2.01it/s] 54%|█████▍    | 5811/10712 [1:15:32<40:41,  2.01it/s] 54%|█████▍    | 5812/10712 [1:15:33<40:38,  2.01it/s] 54%|█████▍    | 5813/10712 [1:15:33<40:36,  2.01it/s] 54%|█████▍    | 5814/10712 [1:15:34<40:38,  2.01it/s] 54%|█████▍    | 5815/10712 [1:15:34<40:35,  2.01it/s] 54%|█████▍    | 5816/10712 [1:15:35<40:36,  2.01it/s] 54%|█████▍    | 5817/10712 [1:15:35<40:32,  2.01it/s] 54%|█████▍    | 5818/10712 [1:15:36<40:30,  2.01it/s] 54%|█████▍    | 5819/10712 [1:15:36<40:35,  2.01it/s] 54%|█████▍    | 5820/10712 [1:15:37<40:31,  2.01it/s] 54%|█████▍    | 5821/10712 [1:15:37<40:29,  2.01it/s] 54%|█████▍    | 5822/10712 [1:15:38<40:29,  2.01it/s] 54%|█████▍    | 5823/10712 [1:15:38<40:29,  2.01it/s] 54%|█████▍    | 5824/10712 [1:15:39<40:31,  2.01it/s] 54%|█████▍    | 5825/10712 [1:15:39<40:33,  2.01it/s]                                                      {'loss': 3.7935, 'grad_norm': 0.20744208991527557, 'learning_rate': 0.0005109164928988476, 'epoch': 0.54}
+ 54%|█████▍    | 5825/10712 [1:15:39<40:33,  2.01it/s] 54%|█████▍    | 5826/10712 [1:15:40<40:40,  2.00it/s] 54%|█████▍    | 5827/10712 [1:15:40<40:39,  2.00it/s] 54%|█████▍    | 5828/10712 [1:15:41<40:40,  2.00it/s] 54%|█████▍    | 5829/10712 [1:15:41<40:39,  2.00it/s] 54%|█████▍    | 5830/10712 [1:15:42<40:37,  2.00it/s] 54%|█████▍    | 5831/10712 [1:15:42<40:34,  2.01it/s] 54%|█████▍    | 5832/10712 [1:15:43<40:55,  1.99it/s] 54%|█████▍    | 5833/10712 [1:15:43<40:50,  1.99it/s] 54%|█████▍    | 5834/10712 [1:15:44<40:49,  1.99it/s] 54%|█████▍    | 5835/10712 [1:15:44<40:45,  1.99it/s] 54%|█████▍    | 5836/10712 [1:15:45<40:44,  1.99it/s] 54%|█████▍    | 5837/10712 [1:15:45<40:41,  2.00it/s] 54%|█████▍    | 5838/10712 [1:15:46<40:36,  2.00it/s] 55%|█████▍    | 5839/10712 [1:15:46<40:33,  2.00it/s] 55%|█████▍    | 5840/10712 [1:15:47<40:29,  2.01it/s] 55%|█████▍    | 5841/10712 [1:15:47<40:27,  2.01it/s] 55%|█████▍    | 5842/10712 [1:15:48<40:26,  2.01it/s] 55%|█████▍    | 5843/10712 [1:15:48<40:25,  2.01it/s] 55%|█████▍    | 5844/10712 [1:15:49<40:33,  2.00it/s] 55%|█████▍    | 5845/10712 [1:15:50<42:30,  1.91it/s] 55%|█████▍    | 5846/10712 [1:15:50<41:55,  1.93it/s] 55%|█████▍    | 5847/10712 [1:15:51<41:28,  1.96it/s] 55%|█████▍    | 5848/10712 [1:15:51<41:14,  1.97it/s] 55%|█████▍    | 5849/10712 [1:15:52<41:00,  1.98it/s] 55%|█████▍    | 5850/10712 [1:15:52<40:54,  1.98it/s]                                                      {'loss': 3.8042, 'grad_norm': 0.21113325655460358, 'learning_rate': 0.0005068435047477813, 'epoch': 0.55}
+ 55%|█████▍    | 5850/10712 [1:15:52<40:54,  1.98it/s] 55%|█████▍    | 5851/10712 [1:15:53<40:47,  1.99it/s] 55%|█████▍    | 5852/10712 [1:15:53<40:37,  1.99it/s] 55%|█████▍    | 5853/10712 [1:15:54<40:33,  2.00it/s] 55%|█████▍    | 5854/10712 [1:15:54<40:29,  2.00it/s] 55%|█████▍    | 5855/10712 [1:15:55<40:23,  2.00it/s] 55%|█████▍    | 5856/10712 [1:15:55<40:24,  2.00it/s] 55%|█████▍    | 5857/10712 [1:15:56<40:20,  2.01it/s] 55%|█████▍    | 5858/10712 [1:15:56<40:18,  2.01it/s] 55%|█████▍    | 5859/10712 [1:15:56<40:16,  2.01it/s] 55%|█████▍    | 5860/10712 [1:15:57<40:17,  2.01it/s] 55%|█████▍    | 5861/10712 [1:15:57<40:14,  2.01it/s] 55%|█████▍    | 5862/10712 [1:15:58<40:15,  2.01it/s] 55%|█████▍    | 5863/10712 [1:15:58<40:10,  2.01it/s] 55%|█████▍    | 5864/10712 [1:15:59<40:11,  2.01it/s] 55%|█████▍    | 5865/10712 [1:15:59<40:11,  2.01it/s] 55%|█████▍    | 5866/10712 [1:16:00<40:08,  2.01it/s] 55%|█████▍    | 5867/10712 [1:16:00<40:07,  2.01it/s] 55%|█████▍    | 5868/10712 [1:16:01<40:08,  2.01it/s] 55%|█████▍    | 5869/10712 [1:16:01<40:07,  2.01it/s] 55%|█████▍    | 5870/10712 [1:16:02<40:07,  2.01it/s] 55%|█████▍    | 5871/10712 [1:16:02<40:07,  2.01it/s] 55%|█████▍    | 5872/10712 [1:16:03<40:07,  2.01it/s] 55%|█████▍    | 5873/10712 [1:16:03<40:05,  2.01it/s] 55%|█████▍    | 5874/10712 [1:16:04<40:02,  2.01it/s] 55%|█████▍    | 5875/10712 [1:16:04<40:02,  2.01it/s]                                                      {'loss': 3.8051, 'grad_norm': 0.21107624471187592, 'learning_rate': 0.000502770062339467, 'epoch': 0.55}
+ 55%|█████▍    | 5875/10712 [1:16:04<40:02,  2.01it/s] 55%|█████▍    | 5876/10712 [1:16:05<40:03,  2.01it/s] 55%|█████▍    | 5877/10712 [1:16:05<40:02,  2.01it/s] 55%|█████▍    | 5878/10712 [1:16:06<40:01,  2.01it/s] 55%|█████▍    | 5879/10712 [1:16:06<40:02,  2.01it/s] 55%|█████▍    | 5880/10712 [1:16:07<40:02,  2.01it/s] 55%|█████▍    | 5881/10712 [1:16:07<39:59,  2.01it/s] 55%|█████▍    | 5882/10712 [1:16:08<39:56,  2.02it/s] 55%|█████▍    | 5883/10712 [1:16:08<39:55,  2.02it/s] 55%|█████▍    | 5884/10712 [1:16:09<39:58,  2.01it/s] 55%|█████▍    | 5885/10712 [1:16:09<39:55,  2.01it/s] 55%|█████▍    | 5886/10712 [1:16:10<39:57,  2.01it/s] 55%|█████▍    | 5887/10712 [1:16:10<39:56,  2.01it/s] 55%|█████▍    | 5888/10712 [1:16:11<39:56,  2.01it/s] 55%|█████▍    | 5889/10712 [1:16:11<39:53,  2.01it/s] 55%|█████▍    | 5890/10712 [1:16:12<39:52,  2.02it/s] 55%|█████▍    | 5891/10712 [1:16:12<39:52,  2.02it/s] 55%|█████▌    | 5892/10712 [1:16:13<40:14,  2.00it/s] 55%|█████▌    | 5893/10712 [1:16:13<40:47,  1.97it/s] 55%|█████▌    | 5894/10712 [1:16:14<42:30,  1.89it/s] 55%|█████▌    | 5895/10712 [1:16:15<41:44,  1.92it/s] 55%|█████▌    | 5896/10712 [1:16:15<41:14,  1.95it/s] 55%|█████▌    | 5897/10712 [1:16:16<40:51,  1.96it/s] 55%|█████▌    | 5898/10712 [1:16:16<40:38,  1.97it/s] 55%|█████▌    | 5899/10712 [1:16:17<40:27,  1.98it/s] 55%|█████▌    | 5900/10712 [1:16:17<40:20,  1.99it/s]                                                      {'loss': 3.798, 'grad_norm': 0.20833522081375122, 'learning_rate': 0.0004986964360603231, 'epoch': 0.55}
+ 55%|█████▌    | 5900/10712 [1:16:17<40:20,  1.99it/s] 55%|█████▌    | 5901/10712 [1:16:18<40:18,  1.99it/s] 55%|█████▌    | 5902/10712 [1:16:18<40:09,  2.00it/s] 55%|█████▌    | 5903/10712 [1:16:19<40:03,  2.00it/s] 55%|█████▌    | 5904/10712 [1:16:19<39:59,  2.00it/s] 55%|█████▌    | 5905/10712 [1:16:19<39:58,  2.00it/s] 55%|█████▌    | 5906/10712 [1:16:20<39:58,  2.00it/s] 55%|█████▌    | 5907/10712 [1:16:20<39:56,  2.01it/s] 55%|█████▌    | 5908/10712 [1:16:21<39:54,  2.01it/s] 55%|█████▌    | 5909/10712 [1:16:21<39:49,  2.01it/s] 55%|█████▌    | 5910/10712 [1:16:22<39:49,  2.01it/s] 55%|█████▌    | 5911/10712 [1:16:22<39:49,  2.01it/s] 55%|█████▌    | 5912/10712 [1:16:23<39:46,  2.01it/s] 55%|█████▌    | 5913/10712 [1:16:23<39:45,  2.01it/s] 55%|█████▌    | 5914/10712 [1:16:24<39:41,  2.01it/s] 55%|█████▌    | 5915/10712 [1:16:24<39:41,  2.01it/s] 55%|█████▌    | 5916/10712 [1:16:25<39:44,  2.01it/s] 55%|█████▌    | 5917/10712 [1:16:25<39:42,  2.01it/s] 55%|█████▌    | 5918/10712 [1:16:26<40:36,  1.97it/s] 55%|█████▌    | 5919/10712 [1:16:27<42:18,  1.89it/s] 55%|█████▌    | 5920/10712 [1:16:27<41:34,  1.92it/s] 55%|█████▌    | 5921/10712 [1:16:28<41:04,  1.94it/s] 55%|█████▌    | 5922/10712 [1:16:28<40:46,  1.96it/s] 55%|█████▌    | 5923/10712 [1:16:29<40:32,  1.97it/s] 55%|█████▌    | 5924/10712 [1:16:29<42:15,  1.89it/s] 55%|█████▌    | 5925/10712 [1:16:30<41:32,  1.92it/s]                                                      {'loss': 3.7982, 'grad_norm': 0.21108438074588776, 'learning_rate': 0.000494622896308973, 'epoch': 0.55}
+ 55%|█████▌    | 5925/10712 [1:16:30<41:32,  1.92it/s] 55%|█████▌    | 5926/10712 [1:16:30<41:00,  1.95it/s] 55%|█████▌    | 5927/10712 [1:16:31<40:41,  1.96it/s] 55%|█████▌    | 5928/10712 [1:16:31<40:23,  1.97it/s] 55%|█████▌    | 5929/10712 [1:16:32<40:10,  1.98it/s] 55%|█████▌    | 5930/10712 [1:16:32<40:05,  1.99it/s] 55%|█████▌    | 5931/10712 [1:16:33<40:01,  1.99it/s] 55%|█████▌    | 5932/10712 [1:16:33<40:00,  1.99it/s] 55%|█████▌    | 5933/10712 [1:16:34<40:02,  1.99it/s] 55%|█████▌    | 5934/10712 [1:16:34<40:05,  1.99it/s] 55%|█████▌    | 5935/10712 [1:16:35<40:03,  1.99it/s] 55%|█████▌    | 5936/10712 [1:16:35<39:59,  1.99it/s] 55%|█████▌    | 5937/10712 [1:16:36<39:51,  2.00it/s] 55%|█████▌    | 5938/10712 [1:16:36<39:53,  1.99it/s] 55%|█████▌    | 5939/10712 [1:16:37<39:54,  1.99it/s] 55%|█████▌    | 5940/10712 [1:16:37<39:54,  1.99it/s] 55%|█████▌    | 5941/10712 [1:16:38<39:50,  2.00it/s] 55%|█████▌    | 5942/10712 [1:16:38<39:46,  2.00it/s] 55%|█████▌    | 5943/10712 [1:16:39<39:45,  2.00it/s] 55%|█████▌    | 5944/10712 [1:16:39<39:46,  2.00it/s] 55%|█████▌    | 5945/10712 [1:16:40<39:45,  2.00it/s] 56%|█████▌    | 5946/10712 [1:16:40<39:44,  2.00it/s] 56%|█████▌    | 5947/10712 [1:16:41<39:43,  2.00it/s] 56%|█████▌    | 5948/10712 [1:16:41<39:44,  2.00it/s] 56%|█████▌    | 5949/10712 [1:16:42<39:43,  2.00it/s] 56%|█████▌    | 5950/10712 [1:16:42<39:39,  2.00it/s]                                                      {'loss': 3.7978, 'grad_norm': 0.19907768070697784, 'learning_rate': 0.0004905497134782966, 'epoch': 0.56}
+ 56%|█████▌    | 5950/10712 [1:16:42<39:39,  2.00it/s] 56%|█████▌    | 5951/10712 [1:16:43<39:39,  2.00it/s] 56%|█████▌    | 5952/10712 [1:16:43<41:07,  1.93it/s] 56%|█████▌    | 5953/10712 [1:16:44<40:49,  1.94it/s] 56%|█████▌    | 5954/10712 [1:16:44<40:31,  1.96it/s] 56%|█████▌    | 5955/10712 [1:16:45<40:18,  1.97it/s] 56%|█████▌    | 5956/10712 [1:16:45<40:09,  1.97it/s] 56%|█████▌    | 5957/10712 [1:16:46<40:00,  1.98it/s] 56%|█████▌    | 5958/10712 [1:16:46<39:52,  1.99it/s] 56%|█████▌    | 5959/10712 [1:16:47<39:45,  1.99it/s] 56%|█████▌    | 5960/10712 [1:16:47<39:45,  1.99it/s] 56%|█████▌    | 5961/10712 [1:16:48<39:47,  1.99it/s] 56%|█████▌    | 5962/10712 [1:16:48<39:44,  1.99it/s] 56%|█████▌    | 5963/10712 [1:16:49<39:38,  2.00it/s] 56%|█████▌    | 5964/10712 [1:16:49<39:38,  2.00it/s] 56%|█████▌    | 5965/10712 [1:16:50<39:35,  2.00it/s] 56%|█████▌    | 5966/10712 [1:16:50<39:40,  1.99it/s] 56%|█████▌    | 5967/10712 [1:16:51<39:40,  1.99it/s] 56%|█████▌    | 5968/10712 [1:16:51<39:38,  1.99it/s] 56%|█████▌    | 5969/10712 [1:16:52<39:37,  2.00it/s] 56%|█████▌    | 5970/10712 [1:16:52<39:38,  1.99it/s] 56%|█████▌    | 5971/10712 [1:16:53<39:36,  1.99it/s] 56%|█████▌    | 5972/10712 [1:16:53<39:34,  2.00it/s] 56%|█████▌    | 5973/10712 [1:16:54<39:30,  2.00it/s] 56%|█████▌    | 5974/10712 [1:16:54<39:29,  2.00it/s] 56%|█████▌    | 5975/10712 [1:16:55<39:26,  2.00it/s]                                                      {'loss': 3.7919, 'grad_norm': 0.20812588930130005, 'learning_rate': 0.00048647715793748213, 'epoch': 0.56}
+ 56%|█████▌    | 5975/10712 [1:16:55<39:26,  2.00it/s] 56%|█████▌    | 5976/10712 [1:16:55<39:28,  2.00it/s] 56%|█████▌    | 5977/10712 [1:16:56<39:28,  2.00it/s] 56%|█████▌    | 5978/10712 [1:16:56<39:22,  2.00it/s] 56%|█████▌    | 5979/10712 [1:16:57<39:20,  2.01it/s] 56%|█████▌    | 5980/10712 [1:16:57<39:20,  2.00it/s] 56%|█████▌    | 5981/10712 [1:16:58<39:15,  2.01it/s] 56%|█████▌    | 5982/10712 [1:16:58<39:15,  2.01it/s] 56%|█████▌    | 5983/10712 [1:16:59<39:13,  2.01it/s] 56%|█████▌    | 5984/10712 [1:16:59<39:11,  2.01it/s] 56%|█████▌    | 5985/10712 [1:17:00<39:13,  2.01it/s] 56%|█████▌    | 5986/10712 [1:17:00<39:13,  2.01it/s] 56%|█████▌    | 5987/10712 [1:17:01<39:09,  2.01it/s] 56%|█████▌    | 5988/10712 [1:17:01<39:10,  2.01it/s] 56%|█████▌    | 5989/10712 [1:17:02<39:11,  2.01it/s] 56%|█████▌    | 5990/10712 [1:17:02<39:08,  2.01it/s] 56%|█████▌    | 5991/10712 [1:17:03<39:06,  2.01it/s] 56%|█████▌    | 5992/10712 [1:17:03<39:04,  2.01it/s] 56%|█████▌    | 5993/10712 [1:17:04<39:04,  2.01it/s] 56%|█████▌    | 5994/10712 [1:17:04<39:04,  2.01it/s] 56%|█████▌    | 5995/10712 [1:17:05<39:04,  2.01it/s] 56%|█████▌    | 5996/10712 [1:17:05<39:03,  2.01it/s] 56%|█████▌    | 5997/10712 [1:17:06<39:03,  2.01it/s] 56%|█████▌    | 5998/10712 [1:17:06<39:08,  2.01it/s] 56%|█████▌    | 5999/10712 [1:17:07<39:07,  2.01it/s] 56%|█████▌    | 6000/10712 [1:17:07<39:07,  2.01it/s]                                                      {'loss': 3.7936, 'grad_norm': 0.22058948874473572, 'learning_rate': 0.00048240550001407955, 'epoch': 0.56}
+ 56%|█████▌    | 6000/10712 [1:17:07<39:07,  2.01it/s] 56%|█████▌    | 6001/10712 [1:17:08<39:13,  2.00it/s] 56%|█████▌    | 6002/10712 [1:17:08<39:10,  2.00it/s] 56%|█████▌    | 6003/10712 [1:17:09<39:10,  2.00it/s] 56%|█████▌    | 6004/10712 [1:17:09<39:12,  2.00it/s] 56%|█████▌    | 6005/10712 [1:17:10<39:09,  2.00it/s] 56%|█████▌    | 6006/10712 [1:17:10<39:10,  2.00it/s] 56%|█████▌    | 6007/10712 [1:17:11<39:10,  2.00it/s] 56%|█████▌    | 6008/10712 [1:17:11<39:10,  2.00it/s] 56%|█████▌    | 6009/10712 [1:17:12<39:08,  2.00it/s] 56%|█████▌    | 6010/10712 [1:17:12<39:09,  2.00it/s] 56%|█████▌    | 6011/10712 [1:17:13<39:10,  2.00it/s] 56%|█████▌    | 6012/10712 [1:17:13<39:08,  2.00it/s] 56%|█████▌    | 6013/10712 [1:17:14<39:13,  2.00it/s] 56%|█████▌    | 6014/10712 [1:17:14<39:10,  2.00it/s] 56%|█████▌    | 6015/10712 [1:17:15<39:11,  2.00it/s] 56%|█████▌    | 6016/10712 [1:17:15<39:09,  2.00it/s] 56%|█████▌    | 6017/10712 [1:17:16<39:09,  2.00it/s] 56%|█████▌    | 6018/10712 [1:17:16<39:08,  2.00it/s] 56%|█████▌    | 6019/10712 [1:17:17<39:09,  2.00it/s] 56%|█████▌    | 6020/10712 [1:17:17<39:05,  2.00it/s] 56%|█████▌    | 6021/10712 [1:17:18<39:06,  2.00it/s] 56%|█████▌    | 6022/10712 [1:17:18<39:07,  2.00it/s] 56%|█████▌    | 6023/10712 [1:17:19<39:07,  2.00it/s] 56%|█████▌    | 6024/10712 [1:17:19<39:09,  2.00it/s] 56%|█████▌    | 6025/10712 [1:17:20<39:04,  2.00it/s]                                                      {'loss': 3.7908, 'grad_norm': 0.20529143512248993, 'learning_rate': 0.00047833500997605707, 'epoch': 0.56}
+ 56%|█████▌    | 6025/10712 [1:17:20<39:04,  2.00it/s] 56%|█████▋    | 6026/10712 [1:17:20<39:08,  2.00it/s] 56%|█████▋    | 6027/10712 [1:17:21<39:04,  2.00it/s] 56%|█████▋    | 6028/10712 [1:17:21<39:03,  2.00it/s] 56%|█████▋    | 6029/10712 [1:17:22<39:05,  2.00it/s] 56%|█████▋    | 6030/10712 [1:17:22<39:02,  2.00it/s] 56%|█████▋    | 6031/10712 [1:17:23<38:59,  2.00it/s] 56%|█████▋    | 6032/10712 [1:17:23<40:07,  1.94it/s] 56%|█████▋    | 6033/10712 [1:17:24<39:46,  1.96it/s] 56%|█████▋    | 6034/10712 [1:17:24<39:30,  1.97it/s] 56%|█████▋    | 6035/10712 [1:17:25<39:20,  1.98it/s] 56%|█████▋    | 6036/10712 [1:17:25<39:15,  1.99it/s] 56%|█████▋    | 6037/10712 [1:17:26<39:08,  1.99it/s] 56%|█████▋    | 6038/10712 [1:17:26<39:02,  2.00it/s] 56%|█████▋    | 6039/10712 [1:17:27<38:59,  2.00it/s] 56%|█████▋    | 6040/10712 [1:17:27<38:53,  2.00it/s] 56%|█████▋    | 6041/10712 [1:17:28<38:49,  2.01it/s] 56%|█████▋    | 6042/10712 [1:17:28<38:51,  2.00it/s] 56%|█████▋    | 6043/10712 [1:17:29<38:46,  2.01it/s] 56%|█████▋    | 6044/10712 [1:17:29<38:43,  2.01it/s] 56%|█████▋    | 6045/10712 [1:17:30<38:41,  2.01it/s] 56%|█████▋    | 6046/10712 [1:17:30<38:40,  2.01it/s] 56%|█████▋    | 6047/10712 [1:17:31<38:38,  2.01it/s] 56%|█████▋    | 6048/10712 [1:17:31<38:38,  2.01it/s] 56%|█████▋    | 6049/10712 [1:17:32<38:37,  2.01it/s] 56%|█████▋    | 6050/10712 [1:17:32<38:38,  2.01it/s]                                                      {'loss': 3.7909, 'grad_norm': 0.19835951924324036, 'learning_rate': 0.0004742659580138609, 'epoch': 0.56}
+ 56%|█████▋    | 6050/10712 [1:17:32<38:38,  2.01it/s] 56%|█████▋    | 6051/10712 [1:17:33<38:50,  2.00it/s] 56%|█████▋    | 6052/10712 [1:17:33<38:56,  1.99it/s] 57%|█████▋    | 6053/10712 [1:17:34<38:54,  2.00it/s] 57%|█████▋    | 6054/10712 [1:17:34<38:51,  2.00it/s] 57%|█████▋    | 6055/10712 [1:17:35<38:50,  2.00it/s] 57%|█████▋    | 6056/10712 [1:17:35<38:47,  2.00it/s] 57%|█████▋    | 6057/10712 [1:17:36<38:41,  2.00it/s] 57%|█████▋    | 6058/10712 [1:17:36<38:42,  2.00it/s] 57%|█████▋    | 6059/10712 [1:17:37<38:40,  2.01it/s] 57%|█████▋    | 6060/10712 [1:17:37<38:41,  2.00it/s] 57%|█████▋    | 6061/10712 [1:17:38<38:39,  2.01it/s] 57%|█████▋    | 6062/10712 [1:17:38<38:40,  2.00it/s] 57%|█████▋    | 6063/10712 [1:17:39<38:42,  2.00it/s] 57%|█████▋    | 6064/10712 [1:17:39<38:42,  2.00it/s] 57%|█████▋    | 6065/10712 [1:17:40<38:42,  2.00it/s] 57%|█████▋    | 6066/10712 [1:17:40<38:40,  2.00it/s] 57%|█████▋    | 6067/10712 [1:17:41<45:59,  1.68it/s] 57%|█████▋    | 6068/10712 [1:17:42<43:49,  1.77it/s] 57%|█████▋    | 6069/10712 [1:17:42<42:16,  1.83it/s] 57%|█████▋    | 6070/10712 [1:17:43<41:08,  1.88it/s] 57%|█████▋    | 6071/10712 [1:17:43<40:20,  1.92it/s] 57%|█████▋    | 6072/10712 [1:17:44<39:50,  1.94it/s] 57%|█████▋    | 6073/10712 [1:17:44<39:25,  1.96it/s] 57%|█████▋    | 6074/10712 [1:17:45<39:09,  1.97it/s] 57%|█████▋    | 6075/10712 [1:17:45<38:57,  1.98it/s]                                                      {'loss': 3.7882, 'grad_norm': 0.20252130925655365, 'learning_rate': 0.0004701986142224813, 'epoch': 0.57}
+ 57%|█████▋    | 6075/10712 [1:17:45<38:57,  1.98it/s] 57%|█████▋    | 6076/10712 [1:17:46<38:50,  1.99it/s] 57%|█████▋    | 6077/10712 [1:17:46<38:42,  2.00it/s] 57%|█████▋    | 6078/10712 [1:17:47<38:42,  2.00it/s] 57%|█████▋    | 6079/10712 [1:17:47<38:38,  2.00it/s] 57%|█████▋    | 6080/10712 [1:17:48<38:33,  2.00it/s] 57%|█████▋    | 6081/10712 [1:17:48<38:29,  2.01it/s] 57%|█████▋    | 6082/10712 [1:17:49<38:27,  2.01it/s] 57%|█████▋    | 6083/10712 [1:17:49<38:25,  2.01it/s] 57%|█████▋    | 6084/10712 [1:17:50<38:22,  2.01it/s] 57%|█████▋    | 6085/10712 [1:17:50<38:20,  2.01it/s] 57%|█████▋    | 6086/10712 [1:17:51<38:22,  2.01it/s] 57%|█████▋    | 6087/10712 [1:17:51<38:21,  2.01it/s] 57%|█████▋    | 6088/10712 [1:17:52<38:18,  2.01it/s] 57%|█████▋    | 6089/10712 [1:17:52<38:19,  2.01it/s] 57%|█████▋    | 6090/10712 [1:17:52<38:14,  2.01it/s] 57%|█████▋    | 6091/10712 [1:17:53<38:15,  2.01it/s] 57%|█████▋    | 6092/10712 [1:17:54<45:25,  1.70it/s] 57%|█████▋    | 6093/10712 [1:17:54<43:17,  1.78it/s] 57%|█████▋    | 6094/10712 [1:17:55<41:43,  1.84it/s] 57%|█████▋    | 6095/10712 [1:17:55<40:37,  1.89it/s] 57%|█████▋    | 6096/10712 [1:17:56<39:50,  1.93it/s] 57%|█████▋    | 6097/10712 [1:17:56<39:28,  1.95it/s] 57%|█████▋    | 6098/10712 [1:17:57<39:13,  1.96it/s] 57%|█████▋    | 6099/10712 [1:17:57<38:59,  1.97it/s] 57%|█████▋    | 6100/10712 [1:17:58<38:44,  1.98it/s]                                                      {'loss': 3.7861, 'grad_norm': 0.20584744215011597, 'learning_rate': 0.0004661332485835234, 'epoch': 0.57}
+ 57%|█████▋    | 6100/10712 [1:17:58<38:44,  1.98it/s] 57%|█████▋    | 6101/10712 [1:17:58<38:43,  1.98it/s] 57%|█████▋    | 6102/10712 [1:17:59<38:36,  1.99it/s] 57%|█████▋    | 6103/10712 [1:17:59<38:33,  1.99it/s] 57%|█████▋    | 6104/10712 [1:18:00<38:24,  2.00it/s] 57%|█████▋    | 6105/10712 [1:18:00<38:20,  2.00it/s] 57%|█████▋    | 6106/10712 [1:18:01<38:20,  2.00it/s] 57%|█████▋    | 6107/10712 [1:18:01<38:19,  2.00it/s] 57%|█████▋    | 6108/10712 [1:18:02<38:16,  2.00it/s] 57%|█████▋    | 6109/10712 [1:18:02<38:16,  2.00it/s] 57%|█████▋    | 6110/10712 [1:18:03<38:16,  2.00it/s] 57%|█████▋    | 6111/10712 [1:18:03<38:15,  2.00it/s] 57%|█████▋    | 6112/10712 [1:18:04<38:18,  2.00it/s] 57%|█████▋    | 6113/10712 [1:18:04<38:23,  2.00it/s] 57%|█████▋    | 6114/10712 [1:18:05<38:19,  2.00it/s] 57%|█████▋    | 6115/10712 [1:18:05<38:22,  2.00it/s] 57%|█████▋    | 6116/10712 [1:18:06<38:19,  2.00it/s] 57%|█████▋    | 6117/10712 [1:18:06<38:16,  2.00it/s] 57%|█████▋    | 6118/10712 [1:18:07<38:18,  2.00it/s] 57%|█████▋    | 6119/10712 [1:18:07<38:15,  2.00it/s] 57%|█████▋    | 6120/10712 [1:18:08<38:16,  2.00it/s] 57%|█████▋    | 6121/10712 [1:18:08<38:28,  1.99it/s] 57%|█████▋    | 6122/10712 [1:18:09<38:26,  1.99it/s] 57%|█████▋    | 6123/10712 [1:18:09<38:26,  1.99it/s] 57%|█████▋    | 6124/10712 [1:18:10<38:18,  2.00it/s] 57%|█████▋    | 6125/10712 [1:18:10<38:15,  2.00it/s]                                                      {'loss': 3.7878, 'grad_norm': 0.21216273307800293, 'learning_rate': 0.0004620701309472869, 'epoch': 0.57}
+ 57%|█████▋    | 6125/10712 [1:18:10<38:15,  2.00it/s] 57%|█████▋    | 6126/10712 [1:18:11<38:14,  2.00it/s] 57%|█████▋    | 6127/10712 [1:18:11<38:10,  2.00it/s] 57%|█████▋    | 6128/10712 [1:18:12<38:05,  2.01it/s] 57%|█████▋    | 6129/10712 [1:18:12<38:07,  2.00it/s] 57%|█████▋    | 6130/10712 [1:18:13<38:15,  2.00it/s] 57%|█████▋    | 6131/10712 [1:18:13<39:19,  1.94it/s] 57%|█████▋    | 6132/10712 [1:18:14<39:01,  1.96it/s] 57%|█████▋    | 6133/10712 [1:18:14<38:46,  1.97it/s] 57%|█████▋    | 6134/10712 [1:18:15<38:36,  1.98it/s] 57%|█████▋    | 6135/10712 [1:18:15<38:23,  1.99it/s] 57%|█████▋    | 6136/10712 [1:18:16<38:17,  1.99it/s] 57%|█████▋    | 6137/10712 [1:18:16<38:12,  2.00it/s] 57%|█████▋    | 6138/10712 [1:18:17<38:09,  2.00it/s] 57%|█████▋    | 6139/10712 [1:18:17<38:08,  2.00it/s] 57%|█████▋    | 6140/10712 [1:18:18<38:09,  2.00it/s] 57%|█████▋    | 6141/10712 [1:18:18<38:14,  1.99it/s] 57%|█████▋    | 6142/10712 [1:18:19<38:07,  2.00it/s] 57%|█████▋    | 6143/10712 [1:18:19<38:03,  2.00it/s] 57%|█████▋    | 6144/10712 [1:18:20<38:02,  2.00it/s] 57%|█████▋    | 6145/10712 [1:18:20<38:07,  2.00it/s] 57%|█████▋    | 6146/10712 [1:18:21<38:04,  2.00it/s] 57%|█████▋    | 6147/10712 [1:18:21<38:01,  2.00it/s] 57%|█████▋    | 6148/10712 [1:18:22<38:02,  2.00it/s] 57%|█████▋    | 6149/10712 [1:18:22<37:57,  2.00it/s] 57%|█████▋    | 6150/10712 [1:18:23<37:57,  2.00it/s]                                                      {'loss': 3.7877, 'grad_norm': 0.2097010612487793, 'learning_rate': 0.0004580095310148539, 'epoch': 0.57}
+ 57%|█████▋    | 6150/10712 [1:18:23<37:57,  2.00it/s] 57%|█████▋    | 6151/10712 [1:18:23<38:03,  2.00it/s] 57%|█████▋    | 6152/10712 [1:18:24<38:00,  2.00it/s] 57%|█████▋    | 6153/10712 [1:18:24<37:57,  2.00it/s] 57%|█████▋    | 6154/10712 [1:18:25<37:56,  2.00it/s] 57%|█████▋    | 6155/10712 [1:18:25<37:56,  2.00it/s] 57%|█████▋    | 6156/10712 [1:18:26<37:56,  2.00it/s] 57%|█████▋    | 6157/10712 [1:18:26<37:54,  2.00it/s] 57%|█████▋    | 6158/10712 [1:18:27<37:59,  2.00it/s] 57%|█████▋    | 6159/10712 [1:18:27<37:58,  2.00it/s] 58%|█████▊    | 6160/10712 [1:18:28<37:57,  2.00it/s] 58%|█████▊    | 6161/10712 [1:18:28<37:51,  2.00it/s] 58%|█████▊    | 6162/10712 [1:18:29<37:56,  2.00it/s] 58%|█████▊    | 6163/10712 [1:18:29<37:54,  2.00it/s] 58%|█████▊    | 6164/10712 [1:18:30<37:55,  2.00it/s] 58%|█████▊    | 6165/10712 [1:18:30<37:55,  2.00it/s] 58%|█████▊    | 6166/10712 [1:18:31<37:55,  2.00it/s] 58%|█████▊    | 6167/10712 [1:18:31<37:55,  2.00it/s] 58%|█████▊    | 6168/10712 [1:18:32<37:56,  2.00it/s] 58%|█████▊    | 6169/10712 [1:18:32<37:55,  2.00it/s] 58%|█████▊    | 6170/10712 [1:18:33<37:54,  2.00it/s] 58%|█████▊    | 6171/10712 [1:18:33<37:49,  2.00it/s] 58%|█████▊    | 6172/10712 [1:18:34<37:47,  2.00it/s] 58%|█████▊    | 6173/10712 [1:18:34<37:45,  2.00it/s] 58%|█████▊    | 6174/10712 [1:18:35<37:42,  2.01it/s] 58%|█████▊    | 6175/10712 [1:18:35<38:55,  1.94it/s]                                                      {'loss': 3.7776, 'grad_norm': 0.2103867083787918, 'learning_rate': 0.00045395171832018655, 'epoch': 0.58}
+ 58%|█████▊    | 6175/10712 [1:18:35<38:55,  1.94it/s] 58%|█████▊    | 6176/10712 [1:18:36<38:38,  1.96it/s] 58%|█████▊    | 6177/10712 [1:18:36<38:19,  1.97it/s] 58%|█████▊    | 6178/10712 [1:18:37<38:12,  1.98it/s] 58%|█████▊    | 6179/10712 [1:18:37<38:05,  1.98it/s] 58%|█████▊    | 6180/10712 [1:18:38<38:01,  1.99it/s] 58%|█████▊    | 6181/10712 [1:18:38<37:58,  1.99it/s] 58%|█████▊    | 6182/10712 [1:18:39<37:59,  1.99it/s] 58%|█████▊    | 6183/10712 [1:18:39<37:49,  2.00it/s] 58%|█████▊    | 6184/10712 [1:18:40<37:48,  2.00it/s] 58%|█████▊    | 6185/10712 [1:18:40<37:50,  1.99it/s] 58%|█████▊    | 6186/10712 [1:18:41<37:45,  2.00it/s] 58%|█████▊    | 6187/10712 [1:18:41<37:44,  2.00it/s] 58%|█████▊    | 6188/10712 [1:18:42<37:41,  2.00it/s] 58%|█████▊    | 6189/10712 [1:18:42<37:37,  2.00it/s] 58%|█████▊    | 6190/10712 [1:18:43<37:38,  2.00it/s] 58%|█████▊    | 6191/10712 [1:18:43<37:40,  2.00it/s] 58%|█████▊    | 6192/10712 [1:18:44<37:39,  2.00it/s] 58%|█████▊    | 6193/10712 [1:18:44<37:42,  2.00it/s] 58%|█████▊    | 6194/10712 [1:18:45<37:37,  2.00it/s] 58%|█████▊    | 6195/10712 [1:18:45<37:37,  2.00it/s] 58%|█████▊    | 6196/10712 [1:18:46<37:34,  2.00it/s] 58%|█████▊    | 6197/10712 [1:18:46<37:34,  2.00it/s] 58%|█████▊    | 6198/10712 [1:18:47<37:30,  2.01it/s] 58%|█████▊    | 6199/10712 [1:18:47<37:29,  2.01it/s] 58%|█████▊    | 6200/10712 [1:18:48<37:32,  2.00it/s]                                                      {'loss': 3.7861, 'grad_norm': 0.2238393872976303, 'learning_rate': 0.00044989696221223635, 'epoch': 0.58}
+ 58%|█████▊    | 6200/10712 [1:18:48<37:32,  2.00it/s] 58%|█████▊    | 6201/10712 [1:18:48<37:34,  2.00it/s] 58%|█████▊    | 6202/10712 [1:18:49<37:56,  1.98it/s] 58%|█████▊    | 6203/10712 [1:18:49<38:53,  1.93it/s] 58%|█████▊    | 6204/10712 [1:18:50<38:32,  1.95it/s] 58%|█████▊    | 6205/10712 [1:18:50<38:13,  1.97it/s] 58%|█████▊    | 6206/10712 [1:18:51<38:01,  1.97it/s] 58%|█████▊    | 6207/10712 [1:18:51<37:49,  1.98it/s] 58%|█████▊    | 6208/10712 [1:18:52<37:42,  1.99it/s] 58%|█████▊    | 6209/10712 [1:18:52<37:36,  2.00it/s] 58%|█████▊    | 6210/10712 [1:18:53<37:29,  2.00it/s] 58%|█████▊    | 6211/10712 [1:18:53<37:26,  2.00it/s] 58%|█████▊    | 6212/10712 [1:18:54<37:24,  2.00it/s] 58%|█████▊    | 6213/10712 [1:18:54<37:19,  2.01it/s] 58%|█████▊    | 6214/10712 [1:18:55<37:18,  2.01it/s] 58%|█████▊    | 6215/10712 [1:18:55<37:16,  2.01it/s] 58%|█████▊    | 6216/10712 [1:18:56<37:14,  2.01it/s] 58%|█████▊    | 6217/10712 [1:18:56<37:12,  2.01it/s] 58%|█████▊    | 6218/10712 [1:18:57<37:11,  2.01it/s] 58%|█████▊    | 6219/10712 [1:18:57<37:12,  2.01it/s] 58%|█████▊    | 6220/10712 [1:18:58<37:12,  2.01it/s] 58%|█████▊    | 6221/10712 [1:18:58<37:11,  2.01it/s] 58%|█████▊    | 6222/10712 [1:18:59<37:10,  2.01it/s] 58%|█████▊    | 6223/10712 [1:18:59<37:07,  2.01it/s] 58%|█████▊    | 6224/10712 [1:19:00<37:08,  2.01it/s] 58%|█████▊    | 6225/10712 [1:19:00<37:06,  2.02it/s]                                                      {'loss': 3.7818, 'grad_norm': 0.20514371991157532, 'learning_rate': 0.000445845531837065, 'epoch': 0.58}
+ 58%|█████▊    | 6225/10712 [1:19:00<37:06,  2.02it/s] 58%|█████▊    | 6226/10712 [1:19:01<37:10,  2.01it/s] 58%|█████▊    | 6227/10712 [1:19:01<37:08,  2.01it/s] 58%|█████▊    | 6228/10712 [1:19:02<37:05,  2.01it/s] 58%|█████▊    | 6229/10712 [1:19:02<37:06,  2.01it/s] 58%|█████▊    | 6230/10712 [1:19:03<37:05,  2.01it/s] 58%|█████▊    | 6231/10712 [1:19:03<37:06,  2.01it/s] 58%|█████▊    | 6232/10712 [1:19:04<37:03,  2.01it/s] 58%|█████▊    | 6233/10712 [1:19:04<37:02,  2.02it/s] 58%|█████▊    | 6234/10712 [1:19:05<37:03,  2.01it/s] 58%|█████▊    | 6235/10712 [1:19:05<37:09,  2.01it/s] 58%|█████▊    | 6236/10712 [1:19:06<37:08,  2.01it/s] 58%|█████▊    | 6237/10712 [1:19:06<37:08,  2.01it/s] 58%|█████▊    | 6238/10712 [1:19:07<37:07,  2.01it/s] 58%|█████▊    | 6239/10712 [1:19:07<37:06,  2.01it/s] 58%|█████▊    | 6240/10712 [1:19:08<37:07,  2.01it/s] 58%|█████▊    | 6241/10712 [1:19:08<37:02,  2.01it/s] 58%|█████▊    | 6242/10712 [1:19:09<37:04,  2.01it/s] 58%|█████▊    | 6243/10712 [1:19:09<37:05,  2.01it/s] 58%|█████▊    | 6244/10712 [1:19:10<37:00,  2.01it/s] 58%|█████▊    | 6245/10712 [1:19:10<37:00,  2.01it/s] 58%|█████▊    | 6246/10712 [1:19:11<36:59,  2.01it/s] 58%|█████▊    | 6247/10712 [1:19:11<37:02,  2.01it/s] 58%|█████▊    | 6248/10712 [1:19:12<37:06,  2.01it/s] 58%|█████▊    | 6249/10712 [1:19:12<37:06,  2.00it/s] 58%|█████▊    | 6250/10712 [1:19:13<37:07,  2.00it/s]                                                      {'loss': 3.7845, 'grad_norm': 0.21615807712078094, 'learning_rate': 0.000441797696119979, 'epoch': 0.58}
+ 58%|█████▊    | 6250/10712 [1:19:13<37:07,  2.00it/s] 58%|█████▊    | 6251/10712 [1:19:13<37:10,  2.00it/s] 58%|█████▊    | 6252/10712 [1:19:14<37:11,  2.00it/s] 58%|█████▊    | 6253/10712 [1:19:14<37:09,  2.00it/s] 58%|█████▊    | 6254/10712 [1:19:15<37:07,  2.00it/s] 58%|█████▊    | 6255/10712 [1:19:15<37:06,  2.00it/s] 58%|█████▊    | 6256/10712 [1:19:16<37:05,  2.00it/s] 58%|█████▊    | 6257/10712 [1:19:16<37:04,  2.00it/s] 58%|█████▊    | 6258/10712 [1:19:17<37:07,  2.00it/s] 58%|█████▊    | 6259/10712 [1:19:17<37:07,  2.00it/s] 58%|█████▊    | 6260/10712 [1:19:18<37:09,  2.00it/s] 58%|█████▊    | 6261/10712 [1:19:18<37:11,  1.99it/s] 58%|█████���    | 6262/10712 [1:19:19<37:11,  1.99it/s] 58%|█████▊    | 6263/10712 [1:19:19<37:08,  2.00it/s] 58%|█████▊    | 6264/10712 [1:19:20<37:04,  2.00it/s] 58%|█████▊    | 6265/10712 [1:19:20<37:05,  2.00it/s] 58%|█████▊    | 6266/10712 [1:19:21<38:06,  1.94it/s] 59%|█████▊    | 6267/10712 [1:19:21<37:50,  1.96it/s] 59%|█████▊    | 6268/10712 [1:19:22<37:33,  1.97it/s] 59%|█████▊    | 6269/10712 [1:19:22<37:21,  1.98it/s] 59%|█████▊    | 6270/10712 [1:19:23<37:13,  1.99it/s] 59%|█████▊    | 6271/10712 [1:19:23<37:07,  1.99it/s] 59%|█████▊    | 6272/10712 [1:19:24<37:01,  2.00it/s] 59%|█████▊    | 6273/10712 [1:19:24<36:59,  2.00it/s] 59%|█████▊    | 6274/10712 [1:19:25<37:02,  2.00it/s] 59%|█████▊    | 6275/10712 [1:19:25<37:01,  2.00it/s]                                                      {'loss': 3.7792, 'grad_norm': 0.21298275887966156, 'learning_rate': 0.0004377537237476793, 'epoch': 0.59}
+ 59%|█████▊    | 6275/10712 [1:19:25<37:01,  2.00it/s] 59%|█████▊    | 6276/10712 [1:19:26<37:19,  1.98it/s] 59%|█████▊    | 6277/10712 [1:19:26<37:40,  1.96it/s] 59%|█████▊    | 6278/10712 [1:19:27<37:22,  1.98it/s] 59%|█████▊    | 6279/10712 [1:19:27<37:11,  1.99it/s] 59%|█████▊    | 6280/10712 [1:19:28<37:06,  1.99it/s] 59%|█████▊    | 6281/10712 [1:19:28<37:00,  2.00it/s] 59%|█████▊    | 6282/10712 [1:19:29<36:55,  2.00it/s] 59%|█████▊    | 6283/10712 [1:19:29<36:54,  2.00it/s] 59%|█████▊    | 6284/10712 [1:19:30<36:48,  2.00it/s] 59%|█████▊    | 6285/10712 [1:19:30<36:46,  2.01it/s] 59%|█████▊    | 6286/10712 [1:19:31<36:45,  2.01it/s] 59%|█████▊    | 6287/10712 [1:19:31<36:43,  2.01it/s] 59%|█████▊    | 6288/10712 [1:19:32<36:41,  2.01it/s] 59%|█████▊    | 6289/10712 [1:19:32<36:43,  2.01it/s] 59%|█████▊    | 6290/10712 [1:19:33<36:41,  2.01it/s] 59%|█████▊    | 6291/10712 [1:19:33<36:38,  2.01it/s] 59%|█████▊    | 6292/10712 [1:19:34<36:39,  2.01it/s] 59%|█████▊    | 6293/10712 [1:19:34<36:42,  2.01it/s] 59%|█████▉    | 6294/10712 [1:19:35<36:41,  2.01it/s] 59%|█████▉    | 6295/10712 [1:19:35<36:41,  2.01it/s] 59%|█████▉    | 6296/10712 [1:19:36<36:45,  2.00it/s] 59%|█████▉    | 6297/10712 [1:19:36<36:45,  2.00it/s] 59%|█████▉    | 6298/10712 [1:19:37<36:45,  2.00it/s] 59%|█████▉    | 6299/10712 [1:19:37<36:47,  2.00it/s] 59%|█████▉    | 6300/10712 [1:19:38<36:42,  2.00it/s]                                                      {'loss': 3.7737, 'grad_norm': 0.20505817234516144, 'learning_rate': 0.00043371388315042623, 'epoch': 0.59}
+ 59%|█████▉    | 6300/10712 [1:19:38<36:42,  2.00it/s] 59%|█████▉    | 6301/10712 [1:19:38<36:41,  2.00it/s] 59%|█████▉    | 6302/10712 [1:19:39<36:41,  2.00it/s] 59%|█████▉    | 6303/10712 [1:19:39<36:40,  2.00it/s] 59%|█████▉    | 6304/10712 [1:19:40<36:38,  2.01it/s] 59%|█████▉    | 6305/10712 [1:19:40<36:37,  2.01it/s] 59%|█████▉    | 6306/10712 [1:19:41<36:40,  2.00it/s] 59%|█████▉    | 6307/10712 [1:19:41<36:36,  2.01it/s] 59%|█████▉    | 6308/10712 [1:19:42<36:36,  2.01it/s] 59%|█████▉    | 6309/10712 [1:19:42<36:32,  2.01it/s] 59%|█████▉    | 6310/10712 [1:19:43<36:35,  2.00it/s] 59%|█████▉    | 6311/10712 [1:19:43<38:31,  1.90it/s] 59%|█████▉    | 6312/10712 [1:19:44<37:55,  1.93it/s] 59%|█████▉    | 6313/10712 [1:19:44<37:31,  1.95it/s] 59%|█████▉    | 6314/10712 [1:19:45<37:17,  1.97it/s] 59%|█████▉    | 6315/10712 [1:19:45<37:03,  1.98it/s] 59%|█████▉    | 6316/10712 [1:19:46<36:52,  1.99it/s] 59%|█████▉    | 6317/10712 [1:19:46<36:47,  1.99it/s] 59%|█████▉    | 6318/10712 [1:19:47<36:44,  1.99it/s] 59%|█████▉    | 6319/10712 [1:19:47<36:37,  2.00it/s] 59%|█████▉    | 6320/10712 [1:19:48<36:35,  2.00it/s] 59%|█████▉    | 6321/10712 [1:19:48<36:32,  2.00it/s] 59%|█████▉    | 6322/10712 [1:19:49<36:29,  2.01it/s] 59%|█████▉    | 6323/10712 [1:19:49<36:28,  2.01it/s] 59%|█████▉    | 6324/10712 [1:19:50<36:27,  2.01it/s] 59%|█████▉    | 6325/10712 [1:19:50<36:22,  2.01it/s]                                                      {'loss': 3.7833, 'grad_norm': 0.20742197334766388, 'learning_rate': 0.00042967844248422153, 'epoch': 0.59}
+ 59%|█████▉    | 6325/10712 [1:19:50<36:22,  2.01it/s] 59%|█████▉    | 6326/10712 [1:19:51<36:24,  2.01it/s] 59%|█████▉    | 6327/10712 [1:19:51<36:25,  2.01it/s] 59%|█████▉    | 6328/10712 [1:19:52<36:21,  2.01it/s] 59%|█████▉    | 6329/10712 [1:19:52<36:19,  2.01it/s] 59%|█████▉    | 6330/10712 [1:19:53<36:18,  2.01it/s] 59%|█████▉    | 6331/10712 [1:19:53<36:16,  2.01it/s] 59%|█████▉    | 6332/10712 [1:19:54<36:17,  2.01it/s] 59%|█████▉    | 6333/10712 [1:19:54<36:15,  2.01it/s] 59%|█████▉    | 6334/10712 [1:19:55<36:13,  2.01it/s] 59%|█████▉    | 6335/10712 [1:19:55<36:12,  2.02it/s] 59%|█████▉    | 6336/10712 [1:19:56<36:09,  2.02it/s] 59%|█████▉    | 6337/10712 [1:19:56<36:11,  2.01it/s] 59%|█████▉    | 6338/10712 [1:19:57<36:10,  2.02it/s] 59%|█████▉    | 6339/10712 [1:19:57<36:11,  2.01it/s] 59%|█████▉    | 6340/10712 [1:19:58<36:10,  2.01it/s] 59%|█████▉    | 6341/10712 [1:19:58<36:10,  2.01it/s] 59%|█████▉    | 6342/10712 [1:19:59<37:29,  1.94it/s] 59%|█████▉    | 6343/10712 [1:19:59<37:10,  1.96it/s] 59%|█████▉    | 6344/10712 [1:20:00<36:58,  1.97it/s] 59%|█████▉    | 6345/10712 [1:20:00<36:43,  1.98it/s] 59%|█████▉    | 6346/10712 [1:20:01<36:37,  1.99it/s] 59%|█████▉    | 6347/10712 [1:20:01<36:27,  2.00it/s] 59%|█████▉    | 6348/10712 [1:20:02<36:22,  2.00it/s] 59%|█████▉    | 6349/10712 [1:20:02<36:22,  2.00it/s] 59%|█████▉    | 6350/10712 [1:20:03<36:17,  2.00it/s]                                                      {'loss': 3.773, 'grad_norm': 0.20050886273384094, 'learning_rate': 0.00042564766961300916, 'epoch': 0.59}
+ 59%|█████▉    | 6350/10712 [1:20:03<36:17,  2.00it/s] 59%|█████▉    | 6351/10712 [1:20:03<36:19,  2.00it/s] 59%|█████▉    | 6352/10712 [1:20:04<36:15,  2.00it/s] 59%|█████▉    | 6353/10712 [1:20:04<36:15,  2.00it/s] 59%|█████▉    | 6354/10712 [1:20:05<36:12,  2.01it/s] 59%|█████▉    | 6355/10712 [1:20:05<36:12,  2.01it/s] 59%|█████▉    | 6356/10712 [1:20:06<36:12,  2.01it/s] 59%|█████▉    | 6357/10712 [1:20:06<36:06,  2.01it/s] 59%|█████▉    | 6358/10712 [1:20:07<36:07,  2.01it/s] 59%|█████▉    | 6359/10712 [1:20:07<36:07,  2.01it/s] 59%|█████▉    | 6360/10712 [1:20:08<36:05,  2.01it/s] 59%|█████▉    | 6361/10712 [1:20:08<36:04,  2.01it/s] 59%|█████▉    | 6362/10712 [1:20:09<36:00,  2.01it/s] 59%|█████▉    | 6363/10712 [1:20:09<36:04,  2.01it/s] 59%|█████▉    | 6364/10712 [1:20:10<36:05,  2.01it/s] 59%|█████▉    | 6365/10712 [1:20:10<36:02,  2.01it/s] 59%|█████▉    | 6366/10712 [1:20:11<36:21,  1.99it/s] 59%|█████▉    | 6367/10712 [1:20:11<36:15,  2.00it/s] 59%|█████▉    | 6368/10712 [1:20:12<36:14,  2.00it/s] 59%|█████▉    | 6369/10712 [1:20:12<36:13,  2.00it/s] 59%|█████▉    | 6370/10712 [1:20:13<36:25,  1.99it/s] 59%|█████▉    | 6371/10712 [1:20:13<36:18,  1.99it/s] 59%|█████▉    | 6372/10712 [1:20:14<36:17,  1.99it/s] 59%|█████▉    | 6373/10712 [1:20:14<36:12,  2.00it/s] 60%|█████▉    | 6374/10712 [1:20:15<36:12,  2.00it/s] 60%|█████▉    | 6375/10712 [1:20:15<36:09,  2.00it/s]                                                      {'loss': 3.772, 'grad_norm': 0.2129916101694107, 'learning_rate': 0.00042162183209089473, 'epoch': 0.6}
+ 60%|█████▉    | 6375/10712 [1:20:15<36:09,  2.00it/s] 60%|█████▉    | 6376/10712 [1:20:16<36:11,  2.00it/s] 60%|█████▉    | 6377/10712 [1:20:16<36:08,  2.00it/s] 60%|█████▉    | 6378/10712 [1:20:17<36:04,  2.00it/s] 60%|█████▉    | 6379/10712 [1:20:17<36:03,  2.00it/s] 60%|█████▉    | 6380/10712 [1:20:18<36:01,  2.00it/s] 60%|█████▉    | 6381/10712 [1:20:18<36:03,  2.00it/s] 60%|█████▉    | 6382/10712 [1:20:19<36:09,  2.00it/s] 60%|█████▉    | 6383/10712 [1:20:19<36:02,  2.00it/s] 60%|█████▉    | 6384/10712 [1:20:20<35:59,  2.00it/s] 60%|█████▉    | 6385/10712 [1:20:20<36:00,  2.00it/s] 60%|█████▉    | 6386/10712 [1:20:21<36:06,  2.00it/s] 60%|█████▉    | 6387/10712 [1:20:21<36:02,  2.00it/s] 60%|█████▉    | 6388/10712 [1:20:22<35:56,  2.01it/s] 60%|█████▉    | 6389/10712 [1:20:22<35:54,  2.01it/s] 60%|█████▉    | 6390/10712 [1:20:23<35:58,  2.00it/s] 60%|█████▉    | 6391/10712 [1:20:23<36:00,  2.00it/s] 60%|█████▉    | 6392/10712 [1:20:24<35:57,  2.00it/s] 60%|█████▉    | 6393/10712 [1:20:24<35:58,  2.00it/s] 60%|█████▉    | 6394/10712 [1:20:25<35:59,  2.00it/s] 60%|█████▉    | 6395/10712 [1:20:25<36:01,  2.00it/s] 60%|█████▉    | 6396/10712 [1:20:26<36:01,  2.00it/s] 60%|█████▉    | 6397/10712 [1:20:26<35:59,  2.00it/s] 60%|█████▉    | 6398/10712 [1:20:27<35:58,  2.00it/s] 60%|█████▉    | 6399/10712 [1:20:27<36:00,  2.00it/s] 60%|█████▉    | 6400/10712 [1:20:28<35:59,  2.00it/s]                                                      {'loss': 3.7736, 'grad_norm': 0.2089225947856903, 'learning_rate': 0.00041760119714438575, 'epoch': 0.6}
+ 60%|█████▉    | 6400/10712 [1:20:28<35:59,  2.00it/s] 60%|█████▉    | 6401/10712 [1:20:28<36:57,  1.94it/s] 60%|█████▉    | 6402/10712 [1:20:29<36:39,  1.96it/s] 60%|█████▉    | 6403/10712 [1:20:29<36:26,  1.97it/s] 60%|█████▉    | 6404/10712 [1:20:30<36:12,  1.98it/s] 60%|█████▉    | 6405/10712 [1:20:30<36:08,  1.99it/s] 60%|█████▉    | 6406/10712 [1:20:31<35:59,  1.99it/s] 60%|█████▉    | 6407/10712 [1:20:31<35:53,  2.00it/s] 60%|█████▉    | 6408/10712 [1:20:32<35:52,  2.00it/s] 60%|█████▉    | 6409/10712 [1:20:32<35:49,  2.00it/s] 60%|█████▉    | 6410/10712 [1:20:33<35:47,  2.00it/s] 60%|█████▉    | 6411/10712 [1:20:33<35:47,  2.00it/s] 60%|█████▉    | 6412/10712 [1:20:34<35:42,  2.01it/s] 60%|█████▉    | 6413/10712 [1:20:34<35:41,  2.01it/s] 60%|█████▉    | 6414/10712 [1:20:35<35:39,  2.01it/s] 60%|█████▉    | 6415/10712 [1:20:35<35:39,  2.01it/s] 60%|█████▉    | 6416/10712 [1:20:36<35:34,  2.01it/s] 60%|█████▉    | 6417/10712 [1:20:36<35:36,  2.01it/s] 60%|█████▉    | 6418/10712 [1:20:37<35:38,  2.01it/s] 60%|█████▉    | 6419/10712 [1:20:37<35:40,  2.01it/s] 60%|█████▉    | 6420/10712 [1:20:38<35:56,  1.99it/s] 60%|█████▉    | 6421/10712 [1:20:39<37:20,  1.92it/s] 60%|█████▉    | 6422/10712 [1:20:39<37:07,  1.93it/s] 60%|█████▉    | 6423/10712 [1:20:40<38:23,  1.86it/s] 60%|█████▉    | 6424/10712 [1:20:40<37:36,  1.90it/s] 60%|█████▉    | 6425/10712 [1:20:41<37:00,  1.93it/s]                                                      {'loss': 3.7717, 'grad_norm': 0.20950685441493988, 'learning_rate': 0.0004135860316546541, 'epoch': 0.6}
+ 60%|█████▉    | 6425/10712 [1:20:41<37:00,  1.93it/s] 60%|█████▉    | 6426/10712 [1:20:41<36:38,  1.95it/s] 60%|█████▉    | 6427/10712 [1:20:42<36:22,  1.96it/s] 60%|██████    | 6428/10712 [1:20:42<36:13,  1.97it/s] 60%|██████    | 6429/10712 [1:20:43<36:03,  1.98it/s] 60%|██████    | 6430/10712 [1:20:43<36:00,  1.98it/s] 60%|██████    | 6431/10712 [1:20:44<35:54,  1.99it/s] 60%|██████    | 6432/10712 [1:20:44<35:50,  1.99it/s] 60%|██████    | 6433/10712 [1:20:45<35:55,  1.98it/s] 60%|██████    | 6434/10712 [1:20:45<35:51,  1.99it/s] 60%|██████    | 6435/10712 [1:20:46<35:50,  1.99it/s] 60%|██████    | 6436/10712 [1:20:46<37:35,  1.90it/s] 60%|██████    | 6437/10712 [1:20:47<37:18,  1.91it/s] 60%|██████    | 6438/10712 [1:20:47<36:49,  1.93it/s] 60%|██████    | 6439/10712 [1:20:48<36:27,  1.95it/s] 60%|██████    | 6440/10712 [1:20:48<36:09,  1.97it/s] 60%|██████    | 6441/10712 [1:20:49<35:59,  1.98it/s] 60%|██████    | 6442/10712 [1:20:49<35:50,  1.99it/s] 60%|██████    | 6443/10712 [1:20:50<35:41,  1.99it/s] 60%|██████    | 6444/10712 [1:20:50<35:36,  2.00it/s] 60%|██████    | 6445/10712 [1:20:51<35:34,  2.00it/s] 60%|██████    | 6446/10712 [1:20:51<35:31,  2.00it/s] 60%|██████    | 6447/10712 [1:20:52<35:30,  2.00it/s] 60%|██████    | 6448/10712 [1:20:52<35:28,  2.00it/s] 60%|██████    | 6449/10712 [1:20:53<35:24,  2.01it/s] 60%|██████    | 6450/10712 [1:20:53<35:22,  2.01it/s]                                                      {'loss': 3.7662, 'grad_norm': 0.2149665206670761, 'learning_rate': 0.0004095766021398206, 'epoch': 0.6}
+ 60%|██████    | 6450/10712 [1:20:53<35:22,  2.01it/s] 60%|██████    | 6451/10712 [1:20:54<35:21,  2.01it/s] 60%|██████    | 6452/10712 [1:20:54<35:16,  2.01it/s] 60%|██████    | 6453/10712 [1:20:55<35:18,  2.01it/s] 60%|██████    | 6454/10712 [1:20:55<35:17,  2.01it/s] 60%|██████    | 6455/10712 [1:20:56<35:16,  2.01it/s] 60%|██████    | 6456/10712 [1:20:56<35:26,  2.00it/s] 60%|██████    | 6457/10712 [1:20:57<35:47,  1.98it/s] 60%|██████    | 6458/10712 [1:20:57<35:39,  1.99it/s] 60%|██████    | 6459/10712 [1:20:58<35:35,  1.99it/s] 60%|██████    | 6460/10712 [1:20:58<35:33,  1.99it/s] 60%|██████    | 6461/10712 [1:20:59<35:30,  2.00it/s] 60%|██████    | 6462/10712 [1:20:59<35:26,  2.00it/s] 60%|██████    | 6463/10712 [1:21:00<35:22,  2.00it/s] 60%|██████    | 6464/10712 [1:21:00<35:23,  2.00it/s] 60%|██████    | 6465/10712 [1:21:01<35:20,  2.00it/s] 60%|██████    | 6466/10712 [1:21:01<35:16,  2.01it/s] 60%|██████    | 6467/10712 [1:21:02<35:12,  2.01it/s] 60%|██████    | 6468/10712 [1:21:02<35:13,  2.01it/s] 60%|██████    | 6469/10712 [1:21:03<35:13,  2.01it/s] 60%|██████    | 6470/10712 [1:21:03<35:14,  2.01it/s] 60%|██████    | 6471/10712 [1:21:04<35:17,  2.00it/s] 60%|██████    | 6472/10712 [1:21:04<35:16,  2.00it/s] 60%|██████    | 6473/10712 [1:21:05<35:13,  2.01it/s] 60%|██████    | 6474/10712 [1:21:05<35:12,  2.01it/s] 60%|██████    | 6475/10712 [1:21:06<35:14,  2.00it/s]                                                      {'loss': 3.7766, 'grad_norm': 0.2041858434677124, 'learning_rate': 0.00040557317473726437, 'epoch': 0.6}
+ 60%|██████    | 6475/10712 [1:21:06<35:14,  2.00it/s] 60%|██████    | 6476/10712 [1:21:06<35:14,  2.00it/s] 60%|██████    | 6477/10712 [1:21:07<35:10,  2.01it/s] 60%|██████    | 6478/10712 [1:21:07<35:07,  2.01it/s] 60%|██████    | 6479/10712 [1:21:08<35:04,  2.01it/s] 60%|██████    | 6480/10712 [1:21:08<35:05,  2.01it/s] 61%|██████    | 6481/10712 [1:21:09<35:02,  2.01it/s] 61%|██████    | 6482/10712 [1:21:09<35:03,  2.01it/s] 61%|██████    | 6483/10712 [1:21:10<35:01,  2.01it/s] 61%|██████    | 6484/10712 [1:21:10<35:00,  2.01it/s] 61%|██████    | 6485/10712 [1:21:11<36:16,  1.94it/s] 61%|██████    | 6486/10712 [1:21:11<36:09,  1.95it/s] 61%|██████    | 6487/10712 [1:21:12<36:40,  1.92it/s] 61%|██████    | 6488/10712 [1:21:12<36:10,  1.95it/s] 61%|██████    | 6489/10712 [1:21:13<35:52,  1.96it/s] 61%|██████    | 6490/10712 [1:21:13<35:38,  1.97it/s] 61%|██████    | 6491/10712 [1:21:14<35:26,  1.98it/s] 61%|██████    | 6492/10712 [1:21:14<35:17,  1.99it/s] 61%|██████    | 6493/10712 [1:21:15<35:12,  2.00it/s] 61%|██████    | 6494/10712 [1:21:15<35:08,  2.00it/s] 61%|██████    | 6495/10712 [1:21:16<35:02,  2.01it/s] 61%|██████    | 6496/10712 [1:21:16<34:59,  2.01it/s] 61%|██████    | 6497/10712 [1:21:17<34:57,  2.01it/s] 61%|██████    | 6498/10712 [1:21:17<34:58,  2.01it/s] 61%|██████    | 6499/10712 [1:21:18<35:01,  2.00it/s] 61%|██████    | 6500/10712 [1:21:18<34:58,  2.01it/s]                                                      {'loss': 3.7761, 'grad_norm': 0.23098516464233398, 'learning_rate': 0.000401576015185957, 'epoch': 0.61}
+ 61%|██████    | 6500/10712 [1:21:18<34:58,  2.01it/s] 61%|██████    | 6501/10712 [1:21:19<34:59,  2.01it/s] 61%|██████    | 6502/10712 [1:21:19<35:01,  2.00it/s] 61%|██████    | 6503/10712 [1:21:20<34:57,  2.01it/s] 61%|██████    | 6504/10712 [1:21:20<34:55,  2.01it/s] 61%|██████    | 6505/10712 [1:21:21<34:53,  2.01it/s] 61%|██████    | 6506/10712 [1:21:21<34:51,  2.01it/s] 61%|██████    | 6507/10712 [1:21:22<34:50,  2.01it/s] 61%|██████    | 6508/10712 [1:21:22<34:50,  2.01it/s] 61%|██████    | 6509/10712 [1:21:23<34:56,  2.01it/s] 61%|██████    | 6510/10712 [1:21:23<34:57,  2.00it/s] 61%|██████    | 6511/10712 [1:21:24<34:57,  2.00it/s] 61%|██████    | 6512/10712 [1:21:24<35:00,  2.00it/s] 61%|██████    | 6513/10712 [1:21:25<35:04,  1.99it/s] 61%|██████    | 6514/10712 [1:21:25<36:49,  1.90it/s] 61%|██████    | 6515/10712 [1:21:26<36:14,  1.93it/s] 61%|██████    | 6516/10712 [1:21:26<35:49,  1.95it/s] 61%|██████    | 6517/10712 [1:21:27<35:30,  1.97it/s] 61%|██████    | 6518/10712 [1:21:27<35:17,  1.98it/s] 61%|██████    | 6519/10712 [1:21:28<35:10,  1.99it/s] 61%|██████    | 6520/10712 [1:21:28<35:04,  1.99it/s] 61%|██████    | 6521/10712 [1:21:29<35:02,  1.99it/s] 61%|██████    | 6522/10712 [1:21:29<34:59,  2.00it/s] 61%|██████    | 6523/10712 [1:21:30<34:54,  2.00it/s] 61%|██████    | 6524/10712 [1:21:30<34:56,  2.00it/s] 61%|██████    | 6525/10712 [1:21:31<34:56,  2.00it/s]                                                      {'loss': 3.769, 'grad_norm': 0.21181854605674744, 'learning_rate': 0.0003975853888088237, 'epoch': 0.61}
+ 61%|██████    | 6525/10712 [1:21:31<34:56,  2.00it/s] 61%|██████    | 6526/10712 [1:21:31<34:55,  2.00it/s] 61%|██████    | 6527/10712 [1:21:32<34:53,  2.00it/s] 61%|██████    | 6528/10712 [1:21:32<35:03,  1.99it/s] 61%|██████    | 6529/10712 [1:21:33<35:01,  1.99it/s] 61%|█████��    | 6530/10712 [1:21:33<34:56,  1.99it/s] 61%|██████    | 6531/10712 [1:21:34<34:51,  2.00it/s] 61%|██████    | 6532/10712 [1:21:34<34:53,  2.00it/s] 61%|██████    | 6533/10712 [1:21:35<34:47,  2.00it/s] 61%|██████    | 6534/10712 [1:21:35<34:47,  2.00it/s] 61%|██████    | 6535/10712 [1:21:36<34:44,  2.00it/s] 61%|██████    | 6536/10712 [1:21:36<34:46,  2.00it/s] 61%|██████    | 6537/10712 [1:21:37<34:42,  2.01it/s] 61%|██████    | 6538/10712 [1:21:37<34:41,  2.01it/s] 61%|██████    | 6539/10712 [1:21:38<34:38,  2.01it/s] 61%|██████    | 6540/10712 [1:21:38<34:40,  2.01it/s] 61%|██████    | 6541/10712 [1:21:39<34:39,  2.01it/s] 61%|██████    | 6542/10712 [1:21:39<34:35,  2.01it/s] 61%|██████    | 6543/10712 [1:21:40<34:35,  2.01it/s] 61%|██████    | 6544/10712 [1:21:40<34:47,  2.00it/s] 61%|██████    | 6545/10712 [1:21:41<34:47,  2.00it/s] 61%|██████    | 6546/10712 [1:21:41<34:46,  2.00it/s] 61%|██████    | 6547/10712 [1:21:42<34:42,  2.00it/s] 61%|██████    | 6548/10712 [1:21:42<34:38,  2.00it/s] 61%|██████    | 6549/10712 [1:21:43<34:36,  2.00it/s] 61%|██████    | 6550/10712 [1:21:43<34:37,  2.00it/s]                                                      {'loss': 3.7622, 'grad_norm': 0.2049829661846161, 'learning_rate': 0.0003936015604951313, 'epoch': 0.61}
+ 61%|██████    | 6550/10712 [1:21:43<34:37,  2.00it/s] 61%|██████    | 6551/10712 [1:21:44<34:41,  2.00it/s] 61%|██████    | 6552/10712 [1:21:44<34:43,  2.00it/s] 61%|██████    | 6553/10712 [1:21:45<34:55,  1.98it/s] 61%|██████    | 6554/10712 [1:21:45<36:28,  1.90it/s] 61%|██████    | 6555/10712 [1:21:46<35:53,  1.93it/s] 61%|██████    | 6556/10712 [1:21:46<35:28,  1.95it/s] 61%|██████    | 6557/10712 [1:21:47<35:12,  1.97it/s] 61%|██████    | 6558/10712 [1:21:47<34:56,  1.98it/s] 61%|██████    | 6559/10712 [1:21:48<34:50,  1.99it/s] 61%|██████    | 6560/10712 [1:21:48<34:43,  1.99it/s] 61%|██████    | 6561/10712 [1:21:49<34:54,  1.98it/s] 61%|██████▏   | 6562/10712 [1:21:49<36:21,  1.90it/s] 61%|██████▏   | 6563/10712 [1:21:50<35:50,  1.93it/s] 61%|██████▏   | 6564/10712 [1:21:50<35:25,  1.95it/s] 61%|██████▏   | 6565/10712 [1:21:51<35:09,  1.97it/s] 61%|██████▏   | 6566/10712 [1:21:51<34:57,  1.98it/s] 61%|██████▏   | 6567/10712 [1:21:52<34:45,  1.99it/s] 61%|██████▏   | 6568/10712 [1:21:52<34:40,  1.99it/s] 61%|██████▏   | 6569/10712 [1:21:53<34:37,  1.99it/s] 61%|██████▏   | 6570/10712 [1:21:53<34:32,  2.00it/s] 61%|██████▏   | 6571/10712 [1:21:54<34:29,  2.00it/s] 61%|██████▏   | 6572/10712 [1:21:54<34:25,  2.00it/s] 61%|██████▏   | 6573/10712 [1:21:55<34:21,  2.01it/s] 61%|██████▏   | 6574/10712 [1:21:55<34:21,  2.01it/s] 61%|██████▏   | 6575/10712 [1:21:56<34:17,  2.01it/s]                                                      {'loss': 3.7671, 'grad_norm': 0.22600290179252625, 'learning_rate': 0.00038962479468290583, 'epoch': 0.61}
+ 61%|██████▏   | 6575/10712 [1:21:56<34:17,  2.01it/s] 61%|██████▏   | 6576/10712 [1:21:56<34:19,  2.01it/s] 61%|██████▏   | 6577/10712 [1:21:57<34:20,  2.01it/s] 61%|██████▏   | 6578/10712 [1:21:57<34:17,  2.01it/s] 61%|██████▏   | 6579/10712 [1:21:58<34:13,  2.01it/s] 61%|██████▏   | 6580/10712 [1:21:58<34:13,  2.01it/s] 61%|██████▏   | 6581/10712 [1:21:59<34:09,  2.02it/s] 61%|██████▏   | 6582/10712 [1:21:59<34:11,  2.01it/s] 61%|██████▏   | 6583/10712 [1:22:00<34:09,  2.01it/s] 61%|██████▏   | 6584/10712 [1:22:00<34:06,  2.02it/s] 61%|██████▏   | 6585/10712 [1:22:01<34:07,  2.02it/s] 61%|██████▏   | 6586/10712 [1:22:01<34:05,  2.02it/s] 61%|██████▏   | 6587/10712 [1:22:02<34:05,  2.02it/s] 62%|██████▏   | 6588/10712 [1:22:02<34:05,  2.02it/s] 62%|██████▏   | 6589/10712 [1:22:03<34:04,  2.02it/s] 62%|██████▏   | 6590/10712 [1:22:03<34:06,  2.01it/s] 62%|██████▏   | 6591/10712 [1:22:04<34:03,  2.02it/s] 62%|██████▏   | 6592/10712 [1:22:04<34:02,  2.02it/s] 62%|██████▏   | 6593/10712 [1:22:05<34:00,  2.02it/s] 62%|██████▏   | 6594/10712 [1:22:05<34:01,  2.02it/s] 62%|██████▏   | 6595/10712 [1:22:06<33:59,  2.02it/s] 62%|██████▏   | 6596/10712 [1:22:06<34:01,  2.02it/s] 62%|██████▏   | 6597/10712 [1:22:07<33:59,  2.02it/s] 62%|██████▏   | 6598/10712 [1:22:07<33:59,  2.02it/s] 62%|██████▏   | 6599/10712 [1:22:08<33:57,  2.02it/s] 62%|██████▏   | 6600/10712 [1:22:08<33:56,  2.02it/s]                                                      {'loss': 3.7571, 'grad_norm': 0.2130744457244873, 'learning_rate': 0.0003856553553413795, 'epoch': 0.62}
+ 62%|██████▏   | 6600/10712 [1:22:08<33:56,  2.02it/s] 62%|██████▏   | 6601/10712 [1:22:09<33:59,  2.02it/s] 62%|██████▏   | 6602/10712 [1:22:09<33:54,  2.02it/s] 62%|██████▏   | 6603/10712 [1:22:10<33:58,  2.02it/s] 62%|██████▏   | 6604/10712 [1:22:10<33:58,  2.02it/s] 62%|██████▏   | 6605/10712 [1:22:11<34:12,  2.00it/s] 62%|██████▏   | 6606/10712 [1:22:11<35:48,  1.91it/s] 62%|██████▏   | 6607/10712 [1:22:12<35:18,  1.94it/s] 62%|██████▏   | 6608/10712 [1:22:12<34:57,  1.96it/s] 62%|██████▏   | 6609/10712 [1:22:13<34:49,  1.96it/s] 62%|██████▏   | 6610/10712 [1:22:13<34:33,  1.98it/s] 62%|██████▏   | 6611/10712 [1:22:14<34:23,  1.99it/s] 62%|██████▏   | 6612/10712 [1:22:14<34:16,  1.99it/s] 62%|██████▏   | 6613/10712 [1:22:15<34:07,  2.00it/s] 62%|██████▏   | 6614/10712 [1:22:15<34:04,  2.00it/s] 62%|██████▏   | 6615/10712 [1:22:16<34:02,  2.01it/s] 62%|██████▏   | 6616/10712 [1:22:16<33:57,  2.01it/s] 62%|██████▏   | 6617/10712 [1:22:17<33:59,  2.01it/s] 62%|██████▏   | 6618/10712 [1:22:17<33:59,  2.01it/s] 62%|██████▏   | 6619/10712 [1:22:18<33:55,  2.01it/s] 62%|██████▏   | 6620/10712 [1:22:18<33:53,  2.01it/s] 62%|██████▏   | 6621/10712 [1:22:19<33:51,  2.01it/s] 62%|██████▏   | 6622/10712 [1:22:19<33:53,  2.01it/s] 62%|██████▏   | 6623/10712 [1:22:20<33:50,  2.01it/s] 62%|██████▏   | 6624/10712 [1:22:20<33:48,  2.01it/s] 62%|██████▏   | 6625/10712 [1:22:21<33:47,  2.02it/s]                                                      {'loss': 3.7673, 'grad_norm': 0.20758993923664093, 'learning_rate': 0.00038169350595346896, 'epoch': 0.62}
+ 62%|██████▏   | 6625/10712 [1:22:21<33:47,  2.02it/s] 62%|██████▏   | 6626/10712 [1:22:21<33:50,  2.01it/s] 62%|██████▏   | 6627/10712 [1:22:22<33:51,  2.01it/s] 62%|██████▏   | 6628/10712 [1:22:22<33:47,  2.01it/s] 62%|██████▏   | 6629/10712 [1:22:23<33:46,  2.01it/s] 62%|██████▏   | 6630/10712 [1:22:23<33:44,  2.02it/s] 62%|██████▏   | 6631/10712 [1:22:24<33:43,  2.02it/s] 62%|██████▏   | 6632/10712 [1:22:24<33:42,  2.02it/s] 62%|██████▏   | 6633/10712 [1:22:25<33:40,  2.02it/s] 62%|██████▏   | 6634/10712 [1:22:25<33:43,  2.02it/s] 62%|██████▏   | 6635/10712 [1:22:26<33:43,  2.01it/s] 62%|██████▏   | 6636/10712 [1:22:26<33:43,  2.01it/s] 62%|██████▏   | 6637/10712 [1:22:27<33:41,  2.02it/s] 62%|██████▏   | 6638/10712 [1:22:27<33:43,  2.01it/s] 62%|██████▏   | 6639/10712 [1:22:28<33:44,  2.01it/s] 62%|██████▏   | 6640/10712 [1:22:28<33:45,  2.01it/s] 62%|██████▏   | 6641/10712 [1:22:29<33:46,  2.01it/s] 62%|██████▏   | 6642/10712 [1:22:29<33:48,  2.01it/s] 62%|██████▏   | 6643/10712 [1:22:30<33:49,  2.01it/s] 62%|██████▏   | 6644/10712 [1:22:30<33:49,  2.00it/s] 62%|██████▏   | 6645/10712 [1:22:31<33:47,  2.01it/s] 62%|██████▏   | 6646/10712 [1:22:31<33:48,  2.00it/s] 62%|██████▏   | 6647/10712 [1:22:32<33:48,  2.00it/s] 62%|██████▏   | 6648/10712 [1:22:32<33:46,  2.01it/s] 62%|██████▏   | 6649/10712 [1:22:33<34:48,  1.95it/s] 62%|██████▏   | 6650/10712 [1:22:33<36:08,  1.87it/s]                                                      {'loss': 3.7658, 'grad_norm': 0.2116476446390152, 'learning_rate': 0.00037773950949828583, 'epoch': 0.62}
+ 62%|██████▏   | 6650/10712 [1:22:33<36:08,  1.87it/s] 62%|██████▏   | 6651/10712 [1:22:34<35:31,  1.91it/s] 62%|██████▏   | 6652/10712 [1:22:34<34:57,  1.94it/s] 62%|██████▏   | 6653/10712 [1:22:35<34:32,  1.96it/s] 62%|██████▏   | 6654/10712 [1:22:35<34:15,  1.97it/s] 62%|██████▏   | 6655/10712 [1:22:36<34:06,  1.98it/s] 62%|██████▏   | 6656/10712 [1:22:36<34:00,  1.99it/s] 62%|██████▏   | 6657/10712 [1:22:37<33:53,  1.99it/s] 62%|██████▏   | 6658/10712 [1:22:37<33:45,  2.00it/s] 62%|██████▏   | 6659/10712 [1:22:38<33:44,  2.00it/s] 62%|██████▏   | 6660/10712 [1:22:38<33:44,  2.00it/s] 62%|██████▏   | 6661/10712 [1:22:39<33:38,  2.01it/s] 62%|██████▏   | 6662/10712 [1:22:39<33:39,  2.01it/s] 62%|██████▏   | 6663/10712 [1:22:40<33:43,  2.00it/s] 62%|██████▏   | 6664/10712 [1:22:40<33:41,  2.00it/s] 62%|██████▏   | 6665/10712 [1:22:41<33:38,  2.01it/s] 62%|██████▏   | 6666/10712 [1:22:41<33:42,  2.00it/s] 62%|██████▏   | 6667/10712 [1:22:42<33:43,  2.00it/s] 62%|██████▏   | 6668/10712 [1:22:42<33:40,  2.00it/s] 62%|██████▏   | 6669/10712 [1:22:43<33:35,  2.01it/s] 62%|██████▏   | 6670/10712 [1:22:43<33:32,  2.01it/s] 62%|██████▏   | 6671/10712 [1:22:44<33:29,  2.01it/s] 62%|██████▏   | 6672/10712 [1:22:44<33:30,  2.01it/s] 62%|██████▏   | 6673/10712 [1:22:45<33:32,  2.01it/s] 62%|██████▏   | 6674/10712 [1:22:45<33:30,  2.01it/s] 62%|██████▏   | 6675/10712 [1:22:46<33:28,  2.01it/s]                                                      {'loss': 3.7573, 'grad_norm': 0.21235235035419464, 'learning_rate': 0.00037379362843368126, 'epoch': 0.62}
+ 62%|██████▏   | 6675/10712 [1:22:46<33:28,  2.01it/s] 62%|██████▏   | 6676/10712 [1:22:46<33:34,  2.00it/s] 62%|██████▏   | 6677/10712 [1:22:47<33:33,  2.00it/s] 62%|██████▏   | 6678/10712 [1:22:47<33:29,  2.01it/s] 62%|██████▏   | 6679/10712 [1:22:48<33:25,  2.01it/s] 62%|██████▏   | 6680/10712 [1:22:48<33:24,  2.01it/s] 62%|██████▏   | 6681/10712 [1:22:49<33:26,  2.01it/s] 62%|██████▏   | 6682/10712 [1:22:49<33:25,  2.01it/s] 62%|██████▏   | 6683/10712 [1:22:50<33:23,  2.01it/s] 62%|██████▏   | 6684/10712 [1:22:50<33:23,  2.01it/s] 62%|██████▏   | 6685/10712 [1:22:51<33:21,  2.01it/s] 62%|██████▏   | 6686/10712 [1:22:51<33:23,  2.01it/s] 62%|██████▏   | 6687/10712 [1:22:52<33:39,  1.99it/s] 62%|██████▏   | 6688/10712 [1:22:52<33:34,  2.00it/s] 62%|██████▏   | 6689/10712 [1:22:53<33:31,  2.00it/s] 62%|██████▏   | 6690/10712 [1:22:53<33:35,  2.00it/s] 62%|██████▏   | 6691/10712 [1:22:54<33:34,  2.00it/s] 62%|██████▏   | 6692/10712 [1:22:54<33:30,  2.00it/s] 62%|██████▏   | 6693/10712 [1:22:55<33:26,  2.00it/s] 62%|██████▏   | 6694/10712 [1:22:55<33:23,  2.01it/s] 62%|██████▎   | 6695/10712 [1:22:56<33:24,  2.00it/s] 63%|██████▎   | 6696/10712 [1:22:56<33:23,  2.00it/s] 63%|██████▎   | 6697/10712 [1:22:57<33:24,  2.00it/s] 63%|██████▎   | 6698/10712 [1:22:57<33:21,  2.01it/s] 63%|██████▎   | 6699/10712 [1:22:58<33:19,  2.01it/s] 63%|██████▎   | 6700/10712 [1:22:58<33:21,  2.00it/s]                                                      {'loss': 3.7665, 'grad_norm': 0.22047656774520874, 'learning_rate': 0.0003698561246788237, 'epoch': 0.63}
+ 63%|██████▎   | 6700/10712 [1:22:58<33:21,  2.00it/s] 63%|██████▎   | 6701/10712 [1:22:59<33:24,  2.00it/s] 63%|██████▎   | 6702/10712 [1:22:59<33:21,  2.00it/s] 63%|██████▎   | 6703/10712 [1:23:00<33:18,  2.01it/s] 63%|██████▎   | 6704/10712 [1:23:00<33:17,  2.01it/s] 63%|██████▎   | 6705/10712 [1:23:01<33:16,  2.01it/s] 63%|██████▎   | 6706/10712 [1:23:01<33:14,  2.01it/s] 63%|██████▎   | 6707/10712 [1:23:02<33:12,  2.01it/s] 63%|██████▎   | 6708/10712 [1:23:02<33:10,  2.01it/s] 63%|██████▎   | 6709/10712 [1:23:03<33:08,  2.01it/s] 63%|██████▎   | 6710/10712 [1:23:03<33:08,  2.01it/s] 63%|██████▎   | 6711/10712 [1:23:04<33:06,  2.01it/s] 63%|██████▎   | 6712/10712 [1:23:04<33:05,  2.01it/s] 63%|██████▎   | 6713/10712 [1:23:05<33:03,  2.02it/s] 63%|██████▎   | 6714/10712 [1:23:05<33:07,  2.01it/s] 63%|██████▎   | 6715/10712 [1:23:06<33:11,  2.01it/s] 63%|██████▎   | 6716/10712 [1:23:06<33:14,  2.00it/s] 63%|██████▎   | 6717/10712 [1:23:07<33:24,  1.99it/s] 63%|██████▎   | 6718/10712 [1:23:07<34:34,  1.93it/s] 63%|██████▎   | 6719/10712 [1:23:08<34:19,  1.94it/s] 63%|██████▎   | 6720/10712 [1:23:08<34:05,  1.95it/s] 63%|██████▎   | 6721/10712 [1:23:09<33:51,  1.96it/s] 63%|██████▎   | 6722/10712 [1:23:09<33:38,  1.98it/s] 63%|██████▎   | 6723/10712 [1:23:10<33:30,  1.98it/s] 63%|██████▎   | 6724/10712 [1:23:10<33:24,  1.99it/s] 63%|██████▎   | 6725/10712 [1:23:11<33:18,  2.00it/s]                                                      {'loss': 3.7594, 'grad_norm': 0.20730119943618774, 'learning_rate': 0.0003659272595968135, 'epoch': 0.63}
+ 63%|██████▎   | 6725/10712 [1:23:11<33:18,  2.00it/s] 63%|██████▎   | 6726/10712 [1:23:11<33:15,  2.00it/s] 63%|██████▎   | 6727/10712 [1:23:12<33:12,  2.00it/s] 63%|██████▎   | 6728/10712 [1:23:12<33:11,  2.00it/s] 63%|██████▎   | 6729/10712 [1:23:13<33:06,  2.01it/s] 63%|██████▎   | 6730/10712 [1:23:13<33:05,  2.01it/s] 63%|██████▎   | 6731/10712 [1:23:14<33:04,  2.01it/s] 63%|██████▎   | 6732/10712 [1:23:14<33:04,  2.01it/s] 63%|██████▎   | 6733/10712 [1:23:15<33:00,  2.01it/s] 63%|██████▎   | 6734/10712 [1:23:15<33:03,  2.01it/s] 63%|██████▎   | 6735/10712 [1:23:16<33:01,  2.01it/s] 63%|██████▎   | 6736/10712 [1:23:16<32:59,  2.01it/s] 63%|██████▎   | 6737/10712 [1:23:17<32:57,  2.01it/s] 63%|██████▎   | 6738/10712 [1:23:17<32:55,  2.01it/s] 63%|██████▎   | 6739/10712 [1:23:18<32:57,  2.01it/s] 63%|██████▎   | 6740/10712 [1:23:18<32:58,  2.01it/s] 63%|██████▎   | 6741/10712 [1:23:19<32:54,  2.01it/s] 63%|██████▎   | 6742/10712 [1:23:19<32:54,  2.01it/s] 63%|██████▎   | 6743/10712 [1:23:20<33:03,  2.00it/s] 63%|██████▎   | 6744/10712 [1:23:20<33:04,  2.00it/s] 63%|██████▎   | 6745/10712 [1:23:21<33:04,  2.00it/s] 63%|██████▎   | 6746/10712 [1:23:21<33:01,  2.00it/s] 63%|██████▎   | 6747/10712 [1:23:22<32:59,  2.00it/s] 63%|██████▎   | 6748/10712 [1:23:22<32:58,  2.00it/s] 63%|██████▎   | 6749/10712 [1:23:23<32:55,  2.01it/s] 63%|██████▎   | 6750/10712 [1:23:23<32:55,  2.01it/s]                                                      {'loss': 3.7567, 'grad_norm': 0.21666917204856873, 'learning_rate': 0.0003620072939773347, 'epoch': 0.63}
+ 63%|██████▎   | 6750/10712 [1:23:23<32:55,  2.01it/s] 63%|██████▎   | 6751/10712 [1:23:24<32:58,  2.00it/s] 63%|██████▎   | 6752/10712 [1:23:24<32:58,  2.00it/s] 63%|██████▎   | 6753/10712 [1:23:25<32:57,  2.00it/s] 63%|██████▎   | 6754/10712 [1:23:25<32:54,  2.00it/s] 63%|██████▎   | 6755/10712 [1:23:26<33:12,  1.99it/s] 63%|██████▎   | 6756/10712 [1:23:26<33:53,  1.95it/s] 63%|██████▎   | 6757/10712 [1:23:27<33:39,  1.96it/s] 63%|██████▎   | 6758/10712 [1:23:27<33:29,  1.97it/s] 63%|██████▎   | 6759/10712 [1:23:28<33:21,  1.98it/s] 63%|██████▎   | 6760/10712 [1:23:28<33:15,  1.98it/s] 63%|██████▎   | 6761/10712 [1:23:29<33:06,  1.99it/s] 63%|██████▎   | 6762/10712 [1:23:29<33:03,  1.99it/s] 63%|██████▎   | 6763/10712 [1:23:30<33:00,  1.99it/s] 63%|██████▎   | 6764/10712 [1:23:30<32:57,  2.00it/s] 63%|██████▎   | 6765/10712 [1:23:31<32:56,  2.00it/s] 63%|██████▎   | 6766/10712 [1:23:31<32:52,  2.00it/s] 63%|██████▎   | 6767/10712 [1:23:32<32:54,  2.00it/s] 63%|██████▎   | 6768/10712 [1:23:32<32:51,  2.00it/s] 63%|██████▎   | 6769/10712 [1:23:33<32:48,  2.00it/s] 63%|██████▎   | 6770/10712 [1:23:33<32:48,  2.00it/s] 63%|██████▎   | 6771/10712 [1:23:34<32:44,  2.01it/s] 63%|██████▎   | 6772/10712 [1:23:34<32:42,  2.01it/s] 63%|██████▎   | 6773/10712 [1:23:35<32:43,  2.01it/s] 63%|██████▎   | 6774/10712 [1:23:35<32:38,  2.01it/s] 63%|██████▎   | 6775/10712 [1:23:36<32:36,  2.01it/s]                                                      {'loss': 3.7587, 'grad_norm': 0.1974485069513321, 'learning_rate': 0.0003580964880193439, 'epoch': 0.63}
+ 63%|██████▎   | 6775/10712 [1:23:36<32:36,  2.01it/s] 63%|██████▎   | 6776/10712 [1:23:36<32:39,  2.01it/s] 63%|██████▎   | 6777/10712 [1:23:37<32:38,  2.01it/s] 63%|██████▎   | 6778/10712 [1:23:37<32:38,  2.01it/s] 63%|██████▎   | 6779/10712 [1:23:38<32:35,  2.01it/s] 63%|██████▎   | 6780/10712 [1:23:38<32:33,  2.01it/s] 63%|██████▎   | 6781/10712 [1:23:39<32:33,  2.01it/s] 63%|██████▎   | 6782/10712 [1:23:40<38:35,  1.70it/s] 63%|██████▎   | 6783/10712 [1:23:40<36:45,  1.78it/s] 63%|██████▎   | 6784/10712 [1:23:41<35:27,  1.85it/s] 63%|██████▎   | 6785/10712 [1:23:41<34:31,  1.90it/s] 63%|██████▎   | 6786/10712 [1:23:42<33:57,  1.93it/s] 63%|██████▎   | 6787/10712 [1:23:42<33:30,  1.95it/s] 63%|██████▎   | 6788/10712 [1:23:43<33:09,  1.97it/s] 63%|██████▎   | 6789/10712 [1:23:43<32:58,  1.98it/s] 63%|██████▎   | 6790/10712 [1:23:44<32:48,  1.99it/s] 63%|██████▎   | 6791/10712 [1:23:44<32:39,  2.00it/s] 63%|██████▎   | 6792/10712 [1:23:45<32:33,  2.01it/s] 63%|██████▎   | 6793/10712 [1:23:45<32:28,  2.01it/s] 63%|██████▎   | 6794/10712 [1:23:46<32:24,  2.02it/s] 63%|██████▎   | 6795/10712 [1:23:46<32:22,  2.02it/s] 63%|██████▎   | 6796/10712 [1:23:47<32:22,  2.02it/s] 63%|██████▎   | 6797/10712 [1:23:47<32:22,  2.02it/s] 63%|██████▎   | 6798/10712 [1:23:48<32:20,  2.02it/s] 63%|██████▎   | 6799/10712 [1:23:48<32:19,  2.02it/s] 63%|██████▎   | 6800/10712 [1:23:49<32:18,  2.02it/s]                                                      {'loss': 3.7614, 'grad_norm': 0.21624656021595, 'learning_rate': 0.00035419510131379873, 'epoch': 0.63}
+ 63%|██████▎   | 6800/10712 [1:23:49<32:18,  2.02it/s] 63%|██████▎   | 6801/10712 [1:23:49<32:22,  2.01it/s] 63%|██████▎   | 6802/10712 [1:23:50<32:21,  2.01it/s] 64%|██████▎   | 6803/10712 [1:23:50<32:19,  2.02it/s] 64%|██████▎   | 6804/10712 [1:23:51<32:16,  2.02it/s] 64%|██████▎   | 6805/10712 [1:23:51<32:16,  2.02it/s] 64%|██████▎   | 6806/10712 [1:23:52<32:15,  2.02it/s] 64%|██████▎   | 6807/10712 [1:23:52<32:15,  2.02it/s] 64%|██████▎   | 6808/10712 [1:23:53<32:14,  2.02it/s] 64%|██████▎   | 6809/10712 [1:23:53<33:49,  1.92it/s] 64%|██████▎   | 6810/10712 [1:23:54<33:21,  1.95it/s] 64%|██████▎   | 6811/10712 [1:23:54<33:05,  1.97it/s] 64%|██████▎   | 6812/10712 [1:23:55<39:08,  1.66it/s] 64%|██████▎   | 6813/10712 [1:23:56<37:12,  1.75it/s] 64%|██████▎   | 6814/10712 [1:23:56<35:45,  1.82it/s] 64%|██████▎   | 6815/10712 [1:23:56<34:42,  1.87it/s] 64%|██████▎   | 6816/10712 [1:23:57<33:59,  1.91it/s] 64%|██████▎   | 6817/10712 [1:23:57<33:25,  1.94it/s] 64%|██████▎   | 6818/10712 [1:23:58<33:03,  1.96it/s] 64%|██████▎   | 6819/10712 [1:23:58<32:45,  1.98it/s] 64%|██████▎   | 6820/10712 [1:23:59<32:34,  1.99it/s] 64%|██████▎   | 6821/10712 [1:23:59<32:27,  2.00it/s] 64%|██████▎   | 6822/10712 [1:24:00<32:25,  2.00it/s] 64%|██████▎   | 6823/10712 [1:24:00<32:20,  2.00it/s] 64%|██████▎   | 6824/10712 [1:24:01<32:16,  2.01it/s] 64%|██████▎   | 6825/10712 [1:24:01<32:14,  2.01it/s]                                                      {'loss': 3.7522, 'grad_norm': 0.2009136825799942, 'learning_rate': 0.0003503033928264272, 'epoch': 0.64}
+ 64%|██████▎   | 6825/10712 [1:24:01<32:14,  2.01it/s] 64%|██████▎   | 6826/10712 [1:24:02<32:13,  2.01it/s] 64%|██████▎   | 6827/10712 [1:24:02<32:14,  2.01it/s] 64%|██████▎   | 6828/10712 [1:24:03<32:08,  2.01it/s] 64%|██████▍   | 6829/10712 [1:24:03<32:06,  2.02it/s] 64%|██████▍   | 6830/10712 [1:24:04<32:04,  2.02it/s] 64%|██████▍   | 6831/10712 [1:24:04<32:03,  2.02it/s] 64%|██████▍   | 6832/10712 [1:24:05<32:03,  2.02it/s] 64%|██████▍   | 6833/10712 [1:24:05<32:03,  2.02it/s] 64%|██████▍   | 6834/10712 [1:24:06<32:01,  2.02it/s] 64%|██████▍   | 6835/10712 [1:24:06<32:01,  2.02it/s] 64%|██████▍   | 6836/10712 [1:24:07<32:00,  2.02it/s] 64%|██████▍   | 6837/10712 [1:24:07<31:59,  2.02it/s] 64%|██████▍   | 6838/10712 [1:24:08<32:00,  2.02it/s] 64%|██████▍   | 6839/10712 [1:24:08<31:57,  2.02it/s] 64%|██████▍   | 6840/10712 [1:24:09<31:57,  2.02it/s] 64%|██████▍   | 6841/10712 [1:24:09<31:56,  2.02it/s] 64%|██████▍   | 6842/10712 [1:24:10<32:02,  2.01it/s] 64%|██████▍   | 6843/10712 [1:24:10<32:06,  2.01it/s] 64%|██████▍   | 6844/10712 [1:24:11<32:05,  2.01it/s] 64%|██████▍   | 6845/10712 [1:24:11<32:04,  2.01it/s] 64%|██████▍   | 6846/10712 [1:24:12<32:05,  2.01it/s] 64%|██████▍   | 6847/10712 [1:24:12<32:05,  2.01it/s] 64%|██████▍   | 6848/10712 [1:24:13<32:04,  2.01it/s] 64%|██████▍   | 6849/10712 [1:24:13<32:05,  2.01it/s] 64%|██████▍   | 6850/10712 [1:24:14<32:03,  2.01it/s]                                                      {'loss': 3.7528, 'grad_norm': 0.21102701127529144, 'learning_rate': 0.00034642162088053754, 'epoch': 0.64}
+ 64%|██████▍   | 6850/10712 [1:24:14<32:03,  2.01it/s] 64%|██████▍   | 6851/10712 [1:24:14<32:02,  2.01it/s] 64%|██████▍   | 6852/10712 [1:24:15<32:02,  2.01it/s] 64%|██████▍   | 6853/10712 [1:24:15<32:01,  2.01it/s] 64%|██████▍   | 6854/10712 [1:24:16<32:00,  2.01it/s] 64%|██████▍   | 6855/10712 [1:24:16<32:00,  2.01it/s] 64%|██████▍   | 6856/10712 [1:24:17<31:58,  2.01it/s] 64%|██████▍   | 6857/10712 [1:24:17<31:54,  2.01it/s] 64%|██████▍   | 6858/10712 [1:24:18<31:55,  2.01it/s] 64%|██████▍   | 6859/10712 [1:24:18<31:53,  2.01it/s] 64%|██████▍   | 6860/10712 [1:24:19<32:00,  2.01it/s] 64%|██████▍   | 6861/10712 [1:24:19<32:01,  2.00it/s] 64%|██████▍   | 6862/10712 [1:24:20<32:01,  2.00it/s] 64%|██████▍   | 6863/10712 [1:24:20<31:56,  2.01it/s] 64%|██████▍   | 6864/10712 [1:24:21<31:57,  2.01it/s] 64%|██████▍   | 6865/10712 [1:24:21<32:01,  2.00it/s] 64%|██████▍   | 6866/10712 [1:24:22<32:28,  1.97it/s] 64%|██████▍   | 6867/10712 [1:24:22<33:43,  1.90it/s] 64%|██████▍   | 6868/10712 [1:24:23<33:13,  1.93it/s] 64%|██████▍   | 6869/10712 [1:24:23<32:53,  1.95it/s] 64%|██████▍   | 6870/10712 [1:24:24<32:39,  1.96it/s] 64%|██████▍   | 6871/10712 [1:24:24<32:24,  1.98it/s] 64%|██████▍   | 6872/10712 [1:24:25<32:14,  1.98it/s] 64%|██████▍   | 6873/10712 [1:24:25<32:07,  1.99it/s] 64%|██████▍   | 6874/10712 [1:24:26<32:00,  2.00it/s] 64%|██████▍   | 6875/10712 [1:24:26<31:58,  2.00it/s]                                                      {'loss': 3.7513, 'grad_norm': 0.20897677540779114, 'learning_rate': 0.0003425500431398719, 'epoch': 0.64}
+ 64%|██████▍   | 6875/10712 [1:24:26<31:58,  2.00it/s] 64%|██████▍   | 6876/10712 [1:24:27<31:56,  2.00it/s] 64%|██████▍   | 6877/10712 [1:24:27<31:55,  2.00it/s] 64%|██████▍   | 6878/10712 [1:24:28<31:50,  2.01it/s] 64%|██████▍   | 6879/10712 [1:24:28<31:48,  2.01it/s] 64%|██████▍   | 6880/10712 [1:24:29<31:46,  2.01it/s] 64%|██████▍   | 6881/10712 [1:24:29<31:45,  2.01it/s] 64%|██████▍   | 6882/10712 [1:24:30<31:44,  2.01it/s] 64%|██████▍   | 6883/10712 [1:24:30<31:41,  2.01it/s] 64%|██████▍   | 6884/10712 [1:24:31<31:42,  2.01it/s] 64%|██████▍   | 6885/10712 [1:24:31<31:42,  2.01it/s] 64%|██████▍   | 6886/10712 [1:24:32<31:42,  2.01it/s] 64%|██████▍   | 6887/10712 [1:24:32<31:43,  2.01it/s] 64%|██████▍   | 6888/10712 [1:24:33<31:43,  2.01it/s] 64%|██████▍   | 6889/10712 [1:24:33<31:43,  2.01it/s] 64%|██████▍   | 6890/10712 [1:24:34<31:42,  2.01it/s] 64%|██████▍   | 6891/10712 [1:24:34<31:40,  2.01it/s] 64%|██████▍   | 6892/10712 [1:24:35<31:39,  2.01it/s] 64%|██████▍   | 6893/10712 [1:24:35<31:38,  2.01it/s] 64%|██████▍   | 6894/10712 [1:24:36<31:38,  2.01it/s] 64%|██████▍   | 6895/10712 [1:24:36<31:38,  2.01it/s] 64%|██████▍   | 6896/10712 [1:24:37<31:36,  2.01it/s] 64%|██████▍   | 6897/10712 [1:24:37<31:34,  2.01it/s] 64%|██████▍   | 6898/10712 [1:24:38<31:34,  2.01it/s] 64%|██████▍   | 6899/10712 [1:24:38<31:30,  2.02it/s] 64%|██████▍   | 6900/10712 [1:24:39<31:32,  2.01it/s]                                                      {'loss': 3.7512, 'grad_norm': 0.22081539034843445, 'learning_rate': 0.0003386889165915025, 'epoch': 0.64}
+ 64%|██████▍   | 6900/10712 [1:24:39<31:32,  2.01it/s] 64%|██████▍   | 6901/10712 [1:24:39<31:36,  2.01it/s] 64%|██████▍   | 6902/10712 [1:24:40<31:32,  2.01it/s] 64%|██████▍   | 6903/10712 [1:24:40<31:31,  2.01it/s] 64%|██████▍   | 6904/10712 [1:24:41<31:29,  2.02it/s] 64%|██████▍   | 6905/10712 [1:24:41<31:29,  2.01it/s] 64%|██████▍   | 6906/10712 [1:24:42<31:50,  1.99it/s] 64%|██████▍   | 6907/10712 [1:24:42<31:47,  2.00it/s] 64%|██████▍   | 6908/10712 [1:24:43<31:44,  2.00it/s] 64%|██████▍   | 6909/10712 [1:24:43<31:41,  2.00it/s] 65%|██████▍   | 6910/10712 [1:24:44<31:41,  2.00it/s] 65%|██████▍   | 6911/10712 [1:24:44<31:37,  2.00it/s] 65%|██████▍   | 6912/10712 [1:24:45<31:37,  2.00it/s] 65%|██████▍   | 6913/10712 [1:24:45<31:34,  2.01it/s] 65%|██████▍   | 6914/10712 [1:24:46<31:30,  2.01it/s] 65%|██████▍   | 6915/10712 [1:24:46<31:31,  2.01it/s] 65%|██████▍   | 6916/10712 [1:24:47<31:30,  2.01it/s] 65%|██████▍   | 6917/10712 [1:24:47<31:32,  2.01it/s] 65%|██████▍   | 6918/10712 [1:24:48<31:35,  2.00it/s] 65%|██████▍   | 6919/10712 [1:24:48<31:35,  2.00it/s] 65%|██████▍   | 6920/10712 [1:24:49<31:35,  2.00it/s] 65%|██████▍   | 6921/10712 [1:24:49<31:49,  1.99it/s] 65%|██████▍   | 6922/10712 [1:24:50<31:45,  1.99it/s] 65%|██████▍   | 6923/10712 [1:24:50<31:43,  1.99it/s] 65%|██████▍   | 6924/10712 [1:24:51<31:37,  2.00it/s] 65%|██████▍   | 6925/10712 [1:24:51<31:33,  2.00it/s]                                                      {'loss': 3.7535, 'grad_norm': 0.21521364152431488, 'learning_rate': 0.00033483849752877394, 'epoch': 0.65}
+ 65%|██████▍   | 6925/10712 [1:24:51<31:33,  2.00it/s] 65%|██████▍   | 6926/10712 [1:24:52<31:32,  2.00it/s] 65%|██████▍   | 6927/10712 [1:24:52<31:32,  2.00it/s] 65%|██████▍   | 6928/10712 [1:24:53<31:27,  2.00it/s] 65%|██████▍   | 6929/10712 [1:24:53<31:28,  2.00it/s] 65%|██████▍   | 6930/10712 [1:24:54<31:25,  2.01it/s] 65%|██████▍   | 6931/10712 [1:24:54<31:22,  2.01it/s] 65%|██████▍   | 6932/10712 [1:24:55<31:23,  2.01it/s] 65%|██████▍   | 6933/10712 [1:24:55<31:22,  2.01it/s] 65%|██████▍   | 6934/10712 [1:24:56<31:23,  2.01it/s] 65%|██████▍   | 6935/10712 [1:24:56<31:22,  2.01it/s] 65%|██████▍   | 6936/10712 [1:24:57<31:25,  2.00it/s] 65%|██████▍   | 6937/10712 [1:24:57<31:22,  2.00it/s] 65%|██████▍   | 6938/10712 [1:24:58<31:21,  2.01it/s] 65%|██████▍   | 6939/10712 [1:24:58<31:20,  2.01it/s] 65%|██████▍   | 6940/10712 [1:24:59<31:23,  2.00it/s] 65%|██████▍   | 6941/10712 [1:24:59<31:20,  2.01it/s] 65%|██████▍   | 6942/10712 [1:25:00<31:17,  2.01it/s] 65%|██████▍   | 6943/10712 [1:25:00<31:21,  2.00it/s] 65%|██████▍   | 6944/10712 [1:25:01<31:19,  2.00it/s] 65%|██████▍   | 6945/10712 [1:25:01<31:15,  2.01it/s] 65%|██████▍   | 6946/10712 [1:25:02<31:17,  2.01it/s] 65%|██████▍   | 6947/10712 [1:25:02<31:16,  2.01it/s] 65%|██████▍   | 6948/10712 [1:25:03<31:14,  2.01it/s] 65%|██████▍   | 6949/10712 [1:25:03<31:14,  2.01it/s] 65%|██████▍   | 6950/10712 [1:25:04<31:15,  2.01it/s]                                                      {'loss': 3.7524, 'grad_norm': 0.19950926303863525, 'learning_rate': 0.0003309990415342904, 'epoch': 0.65}
+ 65%|██████▍   | 6950/10712 [1:25:04<31:15,  2.01it/s] 65%|██████▍   | 6951/10712 [1:25:04<31:14,  2.01it/s] 65%|██████▍   | 6952/10712 [1:25:05<31:14,  2.01it/s] 65%|██████▍   | 6953/10712 [1:25:05<31:13,  2.01it/s] 65%|██████▍   | 6954/10712 [1:25:06<31:11,  2.01it/s] 65%|██████▍   | 6955/10712 [1:25:06<31:09,  2.01it/s] 65%|██████▍   | 6956/10712 [1:25:07<31:08,  2.01it/s] 65%|██████▍   | 6957/10712 [1:25:07<31:07,  2.01it/s] 65%|██████▍   | 6958/10712 [1:25:08<31:05,  2.01it/s] 65%|██████▍   | 6959/10712 [1:25:08<31:26,  1.99it/s] 65%|██████▍   | 6960/10712 [1:25:09<31:22,  1.99it/s] 65%|██████▍   | 6961/10712 [1:25:09<31:17,  2.00it/s] 65%|██████▍   | 6962/10712 [1:25:10<31:17,  2.00it/s] 65%|██████▌   | 6963/10712 [1:25:10<31:15,  2.00it/s] 65%|██████▌   | 6964/10712 [1:25:11<31:11,  2.00it/s] 65%|██████▌   | 6965/10712 [1:25:11<31:09,  2.00it/s] 65%|██████▌   | 6966/10712 [1:25:12<31:10,  2.00it/s] 65%|██████▌   | 6967/10712 [1:25:12<31:48,  1.96it/s] 65%|██████▌   | 6968/10712 [1:25:13<31:37,  1.97it/s] 65%|██████▌   | 6969/10712 [1:25:13<31:30,  1.98it/s] 65%|██████▌   | 6970/10712 [1:25:14<31:22,  1.99it/s] 65%|██████▌   | 6971/10712 [1:25:14<31:16,  1.99it/s] 65%|██████▌   | 6972/10712 [1:25:15<31:14,  2.00it/s] 65%|██████▌   | 6973/10712 [1:25:15<31:14,  1.99it/s] 65%|██████▌   | 6974/10712 [1:25:16<31:06,  2.00it/s] 65%|██████▌   | 6975/10712 [1:25:16<31:06,  2.00it/s]                                                      {'loss': 3.7493, 'grad_norm': 0.219803124666214, 'learning_rate': 0.0003271708034629518, 'epoch': 0.65}
+ 65%|██████▌   | 6975/10712 [1:25:16<31:06,  2.00it/s] 65%|██████▌   | 6976/10712 [1:25:17<31:07,  2.00it/s] 65%|██████▌   | 6977/10712 [1:25:17<31:03,  2.00it/s] 65%|██████▌   | 6978/10712 [1:25:18<31:00,  2.01it/s] 65%|██████▌   | 6979/10712 [1:25:18<32:07,  1.94it/s] 65%|██████▌   | 6980/10712 [1:25:19<31:43,  1.96it/s] 65%|██████▌   | 6981/10712 [1:25:19<31:31,  1.97it/s] 65%|██████▌   | 6982/10712 [1:25:20<31:21,  1.98it/s] 65%|██████▌   | 6983/10712 [1:25:20<31:12,  1.99it/s] 65%|██████▌   | 6984/10712 [1:25:21<31:04,  2.00it/s] 65%|██████▌   | 6985/10712 [1:25:21<30:59,  2.00it/s] 65%|██████▌   | 6986/10712 [1:25:22<30:57,  2.01it/s] 65%|██████▌   | 6987/10712 [1:25:22<30:54,  2.01it/s] 65%|██████▌   | 6988/10712 [1:25:23<30:50,  2.01it/s] 65%|██████▌   | 6989/10712 [1:25:23<30:51,  2.01it/s] 65%|███���██▌   | 6990/10712 [1:25:24<30:51,  2.01it/s] 65%|██████▌   | 6991/10712 [1:25:24<30:50,  2.01it/s] 65%|██████▌   | 6992/10712 [1:25:25<30:53,  2.01it/s] 65%|██████▌   | 6993/10712 [1:25:25<30:59,  2.00it/s] 65%|██████▌   | 6994/10712 [1:25:26<31:23,  1.97it/s] 65%|██████▌   | 6995/10712 [1:25:26<31:15,  1.98it/s] 65%|██████▌   | 6996/10712 [1:25:27<31:09,  1.99it/s] 65%|██████▌   | 6997/10712 [1:25:27<31:04,  1.99it/s] 65%|██████▌   | 6998/10712 [1:25:28<31:03,  1.99it/s] 65%|██████▌   | 6999/10712 [1:25:28<31:01,  2.00it/s] 65%|██████▌   | 7000/10712 [1:25:29<31:07,  1.99it/s]                                                      {'loss': 3.7557, 'grad_norm': 0.20418597757816315, 'learning_rate': 0.00032335403742503533, 'epoch': 0.65}
+ 65%|██████▌   | 7000/10712 [1:25:29<31:07,  1.99it/s] 65%|██████▌   | 7001/10712 [1:25:29<31:04,  1.99it/s] 65%|██████▌   | 7002/10712 [1:25:30<30:59,  2.00it/s] 65%|██████▌   | 7003/10712 [1:25:30<30:57,  2.00it/s] 65%|██████▌   | 7004/10712 [1:25:31<30:56,  2.00it/s] 65%|██████▌   | 7005/10712 [1:25:31<30:54,  2.00it/s] 65%|██████▌   | 7006/10712 [1:25:32<30:52,  2.00it/s] 65%|██████▌   | 7007/10712 [1:25:32<30:50,  2.00it/s] 65%|██████▌   | 7008/10712 [1:25:33<30:48,  2.00it/s] 65%|██████▌   | 7009/10712 [1:25:33<30:48,  2.00it/s] 65%|██████▌   | 7010/10712 [1:25:34<30:49,  2.00it/s] 65%|██████▌   | 7011/10712 [1:25:34<30:51,  2.00it/s] 65%|██████▌   | 7012/10712 [1:25:35<30:49,  2.00it/s] 65%|██████▌   | 7013/10712 [1:25:35<30:49,  2.00it/s] 65%|██████▌   | 7014/10712 [1:25:36<31:11,  1.98it/s] 65%|██████▌   | 7015/10712 [1:25:36<31:03,  1.98it/s] 65%|██████▌   | 7016/10712 [1:25:37<31:01,  1.99it/s] 66%|██████▌   | 7017/10712 [1:25:37<30:56,  1.99it/s] 66%|██████▌   | 7018/10712 [1:25:38<30:53,  1.99it/s] 66%|██████▌   | 7019/10712 [1:25:38<30:50,  2.00it/s] 66%|██████▌   | 7020/10712 [1:25:39<30:47,  2.00it/s] 66%|██████▌   | 7021/10712 [1:25:39<30:43,  2.00it/s] 66%|██████▌   | 7022/10712 [1:25:40<30:42,  2.00it/s] 66%|██████▌   | 7023/10712 [1:25:40<30:40,  2.00it/s] 66%|██████▌   | 7024/10712 [1:25:41<30:38,  2.01it/s] 66%|██████▌   | 7025/10712 [1:25:41<30:36,  2.01it/s]                                                      {'loss': 3.7446, 'grad_norm': 0.20303305983543396, 'learning_rate': 0.0003195489967693295, 'epoch': 0.66}
+ 66%|██████▌   | 7025/10712 [1:25:41<30:36,  2.01it/s] 66%|██████▌   | 7026/10712 [1:25:42<30:36,  2.01it/s] 66%|██████▌   | 7027/10712 [1:25:42<30:34,  2.01it/s] 66%|██████▌   | 7028/10712 [1:25:43<30:40,  2.00it/s] 66%|██████▌   | 7029/10712 [1:25:43<30:44,  2.00it/s] 66%|██████▌   | 7030/10712 [1:25:44<30:42,  2.00it/s] 66%|██████▌   | 7031/10712 [1:25:44<30:42,  2.00it/s] 66%|██████▌   | 7032/10712 [1:25:45<30:39,  2.00it/s] 66%|██████▌   | 7033/10712 [1:25:45<30:42,  2.00it/s] 66%|██████▌   | 7034/10712 [1:25:46<30:40,  2.00it/s] 66%|██████▌   | 7035/10712 [1:25:46<30:38,  2.00it/s] 66%|██████▌   | 7036/10712 [1:25:47<30:37,  2.00it/s] 66%|██████▌   | 7037/10712 [1:25:47<30:34,  2.00it/s] 66%|██████▌   | 7038/10712 [1:25:48<30:31,  2.01it/s] 66%|██████▌   | 7039/10712 [1:25:48<30:31,  2.00it/s] 66%|██████▌   | 7040/10712 [1:25:49<30:30,  2.01it/s] 66%|██████▌   | 7041/10712 [1:25:49<30:26,  2.01it/s] 66%|██████▌   | 7042/10712 [1:25:50<30:41,  1.99it/s] 66%|██████▌   | 7043/10712 [1:25:50<31:40,  1.93it/s] 66%|██████▌   | 7044/10712 [1:25:51<31:23,  1.95it/s] 66%|██████▌   | 7045/10712 [1:25:51<31:07,  1.96it/s] 66%|██████▌   | 7046/10712 [1:25:52<31:01,  1.97it/s] 66%|██████▌   | 7047/10712 [1:25:52<30:52,  1.98it/s] 66%|██████▌   | 7048/10712 [1:25:53<30:45,  1.99it/s] 66%|██████▌   | 7049/10712 [1:25:53<30:37,  1.99it/s] 66%|██████▌   | 7050/10712 [1:25:54<30:35,  2.00it/s]                                                      {'loss': 3.7457, 'grad_norm': 0.20769138634204865, 'learning_rate': 0.00031575593406631694, 'epoch': 0.66}
+ 66%|██████▌   | 7050/10712 [1:25:54<30:35,  2.00it/s] 66%|██████▌   | 7051/10712 [1:25:54<30:33,  2.00it/s] 66%|██████▌   | 7052/10712 [1:25:55<30:30,  2.00it/s] 66%|██████▌   | 7053/10712 [1:25:55<30:31,  2.00it/s] 66%|█████���▌   | 7054/10712 [1:25:56<30:28,  2.00it/s] 66%|██████▌   | 7055/10712 [1:25:56<30:26,  2.00it/s] 66%|██████▌   | 7056/10712 [1:25:57<30:25,  2.00it/s] 66%|██████▌   | 7057/10712 [1:25:57<30:23,  2.00it/s] 66%|██████▌   | 7058/10712 [1:25:58<30:23,  2.00it/s] 66%|██████▌   | 7059/10712 [1:25:58<30:22,  2.00it/s] 66%|██████▌   | 7060/10712 [1:25:59<30:18,  2.01it/s] 66%|██████▌   | 7061/10712 [1:25:59<30:20,  2.01it/s] 66%|██████▌   | 7062/10712 [1:26:00<30:19,  2.01it/s] 66%|██████▌   | 7063/10712 [1:26:00<30:17,  2.01it/s] 66%|██████▌   | 7064/10712 [1:26:01<30:17,  2.01it/s] 66%|██████▌   | 7065/10712 [1:26:01<30:15,  2.01it/s] 66%|██████▌   | 7066/10712 [1:26:02<30:15,  2.01it/s] 66%|██████▌   | 7067/10712 [1:26:02<30:13,  2.01it/s] 66%|██████▌   | 7068/10712 [1:26:03<30:11,  2.01it/s] 66%|██████▌   | 7069/10712 [1:26:03<30:09,  2.01it/s] 66%|██████▌   | 7070/10712 [1:26:04<30:11,  2.01it/s] 66%|██████▌   | 7071/10712 [1:26:04<30:10,  2.01it/s] 66%|██████▌   | 7072/10712 [1:26:05<30:08,  2.01it/s] 66%|██████▌   | 7073/10712 [1:26:05<30:08,  2.01it/s] 66%|██████▌   | 7074/10712 [1:26:06<30:07,  2.01it/s] 66%|██████▌   | 7075/10712 [1:26:06<30:05,  2.01it/s]                                                      {'loss': 3.7472, 'grad_norm': 0.21229270100593567, 'learning_rate': 0.0003119751010914092, 'epoch': 0.66}
+ 66%|██████▌   | 7075/10712 [1:26:06<30:05,  2.01it/s] 66%|██████▌   | 7076/10712 [1:26:07<30:10,  2.01it/s] 66%|██████▌   | 7077/10712 [1:26:07<30:09,  2.01it/s] 66%|██████▌   | 7078/10712 [1:26:08<30:07,  2.01it/s] 66%|██████▌   | 7079/10712 [1:26:08<30:07,  2.01it/s] 66%|██████▌   | 7080/10712 [1:26:09<30:03,  2.01it/s] 66%|██████▌   | 7081/10712 [1:26:09<30:04,  2.01it/s] 66%|██████▌   | 7082/10712 [1:26:10<30:31,  1.98it/s] 66%|██████▌   | 7083/10712 [1:26:10<30:33,  1.98it/s] 66%|██████▌   | 7084/10712 [1:26:11<30:28,  1.98it/s] 66%|██████▌   | 7085/10712 [1:26:11<30:23,  1.99it/s] 66%|██████▌   | 7086/10712 [1:26:12<30:19,  1.99it/s] 66%|██████▌   | 7087/10712 [1:26:12<30:16,  2.00it/s] 66%|██████▌   | 7088/10712 [1:26:13<30:12,  2.00it/s] 66%|██████▌   | 7089/10712 [1:26:13<30:13,  2.00it/s] 66%|██████▌   | 7090/10712 [1:26:14<30:26,  1.98it/s] 66%|██████▌   | 7091/10712 [1:26:14<31:05,  1.94it/s] 66%|██████▌   | 7092/10712 [1:26:15<30:48,  1.96it/s] 66%|██████▌   | 7093/10712 [1:26:15<30:34,  1.97it/s] 66%|██████▌   | 7094/10712 [1:26:16<30:25,  1.98it/s] 66%|██████▌   | 7095/10712 [1:26:16<30:19,  1.99it/s] 66%|██████▌   | 7096/10712 [1:26:17<30:13,  1.99it/s] 66%|██████▋   | 7097/10712 [1:26:17<30:11,  2.00it/s] 66%|██████▋   | 7098/10712 [1:26:18<30:08,  2.00it/s] 66%|██████▋   | 7099/10712 [1:26:18<30:06,  2.00it/s] 66%|██████▋   | 7100/10712 [1:26:19<30:02,  2.00it/s]                                                      {'loss': 3.7442, 'grad_norm': 0.21795767545700073, 'learning_rate': 0.00030820674880823476, 'epoch': 0.66}
+ 66%|██████▋   | 7100/10712 [1:26:19<30:02,  2.00it/s] 66%|██████▋   | 7101/10712 [1:26:19<30:02,  2.00it/s] 66%|██████▋   | 7102/10712 [1:26:20<29:59,  2.01it/s] 66%|██████▋   | 7103/10712 [1:26:20<29:56,  2.01it/s] 66%|██████▋   | 7104/10712 [1:26:21<29:55,  2.01it/s] 66%|██████▋   | 7105/10712 [1:26:21<29:54,  2.01it/s] 66%|██████▋   | 7106/10712 [1:26:22<29:52,  2.01it/s] 66%|██████▋   | 7107/10712 [1:26:22<29:55,  2.01it/s] 66%|██████▋   | 7108/10712 [1:26:23<29:54,  2.01it/s] 66%|██████▋   | 7109/10712 [1:26:23<29:52,  2.01it/s] 66%|██████▋   | 7110/10712 [1:26:24<29:57,  2.00it/s] 66%|██████▋   | 7111/10712 [1:26:24<29:57,  2.00it/s] 66%|██████▋   | 7112/10712 [1:26:25<29:58,  2.00it/s] 66%|██████▋   | 7113/10712 [1:26:25<29:54,  2.01it/s] 66%|██████▋   | 7114/10712 [1:26:26<29:55,  2.00it/s] 66%|██████▋   | 7115/10712 [1:26:26<29:54,  2.01it/s] 66%|██████▋   | 7116/10712 [1:26:27<29:49,  2.01it/s] 66%|██████▋   | 7117/10712 [1:26:27<29:49,  2.01it/s] 66%|██████▋   | 7118/10712 [1:26:28<29:47,  2.01it/s] 66%|██████▋   | 7119/10712 [1:26:28<29:45,  2.01it/s] 66%|██████▋   | 7120/10712 [1:26:29<29:45,  2.01it/s] 66%|██████▋   | 7121/10712 [1:26:29<29:44,  2.01it/s] 66%|██████▋   | 7122/10712 [1:26:30<29:45,  2.01it/s] 66%|██████▋   | 7123/10712 [1:26:30<29:45,  2.01it/s] 67%|██████▋   | 7124/10712 [1:26:31<29:43,  2.01it/s] 67%|██████▋   | 7125/10712 [1:26:31<29:42,  2.01it/s]                                                      {'loss': 3.7487, 'grad_norm': 0.21291562914848328, 'learning_rate': 0.0003044511273519802, 'epoch': 0.67}
+ 67%|██████▋   | 7125/10712 [1:26:31<29:42,  2.01it/s] 67%|██████▋   | 7126/10712 [1:26:32<29:44,  2.01it/s] 67%|██████▋   | 7127/10712 [1:26:32<29:42,  2.01it/s] 67%|██████▋   | 7128/10712 [1:26:33<29:41,  2.01it/s] 67%|██████▋   | 7129/10712 [1:26:33<29:37,  2.02it/s] 67%|██████▋   | 7130/10712 [1:26:34<29:38,  2.01it/s] 67%|██████▋   | 7131/10712 [1:26:34<29:37,  2.01it/s] 67%|██████▋   | 7132/10712 [1:26:35<29:36,  2.02it/s] 67%|██████▋   | 7133/10712 [1:26:35<29:37,  2.01it/s] 67%|██████▋   | 7134/10712 [1:26:36<29:34,  2.02it/s] 67%|██████▋   | 7135/10712 [1:26:36<29:34,  2.02it/s] 67%|██████▋   | 7136/10712 [1:26:37<29:32,  2.02it/s] 67%|██████▋   | 7137/10712 [1:26:37<29:35,  2.01it/s] 67%|██████▋   | 7138/10712 [1:26:38<29:42,  2.00it/s] 67%|██████▋   | 7139/10712 [1:26:38<29:44,  2.00it/s] 67%|██████▋   | 7140/10712 [1:26:39<29:46,  2.00it/s] 67%|██████▋   | 7141/10712 [1:26:39<29:45,  2.00it/s] 67%|██████▋   | 7142/10712 [1:26:40<29:43,  2.00it/s] 67%|██████▋   | 7143/10712 [1:26:40<29:42,  2.00it/s] 67%|██████▋   | 7144/10712 [1:26:41<29:38,  2.01it/s] 67%|██████▋   | 7145/10712 [1:26:41<29:38,  2.01it/s] 67%|██████▋   | 7146/10712 [1:26:42<29:40,  2.00it/s] 67%|██████▋   | 7147/10712 [1:26:42<31:10,  1.91it/s] 67%|██████▋   | 7148/10712 [1:26:43<30:50,  1.93it/s] 67%|██████▋   | 7149/10712 [1:26:43<30:30,  1.95it/s] 67%|██████▋   | 7150/10712 [1:26:44<30:12,  1.97it/s]                                                      {'loss': 3.7466, 'grad_norm': 0.2066812664270401, 'learning_rate': 0.00030070848601278715, 'epoch': 0.67}
+ 67%|██████▋   | 7150/10712 [1:26:44<30:12,  1.97it/s] 67%|██████▋   | 7151/10712 [1:26:44<30:00,  1.98it/s] 67%|██████▋   | 7152/10712 [1:26:45<29:50,  1.99it/s] 67%|██████▋   | 7153/10712 [1:26:45<29:47,  1.99it/s] 67%|██████▋   | 7154/10712 [1:26:46<29:39,  2.00it/s] 67%|██████▋   | 7155/10712 [1:26:46<29:38,  2.00it/s] 67%|██████▋   | 7156/10712 [1:26:47<29:34,  2.00it/s] 67%|██████▋   | 7157/10712 [1:26:47<29:29,  2.01it/s] 67%|██████▋   | 7158/10712 [1:26:48<29:29,  2.01it/s] 67%|██████▋   | 7159/10712 [1:26:48<29:28,  2.01it/s] 67%|██████▋   | 7160/10712 [1:26:49<29:28,  2.01it/s] 67%|██████▋   | 7161/10712 [1:26:49<29:27,  2.01it/s] 67%|██████▋   | 7162/10712 [1:26:50<29:23,  2.01it/s] 67%|██████▋   | 7163/10712 [1:26:50<29:25,  2.01it/s] 67%|██████▋   | 7164/10712 [1:26:51<29:25,  2.01it/s] 67%|██████▋   | 7165/10712 [1:26:51<29:22,  2.01it/s] 67%|██████▋   | 7166/10712 [1:26:52<29:21,  2.01it/s] 67%|██████▋   | 7167/10712 [1:26:52<29:21,  2.01it/s] 67%|██████▋   | 7168/10712 [1:26:53<29:20,  2.01it/s] 67%|██████▋   | 7169/10712 [1:26:53<29:19,  2.01it/s] 67%|██████▋   | 7170/10712 [1:26:54<29:17,  2.02it/s] 67%|██████▋   | 7171/10712 [1:26:54<29:17,  2.01it/s] 67%|██████▋   | 7172/10712 [1:26:55<29:16,  2.02it/s] 67%|██████▋   | 7173/10712 [1:26:55<29:16,  2.01it/s] 67%|██████▋   | 7174/10712 [1:26:56<29:15,  2.02it/s] 67%|██████▋   | 7175/10712 [1:26:56<29:15,  2.02it/s]                                                      {'loss': 3.7471, 'grad_norm': 0.2061804085969925, 'learning_rate': 0.0002969790732192046, 'epoch': 0.67}
+ 67%|██████▋   | 7175/10712 [1:26:56<29:15,  2.02it/s] 67%|██████▋   | 7176/10712 [1:26:57<29:14,  2.02it/s] 67%|██████▋   | 7177/10712 [1:26:57<29:13,  2.02it/s] 67%|██████▋   | 7178/10712 [1:26:58<29:11,  2.02it/s] 67%|██████▋   | 7179/10712 [1:26:58<29:12,  2.02it/s] 67%|██████▋   | 7180/10712 [1:26:59<29:20,  2.01it/s] 67%|██████▋   | 7181/10712 [1:26:59<29:21,  2.00it/s] 67%|██████▋   | 7182/10712 [1:27:00<29:25,  2.00it/s] 67%|██████▋   | 7183/10712 [1:27:00<29:28,  2.00it/s] 67%|██████▋   | 7184/10712 [1:27:01<29:25,  2.00it/s] 67%|██████▋   | 7185/10712 [1:27:01<29:25,  2.00it/s] 67%|██████▋   | 7186/10712 [1:27:02<29:21,  2.00it/s] 67%|██████▋   | 7187/10712 [1:27:02<29:23,  2.00it/s] 67%|██████▋   | 7188/10712 [1:27:03<29:19,  2.00it/s] 67%|██████▋   | 7189/10712 [1:27:03<29:24,  2.00it/s] 67%|██████▋   | 7190/10712 [1:27:04<29:22,  2.00it/s] 67%|██████▋   | 7191/10712 [1:27:04<29:20,  2.00it/s] 67%|██████▋   | 7192/10712 [1:27:05<29:20,  2.00it/s] 67%|██████▋   | 7193/10712 [1:27:05<29:21,  2.00it/s] 67%|██████▋   | 7194/10712 [1:27:06<29:36,  1.98it/s] 67%|██████▋   | 7195/10712 [1:27:06<31:25,  1.87it/s] 67%|██████▋   | 7196/10712 [1:27:07<30:45,  1.91it/s] 67%|██████▋   | 7197/10712 [1:27:07<30:19,  1.93it/s] 67%|██████▋   | 7198/10712 [1:27:08<29:59,  1.95it/s] 67%|██████▋   | 7199/10712 [1:27:08<29:43,  1.97it/s] 67%|██████▋   | 7200/10712 [1:27:09<29:33,  1.98it/s]                                                      {'loss': 3.739, 'grad_norm': 0.19732309877872467, 'learning_rate': 0.000293263136521699, 'epoch': 0.67}
+ 67%|██████▋   | 7200/10712 [1:27:09<29:33,  1.98it/s] 67%|██████▋   | 7201/10712 [1:27:09<29:27,  1.99it/s] 67%|██████▋   | 7202/10712 [1:27:10<29:19,  1.99it/s] 67%|██████▋   | 7203/10712 [1:27:10<29:16,  2.00it/s] 67%|██████▋   | 7204/10712 [1:27:11<29:12,  2.00it/s] 67%|██████▋   | 7205/10712 [1:27:11<29:08,  2.01it/s] 67%|██████▋   | 7206/10712 [1:27:12<29:08,  2.01it/s] 67%|██████▋   | 7207/10712 [1:27:12<29:06,  2.01it/s] 67%|██████▋   | 7208/10712 [1:27:13<29:03,  2.01it/s] 67%|██████▋   | 7209/10712 [1:27:13<29:04,  2.01it/s] 67%|██████▋   | 7210/10712 [1:27:14<29:05,  2.01it/s] 67%|██████▋   | 7211/10712 [1:27:14<29:01,  2.01it/s] 67%|██████▋   | 7212/10712 [1:27:15<29:02,  2.01it/s] 67%|██████▋   | 7213/10712 [1:27:15<28:59,  2.01it/s] 67%|██████▋   | 7214/10712 [1:27:16<29:11,  2.00it/s] 67%|██████▋   | 7215/10712 [1:27:16<29:13,  1.99it/s] 67%|██████▋   | 7216/10712 [1:27:17<29:11,  2.00it/s] 67%|██████▋   | 7217/10712 [1:27:17<29:09,  2.00it/s] 67%|██████▋   | 7218/10712 [1:27:18<29:07,  2.00it/s] 67%|██████▋   | 7219/10712 [1:27:18<29:04,  2.00it/s] 67%|██████▋   | 7220/10712 [1:27:19<29:02,  2.00it/s] 67%|██████▋   | 7221/10712 [1:27:19<29:02,  2.00it/s] 67%|██████▋   | 7222/10712 [1:27:20<28:59,  2.01it/s] 67%|██████▋   | 7223/10712 [1:27:20<29:00,  2.00it/s] 67%|██████▋   | 7224/10712 [1:27:21<28:59,  2.00it/s] 67%|██████▋   | 7225/10712 [1:27:21<28:59,  2.00it/s]                                                      {'loss': 3.741, 'grad_norm': 0.21403934061527252, 'learning_rate': 0.0002895609225762222, 'epoch': 0.67}
+ 67%|██████▋   | 7225/10712 [1:27:21<28:59,  2.00it/s] 67%|██████▋   | 7226/10712 [1:27:22<29:01,  2.00it/s] 67%|██████▋   | 7227/10712 [1:27:22<28:55,  2.01it/s] 67%|██████▋   | 7228/10712 [1:27:23<28:56,  2.01it/s] 67%|██████▋   | 7229/10712 [1:27:23<28:55,  2.01it/s] 67%|██████▋   | 7230/10712 [1:27:24<28:51,  2.01it/s] 68%|██████▊   | 7231/10712 [1:27:24<28:52,  2.01it/s] 68%|██████▊   | 7232/10712 [1:27:25<28:50,  2.01it/s] 68%|██████▊   | 7233/10712 [1:27:25<28:48,  2.01it/s] 68%|██████▊   | 7234/10712 [1:27:26<28:48,  2.01it/s] 68%|██████▊   | 7235/10712 [1:27:26<28:45,  2.02it/s] 68%|██████▊   | 7236/10712 [1:27:27<28:50,  2.01it/s] 68%|██████▊   | 7237/10712 [1:27:28<30:18,  1.91it/s] 68%|██████▊   | 7238/10712 [1:27:28<29:51,  1.94it/s] 68%|██████▊   | 7239/10712 [1:27:29<29:32,  1.96it/s] 68%|██████▊   | 7240/10712 [1:27:29<29:20,  1.97it/s] 68%|██████▊   | 7241/10712 [1:27:30<29:10,  1.98it/s] 68%|██████▊   | 7242/10712 [1:27:30<29:01,  1.99it/s] 68%|██████▊   | 7243/10712 [1:27:30<28:58,  2.00it/s] 68%|██████▊   | 7244/10712 [1:27:31<28:51,  2.00it/s] 68%|██████▊   | 7245/10712 [1:27:31<28:48,  2.01it/s] 68%|██████▊   | 7246/10712 [1:27:32<28:48,  2.00it/s] 68%|██████▊   | 7247/10712 [1:27:32<28:43,  2.01it/s] 68%|██████▊   | 7248/10712 [1:27:33<28:44,  2.01it/s] 68%|██████▊   | 7249/10712 [1:27:33<28:44,  2.01it/s] 68%|██████▊   | 7250/10712 [1:27:34<28:40,  2.01it/s]                                                      {'loss': 3.7349, 'grad_norm': 0.20244579017162323, 'learning_rate': 0.0002858726771278391, 'epoch': 0.68}
+ 68%|██████▊   | 7250/10712 [1:27:34<28:40,  2.01it/s] 68%|██████▊   | 7251/10712 [1:27:34<28:42,  2.01it/s] 68%|██████▊   | 7252/10712 [1:27:35<28:41,  2.01it/s] 68%|██████▊   | 7253/10712 [1:27:35<28:38,  2.01it/s] 68%|██████▊   | 7254/10712 [1:27:36<28:37,  2.01it/s] 68%|██████▊   | 7255/10712 [1:27:36<28:34,  2.02it/s] 68%|██████▊   | 7256/10712 [1:27:37<28:35,  2.02it/s] 68%|██████▊   | 7257/10712 [1:27:37<28:35,  2.01it/s] 68%|██████▊   | 7258/10712 [1:27:38<28:34,  2.02it/s] 68%|██████▊   | 7259/10712 [1:27:38<28:35,  2.01it/s] 68%|██████▊   | 7260/10712 [1:27:39<28:51,  1.99it/s] 68%|██████▊   | 7261/10712 [1:27:40<30:04,  1.91it/s] 68%|██████▊   | 7262/10712 [1:27:40<29:38,  1.94it/s] 68%|██████▊   | 7263/10712 [1:27:41<29:21,  1.96it/s] 68%|██████▊   | 7264/10712 [1:27:41<29:08,  1.97it/s] 68%|██████▊   | 7265/10712 [1:27:42<28:57,  1.98it/s] 68%|██████▊   | 7266/10712 [1:27:42<28:49,  1.99it/s] 68%|██████▊   | 7267/10712 [1:27:43<28:45,  2.00it/s] 68%|██████▊   | 7268/10712 [1:27:43<28:41,  2.00it/s] 68%|██████▊   | 7269/10712 [1:27:44<28:36,  2.01it/s] 68%|██████▊   | 7270/10712 [1:27:44<28:36,  2.00it/s] 68%|██████▊   | 7271/10712 [1:27:45<28:35,  2.01it/s] 68%|██████▊   | 7272/10712 [1:27:45<28:31,  2.01it/s] 68%|██████▊   | 7273/10712 [1:27:45<28:29,  2.01it/s] 68%|██████▊   | 7274/10712 [1:27:46<28:29,  2.01it/s] 68%|██████▊   | 7275/10712 [1:27:46<28:29,  2.01it/s]                                                      {'loss': 3.7327, 'grad_norm': 0.2261842042207718, 'learning_rate': 0.00028219864499441584, 'epoch': 0.68}
+ 68%|██████▊   | 7275/10712 [1:27:46<28:29,  2.01it/s] 68%|██████▊   | 7276/10712 [1:27:47<28:30,  2.01it/s] 68%|██████▊   | 7277/10712 [1:27:47<28:32,  2.01it/s] 68%|██████▊   | 7278/10712 [1:27:48<28:29,  2.01it/s] 68%|██████▊   | 7279/10712 [1:27:48<28:28,  2.01it/s] 68%|██████▊   | 7280/10712 [1:27:49<28:28,  2.01it/s] 68%|██████▊   | 7281/10712 [1:27:49<28:29,  2.01it/s] 68%|██████▊   | 7282/10712 [1:27:50<28:29,  2.01it/s] 68%|██████▊   | 7283/10712 [1:27:50<28:26,  2.01it/s] 68%|██████▊   | 7284/10712 [1:27:51<28:24,  2.01it/s] 68%|██████▊   | 7285/10712 [1:27:51<28:21,  2.01it/s] 68%|██████▊   | 7286/10712 [1:27:52<28:22,  2.01it/s] 68%|██████▊   | 7287/10712 [1:27:52<28:20,  2.01it/s] 68%|██████▊   | 7288/10712 [1:27:53<28:19,  2.01it/s] 68%|██████▊   | 7289/10712 [1:27:53<28:18,  2.02it/s] 68%|██████▊   | 7290/10712 [1:27:54<28:17,  2.02it/s] 68%|██████▊   | 7291/10712 [1:27:54<28:17,  2.02it/s] 68%|██████▊   | 7292/10712 [1:27:55<28:13,  2.02it/s] 68%|██████▊   | 7293/10712 [1:27:55<28:13,  2.02it/s] 68%|██████▊   | 7294/10712 [1:27:56<28:13,  2.02it/s] 68%|██████▊   | 7295/10712 [1:27:56<28:15,  2.02it/s] 68%|██████▊   | 7296/10712 [1:27:57<28:13,  2.02it/s] 68%|██████▊   | 7297/10712 [1:27:57<28:14,  2.02it/s] 68%|██████▊   | 7298/10712 [1:27:58<28:17,  2.01it/s] 68%|██████▊   | 7299/10712 [1:27:58<28:20,  2.01it/s] 68%|██████▊   | 7300/10712 [1:27:59<28:18,  2.01it/s]                                                      {'loss': 3.7299, 'grad_norm': 0.20258717238903046, 'learning_rate': 0.00027853907005036824, 'epoch': 0.68}
+ 68%|██████▊   | 7300/10712 [1:27:59<28:18,  2.01it/s] 68%|██████▊   | 7301/10712 [1:27:59<28:22,  2.00it/s] 68%|██████▊   | 7302/10712 [1:28:00<28:22,  2.00it/s] 68%|██████▊   | 7303/10712 [1:28:00<28:21,  2.00it/s] 68%|██████▊   | 7304/10712 [1:28:01<28:19,  2.00it/s] 68%|██████▊   | 7305/10712 [1:28:01<28:18,  2.01it/s] 68%|██████▊   | 7306/10712 [1:28:02<28:17,  2.01it/s] 68%|██████▊   | 7307/10712 [1:28:02<28:16,  2.01it/s] 68%|██████▊   | 7308/10712 [1:28:03<28:17,  2.01it/s] 68%|██████▊   | 7309/10712 [1:28:03<28:15,  2.01it/s] 68%|██████▊   | 7310/10712 [1:28:04<28:15,  2.01it/s] 68%|██████▊   | 7311/10712 [1:28:04<28:13,  2.01it/s] 68%|██████▊   | 7312/10712 [1:28:05<28:12,  2.01it/s] 68%|██████▊   | 7313/10712 [1:28:05<28:11,  2.01it/s] 68%|██████▊   | 7314/10712 [1:28:06<28:11,  2.01it/s] 68%|██████▊   | 7315/10712 [1:28:06<28:09,  2.01it/s] 68%|██████▊   | 7316/10712 [1:28:07<28:07,  2.01it/s] 68%|██████▊   | 7317/10712 [1:28:07<28:06,  2.01it/s] 68%|██████▊   | 7318/10712 [1:28:08<28:06,  2.01it/s] 68%|██████▊   | 7319/10712 [1:28:08<28:04,  2.01it/s] 68%|██████▊   | 7320/10712 [1:28:09<28:04,  2.01it/s] 68%|██████▊   | 7321/10712 [1:28:09<28:02,  2.02it/s] 68%|██████▊   | 7322/10712 [1:28:10<28:01,  2.02it/s] 68%|██████▊   | 7323/10712 [1:28:10<28:00,  2.02it/s] 68%|██████▊   | 7324/10712 [1:28:11<28:01,  2.01it/s] 68%|██████▊   | 7325/10712 [1:28:11<29:25,  1.92it/s]                                                      {'loss': 3.7302, 'grad_norm': 0.20479975640773773, 'learning_rate': 0.00027489419521047563, 'epoch': 0.68}
+ 68%|██████▊   | 7325/10712 [1:28:11<29:25,  1.92it/s] 68%|██████▊   | 7326/10712 [1:28:12<29:05,  1.94it/s] 68%|██████▊   | 7327/10712 [1:28:12<28:50,  1.96it/s] 68%|██████▊   | 7328/10712 [1:28:13<28:37,  1.97it/s] 68%|██████▊   | 7329/10712 [1:28:13<28:30,  1.98it/s] 68%|██████▊   | 7330/10712 [1:28:14<28:24,  1.98it/s] 68%|██████▊   | 7331/10712 [1:28:14<28:21,  1.99it/s] 68%|██████▊   | 7332/10712 [1:28:15<28:16,  1.99it/s] 68%|██████▊   | 7333/10712 [1:28:15<28:13,  1.99it/s] 68%|██████▊   | 7334/10712 [1:28:16<28:12,  2.00it/s] 68%|██████▊   | 7335/10712 [1:28:16<28:13,  1.99it/s] 68%|██████▊   | 7336/10712 [1:28:17<28:11,  2.00it/s] 68%|██████▊   | 7337/10712 [1:28:17<28:09,  2.00it/s] 69%|██████▊   | 7338/10712 [1:28:18<28:06,  2.00it/s] 69%|██████▊   | 7339/10712 [1:28:18<28:06,  2.00it/s] 69%|██████▊   | 7340/10712 [1:28:19<28:03,  2.00it/s] 69%|██████▊   | 7341/10712 [1:28:19<28:03,  2.00it/s] 69%|██████▊   | 7342/10712 [1:28:20<28:02,  2.00it/s] 69%|██████▊   | 7343/10712 [1:28:20<28:02,  2.00it/s] 69%|██████▊   | 7344/10712 [1:28:21<27:59,  2.01it/s] 69%|██████▊   | 7345/10712 [1:28:21<27:58,  2.01it/s] 69%|██████▊   | 7346/10712 [1:28:22<27:59,  2.00it/s] 69%|██████▊   | 7347/10712 [1:28:22<27:57,  2.01it/s] 69%|██████▊   | 7348/10712 [1:28:23<27:56,  2.01it/s] 69%|██████▊   | 7349/10712 [1:28:23<27:53,  2.01it/s] 69%|██████▊   | 7350/10712 [1:28:24<27:53,  2.01it/s]                                                      {'loss': 3.7302, 'grad_norm': 0.21034333109855652, 'learning_rate': 0.0002712642624137552, 'epoch': 0.69}
+ 69%|██████▊   | 7350/10712 [1:28:24<27:53,  2.01it/s] 69%|██████▊   | 7351/10712 [1:28:24<27:54,  2.01it/s] 69%|██████▊   | 7352/10712 [1:28:25<27:51,  2.01it/s] 69%|██████▊   | 7353/10712 [1:28:25<27:52,  2.01it/s] 69%|██████▊   | 7354/10712 [1:28:26<27:50,  2.01it/s] 69%|██████▊   | 7355/10712 [1:28:26<27:49,  2.01it/s] 69%|██████▊   | 7356/10712 [1:28:27<27:48,  2.01it/s] 69%|██████▊   | 7357/10712 [1:28:27<27:46,  2.01it/s] 69%|██████▊   | 7358/10712 [1:28:28<27:49,  2.01it/s] 69%|██████▊   | 7359/10712 [1:28:28<27:46,  2.01it/s] 69%|██████▊   | 7360/10712 [1:28:29<27:44,  2.01it/s] 69%|██████▊   | 7361/10712 [1:28:29<27:44,  2.01it/s] 69%|██████▊   | 7362/10712 [1:28:30<27:42,  2.01it/s] 69%|██████▊   | 7363/10712 [1:28:30<27:42,  2.01it/s] 69%|██████▊   | 7364/10712 [1:28:31<27:40,  2.02it/s] 69%|██████▉   | 7365/10712 [1:28:31<27:39,  2.02it/s] 69%|██████▉   | 7366/10712 [1:28:32<27:38,  2.02it/s] 69%|██████▉   | 7367/10712 [1:28:32<27:39,  2.02it/s] 69%|██████▉   | 7368/10712 [1:28:33<27:46,  2.01it/s] 69%|██████▉   | 7369/10712 [1:28:33<27:47,  2.00it/s] 69%|██████▉   | 7370/10712 [1:28:34<27:46,  2.01it/s] 69%|██████▉   | 7371/10712 [1:28:34<27:46,  2.00it/s] 69%|██████▉   | 7372/10712 [1:28:35<27:45,  2.01it/s] 69%|██████▉   | 7373/10712 [1:28:35<27:46,  2.00it/s] 69%|██████▉   | 7374/10712 [1:28:36<27:44,  2.01it/s] 69%|██████▉   | 7375/10712 [1:28:36<27:43,  2.01it/s]                                                      {'loss': 3.7338, 'grad_norm': 0.20984427630901337, 'learning_rate': 0.0002676495126074034, 'epoch': 0.69}
+ 69%|██████▉   | 7375/10712 [1:28:36<27:43,  2.01it/s] 69%|██████▉   | 7376/10712 [1:28:37<27:46,  2.00it/s] 69%|██████▉   | 7377/10712 [1:28:37<27:48,  2.00it/s] 69%|██████▉   | 7378/10712 [1:28:38<27:46,  2.00it/s] 69%|██████▉   | 7379/10712 [1:28:38<27:49,  2.00it/s] 69%|██████▉   | 7380/10712 [1:28:39<27:45,  2.00it/s] 69%|██████▉   | 7381/10712 [1:28:39<27:42,  2.00it/s] 69%|██████▉   | 7382/10712 [1:28:40<27:40,  2.00it/s] 69%|██████▉   | 7383/10712 [1:28:40<27:42,  2.00it/s] 69%|██████▉   | 7384/10712 [1:28:41<27:44,  2.00it/s] 69%|██████▉   | 7385/10712 [1:28:41<27:45,  2.00it/s] 69%|██████▉   | 7386/10712 [1:28:42<27:45,  2.00it/s] 69%|██████▉   | 7387/10712 [1:28:42<27:45,  2.00it/s] 69%|██████▉   | 7388/10712 [1:28:43<27:42,  2.00it/s] 69%|██████▉   | 7389/10712 [1:28:43<27:42,  2.00it/s] 69%|██████▉   | 7390/10712 [1:28:44<27:39,  2.00it/s] 69%|██████▉   | 7391/10712 [1:28:44<27:41,  2.00it/s] 69%|██████▉   | 7392/10712 [1:28:45<27:43,  2.00it/s] 69%|██████▉   | 7393/10712 [1:28:45<27:40,  2.00it/s] 69%|██████▉   | 7394/10712 [1:28:46<27:38,  2.00it/s] 69%|██████▉   | 7395/10712 [1:28:46<27:37,  2.00it/s] 69%|██████▉   | 7396/10712 [1:28:47<27:35,  2.00it/s] 69%|██████▉   | 7397/10712 [1:28:47<27:35,  2.00it/s] 69%|██████▉   | 7398/10712 [1:28:48<27:36,  2.00it/s] 69%|██████▉   | 7399/10712 [1:28:48<27:36,  2.00it/s] 69%|██████▉   | 7400/10712 [1:28:49<27:36,  2.00it/s]                                                      {'loss': 3.7344, 'grad_norm': 0.2076161652803421, 'learning_rate': 0.0002640501857308021, 'epoch': 0.69}
+ 69%|██████▉   | 7400/10712 [1:28:49<27:36,  2.00it/s] 69%|██████▉   | 7401/10712 [1:28:49<27:38,  2.00it/s] 69%|██████▉   | 7402/10712 [1:28:50<27:38,  2.00it/s] 69%|██████▉   | 7403/10712 [1:28:50<27:35,  2.00it/s] 69%|██████▉   | 7404/10712 [1:28:51<27:33,  2.00it/s] 69%|██████▉   | 7405/10712 [1:28:51<27:30,  2.00it/s] 69%|██████▉   | 7406/10712 [1:28:52<27:30,  2.00it/s] 69%|██████▉   | 7407/10712 [1:28:52<27:28,  2.00it/s] 69%|██████▉   | 7408/10712 [1:28:53<27:29,  2.00it/s] 69%|██████▉   | 7409/10712 [1:28:53<27:28,  2.00it/s] 69%|██████▉   | 7410/10712 [1:28:54<27:28,  2.00it/s] 69%|██████▉   | 7411/10712 [1:28:54<27:28,  2.00it/s] 69%|██████▉   | 7412/10712 [1:28:55<27:27,  2.00it/s] 69%|██████▉   | 7413/10712 [1:28:55<27:28,  2.00it/s] 69%|██████▉   | 7414/10712 [1:28:56<27:28,  2.00it/s] 69%|██████▉   | 7415/10712 [1:28:56<27:25,  2.00it/s] 69%|██████▉   | 7416/10712 [1:28:57<27:27,  2.00it/s] 69%|██████▉   | 7417/10712 [1:28:57<27:25,  2.00it/s] 69%|██████▉   | 7418/10712 [1:28:58<27:25,  2.00it/s] 69%|██████▉   | 7419/10712 [1:28:58<27:24,  2.00it/s] 69%|██████▉   | 7420/10712 [1:28:59<27:23,  2.00it/s] 69%|██████▉   | 7421/10712 [1:28:59<27:21,  2.00it/s] 69%|██████▉   | 7422/10712 [1:29:00<27:19,  2.01it/s] 69%|██████▉   | 7423/10712 [1:29:00<27:21,  2.00it/s] 69%|██████▉   | 7424/10712 [1:29:01<27:20,  2.00it/s] 69%|██████▉   | 7425/10712 [1:29:01<27:21,  2.00it/s]                                                      {'loss': 3.7392, 'grad_norm': 0.21046660840511322, 'learning_rate': 0.0002604665206995922, 'epoch': 0.69}
+ 69%|██████▉   | 7425/10712 [1:29:01<27:21,  2.00it/s] 69%|██████▉   | 7426/10712 [1:29:02<27:22,  2.00it/s] 69%|██████▉   | 7427/10712 [1:29:02<27:22,  2.00it/s] 69%|██████▉   | 7428/10712 [1:29:03<27:22,  2.00it/s] 69%|██████▉   | 7429/10712 [1:29:03<27:19,  2.00it/s] 69%|██████▉   | 7430/10712 [1:29:04<27:18,  2.00it/s] 69%|██████▉   | 7431/10712 [1:29:04<27:16,  2.01it/s] 69%|██████▉   | 7432/10712 [1:29:05<27:15,  2.01it/s] 69%|██████▉   | 7433/10712 [1:29:05<27:14,  2.01it/s] 69%|██████▉   | 7434/10712 [1:29:06<27:11,  2.01it/s] 69%|██████▉   | 7435/10712 [1:29:06<27:09,  2.01it/s] 69%|██████▉   | 7436/10712 [1:29:07<27:08,  2.01it/s] 69%|██████▉   | 7437/10712 [1:29:07<27:07,  2.01it/s] 69%|██████▉   | 7438/10712 [1:29:08<27:06,  2.01it/s] 69%|██████▉   | 7439/10712 [1:29:08<27:07,  2.01it/s] 69%|██████▉   | 7440/10712 [1:29:09<27:04,  2.01it/s] 69%|██████▉   | 7441/10712 [1:29:09<27:04,  2.01it/s] 69%|██████▉   | 7442/10712 [1:29:10<27:03,  2.01it/s] 69%|██████▉   | 7443/10712 [1:29:10<27:02,  2.01it/s] 69%|██████▉   | 7444/10712 [1:29:11<27:00,  2.02it/s] 70%|██████▉   | 7445/10712 [1:29:11<27:00,  2.02it/s] 70%|██████▉   | 7446/10712 [1:29:12<27:00,  2.02it/s] 70%|██████▉   | 7447/10712 [1:29:12<27:08,  2.00it/s] 70%|██████▉   | 7448/10712 [1:29:13<27:05,  2.01it/s] 70%|██████▉   | 7449/10712 [1:29:13<27:06,  2.01it/s] 70%|██████▉   | 7450/10712 [1:29:14<27:06,  2.01it/s]                                                      {'loss': 3.7416, 'grad_norm': 0.20787328481674194, 'learning_rate': 0.0002568987553898142, 'epoch': 0.7}
+ 70%|██████▉   | 7450/10712 [1:29:14<27:06,  2.01it/s] 70%|██████▉   | 7451/10712 [1:29:14<27:06,  2.00it/s] 70%|██████▉   | 7452/10712 [1:29:15<27:04,  2.01it/s] 70%|██████▉   | 7453/10712 [1:29:15<27:04,  2.01it/s] 70%|██████▉   | 7454/10712 [1:29:16<27:03,  2.01it/s] 70%|██████▉   | 7455/10712 [1:29:16<27:03,  2.01it/s] 70%|██████▉   | 7456/10712 [1:29:17<27:03,  2.01it/s] 70%|██████▉   | 7457/10712 [1:29:17<27:02,  2.01it/s] 70%|██████▉   | 7458/10712 [1:29:18<27:04,  2.00it/s] 70%|██████▉   | 7459/10712 [1:29:18<27:03,  2.00it/s] 70%|██████▉   | 7460/10712 [1:29:19<27:02,  2.00it/s] 70%|██████▉   | 7461/10712 [1:29:19<27:02,  2.00it/s] 70%|██████▉   | 7462/10712 [1:29:20<27:02,  2.00it/s] 70%|██████▉   | 7463/10712 [1:29:20<27:04,  2.00it/s] 70%|██████▉   | 7464/10712 [1:29:21<27:01,  2.00it/s] 70%|██████▉   | 7465/10712 [1:29:21<27:01,  2.00it/s] 70%|██████▉   | 7466/10712 [1:29:22<26:59,  2.00it/s] 70%|██████▉   | 7467/10712 [1:29:22<27:01,  2.00it/s] 70%|██████▉   | 7468/10712 [1:29:23<26:58,  2.00it/s] 70%|██████▉   | 7469/10712 [1:29:23<26:58,  2.00it/s] 70%|██████▉   | 7470/10712 [1:29:24<26:56,  2.01it/s] 70%|██████▉   | 7471/10712 [1:29:24<26:53,  2.01it/s] 70%|██████▉   | 7472/10712 [1:29:25<26:53,  2.01it/s] 70%|██████▉   | 7473/10712 [1:29:25<27:10,  1.99it/s] 70%|██████▉   | 7474/10712 [1:29:26<27:07,  1.99it/s] 70%|██████▉   | 7475/10712 [1:29:26<27:04,  1.99it/s]                                                      {'loss': 3.7241, 'grad_norm': 0.20701681077480316, 'learning_rate': 0.00025334712662211965, 'epoch': 0.7}
+ 70%|██████▉   | 7475/10712 [1:29:26<27:04,  1.99it/s] 70%|██████▉   | 7476/10712 [1:29:27<27:00,  2.00it/s] 70%|██████▉   | 7477/10712 [1:29:27<26:58,  2.00it/s] 70%|██████▉   | 7478/10712 [1:29:28<26:56,  2.00it/s] 70%|██████▉   | 7479/10712 [1:29:28<26:52,  2.00it/s] 70%|██████▉   | 7480/10712 [1:29:29<26:52,  2.00it/s] 70%|██████▉   | 7481/10712 [1:29:29<26:51,  2.00it/s] 70%|██████▉   | 7482/10712 [1:29:30<26:54,  2.00it/s] 70%|██████▉   | 7483/10712 [1:29:30<26:52,  2.00it/s] 70%|██████▉   | 7484/10712 [1:29:31<26:52,  2.00it/s] 70%|██████▉   | 7485/10712 [1:29:31<26:50,  2.00it/s] 70%|██████▉   | 7486/10712 [1:29:32<26:50,  2.00it/s] 70%|██████▉   | 7487/10712 [1:29:32<26:49,  2.00it/s] 70%|██████▉   | 7488/10712 [1:29:33<26:48,  2.00it/s] 70%|██████▉   | 7489/10712 [1:29:33<26:47,  2.00it/s] 70%|██████▉   | 7490/10712 [1:29:34<26:45,  2.01it/s] 70%|██████▉   | 7491/10712 [1:29:34<26:44,  2.01it/s] 70%|██████▉   | 7492/10712 [1:29:35<26:42,  2.01it/s] 70%|██████▉   | 7493/10712 [1:29:35<26:40,  2.01it/s] 70%|██████▉   | 7494/10712 [1:29:36<26:43,  2.01it/s] 70%|██████▉   | 7495/10712 [1:29:36<26:42,  2.01it/s] 70%|██████▉   | 7496/10712 [1:29:37<26:39,  2.01it/s] 70%|██████▉   | 7497/10712 [1:29:37<26:39,  2.01it/s] 70%|██████▉   | 7498/10712 [1:29:38<26:36,  2.01it/s] 70%|███████   | 7499/10712 [1:29:38<26:35,  2.01it/s] 70%|███████   | 7500/10712 [1:29:39<26:36,  2.01it/s]                                                      {'loss': 3.7311, 'grad_norm': 0.21617133915424347, 'learning_rate': 0.0002498118701460503, 'epoch': 0.7}
+ 70%|███████   | 7500/10712 [1:29:39<26:36,  2.01it/s] 70%|███████   | 7501/10712 [1:29:39<26:36,  2.01it/s] 70%|███████   | 7502/10712 [1:29:40<31:24,  1.70it/s] 70%|███████   | 7503/10712 [1:29:41<29:59,  1.78it/s] 70%|███████   | 7504/10712 [1:29:41<28:57,  1.85it/s] 70%|███████   | 7505/10712 [1:29:42<28:15,  1.89it/s] 70%|███████   | 7506/10712 [1:29:42<27:47,  1.92it/s] 70%|███████   | 7507/10712 [1:29:43<27:24,  1.95it/s] 70%|███████   | 7508/10712 [1:29:43<27:09,  1.97it/s] 70%|███████   | 7509/10712 [1:29:44<27:01,  1.98it/s] 70%|███████   | 7510/10712 [1:29:44<26:53,  1.99it/s] 70%|███████   | 7511/10712 [1:29:45<26:46,  1.99it/s] 70%|███████   | 7512/10712 [1:29:45<26:41,  2.00it/s] 70%|████���██   | 7513/10712 [1:29:46<26:40,  2.00it/s] 70%|███████   | 7514/10712 [1:29:46<26:40,  2.00it/s] 70%|███████   | 7515/10712 [1:29:47<26:38,  2.00it/s] 70%|███████   | 7516/10712 [1:29:47<26:36,  2.00it/s] 70%|███████   | 7517/10712 [1:29:48<26:34,  2.00it/s] 70%|███████   | 7518/10712 [1:29:48<26:33,  2.01it/s] 70%|███████   | 7519/10712 [1:29:49<26:31,  2.01it/s] 70%|███████   | 7520/10712 [1:29:49<26:30,  2.01it/s] 70%|███████   | 7521/10712 [1:29:50<26:32,  2.00it/s] 70%|███████   | 7522/10712 [1:29:50<26:34,  2.00it/s] 70%|███████   | 7523/10712 [1:29:51<27:30,  1.93it/s] 70%|███████   | 7524/10712 [1:29:51<27:14,  1.95it/s] 70%|███████   | 7525/10712 [1:29:52<27:02,  1.96it/s]                                                      {'loss': 3.7232, 'grad_norm': 0.2117692530155182, 'learning_rate': 0.0002462932206243906, 'epoch': 0.7}
+ 70%|███████   | 7525/10712 [1:29:52<27:02,  1.96it/s] 70%|███████   | 7526/10712 [1:29:52<26:51,  1.98it/s] 70%|███████   | 7527/10712 [1:29:53<26:54,  1.97it/s] 70%|███████   | 7528/10712 [1:29:53<26:47,  1.98it/s] 70%|███████   | 7529/10712 [1:29:54<26:39,  1.99it/s] 70%|███████   | 7530/10712 [1:29:54<26:36,  1.99it/s] 70%|███████   | 7531/10712 [1:29:55<26:33,  2.00it/s] 70%|███████   | 7532/10712 [1:29:55<26:28,  2.00it/s] 70%|███████   | 7533/10712 [1:29:56<31:38,  1.67it/s] 70%|███████   | 7534/10712 [1:29:56<30:04,  1.76it/s] 70%|███████   | 7535/10712 [1:29:57<28:59,  1.83it/s] 70%|███████   | 7536/10712 [1:29:57<28:08,  1.88it/s] 70%|███████   | 7537/10712 [1:29:58<27:36,  1.92it/s] 70%|███████   | 7538/10712 [1:29:58<27:11,  1.95it/s] 70%|███████   | 7539/10712 [1:29:59<26:55,  1.96it/s] 70%|███████   | 7540/10712 [1:29:59<26:43,  1.98it/s] 70%|███████   | 7541/10712 [1:30:00<26:32,  1.99it/s] 70%|███████   | 7542/10712 [1:30:00<26:28,  2.00it/s] 70%|███████   | 7543/10712 [1:30:01<26:24,  2.00it/s] 70%|███████   | 7544/10712 [1:30:01<26:19,  2.01it/s] 70%|███████   | 7545/10712 [1:30:02<26:42,  1.98it/s] 70%|███████   | 7546/10712 [1:30:02<26:46,  1.97it/s] 70%|███████   | 7547/10712 [1:30:03<26:39,  1.98it/s] 70%|███████   | 7548/10712 [1:30:03<26:31,  1.99it/s] 70%|███████   | 7549/10712 [1:30:04<26:28,  1.99it/s] 70%|███████   | 7550/10712 [1:30:04<26:25,  1.99it/s]                                                      {'loss': 3.7314, 'grad_norm': 0.21344977617263794, 'learning_rate': 0.00024279141161759015, 'epoch': 0.7}
+ 70%|███████   | 7550/10712 [1:30:04<26:25,  1.99it/s] 70%|███████   | 7551/10712 [1:30:05<26:24,  1.99it/s] 71%|███████   | 7552/10712 [1:30:05<26:22,  2.00it/s] 71%|███████   | 7553/10712 [1:30:06<26:18,  2.00it/s] 71%|███████   | 7554/10712 [1:30:06<26:15,  2.00it/s] 71%|███████   | 7555/10712 [1:30:07<26:14,  2.01it/s] 71%|███████   | 7556/10712 [1:30:07<26:12,  2.01it/s] 71%|███████   | 7557/10712 [1:30:08<26:18,  2.00it/s] 71%|███████   | 7558/10712 [1:30:08<26:20,  2.00it/s] 71%|███████   | 7559/10712 [1:30:09<26:18,  2.00it/s] 71%|███████   | 7560/10712 [1:30:09<26:15,  2.00it/s] 71%|███████   | 7561/10712 [1:30:10<26:14,  2.00it/s] 71%|███████   | 7562/10712 [1:30:10<26:13,  2.00it/s] 71%|███████   | 7563/10712 [1:30:11<26:11,  2.00it/s] 71%|███████   | 7564/10712 [1:30:11<26:08,  2.01it/s] 71%|███████   | 7565/10712 [1:30:12<26:08,  2.01it/s] 71%|███████   | 7566/10712 [1:30:12<26:06,  2.01it/s] 71%|███████   | 7567/10712 [1:30:13<26:07,  2.01it/s] 71%|███████   | 7568/10712 [1:30:13<26:07,  2.01it/s] 71%|███████   | 7569/10712 [1:30:14<26:06,  2.01it/s] 71%|███████   | 7570/10712 [1:30:14<26:05,  2.01it/s] 71%|███████   | 7571/10712 [1:30:15<26:05,  2.01it/s] 71%|███████   | 7572/10712 [1:30:15<26:05,  2.01it/s] 71%|███████   | 7573/10712 [1:30:16<26:04,  2.01it/s] 71%|███████   | 7574/10712 [1:30:16<26:03,  2.01it/s] 71%|███████   | 7575/10712 [1:30:17<26:04,  2.01it/s]                                                      {'loss': 3.7182, 'grad_norm': 0.22057577967643738, 'learning_rate': 0.00023930667556826173, 'epoch': 0.71}
+ 71%|███████   | 7575/10712 [1:30:17<26:04,  2.01it/s] 71%|███████   | 7576/10712 [1:30:17<26:07,  2.00it/s] 71%|███████   | 7577/10712 [1:30:18<26:04,  2.00it/s] 71%|███████   | 7578/10712 [1:30:18<26:04,  2.00it/s] 71%|███████   | 7579/10712 [1:30:19<26:02,  2.01it/s] 71%|███████   | 7580/10712 [1:30:19<26:01,  2.01it/s] 71%|███████   | 7581/10712 [1:30:20<26:05,  2.00it/s] 71%|███████   | 7582/10712 [1:30:20<26:05,  2.00it/s] 71%|███████   | 7583/10712 [1:30:21<26:06,  2.00it/s] 71%|███████   | 7584/10712 [1:30:21<26:04,  2.00it/s] 71%|███████   | 7585/10712 [1:30:22<26:02,  2.00it/s] 71%|███████   | 7586/10712 [1:30:22<26:02,  2.00it/s] 71%|███████   | 7587/10712 [1:30:23<26:00,  2.00it/s] 71%|███████   | 7588/10712 [1:30:23<26:00,  2.00it/s] 71%|███████   | 7589/10712 [1:30:24<26:17,  1.98it/s] 71%|███████   | 7590/10712 [1:30:24<26:11,  1.99it/s] 71%|███████   | 7591/10712 [1:30:25<27:21,  1.90it/s] 71%|███████   | 7592/10712 [1:30:25<26:54,  1.93it/s] 71%|███████   | 7593/10712 [1:30:26<26:36,  1.95it/s] 71%|███████   | 7594/10712 [1:30:26<26:22,  1.97it/s] 71%|███████   | 7595/10712 [1:30:27<26:12,  1.98it/s] 71%|███████   | 7596/10712 [1:30:27<26:07,  1.99it/s] 71%|███████   | 7597/10712 [1:30:28<25:59,  2.00it/s] 71%|███████   | 7598/10712 [1:30:28<25:57,  2.00it/s] 71%|███████   | 7599/10712 [1:30:29<25:58,  2.00it/s] 71%|███████   | 7600/10712 [1:30:29<25:53,  2.00it/s]                                                      {'loss': 3.7248, 'grad_norm': 0.20429687201976776, 'learning_rate': 0.00023583924378575154, 'epoch': 0.71}
+ 71%|███████   | 7600/10712 [1:30:29<25:53,  2.00it/s] 71%|███████   | 7601/10712 [1:30:30<25:52,  2.00it/s] 71%|███████   | 7602/10712 [1:30:30<25:52,  2.00it/s] 71%|███████   | 7603/10712 [1:30:31<25:49,  2.01it/s] 71%|███████   | 7604/10712 [1:30:31<25:48,  2.01it/s] 71%|███████   | 7605/10712 [1:30:32<25:47,  2.01it/s] 71%|███████   | 7606/10712 [1:30:32<25:46,  2.01it/s] 71%|███████   | 7607/10712 [1:30:33<25:44,  2.01it/s] 71%|███████   | 7608/10712 [1:30:33<25:43,  2.01it/s] 71%|███████   | 7609/10712 [1:30:34<25:41,  2.01it/s] 71%|███████   | 7610/10712 [1:30:34<25:42,  2.01it/s] 71%|███████   | 7611/10712 [1:30:35<25:41,  2.01it/s] 71%|███████   | 7612/10712 [1:30:35<25:39,  2.01it/s] 71%|███████   | 7613/10712 [1:30:36<25:40,  2.01it/s] 71%|███████   | 7614/10712 [1:30:36<25:36,  2.02it/s] 71%|███████   | 7615/10712 [1:30:37<25:38,  2.01it/s] 71%|███████   | 7616/10712 [1:30:37<25:37,  2.01it/s] 71%|███████   | 7617/10712 [1:30:38<25:36,  2.01it/s] 71%|███████   | 7618/10712 [1:30:38<25:35,  2.01it/s] 71%|███████   | 7619/10712 [1:30:39<25:52,  1.99it/s] 71%|███████   | 7620/10712 [1:30:39<25:48,  2.00it/s] 71%|███████   | 7621/10712 [1:30:40<25:45,  2.00it/s] 71%|███████   | 7622/10712 [1:30:40<25:44,  2.00it/s] 71%|███████   | 7623/10712 [1:30:41<25:40,  2.00it/s] 71%|███████   | 7624/10712 [1:30:41<25:38,  2.01it/s] 71%|███████   | 7625/10712 [1:30:42<25:35,  2.01it/s]                                                      {'loss': 3.722, 'grad_norm': 0.21246246993541718, 'learning_rate': 0.00023238934643078497, 'epoch': 0.71}
+ 71%|███████   | 7625/10712 [1:30:42<25:35,  2.01it/s] 71%|███████   | 7626/10712 [1:30:42<25:39,  2.00it/s] 71%|███████   | 7627/10712 [1:30:43<25:38,  2.00it/s] 71%|███████   | 7628/10712 [1:30:43<25:44,  2.00it/s] 71%|███████   | 7629/10712 [1:30:44<25:44,  2.00it/s] 71%|███████   | 7630/10712 [1:30:44<25:43,  2.00it/s] 71%|███████   | 7631/10712 [1:30:45<25:40,  2.00it/s] 71%|███████   | 7632/10712 [1:30:45<25:39,  2.00it/s] 71%|███████▏  | 7633/10712 [1:30:46<25:42,  2.00it/s] 71%|███████▏  | 7634/10712 [1:30:46<25:38,  2.00it/s] 71%|███████▏  | 7635/10712 [1:30:47<25:36,  2.00it/s] 71%|███████▏  | 7636/10712 [1:30:47<25:35,  2.00it/s] 71%|███████▏  | 7637/10712 [1:30:48<25:32,  2.01it/s] 71%|███████▏  | 7638/10712 [1:30:48<25:31,  2.01it/s] 71%|███████▏  | 7639/10712 [1:30:49<25:29,  2.01it/s] 71%|███████▏  | 7640/10712 [1:30:49<25:28,  2.01it/s] 71%|███████▏  | 7641/10712 [1:30:50<25:28,  2.01it/s] 71%|███████▏  | 7642/10712 [1:30:50<25:27,  2.01it/s] 71%|███████▏  | 7643/10712 [1:30:51<25:25,  2.01it/s] 71%|███████▏  | 7644/10712 [1:30:51<25:24,  2.01it/s] 71%|███████▏  | 7645/10712 [1:30:52<25:40,  1.99it/s] 71%|███████▏  | 7646/10712 [1:30:52<25:36,  2.00it/s] 71%|███████▏  | 7647/10712 [1:30:53<25:36,  2.00it/s] 71%|███████▏  | 7648/10712 [1:30:53<25:34,  2.00it/s] 71%|███████▏  | 7649/10712 [1:30:54<25:29,  2.00it/s] 71%|███████▏  | 7650/10712 [1:30:54<25:27,  2.01it/s]                                                      {'loss': 3.7254, 'grad_norm': 0.1994296908378601, 'learning_rate': 0.0002289572125001901, 'epoch': 0.71}
+ 71%|███████▏  | 7650/10712 [1:30:54<25:27,  2.01it/s] 71%|███████▏  | 7651/10712 [1:30:55<25:27,  2.00it/s] 71%|███████▏  | 7652/10712 [1:30:55<25:29,  2.00it/s] 71%|███████▏  | 7653/10712 [1:30:56<25:26,  2.00it/s] 71%|███████▏  | 7654/10712 [1:30:56<25:25,  2.01it/s] 71%|███████▏  | 7655/10712 [1:30:57<25:26,  2.00it/s] 71%|███████▏  | 7656/10712 [1:30:57<25:23,  2.01it/s] 71%|███████▏  | 7657/10712 [1:30:58<25:23,  2.01it/s] 71%|███████▏  | 7658/10712 [1:30:58<25:26,  2.00it/s] 71%|███████▏  | 7659/10712 [1:30:59<25:37,  1.99it/s] 72%|███████▏  | 7660/10712 [1:30:59<25:53,  1.97it/s] 72%|███████▏  | 7661/10712 [1:31:00<25:44,  1.98it/s] 72%|███████▏  | 7662/10712 [1:31:00<25:37,  1.98it/s] 72%|███████▏  | 7663/10712 [1:31:01<25:31,  1.99it/s] 72%|███████▏  | 7664/10712 [1:31:01<25:26,  2.00it/s] 72%|███████▏  | 7665/10712 [1:31:02<25:24,  2.00it/s] 72%|███████▏  | 7666/10712 [1:31:02<25:20,  2.00it/s] 72%|███████▏  | 7667/10712 [1:31:03<25:19,  2.00it/s] 72%|███████▏  | 7668/10712 [1:31:03<25:19,  2.00it/s] 72%|███████▏  | 7669/10712 [1:31:04<25:16,  2.01it/s] 72%|███████▏  | 7670/10712 [1:31:04<25:14,  2.01it/s] 72%|███████▏  | 7671/10712 [1:31:05<25:16,  2.00it/s] 72%|███████▏  | 7672/10712 [1:31:05<25:18,  2.00it/s] 72%|███████▏  | 7673/10712 [1:31:06<25:17,  2.00it/s] 72%|███████▏  | 7674/10712 [1:31:06<25:14,  2.01it/s] 72%|███████▏  | 7675/10712 [1:31:07<25:16,  2.00it/s]                                                      {'loss': 3.7266, 'grad_norm': 0.21232013404369354, 'learning_rate': 0.00022554306981169614, 'epoch': 0.72}
+ 72%|███████▏  | 7675/10712 [1:31:07<25:16,  2.00it/s] 72%|███████▏  | 7676/10712 [1:31:07<25:18,  2.00it/s] 72%|███████▏  | 7677/10712 [1:31:08<25:17,  2.00it/s] 72%|███████▏  | 7678/10712 [1:31:08<25:19,  2.00it/s] 72%|███████▏  | 7679/10712 [1:31:09<25:17,  2.00it/s] 72%|███████▏  | 7680/10712 [1:31:09<25:17,  2.00it/s] 72%|███████▏  | 7681/10712 [1:31:10<25:15,  2.00it/s] 72%|███████▏  | 7682/10712 [1:31:10<25:16,  2.00it/s] 72%|███████▏  | 7683/10712 [1:31:11<26:10,  1.93it/s] 72%|███████▏  | 7684/10712 [1:31:11<25:51,  1.95it/s] 72%|███████▏  | 7685/10712 [1:31:12<25:39,  1.97it/s] 72%|███████▏  | 7686/10712 [1:31:12<25:29,  1.98it/s] 72%|███████▏  | 7687/10712 [1:31:13<25:20,  1.99it/s] 72%|███████▏  | 7688/10712 [1:31:13<25:13,  2.00it/s] 72%|███████▏  | 7689/10712 [1:31:14<25:10,  2.00it/s] 72%|███████▏  | 7690/10712 [1:31:15<26:22,  1.91it/s] 72%|███████▏  | 7691/10712 [1:31:15<25:59,  1.94it/s] 72%|███████▏  | 7692/10712 [1:31:16<25:43,  1.96it/s] 72%|███████▏  | 7693/10712 [1:31:16<25:30,  1.97it/s] 72%|███████▏  | 7694/10712 [1:31:17<25:23,  1.98it/s] 72%|███████▏  | 7695/10712 [1:31:17<25:15,  1.99it/s] 72%|███████▏  | 7696/10712 [1:31:18<25:09,  2.00it/s] 72%|███████▏  | 7697/10712 [1:31:18<25:05,  2.00it/s] 72%|███████▏  | 7698/10712 [1:31:18<25:02,  2.01it/s] 72%|███████▏  | 7699/10712 [1:31:19<25:02,  2.01it/s] 72%|███████▏  | 7700/10712 [1:31:19<25:01,  2.01it/s]                                                      {'loss': 3.7214, 'grad_norm': 0.20325839519500732, 'learning_rate': 0.00022214714498881283, 'epoch': 0.72}
+ 72%|███████▏  | 7700/10712 [1:31:19<25:01,  2.01it/s] 72%|███████▏  | 7701/10712 [1:31:20<25:00,  2.01it/s] 72%|███████▏  | 7702/10712 [1:31:20<24:57,  2.01it/s] 72%|███████▏  | 7703/10712 [1:31:21<24:56,  2.01it/s] 72%|███████▏  | 7704/10712 [1:31:21<24:54,  2.01it/s] 72%|███████▏  | 7705/10712 [1:31:22<24:53,  2.01it/s] 72%|███████▏  | 7706/10712 [1:31:22<24:52,  2.01it/s] 72%|███████▏  | 7707/10712 [1:31:23<24:53,  2.01it/s] 72%|███████▏  | 7708/10712 [1:31:23<24:51,  2.01it/s] 72%|███████▏  | 7709/10712 [1:31:24<24:50,  2.01it/s] 72%|███████▏  | 7710/10712 [1:31:24<24:49,  2.02it/s] 72%|███████▏  | 7711/10712 [1:31:25<24:48,  2.02it/s] 72%|███████▏  | 7712/10712 [1:31:25<24:47,  2.02it/s] 72%|███████▏  | 7713/10712 [1:31:26<24:47,  2.02it/s] 72%|███████▏  | 7714/10712 [1:31:26<24:47,  2.02it/s] 72%|███████▏  | 7715/10712 [1:31:27<24:47,  2.01it/s] 72%|███████▏  | 7716/10712 [1:31:27<24:49,  2.01it/s] 72%|███████▏  | 7717/10712 [1:31:28<24:50,  2.01it/s] 72%|███████▏  | 7718/10712 [1:31:28<24:51,  2.01it/s] 72%|███████▏  | 7719/10712 [1:31:29<24:51,  2.01it/s] 72%|███████▏  | 7720/10712 [1:31:29<24:49,  2.01it/s] 72%|███████▏  | 7721/10712 [1:31:30<24:50,  2.01it/s] 72%|███████▏  | 7722/10712 [1:31:30<24:52,  2.00it/s] 72%|███████▏  | 7723/10712 [1:31:31<24:49,  2.01it/s] 72%|███████▏  | 7724/10712 [1:31:31<24:48,  2.01it/s] 72%|███████▏  | 7725/10712 [1:31:32<24:47,  2.01it/s]                                                      {'loss': 3.7194, 'grad_norm': 0.20564807951450348, 'learning_rate': 0.00021876966344578608, 'epoch': 0.72}
+ 72%|███████▏  | 7725/10712 [1:31:32<24:47,  2.01it/s] 72%|███████▏  | 7726/10712 [1:31:32<24:48,  2.01it/s] 72%|███████▏  | 7727/10712 [1:31:33<24:47,  2.01it/s] 72%|███████▏  | 7728/10712 [1:31:33<24:49,  2.00it/s] 72%|███████▏  | 7729/10712 [1:31:34<24:49,  2.00it/s] 72%|███████▏  | 7730/10712 [1:31:34<24:47,  2.01it/s] 72%|███████▏  | 7731/10712 [1:31:35<24:47,  2.00it/s] 72%|███████▏  | 7732/10712 [1:31:35<24:48,  2.00it/s] 72%|███████▏  | 7733/10712 [1:31:36<24:47,  2.00it/s] 72%|███████▏  | 7734/10712 [1:31:36<24:46,  2.00it/s] 72%|███████▏  | 7735/10712 [1:31:37<24:46,  2.00it/s] 72%|███████▏  | 7736/10712 [1:31:37<24:46,  2.00it/s] 72%|███████▏  | 7737/10712 [1:31:38<24:46,  2.00it/s] 72%|███████▏  | 7738/10712 [1:31:38<24:45,  2.00it/s] 72%|███████▏  | 7739/10712 [1:31:39<25:02,  1.98it/s] 72%|███████▏  | 7740/10712 [1:31:39<25:32,  1.94it/s] 72%|███████▏  | 7741/10712 [1:31:40<25:28,  1.94it/s] 72%|███████▏  | 7742/10712 [1:31:40<25:15,  1.96it/s] 72%|███████▏  | 7743/10712 [1:31:41<25:06,  1.97it/s] 72%|███████▏  | 7744/10712 [1:31:41<24:56,  1.98it/s] 72%|███████▏  | 7745/10712 [1:31:42<24:51,  1.99it/s] 72%|███████▏  | 7746/10712 [1:31:42<24:48,  1.99it/s] 72%|███████▏  | 7747/10712 [1:31:43<24:43,  2.00it/s] 72%|███████▏  | 7748/10712 [1:31:43<24:40,  2.00it/s] 72%|███████▏  | 7749/10712 [1:31:44<24:40,  2.00it/s] 72%|███████▏  | 7750/10712 [1:31:44<24:41,  2.00it/s]                                                      {'loss': 3.7152, 'grad_norm': 0.21158863604068756, 'learning_rate': 0.00021541084937263684, 'epoch': 0.72}
+ 72%|███████▏  | 7750/10712 [1:31:44<24:41,  2.00it/s] 72%|███████▏  | 7751/10712 [1:31:45<24:41,  2.00it/s] 72%|███████▏  | 7752/10712 [1:31:45<24:38,  2.00it/s] 72%|███████▏  | 7753/10712 [1:31:46<24:39,  2.00it/s] 72%|███████▏  | 7754/10712 [1:31:46<24:36,  2.00it/s] 72%|███████▏  | 7755/10712 [1:31:47<24:34,  2.01it/s] 72%|███████▏  | 7756/10712 [1:31:47<24:34,  2.00it/s] 72%|███████▏  | 7757/10712 [1:31:48<24:34,  2.00it/s] 72%|███████▏  | 7758/10712 [1:31:48<24:32,  2.01it/s] 72%|███████▏  | 7759/10712 [1:31:49<24:30,  2.01it/s] 72%|███████▏  | 7760/10712 [1:31:49<24:27,  2.01it/s] 72%|███████▏  | 7761/10712 [1:31:50<24:28,  2.01it/s] 72%|███████▏  | 7762/10712 [1:31:50<24:27,  2.01it/s] 72%|███████▏  | 7763/10712 [1:31:51<24:25,  2.01it/s] 72%|███████▏  | 7764/10712 [1:31:51<24:23,  2.01it/s] 72%|███████▏  | 7765/10712 [1:31:52<24:24,  2.01it/s] 72%|███████▏  | 7766/10712 [1:31:52<24:25,  2.01it/s] 73%|███████▎  | 7767/10712 [1:31:53<24:22,  2.01it/s] 73%|███████▎  | 7768/10712 [1:31:53<24:46,  1.98it/s] 73%|███████▎  | 7769/10712 [1:31:54<25:09,  1.95it/s] 73%|███████▎  | 7770/10712 [1:31:55<25:53,  1.89it/s] 73%|███████▎  | 7771/10712 [1:31:55<25:28,  1.92it/s] 73%|███��███▎  | 7772/10712 [1:31:56<25:10,  1.95it/s] 73%|███████▎  | 7773/10712 [1:31:56<24:57,  1.96it/s] 73%|███████▎  | 7774/10712 [1:31:57<24:49,  1.97it/s] 73%|███████▎  | 7775/10712 [1:31:57<24:42,  1.98it/s]                                                      {'loss': 3.7177, 'grad_norm': 0.20968638360500336, 'learning_rate': 0.00021207092572027864, 'epoch': 0.73}
+ 73%|███████▎  | 7775/10712 [1:31:57<24:42,  1.98it/s] 73%|███████▎  | 7776/10712 [1:31:58<24:37,  1.99it/s] 73%|███████▎  | 7777/10712 [1:31:58<24:32,  1.99it/s] 73%|███████▎  | 7778/10712 [1:31:59<24:29,  2.00it/s] 73%|███████▎  | 7779/10712 [1:31:59<24:24,  2.00it/s] 73%|███████▎  | 7780/10712 [1:32:00<24:25,  2.00it/s] 73%|███████▎  | 7781/10712 [1:32:00<24:25,  2.00it/s] 73%|███████▎  | 7782/10712 [1:32:01<24:25,  2.00it/s] 73%|███████▎  | 7783/10712 [1:32:01<24:22,  2.00it/s] 73%|███████▎  | 7784/10712 [1:32:02<24:21,  2.00it/s] 73%|███████▎  | 7785/10712 [1:32:02<24:21,  2.00it/s] 73%|███████▎  | 7786/10712 [1:32:03<24:19,  2.00it/s] 73%|███████▎  | 7787/10712 [1:32:03<24:20,  2.00it/s] 73%|███████▎  | 7788/10712 [1:32:04<24:19,  2.00it/s] 73%|███████▎  | 7789/10712 [1:32:04<24:19,  2.00it/s] 73%|███████▎  | 7790/10712 [1:32:05<24:18,  2.00it/s] 73%|███████▎  | 7791/10712 [1:32:05<24:17,  2.00it/s] 73%|███████▎  | 7792/10712 [1:32:06<24:18,  2.00it/s] 73%|███████▎  | 7793/10712 [1:32:06<24:16,  2.00it/s] 73%|███████▎  | 7794/10712 [1:32:07<24:15,  2.00it/s] 73%|███████▎  | 7795/10712 [1:32:07<24:14,  2.01it/s] 73%|███████▎  | 7796/10712 [1:32:08<24:14,  2.01it/s] 73%|███████▎  | 7797/10712 [1:32:08<24:13,  2.01it/s] 73%|███████▎  | 7798/10712 [1:32:09<24:13,  2.00it/s] 73%|███████▎  | 7799/10712 [1:32:09<24:12,  2.01it/s] 73%|███████▎  | 7800/10712 [1:32:10<24:11,  2.01it/s]                                                      {'loss': 3.7172, 'grad_norm': 0.21512188017368317, 'learning_rate': 0.00020875011418571983, 'epoch': 0.73}
+ 73%|███████▎  | 7800/10712 [1:32:10<24:11,  2.01it/s] 73%|███████▎  | 7801/10712 [1:32:10<24:12,  2.00it/s] 73%|███████▎  | 7802/10712 [1:32:11<24:11,  2.00it/s] 73%|███████▎  | 7803/10712 [1:32:11<24:09,  2.01it/s] 73%|███████▎  | 7804/10712 [1:32:12<24:10,  2.00it/s] 73%|███████▎  | 7805/10712 [1:32:12<24:08,  2.01it/s] 73%|███████▎  | 7806/10712 [1:32:13<24:08,  2.01it/s] 73%|███████▎  | 7807/10712 [1:32:13<24:10,  2.00it/s] 73%|███████▎  | 7808/10712 [1:32:14<24:10,  2.00it/s] 73%|███████▎  | 7809/10712 [1:32:14<24:10,  2.00it/s] 73%|███████▎  | 7810/10712 [1:32:15<24:10,  2.00it/s] 73%|███████▎  | 7811/10712 [1:32:15<24:08,  2.00it/s] 73%|███████▎  | 7812/10712 [1:32:16<24:09,  2.00it/s] 73%|███████▎  | 7813/10712 [1:32:16<24:07,  2.00it/s] 73%|███████▎  | 7814/10712 [1:32:17<24:08,  2.00it/s] 73%|███████▎  | 7815/10712 [1:32:17<24:33,  1.97it/s] 73%|███████▎  | 7816/10712 [1:32:18<25:39,  1.88it/s] 73%|███████▎  | 7817/10712 [1:32:18<26:19,  1.83it/s] 73%|███████▎  | 7818/10712 [1:32:19<25:39,  1.88it/s] 73%|███████▎  | 7819/10712 [1:32:19<25:11,  1.91it/s] 73%|███████▎  | 7820/10712 [1:32:20<24:50,  1.94it/s] 73%|███████▎  | 7821/10712 [1:32:20<24:39,  1.95it/s] 73%|███████▎  | 7822/10712 [1:32:21<24:30,  1.96it/s] 73%|███████▎  | 7823/10712 [1:32:21<24:25,  1.97it/s] 73%|███████▎  | 7824/10712 [1:32:22<24:18,  1.98it/s] 73%|███████▎  | 7825/10712 [1:32:22<24:12,  1.99it/s]                                                      {'loss': 3.7159, 'grad_norm': 0.21577095985412598, 'learning_rate': 0.00020544863519734647, 'epoch': 0.73}
+ 73%|███████▎  | 7825/10712 [1:32:22<24:12,  1.99it/s] 73%|███████▎  | 7826/10712 [1:32:23<24:10,  1.99it/s] 73%|███████▎  | 7827/10712 [1:32:23<24:07,  1.99it/s] 73%|███████▎  | 7828/10712 [1:32:24<24:06,  1.99it/s] 73%|███████▎  | 7829/10712 [1:32:24<24:03,  2.00it/s] 73%|███████▎  | 7830/10712 [1:32:25<24:01,  2.00it/s] 73%|███████▎  | 7831/10712 [1:32:25<24:01,  2.00it/s] 73%|███████▎  | 7832/10712 [1:32:26<24:03,  1.99it/s] 73%|███████▎  | 7833/10712 [1:32:26<24:03,  1.99it/s] 73%|███████▎  | 7834/10712 [1:32:27<24:01,  2.00it/s] 73%|███████▎  | 7835/10712 [1:32:27<24:03,  1.99it/s] 73%|███████▎  | 7836/10712 [1:32:28<24:03,  1.99it/s] 73%|███████▎  | 7837/10712 [1:32:28<23:59,  2.00it/s] 73%|███████▎  | 7838/10712 [1:32:29<24:00,  2.00it/s] 73%|███████▎  | 7839/10712 [1:32:29<23:59,  2.00it/s] 73%|███████▎  | 7840/10712 [1:32:30<23:59,  1.99it/s] 73%|███████▎  | 7841/10712 [1:32:30<23:57,  2.00it/s] 73%|███████▎  | 7842/10712 [1:32:31<23:54,  2.00it/s] 73%|███████▎  | 7843/10712 [1:32:31<23:53,  2.00it/s] 73%|███████▎  | 7844/10712 [1:32:32<23:52,  2.00it/s] 73%|███████▎  | 7845/10712 [1:32:32<23:52,  2.00it/s] 73%|███████▎  | 7846/10712 [1:32:33<23:53,  2.00it/s] 73%|███████▎  | 7847/10712 [1:32:33<23:55,  2.00it/s] 73%|███████▎  | 7848/10712 [1:32:34<23:53,  2.00it/s] 73%|███████▎  | 7849/10712 [1:32:34<23:51,  2.00it/s] 73%|███████▎  | 7850/10712 [1:32:35<23:50,  2.00it/s]                                                      {'loss': 3.7165, 'grad_norm': 0.1993643343448639, 'learning_rate': 0.000202166707900292, 'epoch': 0.73}
+ 73%|███████▎  | 7850/10712 [1:32:35<23:50,  2.00it/s] 73%|███████▎  | 7851/10712 [1:32:35<23:51,  2.00it/s] 73%|███████▎  | 7852/10712 [1:32:36<23:49,  2.00it/s] 73%|███████▎  | 7853/10712 [1:32:36<23:47,  2.00it/s] 73%|███████▎  | 7854/10712 [1:32:37<23:45,  2.00it/s] 73%|███████▎  | 7855/10712 [1:32:37<23:46,  2.00it/s] 73%|███████▎  | 7856/10712 [1:32:38<23:44,  2.01it/s] 73%|███████▎  | 7857/10712 [1:32:38<23:42,  2.01it/s] 73%|███████▎  | 7858/10712 [1:32:39<23:40,  2.01it/s] 73%|███████▎  | 7859/10712 [1:32:39<23:40,  2.01it/s] 73%|███████▎  | 7860/10712 [1:32:40<23:39,  2.01it/s] 73%|███████▎  | 7861/10712 [1:32:40<23:39,  2.01it/s] 73%|███████▎  | 7862/10712 [1:32:41<23:39,  2.01it/s] 73%|███████▎  | 7863/10712 [1:32:41<23:37,  2.01it/s] 73%|███████▎  | 7864/10712 [1:32:42<23:35,  2.01it/s] 73%|███████▎  | 7865/10712 [1:32:42<23:35,  2.01it/s] 73%|███████▎  | 7866/10712 [1:32:43<23:33,  2.01it/s] 73%|███████▎  | 7867/10712 [1:32:43<23:32,  2.01it/s] 73%|███████▎  | 7868/10712 [1:32:44<23:32,  2.01it/s] 73%|███████▎  | 7869/10712 [1:32:44<23:32,  2.01it/s] 73%|███████▎  | 7870/10712 [1:32:45<23:31,  2.01it/s] 73%|███████▎  | 7871/10712 [1:32:45<23:30,  2.01it/s] 73%|███████▎  | 7872/10712 [1:32:46<23:29,  2.01it/s] 73%|███████▎  | 7873/10712 [1:32:46<23:30,  2.01it/s] 74%|███████▎  | 7874/10712 [1:32:47<23:28,  2.01it/s] 74%|███████▎  | 7875/10712 [1:32:47<23:30,  2.01it/s]                                                      {'loss': 3.7129, 'grad_norm': 0.19936247169971466, 'learning_rate': 0.0001989045501418899, 'epoch': 0.74}
+ 74%|███████▎  | 7875/10712 [1:32:47<23:30,  2.01it/s] 74%|███████▎  | 7876/10712 [1:32:48<23:29,  2.01it/s] 74%|███████▎  | 7877/10712 [1:32:48<23:27,  2.01it/s] 74%|███████▎  | 7878/10712 [1:32:49<23:25,  2.02it/s] 74%|███████▎  | 7879/10712 [1:32:49<23:28,  2.01it/s] 74%|███████▎  | 7880/10712 [1:32:50<23:27,  2.01it/s] 74%|███████▎  | 7881/10712 [1:32:50<23:27,  2.01it/s] 74%|███████▎  | 7882/10712 [1:32:51<23:25,  2.01it/s] 74%|███████▎  | 7883/10712 [1:32:51<23:25,  2.01it/s] 74%|███████▎  | 7884/10712 [1:32:52<23:23,  2.02it/s] 74%|███████▎  | 7885/10712 [1:32:52<23:23,  2.01it/s] 74%|███████▎  | 7886/10712 [1:32:53<23:24,  2.01it/s] 74%|███████▎  | 7887/10712 [1:32:53<23:26,  2.01it/s] 74%|███████▎  | 7888/10712 [1:32:54<23:28,  2.01it/s] 74%|███████▎  | 7889/10712 [1:32:54<23:28,  2.00it/s] 74%|███████▎  | 7890/10712 [1:32:55<23:27,  2.01it/s] 74%|███████▎  | 7891/10712 [1:32:55<23:29,  2.00it/s] 74%|███████▎  | 7892/10712 [1:32:56<23:27,  2.00it/s] 74%|███████▎  | 7893/10712 [1:32:56<23:26,  2.00it/s] 74%|███████▎  | 7894/10712 [1:32:57<23:26,  2.00it/s] 74%|███████▎  | 7895/10712 [1:32:57<23:28,  2.00it/s] 74%|███████▎  | 7896/10712 [1:32:58<23:28,  2.00it/s] 74%|███████▎  | 7897/10712 [1:32:58<23:26,  2.00it/s] 74%|███████▎  | 7898/10712 [1:32:59<23:26,  2.00it/s] 74%|███████▎  | 7899/10712 [1:32:59<23:24,  2.00it/s] 74%|███████▎  | 7900/10712 [1:33:00<23:25,  2.00it/s]                                                      {'loss': 3.7127, 'grad_norm': 0.20587675273418427, 'learning_rate': 0.00019566237845721407, 'epoch': 0.74}
+ 74%|███████▎  | 7900/10712 [1:33:00<23:25,  2.00it/s] 74%|███████▍  | 7901/10712 [1:33:00<23:31,  1.99it/s] 74%|███████▍  | 7902/10712 [1:33:01<23:28,  1.99it/s] 74%|███████▍  | 7903/10712 [1:33:01<23:25,  2.00it/s] 74%|███████▍  | 7904/10712 [1:33:02<23:24,  2.00it/s] 74%|███████▍  | 7905/10712 [1:33:02<23:23,  2.00it/s] 74%|███████▍  | 7906/10712 [1:33:03<23:23,  2.00it/s] 74%|███████▍  | 7907/10712 [1:33:03<23:22,  2.00it/s] 74%|███████▍  | 7908/10712 [1:33:04<23:22,  2.00it/s] 74%|███████▍  | 7909/10712 [1:33:04<23:20,  2.00it/s] 74%|███████▍  | 7910/10712 [1:33:05<23:20,  2.00it/s] 74%|███████▍  | 7911/10712 [1:33:05<23:19,  2.00it/s] 74%|███████▍  | 7912/10712 [1:33:06<23:21,  2.00it/s] 74%|███████▍  | 7913/10712 [1:33:06<23:22,  2.00it/s] 74%|███████▍  | 7914/10712 [1:33:07<23:20,  2.00it/s] 74%|███████▍  | 7915/10712 [1:33:07<23:17,  2.00it/s] 74%|███████▍  | 7916/10712 [1:33:08<23:16,  2.00it/s] 74%|███████▍  | 7917/10712 [1:33:08<23:18,  2.00it/s] 74%|███████▍  | 7918/10712 [1:33:09<23:15,  2.00it/s] 74%|███████▍  | 7919/10712 [1:33:09<23:13,  2.00it/s] 74%|███████▍  | 7920/10712 [1:33:10<23:12,  2.01it/s] 74%|███████▍  | 7921/10712 [1:33:10<23:11,  2.01it/s] 74%|███████▍  | 7922/10712 [1:33:11<23:10,  2.01it/s] 74%|███████▍  | 7923/10712 [1:33:11<23:10,  2.01it/s] 74%|███████▍  | 7924/10712 [1:33:12<23:10,  2.01it/s] 74%|███████▍  | 7925/10712 [1:33:12<23:08,  2.01it/s]                                                      {'loss': 3.7083, 'grad_norm': 0.21518193185329437, 'learning_rate': 0.00019244040805470552, 'epoch': 0.74}
+ 74%|███████▍  | 7925/10712 [1:33:12<23:08,  2.01it/s] 74%|███████▍  | 7926/10712 [1:33:13<23:09,  2.01it/s] 74%|███████▍  | 7927/10712 [1:33:13<23:08,  2.01it/s] 74%|███████▍  | 7928/10712 [1:33:14<23:07,  2.01it/s] 74%|███████▍  | 7929/10712 [1:33:14<23:07,  2.01it/s] 74%|███████▍  | 7930/10712 [1:33:15<23:05,  2.01it/s] 74%|███████▍  | 7931/10712 [1:33:15<23:07,  2.00it/s] 74%|███████▍  | 7932/10712 [1:33:16<23:04,  2.01it/s] 74%|███████▍  | 7933/10712 [1:33:16<23:04,  2.01it/s] 74%|███████▍  | 7934/10712 [1:33:17<23:05,  2.00it/s] 74%|███████▍  | 7935/10712 [1:33:17<23:04,  2.01it/s] 74%|███████▍  | 7936/10712 [1:33:18<23:01,  2.01it/s] 74%|███████▍  | 7937/10712 [1:33:18<23:00,  2.01it/s] 74%|███████▍  | 7938/10712 [1:33:19<23:01,  2.01it/s] 74%|███████▍  | 7939/10712 [1:33:19<22:59,  2.01it/s] 74%|███████▍  | 7940/10712 [1:33:20<22:59,  2.01it/s] 74%|███████▍  | 7941/10712 [1:33:20<22:56,  2.01it/s] 74%|███████▍  | 7942/10712 [1:33:21<22:56,  2.01it/s] 74%|███████▍  | 7943/10712 [1:33:21<22:54,  2.01it/s] 74%|███████▍  | 7944/10712 [1:33:22<22:53,  2.01it/s] 74%|███████▍  | 7945/10712 [1:33:22<22:53,  2.01it/s] 74%|███████▍  | 7946/10712 [1:33:23<22:51,  2.02it/s] 74%|███████▍  | 7947/10712 [1:33:23<22:51,  2.02it/s] 74%|███████▍  | 7948/10712 [1:33:24<22:51,  2.02it/s] 74%|███████▍  | 7949/10712 [1:33:24<22:52,  2.01it/s] 74%|███████▍  | 7950/10712 [1:33:25<22:55,  2.01it/s]                                                      {'loss': 3.7142, 'grad_norm': 0.2125559151172638, 'learning_rate': 0.0001892388528018869, 'epoch': 0.74}
+ 74%|███████▍  | 7950/10712 [1:33:25<22:55,  2.01it/s] 74%|███████▍  | 7951/10712 [1:33:25<22:59,  2.00it/s] 74%|███████▍  | 7952/10712 [1:33:26<22:58,  2.00it/s] 74%|███████▍  | 7953/10712 [1:33:26<22:57,  2.00it/s] 74%|███████▍  | 7954/10712 [1:33:27<22:55,  2.00it/s] 74%|███████▍  | 7955/10712 [1:33:27<22:55,  2.00it/s] 74%|███████▍  | 7956/10712 [1:33:28<22:52,  2.01it/s] 74%|███████▍  | 7957/10712 [1:33:28<22:52,  2.01it/s] 74%|███████▍  | 7958/10712 [1:33:29<22:52,  2.01it/s] 74%|███████▍  | 7959/10712 [1:33:29<22:53,  2.00it/s] 74%|███████▍  | 7960/10712 [1:33:30<22:54,  2.00it/s] 74%|███████▍  | 7961/10712 [1:33:30<22:53,  2.00it/s] 74%|██���████▍  | 7962/10712 [1:33:31<22:54,  2.00it/s] 74%|███████▍  | 7963/10712 [1:33:31<22:54,  2.00it/s] 74%|███████▍  | 7964/10712 [1:33:32<22:51,  2.00it/s] 74%|███████▍  | 7965/10712 [1:33:32<22:51,  2.00it/s] 74%|███████▍  | 7966/10712 [1:33:33<22:59,  1.99it/s] 74%|███████▍  | 7967/10712 [1:33:33<22:56,  1.99it/s] 74%|███████▍  | 7968/10712 [1:33:34<22:53,  2.00it/s] 74%|███████▍  | 7969/10712 [1:33:34<22:52,  2.00it/s] 74%|███████▍  | 7970/10712 [1:33:35<22:51,  2.00it/s] 74%|███████▍  | 7971/10712 [1:33:35<22:49,  2.00it/s] 74%|███████▍  | 7972/10712 [1:33:36<22:47,  2.00it/s] 74%|███████▍  | 7973/10712 [1:33:36<22:44,  2.01it/s] 74%|███████▍  | 7974/10712 [1:33:37<22:44,  2.01it/s] 74%|███████▍  | 7975/10712 [1:33:37<22:45,  2.00it/s]                                                      {'loss': 3.7135, 'grad_norm': 0.1997227966785431, 'learning_rate': 0.00018605792521116728, 'epoch': 0.74}
+ 74%|███████▍  | 7975/10712 [1:33:37<22:45,  2.00it/s] 74%|███████▍  | 7976/10712 [1:33:38<22:47,  2.00it/s] 74%|███████▍  | 7977/10712 [1:33:38<22:46,  2.00it/s] 74%|███████▍  | 7978/10712 [1:33:39<22:47,  2.00it/s] 74%|███████▍  | 7979/10712 [1:33:39<22:58,  1.98it/s] 74%|███████▍  | 7980/10712 [1:33:40<22:53,  1.99it/s] 75%|███████▍  | 7981/10712 [1:33:40<22:50,  1.99it/s] 75%|███████▍  | 7982/10712 [1:33:41<22:47,  2.00it/s] 75%|███████▍  | 7983/10712 [1:33:41<22:44,  2.00it/s] 75%|███████▍  | 7984/10712 [1:33:42<22:42,  2.00it/s] 75%|███████▍  | 7985/10712 [1:33:42<22:42,  2.00it/s] 75%|███████▍  | 7986/10712 [1:33:43<22:38,  2.01it/s] 75%|███████▍  | 7987/10712 [1:33:43<22:39,  2.00it/s] 75%|███████▍  | 7988/10712 [1:33:44<22:39,  2.00it/s] 75%|███████▍  | 7989/10712 [1:33:44<22:38,  2.00it/s] 75%|███████▍  | 7990/10712 [1:33:45<22:38,  2.00it/s] 75%|███████▍  | 7991/10712 [1:33:45<22:37,  2.00it/s] 75%|███████▍  | 7992/10712 [1:33:46<22:36,  2.00it/s] 75%|███████▍  | 7993/10712 [1:33:46<22:34,  2.01it/s] 75%|███████▍  | 7994/10712 [1:33:47<22:34,  2.01it/s] 75%|███████▍  | 7995/10712 [1:33:47<22:35,  2.00it/s] 75%|███████▍  | 7996/10712 [1:33:48<22:33,  2.01it/s] 75%|███████▍  | 7997/10712 [1:33:48<22:32,  2.01it/s] 75%|███████▍  | 7998/10712 [1:33:49<22:31,  2.01it/s] 75%|███████▍  | 7999/10712 [1:33:49<22:32,  2.01it/s] 75%|███████▍  | 8000/10712 [1:33:50<22:32,  2.01it/s]                                                      {'loss': 3.7103, 'grad_norm': 0.28065919876098633, 'learning_rate': 0.0001828978364257349, 'epoch': 0.75}
+ 75%|███████▍  | 8000/10712 [1:33:50<22:32,  2.01it/s] 75%|███████▍  | 8001/10712 [1:33:50<22:32,  2.00it/s] 75%|███████▍  | 8002/10712 [1:33:51<22:31,  2.00it/s] 75%|███████▍  | 8003/10712 [1:33:51<22:43,  1.99it/s] 75%|███████▍  | 8004/10712 [1:33:52<22:37,  1.99it/s] 75%|███████▍  | 8005/10712 [1:33:52<22:37,  1.99it/s] 75%|███████▍  | 8006/10712 [1:33:53<22:35,  2.00it/s] 75%|███████▍  | 8007/10712 [1:33:53<22:33,  2.00it/s] 75%|███████▍  | 8008/10712 [1:33:54<22:30,  2.00it/s] 75%|███████▍  | 8009/10712 [1:33:54<22:28,  2.00it/s] 75%|███████▍  | 8010/10712 [1:33:55<22:27,  2.01it/s] 75%|███████▍  | 8011/10712 [1:33:55<22:26,  2.01it/s] 75%|███████▍  | 8012/10712 [1:33:56<22:25,  2.01it/s] 75%|███████▍  | 8013/10712 [1:33:56<22:23,  2.01it/s] 75%|███████▍  | 8014/10712 [1:33:57<22:22,  2.01it/s] 75%|███████▍  | 8015/10712 [1:33:57<22:23,  2.01it/s] 75%|███████▍  | 8016/10712 [1:33:58<22:23,  2.01it/s] 75%|███████▍  | 8017/10712 [1:33:58<22:26,  2.00it/s] 75%|███████▍  | 8018/10712 [1:33:59<22:26,  2.00it/s] 75%|███████▍  | 8019/10712 [1:33:59<22:25,  2.00it/s] 75%|███████▍  | 8020/10712 [1:34:00<22:23,  2.00it/s] 75%|███████▍  | 8021/10712 [1:34:00<22:22,  2.00it/s] 75%|███████▍  | 8022/10712 [1:34:01<22:23,  2.00it/s] 75%|███████▍  | 8023/10712 [1:34:01<22:22,  2.00it/s] 75%|███████▍  | 8024/10712 [1:34:02<22:21,  2.00it/s] 75%|███████▍  | 8025/10712 [1:34:02<22:19,  2.01it/s]                                                      {'loss': 3.7057, 'grad_norm': 0.22211341559886932, 'learning_rate': 0.0001797587962055431, 'epoch': 0.75}
+ 75%|███████▍  | 8025/10712 [1:34:02<22:19,  2.01it/s] 75%|███████▍  | 8026/10712 [1:34:03<22:23,  2.00it/s] 75%|███████▍  | 8027/10712 [1:34:03<22:21,  2.00it/s] 75%|███████▍  | 8028/10712 [1:34:04<22:47,  1.96it/s] 75%|███████▍  | 8029/10712 [1:34:04<22:39,  1.97it/s] 75%|███████▍  | 8030/10712 [1:34:05<22:32,  1.98it/s] 75%|███████▍  | 8031/10712 [1:34:05<22:27,  1.99it/s] 75%|███████▍  | 8032/10712 [1:34:06<22:24,  1.99it/s] 75%|███████▍  | 8033/10712 [1:34:06<22:21,  2.00it/s] 75%|███████▌  | 8034/10712 [1:34:07<22:19,  2.00it/s] 75%|███████▌  | 8035/10712 [1:34:07<22:16,  2.00it/s] 75%|███████▌  | 8036/10712 [1:34:08<22:15,  2.00it/s] 75%|███████▌  | 8037/10712 [1:34:08<22:17,  2.00it/s] 75%|███████▌  | 8038/10712 [1:34:09<22:21,  1.99it/s] 75%|███████▌  | 8039/10712 [1:34:09<22:18,  2.00it/s] 75%|███████▌  | 8040/10712 [1:34:10<22:15,  2.00it/s] 75%|███████▌  | 8041/10712 [1:34:10<22:17,  2.00it/s] 75%|███████▌  | 8042/10712 [1:34:11<22:14,  2.00it/s] 75%|███████▌  | 8043/10712 [1:34:11<22:16,  2.00it/s] 75%|███████▌  | 8044/10712 [1:34:12<22:15,  2.00it/s] 75%|███████▌  | 8045/10712 [1:34:12<22:12,  2.00it/s] 75%|███████▌  | 8046/10712 [1:34:13<22:13,  2.00it/s] 75%|███████▌  | 8047/10712 [1:34:13<22:11,  2.00it/s] 75%|███████▌  | 8048/10712 [1:34:14<22:10,  2.00it/s] 75%|███████▌  | 8049/10712 [1:34:14<22:10,  2.00it/s] 75%|███████▌  | 8050/10712 [1:34:15<22:09,  2.00it/s]                                                      {'loss': 3.7097, 'grad_norm': 0.20488256216049194, 'learning_rate': 0.00017664101291338597, 'epoch': 0.75}
+ 75%|███████▌  | 8050/10712 [1:34:15<22:09,  2.00it/s] 75%|███████▌  | 8051/10712 [1:34:15<22:09,  2.00it/s] 75%|███████▌  | 8052/10712 [1:34:16<22:07,  2.00it/s] 75%|███████▌  | 8053/10712 [1:34:16<22:06,  2.00it/s] 75%|███████▌  | 8054/10712 [1:34:17<22:08,  2.00it/s] 75%|███████▌  | 8055/10712 [1:34:17<22:07,  2.00it/s] 75%|███████▌  | 8056/10712 [1:34:18<22:09,  2.00it/s] 75%|███████▌  | 8057/10712 [1:34:18<22:08,  2.00it/s] 75%|███████▌  | 8058/10712 [1:34:19<22:05,  2.00it/s] 75%|███████▌  | 8059/10712 [1:34:19<22:03,  2.00it/s] 75%|███████▌  | 8060/10712 [1:34:20<22:05,  2.00it/s] 75%|███████▌  | 8061/10712 [1:34:20<22:04,  2.00it/s] 75%|███████▌  | 8062/10712 [1:34:21<22:04,  2.00it/s] 75%|███████▌  | 8063/10712 [1:34:21<22:03,  2.00it/s] 75%|███████▌  | 8064/10712 [1:34:22<22:02,  2.00it/s] 75%|███████▌  | 8065/10712 [1:34:22<22:02,  2.00it/s] 75%|███████▌  | 8066/10712 [1:34:23<22:01,  2.00it/s] 75%|███████▌  | 8067/10712 [1:34:23<21:58,  2.01it/s] 75%|███████▌  | 8068/10712 [1:34:24<21:58,  2.00it/s] 75%|███████▌  | 8069/10712 [1:34:24<21:57,  2.01it/s] 75%|███████▌  | 8070/10712 [1:34:25<21:57,  2.01it/s] 75%|███████▌  | 8071/10712 [1:34:25<21:55,  2.01it/s] 75%|███████▌  | 8072/10712 [1:34:26<21:54,  2.01it/s] 75%|███████▌  | 8073/10712 [1:34:26<21:52,  2.01it/s] 75%|███████▌  | 8074/10712 [1:34:27<21:52,  2.01it/s] 75%|███████▌  | 8075/10712 [1:34:27<21:53,  2.01it/s]                                                      {'loss': 3.7045, 'grad_norm': 0.2008345127105713, 'learning_rate': 0.00017354469350106845, 'epoch': 0.75}
+ 75%|███████▌  | 8075/10712 [1:34:27<21:53,  2.01it/s] 75%|███████▌  | 8076/10712 [1:34:28<21:56,  2.00it/s] 75%|███████▌  | 8077/10712 [1:34:28<21:56,  2.00it/s] 75%|███████▌  | 8078/10712 [1:34:29<21:54,  2.00it/s] 75%|███████▌  | 8079/10712 [1:34:29<21:54,  2.00it/s] 75%|███████▌  | 8080/10712 [1:34:30<21:51,  2.01it/s] 75%|███████▌  | 8081/10712 [1:34:30<21:49,  2.01it/s] 75%|███████▌  | 8082/10712 [1:34:31<21:50,  2.01it/s] 75%|███████▌  | 8083/10712 [1:34:31<21:47,  2.01it/s] 75%|███████▌  | 8084/10712 [1:34:32<21:47,  2.01it/s] 75%|███████▌  | 8085/10712 [1:34:32<21:46,  2.01it/s] 75%|███████▌  | 8086/10712 [1:34:32<21:43,  2.01it/s] 75%|███████▌  | 8087/10712 [1:34:33<21:44,  2.01it/s] 76%|███████▌  | 8088/10712 [1:34:33<21:42,  2.02it/s] 76%|███████▌  | 8089/10712 [1:34:34<21:41,  2.02it/s] 76%|███████▌  | 8090/10712 [1:34:34<21:41,  2.01it/s] 76%|███████▌  | 8091/10712 [1:34:35<21:41,  2.01it/s] 76%|███████▌  | 8092/10712 [1:34:35<21:41,  2.01it/s] 76%|███████▌  | 8093/10712 [1:34:36<21:39,  2.02it/s] 76%|███████▌  | 8094/10712 [1:34:36<21:39,  2.01it/s] 76%|███████▌  | 8095/10712 [1:34:37<21:42,  2.01it/s] 76%|███████▌  | 8096/10712 [1:34:37<21:43,  2.01it/s] 76%|███████▌  | 8097/10712 [1:34:38<21:41,  2.01it/s] 76%|███████▌  | 8098/10712 [1:34:38<21:41,  2.01it/s] 76%|███████▌  | 8099/10712 [1:34:39<21:41,  2.01it/s] 76%|███████▌  | 8100/10712 [1:34:39<21:39,  2.01it/s]                                                      {'loss': 3.7051, 'grad_norm': 0.2025621086359024, 'learning_rate': 0.00017047004349566842, 'epoch': 0.76}
+ 76%|███████▌  | 8100/10712 [1:34:39<21:39,  2.01it/s] 76%|███████▌  | 8101/10712 [1:34:40<21:40,  2.01it/s] 76%|███████▌  | 8102/10712 [1:34:40<21:39,  2.01it/s] 76%|███████▌  | 8103/10712 [1:34:41<21:38,  2.01it/s] 76%|███████▌  | 8104/10712 [1:34:41<21:37,  2.01it/s] 76%|███████▌  | 8105/10712 [1:34:42<21:35,  2.01it/s] 76%|███████▌  | 8106/10712 [1:34:42<21:35,  2.01it/s] 76%|███████▌  | 8107/10712 [1:34:43<21:34,  2.01it/s] 76%|███████▌  | 8108/10712 [1:34:43<21:32,  2.01it/s] 76%|███████▌  | 8109/10712 [1:34:44<21:32,  2.01it/s] 76%|███████▌  | 8110/10712 [1:34:44<21:30,  2.02it/s] 76%|███████▌  | 8111/10712 [1:34:45<21:31,  2.01it/s] 76%|███████▌  | 8112/10712 [1:34:45<21:30,  2.01it/s] 76%|███████▌  | 8113/10712 [1:34:46<21:29,  2.02it/s] 76%|███████▌  | 8114/10712 [1:34:46<21:28,  2.02it/s] 76%|███████▌  | 8115/10712 [1:34:47<21:28,  2.01it/s] 76%|███████▌  | 8116/10712 [1:34:47<21:27,  2.02it/s] 76%|███████▌  | 8117/10712 [1:34:48<21:29,  2.01it/s] 76%|███████▌  | 8118/10712 [1:34:48<21:31,  2.01it/s] 76%|███████▌  | 8119/10712 [1:34:49<21:31,  2.01it/s] 76%|███████▌  | 8120/10712 [1:34:49<21:31,  2.01it/s] 76%|███████▌  | 8121/10712 [1:34:50<21:30,  2.01it/s] 76%|███████▌  | 8122/10712 [1:34:50<21:32,  2.00it/s] 76%|███████▌  | 8123/10712 [1:34:51<21:30,  2.01it/s] 76%|███████▌  | 8124/10712 [1:34:51<21:29,  2.01it/s] 76%|███████▌  | 8125/10712 [1:34:52<21:28,  2.01it/s]                                                      {'loss': 3.7007, 'grad_norm': 0.2042194902896881, 'learning_rate': 0.00016741726698589533, 'epoch': 0.76}
+ 76%|███████▌  | 8125/10712 [1:34:52<21:28,  2.01it/s] 76%|███████▌  | 8126/10712 [1:34:52<21:32,  2.00it/s] 76%|███████▌  | 8127/10712 [1:34:53<21:31,  2.00it/s] 76%|███████▌  | 8128/10712 [1:34:53<21:29,  2.00it/s] 76%|███████▌  | 8129/10712 [1:34:54<21:29,  2.00it/s] 76%|███████▌  | 8130/10712 [1:34:54<21:28,  2.00it/s] 76%|███████▌  | 8131/10712 [1:34:55<21:28,  2.00it/s] 76%|███████▌  | 8132/10712 [1:34:55<21:27,  2.00it/s] 76%|███████▌  | 8133/10712 [1:34:56<21:26,  2.00it/s] 76%|███████▌  | 8134/10712 [1:34:56<21:27,  2.00it/s] 76%|███████▌  | 8135/10712 [1:34:57<21:30,  2.00it/s] 76%|███████▌  | 8136/10712 [1:34:57<21:30,  2.00it/s] 76%|███████▌  | 8137/10712 [1:34:58<21:30,  1.99it/s] 76%|███████▌  | 8138/10712 [1:34:58<21:29,  2.00it/s] 76%|███████▌  | 8139/10712 [1:34:59<21:28,  2.00it/s] 76%|███████▌  | 8140/10712 [1:34:59<21:29,  1.99it/s] 76%|███████▌  | 8141/10712 [1:35:00<21:28,  2.00it/s] 76%|███████▌  | 8142/10712 [1:35:00<21:26,  2.00it/s] 76%|███████▌  | 8143/10712 [1:35:01<21:23,  2.00it/s] 76%|███████▌  | 8144/10712 [1:35:01<21:24,  2.00it/s] 76%|███████▌  | 8145/10712 [1:35:02<21:23,  2.00it/s] 76%|███████▌  | 8146/10712 [1:35:02<21:23,  2.00it/s] 76%|███████▌  | 8147/10712 [1:35:03<21:24,  2.00it/s] 76%|███████▌  | 8148/10712 [1:35:03<21:22,  2.00it/s] 76%|███████▌  | 8149/10712 [1:35:04<21:22,  2.00it/s] 76%|███████▌  | 8150/10712 [1:35:04<21:33,  1.98it/s]                                                      {'loss': 3.7039, 'grad_norm': 0.1996219903230667, 'learning_rate': 0.00016438656660854202, 'epoch': 0.76}
+ 76%|███████▌  | 8150/10712 [1:35:04<21:33,  1.98it/s] 76%|███████▌  | 8151/10712 [1:35:05<21:45,  1.96it/s] 76%|█���█████▌  | 8152/10712 [1:35:05<21:36,  1.97it/s] 76%|███████▌  | 8153/10712 [1:35:06<21:30,  1.98it/s] 76%|███████▌  | 8154/10712 [1:35:06<21:27,  1.99it/s] 76%|███████▌  | 8155/10712 [1:35:07<21:22,  1.99it/s] 76%|███████▌  | 8156/10712 [1:35:07<21:20,  2.00it/s] 76%|███████▌  | 8157/10712 [1:35:08<21:18,  2.00it/s] 76%|███████▌  | 8158/10712 [1:35:08<21:15,  2.00it/s] 76%|███████▌  | 8159/10712 [1:35:09<21:13,  2.00it/s] 76%|███████▌  | 8160/10712 [1:35:09<21:09,  2.01it/s] 76%|███████▌  | 8161/10712 [1:35:10<21:09,  2.01it/s] 76%|███████▌  | 8162/10712 [1:35:10<21:10,  2.01it/s] 76%|███████▌  | 8163/10712 [1:35:11<21:07,  2.01it/s] 76%|███████▌  | 8164/10712 [1:35:11<21:05,  2.01it/s] 76%|███████▌  | 8165/10712 [1:35:12<21:04,  2.01it/s] 76%|███████▌  | 8166/10712 [1:35:12<21:05,  2.01it/s] 76%|███████▌  | 8167/10712 [1:35:13<21:04,  2.01it/s] 76%|███████▋  | 8168/10712 [1:35:13<21:05,  2.01it/s] 76%|███████▋  | 8169/10712 [1:35:14<21:03,  2.01it/s] 76%|███████▋  | 8170/10712 [1:35:14<21:02,  2.01it/s] 76%|███████▋  | 8171/10712 [1:35:15<21:02,  2.01it/s] 76%|███████▋  | 8172/10712 [1:35:15<21:02,  2.01it/s] 76%|███████▋  | 8173/10712 [1:35:16<21:08,  2.00it/s] 76%|███████▋  | 8174/10712 [1:35:16<21:08,  2.00it/s] 76%|███████▋  | 8175/10712 [1:35:17<21:06,  2.00it/s]                                                      {'loss': 3.7042, 'grad_norm': 0.2138223499059677, 'learning_rate': 0.00016137814353503523, 'epoch': 0.76}
+ 76%|███████▋  | 8175/10712 [1:35:17<21:06,  2.00it/s] 76%|███████▋  | 8176/10712 [1:35:17<21:09,  2.00it/s] 76%|███████▋  | 8177/10712 [1:35:18<21:08,  2.00it/s] 76%|███████▋  | 8178/10712 [1:35:18<21:05,  2.00it/s] 76%|███████▋  | 8179/10712 [1:35:19<21:07,  2.00it/s] 76%|███████▋  | 8180/10712 [1:35:19<21:06,  2.00it/s] 76%|███████▋  | 8181/10712 [1:35:20<21:04,  2.00it/s] 76%|███████▋  | 8182/10712 [1:35:20<21:46,  1.94it/s] 76%|███████▋  | 8183/10712 [1:35:21<21:31,  1.96it/s] 76%|███████▋  | 8184/10712 [1:35:21<21:22,  1.97it/s] 76%|███████▋  | 8185/10712 [1:35:22<21:14,  1.98it/s] 76%|███████▋  | 8186/10712 [1:35:22<21:10,  1.99it/s] 76%|███████▋  | 8187/10712 [1:35:23<21:06,  1.99it/s] 76%|███████▋  | 8188/10712 [1:35:23<21:03,  2.00it/s] 76%|███████▋  | 8189/10712 [1:35:24<21:01,  2.00it/s] 76%|███████▋  | 8190/10712 [1:35:24<20:58,  2.00it/s] 76%|███████▋  | 8191/10712 [1:35:25<20:58,  2.00it/s] 76%|███████▋  | 8192/10712 [1:35:25<20:57,  2.00it/s] 76%|███████▋  | 8193/10712 [1:35:26<20:56,  2.00it/s] 76%|███████▋  | 8194/10712 [1:35:26<20:57,  2.00it/s] 77%|███████▋  | 8195/10712 [1:35:27<20:57,  2.00it/s] 77%|███████▋  | 8196/10712 [1:35:27<21:55,  1.91it/s] 77%|███████▋  | 8197/10712 [1:35:28<21:37,  1.94it/s] 77%|███████▋  | 8198/10712 [1:35:29<21:25,  1.96it/s] 77%|███████▋  | 8199/10712 [1:35:29<21:13,  1.97it/s] 77%|███████▋  | 8200/10712 [1:35:29<21:06,  1.98it/s]                                                      {'loss': 3.7058, 'grad_norm': 0.20945192873477936, 'learning_rate': 0.00015839219745808174, 'epoch': 0.77}
+ 77%|███████▋  | 8200/10712 [1:35:29<21:06,  1.98it/s] 77%|███████▋  | 8201/10712 [1:35:30<21:03,  1.99it/s] 77%|███████▋  | 8202/10712 [1:35:30<20:59,  1.99it/s] 77%|███████▋  | 8203/10712 [1:35:31<20:56,  2.00it/s] 77%|███████▋  | 8204/10712 [1:35:31<20:52,  2.00it/s] 77%|███████▋  | 8205/10712 [1:35:32<20:51,  2.00it/s] 77%|███████▋  | 8206/10712 [1:35:32<20:50,  2.00it/s] 77%|███████▋  | 8207/10712 [1:35:33<20:50,  2.00it/s] 77%|███████▋  | 8208/10712 [1:35:33<20:51,  2.00it/s] 77%|███████▋  | 8209/10712 [1:35:34<20:51,  2.00it/s] 77%|███████▋  | 8210/10712 [1:35:34<20:48,  2.00it/s] 77%|███████▋  | 8211/10712 [1:35:35<20:48,  2.00it/s] 77%|███████▋  | 8212/10712 [1:35:35<20:47,  2.00it/s] 77%|███████▋  | 8213/10712 [1:35:36<20:44,  2.01it/s] 77%|███████▋  | 8214/10712 [1:35:36<20:44,  2.01it/s] 77%|███████▋  | 8215/10712 [1:35:37<20:44,  2.01it/s] 77%|███████▋  | 8216/10712 [1:35:37<20:42,  2.01it/s] 77%|███████▋  | 8217/10712 [1:35:38<24:26,  1.70it/s] 77%|███████▋  | 8218/10712 [1:35:39<23:51,  1.74it/s] 77%|███████▋  | 8219/10712 [1:35:39<22:53,  1.82it/s] 77%|███████▋  | 8220/10712 [1:35:40<22:12,  1.87it/s] 77%|███████▋  | 8221/10712 [1:35:40<21:47,  1.91it/s] 77%|███████▋  | 8222/10712 [1:35:41<21:28,  1.93it/s] 77%|███████▋  | 8223/10712 [1:35:41<21:14,  1.95it/s] 77%|███████▋  | 8224/10712 [1:35:42<21:04,  1.97it/s] 77%|███████▋  | 8225/10712 [1:35:42<20:56,  1.98it/s]                                                      {'loss': 3.7003, 'grad_norm': 0.2007862627506256, 'learning_rate': 0.0001554289265784129, 'epoch': 0.77}
+ 77%|███████▋  | 8225/10712 [1:35:42<20:56,  1.98it/s] 77%|███████▋  | 8226/10712 [1:35:43<20:53,  1.98it/s] 77%|███████▋  | 8227/10712 [1:35:43<20:48,  1.99it/s] 77%|███████▋  | 8228/10712 [1:35:44<20:44,  2.00it/s] 77%|███████▋  | 8229/10712 [1:35:44<20:45,  1.99it/s] 77%|███████▋  | 8230/10712 [1:35:45<20:45,  1.99it/s] 77%|███████▋  | 8231/10712 [1:35:45<20:42,  2.00it/s] 77%|███████▋  | 8232/10712 [1:35:46<20:39,  2.00it/s] 77%|███████▋  | 8233/10712 [1:35:46<20:38,  2.00it/s] 77%|███████▋  | 8234/10712 [1:35:47<20:36,  2.00it/s] 77%|███████▋  | 8235/10712 [1:35:47<20:34,  2.01it/s] 77%|███████▋  | 8236/10712 [1:35:48<20:33,  2.01it/s] 77%|███████▋  | 8237/10712 [1:35:48<20:32,  2.01it/s] 77%|███████▋  | 8238/10712 [1:35:49<20:34,  2.00it/s] 77%|███████▋  | 8239/10712 [1:35:49<20:34,  2.00it/s] 77%|███████▋  | 8240/10712 [1:35:50<20:35,  2.00it/s] 77%|███████▋  | 8241/10712 [1:35:50<20:37,  2.00it/s] 77%|███████▋  | 8242/10712 [1:35:51<20:36,  2.00it/s] 77%|███████▋  | 8243/10712 [1:35:51<20:32,  2.00it/s] 77%|███████▋  | 8244/10712 [1:35:52<20:32,  2.00it/s] 77%|███████▋  | 8245/10712 [1:35:52<20:31,  2.00it/s] 77%|███████▋  | 8246/10712 [1:35:53<20:31,  2.00it/s] 77%|███████▋  | 8247/10712 [1:35:53<20:31,  2.00it/s] 77%|███████▋  | 8248/10712 [1:35:54<20:30,  2.00it/s] 77%|███████▋  | 8249/10712 [1:35:54<20:29,  2.00it/s] 77%|███████▋  | 8250/10712 [1:35:55<20:28,  2.00it/s]                                                      {'loss': 3.7052, 'grad_norm': 0.20554275810718536, 'learning_rate': 0.00015248852759162934, 'epoch': 0.77}
+ 77%|███████▋  | 8250/10712 [1:35:55<20:28,  2.00it/s] 77%|███████▋  | 8251/10712 [1:35:55<20:28,  2.00it/s] 77%|███████▋  | 8252/10712 [1:35:56<20:28,  2.00it/s] 77%|███████▋  | 8253/10712 [1:35:57<25:25,  1.61it/s] 77%|███████▋  | 8254/10712 [1:35:57<24:00,  1.71it/s] 77%|███████▋  | 8255/10712 [1:35:58<22:57,  1.78it/s] 77%|███████▋  | 8256/10712 [1:35:58<22:11,  1.84it/s] 77%|███████▋  | 8257/10712 [1:35:59<21:39,  1.89it/s] 77%|███████▋  | 8258/10712 [1:35:59<21:18,  1.92it/s] 77%|███████▋  | 8259/10712 [1:36:00<21:02,  1.94it/s] 77%|███████▋  | 8260/10712 [1:36:00<20:47,  1.96it/s] 77%|███████▋  | 8261/10712 [1:36:01<20:41,  1.97it/s] 77%|███████▋  | 8262/10712 [1:36:01<20:34,  1.99it/s] 77%|███████▋  | 8263/10712 [1:36:02<20:27,  1.99it/s] 77%|███████▋  | 8264/10712 [1:36:02<20:25,  2.00it/s] 77%|███████▋  | 8265/10712 [1:36:03<20:22,  2.00it/s] 77%|███████▋  | 8266/10712 [1:36:03<20:18,  2.01it/s] 77%|███████▋  | 8267/10712 [1:36:04<20:18,  2.01it/s] 77%|███████▋  | 8268/10712 [1:36:04<20:15,  2.01it/s] 77%|███████▋  | 8269/10712 [1:36:05<20:14,  2.01it/s] 77%|███████▋  | 8270/10712 [1:36:05<20:14,  2.01it/s] 77%|███████▋  | 8271/10712 [1:36:06<20:15,  2.01it/s] 77%|███████▋  | 8272/10712 [1:36:06<20:15,  2.01it/s] 77%|███████▋  | 8273/10712 [1:36:07<20:17,  2.00it/s] 77%|███████▋  | 8274/10712 [1:36:07<20:17,  2.00it/s] 77%|███████▋  | 8275/10712 [1:36:08<20:15,  2.01it/s]                                                      {'loss': 3.702, 'grad_norm': 0.2057362049818039, 'learning_rate': 0.00014957119567514355, 'epoch': 0.77}
+ 77%|███████▋  | 8275/10712 [1:36:08<20:15,  2.01it/s] 77%|███████▋  | 8276/10712 [1:36:08<20:15,  2.00it/s] 77%|███████▋  | 8277/10712 [1:36:09<20:15,  2.00it/s] 77%|███████▋  | 8278/10712 [1:36:09<20:11,  2.01it/s] 77%|███████▋  | 8279/10712 [1:36:10<20:10,  2.01it/s] 77%|███████▋  | 8280/10712 [1:36:10<20:10,  2.01it/s] 77%|███████▋  | 8281/10712 [1:36:11<20:08,  2.01it/s] 77%|███████▋  | 8282/10712 [1:36:11<20:18,  1.99it/s] 77%|███████▋  | 8283/10712 [1:36:12<20:15,  2.00it/s] 77%|███████▋  | 8284/10712 [1:36:12<20:16,  2.00it/s] 77%|███████▋  | 8285/10712 [1:36:13<20:15,  2.00it/s] 77%|███████▋  | 8286/10712 [1:36:13<20:14,  2.00it/s] 77%|███████▋  | 8287/10712 [1:36:14<20:11,  2.00it/s] 77%|███████▋  | 8288/10712 [1:36:14<20:11,  2.00it/s] 77%|███████▋  | 8289/10712 [1:36:15<20:09,  2.00it/s] 77%|███████▋  | 8290/10712 [1:36:15<20:06,  2.01it/s] 77%|███████▋  | 8291/10712 [1:36:16<20:07,  2.00it/s] 77%|███████▋  | 8292/10712 [1:36:16<20:07,  2.00it/s] 77%|███████▋  | 8293/10712 [1:36:17<20:06,  2.01it/s] 77%|███████▋  | 8294/10712 [1:36:17<20:05,  2.01it/s] 77%|███████▋  | 8295/10712 [1:36:18<20:03,  2.01it/s] 77%|███████▋  | 8296/10712 [1:36:18<20:02,  2.01it/s] 77%|███████▋  | 8297/10712 [1:36:19<20:00,  2.01it/s] 77%|███████▋  | 8298/10712 [1:36:19<20:02,  2.01it/s] 77%|███████▋  | 8299/10712 [1:36:20<20:03,  2.00it/s] 77%|███████▋  | 8300/10712 [1:36:20<20:04,  2.00it/s]                                                      {'loss': 3.7042, 'grad_norm': 0.20778384804725647, 'learning_rate': 0.00014667712447522592, 'epoch': 0.77}
+ 77%|███████▋  | 8300/10712 [1:36:20<20:04,  2.00it/s] 77%|███████▋  | 8301/10712 [1:36:21<20:03,  2.00it/s] 78%|███████▊  | 8302/10712 [1:36:21<20:02,  2.00it/s] 78%|███████▊  | 8303/10712 [1:36:22<20:04,  2.00it/s] 78%|███████▊  | 8304/10712 [1:36:22<20:59,  1.91it/s] 78%|███████▊  | 8305/10712 [1:36:23<20:47,  1.93it/s] 78%|███████▊  | 8306/10712 [1:36:23<20:33,  1.95it/s] 78%|███████▊  | 8307/10712 [1:36:24<20:23,  1.97it/s] 78%|███████▊  | 8308/10712 [1:36:24<20:16,  1.98it/s] 78%|███████▊  | 8309/10712 [1:36:25<20:11,  1.98it/s] 78%|███████▊  | 8310/10712 [1:36:25<20:07,  1.99it/s] 78%|███████▊  | 8311/10712 [1:36:26<20:03,  1.99it/s] 78%|███████▊  | 8312/10712 [1:36:26<19:59,  2.00it/s] 78%|███████▊  | 8313/10712 [1:36:27<19:58,  2.00it/s] 78%|███████▊  | 8314/10712 [1:36:27<19:56,  2.00it/s] 78%|███████▊  | 8315/10712 [1:36:28<19:56,  2.00it/s] 78%|███████▊  | 8316/10712 [1:36:28<19:55,  2.00it/s] 78%|███████▊  | 8317/10712 [1:36:29<20:05,  1.99it/s] 78%|███████▊  | 8318/10712 [1:36:29<20:04,  1.99it/s] 78%|███████▊  | 8319/10712 [1:36:30<20:00,  1.99it/s] 78%|███████▊  | 8320/10712 [1:36:30<19:56,  2.00it/s] 78%|███████▊  | 8321/10712 [1:36:31<19:55,  2.00it/s] 78%|███████▊  | 8322/10712 [1:36:31<19:54,  2.00it/s] 78%|███████▊  | 8323/10712 [1:36:32<19:59,  1.99it/s] 78%|███████▊  | 8324/10712 [1:36:32<19:56,  2.00it/s] 78%|███████▊  | 8325/10712 [1:36:33<19:53,  2.00it/s]                                                      {'loss': 3.6977, 'grad_norm': 0.20117060840129852, 'learning_rate': 0.0001438065060941493, 'epoch': 0.78}
+ 78%|███████▊  | 8325/10712 [1:36:33<19:53,  2.00it/s] 78%|███████▊  | 8326/10712 [1:36:33<19:52,  2.00it/s] 78%|███████▊  | 8327/10712 [1:36:34<19:52,  2.00it/s] 78%|███████▊  | 8328/10712 [1:36:34<19:51,  2.00it/s] 78%|███████▊  | 8329/10712 [1:36:35<19:49,  2.00it/s] 78%|███████▊  | 8330/10712 [1:36:35<19:49,  2.00it/s] 78%|███████▊  | 8331/10712 [1:36:36<19:47,  2.01it/s] 78%|███████▊  | 8332/10712 [1:36:36<19:45,  2.01it/s] 78%|███████▊  | 8333/10712 [1:36:37<19:45,  2.01it/s] 78%|███████▊  | 8334/10712 [1:36:37<19:42,  2.01it/s] 78%|███████▊  | 8335/10712 [1:36:38<19:41,  2.01it/s] 78%|███████▊  | 8336/10712 [1:36:38<19:42,  2.01it/s] 78%|███████▊  | 8337/10712 [1:36:39<19:39,  2.01it/s] 78%|███████▊  | 8338/10712 [1:36:39<19:39,  2.01it/s] 78%|███████▊  | 8339/10712 [1:36:40<19:38,  2.01it/s] 78%|███████▊  | 8340/10712 [1:36:40<19:37,  2.01it/s] 78%|███████▊  | 8341/10712 [1:36:41<19:37,  2.01it/s] 78%|███████▊  | 8342/10712 [1:36:41<19:38,  2.01it/s] 78%|███████▊  | 8343/10712 [1:36:42<20:36,  1.92it/s] 78%|███████▊  | 8344/10712 [1:36:42<21:18,  1.85it/s] 78%|███████���  | 8345/10712 [1:36:43<20:51,  1.89it/s] 78%|███████▊  | 8346/10712 [1:36:43<20:30,  1.92it/s] 78%|███████▊  | 8347/10712 [1:36:44<20:14,  1.95it/s] 78%|███████▊  | 8348/10712 [1:36:44<20:05,  1.96it/s] 78%|███████▊  | 8349/10712 [1:36:45<19:57,  1.97it/s] 78%|███████▊  | 8350/10712 [1:36:45<19:51,  1.98it/s]                                                      {'loss': 3.709, 'grad_norm': 0.20583467185497284, 'learning_rate': 0.0001409595310774391, 'epoch': 0.78}
+ 78%|███████▊  | 8350/10712 [1:36:45<19:51,  1.98it/s] 78%|███████▊  | 8351/10712 [1:36:46<19:46,  1.99it/s] 78%|███████▊  | 8352/10712 [1:36:46<19:43,  1.99it/s] 78%|███████▊  | 8353/10712 [1:36:47<19:41,  2.00it/s] 78%|███████▊  | 8354/10712 [1:36:47<19:36,  2.00it/s] 78%|███████▊  | 8355/10712 [1:36:48<19:36,  2.00it/s] 78%|███████▊  | 8356/10712 [1:36:48<19:35,  2.00it/s] 78%|███████▊  | 8357/10712 [1:36:49<19:32,  2.01it/s] 78%|███████▊  | 8358/10712 [1:36:49<19:31,  2.01it/s] 78%|███████▊  | 8359/10712 [1:36:50<19:31,  2.01it/s] 78%|███████▊  | 8360/10712 [1:36:50<19:28,  2.01it/s] 78%|███████▊  | 8361/10712 [1:36:51<19:28,  2.01it/s] 78%|███████▊  | 8362/10712 [1:36:51<19:25,  2.02it/s] 78%|███████▊  | 8363/10712 [1:36:52<19:27,  2.01it/s] 78%|███████▊  | 8364/10712 [1:36:52<19:32,  2.00it/s] 78%|███████▊  | 8365/10712 [1:36:53<19:33,  2.00it/s] 78%|███████▊  | 8366/10712 [1:36:53<19:31,  2.00it/s] 78%|███████▊  | 8367/10712 [1:36:54<19:33,  2.00it/s] 78%|███████▊  | 8368/10712 [1:36:54<19:32,  2.00it/s] 78%|███████▊  | 8369/10712 [1:36:55<19:31,  2.00it/s] 78%|███████▊  | 8370/10712 [1:36:55<19:29,  2.00it/s] 78%|███████▊  | 8371/10712 [1:36:56<19:28,  2.00it/s] 78%|███████▊  | 8372/10712 [1:36:56<19:29,  2.00it/s] 78%|███████▊  | 8373/10712 [1:36:57<19:30,  2.00it/s] 78%|███████▊  | 8374/10712 [1:36:57<19:30,  2.00it/s] 78%|███████▊  | 8375/10712 [1:36:58<19:28,  2.00it/s]                                                      {'loss': 3.7028, 'grad_norm': 0.20341756939888, 'learning_rate': 0.000138136388401224, 'epoch': 0.78}
+ 78%|███████▊  | 8375/10712 [1:36:58<19:28,  2.00it/s] 78%|███████▊  | 8376/10712 [1:36:58<19:27,  2.00it/s] 78%|███████▊  | 8377/10712 [1:36:59<19:28,  2.00it/s] 78%|███████▊  | 8378/10712 [1:36:59<19:26,  2.00it/s] 78%|███████▊  | 8379/10712 [1:37:00<19:26,  2.00it/s] 78%|███████▊  | 8380/10712 [1:37:00<19:27,  2.00it/s] 78%|███████▊  | 8381/10712 [1:37:01<19:26,  2.00it/s] 78%|███████▊  | 8382/10712 [1:37:01<19:25,  2.00it/s] 78%|███████▊  | 8383/10712 [1:37:02<19:22,  2.00it/s] 78%|███████▊  | 8384/10712 [1:37:02<19:23,  2.00it/s] 78%|███████▊  | 8385/10712 [1:37:03<19:20,  2.01it/s] 78%|███████▊  | 8386/10712 [1:37:03<19:19,  2.01it/s] 78%|███████▊  | 8387/10712 [1:37:04<19:19,  2.01it/s] 78%|███████▊  | 8388/10712 [1:37:04<19:28,  1.99it/s] 78%|███████▊  | 8389/10712 [1:37:05<19:26,  1.99it/s] 78%|███████▊  | 8390/10712 [1:37:05<19:23,  2.00it/s] 78%|███████▊  | 8391/10712 [1:37:06<19:22,  2.00it/s] 78%|███████▊  | 8392/10712 [1:37:06<19:20,  2.00it/s] 78%|███████▊  | 8393/10712 [1:37:07<19:18,  2.00it/s] 78%|███████▊  | 8394/10712 [1:37:07<19:18,  2.00it/s] 78%|███████▊  | 8395/10712 [1:37:08<19:17,  2.00it/s] 78%|███████▊  | 8396/10712 [1:37:08<19:15,  2.00it/s] 78%|███████▊  | 8397/10712 [1:37:09<19:16,  2.00it/s] 78%|███████▊  | 8398/10712 [1:37:09<19:16,  2.00it/s] 78%|███████▊  | 8399/10712 [1:37:10<19:16,  2.00it/s] 78%|███████▊  | 8400/10712 [1:37:10<19:13,  2.00it/s]                                                      {'loss': 3.6934, 'grad_norm': 0.20233885943889618, 'learning_rate': 0.0001353372654596935, 'epoch': 0.78}
+ 78%|███████▊  | 8400/10712 [1:37:10<19:13,  2.00it/s] 78%|███████▊  | 8401/10712 [1:37:11<19:14,  2.00it/s] 78%|███████▊  | 8402/10712 [1:37:11<19:12,  2.00it/s] 78%|███████▊  | 8403/10712 [1:37:12<19:12,  2.00it/s] 78%|███████▊  | 8404/10712 [1:37:12<19:11,  2.00it/s] 78%|███████▊  | 8405/10712 [1:37:13<19:12,  2.00it/s] 78%|███████▊  | 8406/10712 [1:37:13<19:12,  2.00it/s] 78%|███████▊  | 8407/10712 [1:37:14<19:12,  2.00it/s] 78%|███████▊  | 8408/10712 [1:37:14<19:13,  2.00it/s] 79%|███████▊  | 8409/10712 [1:37:15<19:12,  2.00it/s] 79%|███████▊  | 8410/10712 [1:37:15<19:08,  2.00it/s] 79%|███████▊  | 8411/10712 [1:37:16<19:07,  2.00it/s] 79%|███████▊  | 8412/10712 [1:37:16<19:16,  1.99it/s] 79%|███████▊  | 8413/10712 [1:37:17<19:13,  1.99it/s] 79%|███████▊  | 8414/10712 [1:37:17<19:13,  1.99it/s] 79%|███████▊  | 8415/10712 [1:37:18<19:10,  2.00it/s] 79%|███████▊  | 8416/10712 [1:37:18<19:06,  2.00it/s] 79%|███████▊  | 8417/10712 [1:37:19<19:04,  2.00it/s] 79%|███████▊  | 8418/10712 [1:37:19<19:02,  2.01it/s] 79%|███████▊  | 8419/10712 [1:37:20<19:01,  2.01it/s] 79%|███████▊  | 8420/10712 [1:37:20<19:02,  2.01it/s] 79%|███████▊  | 8421/10712 [1:37:21<19:04,  2.00it/s] 79%|███████▊  | 8422/10712 [1:37:21<19:04,  2.00it/s] 79%|███████▊  | 8423/10712 [1:37:22<19:02,  2.00it/s] 79%|███████▊  | 8424/10712 [1:37:22<19:01,  2.00it/s] 79%|███████▊  | 8425/10712 [1:37:23<19:00,  2.01it/s]                                                      {'loss': 3.7015, 'grad_norm': 0.19619029760360718, 'learning_rate': 0.0001325623480526576, 'epoch': 0.79}
+ 79%|███████▊  | 8425/10712 [1:37:23<19:00,  2.01it/s] 79%|███████▊  | 8426/10712 [1:37:23<19:02,  2.00it/s] 79%|███████▊  | 8427/10712 [1:37:24<19:01,  2.00it/s] 79%|███████▊  | 8428/10712 [1:37:24<18:59,  2.00it/s] 79%|███████▊  | 8429/10712 [1:37:25<18:58,  2.00it/s] 79%|███████▊  | 8430/10712 [1:37:25<18:59,  2.00it/s] 79%|███████▊  | 8431/10712 [1:37:26<18:59,  2.00it/s] 79%|███████▊  | 8432/10712 [1:37:26<18:58,  2.00it/s] 79%|███████▊  | 8433/10712 [1:37:27<18:56,  2.01it/s] 79%|███████▊  | 8434/10712 [1:37:27<18:53,  2.01it/s] 79%|███████▊  | 8435/10712 [1:37:28<18:52,  2.01it/s] 79%|███████▉  | 8436/10712 [1:37:28<18:57,  2.00it/s] 79%|███████▉  | 8437/10712 [1:37:29<18:56,  2.00it/s] 79%|███████▉  | 8438/10712 [1:37:29<18:56,  2.00it/s] 79%|███████▉  | 8439/10712 [1:37:30<18:55,  2.00it/s] 79%|███████▉  | 8440/10712 [1:37:30<18:57,  2.00it/s] 79%|███████▉  | 8441/10712 [1:37:31<18:53,  2.00it/s] 79%|███████▉  | 8442/10712 [1:37:31<18:52,  2.00it/s] 79%|███████▉  | 8443/10712 [1:37:32<18:50,  2.01it/s] 79%|███████▉  | 8444/10712 [1:37:32<18:49,  2.01it/s] 79%|███████▉  | 8445/10712 [1:37:33<18:49,  2.01it/s] 79%|███████▉  | 8446/10712 [1:37:33<18:50,  2.01it/s] 79%|███████▉  | 8447/10712 [1:37:34<18:48,  2.01it/s] 79%|███████▉  | 8448/10712 [1:37:34<18:48,  2.01it/s] 79%|███████▉  | 8449/10712 [1:37:35<18:48,  2.01it/s] 79%|███████▉  | 8450/10712 [1:37:35<18:46,  2.01it/s]                                                      {'loss': 3.702, 'grad_norm': 0.20964138209819794, 'learning_rate': 0.00012981182037321516, 'epoch': 0.79}
+ 79%|███████▉  | 8450/10712 [1:37:35<18:46,  2.01it/s] 79%|███████▉  | 8451/10712 [1:37:36<18:48,  2.00it/s] 79%|███████▉  | 8452/10712 [1:37:36<18:45,  2.01it/s] 79%|███████▉  | 8453/10712 [1:37:37<18:45,  2.01it/s] 79%|███████▉  | 8454/10712 [1:37:37<18:46,  2.01it/s] 79%|███████▉  | 8455/10712 [1:37:38<18:44,  2.01it/s] 79%|███████▉  | 8456/10712 [1:37:38<18:43,  2.01it/s] 79%|███████▉  | 8457/10712 [1:37:39<18:42,  2.01it/s] 79%|███████▉  | 8458/10712 [1:37:39<18:40,  2.01it/s] 79%|███████▉  | 8459/10712 [1:37:40<18:40,  2.01it/s] 79%|███████▉  | 8460/10712 [1:37:40<18:39,  2.01it/s] 79%|███████▉  | 8461/10712 [1:37:41<18:38,  2.01it/s] 79%|███████▉  | 8462/10712 [1:37:41<18:36,  2.02it/s] 79%|███████▉  | 8463/10712 [1:37:42<18:35,  2.02it/s] 79%|███████▉  | 8464/10712 [1:37:42<18:35,  2.01it/s] 79%|███████▉  | 8465/10712 [1:37:43<18:35,  2.01it/s] 79%|███████▉  | 8466/10712 [1:37:43<18:34,  2.01it/s] 79%|███████▉  | 8467/10712 [1:37:44<18:34,  2.01it/s] 79%|███████▉  | 8468/10712 [1:37:44<18:34,  2.01it/s] 79%|███████▉  | 8469/10712 [1:37:45<18:34,  2.01it/s] 79%|███████▉  | 8470/10712 [1:37:45<18:35,  2.01it/s] 79%|███████▉  | 8471/10712 [1:37:46<18:34,  2.01it/s] 79%|███████▉  | 8472/10712 [1:37:46<18:34,  2.01it/s] 79%|███████▉  | 8473/10712 [1:37:47<18:33,  2.01it/s] 79%|███████▉  | 8474/10712 [1:37:47<18:31,  2.01it/s] 79%|███████▉  | 8475/10712 [1:37:48<18:30,  2.01it/s]                                                      {'loss': 3.6904, 'grad_norm': 0.19663332402706146, 'learning_rate': 0.00012708586499552644, 'epoch': 0.79}
+ 79%|███████▉  | 8475/10712 [1:37:48<18:30,  2.01it/s] 79%|███████▉  | 8476/10712 [1:37:48<18:29,  2.01it/s] 79%|███████▉  | 8477/10712 [1:37:49<18:30,  2.01it/s] 79%|███████▉  | 8478/10712 [1:37:49<18:29,  2.01it/s] 79%|███████▉  | 8479/10712 [1:37:50<18:29,  2.01it/s] 79%|███████▉  | 8480/10712 [1:37:50<18:31,  2.01it/s] 79%|███████▉  | 8481/10712 [1:37:51<18:32,  2.01it/s] 79%|███████▉  | 8482/10712 [1:37:51<18:32,  2.01it/s] 79%|███████▉  | 8483/10712 [1:37:52<18:33,  2.00it/s] 79%|███████▉  | 8484/10712 [1:37:52<18:33,  2.00it/s] 79%|███████▉  | 8485/10712 [1:37:53<18:32,  2.00it/s] 79%|███████▉  | 8486/10712 [1:37:53<18:33,  2.00it/s] 79%|███████▉  | 8487/10712 [1:37:54<18:30,  2.00it/s] 79%|███████▉  | 8488/10712 [1:37:54<18:30,  2.00it/s] 79%|███████▉  | 8489/10712 [1:37:55<18:30,  2.00it/s] 79%|███████▉  | 8490/10712 [1:37:55<18:27,  2.01it/s] 79%|███████▉  | 8491/10712 [1:37:56<18:26,  2.01it/s] 79%|███████▉  | 8492/10712 [1:37:56<18:25,  2.01it/s] 79%|███████▉  | 8493/10712 [1:37:57<18:23,  2.01it/s] 79%|███████▉  | 8494/10712 [1:37:57<18:25,  2.01it/s] 79%|███████▉  | 8495/10712 [1:37:58<18:24,  2.01it/s] 79%|███████▉  | 8496/10712 [1:37:58<18:21,  2.01it/s] 79%|███████▉  | 8497/10712 [1:37:59<18:22,  2.01it/s] 79%|███████▉  | 8498/10712 [1:37:59<18:21,  2.01it/s] 79%|███████▉  | 8499/10712 [1:38:00<18:20,  2.01it/s] 79%|███████▉  | 8500/10712 [1:38:00<18:20,  2.01it/s]                                                      {'loss': 3.7009, 'grad_norm': 0.20262502133846283, 'learning_rate': 0.000124384662862695, 'epoch': 0.79}
+ 79%|███████▉  | 8500/10712 [1:38:00<18:20,  2.01it/s] 79%|███████▉  | 8501/10712 [1:38:01<18:21,  2.01it/s] 79%|███████▉  | 8502/10712 [1:38:01<18:19,  2.01it/s] 79%|███████▉  | 8503/10712 [1:38:02<18:19,  2.01it/s] 79%|███████▉  | 8504/10712 [1:38:02<18:16,  2.01it/s] 79%|███████▉  | 8505/10712 [1:38:03<18:16,  2.01it/s] 79%|███████▉  | 8506/10712 [1:38:03<18:19,  2.01it/s] 79%|███████▉  | 8507/10712 [1:38:04<18:31,  1.98it/s] 79%|███████▉  | 8508/10712 [1:38:04<18:40,  1.97it/s] 79%|███████▉  | 8509/10712 [1:38:05<18:36,  1.97it/s] 79%|███████▉  | 8510/10712 [1:38:05<18:32,  1.98it/s] 79%|███████▉  | 8511/10712 [1:38:06<18:28,  1.99it/s] 79%|███████▉  | 8512/10712 [1:38:06<18:24,  1.99it/s] 79%|███████▉  | 8513/10712 [1:38:07<18:22,  1.99it/s] 79%|███████▉  | 8514/10712 [1:38:07<18:19,  2.00it/s] 79%|███████▉  | 8515/10712 [1:38:08<18:16,  2.00it/s] 79%|███████▉  | 8516/10712 [1:38:08<18:16,  2.00it/s] 80%|███████▉  | 8517/10712 [1:38:09<18:14,  2.00it/s] 80%|███████▉  | 8518/10712 [1:38:09<18:13,  2.01it/s] 80%|███████▉  | 8519/10712 [1:38:10<18:12,  2.01it/s] 80%|███████▉  | 8520/10712 [1:38:10<18:14,  2.00it/s] 80%|███████▉  | 8521/10712 [1:38:11<18:13,  2.00it/s] 80%|███████▉  | 8522/10712 [1:38:11<18:13,  2.00it/s] 80%|███████▉  | 8523/10712 [1:38:12<18:12,  2.00it/s] 80%|███████▉  | 8524/10712 [1:38:12<18:09,  2.01it/s] 80%|███████▉  | 8525/10712 [1:38:13<18:10,  2.01it/s]                                                      {'loss': 3.6867, 'grad_norm': 0.20111532509326935, 'learning_rate': 0.00012170839327475707, 'epoch': 0.8}
+ 80%|███████▉  | 8525/10712 [1:38:13<18:10,  2.01it/s] 80%|███████▉  | 8526/10712 [1:38:13<18:11,  2.00it/s] 80%|███████▉  | 8527/10712 [1:38:14<18:12,  2.00it/s] 80%|███████▉  | 8528/10712 [1:38:14<18:13,  2.00it/s] 80%|███████▉  | 8529/10712 [1:38:15<18:12,  2.00it/s] 80%|███████▉  | 8530/10712 [1:38:15<18:12,  2.00it/s] 80%|███████▉  | 8531/10712 [1:38:16<18:11,  2.00it/s] 80%|███████▉  | 8532/10712 [1:38:16<18:10,  2.00it/s] 80%|███████▉  | 8533/10712 [1:38:17<18:08,  2.00it/s] 80%|███████▉  | 8534/10712 [1:38:17<18:07,  2.00it/s] 80%|███████▉  | 8535/10712 [1:38:18<18:04,  2.01it/s] 80%|███████▉  | 8536/10712 [1:38:18<18:04,  2.01it/s] 80%|███████▉  | 8537/10712 [1:38:19<18:06,  2.00it/s] 80%|███████▉  | 8538/10712 [1:38:19<18:05,  2.00it/s] 80%|███████▉  | 8539/10712 [1:38:20<18:02,  2.01it/s] 80%|███████▉  | 8540/10712 [1:38:20<18:02,  2.01it/s] 80%|███████▉  | 8541/10712 [1:38:21<18:03,  2.00it/s] 80%|███████▉  | 8542/10712 [1:38:21<18:00,  2.01it/s] 80%|███████▉  | 8543/10712 [1:38:22<17:59,  2.01it/s] 80%|███████▉  | 8544/10712 [1:38:22<17:58,  2.01it/s] 80%|███████▉  | 8545/10712 [1:38:23<17:58,  2.01it/s] 80%|███████▉  | 8546/10712 [1:38:23<17:57,  2.01it/s] 80%|███████▉  | 8547/10712 [1:38:24<17:56,  2.01it/s] 80%|███████▉  | 8548/10712 [1:38:24<17:58,  2.01it/s] 80%|███████▉  | 8549/10712 [1:38:25<17:59,  2.00it/s] 80%|███████▉  | 8550/10712 [1:38:25<18:41,  1.93it/s]                                                      {'loss': 3.692, 'grad_norm': 0.20438751578330994, 'learning_rate': 0.00011905723387677897, 'epoch': 0.8}
+ 80%|███████▉  | 8550/10712 [1:38:25<18:41,  1.93it/s] 80%|███████▉  | 8551/10712 [1:38:26<18:43,  1.92it/s] 80%|███████▉  | 8552/10712 [1:38:26<18:30,  1.95it/s] 80%|███████▉  | 8553/10712 [1:38:27<18:19,  1.96it/s] 80%|███████▉  | 8554/10712 [1:38:27<18:12,  1.97it/s] 80%|███████▉  | 8555/10712 [1:38:28<18:06,  1.99it/s] 80%|███████▉  | 8556/10712 [1:38:28<18:04,  1.99it/s] 80%|███████▉  | 8557/10712 [1:38:29<18:01,  1.99it/s] 80%|███████▉  | 8558/10712 [1:38:29<17:59,  1.99it/s] 80%|███████▉  | 8559/10712 [1:38:30<17:56,  2.00it/s] 80%|███████▉  | 8560/10712 [1:38:30<17:58,  1.99it/s] 80%|███████▉  | 8561/10712 [1:38:31<18:00,  1.99it/s] 80%|███████▉  | 8562/10712 [1:38:31<17:58,  1.99it/s] 80%|███████▉  | 8563/10712 [1:38:32<17:57,  1.99it/s] 80%|███████▉  | 8564/10712 [1:38:32<17:55,  2.00it/s] 80%|███████▉  | 8565/10712 [1:38:33<17:53,  2.00it/s] 80%|███████▉  | 8566/10712 [1:38:33<17:52,  2.00it/s] 80%|███████▉  | 8567/10712 [1:38:34<17:50,  2.00it/s] 80%|███████▉  | 8568/10712 [1:38:34<17:48,  2.01it/s] 80%|███████▉  | 8569/10712 [1:38:35<17:48,  2.01it/s] 80%|████████  | 8570/10712 [1:38:35<17:47,  2.01it/s] 80%|████████  | 8571/10712 [1:38:36<17:47,  2.01it/s] 80%|████████  | 8572/10712 [1:38:36<17:47,  2.00it/s] 80%|████████  | 8573/10712 [1:38:37<17:45,  2.01it/s] 80%|████████  | 8574/10712 [1:38:37<17:45,  2.01it/s] 80%|████████  | 8575/10712 [1:38:38<17:43,  2.01it/s]                                                      {'loss': 3.6933, 'grad_norm': 0.20212812721729279, 'learning_rate': 0.00011643136064706706, 'epoch': 0.8}
+ 80%|████████  | 8575/10712 [1:38:38<17:43,  2.01it/s] 80%|████████  | 8576/10712 [1:38:38<17:43,  2.01it/s] 80%|████████  | 8577/10712 [1:38:39<17:43,  2.01it/s] 80%|████████  | 8578/10712 [1:38:39<17:43,  2.01it/s] 80%|████████  | 8579/10712 [1:38:40<17:41,  2.01it/s] 80%|████████  | 8580/10712 [1:38:40<17:40,  2.01it/s] 80%|████████  | 8581/10712 [1:38:41<17:41,  2.01it/s] 80%|████████  | 8582/10712 [1:38:41<17:39,  2.01it/s] 80%|████████  | 8583/10712 [1:38:42<17:38,  2.01it/s] 80%|████████  | 8584/10712 [1:38:42<17:37,  2.01it/s] 80%|████████  | 8585/10712 [1:38:43<17:36,  2.01it/s] 80%|████████  | 8586/10712 [1:38:43<17:40,  2.00it/s] 80%|████████  | 8587/10712 [1:38:44<17:42,  2.00it/s] 80%|████████  | 8588/10712 [1:38:44<17:41,  2.00it/s] 80%|████████  | 8589/10712 [1:38:45<17:40,  2.00it/s] 80%|████████  | 8590/10712 [1:38:45<17:41,  2.00it/s] 80%|████████  | 8591/10712 [1:38:46<17:40,  2.00it/s] 80%|████████  | 8592/10712 [1:38:46<17:57,  1.97it/s] 80%|████████  | 8593/10712 [1:38:47<17:51,  1.98it/s] 80%|████████  | 8594/10712 [1:38:47<17:47,  1.98it/s] 80%|████████  | 8595/10712 [1:38:48<17:43,  1.99it/s] 80%|████████  | 8596/10712 [1:38:48<17:41,  1.99it/s] 80%|████████  | 8597/10712 [1:38:49<17:38,  2.00it/s] 80%|████████  | 8598/10712 [1:38:49<17:37,  2.00it/s] 80%|████████  | 8599/10712 [1:38:50<17:35,  2.00it/s] 80%|████████  | 8600/10712 [1:38:50<17:33,  2.00it/s]                                                      {'loss': 3.6923, 'grad_norm': 0.21422554552555084, 'learning_rate': 0.00011383094788548492, 'epoch': 0.8}
+ 80%|████████  | 8600/10712 [1:38:50<17:33,  2.00it/s] 80%|████████  | 8601/10712 [1:38:51<17:36,  2.00it/s] 80%|████████  | 8602/10712 [1:38:51<17:33,  2.00it/s] 80%|████████  | 8603/10712 [1:38:52<17:31,  2.01it/s] 80%|████████  | 8604/10712 [1:38:52<17:31,  2.01it/s] 80%|████████  | 8605/10712 [1:38:53<17:29,  2.01it/s] 80%|████████  | 8606/10712 [1:38:53<17:27,  2.01it/s] 80%|████████  | 8607/10712 [1:38:54<17:27,  2.01it/s] 80%|████████  | 8608/10712 [1:38:54<17:26,  2.01it/s] 80%|████████  | 8609/10712 [1:38:55<17:26,  2.01it/s] 80%|████████  | 8610/10712 [1:38:55<17:25,  2.01it/s] 80%|████████  | 8611/10712 [1:38:56<17:23,  2.01it/s] 80%|████████  | 8612/10712 [1:38:56<17:23,  2.01it/s] 80%|████████  | 8613/10712 [1:38:57<17:23,  2.01it/s] 80%|████████  | 8614/10712 [1:38:57<17:25,  2.01it/s] 80%|████████  | 8615/10712 [1:38:58<17:25,  2.01it/s] 80%|████████  | 8616/10712 [1:38:58<17:26,  2.00it/s] 80%|████████  | 8617/10712 [1:38:59<17:26,  2.00it/s] 80%|████████  | 8618/10712 [1:38:59<17:25,  2.00it/s] 80%|████████  | 8619/10712 [1:39:00<17:24,  2.00it/s] 80%|████████  | 8620/10712 [1:39:00<17:23,  2.01it/s] 80%|████████  | 8621/10712 [1:39:01<17:21,  2.01it/s] 80%|████████  | 8622/10712 [1:39:01<17:21,  2.01it/s] 80%|████████  | 8623/10712 [1:39:02<17:22,  2.00it/s] 81%|████████  | 8624/10712 [1:39:02<17:20,  2.01it/s] 81%|████████  | 8625/10712 [1:39:03<17:19,  2.01it/s]                                                      {'loss': 3.6954, 'grad_norm': 0.20308765769004822, 'learning_rate': 0.00011125616820188544, 'epoch': 0.81}
+ 81%|████████  | 8625/10712 [1:39:03<17:19,  2.01it/s] 81%|████████  | 8626/10712 [1:39:03<17:20,  2.00it/s] 81%|████████  | 8627/10712 [1:39:04<17:21,  2.00it/s] 81%|████████  | 8628/10712 [1:39:04<17:20,  2.00it/s] 81%|████████  | 8629/10712 [1:39:05<17:20,  2.00it/s] 81%|████████  | 8630/10712 [1:39:05<17:21,  2.00it/s] 81%|████████  | 8631/10712 [1:39:06<17:21,  2.00it/s] 81%|████████  | 8632/10712 [1:39:06<17:20,  2.00it/s] 81%|████████  | 8633/10712 [1:39:07<17:18,  2.00it/s] 81%|████████  | 8634/10712 [1:39:07<17:18,  2.00it/s] 81%|████████  | 8635/10712 [1:39:08<17:18,  2.00it/s] 81%|████████  | 8636/10712 [1:39:08<17:18,  2.00it/s] 81%|████████  | 8637/10712 [1:39:09<17:15,  2.00it/s] 81%|████████  | 8638/10712 [1:39:09<17:16,  2.00it/s] 81%|████████  | 8639/10712 [1:39:10<17:18,  2.00it/s] 81%|████████  | 8640/10712 [1:39:10<17:16,  2.00it/s] 81%|████████  | 8641/10712 [1:39:11<17:16,  2.00it/s] 81%|████████  | 8642/10712 [1:39:11<17:14,  2.00it/s] 81%|████████  | 8643/10712 [1:39:12<17:15,  2.00it/s] 81%|████████  | 8644/10712 [1:39:12<17:15,  2.00it/s] 81%|████████  | 8645/10712 [1:39:13<17:14,  2.00it/s] 81%|████████  | 8646/10712 [1:39:13<17:12,  2.00it/s] 81%|████████  | 8647/10712 [1:39:14<17:13,  2.00it/s] 81%|████████  | 8648/10712 [1:39:14<17:12,  2.00it/s] 81%|████████  | 8649/10712 [1:39:15<17:10,  2.00it/s] 81%|████████  | 8650/10712 [1:39:15<17:09,  2.00it/s]                                                      {'loss': 3.6921, 'grad_norm': 0.20140114426612854, 'learning_rate': 0.00010870719250465161, 'epoch': 0.81}
+ 81%|████████  | 8650/10712 [1:39:15<17:09,  2.00it/s] 81%|████████  | 8651/10712 [1:39:16<17:08,  2.00it/s] 81%|████████  | 8652/10712 [1:39:16<17:08,  2.00it/s] 81%|████████  | 8653/10712 [1:39:17<17:07,  2.00it/s] 81%|████████  | 8654/10712 [1:39:17<17:05,  2.01it/s] 81%|████████  | 8655/10712 [1:39:18<17:04,  2.01it/s] 81%|████████  | 8656/10712 [1:39:18<17:05,  2.00it/s] 81%|████████  | 8657/10712 [1:39:19<17:02,  2.01it/s] 81%|████████  | 8658/10712 [1:39:19<17:04,  2.00it/s] 81%|████████  | 8659/10712 [1:39:20<17:04,  2.00it/s] 81%|████████  | 8660/10712 [1:39:20<17:02,  2.01it/s] 81%|████████  | 8661/10712 [1:39:21<17:05,  2.00it/s] 81%|████████  | 8662/10712 [1:39:21<17:04,  2.00it/s] 81%|████████  | 8663/10712 [1:39:22<17:04,  2.00it/s] 81%|████████  | 8664/10712 [1:39:22<17:04,  2.00it/s] 81%|████████  | 8665/10712 [1:39:23<17:04,  2.00it/s] 81%|████████  | 8666/10712 [1:39:23<17:02,  2.00it/s] 81%|████████  | 8667/10712 [1:39:24<17:02,  2.00it/s] 81%|████████  | 8668/10712 [1:39:24<17:00,  2.00it/s] 81%|████████  | 8669/10712 [1:39:25<16:59,  2.00it/s] 81%|████████  | 8670/10712 [1:39:25<16:56,  2.01it/s] 81%|████████  | 8671/10712 [1:39:26<16:58,  2.00it/s] 81%|████████  | 8672/10712 [1:39:26<16:58,  2.00it/s] 81%|████████  | 8673/10712 [1:39:27<16:58,  2.00it/s] 81%|████████  | 8674/10712 [1:39:27<16:57,  2.00it/s] 81%|████████  | 8675/10712 [1:39:28<16:57,  2.00it/s]                                                      {'loss': 3.6914, 'grad_norm': 0.20074278116226196, 'learning_rate': 0.00010618418998935358, 'epoch': 0.81}
+ 81%|████████  | 8675/10712 [1:39:28<16:57,  2.00it/s] 81%|████████  | 8676/10712 [1:39:28<16:57,  2.00it/s] 81%|████████  | 8677/10712 [1:39:29<16:58,  2.00it/s] 81%|████████  | 8678/10712 [1:39:29<16:58,  2.00it/s] 81%|████████  | 8679/10712 [1:39:30<16:58,  2.00it/s] 81%|████████  | 8680/10712 [1:39:30<16:57,  2.00it/s] 81%|████████  | 8681/10712 [1:39:31<16:55,  2.00it/s] 81%|████████  | 8682/10712 [1:39:31<16:55,  2.00it/s] 81%|████████  | 8683/10712 [1:39:32<16:55,  2.00it/s] 81%|████████  | 8684/10712 [1:39:32<16:54,  2.00it/s] 81%|████████  | 8685/10712 [1:39:33<16:53,  2.00it/s] 81%|████████  | 8686/10712 [1:39:33<16:53,  2.00it/s] 81%|████████  | 8687/10712 [1:39:34<16:51,  2.00it/s] 81%|████████  | 8688/10712 [1:39:34<16:50,  2.00it/s] 81%|████████  | 8689/10712 [1:39:35<16:48,  2.01it/s] 81%|████████  | 8690/10712 [1:39:35<16:52,  2.00it/s] 81%|████████  | 8691/10712 [1:39:36<16:50,  2.00it/s] 81%|████████  | 8692/10712 [1:39:36<16:50,  2.00it/s] 81%|████████  | 8693/10712 [1:39:37<16:49,  2.00it/s] 81%|████████  | 8694/10712 [1:39:37<16:48,  2.00it/s] 81%|████████  | 8695/10712 [1:39:38<16:46,  2.00it/s] 81%|████████  | 8696/10712 [1:39:38<16:47,  2.00it/s] 81%|████████  | 8697/10712 [1:39:39<16:47,  2.00it/s] 81%|████████  | 8698/10712 [1:39:39<16:51,  1.99it/s] 81%|████████  | 8699/10712 [1:39:40<16:50,  1.99it/s] 81%|████████  | 8700/10712 [1:39:40<16:48,  1.99it/s]                                                      {'loss': 3.6903, 'grad_norm': 0.20040340721607208, 'learning_rate': 0.00010368732812751652, 'epoch': 0.81}
+ 81%|████████  | 8700/10712 [1:39:40<16:48,  1.99it/s] 81%|████████  | 8701/10712 [1:39:41<16:47,  2.00it/s] 81%|████████  | 8702/10712 [1:39:41<16:46,  2.00it/s] 81%|████████  | 8703/10712 [1:39:42<16:43,  2.00it/s] 81%|████████▏ | 8704/10712 [1:39:42<16:43,  2.00it/s] 81%|████████▏ | 8705/10712 [1:39:43<16:43,  2.00it/s] 81%|████████▏ | 8706/10712 [1:39:43<16:44,  2.00it/s] 81%|████████▏ | 8707/10712 [1:39:44<16:43,  2.00it/s] 81%|████████▏ | 8708/10712 [1:39:44<16:43,  2.00it/s] 81%|████████▏ | 8709/10712 [1:39:45<16:42,  2.00it/s] 81%|████████▏ | 8710/10712 [1:39:45<16:43,  2.00it/s] 81%|████████▏ | 8711/10712 [1:39:46<16:41,  2.00it/s] 81%|████████▏ | 8712/10712 [1:39:46<16:38,  2.00it/s] 81%|████████▏ | 8713/10712 [1:39:47<16:37,  2.00it/s] 81%|████████▏ | 8714/10712 [1:39:47<16:37,  2.00it/s] 81%|████████▏ | 8715/10712 [1:39:48<16:38,  2.00it/s] 81%|████████▏ | 8716/10712 [1:39:48<16:38,  2.00it/s] 81%|████████▏ | 8717/10712 [1:39:49<16:36,  2.00it/s] 81%|████████▏ | 8718/10712 [1:39:49<16:36,  2.00it/s] 81%|████████▏ | 8719/10712 [1:39:50<16:34,  2.00it/s] 81%|████████▏ | 8720/10712 [1:39:50<16:32,  2.01it/s] 81%|████████▏ | 8721/10712 [1:39:51<16:33,  2.00it/s] 81%|████████▏ | 8722/10712 [1:39:51<16:33,  2.00it/s] 81%|████████▏ | 8723/10712 [1:39:52<16:32,  2.00it/s] 81%|████████▏ | 8724/10712 [1:39:52<16:31,  2.00it/s] 81%|████████▏ | 8725/10712 [1:39:53<16:31,  2.01it/s]                                                      {'loss': 3.6866, 'grad_norm': 0.20556968450546265, 'learning_rate': 0.00010121677265550522, 'epoch': 0.81}
+ 81%|████████▏ | 8725/10712 [1:39:53<16:31,  2.01it/s] 81%|████████▏ | 8726/10712 [1:39:53<16:34,  2.00it/s] 81%|████████▏ | 8727/10712 [1:39:54<16:34,  2.00it/s] 81%|████████▏ | 8728/10712 [1:39:54<16:33,  2.00it/s] 81%|████████▏ | 8729/10712 [1:39:55<16:30,  2.00it/s] 81%|████████▏ | 8730/10712 [1:39:55<16:30,  2.00it/s] 82%|████████▏ | 8731/10712 [1:39:56<16:31,  2.00it/s] 82%|████████▏ | 8732/10712 [1:39:56<16:30,  2.00it/s] 82%|████████▏ | 8733/10712 [1:39:57<16:28,  2.00it/s] 82%|████████▏ | 8734/10712 [1:39:57<16:27,  2.00it/s] 82%|████████▏ | 8735/10712 [1:39:58<16:27,  2.00it/s] 82%|████████▏ | 8736/10712 [1:39:58<16:27,  2.00it/s] 82%|████████▏ | 8737/10712 [1:39:59<16:27,  2.00it/s] 82%|████████▏ | 8738/10712 [1:39:59<16:25,  2.00it/s] 82%|████████▏ | 8739/10712 [1:40:00<16:27,  2.00it/s] 82%|████████▏ | 8740/10712 [1:40:00<16:25,  2.00it/s] 82%|████████▏ | 8741/10712 [1:40:01<16:25,  2.00it/s] 82%|████████▏ | 8742/10712 [1:40:01<16:24,  2.00it/s] 82%|████████▏ | 8743/10712 [1:40:02<16:25,  2.00it/s] 82%|████████▏ | 8744/10712 [1:40:02<16:26,  2.00it/s] 82%|████████▏ | 8745/10712 [1:40:03<16:25,  2.00it/s] 82%|████████▏ | 8746/10712 [1:40:03<16:24,  2.00it/s] 82%|████████▏ | 8747/10712 [1:40:04<16:23,  2.00it/s] 82%|████████▏ | 8748/10712 [1:40:04<16:21,  2.00it/s] 82%|████████▏ | 8749/10712 [1:40:05<16:20,  2.00it/s] 82%|████████▏ | 8750/10712 [1:40:05<16:20,  2.00it/s]                                                      {'loss': 3.6833, 'grad_norm': 0.19644449651241302, 'learning_rate': 9.877268756352204e-05, 'epoch': 0.82}
+ 82%|████████▏ | 8750/10712 [1:40:05<16:20,  2.00it/s] 82%|████████▏ | 8751/10712 [1:40:06<16:20,  2.00it/s] 82%|████████▏ | 8752/10712 [1:40:06<16:20,  2.00it/s] 82%|████████▏ | 8753/10712 [1:40:07<16:19,  2.00it/s] 82%|████████▏ | 8754/10712 [1:40:07<16:19,  2.00it/s] 82%|████████▏ | 8755/10712 [1:40:08<16:18,  2.00it/s] 82%|████████▏ | 8756/10712 [1:40:08<16:16,  2.00it/s] 82%|████████▏ | 8757/10712 [1:40:09<16:16,  2.00it/s] 82%|████████▏ | 8758/10712 [1:40:09<16:15,  2.00it/s] 82%|████████▏ | 8759/10712 [1:40:10<16:15,  2.00it/s] 82%|████████▏ | 8760/10712 [1:40:10<16:14,  2.00it/s] 82%|████████▏ | 8761/10712 [1:40:11<16:14,  2.00it/s] 82%|████████▏ | 8762/10712 [1:40:11<16:14,  2.00it/s] 82%|████████▏ | 8763/10712 [1:40:12<16:14,  2.00it/s] 82%|████████▏ | 8764/10712 [1:40:12<16:12,  2.00it/s] 82%|████████▏ | 8765/10712 [1:40:13<16:12,  2.00it/s] 82%|████████▏ | 8766/10712 [1:40:13<16:13,  2.00it/s] 82%|████████▏ | 8767/10712 [1:40:14<16:10,  2.00it/s] 82%|████████▏ | 8768/10712 [1:40:14<16:09,  2.01it/s] 82%|████████▏ | 8769/10712 [1:40:15<16:09,  2.00it/s] 82%|████████▏ | 8770/10712 [1:40:15<16:09,  2.00it/s] 82%|████████▏ | 8771/10712 [1:40:16<16:09,  2.00it/s] 82%|████████▏ | 8772/10712 [1:40:16<16:10,  2.00it/s] 82%|████████▏ | 8773/10712 [1:40:17<16:08,  2.00it/s] 82%|████████▏ | 8774/10712 [1:40:17<16:10,  2.00it/s] 82%|████████▏ | 8775/10712 [1:40:18<16:08,  2.00it/s]                                                      {'loss': 3.6905, 'grad_norm': 0.2021641880273819, 'learning_rate': 9.635523508472227e-05, 'epoch': 0.82}
+ 82%|████████▏ | 8775/10712 [1:40:18<16:08,  2.00it/s] 82%|████████▏ | 8776/10712 [1:40:18<16:10,  2.00it/s] 82%|████████▏ | 8777/10712 [1:40:19<16:07,  2.00it/s] 82%|████████▏ | 8778/10712 [1:40:19<16:07,  2.00it/s] 82%|████████▏ | 8779/10712 [1:40:20<16:06,  2.00it/s] 82%|████████▏ | 8780/10712 [1:40:20<16:04,  2.00it/s] 82%|████████▏ | 8781/10712 [1:40:21<16:04,  2.00it/s] 82%|████████▏ | 8782/10712 [1:40:21<16:04,  2.00it/s] 82%|████████▏ | 8783/10712 [1:40:22<16:04,  2.00it/s] 82%|████████▏ | 8784/10712 [1:40:22<16:02,  2.00it/s] 82%|████████▏ | 8785/10712 [1:40:23<16:02,  2.00it/s] 82%|████████▏ | 8786/10712 [1:40:23<16:50,  1.91it/s] 82%|████████▏ | 8787/10712 [1:40:24<16:35,  1.93it/s] 82%|████████��� | 8788/10712 [1:40:24<16:24,  1.95it/s] 82%|████████▏ | 8789/10712 [1:40:25<16:17,  1.97it/s] 82%|████████▏ | 8790/10712 [1:40:25<16:12,  1.98it/s] 82%|████████▏ | 8791/10712 [1:40:26<16:07,  1.99it/s] 82%|████████▏ | 8792/10712 [1:40:26<16:04,  1.99it/s] 82%|████████▏ | 8793/10712 [1:40:27<16:01,  2.00it/s] 82%|████████▏ | 8794/10712 [1:40:27<15:59,  2.00it/s] 82%|████████▏ | 8795/10712 [1:40:28<15:57,  2.00it/s] 82%|████████▏ | 8796/10712 [1:40:28<15:55,  2.00it/s] 82%|████████▏ | 8797/10712 [1:40:29<15:53,  2.01it/s] 82%|████████▏ | 8798/10712 [1:40:29<15:52,  2.01it/s] 82%|████████▏ | 8799/10712 [1:40:30<15:52,  2.01it/s] 82%|████████▏ | 8800/10712 [1:40:30<15:51,  2.01it/s]                                                      {'loss': 3.6882, 'grad_norm': 0.20365110039710999, 'learning_rate': 9.396457568444517e-05, 'epoch': 0.82}
+ 82%|████████▏ | 8800/10712 [1:40:30<15:51,  2.01it/s] 82%|████████▏ | 8801/10712 [1:40:31<15:53,  2.00it/s] 82%|████████▏ | 8802/10712 [1:40:31<15:51,  2.01it/s] 82%|████████▏ | 8803/10712 [1:40:32<15:49,  2.01it/s] 82%|████████▏ | 8804/10712 [1:40:32<15:47,  2.01it/s] 82%|████████▏ | 8805/10712 [1:40:33<15:48,  2.01it/s] 82%|████████▏ | 8806/10712 [1:40:33<15:47,  2.01it/s] 82%|████████▏ | 8807/10712 [1:40:34<15:45,  2.01it/s] 82%|████████▏ | 8808/10712 [1:40:34<15:45,  2.01it/s] 82%|████████▏ | 8809/10712 [1:40:35<15:43,  2.02it/s] 82%|████████▏ | 8810/10712 [1:40:35<15:43,  2.02it/s] 82%|████████▏ | 8811/10712 [1:40:36<15:42,  2.02it/s] 82%|████████▏ | 8812/10712 [1:40:36<15:42,  2.02it/s] 82%|████████▏ | 8813/10712 [1:40:37<15:42,  2.01it/s] 82%|████████▏ | 8814/10712 [1:40:37<15:41,  2.02it/s] 82%|████████▏ | 8815/10712 [1:40:38<15:42,  2.01it/s] 82%|████████▏ | 8816/10712 [1:40:38<16:34,  1.91it/s] 82%|████████▏ | 8817/10712 [1:40:39<16:19,  1.93it/s] 82%|████████▏ | 8818/10712 [1:40:39<16:07,  1.96it/s] 82%|████████▏ | 8819/10712 [1:40:40<15:59,  1.97it/s] 82%|████████▏ | 8820/10712 [1:40:40<15:55,  1.98it/s] 82%|████████▏ | 8821/10712 [1:40:41<15:49,  1.99it/s] 82%|████████▏ | 8822/10712 [1:40:41<15:47,  2.00it/s] 82%|████████▏ | 8823/10712 [1:40:42<15:44,  2.00it/s] 82%|████████▏ | 8824/10712 [1:40:42<15:42,  2.00it/s] 82%|████████▏ | 8825/10712 [1:40:43<15:40,  2.01it/s]                                                      {'loss': 3.6909, 'grad_norm': 0.2037484496831894, 'learning_rate': 9.160086804956214e-05, 'epoch': 0.82}
+ 82%|████████▏ | 8825/10712 [1:40:43<15:40,  2.01it/s] 82%|████████▏ | 8826/10712 [1:40:43<15:40,  2.01it/s] 82%|████████▏ | 8827/10712 [1:40:44<15:38,  2.01it/s] 82%|████████▏ | 8828/10712 [1:40:44<15:38,  2.01it/s] 82%|████████▏ | 8829/10712 [1:40:45<15:37,  2.01it/s] 82%|████████▏ | 8830/10712 [1:40:45<15:35,  2.01it/s] 82%|████████▏ | 8831/10712 [1:40:46<15:34,  2.01it/s] 82%|████████▏ | 8832/10712 [1:40:46<15:35,  2.01it/s] 82%|████████▏ | 8833/10712 [1:40:47<15:33,  2.01it/s] 82%|████████▏ | 8834/10712 [1:40:47<15:33,  2.01it/s] 82%|████████▏ | 8835/10712 [1:40:48<15:31,  2.02it/s] 82%|████████▏ | 8836/10712 [1:40:48<15:31,  2.01it/s] 82%|████████▏ | 8837/10712 [1:40:49<15:30,  2.01it/s] 83%|████████▎ | 8838/10712 [1:40:49<15:30,  2.01it/s] 83%|████████▎ | 8839/10712 [1:40:50<15:30,  2.01it/s] 83%|████████▎ | 8840/10712 [1:40:50<15:28,  2.02it/s] 83%|████████▎ | 8841/10712 [1:40:51<15:28,  2.02it/s] 83%|████████▎ | 8842/10712 [1:40:51<15:27,  2.02it/s] 83%|████████▎ | 8843/10712 [1:40:52<15:27,  2.01it/s] 83%|████████▎ | 8844/10712 [1:40:52<15:27,  2.01it/s] 83%|████████▎ | 8845/10712 [1:40:53<15:26,  2.01it/s] 83%|████████▎ | 8846/10712 [1:40:53<15:29,  2.01it/s] 83%|████████▎ | 8847/10712 [1:40:54<15:28,  2.01it/s] 83%|████████▎ | 8848/10712 [1:40:54<15:29,  2.00it/s] 83%|████████▎ | 8849/10712 [1:40:55<15:29,  2.00it/s] 83%|████████▎ | 8850/10712 [1:40:55<15:28,  2.01it/s]                                                      {'loss': 3.6882, 'grad_norm': 0.2024458795785904, 'learning_rate': 8.926426907794455e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8850/10712 [1:40:55<15:28,  2.01it/s] 83%|████████▎ | 8851/10712 [1:40:56<15:29,  2.00it/s] 83%|████████▎ | 8852/10712 [1:40:56<15:29,  2.00it/s] 83%|████████▎ | 8853/10712 [1:40:57<15:28,  2.00it/s] 83%|████████▎ | 8854/10712 [1:40:57<15:29,  2.00it/s] 83%|████████▎ | 8855/10712 [1:40:58<15:28,  2.00it/s] 83%|████████▎ | 8856/10712 [1:40:58<15:28,  2.00it/s] 83%|████████▎ | 8857/10712 [1:40:59<15:27,  2.00it/s] 83%|████████▎ | 8858/10712 [1:40:59<15:25,  2.00it/s] 83%|████████▎ | 8859/10712 [1:41:00<15:26,  2.00it/s] 83%|████████▎ | 8860/10712 [1:41:00<15:26,  2.00it/s] 83%|████████▎ | 8861/10712 [1:41:01<15:33,  1.98it/s] 83%|████████▎ | 8862/10712 [1:41:01<15:32,  1.98it/s] 83%|████████▎ | 8863/10712 [1:41:02<15:29,  1.99it/s] 83%|████████▎ | 8864/10712 [1:41:02<15:28,  1.99it/s] 83%|████████▎ | 8865/10712 [1:41:03<15:25,  1.99it/s] 83%|████████▎ | 8866/10712 [1:41:03<15:24,  2.00it/s] 83%|████████▎ | 8867/10712 [1:41:04<15:21,  2.00it/s] 83%|████████▎ | 8868/10712 [1:41:04<15:20,  2.00it/s] 83%|████████▎ | 8869/10712 [1:41:05<15:19,  2.00it/s] 83%|████████▎ | 8870/10712 [1:41:05<15:19,  2.00it/s] 83%|████████▎ | 8871/10712 [1:41:06<15:18,  2.00it/s] 83%|████████▎ | 8872/10712 [1:41:06<15:19,  2.00it/s] 83%|████████▎ | 8873/10712 [1:41:07<15:18,  2.00it/s] 83%|████████▎ | 8874/10712 [1:41:07<15:15,  2.01it/s] 83%|████████▎ | 8875/10712 [1:41:08<15:15,  2.01it/s]                                                      {'loss': 3.6918, 'grad_norm': 0.1989620327949524, 'learning_rate': 8.695493386804792e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8875/10712 [1:41:08<15:15,  2.01it/s] 83%|████████▎ | 8876/10712 [1:41:08<15:18,  2.00it/s] 83%|████████▎ | 8877/10712 [1:41:09<15:16,  2.00it/s] 83%|████████▎ | 8878/10712 [1:41:09<15:14,  2.00it/s] 83%|████████▎ | 8879/10712 [1:41:10<15:14,  2.00it/s] 83%|████████▎ | 8880/10712 [1:41:10<15:12,  2.01it/s] 83%|████████▎ | 8881/10712 [1:41:11<15:12,  2.01it/s] 83%|████████▎ | 8882/10712 [1:41:11<15:13,  2.00it/s] 83%|████████▎ | 8883/10712 [1:41:12<15:13,  2.00it/s] 83%|████████▎ | 8884/10712 [1:41:12<15:12,  2.00it/s] 83%|████████▎ | 8885/10712 [1:41:13<15:45,  1.93it/s] 83%|████████▎ | 8886/10712 [1:41:13<16:19,  1.86it/s] 83%|████████▎ | 8887/10712 [1:41:14<16:00,  1.90it/s] 83%|████████▎ | 8888/10712 [1:41:14<15:44,  1.93it/s] 83%|████████▎ | 8889/10712 [1:41:15<15:33,  1.95it/s] 83%|████████▎ | 8890/10712 [1:41:15<15:25,  1.97it/s] 83%|████████▎ | 8891/10712 [1:41:16<15:19,  1.98it/s] 83%|████████▎ | 8892/10712 [1:41:16<15:15,  1.99it/s] 83%|████████▎ | 8893/10712 [1:41:17<15:12,  1.99it/s] 83%|████████▎ | 8894/10712 [1:41:17<15:10,  2.00it/s] 83%|████████▎ | 8895/10712 [1:41:18<15:08,  2.00it/s] 83%|████████▎ | 8896/10712 [1:41:18<15:06,  2.00it/s] 83%|████████▎ | 8897/10712 [1:41:19<15:05,  2.00it/s] 83%|████████▎ | 8898/10712 [1:41:19<15:04,  2.01it/s] 83%|████████▎ | 8899/10712 [1:41:20<15:03,  2.01it/s] 83%|████████▎ | 8900/10712 [1:41:20<15:03,  2.01it/s]                                                      {'loss': 3.6824, 'grad_norm': 0.20173591375350952, 'learning_rate': 8.467301570861784e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8900/10712 [1:41:20<15:03,  2.01it/s] 83%|████████▎ | 8901/10712 [1:41:21<15:03,  2.00it/s] 83%|████████▎ | 8902/10712 [1:41:21<15:01,  2.01it/s] 83%|████████▎ | 8903/10712 [1:41:22<15:00,  2.01it/s] 83%|████████▎ | 8904/10712 [1:41:22<14:59,  2.01it/s] 83%|████████▎ | 8905/10712 [1:41:23<14:58,  2.01it/s] 83%|████████▎ | 8906/10712 [1:41:23<14:59,  2.01it/s] 83%|████████▎ | 8907/10712 [1:41:24<14:58,  2.01it/s] 83%|████████▎ | 8908/10712 [1:41:24<14:56,  2.01it/s] 83%|████████▎ | 8909/10712 [1:41:25<14:55,  2.01it/s] 83%|████████▎ | 8910/10712 [1:41:25<14:54,  2.02it/s] 83%|████████▎ | 8911/10712 [1:41:26<14:54,  2.01it/s] 83%|████████▎ | 8912/10712 [1:41:26<14:53,  2.01it/s] 83%|████████▎ | 8913/10712 [1:41:27<14:53,  2.01it/s] 83%|████████▎ | 8914/10712 [1:41:27<14:53,  2.01it/s] 83%|████████▎ | 8915/10712 [1:41:28<14:52,  2.01it/s] 83%|████████▎ | 8916/10712 [1:41:28<14:52,  2.01it/s] 83%|████████▎ | 8917/10712 [1:41:29<14:51,  2.01it/s] 83%|████████▎ | 8918/10712 [1:41:29<14:50,  2.01it/s] 83%|████████▎ | 8919/10712 [1:41:30<14:50,  2.01it/s] 83%|████████▎ | 8920/10712 [1:41:30<14:48,  2.02it/s] 83%|████████▎ | 8921/10712 [1:41:31<14:50,  2.01it/s] 83%|████████▎ | 8922/10712 [1:41:31<14:48,  2.01it/s] 83%|████████▎ | 8923/10712 [1:41:32<14:48,  2.01it/s] 83%|████████▎ | 8924/10712 [1:41:32<14:47,  2.02it/s] 83%|████████▎ | 8925/10712 [1:41:33<14:46,  2.02it/s]                                                      {'loss': 3.6834, 'grad_norm': 0.20509269833564758, 'learning_rate': 8.241866606851428e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8925/10712 [1:41:33<14:46,  2.02it/s] 83%|████████▎ | 8926/10712 [1:41:33<15:39,  1.90it/s] 83%|████████▎ | 8927/10712 [1:41:34<15:22,  1.93it/s] 83%|████████▎ | 8928/10712 [1:41:34<15:12,  1.96it/s] 83%|████████▎ | 8929/10712 [1:41:35<15:03,  1.97it/s] 83%|████████▎ | 8930/10712 [1:41:35<14:58,  1.98it/s] 83%|████████▎ | 8931/10712 [1:41:36<14:55,  1.99it/s] 83%|████████▎ | 8932/10712 [1:41:36<14:52,  1.99it/s] 83%|████████▎ | 8933/10712 [1:41:37<14:51,  2.00it/s] 83%|████████▎ | 8934/10712 [1:41:37<14:49,  2.00it/s] 83%|████████▎ | 8935/10712 [1:41:38<14:48,  2.00it/s] 83%|████████▎ | 8936/10712 [1:41:38<14:46,  2.00it/s] 83%|████████▎ | 8937/10712 [1:41:39<17:27,  1.69it/s] 83%|████████▎ | 8938/10712 [1:41:40<16:40,  1.77it/s] 83%|████████▎ | 8939/10712 [1:41:40<16:04,  1.84it/s] 83%|████████▎ | 8940/10712 [1:41:41<15:45,  1.87it/s] 83%|████████▎ | 8941/10712 [1:41:41<16:08,  1.83it/s] 83%|████████▎ | 8942/10712 [1:41:42<15:44,  1.87it/s] 83%|████████▎ | 8943/10712 [1:41:42<15:24,  1.91it/s] 83%|████████▎ | 8944/10712 [1:41:43<15:11,  1.94it/s] 84%|████████▎ | 8945/10712 [1:41:43<15:04,  1.95it/s] 84%|████████▎ | 8946/10712 [1:41:44<14:56,  1.97it/s] 84%|████████▎ | 8947/10712 [1:41:44<14:51,  1.98it/s] 84%|████████▎ | 8948/10712 [1:41:45<14:48,  1.99it/s] 84%|████████▎ | 8949/10712 [1:41:45<14:46,  1.99it/s] 84%|████████▎ | 8950/10712 [1:41:46<14:44,  1.99it/s]                                                      {'loss': 3.6869, 'grad_norm': 0.2080000340938568, 'learning_rate': 8.019203458665802e-05, 'epoch': 0.84}
+ 84%|████████▎ | 8950/10712 [1:41:46<14:44,  1.99it/s] 84%|████████▎ | 8951/10712 [1:41:46<14:44,  1.99it/s] 84%|████████▎ | 8952/10712 [1:41:47<14:42,  1.99it/s] 84%|████████▎ | 8953/10712 [1:41:47<14:40,  2.00it/s] 84%|████████▎ | 8954/10712 [1:41:48<14:39,  2.00it/s] 84%|████████▎ | 8955/10712 [1:41:48<14:39,  2.00it/s] 84%|████████▎ | 8956/10712 [1:41:49<14:36,  2.00it/s] 84%|████████▎ | 8957/10712 [1:41:49<14:35,  2.00it/s] 84%|████████▎ | 8958/10712 [1:41:50<14:36,  2.00it/s] 84%|████████▎ | 8959/10712 [1:41:50<14:59,  1.95it/s] 84%|████████▎ | 8960/10712 [1:41:51<14:52,  1.96it/s] 84%|████████▎ | 8961/10712 [1:41:51<14:46,  1.98it/s] 84%|████████▎ | 8962/10712 [1:41:52<14:42,  1.98it/s] 84%|████████▎ | 8963/10712 [1:41:52<14:40,  1.99it/s] 84%|████████▎ | 8964/10712 [1:41:53<14:36,  1.99it/s] 84%|████████▎ | 8965/10712 [1:41:53<14:34,  2.00it/s] 84%|████████▎ | 8966/10712 [1:41:54<14:31,  2.00it/s] 84%|████████▎ | 8967/10712 [1:41:54<14:30,  2.00it/s] 84%|████████▎ | 8968/10712 [1:41:55<14:30,  2.00it/s] 84%|████████▎ | 8969/10712 [1:41:55<14:28,  2.01it/s] 84%|████████▎ | 8970/10712 [1:41:56<14:27,  2.01it/s] 84%|████████▎ | 8971/10712 [1:41:56<14:27,  2.01it/s] 84%|████████▍ | 8972/10712 [1:41:57<14:27,  2.01it/s] 84%|████████▍ | 8973/10712 [1:41:57<14:25,  2.01it/s] 84%|████████▍ | 8974/10712 [1:41:58<17:08,  1.69it/s] 84%|████████▍ | 8975/10712 [1:41:58<16:18,  1.78it/s]                                                      {'loss': 3.6825, 'grad_norm': 0.202130526304245, 'learning_rate': 7.79932690620972e-05, 'epoch': 0.84}
+ 84%|████████▍ | 8975/10712 [1:41:58<16:18,  1.78it/s] 84%|████████▍ | 8976/10712 [1:41:59<15:46,  1.83it/s] 84%|████████▍ | 8977/10712 [1:41:59<15:20,  1.88it/s] 84%|████████▍ | 8978/10712 [1:42:00<15:03,  1.92it/s] 84%|████████▍ | 8979/10712 [1:42:00<14:50,  1.95it/s] 84%|████████▍ | 8980/10712 [1:42:01<14:40,  1.97it/s] 84%|████████▍ | 8981/10712 [1:42:01<14:35,  1.98it/s] 84%|████████▍ | 8982/10712 [1:42:02<14:29,  1.99it/s] 84%|████████▍ | 8983/10712 [1:42:02<14:27,  1.99it/s] 84%|████████▍ | 8984/10712 [1:42:03<14:24,  2.00it/s] 84%|████████▍ | 8985/10712 [1:42:03<14:21,  2.00it/s] 84%|████████▍ | 8986/10712 [1:42:04<14:21,  2.00it/s] 84%|████████▍ | 8987/10712 [1:42:04<14:19,  2.01it/s] 84%|████████▍ | 8988/10712 [1:42:05<14:17,  2.01it/s] 84%|████████▍ | 8989/10712 [1:42:05<14:17,  2.01it/s] 84%|████████▍ | 8990/10712 [1:42:06<14:17,  2.01it/s] 84%|████████▍ | 8991/10712 [1:42:06<14:17,  2.01it/s] 84%|████████▍ | 8992/10712 [1:42:07<14:18,  2.00it/s] 84%|████████▍ | 8993/10712 [1:42:07<14:19,  2.00it/s] 84%|████████▍ | 8994/10712 [1:42:08<14:18,  2.00it/s] 84%|████████▍ | 8995/10712 [1:42:08<14:16,  2.00it/s] 84%|████████▍ | 8996/10712 [1:42:09<14:16,  2.00it/s] 84%|████████▍ | 8997/10712 [1:42:09<14:15,  2.01it/s] 84%|████████▍ | 8998/10712 [1:42:10<14:14,  2.01it/s] 84%|████████▍ | 8999/10712 [1:42:10<14:13,  2.01it/s] 84%|████████▍ | 9000/10712 [1:42:11<14:14,  2.00it/s]                                                      {'loss': 3.6876, 'grad_norm': 0.20033104717731476, 'learning_rate': 7.582251544419754e-05, 'epoch': 0.84}
+ 84%|████████▍ | 9000/10712 [1:42:11<14:14,  2.00it/s] 84%|████████▍ | 9001/10712 [1:42:11<14:14,  2.00it/s] 84%|████████▍ | 9002/10712 [1:42:12<14:12,  2.01it/s] 84%|████████▍ | 9003/10712 [1:42:12<14:11,  2.01it/s] 84%|████████▍ | 9004/10712 [1:42:13<14:15,  2.00it/s] 84%|████████▍ | 9005/10712 [1:42:13<14:14,  2.00it/s] 84%|████████▍ | 9006/10712 [1:42:14<14:11,  2.00it/s] 84%|████████▍ | 9007/10712 [1:42:14<14:10,  2.00it/s] 84%|████████▍ | 9008/10712 [1:42:15<14:09,  2.01it/s] 84%|████████▍ | 9009/10712 [1:42:15<14:08,  2.01it/s] 84%|████████▍ | 9010/10712 [1:42:16<14:09,  2.00it/s] 84%|████████▍ | 9011/10712 [1:42:16<14:08,  2.00it/s] 84%|████████▍ | 9012/10712 [1:42:17<14:05,  2.01it/s] 84%|████████▍ | 9013/10712 [1:42:17<14:05,  2.01it/s] 84%|████████▍ | 9014/10712 [1:42:18<14:04,  2.01it/s] 84%|████████▍ | 9015/10712 [1:42:18<14:03,  2.01it/s] 84%|████████▍ | 9016/10712 [1:42:19<14:02,  2.01it/s] 84%|████████▍ | 9017/10712 [1:42:19<14:02,  2.01it/s] 84%|████████▍ | 9018/10712 [1:42:20<14:01,  2.01it/s] 84%|████████▍ | 9019/10712 [1:42:20<14:01,  2.01it/s] 84%|████████▍ | 9020/10712 [1:42:21<14:00,  2.01it/s] 84%|████████▍ | 9021/10712 [1:42:21<13:59,  2.01it/s] 84%|████████▍ | 9022/10712 [1:42:22<14:02,  2.00it/s] 84%|████████▍ | 9023/10712 [1:42:22<14:01,  2.01it/s] 84%|████████▍ | 9024/10712 [1:42:23<14:01,  2.01it/s] 84%|████████▍ | 9025/10712 [1:42:23<14:01,  2.01it/s]                                                      {'loss': 3.6819, 'grad_norm': 0.20446175336837769, 'learning_rate': 7.367991782295391e-05, 'epoch': 0.84}
+ 84%|████████▍ | 9025/10712 [1:42:23<14:01,  2.01it/s] 84%|████████▍ | 9026/10712 [1:42:24<14:03,  2.00it/s] 84%|████████▍ | 9027/10712 [1:42:24<14:02,  2.00it/s] 84%|████████▍ | 9028/10712 [1:42:25<14:02,  2.00it/s] 84%|████████▍ | 9029/10712 [1:42:25<14:00,  2.00it/s] 84%|████████▍ | 9030/10712 [1:42:26<14:00,  2.00it/s] 84%|████████▍ | 9031/10712 [1:42:26<14:01,  2.00it/s] 84%|████████▍ | 9032/10712 [1:42:27<13:59,  2.00it/s] 84%|████████▍ | 9033/10712 [1:42:27<13:58,  2.00it/s] 84%|████████▍ | 9034/10712 [1:42:28<14:05,  1.98it/s] 84%|████████▍ | 9035/10712 [1:42:28<14:03,  1.99it/s] 84%|████████▍ | 9036/10712 [1:42:29<14:00,  1.99it/s] 84%|████████▍ | 9037/10712 [1:42:29<13:59,  2.00it/s] 84%|████████▍ | 9038/10712 [1:42:30<13:58,  2.00it/s] 84%|████████▍ | 9039/10712 [1:42:30<13:57,  2.00it/s] 84%|████████▍ | 9040/10712 [1:42:31<13:55,  2.00it/s] 84%|████████▍ | 9041/10712 [1:42:31<13:54,  2.00it/s] 84%|████████▍ | 9042/10712 [1:42:32<13:52,  2.01it/s] 84%|████████▍ | 9043/10712 [1:42:32<13:50,  2.01it/s] 84%|████████▍ | 9044/10712 [1:42:33<13:56,  1.99it/s] 84%|████████▍ | 9045/10712 [1:42:33<13:55,  2.00it/s] 84%|████████▍ | 9046/10712 [1:42:34<13:54,  2.00it/s] 84%|████████▍ | 9047/10712 [1:42:34<13:54,  2.00it/s] 84%|████████▍ | 9048/10712 [1:42:35<13:52,  2.00it/s] 84%|████████▍ | 9049/10712 [1:42:35<13:50,  2.00it/s] 84%|████████▍ | 9050/10712 [1:42:36<13:50,  2.00it/s]                                                      {'loss': 3.6933, 'grad_norm': 0.19894279539585114, 'learning_rate': 7.156561841942638e-05, 'epoch': 0.84}
+ 84%|████████▍ | 9050/10712 [1:42:36<13:50,  2.00it/s] 84%|████████▍ | 9051/10712 [1:42:36<13:50,  2.00it/s] 85%|████████▍ | 9052/10712 [1:42:37<13:47,  2.01it/s] 85%|████████▍ | 9053/10712 [1:42:37<13:47,  2.00it/s] 85%|████████▍ | 9054/10712 [1:42:38<13:47,  2.00it/s] 85%|████████▍ | 9055/10712 [1:42:38<13:44,  2.01it/s] 85%|████████▍ | 9056/10712 [1:42:39<13:46,  2.00it/s] 85%|████████▍ | 9057/10712 [1:42:39<13:46,  2.00it/s] 85%|████████▍ | 9058/10712 [1:42:40<13:48,  2.00it/s] 85%|████████▍ | 9059/10712 [1:42:40<13:46,  2.00it/s] 85%|████████▍ | 9060/10712 [1:42:41<13:45,  2.00it/s] 85%|████████▍ | 9061/10712 [1:42:41<13:46,  2.00it/s] 85%|████████▍ | 9062/10712 [1:42:42<13:44,  2.00it/s] 85%|████████▍ | 9063/10712 [1:42:42<13:46,  1.99it/s] 85%|████████▍ | 9064/10712 [1:42:43<13:47,  1.99it/s] 85%|████████▍ | 9065/10712 [1:42:43<13:48,  1.99it/s] 85%|████████▍ | 9066/10712 [1:42:44<13:47,  1.99it/s] 85%|████████▍ | 9067/10712 [1:42:44<13:45,  1.99it/s] 85%|████████▍ | 9068/10712 [1:42:45<13:44,  1.99it/s] 85%|████████▍ | 9069/10712 [1:42:45<13:43,  1.99it/s] 85%|████████▍ | 9070/10712 [1:42:46<13:43,  2.00it/s] 85%|████████▍ | 9071/10712 [1:42:46<13:43,  1.99it/s] 85%|████████▍ | 9072/10712 [1:42:47<13:56,  1.96it/s] 85%|████████▍ | 9073/10712 [1:42:47<13:51,  1.97it/s] 85%|████████▍ | 9074/10712 [1:42:48<13:44,  1.99it/s] 85%|████████▍ | 9075/10712 [1:42:48<13:41,  1.99it/s]                                                      {'loss': 3.6879, 'grad_norm': 0.19803209602832794, 'learning_rate': 6.947975757629937e-05, 'epoch': 0.85}
+ 85%|████████▍ | 9075/10712 [1:42:48<13:41,  1.99it/s] 85%|████████▍ | 9076/10712 [1:42:49<13:40,  1.99it/s] 85%|████████▍ | 9077/10712 [1:42:49<13:36,  2.00it/s] 85%|████████▍ | 9078/10712 [1:42:50<13:35,  2.00it/s] 85%|████████▍ | 9079/10712 [1:42:50<13:35,  2.00it/s] 85%|████████▍ | 9080/10712 [1:42:51<13:33,  2.01it/s] 85%|████████▍ | 9081/10712 [1:42:51<13:33,  2.01it/s] 85%|████████▍ | 9082/10712 [1:42:52<13:34,  2.00it/s] 85%|████████▍ | 9083/10712 [1:42:52<13:35,  2.00it/s] 85%|████████▍ | 9084/10712 [1:42:53<13:40,  1.98it/s] 85%|████████▍ | 9085/10712 [1:42:53<13:39,  1.98it/s] 85%|████████▍ | 9086/10712 [1:42:54<13:38,  1.99it/s] 85%|████████▍ | 9087/10712 [1:42:54<13:36,  1.99it/s] 85%|████████▍ | 9088/10712 [1:42:55<13:35,  1.99it/s] 85%|████████▍ | 9089/10712 [1:42:55<13:32,  2.00it/s] 85%|████████▍ | 9090/10712 [1:42:56<13:31,  2.00it/s] 85%|████████▍ | 9091/10712 [1:42:56<13:29,  2.00it/s] 85%|████████▍ | 9092/10712 [1:42:57<13:27,  2.01it/s] 85%|████████▍ | 9093/10712 [1:42:57<13:27,  2.00it/s] 85%|████████▍ | 9094/10712 [1:42:58<13:26,  2.01it/s] 85%|████████▍ | 9095/10712 [1:42:58<13:25,  2.01it/s] 85%|████████▍ | 9096/10712 [1:42:59<13:25,  2.01it/s] 85%|████████▍ | 9097/10712 [1:42:59<13:24,  2.01it/s] 85%|████████▍ | 9098/10712 [1:43:00<13:23,  2.01it/s] 85%|████████▍ | 9099/10712 [1:43:00<13:23,  2.01it/s] 85%|████████▍ | 9100/10712 [1:43:01<13:22,  2.01it/s]                                                      {'loss': 3.6857, 'grad_norm': 0.20688019692897797, 'learning_rate': 6.742247374856664e-05, 'epoch': 0.85}
+ 85%|████████▍ | 9100/10712 [1:43:01<13:22,  2.01it/s] 85%|████████▍ | 9101/10712 [1:43:01<13:24,  2.00it/s] 85%|████████▍ | 9102/10712 [1:43:02<13:47,  1.95it/s] 85%|████████▍ | 9103/10712 [1:43:02<13:42,  1.96it/s] 85%|████████▍ | 9104/10712 [1:43:03<13:37,  1.97it/s] 85%|████████▍ | 9105/10712 [1:43:03<13:35,  1.97it/s] 85%|████████▌ | 9106/10712 [1:43:04<13:30,  1.98it/s] 85%|████████▌ | 9107/10712 [1:43:04<13:28,  1.98it/s] 85%|████████▌ | 9108/10712 [1:43:05<13:26,  1.99it/s] 85%|████████▌ | 9109/10712 [1:43:05<13:25,  1.99it/s] 85%|████████▌ | 9110/10712 [1:43:06<13:22,  2.00it/s] 85%|████████▌ | 9111/10712 [1:43:06<13:20,  2.00it/s] 85%|████████▌ | 9112/10712 [1:43:07<13:20,  2.00it/s] 85%|████████▌ | 9113/10712 [1:43:07<13:19,  2.00it/s] 85%|████████▌ | 9114/10712 [1:43:08<13:17,  2.00it/s] 85%|████████▌ | 9115/10712 [1:43:08<13:17,  2.00it/s] 85%|████████▌ | 9116/10712 [1:43:09<13:17,  2.00it/s] 85%|████████▌ | 9117/10712 [1:43:09<13:15,  2.00it/s] 85%|████████▌ | 9118/10712 [1:43:10<13:14,  2.01it/s] 85%|████████▌ | 9119/10712 [1:43:10<13:13,  2.01it/s] 85%|████████▌ | 9120/10712 [1:43:11<13:13,  2.01it/s] 85%|████████▌ | 9121/10712 [1:43:11<13:12,  2.01it/s] 85%|████████▌ | 9122/10712 [1:43:12<13:10,  2.01it/s] 85%|████████▌ | 9123/10712 [1:43:12<13:10,  2.01it/s] 85%|████████▌ | 9124/10712 [1:43:13<13:09,  2.01it/s] 85%|████████▌ | 9125/10712 [1:43:13<13:10,  2.01it/s]                                                      {'loss': 3.6878, 'grad_norm': 0.19367839395999908, 'learning_rate': 6.539390349434054e-05, 'epoch': 0.85}
+ 85%|████████▌ | 9125/10712 [1:43:13<13:10,  2.01it/s] 85%|████████▌ | 9126/10712 [1:43:14<13:10,  2.01it/s] 85%|████████▌ | 9127/10712 [1:43:14<13:08,  2.01it/s] 85%|████████▌ | 9128/10712 [1:43:15<13:06,  2.01it/s] 85%|████████▌ | 9129/10712 [1:43:15<13:06,  2.01it/s] 85%|████████▌ | 9130/10712 [1:43:16<13:05,  2.01it/s] 85%|████████▌ | 9131/10712 [1:43:16<13:06,  2.01it/s] 85%|████████▌ | 9132/10712 [1:43:17<13:05,  2.01it/s] 85%|████████▌ | 9133/10712 [1:43:17<13:05,  2.01it/s] 85%|████████▌ | 9134/10712 [1:43:18<13:10,  2.00it/s] 85%|████████▌ | 9135/10712 [1:43:19<13:47,  1.91it/s] 85%|████████▌ | 9136/10712 [1:43:19<13:34,  1.94it/s] 85%|████████▌ | 9137/10712 [1:43:20<13:25,  1.96it/s] 85%|████████▌ | 9138/10712 [1:43:20<13:19,  1.97it/s] 85%|████████▌ | 9139/10712 [1:43:21<13:14,  1.98it/s] 85%|████████▌ | 9140/10712 [1:43:21<13:10,  1.99it/s] 85%|████████▌ | 9141/10712 [1:43:22<13:08,  1.99it/s] 85%|████████▌ | 9142/10712 [1:43:22<13:07,  1.99it/s] 85%|████████▌ | 9143/10712 [1:43:23<13:05,  2.00it/s] 85%|████████▌ | 9144/10712 [1:43:23<13:04,  2.00it/s] 85%|████████▌ | 9145/10712 [1:43:24<13:02,  2.00it/s] 85%|████████▌ | 9146/10712 [1:43:24<13:02,  2.00it/s] 85%|████████▌ | 9147/10712 [1:43:25<13:03,  2.00it/s] 85%|████████▌ | 9148/10712 [1:43:25<13:02,  2.00it/s] 85%|████████▌ | 9149/10712 [1:43:26<13:00,  2.00it/s] 85%|████████▌ | 9150/10712 [1:43:26<13:01,  2.00it/s]                                                      {'loss': 3.6837, 'grad_norm': 0.20150558650493622, 'learning_rate': 6.339418146578746e-05, 'epoch': 0.85}
+ 85%|████████▌ | 9150/10712 [1:43:26<13:01,  2.00it/s] 85%|████████▌ | 9151/10712 [1:43:27<13:01,  2.00it/s] 85%|████████▌ | 9152/10712 [1:43:27<13:00,  2.00it/s] 85%|████████▌ | 9153/10712 [1:43:28<13:00,  2.00it/s] 85%|████████▌ | 9154/10712 [1:43:28<12:58,  2.00it/s] 85%|████████▌ | 9155/10712 [1:43:29<12:58,  2.00it/s] 85%|████████▌ | 9156/10712 [1:43:29<12:56,  2.00it/s] 85%|████████▌ | 9157/10712 [1:43:30<12:55,  2.01it/s] 85%|████████▌ | 9158/10712 [1:43:30<12:54,  2.01it/s] 86%|████████▌ | 9159/10712 [1:43:31<12:53,  2.01it/s] 86%|████████▌ | 9160/10712 [1:43:31<12:52,  2.01it/s] 86%|████████▌ | 9161/10712 [1:43:32<12:52,  2.01it/s] 86%|████████▌ | 9162/10712 [1:43:32<12:50,  2.01it/s] 86%|████████▌ | 9163/10712 [1:43:33<12:51,  2.01it/s] 86%|████████▌ | 9164/10712 [1:43:33<12:51,  2.01it/s] 86%|████████▌ | 9165/10712 [1:43:34<12:51,  2.01it/s] 86%|████████▌ | 9166/10712 [1:43:34<12:49,  2.01it/s] 86%|████████▌ | 9167/10712 [1:43:34<12:49,  2.01it/s] 86%|████████▌ | 9168/10712 [1:43:35<12:48,  2.01it/s] 86%|████████▌ | 9169/10712 [1:43:35<12:47,  2.01it/s] 86%|████████▌ | 9170/10712 [1:43:36<12:46,  2.01it/s] 86%|████████▌ | 9171/10712 [1:43:36<12:46,  2.01it/s] 86%|████████▌ | 9172/10712 [1:43:37<12:45,  2.01it/s] 86%|████████▌ | 9173/10712 [1:43:37<12:45,  2.01it/s] 86%|████████▌ | 9174/10712 [1:43:38<12:44,  2.01it/s] 86%|████████▌ | 9175/10712 [1:43:38<12:45,  2.01it/s]                                                      {'loss': 3.6806, 'grad_norm': 0.19965173304080963, 'learning_rate': 6.142344040019049e-05, 'epoch': 0.86}
+ 86%|████████▌ | 9175/10712 [1:43:38<12:45,  2.01it/s] 86%|████████▌ | 9176/10712 [1:43:39<12:45,  2.01it/s] 86%|████████▌ | 9177/10712 [1:43:39<12:44,  2.01it/s] 86%|████████▌ | 9178/10712 [1:43:40<12:43,  2.01it/s] 86%|████████▌ | 9179/10712 [1:43:40<12:44,  2.01it/s] 86%|████████▌ | 9180/10712 [1:43:41<12:46,  2.00it/s] 86%|████████▌ | 9181/10712 [1:43:41<12:46,  2.00it/s] 86%|████████▌ | 9182/10712 [1:43:42<12:45,  2.00it/s] 86%|████████▌ | 9183/10712 [1:43:42<12:43,  2.00it/s] 86%|████████▌ | 9184/10712 [1:43:43<12:43,  2.00it/s] 86%|████████▌ | 9185/10712 [1:43:43<12:43,  2.00it/s] 86%|████████▌ | 9186/10712 [1:43:44<12:45,  1.99it/s] 86%|████████▌ | 9187/10712 [1:43:44<12:43,  2.00it/s] 86%|████████▌ | 9188/10712 [1:43:45<12:42,  2.00it/s] 86%|████████▌ | 9189/10712 [1:43:45<12:43,  2.00it/s] 86%|████████▌ | 9190/10712 [1:43:46<12:43,  1.99it/s] 86%|████████▌ | 9191/10712 [1:43:46<12:43,  1.99it/s] 86%|████████▌ | 9192/10712 [1:43:47<12:40,  2.00it/s] 86%|████████▌ | 9193/10712 [1:43:47<12:41,  2.00it/s] 86%|████████▌ | 9194/10712 [1:43:48<12:38,  2.00it/s] 86%|████████▌ | 9195/10712 [1:43:48<12:37,  2.00it/s] 86%|████████▌ | 9196/10712 [1:43:49<12:36,  2.00it/s] 86%|████████▌ | 9197/10712 [1:43:50<13:13,  1.91it/s] 86%|████████▌ | 9198/10712 [1:43:50<13:01,  1.94it/s] 86%|████████▌ | 9199/10712 [1:43:51<12:54,  1.95it/s] 86%|████████▌ | 9200/10712 [1:43:51<12:48,  1.97it/s]                                                      {'loss': 3.6853, 'grad_norm': 0.20756445825099945, 'learning_rate': 5.948181111113765e-05, 'epoch': 0.86}
+ 86%|████████▌ | 9200/10712 [1:43:51<12:48,  1.97it/s] 86%|████████▌ | 9201/10712 [1:43:52<12:44,  1.98it/s] 86%|████████▌ | 9202/10712 [1:43:52<12:40,  1.99it/s] 86%|████████▌ | 9203/10712 [1:43:53<12:50,  1.96it/s] 86%|████████▌ | 9204/10712 [1:43:53<13:19,  1.89it/s] 86%|████████▌ | 9205/10712 [1:43:54<13:05,  1.92it/s] 86%|████████▌ | 9206/10712 [1:43:54<12:55,  1.94it/s] 86%|████████▌ | 9207/10712 [1:43:55<12:46,  1.96it/s] 86%|████████▌ | 9208/10712 [1:43:55<12:41,  1.97it/s] 86%|████████▌ | 9209/10712 [1:43:56<12:38,  1.98it/s] 86%|████████▌ | 9210/10712 [1:43:56<12:33,  1.99it/s] 86%|████████▌ | 9211/10712 [1:43:57<12:32,  1.99it/s] 86%|████████▌ | 9212/10712 [1:43:57<12:32,  1.99it/s] 86%|████████▌ | 9213/10712 [1:43:58<12:31,  1.99it/s] 86%|████████▌ | 9214/10712 [1:43:58<12:29,  2.00it/s] 86%|████████▌ | 9215/10712 [1:43:59<12:28,  2.00it/s] 86%|████████▌ | 9216/10712 [1:43:59<12:28,  2.00it/s] 86%|████████▌ | 9217/10712 [1:44:00<12:28,  2.00it/s] 86%|████████▌ | 9218/10712 [1:44:00<12:27,  2.00it/s] 86%|████████▌ | 9219/10712 [1:44:01<12:25,  2.00it/s] 86%|████████▌ | 9220/10712 [1:44:01<12:24,  2.00it/s] 86%|████████▌ | 9221/10712 [1:44:02<12:24,  2.00it/s] 86%|████████▌ | 9222/10712 [1:44:02<12:23,  2.00it/s] 86%|████████▌ | 9223/10712 [1:44:03<12:22,  2.01it/s] 86%|████████▌ | 9224/10712 [1:44:03<12:23,  2.00it/s] 86%|████████▌ | 9225/10712 [1:44:04<12:23,  2.00it/s]                                                      {'loss': 3.6796, 'grad_norm': 0.203931987285614, 'learning_rate': 5.7569422479840036e-05, 'epoch': 0.86}
+ 86%|████████▌ | 9225/10712 [1:44:04<12:23,  2.00it/s] 86%|████████▌ | 9226/10712 [1:44:04<12:23,  2.00it/s] 86%|████████▌ | 9227/10712 [1:44:05<12:22,  2.00it/s] 86%|████████▌ | 9228/10712 [1:44:05<12:22,  2.00it/s] 86%|████████▌ | 9229/10712 [1:44:06<12:22,  2.00it/s] 86%|████████▌ | 9230/10712 [1:44:06<12:23,  1.99it/s] 86%|████████▌ | 9231/10712 [1:44:07<12:21,  2.00it/s] 86%|████████▌ | 9232/10712 [1:44:07<12:20,  2.00it/s] 86%|████████▌ | 9233/10712 [1:44:08<12:21,  2.00it/s] 86%|████████▌ | 9234/10712 [1:44:08<12:20,  2.00it/s] 86%|████████▌ | 9235/10712 [1:44:09<12:19,  2.00it/s] 86%|████████▌ | 9236/10712 [1:44:09<12:19,  2.00it/s] 86%|████████▌ | 9237/10712 [1:44:10<12:19,  2.00it/s] 86%|████████▌ | 9238/10712 [1:44:10<12:18,  2.00it/s] 86%|████████▌ | 9239/10712 [1:44:11<12:17,  2.00it/s] 86%|████████▋ | 9240/10712 [1:44:11<12:15,  2.00it/s] 86%|████████▋ | 9241/10712 [1:44:12<12:14,  2.00it/s] 86%|████████▋ | 9242/10712 [1:44:12<12:12,  2.01it/s] 86%|████████▋ | 9243/10712 [1:44:13<12:11,  2.01it/s] 86%|████████▋ | 9244/10712 [1:44:13<12:13,  2.00it/s] 86%|████████▋ | 9245/10712 [1:44:14<12:12,  2.00it/s] 86%|████████▋ | 9246/10712 [1:44:14<12:13,  2.00it/s] 86%|████████▋ | 9247/10712 [1:44:15<12:13,  2.00it/s] 86%|████████▋ | 9248/10712 [1:44:15<12:13,  1.99it/s] 86%|████████▋ | 9249/10712 [1:44:16<12:12,  2.00it/s] 86%|████████▋ | 9250/10712 [1:44:16<12:12,  2.00it/s]                                                      {'loss': 3.6751, 'grad_norm': 0.1984408050775528, 'learning_rate': 5.5686401446575555e-05, 'epoch': 0.86}
+ 86%|████████▋ | 9250/10712 [1:44:16<12:12,  2.00it/s] 86%|████████▋ | 9251/10712 [1:44:17<12:12,  2.00it/s] 86%|████████▋ | 9252/10712 [1:44:17<12:12,  1.99it/s] 86%|████████▋ | 9253/10712 [1:44:18<12:11,  1.99it/s] 86%|████████▋ | 9254/10712 [1:44:18<12:10,  2.00it/s] 86%|████████▋ | 9255/10712 [1:44:19<12:09,  2.00it/s] 86%|████████▋ | 9256/10712 [1:44:19<12:09,  2.00it/s] 86%|████████▋ | 9257/10712 [1:44:20<12:07,  2.00it/s] 86%|████████▋ | 9258/10712 [1:44:20<12:06,  2.00it/s] 86%|████████▋ | 9259/10712 [1:44:21<12:06,  2.00it/s] 86%|████████▋ | 9260/10712 [1:44:21<12:05,  2.00it/s] 86%|████████▋ | 9261/10712 [1:44:22<12:05,  2.00it/s] 86%|████████▋ | 9262/10712 [1:44:22<12:03,  2.00it/s] 86%|████████▋ | 9263/10712 [1:44:23<12:03,  2.00it/s] 86%|████████▋ | 9264/10712 [1:44:23<12:02,  2.00it/s] 86%|████████▋ | 9265/10712 [1:44:24<12:01,  2.01it/s] 87%|████████▋ | 9266/10712 [1:44:24<12:07,  1.99it/s] 87%|████████▋ | 9267/10712 [1:44:25<12:04,  1.99it/s] 87%|████████▋ | 9268/10712 [1:44:25<12:02,  2.00it/s] 87%|████████▋ | 9269/10712 [1:44:26<12:02,  2.00it/s] 87%|████████▋ | 9270/10712 [1:44:26<12:01,  2.00it/s] 87%|████████▋ | 9271/10712 [1:44:27<11:58,  2.00it/s] 87%|████████▋ | 9272/10712 [1:44:27<11:59,  2.00it/s] 87%|████████▋ | 9273/10712 [1:44:28<11:58,  2.00it/s] 87%|████████▋ | 9274/10712 [1:44:28<11:55,  2.01it/s] 87%|████████▋ | 9275/10712 [1:44:29<11:55,  2.01it/s]                                                      {'loss': 3.6795, 'grad_norm': 0.19637839496135712, 'learning_rate': 5.383287300226419e-05, 'epoch': 0.87}
+ 87%|████████▋ | 9275/10712 [1:44:29<11:55,  2.01it/s] 87%|████████▋ | 9276/10712 [1:44:29<11:57,  2.00it/s] 87%|████████▋ | 9277/10712 [1:44:30<11:56,  2.00it/s] 87%|████████▋ | 9278/10712 [1:44:30<11:55,  2.00it/s] 87%|████████▋ | 9279/10712 [1:44:31<11:55,  2.00it/s] 87%|████████▋ | 9280/10712 [1:44:31<11:55,  2.00it/s] 87%|████████▋ | 9281/10712 [1:44:32<11:55,  2.00it/s] 87%|████████▋ | 9282/10712 [1:44:32<11:54,  2.00it/s] 87%|████████▋ | 9283/10712 [1:44:33<11:53,  2.00it/s] 87%|████████▋ | 9284/10712 [1:44:33<11:53,  2.00it/s] 87%|████████▋ | 9285/10712 [1:44:34<11:53,  2.00it/s] 87%|████████▋ | 9286/10712 [1:44:34<11:51,  2.00it/s] 87%|████████▋ | 9287/10712 [1:44:35<11:51,  2.00it/s] 87%|████████▋ | 9288/10712 [1:44:35<11:51,  2.00it/s] 87%|████████▋ | 9289/10712 [1:44:36<11:50,  2.00it/s] 87%|████████▋ | 9290/10712 [1:44:36<11:50,  2.00it/s] 87%|████████▋ | 9291/10712 [1:44:37<11:49,  2.00it/s] 87%|████████▋ | 9292/10712 [1:44:37<11:50,  2.00it/s] 87%|████████▋ | 9293/10712 [1:44:38<11:47,  2.01it/s] 87%|████████▋ | 9294/10712 [1:44:38<11:46,  2.01it/s] 87%|████████▋ | 9295/10712 [1:44:39<11:46,  2.01it/s] 87%|████████▋ | 9296/10712 [1:44:39<11:45,  2.01it/s] 87%|████████▋ | 9297/10712 [1:44:40<11:44,  2.01it/s] 87%|████████▋ | 9298/10712 [1:44:40<11:43,  2.01it/s] 87%|████████▋ | 9299/10712 [1:44:41<11:43,  2.01it/s] 87%|████████▋ | 9300/10712 [1:44:41<11:42,  2.01it/s]                                                      {'loss': 3.6793, 'grad_norm': 0.1984408050775528, 'learning_rate': 5.2008960180170264e-05, 'epoch': 0.87}
+ 87%|████████▋ | 9300/10712 [1:44:41<11:42,  2.01it/s] 87%|████████▋ | 9301/10712 [1:44:42<11:42,  2.01it/s] 87%|████████▋ | 9302/10712 [1:44:42<11:42,  2.01it/s] 87%|████████▋ | 9303/10712 [1:44:43<11:40,  2.01it/s] 87%|████████▋ | 9304/10712 [1:44:43<11:40,  2.01it/s] 87%|████████▋ | 9305/10712 [1:44:44<11:39,  2.01it/s] 87%|████████▋ | 9306/10712 [1:44:44<11:39,  2.01it/s] 87%|████████▋ | 9307/10712 [1:44:45<11:38,  2.01it/s] 87%|████████▋ | 9308/10712 [1:44:45<11:37,  2.01it/s] 87%|████████▋ | 9309/10712 [1:44:46<11:37,  2.01it/s] 87%|████████▋ | 9310/10712 [1:44:46<11:36,  2.01it/s] 87%|████████▋ | 9311/10712 [1:44:47<11:35,  2.01it/s] 87%|████████▋ | 9312/10712 [1:44:47<11:34,  2.02it/s] 87%|████████▋ | 9313/10712 [1:44:48<11:33,  2.02it/s] 87%|████████▋ | 9314/10712 [1:44:48<11:33,  2.01it/s] 87%|████████▋ | 9315/10712 [1:44:49<11:32,  2.02it/s] 87%|████████▋ | 9316/10712 [1:44:49<11:32,  2.01it/s] 87%|████████▋ | 9317/10712 [1:44:50<11:31,  2.02it/s] 87%|████████▋ | 9318/10712 [1:44:50<11:31,  2.02it/s] 87%|████████▋ | 9319/10712 [1:44:51<11:29,  2.02it/s] 87%|████████▋ | 9320/10712 [1:44:51<11:30,  2.02it/s] 87%|████████▋ | 9321/10712 [1:44:52<11:28,  2.02it/s] 87%|████████▋ | 9322/10712 [1:44:52<11:29,  2.02it/s] 87%|████████▋ | 9323/10712 [1:44:53<11:29,  2.01it/s] 87%|████████▋ | 9324/10712 [1:44:53<11:31,  2.01it/s] 87%|████████▋ | 9325/10712 [1:44:54<11:30,  2.01it/s]                                                      {'loss': 3.6773, 'grad_norm': 0.19666090607643127, 'learning_rate': 5.021478404773666e-05, 'epoch': 0.87}
+ 87%|████████▋ | 9325/10712 [1:44:54<11:30,  2.01it/s] 87%|████████▋ | 9326/10712 [1:44:54<11:32,  2.00it/s] 87%|████████▋ | 9327/10712 [1:44:55<11:31,  2.00it/s] 87%|████████▋ | 9328/10712 [1:44:55<11:32,  2.00it/s] 87%|████████▋ | 9329/10712 [1:44:56<11:31,  2.00it/s] 87%|████████▋ | 9330/10712 [1:44:56<11:31,  2.00it/s] 87%|████████▋ | 9331/10712 [1:44:57<11:29,  2.00it/s] 87%|████████▋ | 9332/10712 [1:44:57<11:30,  2.00it/s] 87%|████████▋ | 9333/10712 [1:44:58<11:30,  2.00it/s] 87%|████████▋ | 9334/10712 [1:44:58<11:30,  2.00it/s] 87%|████████▋ | 9335/10712 [1:44:59<11:28,  2.00it/s] 87%|████████▋ | 9336/10712 [1:44:59<11:26,  2.00it/s] 87%|████████▋ | 9337/10712 [1:45:00<11:27,  2.00it/s] 87%|████████▋ | 9338/10712 [1:45:00<11:28,  2.00it/s] 87%|████████▋ | 9339/10712 [1:45:01<11:28,  1.99it/s] 87%|████████▋ | 9340/10712 [1:45:01<11:27,  2.00it/s] 87%|████████▋ | 9341/10712 [1:45:02<11:26,  2.00it/s] 87%|████████▋ | 9342/10712 [1:45:02<11:25,  2.00it/s] 87%|████████▋ | 9343/10712 [1:45:03<11:24,  2.00it/s] 87%|████████▋ | 9344/10712 [1:45:03<11:24,  2.00it/s] 87%|████████▋ | 9345/10712 [1:45:04<11:22,  2.00it/s] 87%|████████▋ | 9346/10712 [1:45:04<11:23,  2.00it/s] 87%|████████▋ | 9347/10712 [1:45:05<11:22,  2.00it/s] 87%|████████▋ | 9348/10712 [1:45:05<11:22,  2.00it/s] 87%|████████▋ | 9349/10712 [1:45:06<11:21,  2.00it/s] 87%|████████▋ | 9350/10712 [1:45:06<11:20,  2.00it/s]                                                      {'loss': 3.6733, 'grad_norm': 0.19814348220825195, 'learning_rate': 4.8450463698547996e-05, 'epoch': 0.87}
+ 87%|████████▋ | 9350/10712 [1:45:06<11:20,  2.00it/s] 87%|████████▋ | 9351/10712 [1:45:07<11:20,  2.00it/s] 87%|████████▋ | 9352/10712 [1:45:07<11:20,  2.00it/s] 87%|████████▋ | 9353/10712 [1:45:08<11:18,  2.00it/s] 87%|████████▋ | 9354/10712 [1:45:08<11:18,  2.00it/s] 87%|████████▋ | 9355/10712 [1:45:09<11:18,  2.00it/s] 87%|████████▋ | 9356/10712 [1:45:09<11:19,  2.00it/s] 87%|████████▋ | 9357/10712 [1:45:10<11:18,  2.00it/s] 87%|████████▋ | 9358/10712 [1:45:10<11:16,  2.00it/s] 87%|████████▋ | 9359/10712 [1:45:11<11:15,  2.00it/s] 87%|████████▋ | 9360/10712 [1:45:11<11:15,  2.00it/s] 87%|████████▋ | 9361/10712 [1:45:12<11:14,  2.00it/s] 87%|████████▋ | 9362/10712 [1:45:12<11:13,  2.01it/s] 87%|████████▋ | 9363/10712 [1:45:13<11:13,  2.00it/s] 87%|████████▋ | 9364/10712 [1:45:13<11:13,  2.00it/s] 87%|████████▋ | 9365/10712 [1:45:14<11:12,  2.00it/s] 87%|████████▋ | 9366/10712 [1:45:14<11:11,  2.00it/s] 87%|████████▋ | 9367/10712 [1:45:15<11:11,  2.00it/s] 87%|████████▋ | 9368/10712 [1:45:15<11:10,  2.00it/s] 87%|████████▋ | 9369/10712 [1:45:16<11:09,  2.01it/s] 87%|████████▋ | 9370/10712 [1:45:16<11:09,  2.00it/s] 87%|████████▋ | 9371/10712 [1:45:17<11:09,  2.00it/s] 87%|████████▋ | 9372/10712 [1:45:17<11:08,  2.00it/s] 88%|████████▊ | 9373/10712 [1:45:18<11:08,  2.00it/s] 88%|████████▊ | 9374/10712 [1:45:18<11:06,  2.01it/s] 88%|████████▊ | 9375/10712 [1:45:19<11:06,  2.01it/s]                                                      {'loss': 3.678, 'grad_norm': 0.19885480403900146, 'learning_rate': 4.6716116244425786e-05, 'epoch': 0.88}
+ 88%|████████▊ | 9375/10712 [1:45:19<11:06,  2.01it/s] 88%|████████▊ | 9376/10712 [1:45:19<11:06,  2.00it/s] 88%|████████▊ | 9377/10712 [1:45:20<11:05,  2.01it/s] 88%|████████▊ | 9378/10712 [1:45:20<11:04,  2.01it/s] 88%|████████▊ | 9379/10712 [1:45:21<11:04,  2.01it/s] 88%|████████▊ | 9380/10712 [1:45:21<11:03,  2.01it/s] 88%|████████▊ | 9381/10712 [1:45:22<11:04,  2.00it/s] 88%|████████▊ | 9382/10712 [1:45:22<11:04,  2.00it/s] 88%|████████▊ | 9383/10712 [1:45:23<11:02,  2.01it/s] 88%|████████▊ | 9384/10712 [1:45:23<11:02,  2.00it/s] 88%|████████▊ | 9385/10712 [1:45:24<11:01,  2.01it/s] 88%|████████▊ | 9386/10712 [1:45:24<11:01,  2.00it/s] 88%|████████▊ | 9387/10712 [1:45:25<11:01,  2.00it/s] 88%|████████▊ | 9388/10712 [1:45:25<11:01,  2.00it/s] 88%|████████▊ | 9389/10712 [1:45:26<11:00,  2.00it/s] 88%|████████▊ | 9390/10712 [1:45:26<10:58,  2.01it/s] 88%|████████▊ | 9391/10712 [1:45:27<10:58,  2.01it/s] 88%|████████▊ | 9392/10712 [1:45:27<10:59,  2.00it/s] 88%|████████▊ | 9393/10712 [1:45:28<10:58,  2.00it/s] 88%|████████▊ | 9394/10712 [1:45:28<10:58,  2.00it/s] 88%|████████▊ | 9395/10712 [1:45:29<10:58,  2.00it/s] 88%|████████▊ | 9396/10712 [1:45:29<10:57,  2.00it/s] 88%|████████▊ | 9397/10712 [1:45:30<10:57,  2.00it/s] 88%|████████▊ | 9398/10712 [1:45:30<10:56,  2.00it/s] 88%|████████▊ | 9399/10712 [1:45:31<10:56,  2.00it/s] 88%|████████▊ | 9400/10712 [1:45:31<10:55,  2.00it/s]                                                      {'loss': 3.6744, 'grad_norm': 0.19856145977973938, 'learning_rate': 4.5011856807654794e-05, 'epoch': 0.88}
+ 88%|████████▊ | 9400/10712 [1:45:31<10:55,  2.00it/s] 88%|████████▊ | 9401/10712 [1:45:32<10:55,  2.00it/s] 88%|████████▊ | 9402/10712 [1:45:32<10:55,  2.00it/s] 88%|████████▊ | 9403/10712 [1:45:33<10:55,  2.00it/s] 88%|████████▊ | 9404/10712 [1:45:33<10:54,  2.00it/s] 88%|████████▊ | 9405/10712 [1:45:34<10:53,  2.00it/s] 88%|████████▊ | 9406/10712 [1:45:34<11:00,  1.98it/s] 88%|████████▊ | 9407/10712 [1:45:35<10:57,  1.98it/s] 88%|████████▊ | 9408/10712 [1:45:35<10:55,  1.99it/s] 88%|████████▊ | 9409/10712 [1:45:36<10:52,  2.00it/s] 88%|████████▊ | 9410/10712 [1:45:36<10:53,  1.99it/s] 88%|████████▊ | 9411/10712 [1:45:37<10:52,  1.99it/s] 88%|████████▊ | 9412/10712 [1:45:37<10:51,  2.00it/s] 88%|████████▊ | 9413/10712 [1:45:38<10:50,  2.00it/s] 88%|████████▊ | 9414/10712 [1:45:38<10:48,  2.00it/s] 88%|████████▊ | 9415/10712 [1:45:39<10:48,  2.00it/s] 88%|████████▊ | 9416/10712 [1:45:39<10:47,  2.00it/s] 88%|████████▊ | 9417/10712 [1:45:40<10:45,  2.01it/s] 88%|████████▊ | 9418/10712 [1:45:40<10:44,  2.01it/s] 88%|████████▊ | 9419/10712 [1:45:41<10:44,  2.01it/s] 88%|████████▊ | 9420/10712 [1:45:41<10:44,  2.00it/s] 88%|████████▊ | 9421/10712 [1:45:42<10:43,  2.01it/s] 88%|████████▊ | 9422/10712 [1:45:42<10:43,  2.00it/s] 88%|████████▊ | 9423/10712 [1:45:43<10:42,  2.01it/s] 88%|████████▊ | 9424/10712 [1:45:43<10:42,  2.00it/s] 88%|████████▊ | 9425/10712 [1:45:44<10:43,  2.00it/s]                                                      {'loss': 3.6752, 'grad_norm': 0.19813941419124603, 'learning_rate': 4.333779851334108e-05, 'epoch': 0.88}
+ 88%|████████▊ | 9425/10712 [1:45:44<10:43,  2.00it/s] 88%|████████▊ | 9426/10712 [1:45:44<10:43,  2.00it/s] 88%|████████▊ | 9427/10712 [1:45:45<10:43,  2.00it/s] 88%|████████▊ | 9428/10712 [1:45:45<10:42,  2.00it/s] 88%|████████▊ | 9429/10712 [1:45:46<10:42,  2.00it/s] 88%|████████▊ | 9430/10712 [1:45:46<10:41,  2.00it/s] 88%|████████▊ | 9431/10712 [1:45:47<10:40,  2.00it/s] 88%|████████▊ | 9432/10712 [1:45:47<10:39,  2.00it/s] 88%|████████▊ | 9433/10712 [1:45:48<10:37,  2.00it/s] 88%|████████▊ | 9434/10712 [1:45:48<10:38,  2.00it/s] 88%|████████▊ | 9435/10712 [1:45:49<10:37,  2.00it/s] 88%|████████▊ | 9436/10712 [1:45:49<10:37,  2.00it/s] 88%|████████▊ | 9437/10712 [1:45:50<10:36,  2.00it/s] 88%|████████▊ | 9438/10712 [1:45:50<10:35,  2.00it/s] 88%|████████▊ | 9439/10712 [1:45:51<10:35,  2.00it/s] 88%|████████▊ | 9440/10712 [1:45:51<10:35,  2.00it/s] 88%|████████▊ | 9441/10712 [1:45:52<10:35,  2.00it/s] 88%|████████▊ | 9442/10712 [1:45:52<10:34,  2.00it/s] 88%|████████▊ | 9443/10712 [1:45:53<10:34,  2.00it/s] 88%|████████▊ | 9444/10712 [1:45:53<10:33,  2.00it/s] 88%|████████▊ | 9445/10712 [1:45:54<10:32,  2.00it/s] 88%|████████▊ | 9446/10712 [1:45:54<10:32,  2.00it/s] 88%|████████▊ | 9447/10712 [1:45:55<10:32,  2.00it/s] 88%|████████▊ | 9448/10712 [1:45:55<10:32,  2.00it/s] 88%|████████▊ | 9449/10712 [1:45:56<10:30,  2.00it/s] 88%|████████▊ | 9450/10712 [1:45:56<10:30,  2.00it/s]                                                      {'loss': 3.6752, 'grad_norm': 0.19872236251831055, 'learning_rate': 4.169405248190361e-05, 'epoch': 0.88}
+ 88%|████████▊ | 9450/10712 [1:45:56<10:30,  2.00it/s] 88%|████████▊ | 9451/10712 [1:45:57<10:30,  2.00it/s] 88%|████████▊ | 9452/10712 [1:45:57<10:29,  2.00it/s] 88%|████████▊ | 9453/10712 [1:45:58<10:29,  2.00it/s] 88%|████████▊ | 9454/10712 [1:45:58<10:27,  2.00it/s] 88%|████████▊ | 9455/10712 [1:45:59<10:27,  2.00it/s] 88%|████████▊ | 9456/10712 [1:45:59<10:28,  2.00it/s] 88%|████████▊ | 9457/10712 [1:46:00<10:26,  2.00it/s] 88%|████████▊ | 9458/10712 [1:46:00<10:25,  2.01it/s] 88%|████████▊ | 9459/10712 [1:46:01<10:24,  2.00it/s] 88%|████████▊ | 9460/10712 [1:46:01<10:23,  2.01it/s] 88%|████████▊ | 9461/10712 [1:46:02<10:22,  2.01it/s] 88%|████████▊ | 9462/10712 [1:46:02<10:21,  2.01it/s] 88%|████████▊ | 9463/10712 [1:46:03<10:20,  2.01it/s] 88%|████████▊ | 9464/10712 [1:46:03<10:20,  2.01it/s] 88%|████████▊ | 9465/10712 [1:46:03<10:19,  2.01it/s] 88%|████████▊ | 9466/10712 [1:46:04<10:18,  2.01it/s] 88%|████████▊ | 9467/10712 [1:46:04<10:19,  2.01it/s] 88%|████████▊ | 9468/10712 [1:46:05<10:20,  2.01it/s] 88%|████████▊ | 9469/10712 [1:46:05<10:21,  2.00it/s] 88%|████████▊ | 9470/10712 [1:46:06<10:20,  2.00it/s] 88%|████████▊ | 9471/10712 [1:46:06<10:19,  2.00it/s] 88%|████████▊ | 9472/10712 [1:46:07<10:19,  2.00it/s] 88%|████████▊ | 9473/10712 [1:46:07<10:18,  2.00it/s] 88%|████████▊ | 9474/10712 [1:46:08<10:17,  2.01it/s] 88%|████████▊ | 9475/10712 [1:46:08<10:16,  2.01it/s]                                                      {'loss': 3.6734, 'grad_norm': 0.20788125693798065, 'learning_rate': 4.0080727821697695e-05, 'epoch': 0.88}
+ 88%|████████▊ | 9475/10712 [1:46:08<10:16,  2.01it/s] 88%|████████▊ | 9476/10712 [1:46:09<10:16,  2.01it/s] 88%|████████▊ | 9477/10712 [1:46:09<10:15,  2.01it/s] 88%|████████▊ | 9478/10712 [1:46:10<10:14,  2.01it/s] 88%|████████▊ | 9479/10712 [1:46:10<10:14,  2.01it/s] 88%|████████▊ | 9480/10712 [1:46:11<10:12,  2.01it/s] 89%|████████▊ | 9481/10712 [1:46:11<10:12,  2.01it/s] 89%|████████▊ | 9482/10712 [1:46:12<10:11,  2.01it/s] 89%|████████▊ | 9483/10712 [1:46:12<10:10,  2.01it/s] 89%|████████▊ | 9484/10712 [1:46:13<10:10,  2.01it/s] 89%|████████▊ | 9485/10712 [1:46:13<10:09,  2.01it/s] 89%|████████▊ | 9486/10712 [1:46:14<10:09,  2.01it/s] 89%|████████▊ | 9487/10712 [1:46:14<10:09,  2.01it/s] 89%|████████▊ | 9488/10712 [1:46:15<10:08,  2.01it/s] 89%|████████▊ | 9489/10712 [1:46:15<10:08,  2.01it/s] 89%|████████▊ | 9490/10712 [1:46:16<10:08,  2.01it/s] 89%|████████▊ | 9491/10712 [1:46:16<10:07,  2.01it/s] 89%|████████▊ | 9492/10712 [1:46:17<10:08,  2.01it/s] 89%|████████▊ | 9493/10712 [1:46:17<10:08,  2.00it/s] 89%|████████▊ | 9494/10712 [1:46:18<10:08,  2.00it/s] 89%|████████▊ | 9495/10712 [1:46:18<10:07,  2.00it/s] 89%|████████▊ | 9496/10712 [1:46:19<10:06,  2.01it/s] 89%|████████▊ | 9497/10712 [1:46:19<10:06,  2.00it/s] 89%|████████▊ | 9498/10712 [1:46:20<10:06,  2.00it/s] 89%|████████▊ | 9499/10712 [1:46:20<10:05,  2.00it/s] 89%|████████▊ | 9500/10712 [1:46:21<10:05,  2.00it/s]                                                      {'loss': 3.6793, 'grad_norm': 0.19586370885372162, 'learning_rate': 3.849793162177323e-05, 'epoch': 0.89}
+ 89%|████████▊ | 9500/10712 [1:46:21<10:05,  2.00it/s] 89%|████████▊ | 9501/10712 [1:46:21<10:05,  2.00it/s] 89%|████████▊ | 9502/10712 [1:46:22<10:06,  2.00it/s] 89%|████████▊ | 9503/10712 [1:46:22<10:05,  2.00it/s] 89%|████████▊ | 9504/10712 [1:46:23<10:04,  2.00it/s] 89%|████████▊ | 9505/10712 [1:46:23<10:04,  2.00it/s] 89%|████████▊ | 9506/10712 [1:46:24<10:03,  2.00it/s] 89%|████████▉ | 9507/10712 [1:46:24<10:02,  2.00it/s] 89%|████████▉ | 9508/10712 [1:46:25<10:02,  2.00it/s] 89%|████████▉ | 9509/10712 [1:46:25<10:01,  2.00it/s] 89%|████████▉ | 9510/10712 [1:46:26<10:01,  2.00it/s] 89%|████████▉ | 9511/10712 [1:46:26<10:00,  2.00it/s] 89%|████████▉ | 9512/10712 [1:46:27<10:00,  2.00it/s] 89%|████████▉ | 9513/10712 [1:46:27<09:59,  2.00it/s] 89%|████████▉ | 9514/10712 [1:46:28<09:58,  2.00it/s] 89%|████████▉ | 9515/10712 [1:46:28<09:57,  2.00it/s] 89%|████████▉ | 9516/10712 [1:46:29<09:57,  2.00it/s] 89%|████████▉ | 9517/10712 [1:46:29<09:56,  2.00it/s] 89%|████████▉ | 9518/10712 [1:46:30<09:55,  2.01it/s] 89%|████████▉ | 9519/10712 [1:46:30<09:54,  2.01it/s] 89%|████████▉ | 9520/10712 [1:46:31<09:52,  2.01it/s] 89%|████████▉ | 9521/10712 [1:46:31<09:52,  2.01it/s] 89%|████████▉ | 9522/10712 [1:46:32<09:54,  2.00it/s] 89%|████████▉ | 9523/10712 [1:46:32<09:54,  2.00it/s] 89%|████████▉ | 9524/10712 [1:46:33<09:53,  2.00it/s] 89%|████████▉ | 9525/10712 [1:46:33<09:53,  2.00it/s]                                                      {'loss': 3.6757, 'grad_norm': 0.2003939002752304, 'learning_rate': 3.69457689447657e-05, 'epoch': 0.89}
+ 89%|████████▉ | 9525/10712 [1:46:33<09:53,  2.00it/s] 89%|████████▉ | 9526/10712 [1:46:34<09:53,  2.00it/s] 89%|████████▉ | 9527/10712 [1:46:34<09:52,  2.00it/s] 89%|████████▉ | 9528/10712 [1:46:35<09:51,  2.00it/s] 89%|████████▉ | 9529/10712 [1:46:35<09:49,  2.01it/s] 89%|████████▉ | 9530/10712 [1:46:36<09:49,  2.00it/s] 89%|████████▉ | 9531/10712 [1:46:36<09:49,  2.00it/s] 89%|████████▉ | 9532/10712 [1:46:37<09:48,  2.00it/s] 89%|██���█████▉ | 9533/10712 [1:46:37<09:47,  2.01it/s] 89%|████████▉ | 9534/10712 [1:46:38<09:46,  2.01it/s] 89%|████████▉ | 9535/10712 [1:46:38<09:45,  2.01it/s] 89%|████████▉ | 9536/10712 [1:46:39<09:45,  2.01it/s] 89%|████████▉ | 9537/10712 [1:46:39<09:44,  2.01it/s] 89%|████████▉ | 9538/10712 [1:46:40<09:45,  2.00it/s] 89%|████████▉ | 9539/10712 [1:46:40<09:45,  2.00it/s] 89%|████████▉ | 9540/10712 [1:46:41<09:45,  2.00it/s] 89%|████████▉ | 9541/10712 [1:46:41<09:45,  2.00it/s] 89%|████████▉ | 9542/10712 [1:46:42<09:49,  1.98it/s] 89%|████████▉ | 9543/10712 [1:46:43<10:31,  1.85it/s] 89%|████████▉ | 9544/10712 [1:46:43<10:21,  1.88it/s] 89%|████████▉ | 9545/10712 [1:46:44<10:38,  1.83it/s] 89%|████████▉ | 9546/10712 [1:46:44<10:21,  1.88it/s] 89%|████████▉ | 9547/10712 [1:46:45<10:09,  1.91it/s] 89%|████████▉ | 9548/10712 [1:46:45<10:00,  1.94it/s] 89%|████████▉ | 9549/10712 [1:46:46<10:17,  1.88it/s] 89%|████████▉ | 9550/10712 [1:46:46<10:07,  1.91it/s]                                                      {'loss': 3.6796, 'grad_norm': 0.19392305612564087, 'learning_rate': 3.5424342819923015e-05, 'epoch': 0.89}
+ 89%|████████▉ | 9550/10712 [1:46:46<10:07,  1.91it/s] 89%|████████▉ | 9551/10712 [1:46:47<09:59,  1.94it/s] 89%|████████▉ | 9552/10712 [1:46:47<09:52,  1.96it/s] 89%|████████▉ | 9553/10712 [1:46:48<09:48,  1.97it/s] 89%|████████▉ | 9554/10712 [1:46:48<09:45,  1.98it/s] 89%|████████▉ | 9555/10712 [1:46:49<09:43,  1.98it/s] 89%|████████▉ | 9556/10712 [1:46:49<09:42,  1.98it/s] 89%|████████▉ | 9557/10712 [1:46:50<09:40,  1.99it/s] 89%|████████▉ | 9558/10712 [1:46:50<09:38,  1.99it/s] 89%|████████▉ | 9559/10712 [1:46:51<09:37,  2.00it/s] 89%|████████▉ | 9560/10712 [1:46:51<09:36,  2.00it/s] 89%|████████▉ | 9561/10712 [1:46:52<09:34,  2.00it/s] 89%|████████▉ | 9562/10712 [1:46:52<09:33,  2.01it/s] 89%|████████▉ | 9563/10712 [1:46:53<09:32,  2.01it/s] 89%|████████▉ | 9564/10712 [1:46:53<09:32,  2.01it/s] 89%|████████▉ | 9565/10712 [1:46:54<09:30,  2.01it/s] 89%|████████▉ | 9566/10712 [1:46:54<09:30,  2.01it/s] 89%|████████▉ | 9567/10712 [1:46:55<09:29,  2.01it/s] 89%|████████▉ | 9568/10712 [1:46:55<09:28,  2.01it/s] 89%|████████▉ | 9569/10712 [1:46:56<09:28,  2.01it/s] 89%|████████▉ | 9570/10712 [1:46:56<09:27,  2.01it/s] 89%|████████▉ | 9571/10712 [1:46:57<09:27,  2.01it/s] 89%|████████▉ | 9572/10712 [1:46:57<09:26,  2.01it/s] 89%|████████▉ | 9573/10712 [1:46:58<09:26,  2.01it/s] 89%|████████▉ | 9574/10712 [1:46:58<09:26,  2.01it/s] 89%|████████▉ | 9575/10712 [1:46:59<09:24,  2.01it/s]                                                      {'loss': 3.676, 'grad_norm': 0.19719606637954712, 'learning_rate': 3.393375423626599e-05, 'epoch': 0.89}
+ 89%|████████▉ | 9575/10712 [1:46:59<09:24,  2.01it/s] 89%|████████▉ | 9576/10712 [1:46:59<09:24,  2.01it/s] 89%|████████▉ | 9577/10712 [1:47:00<09:24,  2.01it/s] 89%|████████▉ | 9578/10712 [1:47:00<09:24,  2.01it/s] 89%|████████▉ | 9579/10712 [1:47:01<09:25,  2.00it/s] 89%|████████▉ | 9580/10712 [1:47:01<09:25,  2.00it/s] 89%|████████▉ | 9581/10712 [1:47:02<09:25,  2.00it/s] 89%|████████▉ | 9582/10712 [1:47:02<09:23,  2.00it/s] 89%|████████▉ | 9583/10712 [1:47:03<09:22,  2.01it/s] 89%|████████▉ | 9584/10712 [1:47:03<09:23,  2.00it/s] 89%|████████▉ | 9585/10712 [1:47:04<09:23,  2.00it/s] 89%|████████▉ | 9586/10712 [1:47:04<09:23,  2.00it/s] 89%|████████▉ | 9587/10712 [1:47:05<09:22,  2.00it/s] 90%|████████▉ | 9588/10712 [1:47:05<09:21,  2.00it/s] 90%|████████▉ | 9589/10712 [1:47:06<09:21,  2.00it/s] 90%|████████▉ | 9590/10712 [1:47:06<09:21,  2.00it/s] 90%|████████▉ | 9591/10712 [1:47:07<09:20,  2.00it/s] 90%|████████▉ | 9592/10712 [1:47:07<09:19,  2.00it/s] 90%|████████▉ | 9593/10712 [1:47:08<09:18,  2.00it/s] 90%|████████▉ | 9594/10712 [1:47:08<09:18,  2.00it/s] 90%|████████▉ | 9595/10712 [1:47:09<09:18,  2.00it/s] 90%|████████▉ | 9596/10712 [1:47:09<09:18,  2.00it/s] 90%|████████▉ | 9597/10712 [1:47:10<09:17,  2.00it/s] 90%|████████▉ | 9598/10712 [1:47:10<09:17,  2.00it/s] 90%|████████▉ | 9599/10712 [1:47:11<09:16,  2.00it/s] 90%|████████▉ | 9600/10712 [1:47:11<09:15,  2.00it/s]                                                      {'loss': 3.6711, 'grad_norm': 0.19079309701919556, 'learning_rate': 3.247410213588553e-05, 'epoch': 0.9}
+ 90%|████████▉ | 9600/10712 [1:47:11<09:15,  2.00it/s] 90%|████████▉ | 9601/10712 [1:47:12<09:15,  2.00it/s] 90%|████████▉ | 9602/10712 [1:47:12<09:14,  2.00it/s] 90%|████████▉ | 9603/10712 [1:47:13<09:13,  2.00it/s] 90%|████████▉ | 9604/10712 [1:47:13<09:12,  2.00it/s] 90%|████████▉ | 9605/10712 [1:47:14<09:14,  2.00it/s] 90%|████████▉ | 9606/10712 [1:47:14<09:13,  2.00it/s] 90%|████████▉ | 9607/10712 [1:47:15<09:12,  2.00it/s] 90%|████████▉ | 9608/10712 [1:47:15<09:12,  2.00it/s] 90%|████████▉ | 9609/10712 [1:47:16<09:12,  2.00it/s] 90%|████████▉ | 9610/10712 [1:47:16<09:10,  2.00it/s] 90%|████████▉ | 9611/10712 [1:47:17<09:09,  2.00it/s] 90%|████████▉ | 9612/10712 [1:47:17<09:08,  2.00it/s] 90%|████████▉ | 9613/10712 [1:47:18<09:08,  2.00it/s] 90%|████████▉ | 9614/10712 [1:47:18<09:08,  2.00it/s] 90%|████████▉ | 9615/10712 [1:47:19<09:07,  2.00it/s] 90%|████████▉ | 9616/10712 [1:47:19<09:06,  2.00it/s] 90%|████████▉ | 9617/10712 [1:47:20<09:06,  2.00it/s] 90%|████████▉ | 9618/10712 [1:47:20<09:06,  2.00it/s] 90%|████████▉ | 9619/10712 [1:47:21<09:06,  2.00it/s] 90%|████████▉ | 9620/10712 [1:47:21<09:07,  2.00it/s] 90%|████████▉ | 9621/10712 [1:47:22<09:07,  1.99it/s] 90%|████████▉ | 9622/10712 [1:47:22<09:05,  2.00it/s] 90%|████████▉ | 9623/10712 [1:47:23<09:04,  2.00it/s] 90%|████████▉ | 9624/10712 [1:47:23<09:03,  2.00it/s] 90%|████████▉ | 9625/10712 [1:47:24<09:03,  2.00it/s]                                                      {'loss': 3.6748, 'grad_norm': 0.20690591633319855, 'learning_rate': 3.1045483407374505e-05, 'epoch': 0.9}
+ 90%|████████▉ | 9625/10712 [1:47:24<09:03,  2.00it/s] 90%|████████▉ | 9626/10712 [1:47:24<09:04,  1.99it/s] 90%|████████▉ | 9627/10712 [1:47:25<09:04,  1.99it/s] 90%|████████▉ | 9628/10712 [1:47:25<09:02,  2.00it/s] 90%|████████▉ | 9629/10712 [1:47:26<09:01,  2.00it/s] 90%|████████▉ | 9630/10712 [1:47:26<09:00,  2.00it/s] 90%|████████▉ | 9631/10712 [1:47:27<09:00,  2.00it/s] 90%|████████▉ | 9632/10712 [1:47:27<08:58,  2.00it/s] 90%|████████▉ | 9633/10712 [1:47:28<08:58,  2.00it/s] 90%|████████▉ | 9634/10712 [1:47:28<08:58,  2.00it/s] 90%|████████▉ | 9635/10712 [1:47:29<08:57,  2.01it/s] 90%|████████▉ | 9636/10712 [1:47:29<08:57,  2.00it/s] 90%|████████▉ | 9637/10712 [1:47:30<08:57,  2.00it/s] 90%|████████▉ | 9638/10712 [1:47:30<09:21,  1.91it/s] 90%|████████▉ | 9639/10712 [1:47:31<09:13,  1.94it/s] 90%|████████▉ | 9640/10712 [1:47:31<09:07,  1.96it/s] 90%|█████████ | 9641/10712 [1:47:32<09:04,  1.97it/s] 90%|█████████ | 9642/10712 [1:47:32<09:00,  1.98it/s] 90%|█████████ | 9643/10712 [1:47:33<08:59,  1.98it/s] 90%|█████████ | 9644/10712 [1:47:33<08:55,  1.99it/s] 90%|█████████ | 9645/10712 [1:47:34<08:54,  2.00it/s] 90%|█████████ | 9646/10712 [1:47:34<08:53,  2.00it/s] 90%|█████████ | 9647/10712 [1:47:35<08:52,  2.00it/s] 90%|█████████ | 9648/10712 [1:47:35<08:50,  2.00it/s] 90%|█████████ | 9649/10712 [1:47:36<08:50,  2.00it/s] 90%|█████████ | 9650/10712 [1:47:36<08:51,  2.00it/s]                                                      {'loss': 3.6772, 'grad_norm': 0.19457007944583893, 'learning_rate': 2.9647992879397012e-05, 'epoch': 0.9}
+ 90%|█████████ | 9650/10712 [1:47:36<08:51,  2.00it/s] 90%|█████████ | 9651/10712 [1:47:37<08:50,  2.00it/s] 90%|█████████ | 9652/10712 [1:47:38<10:34,  1.67it/s] 90%|█████████ | 9653/10712 [1:47:38<10:04,  1.75it/s] 90%|█████████ | 9654/10712 [1:47:39<10:05,  1.75it/s] 90%|█████████ | 9655/10712 [1:47:39<09:41,  1.82it/s] 90%|█████████ | 9656/10712 [1:47:40<09:24,  1.87it/s] 90%|█████���███ | 9657/10712 [1:47:40<09:12,  1.91it/s] 90%|█████████ | 9658/10712 [1:47:41<09:05,  1.93it/s] 90%|█████████ | 9659/10712 [1:47:41<08:59,  1.95it/s] 90%|█████████ | 9660/10712 [1:47:42<08:55,  1.96it/s] 90%|█████████ | 9661/10712 [1:47:42<08:51,  1.98it/s] 90%|█████████ | 9662/10712 [1:47:43<08:48,  1.99it/s] 90%|█████████ | 9663/10712 [1:47:43<08:47,  1.99it/s] 90%|█████████ | 9664/10712 [1:47:44<08:46,  1.99it/s] 90%|█████████ | 9665/10712 [1:47:44<08:45,  1.99it/s] 90%|█████████ | 9666/10712 [1:47:45<08:44,  1.99it/s] 90%|█████████ | 9667/10712 [1:47:45<08:43,  2.00it/s] 90%|█████████ | 9668/10712 [1:47:46<08:42,  2.00it/s] 90%|█████████ | 9669/10712 [1:47:46<08:41,  2.00it/s] 90%|█████████ | 9670/10712 [1:47:47<08:41,  2.00it/s] 90%|█████████ | 9671/10712 [1:47:47<08:39,  2.00it/s] 90%|█████████ | 9672/10712 [1:47:48<08:39,  2.00it/s] 90%|█████████ | 9673/10712 [1:47:48<08:39,  2.00it/s] 90%|█████████ | 9674/10712 [1:47:49<08:38,  2.00it/s] 90%|█████████ | 9675/10712 [1:47:49<08:38,  2.00it/s]                                                      {'loss': 3.6748, 'grad_norm': 0.1965537667274475, 'learning_rate': 2.828172331439327e-05, 'epoch': 0.9}
+ 90%|█████████ | 9675/10712 [1:47:49<08:38,  2.00it/s] 90%|█████████ | 9676/10712 [1:47:50<08:38,  2.00it/s] 90%|█████████ | 9677/10712 [1:47:50<08:37,  2.00it/s] 90%|█████████ | 9678/10712 [1:47:51<08:37,  2.00it/s] 90%|█████████ | 9679/10712 [1:47:51<08:36,  2.00it/s] 90%|█████████ | 9680/10712 [1:47:52<08:35,  2.00it/s] 90%|█████████ | 9681/10712 [1:47:52<08:34,  2.00it/s] 90%|█████████ | 9682/10712 [1:47:53<08:34,  2.00it/s] 90%|█████████ | 9683/10712 [1:47:53<08:34,  2.00it/s] 90%|█████████ | 9684/10712 [1:47:54<08:33,  2.00it/s] 90%|█████████ | 9685/10712 [1:47:54<08:32,  2.00it/s] 90%|█████████ | 9686/10712 [1:47:55<08:32,  2.00it/s] 90%|█████████ | 9687/10712 [1:47:55<08:30,  2.01it/s] 90%|█████████ | 9688/10712 [1:47:56<08:31,  2.00it/s] 90%|█████████ | 9689/10712 [1:47:56<08:31,  2.00it/s] 90%|█████████ | 9690/10712 [1:47:57<08:30,  2.00it/s] 90%|█████████ | 9691/10712 [1:47:57<08:30,  2.00it/s] 90%|█████████ | 9692/10712 [1:47:58<08:29,  2.00it/s] 90%|█████████ | 9693/10712 [1:47:58<08:29,  2.00it/s] 90%|█████████ | 9694/10712 [1:47:59<10:03,  1.69it/s] 91%|█████████ | 9695/10712 [1:47:59<09:35,  1.77it/s] 91%|█████████ | 9696/10712 [1:48:00<09:14,  1.83it/s] 91%|█████████ | 9697/10712 [1:48:00<09:00,  1.88it/s] 91%|█████████ | 9698/10712 [1:48:01<08:48,  1.92it/s] 91%|█████████ | 9699/10712 [1:48:01<08:41,  1.94it/s] 91%|█████████ | 9700/10712 [1:48:02<08:34,  1.97it/s]                                                      {'loss': 3.6753, 'grad_norm': 0.20015136897563934, 'learning_rate': 2.6946765402422858e-05, 'epoch': 0.91}
+ 91%|█████████ | 9700/10712 [1:48:02<08:34,  1.97it/s] 91%|█████████ | 9701/10712 [1:48:02<08:31,  1.98it/s] 91%|█████████ | 9702/10712 [1:48:03<08:27,  1.99it/s] 91%|█████████ | 9703/10712 [1:48:03<08:24,  2.00it/s] 91%|█████████ | 9704/10712 [1:48:04<08:23,  2.00it/s] 91%|█████████ | 9705/10712 [1:48:04<08:22,  2.00it/s] 91%|█████████ | 9706/10712 [1:48:05<08:20,  2.01it/s] 91%|█████████ | 9707/10712 [1:48:05<08:19,  2.01it/s] 91%|█████████ | 9708/10712 [1:48:06<08:19,  2.01it/s] 91%|█████████ | 9709/10712 [1:48:06<08:20,  2.00it/s] 91%|█████████ | 9710/10712 [1:48:07<08:20,  2.00it/s] 91%|█████████ | 9711/10712 [1:48:07<08:19,  2.00it/s] 91%|█████████ | 9712/10712 [1:48:08<08:24,  1.98it/s] 91%|█████████ | 9713/10712 [1:48:08<08:22,  1.99it/s] 91%|█████████ | 9714/10712 [1:48:09<08:21,  1.99it/s] 91%|█████████ | 9715/10712 [1:48:09<08:18,  2.00it/s] 91%|█████████ | 9716/10712 [1:48:10<08:18,  2.00it/s] 91%|█████████ | 9717/10712 [1:48:10<08:17,  2.00it/s] 91%|█████████ | 9718/10712 [1:48:11<08:16,  2.00it/s] 91%|█████████ | 9719/10712 [1:48:11<08:15,  2.01it/s] 91%|█████████ | 9720/10712 [1:48:12<08:14,  2.01it/s] 91%|█████████ | 9721/10712 [1:48:12<08:13,  2.01it/s] 91%|█████████ | 9722/10712 [1:48:13<08:13,  2.01it/s] 91%|█████████ | 9723/10712 [1:48:13<08:25,  1.95it/s] 91%|█████████ | 9724/10712 [1:48:14<08:22,  1.97it/s] 91%|█████████ | 9725/10712 [1:48:14<08:19,  1.98it/s]                                                      {'loss': 3.679, 'grad_norm': 0.1981126070022583, 'learning_rate': 2.5643207755144615e-05, 'epoch': 0.91}
+ 91%|█████████ | 9725/10712 [1:48:14<08:19,  1.98it/s] 91%|█████████ | 9726/10712 [1:48:15<08:17,  1.98it/s] 91%|█████████ | 9727/10712 [1:48:15<08:15,  1.99it/s] 91%|█████████ | 9728/10712 [1:48:16<08:14,  1.99it/s] 91%|█████████ | 9729/10712 [1:48:16<08:13,  1.99it/s] 91%|█████████ | 9730/10712 [1:48:17<08:11,  2.00it/s] 91%|█████████ | 9731/10712 [1:48:17<08:10,  2.00it/s] 91%|█████████ | 9732/10712 [1:48:18<08:08,  2.00it/s] 91%|█████████ | 9733/10712 [1:48:18<08:07,  2.01it/s] 91%|█████████ | 9734/10712 [1:48:19<08:07,  2.01it/s] 91%|█████████ | 9735/10712 [1:48:19<08:08,  2.00it/s] 91%|█████████ | 9736/10712 [1:48:20<08:08,  2.00it/s] 91%|█████████ | 9737/10712 [1:48:20<08:07,  2.00it/s] 91%|█████████ | 9738/10712 [1:48:21<08:05,  2.00it/s] 91%|█████████ | 9739/10712 [1:48:21<08:05,  2.00it/s] 91%|█████████ | 9740/10712 [1:48:22<08:04,  2.01it/s] 91%|█████████ | 9741/10712 [1:48:22<08:03,  2.01it/s] 91%|█████████ | 9742/10712 [1:48:23<08:03,  2.01it/s] 91%|█████████ | 9743/10712 [1:48:23<08:03,  2.01it/s] 91%|█████████ | 9744/10712 [1:48:24<08:02,  2.01it/s] 91%|█████████ | 9745/10712 [1:48:24<08:01,  2.01it/s] 91%|█████████ | 9746/10712 [1:48:25<08:01,  2.01it/s] 91%|█████████ | 9747/10712 [1:48:25<08:00,  2.01it/s] 91%|█████████ | 9748/10712 [1:48:26<08:00,  2.01it/s] 91%|█████████ | 9749/10712 [1:48:26<07:59,  2.01it/s] 91%|█████████ | 9750/10712 [1:48:27<07:58,  2.01it/s]                                                      {'loss': 3.6744, 'grad_norm': 0.1973486840724945, 'learning_rate': 2.4371136899934532e-05, 'epoch': 0.91}
+ 91%|█████████ | 9750/10712 [1:48:27<07:58,  2.01it/s] 91%|█████████ | 9751/10712 [1:48:27<07:58,  2.01it/s] 91%|█████████ | 9752/10712 [1:48:28<07:58,  2.01it/s] 91%|█████████ | 9753/10712 [1:48:28<07:58,  2.00it/s] 91%|█████████ | 9754/10712 [1:48:29<07:59,  2.00it/s] 91%|█████████ | 9755/10712 [1:48:29<07:59,  2.00it/s] 91%|█████████ | 9756/10712 [1:48:30<07:59,  1.99it/s] 91%|█████████ | 9757/10712 [1:48:30<07:58,  2.00it/s] 91%|█████████ | 9758/10712 [1:48:31<07:57,  2.00it/s] 91%|█████████ | 9759/10712 [1:48:31<07:57,  2.00it/s] 91%|█████████ | 9760/10712 [1:48:32<07:57,  2.00it/s] 91%|█████████ | 9761/10712 [1:48:32<07:56,  1.99it/s] 91%|█████████ | 9762/10712 [1:48:33<07:55,  2.00it/s] 91%|█████████ | 9763/10712 [1:48:33<07:54,  2.00it/s] 91%|█████████ | 9764/10712 [1:48:34<07:54,  2.00it/s] 91%|█████████ | 9765/10712 [1:48:34<07:53,  2.00it/s] 91%|█████████ | 9766/10712 [1:48:35<07:53,  2.00it/s] 91%|█████████ | 9767/10712 [1:48:35<07:52,  2.00it/s] 91%|█████████ | 9768/10712 [1:48:36<07:51,  2.00it/s] 91%|█████████ | 9769/10712 [1:48:36<07:49,  2.01it/s] 91%|█████████ | 9770/10712 [1:48:37<07:49,  2.01it/s] 91%|█████████ | 9771/10712 [1:48:37<07:48,  2.01it/s] 91%|█████████ | 9772/10712 [1:48:38<07:47,  2.01it/s] 91%|█████████ | 9773/10712 [1:48:38<07:47,  2.01it/s] 91%|█████████ | 9774/10712 [1:48:39<07:47,  2.01it/s] 91%|█████████▏| 9775/10712 [1:48:39<07:46,  2.01it/s]                                                      {'loss': 3.6701, 'grad_norm': 0.19702301919460297, 'learning_rate': 2.3130637274142775e-05, 'epoch': 0.91}
+ 91%|█████████▏| 9775/10712 [1:48:39<07:46,  2.01it/s] 91%|█████████▏| 9776/10712 [1:48:40<07:51,  1.99it/s] 91%|█████████▏| 9777/10712 [1:48:40<07:50,  1.99it/s] 91%|█████████▏| 9778/10712 [1:48:41<07:49,  1.99it/s] 91%|█████████▏| 9779/10712 [1:48:41<07:48,  1.99it/s] 91%|█████████▏| 9780/10712 [1:48:42<07:47,  1.99it/s] 91%|███��█████▏| 9781/10712 [1:48:42<07:45,  2.00it/s] 91%|█████████▏| 9782/10712 [1:48:43<07:44,  2.00it/s] 91%|█████████▏| 9783/10712 [1:48:43<07:43,  2.00it/s] 91%|█████████▏| 9784/10712 [1:48:44<07:42,  2.01it/s] 91%|█████████▏| 9785/10712 [1:48:44<07:42,  2.01it/s] 91%|█████████▏| 9786/10712 [1:48:45<07:42,  2.00it/s] 91%|█████████▏| 9787/10712 [1:48:45<07:41,  2.00it/s] 91%|█████████▏| 9788/10712 [1:48:46<07:40,  2.01it/s] 91%|█████████▏| 9789/10712 [1:48:46<07:45,  1.98it/s] 91%|█████████▏| 9790/10712 [1:48:47<07:44,  1.98it/s] 91%|█████████▏| 9791/10712 [1:48:47<07:43,  1.99it/s] 91%|█████████▏| 9792/10712 [1:48:48<07:42,  1.99it/s] 91%|█████████▏| 9793/10712 [1:48:48<07:40,  1.99it/s] 91%|█████████▏| 9794/10712 [1:48:49<07:39,  2.00it/s] 91%|█████████▏| 9795/10712 [1:48:49<07:38,  2.00it/s] 91%|█████████▏| 9796/10712 [1:48:50<07:38,  2.00it/s] 91%|█████████▏| 9797/10712 [1:48:50<07:37,  2.00it/s] 91%|█████████▏| 9798/10712 [1:48:51<07:36,  2.00it/s] 91%|█████████▏| 9799/10712 [1:48:51<07:36,  2.00it/s] 91%|█████████▏| 9800/10712 [1:48:52<07:35,  2.00it/s]                                                      {'loss': 3.6698, 'grad_norm': 0.1986294537782669, 'learning_rate': 2.1921791219488398e-05, 'epoch': 0.91}
+ 91%|█████████▏| 9800/10712 [1:48:52<07:35,  2.00it/s] 91%|█████████▏| 9801/10712 [1:48:52<07:34,  2.00it/s] 92%|█████████▏| 9802/10712 [1:48:53<07:33,  2.01it/s] 92%|█████████▏| 9803/10712 [1:48:53<07:33,  2.00it/s] 92%|█████████▏| 9804/10712 [1:48:54<07:32,  2.01it/s] 92%|█████████▏| 9805/10712 [1:48:54<07:31,  2.01it/s] 92%|█████████▏| 9806/10712 [1:48:55<07:30,  2.01it/s] 92%|█████████▏| 9807/10712 [1:48:55<07:30,  2.01it/s] 92%|█████████▏| 9808/10712 [1:48:56<07:29,  2.01it/s] 92%|█████████▏| 9809/10712 [1:48:56<07:28,  2.01it/s] 92%|█████████▏| 9810/10712 [1:48:57<07:31,  2.00it/s] 92%|█████████▏| 9811/10712 [1:48:57<07:34,  1.98it/s] 92%|█████████▏| 9812/10712 [1:48:58<07:50,  1.91it/s] 92%|█████████▏| 9813/10712 [1:48:59<08:05,  1.85it/s] 92%|█████████▏| 9814/10712 [1:48:59<07:57,  1.88it/s] 92%|█████████▏| 9815/10712 [1:49:00<08:03,  1.85it/s] 92%|█████████▏| 9816/10712 [1:49:00<07:52,  1.90it/s] 92%|█████████▏| 9817/10712 [1:49:01<07:44,  1.92it/s] 92%|█████████▏| 9818/10712 [1:49:01<07:39,  1.95it/s] 92%|█████████▏| 9819/10712 [1:49:02<07:34,  1.97it/s] 92%|█████████▏| 9820/10712 [1:49:02<07:31,  1.98it/s] 92%|█████████▏| 9821/10712 [1:49:03<07:29,  1.98it/s] 92%|█████████▏| 9822/10712 [1:49:03<07:26,  1.99it/s] 92%|█████████▏| 9823/10712 [1:49:04<07:25,  2.00it/s] 92%|█████████▏| 9824/10712 [1:49:04<07:23,  2.00it/s] 92%|█████████▏| 9825/10712 [1:49:05<07:22,  2.00it/s]                                                      {'loss': 3.6711, 'grad_norm': 0.19484589993953705, 'learning_rate': 2.0744678976594156e-05, 'epoch': 0.92}
+ 92%|█████████▏| 9825/10712 [1:49:05<07:22,  2.00it/s] 92%|█████████▏| 9826/10712 [1:49:05<07:22,  2.00it/s] 92%|█████████▏| 9827/10712 [1:49:06<07:21,  2.00it/s] 92%|█████████▏| 9828/10712 [1:49:06<07:20,  2.01it/s] 92%|█████████▏| 9829/10712 [1:49:07<07:20,  2.01it/s] 92%|█████████▏| 9830/10712 [1:49:07<07:19,  2.00it/s] 92%|█████████▏| 9831/10712 [1:49:08<07:22,  1.99it/s] 92%|█████████▏| 9832/10712 [1:49:08<07:21,  1.99it/s] 92%|█████████▏| 9833/10712 [1:49:09<07:21,  1.99it/s] 92%|█████████▏| 9834/10712 [1:49:09<07:20,  1.99it/s] 92%|█████████▏| 9835/10712 [1:49:10<07:20,  1.99it/s] 92%|█████████▏| 9836/10712 [1:49:10<07:19,  1.99it/s] 92%|█████████▏| 9837/10712 [1:49:11<07:18,  2.00it/s] 92%|█████████▏| 9838/10712 [1:49:11<07:17,  2.00it/s] 92%|█████████▏| 9839/10712 [1:49:12<07:16,  2.00it/s] 92%|█████████▏| 9840/10712 [1:49:12<07:15,  2.00it/s] 92%|█████████▏| 9841/10712 [1:49:13<07:14,  2.00it/s] 92%|█████████▏| 9842/10712 [1:49:13<07:35,  1.91it/s] 92%|█���███████▏| 9843/10712 [1:49:14<07:32,  1.92it/s] 92%|█████████▏| 9844/10712 [1:49:14<07:27,  1.94it/s] 92%|█████████▏| 9845/10712 [1:49:15<07:23,  1.96it/s] 92%|█████████▏| 9846/10712 [1:49:15<07:20,  1.97it/s] 92%|█████████▏| 9847/10712 [1:49:16<07:16,  1.98it/s] 92%|█████████▏| 9848/10712 [1:49:16<07:14,  1.99it/s] 92%|█████████▏| 9849/10712 [1:49:17<07:13,  1.99it/s] 92%|█████████▏| 9850/10712 [1:49:17<07:12,  1.99it/s]                                                      {'loss': 3.662, 'grad_norm': 0.1955128163099289, 'learning_rate': 1.959937867965983e-05, 'epoch': 0.92}
+ 92%|█████████▏| 9850/10712 [1:49:17<07:12,  1.99it/s] 92%|█████████▏| 9851/10712 [1:49:18<07:12,  1.99it/s] 92%|█████████▏| 9852/10712 [1:49:18<07:11,  2.00it/s] 92%|█████████▏| 9853/10712 [1:49:19<07:09,  2.00it/s] 92%|█████████▏| 9854/10712 [1:49:19<07:09,  2.00it/s] 92%|█████████▏| 9855/10712 [1:49:20<07:07,  2.00it/s] 92%|█████████▏| 9856/10712 [1:49:20<07:07,  2.00it/s] 92%|█████████▏| 9857/10712 [1:49:21<07:07,  2.00it/s] 92%|█████████▏| 9858/10712 [1:49:21<07:06,  2.00it/s] 92%|█████████▏| 9859/10712 [1:49:22<07:05,  2.00it/s] 92%|█████████▏| 9860/10712 [1:49:22<07:05,  2.00it/s] 92%|█████████▏| 9861/10712 [1:49:23<07:05,  2.00it/s] 92%|█████████▏| 9862/10712 [1:49:23<07:03,  2.00it/s] 92%|█████████▏| 9863/10712 [1:49:24<07:03,  2.01it/s] 92%|█████████▏| 9864/10712 [1:49:24<07:03,  2.00it/s] 92%|█████████▏| 9865/10712 [1:49:25<07:02,  2.00it/s] 92%|█████████▏| 9866/10712 [1:49:25<07:04,  1.99it/s] 92%|█████████▏| 9867/10712 [1:49:26<07:03,  2.00it/s] 92%|█████████▏| 9868/10712 [1:49:26<07:02,  2.00it/s] 92%|█████████▏| 9869/10712 [1:49:27<07:01,  2.00it/s] 92%|█████████▏| 9870/10712 [1:49:27<07:01,  2.00it/s] 92%|█████████▏| 9871/10712 [1:49:28<07:01,  2.00it/s] 92%|█████████▏| 9872/10712 [1:49:28<07:00,  2.00it/s] 92%|█████████▏| 9873/10712 [1:49:29<06:58,  2.00it/s] 92%|█████████▏| 9874/10712 [1:49:29<06:58,  2.00it/s] 92%|█████████▏| 9875/10712 [1:49:30<06:56,  2.01it/s]                                                      {'loss': 3.6738, 'grad_norm': 0.19075419008731842, 'learning_rate': 1.8485966351276417e-05, 'epoch': 0.92}
+ 92%|█████████▏| 9875/10712 [1:49:30<06:56,  2.01it/s] 92%|█████████▏| 9876/10712 [1:49:30<06:57,  2.00it/s] 92%|█████████▏| 9877/10712 [1:49:31<06:56,  2.00it/s] 92%|█████████▏| 9878/10712 [1:49:31<06:55,  2.01it/s] 92%|█████████▏| 9879/10712 [1:49:32<06:54,  2.01it/s] 92%|█████████▏| 9880/10712 [1:49:32<06:54,  2.01it/s] 92%|█████████▏| 9881/10712 [1:49:33<06:53,  2.01it/s] 92%|█████████▏| 9882/10712 [1:49:33<06:53,  2.01it/s] 92%|█████████▏| 9883/10712 [1:49:34<06:53,  2.01it/s] 92%|█████████▏| 9884/10712 [1:49:34<06:52,  2.01it/s] 92%|█████████▏| 9885/10712 [1:49:35<06:51,  2.01it/s] 92%|█████████▏| 9886/10712 [1:49:35<06:50,  2.01it/s] 92%|█████████▏| 9887/10712 [1:49:36<06:50,  2.01it/s] 92%|█████████▏| 9888/10712 [1:49:36<06:49,  2.01it/s] 92%|█████████▏| 9889/10712 [1:49:37<06:49,  2.01it/s] 92%|█████████▏| 9890/10712 [1:49:37<06:48,  2.01it/s] 92%|█████████▏| 9891/10712 [1:49:38<06:47,  2.01it/s] 92%|█████████▏| 9892/10712 [1:49:38<06:48,  2.01it/s] 92%|█████████▏| 9893/10712 [1:49:39<06:49,  2.00it/s] 92%|█████████▏| 9894/10712 [1:49:39<06:49,  2.00it/s] 92%|█████████▏| 9895/10712 [1:49:40<06:48,  2.00it/s] 92%|█████████▏| 9896/10712 [1:49:40<06:48,  2.00it/s] 92%|█████████▏| 9897/10712 [1:49:41<06:47,  2.00it/s] 92%|█████████▏| 9898/10712 [1:49:41<06:47,  2.00it/s] 92%|█████████▏| 9899/10712 [1:49:42<06:48,  1.99it/s] 92%|█████████▏| 9900/10712 [1:49:42<06:47,  1.99it/s]                                                      {'loss': 3.6637, 'grad_norm': 0.19542671740055084, 'learning_rate': 1.7404515897379126e-05, 'epoch': 0.92}
+ 92%|█████████▏| 9900/10712 [1:49:42<06:47,  1.99it/s] 92%|█████████▏| 9901/10712 [1:49:43<06:46,  1.99it/s] 92%|█████████▏| 9902/10712 [1:49:43<06:45,  2.00it/s] 92%|█████████▏| 9903/10712 [1:49:44<06:44,  2.00it/s] 92%|█████████▏| 9904/10712 [1:49:44<06:43,  2.00it/s] 92%|█████████▏| 9905/10712 [1:49:45<06:42,  2.00it/s] 92%|█████████▏| 9906/10712 [1:49:45<06:42,  2.00it/s] 92%|█████████▏| 9907/10712 [1:49:46<06:41,  2.00it/s] 92%|█████████▏| 9908/10712 [1:49:46<06:40,  2.01it/s] 93%|█████████▎| 9909/10712 [1:49:47<06:40,  2.01it/s] 93%|█████████▎| 9910/10712 [1:49:47<06:39,  2.01it/s] 93%|█████████▎| 9911/10712 [1:49:48<06:38,  2.01it/s] 93%|█████████▎| 9912/10712 [1:49:48<06:38,  2.01it/s] 93%|█████████▎| 9913/10712 [1:49:49<06:38,  2.00it/s] 93%|█████████▎| 9914/10712 [1:49:49<06:39,  2.00it/s] 93%|█████████▎| 9915/10712 [1:49:50<06:39,  1.99it/s] 93%|█████████▎| 9916/10712 [1:49:50<06:38,  2.00it/s] 93%|█████████▎| 9917/10712 [1:49:51<06:37,  2.00it/s] 93%|█████████▎| 9918/10712 [1:49:51<06:36,  2.00it/s] 93%|█████████▎| 9919/10712 [1:49:52<06:37,  1.99it/s] 93%|█████████▎| 9920/10712 [1:49:52<06:37,  1.99it/s] 93%|█████████▎| 9921/10712 [1:49:53<06:36,  2.00it/s] 93%|█████████▎| 9922/10712 [1:49:53<06:34,  2.00it/s] 93%|█████████▎| 9923/10712 [1:49:54<06:34,  2.00it/s] 93%|█████████▎| 9924/10712 [1:49:54<06:34,  2.00it/s] 93%|█████████▎| 9925/10712 [1:49:55<06:33,  2.00it/s]                                                      {'loss': 3.6679, 'grad_norm': 0.19671228528022766, 'learning_rate': 1.6355099102342562e-05, 'epoch': 0.93}
+ 93%|█████████▎| 9925/10712 [1:49:55<06:33,  2.00it/s] 93%|█████████▎| 9926/10712 [1:49:55<06:33,  2.00it/s] 93%|█████████▎| 9927/10712 [1:49:56<06:31,  2.00it/s] 93%|█████████▎| 9928/10712 [1:49:56<06:32,  2.00it/s] 93%|█████████▎| 9929/10712 [1:49:57<06:32,  2.00it/s] 93%|█████████▎| 9930/10712 [1:49:57<06:32,  1.99it/s] 93%|█████████▎| 9931/10712 [1:49:58<06:31,  2.00it/s] 93%|█████████▎| 9932/10712 [1:49:58<06:31,  1.99it/s] 93%|█████████▎| 9933/10712 [1:49:59<06:29,  2.00it/s] 93%|█████████▎| 9934/10712 [1:49:59<06:29,  2.00it/s] 93%|█████████▎| 9935/10712 [1:50:00<06:28,  2.00it/s] 93%|█████████▎| 9936/10712 [1:50:00<06:27,  2.00it/s] 93%|█████████▎| 9937/10712 [1:50:01<06:27,  2.00it/s] 93%|█████████▎| 9938/10712 [1:50:01<06:26,  2.00it/s] 93%|█████████▎| 9939/10712 [1:50:02<06:26,  2.00it/s] 93%|█████████▎| 9940/10712 [1:50:02<06:25,  2.00it/s] 93%|█████████▎| 9941/10712 [1:50:03<06:24,  2.00it/s] 93%|█████████▎| 9942/10712 [1:50:03<06:24,  2.00it/s] 93%|█████████▎| 9943/10712 [1:50:04<06:23,  2.00it/s] 93%|█████████▎| 9944/10712 [1:50:04<06:22,  2.01it/s] 93%|█████████▎| 9945/10712 [1:50:05<06:22,  2.00it/s] 93%|█████████▎| 9946/10712 [1:50:05<06:21,  2.01it/s] 93%|█████████▎| 9947/10712 [1:50:06<06:21,  2.00it/s] 93%|█████████▎| 9948/10712 [1:50:06<06:21,  2.00it/s] 93%|█████████▎| 9949/10712 [1:50:07<06:20,  2.00it/s] 93%|█████████▎| 9950/10712 [1:50:07<06:19,  2.01it/s]                                                      {'loss': 3.6695, 'grad_norm': 0.1922970861196518, 'learning_rate': 1.5337785624215004e-05, 'epoch': 0.93}
+ 93%|█████████▎| 9950/10712 [1:50:07<06:19,  2.01it/s] 93%|█████████▎| 9951/10712 [1:50:08<06:20,  2.00it/s] 93%|█████████▎| 9952/10712 [1:50:08<06:19,  2.00it/s] 93%|█████████▎| 9953/10712 [1:50:09<06:18,  2.00it/s] 93%|█████████▎| 9954/10712 [1:50:09<06:18,  2.00it/s] 93%|█████████▎| 9955/10712 [1:50:10<06:18,  2.00it/s] 93%|█████████▎| 9956/10712 [1:50:10<06:18,  2.00it/s] 93%|█████████▎| 9957/10712 [1:50:11<06:18,  1.99it/s] 93%|█████████▎| 9958/10712 [1:50:11<06:17,  2.00it/s] 93%|█████████▎| 9959/10712 [1:50:12<06:16,  2.00it/s] 93%|█████████▎| 9960/10712 [1:50:12<06:16,  2.00it/s] 93%|█████████▎| 9961/10712 [1:50:13<06:16,  2.00it/s] 93%|█████████▎| 9962/10712 [1:50:13<06:15,  2.00it/s] 93%|█████████▎| 9963/10712 [1:50:14<06:14,  2.00it/s] 93%|█████████▎| 9964/10712 [1:50:14<06:14,  2.00it/s] 93%|█████████▎| 9965/10712 [1:50:15<06:13,  2.00it/s] 93%|█████████▎| 9966/10712 [1:50:15<06:13,  2.00it/s] 93%|█████████▎| 9967/10712 [1:50:16<06:12,  2.00it/s] 93%|█████████▎| 9968/10712 [1:50:16<06:11,  2.00it/s] 93%|█████████▎| 9969/10712 [1:50:17<06:11,  2.00it/s] 93%|█████████▎| 9970/10712 [1:50:17<06:10,  2.00it/s] 93%|█████████▎| 9971/10712 [1:50:18<06:10,  2.00it/s] 93%|█████████▎| 9972/10712 [1:50:18<06:10,  2.00it/s] 93%|█████████▎| 9973/10712 [1:50:19<06:09,  2.00it/s] 93%|█████████▎| 9974/10712 [1:50:19<06:12,  1.98it/s] 93%|█████████▎| 9975/10712 [1:50:20<06:11,  1.98it/s]                                                      {'loss': 3.6626, 'grad_norm': 0.19567406177520752, 'learning_rate': 1.435264299009531e-05, 'epoch': 0.93}
+ 93%|█████████▎| 9975/10712 [1:50:20<06:11,  1.98it/s] 93%|█████████▎| 9976/10712 [1:50:20<06:10,  1.99it/s] 93%|█████████▎| 9977/10712 [1:50:21<06:09,  1.99it/s] 93%|█████████▎| 9978/10712 [1:50:21<06:08,  1.99it/s] 93%|█████████▎| 9979/10712 [1:50:22<06:07,  1.99it/s] 93%|█████████▎| 9980/10712 [1:50:22<06:06,  2.00it/s] 93%|█████████▎| 9981/10712 [1:50:23<06:05,  2.00it/s] 93%|█████████▎| 9982/10712 [1:50:23<06:05,  2.00it/s] 93%|█████████▎| 9983/10712 [1:50:24<06:03,  2.00it/s] 93%|█████████▎| 9984/10712 [1:50:24<06:02,  2.01it/s] 93%|█████████▎| 9985/10712 [1:50:25<06:03,  2.00it/s] 93%|█████████▎| 9986/10712 [1:50:25<06:01,  2.01it/s] 93%|█████████▎| 9987/10712 [1:50:26<06:00,  2.01it/s] 93%|█████████▎| 9988/10712 [1:50:26<06:00,  2.01it/s] 93%|█████████▎| 9989/10712 [1:50:27<06:00,  2.01it/s] 93%|█████████▎| 9990/10712 [1:50:27<05:59,  2.01it/s] 93%|█████████▎| 9991/10712 [1:50:28<05:58,  2.01it/s] 93%|█████████▎| 9992/10712 [1:50:28<05:58,  2.01it/s] 93%|█████████▎| 9993/10712 [1:50:29<05:57,  2.01it/s] 93%|█████████▎| 9994/10712 [1:50:29<05:57,  2.01it/s] 93%|█████████▎| 9995/10712 [1:50:30<05:56,  2.01it/s] 93%|█████████▎| 9996/10712 [1:50:30<05:56,  2.01it/s] 93%|█████████▎| 9997/10712 [1:50:31<05:56,  2.00it/s] 93%|█████████▎| 9998/10712 [1:50:31<05:56,  2.00it/s] 93%|█████████▎| 9999/10712 [1:50:32<05:56,  2.00it/s] 93%|█████████▎| 10000/10712 [1:50:32<05:55,  2.00it/s]                                                       {'loss': 3.677, 'grad_norm': 0.19261209666728973, 'learning_rate': 1.339973659165028e-05, 'epoch': 0.93}
+ 93%|█████████▎| 10000/10712 [1:50:32<05:55,  2.00it/s] 93%|█████████▎| 10001/10712 [1:50:33<05:56,  2.00it/s] 93%|█████████▎| 10002/10712 [1:50:33<05:55,  2.00it/s] 93%|█████████▎| 10003/10712 [1:50:34<05:55,  2.00it/s] 93%|█████████▎| 10004/10712 [1:50:34<05:54,  2.00it/s] 93%|█████████▎| 10005/10712 [1:50:35<05:52,  2.00it/s] 93%|█████████▎| 10006/10712 [1:50:35<05:52,  2.00it/s] 93%|█████████▎| 10007/10712 [1:50:36<05:51,  2.00it/s] 93%|█████████▎| 10008/10712 [1:50:36<05:50,  2.01it/s] 93%|█████████▎| 10009/10712 [1:50:37<05:50,  2.00it/s] 93%|█████████▎| 10010/10712 [1:50:37<05:50,  2.00it/s] 93%|█████████▎| 10011/10712 [1:50:38<05:51,  2.00it/s] 93%|█████████▎| 10012/10712 [1:50:38<05:51,  1.99it/s] 93%|█████████▎| 10013/10712 [1:50:39<05:50,  2.00it/s] 93%|█████████▎| 10014/10712 [1:50:39<05:49,  2.00it/s] 93%|█████████▎| 10015/10712 [1:50:40<05:48,  2.00it/s] 94%|█████████▎| 10016/10712 [1:50:40<05:48,  2.00it/s] 94%|█████████▎| 10017/10712 [1:50:41<05:47,  2.00it/s] 94%|█████████▎| 10018/10712 [1:50:41<05:46,  2.00it/s] 94%|█████████▎| 10019/10712 [1:50:42<05:46,  2.00it/s] 94%|█████████▎| 10020/10712 [1:50:42<05:45,  2.00it/s] 94%|█████████▎| 10021/10712 [1:50:43<05:44,  2.00it/s] 94%|█████████▎| 10022/10712 [1:50:43<05:44,  2.00it/s] 94%|█████████▎| 10023/10712 [1:50:44<05:43,  2.01it/s] 94%|█████████▎| 10024/10712 [1:50:44<05:43,  2.00it/s] 94%|█████████▎| 10025/10712 [1:50:45<05:43,  2.00it/s]                                                       {'loss': 3.6651, 'grad_norm': 0.19262836873531342, 'learning_rate': 1.2479129680773971e-05, 'epoch': 0.94}
+ 94%|█████████▎| 10025/10712 [1:50:45<05:43,  2.00it/s] 94%|█████████▎| 10026/10712 [1:50:45<05:43,  2.00it/s] 94%|█████████▎| 10027/10712 [1:50:46<05:43,  2.00it/s] 94%|█████████▎| 10028/10712 [1:50:46<05:42,  2.00it/s] 94%|█████████▎| 10029/10712 [1:50:47<05:42,  1.99it/s] 94%|█████████▎| 10030/10712 [1:50:47<05:42,  1.99it/s] 94%|█████████▎| 10031/10712 [1:50:48<05:41,  2.00it/s] 94%|█████████▎| 10032/10712 [1:50:48<05:40,  2.00it/s] 94%|█████████▎| 10033/10712 [1:50:49<05:39,  2.00it/s] 94%|█████████▎| 10034/10712 [1:50:49<05:39,  2.00it/s] 94%|█████████▎| 10035/10712 [1:50:50<05:38,  2.00it/s] 94%|█████████▎| 10036/10712 [1:50:50<05:37,  2.01it/s] 94%|█████████▎| 10037/10712 [1:50:51<05:40,  1.99it/s] 94%|█████████▎| 10038/10712 [1:50:51<05:38,  1.99it/s] 94%|█████████▎| 10039/10712 [1:50:52<05:38,  1.99it/s] 94%|█████████▎| 10040/10712 [1:50:52<05:38,  1.98it/s] 94%|█████████▎| 10041/10712 [1:50:53<05:37,  1.99it/s] 94%|█████████▎| 10042/10712 [1:50:53<05:36,  1.99it/s] 94%|█████████▍| 10043/10712 [1:50:54<05:35,  2.00it/s] 94%|█████████▍| 10044/10712 [1:50:54<05:34,  2.00it/s] 94%|█████████▍| 10045/10712 [1:50:55<05:34,  2.00it/s] 94%|█████████▍| 10046/10712 [1:50:55<05:32,  2.00it/s] 94%|█████████▍| 10047/10712 [1:50:56<05:32,  2.00it/s] 94%|█████████▍| 10048/10712 [1:50:56<05:31,  2.00it/s] 94%|█████████▍| 10049/10712 [1:50:57<05:31,  2.00it/s] 94%|█████████▍| 10050/10712 [1:50:57<05:29,  2.01it/s]                                                       {'loss': 3.6732, 'grad_norm': 0.19460439682006836, 'learning_rate': 1.1590883365389549e-05, 'epoch': 0.94}
+ 94%|█████████▍| 10050/10712 [1:50:57<05:29,  2.01it/s] 94%|█████████▍| 10051/10712 [1:50:58<05:29,  2.01it/s] 94%|█████████▍| 10052/10712 [1:50:58<05:28,  2.01it/s] 94%|█████████▍| 10053/10712 [1:50:59<05:28,  2.01it/s] 94%|█████████▍| 10054/10712 [1:50:59<05:27,  2.01it/s] 94%|█████████▍| 10055/10712 [1:51:00<05:28,  2.00it/s] 94%|█████████▍| 10056/10712 [1:51:00<05:27,  2.00it/s] 94%|█████████▍| 10057/10712 [1:51:01<05:27,  2.00it/s] 94%|█████████▍| 10058/10712 [1:51:01<05:27,  2.00it/s] 94%|█████████▍| 10059/10712 [1:51:02<05:27,  1.99it/s] 94%|█████████▍| 10060/10712 [1:51:02<05:26,  2.00it/s] 94%|█████████▍| 10061/10712 [1:51:03<05:25,  2.00it/s] 94%|█████████▍| 10062/10712 [1:51:03<05:25,  2.00it/s] 94%|█████████▍| 10063/10712 [1:51:04<05:25,  2.00it/s] 94%|█████████▍| 10064/10712 [1:51:04<05:24,  2.00it/s] 94%|█████████▍| 10065/10712 [1:51:05<05:24,  1.99it/s] 94%|█████████▍| 10066/10712 [1:51:05<05:23,  2.00it/s] 94%|█████████▍| 10067/10712 [1:51:06<05:22,  2.00it/s] 94%|█████████▍| 10068/10712 [1:51:06<05:21,  2.00it/s] 94%|█████████▍| 10069/10712 [1:51:07<05:24,  1.98it/s] 94%|█████████▍| 10070/10712 [1:51:07<05:24,  1.98it/s] 94%|█████████▍| 10071/10712 [1:51:08<05:23,  1.98it/s] 94%|█████████▍| 10072/10712 [1:51:08<05:22,  1.99it/s] 94%|█████████▍| 10073/10712 [1:51:09<05:20,  1.99it/s] 94%|█████████▍| 10074/10712 [1:51:09<05:20,  1.99it/s] 94%|█████████▍| 10075/10712 [1:51:10<05:18,  2.00it/s]                                                       {'loss': 3.6637, 'grad_norm': 0.19693857431411743, 'learning_rate': 1.0735056605392756e-05, 'epoch': 0.94}
+ 94%|█████████▍| 10075/10712 [1:51:10<05:18,  2.00it/s] 94%|█████████▍| 10076/10712 [1:51:10<05:18,  2.00it/s] 94%|█████████▍| 10077/10712 [1:51:11<05:17,  2.00it/s] 94%|█████████▍| 10078/10712 [1:51:11<05:16,  2.00it/s] 94%|█████████▍| 10079/10712 [1:51:12<05:15,  2.01it/s] 94%|█████████▍| 10080/10712 [1:51:12<05:14,  2.01it/s] 94%|█████████▍| 10081/10712 [1:51:13<05:14,  2.01it/s] 94%|█████████▍| 10082/10712 [1:51:13<05:15,  1.99it/s] 94%|███���█████▍| 10083/10712 [1:51:14<05:15,  2.00it/s] 94%|█████████▍| 10084/10712 [1:51:14<05:14,  2.00it/s] 94%|█████████▍| 10085/10712 [1:51:15<05:13,  2.00it/s] 94%|█████████▍| 10086/10712 [1:51:15<05:12,  2.00it/s] 94%|█████████▍| 10087/10712 [1:51:16<05:12,  2.00it/s] 94%|█████████▍| 10088/10712 [1:51:16<05:12,  2.00it/s] 94%|█████████▍| 10089/10712 [1:51:17<05:11,  2.00it/s] 94%|█████████▍| 10090/10712 [1:51:17<05:10,  2.00it/s] 94%|█████████▍| 10091/10712 [1:51:18<05:09,  2.00it/s] 94%|█████████▍| 10092/10712 [1:51:18<05:09,  2.00it/s] 94%|█████████▍| 10093/10712 [1:51:19<05:08,  2.01it/s] 94%|█████████▍| 10094/10712 [1:51:19<05:11,  1.98it/s] 94%|█████████▍| 10095/10712 [1:51:20<05:17,  1.94it/s] 94%|█████████▍| 10096/10712 [1:51:20<05:15,  1.95it/s] 94%|█████████▍| 10097/10712 [1:51:21<05:12,  1.97it/s] 94%|█████████▍| 10098/10712 [1:51:21<05:10,  1.98it/s] 94%|█████████▍| 10099/10712 [1:51:22<05:08,  1.98it/s] 94%|█████████▍| 10100/10712 [1:51:22<05:07,  1.99it/s]                                                       {'loss': 3.6724, 'grad_norm': 0.19636833667755127, 'learning_rate': 9.911706208738547e-06, 'epoch': 0.94}
+ 94%|█████████▍| 10100/10712 [1:51:22<05:07,  1.99it/s] 94%|█████████▍| 10101/10712 [1:51:23<05:07,  1.99it/s] 94%|█████████▍| 10102/10712 [1:51:23<05:06,  1.99it/s] 94%|█████████▍| 10103/10712 [1:51:24<05:04,  2.00it/s] 94%|█████████▍| 10104/10712 [1:51:24<05:04,  1.99it/s] 94%|█████████▍| 10105/10712 [1:51:25<05:03,  2.00it/s] 94%|█████████▍| 10106/10712 [1:51:25<05:04,  1.99it/s] 94%|█████████▍| 10107/10712 [1:51:26<05:04,  1.99it/s] 94%|█████████▍| 10108/10712 [1:51:26<05:02,  2.00it/s] 94%|█████████▍| 10109/10712 [1:51:27<05:02,  1.99it/s] 94%|█████████▍| 10110/10712 [1:51:27<05:01,  1.99it/s] 94%|█████████▍| 10111/10712 [1:51:28<05:01,  2.00it/s] 94%|█████████▍| 10112/10712 [1:51:28<05:01,  1.99it/s] 94%|█████████▍| 10113/10712 [1:51:29<05:01,  1.99it/s] 94%|█████████▍| 10114/10712 [1:51:29<05:00,  1.99it/s] 94%|█████████▍| 10115/10712 [1:51:30<04:59,  1.99it/s] 94%|█████████▍| 10116/10712 [1:51:30<04:58,  2.00it/s] 94%|█████████▍| 10117/10712 [1:51:31<04:58,  2.00it/s] 94%|█████████▍| 10118/10712 [1:51:31<04:57,  1.99it/s] 94%|█████████▍| 10119/10712 [1:51:32<04:57,  2.00it/s] 94%|█████████▍| 10120/10712 [1:51:32<04:56,  2.00it/s] 94%|█████████▍| 10121/10712 [1:51:33<04:56,  2.00it/s] 94%|█████████▍| 10122/10712 [1:51:33<04:55,  2.00it/s] 95%|█████████▍| 10123/10712 [1:51:34<04:54,  2.00it/s] 95%|█████████▍| 10124/10712 [1:51:34<04:53,  2.00it/s] 95%|█████████▍| 10125/10712 [1:51:35<04:52,  2.00it/s]                                                       {'loss': 3.675, 'grad_norm': 0.1976543664932251, 'learning_rate': 9.120886827669928e-06, 'epoch': 0.95}
+ 95%|█████████▍| 10125/10712 [1:51:35<04:52,  2.00it/s] 95%|█████████▍| 10126/10712 [1:51:35<04:53,  2.00it/s] 95%|█████████▍| 10127/10712 [1:51:36<04:52,  2.00it/s] 95%|█████████▍| 10128/10712 [1:51:36<04:52,  2.00it/s] 95%|█████████▍| 10129/10712 [1:51:37<04:51,  2.00it/s] 95%|█████████▍| 10130/10712 [1:51:37<04:50,  2.00it/s] 95%|█████████▍| 10131/10712 [1:51:38<04:49,  2.01it/s] 95%|█████████▍| 10132/10712 [1:51:38<04:49,  2.00it/s] 95%|█████████▍| 10133/10712 [1:51:39<04:48,  2.00it/s] 95%|█████████▍| 10134/10712 [1:51:39<04:48,  2.00it/s] 95%|█████████▍| 10135/10712 [1:51:40<04:47,  2.00it/s] 95%|█████████▍| 10136/10712 [1:51:40<04:50,  1.98it/s] 95%|█████████▍| 10137/10712 [1:51:41<04:49,  1.99it/s] 95%|█████████▍| 10138/10712 [1:51:41<04:48,  1.99it/s] 95%|█████████▍| 10139/10712 [1:51:42<04:47,  1.99it/s] 95%|█████████▍| 10140/10712 [1:51:42<04:46,  2.00it/s] 95%|█████████▍| 10141/10712 [1:51:43<04:45,  2.00it/s] 95%|█████████▍| 10142/10712 [1:51:43<04:44,  2.00it/s] 95%|█████████▍| 10143/10712 [1:51:44<04:44,  2.00it/s] 95%|█████���███▍| 10144/10712 [1:51:44<04:43,  2.00it/s] 95%|█████████▍| 10145/10712 [1:51:45<04:43,  2.00it/s] 95%|█████████▍| 10146/10712 [1:51:45<04:43,  2.00it/s] 95%|█████████▍| 10147/10712 [1:51:46<04:42,  2.00it/s] 95%|█████████▍| 10148/10712 [1:51:46<04:42,  2.00it/s] 95%|█████████▍| 10149/10712 [1:51:47<04:41,  2.00it/s] 95%|█████████▍| 10150/10712 [1:51:47<04:41,  2.00it/s]                                                       {'loss': 3.6749, 'grad_norm': 0.19580678641796112, 'learning_rate': 8.3626509550907e-06, 'epoch': 0.95}
+ 95%|█████████▍| 10150/10712 [1:51:47<04:41,  2.00it/s] 95%|█████████▍| 10151/10712 [1:51:48<04:41,  1.99it/s] 95%|█████████▍| 10152/10712 [1:51:48<04:40,  2.00it/s] 95%|█████████▍| 10153/10712 [1:51:49<04:39,  2.00it/s] 95%|█████████▍| 10154/10712 [1:51:49<04:38,  2.01it/s] 95%|█████████▍| 10155/10712 [1:51:50<04:37,  2.00it/s] 95%|█████████▍| 10156/10712 [1:51:50<04:37,  2.01it/s] 95%|█████████▍| 10157/10712 [1:51:51<04:36,  2.00it/s] 95%|█████████▍| 10158/10712 [1:51:51<04:36,  2.01it/s] 95%|█████████▍| 10159/10712 [1:51:52<04:35,  2.01it/s] 95%|█████████▍| 10160/10712 [1:51:52<04:37,  1.99it/s] 95%|█████████▍| 10161/10712 [1:51:53<04:37,  1.99it/s] 95%|█████████▍| 10162/10712 [1:51:53<04:36,  1.99it/s] 95%|█████████▍| 10163/10712 [1:51:54<04:35,  1.99it/s] 95%|█████████▍| 10164/10712 [1:51:54<04:34,  2.00it/s] 95%|█████████▍| 10165/10712 [1:51:55<04:33,  2.00it/s] 95%|█████████▍| 10166/10712 [1:51:55<04:32,  2.00it/s] 95%|█████████▍| 10167/10712 [1:51:56<04:32,  2.00it/s] 95%|█████████▍| 10168/10712 [1:51:56<04:31,  2.00it/s] 95%|█████████▍| 10169/10712 [1:51:57<04:31,  2.00it/s] 95%|█████████▍| 10170/10712 [1:51:57<04:30,  2.01it/s] 95%|█████████▍| 10171/10712 [1:51:58<04:29,  2.00it/s] 95%|█████████▍| 10172/10712 [1:51:58<04:29,  2.01it/s] 95%|█████████▍| 10173/10712 [1:51:59<04:28,  2.01it/s] 95%|█████████▍| 10174/10712 [1:51:59<04:27,  2.01it/s] 95%|█████████▍| 10175/10712 [1:52:00<04:27,  2.01it/s]                                                       {'loss': 3.6741, 'grad_norm': 0.19619998335838318, 'learning_rate': 7.637048921080636e-06, 'epoch': 0.95}
+ 95%|█████████▍| 10175/10712 [1:52:00<04:27,  2.01it/s] 95%|█████████▍| 10176/10712 [1:52:00<04:28,  2.00it/s] 95%|█████████▌| 10177/10712 [1:52:01<04:27,  2.00it/s] 95%|█████████▌| 10178/10712 [1:52:01<04:27,  2.00it/s] 95%|█████████▌| 10179/10712 [1:52:02<04:26,  2.00it/s] 95%|█████████▌| 10180/10712 [1:52:02<04:26,  2.00it/s] 95%|█████████▌| 10181/10712 [1:52:03<04:25,  2.00it/s] 95%|█████████▌| 10182/10712 [1:52:03<04:24,  2.00it/s] 95%|█████████▌| 10183/10712 [1:52:04<04:24,  2.00it/s] 95%|█████████▌| 10184/10712 [1:52:04<04:24,  2.00it/s] 95%|█████████▌| 10185/10712 [1:52:05<04:24,  2.00it/s] 95%|█████████▌| 10186/10712 [1:52:05<04:23,  2.00it/s] 95%|█████████▌| 10187/10712 [1:52:06<04:23,  2.00it/s] 95%|█████████▌| 10188/10712 [1:52:06<04:22,  2.00it/s] 95%|█████████▌| 10189/10712 [1:52:07<04:21,  2.00it/s] 95%|█████████▌| 10190/10712 [1:52:07<04:20,  2.00it/s] 95%|█████████▌| 10191/10712 [1:52:08<04:20,  2.00it/s] 95%|█████████▌| 10192/10712 [1:52:08<04:19,  2.00it/s] 95%|█████████▌| 10193/10712 [1:52:09<04:19,  2.00it/s] 95%|█████████▌| 10194/10712 [1:52:09<04:18,  2.00it/s] 95%|█████████▌| 10195/10712 [1:52:10<04:17,  2.00it/s] 95%|█████████▌| 10196/10712 [1:52:10<04:17,  2.01it/s] 95%|█████████▌| 10197/10712 [1:52:11<04:16,  2.01it/s] 95%|█████████▌| 10198/10712 [1:52:11<04:15,  2.01it/s] 95%|█████████▌| 10199/10712 [1:52:12<04:15,  2.01it/s] 95%|█████████▌| 10200/10712 [1:52:12<04:16,  1.99it/s]                                                       {'loss': 3.6819, 'grad_norm': 0.19207993149757385, 'learning_rate': 6.9441288895552015e-06, 'epoch': 0.95}
+ 95%|█████████▌| 10200/10712 [1:52:12<04:16,  1.99it/s] 95%|█████████▌| 10201/10712 [1:52:13<04:16,  1.99it/s] 95%|█████████▌| 10202/10712 [1:52:13<04:15,  1.99it/s] 95%|█████████▌| 10203/10712 [1:52:14<04:15,  2.00it/s] 95%|█████████▌| 10204/10712 [1:52:14<04:14,  2.00it/s] 95%|█████████▌| 10205/10712 [1:52:15<04:13,  2.00it/s] 95%|█████████▌| 10206/10712 [1:52:15<04:12,  2.00it/s] 95%|█████████▌| 10207/10712 [1:52:16<04:11,  2.01it/s] 95%|█████████▌| 10208/10712 [1:52:16<04:11,  2.00it/s] 95%|█████████▌| 10209/10712 [1:52:17<04:11,  2.00it/s] 95%|█████████▌| 10210/10712 [1:52:17<04:10,  2.00it/s] 95%|█████████▌| 10211/10712 [1:52:18<04:10,  2.00it/s] 95%|█████████▌| 10212/10712 [1:52:18<04:10,  2.00it/s] 95%|█████████▌| 10213/10712 [1:52:19<04:09,  2.00it/s] 95%|█████████▌| 10214/10712 [1:52:19<04:08,  2.00it/s] 95%|█████████▌| 10215/10712 [1:52:20<04:08,  2.00it/s] 95%|█████████▌| 10216/10712 [1:52:20<04:09,  1.99it/s] 95%|█████████▌| 10217/10712 [1:52:21<04:08,  1.99it/s] 95%|█████████▌| 10218/10712 [1:52:21<04:07,  1.99it/s] 95%|█████████▌| 10219/10712 [1:52:22<04:06,  2.00it/s] 95%|█████████▌| 10220/10712 [1:52:22<04:06,  2.00it/s] 95%|█████████▌| 10221/10712 [1:52:23<04:05,  2.00it/s] 95%|█████████▌| 10222/10712 [1:52:23<04:04,  2.00it/s] 95%|█████████▌| 10223/10712 [1:52:24<04:04,  2.00it/s] 95%|█████████▌| 10224/10712 [1:52:24<04:04,  2.00it/s] 95%|█████████▌| 10225/10712 [1:52:25<04:03,  2.00it/s]                                                       {'loss': 3.6801, 'grad_norm': 0.19403386116027832, 'learning_rate': 6.283936855068006e-06, 'epoch': 0.95}
+ 95%|█████████▌| 10225/10712 [1:52:25<04:03,  2.00it/s] 95%|█████████▌| 10226/10712 [1:52:25<04:03,  2.00it/s] 95%|█████████▌| 10227/10712 [1:52:26<04:02,  2.00it/s] 95%|█████████▌| 10228/10712 [1:52:26<04:02,  2.00it/s] 95%|█████████▌| 10229/10712 [1:52:27<04:01,  2.00it/s] 96%|█████████▌| 10230/10712 [1:52:27<04:00,  2.00it/s] 96%|█████████▌| 10231/10712 [1:52:28<03:59,  2.01it/s] 96%|█████████▌| 10232/10712 [1:52:28<04:00,  2.00it/s] 96%|█████████▌| 10233/10712 [1:52:29<03:59,  2.00it/s] 96%|█████████▌| 10234/10712 [1:52:29<03:59,  2.00it/s] 96%|█████████▌| 10235/10712 [1:52:30<03:58,  2.00it/s] 96%|█████████▌| 10236/10712 [1:52:30<03:57,  2.00it/s] 96%|█████████▌| 10237/10712 [1:52:31<03:57,  2.00it/s] 96%|█████████▌| 10238/10712 [1:52:31<03:56,  2.00it/s] 96%|█████████▌| 10239/10712 [1:52:32<03:56,  2.00it/s] 96%|█████████▌| 10240/10712 [1:52:32<03:55,  2.00it/s] 96%|█████████▌| 10241/10712 [1:52:33<03:55,  2.00it/s] 96%|█████████▌| 10242/10712 [1:52:33<03:55,  2.00it/s] 96%|█████████▌| 10243/10712 [1:52:34<03:54,  2.00it/s] 96%|█████████▌| 10244/10712 [1:52:34<03:54,  2.00it/s] 96%|█████████▌| 10245/10712 [1:52:35<03:53,  2.00it/s] 96%|█████████▌| 10246/10712 [1:52:35<03:52,  2.00it/s] 96%|█████████▌| 10247/10712 [1:52:36<03:53,  2.00it/s] 96%|█████████▌| 10248/10712 [1:52:36<03:53,  1.99it/s] 96%|█████████▌| 10249/10712 [1:52:37<03:52,  1.99it/s] 96%|█████████▌| 10250/10712 [1:52:37<03:51,  1.99it/s]                                                       {'loss': 3.6697, 'grad_norm': 0.19288146495819092, 'learning_rate': 5.656516639758136e-06, 'epoch': 0.96}
+ 96%|█████████▌| 10250/10712 [1:52:37<03:51,  1.99it/s] 96%|█████████▌| 10251/10712 [1:52:38<03:51,  1.99it/s] 96%|█████████▌| 10252/10712 [1:52:38<03:50,  2.00it/s] 96%|█████████▌| 10253/10712 [1:52:39<03:49,  2.00it/s] 96%|█████████▌| 10254/10712 [1:52:39<03:48,  2.00it/s] 96%|█████████▌| 10255/10712 [1:52:40<03:48,  2.00it/s] 96%|█████████▌| 10256/10712 [1:52:40<03:48,  2.00it/s] 96%|█████████▌| 10257/10712 [1:52:41<03:47,  2.00it/s] 96%|█████████▌| 10258/10712 [1:52:41<03:47,  1.99it/s] 96%|█████████▌| 10259/10712 [1:52:42<03:46,  2.00it/s] 96%|█████████▌| 10260/10712 [1:52:42<03:46,  2.00it/s] 96%|█████████▌| 10261/10712 [1:52:43<03:45,  2.00it/s] 96%|█████████▌| 10262/10712 [1:52:43<03:45,  2.00it/s] 96%|████���████▌| 10263/10712 [1:52:44<03:45,  1.99it/s] 96%|█████████▌| 10264/10712 [1:52:44<03:44,  1.99it/s] 96%|█████████▌| 10265/10712 [1:52:45<03:43,  2.00it/s] 96%|█████████▌| 10266/10712 [1:52:45<03:43,  2.00it/s] 96%|█████████▌| 10267/10712 [1:52:46<03:42,  2.00it/s] 96%|█████████▌| 10268/10712 [1:52:46<03:42,  2.00it/s] 96%|█████████▌| 10269/10712 [1:52:47<03:41,  2.00it/s] 96%|█████████▌| 10270/10712 [1:52:47<03:40,  2.00it/s] 96%|█████████▌| 10271/10712 [1:52:48<03:40,  2.00it/s] 96%|█████████▌| 10272/10712 [1:52:48<03:39,  2.00it/s] 96%|█████████▌| 10273/10712 [1:52:49<03:39,  2.00it/s] 96%|█████████▌| 10274/10712 [1:52:49<03:38,  2.00it/s] 96%|█████████▌| 10275/10712 [1:52:50<03:38,  2.00it/s]                                                       {'loss': 3.6741, 'grad_norm': 0.1951368749141693, 'learning_rate': 5.0619098904411964e-06, 'epoch': 0.96}
+ 96%|█████████▌| 10275/10712 [1:52:50<03:38,  2.00it/s] 96%|█████████▌| 10276/10712 [1:52:50<03:38,  2.00it/s] 96%|█████████▌| 10277/10712 [1:52:51<03:37,  2.00it/s] 96%|█████████▌| 10278/10712 [1:52:51<03:37,  1.99it/s] 96%|█████████▌| 10279/10712 [1:52:52<03:37,  1.99it/s] 96%|█████████▌| 10280/10712 [1:52:52<03:36,  2.00it/s] 96%|█████████▌| 10281/10712 [1:52:53<03:35,  2.00it/s] 96%|█████████▌| 10282/10712 [1:52:53<03:35,  2.00it/s] 96%|█████████▌| 10283/10712 [1:52:54<03:34,  2.00it/s] 96%|█████████▌| 10284/10712 [1:52:54<03:33,  2.00it/s] 96%|█████████▌| 10285/10712 [1:52:55<03:33,  2.00it/s] 96%|█████████▌| 10286/10712 [1:52:55<03:32,  2.00it/s] 96%|█████████▌| 10287/10712 [1:52:56<03:32,  2.00it/s] 96%|█████████▌| 10288/10712 [1:52:56<03:31,  2.00it/s] 96%|█████████▌| 10289/10712 [1:52:57<03:31,  2.00it/s] 96%|█████████▌| 10290/10712 [1:52:57<03:30,  2.00it/s] 96%|█████████▌| 10291/10712 [1:52:58<03:30,  2.00it/s] 96%|█████████▌| 10292/10712 [1:52:58<03:30,  2.00it/s] 96%|█████████▌| 10293/10712 [1:52:59<03:29,  2.00it/s] 96%|█████████▌| 10294/10712 [1:52:59<03:28,  2.00it/s] 96%|█████████▌| 10295/10712 [1:53:00<03:28,  2.00it/s] 96%|█████████▌| 10296/10712 [1:53:00<03:27,  2.01it/s] 96%|█████████▌| 10297/10712 [1:53:01<03:26,  2.01it/s] 96%|█████████▌| 10298/10712 [1:53:01<03:26,  2.01it/s] 96%|█████████▌| 10299/10712 [1:53:02<03:25,  2.01it/s] 96%|█████████▌| 10300/10712 [1:53:02<03:24,  2.01it/s]                                                       {'loss': 3.6674, 'grad_norm': 0.19309432804584503, 'learning_rate': 4.500156075844919e-06, 'epoch': 0.96}
+ 96%|█████████▌| 10300/10712 [1:53:02<03:24,  2.01it/s] 96%|█████████▌| 10301/10712 [1:53:03<03:24,  2.01it/s] 96%|█████████▌| 10302/10712 [1:53:03<03:23,  2.01it/s] 96%|█████████▌| 10303/10712 [1:53:04<03:23,  2.01it/s] 96%|█████████▌| 10304/10712 [1:53:04<03:23,  2.00it/s] 96%|█████████▌| 10305/10712 [1:53:05<03:23,  2.00it/s] 96%|█████████▌| 10306/10712 [1:53:05<03:23,  2.00it/s] 96%|█████████▌| 10307/10712 [1:53:06<03:22,  2.00it/s] 96%|█████████▌| 10308/10712 [1:53:06<03:22,  2.00it/s] 96%|█████████▌| 10309/10712 [1:53:07<03:21,  2.00it/s] 96%|█████████▌| 10310/10712 [1:53:07<03:20,  2.00it/s] 96%|█████████▋| 10311/10712 [1:53:08<03:20,  2.00it/s] 96%|█████████▋| 10312/10712 [1:53:08<03:19,  2.00it/s] 96%|█████████▋| 10313/10712 [1:53:09<03:19,  2.00it/s] 96%|█████████▋| 10314/10712 [1:53:09<03:19,  2.00it/s] 96%|█████████▋| 10315/10712 [1:53:10<03:18,  2.00it/s] 96%|█████████▋| 10316/10712 [1:53:10<03:17,  2.00it/s] 96%|█████████▋| 10317/10712 [1:53:11<03:17,  2.00it/s] 96%|█████████▋| 10318/10712 [1:53:11<03:16,  2.00it/s] 96%|█████████▋| 10319/10712 [1:53:12<03:16,  2.00it/s] 96%|█████████▋| 10320/10712 [1:53:12<03:15,  2.00it/s] 96%|█████████▋| 10321/10712 [1:53:13<03:15,  2.00it/s] 96%|█████████▋| 10322/10712 [1:53:13<03:14,  2.00it/s] 96%|█████████▋| 10323/10712 [1:53:14<03:14,  2.00it/s] 96%|█████��███▋| 10324/10712 [1:53:14<03:14,  2.00it/s] 96%|█████████▋| 10325/10712 [1:53:15<03:13,  2.00it/s]                                                       {'loss': 3.6723, 'grad_norm': 0.1945876032114029, 'learning_rate': 3.971292483989309e-06, 'epoch': 0.96}
+ 96%|█████████▋| 10325/10712 [1:53:15<03:13,  2.00it/s] 96%|█████████▋| 10326/10712 [1:53:15<03:12,  2.00it/s] 96%|█████████▋| 10327/10712 [1:53:16<03:12,  2.00it/s] 96%|█████████▋| 10328/10712 [1:53:16<03:12,  2.00it/s] 96%|█████████▋| 10329/10712 [1:53:17<03:11,  2.00it/s] 96%|█████████▋| 10330/10712 [1:53:17<03:11,  2.00it/s] 96%|█████████▋| 10331/10712 [1:53:18<03:10,  2.00it/s] 96%|█████████▋| 10332/10712 [1:53:18<03:09,  2.00it/s] 96%|█████████▋| 10333/10712 [1:53:19<03:09,  2.00it/s] 96%|█████████▋| 10334/10712 [1:53:19<03:08,  2.00it/s] 96%|█████████▋| 10335/10712 [1:53:20<03:08,  2.00it/s] 96%|█████████▋| 10336/10712 [1:53:20<03:07,  2.01it/s] 96%|█████████▋| 10337/10712 [1:53:21<03:06,  2.01it/s] 97%|█████████▋| 10338/10712 [1:53:21<03:06,  2.00it/s] 97%|█████████▋| 10339/10712 [1:53:22<03:05,  2.01it/s] 97%|█████████▋| 10340/10712 [1:53:22<03:05,  2.01it/s] 97%|█████████▋| 10341/10712 [1:53:23<03:04,  2.01it/s] 97%|█████████▋| 10342/10712 [1:53:23<03:04,  2.01it/s] 97%|█████████▋| 10343/10712 [1:53:24<03:03,  2.01it/s] 97%|█████████▋| 10344/10712 [1:53:24<03:03,  2.01it/s] 97%|█████████▋| 10345/10712 [1:53:25<03:02,  2.01it/s] 97%|█████████▋| 10346/10712 [1:53:25<03:02,  2.00it/s] 97%|█████████▋| 10347/10712 [1:53:26<03:01,  2.01it/s] 97%|█████████▋| 10348/10712 [1:53:26<03:04,  1.97it/s] 97%|█████████▋| 10349/10712 [1:53:27<03:04,  1.97it/s] 97%|█████████▋| 10350/10712 [1:53:27<03:02,  1.98it/s]                                                       {'loss': 3.6769, 'grad_norm': 0.19029711186885834, 'learning_rate': 3.4753542197114575e-06, 'epoch': 0.97}
+ 97%|█████████▋| 10350/10712 [1:53:27<03:02,  1.98it/s] 97%|█████████▋| 10351/10712 [1:53:28<03:01,  1.99it/s] 97%|█████████▋| 10352/10712 [1:53:28<03:00,  1.99it/s] 97%|█████████▋| 10353/10712 [1:53:29<02:59,  2.00it/s] 97%|█████████▋| 10354/10712 [1:53:29<02:59,  2.00it/s] 97%|█████████▋| 10355/10712 [1:53:30<02:58,  2.00it/s] 97%|█████████▋| 10356/10712 [1:53:30<02:57,  2.00it/s] 97%|█████████▋| 10357/10712 [1:53:31<02:57,  2.00it/s] 97%|█████████▋| 10358/10712 [1:53:31<02:56,  2.01it/s] 97%|█████████▋| 10359/10712 [1:53:32<02:55,  2.01it/s] 97%|█████████▋| 10360/10712 [1:53:32<02:56,  2.00it/s] 97%|█████████▋| 10361/10712 [1:53:33<02:55,  2.00it/s] 97%|█████████▋| 10362/10712 [1:53:33<02:55,  2.00it/s] 97%|█████████▋| 10363/10712 [1:53:34<02:54,  2.00it/s] 97%|█████████▋| 10364/10712 [1:53:34<02:54,  2.00it/s] 97%|█████████▋| 10365/10712 [1:53:35<02:53,  2.00it/s] 97%|█████████▋| 10366/10712 [1:53:35<02:52,  2.00it/s] 97%|█████████▋| 10367/10712 [1:53:36<02:52,  2.00it/s] 97%|█████████▋| 10368/10712 [1:53:36<02:51,  2.00it/s] 97%|█████████▋| 10369/10712 [1:53:37<02:51,  2.00it/s] 97%|█████████▋| 10370/10712 [1:53:37<02:50,  2.00it/s] 97%|█████████▋| 10371/10712 [1:53:38<02:50,  2.00it/s] 97%|█████████▋| 10372/10712 [1:53:39<03:20,  1.70it/s] 97%|█████████▋| 10373/10712 [1:53:39<03:10,  1.78it/s] 97%|█████████▋| 10374/10712 [1:53:40<03:03,  1.84it/s] 97%|█████████▋| 10375/10712 [1:53:40<02:58,  1.89it/s]                                                       {'loss': 3.6778, 'grad_norm': 0.19272814691066742, 'learning_rate': 3.0123742023356325e-06, 'epoch': 0.97}
+ 97%|█████████▋| 10375/10712 [1:53:40<02:58,  1.89it/s] 97%|█████████▋| 10376/10712 [1:53:41<02:55,  1.92it/s] 97%|█████████▋| 10377/10712 [1:53:41<02:52,  1.94it/s] 97%|█████████▋| 10378/10712 [1:53:42<02:50,  1.96it/s] 97%|█████████▋| 10379/10712 [1:53:42<02:48,  1.98it/s] 97%|█████████▋| 10380/10712 [1:53:43<02:47,  1.99it/s] 97%|█████████▋| 10381/10712 [1:53:43<02:45,  2.00it/s] 97%|██��██████▋| 10382/10712 [1:53:44<02:44,  2.00it/s] 97%|█████████▋| 10383/10712 [1:53:44<02:44,  2.00it/s] 97%|█████████▋| 10384/10712 [1:53:45<02:43,  2.01it/s] 97%|█████████▋| 10385/10712 [1:53:45<02:42,  2.01it/s] 97%|█████████▋| 10386/10712 [1:53:46<02:42,  2.01it/s] 97%|█████████▋| 10387/10712 [1:53:46<02:41,  2.01it/s] 97%|█████████▋| 10388/10712 [1:53:47<02:41,  2.01it/s] 97%|█████████▋| 10389/10712 [1:53:47<02:40,  2.01it/s] 97%|█████████▋| 10390/10712 [1:53:48<02:39,  2.01it/s] 97%|█████████▋| 10391/10712 [1:53:48<02:39,  2.01it/s] 97%|█████████▋| 10392/10712 [1:53:49<02:39,  2.01it/s] 97%|█████████▋| 10393/10712 [1:53:49<02:38,  2.01it/s] 97%|█████████▋| 10394/10712 [1:53:50<02:38,  2.00it/s] 97%|█████████▋| 10395/10712 [1:53:50<02:38,  2.00it/s] 97%|█████████▋| 10396/10712 [1:53:51<02:37,  2.00it/s] 97%|█████████▋| 10397/10712 [1:53:51<02:37,  2.00it/s] 97%|█████████▋| 10398/10712 [1:53:52<02:36,  2.00it/s] 97%|█████████▋| 10399/10712 [1:53:52<02:35,  2.01it/s] 97%|█████████▋| 10400/10712 [1:53:53<02:35,  2.00it/s]                                                       {'loss': 3.672, 'grad_norm': 0.19305270910263062, 'learning_rate': 2.582383163487745e-06, 'epoch': 0.97}
+ 97%|█████████▋| 10400/10712 [1:53:53<02:35,  2.00it/s] 97%|█████████▋| 10401/10712 [1:53:53<02:35,  2.00it/s] 97%|█████████▋| 10402/10712 [1:53:54<02:34,  2.00it/s] 97%|█████████▋| 10403/10712 [1:53:54<02:34,  2.00it/s] 97%|█████████▋| 10404/10712 [1:53:55<02:33,  2.00it/s] 97%|█████████▋| 10405/10712 [1:53:55<02:33,  2.00it/s] 97%|█████████▋| 10406/10712 [1:53:56<02:32,  2.00it/s] 97%|█████████▋| 10407/10712 [1:53:56<02:32,  2.01it/s] 97%|█████████▋| 10408/10712 [1:53:57<02:31,  2.00it/s] 97%|█████████▋| 10409/10712 [1:53:57<02:31,  2.00it/s] 97%|█████████▋| 10410/10712 [1:53:58<02:30,  2.00it/s] 97%|█████████▋| 10411/10712 [1:53:58<02:30,  2.00it/s] 97%|█████████▋| 10412/10712 [1:53:59<02:29,  2.00it/s] 97%|█████████▋| 10413/10712 [1:53:59<02:29,  2.00it/s] 97%|█████████▋| 10414/10712 [1:54:00<02:28,  2.01it/s] 97%|█████████▋| 10415/10712 [1:54:00<02:58,  1.66it/s] 97%|█████████▋| 10416/10712 [1:54:01<02:49,  1.75it/s] 97%|█████████▋| 10417/10712 [1:54:01<02:42,  1.82it/s] 97%|█████████▋| 10418/10712 [1:54:02<02:37,  1.86it/s] 97%|█████████▋| 10419/10712 [1:54:02<02:33,  1.90it/s] 97%|█████████▋| 10420/10712 [1:54:03<02:38,  1.84it/s] 97%|█████████▋| 10421/10712 [1:54:03<02:34,  1.88it/s] 97%|█████████▋| 10422/10712 [1:54:04<02:31,  1.92it/s] 97%|█████████▋| 10423/10712 [1:54:04<02:28,  1.94it/s] 97%|█████████▋| 10424/10712 [1:54:05<02:27,  1.96it/s] 97%|█████████▋| 10425/10712 [1:54:05<02:25,  1.97it/s]                                                       {'loss': 3.666, 'grad_norm': 0.1948838233947754, 'learning_rate': 2.1854096450558136e-06, 'epoch': 0.97}
+ 97%|█████████▋| 10425/10712 [1:54:05<02:25,  1.97it/s] 97%|█████████▋| 10426/10712 [1:54:06<02:24,  1.98it/s] 97%|█████████▋| 10427/10712 [1:54:06<02:23,  1.99it/s] 97%|█████████▋| 10428/10712 [1:54:07<02:22,  1.99it/s] 97%|█████████▋| 10429/10712 [1:54:07<02:22,  1.99it/s] 97%|█████████▋| 10430/10712 [1:54:08<02:21,  2.00it/s] 97%|█████████▋| 10431/10712 [1:54:08<02:20,  2.00it/s] 97%|█████████▋| 10432/10712 [1:54:09<02:19,  2.01it/s] 97%|█████████▋| 10433/10712 [1:54:09<02:18,  2.01it/s] 97%|█████████▋| 10434/10712 [1:54:10<02:18,  2.01it/s] 97%|█████████▋| 10435/10712 [1:54:10<02:17,  2.01it/s] 97%|█████████▋| 10436/10712 [1:54:11<02:17,  2.01it/s] 97%|█████████▋| 10437/10712 [1:54:11<02:16,  2.01it/s] 97%|█████████▋| 10438/10712 [1:54:12<02:16,  2.01it/s] 97%|█████████▋| 10439/10712 [1:54:12<02:15,  2.01it/s] 97%|█████████▋| 10440/10712 [1:54:13<02:14,  2.02it/s] 97%|█████████▋| 10441/10712 [1:54:13<02:14,  2.01it/s] 97%|█████████▋| 10442/10712 [1:54:14<02:15,  2.00it/s] 97%|████��████▋| 10443/10712 [1:54:14<02:14,  2.00it/s] 97%|█████████▋| 10444/10712 [1:54:15<02:14,  2.00it/s] 98%|█████████▊| 10445/10712 [1:54:15<02:13,  2.00it/s] 98%|█████████▊| 10446/10712 [1:54:16<02:13,  2.00it/s] 98%|█████████▊| 10447/10712 [1:54:16<02:12,  2.00it/s] 98%|█████████▊| 10448/10712 [1:54:17<02:11,  2.00it/s] 98%|█████████▊| 10449/10712 [1:54:17<02:11,  2.00it/s] 98%|█████████▊| 10450/10712 [1:54:18<02:10,  2.00it/s]                                                       {'loss': 3.6748, 'grad_norm': 0.19187714159488678, 'learning_rate': 1.8214799972953166e-06, 'epoch': 0.98}
+ 98%|█████████▊| 10450/10712 [1:54:18<02:10,  2.00it/s] 98%|█████████▊| 10451/10712 [1:54:18<02:10,  2.00it/s] 98%|█████████▊| 10452/10712 [1:54:19<02:09,  2.00it/s] 98%|█████████▊| 10453/10712 [1:54:19<02:09,  2.00it/s] 98%|█████████▊| 10454/10712 [1:54:20<02:08,  2.00it/s] 98%|█████████▊| 10455/10712 [1:54:20<02:08,  2.00it/s] 98%|█████████▊| 10456/10712 [1:54:21<02:08,  2.00it/s] 98%|█████████▊| 10457/10712 [1:54:21<02:07,  2.00it/s] 98%|█████████▊| 10458/10712 [1:54:22<02:07,  2.00it/s] 98%|█████████▊| 10459/10712 [1:54:22<02:06,  2.00it/s] 98%|█████████▊| 10460/10712 [1:54:23<02:05,  2.00it/s] 98%|█████████▊| 10461/10712 [1:54:23<02:05,  2.00it/s] 98%|█████████▊| 10462/10712 [1:54:24<02:05,  2.00it/s] 98%|█████████▊| 10463/10712 [1:54:24<02:04,  2.00it/s] 98%|█████████▊| 10464/10712 [1:54:25<02:04,  2.00it/s] 98%|█████████▊| 10465/10712 [1:54:25<02:04,  1.98it/s] 98%|█████████▊| 10466/10712 [1:54:26<02:05,  1.97it/s] 98%|█████████▊| 10467/10712 [1:54:26<02:04,  1.97it/s] 98%|█████████▊| 10468/10712 [1:54:27<02:03,  1.98it/s] 98%|█████████▊| 10469/10712 [1:54:27<02:02,  1.98it/s] 98%|█████████▊| 10470/10712 [1:54:28<02:01,  1.99it/s] 98%|█████████▊| 10471/10712 [1:54:28<02:00,  1.99it/s] 98%|█████████▊| 10472/10712 [1:54:29<02:00,  2.00it/s] 98%|█████████▊| 10473/10712 [1:54:29<01:59,  2.00it/s] 98%|█████████▊| 10474/10712 [1:54:30<01:58,  2.00it/s] 98%|█████████▊| 10475/10712 [1:54:30<01:58,  2.00it/s]                                                       {'loss': 3.6704, 'grad_norm': 0.19264216721057892, 'learning_rate': 1.490618377079922e-06, 'epoch': 0.98}
+ 98%|█████████▊| 10475/10712 [1:54:30<01:58,  2.00it/s] 98%|█████████▊| 10476/10712 [1:54:31<01:58,  2.00it/s] 98%|█████████▊| 10477/10712 [1:54:31<01:57,  2.00it/s] 98%|█████████▊| 10478/10712 [1:54:32<01:56,  2.00it/s] 98%|█████████▊| 10479/10712 [1:54:32<01:56,  2.01it/s] 98%|█████████▊| 10480/10712 [1:54:33<01:55,  2.01it/s] 98%|█████████▊| 10481/10712 [1:54:33<01:55,  2.01it/s] 98%|█████████▊| 10482/10712 [1:54:34<01:54,  2.01it/s] 98%|█████████▊| 10483/10712 [1:54:34<01:53,  2.01it/s] 98%|█████████▊| 10484/10712 [1:54:35<01:53,  2.01it/s] 98%|█████████▊| 10485/10712 [1:54:35<01:52,  2.01it/s] 98%|█████████▊| 10486/10712 [1:54:36<01:52,  2.01it/s] 98%|█████████▊| 10487/10712 [1:54:36<01:52,  2.00it/s] 98%|█████████▊| 10488/10712 [1:54:37<01:52,  2.00it/s] 98%|█████████▊| 10489/10712 [1:54:37<01:51,  2.00it/s] 98%|█████████▊| 10490/10712 [1:54:38<01:51,  2.00it/s] 98%|█████████▊| 10491/10712 [1:54:38<01:51,  1.98it/s] 98%|█████████▊| 10492/10712 [1:54:39<01:51,  1.97it/s] 98%|█████████▊| 10493/10712 [1:54:39<01:50,  1.98it/s] 98%|█████████▊| 10494/10712 [1:54:40<01:49,  1.99it/s] 98%|█████████▊| 10495/10712 [1:54:40<01:49,  1.99it/s] 98%|█████████▊| 10496/10712 [1:54:41<01:48,  1.99it/s] 98%|█████████▊| 10497/10712 [1:54:41<01:47,  1.99it/s] 98%|█████████▊| 10498/10712 [1:54:42<01:47,  2.00it/s] 98%|█████████▊| 10499/10712 [1:54:42<01:46,  2.00it/s] 98%|█████████▊| 10500/10712 [1:54:43<01:46,  2.00it/s]                                                       {'loss': 3.6703, 'grad_norm': 0.19271817803382874, 'learning_rate': 1.1928467462982706e-06, 'epoch': 0.98}
+ 98%|█████████▊| 10500/10712 [1:54:43<01:46,  2.00it/s] 98%|█���███████▊| 10501/10712 [1:54:43<01:45,  2.00it/s] 98%|█████████▊| 10502/10712 [1:54:44<01:44,  2.00it/s] 98%|█████████▊| 10503/10712 [1:54:44<01:44,  2.00it/s] 98%|█████████▊| 10504/10712 [1:54:45<01:43,  2.01it/s] 98%|█████████▊| 10505/10712 [1:54:45<01:43,  2.01it/s] 98%|█████████▊| 10506/10712 [1:54:46<01:42,  2.01it/s] 98%|█████████▊| 10507/10712 [1:54:46<01:42,  2.01it/s] 98%|█████████▊| 10508/10712 [1:54:47<01:41,  2.01it/s] 98%|█████████▊| 10509/10712 [1:54:47<01:41,  2.00it/s] 98%|█████████▊| 10510/10712 [1:54:48<01:41,  2.00it/s] 98%|█████████▊| 10511/10712 [1:54:48<01:40,  2.00it/s] 98%|█████████▊| 10512/10712 [1:54:49<01:40,  2.00it/s] 98%|█████████▊| 10513/10712 [1:54:49<01:39,  2.00it/s] 98%|█████████▊| 10514/10712 [1:54:50<01:39,  2.00it/s] 98%|█████████▊| 10515/10712 [1:54:50<01:38,  2.00it/s] 98%|█████████▊| 10516/10712 [1:54:51<01:37,  2.00it/s] 98%|█████████▊| 10517/10712 [1:54:51<01:37,  2.00it/s] 98%|█████████▊| 10518/10712 [1:54:52<01:37,  2.00it/s] 98%|█████████▊| 10519/10712 [1:54:52<01:36,  2.00it/s] 98%|█████████▊| 10520/10712 [1:54:53<01:36,  2.00it/s] 98%|█████████▊| 10521/10712 [1:54:53<01:35,  1.99it/s] 98%|█████████▊| 10522/10712 [1:54:54<01:35,  2.00it/s] 98%|█████████▊| 10523/10712 [1:54:54<01:34,  2.00it/s] 98%|█████████▊| 10524/10712 [1:54:55<01:33,  2.00it/s] 98%|█████████▊| 10525/10712 [1:54:55<01:33,  2.00it/s]                                                       {'loss': 3.6725, 'grad_norm': 0.1987934112548828, 'learning_rate': 9.281848703961426e-07, 'epoch': 0.98}
+ 98%|█████████▊| 10525/10712 [1:54:55<01:33,  2.00it/s] 98%|█████████▊| 10526/10712 [1:54:56<01:32,  2.00it/s] 98%|█████████▊| 10527/10712 [1:54:56<01:32,  2.00it/s] 98%|█████████▊| 10528/10712 [1:54:57<01:32,  2.00it/s] 98%|█████████▊| 10529/10712 [1:54:57<01:31,  2.00it/s] 98%|█████████▊| 10530/10712 [1:54:58<01:30,  2.00it/s] 98%|█████████▊| 10531/10712 [1:54:58<01:30,  2.00it/s] 98%|█████████▊| 10532/10712 [1:54:59<01:30,  2.00it/s] 98%|█████████▊| 10533/10712 [1:54:59<01:29,  2.00it/s] 98%|█████████▊| 10534/10712 [1:55:00<01:29,  1.99it/s] 98%|█████████▊| 10535/10712 [1:55:00<01:29,  1.99it/s] 98%|█████████▊| 10536/10712 [1:55:01<01:28,  1.99it/s] 98%|█████████▊| 10537/10712 [1:55:01<01:27,  1.99it/s] 98%|█████████▊| 10538/10712 [1:55:02<01:27,  1.99it/s] 98%|█████████▊| 10539/10712 [1:55:02<01:26,  2.00it/s] 98%|█████████▊| 10540/10712 [1:55:03<01:26,  2.00it/s] 98%|█████████▊| 10541/10712 [1:55:03<01:25,  2.00it/s] 98%|█████████▊| 10542/10712 [1:55:04<01:25,  2.00it/s] 98%|█████████▊| 10543/10712 [1:55:04<01:24,  2.00it/s] 98%|█████████▊| 10544/10712 [1:55:05<01:23,  2.00it/s] 98%|█████████▊| 10545/10712 [1:55:05<01:23,  2.00it/s] 98%|█████████▊| 10546/10712 [1:55:06<01:22,  2.01it/s] 98%|█████████▊| 10547/10712 [1:55:06<01:22,  2.01it/s] 98%|█████████▊| 10548/10712 [1:55:07<01:21,  2.01it/s] 98%|█████████▊| 10549/10712 [1:55:07<01:21,  2.01it/s] 98%|█████████▊| 10550/10712 [1:55:08<01:20,  2.01it/s]                                                       {'loss': 3.6712, 'grad_norm': 0.1921512335538864, 'learning_rate': 6.966503170642292e-07, 'epoch': 0.98}
+ 98%|█████████▊| 10550/10712 [1:55:08<01:20,  2.01it/s] 98%|█████████▊| 10551/10712 [1:55:08<01:20,  2.01it/s] 99%|█████████▊| 10552/10712 [1:55:09<01:19,  2.01it/s] 99%|█████████▊| 10553/10712 [1:55:09<01:19,  2.01it/s] 99%|█████████▊| 10554/10712 [1:55:10<01:18,  2.01it/s] 99%|█████████▊| 10555/10712 [1:55:10<01:18,  2.01it/s] 99%|█████████▊| 10556/10712 [1:55:11<01:17,  2.01it/s] 99%|█████████▊| 10557/10712 [1:55:11<01:17,  2.01it/s] 99%|█████████▊| 10558/10712 [1:55:12<01:16,  2.01it/s] 99%|█████████▊| 10559/10712 [1:55:12<01:16,  2.01it/s] 99%|█████████▊| 10560/10712 [1:55:13<01:15,  2.01it/s] 99%|█████████▊| 10561/10712 [1:55:13<01:14,  2.01it/s] 99%|███���█████▊| 10562/10712 [1:55:14<01:14,  2.02it/s] 99%|█████████▊| 10563/10712 [1:55:14<01:13,  2.02it/s] 99%|█████████▊| 10564/10712 [1:55:15<01:14,  2.00it/s] 99%|█████████▊| 10565/10712 [1:55:16<01:17,  1.90it/s] 99%|█████████▊| 10566/10712 [1:55:16<01:15,  1.93it/s] 99%|█████████▊| 10567/10712 [1:55:17<01:14,  1.95it/s] 99%|█████████▊| 10568/10712 [1:55:17<01:13,  1.96it/s] 99%|█████████▊| 10569/10712 [1:55:18<01:12,  1.97it/s] 99%|█████████▊| 10570/10712 [1:55:18<01:11,  1.98it/s] 99%|█████████▊| 10571/10712 [1:55:19<01:10,  1.99it/s] 99%|█████████▊| 10572/10712 [1:55:19<01:10,  1.99it/s] 99%|█████████▊| 10573/10712 [1:55:20<01:09,  2.00it/s] 99%|█████████▊| 10574/10712 [1:55:20<01:08,  2.00it/s] 99%|█████████▊| 10575/10712 [1:55:21<01:08,  2.00it/s]                                                       {'loss': 3.6721, 'grad_norm': 0.19429098069667816, 'learning_rate': 4.982584550723978e-07, 'epoch': 0.99}
+ 99%|█████████▊| 10575/10712 [1:55:21<01:08,  2.00it/s] 99%|█████████▊| 10576/10712 [1:55:21<01:08,  2.00it/s] 99%|█████████▊| 10577/10712 [1:55:22<01:07,  2.00it/s] 99%|█████████▊| 10578/10712 [1:55:22<01:06,  2.00it/s] 99%|█████████▉| 10579/10712 [1:55:23<01:06,  2.01it/s] 99%|█████████▉| 10580/10712 [1:55:23<01:05,  2.01it/s] 99%|█████████▉| 10581/10712 [1:55:24<01:05,  2.01it/s] 99%|█████████▉| 10582/10712 [1:55:24<01:04,  2.01it/s] 99%|█████████▉| 10583/10712 [1:55:25<01:04,  2.01it/s] 99%|█████████▉| 10584/10712 [1:55:25<01:03,  2.01it/s] 99%|█████████▉| 10585/10712 [1:55:25<01:03,  2.01it/s] 99%|█████████▉| 10586/10712 [1:55:26<01:02,  2.01it/s] 99%|█████████▉| 10587/10712 [1:55:26<01:02,  2.01it/s] 99%|█████████▉| 10588/10712 [1:55:27<01:01,  2.01it/s] 99%|█████████▉| 10589/10712 [1:55:27<01:01,  2.01it/s] 99%|█████████▉| 10590/10712 [1:55:28<01:00,  2.01it/s] 99%|█████████▉| 10591/10712 [1:55:28<01:00,  2.01it/s] 99%|█████████▉| 10592/10712 [1:55:29<00:59,  2.01it/s] 99%|█████████▉| 10593/10712 [1:55:29<00:59,  2.01it/s] 99%|█████████▉| 10594/10712 [1:55:30<00:58,  2.01it/s] 99%|█████████▉| 10595/10712 [1:55:30<00:58,  2.01it/s] 99%|█████████▉| 10596/10712 [1:55:31<00:57,  2.01it/s] 99%|█████████▉| 10597/10712 [1:55:31<00:57,  2.01it/s] 99%|█████████▉| 10598/10712 [1:55:32<00:56,  2.01it/s] 99%|█████████▉| 10599/10712 [1:55:32<00:56,  2.01it/s] 99%|█████████▉| 10600/10712 [1:55:33<00:55,  2.00it/s]                                                       {'loss': 3.6659, 'grad_norm': 0.1904834657907486, 'learning_rate': 3.3302245324928757e-07, 'epoch': 0.99}
+ 99%|█████████▉| 10600/10712 [1:55:33<00:55,  2.00it/s] 99%|█████████▉| 10601/10712 [1:55:33<00:55,  2.00it/s] 99%|█████████▉| 10602/10712 [1:55:34<00:55,  2.00it/s] 99%|█████████▉| 10603/10712 [1:55:34<00:54,  2.00it/s] 99%|█████████▉| 10604/10712 [1:55:35<00:54,  2.00it/s] 99%|█████████▉| 10605/10712 [1:55:35<00:53,  2.00it/s] 99%|█████████▉| 10606/10712 [1:55:36<00:53,  2.00it/s] 99%|█████████▉| 10607/10712 [1:55:36<00:52,  2.00it/s] 99%|█████████▉| 10608/10712 [1:55:37<00:51,  2.00it/s] 99%|█████████▉| 10609/10712 [1:55:37<00:51,  2.00it/s] 99%|█████████▉| 10610/10712 [1:55:38<00:50,  2.01it/s] 99%|█████████▉| 10611/10712 [1:55:38<00:50,  2.01it/s] 99%|█████████▉| 10612/10712 [1:55:39<00:49,  2.01it/s] 99%|█████████▉| 10613/10712 [1:55:39<00:49,  2.01it/s] 99%|█████████▉| 10614/10712 [1:55:40<00:48,  2.01it/s] 99%|█████████▉| 10615/10712 [1:55:40<00:48,  2.01it/s] 99%|█████████▉| 10616/10712 [1:55:41<00:47,  2.01it/s] 99%|█████████▉| 10617/10712 [1:55:41<00:47,  2.01it/s] 99%|█████████▉| 10618/10712 [1:55:42<00:46,  2.01it/s] 99%|█████████▉| 10619/10712 [1:55:42<00:46,  2.01it/s] 99%|█████████▉| 10620/10712 [1:55:43<00:45,  2.01it/s] 99%|█████████▉| 10621/10712 [1:55:43<00:45,  2.00it/s] 99%|█████████▉| 10622/10712 [1:55:44<00:44,  2.00it/s] 99%|████��████▉| 10623/10712 [1:55:44<00:44,  2.01it/s] 99%|█████████▉| 10624/10712 [1:55:45<00:43,  2.00it/s] 99%|█████████▉| 10625/10712 [1:55:45<00:43,  2.00it/s]                                                       {'loss': 3.6715, 'grad_norm': 0.19539688527584076, 'learning_rate': 2.0095327960817367e-07, 'epoch': 0.99}
+ 99%|█████████▉| 10625/10712 [1:55:45<00:43,  2.00it/s] 99%|█████████▉| 10626/10712 [1:55:46<00:43,  2.00it/s] 99%|█████████▉| 10627/10712 [1:55:46<00:42,  2.00it/s] 99%|█████████▉| 10628/10712 [1:55:47<00:41,  2.00it/s] 99%|█████████▉| 10629/10712 [1:55:47<00:41,  2.00it/s] 99%|█████████▉| 10630/10712 [1:55:48<00:40,  2.00it/s] 99%|█████████▉| 10631/10712 [1:55:48<00:40,  2.00it/s] 99%|█████████▉| 10632/10712 [1:55:49<00:39,  2.00it/s] 99%|█████████▉| 10633/10712 [1:55:49<00:39,  2.00it/s] 99%|█████████▉| 10634/10712 [1:55:50<00:39,  2.00it/s] 99%|█████████▉| 10635/10712 [1:55:50<00:38,  2.00it/s] 99%|█████████▉| 10636/10712 [1:55:51<00:38,  2.00it/s] 99%|█████████▉| 10637/10712 [1:55:51<00:37,  2.00it/s] 99%|█████████▉| 10638/10712 [1:55:52<00:36,  2.00it/s] 99%|█████████▉| 10639/10712 [1:55:52<00:36,  2.00it/s] 99%|█████████▉| 10640/10712 [1:55:53<00:35,  2.00it/s] 99%|█████████▉| 10641/10712 [1:55:53<00:35,  2.00it/s] 99%|█████████▉| 10642/10712 [1:55:54<00:34,  2.00it/s] 99%|█████████▉| 10643/10712 [1:55:55<00:35,  1.92it/s] 99%|█████████▉| 10644/10712 [1:55:55<00:35,  1.94it/s] 99%|█████████▉| 10645/10712 [1:55:56<00:34,  1.96it/s] 99%|█████████▉| 10646/10712 [1:55:56<00:33,  1.97it/s] 99%|█████████▉| 10647/10712 [1:55:57<00:32,  1.98it/s] 99%|█████████▉| 10648/10712 [1:55:57<00:32,  1.99it/s] 99%|█████████▉| 10649/10712 [1:55:57<00:31,  2.00it/s] 99%|█████████▉| 10650/10712 [1:55:58<00:30,  2.00it/s]                                                       {'loss': 3.6772, 'grad_norm': 0.19224008917808533, 'learning_rate': 1.0205970061916148e-07, 'epoch': 0.99}
+ 99%|█████████▉| 10650/10712 [1:55:58<00:30,  2.00it/s] 99%|█████████▉| 10651/10712 [1:55:58<00:30,  2.00it/s] 99%|█████████▉| 10652/10712 [1:55:59<00:29,  2.00it/s] 99%|█████████▉| 10653/10712 [1:55:59<00:29,  2.01it/s] 99%|█████████▉| 10654/10712 [1:56:00<00:28,  2.01it/s] 99%|█████████▉| 10655/10712 [1:56:00<00:28,  2.00it/s] 99%|█████████▉| 10656/10712 [1:56:01<00:27,  2.00it/s] 99%|█████████▉| 10657/10712 [1:56:01<00:27,  2.00it/s] 99%|█████████▉| 10658/10712 [1:56:02<00:26,  2.00it/s]100%|█████████▉| 10659/10712 [1:56:02<00:26,  2.00it/s]100%|█████████▉| 10660/10712 [1:56:03<00:25,  2.01it/s]100%|█████████▉| 10661/10712 [1:56:03<00:25,  2.01it/s]100%|█████████▉| 10662/10712 [1:56:04<00:24,  2.00it/s]100%|█████████▉| 10663/10712 [1:56:04<00:24,  2.00it/s]100%|█████████▉| 10664/10712 [1:56:05<00:23,  2.00it/s]100%|█████████▉| 10665/10712 [1:56:05<00:23,  2.01it/s]100%|█████████▉| 10666/10712 [1:56:06<00:22,  2.01it/s]100%|█████████▉| 10667/10712 [1:56:06<00:22,  2.01it/s]100%|█████████▉| 10668/10712 [1:56:07<00:21,  2.01it/s]100%|█████████▉| 10669/10712 [1:56:07<00:21,  2.01it/s]100%|█████████▉| 10670/10712 [1:56:08<00:20,  2.01it/s]100%|█████████▉| 10671/10712 [1:56:08<00:20,  2.01it/s]100%|█████████▉| 10672/10712 [1:56:09<00:19,  2.01it/s]100%|█████████▉| 10673/10712 [1:56:09<00:19,  2.00it/s]100%|█████████▉| 10674/10712 [1:56:10<00:19,  2.00it/s]100%|█████████▉| 10675/10712 [1:56:10<00:18,  2.00it/s]                                                       {'loss': 3.6748, 'grad_norm': 0.19364675879478455, 'learning_rate': 3.6348280627040987e-08, 'epoch': 1.0}
+100%|█████████▉| 10675/10712 [1:56:10<00:18,  2.00it/s]100%|█████████▉| 10676/10712 [1:56:11<00:17,  2.00it/s]100%|█████████▉| 10677/10712 [1:56:11<00:17,  2.00it/s]100%|█████████▉| 10678/10712 [1:56:12<00:16,  2.00it/s]100%|█████████▉| 10679/10712 [1:56:12<00:16,  2.01it/s]100%|█████████▉| 10680/10712 [1:56:13<00:15,  2.01it/s]100%|█���███████▉| 10681/10712 [1:56:13<00:15,  2.01it/s]100%|█████████▉| 10682/10712 [1:56:14<00:14,  2.00it/s]100%|█████████▉| 10683/10712 [1:56:14<00:14,  2.00it/s]100%|█████████▉| 10684/10712 [1:56:15<00:14,  2.00it/s]100%|█████████▉| 10685/10712 [1:56:15<00:13,  2.00it/s]100%|█████████▉| 10686/10712 [1:56:16<00:12,  2.00it/s]100%|█████████▉| 10687/10712 [1:56:16<00:12,  2.00it/s]100%|█████████▉| 10688/10712 [1:56:17<00:11,  2.00it/s]100%|█████████▉| 10689/10712 [1:56:17<00:11,  2.00it/s]100%|█████████▉| 10690/10712 [1:56:18<00:10,  2.00it/s]100%|█████████▉| 10691/10712 [1:56:18<00:10,  2.01it/s]100%|█████████▉| 10692/10712 [1:56:19<00:09,  2.01it/s]100%|█████████▉| 10693/10712 [1:56:19<00:09,  2.01it/s]100%|█████████▉| 10694/10712 [1:56:20<00:08,  2.01it/s]100%|█████████▉| 10695/10712 [1:56:20<00:08,  2.01it/s]100%|█████████▉| 10696/10712 [1:56:21<00:07,  2.01it/s]100%|█████████▉| 10697/10712 [1:56:21<00:07,  2.01it/s]100%|█████████▉| 10698/10712 [1:56:22<00:06,  2.01it/s]100%|█████████▉| 10699/10712 [1:56:22<00:06,  2.01it/s]100%|█████████▉| 10700/10712 [1:56:23<00:06,  2.00it/s]                                                       {'loss': 3.6587, 'grad_norm': 0.19537560641765594, 'learning_rate': 3.823381415801741e-09, 'epoch': 1.0}
+100%|█████████▉| 10700/10712 [1:56:23<00:06,  2.00it/s]100%|█████████▉| 10701/10712 [1:56:23<00:05,  1.99it/s]100%|█████████▉| 10702/10712 [1:56:24<00:05,  2.00it/s]100%|█████████▉| 10703/10712 [1:56:24<00:04,  2.00it/s]100%|█████████▉| 10704/10712 [1:56:25<00:04,  2.00it/s]100%|█████████▉| 10705/10712 [1:56:25<00:03,  2.00it/s]100%|█████████▉| 10706/10712 [1:56:26<00:02,  2.00it/s]100%|█████████▉| 10707/10712 [1:56:26<00:02,  2.00it/s]100%|█████████▉| 10708/10712 [1:56:27<00:01,  2.00it/s]100%|█████████▉| 10709/10712 [1:56:27<00:01,  2.00it/s]100%|█████████▉| 10710/10712 [1:56:28<00:00,  2.00it/s]100%|█████████▉| 10711/10712 [1:56:28<00:00,  2.01it/s]100%|██████████| 10712/10712 [1:56:30<00:00,  1.27it/s]                                                       {'train_runtime': 7001.8355, 'train_samples_per_second': 1566.659, 'train_steps_per_second': 1.53, 'train_loss': 4.054233100184582, 'epoch': 1.0}
+100%|██████████| 10712/10712 [1:56:41<00:00,  1.27it/s]100%|██████████| 10712/10712 [1:56:41<00:00,  1.53it/s]
 Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.