diff --git "a/train_job_output.txt" "b/train_job_output.txt"
--- "a/train_job_output.txt"
+++ "b/train_job_output.txt"
@@ -1,4 +1,4 @@
-slurm submission log: 2024-05-25 22:01:16.584166
+slurm submission log: 2024-05-26 22:30:16.581914
 created following sbatch script: 
 
 ###############################
@@ -7,24 +7,24 @@ created following sbatch script:
 
 #SBATCH --account=nlp
 #SBATCH --cpus-per-task=16
-#SBATCH --dependency=afterok:7651388
+#SBATCH --dependency=afterok:7653570
 #SBATCH --gres=gpu:2
-#SBATCH --job-name=tthrush-job-3356230
+#SBATCH --job-name=tthrush-job-3137501
 #SBATCH --mem=100G
 #SBATCH --nodelist=sphinx2
 #SBATCH --open-mode=append
-#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/llms/pythia-70m_sciq_1/train_job_output.txt
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/llms/pythia-70m_sciq_1/train_job_output.txt
 #SBATCH --partition=sphinx
 #SBATCH --time=14-0
 
 # activate your desired anaconda environment
-. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
+. /nlp/scr/tthrush/miniconda3/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
 
 # cd to working directory
 cd .
 
 # launch commands
-srun --unbuffered run_as_child_processes 'torchrun --master_port 29509 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14'
+srun --unbuffered run_as_child_processes 'torchrun --master_port 29509 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14'
 
 ###############################
 
@@ -34,13 +34,13 @@ submission to slurm complete!
 ###############################
 slurm submission output
 
-Submitted batch job 7651389
+Submitted batch job 7653571
 
 
 
 ###############################
 
-slurm submission log: 2024-05-25 22:02:25.782410
+slurm submission log: 2024-05-26 22:32:57.495347
 created following sbatch script: 
 
 ###############################
@@ -49,24 +49,24 @@ created following sbatch script:
 
 #SBATCH --account=nlp
 #SBATCH --cpus-per-task=16
-#SBATCH --dependency=afterok:7651419
+#SBATCH --dependency=afterok:7653600
 #SBATCH --gres=gpu:2
-#SBATCH --job-name=tthrush-job-818221
+#SBATCH --job-name=tthrush-job-3075134
 #SBATCH --mem=100G
 #SBATCH --nodelist=sphinx2
 #SBATCH --open-mode=append
-#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/llms/pythia-70m_sciq_1/train_job_output.txt
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/llms/pythia-70m_sciq_1/train_job_output.txt
 #SBATCH --partition=sphinx
 #SBATCH --time=14-0
 
 # activate your desired anaconda environment
-. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
+. /nlp/scr/tthrush/miniconda3/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
 
 # cd to working directory
 cd .
 
 # launch commands
-srun --unbuffered run_as_child_processes 'torchrun --master_port 29509 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14'
+srun --unbuffered run_as_child_processes 'torchrun --master_port 29509 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14'
 
 ###############################
 
@@ -76,13 +76,13 @@ submission to slurm complete!
 ###############################
 slurm submission output
 
-Submitted batch job 7651420
+Submitted batch job 7653601
 
 
 
 ###############################
 
-slurm submission log: 2024-05-25 22:12:50.969317
+slurm submission log: 2024-05-26 22:58:09.787171
 created following sbatch script: 
 
 ###############################
@@ -91,24 +91,24 @@ created following sbatch script:
 
 #SBATCH --account=nlp
 #SBATCH --cpus-per-task=16
-#SBATCH --dependency=afterok:7651460
+#SBATCH --dependency=afterok:7653655
 #SBATCH --gres=gpu:2
-#SBATCH --job-name=tthrush-job-4782955
+#SBATCH --job-name=tthrush-job-3775598
 #SBATCH --mem=100G
 #SBATCH --nodelist=sphinx2
 #SBATCH --open-mode=append
-#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/llms/pythia-70m_sciq_1/train_job_output.txt
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/llms/pythia-70m_sciq_1/train_job_output.txt
 #SBATCH --partition=sphinx
 #SBATCH --time=14-0
 
 # activate your desired anaconda environment
-. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
+. /nlp/scr/tthrush/miniconda3/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
 
 # cd to working directory
 cd .
 
 # launch commands
-srun --unbuffered run_as_child_processes 'torchrun --master_port 29509 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14'
+srun --unbuffered run_as_child_processes 'torchrun --master_port 29509 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14'
 
 ###############################
 
@@ -118,13 +118,13 @@ submission to slurm complete!
 ###############################
 slurm submission output
 
-Submitted batch job 7651461
+Submitted batch job 7653656
 
 
 
 ###############################
 
-slurm submission log: 2024-05-25 22:15:56.657122
+slurm submission log: 2024-05-26 23:16:43.398883
 created following sbatch script: 
 
 ###############################
@@ -133,24 +133,24 @@ created following sbatch script:
 
 #SBATCH --account=nlp
 #SBATCH --cpus-per-task=16
-#SBATCH --dependency=afterok:7651488
+#SBATCH --dependency=afterok:7653712
 #SBATCH --gres=gpu:2
-#SBATCH --job-name=tthrush-job-2931459
+#SBATCH --job-name=tthrush-job-3360635
 #SBATCH --mem=100G
 #SBATCH --nodelist=sphinx2
 #SBATCH --open-mode=append
-#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/llms/pythia-70m_sciq_1/train_job_output.txt
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/llms/pythia-70m_sciq_1/train_job_output.txt
 #SBATCH --partition=sphinx
 #SBATCH --time=14-0
 
 # activate your desired anaconda environment
-. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
+. /nlp/scr/tthrush/miniconda3/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
 
 # cd to working directory
 cd .
 
 # launch commands
-srun --unbuffered run_as_child_processes 'torchrun --master_port 29509 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14'
+srun --unbuffered run_as_child_processes 'torchrun --master_port 29509 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14'
 
 ###############################
 
@@ -160,570 +160,63 @@ submission to slurm complete!
 ###############################
 slurm submission output
 
-Submitted batch job 7651489
+Submitted batch job 7653713
 
 
 
 ###############################
 
-slurm submission log: 2024-05-25 22:18:15.494214
-created following sbatch script: 
-
-###############################
-
-#!/bin/bash
-
-#SBATCH --account=nlp
-#SBATCH --cpus-per-task=16
-#SBATCH --dependency=afterok:7651518
-#SBATCH --gres=gpu:2
-#SBATCH --job-name=tthrush-job-1481445
-#SBATCH --mem=100G
-#SBATCH --nodelist=sphinx2
-#SBATCH --open-mode=append
-#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/llms/pythia-70m_sciq_1/train_job_output.txt
-#SBATCH --partition=sphinx
-#SBATCH --time=14-0
-
-# activate your desired anaconda environment
-. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
-
-# cd to working directory
-cd .
-
-# launch commands
-srun --unbuffered run_as_child_processes 'torchrun --master_port 29509 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14'
-
-###############################
-
-submission to slurm complete!
-
-
-###############################
-slurm submission output
-
-Submitted batch job 7651519
-
-
-
-###############################
-
-/var/lib/slurm/slurmd/job7651519/slurm_script: line 16: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory
-
-CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.
-To initialize your shell, run
-
-    $ conda init <SHELL_NAME>
-
-Currently supported shells are:
-  - bash
-  - fish
-  - tcsh
-  - xonsh
-  - zsh
-  - powershell
-
-See 'conda init --help' for more information and options.
-
-IMPORTANT: You may need to close and restart your shell after running 'conda init'.
-
-
 ###############################
-start time: 2024-05-26 10:17:52.167910
+start time: 2024-05-27 10:05:46.837699
 machine: sphinx2
 conda env: pretraining-coreset-selection
 ###############################
 running following processes
 
-	torchrun --master_port 29509 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14
+	torchrun --master_port 29509 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14
 
 
 ###############################
 command outputs: 
 
 
-[2024-05-26 10:17:54,213] torch.distributed.run: [WARNING] 
-[2024-05-26 10:17:54,213] torch.distributed.run: [WARNING] *****************************************
-[2024-05-26 10:17:54,213] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
-[2024-05-26 10:17:54,213] torch.distributed.run: [WARNING] *****************************************
-05/26/2024 10:18:04 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=14.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
-05/26/2024 10:18:09 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_upsample/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=14.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
-  0%|          | 0/11858 [00:00<?, ?it/s][rank1]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
-[rank0]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
-  0%|          | 1/11858 [00:11<38:00:11, 11.54s/it]  0%|          | 2/11858 [00:14<21:59:58,  6.68s/it]  0%|          | 3/11858 [00:17<15:35:38,  4.74s/it]  0%|          | 4/11858 [00:19<12:08:47,  3.69s/it]  0%|          | 5/11858 [00:20<9:07:53,  2.77s/it]   0%|          | 6/11858 [00:21<7:12:57,  2.19s/it]  0%|          | 7/11858 [00:22<5:51:27,  1.78s/it]  0%|          | 8/11858 [00:23<4:53:50,  1.49s/it]  0%|          | 9/11858 [00:24<4:12:20,  1.28s/it]  0%|          | 10/11858 [00:24<3:42:26,  1.13s/it]  0%|          | 11/11858 [00:25<3:16:57,  1.00it/s]  0%|          | 12/11858 [00:26<2:56:55,  1.12it/s]  0%|          | 13/11858 [00:26<2:43:36,  1.21it/s]  0%|          | 14/11858 [00:27<2:32:39,  1.29it/s]  0%|          | 15/11858 [00:28<2:25:31,  1.36it/s]  0%|          | 16/11858 [00:28<2:17:59,  1.43it/s]  0%|          | 17/11858 [00:29<2:12:00,  1.49it/s]  0%|          | 18/11858 [00:30<2:08:17,  1.54it/s]  0%|          | 19/11858 [00:30<2:04:53,  1.58it/s]  0%|          | 20/11858 [00:31<2:01:36,  1.62it/s]  0%|          | 21/11858 [00:31<1:58:40,  1.66it/s]  0%|          | 22/11858 [00:32<1:57:08,  1.68it/s]  0%|          | 23/11858 [00:32<1:54:42,  1.72it/s]  0%|          | 24/11858 [00:33<1:52:40,  1.75it/s]  0%|          | 25/11858 [00:34<1:51:22,  1.77it/s]                                                    {'loss': 10.6693, 'grad_norm': 1.4176390171051025, 'learning_rate': 2.1079258010118044e-05, 'epoch': 0.03}
-  0%|          | 25/11858 [00:34<1:51:22,  1.77it/s]  0%|          | 26/11858 [00:34<1:49:57,  1.79it/s]  0%|          | 27/11858 [00:35<1:48:57,  1.81it/s]  0%|          | 28/11858 [00:35<1:47:58,  1.83it/s]  0%|          | 29/11858 [00:36<1:48:38,  1.81it/s]  0%|          | 30/11858 [00:36<1:46:32,  1.85it/s]  0%|          | 31/11858 [00:37<1:44:38,  1.88it/s]  0%|          | 32/11858 [00:37<1:43:05,  1.91it/s]  0%|          | 33/11858 [00:38<1:41:59,  1.93it/s]  0%|          | 34/11858 [00:38<1:41:14,  1.95it/s]  0%|          | 35/11858 [00:39<1:41:33,  1.94it/s]  0%|          | 36/11858 [00:39<1:40:49,  1.95it/s]  0%|          | 37/11858 [00:40<1:40:07,  1.97it/s]  0%|          | 38/11858 [00:40<1:39:34,  1.98it/s]  0%|          | 39/11858 [00:41<1:39:09,  1.99it/s]  0%|          | 40/11858 [00:41<1:39:18,  1.98it/s]  0%|          | 41/11858 [00:42<1:38:50,  1.99it/s]  0%|          | 42/11858 [00:42<1:38:23,  2.00it/s]  0%|          | 43/11858 [00:43<1:38:18,  2.00it/s]  0%|          | 44/11858 [00:43<1:38:13,  2.00it/s]  0%|          | 45/11858 [00:44<1:38:07,  2.01it/s]  0%|          | 46/11858 [00:44<1:37:56,  2.01it/s]  0%|          | 47/11858 [00:45<1:37:44,  2.01it/s]  0%|          | 48/11858 [00:45<1:37:41,  2.01it/s]  0%|          | 49/11858 [00:46<1:37:35,  2.02it/s]  0%|          | 50/11858 [00:46<1:37:46,  2.01it/s]{'loss': 9.951, 'grad_norm': 1.3265435695648193, 'learning_rate': 4.215851602023609e-05, 'epoch': 0.06}
-                                                      0%|          | 50/11858 [00:46<1:37:46,  2.01it/s]  0%|          | 51/11858 [00:47<1:37:45,  2.01it/s]  0%|          | 52/11858 [00:47<1:37:53,  2.01it/s]  0%|          | 53/11858 [00:48<1:37:41,  2.01it/s]  0%|          | 54/11858 [00:48<1:37:25,  2.02it/s]  0%|          | 55/11858 [00:49<1:37:15,  2.02it/s]  0%|          | 56/11858 [00:49<1:37:29,  2.02it/s]  0%|          | 57/11858 [00:50<1:37:19,  2.02it/s]  0%|          | 58/11858 [00:50<1:37:10,  2.02it/s]  0%|          | 59/11858 [00:51<1:36:56,  2.03it/s]  1%|          | 60/11858 [00:51<1:36:59,  2.03it/s]  1%|          | 61/11858 [00:52<1:36:58,  2.03it/s]  1%|          | 62/11858 [00:52<1:37:24,  2.02it/s]  1%|          | 63/11858 [00:53<1:37:06,  2.02it/s]  1%|          | 64/11858 [00:53<1:36:56,  2.03it/s]  1%|          | 65/11858 [00:54<1:36:42,  2.03it/s]  1%|          | 66/11858 [00:54<1:36:42,  2.03it/s]  1%|          | 67/11858 [00:55<1:36:37,  2.03it/s]  1%|          | 68/11858 [00:55<1:36:36,  2.03it/s]  1%|          | 69/11858 [00:56<1:36:25,  2.04it/s]  1%|          | 70/11858 [00:56<1:36:33,  2.03it/s]  1%|          | 71/11858 [00:57<1:36:32,  2.03it/s]  1%|          | 72/11858 [00:57<1:36:26,  2.04it/s]  1%|          | 73/11858 [00:58<1:36:21,  2.04it/s]  1%|          | 74/11858 [00:58<1:36:21,  2.04it/s]  1%|          | 75/11858 [00:59<1:36:18,  2.04it/s]                                                    {'loss': 9.2588, 'grad_norm': 1.1433026790618896, 'learning_rate': 6.323777403035414e-05, 'epoch': 0.09}
-  1%|          | 75/11858 [00:59<1:36:18,  2.04it/s]  1%|          | 76/11858 [00:59<1:36:25,  2.04it/s]  1%|          | 77/11858 [01:00<1:36:22,  2.04it/s]  1%|          | 78/11858 [01:00<1:36:22,  2.04it/s]  1%|          | 79/11858 [01:01<1:36:17,  2.04it/s]  1%|          | 80/11858 [01:01<1:36:18,  2.04it/s]  1%|          | 81/11858 [01:02<1:36:17,  2.04it/s]  1%|          | 82/11858 [01:02<1:36:23,  2.04it/s]  1%|          | 83/11858 [01:03<1:36:14,  2.04it/s]  1%|          | 84/11858 [01:03<1:36:18,  2.04it/s]  1%|          | 85/11858 [01:03<1:36:15,  2.04it/s]  1%|          | 86/11858 [01:04<1:36:10,  2.04it/s]  1%|          | 87/11858 [01:04<1:36:10,  2.04it/s]  1%|          | 88/11858 [01:05<1:36:11,  2.04it/s]  1%|          | 89/11858 [01:05<1:36:06,  2.04it/s]  1%|          | 90/11858 [01:06<1:36:09,  2.04it/s]  1%|          | 91/11858 [01:06<1:36:14,  2.04it/s]  1%|          | 92/11858 [01:07<1:36:12,  2.04it/s]  1%|          | 93/11858 [01:07<1:36:12,  2.04it/s]  1%|          | 94/11858 [01:08<1:36:10,  2.04it/s]  1%|          | 95/11858 [01:08<1:36:21,  2.03it/s]  1%|          | 96/11858 [01:09<1:36:16,  2.04it/s]  1%|          | 97/11858 [01:09<1:36:06,  2.04it/s]  1%|          | 98/11858 [01:10<1:36:07,  2.04it/s]  1%|          | 99/11858 [01:10<1:36:02,  2.04it/s]  1%|          | 100/11858 [01:11<1:36:00,  2.04it/s]                                                     {'loss': 8.4644, 'grad_norm': 0.849529504776001, 'learning_rate': 8.431703204047218e-05, 'epoch': 0.12}
-  1%|          | 100/11858 [01:11<1:36:00,  2.04it/s]  1%|          | 101/11858 [01:11<1:36:04,  2.04it/s]  1%|          | 102/11858 [01:12<1:36:06,  2.04it/s]  1%|          | 103/11858 [01:12<1:36:04,  2.04it/s]  1%|          | 104/11858 [01:13<1:36:00,  2.04it/s]  1%|          | 105/11858 [01:13<1:35:58,  2.04it/s]  1%|          | 106/11858 [01:14<1:36:01,  2.04it/s]  1%|          | 107/11858 [01:14<1:35:55,  2.04it/s]  1%|          | 108/11858 [01:15<1:35:49,  2.04it/s]  1%|          | 109/11858 [01:15<1:35:52,  2.04it/s]  1%|          | 110/11858 [01:16<1:35:51,  2.04it/s]  1%|          | 111/11858 [01:16<1:35:48,  2.04it/s]  1%|          | 112/11858 [01:17<1:35:47,  2.04it/s]  1%|          | 113/11858 [01:17<1:35:53,  2.04it/s]  1%|          | 114/11858 [01:18<1:35:56,  2.04it/s]  1%|          | 115/11858 [01:18<1:35:52,  2.04it/s]  1%|          | 116/11858 [01:19<1:35:54,  2.04it/s]  1%|          | 117/11858 [01:19<1:35:58,  2.04it/s]  1%|          | 118/11858 [01:20<1:35:51,  2.04it/s]  1%|          | 119/11858 [01:20<1:36:14,  2.03it/s]  1%|          | 120/11858 [01:21<1:36:06,  2.04it/s]  1%|          | 121/11858 [01:21<1:35:59,  2.04it/s]  1%|          | 122/11858 [01:22<1:35:56,  2.04it/s]  1%|          | 123/11858 [01:22<1:35:55,  2.04it/s]  1%|          | 124/11858 [01:23<1:35:53,  2.04it/s]  1%|          | 125/11858 [01:23<1:35:54,  2.04it/s]                                                     {'loss': 7.774, 'grad_norm': 0.5715859532356262, 'learning_rate': 0.00010539629005059021, 'epoch': 0.15}
-  1%|          | 125/11858 [01:23<1:35:54,  2.04it/s]  1%|          | 126/11858 [01:24<1:36:01,  2.04it/s]  1%|          | 127/11858 [01:24<1:35:55,  2.04it/s]  1%|          | 128/11858 [01:25<1:35:54,  2.04it/s]  1%|          | 129/11858 [01:25<1:35:48,  2.04it/s]  1%|          | 130/11858 [01:26<1:35:44,  2.04it/s]  1%|          | 131/11858 [01:26<1:35:42,  2.04it/s]  1%|          | 132/11858 [01:27<1:35:46,  2.04it/s]  1%|          | 133/11858 [01:27<1:35:43,  2.04it/s]  1%|          | 134/11858 [01:28<1:35:39,  2.04it/s]  1%|          | 135/11858 [01:28<1:35:42,  2.04it/s]  1%|          | 136/11858 [01:28<1:35:42,  2.04it/s]  1%|          | 137/11858 [01:29<1:35:34,  2.04it/s]  1%|          | 138/11858 [01:29<1:35:31,  2.04it/s]  1%|          | 139/11858 [01:30<1:35:34,  2.04it/s]  1%|          | 140/11858 [01:30<1:35:36,  2.04it/s]  1%|          | 141/11858 [01:31<1:35:36,  2.04it/s]  1%|          | 142/11858 [01:31<1:35:36,  2.04it/s]  1%|          | 143/11858 [01:32<1:35:37,  2.04it/s]  1%|          | 144/11858 [01:32<1:35:37,  2.04it/s]  1%|          | 145/11858 [01:33<1:35:32,  2.04it/s]  1%|          | 146/11858 [01:33<1:35:32,  2.04it/s]  1%|          | 147/11858 [01:34<1:35:35,  2.04it/s]  1%|          | 148/11858 [01:34<1:35:30,  2.04it/s]  1%|▏         | 149/11858 [01:35<1:35:28,  2.04it/s]  1%|▏         | 150/11858 [01:35<1:35:27,  2.04it/s]                                                     {'loss': 7.2616, 'grad_norm': 0.5663660168647766, 'learning_rate': 0.00012647554806070828, 'epoch': 0.18}
-  1%|▏         | 150/11858 [01:35<1:35:27,  2.04it/s]  1%|▏         | 151/11858 [01:36<1:35:34,  2.04it/s]  1%|▏         | 152/11858 [01:36<1:35:32,  2.04it/s]  1%|▏         | 153/11858 [01:37<1:35:30,  2.04it/s]  1%|▏         | 154/11858 [01:37<1:35:31,  2.04it/s]  1%|▏         | 155/11858 [01:38<1:35:29,  2.04it/s]  1%|▏         | 156/11858 [01:38<1:35:31,  2.04it/s]  1%|▏         | 157/11858 [01:39<1:35:31,  2.04it/s]  1%|▏         | 158/11858 [01:39<1:35:33,  2.04it/s]  1%|▏         | 159/11858 [01:40<1:35:35,  2.04it/s]  1%|▏         | 160/11858 [01:40<1:35:31,  2.04it/s]  1%|▏         | 161/11858 [01:41<1:35:24,  2.04it/s]  1%|▏         | 162/11858 [01:41<1:35:27,  2.04it/s]  1%|▏         | 163/11858 [01:42<1:35:28,  2.04it/s]  1%|▏         | 164/11858 [01:42<1:35:27,  2.04it/s]  1%|▏         | 165/11858 [01:43<1:35:26,  2.04it/s]  1%|▏         | 166/11858 [01:43<1:35:34,  2.04it/s]  1%|▏         | 167/11858 [01:44<1:35:27,  2.04it/s]  1%|▏         | 168/11858 [01:44<1:35:27,  2.04it/s]  1%|▏         | 169/11858 [01:45<1:35:29,  2.04it/s]  1%|▏         | 170/11858 [01:45<1:35:23,  2.04it/s]  1%|▏         | 171/11858 [01:46<1:35:22,  2.04it/s]  1%|▏         | 172/11858 [01:46<1:35:26,  2.04it/s]  1%|▏         | 173/11858 [01:47<1:35:23,  2.04it/s]  1%|▏         | 174/11858 [01:47<1:35:17,  2.04it/s]  1%|▏         | 175/11858 [01:48<1:35:18,  2.04it/s]                                                     {'loss': 6.8359, 'grad_norm': 0.446919709444046, 'learning_rate': 0.00014755480607082632, 'epoch': 0.21}
-  1%|▏         | 175/11858 [01:48<1:35:18,  2.04it/s]  1%|▏         | 176/11858 [01:48<1:35:27,  2.04it/s]  1%|▏         | 177/11858 [01:49<1:35:27,  2.04it/s]  2%|▏         | 178/11858 [01:49<1:35:23,  2.04it/s]  2%|▏         | 179/11858 [01:50<1:35:27,  2.04it/s]  2%|▏         | 180/11858 [01:50<1:35:24,  2.04it/s]  2%|▏         | 181/11858 [01:51<1:35:17,  2.04it/s]  2%|▏         | 182/11858 [01:51<1:35:11,  2.04it/s]  2%|▏         | 183/11858 [01:52<1:35:12,  2.04it/s]  2%|▏         | 184/11858 [01:52<1:35:17,  2.04it/s]  2%|▏         | 185/11858 [01:52<1:35:14,  2.04it/s]  2%|▏         | 186/11858 [01:53<1:35:10,  2.04it/s]  2%|▏         | 187/11858 [01:53<1:35:09,  2.04it/s]  2%|▏         | 188/11858 [01:54<1:35:09,  2.04it/s]  2%|▏         | 189/11858 [01:54<1:35:10,  2.04it/s]  2%|▏         | 190/11858 [01:55<1:35:09,  2.04it/s]  2%|▏         | 191/11858 [01:55<1:35:12,  2.04it/s]  2%|▏         | 192/11858 [01:56<1:35:12,  2.04it/s]  2%|▏         | 193/11858 [01:56<1:35:10,  2.04it/s]  2%|▏         | 194/11858 [01:57<1:35:15,  2.04it/s]  2%|▏         | 195/11858 [01:57<1:35:12,  2.04it/s]  2%|▏         | 196/11858 [01:58<1:35:09,  2.04it/s]  2%|▏         | 197/11858 [01:58<1:35:06,  2.04it/s]  2%|▏         | 198/11858 [01:59<1:35:11,  2.04it/s]  2%|▏         | 199/11858 [01:59<1:35:12,  2.04it/s]  2%|▏         | 200/11858 [02:00<1:35:09,  2.04it/s]                                                     {'loss': 6.4725, 'grad_norm': 0.5771623253822327, 'learning_rate': 0.00016863406408094435, 'epoch': 0.24}
-  2%|▏         | 200/11858 [02:00<1:35:09,  2.04it/s]  2%|▏         | 201/11858 [02:00<1:35:14,  2.04it/s]  2%|▏         | 202/11858 [02:01<1:35:13,  2.04it/s]  2%|▏         | 203/11858 [02:01<1:35:11,  2.04it/s]  2%|▏         | 204/11858 [02:02<1:35:13,  2.04it/s]  2%|▏         | 205/11858 [02:02<1:35:07,  2.04it/s]  2%|▏         | 206/11858 [02:03<1:35:05,  2.04it/s]  2%|▏         | 207/11858 [02:03<1:35:02,  2.04it/s]  2%|▏         | 208/11858 [02:04<1:35:06,  2.04it/s]  2%|▏         | 209/11858 [02:04<1:35:06,  2.04it/s]  2%|▏         | 210/11858 [02:05<1:35:02,  2.04it/s]  2%|▏         | 211/11858 [02:05<1:35:04,  2.04it/s]  2%|▏         | 212/11858 [02:06<1:35:02,  2.04it/s]  2%|▏         | 213/11858 [02:06<1:35:05,  2.04it/s]  2%|▏         | 214/11858 [02:07<1:34:59,  2.04it/s]  2%|▏         | 215/11858 [02:07<1:34:59,  2.04it/s]  2%|▏         | 216/11858 [02:08<1:35:01,  2.04it/s]  2%|▏         | 217/11858 [02:08<1:35:04,  2.04it/s]  2%|▏         | 218/11858 [02:09<1:34:59,  2.04it/s]  2%|▏         | 219/11858 [02:09<1:34:56,  2.04it/s]  2%|▏         | 220/11858 [02:10<1:35:03,  2.04it/s]  2%|▏         | 221/11858 [02:10<1:35:02,  2.04it/s]  2%|▏         | 222/11858 [02:11<1:34:57,  2.04it/s]  2%|▏         | 223/11858 [02:11<1:34:53,  2.04it/s]  2%|▏         | 224/11858 [02:12<1:34:56,  2.04it/s]  2%|▏         | 225/11858 [02:12<1:34:55,  2.04it/s]                                                     {'loss': 6.1729, 'grad_norm': 0.5208702683448792, 'learning_rate': 0.0001897133220910624, 'epoch': 0.27}
-  2%|▏         | 225/11858 [02:12<1:34:55,  2.04it/s]  2%|▏         | 226/11858 [02:13<1:35:01,  2.04it/s]  2%|▏         | 227/11858 [02:13<1:34:53,  2.04it/s]  2%|▏         | 228/11858 [02:14<1:34:54,  2.04it/s]  2%|▏         | 229/11858 [02:14<1:34:51,  2.04it/s]  2%|▏         | 230/11858 [02:15<1:34:46,  2.05it/s]  2%|▏         | 231/11858 [02:15<1:34:54,  2.04it/s]  2%|▏         | 232/11858 [02:15<1:34:55,  2.04it/s]  2%|▏         | 233/11858 [02:16<1:34:48,  2.04it/s]  2%|▏         | 234/11858 [02:16<1:34:45,  2.04it/s]  2%|▏         | 235/11858 [02:17<1:35:08,  2.04it/s]  2%|▏         | 236/11858 [02:17<1:34:58,  2.04it/s]  2%|▏         | 237/11858 [02:18<1:34:51,  2.04it/s]  2%|▏         | 238/11858 [02:18<1:34:53,  2.04it/s]  2%|▏         | 239/11858 [02:19<1:34:53,  2.04it/s]  2%|▏         | 240/11858 [02:19<1:34:49,  2.04it/s]  2%|▏         | 241/11858 [02:20<1:34:52,  2.04it/s]  2%|▏         | 242/11858 [02:20<1:34:52,  2.04it/s]  2%|▏         | 243/11858 [02:21<1:34:50,  2.04it/s]  2%|▏         | 244/11858 [02:21<1:34:51,  2.04it/s]  2%|▏         | 245/11858 [02:22<1:34:55,  2.04it/s]  2%|▏         | 246/11858 [02:22<1:34:49,  2.04it/s]  2%|▏         | 247/11858 [02:23<1:34:49,  2.04it/s]  2%|▏         | 248/11858 [02:23<1:34:50,  2.04it/s]  2%|▏         | 249/11858 [02:24<1:34:49,  2.04it/s]  2%|▏         | 250/11858 [02:24<1:34:45,  2.04it/s]                                                     {'loss': 5.9182, 'grad_norm': 0.7331266403198242, 'learning_rate': 0.00021079258010118043, 'epoch': 0.29}
-  2%|▏         | 250/11858 [02:24<1:34:45,  2.04it/s]  2%|▏         | 251/11858 [02:25<1:34:53,  2.04it/s]  2%|▏         | 252/11858 [02:25<1:34:54,  2.04it/s]  2%|▏         | 253/11858 [02:26<1:34:47,  2.04it/s]  2%|▏         | 254/11858 [02:26<1:34:44,  2.04it/s]  2%|▏         | 255/11858 [02:27<1:34:47,  2.04it/s]  2%|▏         | 256/11858 [02:27<1:34:45,  2.04it/s]  2%|▏         | 257/11858 [02:28<1:34:39,  2.04it/s]  2%|▏         | 258/11858 [02:28<1:34:42,  2.04it/s]  2%|▏         | 259/11858 [02:29<1:34:41,  2.04it/s]  2%|▏         | 260/11858 [02:29<1:34:39,  2.04it/s]  2%|▏         | 261/11858 [02:30<1:34:33,  2.04it/s]  2%|▏         | 262/11858 [02:30<1:34:34,  2.04it/s]  2%|▏         | 263/11858 [02:31<1:34:44,  2.04it/s]  2%|▏         | 264/11858 [02:31<1:34:39,  2.04it/s]  2%|▏         | 265/11858 [02:32<1:34:38,  2.04it/s]  2%|▏         | 266/11858 [02:32<1:34:39,  2.04it/s]  2%|▏         | 267/11858 [02:33<1:34:36,  2.04it/s]  2%|▏         | 268/11858 [02:33<1:34:31,  2.04it/s]  2%|▏         | 269/11858 [02:34<1:34:34,  2.04it/s]  2%|▏         | 270/11858 [02:34<1:34:37,  2.04it/s]  2%|▏         | 271/11858 [02:35<1:34:36,  2.04it/s]  2%|▏         | 272/11858 [02:35<1:34:28,  2.04it/s]  2%|▏         | 273/11858 [02:36<1:34:35,  2.04it/s]  2%|▏         | 274/11858 [02:36<1:34:39,  2.04it/s]  2%|▏         | 275/11858 [02:37<1:34:32,  2.04it/s]                                                     {'loss': 5.7074, 'grad_norm': 0.9688056707382202, 'learning_rate': 0.0002318718381112985, 'epoch': 0.32}
-  2%|▏         | 275/11858 [02:37<1:34:32,  2.04it/s]  2%|▏         | 276/11858 [02:37<1:34:40,  2.04it/s]  2%|▏         | 277/11858 [02:38<1:34:38,  2.04it/s]  2%|▏         | 278/11858 [02:38<1:34:33,  2.04it/s]  2%|▏         | 279/11858 [02:39<1:34:27,  2.04it/s]  2%|▏         | 280/11858 [02:39<1:34:29,  2.04it/s]  2%|▏         | 281/11858 [02:40<1:34:31,  2.04it/s]  2%|▏         | 282/11858 [02:40<1:34:29,  2.04it/s]  2%|▏         | 283/11858 [02:40<1:34:28,  2.04it/s]  2%|▏         | 284/11858 [02:41<1:34:32,  2.04it/s]  2%|▏         | 285/11858 [02:41<1:34:32,  2.04it/s]  2%|▏         | 286/11858 [02:42<1:34:32,  2.04it/s]  2%|▏         | 287/11858 [02:42<1:34:27,  2.04it/s]  2%|▏         | 288/11858 [02:43<1:34:31,  2.04it/s]  2%|▏         | 289/11858 [02:43<1:34:28,  2.04it/s]  2%|▏         | 290/11858 [02:44<1:34:23,  2.04it/s]  2%|▏         | 291/11858 [02:44<1:34:23,  2.04it/s]  2%|▏         | 292/11858 [02:45<1:34:26,  2.04it/s]  2%|▏         | 293/11858 [02:45<1:34:23,  2.04it/s]  2%|▏         | 294/11858 [02:46<1:34:15,  2.04it/s]  2%|▏         | 295/11858 [02:46<1:34:15,  2.04it/s]  2%|▏         | 296/11858 [02:47<1:34:18,  2.04it/s]  3%|▎         | 297/11858 [02:47<1:34:19,  2.04it/s]  3%|▎         | 298/11858 [02:48<1:34:15,  2.04it/s]  3%|▎         | 299/11858 [02:48<1:34:11,  2.05it/s]  3%|▎         | 300/11858 [02:49<1:34:16,  2.04it/s]                                                     {'loss': 5.5207, 'grad_norm': 1.3022375106811523, 'learning_rate': 0.00025295109612141656, 'epoch': 0.35}
-  3%|▎         | 300/11858 [02:49<1:34:16,  2.04it/s]  3%|▎         | 301/11858 [02:49<1:34:19,  2.04it/s]  3%|▎         | 302/11858 [02:50<1:34:16,  2.04it/s]  3%|▎         | 303/11858 [02:50<1:34:09,  2.05it/s]  3%|▎         | 304/11858 [02:51<1:34:15,  2.04it/s]  3%|▎         | 305/11858 [02:51<1:34:17,  2.04it/s]  3%|▎         | 306/11858 [02:52<1:34:16,  2.04it/s]  3%|▎         | 307/11858 [02:52<1:34:15,  2.04it/s]  3%|▎         | 308/11858 [02:53<1:34:19,  2.04it/s]  3%|▎         | 309/11858 [02:53<1:34:18,  2.04it/s]  3%|▎         | 310/11858 [02:54<1:34:12,  2.04it/s]  3%|▎         | 311/11858 [02:54<1:34:09,  2.04it/s]  3%|▎         | 312/11858 [02:55<1:34:13,  2.04it/s]  3%|▎         | 313/11858 [02:55<1:34:13,  2.04it/s]  3%|▎         | 314/11858 [02:56<1:34:11,  2.04it/s]  3%|▎         | 315/11858 [02:56<1:34:13,  2.04it/s]  3%|▎         | 316/11858 [02:57<1:34:09,  2.04it/s]  3%|▎         | 317/11858 [02:57<1:34:14,  2.04it/s]  3%|▎         | 318/11858 [02:58<1:34:11,  2.04it/s]  3%|▎         | 319/11858 [02:58<1:34:15,  2.04it/s]  3%|▎         | 320/11858 [02:59<1:34:10,  2.04it/s]  3%|▎         | 321/11858 [02:59<1:34:09,  2.04it/s]  3%|▎         | 322/11858 [03:00<1:34:11,  2.04it/s]  3%|▎         | 323/11858 [03:00<1:34:13,  2.04it/s]  3%|▎         | 324/11858 [03:01<1:34:05,  2.04it/s]  3%|▎         | 325/11858 [03:01<1:34:02,  2.04it/s]                                                     {'loss': 5.3679, 'grad_norm': 0.8534108996391296, 'learning_rate': 0.0002740303541315346, 'epoch': 0.38}
-  3%|▎         | 325/11858 [03:01<1:34:02,  2.04it/s]  3%|▎         | 326/11858 [03:02<1:34:11,  2.04it/s]  3%|▎         | 327/11858 [03:02<1:34:09,  2.04it/s]  3%|▎         | 328/11858 [03:03<1:34:03,  2.04it/s]  3%|▎         | 329/11858 [03:03<1:34:03,  2.04it/s]  3%|▎         | 330/11858 [03:03<1:34:07,  2.04it/s]  3%|▎         | 331/11858 [03:04<1:34:04,  2.04it/s]  3%|▎         | 332/11858 [03:04<1:34:00,  2.04it/s]  3%|▎         | 333/11858 [03:05<1:33:57,  2.04it/s]  3%|▎         | 334/11858 [03:05<1:34:04,  2.04it/s]  3%|▎         | 335/11858 [03:06<1:33:59,  2.04it/s]  3%|▎         | 336/11858 [03:06<1:34:02,  2.04it/s]  3%|▎         | 337/11858 [03:07<1:34:01,  2.04it/s]  3%|▎         | 338/11858 [03:07<1:34:04,  2.04it/s]  3%|▎         | 339/11858 [03:08<1:34:00,  2.04it/s]  3%|▎         | 340/11858 [03:08<1:34:00,  2.04it/s]  3%|▎         | 341/11858 [03:09<1:33:59,  2.04it/s]  3%|▎         | 342/11858 [03:09<1:34:04,  2.04it/s]  3%|▎         | 343/11858 [03:10<1:34:04,  2.04it/s]  3%|▎         | 344/11858 [03:10<1:33:57,  2.04it/s]  3%|▎         | 345/11858 [03:11<1:33:55,  2.04it/s]  3%|▎         | 346/11858 [03:11<1:33:53,  2.04it/s]  3%|▎         | 347/11858 [03:12<1:33:50,  2.04it/s]  3%|▎         | 348/11858 [03:12<1:33:46,  2.05it/s]  3%|▎         | 349/11858 [03:13<1:33:49,  2.04it/s]  3%|▎         | 350/11858 [03:13<1:33:49,  2.04it/s]                                                     {'loss': 5.2153, 'grad_norm': 0.8140106201171875, 'learning_rate': 0.00029510961214165263, 'epoch': 0.41}
-  3%|▎         | 350/11858 [03:13<1:33:49,  2.04it/s]  3%|▎         | 351/11858 [03:14<1:33:54,  2.04it/s]  3%|▎         | 352/11858 [03:14<1:33:56,  2.04it/s]  3%|▎         | 353/11858 [03:15<1:33:53,  2.04it/s]  3%|▎         | 354/11858 [03:15<1:33:53,  2.04it/s]  3%|▎         | 355/11858 [03:16<1:33:53,  2.04it/s]  3%|▎         | 356/11858 [03:16<1:33:53,  2.04it/s]  3%|▎         | 357/11858 [03:17<1:33:56,  2.04it/s]  3%|▎         | 358/11858 [03:17<1:33:51,  2.04it/s]  3%|▎         | 359/11858 [03:18<1:33:51,  2.04it/s]  3%|▎         | 360/11858 [03:18<1:33:55,  2.04it/s]  3%|▎         | 361/11858 [03:19<1:33:52,  2.04it/s]  3%|▎         | 362/11858 [03:19<1:33:51,  2.04it/s]  3%|▎         | 363/11858 [03:20<1:33:55,  2.04it/s]  3%|▎         | 364/11858 [03:20<1:33:52,  2.04it/s]  3%|▎         | 365/11858 [03:21<1:33:48,  2.04it/s]  3%|▎         | 366/11858 [03:21<1:33:47,  2.04it/s]  3%|▎         | 367/11858 [03:22<1:33:47,  2.04it/s]  3%|▎         | 368/11858 [03:22<1:33:47,  2.04it/s]  3%|▎         | 369/11858 [03:23<1:33:48,  2.04it/s]  3%|▎         | 370/11858 [03:23<1:33:47,  2.04it/s]  3%|▎         | 371/11858 [03:24<1:33:49,  2.04it/s]  3%|▎         | 372/11858 [03:24<1:33:41,  2.04it/s]  3%|▎         | 373/11858 [03:25<1:33:42,  2.04it/s]  3%|▎         | 374/11858 [03:25<1:33:42,  2.04it/s]  3%|▎         | 375/11858 [03:26<1:33:41,  2.04it/s]                                                     {'loss': 5.0936, 'grad_norm': 0.8632474541664124, 'learning_rate': 0.0003161888701517707, 'epoch': 0.44}
-  3%|▎         | 375/11858 [03:26<1:33:41,  2.04it/s]  3%|▎         | 376/11858 [03:26<1:33:44,  2.04it/s]  3%|▎         | 377/11858 [03:27<1:33:40,  2.04it/s]  3%|▎         | 378/11858 [03:27<1:33:42,  2.04it/s]  3%|▎         | 379/11858 [03:27<1:33:37,  2.04it/s]  3%|▎         | 380/11858 [03:28<1:33:32,  2.04it/s]  3%|▎         | 381/11858 [03:28<1:33:32,  2.05it/s]  3%|▎         | 382/11858 [03:29<1:33:39,  2.04it/s]  3%|▎         | 383/11858 [03:29<1:33:37,  2.04it/s]  3%|▎         | 384/11858 [03:30<1:33:31,  2.04it/s]  3%|▎         | 385/11858 [03:30<1:33:34,  2.04it/s]  3%|▎         | 386/11858 [03:31<1:33:36,  2.04it/s]  3%|▎         | 387/11858 [03:31<1:33:34,  2.04it/s]  3%|▎         | 388/11858 [03:32<1:33:28,  2.05it/s]  3%|▎         | 389/11858 [03:32<1:33:31,  2.04it/s]  3%|▎         | 390/11858 [03:33<1:33:37,  2.04it/s]  3%|▎         | 391/11858 [03:33<1:33:36,  2.04it/s]  3%|▎         | 392/11858 [03:34<1:33:39,  2.04it/s]  3%|▎         | 393/11858 [03:34<1:33:43,  2.04it/s]  3%|▎         | 394/11858 [03:35<1:33:42,  2.04it/s]  3%|▎         | 395/11858 [03:35<1:33:36,  2.04it/s]  3%|▎         | 396/11858 [03:36<1:33:38,  2.04it/s]  3%|▎         | 397/11858 [03:36<1:33:35,  2.04it/s]  3%|▎         | 398/11858 [03:37<1:33:31,  2.04it/s]  3%|▎         | 399/11858 [03:37<1:33:29,  2.04it/s]  3%|▎         | 400/11858 [03:38<1:33:28,  2.04it/s]                                                     {'loss': 4.9611, 'grad_norm': 0.8256164789199829, 'learning_rate': 0.0003372681281618887, 'epoch': 0.47}
-  3%|▎         | 400/11858 [03:38<1:33:28,  2.04it/s]  3%|▎         | 401/11858 [03:38<1:33:31,  2.04it/s]  3%|▎         | 402/11858 [03:39<1:33:33,  2.04it/s]  3%|▎         | 403/11858 [03:39<1:33:39,  2.04it/s]  3%|▎         | 404/11858 [03:40<1:33:39,  2.04it/s]  3%|▎         | 405/11858 [03:40<1:33:30,  2.04it/s]  3%|▎         | 406/11858 [03:41<1:33:29,  2.04it/s]  3%|▎         | 407/11858 [03:41<1:33:33,  2.04it/s]  3%|▎         | 408/11858 [03:42<1:33:26,  2.04it/s]  3%|▎         | 409/11858 [03:42<1:33:23,  2.04it/s]  3%|▎         | 410/11858 [03:43<1:33:25,  2.04it/s]  3%|▎         | 411/11858 [03:43<1:33:27,  2.04it/s]  3%|▎         | 412/11858 [03:44<1:33:25,  2.04it/s]  3%|▎         | 413/11858 [03:44<1:33:26,  2.04it/s]  3%|▎         | 414/11858 [03:45<1:33:28,  2.04it/s]  3%|▎         | 415/11858 [03:45<1:33:26,  2.04it/s]  4%|▎         | 416/11858 [03:46<1:33:21,  2.04it/s]  4%|▎         | 417/11858 [03:46<1:33:14,  2.05it/s]  4%|▎         | 418/11858 [03:47<1:33:19,  2.04it/s]  4%|▎         | 419/11858 [03:47<1:33:21,  2.04it/s]  4%|▎         | 420/11858 [03:48<1:33:16,  2.04it/s]  4%|▎         | 421/11858 [03:48<1:33:09,  2.05it/s]  4%|▎         | 422/11858 [03:49<1:33:13,  2.04it/s]  4%|▎         | 423/11858 [03:49<1:33:15,  2.04it/s]  4%|▎         | 424/11858 [03:50<1:33:18,  2.04it/s]  4%|▎         | 425/11858 [03:50<1:33:18,  2.04it/s]                                                     {'loss': 4.8409, 'grad_norm': 0.9814281463623047, 'learning_rate': 0.0003583473861720067, 'epoch': 0.5}
-  4%|▎         | 425/11858 [03:50<1:33:18,  2.04it/s]  4%|▎         | 426/11858 [03:51<1:33:28,  2.04it/s]  4%|▎         | 427/11858 [03:51<1:33:24,  2.04it/s]  4%|▎         | 428/11858 [03:51<1:33:22,  2.04it/s]  4%|▎         | 429/11858 [03:52<1:33:25,  2.04it/s]  4%|▎         | 430/11858 [03:52<1:33:24,  2.04it/s]  4%|▎         | 431/11858 [03:53<1:33:21,  2.04it/s]  4%|▎         | 432/11858 [03:53<1:33:24,  2.04it/s]  4%|▎         | 433/11858 [03:54<1:33:20,  2.04it/s]  4%|▎         | 434/11858 [03:54<1:33:18,  2.04it/s]  4%|▎         | 435/11858 [03:55<1:33:15,  2.04it/s]  4%|▎         | 436/11858 [03:55<1:33:15,  2.04it/s]  4%|▎         | 437/11858 [03:56<1:33:15,  2.04it/s]  4%|▎         | 438/11858 [03:56<1:33:09,  2.04it/s]  4%|▎         | 439/11858 [03:57<1:33:03,  2.05it/s]  4%|▎         | 440/11858 [03:57<1:33:08,  2.04it/s]  4%|▎         | 441/11858 [03:58<1:33:10,  2.04it/s]  4%|▎         | 442/11858 [03:58<1:33:10,  2.04it/s]  4%|▎         | 443/11858 [03:59<1:33:07,  2.04it/s]  4%|▎         | 444/11858 [03:59<1:33:09,  2.04it/s]  4%|▍         | 445/11858 [04:00<1:33:07,  2.04it/s]  4%|▍         | 446/11858 [04:00<1:33:03,  2.04it/s]  4%|▍         | 447/11858 [04:01<1:33:01,  2.04it/s]  4%|▍         | 448/11858 [04:01<1:33:07,  2.04it/s]  4%|▍         | 449/11858 [04:02<1:33:05,  2.04it/s]  4%|▍         | 450/11858 [04:02<1:32:57,  2.05it/s]                                                     {'loss': 4.7433, 'grad_norm': 0.9920084476470947, 'learning_rate': 0.0003794266441821248, 'epoch': 0.53}
-  4%|▍         | 450/11858 [04:02<1:32:57,  2.05it/s]  4%|▍         | 451/11858 [04:03<1:33:04,  2.04it/s]  4%|▍         | 452/11858 [04:03<1:33:04,  2.04it/s]  4%|▍         | 453/11858 [04:04<1:33:02,  2.04it/s]  4%|▍         | 454/11858 [04:04<1:32:58,  2.04it/s]  4%|▍         | 455/11858 [04:05<1:32:56,  2.04it/s]  4%|▍         | 456/11858 [04:05<1:33:02,  2.04it/s]  4%|▍         | 457/11858 [04:06<1:33:04,  2.04it/s]  4%|▍         | 458/11858 [04:06<1:33:00,  2.04it/s]  4%|▍         | 459/11858 [04:07<1:33:00,  2.04it/s]  4%|▍         | 460/11858 [04:07<1:33:02,  2.04it/s]  4%|▍         | 461/11858 [04:08<1:33:00,  2.04it/s]  4%|▍         | 462/11858 [04:08<1:32:59,  2.04it/s]  4%|▍         | 463/11858 [04:09<1:33:00,  2.04it/s]  4%|▍         | 464/11858 [04:09<1:33:01,  2.04it/s]  4%|▍         | 465/11858 [04:10<1:33:01,  2.04it/s]  4%|▍         | 466/11858 [04:10<1:33:01,  2.04it/s]  4%|▍         | 467/11858 [04:11<1:33:02,  2.04it/s]  4%|▍         | 468/11858 [04:11<1:33:00,  2.04it/s]  4%|▍         | 469/11858 [04:12<1:32:55,  2.04it/s]  4%|▍         | 470/11858 [04:12<1:32:54,  2.04it/s]  4%|▍         | 471/11858 [04:13<1:32:52,  2.04it/s]  4%|▍         | 472/11858 [04:13<1:32:53,  2.04it/s]  4%|▍         | 473/11858 [04:14<1:32:50,  2.04it/s]  4%|▍         | 474/11858 [04:14<1:32:47,  2.04it/s]  4%|▍         | 475/11858 [04:14<1:32:48,  2.04it/s]                                                     {'loss': 4.6311, 'grad_norm': 0.9552578926086426, 'learning_rate': 0.00040050590219224284, 'epoch': 0.56}
-  4%|▍         | 475/11858 [04:15<1:32:48,  2.04it/s]  4%|▍         | 476/11858 [04:15<1:32:55,  2.04it/s]  4%|▍         | 477/11858 [04:15<1:32:53,  2.04it/s]  4%|▍         | 478/11858 [04:16<1:32:51,  2.04it/s]  4%|▍         | 479/11858 [04:16<1:32:44,  2.04it/s]  4%|▍         | 480/11858 [04:17<1:32:45,  2.04it/s]  4%|▍         | 481/11858 [04:17<1:32:48,  2.04it/s]  4%|▍         | 482/11858 [04:18<1:32:56,  2.04it/s]  4%|▍         | 483/11858 [04:18<1:32:54,  2.04it/s]  4%|▍         | 484/11858 [04:19<1:32:47,  2.04it/s]  4%|▍         | 485/11858 [04:19<1:32:50,  2.04it/s]  4%|▍         | 486/11858 [04:20<1:32:55,  2.04it/s]  4%|▍         | 487/11858 [04:20<1:32:53,  2.04it/s]  4%|▍         | 488/11858 [04:21<1:32:46,  2.04it/s]  4%|▍         | 489/11858 [04:21<1:32:43,  2.04it/s]  4%|▍         | 490/11858 [04:22<1:32:45,  2.04it/s]  4%|▍         | 491/11858 [04:22<1:32:48,  2.04it/s]  4%|▍         | 492/11858 [04:23<1:32:42,  2.04it/s]  4%|▍         | 493/11858 [04:23<1:32:37,  2.05it/s]  4%|▍         | 494/11858 [04:24<1:32:35,  2.05it/s]  4%|▍         | 495/11858 [04:24<1:32:40,  2.04it/s]  4%|▍         | 496/11858 [04:25<1:32:39,  2.04it/s]  4%|▍         | 497/11858 [04:25<1:32:36,  2.04it/s]  4%|▍         | 498/11858 [04:26<1:32:32,  2.05it/s]  4%|▍         | 499/11858 [04:26<1:32:38,  2.04it/s]  4%|▍         | 500/11858 [04:27<1:32:48,  2.04it/s]                                                     {'loss': 4.534, 'grad_norm': 0.922269344329834, 'learning_rate': 0.00042158516020236085, 'epoch': 0.59}
-  4%|▍         | 500/11858 [04:27<1:32:48,  2.04it/s]  4%|▍         | 501/11858 [04:27<1:32:48,  2.04it/s]  4%|▍         | 502/11858 [04:28<1:32:42,  2.04it/s]  4%|▍         | 503/11858 [04:28<1:32:44,  2.04it/s]  4%|▍         | 504/11858 [04:29<1:32:40,  2.04it/s]  4%|▍         | 505/11858 [04:29<1:32:35,  2.04it/s]  4%|▍         | 506/11858 [04:30<1:32:30,  2.05it/s]  4%|▍         | 507/11858 [04:30<1:32:34,  2.04it/s]  4%|▍         | 508/11858 [04:31<1:32:33,  2.04it/s]  4%|▍         | 509/11858 [04:31<1:32:32,  2.04it/s]  4%|▍         | 510/11858 [04:32<1:32:36,  2.04it/s]  4%|▍         | 511/11858 [04:32<1:32:37,  2.04it/s]  4%|▍         | 512/11858 [04:33<1:32:37,  2.04it/s]  4%|▍         | 513/11858 [04:33<1:32:33,  2.04it/s]  4%|▍         | 514/11858 [04:34<1:32:33,  2.04it/s]  4%|▍         | 515/11858 [04:34<1:32:35,  2.04it/s]  4%|▍         | 516/11858 [04:35<1:32:36,  2.04it/s]  4%|▍         | 517/11858 [04:35<1:32:37,  2.04it/s]  4%|▍         | 518/11858 [04:36<1:32:35,  2.04it/s]  4%|▍         | 519/11858 [04:36<1:32:33,  2.04it/s]  4%|▍         | 520/11858 [04:37<1:32:32,  2.04it/s]  4%|▍         | 521/11858 [04:37<1:32:38,  2.04it/s]  4%|▍         | 522/11858 [04:38<1:32:37,  2.04it/s]  4%|▍         | 523/11858 [04:38<1:32:34,  2.04it/s]  4%|▍         | 524/11858 [04:38<1:32:35,  2.04it/s]  4%|▍         | 525/11858 [04:39<1:32:35,  2.04it/s]                                                     {'loss': 4.4222, 'grad_norm': 0.9810659885406494, 'learning_rate': 0.0004426644182124789, 'epoch': 0.62}
-  4%|▍         | 525/11858 [04:39<1:32:35,  2.04it/s]  4%|▍         | 526/11858 [04:39<1:32:36,  2.04it/s]  4%|▍         | 527/11858 [04:40<1:32:35,  2.04it/s]  4%|▍         | 528/11858 [04:40<1:32:31,  2.04it/s]  4%|▍         | 529/11858 [04:41<1:32:29,  2.04it/s]  4%|▍         | 530/11858 [04:41<1:32:33,  2.04it/s]  4%|▍         | 531/11858 [04:42<1:32:29,  2.04it/s]  4%|▍         | 532/11858 [04:42<1:32:30,  2.04it/s]  4%|▍         | 533/11858 [04:43<1:32:28,  2.04it/s]  5%|▍         | 534/11858 [04:43<1:32:25,  2.04it/s]  5%|▍         | 535/11858 [04:44<1:32:30,  2.04it/s]  5%|▍         | 536/11858 [04:44<1:32:24,  2.04it/s]  5%|▍         | 537/11858 [04:45<1:32:19,  2.04it/s]  5%|▍         | 538/11858 [04:45<1:32:14,  2.05it/s]  5%|▍         | 539/11858 [04:46<1:32:20,  2.04it/s]  5%|▍         | 540/11858 [04:46<1:32:23,  2.04it/s]  5%|▍         | 541/11858 [04:47<1:32:15,  2.04it/s]  5%|▍         | 542/11858 [04:47<1:32:15,  2.04it/s]  5%|▍         | 543/11858 [04:48<1:32:17,  2.04it/s]  5%|▍         | 544/11858 [04:48<1:32:16,  2.04it/s]  5%|▍         | 545/11858 [04:49<1:32:12,  2.04it/s]  5%|▍         | 546/11858 [04:49<1:32:07,  2.05it/s]  5%|▍         | 547/11858 [04:50<1:32:07,  2.05it/s]  5%|▍         | 548/11858 [04:50<1:32:12,  2.04it/s]  5%|▍         | 549/11858 [04:51<1:32:14,  2.04it/s]  5%|▍         | 550/11858 [04:51<1:32:11,  2.04it/s]                                                     {'loss': 4.3435, 'grad_norm': 1.0133010149002075, 'learning_rate': 0.000463743676222597, 'epoch': 0.65}
-  5%|▍         | 550/11858 [04:51<1:32:11,  2.04it/s]  5%|▍         | 551/11858 [04:52<1:32:12,  2.04it/s]  5%|▍         | 552/11858 [04:52<1:32:17,  2.04it/s]  5%|▍         | 553/11858 [04:53<1:32:16,  2.04it/s]  5%|▍         | 554/11858 [04:53<1:32:17,  2.04it/s]  5%|▍         | 555/11858 [04:54<1:32:11,  2.04it/s]  5%|▍         | 556/11858 [04:54<1:32:11,  2.04it/s]  5%|▍         | 557/11858 [04:55<1:32:15,  2.04it/s]  5%|▍         | 558/11858 [04:55<1:32:13,  2.04it/s]  5%|▍         | 559/11858 [04:56<1:32:12,  2.04it/s]  5%|▍         | 560/11858 [04:56<1:32:19,  2.04it/s]  5%|▍         | 561/11858 [04:57<1:32:17,  2.04it/s]  5%|▍         | 562/11858 [04:57<1:32:12,  2.04it/s]  5%|▍         | 563/11858 [04:58<1:32:13,  2.04it/s]  5%|▍         | 564/11858 [04:58<1:32:16,  2.04it/s]  5%|▍         | 565/11858 [04:59<1:32:14,  2.04it/s]  5%|▍         | 566/11858 [04:59<1:32:13,  2.04it/s]  5%|▍         | 567/11858 [05:00<1:32:20,  2.04it/s]  5%|▍         | 568/11858 [05:00<1:32:18,  2.04it/s]  5%|▍         | 569/11858 [05:01<1:32:18,  2.04it/s]  5%|▍         | 570/11858 [05:01<1:32:15,  2.04it/s]  5%|▍         | 571/11858 [05:02<1:32:13,  2.04it/s]  5%|▍         | 572/11858 [05:02<1:32:09,  2.04it/s]  5%|▍         | 573/11858 [05:02<1:32:09,  2.04it/s]  5%|▍         | 574/11858 [05:03<1:32:12,  2.04it/s]  5%|▍         | 575/11858 [05:03<1:32:13,  2.04it/s]                                                     {'loss': 4.2663, 'grad_norm': 0.9582957029342651, 'learning_rate': 0.000484822934232715, 'epoch': 0.68}
-  5%|▍         | 575/11858 [05:03<1:32:13,  2.04it/s]  5%|▍         | 576/11858 [05:04<1:32:13,  2.04it/s]  5%|▍         | 577/11858 [05:04<1:32:12,  2.04it/s]  5%|▍         | 578/11858 [05:05<1:32:13,  2.04it/s]  5%|▍         | 579/11858 [05:05<1:32:09,  2.04it/s]  5%|▍         | 580/11858 [05:06<1:32:15,  2.04it/s]  5%|▍         | 581/11858 [05:06<1:32:12,  2.04it/s]  5%|▍         | 582/11858 [05:07<1:32:04,  2.04it/s]  5%|▍         | 583/11858 [05:07<1:32:04,  2.04it/s]  5%|▍         | 584/11858 [05:08<1:32:09,  2.04it/s]  5%|▍         | 585/11858 [05:08<1:32:04,  2.04it/s]  5%|▍         | 586/11858 [05:09<1:32:00,  2.04it/s]  5%|▍         | 587/11858 [05:09<1:32:02,  2.04it/s]  5%|▍         | 588/11858 [05:10<1:32:06,  2.04it/s]  5%|▍         | 589/11858 [05:10<1:31:57,  2.04it/s]  5%|▍         | 590/11858 [05:11<1:31:59,  2.04it/s]  5%|▍         | 591/11858 [05:11<1:32:02,  2.04it/s]  5%|▍         | 592/11858 [05:12<1:31:58,  2.04it/s]  5%|▌         | 593/11858 [05:12<1:31:52,  2.04it/s]  5%|▌         | 594/11858 [05:13<1:31:58,  2.04it/s]  5%|▌         | 595/11858 [05:13<1:32:03,  2.04it/s]  5%|▌         | 596/11858 [05:14<1:32:01,  2.04it/s]  5%|▌         | 597/11858 [05:14<1:32:01,  2.04it/s]  5%|▌         | 598/11858 [05:15<1:32:04,  2.04it/s]  5%|▌         | 599/11858 [05:15<1:32:00,  2.04it/s]  5%|▌         | 600/11858 [05:16<1:31:59,  2.04it/s]                                                     {'loss': 4.1498, 'grad_norm': 1.0126152038574219, 'learning_rate': 0.0005059021922428331, 'epoch': 0.71}
-  5%|▌         | 600/11858 [05:16<1:31:59,  2.04it/s]  5%|▌         | 601/11858 [05:16<1:32:05,  2.04it/s]  5%|▌         | 602/11858 [05:17<1:32:00,  2.04it/s]  5%|▌         | 603/11858 [05:17<1:31:58,  2.04it/s]  5%|▌         | 604/11858 [05:18<1:31:59,  2.04it/s]  5%|▌         | 605/11858 [05:18<1:31:57,  2.04it/s]  5%|▌         | 606/11858 [05:19<1:31:52,  2.04it/s]  5%|▌         | 607/11858 [05:19<1:31:59,  2.04it/s]  5%|▌         | 608/11858 [05:20<1:31:56,  2.04it/s]  5%|▌         | 609/11858 [05:20<1:31:53,  2.04it/s]  5%|▌         | 610/11858 [05:21<1:31:48,  2.04it/s]  5%|▌         | 611/11858 [05:21<1:31:44,  2.04it/s]  5%|▌         | 612/11858 [05:22<1:31:47,  2.04it/s]  5%|▌         | 613/11858 [05:22<1:31:46,  2.04it/s]  5%|▌         | 614/11858 [05:23<1:31:43,  2.04it/s]  5%|▌         | 615/11858 [05:23<1:39:42,  1.88it/s]  5%|▌         | 616/11858 [05:24<1:45:12,  1.78it/s]  5%|▌         | 617/11858 [05:24<1:41:12,  1.85it/s]  5%|▌         | 618/11858 [05:25<1:38:19,  1.91it/s]  5%|▌         | 619/11858 [05:25<1:36:21,  1.94it/s]  5%|▌         | 620/11858 [05:26<1:34:51,  1.97it/s]  5%|▌         | 621/11858 [05:26<1:33:48,  2.00it/s]  5%|▌         | 622/11858 [05:27<1:33:09,  2.01it/s]  5%|▌         | 623/11858 [05:27<1:32:44,  2.02it/s]  5%|▌         | 624/11858 [05:28<1:32:26,  2.03it/s]  5%|▌         | 625/11858 [05:28<1:32:10,  2.03it/s]                                                     {'loss': 4.1003, 'grad_norm': 0.6764841079711914, 'learning_rate': 0.0005269814502529511, 'epoch': 0.74}
-  5%|▌         | 625/11858 [05:28<1:32:10,  2.03it/s]  5%|▌         | 626/11858 [05:29<1:32:07,  2.03it/s]  5%|▌         | 627/11858 [05:29<1:32:07,  2.03it/s]  5%|▌         | 628/11858 [05:30<1:32:01,  2.03it/s]  5%|▌         | 629/11858 [05:30<1:31:54,  2.04it/s]  5%|▌         | 630/11858 [05:31<1:31:55,  2.04it/s]  5%|▌         | 631/11858 [05:31<1:31:51,  2.04it/s]  5%|▌         | 632/11858 [05:32<1:31:44,  2.04it/s]  5%|▌         | 633/11858 [05:32<1:31:42,  2.04it/s]  5%|▌         | 634/11858 [05:33<1:31:46,  2.04it/s]  5%|▌         | 635/11858 [05:33<1:31:37,  2.04it/s]  5%|▌         | 636/11858 [05:34<1:31:34,  2.04it/s]  5%|▌         | 637/11858 [05:34<1:31:36,  2.04it/s]  5%|▌         | 638/11858 [05:35<1:31:39,  2.04it/s]  5%|▌         | 639/11858 [05:35<1:31:48,  2.04it/s]  5%|▌         | 640/11858 [05:36<1:31:49,  2.04it/s]  5%|▌         | 641/11858 [05:36<1:31:47,  2.04it/s]  5%|▌         | 642/11858 [05:37<1:31:36,  2.04it/s]  5%|▌         | 643/11858 [05:37<1:31:31,  2.04it/s]  5%|▌         | 644/11858 [05:38<1:31:35,  2.04it/s]  5%|▌         | 645/11858 [05:38<1:31:33,  2.04it/s]  5%|▌         | 646/11858 [05:39<1:31:26,  2.04it/s]  5%|▌         | 647/11858 [05:39<1:31:25,  2.04it/s]  5%|▌         | 648/11858 [05:40<1:31:31,  2.04it/s]  5%|▌         | 649/11858 [05:40<1:31:32,  2.04it/s]  5%|▌         | 650/11858 [05:41<1:31:31,  2.04it/s]                                                     {'loss': 4.0394, 'grad_norm': 0.9007935523986816, 'learning_rate': 0.0005480607082630692, 'epoch': 0.77}
-  5%|▌         | 650/11858 [05:41<1:31:31,  2.04it/s]  5%|▌         | 651/11858 [05:41<1:31:35,  2.04it/s]  5%|▌         | 652/11858 [05:41<1:31:36,  2.04it/s]  6%|▌         | 653/11858 [05:42<1:31:28,  2.04it/s]  6%|▌         | 654/11858 [05:42<1:31:28,  2.04it/s]  6%|▌         | 655/11858 [05:43<1:31:31,  2.04it/s]  6%|▌         | 656/11858 [05:43<1:31:32,  2.04it/s]  6%|▌         | 657/11858 [05:44<1:31:27,  2.04it/s]  6%|▌         | 658/11858 [05:44<1:31:26,  2.04it/s]  6%|▌         | 659/11858 [05:45<1:31:25,  2.04it/s]  6%|▌         | 660/11858 [05:45<1:31:30,  2.04it/s]  6%|▌         | 661/11858 [05:46<1:31:32,  2.04it/s]  6%|▌         | 662/11858 [05:46<1:31:34,  2.04it/s]  6%|▌         | 663/11858 [05:47<1:31:29,  2.04it/s]  6%|▌         | 664/11858 [05:47<1:31:28,  2.04it/s]  6%|▌         | 665/11858 [05:48<1:31:27,  2.04it/s]  6%|▌         | 666/11858 [05:48<1:31:24,  2.04it/s]  6%|▌         | 667/11858 [05:49<1:31:21,  2.04it/s]  6%|▌         | 668/11858 [05:49<1:31:22,  2.04it/s]  6%|▌         | 669/11858 [05:50<1:31:22,  2.04it/s]  6%|▌         | 670/11858 [05:50<1:31:21,  2.04it/s]  6%|▌         | 671/11858 [05:51<1:31:21,  2.04it/s]  6%|▌         | 672/11858 [05:51<1:31:17,  2.04it/s]  6%|▌         | 673/11858 [05:52<1:31:16,  2.04it/s]  6%|▌         | 674/11858 [05:52<1:31:20,  2.04it/s]  6%|▌         | 675/11858 [05:53<1:31:15,  2.04it/s]                                                     {'loss': 3.9701, 'grad_norm': 0.8079479336738586, 'learning_rate': 0.0005691399662731872, 'epoch': 0.8}
-  6%|▌         | 675/11858 [05:53<1:31:15,  2.04it/s]  6%|▌         | 676/11858 [05:53<1:31:22,  2.04it/s]  6%|▌         | 677/11858 [05:54<1:31:19,  2.04it/s]  6%|▌         | 678/11858 [05:54<1:31:21,  2.04it/s]  6%|▌         | 679/11858 [05:55<1:31:21,  2.04it/s]  6%|▌         | 680/11858 [05:55<1:31:18,  2.04it/s]  6%|▌         | 681/11858 [05:56<1:31:16,  2.04it/s]  6%|▌         | 682/11858 [05:56<1:31:25,  2.04it/s]  6%|▌         | 683/11858 [05:57<1:31:22,  2.04it/s]  6%|▌         | 684/11858 [05:57<1:31:17,  2.04it/s]  6%|▌         | 685/11858 [05:58<1:31:11,  2.04it/s]  6%|▌         | 686/11858 [05:58<1:31:17,  2.04it/s]  6%|▌         | 687/11858 [05:59<1:31:14,  2.04it/s]  6%|▌         | 688/11858 [05:59<1:31:07,  2.04it/s]  6%|▌         | 689/11858 [06:00<1:31:08,  2.04it/s]  6%|▌         | 690/11858 [06:00<1:31:11,  2.04it/s]  6%|▌         | 691/11858 [06:01<1:31:11,  2.04it/s]  6%|▌         | 692/11858 [06:01<1:31:08,  2.04it/s]  6%|▌         | 693/11858 [06:02<1:31:07,  2.04it/s]  6%|▌         | 694/11858 [06:02<1:31:11,  2.04it/s]  6%|▌         | 695/11858 [06:03<1:31:12,  2.04it/s]  6%|▌         | 696/11858 [06:03<1:31:09,  2.04it/s]  6%|▌         | 697/11858 [06:04<1:31:14,  2.04it/s]  6%|▌         | 698/11858 [06:04<1:31:14,  2.04it/s]  6%|▌         | 699/11858 [06:05<1:31:09,  2.04it/s]  6%|▌         | 700/11858 [06:05<1:31:01,  2.04it/s]                                                     {'loss': 3.9184, 'grad_norm': 0.7687009572982788, 'learning_rate': 0.0005902192242833053, 'epoch': 0.83}
-  6%|▌         | 700/11858 [06:05<1:31:01,  2.04it/s]  6%|▌         | 701/11858 [06:06<1:31:10,  2.04it/s]  6%|▌         | 702/11858 [06:06<1:31:07,  2.04it/s]  6%|▌         | 703/11858 [06:06<1:31:08,  2.04it/s]  6%|▌         | 704/11858 [06:07<1:31:10,  2.04it/s]  6%|▌         | 705/11858 [06:07<1:31:10,  2.04it/s]  6%|▌         | 706/11858 [06:08<1:31:10,  2.04it/s]  6%|▌         | 707/11858 [06:08<1:31:08,  2.04it/s]  6%|▌         | 708/11858 [06:09<1:31:12,  2.04it/s]  6%|▌         | 709/11858 [06:09<1:31:11,  2.04it/s]  6%|▌         | 710/11858 [06:10<1:31:07,  2.04it/s]  6%|▌         | 711/11858 [06:10<1:31:06,  2.04it/s]  6%|▌         | 712/11858 [06:11<1:31:07,  2.04it/s]  6%|▌         | 713/11858 [06:11<1:31:09,  2.04it/s]  6%|▌         | 714/11858 [06:12<1:31:12,  2.04it/s]  6%|▌         | 715/11858 [06:12<1:31:09,  2.04it/s]  6%|▌         | 716/11858 [06:13<1:31:02,  2.04it/s]  6%|▌         | 717/11858 [06:13<1:31:06,  2.04it/s]  6%|▌         | 718/11858 [06:14<1:31:07,  2.04it/s]  6%|▌         | 719/11858 [06:14<1:31:01,  2.04it/s]  6%|▌         | 720/11858 [06:15<1:30:59,  2.04it/s]  6%|▌         | 721/11858 [06:15<1:31:01,  2.04it/s]  6%|▌         | 722/11858 [06:16<1:30:55,  2.04it/s]  6%|▌         | 723/11858 [06:16<1:30:53,  2.04it/s]  6%|▌         | 724/11858 [06:17<1:30:57,  2.04it/s]  6%|▌         | 725/11858 [06:17<1:31:01,  2.04it/s]                                                     {'loss': 3.8593, 'grad_norm': 0.8348725438117981, 'learning_rate': 0.0006112984822934233, 'epoch': 0.86}
-  6%|▌         | 725/11858 [06:17<1:31:01,  2.04it/s]  6%|▌         | 726/11858 [06:18<1:31:00,  2.04it/s]  6%|▌         | 727/11858 [06:18<1:31:04,  2.04it/s]  6%|▌         | 728/11858 [06:19<1:31:04,  2.04it/s]  6%|▌         | 729/11858 [06:19<1:30:57,  2.04it/s]  6%|▌         | 730/11858 [06:20<1:30:58,  2.04it/s]  6%|▌         | 731/11858 [06:20<1:31:04,  2.04it/s]  6%|▌         | 732/11858 [06:21<1:31:01,  2.04it/s]  6%|▌         | 733/11858 [06:21<1:31:04,  2.04it/s]  6%|▌         | 734/11858 [06:22<1:31:05,  2.04it/s]  6%|▌         | 735/11858 [06:22<1:31:00,  2.04it/s]  6%|▌         | 736/11858 [06:23<1:31:00,  2.04it/s]  6%|▌         | 737/11858 [06:23<1:31:02,  2.04it/s]  6%|▌         | 738/11858 [06:24<1:30:57,  2.04it/s]  6%|▌         | 739/11858 [06:24<1:30:53,  2.04it/s]  6%|▌         | 740/11858 [06:25<1:30:51,  2.04it/s]  6%|▌         | 741/11858 [06:25<1:30:57,  2.04it/s]  6%|▋         | 742/11858 [06:26<1:30:51,  2.04it/s]  6%|▋         | 743/11858 [06:26<1:30:45,  2.04it/s]  6%|▋         | 744/11858 [06:27<1:30:48,  2.04it/s]  6%|▋         | 745/11858 [06:27<1:30:47,  2.04it/s]  6%|▋         | 746/11858 [06:28<1:30:51,  2.04it/s]  6%|▋         | 747/11858 [06:28<1:30:54,  2.04it/s]  6%|▋         | 748/11858 [06:29<1:30:50,  2.04it/s]  6%|▋         | 749/11858 [06:29<1:30:51,  2.04it/s]  6%|▋         | 750/11858 [06:30<1:30:53,  2.04it/s]{'loss': 3.792, 'grad_norm': 0.6251884698867798, 'learning_rate': 0.0006323777403035414, 'epoch': 0.88}                                                     
-  6%|▋         | 750/11858 [06:30<1:30:53,  2.04it/s]  6%|▋         | 751/11858 [06:30<1:30:59,  2.03it/s]  6%|▋         | 752/11858 [06:31<1:30:50,  2.04it/s]  6%|▋         | 753/11858 [06:31<1:30:46,  2.04it/s]  6%|▋         | 754/11858 [06:32<1:30:46,  2.04it/s]  6%|▋         | 755/11858 [06:32<1:30:45,  2.04it/s]  6%|▋         | 756/11858 [06:32<1:30:41,  2.04it/s]  6%|▋         | 757/11858 [06:33<1:30:40,  2.04it/s]  6%|▋         | 758/11858 [06:33<1:30:42,  2.04it/s]  6%|▋         | 759/11858 [06:34<1:30:48,  2.04it/s]  6%|▋         | 760/11858 [06:34<1:30:45,  2.04it/s]  6%|▋         | 761/11858 [06:35<1:30:41,  2.04it/s]  6%|▋         | 762/11858 [06:35<1:30:45,  2.04it/s]  6%|▋         | 763/11858 [06:36<1:30:44,  2.04it/s]  6%|▋         | 764/11858 [06:36<1:30:38,  2.04it/s]  6%|▋         | 765/11858 [06:37<1:30:36,  2.04it/s]  6%|▋         | 766/11858 [06:37<1:30:35,  2.04it/s]  6%|▋         | 767/11858 [06:38<1:30:41,  2.04it/s]  6%|▋         | 768/11858 [06:38<1:30:40,  2.04it/s]  6%|▋         | 769/11858 [06:39<1:30:37,  2.04it/s]  6%|▋         | 770/11858 [06:39<1:30:40,  2.04it/s]  7%|▋         | 771/11858 [06:40<1:30:41,  2.04it/s]  7%|▋         | 772/11858 [06:40<1:30:41,  2.04it/s]  7%|▋         | 773/11858 [06:41<1:30:41,  2.04it/s]  7%|▋         | 774/11858 [06:41<1:30:33,  2.04it/s]  7%|▋         | 775/11858 [06:42<1:30:32,  2.04it/s]{'loss': 3.7399, 'grad_norm': 0.630583643913269, 'learning_rate': 0.0006534569983136593, 'epoch': 0.91}                                                     
-  7%|▋         | 775/11858 [06:42<1:30:32,  2.04it/s]  7%|▋         | 776/11858 [06:42<1:30:38,  2.04it/s]  7%|▋         | 777/11858 [06:43<1:30:39,  2.04it/s]  7%|▋         | 778/11858 [06:43<1:30:34,  2.04it/s]  7%|▋         | 779/11858 [06:44<1:30:41,  2.04it/s]  7%|▋         | 780/11858 [06:44<1:30:36,  2.04it/s]  7%|▋         | 781/11858 [06:45<1:30:34,  2.04it/s]  7%|▋         | 782/11858 [06:45<1:30:36,  2.04it/s]  7%|▋         | 783/11858 [06:46<1:30:34,  2.04it/s]  7%|▋         | 784/11858 [06:46<1:30:31,  2.04it/s]  7%|▋         | 785/11858 [06:47<1:30:35,  2.04it/s]  7%|▋         | 786/11858 [06:47<1:30:36,  2.04it/s]  7%|▋         | 787/11858 [06:48<1:30:32,  2.04it/s]  7%|▋         | 788/11858 [06:48<1:30:31,  2.04it/s]  7%|▋         | 789/11858 [06:49<1:30:30,  2.04it/s]  7%|▋         | 790/11858 [06:49<1:30:25,  2.04it/s]  7%|▋         | 791/11858 [06:50<1:30:25,  2.04it/s]  7%|▋         | 792/11858 [06:50<1:30:25,  2.04it/s]  7%|▋         | 793/11858 [06:51<1:30:23,  2.04it/s]  7%|▋         | 794/11858 [06:51<1:30:19,  2.04it/s]  7%|▋         | 795/11858 [06:52<1:30:18,  2.04it/s]  7%|▋         | 796/11858 [06:52<1:30:18,  2.04it/s]  7%|▋         | 797/11858 [06:53<1:30:19,  2.04it/s]  7%|▋         | 798/11858 [06:53<1:30:17,  2.04it/s]  7%|▋         | 799/11858 [06:54<1:30:21,  2.04it/s]  7%|▋         | 800/11858 [06:54<1:30:21,  2.04it/s]                                                     {'loss': 3.6733, 'grad_norm': 0.6307587027549744, 'learning_rate': 0.0006745362563237774, 'epoch': 0.94}
-  7%|▋         | 800/11858 [06:54<1:30:21,  2.04it/s]  7%|▋         | 801/11858 [06:55<1:30:27,  2.04it/s]  7%|▋         | 802/11858 [06:55<1:30:28,  2.04it/s]  7%|▋         | 803/11858 [06:56<1:30:28,  2.04it/s]  7%|▋         | 804/11858 [06:56<1:30:25,  2.04it/s]  7%|▋         | 805/11858 [06:57<1:30:22,  2.04it/s]  7%|▋         | 806/11858 [06:57<1:30:20,  2.04it/s]  7%|▋         | 807/11858 [06:58<1:30:21,  2.04it/s]  7%|▋         | 808/11858 [06:58<1:30:24,  2.04it/s]  7%|▋         | 809/11858 [06:58<1:30:23,  2.04it/s]  7%|▋         | 810/11858 [06:59<1:30:23,  2.04it/s]  7%|▋         | 811/11858 [06:59<1:30:26,  2.04it/s]  7%|▋         | 812/11858 [07:00<1:30:22,  2.04it/s]  7%|▋         | 813/11858 [07:00<1:30:22,  2.04it/s]  7%|▋         | 814/11858 [07:01<1:30:22,  2.04it/s]  7%|▋         | 815/11858 [07:01<1:30:22,  2.04it/s]  7%|▋         | 816/11858 [07:02<1:30:20,  2.04it/s]  7%|▋         | 817/11858 [07:02<1:30:21,  2.04it/s]  7%|▋         | 818/11858 [07:03<1:30:22,  2.04it/s]  7%|▋         | 819/11858 [07:03<1:30:24,  2.03it/s]  7%|▋         | 820/11858 [07:04<1:30:23,  2.04it/s]  7%|▋         | 821/11858 [07:04<1:30:21,  2.04it/s]  7%|▋         | 822/11858 [07:05<1:30:17,  2.04it/s]  7%|▋         | 823/11858 [07:05<1:30:18,  2.04it/s]  7%|▋         | 824/11858 [07:06<1:30:20,  2.04it/s]  7%|▋         | 825/11858 [07:06<1:30:24,  2.03it/s]                                                     {'loss': 3.659, 'grad_norm': 0.8090062737464905, 'learning_rate': 0.0006956155143338955, 'epoch': 0.97}
-  7%|▋         | 825/11858 [07:06<1:30:24,  2.03it/s]  7%|▋         | 826/11858 [07:07<1:30:34,  2.03it/s]  7%|▋         | 827/11858 [07:07<1:30:30,  2.03it/s]  7%|▋         | 828/11858 [07:08<1:30:28,  2.03it/s]  7%|▋         | 829/11858 [07:08<1:30:25,  2.03it/s]  7%|▋         | 830/11858 [07:09<1:30:20,  2.03it/s]  7%|▋         | 831/11858 [07:09<1:30:16,  2.04it/s]  7%|▋         | 832/11858 [07:10<1:30:13,  2.04it/s]  7%|▋         | 833/11858 [07:10<1:30:12,  2.04it/s]  7%|▋         | 834/11858 [07:11<1:30:05,  2.04it/s]  7%|▋         | 835/11858 [07:11<1:30:01,  2.04it/s]  7%|▋         | 836/11858 [07:12<1:30:03,  2.04it/s]  7%|▋         | 837/11858 [07:12<1:30:02,  2.04it/s]  7%|▋         | 838/11858 [07:13<1:29:58,  2.04it/s]  7%|▋         | 839/11858 [07:13<1:29:56,  2.04it/s]  7%|▋         | 840/11858 [07:14<1:30:03,  2.04it/s]  7%|▋         | 841/11858 [07:14<1:30:04,  2.04it/s]  7%|▋         | 842/11858 [07:15<1:29:55,  2.04it/s]  7%|▋         | 843/11858 [07:15<1:29:57,  2.04it/s]  7%|▋         | 844/11858 [07:16<1:30:02,  2.04it/s]  7%|▋         | 845/11858 [07:16<1:29:58,  2.04it/s]  7%|▋         | 846/11858 [07:17<1:29:55,  2.04it/s]  7%|▋         | 847/11858 [07:17<1:32:39,  1.98it/s]  7%|▋         | 848/11858 [07:29<12:03:23,  3.94s/it]  7%|▋         | 849/11858 [07:30<8:53:20,  2.91s/it]   7%|▋         | 850/11858 [07:30<6:40:26,  2.18s/it]                                                     {'loss': 3.6108, 'grad_norm': 0.6148015260696411, 'learning_rate': 0.0007166947723440134, 'epoch': 1.0}
-  7%|▋         | 850/11858 [07:30<6:40:26,  2.18s/it]  7%|▋         | 851/11858 [07:31<5:07:18,  1.68s/it]  7%|▋         | 852/11858 [07:31<4:02:03,  1.32s/it]  7%|▋         | 853/11858 [07:32<3:16:18,  1.07s/it]  7%|▋         | 854/11858 [07:32<2:44:23,  1.12it/s]  7%|▋         | 855/11858 [07:33<2:22:34,  1.29it/s]  7%|▋         | 856/11858 [07:33<2:06:58,  1.44it/s]  7%|▋         | 857/11858 [07:34<1:55:59,  1.58it/s]  7%|▋         | 858/11858 [07:34<1:48:22,  1.69it/s]  7%|▋         | 859/11858 [07:35<1:42:46,  1.78it/s]  7%|▋         | 860/11858 [07:35<1:38:57,  1.85it/s]  7%|▋         | 861/11858 [07:36<1:36:16,  1.90it/s]  7%|▋         | 862/11858 [07:36<1:34:19,  1.94it/s]  7%|▋         | 863/11858 [07:37<1:32:54,  1.97it/s]  7%|▋         | 864/11858 [07:37<1:31:58,  1.99it/s]  7%|▋         | 865/11858 [07:38<1:31:32,  2.00it/s]  7%|▋         | 866/11858 [07:38<1:30:58,  2.01it/s]  7%|▋         | 867/11858 [07:38<1:30:51,  2.02it/s]  7%|▋         | 868/11858 [07:39<1:30:30,  2.02it/s]  7%|▋         | 869/11858 [07:39<1:30:27,  2.02it/s]  7%|▋         | 870/11858 [07:40<1:30:14,  2.03it/s]  7%|▋         | 871/11858 [07:40<1:30:14,  2.03it/s]  7%|▋         | 872/11858 [07:41<1:30:03,  2.03it/s]  7%|▋         | 873/11858 [07:41<1:29:53,  2.04it/s]  7%|▋         | 874/11858 [07:42<1:29:56,  2.04it/s]  7%|▋         | 875/11858 [07:42<1:29:52,  2.04it/s]                                                     {'loss': 3.5267, 'grad_norm': 0.7536081075668335, 'learning_rate': 0.0007377740303541316, 'epoch': 1.03}
-  7%|▋         | 875/11858 [07:42<1:29:52,  2.04it/s]  7%|▋         | 876/11858 [07:43<1:29:48,  2.04it/s]  7%|▋         | 877/11858 [07:43<1:29:38,  2.04it/s]  7%|▋         | 878/11858 [07:44<1:29:35,  2.04it/s]  7%|▋         | 879/11858 [07:44<1:29:36,  2.04it/s]  7%|▋         | 880/11858 [07:45<1:29:34,  2.04it/s]  7%|▋         | 881/11858 [07:45<1:29:35,  2.04it/s]  7%|▋         | 882/11858 [07:46<1:29:42,  2.04it/s]  7%|▋         | 883/11858 [07:46<1:29:41,  2.04it/s]  7%|▋         | 884/11858 [07:47<1:29:42,  2.04it/s]  7%|▋         | 885/11858 [07:47<1:29:44,  2.04it/s]  7%|▋         | 886/11858 [07:48<1:29:46,  2.04it/s]  7%|▋         | 887/11858 [07:48<1:29:41,  2.04it/s]  7%|▋         | 888/11858 [07:49<1:29:43,  2.04it/s]  7%|▋         | 889/11858 [07:49<1:29:43,  2.04it/s]  8%|▊         | 890/11858 [07:50<1:29:37,  2.04it/s]  8%|▊         | 891/11858 [07:50<1:29:40,  2.04it/s]  8%|▊         | 892/11858 [07:51<1:29:48,  2.04it/s]  8%|▊         | 893/11858 [07:51<1:29:41,  2.04it/s]  8%|▊         | 894/11858 [07:52<1:29:39,  2.04it/s]  8%|▊         | 895/11858 [07:52<1:29:41,  2.04it/s]  8%|▊         | 896/11858 [07:53<1:29:40,  2.04it/s]  8%|▊         | 897/11858 [07:53<1:29:37,  2.04it/s]  8%|▊         | 898/11858 [07:54<1:29:38,  2.04it/s]  8%|▊         | 899/11858 [07:54<1:29:38,  2.04it/s]  8%|▊         | 900/11858 [07:55<1:29:34,  2.04it/s]                                                     {'loss': 3.4816, 'grad_norm': 0.5832601189613342, 'learning_rate': 0.0007588532883642496, 'epoch': 1.06}
-  8%|▊         | 900/11858 [07:55<1:29:34,  2.04it/s]  8%|▊         | 901/11858 [07:55<1:29:36,  2.04it/s]  8%|▊         | 902/11858 [07:56<1:29:35,  2.04it/s]  8%|▊         | 903/11858 [07:56<1:29:30,  2.04it/s]  8%|▊         | 904/11858 [07:57<1:29:30,  2.04it/s]  8%|▊         | 905/11858 [07:57<1:29:30,  2.04it/s]  8%|▊         | 906/11858 [07:58<1:29:30,  2.04it/s]  8%|▊         | 907/11858 [07:58<1:29:31,  2.04it/s]  8%|▊         | 908/11858 [07:59<1:29:34,  2.04it/s]  8%|▊         | 909/11858 [07:59<1:29:31,  2.04it/s]  8%|▊         | 910/11858 [08:00<1:29:30,  2.04it/s]  8%|▊         | 911/11858 [08:00<1:29:29,  2.04it/s]  8%|▊         | 912/11858 [08:01<1:29:26,  2.04it/s]  8%|▊         | 913/11858 [08:01<1:29:28,  2.04it/s]  8%|▊         | 914/11858 [08:02<1:29:34,  2.04it/s]  8%|▊         | 915/11858 [08:02<1:29:32,  2.04it/s]  8%|▊         | 916/11858 [08:03<1:29:25,  2.04it/s]  8%|▊         | 917/11858 [08:03<1:29:31,  2.04it/s]  8%|▊         | 918/11858 [08:04<1:29:30,  2.04it/s]  8%|▊         | 919/11858 [08:04<1:29:27,  2.04it/s]  8%|▊         | 920/11858 [08:04<1:29:29,  2.04it/s]  8%|▊         | 921/11858 [08:05<1:29:24,  2.04it/s]  8%|▊         | 922/11858 [08:05<1:29:23,  2.04it/s]  8%|▊         | 923/11858 [08:06<1:29:22,  2.04it/s]  8%|▊         | 924/11858 [08:06<1:29:25,  2.04it/s]  8%|▊         | 925/11858 [08:07<1:29:19,  2.04it/s]                                                     {'loss': 3.4771, 'grad_norm': 0.5941659808158875, 'learning_rate': 0.0007799325463743676, 'epoch': 1.09}
-  8%|▊         | 925/11858 [08:07<1:29:19,  2.04it/s]  8%|▊         | 926/11858 [08:07<1:29:25,  2.04it/s]  8%|▊         | 927/11858 [08:08<1:29:25,  2.04it/s]  8%|▊         | 928/11858 [08:08<1:29:20,  2.04it/s]  8%|▊         | 929/11858 [08:09<1:29:19,  2.04it/s]  8%|▊         | 930/11858 [08:09<1:29:16,  2.04it/s]  8%|▊         | 931/11858 [08:10<1:29:19,  2.04it/s]  8%|▊         | 932/11858 [08:10<1:29:14,  2.04it/s]  8%|▊         | 933/11858 [08:11<1:29:15,  2.04it/s]  8%|▊         | 934/11858 [08:11<1:29:19,  2.04it/s]  8%|▊         | 935/11858 [08:12<1:29:17,  2.04it/s]  8%|▊         | 936/11858 [08:12<1:29:14,  2.04it/s]  8%|▊         | 937/11858 [08:13<1:29:15,  2.04it/s]  8%|▊         | 938/11858 [08:13<1:29:13,  2.04it/s]  8%|▊         | 939/11858 [08:14<1:29:09,  2.04it/s]  8%|▊         | 940/11858 [08:14<1:29:11,  2.04it/s]  8%|▊         | 941/11858 [08:15<1:29:16,  2.04it/s]  8%|▊         | 942/11858 [08:15<1:29:16,  2.04it/s]  8%|▊         | 943/11858 [08:16<1:29:10,  2.04it/s]  8%|▊         | 944/11858 [08:16<1:29:16,  2.04it/s]  8%|▊         | 945/11858 [08:17<1:29:16,  2.04it/s]  8%|▊         | 946/11858 [08:17<1:29:18,  2.04it/s]  8%|▊         | 947/11858 [08:18<1:29:14,  2.04it/s]  8%|▊         | 948/11858 [08:18<1:29:15,  2.04it/s]  8%|▊         | 949/11858 [08:19<1:29:13,  2.04it/s]  8%|▊         | 950/11858 [08:19<1:29:08,  2.04it/s]                                                     {'loss': 3.4302, 'grad_norm': 0.609790563583374, 'learning_rate': 0.0008010118043844857, 'epoch': 1.12}
-  8%|▊         | 950/11858 [08:19<1:29:08,  2.04it/s]  8%|▊         | 951/11858 [08:20<1:29:13,  2.04it/s]  8%|▊         | 952/11858 [08:20<1:29:11,  2.04it/s]  8%|▊         | 953/11858 [08:21<1:29:05,  2.04it/s]  8%|▊         | 954/11858 [08:21<1:29:08,  2.04it/s]  8%|▊         | 955/11858 [08:22<1:29:12,  2.04it/s]  8%|▊         | 956/11858 [08:22<1:29:13,  2.04it/s]  8%|▊         | 957/11858 [08:23<1:29:12,  2.04it/s]  8%|▊         | 958/11858 [08:23<1:29:12,  2.04it/s]  8%|▊         | 959/11858 [08:24<1:29:07,  2.04it/s]  8%|▊         | 960/11858 [08:24<1:29:05,  2.04it/s]  8%|▊         | 961/11858 [08:25<1:28:59,  2.04it/s]  8%|▊         | 962/11858 [08:25<1:29:03,  2.04it/s]  8%|▊         | 963/11858 [08:26<1:29:04,  2.04it/s]  8%|▊         | 964/11858 [08:26<1:28:57,  2.04it/s]  8%|▊         | 965/11858 [08:27<1:29:03,  2.04it/s]  8%|▊         | 966/11858 [08:27<1:29:06,  2.04it/s]  8%|▊         | 967/11858 [08:28<1:29:07,  2.04it/s]  8%|▊         | 968/11858 [08:28<1:29:08,  2.04it/s]  8%|▊         | 969/11858 [08:29<1:29:02,  2.04it/s]  8%|▊         | 970/11858 [08:29<1:28:56,  2.04it/s]  8%|▊         | 971/11858 [08:30<1:29:02,  2.04it/s]  8%|▊         | 972/11858 [08:30<1:29:06,  2.04it/s]  8%|▊         | 973/11858 [08:30<1:29:01,  2.04it/s]  8%|▊         | 974/11858 [08:31<1:29:01,  2.04it/s]  8%|▊         | 975/11858 [08:31<1:29:00,  2.04it/s]                                                     {'loss': 3.4001, 'grad_norm': 0.523247480392456, 'learning_rate': 0.0008220910623946038, 'epoch': 1.15}
-  8%|▊         | 975/11858 [08:31<1:29:00,  2.04it/s]  8%|▊         | 976/11858 [08:32<1:29:13,  2.03it/s]  8%|▊         | 977/11858 [08:32<1:29:08,  2.03it/s]  8%|▊         | 978/11858 [08:33<1:29:05,  2.04it/s]  8%|▊         | 979/11858 [08:33<1:29:00,  2.04it/s]  8%|▊         | 980/11858 [08:34<1:29:01,  2.04it/s]  8%|▊         | 981/11858 [08:34<1:28:57,  2.04it/s]  8%|▊         | 982/11858 [08:35<1:29:02,  2.04it/s]  8%|▊         | 983/11858 [08:35<1:29:07,  2.03it/s]  8%|▊         | 984/11858 [08:36<1:29:03,  2.04it/s]  8%|▊         | 985/11858 [08:36<1:28:58,  2.04it/s]  8%|▊         | 986/11858 [08:37<1:28:59,  2.04it/s]  8%|▊         | 987/11858 [08:37<1:28:56,  2.04it/s]  8%|▊         | 988/11858 [08:38<1:28:53,  2.04it/s]  8%|▊         | 989/11858 [08:38<1:29:00,  2.04it/s]  8%|▊         | 990/11858 [08:39<1:28:51,  2.04it/s]  8%|▊         | 991/11858 [08:39<1:28:45,  2.04it/s]  8%|▊         | 992/11858 [08:40<1:28:57,  2.04it/s]  8%|▊         | 993/11858 [08:40<1:28:57,  2.04it/s]  8%|▊         | 994/11858 [08:41<1:28:54,  2.04it/s]  8%|▊         | 995/11858 [08:41<1:28:54,  2.04it/s]  8%|▊         | 996/11858 [08:42<1:28:55,  2.04it/s]  8%|▊         | 997/11858 [08:42<1:28:53,  2.04it/s]  8%|▊         | 998/11858 [08:43<1:28:53,  2.04it/s]  8%|▊         | 999/11858 [08:43<1:28:51,  2.04it/s]  8%|▊         | 1000/11858 [08:44<1:28:52,  2.04it/s]                                                      {'loss': 3.4129, 'grad_norm': 0.5271440744400024, 'learning_rate': 0.0008431703204047217, 'epoch': 1.18}
-  8%|▊         | 1000/11858 [08:44<1:28:52,  2.04it/s]  8%|▊         | 1001/11858 [08:44<1:29:03,  2.03it/s]  8%|▊         | 1002/11858 [08:45<1:28:54,  2.03it/s]  8%|▊         | 1003/11858 [08:45<1:28:50,  2.04it/s]  8%|▊         | 1004/11858 [08:46<1:28:57,  2.03it/s]  8%|▊         | 1005/11858 [08:46<1:28:58,  2.03it/s]  8%|▊         | 1006/11858 [08:47<1:28:53,  2.03it/s]  8%|▊         | 1007/11858 [08:47<1:28:50,  2.04it/s]  9%|▊         | 1008/11858 [08:48<1:28:52,  2.03it/s]  9%|▊         | 1009/11858 [08:48<1:28:47,  2.04it/s]  9%|▊         | 1010/11858 [08:49<1:28:46,  2.04it/s]  9%|▊         | 1011/11858 [08:49<1:28:45,  2.04it/s]  9%|▊         | 1012/11858 [08:50<1:28:49,  2.03it/s]  9%|▊         | 1013/11858 [08:50<1:28:45,  2.04it/s]  9%|▊         | 1014/11858 [08:51<1:28:44,  2.04it/s]  9%|▊         | 1015/11858 [08:51<1:28:41,  2.04it/s]  9%|▊         | 1016/11858 [08:52<1:28:45,  2.04it/s]  9%|▊         | 1017/11858 [08:52<1:28:43,  2.04it/s]  9%|▊         | 1018/11858 [08:53<1:28:40,  2.04it/s]  9%|▊         | 1019/11858 [08:53<1:28:45,  2.04it/s]  9%|▊         | 1020/11858 [08:54<1:28:39,  2.04it/s]  9%|▊         | 1021/11858 [08:54<1:28:38,  2.04it/s]  9%|▊         | 1022/11858 [08:55<1:28:40,  2.04it/s]  9%|▊         | 1023/11858 [08:55<1:28:35,  2.04it/s]  9%|▊         | 1024/11858 [08:56<1:28:34,  2.04it/s]  9%|▊         | 1025/11858 [08:56<1:28:37,  2.04it/s]                                                      {'loss': 3.3592, 'grad_norm': 0.5502752065658569, 'learning_rate': 0.0008642495784148399, 'epoch': 1.21}
-  9%|▊         | 1025/11858 [08:56<1:28:37,  2.04it/s]  9%|▊         | 1026/11858 [08:57<1:28:40,  2.04it/s]  9%|▊         | 1027/11858 [08:57<1:28:36,  2.04it/s]  9%|▊         | 1028/11858 [08:58<1:28:41,  2.04it/s]  9%|▊         | 1029/11858 [08:58<1:28:32,  2.04it/s]  9%|▊         | 1030/11858 [08:58<1:28:38,  2.04it/s]  9%|▊         | 1031/11858 [08:59<1:28:42,  2.03it/s]  9%|▊         | 1032/11858 [08:59<1:28:42,  2.03it/s]  9%|▊         | 1033/11858 [09:00<1:28:44,  2.03it/s]  9%|▊         | 1034/11858 [09:00<1:28:36,  2.04it/s]  9%|▊         | 1035/11858 [09:01<1:28:33,  2.04it/s]  9%|▊         | 1036/11858 [09:01<1:28:38,  2.03it/s]  9%|▊         | 1037/11858 [09:02<1:28:35,  2.04it/s]  9%|▉         | 1038/11858 [09:02<1:28:30,  2.04it/s]  9%|▉         | 1039/11858 [09:03<1:28:30,  2.04it/s]  9%|▉         | 1040/11858 [09:03<1:28:26,  2.04it/s]  9%|▉         | 1041/11858 [09:04<1:28:25,  2.04it/s]  9%|▉         | 1042/11858 [09:04<1:28:23,  2.04it/s]  9%|▉         | 1043/11858 [09:05<1:28:25,  2.04it/s]  9%|▉         | 1044/11858 [09:05<1:28:21,  2.04it/s]  9%|▉         | 1045/11858 [09:06<1:28:25,  2.04it/s]  9%|▉         | 1046/11858 [09:06<1:28:25,  2.04it/s]  9%|▉         | 1047/11858 [09:07<1:28:23,  2.04it/s]  9%|▉         | 1048/11858 [09:07<1:28:20,  2.04it/s]  9%|▉         | 1049/11858 [09:08<1:28:24,  2.04it/s]  9%|▉         | 1050/11858 [09:08<1:28:21,  2.04it/s]{'loss': 3.3365, 'grad_norm': 0.4805589020252228, 'learning_rate': 0.0008853288364249578, 'epoch': 1.24}
-                                                        9%|▉         | 1050/11858 [09:08<1:28:21,  2.04it/s]  9%|▉         | 1051/11858 [09:09<1:28:21,  2.04it/s]  9%|▉         | 1052/11858 [09:09<1:28:24,  2.04it/s]  9%|▉         | 1053/11858 [09:10<1:28:23,  2.04it/s]  9%|▉         | 1054/11858 [09:10<1:28:16,  2.04it/s]  9%|▉         | 1055/11858 [09:11<1:28:16,  2.04it/s]  9%|▉         | 1056/11858 [09:11<1:28:20,  2.04it/s]  9%|▉         | 1057/11858 [09:12<1:28:15,  2.04it/s]  9%|▉         | 1058/11858 [09:12<1:28:13,  2.04it/s]  9%|▉         | 1059/11858 [09:13<1:28:18,  2.04it/s]  9%|▉         | 1060/11858 [09:13<1:28:13,  2.04it/s]  9%|▉         | 1061/11858 [09:14<1:28:14,  2.04it/s]  9%|▉         | 1062/11858 [09:14<1:28:16,  2.04it/s]  9%|▉         | 1063/11858 [09:15<1:28:14,  2.04it/s]  9%|▉         | 1064/11858 [09:15<1:28:11,  2.04it/s]  9%|▉         | 1065/11858 [09:16<1:28:10,  2.04it/s]  9%|▉         | 1066/11858 [09:16<1:28:13,  2.04it/s]  9%|▉         | 1067/11858 [09:17<1:28:09,  2.04it/s]  9%|▉         | 1068/11858 [09:17<1:28:09,  2.04it/s]  9%|▉         | 1069/11858 [09:18<1:28:07,  2.04it/s]  9%|▉         | 1070/11858 [09:18<1:28:05,  2.04it/s]  9%|▉         | 1071/11858 [09:19<1:28:04,  2.04it/s]  9%|▉         | 1072/11858 [09:19<1:28:08,  2.04it/s]  9%|▉         | 1073/11858 [09:20<1:28:12,  2.04it/s]  9%|▉         | 1074/11858 [09:20<1:28:11,  2.04it/s]  9%|▉         | 1075/11858 [09:21<1:28:08,  2.04it/s]                                                      {'loss': 3.3237, 'grad_norm': 0.44298434257507324, 'learning_rate': 0.0009064080944350759, 'epoch': 1.27}
-  9%|▉         | 1075/11858 [09:21<1:28:08,  2.04it/s]  9%|▉         | 1076/11858 [09:21<1:28:15,  2.04it/s]  9%|▉         | 1077/11858 [09:22<1:28:11,  2.04it/s]  9%|▉         | 1078/11858 [09:22<1:28:05,  2.04it/s]  9%|▉         | 1079/11858 [09:23<1:28:07,  2.04it/s]  9%|▉         | 1080/11858 [09:23<1:28:07,  2.04it/s]  9%|▉         | 1081/11858 [09:24<1:28:07,  2.04it/s]  9%|▉         | 1082/11858 [09:24<1:28:00,  2.04it/s]  9%|▉         | 1083/11858 [09:24<1:28:01,  2.04it/s]  9%|▉         | 1084/11858 [09:25<1:28:04,  2.04it/s]  9%|▉         | 1085/11858 [09:25<1:28:01,  2.04it/s]  9%|▉         | 1086/11858 [09:26<1:28:01,  2.04it/s]  9%|▉         | 1087/11858 [09:26<1:28:05,  2.04it/s]  9%|▉         | 1088/11858 [09:27<1:28:06,  2.04it/s]  9%|▉         | 1089/11858 [09:27<1:28:05,  2.04it/s]  9%|▉         | 1090/11858 [09:28<1:28:07,  2.04it/s]  9%|▉         | 1091/11858 [09:28<1:28:03,  2.04it/s]  9%|▉         | 1092/11858 [09:29<1:28:01,  2.04it/s]  9%|▉         | 1093/11858 [09:29<1:28:00,  2.04it/s]  9%|▉         | 1094/11858 [09:30<1:27:58,  2.04it/s]  9%|▉         | 1095/11858 [09:30<1:27:55,  2.04it/s]  9%|▉         | 1096/11858 [09:31<1:27:59,  2.04it/s]  9%|▉         | 1097/11858 [09:31<1:28:00,  2.04it/s]  9%|▉         | 1098/11858 [09:32<1:27:59,  2.04it/s]  9%|▉         | 1099/11858 [09:32<1:27:56,  2.04it/s]  9%|▉         | 1100/11858 [09:33<1:28:01,  2.04it/s]                                                      {'loss': 3.3019, 'grad_norm': 0.5426273345947266, 'learning_rate': 0.000927487352445194, 'epoch': 1.3}
-  9%|▉         | 1100/11858 [09:33<1:28:01,  2.04it/s]  9%|▉         | 1101/11858 [09:33<1:27:57,  2.04it/s]  9%|▉         | 1102/11858 [09:34<1:27:51,  2.04it/s]  9%|▉         | 1103/11858 [09:34<1:27:55,  2.04it/s]  9%|▉         | 1104/11858 [09:35<1:27:53,  2.04it/s]  9%|▉         | 1105/11858 [09:35<1:27:51,  2.04it/s]  9%|▉         | 1106/11858 [09:36<1:27:50,  2.04it/s]  9%|▉         | 1107/11858 [09:36<1:27:53,  2.04it/s]  9%|▉         | 1108/11858 [09:37<1:27:51,  2.04it/s]  9%|▉         | 1109/11858 [09:37<1:27:49,  2.04it/s]  9%|▉         | 1110/11858 [09:38<1:27:53,  2.04it/s]  9%|▉         | 1111/11858 [09:38<1:27:50,  2.04it/s]  9%|▉         | 1112/11858 [09:39<1:27:48,  2.04it/s]  9%|▉         | 1113/11858 [09:39<1:27:51,  2.04it/s]  9%|▉         | 1114/11858 [09:40<1:27:52,  2.04it/s]  9%|▉         | 1115/11858 [09:40<1:27:44,  2.04it/s]  9%|▉         | 1116/11858 [09:41<1:27:44,  2.04it/s]  9%|▉         | 1117/11858 [09:41<1:27:45,  2.04it/s]  9%|▉         | 1118/11858 [09:42<1:27:41,  2.04it/s]  9%|▉         | 1119/11858 [09:42<1:27:38,  2.04it/s]  9%|▉         | 1120/11858 [09:43<1:27:41,  2.04it/s]  9%|▉         | 1121/11858 [09:43<1:27:40,  2.04it/s]  9%|▉         | 1122/11858 [09:44<1:27:36,  2.04it/s]  9%|▉         | 1123/11858 [09:44<1:27:42,  2.04it/s]  9%|▉         | 1124/11858 [09:45<1:27:40,  2.04it/s]  9%|▉         | 1125/11858 [09:45<1:27:38,  2.04it/s]                                                      {'loss': 3.2782, 'grad_norm': 0.48742929100990295, 'learning_rate': 0.000948566610455312, 'epoch': 1.33}
-  9%|▉         | 1125/11858 [09:45<1:27:38,  2.04it/s]  9%|▉         | 1126/11858 [09:46<1:27:39,  2.04it/s] 10%|▉         | 1127/11858 [09:46<1:27:42,  2.04it/s] 10%|▉         | 1128/11858 [09:47<1:27:41,  2.04it/s] 10%|▉         | 1129/11858 [09:47<1:27:42,  2.04it/s] 10%|▉         | 1130/11858 [09:48<1:27:45,  2.04it/s] 10%|▉         | 1131/11858 [09:48<1:27:43,  2.04it/s] 10%|▉         | 1132/11858 [09:49<1:27:38,  2.04it/s] 10%|▉         | 1133/11858 [09:49<1:27:37,  2.04it/s] 10%|▉         | 1134/11858 [09:49<1:27:41,  2.04it/s] 10%|▉         | 1135/11858 [09:50<1:27:43,  2.04it/s] 10%|▉         | 1136/11858 [09:50<1:27:39,  2.04it/s] 10%|▉         | 1137/11858 [09:51<1:27:41,  2.04it/s] 10%|▉         | 1138/11858 [09:51<1:27:42,  2.04it/s] 10%|▉         | 1139/11858 [09:52<1:27:37,  2.04it/s] 10%|▉         | 1140/11858 [09:52<1:27:35,  2.04it/s] 10%|▉         | 1141/11858 [09:53<1:27:37,  2.04it/s] 10%|▉         | 1142/11858 [09:53<1:27:38,  2.04it/s] 10%|▉         | 1143/11858 [09:54<1:27:33,  2.04it/s] 10%|▉         | 1144/11858 [09:54<1:27:28,  2.04it/s] 10%|▉         | 1145/11858 [09:55<1:27:29,  2.04it/s] 10%|▉         | 1146/11858 [09:55<1:27:30,  2.04it/s] 10%|▉         | 1147/11858 [09:56<1:27:31,  2.04it/s] 10%|▉         | 1148/11858 [09:56<1:27:29,  2.04it/s] 10%|▉         | 1149/11858 [09:57<1:27:25,  2.04it/s] 10%|▉         | 1150/11858 [09:57<1:27:28,  2.04it/s]                                                      {'loss': 3.2743, 'grad_norm': 0.5624862909317017, 'learning_rate': 0.00096964586846543, 'epoch': 1.36}
- 10%|▉         | 1150/11858 [09:57<1:27:28,  2.04it/s] 10%|▉         | 1151/11858 [09:58<1:27:32,  2.04it/s] 10%|▉         | 1152/11858 [09:58<1:27:24,  2.04it/s] 10%|▉         | 1153/11858 [09:59<1:27:22,  2.04it/s] 10%|▉         | 1154/11858 [09:59<1:27:24,  2.04it/s] 10%|▉         | 1155/11858 [10:00<1:27:27,  2.04it/s] 10%|▉         | 1156/11858 [10:00<1:27:20,  2.04it/s] 10%|▉         | 1157/11858 [10:01<1:27:17,  2.04it/s] 10%|▉         | 1158/11858 [10:01<1:27:20,  2.04it/s] 10%|▉         | 1159/11858 [10:02<1:27:20,  2.04it/s] 10%|▉         | 1160/11858 [10:02<1:27:21,  2.04it/s] 10%|▉         | 1161/11858 [10:03<1:27:24,  2.04it/s] 10%|▉         | 1162/11858 [10:03<1:27:26,  2.04it/s] 10%|▉         | 1163/11858 [10:04<1:27:21,  2.04it/s] 10%|▉         | 1164/11858 [10:04<1:27:18,  2.04it/s] 10%|▉         | 1165/11858 [10:05<1:27:21,  2.04it/s] 10%|▉         | 1166/11858 [10:05<1:27:23,  2.04it/s] 10%|▉         | 1167/11858 [10:06<1:27:19,  2.04it/s] 10%|▉         | 1168/11858 [10:06<1:27:18,  2.04it/s] 10%|▉         | 1169/11858 [10:07<1:27:19,  2.04it/s] 10%|▉         | 1170/11858 [10:07<1:27:17,  2.04it/s] 10%|▉         | 1171/11858 [10:08<1:27:15,  2.04it/s] 10%|▉         | 1172/11858 [10:08<1:27:19,  2.04it/s] 10%|▉         | 1173/11858 [10:09<1:27:16,  2.04it/s] 10%|▉         | 1174/11858 [10:09<1:27:11,  2.04it/s] 10%|▉         | 1175/11858 [10:10<1:27:10,  2.04it/s]                                                      {'loss': 3.2162, 'grad_norm': 0.44548580050468445, 'learning_rate': 0.0009907251264755482, 'epoch': 1.39}
- 10%|▉         | 1175/11858 [10:10<1:27:10,  2.04it/s] 10%|▉         | 1176/11858 [10:10<1:27:19,  2.04it/s] 10%|▉         | 1177/11858 [10:11<1:27:13,  2.04it/s] 10%|▉         | 1178/11858 [10:11<1:27:09,  2.04it/s] 10%|▉         | 1179/11858 [10:12<1:27:11,  2.04it/s] 10%|▉         | 1180/11858 [10:12<1:27:10,  2.04it/s] 10%|▉         | 1181/11858 [10:13<1:27:06,  2.04it/s] 10%|▉         | 1182/11858 [10:13<1:27:10,  2.04it/s] 10%|▉         | 1183/11858 [10:14<1:27:09,  2.04it/s] 10%|▉         | 1184/11858 [10:14<1:27:09,  2.04it/s] 10%|▉         | 1185/11858 [10:14<1:27:06,  2.04it/s] 10%|█         | 1186/11858 [10:15<1:27:09,  2.04it/s] 10%|█         | 1187/11858 [10:15<1:27:08,  2.04it/s] 10%|█         | 1188/11858 [10:16<1:27:09,  2.04it/s] 10%|█         | 1189/11858 [10:16<1:27:07,  2.04it/s] 10%|█         | 1190/11858 [10:17<1:27:08,  2.04it/s] 10%|█         | 1191/11858 [10:17<1:27:07,  2.04it/s] 10%|█         | 1192/11858 [10:18<1:27:03,  2.04it/s] 10%|█         | 1193/11858 [10:18<1:27:05,  2.04it/s] 10%|█         | 1194/11858 [10:19<1:27:08,  2.04it/s] 10%|█         | 1195/11858 [10:19<1:27:03,  2.04it/s] 10%|█         | 1196/11858 [10:20<1:27:03,  2.04it/s] 10%|█         | 1197/11858 [10:20<1:27:06,  2.04it/s] 10%|█         | 1198/11858 [10:21<1:27:02,  2.04it/s] 10%|█         | 1199/11858 [10:21<1:26:59,  2.04it/s] 10%|█         | 1200/11858 [10:22<1:27:03,  2.04it/s]                                                      {'loss': 3.2096, 'grad_norm': 0.4619976580142975, 'learning_rate': 0.0009999957537693818, 'epoch': 1.42}
- 10%|█         | 1200/11858 [10:22<1:27:03,  2.04it/s] 10%|█         | 1201/11858 [10:22<1:27:09,  2.04it/s] 10%|█         | 1202/11858 [10:23<1:27:07,  2.04it/s] 10%|█         | 1203/11858 [10:23<1:27:05,  2.04it/s] 10%|█         | 1204/11858 [10:24<1:27:03,  2.04it/s] 10%|█         | 1205/11858 [10:24<1:26:59,  2.04it/s] 10%|█         | 1206/11858 [10:25<1:26:56,  2.04it/s] 10%|█         | 1207/11858 [10:25<1:27:00,  2.04it/s] 10%|█         | 1208/11858 [10:26<1:26:56,  2.04it/s] 10%|█         | 1209/11858 [10:26<1:26:52,  2.04it/s] 10%|█         | 1210/11858 [10:27<1:27:01,  2.04it/s] 10%|█         | 1211/11858 [10:27<1:27:03,  2.04it/s] 10%|█         | 1212/11858 [10:28<1:26:58,  2.04it/s] 10%|█         | 1213/11858 [10:28<1:26:58,  2.04it/s] 10%|█         | 1214/11858 [10:29<1:26:58,  2.04it/s] 10%|█         | 1215/11858 [10:29<1:26:56,  2.04it/s] 10%|█         | 1216/11858 [10:30<1:26:50,  2.04it/s] 10%|█         | 1217/11858 [10:30<1:26:49,  2.04it/s] 10%|█         | 1218/11858 [10:31<1:26:51,  2.04it/s] 10%|█         | 1219/11858 [10:31<1:26:49,  2.04it/s] 10%|█         | 1220/11858 [10:32<1:26:43,  2.04it/s] 10%|█         | 1221/11858 [10:32<1:26:44,  2.04it/s] 10%|█         | 1222/11858 [10:33<1:26:53,  2.04it/s] 10%|█         | 1223/11858 [10:33<1:26:54,  2.04it/s] 10%|█         | 1224/11858 [10:34<1:26:48,  2.04it/s] 10%|█         | 1225/11858 [10:34<1:26:46,  2.04it/s]                                                      {'loss': 3.2112, 'grad_norm': 0.43420934677124023, 'learning_rate': 0.00099996704869912, 'epoch': 1.45}
- 10%|█         | 1225/11858 [10:34<1:26:46,  2.04it/s] 10%|█         | 1226/11858 [10:35<1:26:59,  2.04it/s] 10%|█         | 1227/11858 [10:35<1:26:56,  2.04it/s] 10%|█         | 1228/11858 [10:36<1:26:50,  2.04it/s] 10%|█         | 1229/11858 [10:36<1:26:49,  2.04it/s] 10%|█         | 1230/11858 [10:37<1:26:49,  2.04it/s] 10%|█         | 1231/11858 [10:37<1:26:45,  2.04it/s] 10%|█         | 1232/11858 [10:38<1:26:52,  2.04it/s] 10%|█         | 1233/11858 [10:38<1:26:50,  2.04it/s] 10%|█         | 1234/11858 [10:39<1:26:50,  2.04it/s] 10%|█         | 1235/11858 [10:39<1:26:52,  2.04it/s] 10%|█         | 1236/11858 [10:39<1:27:02,  2.03it/s] 10%|█         | 1237/11858 [10:40<1:26:58,  2.04it/s] 10%|█         | 1238/11858 [10:41<1:34:27,  1.87it/s] 10%|█         | 1239/11858 [10:41<1:32:07,  1.92it/s] 10%|█         | 1240/11858 [10:42<1:30:27,  1.96it/s] 10%|█         | 1241/11858 [10:42<1:29:21,  1.98it/s] 10%|█         | 1242/11858 [10:43<1:28:39,  2.00it/s] 10%|█         | 1243/11858 [10:43<1:28:03,  2.01it/s] 10%|█         | 1244/11858 [10:44<1:27:37,  2.02it/s] 10%|█         | 1245/11858 [10:44<1:27:21,  2.02it/s] 11%|█         | 1246/11858 [10:45<1:27:13,  2.03it/s] 11%|█         | 1247/11858 [10:45<1:27:00,  2.03it/s] 11%|█         | 1248/11858 [10:46<1:26:57,  2.03it/s] 11%|█         | 1249/11858 [10:46<1:26:48,  2.04it/s] 11%|█         | 1250/11858 [10:46<1:26:42,  2.04it/s]                                                      {'loss': 3.1831, 'grad_norm': 0.4640524685382843, 'learning_rate': 0.0009999112649450152, 'epoch': 1.47}
- 11%|█         | 1250/11858 [10:47<1:26:42,  2.04it/s] 11%|█         | 1251/11858 [10:47<1:26:50,  2.04it/s] 11%|█         | 1252/11858 [10:47<1:26:50,  2.04it/s] 11%|█         | 1253/11858 [10:48<1:26:40,  2.04it/s] 11%|█         | 1254/11858 [10:48<1:26:37,  2.04it/s] 11%|█         | 1255/11858 [10:49<1:26:39,  2.04it/s] 11%|█         | 1256/11858 [10:49<1:26:34,  2.04it/s] 11%|█         | 1257/11858 [10:50<1:26:32,  2.04it/s] 11%|█         | 1258/11858 [10:51<1:33:53,  1.88it/s] 11%|█         | 1259/11858 [10:51<1:31:43,  1.93it/s] 11%|█         | 1260/11858 [10:52<1:30:12,  1.96it/s] 11%|█         | 1261/11858 [10:52<1:29:05,  1.98it/s] 11%|█         | 1262/11858 [10:53<1:28:15,  2.00it/s] 11%|█         | 1263/11858 [10:53<1:27:48,  2.01it/s] 11%|█         | 1264/11858 [10:53<1:27:24,  2.02it/s] 11%|█         | 1265/11858 [10:54<1:27:09,  2.03it/s] 11%|█         | 1266/11858 [10:54<1:26:59,  2.03it/s] 11%|█         | 1267/11858 [10:55<1:26:51,  2.03it/s] 11%|█         | 1268/11858 [10:55<1:26:48,  2.03it/s] 11%|█         | 1269/11858 [10:56<1:26:50,  2.03it/s] 11%|█         | 1270/11858 [10:56<1:26:41,  2.04it/s] 11%|█         | 1271/11858 [10:57<1:26:33,  2.04it/s] 11%|█         | 1272/11858 [10:57<1:26:33,  2.04it/s] 11%|█         | 1273/11858 [10:58<1:26:34,  2.04it/s] 11%|█         | 1274/11858 [10:58<1:26:32,  2.04it/s] 11%|█         | 1275/11858 [10:59<1:26:29,  2.04it/s]                                                      {'loss': 3.1595, 'grad_norm': 0.4153521955013275, 'learning_rate': 0.0009998284055283677, 'epoch': 1.5}
- 11%|█         | 1275/11858 [10:59<1:26:29,  2.04it/s] 11%|█         | 1276/11858 [10:59<1:26:36,  2.04it/s] 11%|█         | 1277/11858 [11:00<1:26:35,  2.04it/s] 11%|█         | 1278/11858 [11:00<1:26:33,  2.04it/s] 11%|█         | 1279/11858 [11:01<1:26:25,  2.04it/s] 11%|█         | 1280/11858 [11:01<1:26:24,  2.04it/s] 11%|█         | 1281/11858 [11:02<1:26:27,  2.04it/s] 11%|█         | 1282/11858 [11:02<1:26:25,  2.04it/s] 11%|█         | 1283/11858 [11:03<1:26:21,  2.04it/s] 11%|█         | 1284/11858 [11:03<1:26:17,  2.04it/s] 11%|█         | 1285/11858 [11:04<1:26:15,  2.04it/s] 11%|█         | 1286/11858 [11:04<1:26:18,  2.04it/s] 11%|█         | 1287/11858 [11:05<1:26:17,  2.04it/s] 11%|█         | 1288/11858 [11:05<1:26:17,  2.04it/s] 11%|█         | 1289/11858 [11:06<1:26:17,  2.04it/s] 11%|█         | 1290/11858 [11:06<1:26:23,  2.04it/s] 11%|█         | 1291/11858 [11:07<1:26:20,  2.04it/s] 11%|█         | 1292/11858 [11:07<1:26:16,  2.04it/s] 11%|█         | 1293/11858 [11:08<1:26:14,  2.04it/s] 11%|█         | 1294/11858 [11:08<1:26:17,  2.04it/s] 11%|█         | 1295/11858 [11:09<1:26:16,  2.04it/s] 11%|█         | 1296/11858 [11:09<1:26:11,  2.04it/s] 11%|█         | 1297/11858 [11:10<1:26:20,  2.04it/s] 11%|█         | 1298/11858 [11:10<1:26:17,  2.04it/s] 11%|█         | 1299/11858 [11:11<1:26:11,  2.04it/s] 11%|█         | 1300/11858 [11:11<1:26:16,  2.04it/s]                                                      {'loss': 3.1206, 'grad_norm': 0.44904789328575134, 'learning_rate': 0.0009997184749369209, 'epoch': 1.53}
- 11%|█         | 1300/11858 [11:11<1:26:16,  2.04it/s] 11%|█         | 1301/11858 [11:12<1:26:23,  2.04it/s] 11%|█         | 1302/11858 [11:12<1:26:16,  2.04it/s] 11%|█         | 1303/11858 [11:13<1:26:19,  2.04it/s] 11%|█         | 1304/11858 [11:13<1:26:22,  2.04it/s] 11%|█         | 1305/11858 [11:14<1:26:16,  2.04it/s] 11%|█         | 1306/11858 [11:14<1:26:08,  2.04it/s] 11%|█         | 1307/11858 [11:15<1:26:06,  2.04it/s] 11%|█         | 1308/11858 [11:15<1:26:09,  2.04it/s] 11%|█         | 1309/11858 [11:16<1:26:05,  2.04it/s] 11%|█         | 1310/11858 [11:16<1:26:02,  2.04it/s] 11%|█         | 1311/11858 [11:17<1:26:03,  2.04it/s] 11%|█         | 1312/11858 [11:17<1:26:03,  2.04it/s] 11%|█         | 1313/11858 [11:18<1:25:58,  2.04it/s] 11%|█         | 1314/11858 [11:18<1:25:57,  2.04it/s] 11%|█         | 1315/11858 [11:18<1:25:59,  2.04it/s] 11%|█         | 1316/11858 [11:19<1:25:59,  2.04it/s] 11%|█         | 1317/11858 [11:19<1:25:54,  2.04it/s] 11%|█         | 1318/11858 [11:20<1:25:53,  2.05it/s] 11%|█         | 1319/11858 [11:20<1:26:00,  2.04it/s] 11%|█         | 1320/11858 [11:21<1:26:01,  2.04it/s] 11%|█         | 1321/11858 [11:21<1:26:01,  2.04it/s] 11%|█         | 1322/11858 [11:22<1:26:04,  2.04it/s] 11%|█         | 1323/11858 [11:22<1:26:06,  2.04it/s] 11%|█         | 1324/11858 [11:23<1:26:00,  2.04it/s] 11%|█         | 1325/11858 [11:23<1:26:00,  2.04it/s]                                                      {'loss': 3.1059, 'grad_norm': 0.43719035387039185, 'learning_rate': 0.000999581479124619, 'epoch': 1.56}
- 11%|█         | 1325/11858 [11:23<1:26:00,  2.04it/s] 11%|█         | 1326/11858 [11:24<1:26:08,  2.04it/s] 11%|█         | 1327/11858 [11:24<1:26:06,  2.04it/s] 11%|█         | 1328/11858 [11:25<1:26:03,  2.04it/s] 11%|█         | 1329/11858 [11:25<1:26:04,  2.04it/s] 11%|█         | 1330/11858 [11:26<1:26:03,  2.04it/s] 11%|█         | 1331/11858 [11:26<1:25:59,  2.04it/s] 11%|█         | 1332/11858 [11:27<1:26:00,  2.04it/s] 11%|█         | 1333/11858 [11:27<1:25:58,  2.04it/s] 11%|█         | 1334/11858 [11:28<1:25:57,  2.04it/s] 11%|█▏        | 1335/11858 [11:28<1:25:53,  2.04it/s] 11%|█▏        | 1336/11858 [11:29<1:25:55,  2.04it/s] 11%|█▏        | 1337/11858 [11:29<1:25:53,  2.04it/s] 11%|█▏        | 1338/11858 [11:30<1:25:55,  2.04it/s] 11%|█▏        | 1339/11858 [11:30<1:26:00,  2.04it/s] 11%|█▏        | 1340/11858 [11:31<1:26:01,  2.04it/s] 11%|█▏        | 1341/11858 [11:31<1:25:59,  2.04it/s] 11%|█▏        | 1342/11858 [11:32<1:26:02,  2.04it/s] 11%|█▏        | 1343/11858 [11:32<1:26:04,  2.04it/s] 11%|█▏        | 1344/11858 [11:33<1:26:04,  2.04it/s] 11%|█▏        | 1345/11858 [11:33<1:26:03,  2.04it/s] 11%|█▏        | 1346/11858 [11:34<1:26:02,  2.04it/s] 11%|█▏        | 1347/11858 [11:34<1:25:57,  2.04it/s] 11%|█▏        | 1348/11858 [11:35<1:25:54,  2.04it/s] 11%|█▏        | 1349/11858 [11:35<1:25:57,  2.04it/s] 11%|█▏        | 1350/11858 [11:36<1:25:51,  2.04it/s]                                                      {'loss': 3.0849, 'grad_norm': 0.379612535238266, 'learning_rate': 0.0009994174255112832, 'epoch': 1.59}
- 11%|█▏        | 1350/11858 [11:36<1:25:51,  2.04it/s] 11%|█▏        | 1351/11858 [11:36<1:25:57,  2.04it/s] 11%|█▏        | 1352/11858 [11:37<1:25:56,  2.04it/s] 11%|█▏        | 1353/11858 [11:37<1:25:54,  2.04it/s] 11%|█▏        | 1354/11858 [11:38<1:25:50,  2.04it/s] 11%|█▏        | 1355/11858 [11:38<1:25:48,  2.04it/s] 11%|█▏        | 1356/11858 [11:39<1:25:55,  2.04it/s] 11%|█▏        | 1357/11858 [11:39<1:25:54,  2.04it/s] 11%|█▏        | 1358/11858 [11:40<1:25:52,  2.04it/s] 11%|█▏        | 1359/11858 [11:40<1:25:54,  2.04it/s] 11%|█▏        | 1360/11858 [11:41<1:25:50,  2.04it/s] 11%|█▏        | 1361/11858 [11:41<1:25:46,  2.04it/s] 11%|█▏        | 1362/11858 [11:42<1:25:46,  2.04it/s] 11%|█▏        | 1363/11858 [11:42<1:25:51,  2.04it/s] 12%|█▏        | 1364/11858 [11:43<1:25:45,  2.04it/s] 12%|█▏        | 1365/11858 [11:43<1:25:38,  2.04it/s] 12%|█▏        | 1366/11858 [11:44<1:25:35,  2.04it/s] 12%|█▏        | 1367/11858 [11:44<1:25:42,  2.04it/s] 12%|█▏        | 1368/11858 [11:44<1:25:37,  2.04it/s] 12%|█▏        | 1369/11858 [11:45<1:25:33,  2.04it/s] 12%|█▏        | 1370/11858 [11:45<1:25:32,  2.04it/s] 12%|█▏        | 1371/11858 [11:46<1:25:34,  2.04it/s] 12%|█▏        | 1372/11858 [11:46<1:25:32,  2.04it/s] 12%|█▏        | 1373/11858 [11:47<1:25:31,  2.04it/s] 12%|█▏        | 1374/11858 [11:47<1:25:28,  2.04it/s] 12%|█▏        | 1375/11858 [11:48<1:25:34,  2.04it/s]                                                      {'loss': 3.0619, 'grad_norm': 0.42717334628105164, 'learning_rate': 0.000999226322982211, 'epoch': 1.62}
- 12%|█▏        | 1375/11858 [11:48<1:25:34,  2.04it/s] 12%|█▏        | 1376/11858 [11:48<1:25:42,  2.04it/s] 12%|█▏        | 1377/11858 [11:49<1:25:40,  2.04it/s] 12%|█▏        | 1378/11858 [11:49<1:25:41,  2.04it/s] 12%|█▏        | 1379/11858 [11:50<1:25:38,  2.04it/s] 12%|█▏        | 1380/11858 [11:50<1:25:37,  2.04it/s] 12%|█▏        | 1381/11858 [11:51<1:25:39,  2.04it/s] 12%|█▏        | 1382/11858 [11:51<1:25:37,  2.04it/s] 12%|█▏        | 1383/11858 [11:52<1:25:34,  2.04it/s] 12%|█▏        | 1384/11858 [11:52<1:25:38,  2.04it/s] 12%|█▏        | 1385/11858 [11:53<1:25:33,  2.04it/s] 12%|█▏        | 1386/11858 [11:53<1:25:33,  2.04it/s] 12%|█▏        | 1387/11858 [11:54<1:25:32,  2.04it/s] 12%|█▏        | 1388/11858 [11:54<1:25:36,  2.04it/s] 12%|█▏        | 1389/11858 [11:55<1:25:30,  2.04it/s] 12%|█▏        | 1390/11858 [11:55<1:25:29,  2.04it/s] 12%|█▏        | 1391/11858 [11:56<1:25:32,  2.04it/s] 12%|█▏        | 1392/11858 [11:56<1:25:28,  2.04it/s] 12%|█▏        | 1393/11858 [11:57<1:25:25,  2.04it/s] 12%|█▏        | 1394/11858 [11:57<1:25:28,  2.04it/s] 12%|█▏        | 1395/11858 [11:58<1:25:29,  2.04it/s] 12%|█▏        | 1396/11858 [11:58<1:25:26,  2.04it/s] 12%|█▏        | 1397/11858 [11:59<1:25:29,  2.04it/s] 12%|█▏        | 1398/11858 [11:59<1:25:28,  2.04it/s] 12%|█���        | 1399/11858 [12:00<1:25:25,  2.04it/s] 12%|█▏        | 1400/11858 [12:00<1:25:22,  2.04it/s]                                                      {'loss': 3.0629, 'grad_norm': 0.41078680753707886, 'learning_rate': 0.0009990081818876946, 'epoch': 1.65}
- 12%|█▏        | 1400/11858 [12:00<1:25:22,  2.04it/s] 12%|█▏        | 1401/11858 [12:01<1:25:32,  2.04it/s] 12%|█▏        | 1402/11858 [12:01<1:25:31,  2.04it/s] 12%|█▏        | 1403/11858 [12:02<1:25:29,  2.04it/s] 12%|█▏        | 1404/11858 [12:02<1:25:35,  2.04it/s] 12%|█▏        | 1405/11858 [12:03<1:25:32,  2.04it/s] 12%|█▏        | 1406/11858 [12:03<1:25:28,  2.04it/s] 12%|█▏        | 1407/11858 [12:04<1:25:32,  2.04it/s] 12%|█▏        | 1408/11858 [12:04<1:25:32,  2.04it/s] 12%|█▏        | 1409/11858 [12:05<1:25:26,  2.04it/s] 12%|█▏        | 1410/11858 [12:05<1:25:29,  2.04it/s] 12%|█▏        | 1411/11858 [12:06<1:25:25,  2.04it/s] 12%|█▏        | 1412/11858 [12:06<1:25:17,  2.04it/s] 12%|█▏        | 1413/11858 [12:07<1:25:13,  2.04it/s] 12%|█▏        | 1414/11858 [12:07<1:25:13,  2.04it/s] 12%|█▏        | 1415/11858 [12:08<1:25:16,  2.04it/s] 12%|█▏        | 1416/11858 [12:08<1:25:18,  2.04it/s] 12%|█▏        | 1417/11858 [12:09<1:25:16,  2.04it/s] 12%|█▏        | 1418/11858 [12:09<1:25:14,  2.04it/s] 12%|█▏        | 1419/11858 [12:09<1:25:18,  2.04it/s] 12%|█▏        | 1420/11858 [12:10<1:25:16,  2.04it/s] 12%|█▏        | 1421/11858 [12:10<1:25:14,  2.04it/s] 12%|█▏        | 1422/11858 [12:11<1:25:13,  2.04it/s] 12%|█▏        | 1423/11858 [12:11<1:25:21,  2.04it/s] 12%|█▏        | 1424/11858 [12:12<1:25:19,  2.04it/s] 12%|█▏        | 1425/11858 [12:12<1:25:17,  2.04it/s]                                                      {'loss': 3.0264, 'grad_norm': 0.4032364785671234, 'learning_rate': 0.00099876301404246, 'epoch': 1.68}
- 12%|█▏        | 1425/11858 [12:12<1:25:17,  2.04it/s] 12%|█▏        | 1426/11858 [12:13<1:25:23,  2.04it/s] 12%|█▏        | 1427/11858 [12:13<1:25:22,  2.04it/s] 12%|█▏        | 1428/11858 [12:14<1:25:20,  2.04it/s] 12%|█▏        | 1429/11858 [12:14<1:25:17,  2.04it/s] 12%|█▏        | 1430/11858 [12:15<1:25:20,  2.04it/s] 12%|█▏        | 1431/11858 [12:15<1:25:18,  2.04it/s] 12%|█▏        | 1432/11858 [12:16<1:25:15,  2.04it/s] 12%|█▏        | 1433/11858 [12:16<1:25:18,  2.04it/s] 12%|█▏        | 1434/11858 [12:17<1:25:16,  2.04it/s] 12%|█▏        | 1435/11858 [12:17<1:25:12,  2.04it/s] 12%|█▏        | 1436/11858 [12:18<1:25:10,  2.04it/s] 12%|█▏        | 1437/11858 [12:18<1:25:11,  2.04it/s] 12%|█▏        | 1438/11858 [12:19<1:25:06,  2.04it/s] 12%|█▏        | 1439/11858 [12:19<1:25:06,  2.04it/s] 12%|█▏        | 1440/11858 [12:20<1:25:12,  2.04it/s] 12%|█▏        | 1441/11858 [12:20<1:25:05,  2.04it/s] 12%|█▏        | 1442/11858 [12:21<1:25:00,  2.04it/s] 12%|█▏        | 1443/11858 [12:21<1:25:02,  2.04it/s] 12%|█▏        | 1444/11858 [12:22<1:25:03,  2.04it/s] 12%|█▏        | 1445/11858 [12:22<1:25:00,  2.04it/s] 12%|█▏        | 1446/11858 [12:23<1:24:56,  2.04it/s] 12%|█▏        | 1447/11858 [12:23<1:25:01,  2.04it/s] 12%|█▏        | 1448/11858 [12:24<1:25:01,  2.04it/s] 12%|█▏        | 1449/11858 [12:24<1:24:59,  2.04it/s] 12%|█▏        | 1450/11858 [12:25<1:24:59,  2.04it/s]                                                      {'loss': 2.9973, 'grad_norm': 0.3475000262260437, 'learning_rate': 0.0009984908327250277, 'epoch': 1.71}
- 12%|█▏        | 1450/11858 [12:25<1:24:59,  2.04it/s] 12%|█▏        | 1451/11858 [12:25<1:25:07,  2.04it/s] 12%|█▏        | 1452/11858 [12:26<1:25:02,  2.04it/s] 12%|█▏        | 1453/11858 [12:26<1:25:01,  2.04it/s] 12%|█▏        | 1454/11858 [12:27<1:25:08,  2.04it/s] 12%|█▏        | 1455/11858 [12:27<1:25:05,  2.04it/s] 12%|█▏        | 1456/11858 [12:28<1:25:01,  2.04it/s] 12%|█▏        | 1457/11858 [12:28<1:25:01,  2.04it/s] 12%|█▏        | 1458/11858 [12:29<1:25:00,  2.04it/s] 12%|█▏        | 1459/11858 [12:29<1:25:01,  2.04it/s] 12%|█▏        | 1460/11858 [12:30<1:25:04,  2.04it/s] 12%|█▏        | 1461/11858 [12:30<1:25:06,  2.04it/s] 12%|█▏        | 1462/11858 [12:31<1:25:02,  2.04it/s] 12%|█▏        | 1463/11858 [12:31<1:25:05,  2.04it/s] 12%|█▏        | 1464/11858 [12:32<1:25:02,  2.04it/s] 12%|█▏        | 1465/11858 [12:32<1:24:59,  2.04it/s] 12%|█▏        | 1466/11858 [12:33<1:25:04,  2.04it/s] 12%|█▏        | 1467/11858 [12:33<1:24:59,  2.04it/s] 12%|█▏        | 1468/11858 [12:34<1:24:56,  2.04it/s] 12%|█▏        | 1469/11858 [12:34<1:24:55,  2.04it/s] 12%|█▏        | 1470/11858 [12:35<1:24:53,  2.04it/s] 12%|█▏        | 1471/11858 [12:35<1:24:55,  2.04it/s] 12%|█▏        | 1472/11858 [12:35<1:25:00,  2.04it/s] 12%|█▏        | 1473/11858 [12:36<1:24:59,  2.04it/s] 12%|█▏        | 1474/11858 [12:36<1:24:55,  2.04it/s] 12%|█▏        | 1475/11858 [12:37<1:24:51,  2.04it/s]                                                      {'loss': 2.9952, 'grad_norm': 0.37031248211860657, 'learning_rate': 0.0009981916526769924, 'epoch': 1.74}
- 12%|█▏        | 1475/11858 [12:37<1:24:51,  2.04it/s] 12%|█▏        | 1476/11858 [12:37<1:24:57,  2.04it/s] 12%|█▏        | 1477/11858 [12:38<1:24:52,  2.04it/s] 12%|█▏        | 1478/11858 [12:38<1:24:50,  2.04it/s] 12%|█▏        | 1479/11858 [12:39<1:24:54,  2.04it/s] 12%|█▏        | 1480/11858 [12:39<1:24:54,  2.04it/s] 12%|█▏        | 1481/11858 [12:40<1:24:55,  2.04it/s] 12%|█▏        | 1482/11858 [12:40<1:24:55,  2.04it/s] 13%|█▎        | 1483/11858 [12:41<1:24:50,  2.04it/s] 13%|█▎        | 1484/11858 [12:41<1:24:46,  2.04it/s] 13%|█▎        | 1485/11858 [12:42<1:24:50,  2.04it/s] 13%|█▎        | 1486/11858 [12:42<1:24:49,  2.04it/s] 13%|█▎        | 1487/11858 [12:43<1:24:44,  2.04it/s] 13%|█▎        | 1488/11858 [12:43<1:24:44,  2.04it/s] 13%|█▎        | 1489/11858 [12:44<1:24:47,  2.04it/s] 13%|█▎        | 1490/11858 [12:44<1:24:44,  2.04it/s] 13%|█▎        | 1491/11858 [12:45<1:24:34,  2.04it/s] 13%|█▎        | 1492/11858 [12:45<1:24:36,  2.04it/s] 13%|█▎        | 1493/11858 [12:46<1:24:39,  2.04it/s] 13%|█▎        | 1494/11858 [12:46<1:24:36,  2.04it/s] 13%|█▎        | 1495/11858 [12:47<1:24:30,  2.04it/s] 13%|█▎        | 1496/11858 [12:47<1:24:32,  2.04it/s] 13%|█▎        | 1497/11858 [12:48<1:24:34,  2.04it/s] 13%|█▎        | 1498/11858 [12:48<1:24:33,  2.04it/s] 13%|█▎        | 1499/11858 [12:49<1:24:29,  2.04it/s] 13%|█▎        | 1500/11858 [12:49<1:24:31,  2.04it/s]                                                      {'loss': 2.9838, 'grad_norm': 0.35342681407928467, 'learning_rate': 0.000997865490102226, 'epoch': 1.77}
- 13%|█▎        | 1500/11858 [12:49<1:24:31,  2.04it/s] 13%|█▎        | 1501/11858 [12:50<1:24:39,  2.04it/s] 13%|█▎        | 1502/11858 [12:50<1:24:36,  2.04it/s] 13%|█▎        | 1503/11858 [12:51<1:24:39,  2.04it/s] 13%|█▎        | 1504/11858 [12:51<1:24:43,  2.04it/s] 13%|█▎        | 1505/11858 [12:52<1:24:39,  2.04it/s] 13%|█▎        | 1506/11858 [12:52<1:24:35,  2.04it/s] 13%|█▎        | 1507/11858 [12:53<1:24:34,  2.04it/s] 13%|█▎        | 1508/11858 [12:53<1:24:35,  2.04it/s] 13%|█▎        | 1509/11858 [12:54<1:24:31,  2.04it/s] 13%|█▎        | 1510/11858 [12:54<1:24:30,  2.04it/s] 13%|█▎        | 1511/11858 [12:55<1:24:33,  2.04it/s] 13%|█▎        | 1512/11858 [12:55<1:24:31,  2.04it/s] 13%|█▎        | 1513/11858 [12:56<1:24:35,  2.04it/s] 13%|█▎        | 1514/11858 [12:56<1:24:38,  2.04it/s] 13%|█▎        | 1515/11858 [12:57<1:24:32,  2.04it/s] 13%|█▎        | 1516/11858 [12:57<1:24:32,  2.04it/s] 13%|█▎        | 1517/11858 [12:58<1:24:31,  2.04it/s] 13%|█▎        | 1518/11858 [12:58<1:24:28,  2.04it/s] 13%|█▎        | 1519/11858 [12:59<1:24:23,  2.04it/s] 13%|█▎        | 1520/11858 [12:59<1:24:21,  2.04it/s] 13%|█▎        | 1521/11858 [13:00<1:24:24,  2.04it/s] 13%|█▎        | 1522/11858 [13:00<1:24:20,  2.04it/s] 13%|█▎        | 1523/11858 [13:00<1:24:17,  2.04it/s] 13%|█▎        | 1524/11858 [13:01<1:24:19,  2.04it/s] 13%|█▎        | 1525/11858 [13:01<1:24:23,  2.04it/s]                                                      {'loss': 2.9746, 'grad_norm': 0.36952757835388184, 'learning_rate': 0.0009975123626659998, 'epoch': 1.8}
- 13%|█▎        | 1525/11858 [13:01<1:24:23,  2.04it/s] 13%|█▎        | 1526/11858 [13:02<1:24:24,  2.04it/s] 13%|█▎        | 1527/11858 [13:02<1:24:22,  2.04it/s] 13%|█▎        | 1528/11858 [13:03<1:24:26,  2.04it/s] 13%|█▎        | 1529/11858 [13:03<1:24:22,  2.04it/s] 13%|█▎        | 1530/11858 [13:04<1:24:18,  2.04it/s] 13%|█▎        | 1531/11858 [13:04<1:24:25,  2.04it/s] 13%|█▎        | 1532/11858 [13:05<1:24:27,  2.04it/s] 13%|█▎        | 1533/11858 [13:05<1:24:23,  2.04it/s] 13%|█▎        | 1534/11858 [13:06<1:24:25,  2.04it/s] 13%|█▎        | 1535/11858 [13:06<1:24:25,  2.04it/s] 13%|█▎        | 1536/11858 [13:07<1:24:23,  2.04it/s] 13%|█▎        | 1537/11858 [13:07<1:24:28,  2.04it/s] 13%|█▎        | 1538/11858 [13:08<1:24:25,  2.04it/s] 13%|█▎        | 1539/11858 [13:08<1:24:22,  2.04it/s] 13%|█▎        | 1540/11858 [13:09<1:24:25,  2.04it/s] 13%|█▎        | 1541/11858 [13:09<1:24:26,  2.04it/s] 13%|█▎        | 1542/11858 [13:10<1:24:24,  2.04it/s] 13%|█▎        | 1543/11858 [13:10<1:24:26,  2.04it/s] 13%|█▎        | 1544/11858 [13:11<1:24:26,  2.04it/s] 13%|█▎        | 1545/11858 [13:11<1:24:20,  2.04it/s] 13%|█▎        | 1546/11858 [13:12<1:24:20,  2.04it/s] 13%|█▎        | 1547/11858 [13:12<1:24:24,  2.04it/s] 13%|█▎        | 1548/11858 [13:13<1:24:23,  2.04it/s] 13%|█▎        | 1549/11858 [13:13<1:24:18,  2.04it/s] 13%|█▎        | 1550/11858 [13:14<1:24:22,  2.04it/s]                                                      {'loss': 2.9498, 'grad_norm': 0.35995399951934814, 'learning_rate': 0.0009971322894940255, 'epoch': 1.83}
- 13%|█▎        | 1550/11858 [13:14<1:24:22,  2.04it/s] 13%|█▎        | 1551/11858 [13:14<1:24:22,  2.04it/s] 13%|█▎        | 1552/11858 [13:15<1:24:18,  2.04it/s] 13%|█▎        | 1553/11858 [13:15<1:24:22,  2.04it/s] 13%|█▎        | 1554/11858 [13:16<1:24:23,  2.03it/s] 13%|█▎        | 1555/11858 [13:16<1:24:18,  2.04it/s] 13%|█▎        | 1556/11858 [13:17<1:24:13,  2.04it/s] 13%|█▎        | 1557/11858 [13:17<1:24:14,  2.04it/s] 13%|█▎        | 1558/11858 [13:18<1:24:21,  2.04it/s] 13%|█▎        | 1559/11858 [13:18<1:24:16,  2.04it/s] 13%|█▎        | 1560/11858 [13:19<1:24:12,  2.04it/s] 13%|█▎        | 1561/11858 [13:19<1:24:15,  2.04it/s] 13%|█▎        | 1562/11858 [13:20<1:24:12,  2.04it/s] 13%|█▎        | 1563/11858 [13:20<1:24:09,  2.04it/s] 13%|█▎        | 1564/11858 [13:21<1:24:03,  2.04it/s] 13%|█▎        | 1565/11858 [13:21<1:24:00,  2.04it/s] 13%|█▎        | 1566/11858 [13:22<1:24:05,  2.04it/s] 13%|█▎        | 1567/11858 [13:22<1:23:59,  2.04it/s] 13%|█▎        | 1568/11858 [13:23<1:23:56,  2.04it/s] 13%|█▎        | 1569/11858 [13:23<1:24:07,  2.04it/s] 13%|█▎        | 1570/11858 [13:24<1:24:07,  2.04it/s] 13%|█▎        | 1571/11858 [13:24<1:24:06,  2.04it/s] 13%|█▎        | 1572/11858 [13:25<1:24:08,  2.04it/s] 13%|█▎        | 1573/11858 [13:25<1:24:05,  2.04it/s] 13%|█▎        | 1574/11858 [13:26<1:24:01,  2.04it/s] 13%|█▎        | 1575/11858 [13:26<1:24:01,  2.04it/s]                                                      {'loss': 2.9466, 'grad_norm': 0.3726382255554199, 'learning_rate': 0.000996725291171423, 'epoch': 1.86}
- 13%|█▎        | 1575/11858 [13:26<1:24:01,  2.04it/s] 13%|█▎        | 1576/11858 [13:26<1:24:09,  2.04it/s] 13%|█▎        | 1577/11858 [13:27<1:24:08,  2.04it/s] 13%|█▎        | 1578/11858 [13:27<1:24:12,  2.03it/s] 13%|█▎        | 1579/11858 [13:28<1:24:08,  2.04it/s] 13%|█▎        | 1580/11858 [13:28<1:24:10,  2.04it/s] 13%|█▎        | 1581/11858 [13:29<1:24:10,  2.03it/s] 13%|█▎        | 1582/11858 [13:29<1:24:08,  2.04it/s] 13%|█▎        | 1583/11858 [13:30<1:23:59,  2.04it/s] 13%|█▎        | 1584/11858 [13:30<1:24:03,  2.04it/s] 13%|█▎        | 1585/11858 [13:31<1:23:59,  2.04it/s] 13%|█▎        | 1586/11858 [13:31<1:23:57,  2.04it/s] 13%|█▎        | 1587/11858 [13:32<1:23:57,  2.04it/s] 13%|█▎        | 1588/11858 [13:32<1:23:59,  2.04it/s] 13%|█▎        | 1589/11858 [13:33<1:23:57,  2.04it/s] 13%|█▎        | 1590/11858 [13:33<1:23:58,  2.04it/s] 13%|█▎        | 1591/11858 [13:34<1:23:58,  2.04it/s] 13%|█▎        | 1592/11858 [13:34<1:23:55,  2.04it/s] 13%|█▎        | 1593/11858 [13:35<1:23:56,  2.04it/s] 13%|█▎        | 1594/11858 [13:35<1:23:55,  2.04it/s] 13%|█▎        | 1595/11858 [13:36<1:23:52,  2.04it/s] 13%|█▎        | 1596/11858 [13:36<1:23:49,  2.04it/s] 13%|█▎        | 1597/11858 [13:37<1:23:52,  2.04it/s] 13%|█▎        | 1598/11858 [13:37<1:23:51,  2.04it/s] 13%|█▎        | 1599/11858 [13:38<1:23:50,  2.04it/s] 13%|█▎        | 1600/11858 [13:38<1:23:47,  2.04it/s]                                                      {'loss': 2.908, 'grad_norm': 0.36405396461486816, 'learning_rate': 0.0009962913897416028, 'epoch': 1.89}
- 13%|█▎        | 1600/11858 [13:38<1:23:47,  2.04it/s] 14%|█▎        | 1601/11858 [13:39<1:24:00,  2.04it/s] 14%|█▎        | 1602/11858 [13:39<1:23:53,  2.04it/s] 14%|█▎        | 1603/11858 [13:40<1:24:01,  2.03it/s] 14%|█▎        | 1604/11858 [13:40<1:23:57,  2.04it/s] 14%|█▎        | 1605/11858 [13:41<1:23:52,  2.04it/s] 14%|█▎        | 1606/11858 [13:41<1:23:50,  2.04it/s] 14%|█▎        | 1607/11858 [13:42<1:23:55,  2.04it/s] 14%|█▎        | 1608/11858 [13:42<1:23:52,  2.04it/s] 14%|█▎        | 1609/11858 [13:43<1:23:48,  2.04it/s] 14%|█▎        | 1610/11858 [13:43<1:23:53,  2.04it/s] 14%|█▎        | 1611/11858 [13:44<1:23:49,  2.04it/s] 14%|█▎        | 1612/11858 [13:44<1:23:45,  2.04it/s] 14%|█▎        | 1613/11858 [13:45<1:23:44,  2.04it/s] 14%|█▎        | 1614/11858 [13:45<1:23:41,  2.04it/s] 14%|█▎        | 1615/11858 [13:46<1:23:36,  2.04it/s] 14%|█▎        | 1616/11858 [13:46<1:23:32,  2.04it/s] 14%|█▎        | 1617/11858 [13:47<1:23:35,  2.04it/s] 14%|█▎        | 1618/11858 [13:47<1:23:35,  2.04it/s] 14%|█▎        | 1619/11858 [13:48<1:23:32,  2.04it/s] 14%|█▎        | 1620/11858 [13:48<1:23:31,  2.04it/s] 14%|█▎        | 1621/11858 [13:49<1:23:36,  2.04it/s] 14%|█▎        | 1622/11858 [13:49<1:23:33,  2.04it/s] 14%|█▎        | 1623/11858 [13:50<1:23:35,  2.04it/s] 14%|█▎        | 1624/11858 [13:50<1:23:34,  2.04it/s] 14%|█▎        | 1625/11858 [13:51<1:23:35,  2.04it/s]                                                      {'loss': 2.9003, 'grad_norm': 0.43089109659194946, 'learning_rate': 0.0009958306087050725, 'epoch': 1.92}
- 14%|█▎        | 1625/11858 [13:51<1:23:35,  2.04it/s] 14%|█▎        | 1626/11858 [13:51<1:23:37,  2.04it/s] 14%|█▎        | 1627/11858 [13:52<1:23:34,  2.04it/s] 14%|█▎        | 1628/11858 [13:52<1:23:34,  2.04it/s] 14%|█▎        | 1629/11858 [13:52<1:23:36,  2.04it/s] 14%|█▎        | 1630/11858 [13:53<1:23:35,  2.04it/s] 14%|█▍        | 1631/11858 [13:53<1:23:30,  2.04it/s] 14%|█▍        | 1632/11858 [13:54<1:23:33,  2.04it/s] 14%|█▍        | 1633/11858 [13:54<1:23:34,  2.04it/s] 14%|█▍        | 1634/11858 [13:55<1:23:32,  2.04it/s] 14%|█▍        | 1635/11858 [13:55<1:23:32,  2.04it/s] 14%|█▍        | 1636/11858 [13:56<1:23:37,  2.04it/s] 14%|█▍        | 1637/11858 [13:56<1:23:33,  2.04it/s] 14%|█▍        | 1638/11858 [13:57<1:23:26,  2.04it/s] 14%|█▍        | 1639/11858 [13:57<1:23:28,  2.04it/s] 14%|█▍        | 1640/11858 [13:58<1:23:25,  2.04it/s] 14%|█▍        | 1641/11858 [13:58<1:23:24,  2.04it/s] 14%|█▍        | 1642/11858 [13:59<1:23:21,  2.04it/s] 14%|█▍        | 1643/11858 [13:59<1:23:20,  2.04it/s] 14%|█▍        | 1644/11858 [14:00<1:23:26,  2.04it/s] 14%|█▍        | 1645/11858 [14:00<1:23:25,  2.04it/s] 14%|█▍        | 1646/11858 [14:01<1:23:21,  2.04it/s] 14%|█▍        | 1647/11858 [14:01<1:23:22,  2.04it/s] 14%|█▍        | 1648/11858 [14:02<1:23:24,  2.04it/s] 14%|█▍        | 1649/11858 [14:02<1:23:22,  2.04it/s] 14%|█▍        | 1650/11858 [14:03<1:23:21,  2.04it/s]                                                      {'loss': 2.8866, 'grad_norm': 0.3490210175514221, 'learning_rate': 0.0009953429730181654, 'epoch': 1.95}
- 14%|█▍        | 1650/11858 [14:03<1:23:21,  2.04it/s] 14%|█▍        | 1651/11858 [14:03<1:23:27,  2.04it/s] 14%|█▍        | 1652/11858 [14:04<1:23:23,  2.04it/s] 14%|█▍        | 1653/11858 [14:04<1:23:20,  2.04it/s] 14%|█▍        | 1654/11858 [14:05<1:23:25,  2.04it/s] 14%|█▍        | 1655/11858 [14:05<1:23:26,  2.04it/s] 14%|█▍        | 1656/11858 [14:06<1:23:24,  2.04it/s] 14%|█▍        | 1657/11858 [14:06<1:23:26,  2.04it/s] 14%|█▍        | 1658/11858 [14:07<1:23:26,  2.04it/s] 14%|█▍        | 1659/11858 [14:07<1:23:26,  2.04it/s] 14%|█▍        | 1660/11858 [14:08<1:23:28,  2.04it/s] 14%|█▍        | 1661/11858 [14:08<1:23:24,  2.04it/s] 14%|█▍        | 1662/11858 [14:09<1:23:17,  2.04it/s] 14%|█▍        | 1663/11858 [14:09<1:23:19,  2.04it/s] 14%|█▍        | 1664/11858 [14:10<1:23:24,  2.04it/s] 14%|█▍        | 1665/11858 [14:10<1:23:18,  2.04it/s] 14%|█▍        | 1666/11858 [14:11<1:23:26,  2.04it/s] 14%|█▍        | 1667/11858 [14:11<1:23:23,  2.04it/s] 14%|█▍        | 1668/11858 [14:12<1:23:15,  2.04it/s] 14%|█▍        | 1669/11858 [14:12<1:23:16,  2.04it/s] 14%|█▍        | 1670/11858 [14:13<1:23:21,  2.04it/s] 14%|█▍        | 1671/11858 [14:13<1:23:15,  2.04it/s] 14%|█▍        | 1672/11858 [14:14<1:23:13,  2.04it/s] 14%|█▍        | 1673/11858 [14:14<1:23:20,  2.04it/s] 14%|█▍        | 1674/11858 [14:15<1:23:19,  2.04it/s] 14%|█▍        | 1675/11858 [14:15<1:23:19,  2.04it/s]                                                      {'loss': 2.8687, 'grad_norm': 0.3486223518848419, 'learning_rate': 0.0009948285090916867, 'epoch': 1.98}
- 14%|█▍        | 1675/11858 [14:15<1:23:19,  2.04it/s] 14%|█▍        | 1676/11858 [14:16<1:23:26,  2.03it/s] 14%|█▍        | 1677/11858 [14:16<1:23:22,  2.04it/s] 14%|█▍        | 1678/11858 [14:17<1:23:17,  2.04it/s] 14%|█▍        | 1679/11858 [14:17<1:23:17,  2.04it/s] 14%|█▍        | 1680/11858 [14:18<1:23:13,  2.04it/s] 14%|█▍        | 1681/11858 [14:18<1:23:07,  2.04it/s] 14%|█▍        | 1682/11858 [14:18<1:23:15,  2.04it/s] 14%|█▍        | 1683/11858 [14:19<1:23:13,  2.04it/s] 14%|█▍        | 1684/11858 [14:19<1:23:06,  2.04it/s] 14%|█▍        | 1685/11858 [14:20<1:23:00,  2.04it/s] 14%|█▍        | 1686/11858 [14:20<1:23:01,  2.04it/s] 14%|█▍        | 1687/11858 [14:21<1:23:03,  2.04it/s] 14%|█▍        | 1688/11858 [14:21<1:23:01,  2.04it/s] 14%|█▍        | 1689/11858 [14:22<1:22:58,  2.04it/s] 14%|█▍        | 1690/11858 [14:22<1:23:04,  2.04it/s] 14%|█▍        | 1691/11858 [14:23<1:23:04,  2.04it/s] 14%|█▍        | 1692/11858 [14:23<1:23:05,  2.04it/s] 14%|█▍        | 1693/11858 [14:24<1:23:04,  2.04it/s] 14%|█▍        | 1694/11858 [14:24<1:23:04,  2.04it/s] 14%|█▍        | 1695/11858 [14:25<1:22:47,  2.05it/s] 14%|█▍        | 1696/11858 [14:37<11:10:42,  3.96s/it] 14%|█▍        | 1697/11858 [14:37<8:14:19,  2.92s/it]  14%|█▍        | 1698/11858 [14:38<6:10:51,  2.19s/it] 14%|█▍        | 1699/11858 [14:38<4:44:46,  1.68s/it] 14%|█▍        | 1700/11858 [14:39<3:44:08,  1.32s/it]                                                      {'loss': 2.8292, 'grad_norm': 0.3862043619155884, 'learning_rate': 0.000994287244789485, 'epoch': 2.01}
- 14%|█▍        | 1700/11858 [14:39<3:44:08,  1.32s/it] 14%|█▍        | 1701/11858 [14:39<3:01:52,  1.07s/it] 14%|█▍        | 1702/11858 [14:40<2:32:19,  1.11it/s] 14%|█▍        | 1703/11858 [14:40<2:11:30,  1.29it/s] 14%|█▍        | 1704/11858 [14:41<1:57:06,  1.45it/s] 14%|█▍        | 1705/11858 [14:41<1:46:53,  1.58it/s] 14%|█▍        | 1706/11858 [14:42<1:40:03,  1.69it/s] 14%|█▍        | 1707/11858 [14:42<1:34:53,  1.78it/s] 14%|█▍        | 1708/11858 [14:43<1:31:11,  1.86it/s] 14%|█▍        | 1709/11858 [14:43<1:28:49,  1.90it/s] 14%|█▍        | 1710/11858 [14:44<1:27:02,  1.94it/s] 14%|█▍        | 1711/11858 [14:44<1:25:45,  1.97it/s] 14%|█▍        | 1712/11858 [14:45<1:24:50,  1.99it/s] 14%|█▍        | 1713/11858 [14:45<1:24:19,  2.01it/s] 14%|█▍        | 1714/11858 [14:46<1:24:00,  2.01it/s] 14%|█▍        | 1715/11858 [14:46<1:23:45,  2.02it/s] 14%|█▍        | 1716/11858 [14:47<1:23:29,  2.02it/s] 14%|█▍        | 1717/11858 [14:47<1:23:18,  2.03it/s] 14%|█▍        | 1718/11858 [14:48<1:23:16,  2.03it/s] 14%|█▍        | 1719/11858 [14:48<1:23:08,  2.03it/s] 15%|█▍        | 1720/11858 [14:49<1:23:16,  2.03it/s] 15%|█▍        | 1721/11858 [14:49<1:23:12,  2.03it/s] 15%|█▍        | 1722/11858 [14:50<1:23:05,  2.03it/s] 15%|█▍        | 1723/11858 [14:50<1:23:08,  2.03it/s] 15%|█▍        | 1724/11858 [14:51<1:23:04,  2.03it/s] 15%|█▍        | 1725/11858 [14:51<1:22:56,  2.04it/s]                                                      {'loss': 2.7373, 'grad_norm': 0.37601858377456665, 'learning_rate': 0.0009937192094269423, 'epoch': 2.04}
- 15%|█▍        | 1725/11858 [14:51<1:22:56,  2.04it/s] 15%|█▍        | 1726/11858 [14:52<1:22:56,  2.04it/s] 15%|█▍        | 1727/11858 [14:52<1:22:53,  2.04it/s] 15%|█▍        | 1728/11858 [14:53<1:22:51,  2.04it/s] 15%|█▍        | 1729/11858 [14:53<1:22:45,  2.04it/s] 15%|█▍        | 1730/11858 [14:54<1:22:44,  2.04it/s] 15%|█▍        | 1731/11858 [14:54<1:22:45,  2.04it/s] 15%|█▍        | 1732/11858 [14:55<1:22:41,  2.04it/s] 15%|█▍        | 1733/11858 [14:55<1:22:40,  2.04it/s] 15%|█▍        | 1734/11858 [14:56<1:22:41,  2.04it/s] 15%|█▍        | 1735/11858 [14:56<1:22:38,  2.04it/s] 15%|█▍        | 1736/11858 [14:57<1:22:37,  2.04it/s] 15%|█▍        | 1737/11858 [14:57<1:22:38,  2.04it/s] 15%|█▍        | 1738/11858 [14:58<1:22:45,  2.04it/s] 15%|█▍        | 1739/11858 [14:58<1:22:40,  2.04it/s] 15%|█▍        | 1740/11858 [14:59<1:22:43,  2.04it/s] 15%|█▍        | 1741/11858 [14:59<1:22:47,  2.04it/s] 15%|█▍        | 1742/11858 [14:59<1:22:38,  2.04it/s] 15%|█▍        | 1743/11858 [15:00<1:22:37,  2.04it/s] 15%|█▍        | 1744/11858 [15:00<1:22:40,  2.04it/s] 15%|█▍        | 1745/11858 [15:01<1:22:37,  2.04it/s] 15%|█▍        | 1746/11858 [15:01<1:22:29,  2.04it/s] 15%|█▍        | 1747/11858 [15:02<1:22:34,  2.04it/s] 15%|█▍        | 1748/11858 [15:02<1:22:36,  2.04it/s] 15%|█▍        | 1749/11858 [15:03<1:22:31,  2.04it/s] 15%|█▍        | 1750/11858 [15:03<1:22:28,  2.04it/s]                                                      {'loss': 2.7202, 'grad_norm': 0.331308513879776, 'learning_rate': 0.0009931244337693854, 'epoch': 2.06}
- 15%|█▍        | 1750/11858 [15:03<1:22:28,  2.04it/s] 15%|█▍        | 1751/11858 [15:04<1:22:36,  2.04it/s] 15%|█▍        | 1752/11858 [15:04<1:22:34,  2.04it/s] 15%|█▍        | 1753/11858 [15:05<1:22:30,  2.04it/s] 15%|█▍        | 1754/11858 [15:05<1:22:25,  2.04it/s] 15%|█▍        | 1755/11858 [15:06<1:22:28,  2.04it/s] 15%|█▍        | 1756/11858 [15:06<1:22:26,  2.04it/s] 15%|█▍        | 1757/11858 [15:07<1:22:27,  2.04it/s] 15%|█▍        | 1758/11858 [15:07<1:22:29,  2.04it/s] 15%|█▍        | 1759/11858 [15:08<1:22:26,  2.04it/s] 15%|█▍        | 1760/11858 [15:08<1:22:26,  2.04it/s] 15%|█▍        | 1761/11858 [15:09<1:23:43,  2.01it/s] 15%|█▍        | 1762/11858 [15:09<1:23:23,  2.02it/s] 15%|█▍        | 1763/11858 [15:10<1:23:11,  2.02it/s] 15%|█▍        | 1764/11858 [15:10<1:22:56,  2.03it/s] 15%|█▍        | 1765/11858 [15:11<1:22:50,  2.03it/s] 15%|█▍        | 1766/11858 [15:11<1:22:48,  2.03it/s] 15%|█▍        | 1767/11858 [15:12<1:22:43,  2.03it/s] 15%|█▍        | 1768/11858 [15:12<1:22:39,  2.03it/s] 15%|█▍        | 1769/11858 [15:13<1:22:40,  2.03it/s] 15%|█▍        | 1770/11858 [15:13<1:22:37,  2.04it/s] 15%|█▍        | 1771/11858 [15:14<1:22:33,  2.04it/s] 15%|█▍        | 1772/11858 [15:14<1:22:31,  2.04it/s] 15%|█▍        | 1773/11858 [15:15<1:22:29,  2.04it/s] 15%|█▍        | 1774/11858 [15:15<1:22:26,  2.04it/s] 15%|█▍        | 1775/11858 [15:16<1:22:25,  2.04it/s]                                                      {'loss': 2.7148, 'grad_norm': 0.3444182574748993, 'learning_rate': 0.0009925029500304219, 'epoch': 2.09}
- 15%|█▍        | 1775/11858 [15:16<1:22:25,  2.04it/s] 15%|█▍        | 1776/11858 [15:16<1:22:27,  2.04it/s] 15%|█▍        | 1777/11858 [15:17<1:22:27,  2.04it/s] 15%|█▍        | 1778/11858 [15:17<1:22:23,  2.04it/s] 15%|█▌        | 1779/11858 [15:18<1:22:24,  2.04it/s] 15%|█▌        | 1780/11858 [15:18<1:22:28,  2.04it/s] 15%|█▌        | 1781/11858 [15:19<1:22:23,  2.04it/s] 15%|█▌        | 1782/11858 [15:19<1:22:21,  2.04it/s] 15%|█▌        | 1783/11858 [15:20<1:22:21,  2.04it/s] 15%|█▌        | 1784/11858 [15:20<1:22:24,  2.04it/s] 15%|█▌        | 1785/11858 [15:21<1:22:18,  2.04it/s] 15%|█▌        | 1786/11858 [15:21<1:22:18,  2.04it/s] 15%|█▌        | 1787/11858 [15:22<1:22:17,  2.04it/s] 15%|█▌        | 1788/11858 [15:22<1:22:16,  2.04it/s] 15%|█▌        | 1789/11858 [15:23<1:22:12,  2.04it/s] 15%|█▌        | 1790/11858 [15:23<1:22:12,  2.04it/s] 15%|█▌        | 1791/11858 [15:24<1:22:13,  2.04it/s] 15%|█▌        | 1792/11858 [15:24<1:22:14,  2.04it/s] 15%|█▌        | 1793/11858 [15:25<1:22:11,  2.04it/s] 15%|█▌        | 1794/11858 [15:25<1:22:07,  2.04it/s] 15%|█▌        | 1795/11858 [15:26<1:22:08,  2.04it/s] 15%|█▌        | 1796/11858 [15:26<1:22:10,  2.04it/s] 15%|█▌        | 1797/11858 [15:26<1:22:12,  2.04it/s] 15%|█▌        | 1798/11858 [15:27<1:22:13,  2.04it/s] 15%|█▌        | 1799/11858 [15:27<1:22:08,  2.04it/s] 15%|█▌        | 1800/11858 [15:28<1:22:10,  2.04it/s]                                                      {'loss': 2.7003, 'grad_norm': 0.3396002948284149, 'learning_rate': 0.0009918547918701932, 'epoch': 2.12}
- 15%|█▌        | 1800/11858 [15:28<1:22:10,  2.04it/s] 15%|█▌        | 1801/11858 [15:28<1:22:17,  2.04it/s] 15%|█▌        | 1802/11858 [15:29<1:22:15,  2.04it/s] 15%|█▌        | 1803/11858 [15:29<1:22:12,  2.04it/s] 15%|█▌        | 1804/11858 [15:30<1:22:04,  2.04it/s] 15%|█▌        | 1805/11858 [15:30<1:22:05,  2.04it/s] 15%|█▌        | 1806/11858 [15:31<1:22:06,  2.04it/s] 15%|█▌        | 1807/11858 [15:31<1:22:09,  2.04it/s] 15%|█▌        | 1808/11858 [15:32<1:22:02,  2.04it/s] 15%|█▌        | 1809/11858 [15:32<1:22:01,  2.04it/s] 15%|█▌        | 1810/11858 [15:33<1:22:04,  2.04it/s] 15%|█▌        | 1811/11858 [15:33<1:22:08,  2.04it/s] 15%|█▌        | 1812/11858 [15:34<1:22:07,  2.04it/s] 15%|█▌        | 1813/11858 [15:34<1:22:06,  2.04it/s] 15%|█▌        | 1814/11858 [15:35<1:22:06,  2.04it/s] 15%|█▌        | 1815/11858 [15:35<1:22:08,  2.04it/s] 15%|█▌        | 1816/11858 [15:36<1:22:02,  2.04it/s] 15%|█▌        | 1817/11858 [15:36<1:22:00,  2.04it/s] 15%|█▌        | 1818/11858 [15:37<1:22:00,  2.04it/s] 15%|█▌        | 1819/11858 [15:37<1:22:00,  2.04it/s] 15%|█▌        | 1820/11858 [15:38<1:22:00,  2.04it/s] 15%|█▌        | 1821/11858 [15:38<1:22:05,  2.04it/s] 15%|█▌        | 1822/11858 [15:39<1:22:09,  2.04it/s] 15%|█▌        | 1823/11858 [15:39<1:22:03,  2.04it/s] 15%|█▌        | 1824/11858 [15:40<1:22:02,  2.04it/s] 15%|█▌        | 1825/11858 [15:40<1:22:05,  2.04it/s]                                                      {'loss': 2.701, 'grad_norm': 0.33110299706459045, 'learning_rate': 0.0009911799943935528, 'epoch': 2.15}
- 15%|█▌        | 1825/11858 [15:40<1:22:05,  2.04it/s] 15%|█▌        | 1826/11858 [15:41<1:22:06,  2.04it/s] 15%|█▌        | 1827/11858 [15:41<1:22:05,  2.04it/s] 15%|█▌        | 1828/11858 [15:42<1:22:07,  2.04it/s] 15%|█▌        | 1829/11858 [15:42<1:21:58,  2.04it/s] 15%|█▌        | 1830/11858 [15:43<1:21:52,  2.04it/s] 15%|█▌        | 1831/11858 [15:43<1:21:52,  2.04it/s] 15%|█▌        | 1832/11858 [15:44<1:21:54,  2.04it/s] 15%|█▌        | 1833/11858 [15:44<1:21:51,  2.04it/s] 15%|█▌        | 1834/11858 [15:45<1:21:52,  2.04it/s] 15%|█▌        | 1835/11858 [15:45<1:21:53,  2.04it/s] 15%|█▌        | 1836/11858 [15:46<1:21:50,  2.04it/s] 15%|█▌        | 1837/11858 [15:46<1:21:46,  2.04it/s] 16%|█▌        | 1838/11858 [15:47<1:21:47,  2.04it/s] 16%|█▌        | 1839/11858 [15:47<1:21:52,  2.04it/s] 16%|█▌        | 1840/11858 [15:48<1:21:49,  2.04it/s] 16%|█▌        | 1841/11858 [15:48<1:21:49,  2.04it/s] 16%|█▌        | 1842/11858 [15:49<1:21:53,  2.04it/s] 16%|█▌        | 1843/11858 [15:49<1:21:50,  2.04it/s] 16%|█▌        | 1844/11858 [15:50<1:21:47,  2.04it/s] 16%|█▌        | 1845/11858 [15:50<1:21:45,  2.04it/s] 16%|█▌        | 1846/11858 [15:51<1:21:47,  2.04it/s] 16%|█▌        | 1847/11858 [15:51<1:21:44,  2.04it/s] 16%|█▌        | 1848/11858 [15:51<1:21:39,  2.04it/s] 16%|█▌        | 1849/11858 [15:52<1:21:40,  2.04it/s] 16%|█▌        | 1850/11858 [15:52<1:21:40,  2.04it/s]                                                      {'loss': 2.7048, 'grad_norm': 0.3403540551662445, 'learning_rate': 0.0009904785941481638, 'epoch': 2.18}
- 16%|█▌        | 1850/11858 [15:52<1:21:40,  2.04it/s] 16%|█▌        | 1851/11858 [15:53<1:21:43,  2.04it/s] 16%|█▌        | 1852/11858 [15:53<1:21:43,  2.04it/s] 16%|█▌        | 1853/11858 [15:54<1:21:47,  2.04it/s] 16%|█▌        | 1854/11858 [15:54<1:21:44,  2.04it/s] 16%|█▌        | 1855/11858 [15:55<1:21:40,  2.04it/s] 16%|█▌        | 1856/11858 [15:55<1:21:45,  2.04it/s] 16%|█▌        | 1857/11858 [15:56<1:21:47,  2.04it/s] 16%|█▌        | 1858/11858 [15:56<1:21:41,  2.04it/s] 16%|█▌        | 1859/11858 [15:57<1:21:43,  2.04it/s] 16%|█▌        | 1860/11858 [15:57<1:21:42,  2.04it/s] 16%|█▌        | 1861/11858 [15:58<1:21:40,  2.04it/s] 16%|█▌        | 1862/11858 [15:58<1:21:37,  2.04it/s] 16%|█▌        | 1863/11858 [15:59<1:21:41,  2.04it/s] 16%|█▌        | 1864/11858 [15:59<1:21:40,  2.04it/s] 16%|█▌        | 1865/11858 [16:00<1:21:39,  2.04it/s] 16%|█▌        | 1866/11858 [16:00<1:21:41,  2.04it/s] 16%|█▌        | 1867/11858 [16:01<1:21:42,  2.04it/s] 16%|█▌        | 1868/11858 [16:01<1:21:37,  2.04it/s] 16%|█▌        | 1869/11858 [16:02<1:21:37,  2.04it/s] 16%|█▌        | 1870/11858 [16:02<1:21:38,  2.04it/s] 16%|█▌        | 1871/11858 [16:03<1:21:40,  2.04it/s] 16%|█▌        | 1872/11858 [16:03<1:21:36,  2.04it/s] 16%|█▌        | 1873/11858 [16:04<1:21:39,  2.04it/s] 16%|█▌        | 1874/11858 [16:04<1:28:49,  1.87it/s] 16%|█▌        | 1875/11858 [16:05<1:26:39,  1.92it/s]                                                      {'loss': 2.7079, 'grad_norm': 0.36258453130722046, 'learning_rate': 0.0009897506291225214, 'epoch': 2.21}
- 16%|█▌        | 1875/11858 [16:05<1:26:39,  1.92it/s] 16%|█▌        | 1876/11858 [16:05<1:25:13,  1.95it/s] 16%|█▌        | 1877/11858 [16:06<1:24:06,  1.98it/s] 16%|█▌        | 1878/11858 [16:06<1:23:17,  2.00it/s] 16%|█▌        | 1879/11858 [16:07<1:22:51,  2.01it/s] 16%|█▌        | 1880/11858 [16:07<1:22:26,  2.02it/s] 16%|█▌        | 1881/11858 [16:08<1:22:08,  2.02it/s] 16%|█▌        | 1882/11858 [16:08<1:21:54,  2.03it/s] 16%|█▌        | 1883/11858 [16:09<1:22:31,  2.01it/s] 16%|█▌        | 1884/11858 [16:09<1:22:11,  2.02it/s] 16%|█▌        | 1885/11858 [16:10<1:22:04,  2.03it/s] 16%|█▌        | 1886/11858 [16:10<1:21:56,  2.03it/s] 16%|█▌        | 1887/11858 [16:11<1:21:49,  2.03it/s] 16%|█▌        | 1888/11858 [16:11<1:21:44,  2.03it/s] 16%|█▌        | 1889/11858 [16:12<1:21:34,  2.04it/s] 16%|█▌        | 1890/11858 [16:12<1:21:31,  2.04it/s] 16%|█▌        | 1891/11858 [16:13<1:21:33,  2.04it/s] 16%|█▌        | 1892/11858 [16:13<1:21:26,  2.04it/s] 16%|█▌        | 1893/11858 [16:14<1:21:24,  2.04it/s] 16%|█▌        | 1894/11858 [16:14<1:21:28,  2.04it/s] 16%|█▌        | 1895/11858 [16:15<1:21:25,  2.04it/s] 16%|█▌        | 1896/11858 [16:15<1:21:23,  2.04it/s] 16%|█▌        | 1897/11858 [16:16<1:21:21,  2.04it/s] 16%|█▌        | 1898/11858 [16:16<1:21:21,  2.04it/s] 16%|█▌        | 1899/11858 [16:17<1:21:19,  2.04it/s] 16%|█▌        | 1900/11858 [16:17<1:21:13,  2.04it/s]                                                      {'loss': 2.6761, 'grad_norm': 0.3664618730545044, 'learning_rate': 0.0009889961387438931, 'epoch': 2.24}
- 16%|█▌        | 1900/11858 [16:17<1:21:13,  2.04it/s] 16%|█▌        | 1901/11858 [16:18<1:28:18,  1.88it/s] 16%|█▌        | 1902/11858 [16:18<1:26:08,  1.93it/s] 16%|█▌        | 1903/11858 [16:19<1:24:40,  1.96it/s] 16%|█▌        | 1904/11858 [16:19<1:23:37,  1.98it/s] 16%|█▌        | 1905/11858 [16:20<1:23:00,  2.00it/s] 16%|█▌        | 1906/11858 [16:20<1:22:40,  2.01it/s] 16%|█▌        | 1907/11858 [16:21<1:22:12,  2.02it/s] 16%|█▌        | 1908/11858 [16:21<1:22:02,  2.02it/s] 16%|█▌        | 1909/11858 [16:22<1:21:51,  2.03it/s] 16%|█▌        | 1910/11858 [16:22<1:21:44,  2.03it/s] 16%|█▌        | 1911/11858 [16:23<1:21:38,  2.03it/s] 16%|█▌        | 1912/11858 [16:23<1:21:34,  2.03it/s] 16%|█▌        | 1913/11858 [16:24<1:21:32,  2.03it/s] 16%|█▌        | 1914/11858 [16:24<1:21:27,  2.03it/s] 16%|█▌        | 1915/11858 [16:25<1:21:22,  2.04it/s] 16%|█▌        | 1916/11858 [16:25<1:21:20,  2.04it/s] 16%|█▌        | 1917/11858 [16:26<1:21:24,  2.04it/s] 16%|█▌        | 1918/11858 [16:26<1:21:20,  2.04it/s] 16%|█▌        | 1919/11858 [16:27<1:21:17,  2.04it/s] 16%|█▌        | 1920/11858 [16:27<1:21:19,  2.04it/s] 16%|█▌        | 1921/11858 [16:28<1:21:16,  2.04it/s] 16%|█▌        | 1922/11858 [16:28<1:21:17,  2.04it/s] 16%|█▌        | 1923/11858 [16:29<1:21:20,  2.04it/s] 16%|█▌        | 1924/11858 [16:29<1:21:14,  2.04it/s] 16%|█▌        | 1925/11858 [16:30<1:21:12,  2.04it/s]{'loss': 2.6829, 'grad_norm': 0.3276558816432953, 'learning_rate': 0.0009882151638761847, 'epoch': 2.27}
-                                                       16%|█▌        | 1925/11858 [16:30<1:21:12,  2.04it/s] 16%|█▌        | 1926/11858 [16:30<1:21:22,  2.03it/s] 16%|█▋        | 1927/11858 [16:31<1:21:16,  2.04it/s] 16%|█▋        | 1928/11858 [16:31<1:21:16,  2.04it/s] 16%|█▋        | 1929/11858 [16:32<1:21:21,  2.03it/s] 16%|█▋        | 1930/11858 [16:32<1:21:15,  2.04it/s] 16%|█▋        | 1931/11858 [16:33<1:21:13,  2.04it/s] 16%|█▋        | 1932/11858 [16:33<1:21:11,  2.04it/s] 16%|█▋        | 1933/11858 [16:33<1:21:10,  2.04it/s] 16%|█▋        | 1934/11858 [16:34<1:21:11,  2.04it/s] 16%|█▋        | 1935/11858 [16:34<1:21:15,  2.04it/s] 16%|█▋        | 1936/11858 [16:35<1:21:11,  2.04it/s] 16%|█▋        | 1937/11858 [16:35<1:21:12,  2.04it/s] 16%|█▋        | 1938/11858 [16:36<1:21:14,  2.04it/s] 16%|█▋        | 1939/11858 [16:36<1:21:11,  2.04it/s] 16%|█▋        | 1940/11858 [16:37<1:21:12,  2.04it/s] 16%|█▋        | 1941/11858 [16:37<1:21:15,  2.03it/s] 16%|█▋        | 1942/11858 [16:38<1:21:15,  2.03it/s] 16%|█▋        | 1943/11858 [16:38<1:21:09,  2.04it/s] 16%|█▋        | 1944/11858 [16:39<1:21:07,  2.04it/s] 16%|█▋        | 1945/11858 [16:39<1:21:08,  2.04it/s] 16%|█▋        | 1946/11858 [16:40<1:21:07,  2.04it/s] 16%|█▋        | 1947/11858 [16:40<1:21:01,  2.04it/s] 16%|█▋        | 1948/11858 [16:41<1:20:57,  2.04it/s] 16%|█▋        | 1949/11858 [16:41<1:21:04,  2.04it/s] 16%|█▋        | 1950/11858 [16:42<1:21:03,  2.04it/s]{'loss': 2.6657, 'grad_norm': 0.34252214431762695, 'learning_rate': 0.0009874077468177273, 'epoch': 2.3}                                                      
- 16%|█▋        | 1950/11858 [16:42<1:21:03,  2.04it/s] 16%|█▋        | 1951/11858 [16:42<1:21:09,  2.03it/s] 16%|█▋        | 1952/11858 [16:43<1:21:12,  2.03it/s] 16%|█▋        | 1953/11858 [16:43<1:21:11,  2.03it/s] 16%|█▋        | 1954/11858 [16:44<1:21:06,  2.04it/s] 16%|█▋        | 1955/11858 [16:44<1:21:12,  2.03it/s] 16%|█▋        | 1956/11858 [16:45<1:21:05,  2.04it/s] 17%|█▋        | 1957/11858 [16:45<1:21:05,  2.03it/s] 17%|█▋        | 1958/11858 [16:46<1:21:04,  2.04it/s] 17%|█▋        | 1959/11858 [16:46<1:21:03,  2.04it/s] 17%|█▋        | 1960/11858 [16:47<1:21:04,  2.03it/s] 17%|█▋        | 1961/11858 [16:47<1:21:10,  2.03it/s] 17%|█▋        | 1962/11858 [16:48<1:21:02,  2.04it/s] 17%|█▋        | 1963/11858 [16:48<1:21:07,  2.03it/s] 17%|█▋        | 1964/11858 [16:49<1:21:04,  2.03it/s] 17%|█▋        | 1965/11858 [16:49<1:21:04,  2.03it/s] 17%|█▋        | 1966/11858 [16:50<1:21:03,  2.03it/s] 17%|█▋        | 1967/11858 [16:50<1:20:59,  2.04it/s] 17%|█▋        | 1968/11858 [16:51<1:20:56,  2.04it/s] 17%|█▋        | 1969/11858 [16:51<1:21:01,  2.03it/s] 17%|█▋        | 1970/11858 [16:52<1:20:54,  2.04it/s] 17%|█▋        | 1971/11858 [16:52<1:20:54,  2.04it/s] 17%|█▋        | 1972/11858 [16:53<1:21:01,  2.03it/s] 17%|█▋        | 1973/11858 [16:53<1:20:57,  2.04it/s] 17%|█▋        | 1974/11858 [16:54<1:21:00,  2.03it/s] 17%|█▋        | 1975/11858 [16:54<1:21:03,  2.03it/s]{'loss': 2.6685, 'grad_norm': 0.3139243423938751, 'learning_rate': 0.000986573931298985, 'epoch': 2.33}
-                                                       17%|█▋        | 1975/11858 [16:54<1:21:03,  2.03it/s] 17%|█▋        | 1976/11858 [16:55<1:21:06,  2.03it/s] 17%|█▋        | 1977/11858 [16:55<1:21:06,  2.03it/s] 17%|█▋        | 1978/11858 [16:56<1:21:02,  2.03it/s] 17%|█▋        | 1979/11858 [16:56<1:21:01,  2.03it/s] 17%|█▋        | 1980/11858 [16:57<1:21:04,  2.03it/s] 17%|█▋        | 1981/11858 [16:57<1:20:57,  2.03it/s] 17%|█▋        | 1982/11858 [16:58<1:20:59,  2.03it/s] 17%|█▋        | 1983/11858 [16:58<1:21:00,  2.03it/s] 17%|█▋        | 1984/11858 [16:59<1:20:55,  2.03it/s] 17%|█▋        | 1985/11858 [16:59<1:20:58,  2.03it/s] 17%|█▋        | 1986/11858 [17:00<1:20:59,  2.03it/s] 17%|█▋        | 1987/11858 [17:00<1:20:58,  2.03it/s] 17%|█▋        | 1988/11858 [17:01<1:20:59,  2.03it/s] 17%|█▋        | 1989/11858 [17:01<1:20:57,  2.03it/s] 17%|█▋        | 1990/11858 [17:02<1:20:57,  2.03it/s] 17%|█▋        | 1991/11858 [17:02<1:20:53,  2.03it/s] 17%|█▋        | 1992/11858 [17:02<1:20:49,  2.03it/s] 17%|█▋        | 1993/11858 [17:03<1:20:51,  2.03it/s] 17%|█▋        | 1994/11858 [17:03<1:20:53,  2.03it/s] 17%|█▋        | 1995/11858 [17:04<1:20:56,  2.03it/s] 17%|█▋        | 1996/11858 [17:04<1:20:50,  2.03it/s] 17%|█▋        | 1997/11858 [17:05<1:20:52,  2.03it/s] 17%|█▋        | 1998/11858 [17:05<1:20:52,  2.03it/s] 17%|█▋        | 1999/11858 [17:06<1:20:47,  2.03it/s] 17%|█▋        | 2000/11858 [17:06<1:20:45,  2.03it/s]{'loss': 2.6808, 'grad_norm': 0.31892910599708557, 'learning_rate': 0.0009857137624801878, 'epoch': 2.36}
-                                                       17%|█▋        | 2000/11858 [17:06<1:20:45,  2.03it/s] 17%|█▋        | 2001/11858 [17:07<1:20:51,  2.03it/s] 17%|█▋        | 2002/11858 [17:07<1:20:49,  2.03it/s] 17%|█▋        | 2003/11858 [17:08<1:20:51,  2.03it/s] 17%|█▋        | 2004/11858 [17:08<1:20:45,  2.03it/s] 17%|█▋        | 2005/11858 [17:09<1:20:39,  2.04it/s] 17%|█▋        | 2006/11858 [17:09<1:20:45,  2.03it/s] 17%|█▋        | 2007/11858 [17:10<1:20:39,  2.04it/s] 17%|█▋        | 2008/11858 [17:10<1:20:39,  2.04it/s] 17%|█▋        | 2009/11858 [17:11<1:20:46,  2.03it/s] 17%|█▋        | 2010/11858 [17:11<1:20:43,  2.03it/s] 17%|█▋        | 2011/11858 [17:12<1:20:45,  2.03it/s] 17%|█▋        | 2012/11858 [17:12<1:20:44,  2.03it/s] 17%|█▋        | 2013/11858 [17:13<1:20:38,  2.03it/s] 17%|█▋        | 2014/11858 [17:13<1:20:40,  2.03it/s] 17%|█▋        | 2015/11858 [17:14<1:20:42,  2.03it/s] 17%|█▋        | 2016/11858 [17:14<1:20:36,  2.03it/s] 17%|█▋        | 2017/11858 [17:15<1:20:42,  2.03it/s] 17%|█▋        | 2018/11858 [17:15<1:20:37,  2.03it/s] 17%|█▋        | 2019/11858 [17:16<1:20:38,  2.03it/s] 17%|█▋        | 2020/11858 [17:16<1:20:39,  2.03it/s] 17%|█▋        | 2021/11858 [17:17<1:20:39,  2.03it/s] 17%|█▋        | 2022/11858 [17:17<1:20:39,  2.03it/s] 17%|█▋        | 2023/11858 [17:18<1:20:41,  2.03it/s] 17%|█▋        | 2024/11858 [17:18<1:20:39,  2.03it/s] 17%|█▋        | 2025/11858 [17:19<1:20:40,  2.03it/s]{'loss': 2.6295, 'grad_norm': 0.335833877325058, 'learning_rate': 0.0009848272869488848, 'epoch': 2.39}
-                                                       17%|█▋        | 2025/11858 [17:19<1:20:40,  2.03it/s] 17%|█▋        | 2026/11858 [17:19<1:20:44,  2.03it/s] 17%|█▋        | 2027/11858 [17:20<1:20:37,  2.03it/s] 17%|█▋        | 2028/11858 [17:20<1:20:34,  2.03it/s] 17%|█▋        | 2029/11858 [17:21<1:20:32,  2.03it/s] 17%|█▋        | 2030/11858 [17:21<1:20:26,  2.04it/s] 17%|█▋        | 2031/11858 [17:22<1:20:27,  2.04it/s] 17%|█▋        | 2032/11858 [17:22<1:20:29,  2.03it/s] 17%|█▋        | 2033/11858 [17:23<1:20:29,  2.03it/s] 17%|█▋        | 2034/11858 [17:23<1:20:37,  2.03it/s] 17%|█▋        | 2035/11858 [17:24<1:20:34,  2.03it/s] 17%|█▋        | 2036/11858 [17:24<1:20:35,  2.03it/s] 17%|█▋        | 2037/11858 [17:25<1:20:31,  2.03it/s] 17%|█▋        | 2038/11858 [17:25<1:20:34,  2.03it/s] 17%|█▋        | 2039/11858 [17:26<1:20:34,  2.03it/s] 17%|█▋        | 2040/11858 [17:26<1:20:30,  2.03it/s] 17%|█▋        | 2041/11858 [17:27<1:20:29,  2.03it/s] 17%|█▋        | 2042/11858 [17:27<1:20:30,  2.03it/s] 17%|█▋        | 2043/11858 [17:28<1:20:31,  2.03it/s] 17%|█▋        | 2044/11858 [17:28<1:20:33,  2.03it/s] 17%|█▋        | 2045/11858 [17:29<1:20:29,  2.03it/s] 17%|█▋        | 2046/11858 [17:29<1:20:27,  2.03it/s] 17%|█▋        | 2047/11858 [17:30<1:20:29,  2.03it/s] 17%|█▋        | 2048/11858 [17:30<1:20:27,  2.03it/s] 17%|█▋        | 2049/11858 [17:31<1:20:31,  2.03it/s] 17%|█▋        | 2050/11858 [17:31<1:20:25,  2.03it/s]{'loss': 2.6529, 'grad_norm': 0.336437851190567, 'learning_rate': 0.0009839145527174215, 'epoch': 2.42}
-                                                       17%|█▋        | 2050/11858 [17:31<1:20:25,  2.03it/s] 17%|█▋        | 2051/11858 [17:32<1:20:33,  2.03it/s] 17%|█▋        | 2052/11858 [17:32<1:20:31,  2.03it/s] 17%|█▋        | 2053/11858 [17:33<1:20:23,  2.03it/s] 17%|█▋        | 2054/11858 [17:33<1:20:23,  2.03it/s] 17%|█▋        | 2055/11858 [17:33<1:20:21,  2.03it/s] 17%|█▋        | 2056/11858 [17:34<1:20:20,  2.03it/s] 17%|█▋        | 2057/11858 [17:34<1:20:21,  2.03it/s] 17%|█▋        | 2058/11858 [17:35<1:20:18,  2.03it/s] 17%|█▋        | 2059/11858 [17:35<1:20:13,  2.04it/s] 17%|█▋        | 2060/11858 [17:36<1:20:18,  2.03it/s] 17%|█▋        | 2061/11858 [17:36<1:20:13,  2.04it/s] 17%|█▋        | 2062/11858 [17:37<1:20:08,  2.04it/s] 17%|█▋        | 2063/11858 [17:37<1:20:13,  2.04it/s] 17%|█▋        | 2064/11858 [17:38<1:20:11,  2.04it/s] 17%|█▋        | 2065/11858 [17:38<1:20:05,  2.04it/s] 17%|█▋        | 2066/11858 [17:39<1:20:11,  2.03it/s] 17%|█▋        | 2067/11858 [17:39<1:20:13,  2.03it/s] 17%|█▋        | 2068/11858 [17:40<1:20:12,  2.03it/s] 17%|█▋        | 2069/11858 [17:40<1:20:19,  2.03it/s] 17%|█▋        | 2070/11858 [17:41<1:20:18,  2.03it/s] 17%|█▋        | 2071/11858 [17:41<1:20:16,  2.03it/s] 17%|█▋        | 2072/11858 [17:42<1:20:12,  2.03it/s] 17%|█▋        | 2073/11858 [17:42<1:20:08,  2.03it/s] 17%|█▋        | 2074/11858 [17:43<1:20:06,  2.04it/s] 17%|█▋        | 2075/11858 [17:43<1:20:11,  2.03it/s]{'loss': 2.6325, 'grad_norm': 0.31574690341949463, 'learning_rate': 0.000982975609220339, 'epoch': 2.45}
-                                                       17%|█▋        | 2075/11858 [17:43<1:20:11,  2.03it/s] 18%|█▊        | 2076/11858 [17:44<1:20:12,  2.03it/s] 18%|█▊        | 2077/11858 [17:44<1:20:11,  2.03it/s] 18%|█▊        | 2078/11858 [17:45<1:20:13,  2.03it/s] 18%|█▊        | 2079/11858 [17:45<1:20:07,  2.03it/s] 18%|█▊        | 2080/11858 [17:46<1:20:08,  2.03it/s] 18%|█▊        | 2081/11858 [17:46<1:20:11,  2.03it/s] 18%|█▊        | 2082/11858 [17:47<1:20:09,  2.03it/s] 18%|█▊        | 2083/11858 [17:47<1:20:07,  2.03it/s] 18%|█▊        | 2084/11858 [17:48<1:20:12,  2.03it/s] 18%|█▊        | 2085/11858 [17:48<1:20:11,  2.03it/s] 18%|█▊        | 2086/11858 [17:49<1:20:08,  2.03it/s] 18%|█▊        | 2087/11858 [17:49<1:20:03,  2.03it/s] 18%|█▊        | 2088/11858 [17:50<1:20:03,  2.03it/s] 18%|█▊        | 2089/11858 [17:50<1:20:06,  2.03it/s] 18%|█▊        | 2090/11858 [17:51<1:20:09,  2.03it/s] 18%|█▊        | 2091/11858 [17:51<1:20:09,  2.03it/s] 18%|█▊        | 2092/11858 [17:52<1:20:05,  2.03it/s] 18%|█▊        | 2093/11858 [17:52<1:20:08,  2.03it/s] 18%|█▊        | 2094/11858 [17:53<1:20:07,  2.03it/s] 18%|█▊        | 2095/11858 [17:53<1:20:03,  2.03it/s] 18%|█▊        | 2096/11858 [17:54<1:20:06,  2.03it/s] 18%|█▊        | 2097/11858 [17:54<1:20:06,  2.03it/s] 18%|█▊        | 2098/11858 [17:55<1:20:09,  2.03it/s] 18%|█▊        | 2099/11858 [17:55<1:20:08,  2.03it/s] 18%|█▊        | 2100/11858 [17:56<1:20:02,  2.03it/s]{'loss': 2.635, 'grad_norm': 0.3461337685585022, 'learning_rate': 0.0009820105073116972, 'epoch': 2.48}
-                                                       18%|█▊        | 2100/11858 [17:56<1:20:02,  2.03it/s] 18%|█▊        | 2101/11858 [17:56<1:20:14,  2.03it/s] 18%|█▊        | 2102/11858 [17:57<1:20:11,  2.03it/s] 18%|█▊        | 2103/11858 [17:57<1:20:09,  2.03it/s] 18%|█▊        | 2104/11858 [17:58<1:20:02,  2.03it/s] 18%|█▊        | 2105/11858 [17:58<1:20:06,  2.03it/s] 18%|█▊        | 2106/11858 [17:59<1:20:01,  2.03it/s] 18%|█▊        | 2107/11858 [17:59<1:20:02,  2.03it/s] 18%|█▊        | 2108/11858 [18:00<1:20:00,  2.03it/s] 18%|█▊        | 2109/11858 [18:00<1:19:57,  2.03it/s] 18%|█▊        | 2110/11858 [18:01<1:20:02,  2.03it/s] 18%|█▊        | 2111/11858 [18:01<1:19:54,  2.03it/s] 18%|█▊        | 2112/11858 [18:02<1:19:53,  2.03it/s] 18%|█▊        | 2113/11858 [18:02<1:19:56,  2.03it/s] 18%|█▊        | 2114/11858 [18:03<1:19:49,  2.03it/s] 18%|█▊        | 2115/11858 [18:03<1:19:49,  2.03it/s] 18%|█▊        | 2116/11858 [18:04<1:19:52,  2.03it/s] 18%|█▊        | 2117/11858 [18:04<1:19:49,  2.03it/s] 18%|█▊        | 2118/11858 [18:04<1:19:54,  2.03it/s] 18%|█▊        | 2119/11858 [18:05<1:19:51,  2.03it/s] 18%|█▊        | 2120/11858 [18:05<1:19:46,  2.03it/s] 18%|█▊        | 2121/11858 [18:06<1:19:50,  2.03it/s] 18%|█▊        | 2122/11858 [18:06<1:19:46,  2.03it/s] 18%|█▊        | 2123/11858 [18:07<1:19:54,  2.03it/s] 18%|█▊        | 2124/11858 [18:07<1:19:47,  2.03it/s] 18%|█▊        | 2125/11858 [18:08<1:19:45,  2.03it/s]                                                      {'loss': 2.6258, 'grad_norm': 0.3130723237991333, 'learning_rate': 0.0009810192992623194, 'epoch': 2.51}
- 18%|█▊        | 2125/11858 [18:08<1:19:45,  2.03it/s] 18%|█▊        | 2126/11858 [18:08<1:19:54,  2.03it/s] 18%|█▊        | 2127/11858 [18:09<1:19:48,  2.03it/s] 18%|█▊        | 2128/11858 [18:09<1:19:51,  2.03it/s] 18%|█▊        | 2129/11858 [18:10<1:19:48,  2.03it/s] 18%|█▊        | 2130/11858 [18:10<1:19:42,  2.03it/s] 18%|█▊        | 2131/11858 [18:11<1:19:44,  2.03it/s] 18%|█▊        | 2132/11858 [18:11<1:19:44,  2.03it/s] 18%|█▊        | 2133/11858 [18:12<1:19:40,  2.03it/s] 18%|█▊        | 2134/11858 [18:12<1:19:43,  2.03it/s] 18%|█▊        | 2135/11858 [18:13<1:19:39,  2.03it/s] 18%|█▊        | 2136/11858 [18:13<1:19:36,  2.04it/s] 18%|█▊        | 2137/11858 [18:14<1:19:39,  2.03it/s] 18%|█▊        | 2138/11858 [18:14<1:19:38,  2.03it/s] 18%|█▊        | 2139/11858 [18:15<1:19:37,  2.03it/s] 18%|█▊        | 2140/11858 [18:15<1:19:39,  2.03it/s] 18%|█▊        | 2141/11858 [18:16<1:19:38,  2.03it/s] 18%|█▊        | 2142/11858 [18:16<1:19:40,  2.03it/s] 18%|█▊        | 2143/11858 [18:17<1:19:38,  2.03it/s] 18%|█▊        | 2144/11858 [18:17<1:19:40,  2.03it/s] 18%|█▊        | 2145/11858 [18:18<1:19:43,  2.03it/s] 18%|█▊        | 2146/11858 [18:18<1:19:40,  2.03it/s] 18%|█▊        | 2147/11858 [18:19<1:19:45,  2.03it/s] 18%|█▊        | 2148/11858 [18:19<1:19:44,  2.03it/s] 18%|█▊        | 2149/11858 [18:20<1:19:38,  2.03it/s] 18%|█▊        | 2150/11858 [18:20<1:19:38,  2.03it/s]{'loss': 2.6194, 'grad_norm': 0.38636255264282227, 'learning_rate': 0.000980002038756963, 'epoch': 2.54}
-                                                       18%|█▊        | 2150/11858 [18:20<1:19:38,  2.03it/s] 18%|█▊        | 2151/11858 [18:21<1:19:39,  2.03it/s] 18%|█▊        | 2152/11858 [18:21<1:19:39,  2.03it/s] 18%|█▊        | 2153/11858 [18:22<1:19:38,  2.03it/s] 18%|█▊        | 2154/11858 [18:22<1:19:36,  2.03it/s] 18%|█▊        | 2155/11858 [18:23<1:19:41,  2.03it/s] 18%|█▊        | 2156/11858 [18:23<1:19:34,  2.03it/s] 18%|█▊        | 2157/11858 [18:24<1:19:35,  2.03it/s] 18%|█▊        | 2158/11858 [18:24<1:19:35,  2.03it/s] 18%|█▊        | 2159/11858 [18:25<1:19:29,  2.03it/s] 18%|█▊        | 2160/11858 [18:25<1:19:30,  2.03it/s] 18%|█▊        | 2161/11858 [18:26<1:19:32,  2.03it/s] 18%|█▊        | 2162/11858 [18:26<1:19:25,  2.03it/s] 18%|█▊        | 2163/11858 [18:27<1:19:26,  2.03it/s] 18%|█▊        | 2164/11858 [18:27<1:19:29,  2.03it/s] 18%|█▊        | 2165/11858 [18:28<1:19:26,  2.03it/s] 18%|█▊        | 2166/11858 [18:28<1:19:29,  2.03it/s] 18%|█▊        | 2167/11858 [18:29<1:19:27,  2.03it/s] 18%|█▊        | 2168/11858 [18:29<1:19:28,  2.03it/s] 18%|█▊        | 2169/11858 [18:30<1:19:27,  2.03it/s] 18%|█▊        | 2170/11858 [18:30<1:19:27,  2.03it/s] 18%|█▊        | 2171/11858 [18:31<1:19:24,  2.03it/s] 18%|█▊        | 2172/11858 [18:31<1:19:25,  2.03it/s] 18%|█▊        | 2173/11858 [18:32<1:19:28,  2.03it/s] 18%|█▊        | 2174/11858 [18:32<1:19:29,  2.03it/s] 18%|█▊        | 2175/11858 [18:33<1:19:28,  2.03it/s]{'loss': 2.5974, 'grad_norm': 0.32648977637290955, 'learning_rate': 0.0009789587808914093, 'epoch': 2.57}
-                                                       18%|█▊        | 2175/11858 [18:33<1:19:28,  2.03it/s] 18%|█▊        | 2176/11858 [18:33<1:19:38,  2.03it/s] 18%|█▊        | 2177/11858 [18:34<1:19:33,  2.03it/s] 18%|█▊        | 2178/11858 [18:34<1:19:30,  2.03it/s] 18%|█▊        | 2179/11858 [18:35<1:19:24,  2.03it/s] 18%|█▊        | 2180/11858 [18:35<1:19:16,  2.03it/s] 18%|█▊        | 2181/11858 [18:35<1:19:16,  2.03it/s] 18%|█▊        | 2182/11858 [18:36<1:19:11,  2.04it/s] 18%|█▊        | 2183/11858 [18:36<1:19:04,  2.04it/s] 18%|█▊        | 2184/11858 [18:37<1:19:00,  2.04it/s] 18%|█▊        | 2185/11858 [18:37<1:19:00,  2.04it/s] 18%|█▊        | 2186/11858 [18:38<1:19:01,  2.04it/s] 18%|█▊        | 2187/11858 [18:38<1:18:58,  2.04it/s] 18%|█▊        | 2188/11858 [18:39<1:19:04,  2.04it/s] 18%|█▊        | 2189/11858 [18:39<1:19:04,  2.04it/s] 18%|█▊        | 2190/11858 [18:40<1:19:01,  2.04it/s] 18%|█▊        | 2191/11858 [18:40<1:18:59,  2.04it/s] 18%|█▊        | 2192/11858 [18:41<1:19:03,  2.04it/s] 18%|█▊        | 2193/11858 [18:41<1:19:00,  2.04it/s] 19%|█▊        | 2194/11858 [18:42<1:18:56,  2.04it/s] 19%|█▊        | 2195/11858 [18:42<1:18:56,  2.04it/s] 19%|█▊        | 2196/11858 [18:43<1:18:59,  2.04it/s] 19%|█▊        | 2197/11858 [18:43<1:18:57,  2.04it/s] 19%|█▊        | 2198/11858 [18:44<1:18:56,  2.04it/s] 19%|█▊        | 2199/11858 [18:44<1:18:58,  2.04it/s] 19%|█▊        | 2200/11858 [18:45<1:18:58,  2.04it/s]{'loss': 2.5993, 'grad_norm': 0.4125913381576538, 'learning_rate': 0.0009778895821694826, 'epoch': 2.6}
-                                                       19%|█▊        | 2200/11858 [18:45<1:18:58,  2.04it/s] 19%|█▊        | 2201/11858 [18:45<1:19:01,  2.04it/s] 19%|█▊        | 2202/11858 [18:46<1:19:03,  2.04it/s] 19%|█▊        | 2203/11858 [18:46<1:19:03,  2.04it/s] 19%|█▊        | 2204/11858 [18:47<1:19:02,  2.04it/s] 19%|█▊        | 2205/11858 [18:47<1:19:02,  2.04it/s] 19%|█▊        | 2206/11858 [18:48<1:18:54,  2.04it/s] 19%|█▊        | 2207/11858 [18:48<1:18:52,  2.04it/s] 19%|█▊        | 2208/11858 [18:49<1:18:52,  2.04it/s] 19%|█▊        | 2209/11858 [18:49<1:18:55,  2.04it/s] 19%|█▊        | 2210/11858 [18:50<1:18:53,  2.04it/s] 19%|█▊        | 2211/11858 [18:50<1:18:51,  2.04it/s] 19%|█▊        | 2212/11858 [18:51<1:18:54,  2.04it/s] 19%|█▊        | 2213/11858 [18:51<1:18:55,  2.04it/s] 19%|█▊        | 2214/11858 [18:52<1:18:50,  2.04it/s] 19%|█▊        | 2215/11858 [18:52<1:18:49,  2.04it/s] 19%|█▊        | 2216/11858 [18:53<1:18:54,  2.04it/s] 19%|█▊        | 2217/11858 [18:53<1:18:55,  2.04it/s] 19%|█▊        | 2218/11858 [18:54<1:18:51,  2.04it/s] 19%|█▊        | 2219/11858 [18:54<1:18:54,  2.04it/s] 19%|█▊        | 2220/11858 [18:55<1:18:54,  2.04it/s] 19%|█▊        | 2221/11858 [18:55<1:18:51,  2.04it/s] 19%|█▊        | 2222/11858 [18:56<1:18:46,  2.04it/s] 19%|█▊        | 2223/11858 [18:56<1:18:51,  2.04it/s] 19%|█▉        | 2224/11858 [18:57<1:18:49,  2.04it/s] 19%|█▉        | 2225/11858 [18:57<1:18:45,  2.04it/s]{'loss': 2.598, 'grad_norm': 0.32152265310287476, 'learning_rate': 0.0009767945004999872, 'epoch': 2.63}                                                      
- 19%|█▉        | 2225/11858 [18:57<1:18:45,  2.04it/s] 19%|█▉        | 2226/11858 [18:58<1:18:54,  2.03it/s] 19%|█▉        | 2227/11858 [18:58<1:18:53,  2.03it/s] 19%|█▉        | 2228/11858 [18:59<1:18:52,  2.03it/s] 19%|█▉        | 2229/11858 [18:59<1:18:55,  2.03it/s] 19%|█▉        | 2230/11858 [19:00<1:18:54,  2.03it/s] 19%|█▉        | 2231/11858 [19:00<1:18:54,  2.03it/s] 19%|█▉        | 2232/11858 [19:01<1:18:55,  2.03it/s] 19%|█▉        | 2233/11858 [19:01<1:18:47,  2.04it/s] 19%|█▉        | 2234/11858 [19:01<1:18:45,  2.04it/s] 19%|█▉        | 2235/11858 [19:02<1:18:48,  2.03it/s] 19%|█▉        | 2236/11858 [19:02<1:18:43,  2.04it/s] 19%|█▉        | 2237/11858 [19:03<1:18:40,  2.04it/s] 19%|█▉        | 2238/11858 [19:03<1:18:43,  2.04it/s] 19%|█▉        | 2239/11858 [19:04<1:18:42,  2.04it/s] 19%|█▉        | 2240/11858 [19:04<1:18:36,  2.04it/s] 19%|█▉        | 2241/11858 [19:05<1:18:35,  2.04it/s] 19%|█▉        | 2242/11858 [19:05<1:18:40,  2.04it/s] 19%|█▉        | 2243/11858 [19:06<1:18:35,  2.04it/s] 19%|█▉        | 2244/11858 [19:06<1:18:37,  2.04it/s] 19%|█▉        | 2245/11858 [19:07<1:18:39,  2.04it/s] 19%|█▉        | 2246/11858 [19:07<1:18:36,  2.04it/s] 19%|█▉        | 2247/11858 [19:08<1:18:37,  2.04it/s] 19%|█▉        | 2248/11858 [19:08<1:18:42,  2.04it/s] 19%|█▉        | 2249/11858 [19:09<1:18:36,  2.04it/s] 19%|█▉        | 2250/11858 [19:09<1:18:36,  2.04it/s]{'loss': 2.5884, 'grad_norm': 0.33422932028770447, 'learning_rate': 0.0009756735951935724, 'epoch': 2.65}
-                                                       19%|█▉        | 2250/11858 [19:09<1:18:36,  2.04it/s] 19%|█▉        | 2251/11858 [19:10<1:18:41,  2.03it/s] 19%|█▉        | 2252/11858 [19:10<1:18:36,  2.04it/s] 19%|█▉        | 2253/11858 [19:11<1:18:36,  2.04it/s] 19%|█▉        | 2254/11858 [19:11<1:18:39,  2.03it/s] 19%|█▉        | 2255/11858 [19:12<1:18:31,  2.04it/s] 19%|█▉        | 2256/11858 [19:12<1:18:29,  2.04it/s] 19%|█▉        | 2257/11858 [19:13<1:18:32,  2.04it/s] 19%|█▉        | 2258/11858 [19:13<1:18:36,  2.04it/s] 19%|█▉        | 2259/11858 [19:14<1:18:39,  2.03it/s] 19%|█▉        | 2260/11858 [19:14<1:18:35,  2.04it/s] 19%|█▉        | 2261/11858 [19:15<1:18:34,  2.04it/s] 19%|█▉        | 2262/11858 [19:15<1:18:28,  2.04it/s] 19%|█▉        | 2263/11858 [19:16<1:18:29,  2.04it/s] 19%|█▉        | 2264/11858 [19:16<1:18:29,  2.04it/s] 19%|█▉        | 2265/11858 [19:17<1:18:27,  2.04it/s] 19%|█▉        | 2266/11858 [19:17<1:18:26,  2.04it/s] 19%|█▉        | 2267/11858 [19:18<1:18:29,  2.04it/s] 19%|█▉        | 2268/11858 [19:18<1:18:26,  2.04it/s] 19%|█▉        | 2269/11858 [19:19<1:18:26,  2.04it/s] 19%|█▉        | 2270/11858 [19:19<1:18:25,  2.04it/s] 19%|█▉        | 2271/11858 [19:20<1:18:24,  2.04it/s] 19%|█▉        | 2272/11858 [19:20<1:18:26,  2.04it/s] 19%|█▉        | 2273/11858 [19:21<1:18:22,  2.04it/s] 19%|█▉        | 2274/11858 [19:21<1:18:20,  2.04it/s] 19%|█▉        | 2275/11858 [19:22<1:18:19,  2.04it/s]{'loss': 2.5859, 'grad_norm': 0.3365059196949005, 'learning_rate': 0.0009745269269595203, 'epoch': 2.68}
-                                                       19%|█▉        | 2275/11858 [19:22<1:18:19,  2.04it/s] 19%|█▉        | 2276/11858 [19:22<1:18:25,  2.04it/s] 19%|█▉        | 2277/11858 [19:23<1:18:26,  2.04it/s] 19%|█▉        | 2278/11858 [19:23<1:18:29,  2.03it/s] 19%|█▉        | 2279/11858 [19:24<1:18:24,  2.04it/s] 19%|█▉        | 2280/11858 [19:24<1:18:27,  2.03it/s] 19%|█▉        | 2281/11858 [19:25<1:18:27,  2.03it/s] 19%|█▉        | 2282/11858 [19:25<1:18:24,  2.04it/s] 19%|█▉        | 2283/11858 [19:26<1:18:24,  2.04it/s] 19%|█▉        | 2284/11858 [19:26<1:18:27,  2.03it/s] 19%|█▉        | 2285/11858 [19:27<1:18:24,  2.04it/s] 19%|█▉        | 2286/11858 [19:27<1:18:26,  2.03it/s] 19%|█▉        | 2287/11858 [19:28<1:18:25,  2.03it/s] 19%|█▉        | 2288/11858 [19:28<1:18:18,  2.04it/s] 19%|█▉        | 2289/11858 [19:29<1:18:15,  2.04it/s] 19%|█▉        | 2290/11858 [19:29<1:18:15,  2.04it/s] 19%|█▉        | 2291/11858 [19:29<1:18:11,  2.04it/s] 19%|█▉        | 2292/11858 [19:30<1:18:05,  2.04it/s] 19%|█▉        | 2293/11858 [19:30<1:18:02,  2.04it/s] 19%|█▉        | 2294/11858 [19:31<1:18:11,  2.04it/s] 19%|█▉        | 2295/11858 [19:31<1:18:11,  2.04it/s] 19%|█▉        | 2296/11858 [19:32<1:18:04,  2.04it/s] 19%|█▉        | 2297/11858 [19:32<1:18:04,  2.04it/s] 19%|█▉        | 2298/11858 [19:33<1:18:07,  2.04it/s] 19%|█▉        | 2299/11858 [19:33<1:18:04,  2.04it/s] 19%|█▉        | 2300/11858 [19:34<1:18:00,  2.04it/s]{'loss': 2.5823, 'grad_norm': 0.3211614489555359, 'learning_rate': 0.0009733545579024565, 'epoch': 2.71}                                                      
- 19%|█▉        | 2300/11858 [19:34<1:18:00,  2.04it/s] 19%|█▉        | 2301/11858 [19:34<1:18:10,  2.04it/s] 19%|█▉        | 2302/11858 [19:35<1:18:09,  2.04it/s] 19%|█▉        | 2303/11858 [19:35<1:18:05,  2.04it/s] 19%|█▉        | 2304/11858 [19:36<1:18:00,  2.04it/s] 19%|█▉        | 2305/11858 [19:36<1:18:02,  2.04it/s] 19%|█▉        | 2306/11858 [19:37<1:18:03,  2.04it/s] 19%|█▉        | 2307/11858 [19:37<1:18:01,  2.04it/s] 19%|█▉        | 2308/11858 [19:38<1:18:02,  2.04it/s] 19%|█▉        | 2309/11858 [19:38<1:18:03,  2.04it/s] 19%|█▉        | 2310/11858 [19:39<1:18:04,  2.04it/s] 19%|█▉        | 2311/11858 [19:39<1:17:58,  2.04it/s] 19%|█▉        | 2312/11858 [19:40<1:18:01,  2.04it/s] 20%|█▉        | 2313/11858 [19:40<1:18:00,  2.04it/s] 20%|█▉        | 2314/11858 [19:41<1:17:57,  2.04it/s] 20%|█▉        | 2315/11858 [19:41<1:17:54,  2.04it/s] 20%|█▉        | 2316/11858 [19:42<1:17:55,  2.04it/s] 20%|█▉        | 2317/11858 [19:42<1:17:54,  2.04it/s] 20%|█▉        | 2318/11858 [19:43<1:17:50,  2.04it/s] 20%|█▉        | 2319/11858 [19:43<1:17:53,  2.04it/s] 20%|█▉        | 2320/11858 [19:44<1:17:54,  2.04it/s] 20%|█▉        | 2321/11858 [19:44<1:17:55,  2.04it/s] 20%|█▉        | 2322/11858 [19:45<1:17:52,  2.04it/s] 20%|█▉        | 2323/11858 [19:45<1:17:54,  2.04it/s] 20%|█▉        | 2324/11858 [19:46<1:17:53,  2.04it/s] 20%|█▉        | 2325/11858 [19:46<1:17:55,  2.04it/s]{'loss': 2.5793, 'grad_norm': 0.30161115527153015, 'learning_rate': 0.000972156551518988, 'epoch': 2.74}                                                      
- 20%|█▉        | 2325/11858 [19:46<1:17:55,  2.04it/s] 20%|█▉        | 2326/11858 [19:47<1:18:05,  2.03it/s] 20%|█▉        | 2327/11858 [19:47<1:18:08,  2.03it/s] 20%|█▉        | 2328/11858 [19:48<1:18:12,  2.03it/s] 20%|█▉        | 2329/11858 [19:48<1:18:04,  2.03it/s] 20%|█▉        | 2330/11858 [19:49<1:18:02,  2.03it/s] 20%|█▉        | 2331/11858 [19:49<1:17:58,  2.04it/s] 20%|█▉        | 2332/11858 [19:50<1:17:54,  2.04it/s] 20%|█▉        | 2333/11858 [19:50<1:17:52,  2.04it/s] 20%|█▉        | 2334/11858 [19:51<1:17:53,  2.04it/s] 20%|█▉        | 2335/11858 [19:51<1:17:50,  2.04it/s] 20%|█▉        | 2336/11858 [19:52<1:17:45,  2.04it/s] 20%|█▉        | 2337/11858 [19:52<1:17:49,  2.04it/s] 20%|█▉        | 2338/11858 [19:53<1:17:52,  2.04it/s] 20%|█▉        | 2339/11858 [19:53<1:17:48,  2.04it/s] 20%|█▉        | 2340/11858 [19:54<1:17:46,  2.04it/s] 20%|█▉        | 2341/11858 [19:54<1:17:52,  2.04it/s] 20%|█▉        | 2342/11858 [19:54<1:17:52,  2.04it/s] 20%|█▉        | 2343/11858 [19:55<1:17:47,  2.04it/s] 20%|█▉        | 2344/11858 [19:55<1:17:44,  2.04it/s] 20%|█▉        | 2345/11858 [19:56<1:17:47,  2.04it/s] 20%|█▉        | 2346/11858 [19:56<1:17:46,  2.04it/s] 20%|█▉        | 2347/11858 [19:57<1:17:46,  2.04it/s] 20%|█▉        | 2348/11858 [19:57<1:17:48,  2.04it/s] 20%|█▉        | 2349/11858 [19:58<1:17:46,  2.04it/s] 20%|█▉        | 2350/11858 [19:58<1:17:38,  2.04it/s]{'loss': 2.5512, 'grad_norm': 0.3333917260169983, 'learning_rate': 0.0009709329726942628, 'epoch': 2.77}
-                                                       20%|█▉        | 2350/11858 [19:58<1:17:38,  2.04it/s] 20%|█▉        | 2351/11858 [19:59<1:17:43,  2.04it/s] 20%|█▉        | 2352/11858 [19:59<1:17:46,  2.04it/s] 20%|█▉        | 2353/11858 [20:00<1:17:43,  2.04it/s] 20%|█▉        | 2354/11858 [20:00<1:17:40,  2.04it/s] 20%|█▉        | 2355/11858 [20:01<1:17:45,  2.04it/s] 20%|█▉        | 2356/11858 [20:01<1:17:45,  2.04it/s] 20%|█▉        | 2357/11858 [20:02<1:17:42,  2.04it/s] 20%|█▉        | 2358/11858 [20:02<1:17:43,  2.04it/s] 20%|█▉        | 2359/11858 [20:03<1:17:47,  2.04it/s] 20%|█▉        | 2360/11858 [20:03<1:17:47,  2.03it/s] 20%|█▉        | 2361/11858 [20:04<1:17:39,  2.04it/s] 20%|█▉        | 2362/11858 [20:04<1:17:37,  2.04it/s] 20%|█▉        | 2363/11858 [20:05<1:17:38,  2.04it/s] 20%|█▉        | 2364/11858 [20:05<1:17:37,  2.04it/s] 20%|█▉        | 2365/11858 [20:06<1:17:37,  2.04it/s] 20%|█▉        | 2366/11858 [20:06<1:17:36,  2.04it/s] 20%|█▉        | 2367/11858 [20:07<1:17:41,  2.04it/s] 20%|█▉        | 2368/11858 [20:07<1:17:40,  2.04it/s] 20%|█▉        | 2369/11858 [20:08<1:17:38,  2.04it/s] 20%|█▉        | 2370/11858 [20:08<1:17:41,  2.04it/s] 20%|█▉        | 2371/11858 [20:09<1:17:43,  2.03it/s] 20%|██        | 2372/11858 [20:09<1:17:37,  2.04it/s] 20%|██        | 2373/11858 [20:10<1:17:42,  2.03it/s] 20%|██        | 2374/11858 [20:10<1:17:39,  2.04it/s] 20%|██        | 2375/11858 [20:11<1:17:42,  2.03it/s]{'loss': 2.551, 'grad_norm': 0.3109329640865326, 'learning_rate': 0.0009696838876984568, 'epoch': 2.8}
-                                                       20%|██        | 2375/11858 [20:11<1:17:42,  2.03it/s] 20%|██        | 2376/11858 [20:11<1:17:41,  2.03it/s] 20%|██        | 2377/11858 [20:12<1:17:39,  2.03it/s] 20%|██        | 2378/11858 [20:12<1:17:35,  2.04it/s] 20%|██        | 2379/11858 [20:13<1:17:30,  2.04it/s] 20%|██        | 2380/11858 [20:13<1:17:24,  2.04it/s] 20%|██        | 2381/11858 [20:14<1:17:23,  2.04it/s] 20%|██        | 2382/11858 [20:14<1:17:26,  2.04it/s] 20%|██        | 2383/11858 [20:15<1:17:23,  2.04it/s] 20%|██        | 2384/11858 [20:15<1:17:20,  2.04it/s] 20%|██        | 2385/11858 [20:16<1:17:26,  2.04it/s] 20%|██        | 2386/11858 [20:16<1:17:23,  2.04it/s] 20%|██        | 2387/11858 [20:17<1:17:22,  2.04it/s] 20%|██        | 2388/11858 [20:17<1:17:26,  2.04it/s] 20%|██        | 2389/11858 [20:18<1:17:25,  2.04it/s] 20%|██        | 2390/11858 [20:18<1:17:16,  2.04it/s] 20%|██        | 2391/11858 [20:19<1:17:19,  2.04it/s] 20%|██        | 2392/11858 [20:19<1:17:23,  2.04it/s] 20%|██        | 2393/11858 [20:20<1:17:18,  2.04it/s] 20%|██        | 2394/11858 [20:20<1:17:16,  2.04it/s] 20%|██        | 2395/11858 [20:20<1:17:20,  2.04it/s] 20%|██        | 2396/11858 [20:21<1:17:23,  2.04it/s] 20%|██        | 2397/11858 [20:21<1:17:19,  2.04it/s] 20%|██        | 2398/11858 [20:22<1:17:18,  2.04it/s] 20%|██        | 2399/11858 [20:22<1:17:19,  2.04it/s] 20%|██        | 2400/11858 [20:23<1:17:17,  2.04it/s]{'loss': 2.5547, 'grad_norm': 0.3163434565067291, 'learning_rate': 0.0009684093641831837, 'epoch': 2.83}                                                      
- 20%|██        | 2400/11858 [20:23<1:17:17,  2.04it/s] 20%|██        | 2401/11858 [20:23<1:17:30,  2.03it/s] 20%|██        | 2402/11858 [20:24<1:17:31,  2.03it/s] 20%|██        | 2403/11858 [20:24<1:17:24,  2.04it/s] 20%|██        | 2404/11858 [20:25<1:17:24,  2.04it/s] 20%|██        | 2405/11858 [20:25<1:17:24,  2.04it/s] 20%|██        | 2406/11858 [20:26<1:17:17,  2.04it/s] 20%|██        | 2407/11858 [20:26<1:17:14,  2.04it/s] 20%|██        | 2408/11858 [20:27<1:17:17,  2.04it/s] 20%|██        | 2409/11858 [20:27<1:17:14,  2.04it/s] 20%|██        | 2410/11858 [20:28<1:17:12,  2.04it/s] 20%|██        | 2411/11858 [20:28<1:17:10,  2.04it/s] 20%|██        | 2412/11858 [20:29<1:17:08,  2.04it/s] 20%|██        | 2413/11858 [20:29<1:17:09,  2.04it/s] 20%|██        | 2414/11858 [20:30<1:17:11,  2.04it/s] 20%|██        | 2415/11858 [20:30<1:17:10,  2.04it/s] 20%|██        | 2416/11858 [20:31<1:17:15,  2.04it/s] 20%|██        | 2417/11858 [20:31<1:17:17,  2.04it/s] 20%|██        | 2418/11858 [20:32<1:17:16,  2.04it/s] 20%|██        | 2419/11858 [20:32<1:17:16,  2.04it/s] 20%|██        | 2420/11858 [20:33<1:17:14,  2.04it/s] 20%|██        | 2421/11858 [20:33<1:17:11,  2.04it/s] 20%|██        | 2422/11858 [20:34<1:17:12,  2.04it/s] 20%|██        | 2423/11858 [20:34<1:17:13,  2.04it/s] 20%|██        | 2424/11858 [20:35<1:17:10,  2.04it/s] 20%|██        | 2425/11858 [20:35<1:17:12,  2.04it/s]                                                      {'loss': 2.5527, 'grad_norm': 0.3372384309768677, 'learning_rate': 0.0009671094711778314, 'epoch': 2.86}
- 20%|██        | 2425/11858 [20:35<1:17:12,  2.04it/s] 20%|██        | 2426/11858 [20:36<1:17:21,  2.03it/s] 20%|██        | 2427/11858 [20:36<1:17:13,  2.04it/s] 20%|██        | 2428/11858 [20:37<1:17:13,  2.04it/s] 20%|██        | 2429/11858 [20:37<1:17:12,  2.04it/s] 20%|██        | 2430/11858 [20:38<1:17:11,  2.04it/s] 21%|██        | 2431/11858 [20:38<1:17:05,  2.04it/s] 21%|██        | 2432/11858 [20:39<1:17:06,  2.04it/s] 21%|██        | 2433/11858 [20:39<1:17:08,  2.04it/s] 21%|██        | 2434/11858 [20:40<1:16:59,  2.04it/s] 21%|██        | 2435/11858 [20:40<1:16:57,  2.04it/s] 21%|██        | 2436/11858 [20:41<1:16:59,  2.04it/s] 21%|██        | 2437/11858 [20:41<1:16:59,  2.04it/s] 21%|██        | 2438/11858 [20:42<1:16:57,  2.04it/s] 21%|██        | 2439/11858 [20:42<1:16:54,  2.04it/s] 21%|██        | 2440/11858 [20:43<1:17:01,  2.04it/s] 21%|██        | 2441/11858 [20:43<1:17:00,  2.04it/s] 21%|██        | 2442/11858 [20:44<1:16:56,  2.04it/s] 21%|██        | 2443/11858 [20:44<1:16:59,  2.04it/s] 21%|██        | 2444/11858 [20:45<1:16:59,  2.04it/s] 21%|██        | 2445/11858 [20:45<1:16:55,  2.04it/s] 21%|██        | 2446/11858 [20:46<1:16:49,  2.04it/s] 21%|██        | 2447/11858 [20:46<1:16:54,  2.04it/s] 21%|██        | 2448/11858 [20:47<1:16:56,  2.04it/s] 21%|██        | 2449/11858 [20:47<1:16:53,  2.04it/s] 21%|██        | 2450/11858 [20:47<1:17:00,  2.04it/s]{'loss': 2.5399, 'grad_norm': 0.30449357628822327, 'learning_rate': 0.0009657842790858234, 'epoch': 2.89}
-                                                       21%|██        | 2450/11858 [20:47<1:17:00,  2.04it/s] 21%|██        | 2451/11858 [20:48<1:17:07,  2.03it/s] 21%|██        | 2452/11858 [20:48<1:17:08,  2.03it/s] 21%|██        | 2453/11858 [20:49<1:17:05,  2.03it/s] 21%|██        | 2454/11858 [20:49<1:17:02,  2.03it/s] 21%|██        | 2455/11858 [20:50<1:17:00,  2.04it/s] 21%|██        | 2456/11858 [20:50<1:17:01,  2.03it/s] 21%|██        | 2457/11858 [20:51<1:16:58,  2.04it/s] 21%|██        | 2458/11858 [20:51<1:16:56,  2.04it/s] 21%|██        | 2459/11858 [20:52<1:16:50,  2.04it/s] 21%|██        | 2460/11858 [20:52<1:16:55,  2.04it/s] 21%|██        | 2461/11858 [20:53<1:16:59,  2.03it/s] 21%|██        | 2462/11858 [20:53<1:16:58,  2.03it/s] 21%|██        | 2463/11858 [20:54<1:16:57,  2.03it/s] 21%|██        | 2464/11858 [20:54<1:16:57,  2.03it/s] 21%|██        | 2465/11858 [20:55<1:16:50,  2.04it/s] 21%|██        | 2466/11858 [20:55<1:16:51,  2.04it/s] 21%|██        | 2467/11858 [20:56<1:16:54,  2.04it/s] 21%|██        | 2468/11858 [20:56<1:16:48,  2.04it/s] 21%|██        | 2469/11858 [20:57<1:16:47,  2.04it/s] 21%|██        | 2470/11858 [20:57<1:16:49,  2.04it/s] 21%|██        | 2471/11858 [20:58<1:16:45,  2.04it/s] 21%|██        | 2472/11858 [20:58<1:16:42,  2.04it/s] 21%|██        | 2473/11858 [20:59<1:16:46,  2.04it/s] 21%|██        | 2474/11858 [20:59<1:16:46,  2.04it/s] 21%|██        | 2475/11858 [21:00<1:16:40,  2.04it/s]                                                      {'loss': 2.5213, 'grad_norm': 0.3113940358161926, 'learning_rate': 0.0009644338596808044, 'epoch': 2.92}
- 21%|██        | 2475/11858 [21:00<1:16:40,  2.04it/s] 21%|██        | 2476/11858 [21:00<1:16:50,  2.04it/s] 21%|██        | 2477/11858 [21:01<1:16:50,  2.03it/s] 21%|██        | 2478/11858 [21:01<1:16:47,  2.04it/s] 21%|██        | 2479/11858 [21:02<1:16:48,  2.04it/s] 21%|██        | 2480/11858 [21:02<1:16:46,  2.04it/s] 21%|██        | 2481/11858 [21:03<1:16:47,  2.04it/s] 21%|██        | 2482/11858 [21:03<1:16:47,  2.03it/s] 21%|██        | 2483/11858 [21:04<1:16:44,  2.04it/s] 21%|██        | 2484/11858 [21:04<1:16:49,  2.03it/s] 21%|██        | 2485/11858 [21:05<1:16:52,  2.03it/s] 21%|██        | 2486/11858 [21:05<1:16:44,  2.04it/s] 21%|██        | 2487/11858 [21:06<1:16:38,  2.04it/s] 21%|██        | 2488/11858 [21:06<1:16:41,  2.04it/s] 21%|██        | 2489/11858 [21:07<1:16:41,  2.04it/s] 21%|██        | 2490/11858 [21:07<1:16:36,  2.04it/s] 21%|██        | 2491/11858 [21:08<1:16:34,  2.04it/s] 21%|██        | 2492/11858 [21:08<1:16:36,  2.04it/s] 21%|██        | 2493/11858 [21:09<1:16:37,  2.04it/s] 21%|██        | 2494/11858 [21:09<1:16:32,  2.04it/s] 21%|██        | 2495/11858 [21:10<1:16:29,  2.04it/s] 21%|██        | 2496/11858 [21:10<1:16:29,  2.04it/s] 21%|██        | 2497/11858 [21:11<1:16:33,  2.04it/s] 21%|██        | 2498/11858 [21:11<1:16:31,  2.04it/s] 21%|██        | 2499/11858 [21:12<1:16:34,  2.04it/s] 21%|██        | 2500/11858 [21:12<1:16:34,  2.04it/s]{'loss': 2.5191, 'grad_norm': 0.34575188159942627, 'learning_rate': 0.0009630582861027555, 'epoch': 2.95}
-                                                       21%|██        | 2500/11858 [21:12<1:16:34,  2.04it/s] 21%|██        | 2501/11858 [21:13<1:16:34,  2.04it/s] 21%|██        | 2502/11858 [21:13<1:16:34,  2.04it/s] 21%|██        | 2503/11858 [21:14<1:16:34,  2.04it/s] 21%|██        | 2504/11858 [21:14<1:16:29,  2.04it/s] 21%|██        | 2505/11858 [21:14<1:16:27,  2.04it/s] 21%|██        | 2506/11858 [21:15<1:16:32,  2.04it/s] 21%|██        | 2507/11858 [21:15<1:16:32,  2.04it/s] 21%|██        | 2508/11858 [21:16<1:16:27,  2.04it/s] 21%|██        | 2509/11858 [21:16<1:16:31,  2.04it/s] 21%|██        | 2510/11858 [21:17<1:16:30,  2.04it/s] 21%|██        | 2511/11858 [21:17<1:16:27,  2.04it/s] 21%|██        | 2512/11858 [21:18<1:16:31,  2.04it/s] 21%|██        | 2513/11858 [21:18<1:16:25,  2.04it/s] 21%|██        | 2514/11858 [21:19<1:16:21,  2.04it/s] 21%|██        | 2515/11858 [21:19<1:16:23,  2.04it/s] 21%|██        | 2516/11858 [21:20<1:23:00,  1.88it/s] 21%|██        | 2517/11858 [21:21<1:21:00,  1.92it/s] 21%|██        | 2518/11858 [21:21<1:19:37,  1.96it/s] 21%|██        | 2519/11858 [21:22<1:18:40,  1.98it/s] 21%|██▏       | 2520/11858 [21:22<1:17:57,  2.00it/s] 21%|██▏       | 2521/11858 [21:22<1:17:25,  2.01it/s] 21%|██▏       | 2522/11858 [21:23<1:17:07,  2.02it/s] 21%|██▏       | 2523/11858 [21:23<1:16:56,  2.02it/s] 21%|██▏       | 2524/11858 [21:24<1:16:37,  2.03it/s] 21%|██▏       | 2525/11858 [21:24<1:16:30,  2.03it/s]{'loss': 2.5171, 'grad_norm': 0.31762561202049255, 'learning_rate': 0.0009616576328540303, 'epoch': 2.98}
-                                                       21%|██▏       | 2525/11858 [21:24<1:16:30,  2.03it/s] 21%|██▏       | 2526/11858 [21:25<1:16:35,  2.03it/s] 21%|██▏       | 2527/11858 [21:25<1:16:27,  2.03it/s] 21%|██���       | 2528/11858 [21:26<1:16:26,  2.03it/s] 21%|██▏       | 2529/11858 [21:26<1:16:26,  2.03it/s] 21%|██▏       | 2530/11858 [21:27<1:16:20,  2.04it/s] 21%|██▏       | 2531/11858 [21:27<1:16:17,  2.04it/s] 21%|██▏       | 2532/11858 [21:28<1:16:18,  2.04it/s] 21%|██▏       | 2533/11858 [21:28<1:16:16,  2.04it/s] 21%|██▏       | 2534/11858 [21:29<1:16:12,  2.04it/s] 21%|██▏       | 2535/11858 [21:29<1:16:10,  2.04it/s] 21%|██▏       | 2536/11858 [21:30<1:16:11,  2.04it/s] 21%|██▏       | 2537/11858 [21:30<1:16:07,  2.04it/s] 21%|██▏       | 2538/11858 [21:31<1:16:03,  2.04it/s] 21%|██▏       | 2539/11858 [21:31<1:16:07,  2.04it/s] 21%|██▏       | 2540/11858 [21:32<1:16:07,  2.04it/s] 21%|██▏       | 2541/11858 [21:32<1:16:04,  2.04it/s] 21%|██▏       | 2542/11858 [21:33<1:18:16,  1.98it/s] 21%|██▏       | 2543/11858 [21:53<16:18:22,  6.30s/it] 21%|██▏       | 2544/11858 [21:53<11:47:37,  4.56s/it] 21%|██▏       | 2545/11858 [21:54<8:38:22,  3.34s/it]  21%|██▏       | 2546/11858 [21:54<6:25:37,  2.48s/it] 21%|██▏       | 2547/11858 [21:55<4:52:46,  1.89s/it] 21%|██▏       | 2548/11858 [21:55<3:47:45,  1.47s/it] 21%|██▏       | 2549/11858 [21:56<3:02:12,  1.17s/it] 22%|██▏       | 2550/11858 [21:56<2:30:26,  1.03it/s]                                                      {'loss': 2.4437, 'grad_norm': 0.36602988839149475, 'learning_rate': 0.0009602319757953213, 'epoch': 3.01}
- 22%|██▏       | 2550/11858 [21:56<2:30:26,  1.03it/s] 22%|██▏       | 2551/11858 [21:57<2:08:17,  1.21it/s] 22%|██▏       | 2552/11858 [21:57<1:52:36,  1.38it/s] 22%|██▏       | 2553/11858 [21:58<1:41:43,  1.52it/s] 22%|██▏       | 2554/11858 [21:58<1:34:03,  1.65it/s] 22%|██▏       | 2555/11858 [21:59<1:28:51,  1.74it/s] 22%|██▏       | 2556/11858 [21:59<1:24:55,  1.83it/s] 22%|██▏       | 2557/11858 [22:00<1:22:09,  1.89it/s] 22%|██▏       | 2558/11858 [22:00<1:20:24,  1.93it/s] 22%|██▏       | 2559/11858 [22:01<1:19:01,  1.96it/s] 22%|██▏       | 2560/11858 [22:01<1:18:00,  1.99it/s] 22%|██▏       | 2561/11858 [22:02<1:17:24,  2.00it/s] 22%|██▏       | 2562/11858 [22:02<1:17:06,  2.01it/s] 22%|██▏       | 2563/11858 [22:02<1:16:42,  2.02it/s] 22%|██▏       | 2564/11858 [22:03<1:16:26,  2.03it/s] 22%|██▏       | 2565/11858 [22:03<1:16:21,  2.03it/s] 22%|██▏       | 2566/11858 [22:04<1:16:16,  2.03it/s] 22%|██▏       | 2567/11858 [22:04<1:16:09,  2.03it/s] 22%|██▏       | 2568/11858 [22:05<1:16:04,  2.04it/s] 22%|██▏       | 2569/11858 [22:05<1:15:55,  2.04it/s] 22%|██▏       | 2570/11858 [22:06<1:15:46,  2.04it/s] 22%|██▏       | 2571/11858 [22:06<1:15:44,  2.04it/s] 22%|██▏       | 2572/11858 [22:07<1:15:48,  2.04it/s] 22%|██▏       | 2573/11858 [22:07<1:15:48,  2.04it/s] 22%|██▏       | 2574/11858 [22:08<1:15:43,  2.04it/s] 22%|██▏       | 2575/11858 [22:08<1:15:43,  2.04it/s]{'loss': 2.3485, 'grad_norm': 0.3185505270957947, 'learning_rate': 0.0009587813921415507, 'epoch': 3.04}
-                                                       22%|██▏       | 2575/11858 [22:08<1:15:43,  2.04it/s] 22%|██▏       | 2576/11858 [22:09<1:15:51,  2.04it/s] 22%|██▏       | 2577/11858 [22:09<1:15:52,  2.04it/s] 22%|██▏       | 2578/11858 [22:10<1:15:47,  2.04it/s] 22%|██▏       | 2579/11858 [22:10<1:15:44,  2.04it/s] 22%|██▏       | 2580/11858 [22:11<1:15:43,  2.04it/s] 22%|██▏       | 2581/11858 [22:11<1:15:39,  2.04it/s] 22%|██▏       | 2582/11858 [22:12<1:15:36,  2.04it/s] 22%|██▏       | 2583/11858 [22:12<1:15:34,  2.05it/s] 22%|██▏       | 2584/11858 [22:13<1:15:36,  2.04it/s] 22%|██▏       | 2585/11858 [22:13<1:15:36,  2.04it/s] 22%|██▏       | 2586/11858 [22:14<1:15:36,  2.04it/s] 22%|██▏       | 2587/11858 [22:14<1:15:32,  2.05it/s] 22%|██▏       | 2588/11858 [22:15<1:15:28,  2.05it/s] 22%|██▏       | 2589/11858 [22:15<1:15:37,  2.04it/s] 22%|██▏       | 2590/11858 [22:16<1:15:36,  2.04it/s] 22%|██▏       | 2591/11858 [22:16<1:15:34,  2.04it/s] 22%|██▏       | 2592/11858 [22:17<1:15:34,  2.04it/s] 22%|██▏       | 2593/11858 [22:17<1:15:35,  2.04it/s] 22%|██▏       | 2594/11858 [22:18<1:15:34,  2.04it/s] 22%|██▏       | 2595/11858 [22:18<1:15:34,  2.04it/s] 22%|██▏       | 2596/11858 [22:19<1:15:33,  2.04it/s] 22%|██▏       | 2597/11858 [22:19<1:15:33,  2.04it/s] 22%|██▏       | 2598/11858 [22:20<1:15:31,  2.04it/s] 22%|██▏       | 2599/11858 [22:20<1:15:28,  2.04it/s] 22%|██▏       | 2600/11858 [22:21<1:15:31,  2.04it/s]{'loss': 2.3652, 'grad_norm': 0.31125012040138245, 'learning_rate': 0.0009573059604576884, 'epoch': 3.07}
-                                                       22%|██▏       | 2600/11858 [22:21<1:15:31,  2.04it/s] 22%|██▏       | 2601/11858 [22:21<1:15:38,  2.04it/s] 22%|██▏       | 2602/11858 [22:22<1:15:33,  2.04it/s] 22%|██▏       | 2603/11858 [22:22<1:15:30,  2.04it/s] 22%|██▏       | 2604/11858 [22:23<1:15:27,  2.04it/s] 22%|██▏       | 2605/11858 [22:23<1:15:27,  2.04it/s] 22%|██▏       | 2606/11858 [22:24<1:15:27,  2.04it/s] 22%|██▏       | 2607/11858 [22:24<1:15:24,  2.04it/s] 22%|██▏       | 2608/11858 [22:25<1:15:24,  2.04it/s] 22%|██▏       | 2609/11858 [22:25<1:15:28,  2.04it/s] 22%|██▏       | 2610/11858 [22:26<1:15:31,  2.04it/s] 22%|██▏       | 2611/11858 [22:26<1:15:31,  2.04it/s] 22%|██▏       | 2612/11858 [22:26<1:15:28,  2.04it/s] 22%|██▏       | 2613/11858 [22:27<1:15:28,  2.04it/s] 22%|██▏       | 2614/11858 [22:27<1:15:26,  2.04it/s] 22%|██▏       | 2615/11858 [22:28<1:15:23,  2.04it/s] 22%|██▏       | 2616/11858 [22:28<1:15:24,  2.04it/s] 22%|██▏       | 2617/11858 [22:29<1:15:21,  2.04it/s] 22%|██▏       | 2618/11858 [22:29<1:15:21,  2.04it/s] 22%|██▏       | 2619/11858 [22:30<1:15:22,  2.04it/s] 22%|██▏       | 2620/11858 [22:30<1:15:24,  2.04it/s] 22%|██▏       | 2621/11858 [22:31<1:15:19,  2.04it/s] 22%|██▏       | 2622/11858 [22:31<1:15:22,  2.04it/s] 22%|██▏       | 2623/11858 [22:32<1:15:21,  2.04it/s] 22%|██▏       | 2624/11858 [22:32<1:15:21,  2.04it/s] 22%|██▏       | 2625/11858 [22:33<1:15:18,  2.04it/s]                                                      {'loss': 2.3508, 'grad_norm': 0.310506135225296, 'learning_rate': 0.0009558057606544969, 'epoch': 3.1}
- 22%|██▏       | 2625/11858 [22:33<1:15:18,  2.04it/s] 22%|██▏       | 2626/11858 [22:33<1:15:28,  2.04it/s] 22%|██▏       | 2627/11858 [22:34<1:15:26,  2.04it/s] 22%|██▏       | 2628/11858 [22:34<1:15:21,  2.04it/s] 22%|██▏       | 2629/11858 [22:35<1:15:17,  2.04it/s] 22%|██▏       | 2630/11858 [22:35<1:15:19,  2.04it/s] 22%|██▏       | 2631/11858 [22:36<1:15:20,  2.04it/s] 22%|██▏       | 2632/11858 [22:36<1:15:15,  2.04it/s] 22%|██▏       | 2633/11858 [22:37<1:15:19,  2.04it/s] 22%|██▏       | 2634/11858 [22:37<1:15:20,  2.04it/s] 22%|██▏       | 2635/11858 [22:38<1:15:20,  2.04it/s] 22%|██▏       | 2636/11858 [22:38<1:15:15,  2.04it/s] 22%|██▏       | 2637/11858 [22:39<1:15:17,  2.04it/s] 22%|██▏       | 2638/11858 [22:39<1:15:21,  2.04it/s] 22%|██▏       | 2639/11858 [22:40<1:15:16,  2.04it/s] 22%|██▏       | 2640/11858 [22:40<1:15:15,  2.04it/s] 22%|██▏       | 2641/11858 [22:41<1:15:17,  2.04it/s] 22%|██▏       | 2642/11858 [22:41<1:15:15,  2.04it/s] 22%|██▏       | 2643/11858 [22:42<1:15:10,  2.04it/s] 22%|██▏       | 2644/11858 [22:42<1:15:10,  2.04it/s] 22%|██▏       | 2645/11858 [22:43<1:15:12,  2.04it/s] 22%|██▏       | 2646/11858 [22:43<1:15:13,  2.04it/s] 22%|██▏       | 2647/11858 [22:44<1:15:09,  2.04it/s] 22%|██▏       | 2648/11858 [22:44<1:15:05,  2.04it/s] 22%|██▏       | 2649/11858 [22:45<1:15:05,  2.04it/s] 22%|██▏       | 2650/11858 [22:45<1:15:09,  2.04it/s]{'loss': 2.3554, 'grad_norm': 0.3167024254798889, 'learning_rate': 0.0009542808739842033, 'epoch': 3.13}                                                      
- 22%|██▏       | 2650/11858 [22:45<1:15:09,  2.04it/s] 22%|██▏       | 2651/11858 [22:46<1:15:10,  2.04it/s] 22%|██▏       | 2652/11858 [22:46<1:15:09,  2.04it/s] 22%|██▏       | 2653/11858 [22:47<1:15:10,  2.04it/s] 22%|██▏       | 2654/11858 [22:47<1:15:08,  2.04it/s] 22%|██▏       | 2655/11858 [22:48<1:15:01,  2.04it/s] 22%|██▏       | 2656/11858 [22:48<1:14:59,  2.04it/s] 22%|██▏       | 2657/11858 [22:49<1:14:59,  2.05it/s] 22%|██▏       | 2658/11858 [22:49<1:15:02,  2.04it/s] 22%|██▏       | 2659/11858 [22:49<1:15:04,  2.04it/s] 22%|██▏       | 2660/11858 [22:50<1:15:00,  2.04it/s] 22%|██▏       | 2661/11858 [22:50<1:14:59,  2.04it/s] 22%|██▏       | 2662/11858 [22:51<1:15:02,  2.04it/s] 22%|██▏       | 2663/11858 [22:51<1:15:03,  2.04it/s] 22%|██▏       | 2664/11858 [22:52<1:14:59,  2.04it/s] 22%|██▏       | 2665/11858 [22:52<1:14:56,  2.04it/s] 22%|██▏       | 2666/11858 [22:53<1:15:03,  2.04it/s] 22%|██▏       | 2667/11858 [22:53<1:15:02,  2.04it/s] 22%|██▏       | 2668/11858 [22:54<1:14:58,  2.04it/s] 23%|██▎       | 2669/11858 [22:54<1:14:59,  2.04it/s] 23%|██▎       | 2670/11858 [22:55<1:15:00,  2.04it/s] 23%|██▎       | 2671/11858 [22:55<1:15:03,  2.04it/s] 23%|██▎       | 2672/11858 [22:56<1:15:02,  2.04it/s] 23%|██▎       | 2673/11858 [22:56<1:14:59,  2.04it/s] 23%|██▎       | 2674/11858 [22:57<1:14:57,  2.04it/s] 23%|██▎       | 2675/11858 [22:57<1:14:57,  2.04it/s]{'loss': 2.356, 'grad_norm': 0.33923786878585815, 'learning_rate': 0.0009527313830360985, 'epoch': 3.16}                                                      
- 23%|██▎       | 2675/11858 [22:57<1:14:57,  2.04it/s] 23%|██▎       | 2676/11858 [22:58<1:14:59,  2.04it/s] 23%|██▎       | 2677/11858 [22:58<1:14:59,  2.04it/s] 23%|██▎       | 2678/11858 [22:59<1:14:59,  2.04it/s] 23%|██▎       | 2679/11858 [22:59<1:14:57,  2.04it/s] 23%|██▎       | 2680/11858 [23:00<1:14:55,  2.04it/s] 23%|██▎       | 2681/11858 [23:00<1:14:53,  2.04it/s] 23%|██▎       | 2682/11858 [23:01<1:14:54,  2.04it/s] 23%|██▎       | 2683/11858 [23:01<1:14:54,  2.04it/s] 23%|██▎       | 2684/11858 [23:02<1:14:56,  2.04it/s] 23%|██▎       | 2685/11858 [23:02<1:14:54,  2.04it/s] 23%|██▎       | 2686/11858 [23:03<1:14:57,  2.04it/s] 23%|██▎       | 2687/11858 [23:03<1:14:57,  2.04it/s] 23%|██▎       | 2688/11858 [23:04<1:15:01,  2.04it/s] 23%|██▎       | 2689/11858 [23:04<1:14:59,  2.04it/s] 23%|██▎       | 2690/11858 [23:05<1:14:55,  2.04it/s] 23%|██▎       | 2691/11858 [23:05<1:14:55,  2.04it/s] 23%|██▎       | 2692/11858 [23:06<1:14:55,  2.04it/s] 23%|██▎       | 2693/11858 [23:06<1:14:49,  2.04it/s] 23%|██▎       | 2694/11858 [23:07<1:14:52,  2.04it/s] 23%|██▎       | 2695/11858 [23:07<1:14:52,  2.04it/s] 23%|██▎       | 2696/11858 [23:08<1:14:50,  2.04it/s] 23%|██▎       | 2697/11858 [23:08<1:14:46,  2.04it/s] 23%|██▎       | 2698/11858 [23:09<1:14:43,  2.04it/s] 23%|██▎       | 2699/11858 [23:09<1:14:50,  2.04it/s] 23%|██▎       | 2700/11858 [23:10<1:14:45,  2.04it/s]{'loss': 2.3555, 'grad_norm': 0.3133088946342468, 'learning_rate': 0.0009511573717320643, 'epoch': 3.19}
-                                                       23%|██▎       | 2700/11858 [23:10<1:14:45,  2.04it/s] 23%|██▎       | 2701/11858 [23:10<1:14:47,  2.04it/s] 23%|██▎       | 2702/11858 [23:11<1:14:48,  2.04it/s] 23%|██▎       | 2703/11858 [23:11<1:14:46,  2.04it/s] 23%|██▎       | 2704/11858 [23:12<1:14:41,  2.04it/s] 23%|██▎       | 2705/11858 [23:12<1:14:38,  2.04it/s] 23%|██▎       | 2706/11858 [23:13<1:14:36,  2.04it/s] 23%|██▎       | 2707/11858 [23:13<1:14:42,  2.04it/s] 23%|██▎       | 2708/11858 [23:14<1:14:40,  2.04it/s] 23%|██▎       | 2709/11858 [23:14<1:14:36,  2.04it/s] 23%|██▎       | 2710/11858 [23:14<1:14:38,  2.04it/s] 23%|██▎       | 2711/11858 [23:15<1:14:40,  2.04it/s] 23%|██▎       | 2712/11858 [23:15<1:14:41,  2.04it/s] 23%|██▎       | 2713/11858 [23:16<1:14:40,  2.04it/s] 23%|██▎       | 2714/11858 [23:16<1:14:40,  2.04it/s] 23%|██▎       | 2715/11858 [23:17<1:14:37,  2.04it/s] 23%|██▎       | 2716/11858 [23:17<1:14:40,  2.04it/s] 23%|██▎       | 2717/11858 [23:18<1:14:40,  2.04it/s] 23%|██▎       | 2718/11858 [23:18<1:14:43,  2.04it/s] 23%|██▎       | 2719/11858 [23:19<1:14:39,  2.04it/s] 23%|██▎       | 2720/11858 [23:19<1:14:38,  2.04it/s] 23%|██▎       | 2721/11858 [23:20<1:14:41,  2.04it/s] 23%|██▎       | 2722/11858 [23:20<1:14:44,  2.04it/s] 23%|██▎       | 2723/11858 [23:21<1:14:39,  2.04it/s] 23%|██▎       | 2724/11858 [23:21<1:14:33,  2.04it/s] 23%|██▎       | 2725/11858 [23:22<1:14:34,  2.04it/s]{'loss': 2.3596, 'grad_norm': 0.34228500723838806, 'learning_rate': 0.0009495589253220276, 'epoch': 3.22}
-                                                       23%|██▎       | 2725/11858 [23:22<1:14:34,  2.04it/s] 23%|██▎       | 2726/11858 [23:22<1:14:38,  2.04it/s] 23%|██▎       | 2727/11858 [23:23<1:14:39,  2.04it/s] 23%|██▎       | 2728/11858 [23:23<1:14:37,  2.04it/s] 23%|██▎       | 2729/11858 [23:24<1:14:37,  2.04it/s] 23%|██▎       | 2730/11858 [23:24<1:14:37,  2.04it/s] 23%|██▎       | 2731/11858 [23:25<1:14:35,  2.04it/s] 23%|██▎       | 2732/11858 [23:25<1:14:34,  2.04it/s] 23%|██▎       | 2733/11858 [23:26<1:14:34,  2.04it/s] 23%|██▎       | 2734/11858 [23:26<1:14:33,  2.04it/s] 23%|██▎       | 2735/11858 [23:27<1:14:31,  2.04it/s] 23%|██▎       | 2736/11858 [23:27<1:14:29,  2.04it/s] 23%|██▎       | 2737/11858 [23:28<1:14:33,  2.04it/s] 23%|██▎       | 2738/11858 [23:28<1:14:33,  2.04it/s] 23%|██▎       | 2739/11858 [23:29<1:14:32,  2.04it/s] 23%|██▎       | 2740/11858 [23:29<1:14:34,  2.04it/s] 23%|██▎       | 2741/11858 [23:30<1:14:31,  2.04it/s] 23%|██▎       | 2742/11858 [23:30<1:14:30,  2.04it/s] 23%|██▎       | 2743/11858 [23:31<1:14:26,  2.04it/s] 23%|██▎       | 2744/11858 [23:31<1:14:30,  2.04it/s] 23%|██▎       | 2745/11858 [23:32<1:14:29,  2.04it/s] 23%|██▎       | 2746/11858 [23:32<1:14:23,  2.04it/s] 23%|██▎       | 2747/11858 [23:33<1:14:20,  2.04it/s] 23%|██▎       | 2748/11858 [23:33<1:14:24,  2.04it/s] 23%|██▎       | 2749/11858 [23:34<1:14:22,  2.04it/s] 23%|██▎       | 2750/11858 [23:34<1:14:17,  2.04it/s]{'loss': 2.3577, 'grad_norm': 0.4271695017814636, 'learning_rate': 0.000947936130379344, 'epoch': 3.24}
-                                                       23%|██▎       | 2750/11858 [23:34<1:14:17,  2.04it/s] 23%|██▎       | 2751/11858 [23:35<1:14:23,  2.04it/s] 23%|██▎       | 2752/11858 [23:35<1:14:25,  2.04it/s] 23%|██▎       | 2753/11858 [23:36<1:14:21,  2.04it/s] 23%|██▎       | 2754/11858 [23:36<1:14:20,  2.04it/s] 23%|██▎       | 2755/11858 [23:37<1:14:24,  2.04it/s] 23%|██▎       | 2756/11858 [23:37<1:14:22,  2.04it/s] 23%|██▎       | 2757/11858 [23:38<1:14:15,  2.04it/s] 23%|██▎       | 2758/11858 [23:38<1:14:16,  2.04it/s] 23%|██▎       | 2759/11858 [23:39<1:14:18,  2.04it/s] 23%|██▎       | 2760/11858 [23:39<1:14:14,  2.04it/s] 23%|██▎       | 2761/11858 [23:39<1:14:08,  2.04it/s] 23%|██▎       | 2762/11858 [23:40<1:14:07,  2.05it/s] 23%|██▎       | 2763/11858 [23:40<1:14:11,  2.04it/s] 23%|██▎       | 2764/11858 [23:41<1:14:11,  2.04it/s] 23%|██▎       | 2765/11858 [23:41<1:14:10,  2.04it/s] 23%|██▎       | 2766/11858 [23:42<1:14:06,  2.04it/s] 23%|██▎       | 2767/11858 [23:42<1:14:12,  2.04it/s] 23%|██▎       | 2768/11858 [23:43<1:14:12,  2.04it/s] 23%|██▎       | 2769/11858 [23:43<1:14:07,  2.04it/s] 23%|██▎       | 2770/11858 [23:44<1:14:06,  2.04it/s] 23%|██▎       | 2771/11858 [23:44<1:14:10,  2.04it/s] 23%|██▎       | 2772/11858 [23:45<1:14:12,  2.04it/s] 23%|██▎       | 2773/11858 [23:45<1:14:07,  2.04it/s] 23%|██▎       | 2774/11858 [23:46<1:14:03,  2.04it/s] 23%|██▎       | 2775/11858 [23:46<1:14:08,  2.04it/s]{'loss': 2.3578, 'grad_norm': 0.39020729064941406, 'learning_rate': 0.0009462890747961081, 'epoch': 3.27}
-                                                       23%|██▎       | 2775/11858 [23:46<1:14:08,  2.04it/s] 23%|██▎       | 2776/11858 [23:47<1:14:14,  2.04it/s] 23%|██▎       | 2777/11858 [23:47<1:14:09,  2.04it/s] 23%|██▎       | 2778/11858 [23:48<1:14:12,  2.04it/s] 23%|██▎       | 2779/11858 [23:48<1:14:11,  2.04it/s] 23%|██▎       | 2780/11858 [23:49<1:14:08,  2.04it/s] 23%|██▎       | 2781/11858 [23:49<1:14:04,  2.04it/s] 23%|██▎       | 2782/11858 [23:50<1:14:08,  2.04it/s] 23%|██▎       | 2783/11858 [23:50<1:14:08,  2.04it/s] 23%|██▎       | 2784/11858 [23:51<1:14:05,  2.04it/s] 23%|██▎       | 2785/11858 [23:51<1:14:04,  2.04it/s] 23%|██▎       | 2786/11858 [23:52<1:14:02,  2.04it/s] 24%|██▎       | 2787/11858 [23:52<1:14:01,  2.04it/s] 24%|██▎       | 2788/11858 [23:53<1:14:00,  2.04it/s] 24%|██▎       | 2789/11858 [23:53<1:14:03,  2.04it/s] 24%|██▎       | 2790/11858 [23:54<1:14:04,  2.04it/s] 24%|██▎       | 2791/11858 [23:54<1:14:02,  2.04it/s] 24%|██▎       | 2792/11858 [23:55<1:14:00,  2.04it/s] 24%|██▎       | 2793/11858 [23:55<1:14:00,  2.04it/s] 24%|██▎       | 2794/11858 [23:56<1:13:59,  2.04it/s] 24%|██▎       | 2795/11858 [23:56<1:13:58,  2.04it/s] 24%|██▎       | 2796/11858 [23:57<1:13:56,  2.04it/s] 24%|██▎       | 2797/11858 [23:57<1:13:57,  2.04it/s] 24%|██▎       | 2798/11858 [23:58<1:14:00,  2.04it/s] 24%|██▎       | 2799/11858 [23:58<1:13:57,  2.04it/s] 24%|██▎       | 2800/11858 [23:59<1:13:54,  2.04it/s]                                                      {'loss': 2.3601, 'grad_norm': 0.3174925744533539, 'learning_rate': 0.0009446178477783936, 'epoch': 3.3}
- 24%|██▎       | 2800/11858 [23:59<1:13:54,  2.04it/s] 24%|██▎       | 2801/11858 [23:59<1:14:05,  2.04it/s] 24%|██▎       | 2802/11858 [24:00<1:14:00,  2.04it/s] 24%|██▎       | 2803/11858 [24:00<1:13:57,  2.04it/s] 24%|██▎       | 2804/11858 [24:01<1:13:57,  2.04it/s] 24%|██▎       | 2805/11858 [24:01<1:13:54,  2.04it/s] 24%|██▎       | 2806/11858 [24:02<1:13:51,  2.04it/s] 24%|██▎       | 2807/11858 [24:02<1:13:52,  2.04it/s] 24%|██▎       | 2808/11858 [24:03<1:13:55,  2.04it/s] 24%|██▎       | 2809/11858 [24:03<1:13:53,  2.04it/s] 24%|██▎       | 2810/11858 [24:03<1:13:50,  2.04it/s] 24%|██▎       | 2811/11858 [24:04<1:13:54,  2.04it/s] 24%|██▎       | 2812/11858 [24:04<1:13:54,  2.04it/s] 24%|██▎       | 2813/11858 [24:05<1:13:49,  2.04it/s] 24%|██▎       | 2814/11858 [24:05<1:13:47,  2.04it/s] 24%|██▎       | 2815/11858 [24:06<1:13:48,  2.04it/s] 24%|██▎       | 2816/11858 [24:06<1:13:51,  2.04it/s] 24%|██▍       | 2817/11858 [24:07<1:13:48,  2.04it/s] 24%|██▍       | 2818/11858 [24:07<1:13:49,  2.04it/s] 24%|██▍       | 2819/11858 [24:08<1:13:54,  2.04it/s] 24%|██▍       | 2820/11858 [24:08<1:13:53,  2.04it/s] 24%|██▍       | 2821/11858 [24:09<1:13:54,  2.04it/s] 24%|██▍       | 2822/11858 [24:09<1:13:54,  2.04it/s] 24%|██▍       | 2823/11858 [24:10<1:13:53,  2.04it/s] 24%|██▍       | 2824/11858 [24:10<1:13:52,  2.04it/s] 24%|██▍       | 2825/11858 [24:11<1:13:56,  2.04it/s]{'loss': 2.3556, 'grad_norm': 0.3100530207157135, 'learning_rate': 0.0009429225398414218, 'epoch': 3.33}
-                                                       24%|██▍       | 2825/11858 [24:11<1:13:56,  2.04it/s] 24%|██▍       | 2826/11858 [24:11<1:14:00,  2.03it/s] 24%|██▍       | 2827/11858 [24:12<1:14:00,  2.03it/s] 24%|██▍       | 2828/11858 [24:12<1:13:59,  2.03it/s] 24%|██▍       | 2829/11858 [24:13<1:13:55,  2.04it/s] 24%|██▍       | 2830/11858 [24:13<1:13:56,  2.04it/s] 24%|██▍       | 2831/11858 [24:14<1:13:57,  2.03it/s] 24%|██▍       | 2832/11858 [24:14<1:13:56,  2.03it/s] 24%|██▍       | 2833/11858 [24:15<1:13:58,  2.03it/s] 24%|██▍       | 2834/11858 [24:15<1:13:54,  2.03it/s] 24%|██▍       | 2835/11858 [24:16<1:13:52,  2.04it/s] 24%|██▍       | 2836/11858 [24:16<1:13:50,  2.04it/s] 24%|██▍       | 2837/11858 [24:17<1:13:47,  2.04it/s] 24%|██▍       | 2838/11858 [24:17<1:13:46,  2.04it/s] 24%|██▍       | 2839/11858 [24:18<1:13:48,  2.04it/s] 24%|██▍       | 2840/11858 [24:18<1:13:44,  2.04it/s] 24%|██▍       | 2841/11858 [24:19<1:13:41,  2.04it/s] 24%|██▍       | 2842/11858 [24:19<1:13:45,  2.04it/s] 24%|██▍       | 2843/11858 [24:20<1:13:47,  2.04it/s] 24%|██▍       | 2844/11858 [24:20<1:13:42,  2.04it/s] 24%|██▍       | 2845/11858 [24:21<1:13:40,  2.04it/s] 24%|██▍       | 2846/11858 [24:21<1:13:46,  2.04it/s] 24%|██▍       | 2847/11858 [24:22<1:13:41,  2.04it/s] 24%|██▍       | 2848/11858 [24:22<1:13:38,  2.04it/s] 24%|██▍       | 2849/11858 [24:23<1:13:43,  2.04it/s] 24%|██▍       | 2850/11858 [24:23<1:13:43,  2.04it/s]{'loss': 2.3591, 'grad_norm': 0.323638379573822, 'learning_rate': 0.0009412032428046593, 'epoch': 3.36}
-                                                       24%|██▍       | 2850/11858 [24:23<1:13:43,  2.04it/s] 24%|██▍       | 2851/11858 [24:24<1:13:47,  2.03it/s] 24%|██▍       | 2852/11858 [24:24<1:13:49,  2.03it/s] 24%|██▍       | 2853/11858 [24:25<1:13:48,  2.03it/s] 24%|██▍       | 2854/11858 [24:25<1:13:44,  2.03it/s] 24%|██▍       | 2855/11858 [24:26<1:13:45,  2.03it/s] 24%|██▍       | 2856/11858 [24:26<1:13:44,  2.03it/s] 24%|██▍       | 2857/11858 [24:27<1:13:42,  2.04it/s] 24%|██▍       | 2858/11858 [24:27<1:13:41,  2.04it/s] 24%|██▍       | 2859/11858 [24:28<1:13:35,  2.04it/s] 24%|██▍       | 2860/11858 [24:28<1:13:32,  2.04it/s] 24%|██▍       | 2861/11858 [24:29<1:13:29,  2.04it/s] 24%|██▍       | 2862/11858 [24:29<1:13:36,  2.04it/s] 24%|██▍       | 2863/11858 [24:29<1:13:35,  2.04it/s] 24%|██▍       | 2864/11858 [24:30<1:13:35,  2.04it/s] 24%|██▍       | 2865/11858 [24:30<1:13:37,  2.04it/s] 24%|██▍       | 2866/11858 [24:31<1:13:35,  2.04it/s] 24%|██▍       | 2867/11858 [24:31<1:13:31,  2.04it/s] 24%|██▍       | 2868/11858 [24:32<1:13:29,  2.04it/s] 24%|██▍       | 2869/11858 [24:32<1:13:33,  2.04it/s] 24%|██▍       | 2870/11858 [24:33<1:13:31,  2.04it/s] 24%|██▍       | 2871/11858 [24:33<1:13:27,  2.04it/s] 24%|██▍       | 2872/11858 [24:34<1:13:31,  2.04it/s] 24%|██▍       | 2873/11858 [24:34<1:13:31,  2.04it/s] 24%|██▍       | 2874/11858 [24:35<1:13:28,  2.04it/s] 24%|██▍       | 2875/11858 [24:35<1:13:26,  2.04it/s]                                                      {'loss': 2.3636, 'grad_norm': 0.3151952624320984, 'learning_rate': 0.0009394600497868444, 'epoch': 3.39}
- 24%|██▍       | 2875/11858 [24:35<1:13:26,  2.04it/s] 24%|██▍       | 2876/11858 [24:36<1:13:33,  2.04it/s] 24%|██▍       | 2877/11858 [24:36<1:13:28,  2.04it/s] 24%|██▍       | 2878/11858 [24:37<1:13:28,  2.04it/s] 24%|██▍       | 2879/11858 [24:37<1:13:32,  2.03it/s] 24%|██▍       | 2880/11858 [24:38<1:13:27,  2.04it/s] 24%|██▍       | 2881/11858 [24:38<1:13:23,  2.04it/s] 24%|██▍       | 2882/11858 [24:39<1:13:25,  2.04it/s] 24%|██▍       | 2883/11858 [24:39<1:13:21,  2.04it/s] 24%|██▍       | 2884/11858 [24:40<1:13:18,  2.04it/s] 24%|██▍       | 2885/11858 [24:40<1:13:18,  2.04it/s] 24%|██▍       | 2886/11858 [24:41<1:13:22,  2.04it/s] 24%|██▍       | 2887/11858 [24:41<1:13:15,  2.04it/s] 24%|██▍       | 2888/11858 [24:42<1:13:14,  2.04it/s] 24%|██▍       | 2889/11858 [24:42<1:13:16,  2.04it/s] 24%|██▍       | 2890/11858 [24:43<1:13:16,  2.04it/s] 24%|██▍       | 2891/11858 [24:43<1:13:11,  2.04it/s] 24%|██▍       | 2892/11858 [24:44<1:13:08,  2.04it/s] 24%|██▍       | 2893/11858 [24:44<1:13:06,  2.04it/s] 24%|██▍       | 2894/11858 [24:45<1:13:07,  2.04it/s] 24%|██▍       | 2895/11858 [24:45<1:13:08,  2.04it/s] 24%|██▍       | 2896/11858 [24:46<1:13:11,  2.04it/s] 24%|██▍       | 2897/11858 [24:46<1:13:15,  2.04it/s] 24%|██▍       | 2898/11858 [24:47<1:13:11,  2.04it/s] 24%|██▍       | 2899/11858 [24:47<1:13:07,  2.04it/s] 24%|██▍       | 2900/11858 [24:48<1:13:10,  2.04it/s]{'loss': 2.3407, 'grad_norm': 0.3443979322910309, 'learning_rate': 0.0009376930552009444, 'epoch': 3.42}
-                                                       24%|██▍       | 2900/11858 [24:48<1:13:10,  2.04it/s] 24%|██▍       | 2901/11858 [24:48<1:13:15,  2.04it/s] 24%|██▍       | 2902/11858 [24:49<1:13:09,  2.04it/s] 24%|██▍       | 2903/11858 [24:49<1:13:12,  2.04it/s] 24%|██▍       | 2904/11858 [24:50<1:13:16,  2.04it/s] 24%|██▍       | 2905/11858 [24:50<1:13:12,  2.04it/s] 25%|██▍       | 2906/11858 [24:51<1:13:13,  2.04it/s] 25%|██▍       | 2907/11858 [24:51<1:13:11,  2.04it/s] 25%|██▍       | 2908/11858 [24:52<1:13:11,  2.04it/s] 25%|██▍       | 2909/11858 [24:52<1:13:07,  2.04it/s] 25%|██▍       | 2910/11858 [24:53<1:13:07,  2.04it/s] 25%|██▍       | 2911/11858 [24:53<1:13:06,  2.04it/s] 25%|██▍       | 2912/11858 [24:54<1:12:59,  2.04it/s] 25%|██▍       | 2913/11858 [24:54<1:13:00,  2.04it/s] 25%|██▍       | 2914/11858 [24:55<1:13:05,  2.04it/s] 25%|██▍       | 2915/11858 [24:55<1:13:06,  2.04it/s] 25%|██▍       | 2916/11858 [24:55<1:13:09,  2.04it/s] 25%|██▍       | 2917/11858 [24:56<1:13:07,  2.04it/s] 25%|██▍       | 2918/11858 [24:56<1:13:14,  2.03it/s] 25%|██▍       | 2919/11858 [24:57<1:13:16,  2.03it/s] 25%|██▍       | 2920/11858 [24:57<1:13:19,  2.03it/s] 25%|██▍       | 2921/11858 [24:58<1:13:18,  2.03it/s] 25%|██▍       | 2922/11858 [24:58<1:13:13,  2.03it/s] 25%|██▍       | 2923/11858 [24:59<1:13:09,  2.04it/s] 25%|██▍       | 2924/11858 [24:59<1:13:08,  2.04it/s] 25%|██▍       | 2925/11858 [25:00<1:13:07,  2.04it/s]{'loss': 2.3433, 'grad_norm': 0.2967992126941681, 'learning_rate': 0.000935902354749042, 'epoch': 3.45}
-                                                       25%|██▍       | 2925/11858 [25:00<1:13:07,  2.04it/s] 25%|██▍       | 2926/11858 [25:00<1:13:17,  2.03it/s] 25%|██▍       | 2927/11858 [25:01<1:13:15,  2.03it/s] 25%|██▍       | 2928/11858 [25:01<1:13:07,  2.04it/s] 25%|██▍       | 2929/11858 [25:02<1:13:08,  2.03it/s] 25%|██▍       | 2930/11858 [25:02<1:13:12,  2.03it/s] 25%|██▍       | 2931/11858 [25:03<1:13:04,  2.04it/s] 25%|██▍       | 2932/11858 [25:03<1:13:02,  2.04it/s] 25%|██▍       | 2933/11858 [25:04<1:13:00,  2.04it/s] 25%|██▍       | 2934/11858 [25:04<1:13:02,  2.04it/s] 25%|██▍       | 2935/11858 [25:05<1:12:59,  2.04it/s] 25%|██▍       | 2936/11858 [25:05<1:12:56,  2.04it/s] 25%|██▍       | 2937/11858 [25:06<1:12:55,  2.04it/s] 25%|██▍       | 2938/11858 [25:06<1:12:54,  2.04it/s] 25%|██▍       | 2939/11858 [25:07<1:12:48,  2.04it/s] 25%|██▍       | 2940/11858 [25:07<1:12:51,  2.04it/s] 25%|██▍       | 2941/11858 [25:08<1:12:57,  2.04it/s] 25%|██▍       | 2942/11858 [25:08<1:12:52,  2.04it/s] 25%|██▍       | 2943/11858 [25:09<1:12:51,  2.04it/s] 25%|██▍       | 2944/11858 [25:09<1:12:55,  2.04it/s] 25%|██▍       | 2945/11858 [25:10<1:12:54,  2.04it/s] 25%|██▍       | 2946/11858 [25:10<1:12:52,  2.04it/s] 25%|██▍       | 2947/11858 [25:11<1:12:54,  2.04it/s] 25%|██▍       | 2948/11858 [25:11<1:12:53,  2.04it/s] 25%|██▍       | 2949/11858 [25:12<1:12:46,  2.04it/s] 25%|██▍       | 2950/11858 [25:12<1:12:41,  2.04it/s]{'loss': 2.3615, 'grad_norm': 0.3701837658882141, 'learning_rate': 0.0009340880454171514, 'epoch': 3.48}
-                                                       25%|██▍       | 2950/11858 [25:12<1:12:41,  2.04it/s] 25%|██▍       | 2951/11858 [25:13<1:12:49,  2.04it/s] 25%|██▍       | 2952/11858 [25:13<1:12:51,  2.04it/s] 25%|██▍       | 2953/11858 [25:14<1:12:47,  2.04it/s] 25%|██▍       | 2954/11858 [25:14<1:12:48,  2.04it/s] 25%|██▍       | 2955/11858 [25:15<1:12:49,  2.04it/s] 25%|██▍       | 2956/11858 [25:15<1:12:44,  2.04it/s] 25%|██▍       | 2957/11858 [25:16<1:12:41,  2.04it/s] 25%|██▍       | 2958/11858 [25:16<1:12:44,  2.04it/s] 25%|██▍       | 2959/11858 [25:17<1:12:45,  2.04it/s] 25%|██▍       | 2960/11858 [25:17<1:12:40,  2.04it/s] 25%|██▍       | 2961/11858 [25:18<1:12:44,  2.04it/s] 25%|██▍       | 2962/11858 [25:18<1:12:44,  2.04it/s] 25%|██▍       | 2963/11858 [25:19<1:12:43,  2.04it/s] 25%|██▍       | 2964/11858 [25:19<1:12:45,  2.04it/s] 25%|██▌       | 2965/11858 [25:20<1:12:45,  2.04it/s] 25%|██▌       | 2966/11858 [25:20<1:12:43,  2.04it/s] 25%|██▌       | 2967/11858 [25:21<1:12:43,  2.04it/s] 25%|██▌       | 2968/11858 [25:21<1:12:42,  2.04it/s] 25%|██▌       | 2969/11858 [25:22<1:12:41,  2.04it/s] 25%|██▌       | 2970/11858 [25:22<1:12:45,  2.04it/s] 25%|██▌       | 2971/11858 [25:22<1:12:41,  2.04it/s] 25%|██▌       | 2972/11858 [25:23<1:12:39,  2.04it/s] 25%|██▌       | 2973/11858 [25:23<1:12:42,  2.04it/s] 25%|██▌       | 2974/11858 [25:24<1:12:40,  2.04it/s] 25%|██▌       | 2975/11858 [25:24<1:12:40,  2.04it/s]                                                      {'loss': 2.3416, 'grad_norm': 0.3338819146156311, 'learning_rate': 0.0009322502254699663, 'epoch': 3.51}
- 25%|██▌       | 2975/11858 [25:24<1:12:40,  2.04it/s] 25%|██▌       | 2976/11858 [25:25<1:12:46,  2.03it/s] 25%|██▌       | 2977/11858 [25:25<1:12:42,  2.04it/s] 25%|██▌       | 2978/11858 [25:26<1:12:40,  2.04it/s] 25%|██▌       | 2979/11858 [25:26<1:12:40,  2.04it/s] 25%|██▌       | 2980/11858 [25:27<1:12:37,  2.04it/s] 25%|██▌       | 2981/11858 [25:27<1:12:34,  2.04it/s] 25%|██▌       | 2982/11858 [25:28<1:12:36,  2.04it/s] 25%|██▌       | 2983/11858 [25:28<1:12:33,  2.04it/s] 25%|██▌       | 2984/11858 [25:29<1:12:31,  2.04it/s] 25%|██▌       | 2985/11858 [25:29<1:12:31,  2.04it/s] 25%|██▌       | 2986/11858 [25:30<1:12:31,  2.04it/s] 25%|██▌       | 2987/11858 [25:30<1:12:30,  2.04it/s] 25%|██▌       | 2988/11858 [25:31<1:12:27,  2.04it/s] 25%|██▌       | 2989/11858 [25:31<1:12:32,  2.04it/s] 25%|██▌       | 2990/11858 [25:32<1:12:36,  2.04it/s] 25%|██▌       | 2991/11858 [25:32<1:12:31,  2.04it/s] 25%|██▌       | 2992/11858 [25:33<1:12:30,  2.04it/s] 25%|██▌       | 2993/11858 [25:33<1:12:30,  2.04it/s] 25%|██▌       | 2994/11858 [25:34<1:12:27,  2.04it/s] 25%|██▌       | 2995/11858 [25:34<1:12:24,  2.04it/s] 25%|██▌       | 2996/11858 [25:35<1:12:27,  2.04it/s] 25%|██▌       | 2997/11858 [25:35<1:12:27,  2.04it/s] 25%|██▌       | 2998/11858 [25:36<1:12:23,  2.04it/s] 25%|██▌       | 2999/11858 [25:36<1:12:21,  2.04it/s] 25%|██▌       | 3000/11858 [25:37<1:12:23,  2.04it/s]{'loss': 2.3381, 'grad_norm': 0.3033614158630371, 'learning_rate': 0.0009303889944455369, 'epoch': 3.54}
-                                                       25%|██▌       | 3000/11858 [25:37<1:12:23,  2.04it/s] 25%|██▌       | 3001/11858 [25:37<1:12:27,  2.04it/s] 25%|██▌       | 3002/11858 [25:38<1:12:23,  2.04it/s] 25%|██▌       | 3003/11858 [25:38<1:12:20,  2.04it/s] 25%|██▌       | 3004/11858 [25:39<1:12:25,  2.04it/s] 25%|██▌       | 3005/11858 [25:39<1:12:24,  2.04it/s] 25%|██▌       | 3006/11858 [25:40<1:12:18,  2.04it/s] 25%|██▌       | 3007/11858 [25:40<1:12:20,  2.04it/s] 25%|██▌       | 3008/11858 [25:41<1:12:25,  2.04it/s] 25%|██▌       | 3009/11858 [25:41<1:12:22,  2.04it/s] 25%|██▌       | 3010/11858 [25:42<1:12:21,  2.04it/s] 25%|██▌       | 3011/11858 [25:42<1:12:18,  2.04it/s] 25%|██▌       | 3012/11858 [25:43<1:12:18,  2.04it/s] 25%|██▌       | 3013/11858 [25:43<1:12:18,  2.04it/s] 25%|██▌       | 3014/11858 [25:44<1:12:16,  2.04it/s] 25%|██▌       | 3015/11858 [25:44<1:12:20,  2.04it/s] 25%|██▌       | 3016/11858 [25:45<1:12:17,  2.04it/s] 25%|██▌       | 3017/11858 [25:45<1:12:19,  2.04it/s] 25%|██▌       | 3018/11858 [25:46<1:12:23,  2.04it/s] 25%|██▌       | 3019/11858 [25:46<1:12:17,  2.04it/s] 25%|██▌       | 3020/11858 [25:47<1:12:14,  2.04it/s] 25%|██▌       | 3021/11858 [25:47<1:12:15,  2.04it/s] 25%|██▌       | 3022/11858 [25:48<1:12:13,  2.04it/s] 25%|██▌       | 3023/11858 [25:48<1:12:07,  2.04it/s] 26%|██▌       | 3024/11858 [25:48<1:12:06,  2.04it/s] 26%|██▌       | 3025/11858 [25:49<1:12:13,  2.04it/s]{'loss': 2.3391, 'grad_norm': 0.31476178765296936, 'learning_rate': 0.0009285044531498796, 'epoch': 3.57}
-                                                       26%|██▌       | 3025/11858 [25:49<1:12:13,  2.04it/s] 26%|██▌       | 3026/11858 [25:49<1:12:13,  2.04it/s] 26%|██▌       | 3027/11858 [25:50<1:12:10,  2.04it/s] 26%|██▌       | 3028/11858 [25:50<1:12:11,  2.04it/s] 26%|██▌       | 3029/11858 [25:51<1:12:12,  2.04it/s] 26%|██▌       | 3030/11858 [25:51<1:12:11,  2.04it/s] 26%|██▌       | 3031/11858 [25:52<1:12:12,  2.04it/s] 26%|██▌       | 3032/11858 [25:52<1:12:08,  2.04it/s] 26%|██▌       | 3033/11858 [25:53<1:12:08,  2.04it/s] 26%|██▌       | 3034/11858 [25:53<1:12:07,  2.04it/s] 26%|██▌       | 3035/11858 [25:54<1:12:05,  2.04it/s] 26%|██▌       | 3036/11858 [25:54<1:12:05,  2.04it/s] 26%|██▌       | 3037/11858 [25:55<1:11:59,  2.04it/s] 26%|██▌       | 3038/11858 [25:55<1:11:58,  2.04it/s] 26%|██▌       | 3039/11858 [25:56<1:12:01,  2.04it/s] 26%|██▌       | 3040/11858 [25:56<1:11:56,  2.04it/s] 26%|██▌       | 3041/11858 [25:57<1:11:52,  2.04it/s] 26%|██▌       | 3042/11858 [25:57<1:11:56,  2.04it/s] 26%|██▌       | 3043/11858 [25:58<1:12:00,  2.04it/s] 26%|██▌       | 3044/11858 [25:58<1:11:53,  2.04it/s] 26%|██▌       | 3045/11858 [25:59<1:11:55,  2.04it/s] 26%|██▌       | 3046/11858 [25:59<1:11:55,  2.04it/s] 26%|██▌       | 3047/11858 [26:00<1:11:55,  2.04it/s] 26%|██▌       | 3048/11858 [26:00<1:11:51,  2.04it/s] 26%|██▌       | 3049/11858 [26:01<1:11:53,  2.04it/s] 26%|██▌       | 3050/11858 [26:01<1:11:54,  2.04it/s]{'loss': 2.3235, 'grad_norm': 0.3141777813434601, 'learning_rate': 0.000926596703651517, 'epoch': 3.6}
-                                                       26%|██▌       | 3050/11858 [26:01<1:11:54,  2.04it/s] 26%|██▌       | 3051/11858 [26:02<1:11:58,  2.04it/s] 26%|██▌       | 3052/11858 [26:02<1:11:55,  2.04it/s] 26%|██▌       | 3053/11858 [26:03<1:11:58,  2.04it/s] 26%|██▌       | 3054/11858 [26:03<1:12:00,  2.04it/s] 26%|██▌       | 3055/11858 [26:04<1:11:56,  2.04it/s] 26%|██▌       | 3056/11858 [26:04<1:11:52,  2.04it/s] 26%|██▌       | 3057/11858 [26:05<1:11:49,  2.04it/s] 26%|██▌       | 3058/11858 [26:05<1:11:51,  2.04it/s] 26%|██▌       | 3059/11858 [26:06<1:11:49,  2.04it/s] 26%|██▌       | 3060/11858 [26:06<1:11:50,  2.04it/s] 26%|██▌       | 3061/11858 [26:07<1:12:05,  2.03it/s] 26%|██▌       | 3062/11858 [26:07<1:12:08,  2.03it/s] 26%|██▌       | 3063/11858 [26:08<1:12:02,  2.03it/s] 26%|██▌       | 3064/11858 [26:08<1:11:55,  2.04it/s] 26%|██▌       | 3065/11858 [26:09<1:11:52,  2.04it/s] 26%|██▌       | 3066/11858 [26:09<1:11:53,  2.04it/s] 26%|██▌       | 3067/11858 [26:10<1:11:50,  2.04it/s] 26%|██▌       | 3068/11858 [26:10<1:11:48,  2.04it/s] 26%|██▌       | 3069/11858 [26:11<1:11:50,  2.04it/s] 26%|██▌       | 3070/11858 [26:11<1:11:46,  2.04it/s] 26%|██▌       | 3071/11858 [26:12<1:11:45,  2.04it/s] 26%|██▌       | 3072/11858 [26:12<1:11:46,  2.04it/s] 26%|██▌       | 3073/11858 [26:13<1:11:54,  2.04it/s] 26%|██▌       | 3074/11858 [26:13<1:11:47,  2.04it/s] 26%|██▌       | 3075/11858 [26:13<1:11:43,  2.04it/s]{'loss': 2.3337, 'grad_norm': 0.32079240679740906, 'learning_rate': 0.0009246658492759492, 'epoch': 3.63}
-                                                       26%|██▌       | 3075/11858 [26:13<1:11:43,  2.04it/s] 26%|██▌       | 3076/11858 [26:14<1:11:50,  2.04it/s] 26%|██▌       | 3077/11858 [26:14<1:11:49,  2.04it/s] 26%|██▌       | 3078/11858 [26:15<1:11:43,  2.04it/s] 26%|██▌       | 3079/11858 [26:15<1:11:41,  2.04it/s] 26%|██▌       | 3080/11858 [26:16<1:11:43,  2.04it/s] 26%|██▌       | 3081/11858 [26:16<1:11:41,  2.04it/s] 26%|██▌       | 3082/11858 [26:17<1:11:35,  2.04it/s] 26%|██▌       | 3083/11858 [26:17<1:11:35,  2.04it/s] 26%|██▌       | 3084/11858 [26:18<1:11:43,  2.04it/s] 26%|██▌       | 3085/11858 [26:18<1:11:43,  2.04it/s] 26%|██▌       | 3086/11858 [26:19<1:11:40,  2.04it/s] 26%|██▌       | 3087/11858 [26:19<1:11:39,  2.04it/s] 26%|██▌       | 3088/11858 [26:20<1:11:37,  2.04it/s] 26%|██▌       | 3089/11858 [26:20<1:11:32,  2.04it/s] 26%|██▌       | 3090/11858 [26:21<1:11:31,  2.04it/s] 26%|██▌       | 3091/11858 [26:21<1:11:31,  2.04it/s] 26%|██▌       | 3092/11858 [26:22<1:11:32,  2.04it/s] 26%|██▌       | 3093/11858 [26:22<1:11:31,  2.04it/s] 26%|██▌       | 3094/11858 [26:23<1:11:29,  2.04it/s] 26%|██▌       | 3095/11858 [26:23<1:11:38,  2.04it/s] 26%|██▌       | 3096/11858 [26:24<1:11:35,  2.04it/s] 26%|██▌       | 3097/11858 [26:24<1:11:36,  2.04it/s] 26%|██▌       | 3098/11858 [26:25<1:11:38,  2.04it/s] 26%|██▌       | 3099/11858 [26:25<1:11:37,  2.04it/s] 26%|██▌       | 3100/11858 [26:26<1:11:35,  2.04it/s]{'loss': 2.3299, 'grad_norm': 0.47901663184165955, 'learning_rate': 0.000922711994600059, 'epoch': 3.66}
-                                                       26%|██▌       | 3100/11858 [26:26<1:11:35,  2.04it/s] 26%|██▌       | 3101/11858 [26:26<1:11:39,  2.04it/s] 26%|██▌       | 3102/11858 [26:27<1:11:34,  2.04it/s] 26%|██▌       | 3103/11858 [26:27<1:11:39,  2.04it/s] 26%|██▌       | 3104/11858 [26:28<1:11:40,  2.04it/s] 26%|██▌       | 3105/11858 [26:28<1:11:40,  2.04it/s] 26%|██▌       | 3106/11858 [26:29<1:11:39,  2.04it/s] 26%|██▌       | 3107/11858 [26:29<1:11:33,  2.04it/s] 26%|██▌       | 3108/11858 [26:30<1:11:34,  2.04it/s] 26%|██▌       | 3109/11858 [26:30<1:11:33,  2.04it/s] 26%|██▌       | 3110/11858 [26:31<1:11:29,  2.04it/s] 26%|██▌       | 3111/11858 [26:31<1:11:29,  2.04it/s] 26%|██▌       | 3112/11858 [26:32<1:11:30,  2.04it/s] 26%|██▋       | 3113/11858 [26:32<1:11:28,  2.04it/s] 26%|██▋       | 3114/11858 [26:33<1:11:27,  2.04it/s] 26%|██▋       | 3115/11858 [26:33<1:11:32,  2.04it/s] 26%|██▋       | 3116/11858 [26:34<1:11:30,  2.04it/s] 26%|██▋       | 3117/11858 [26:34<1:11:26,  2.04it/s] 26%|██▋       | 3118/11858 [26:35<1:11:26,  2.04it/s] 26%|██▋       | 3119/11858 [26:35<1:11:21,  2.04it/s] 26%|██▋       | 3120/11858 [26:36<1:11:21,  2.04it/s] 26%|██▋       | 3121/11858 [26:36<1:11:19,  2.04it/s] 26%|██▋       | 3122/11858 [26:37<1:11:21,  2.04it/s] 26%|██▋       | 3123/11858 [26:37<1:11:17,  2.04it/s] 26%|██▋       | 3124/11858 [26:38<1:11:12,  2.04it/s] 26%|██▋       | 3125/11858 [26:38<1:11:15,  2.04it/s]{'loss': 2.3273, 'grad_norm': 0.31247371435165405, 'learning_rate': 0.0009207352454464459, 'epoch': 3.69}
-                                                       26%|██▋       | 3125/11858 [26:38<1:11:15,  2.04it/s] 26%|██▋       | 3126/11858 [26:38<1:11:23,  2.04it/s] 26%|██▋       | 3127/11858 [26:39<1:11:19,  2.04it/s] 26%|██▋       | 3128/11858 [26:39<1:11:16,  2.04it/s] 26%|██▋       | 3129/11858 [26:40<1:11:22,  2.04it/s] 26%|██▋       | 3130/11858 [26:40<1:11:21,  2.04it/s] 26%|██▋       | 3131/11858 [26:41<1:11:20,  2.04it/s] 26%|██▋       | 3132/11858 [26:41<1:11:15,  2.04it/s] 26%|██▋       | 3133/11858 [26:42<1:11:17,  2.04it/s] 26%|██▋       | 3134/11858 [26:42<1:11:20,  2.04it/s] 26%|██▋       | 3135/11858 [26:43<1:11:17,  2.04it/s] 26%|██▋       | 3136/11858 [26:43<1:11:12,  2.04it/s] 26%|██▋       | 3137/11858 [26:44<1:11:10,  2.04it/s] 26%|██▋       | 3138/11858 [26:44<1:11:13,  2.04it/s] 26%|██▋       | 3139/11858 [26:45<1:11:14,  2.04it/s] 26%|██▋       | 3140/11858 [26:45<1:11:14,  2.04it/s] 26%|██▋       | 3141/11858 [26:46<1:11:10,  2.04it/s] 26%|██▋       | 3142/11858 [26:46<1:11:11,  2.04it/s] 27%|██▋       | 3143/11858 [26:47<1:11:13,  2.04it/s] 27%|██▋       | 3144/11858 [26:47<1:11:09,  2.04it/s] 27%|██▋       | 3145/11858 [26:48<1:11:03,  2.04it/s] 27%|██▋       | 3146/11858 [26:48<1:11:02,  2.04it/s] 27%|██▋       | 3147/11858 [26:49<1:11:05,  2.04it/s] 27%|██▋       | 3148/11858 [26:49<1:11:06,  2.04it/s] 27%|██▋       | 3149/11858 [26:50<1:11:04,  2.04it/s] 27%|██▋       | 3150/11858 [26:50<1:11:01,  2.04it/s]{'loss': 2.3256, 'grad_norm': 0.3180261552333832, 'learning_rate': 0.0009187357088776968, 'epoch': 3.72}
-                                                       27%|██▋       | 3150/11858 [26:50<1:11:01,  2.04it/s] 27%|██▋       | 3151/11858 [26:51<1:11:11,  2.04it/s] 27%|██▋       | 3152/11858 [26:51<1:17:18,  1.88it/s] 27%|██▋       | 3153/11858 [26:52<1:15:20,  1.93it/s] 27%|██▋       | 3154/11858 [26:52<1:14:00,  1.96it/s] 27%|██▋       | 3155/11858 [26:53<1:13:10,  1.98it/s] 27%|██▋       | 3156/11858 [26:53<1:12:29,  2.00it/s] 27%|██▋       | 3157/11858 [26:54<1:12:00,  2.01it/s] 27%|██▋       | 3158/11858 [26:54<1:11:39,  2.02it/s] 27%|██▋       | 3159/11858 [26:55<1:11:28,  2.03it/s] 27%|██▋       | 3160/11858 [26:55<1:11:17,  2.03it/s] 27%|██▋       | 3161/11858 [26:56<1:11:11,  2.04it/s] 27%|██▋       | 3162/11858 [26:56<1:11:07,  2.04it/s] 27%|██▋       | 3163/11858 [26:57<1:11:05,  2.04it/s] 27%|██▋       | 3164/11858 [26:57<1:11:04,  2.04it/s] 27%|██▋       | 3165/11858 [26:58<1:11:01,  2.04it/s] 27%|██▋       | 3166/11858 [26:58<1:11:00,  2.04it/s] 27%|██▋       | 3167/11858 [26:59<1:11:03,  2.04it/s] 27%|██▋       | 3168/11858 [26:59<1:10:58,  2.04it/s] 27%|██▋       | 3169/11858 [27:00<1:10:52,  2.04it/s] 27%|██▋       | 3170/11858 [27:00<1:10:55,  2.04it/s] 27%|██▋       | 3171/11858 [27:01<1:10:55,  2.04it/s] 27%|██▋       | 3172/11858 [27:01<1:10:57,  2.04it/s] 27%|██▋       | 3173/11858 [27:02<1:10:56,  2.04it/s] 27%|██▋       | 3174/11858 [27:02<1:10:58,  2.04it/s] 27%|██▋       | 3175/11858 [27:03<1:10:58,  2.04it/s]{'loss': 2.333, 'grad_norm': 0.31456613540649414, 'learning_rate': 0.0009167134931905856, 'epoch': 3.75}
-                                                       27%|██▋       | 3175/11858 [27:03<1:10:58,  2.04it/s] 27%|██▋       | 3176/11858 [27:03<1:11:06,  2.03it/s] 27%|██▋       | 3177/11858 [27:04<1:11:03,  2.04it/s] 27%|██▋       | 3178/11858 [27:04<1:10:59,  2.04it/s] 27%|██▋       | 3179/11858 [27:05<1:10:55,  2.04it/s] 27%|██▋       | 3180/11858 [27:05<1:10:54,  2.04it/s] 27%|██▋       | 3181/11858 [27:06<1:10:53,  2.04it/s] 27%|██▋       | 3182/11858 [27:06<1:10:50,  2.04it/s] 27%|██▋       | 3183/11858 [27:07<1:10:53,  2.04it/s] 27%|██▋       | 3184/11858 [27:07<1:10:54,  2.04it/s] 27%|██▋       | 3185/11858 [27:08<1:10:54,  2.04it/s] 27%|██▋       | 3186/11858 [27:08<1:16:54,  1.88it/s] 27%|██▋       | 3187/11858 [27:09<1:15:06,  1.92it/s] 27%|██▋       | 3188/11858 [27:09<1:13:49,  1.96it/s] 27%|██▋       | 3189/11858 [27:10<1:12:52,  1.98it/s] 27%|██▋       | 3190/11858 [27:10<1:12:10,  2.00it/s] 27%|██▋       | 3191/11858 [27:11<1:11:44,  2.01it/s] 27%|██▋       | 3192/11858 [27:11<1:11:26,  2.02it/s] 27%|██▋       | 3193/11858 [27:12<1:11:11,  2.03it/s] 27%|██▋       | 3194/11858 [27:12<1:11:02,  2.03it/s] 27%|██▋       | 3195/11858 [27:13<1:10:57,  2.03it/s] 27%|██▋       | 3196/11858 [27:13<1:10:54,  2.04it/s] 27%|██▋       | 3197/11858 [27:14<1:10:49,  2.04it/s] 27%|██▋       | 3198/11858 [27:14<1:10:44,  2.04it/s] 27%|██▋       | 3199/11858 [27:15<1:10:43,  2.04it/s] 27%|██▋       | 3200/11858 [27:15<1:10:45,  2.04it/s]                                                      {'loss': 2.3043, 'grad_norm': 0.3235188126564026, 'learning_rate': 0.000914668707910209, 'epoch': 3.78}
- 27%|██▋       | 3200/11858 [27:15<1:10:45,  2.04it/s] 27%|██▋       | 3201/11858 [27:16<1:10:46,  2.04it/s] 27%|██▋       | 3202/11858 [27:16<1:10:42,  2.04it/s] 27%|██▋       | 3203/11858 [27:17<1:10:43,  2.04it/s] 27%|██▋       | 3204/11858 [27:17<1:10:42,  2.04it/s] 27%|██▋       | 3205/11858 [27:17<1:10:37,  2.04it/s] 27%|██▋       | 3206/11858 [27:18<1:10:34,  2.04it/s] 27%|██▋       | 3207/11858 [27:18<1:10:38,  2.04it/s] 27%|██▋       | 3208/11858 [27:19<1:10:39,  2.04it/s] 27%|██▋       | 3209/11858 [27:19<1:10:34,  2.04it/s] 27%|██▋       | 3210/11858 [27:20<1:10:32,  2.04it/s] 27%|██▋       | 3211/11858 [27:20<1:10:35,  2.04it/s] 27%|██▋       | 3212/11858 [27:21<1:10:34,  2.04it/s] 27%|██▋       | 3213/11858 [27:21<1:10:35,  2.04it/s] 27%|██▋       | 3214/11858 [27:22<1:10:33,  2.04it/s] 27%|██▋       | 3215/11858 [27:22<1:10:39,  2.04it/s] 27%|██▋       | 3216/11858 [27:23<1:10:38,  2.04it/s] 27%|██▋       | 3217/11858 [27:23<1:10:36,  2.04it/s] 27%|██▋       | 3218/11858 [27:24<1:10:34,  2.04it/s] 27%|██▋       | 3219/11858 [27:24<1:10:34,  2.04it/s] 27%|██▋       | 3220/11858 [27:25<1:10:29,  2.04it/s] 27%|██▋       | 3221/11858 [27:25<1:10:28,  2.04it/s] 27%|██▋       | 3222/11858 [27:26<1:10:32,  2.04it/s] 27%|██▋       | 3223/11858 [27:26<1:10:31,  2.04it/s] 27%|██▋       | 3224/11858 [27:27<1:10:28,  2.04it/s] 27%|██▋       | 3225/11858 [27:27<1:10:27,  2.04it/s]{'loss': 2.3161, 'grad_norm': 0.34442099928855896, 'learning_rate': 0.0009126014637840537, 'epoch': 3.81}
-                                                       27%|██▋       | 3225/11858 [27:27<1:10:27,  2.04it/s] 27%|██▋       | 3226/11858 [27:28<1:10:32,  2.04it/s] 27%|██▋       | 3227/11858 [27:28<1:10:33,  2.04it/s] 27%|██▋       | 3228/11858 [27:29<1:10:29,  2.04it/s] 27%|██▋       | 3229/11858 [27:29<1:10:27,  2.04it/s] 27%|██▋       | 3230/11858 [27:30<1:10:30,  2.04it/s] 27%|██▋       | 3231/11858 [27:30<1:10:26,  2.04it/s] 27%|██▋       | 3232/11858 [27:31<1:10:28,  2.04it/s] 27%|██▋       | 3233/11858 [27:31<1:10:29,  2.04it/s] 27%|██▋       | 3234/11858 [27:32<1:10:23,  2.04it/s] 27%|██▋       | 3235/11858 [27:32<1:10:19,  2.04it/s] 27%|██▋       | 3236/11858 [27:33<1:10:16,  2.04it/s] 27%|██▋       | 3237/11858 [27:33<1:10:21,  2.04it/s] 27%|██▋       | 3238/11858 [27:34<1:10:22,  2.04it/s] 27%|██▋       | 3239/11858 [27:34<1:10:18,  2.04it/s] 27%|██▋       | 3240/11858 [27:35<1:10:17,  2.04it/s] 27%|██▋       | 3241/11858 [27:35<1:10:20,  2.04it/s] 27%|██▋       | 3242/11858 [27:36<1:10:19,  2.04it/s] 27%|██▋       | 3243/11858 [27:36<1:10:15,  2.04it/s] 27%|██▋       | 3244/11858 [27:37<1:10:17,  2.04it/s] 27%|██▋       | 3245/11858 [27:37<1:10:21,  2.04it/s] 27%|██▋       | 3246/11858 [27:38<1:10:19,  2.04it/s] 27%|██▋       | 3247/11858 [27:38<1:10:18,  2.04it/s] 27%|██▋       | 3248/11858 [27:39<1:10:20,  2.04it/s] 27%|██▋       | 3249/11858 [27:39<1:10:21,  2.04it/s] 27%|██▋       | 3250/11858 [27:40<1:10:20,  2.04it/s]{'loss': 2.2994, 'grad_norm': 0.3034830391407013, 'learning_rate': 0.0009105118727759984, 'epoch': 3.83}
-                                                       27%|██▋       | 3250/11858 [27:40<1:10:20,  2.04it/s] 27%|██▋       | 3251/11858 [27:40<1:10:28,  2.04it/s] 27%|██▋       | 3252/11858 [27:41<1:10:23,  2.04it/s] 27%|██▋       | 3253/11858 [27:41<1:10:19,  2.04it/s] 27%|██▋       | 3254/11858 [27:41<1:10:18,  2.04it/s] 27%|██▋       | 3255/11858 [27:42<1:10:18,  2.04it/s] 27%|██▋       | 3256/11858 [27:42<1:10:16,  2.04it/s] 27%|██▋       | 3257/11858 [27:43<1:10:15,  2.04it/s] 27%|██▋       | 3258/11858 [27:43<1:10:16,  2.04it/s] 27%|██▋       | 3259/11858 [27:44<1:10:14,  2.04it/s] 27%|██▋       | 3260/11858 [27:44<1:10:12,  2.04it/s] 28%|██▊       | 3261/11858 [27:45<1:10:12,  2.04it/s] 28%|██▊       | 3262/11858 [27:45<1:10:12,  2.04it/s] 28%|██▊       | 3263/11858 [27:46<1:10:08,  2.04it/s] 28%|██▊       | 3264/11858 [27:46<1:10:04,  2.04it/s] 28%|██▊       | 3265/11858 [27:47<1:10:06,  2.04it/s] 28%|██▊       | 3266/11858 [27:47<1:10:09,  2.04it/s] 28%|██▊       | 3267/11858 [27:48<1:10:08,  2.04it/s] 28%|██▊       | 3268/11858 [27:48<1:10:06,  2.04it/s] 28%|██▊       | 3269/11858 [27:49<1:10:04,  2.04it/s] 28%|██▊       | 3270/11858 [27:49<1:10:09,  2.04it/s] 28%|██▊       | 3271/11858 [27:50<1:10:08,  2.04it/s] 28%|██▊       | 3272/11858 [27:50<1:10:03,  2.04it/s] 28%|██▊       | 3273/11858 [27:51<1:10:05,  2.04it/s] 28%|██▊       | 3274/11858 [27:51<1:10:25,  2.03it/s] 28%|██▊       | 3275/11858 [27:52<1:10:20,  2.03it/s]{'loss': 2.3151, 'grad_norm': 0.3910768926143646, 'learning_rate': 0.0009084000480602505, 'epoch': 3.86}
-                                                       28%|██▊       | 3275/11858 [27:52<1:10:20,  2.03it/s] 28%|██▊       | 3276/11858 [27:52<1:10:23,  2.03it/s] 28%|██▊       | 3277/11858 [27:53<1:10:18,  2.03it/s] 28%|██▊       | 3278/11858 [27:53<1:10:14,  2.04it/s] 28%|██▊       | 3279/11858 [27:54<1:10:10,  2.04it/s] 28%|██▊       | 3280/11858 [27:54<1:10:04,  2.04it/s] 28%|██▊       | 3281/11858 [27:55<1:10:04,  2.04it/s] 28%|██▊       | 3282/11858 [27:55<1:10:06,  2.04it/s] 28%|██▊       | 3283/11858 [27:56<1:10:04,  2.04it/s] 28%|██▊       | 3284/11858 [27:56<1:09:59,  2.04it/s] 28%|██▊       | 3285/11858 [27:57<1:10:01,  2.04it/s] 28%|██▊       | 3286/11858 [27:57<1:10:02,  2.04it/s] 28%|██▊       | 3287/11858 [27:58<1:09:59,  2.04it/s] 28%|██▊       | 3288/11858 [27:58<1:09:56,  2.04it/s] 28%|██▊       | 3289/11858 [27:59<1:09:56,  2.04it/s] 28%|██▊       | 3290/11858 [27:59<1:09:58,  2.04it/s] 28%|██▊       | 3291/11858 [28:00<1:09:52,  2.04it/s] 28%|██▊       | 3292/11858 [28:00<1:09:47,  2.05it/s] 28%|██▊       | 3293/11858 [28:01<1:09:47,  2.05it/s] 28%|██▊       | 3294/11858 [28:01<1:09:53,  2.04it/s] 28%|██▊       | 3295/11858 [28:02<1:09:49,  2.04it/s] 28%|██▊       | 3296/11858 [28:02<1:09:43,  2.05it/s] 28%|██▊       | 3297/11858 [28:03<1:09:43,  2.05it/s] 28%|██▊       | 3298/11858 [28:03<1:09:46,  2.04it/s] 28%|██▊       | 3299/11858 [28:04<1:09:46,  2.04it/s] 28%|██▊       | 3300/11858 [28:04<1:09:45,  2.04it/s]{'loss': 2.2847, 'grad_norm': 0.36067256331443787, 'learning_rate': 0.0009062661040152156, 'epoch': 3.89}
-                                                       28%|██▊       | 3300/11858 [28:04<1:09:45,  2.04it/s] 28%|██▊       | 3301/11858 [28:05<1:09:55,  2.04it/s] 28%|██▊       | 3302/11858 [28:05<1:09:53,  2.04it/s] 28%|██▊       | 3303/11858 [28:06<1:09:50,  2.04it/s] 28%|██▊       | 3304/11858 [28:06<1:09:50,  2.04it/s] 28%|██▊       | 3305/11858 [28:06<1:09:54,  2.04it/s] 28%|██▊       | 3306/11858 [28:07<1:09:51,  2.04it/s] 28%|██▊       | 3307/11858 [28:07<1:09:49,  2.04it/s] 28%|██▊       | 3308/11858 [28:08<1:09:49,  2.04it/s] 28%|██▊       | 3309/11858 [28:08<1:09:48,  2.04it/s] 28%|██▊       | 3310/11858 [28:09<1:09:49,  2.04it/s] 28%|██▊       | 3311/11858 [28:09<1:09:42,  2.04it/s] 28%|██▊       | 3312/11858 [28:10<1:09:44,  2.04it/s] 28%|██▊       | 3313/11858 [28:10<1:09:45,  2.04it/s] 28%|██▊       | 3314/11858 [28:11<1:09:47,  2.04it/s] 28%|██▊       | 3315/11858 [28:11<1:09:44,  2.04it/s] 28%|██▊       | 3316/11858 [28:12<1:09:45,  2.04it/s] 28%|██▊       | 3317/11858 [28:12<1:09:42,  2.04it/s] 28%|██▊       | 3318/11858 [28:13<1:09:43,  2.04it/s] 28%|██▊       | 3319/11858 [28:13<1:09:43,  2.04it/s] 28%|██▊       | 3320/11858 [28:14<1:09:42,  2.04it/s] 28%|██▊       | 3321/11858 [28:14<1:09:41,  2.04it/s] 28%|██▊       | 3322/11858 [28:15<1:09:39,  2.04it/s] 28%|██▊       | 3323/11858 [28:15<1:09:37,  2.04it/s] 28%|██▊       | 3324/11858 [28:16<1:09:37,  2.04it/s] 28%|██▊       | 3325/11858 [28:16<1:09:33,  2.04it/s]{'loss': 2.2766, 'grad_norm': 0.2966187596321106, 'learning_rate': 0.0009041101562173022, 'epoch': 3.92}
-                                                       28%|██▊       | 3325/11858 [28:16<1:09:33,  2.04it/s] 28%|██▊       | 3326/11858 [28:17<1:09:41,  2.04it/s] 28%|██▊       | 3327/11858 [28:17<1:09:44,  2.04it/s] 28%|██▊       | 3328/11858 [28:18<1:09:40,  2.04it/s] 28%|██▊       | 3329/11858 [28:18<1:09:39,  2.04it/s] 28%|██▊       | 3330/11858 [28:19<1:09:41,  2.04it/s] 28%|██▊       | 3331/11858 [28:19<1:09:37,  2.04it/s] 28%|██▊       | 3332/11858 [28:20<1:09:33,  2.04it/s] 28%|██▊       | 3333/11858 [28:20<1:09:31,  2.04it/s] 28%|██▊       | 3334/11858 [28:21<1:09:36,  2.04it/s] 28%|██▊       | 3335/11858 [28:21<1:09:37,  2.04it/s] 28%|██▊       | 3336/11858 [28:22<1:09:30,  2.04it/s] 28%|██▊       | 3337/11858 [28:22<1:09:28,  2.04it/s] 28%|██▊       | 3338/11858 [28:23<1:09:34,  2.04it/s] 28%|██▊       | 3339/11858 [28:23<1:09:35,  2.04it/s] 28%|██▊       | 3340/11858 [28:24<1:09:30,  2.04it/s] 28%|██▊       | 3341/11858 [28:24<1:09:29,  2.04it/s] 28%|██▊       | 3342/11858 [28:25<1:09:33,  2.04it/s] 28%|██▊       | 3343/11858 [28:25<1:09:31,  2.04it/s] 28%|██▊       | 3344/11858 [28:26<1:09:26,  2.04it/s] 28%|██▊       | 3345/11858 [28:26<1:09:21,  2.05it/s] 28%|██▊       | 3346/11858 [28:27<1:09:24,  2.04it/s] 28%|██▊       | 3347/11858 [28:27<1:09:29,  2.04it/s] 28%|██▊       | 3348/11858 [28:28<1:09:31,  2.04it/s] 28%|██▊       | 3349/11858 [28:28<1:09:28,  2.04it/s] 28%|██▊       | 3350/11858 [28:29<1:09:33,  2.04it/s]{'loss': 2.2906, 'grad_norm': 0.3679642975330353, 'learning_rate': 0.0009019323214346635, 'epoch': 3.95}
-                                                       28%|██▊       | 3350/11858 [28:29<1:09:33,  2.04it/s] 28%|██▊       | 3351/11858 [28:29<1:09:36,  2.04it/s] 28%|██▊       | 3352/11858 [28:30<1:09:28,  2.04it/s] 28%|██▊       | 3353/11858 [28:30<1:09:27,  2.04it/s] 28%|██▊       | 3354/11858 [28:30<1:09:30,  2.04it/s] 28%|██▊       | 3355/11858 [28:31<1:09:28,  2.04it/s] 28%|██▊       | 3356/11858 [28:31<1:09:27,  2.04it/s] 28%|██▊       | 3357/11858 [28:32<1:09:25,  2.04it/s] 28%|██▊       | 3358/11858 [28:32<1:09:26,  2.04it/s] 28%|██▊       | 3359/11858 [28:33<1:09:29,  2.04it/s] 28%|██▊       | 3360/11858 [28:33<1:09:23,  2.04it/s] 28%|██▊       | 3361/11858 [28:34<1:09:28,  2.04it/s] 28%|██▊       | 3362/11858 [28:34<1:09:30,  2.04it/s] 28%|██▊       | 3363/11858 [28:35<1:09:24,  2.04it/s] 28%|██▊       | 3364/11858 [28:35<1:09:26,  2.04it/s] 28%|██▊       | 3365/11858 [28:36<1:09:25,  2.04it/s] 28%|██▊       | 3366/11858 [28:36<1:09:23,  2.04it/s] 28%|██▊       | 3367/11858 [28:37<1:09:22,  2.04it/s] 28%|██▊       | 3368/11858 [28:37<1:09:24,  2.04it/s] 28%|██▊       | 3369/11858 [28:38<1:09:22,  2.04it/s] 28%|██▊       | 3370/11858 [28:38<1:09:25,  2.04it/s] 28%|██▊       | 3371/11858 [28:39<1:09:25,  2.04it/s] 28%|██▊       | 3372/11858 [28:39<1:09:21,  2.04it/s] 28%|██▊       | 3373/11858 [28:40<1:09:18,  2.04it/s] 28%|██▊       | 3374/11858 [28:40<1:09:21,  2.04it/s] 28%|██▊       | 3375/11858 [28:41<1:09:19,  2.04it/s]{'loss': 2.2977, 'grad_norm': 0.2976699769496918, 'learning_rate': 0.0008997327176208723, 'epoch': 3.98}
-                                                       28%|██▊       | 3375/11858 [28:41<1:09:19,  2.04it/s] 28%|██▊       | 3376/11858 [28:41<1:09:18,  2.04it/s] 28%|██▊       | 3377/11858 [28:42<1:09:18,  2.04it/s] 28%|██▊       | 3378/11858 [28:42<1:09:16,  2.04it/s] 28%|██▊       | 3379/11858 [28:43<1:09:14,  2.04it/s] 29%|██▊       | 3380/11858 [28:43<1:09:10,  2.04it/s] 29%|██▊       | 3381/11858 [28:44<1:09:15,  2.04it/s] 29%|██▊       | 3382/11858 [28:44<1:09:10,  2.04it/s] 29%|██▊       | 3383/11858 [28:45<1:09:08,  2.04it/s] 29%|██▊       | 3384/11858 [28:45<1:09:04,  2.04it/s] 29%|██▊       | 3385/11858 [28:46<1:09:02,  2.05it/s] 29%|██▊       | 3386/11858 [28:46<1:09:07,  2.04it/s] 29%|██▊       | 3387/11858 [28:47<1:09:06,  2.04it/s] 29%|██▊       | 3388/11858 [28:47<1:09:03,  2.04it/s] 29%|██▊       | 3389/11858 [28:48<1:09:03,  2.04it/s] 29%|██▊       | 3390/11858 [28:48<1:08:46,  2.05it/s] 29%|██▊       | 3391/11858 [29:00<9:13:07,  3.92s/it] 29%|██▊       | 3392/11858 [29:01<6:47:53,  2.89s/it] 29%|██▊       | 3393/11858 [29:01<5:06:13,  2.17s/it] 29%|██▊       | 3394/11858 [29:02<3:55:04,  1.67s/it] 29%|██▊       | 3395/11858 [29:02<3:05:15,  1.31s/it] 29%|██▊       | 3396/11858 [29:03<2:30:38,  1.07s/it] 29%|██▊       | 3397/11858 [29:03<2:06:13,  1.12it/s] 29%|██▊       | 3398/11858 [29:03<1:49:10,  1.29it/s] 29%|██▊       | 3399/11858 [29:04<1:37:25,  1.45it/s] 29%|██▊       | 3400/11858 [29:04<1:28:58,  1.58it/s]                                                      {'loss': 2.2139, 'grad_norm': 0.367125004529953, 'learning_rate': 0.0008975114639085317, 'epoch': 4.01}
- 29%|██▊       | 3400/11858 [29:04<1:28:58,  1.58it/s] 29%|██▊       | 3401/11858 [29:05<1:23:05,  1.70it/s] 29%|██▊       | 3402/11858 [29:05<1:18:53,  1.79it/s] 29%|██▊       | 3403/11858 [29:06<1:16:01,  1.85it/s] 29%|██▊       | 3404/11858 [29:06<1:13:56,  1.91it/s] 29%|██▊       | 3405/11858 [29:07<1:12:30,  1.94it/s] 29%|██▊       | 3406/11858 [29:07<1:11:37,  1.97it/s] 29%|██▊       | 3407/11858 [29:08<1:10:54,  1.99it/s] 29%|██▊       | 3408/11858 [29:08<1:10:28,  2.00it/s] 29%|██▊       | 3409/11858 [29:09<1:10:10,  2.01it/s] 29%|██▉       | 3410/11858 [29:09<1:09:52,  2.01it/s] 29%|██▉       | 3411/11858 [29:10<1:09:38,  2.02it/s] 29%|██▉       | 3412/11858 [29:10<1:09:32,  2.02it/s] 29%|██▉       | 3413/11858 [29:11<1:09:30,  2.03it/s] 29%|██▉       | 3414/11858 [29:11<1:09:29,  2.03it/s] 29%|██▉       | 3415/11858 [29:12<1:09:17,  2.03it/s] 29%|██▉       | 3416/11858 [29:12<1:09:13,  2.03it/s] 29%|██▉       | 3417/11858 [29:13<1:09:08,  2.03it/s] 29%|██▉       | 3418/11858 [29:13<1:09:05,  2.04it/s] 29%|██▉       | 3419/11858 [29:14<1:08:57,  2.04it/s] 29%|██▉       | 3420/11858 [29:14<1:08:56,  2.04it/s] 29%|██▉       | 3421/11858 [29:15<1:08:57,  2.04it/s] 29%|██▉       | 3422/11858 [29:15<1:08:54,  2.04it/s] 29%|██▉       | 3423/11858 [29:16<1:08:51,  2.04it/s] 29%|██▉       | 3424/11858 [29:16<1:08:50,  2.04it/s] 29%|██▉       | 3425/11858 [29:17<1:08:53,  2.04it/s]                                                      {'loss': 2.1199, 'grad_norm': 0.36244916915893555, 'learning_rate': 0.0008952686806028246, 'epoch': 4.04}
- 29%|██▉       | 3425/11858 [29:17<1:08:53,  2.04it/s] 29%|██▉       | 3426/11858 [29:17<1:08:55,  2.04it/s] 29%|██▉       | 3427/11858 [29:18<1:08:51,  2.04it/s] 29%|██▉       | 3428/11858 [29:18<1:08:55,  2.04it/s] 29%|██▉       | 3429/11858 [29:19<1:08:53,  2.04it/s] 29%|██▉       | 3430/11858 [29:19<1:08:48,  2.04it/s] 29%|██▉       | 3431/11858 [29:20<1:08:56,  2.04it/s] 29%|██▉       | 3432/11858 [29:20<1:08:53,  2.04it/s] 29%|██▉       | 3433/11858 [29:21<1:08:52,  2.04it/s] 29%|██▉       | 3434/11858 [29:21<1:08:54,  2.04it/s] 29%|██▉       | 3435/11858 [29:22<1:08:53,  2.04it/s] 29%|██▉       | 3436/11858 [29:22<1:08:48,  2.04it/s] 29%|██▉       | 3437/11858 [29:23<1:08:48,  2.04it/s] 29%|██▉       | 3438/11858 [29:23<1:08:50,  2.04it/s] 29%|██▉       | 3439/11858 [29:24<1:08:48,  2.04it/s] 29%|██▉       | 3440/11858 [29:24<1:08:48,  2.04it/s] 29%|██▉       | 3441/11858 [29:25<1:08:50,  2.04it/s] 29%|██▉       | 3442/11858 [29:25<1:08:51,  2.04it/s] 29%|██▉       | 3443/11858 [29:26<1:08:48,  2.04it/s] 29%|██▉       | 3444/11858 [29:26<1:08:49,  2.04it/s] 29%|██▉       | 3445/11858 [29:27<1:08:46,  2.04it/s] 29%|██▉       | 3446/11858 [29:27<1:08:43,  2.04it/s] 29%|██▉       | 3447/11858 [29:28<1:08:47,  2.04it/s] 29%|██▉       | 3448/11858 [29:28<1:08:44,  2.04it/s] 29%|██▉       | 3449/11858 [29:29<1:08:42,  2.04it/s] 29%|██▉       | 3450/11858 [29:29<1:08:40,  2.04it/s]{'loss': 2.1411, 'grad_norm': 0.3237828016281128, 'learning_rate': 0.0008930044891749962, 'epoch': 4.07}
-                                                       29%|██▉       | 3450/11858 [29:29<1:08:40,  2.04it/s] 29%|██▉       | 3451/11858 [29:30<1:08:47,  2.04it/s] 29%|██▉       | 3452/11858 [29:30<1:08:44,  2.04it/s] 29%|██▉       | 3453/11858 [29:30<1:08:49,  2.04it/s] 29%|██▉       | 3454/11858 [29:31<1:08:48,  2.04it/s] 29%|██▉       | 3455/11858 [29:31<1:08:50,  2.03it/s] 29%|██▉       | 3456/11858 [29:32<1:08:49,  2.03it/s] 29%|██▉       | 3457/11858 [29:32<1:08:42,  2.04it/s] 29%|██▉       | 3458/11858 [29:33<1:08:41,  2.04it/s] 29%|██▉       | 3459/11858 [29:33<1:08:38,  2.04it/s] 29%|██▉       | 3460/11858 [29:34<1:08:38,  2.04it/s] 29%|██▉       | 3461/11858 [29:34<1:08:35,  2.04it/s] 29%|██▉       | 3462/11858 [29:35<1:08:31,  2.04it/s] 29%|██▉       | 3463/11858 [29:35<1:08:32,  2.04it/s] 29%|██▉       | 3464/11858 [29:36<1:08:36,  2.04it/s] 29%|██▉       | 3465/11858 [29:36<1:08:36,  2.04it/s] 29%|██▉       | 3466/11858 [29:37<1:08:31,  2.04it/s] 29%|██▉       | 3467/11858 [29:37<1:08:35,  2.04it/s] 29%|██▉       | 3468/11858 [29:38<1:08:36,  2.04it/s] 29%|██▉       | 3469/11858 [29:38<1:08:31,  2.04it/s] 29%|██▉       | 3470/11858 [29:39<1:08:33,  2.04it/s] 29%|██▉       | 3471/11858 [29:39<1:08:37,  2.04it/s] 29%|██▉       | 3472/11858 [29:40<1:08:37,  2.04it/s] 29%|██▉       | 3473/11858 [29:40<1:08:30,  2.04it/s] 29%|██▉       | 3474/11858 [29:41<1:08:32,  2.04it/s] 29%|██▉       | 3475/11858 [29:41<1:08:34,  2.04it/s]{'loss': 2.1524, 'grad_norm': 0.3269624412059784, 'learning_rate': 0.000890719012255776, 'epoch': 4.1}
-                                                       29%|██▉       | 3475/11858 [29:41<1:08:34,  2.04it/s] 29%|██▉       | 3476/11858 [29:42<1:08:34,  2.04it/s] 29%|██▉       | 3477/11858 [29:42<1:08:31,  2.04it/s] 29%|██▉       | 3478/11858 [29:43<1:08:36,  2.04it/s] 29%|██▉       | 3479/11858 [29:43<1:08:32,  2.04it/s] 29%|██▉       | 3480/11858 [29:44<1:08:25,  2.04it/s] 29%|██▉       | 3481/11858 [29:44<1:08:29,  2.04it/s] 29%|██▉       | 3482/11858 [29:45<1:08:28,  2.04it/s] 29%|██▉       | 3483/11858 [29:45<1:08:24,  2.04it/s] 29%|██▉       | 3484/11858 [29:46<1:08:22,  2.04it/s] 29%|██▉       | 3485/11858 [29:46<1:08:26,  2.04it/s] 29%|██▉       | 3486/11858 [29:47<1:08:26,  2.04it/s] 29%|██▉       | 3487/11858 [29:47<1:08:29,  2.04it/s] 29%|██▉       | 3488/11858 [29:48<1:08:30,  2.04it/s] 29%|██▉       | 3489/11858 [29:48<1:08:26,  2.04it/s] 29%|██▉       | 3490/11858 [29:49<1:08:22,  2.04it/s] 29%|██▉       | 3491/11858 [29:49<1:08:23,  2.04it/s] 29%|██▉       | 3492/11858 [29:50<1:08:22,  2.04it/s] 29%|██▉       | 3493/11858 [29:50<1:08:22,  2.04it/s] 29%|██▉       | 3494/11858 [29:51<1:08:20,  2.04it/s] 29%|██▉       | 3495/11858 [29:51<1:08:22,  2.04it/s] 29%|██▉       | 3496/11858 [29:52<1:08:16,  2.04it/s] 29%|██▉       | 3497/11858 [29:52<1:08:19,  2.04it/s] 29%|██▉       | 3498/11858 [29:53<1:08:22,  2.04it/s] 30%|██▉       | 3499/11858 [29:53<1:08:20,  2.04it/s] 30%|██▉       | 3500/11858 [29:54<1:08:18,  2.04it/s]{'loss': 2.1607, 'grad_norm': 0.30706411600112915, 'learning_rate': 0.0008884123736287353, 'epoch': 4.13}
-                                                       30%|██▉       | 3500/11858 [29:54<1:08:18,  2.04it/s] 30%|██▉       | 3501/11858 [29:54<1:08:26,  2.04it/s] 30%|██▉       | 3502/11858 [29:55<1:08:19,  2.04it/s] 30%|██▉       | 3503/11858 [29:55<1:08:18,  2.04it/s] 30%|██▉       | 3504/11858 [29:56<1:08:15,  2.04it/s] 30%|██▉       | 3505/11858 [29:56<1:08:14,  2.04it/s] 30%|██▉       | 3506/11858 [29:56<1:08:07,  2.04it/s] 30%|██▉       | 3507/11858 [29:57<1:08:05,  2.04it/s] 30%|██▉       | 3508/11858 [29:57<1:08:08,  2.04it/s] 30%|██▉       | 3509/11858 [29:58<1:08:10,  2.04it/s] 30%|██▉       | 3510/11858 [29:58<1:08:06,  2.04it/s] 30%|██▉       | 3511/11858 [29:59<1:08:02,  2.04it/s] 30%|██▉       | 3512/11858 [29:59<1:08:06,  2.04it/s] 30%|██▉       | 3513/11858 [30:00<1:08:08,  2.04it/s] 30%|██▉       | 3514/11858 [30:00<1:08:09,  2.04it/s] 30%|██▉       | 3515/11858 [30:01<1:08:05,  2.04it/s] 30%|██▉       | 3516/11858 [30:01<1:08:09,  2.04it/s] 30%|██▉       | 3517/11858 [30:02<1:08:09,  2.04it/s] 30%|██▉       | 3518/11858 [30:02<1:08:08,  2.04it/s] 30%|██▉       | 3519/11858 [30:03<1:08:13,  2.04it/s] 30%|██▉       | 3520/11858 [30:03<1:08:13,  2.04it/s] 30%|██▉       | 3521/11858 [30:04<1:08:09,  2.04it/s] 30%|██▉       | 3522/11858 [30:04<1:08:08,  2.04it/s] 30%|██▉       | 3523/11858 [30:05<1:08:08,  2.04it/s] 30%|██▉       | 3524/11858 [30:05<1:08:10,  2.04it/s] 30%|██▉       | 3525/11858 [30:06<1:08:07,  2.04it/s]                                                      {'loss': 2.1369, 'grad_norm': 0.3914031982421875, 'learning_rate': 0.0008860846982235838, 'epoch': 4.16}
- 30%|██▉       | 3525/11858 [30:06<1:08:07,  2.04it/s] 30%|██▉       | 3526/11858 [30:06<1:08:13,  2.04it/s] 30%|██▉       | 3527/11858 [30:07<1:08:11,  2.04it/s] 30%|██▉       | 3528/11858 [30:07<1:08:08,  2.04it/s] 30%|██▉       | 3529/11858 [30:08<1:08:00,  2.04it/s] 30%|██▉       | 3530/11858 [30:08<1:07:59,  2.04it/s] 30%|██▉       | 3531/11858 [30:09<1:08:01,  2.04it/s] 30%|██▉       | 3532/11858 [30:09<1:08:04,  2.04it/s] 30%|██▉       | 3533/11858 [30:10<1:08:04,  2.04it/s] 30%|██▉       | 3534/11858 [30:10<1:08:06,  2.04it/s] 30%|██▉       | 3535/11858 [30:11<1:08:06,  2.04it/s] 30%|██▉       | 3536/11858 [30:11<1:08:05,  2.04it/s] 30%|██▉       | 3537/11858 [30:12<1:08:02,  2.04it/s] 30%|██▉       | 3538/11858 [30:12<1:07:58,  2.04it/s] 30%|██▉       | 3539/11858 [30:13<1:08:00,  2.04it/s] 30%|██▉       | 3540/11858 [30:13<1:07:58,  2.04it/s] 30%|██▉       | 3541/11858 [30:14<1:07:57,  2.04it/s] 30%|██▉       | 3542/11858 [30:14<1:07:59,  2.04it/s] 30%|██▉       | 3543/11858 [30:15<1:08:02,  2.04it/s] 30%|██▉       | 3544/11858 [30:15<1:08:03,  2.04it/s] 30%|██▉       | 3545/11858 [30:16<1:08:02,  2.04it/s] 30%|██▉       | 3546/11858 [30:16<1:07:57,  2.04it/s] 30%|██▉       | 3547/11858 [30:17<1:07:55,  2.04it/s] 30%|██▉       | 3548/11858 [30:17<1:07:56,  2.04it/s] 30%|██▉       | 3549/11858 [30:18<1:07:59,  2.04it/s] 30%|██▉       | 3550/11858 [30:18<1:07:57,  2.04it/s]                                                      {'loss': 2.1583, 'grad_norm': 0.31841278076171875, 'learning_rate': 0.0008837361121094021, 'epoch': 4.19}
- 30%|██▉       | 3550/11858 [30:18<1:07:57,  2.04it/s] 30%|██▉       | 3551/11858 [30:19<1:08:04,  2.03it/s] 30%|██▉       | 3552/11858 [30:19<1:08:05,  2.03it/s] 30%|██▉       | 3553/11858 [30:20<1:08:06,  2.03it/s] 30%|██▉       | 3554/11858 [30:20<1:08:03,  2.03it/s] 30%|██▉       | 3555/11858 [30:21<1:07:58,  2.04it/s] 30%|██▉       | 3556/11858 [30:21<1:07:51,  2.04it/s] 30%|██▉       | 3557/11858 [30:22<1:07:48,  2.04it/s] 30%|███       | 3558/11858 [30:22<1:07:47,  2.04it/s] 30%|███       | 3559/11858 [30:22<1:07:46,  2.04it/s] 30%|███       | 3560/11858 [30:23<1:07:42,  2.04it/s] 30%|███       | 3561/11858 [30:23<1:07:46,  2.04it/s] 30%|███       | 3562/11858 [30:24<1:07:51,  2.04it/s] 30%|███       | 3563/11858 [30:24<1:07:58,  2.03it/s] 30%|███       | 3564/11858 [30:25<1:07:58,  2.03it/s] 30%|███       | 3565/11858 [30:25<1:07:54,  2.04it/s] 30%|███       | 3566/11858 [30:26<1:07:46,  2.04it/s] 30%|███       | 3567/11858 [30:26<1:07:48,  2.04it/s] 30%|███       | 3568/11858 [30:27<1:07:46,  2.04it/s] 30%|███       | 3569/11858 [30:27<1:07:43,  2.04it/s] 30%|███       | 3570/11858 [30:28<1:07:38,  2.04it/s] 30%|███       | 3571/11858 [30:28<1:07:42,  2.04it/s] 30%|███       | 3572/11858 [30:29<1:07:42,  2.04it/s] 30%|███       | 3573/11858 [30:29<1:07:39,  2.04it/s] 30%|███       | 3574/11858 [30:30<1:07:46,  2.04it/s] 30%|███       | 3575/11858 [30:30<1:07:47,  2.04it/s]{'loss': 2.1549, 'grad_norm': 0.3212932348251343, 'learning_rate': 0.0008813667424878153, 'epoch': 4.22}
-                                                       30%|███       | 3575/11858 [30:30<1:07:47,  2.04it/s] 30%|███       | 3576/11858 [30:31<1:07:48,  2.04it/s] 30%|███       | 3577/11858 [30:31<1:07:46,  2.04it/s] 30%|███       | 3578/11858 [30:32<1:07:44,  2.04it/s] 30%|███       | 3579/11858 [30:32<1:07:38,  2.04it/s] 30%|███       | 3580/11858 [30:33<1:07:36,  2.04it/s] 30%|███       | 3581/11858 [30:33<1:07:37,  2.04it/s] 30%|███       | 3582/11858 [30:34<1:07:36,  2.04it/s] 30%|███       | 3583/11858 [30:34<1:07:33,  2.04it/s] 30%|███       | 3584/11858 [30:35<1:07:32,  2.04it/s] 30%|███       | 3585/11858 [30:35<1:07:37,  2.04it/s] 30%|███       | 3586/11858 [30:36<1:07:33,  2.04it/s] 30%|███       | 3587/11858 [30:36<1:07:25,  2.04it/s] 30%|███       | 3588/11858 [30:37<1:07:29,  2.04it/s] 30%|███       | 3589/11858 [30:37<1:07:31,  2.04it/s] 30%|███       | 3590/11858 [30:38<1:07:28,  2.04it/s] 30%|███       | 3591/11858 [30:38<1:07:29,  2.04it/s] 30%|███       | 3592/11858 [30:39<1:07:29,  2.04it/s] 30%|███       | 3593/11858 [30:39<1:07:30,  2.04it/s] 30%|███       | 3594/11858 [30:40<1:07:27,  2.04it/s] 30%|███       | 3595/11858 [30:40<1:07:27,  2.04it/s] 30%|███       | 3596/11858 [30:41<1:07:30,  2.04it/s] 30%|███       | 3597/11858 [30:41<1:07:29,  2.04it/s] 30%|███       | 3598/11858 [30:42<1:07:25,  2.04it/s] 30%|███       | 3599/11858 [30:42<1:07:27,  2.04it/s] 30%|███       | 3600/11858 [30:43<1:07:32,  2.04it/s]{'loss': 2.1558, 'grad_norm': 0.313894659280777, 'learning_rate': 0.0008789767176861023, 'epoch': 4.25}
-                                                       30%|███       | 3600/11858 [30:43<1:07:32,  2.04it/s] 30%|███       | 3601/11858 [30:43<1:07:36,  2.04it/s] 30%|███       | 3602/11858 [30:44<1:07:29,  2.04it/s] 30%|███       | 3603/11858 [30:44<1:07:32,  2.04it/s] 30%|███       | 3604/11858 [30:45<1:07:28,  2.04it/s] 30%|███       | 3605/11858 [30:45<1:07:27,  2.04it/s] 30%|███       | 3606/11858 [30:46<1:07:30,  2.04it/s] 30%|███       | 3607/11858 [30:46<1:07:27,  2.04it/s] 30%|███       | 3608/11858 [30:47<1:07:26,  2.04it/s] 30%|███       | 3609/11858 [30:47<1:07:24,  2.04it/s] 30%|███       | 3610/11858 [30:47<1:07:23,  2.04it/s] 30%|███       | 3611/11858 [30:48<1:07:21,  2.04it/s] 30%|███       | 3612/11858 [30:48<1:07:21,  2.04it/s] 30%|███       | 3613/11858 [30:49<1:07:23,  2.04it/s] 30%|███       | 3614/11858 [30:49<1:07:24,  2.04it/s] 30%|███       | 3615/11858 [30:50<1:07:20,  2.04it/s] 30%|███       | 3616/11858 [30:50<1:07:20,  2.04it/s] 31%|███       | 3617/11858 [30:51<1:07:23,  2.04it/s] 31%|███       | 3618/11858 [30:51<1:07:19,  2.04it/s] 31%|███       | 3619/11858 [30:52<1:07:12,  2.04it/s] 31%|███       | 3620/11858 [30:52<1:07:11,  2.04it/s] 31%|███       | 3621/11858 [30:53<1:07:13,  2.04it/s] 31%|███       | 3622/11858 [30:53<1:07:12,  2.04it/s] 31%|███       | 3623/11858 [30:54<1:07:10,  2.04it/s] 31%|███       | 3624/11858 [30:54<1:07:13,  2.04it/s] 31%|███       | 3625/11858 [30:55<1:07:16,  2.04it/s]{'loss': 2.1577, 'grad_norm': 0.29767194390296936, 'learning_rate': 0.0008765661671502456, 'epoch': 4.28}
-                                                       31%|███       | 3625/11858 [30:55<1:07:16,  2.04it/s] 31%|███       | 3626/11858 [30:55<1:07:19,  2.04it/s] 31%|███       | 3627/11858 [30:56<1:07:19,  2.04it/s] 31%|███       | 3628/11858 [30:56<1:07:19,  2.04it/s] 31%|███       | 3629/11858 [30:57<1:07:19,  2.04it/s] 31%|███       | 3630/11858 [30:57<1:07:22,  2.04it/s] 31%|███       | 3631/11858 [30:58<1:07:22,  2.04it/s] 31%|███       | 3632/11858 [30:58<1:07:16,  2.04it/s] 31%|███       | 3633/11858 [30:59<1:07:15,  2.04it/s] 31%|███       | 3634/11858 [30:59<1:07:19,  2.04it/s] 31%|███       | 3635/11858 [31:00<1:07:14,  2.04it/s] 31%|███       | 3636/11858 [31:00<1:07:12,  2.04it/s] 31%|███       | 3637/11858 [31:01<1:07:15,  2.04it/s] 31%|███       | 3638/11858 [31:01<1:07:15,  2.04it/s] 31%|███       | 3639/11858 [31:02<1:07:11,  2.04it/s] 31%|███       | 3640/11858 [31:02<1:07:16,  2.04it/s] 31%|███       | 3641/11858 [31:03<1:07:11,  2.04it/s] 31%|███       | 3642/11858 [31:03<1:07:08,  2.04it/s] 31%|███       | 3643/11858 [31:04<1:07:13,  2.04it/s] 31%|███       | 3644/11858 [31:04<1:07:09,  2.04it/s] 31%|███       | 3645/11858 [31:05<1:07:07,  2.04it/s] 31%|███       | 3646/11858 [31:05<1:07:09,  2.04it/s] 31%|███       | 3647/11858 [31:06<1:07:08,  2.04it/s] 31%|███       | 3648/11858 [31:06<1:07:03,  2.04it/s] 31%|███       | 3649/11858 [31:07<1:07:05,  2.04it/s] 31%|███       | 3650/11858 [31:07<1:07:07,  2.04it/s]                                                      {'loss': 2.1549, 'grad_norm': 0.39495620131492615, 'learning_rate': 0.000874135221437921, 'epoch': 4.31}
- 31%|███       | 3650/11858 [31:07<1:07:07,  2.04it/s] 31%|███       | 3651/11858 [31:08<1:07:09,  2.04it/s] 31%|███       | 3652/11858 [31:08<1:07:03,  2.04it/s] 31%|███       | 3653/11858 [31:09<1:07:05,  2.04it/s] 31%|███       | 3654/11858 [31:09<1:07:05,  2.04it/s] 31%|███       | 3655/11858 [31:10<1:07:04,  2.04it/s] 31%|███       | 3656/11858 [31:10<1:07:03,  2.04it/s] 31%|███       | 3657/11858 [31:11<1:07:06,  2.04it/s] 31%|███       | 3658/11858 [31:11<1:07:03,  2.04it/s] 31%|███       | 3659/11858 [31:12<1:07:03,  2.04it/s] 31%|███       | 3660/11858 [31:12<1:06:58,  2.04it/s] 31%|███       | 3661/11858 [31:13<1:06:57,  2.04it/s] 31%|███       | 3662/11858 [31:13<1:07:02,  2.04it/s] 31%|███       | 3663/11858 [31:13<1:06:59,  2.04it/s] 31%|███       | 3664/11858 [31:14<1:06:56,  2.04it/s] 31%|███       | 3665/11858 [31:14<1:06:57,  2.04it/s] 31%|███       | 3666/11858 [31:15<1:07:05,  2.03it/s] 31%|███       | 3667/11858 [31:15<1:07:08,  2.03it/s] 31%|███       | 3668/11858 [31:16<1:07:02,  2.04it/s] 31%|███       | 3669/11858 [31:16<1:07:03,  2.04it/s] 31%|███       | 3670/11858 [31:17<1:07:00,  2.04it/s] 31%|███       | 3671/11858 [31:17<1:06:54,  2.04it/s] 31%|███       | 3672/11858 [31:18<1:06:54,  2.04it/s] 31%|███       | 3673/11858 [31:18<1:06:56,  2.04it/s] 31%|███       | 3674/11858 [31:19<1:06:54,  2.04it/s] 31%|███       | 3675/11858 [31:19<1:06:52,  2.04it/s]{'loss': 2.1617, 'grad_norm': 0.2975563406944275, 'learning_rate': 0.0008716840122114265, 'epoch': 4.34}
-                                                       31%|███       | 3675/11858 [31:19<1:06:52,  2.04it/s] 31%|███       | 3676/11858 [31:20<1:06:59,  2.04it/s] 31%|███       | 3677/11858 [31:20<1:06:56,  2.04it/s] 31%|███       | 3678/11858 [31:21<1:06:52,  2.04it/s] 31%|███       | 3679/11858 [31:21<1:06:50,  2.04it/s] 31%|███       | 3680/11858 [31:22<1:06:51,  2.04it/s] 31%|███       | 3681/11858 [31:22<1:06:49,  2.04it/s] 31%|███       | 3682/11858 [31:23<1:06:48,  2.04it/s] 31%|███       | 3683/11858 [31:23<1:06:51,  2.04it/s] 31%|███       | 3684/11858 [31:24<1:06:50,  2.04it/s] 31%|███       | 3685/11858 [31:24<1:06:49,  2.04it/s] 31%|███       | 3686/11858 [31:25<1:06:50,  2.04it/s] 31%|███       | 3687/11858 [31:25<1:06:49,  2.04it/s] 31%|███       | 3688/11858 [31:26<1:06:47,  2.04it/s] 31%|███       | 3689/11858 [31:26<1:06:49,  2.04it/s] 31%|███       | 3690/11858 [31:27<1:06:45,  2.04it/s] 31%|███       | 3691/11858 [31:27<1:06:43,  2.04it/s] 31%|███       | 3692/11858 [31:28<1:06:48,  2.04it/s] 31%|███       | 3693/11858 [31:28<1:06:47,  2.04it/s] 31%|███       | 3694/11858 [31:29<1:06:47,  2.04it/s] 31%|███       | 3695/11858 [31:29<1:06:49,  2.04it/s] 31%|███       | 3696/11858 [31:30<1:06:45,  2.04it/s] 31%|███       | 3697/11858 [31:30<1:06:44,  2.04it/s] 31%|███       | 3698/11858 [31:31<1:06:47,  2.04it/s] 31%|███       | 3699/11858 [31:31<1:06:45,  2.04it/s] 31%|███       | 3700/11858 [31:32<1:06:42,  2.04it/s]{'loss': 2.1551, 'grad_norm': 0.313198059797287, 'learning_rate': 0.0008692126722305503, 'epoch': 4.37}
-                                                       31%|███       | 3700/11858 [31:32<1:06:42,  2.04it/s] 31%|███       | 3701/11858 [31:32<1:06:48,  2.04it/s] 31%|███       | 3702/11858 [31:33<1:06:42,  2.04it/s] 31%|███       | 3703/11858 [31:33<1:06:39,  2.04it/s] 31%|███       | 3704/11858 [31:34<1:06:44,  2.04it/s] 31%|███       | 3705/11858 [31:34<1:06:40,  2.04it/s] 31%|███▏      | 3706/11858 [31:35<1:06:37,  2.04it/s] 31%|███▏      | 3707/11858 [31:35<1:06:37,  2.04it/s] 31%|███▏      | 3708/11858 [31:36<1:06:35,  2.04it/s] 31%|███▏      | 3709/11858 [31:36<1:06:33,  2.04it/s] 31%|███▏      | 3710/11858 [31:37<1:06:34,  2.04it/s] 31%|███▏      | 3711/11858 [31:37<1:06:34,  2.04it/s] 31%|███▏      | 3712/11858 [31:38<1:06:34,  2.04it/s] 31%|███▏      | 3713/11858 [31:38<1:06:34,  2.04it/s] 31%|███▏      | 3714/11858 [31:39<1:06:35,  2.04it/s] 31%|███▏      | 3715/11858 [31:39<1:06:34,  2.04it/s] 31%|███▏      | 3716/11858 [31:40<1:06:33,  2.04it/s] 31%|███▏      | 3717/11858 [31:40<1:06:35,  2.04it/s] 31%|███▏      | 3718/11858 [31:40<1:06:32,  2.04it/s] 31%|███▏      | 3719/11858 [31:41<1:06:28,  2.04it/s] 31%|███▏      | 3720/11858 [31:41<1:06:31,  2.04it/s] 31%|███▏      | 3721/11858 [31:42<1:06:33,  2.04it/s] 31%|███▏      | 3722/11858 [31:42<1:06:28,  2.04it/s] 31%|███▏      | 3723/11858 [31:43<1:06:27,  2.04it/s] 31%|███▏      | 3724/11858 [31:43<1:06:30,  2.04it/s] 31%|███▏      | 3725/11858 [31:44<1:06:27,  2.04it/s]{'loss': 2.1464, 'grad_norm': 0.30659157037734985, 'learning_rate': 0.0008667213353453815, 'epoch': 4.4}
-                                                       31%|███▏      | 3725/11858 [31:44<1:06:27,  2.04it/s] 31%|███▏      | 3726/11858 [31:44<1:06:32,  2.04it/s] 31%|███▏      | 3727/11858 [31:45<1:06:34,  2.04it/s] 31%|███▏      | 3728/11858 [31:45<1:06:29,  2.04it/s] 31%|███▏      | 3729/11858 [31:46<1:06:25,  2.04it/s] 31%|███▏      | 3730/11858 [31:46<1:06:29,  2.04it/s] 31%|███▏      | 3731/11858 [31:47<1:06:31,  2.04it/s] 31%|███▏      | 3732/11858 [31:47<1:06:25,  2.04it/s] 31%|███▏      | 3733/11858 [31:48<1:06:29,  2.04it/s] 31%|███▏      | 3734/11858 [31:48<1:06:27,  2.04it/s] 31%|███▏      | 3735/11858 [31:49<1:06:25,  2.04it/s] 32%|███▏      | 3736/11858 [31:49<1:06:25,  2.04it/s] 32%|███▏      | 3737/11858 [31:50<1:06:28,  2.04it/s] 32%|███▏      | 3738/11858 [31:50<1:06:24,  2.04it/s] 32%|███▏      | 3739/11858 [31:51<1:06:21,  2.04it/s] 32%|███▏      | 3740/11858 [31:51<1:06:24,  2.04it/s] 32%|███▏      | 3741/11858 [31:52<1:06:24,  2.04it/s] 32%|███▏      | 3742/11858 [31:52<1:06:21,  2.04it/s] 32%|███▏      | 3743/11858 [31:53<1:06:20,  2.04it/s] 32%|███▏      | 3744/11858 [31:53<1:06:22,  2.04it/s] 32%|███▏      | 3745/11858 [31:54<1:06:19,  2.04it/s] 32%|███▏      | 3746/11858 [31:54<1:06:20,  2.04it/s] 32%|███▏      | 3747/11858 [31:55<1:06:20,  2.04it/s] 32%|███▏      | 3748/11858 [31:55<1:06:19,  2.04it/s] 32%|███▏      | 3749/11858 [31:56<1:06:14,  2.04it/s] 32%|███▏      | 3750/11858 [31:56<1:06:15,  2.04it/s]                                                      {'loss': 2.1482, 'grad_norm': 0.304270476102829, 'learning_rate': 0.0008642101364890605, 'epoch': 4.42}
- 32%|███▏      | 3750/11858 [31:56<1:06:15,  2.04it/s] 32%|███▏      | 3751/11858 [31:57<1:06:20,  2.04it/s] 32%|███▏      | 3752/11858 [31:57<1:06:18,  2.04it/s] 32%|███▏      | 3753/11858 [31:58<1:06:15,  2.04it/s] 32%|███▏      | 3754/11858 [31:58<1:06:17,  2.04it/s] 32%|███▏      | 3755/11858 [31:59<1:06:13,  2.04it/s] 32%|███▏      | 3756/11858 [31:59<1:06:13,  2.04it/s] 32%|███▏      | 3757/11858 [32:00<1:06:13,  2.04it/s] 32%|███▏      | 3758/11858 [32:00<1:06:13,  2.04it/s] 32%|███▏      | 3759/11858 [32:01<1:06:11,  2.04it/s] 32%|███▏      | 3760/11858 [32:01<1:06:14,  2.04it/s] 32%|███▏      | 3761/11858 [32:02<1:06:10,  2.04it/s] 32%|███▏      | 3762/11858 [32:02<1:06:07,  2.04it/s] 32%|███▏      | 3763/11858 [32:03<1:06:10,  2.04it/s] 32%|███▏      | 3764/11858 [32:03<1:06:08,  2.04it/s] 32%|███▏      | 3765/11858 [32:04<1:06:07,  2.04it/s] 32%|███▏      | 3766/11858 [32:04<1:06:09,  2.04it/s] 32%|███▏      | 3767/11858 [32:05<1:06:06,  2.04it/s] 32%|███▏      | 3768/11858 [32:05<1:06:04,  2.04it/s] 32%|███▏      | 3769/11858 [32:05<1:06:02,  2.04it/s] 32%|███▏      | 3770/11858 [32:06<1:06:02,  2.04it/s] 32%|███▏      | 3771/11858 [32:06<1:06:01,  2.04it/s] 32%|███▏      | 3772/11858 [32:07<1:06:01,  2.04it/s] 32%|███▏      | 3773/11858 [32:07<1:06:05,  2.04it/s] 32%|███▏      | 3774/11858 [32:08<1:06:06,  2.04it/s] 32%|███▏      | 3775/11858 [32:08<1:06:03,  2.04it/s]{'loss': 2.1432, 'grad_norm': 0.33125820755958557, 'learning_rate': 0.0008616792116704704, 'epoch': 4.45}
-                                                       32%|███▏      | 3775/11858 [32:08<1:06:03,  2.04it/s] 32%|███▏      | 3776/11858 [32:09<1:06:11,  2.03it/s] 32%|███▏      | 3777/11858 [32:09<1:06:09,  2.04it/s] 32%|███▏      | 3778/11858 [32:10<1:06:06,  2.04it/s] 32%|███▏      | 3779/11858 [32:10<1:06:02,  2.04it/s] 32%|███▏      | 3780/11858 [32:11<1:06:01,  2.04it/s] 32%|███▏      | 3781/11858 [32:11<1:06:03,  2.04it/s] 32%|███▏      | 3782/11858 [32:12<1:05:59,  2.04it/s] 32%|███▏      | 3783/11858 [32:12<1:06:04,  2.04it/s] 32%|███▏      | 3784/11858 [32:13<1:06:07,  2.04it/s] 32%|███▏      | 3785/11858 [32:13<1:06:03,  2.04it/s] 32%|███▏      | 3786/11858 [32:14<1:06:05,  2.04it/s] 32%|███▏      | 3787/11858 [32:14<1:06:00,  2.04it/s] 32%|███▏      | 3788/11858 [32:15<1:11:47,  1.87it/s] 32%|███▏      | 3789/11858 [32:15<1:10:05,  1.92it/s] 32%|███▏      | 3790/11858 [32:16<1:08:52,  1.95it/s] 32%|███▏      | 3791/11858 [32:16<1:07:55,  1.98it/s] 32%|███▏      | 3792/11858 [32:17<1:07:17,  2.00it/s] 32%|███▏      | 3793/11858 [32:17<1:06:54,  2.01it/s] 32%|███▏      | 3794/11858 [32:18<1:06:37,  2.02it/s] 32%|███▏      | 3795/11858 [32:18<1:06:19,  2.03it/s] 32%|███▏      | 3796/11858 [32:19<1:06:11,  2.03it/s] 32%|███▏      | 3797/11858 [32:19<1:06:07,  2.03it/s] 32%|███▏      | 3798/11858 [32:20<1:06:03,  2.03it/s] 32%|███▏      | 3799/11858 [32:20<1:05:55,  2.04it/s] 32%|███▏      | 3800/11858 [32:21<1:05:52,  2.04it/s]{'loss': 2.1611, 'grad_norm': 0.3020046055316925, 'learning_rate': 0.0008591286979668708, 'epoch': 4.48}
-                                                       32%|███▏      | 3800/11858 [32:21<1:05:52,  2.04it/s] 32%|███▏      | 3801/11858 [32:21<1:05:59,  2.03it/s] 32%|███▏      | 3802/11858 [32:22<1:05:55,  2.04it/s] 32%|███▏      | 3803/11858 [32:22<1:05:50,  2.04it/s] 32%|███▏      | 3804/11858 [32:23<1:05:49,  2.04it/s] 32%|███▏      | 3805/11858 [32:23<1:05:54,  2.04it/s] 32%|███▏      | 3806/11858 [32:24<1:05:51,  2.04it/s] 32%|███▏      | 3807/11858 [32:24<1:05:46,  2.04it/s] 32%|███▏      | 3808/11858 [32:25<1:05:44,  2.04it/s] 32%|███▏      | 3809/11858 [32:25<1:05:48,  2.04it/s] 32%|███▏      | 3810/11858 [32:26<1:05:46,  2.04it/s] 32%|███▏      | 3811/11858 [32:26<1:05:43,  2.04it/s] 32%|███▏      | 3812/11858 [32:27<1:05:44,  2.04it/s] 32%|███▏      | 3813/11858 [32:27<1:05:47,  2.04it/s] 32%|███▏      | 3814/11858 [32:28<1:05:45,  2.04it/s] 32%|███▏      | 3815/11858 [32:28<1:05:41,  2.04it/s] 32%|███▏      | 3816/11858 [32:29<1:05:41,  2.04it/s] 32%|███▏      | 3817/11858 [32:29<1:05:38,  2.04it/s] 32%|███▏      | 3818/11858 [32:30<1:05:37,  2.04it/s] 32%|███▏      | 3819/11858 [32:30<1:05:36,  2.04it/s] 32%|███▏      | 3820/11858 [32:31<1:05:39,  2.04it/s] 32%|███▏      | 3821/11858 [32:31<1:05:42,  2.04it/s] 32%|███▏      | 3822/11858 [32:32<1:05:38,  2.04it/s] 32%|███▏      | 3823/11858 [32:32<1:05:38,  2.04it/s] 32%|███▏      | 3824/11858 [32:33<1:05:38,  2.04it/s] 32%|███▏      | 3825/11858 [32:33<1:05:36,  2.04it/s]{'loss': 2.1801, 'grad_norm': 0.3385973870754242, 'learning_rate': 0.0008565587335164739, 'epoch': 4.51}
-                                                       32%|███▏      | 3825/11858 [32:33<1:05:36,  2.04it/s] 32%|███▏      | 3826/11858 [32:34<1:05:44,  2.04it/s] 32%|███▏      | 3827/11858 [32:34<1:05:50,  2.03it/s] 32%|███▏      | 3828/11858 [32:35<1:11:26,  1.87it/s] 32%|███▏      | 3829/11858 [32:35<1:09:45,  1.92it/s] 32%|███▏      | 3830/11858 [32:36<1:08:31,  1.95it/s] 32%|███▏      | 3831/11858 [32:36<1:07:35,  1.98it/s] 32%|███▏      | 3832/11858 [32:37<1:07:00,  2.00it/s] 32%|███▏      | 3833/11858 [32:37<1:06:37,  2.01it/s] 32%|███▏      | 3834/11858 [32:38<1:06:15,  2.02it/s] 32%|███▏      | 3835/11858 [32:38<1:05:58,  2.03it/s] 32%|███▏      | 3836/11858 [32:39<1:05:55,  2.03it/s] 32%|███▏      | 3837/11858 [32:39<1:05:48,  2.03it/s] 32%|███▏      | 3838/11858 [32:40<1:05:42,  2.03it/s] 32%|███▏      | 3839/11858 [32:40<1:05:41,  2.03it/s] 32%|███▏      | 3840/11858 [32:41<1:05:41,  2.03it/s] 32%|███▏      | 3841/11858 [32:41<1:05:34,  2.04it/s] 32%|███▏      | 3842/11858 [32:42<1:05:37,  2.04it/s] 32%|███▏      | 3843/11858 [32:42<1:05:34,  2.04it/s] 32%|██���▏      | 3844/11858 [32:43<1:05:31,  2.04it/s] 32%|███▏      | 3845/11858 [32:43<1:05:29,  2.04it/s] 32%|███▏      | 3846/11858 [32:44<1:05:29,  2.04it/s] 32%|███▏      | 3847/11858 [32:44<1:05:31,  2.04it/s] 32%|███▏      | 3848/11858 [32:45<1:05:32,  2.04it/s] 32%|███▏      | 3849/11858 [32:45<1:05:32,  2.04it/s] 32%|███▏      | 3850/11858 [32:46<1:05:31,  2.04it/s]{'loss': 2.1634, 'grad_norm': 0.34983325004577637, 'learning_rate': 0.0008539694575109625, 'epoch': 4.54}
-                                                       32%|███▏      | 3850/11858 [32:46<1:05:31,  2.04it/s] 32%|███▏      | 3851/11858 [32:46<1:05:40,  2.03it/s] 32%|███▏      | 3852/11858 [32:47<1:05:39,  2.03it/s] 32%|███▏      | 3853/11858 [32:47<1:05:38,  2.03it/s] 33%|███▎      | 3854/11858 [32:47<1:05:38,  2.03it/s] 33%|███▎      | 3855/11858 [32:48<1:05:34,  2.03it/s] 33%|███▎      | 3856/11858 [32:48<1:05:26,  2.04it/s] 33%|███▎      | 3857/11858 [32:49<1:05:24,  2.04it/s] 33%|███▎      | 3858/11858 [32:49<1:05:23,  2.04it/s] 33%|███▎      | 3859/11858 [32:50<1:05:21,  2.04it/s] 33%|███▎      | 3860/11858 [32:50<1:05:20,  2.04it/s] 33%|███▎      | 3861/11858 [32:51<1:05:22,  2.04it/s] 33%|███▎      | 3862/11858 [32:51<1:05:22,  2.04it/s] 33%|███▎      | 3863/11858 [32:52<1:05:21,  2.04it/s] 33%|███▎      | 3864/11858 [32:52<1:05:24,  2.04it/s] 33%|███▎      | 3865/11858 [32:53<1:05:24,  2.04it/s] 33%|███▎      | 3866/11858 [32:53<1:05:22,  2.04it/s] 33%|███▎      | 3867/11858 [32:54<1:05:26,  2.04it/s] 33%|███▎      | 3868/11858 [32:54<1:05:20,  2.04it/s] 33%|███▎      | 3869/11858 [32:55<1:05:20,  2.04it/s] 33%|███▎      | 3870/11858 [32:55<1:05:22,  2.04it/s] 33%|███▎      | 3871/11858 [32:56<1:05:15,  2.04it/s] 33%|███▎      | 3872/11858 [32:56<1:05:11,  2.04it/s] 33%|███▎      | 3873/11858 [32:57<1:05:14,  2.04it/s] 33%|███▎      | 3874/11858 [32:57<1:05:17,  2.04it/s] 33%|███▎      | 3875/11858 [32:58<1:05:14,  2.04it/s]{'loss': 2.1597, 'grad_norm': 0.31033074855804443, 'learning_rate': 0.0008513610101879511, 'epoch': 4.57}
-                                                       33%|███▎      | 3875/11858 [32:58<1:05:14,  2.04it/s] 33%|███▎      | 3876/11858 [32:58<1:05:19,  2.04it/s] 33%|███▎      | 3877/11858 [32:59<1:05:16,  2.04it/s] 33%|███▎      | 3878/11858 [32:59<1:05:12,  2.04it/s] 33%|███▎      | 3879/11858 [33:00<1:05:07,  2.04it/s] 33%|███▎      | 3880/11858 [33:00<1:05:07,  2.04it/s] 33%|███▎      | 3881/11858 [33:01<1:05:08,  2.04it/s] 33%|███▎      | 3882/11858 [33:01<1:05:12,  2.04it/s] 33%|███▎      | 3883/11858 [33:02<1:05:08,  2.04it/s] 33%|███▎      | 3884/11858 [33:02<1:05:12,  2.04it/s] 33%|███▎      | 3885/11858 [33:03<1:05:12,  2.04it/s] 33%|███▎      | 3886/11858 [33:03<1:05:07,  2.04it/s] 33%|███▎      | 3887/11858 [33:04<1:05:02,  2.04it/s] 33%|███▎      | 3888/11858 [33:04<1:05:09,  2.04it/s] 33%|███▎      | 3889/11858 [33:05<1:05:07,  2.04it/s] 33%|███▎      | 3890/11858 [33:05<1:05:05,  2.04it/s] 33%|███▎      | 3891/11858 [33:06<1:05:02,  2.04it/s] 33%|███▎      | 3892/11858 [33:06<1:05:07,  2.04it/s] 33%|███▎      | 3893/11858 [33:07<1:05:03,  2.04it/s] 33%|███▎      | 3894/11858 [33:07<1:05:04,  2.04it/s] 33%|███▎      | 3895/11858 [33:08<1:05:03,  2.04it/s] 33%|███▎      | 3896/11858 [33:08<1:05:05,  2.04it/s] 33%|███▎      | 3897/11858 [33:09<1:05:03,  2.04it/s] 33%|███▎      | 3898/11858 [33:09<1:05:09,  2.04it/s] 33%|███▎      | 3899/11858 [33:10<1:05:08,  2.04it/s] 33%|███▎      | 3900/11858 [33:10<1:05:08,  2.04it/s]{'loss': 2.159, 'grad_norm': 0.32010015845298767, 'learning_rate': 0.0008487335328233912, 'epoch': 4.6}
-                                                       33%|███▎      | 3900/11858 [33:10<1:05:08,  2.04it/s] 33%|███▎      | 3901/11858 [33:11<1:05:13,  2.03it/s] 33%|███▎      | 3902/11858 [33:11<1:05:09,  2.04it/s] 33%|███▎      | 3903/11858 [33:12<1:05:14,  2.03it/s] 33%|███▎      | 3904/11858 [33:12<1:05:12,  2.03it/s] 33%|███▎      | 3905/11858 [33:13<1:05:08,  2.03it/s] 33%|███▎      | 3906/11858 [33:13<1:05:07,  2.03it/s] 33%|███▎      | 3907/11858 [33:13<1:05:02,  2.04it/s] 33%|███▎      | 3908/11858 [33:14<1:04:55,  2.04it/s] 33%|███▎      | 3909/11858 [33:14<1:04:57,  2.04it/s] 33%|███▎      | 3910/11858 [33:15<1:04:57,  2.04it/s] 33%|███▎      | 3911/11858 [33:15<1:04:55,  2.04it/s] 33%|███▎      | 3912/11858 [33:16<1:04:55,  2.04it/s] 33%|███▎      | 3913/11858 [33:16<1:04:59,  2.04it/s] 33%|███▎      | 3914/11858 [33:17<1:04:56,  2.04it/s] 33%|███▎      | 3915/11858 [33:17<1:04:53,  2.04it/s] 33%|███▎      | 3916/11858 [33:18<1:04:57,  2.04it/s] 33%|███▎      | 3917/11858 [33:18<1:04:56,  2.04it/s] 33%|███▎      | 3918/11858 [33:19<1:04:51,  2.04it/s] 33%|███▎      | 3919/11858 [33:19<1:04:52,  2.04it/s] 33%|███▎      | 3920/11858 [33:20<1:04:55,  2.04it/s] 33%|███▎      | 3921/11858 [33:20<1:04:51,  2.04it/s] 33%|███▎      | 3922/11858 [33:21<1:04:49,  2.04it/s] 33%|███▎      | 3923/11858 [33:21<1:04:52,  2.04it/s] 33%|███▎      | 3924/11858 [33:22<1:04:51,  2.04it/s] 33%|███▎      | 3925/11858 [33:22<1:04:51,  2.04it/s]{'loss': 2.1228, 'grad_norm': 0.302638441324234, 'learning_rate': 0.0008460871677239186, 'epoch': 4.63}
-                                                       33%|███▎      | 3925/11858 [33:22<1:04:51,  2.04it/s] 33%|███▎      | 3926/11858 [33:23<1:04:55,  2.04it/s] 33%|███▎      | 3927/11858 [33:23<1:04:53,  2.04it/s] 33%|███▎      | 3928/11858 [33:24<1:04:53,  2.04it/s] 33%|███▎      | 3929/11858 [33:24<1:04:51,  2.04it/s] 33%|███▎      | 3930/11858 [33:25<1:04:51,  2.04it/s] 33%|███▎      | 3931/11858 [33:25<1:04:45,  2.04it/s] 33%|███▎      | 3932/11858 [33:26<1:04:45,  2.04it/s] 33%|███▎      | 3933/11858 [33:26<1:04:47,  2.04it/s] 33%|███▎      | 3934/11858 [33:27<1:04:49,  2.04it/s] 33%|███▎      | 3935/11858 [33:27<1:04:46,  2.04it/s] 33%|███▎      | 3936/11858 [33:28<1:04:41,  2.04it/s] 33%|███▎      | 3937/11858 [33:28<1:04:43,  2.04it/s] 33%|███▎      | 3938/11858 [33:29<1:04:44,  2.04it/s] 33%|███▎      | 3939/11858 [33:29<1:04:43,  2.04it/s] 33%|███▎      | 3940/11858 [33:30<1:04:40,  2.04it/s] 33%|███▎      | 3941/11858 [33:30<1:04:37,  2.04it/s] 33%|███▎      | 3942/11858 [33:31<1:04:39,  2.04it/s] 33%|███▎      | 3943/11858 [33:31<1:04:40,  2.04it/s] 33%|███▎      | 3944/11858 [33:32<1:04:39,  2.04it/s] 33%|███▎      | 3945/11858 [33:32<1:04:37,  2.04it/s] 33%|███▎      | 3946/11858 [33:33<1:04:40,  2.04it/s] 33%|███▎      | 3947/11858 [33:33<1:04:44,  2.04it/s] 33%|███▎      | 3948/11858 [33:34<1:04:41,  2.04it/s] 33%|███▎      | 3949/11858 [33:34<1:04:39,  2.04it/s] 33%|███▎      | 3950/11858 [33:35<1:04:40,  2.04it/s]{'loss': 2.1379, 'grad_norm': 0.30703702569007874, 'learning_rate': 0.000843422058219147, 'epoch': 4.66}
-                                                       33%|███▎      | 3950/11858 [33:35<1:04:40,  2.04it/s] 33%|███▎      | 3951/11858 [33:35<1:04:44,  2.04it/s] 33%|███▎      | 3952/11858 [33:36<1:04:42,  2.04it/s] 33%|███▎      | 3953/11858 [33:36<1:04:41,  2.04it/s] 33%|███▎      | 3954/11858 [33:37<1:04:38,  2.04it/s] 33%|███▎      | 3955/11858 [33:37<1:04:40,  2.04it/s] 33%|███▎      | 3956/11858 [33:38<1:04:41,  2.04it/s] 33%|███▎      | 3957/11858 [33:38<1:04:36,  2.04it/s] 33%|███▎      | 3958/11858 [33:39<1:04:33,  2.04it/s] 33%|███▎      | 3959/11858 [33:39<1:04:35,  2.04it/s] 33%|███▎      | 3960/11858 [33:39<1:04:35,  2.04it/s] 33%|███▎      | 3961/11858 [33:40<1:04:33,  2.04it/s] 33%|███▎      | 3962/11858 [33:40<1:04:36,  2.04it/s] 33%|███▎      | 3963/11858 [33:41<1:04:34,  2.04it/s] 33%|███▎      | 3964/11858 [33:41<1:04:31,  2.04it/s] 33%|███▎      | 3965/11858 [33:42<1:04:30,  2.04it/s] 33%|███▎      | 3966/11858 [33:42<1:04:31,  2.04it/s] 33%|███▎      | 3967/11858 [33:43<1:04:30,  2.04it/s] 33%|███▎      | 3968/11858 [33:43<1:04:32,  2.04it/s] 33%|███▎      | 3969/11858 [33:44<1:04:34,  2.04it/s] 33%|███▎      | 3970/11858 [33:44<1:04:31,  2.04it/s] 33%|███▎      | 3971/11858 [33:45<1:04:30,  2.04it/s] 33%|███▎      | 3972/11858 [33:45<1:04:30,  2.04it/s] 34%|███▎      | 3973/11858 [33:46<1:04:24,  2.04it/s] 34%|███▎      | 3974/11858 [33:46<1:04:19,  2.04it/s] 34%|███▎      | 3975/11858 [33:47<1:04:23,  2.04it/s]{'loss': 2.1417, 'grad_norm': 0.36739581823349, 'learning_rate': 0.0008407383486539045, 'epoch': 4.69}
-                                                       34%|███▎      | 3975/11858 [33:47<1:04:23,  2.04it/s] 34%|███▎      | 3976/11858 [33:47<1:04:35,  2.03it/s] 34%|███▎      | 3977/11858 [33:48<1:04:30,  2.04it/s] 34%|███▎      | 3978/11858 [33:48<1:04:31,  2.04it/s] 34%|███▎      | 3979/11858 [33:49<1:04:25,  2.04it/s] 34%|███▎      | 3980/11858 [33:49<1:04:23,  2.04it/s] 34%|███▎      | 3981/11858 [33:50<1:04:22,  2.04it/s] 34%|███▎      | 3982/11858 [33:50<1:04:20,  2.04it/s] 34%|███▎      | 3983/11858 [33:51<1:04:21,  2.04it/s] 34%|███▎      | 3984/11858 [33:51<1:04:24,  2.04it/s] 34%|███▎      | 3985/11858 [33:52<1:04:25,  2.04it/s] 34%|███▎      | 3986/11858 [33:52<1:04:21,  2.04it/s] 34%|███▎      | 3987/11858 [33:53<1:04:18,  2.04it/s] 34%|███▎      | 3988/11858 [33:53<1:04:23,  2.04it/s] 34%|███▎      | 3989/11858 [33:54<1:04:21,  2.04it/s] 34%|███▎      | 3990/11858 [33:54<1:04:20,  2.04it/s] 34%|███▎      | 3991/11858 [33:55<1:04:23,  2.04it/s] 34%|███▎      | 3992/11858 [33:55<1:04:24,  2.04it/s] 34%|███▎      | 3993/11858 [33:56<1:04:21,  2.04it/s] 34%|███▎      | 3994/11858 [33:56<1:04:20,  2.04it/s] 34%|███▎      | 3995/11858 [33:57<1:04:20,  2.04it/s] 34%|███▎      | 3996/11858 [33:57<1:04:15,  2.04it/s] 34%|███▎      | 3997/11858 [33:58<1:04:19,  2.04it/s] 34%|███▎      | 3998/11858 [33:58<1:04:16,  2.04it/s] 34%|███▎      | 3999/11858 [33:59<1:04:14,  2.04it/s] 34%|███▎      | 4000/11858 [33:59<1:04:12,  2.04it/s]{'loss': 2.1413, 'grad_norm': 0.3117308020591736, 'learning_rate': 0.0008380361843804159, 'epoch': 4.72}
-                                                       34%|███▎      | 4000/11858 [33:59<1:04:12,  2.04it/s] 34%|███▎      | 4001/11858 [34:00<1:04:16,  2.04it/s] 34%|███▎      | 4002/11858 [34:00<1:04:17,  2.04it/s] 34%|███▍      | 4003/11858 [34:01<1:04:12,  2.04it/s] 34%|███▍      | 4004/11858 [34:01<1:04:12,  2.04it/s] 34%|███▍      | 4005/11858 [34:02<1:04:09,  2.04it/s] 34%|███▍      | 4006/11858 [34:02<1:04:10,  2.04it/s] 34%|███▍      | 4007/11858 [34:03<1:04:05,  2.04it/s] 34%|███▍      | 4008/11858 [34:03<1:04:10,  2.04it/s] 34%|███▍      | 4009/11858 [34:04<1:04:07,  2.04it/s] 34%|███▍      | 4010/11858 [34:04<1:04:05,  2.04it/s] 34%|███▍      | 4011/11858 [34:05<1:04:09,  2.04it/s] 34%|███▍      | 4012/11858 [34:05<1:04:08,  2.04it/s] 34%|███▍      | 4013/11858 [34:05<1:04:05,  2.04it/s] 34%|███▍      | 4014/11858 [34:06<1:04:04,  2.04it/s] 34%|███▍      | 4015/11858 [34:06<1:04:05,  2.04it/s] 34%|███▍      | 4016/11858 [34:07<1:04:02,  2.04it/s] 34%|███▍      | 4017/11858 [34:07<1:04:02,  2.04it/s] 34%|███▍      | 4018/11858 [34:08<1:04:02,  2.04it/s] 34%|███▍      | 4019/11858 [34:08<1:04:04,  2.04it/s] 34%|███▍      | 4020/11858 [34:09<1:04:00,  2.04it/s] 34%|███▍      | 4021/11858 [34:09<1:04:01,  2.04it/s] 34%|███▍      | 4022/11858 [34:10<1:04:05,  2.04it/s] 34%|███▍      | 4023/11858 [34:10<1:04:04,  2.04it/s] 34%|███▍      | 4024/11858 [34:11<1:04:01,  2.04it/s] 34%|███▍      | 4025/11858 [34:11<1:04:03,  2.04it/s]                                                      {'loss': 2.1456, 'grad_norm': 0.29408901929855347, 'learning_rate': 0.00083531571175043, 'epoch': 4.75}
- 34%|███▍      | 4025/11858 [34:11<1:04:03,  2.04it/s] 34%|███▍      | 4026/11858 [34:12<1:04:10,  2.03it/s] 34%|███▍      | 4027/11858 [34:12<1:04:04,  2.04it/s] 34%|███▍      | 4028/11858 [34:13<1:04:05,  2.04it/s] 34%|███▍      | 4029/11858 [34:13<1:04:02,  2.04it/s] 34%|███▍      | 4030/11858 [34:14<1:03:57,  2.04it/s] 34%|███▍      | 4031/11858 [34:14<1:03:55,  2.04it/s] 34%|███▍      | 4032/11858 [34:15<1:03:57,  2.04it/s] 34%|███▍      | 4033/11858 [34:15<1:03:56,  2.04it/s] 34%|███▍      | 4034/11858 [34:16<1:03:51,  2.04it/s] 34%|███▍      | 4035/11858 [34:16<1:03:51,  2.04it/s] 34%|███▍      | 4036/11858 [34:17<1:03:55,  2.04it/s] 34%|███▍      | 4037/11858 [34:17<1:03:53,  2.04it/s] 34%|███▍      | 4038/11858 [34:18<1:03:52,  2.04it/s] 34%|███▍      | 4039/11858 [34:18<1:03:52,  2.04it/s] 34%|███▍      | 4040/11858 [34:19<1:03:49,  2.04it/s] 34%|███▍      | 4041/11858 [34:19<1:03:49,  2.04it/s] 34%|███▍      | 4042/11858 [34:20<1:03:45,  2.04it/s] 34%|███▍      | 4043/11858 [34:20<1:03:48,  2.04it/s] 34%|███▍      | 4044/11858 [34:21<1:03:47,  2.04it/s] 34%|███▍      | 4045/11858 [34:21<1:03:45,  2.04it/s] 34%|███▍      | 4046/11858 [34:22<1:03:47,  2.04it/s] 34%|███▍      | 4047/11858 [34:22<1:03:48,  2.04it/s] 34%|███▍      | 4048/11858 [34:23<1:03:47,  2.04it/s] 34%|███▍      | 4049/11858 [34:23<1:03:46,  2.04it/s] 34%|███▍      | 4050/11858 [34:24<1:03:47,  2.04it/s]{'loss': 2.1291, 'grad_norm': 0.3549657166004181, 'learning_rate': 0.0008325770781072939, 'epoch': 4.78}
-                                                       34%|███▍      | 4050/11858 [34:24<1:03:47,  2.04it/s] 34%|███▍      | 4051/11858 [34:24<1:03:51,  2.04it/s] 34%|███▍      | 4052/11858 [34:25<1:03:50,  2.04it/s] 34%|███▍      | 4053/11858 [34:25<1:03:51,  2.04it/s] 34%|███▍      | 4054/11858 [34:26<1:03:48,  2.04it/s] 34%|███▍      | 4055/11858 [34:26<1:03:44,  2.04it/s] 34%|███▍      | 4056/11858 [34:27<1:03:47,  2.04it/s] 34%|███▍      | 4057/11858 [34:27<1:03:45,  2.04it/s] 34%|███▍      | 4058/11858 [34:28<1:03:43,  2.04it/s] 34%|███▍      | 4059/11858 [34:28<1:03:45,  2.04it/s] 34%|███▍      | 4060/11858 [34:29<1:03:44,  2.04it/s] 34%|███▍      | 4061/11858 [34:29<1:03:40,  2.04it/s] 34%|███▍      | 4062/11858 [34:30<1:03:39,  2.04it/s] 34%|███▍      | 4063/11858 [34:30<1:03:42,  2.04it/s] 34%|███▍      | 4064/11858 [34:30<1:03:39,  2.04it/s] 34%|███▍      | 4065/11858 [34:31<1:03:37,  2.04it/s] 34%|███▍      | 4066/11858 [34:31<1:03:37,  2.04it/s] 34%|███▍      | 4067/11858 [34:32<1:03:38,  2.04it/s] 34%|███▍      | 4068/11858 [34:32<1:03:41,  2.04it/s] 34%|███▍      | 4069/11858 [34:33<1:03:41,  2.04it/s] 34%|███▍      | 4070/11858 [34:33<1:03:39,  2.04it/s] 34%|███▍      | 4071/11858 [34:34<1:03:36,  2.04it/s] 34%|███▍      | 4072/11858 [34:34<1:03:33,  2.04it/s] 34%|███▍      | 4073/11858 [34:35<1:03:35,  2.04it/s] 34%|███▍      | 4074/11858 [34:35<1:03:34,  2.04it/s] 34%|███▍      | 4075/11858 [34:36<1:03:34,  2.04it/s]{'loss': 2.1598, 'grad_norm': 0.2956855893135071, 'learning_rate': 0.0008298204317779719, 'epoch': 4.81}
-                                                       34%|███▍      | 4075/11858 [34:36<1:03:34,  2.04it/s] 34%|███▍      | 4076/11858 [34:36<1:03:37,  2.04it/s] 34%|███▍      | 4077/11858 [34:37<1:03:35,  2.04it/s] 34%|███▍      | 4078/11858 [34:37<1:03:36,  2.04it/s] 34%|███▍      | 4079/11858 [34:38<1:03:36,  2.04it/s] 34%|███▍      | 4080/11858 [34:38<1:03:32,  2.04it/s] 34%|███▍      | 4081/11858 [34:39<1:03:33,  2.04it/s] 34%|███▍      | 4082/11858 [34:39<1:03:32,  2.04it/s] 34%|███▍      | 4083/11858 [34:40<1:03:33,  2.04it/s] 34%|███▍      | 4084/11858 [34:40<1:03:34,  2.04it/s] 34%|███▍      | 4085/11858 [34:41<1:03:31,  2.04it/s] 34%|███▍      | 4086/11858 [34:41<1:03:32,  2.04it/s] 34%|███▍      | 4087/11858 [34:42<1:03:33,  2.04it/s] 34%|███▍      | 4088/11858 [34:42<1:03:30,  2.04it/s] 34%|███▍      | 4089/11858 [34:43<1:03:28,  2.04it/s] 34%|███▍      | 4090/11858 [34:43<1:03:31,  2.04it/s] 34%|███▍      | 4091/11858 [34:44<1:03:32,  2.04it/s] 35%|███▍      | 4092/11858 [34:44<1:03:28,  2.04it/s] 35%|███▍      | 4093/11858 [34:45<1:03:25,  2.04it/s] 35%|███▍      | 4094/11858 [34:45<1:03:26,  2.04it/s] 35%|███▍      | 4095/11858 [34:46<1:03:27,  2.04it/s] 35%|███▍      | 4096/11858 [34:46<1:03:23,  2.04it/s] 35%|███▍      | 4097/11858 [34:47<1:03:22,  2.04it/s] 35%|███▍      | 4098/11858 [34:47<1:03:26,  2.04it/s] 35%|███▍      | 4099/11858 [34:48<1:03:24,  2.04it/s] 35%|███▍      | 4100/11858 [34:48<1:03:25,  2.04it/s]                                                      {'loss': 2.159, 'grad_norm': 0.4220493733882904, 'learning_rate': 0.0008270459220650119, 'epoch': 4.84}
- 35%|███▍      | 4100/11858 [34:48<1:03:25,  2.04it/s] 35%|███▍      | 4101/11858 [34:49<1:03:31,  2.03it/s] 35%|███▍      | 4102/11858 [34:49<1:03:26,  2.04it/s] 35%|███▍      | 4103/11858 [34:50<1:03:26,  2.04it/s] 35%|███▍      | 4104/11858 [34:50<1:03:24,  2.04it/s] 35%|███▍      | 4105/11858 [34:51<1:03:22,  2.04it/s] 35%|███▍      | 4106/11858 [34:51<1:03:22,  2.04it/s] 35%|███▍      | 4107/11858 [34:52<1:03:19,  2.04it/s] 35%|███▍      | 4108/11858 [34:52<1:03:21,  2.04it/s] 35%|███▍      | 4109/11858 [34:53<1:03:18,  2.04it/s] 35%|███▍      | 4110/11858 [34:53<1:03:16,  2.04it/s] 35%|███▍      | 4111/11858 [34:54<1:03:19,  2.04it/s] 35%|███▍      | 4112/11858 [34:54<1:03:18,  2.04it/s] 35%|███▍      | 4113/11858 [34:55<1:03:17,  2.04it/s] 35%|███▍      | 4114/11858 [34:55<1:03:19,  2.04it/s] 35%|███▍      | 4115/11858 [34:56<1:03:18,  2.04it/s] 35%|███▍      | 4116/11858 [34:56<1:03:11,  2.04it/s] 35%|███▍      | 4117/11858 [34:56<1:03:12,  2.04it/s] 35%|███▍      | 4118/11858 [34:57<1:03:16,  2.04it/s] 35%|███▍      | 4119/11858 [34:57<1:03:14,  2.04it/s] 35%|███▍      | 4120/11858 [34:58<1:03:10,  2.04it/s] 35%|███▍      | 4121/11858 [34:58<1:03:12,  2.04it/s] 35%|███▍      | 4122/11858 [34:59<1:03:11,  2.04it/s] 35%|███▍      | 4123/11858 [34:59<1:03:10,  2.04it/s] 35%|███▍      | 4124/11858 [35:00<1:03:16,  2.04it/s] 35%|███▍      | 4125/11858 [35:00<1:03:13,  2.04it/s]{'loss': 2.1332, 'grad_norm': 0.3844882547855377, 'learning_rate': 0.0008242536992384602, 'epoch': 4.87}
-                                                       35%|███▍      | 4125/11858 [35:00<1:03:13,  2.04it/s] 35%|███▍      | 4126/11858 [35:01<1:03:17,  2.04it/s] 35%|███▍      | 4127/11858 [35:01<1:03:17,  2.04it/s] 35%|███▍      | 4128/11858 [35:02<1:03:15,  2.04it/s] 35%|███▍      | 4129/11858 [35:02<1:03:11,  2.04it/s] 35%|███▍      | 4130/11858 [35:03<1:03:10,  2.04it/s] 35%|███▍      | 4131/11858 [35:03<1:03:09,  2.04it/s] 35%|███▍      | 4132/11858 [35:04<1:03:09,  2.04it/s] 35%|███▍      | 4133/11858 [35:04<1:03:01,  2.04it/s] 35%|███▍      | 4134/11858 [35:05<1:03:04,  2.04it/s] 35%|███▍      | 4135/11858 [35:05<1:03:05,  2.04it/s] 35%|███▍      | 4136/11858 [35:06<1:03:00,  2.04it/s] 35%|███▍      | 4137/11858 [35:06<1:02:58,  2.04it/s] 35%|███▍      | 4138/11858 [35:07<1:03:01,  2.04it/s] 35%|███▍      | 4139/11858 [35:07<1:03:04,  2.04it/s] 35%|███▍      | 4140/11858 [35:08<1:03:01,  2.04it/s] 35%|███▍      | 4141/11858 [35:08<1:02:59,  2.04it/s] 35%|███▍      | 4142/11858 [35:09<1:03:04,  2.04it/s] 35%|███▍      | 4143/11858 [35:09<1:03:03,  2.04it/s] 35%|███▍      | 4144/11858 [35:10<1:03:00,  2.04it/s] 35%|███▍      | 4145/11858 [35:10<1:02:59,  2.04it/s] 35%|███▍      | 4146/11858 [35:11<1:03:04,  2.04it/s] 35%|███▍      | 4147/11858 [35:11<1:03:01,  2.04it/s] 35%|███▍      | 4148/11858 [35:12<1:02:54,  2.04it/s] 35%|███▍      | 4149/11858 [35:12<1:02:53,  2.04it/s] 35%|███▍      | 4150/11858 [35:13<1:02:54,  2.04it/s]{'loss': 2.1278, 'grad_norm': 0.3453487753868103, 'learning_rate': 0.0008214439145277214, 'epoch': 4.9}
-                                                       35%|███▍      | 4150/11858 [35:13<1:02:54,  2.04it/s] 35%|███▌      | 4151/11858 [35:13<1:02:58,  2.04it/s] 35%|███▌      | 4152/11858 [35:14<1:02:56,  2.04it/s] 35%|███▌      | 4153/11858 [35:14<1:02:57,  2.04it/s] 35%|███▌      | 4154/11858 [35:15<1:02:59,  2.04it/s] 35%|███▌      | 4155/11858 [35:15<1:02:59,  2.04it/s] 35%|███▌      | 4156/11858 [35:16<1:02:56,  2.04it/s] 35%|███▌      | 4157/11858 [35:16<1:03:02,  2.04it/s] 35%|███▌      | 4158/11858 [35:17<1:02:57,  2.04it/s] 35%|███▌      | 4159/11858 [35:17<1:02:56,  2.04it/s] 35%|███▌      | 4160/11858 [35:18<1:02:56,  2.04it/s] 35%|███▌      | 4161/11858 [35:18<1:02:55,  2.04it/s] 35%|███▌      | 4162/11858 [35:19<1:02:52,  2.04it/s] 35%|███▌      | 4163/11858 [35:19<1:02:50,  2.04it/s] 35%|███▌      | 4164/11858 [35:20<1:02:50,  2.04it/s] 35%|███▌      | 4165/11858 [35:20<1:02:52,  2.04it/s] 35%|███▌      | 4166/11858 [35:21<1:02:49,  2.04it/s] 35%|███▌      | 4167/11858 [35:21<1:02:49,  2.04it/s] 35%|███▌      | 4168/11858 [35:21<1:02:52,  2.04it/s] 35%|███▌      | 4169/11858 [35:22<1:02:53,  2.04it/s] 35%|███▌      | 4170/11858 [35:22<1:02:53,  2.04it/s] 35%|███▌      | 4171/11858 [35:23<1:02:49,  2.04it/s] 35%|███▌      | 4172/11858 [35:23<1:02:47,  2.04it/s] 35%|███▌      | 4173/11858 [35:24<1:02:47,  2.04it/s] 35%|███▌      | 4174/11858 [35:24<1:02:47,  2.04it/s] 35%|███▌      | 4175/11858 [35:25<1:02:43,  2.04it/s]{'loss': 2.1291, 'grad_norm': 0.2931256592273712, 'learning_rate': 0.0008186167201133681, 'epoch': 4.93}                                                      
- 35%|███▌      | 4175/11858 [35:25<1:02:43,  2.04it/s] 35%|███▌      | 4176/11858 [35:25<1:02:54,  2.04it/s] 35%|███▌      | 4177/11858 [35:26<1:02:50,  2.04it/s] 35%|███▌      | 4178/11858 [35:26<1:02:46,  2.04it/s] 35%|███▌      | 4179/11858 [35:27<1:02:49,  2.04it/s] 35%|███▌      | 4180/11858 [35:27<1:02:49,  2.04it/s] 35%|███▌      | 4181/11858 [35:28<1:02:44,  2.04it/s] 35%|███▌      | 4182/11858 [35:28<1:02:41,  2.04it/s] 35%|███▌      | 4183/11858 [35:29<1:02:40,  2.04it/s] 35%|███▌      | 4184/11858 [35:29<1:02:42,  2.04it/s] 35%|███▌      | 4185/11858 [35:30<1:02:40,  2.04it/s] 35%|███▌      | 4186/11858 [35:30<1:02:42,  2.04it/s] 35%|███▌      | 4187/11858 [35:31<1:02:44,  2.04it/s] 35%|███▌      | 4188/11858 [35:31<1:02:39,  2.04it/s] 35%|███▌      | 4189/11858 [35:32<1:02:35,  2.04it/s] 35%|███▌      | 4190/11858 [35:32<1:02:36,  2.04it/s] 35%|███▌      | 4191/11858 [35:33<1:02:35,  2.04it/s] 35%|███▌      | 4192/11858 [35:33<1:02:34,  2.04it/s] 35%|███▌      | 4193/11858 [35:34<1:02:28,  2.04it/s] 35%|███▌      | 4194/11858 [35:34<1:02:32,  2.04it/s] 35%|███▌      | 4195/11858 [35:35<1:02:34,  2.04it/s] 35%|███▌      | 4196/11858 [35:35<1:02:32,  2.04it/s] 35%|███▌      | 4197/11858 [35:36<1:02:27,  2.04it/s] 35%|███▌      | 4198/11858 [35:36<1:02:30,  2.04it/s] 35%|███▌      | 4199/11858 [35:37<1:02:33,  2.04it/s] 35%|███▌      | 4200/11858 [35:37<1:02:33,  2.04it/s]{'loss': 2.1188, 'grad_norm': 0.37122949957847595, 'learning_rate': 0.0008157722691188991, 'epoch': 4.96}
-                                                       35%|███▌      | 4200/11858 [35:37<1:02:33,  2.04it/s] 35%|███▌      | 4201/11858 [35:38<1:02:43,  2.03it/s] 35%|███▌      | 4202/11858 [35:38<1:02:40,  2.04it/s] 35%|███▌      | 4203/11858 [35:39<1:02:39,  2.04it/s] 35%|███▌      | 4204/11858 [35:39<1:02:39,  2.04it/s] 35%|███▌      | 4205/11858 [35:40<1:02:35,  2.04it/s] 35%|███▌      | 4206/11858 [35:40<1:02:35,  2.04it/s] 35%|███▌      | 4207/11858 [35:41<1:02:33,  2.04it/s] 35%|███▌      | 4208/11858 [35:41<1:02:29,  2.04it/s] 35%|███▌      | 4209/11858 [35:42<1:02:32,  2.04it/s] 36%|███▌      | 4210/11858 [35:42<1:02:32,  2.04it/s] 36%|███▌      | 4211/11858 [35:43<1:02:26,  2.04it/s] 36%|███▌      | 4212/11858 [35:43<1:02:29,  2.04it/s] 36%|███▌      | 4213/11858 [35:44<1:02:31,  2.04it/s] 36%|███▌      | 4214/11858 [35:44<1:02:31,  2.04it/s] 36%|███▌      | 4215/11858 [35:45<1:02:26,  2.04it/s] 36%|███▌      | 4216/11858 [35:45<1:02:24,  2.04it/s] 36%|███▌      | 4217/11858 [35:46<1:02:21,  2.04it/s] 36%|███▌      | 4218/11858 [35:46<1:02:20,  2.04it/s] 36%|███▌      | 4219/11858 [35:46<1:02:23,  2.04it/s] 36%|███▌      | 4220/11858 [35:47<1:02:21,  2.04it/s] 36%|███▌      | 4221/11858 [35:47<1:02:21,  2.04it/s] 36%|███▌      | 4222/11858 [35:48<1:02:24,  2.04it/s] 36%|███▌      | 4223/11858 [35:48<1:02:25,  2.04it/s] 36%|███▌      | 4224/11858 [35:49<1:02:24,  2.04it/s] 36%|███▌      | 4225/11858 [35:49<1:02:23,  2.04it/s]{'loss': 2.1247, 'grad_norm': 0.39081722497940063, 'learning_rate': 0.0008129107156024456, 'epoch': 4.99}
-                                                       36%|███▌      | 4225/11858 [35:49<1:02:23,  2.04it/s] 36%|███▌      | 4226/11858 [35:50<1:02:28,  2.04it/s] 36%|███▌      | 4227/11858 [35:50<1:02:25,  2.04it/s] 36%|███▌      | 4228/11858 [35:51<1:02:27,  2.04it/s] 36%|███▌      | 4229/11858 [35:51<1:02:22,  2.04it/s] 36%|███▌      | 4230/11858 [35:52<1:02:21,  2.04it/s] 36%|███▌      | 4231/11858 [35:52<1:02:20,  2.04it/s] 36%|███▌      | 4232/11858 [35:53<1:02:21,  2.04it/s] 36%|███▌      | 4233/11858 [35:53<1:02:17,  2.04it/s] 36%|███▌      | 4234/11858 [35:54<1:02:17,  2.04it/s] 36%|███▌      | 4235/11858 [35:54<1:02:17,  2.04it/s] 36%|███▌      | 4236/11858 [35:55<1:02:14,  2.04it/s] 36%|███▌      | 4237/11858 [35:55<1:03:57,  1.99it/s] 36%|███▌      | 4238/11858 [36:07<8:25:30,  3.98s/it] 36%|███▌      | 4239/11858 [36:08<6:12:30,  2.93s/it] 36%|███▌      | 4240/11858 [36:08<4:39:22,  2.20s/it] 36%|███▌      | 4241/11858 [36:09<3:34:09,  1.69s/it] 36%|███▌      | 4242/11858 [36:09<2:48:57,  1.33s/it] 36%|███▌      | 4243/11858 [36:10<2:17:08,  1.08s/it] 36%|███▌      | 4244/11858 [36:10<1:54:38,  1.11it/s] 36%|███▌      | 4245/11858 [36:11<1:38:52,  1.28it/s] 36%|███▌      | 4246/11858 [36:11<1:27:51,  1.44it/s] 36%|███▌      | 4247/11858 [36:12<1:20:36,  1.57it/s] 36%|███▌      | 4248/11858 [36:12<1:15:06,  1.69it/s] 36%|███▌      | 4249/11858 [36:13<1:11:13,  1.78it/s] 36%|███▌      | 4250/11858 [36:13<1:08:37,  1.85it/s]{'loss': 2.0508, 'grad_norm': 0.34050652384757996, 'learning_rate': 0.0008100322145484273, 'epoch': 5.01}                                                      
- 36%|███▌      | 4250/11858 [36:13<1:08:37,  1.85it/s] 36%|███▌      | 4251/11858 [36:14<1:06:44,  1.90it/s] 36%|███▌      | 4252/11858 [36:14<1:05:29,  1.94it/s] 36%|███▌      | 4253/11858 [36:15<1:04:26,  1.97it/s] 36%|███▌      | 4254/11858 [36:15<1:03:44,  1.99it/s] 36%|███▌      | 4255/11858 [36:16<1:03:16,  2.00it/s] 36%|███▌      | 4256/11858 [36:16<1:02:53,  2.01it/s] 36%|███▌      | 4257/11858 [36:17<1:02:40,  2.02it/s] 36%|███▌      | 4258/11858 [36:17<1:02:27,  2.03it/s] 36%|███▌      | 4259/11858 [36:18<1:02:22,  2.03it/s] 36%|███▌      | 4260/11858 [36:18<1:02:20,  2.03it/s] 36%|███▌      | 4261/11858 [36:19<1:02:16,  2.03it/s] 36%|███▌      | 4262/11858 [36:19<1:02:18,  2.03it/s] 36%|███▌      | 4263/11858 [36:20<1:02:21,  2.03it/s] 36%|███▌      | 4264/11858 [36:20<1:02:12,  2.03it/s] 36%|███▌      | 4265/11858 [36:21<1:02:08,  2.04it/s] 36%|███▌      | 4266/11858 [36:21<1:02:07,  2.04it/s] 36%|███▌      | 4267/11858 [36:22<1:02:06,  2.04it/s] 36%|███▌      | 4268/11858 [36:22<1:02:04,  2.04it/s] 36%|███▌      | 4269/11858 [36:23<1:02:02,  2.04it/s] 36%|███▌      | 4270/11858 [36:23<1:02:01,  2.04it/s] 36%|███▌      | 4271/11858 [36:24<1:01:58,  2.04it/s] 36%|███▌      | 4272/11858 [36:24<1:01:59,  2.04it/s] 36%|███▌      | 4273/11858 [36:25<1:02:00,  2.04it/s] 36%|███▌      | 4274/11858 [36:25<1:01:58,  2.04it/s] 36%|███▌      | 4275/11858 [36:26<1:01:51,  2.04it/s]{'loss': 1.963, 'grad_norm': 0.30013036727905273, 'learning_rate': 0.0008071369218591587, 'epoch': 5.04}
-                                                       36%|███▌      | 4275/11858 [36:26<1:01:51,  2.04it/s] 36%|███▌      | 4276/11858 [36:26<1:01:56,  2.04it/s] 36%|███▌      | 4277/11858 [36:27<1:01:57,  2.04it/s] 36%|███▌      | 4278/11858 [36:27<1:01:54,  2.04it/s] 36%|███▌      | 4279/11858 [36:28<1:01:50,  2.04it/s] 36%|███▌      | 4280/11858 [36:28<1:01:49,  2.04it/s] 36%|███▌      | 4281/11858 [36:29<1:01:50,  2.04it/s] 36%|███▌      | 4282/11858 [36:29<1:01:50,  2.04it/s] 36%|███▌      | 4283/11858 [36:30<1:01:48,  2.04it/s] 36%|███▌      | 4284/11858 [36:30<1:01:52,  2.04it/s] 36%|███▌      | 4285/11858 [36:31<1:01:54,  2.04it/s] 36%|███▌      | 4286/11858 [36:31<1:01:52,  2.04it/s] 36%|███▌      | 4287/11858 [36:32<1:01:48,  2.04it/s] 36%|███▌      | 4288/11858 [36:32<1:01:47,  2.04it/s] 36%|███▌      | 4289/11858 [36:32<1:01:49,  2.04it/s] 36%|███▌      | 4290/11858 [36:33<1:01:47,  2.04it/s] 36%|███▌      | 4291/11858 [36:33<1:01:50,  2.04it/s] 36%|███▌      | 4292/11858 [36:34<1:01:49,  2.04it/s] 36%|███▌      | 4293/11858 [36:34<1:01:48,  2.04it/s] 36%|███▌      | 4294/11858 [36:35<1:01:50,  2.04it/s] 36%|███▌      | 4295/11858 [36:35<1:01:49,  2.04it/s] 36%|███▌      | 4296/11858 [36:36<1:01:45,  2.04it/s] 36%|███▌      | 4297/11858 [36:36<1:01:45,  2.04it/s] 36%|███▌      | 4298/11858 [36:37<1:01:44,  2.04it/s] 36%|███▋      | 4299/11858 [36:37<1:01:43,  2.04it/s] 36%|███▋      | 4300/11858 [36:38<1:01:43,  2.04it/s]{'loss': 1.9887, 'grad_norm': 0.30207130312919617, 'learning_rate': 0.0008042249943464049, 'epoch': 5.07}
-                                                       36%|███▋      | 4300/11858 [36:38<1:01:43,  2.04it/s] 36%|███▋      | 4301/11858 [36:38<1:01:50,  2.04it/s] 36%|███▋      | 4302/11858 [36:39<1:01:46,  2.04it/s] 36%|███▋      | 4303/11858 [36:39<1:01:46,  2.04it/s] 36%|███▋      | 4304/11858 [36:40<1:01:48,  2.04it/s] 36%|███▋      | 4305/11858 [36:40<1:01:43,  2.04it/s] 36%|███▋      | 4306/11858 [36:41<1:01:40,  2.04it/s] 36%|███▋      | 4307/11858 [36:41<1:01:42,  2.04it/s] 36%|███▋      | 4308/11858 [36:42<1:01:42,  2.04it/s] 36%|███▋      | 4309/11858 [36:42<1:01:38,  2.04it/s] 36%|███▋      | 4310/11858 [36:43<1:01:39,  2.04it/s] 36%|███▋      | 4311/11858 [36:43<1:01:42,  2.04it/s] 36%|███▋      | 4312/11858 [36:44<1:01:42,  2.04it/s] 36%|███▋      | 4313/11858 [36:44<1:01:40,  2.04it/s] 36%|███▋      | 4314/11858 [36:45<1:01:38,  2.04it/s] 36%|███▋      | 4315/11858 [36:45<1:01:37,  2.04it/s] 36%|███▋      | 4316/11858 [36:46<1:01:38,  2.04it/s] 36%|███▋      | 4317/11858 [36:46<1:01:38,  2.04it/s] 36%|███▋      | 4318/11858 [36:47<1:01:38,  2.04it/s] 36%|███▋      | 4319/11858 [36:47<1:01:36,  2.04it/s] 36%|███▋      | 4320/11858 [36:48<1:01:34,  2.04it/s] 36%|███▋      | 4321/11858 [36:48<1:01:35,  2.04it/s] 36%|███▋      | 4322/11858 [36:49<1:01:34,  2.04it/s] 36%|███▋      | 4323/11858 [36:49<1:01:34,  2.04it/s] 36%|███▋      | 4324/11858 [36:50<1:01:32,  2.04it/s] 36%|███▋      | 4325/11858 [36:50<1:01:34,  2.04it/s]{'loss': 1.9795, 'grad_norm': 0.3186832666397095, 'learning_rate': 0.0008012965897228883, 'epoch': 5.1}
-                                                       36%|███▋      | 4325/11858 [36:50<1:01:34,  2.04it/s] 36%|███▋      | 4326/11858 [36:51<1:01:36,  2.04it/s] 36%|███▋      | 4327/11858 [36:51<1:01:35,  2.04it/s] 36%|███▋      | 4328/11858 [36:52<1:01:34,  2.04it/s] 37%|███▋      | 4329/11858 [36:52<1:01:34,  2.04it/s] 37%|███▋      | 4330/11858 [36:53<1:01:33,  2.04it/s] 37%|███▋      | 4331/11858 [36:53<1:01:32,  2.04it/s] 37%|███▋      | 4332/11858 [36:54<1:01:31,  2.04it/s] 37%|███▋      | 4333/11858 [36:54<1:01:32,  2.04it/s] 37%|███▋      | 4334/11858 [36:55<1:01:32,  2.04it/s] 37%|███▋      | 4335/11858 [36:55<1:01:34,  2.04it/s] 37%|███▋      | 4336/11858 [36:56<1:01:32,  2.04it/s] 37%|███▋      | 4337/11858 [36:56<1:01:28,  2.04it/s] 37%|███▋      | 4338/11858 [36:57<1:01:29,  2.04it/s] 37%|███▋      | 4339/11858 [36:57<1:01:28,  2.04it/s] 37%|███▋      | 4340/11858 [36:58<1:01:24,  2.04it/s] 37%|███▋      | 4341/11858 [36:58<1:01:24,  2.04it/s] 37%|███▋      | 4342/11858 [36:58<1:01:25,  2.04it/s] 37%|███▋      | 4343/11858 [36:59<1:01:24,  2.04it/s] 37%|███▋      | 4344/11858 [36:59<1:01:21,  2.04it/s] 37%|███▋      | 4345/11858 [37:00<1:01:20,  2.04it/s] 37%|███▋      | 4346/11858 [37:00<1:01:19,  2.04it/s] 37%|███▋      | 4347/11858 [37:01<1:01:19,  2.04it/s] 37%|███▋      | 4348/11858 [37:01<1:01:21,  2.04it/s] 37%|███▋      | 4349/11858 [37:02<1:01:22,  2.04it/s] 37%|███▋      | 4350/11858 [37:02<1:01:20,  2.04it/s]{'loss': 2.004, 'grad_norm': 0.330240935087204, 'learning_rate': 0.0007983518665937475, 'epoch': 5.13}
-                                                       37%|███▋      | 4350/11858 [37:02<1:01:20,  2.04it/s] 37%|███▋      | 4351/11858 [37:03<1:01:26,  2.04it/s] 37%|███▋      | 4352/11858 [37:03<1:01:23,  2.04it/s] 37%|███▋      | 4353/11858 [37:04<1:01:23,  2.04it/s] 37%|███▋      | 4354/11858 [37:04<1:01:21,  2.04it/s] 37%|███▋      | 4355/11858 [37:05<1:01:21,  2.04it/s] 37%|███▋      | 4356/11858 [37:05<1:01:21,  2.04it/s] 37%|███▋      | 4357/11858 [37:06<1:01:19,  2.04it/s] 37%|███▋      | 4358/11858 [37:06<1:01:18,  2.04it/s] 37%|███▋      | 4359/11858 [37:07<1:01:17,  2.04it/s] 37%|███▋      | 4360/11858 [37:07<1:01:14,  2.04it/s] 37%|███▋      | 4361/11858 [37:08<1:01:14,  2.04it/s] 37%|███▋      | 4362/11858 [37:08<1:01:13,  2.04it/s] 37%|███▋      | 4363/11858 [37:09<1:01:20,  2.04it/s] 37%|███▋      | 4364/11858 [37:09<1:01:16,  2.04it/s] 37%|███▋      | 4365/11858 [37:10<1:01:15,  2.04it/s] 37%|███▋      | 4366/11858 [37:10<1:01:14,  2.04it/s] 37%|███▋      | 4367/11858 [37:11<1:01:14,  2.04it/s] 37%|███▋      | 4368/11858 [37:11<1:01:13,  2.04it/s] 37%|███▋      | 4369/11858 [37:12<1:01:10,  2.04it/s] 37%|███▋      | 4370/11858 [37:12<1:01:10,  2.04it/s] 37%|███▋      | 4371/11858 [37:13<1:01:07,  2.04it/s] 37%|███▋      | 4372/11858 [37:13<1:01:10,  2.04it/s] 37%|███▋      | 4373/11858 [37:14<1:01:09,  2.04it/s] 37%|███▋      | 4374/11858 [37:14<1:01:03,  2.04it/s] 37%|███▋      | 4375/11858 [37:15<1:01:03,  2.04it/s]                                                      {'loss': 1.9976, 'grad_norm': 0.3157500624656677, 'learning_rate': 0.0007953909844479464, 'epoch': 5.16}
- 37%|███▋      | 4375/11858 [37:15<1:01:03,  2.04it/s] 37%|███▋      | 4376/11858 [37:15<1:01:11,  2.04it/s] 37%|███▋      | 4377/11858 [37:16<1:01:06,  2.04it/s] 37%|███▋      | 4378/11858 [37:16<1:01:06,  2.04it/s] 37%|███▋      | 4379/11858 [37:17<1:01:06,  2.04it/s] 37%|███▋      | 4380/11858 [37:17<1:01:04,  2.04it/s] 37%|███▋      | 4381/11858 [37:18<1:01:00,  2.04it/s] 37%|███▋      | 4382/11858 [37:18<1:01:00,  2.04it/s] 37%|███▋      | 4383/11858 [37:19<1:01:03,  2.04it/s] 37%|███▋      | 4384/11858 [37:19<1:01:02,  2.04it/s] 37%|███▋      | 4385/11858 [37:20<1:00:59,  2.04it/s] 37%|███▋      | 4386/11858 [37:20<1:01:00,  2.04it/s] 37%|███▋      | 4387/11858 [37:21<1:01:00,  2.04it/s] 37%|███▋      | 4388/11858 [37:21<1:00:59,  2.04it/s] 37%|███▋      | 4389/11858 [37:22<1:00:53,  2.04it/s] 37%|███▋      | 4390/11858 [37:22<1:00:57,  2.04it/s] 37%|███▋      | 4391/11858 [37:23<1:00:57,  2.04it/s] 37%|███▋      | 4392/11858 [37:23<1:00:58,  2.04it/s] 37%|███▋      | 4393/11858 [37:23<1:00:54,  2.04it/s] 37%|███▋      | 4394/11858 [37:24<1:01:01,  2.04it/s] 37%|███▋      | 4395/11858 [37:24<1:01:01,  2.04it/s] 37%|███▋      | 4396/11858 [37:25<1:00:58,  2.04it/s] 37%|███▋      | 4397/11858 [37:25<1:00:57,  2.04it/s] 37%|███▋      | 4398/11858 [37:26<1:00:58,  2.04it/s] 37%|███▋      | 4399/11858 [37:26<1:00:57,  2.04it/s] 37%|███▋      | 4400/11858 [37:27<1:00:55,  2.04it/s]{'loss': 1.9989, 'grad_norm': 0.3087101876735687, 'learning_rate': 0.0007924141036496365, 'epoch': 5.19}
-                                                       37%|███▋      | 4400/11858 [37:27<1:00:55,  2.04it/s] 37%|███▋      | 4401/11858 [37:27<1:01:00,  2.04it/s] 37%|███▋      | 4402/11858 [37:28<1:00:58,  2.04it/s] 37%|███▋      | 4403/11858 [37:28<1:00:56,  2.04it/s] 37%|███▋      | 4404/11858 [37:29<1:00:56,  2.04it/s] 37%|███▋      | 4405/11858 [37:29<1:00:56,  2.04it/s] 37%|███▋      | 4406/11858 [37:30<1:00:54,  2.04it/s] 37%|███▋      | 4407/11858 [37:30<1:00:55,  2.04it/s] 37%|███▋      | 4408/11858 [37:31<1:00:55,  2.04it/s] 37%|███▋      | 4409/11858 [37:31<1:00:51,  2.04it/s] 37%|███▋      | 4410/11858 [37:32<1:00:51,  2.04it/s] 37%|███▋      | 4411/11858 [37:32<1:00:52,  2.04it/s] 37%|███▋      | 4412/11858 [37:33<1:00:52,  2.04it/s] 37%|███▋      | 4413/11858 [37:33<1:00:50,  2.04it/s] 37%|███▋      | 4414/11858 [37:34<1:00:53,  2.04it/s] 37%|███▋      | 4415/11858 [37:34<1:00:51,  2.04it/s] 37%|███▋      | 4416/11858 [37:35<1:00:48,  2.04it/s] 37%|███▋      | 4417/11858 [37:35<1:00:45,  2.04it/s] 37%|███▋      | 4418/11858 [37:36<1:00:47,  2.04it/s] 37%|███▋      | 4419/11858 [37:36<1:00:44,  2.04it/s] 37%|███▋      | 4420/11858 [37:37<1:00:40,  2.04it/s] 37%|███▋      | 4421/11858 [37:37<1:00:37,  2.04it/s] 37%|███▋      | 4422/11858 [37:38<1:00:39,  2.04it/s] 37%|███▋      | 4423/11858 [37:38<1:00:40,  2.04it/s] 37%|███▋      | 4424/11858 [37:39<1:06:05,  1.87it/s] 37%|███▋      | 4425/11858 [37:39<1:04:30,  1.92it/s]{'loss': 2.0132, 'grad_norm': 0.3092977702617645, 'learning_rate': 0.0007894213854294714, 'epoch': 5.22}
-                                                       37%|███▋      | 4425/11858 [37:39<1:04:30,  1.92it/s] 37%|███▋      | 4426/11858 [37:40<1:03:24,  1.95it/s] 37%|███▋      | 4427/11858 [37:40<1:02:33,  1.98it/s] 37%|███▋      | 4428/11858 [37:41<1:02:02,  2.00it/s] 37%|███▋      | 4429/11858 [37:41<1:01:38,  2.01it/s] 37%|███▋      | 4430/11858 [37:42<1:01:18,  2.02it/s] 37%|███▋      | 4431/11858 [37:42<1:01:00,  2.03it/s] 37%|███▋      | 4432/11858 [37:43<1:00:53,  2.03it/s] 37%|███▋      | 4433/11858 [37:43<1:00:51,  2.03it/s] 37%|███▋      | 4434/11858 [37:44<1:00:41,  2.04it/s] 37%|███▋      | 4435/11858 [37:44<1:00:37,  2.04it/s] 37%|███▋      | 4436/11858 [37:45<1:00:37,  2.04it/s] 37%|███▋      | 4437/11858 [37:45<1:00:38,  2.04it/s] 37%|███▋      | 4438/11858 [37:46<1:00:36,  2.04it/s] 37%|███▋      | 4439/11858 [37:46<1:00:34,  2.04it/s] 37%|███▋      | 4440/11858 [37:47<1:00:34,  2.04it/s] 37%|███▋      | 4441/11858 [37:47<1:00:35,  2.04it/s] 37%|███▋      | 4442/11858 [37:48<1:00:34,  2.04it/s] 37%|███▋      | 4443/11858 [37:48<1:00:32,  2.04it/s] 37%|███▋      | 4444/11858 [37:49<1:00:33,  2.04it/s] 37%|███▋      | 4445/11858 [37:49<1:00:33,  2.04it/s] 37%|███▋      | 4446/11858 [37:50<1:00:29,  2.04it/s] 38%|███▊      | 4447/11858 [37:50<1:00:24,  2.04it/s] 38%|███▊      | 4448/11858 [37:51<1:00:26,  2.04it/s] 38%|███▊      | 4449/11858 [37:51<1:00:31,  2.04it/s] 38%|███▊      | 4450/11858 [37:52<1:00:32,  2.04it/s]{'loss': 2.0038, 'grad_norm': 0.30937308073043823, 'learning_rate': 0.0007864129918758738, 'epoch': 5.25}
-                                                       38%|███▊      | 4450/11858 [37:52<1:00:32,  2.04it/s] 38%|███▊      | 4451/11858 [37:52<1:00:34,  2.04it/s] 38%|███▊      | 4452/11858 [37:53<1:00:28,  2.04it/s] 38%|███▊      | 4453/11858 [37:53<1:00:23,  2.04it/s] 38%|███▊      | 4454/11858 [37:54<1:00:23,  2.04it/s] 38%|███▊      | 4455/11858 [37:54<1:00:23,  2.04it/s] 38%|███▊      | 4456/11858 [37:55<1:00:25,  2.04it/s] 38%|███▊      | 4457/11858 [37:55<1:00:22,  2.04it/s] 38%|███▊      | 4458/11858 [37:55<1:00:20,  2.04it/s] 38%|███▊      | 4459/11858 [37:56<1:00:17,  2.05it/s] 38%|███▊      | 4460/11858 [37:56<1:00:20,  2.04it/s] 38%|███▊      | 4461/11858 [37:57<1:00:21,  2.04it/s] 38%|███▊      | 4462/11858 [37:57<1:00:20,  2.04it/s] 38%|███▊      | 4463/11858 [37:58<1:00:20,  2.04it/s] 38%|███▊      | 4464/11858 [37:58<1:00:17,  2.04it/s] 38%|███▊      | 4465/11858 [37:59<1:00:20,  2.04it/s] 38%|███▊      | 4466/11858 [37:59<1:00:22,  2.04it/s] 38%|███▊      | 4467/11858 [38:00<1:00:20,  2.04it/s] 38%|███▊      | 4468/11858 [38:00<1:00:16,  2.04it/s] 38%|███▊      | 4469/11858 [38:01<1:00:15,  2.04it/s] 38%|███▊      | 4470/11858 [38:01<1:00:17,  2.04it/s] 38%|███▊      | 4471/11858 [38:02<1:05:31,  1.88it/s] 38%|███▊      | 4472/11858 [38:02<1:03:52,  1.93it/s] 38%|███▊      | 4473/11858 [38:03<1:02:48,  1.96it/s] 38%|███▊      | 4474/11858 [38:03<1:02:07,  1.98it/s] 38%|███▊      | 4475/11858 [38:04<1:01:33,  2.00it/s]{'loss': 2.0165, 'grad_norm': 0.39442726969718933, 'learning_rate': 0.0007833890859262579, 'epoch': 5.28}
-                                                       38%|███▊      | 4475/11858 [38:04<1:01:33,  2.00it/s] 38%|███▊      | 4476/11858 [38:04<1:01:13,  2.01it/s] 38%|███▊      | 4477/11858 [38:05<1:00:57,  2.02it/s] 38%|███▊      | 4478/11858 [38:05<1:00:46,  2.02it/s] 38%|███▊      | 4479/11858 [38:06<1:00:31,  2.03it/s] 38%|███▊      | 4480/11858 [38:06<1:00:24,  2.04it/s] 38%|███▊      | 4481/11858 [38:07<1:00:24,  2.04it/s] 38%|███▊      | 4482/11858 [38:07<1:00:22,  2.04it/s] 38%|███▊      | 4483/11858 [38:08<1:00:16,  2.04it/s] 38%|███▊      | 4484/11858 [38:08<1:00:12,  2.04it/s] 38%|███▊      | 4485/11858 [38:09<1:00:16,  2.04it/s] 38%|███▊      | 4486/11858 [38:09<1:00:15,  2.04it/s] 38%|███▊      | 4487/11858 [38:10<1:00:11,  2.04it/s] 38%|███▊      | 4488/11858 [38:10<1:00:08,  2.04it/s] 38%|███▊      | 4489/11858 [38:11<1:00:12,  2.04it/s] 38%|███▊      | 4490/11858 [38:11<1:00:09,  2.04it/s] 38%|███▊      | 4491/11858 [38:12<1:00:04,  2.04it/s] 38%|███▊      | 4492/11858 [38:12<1:00:10,  2.04it/s] 38%|███▊      | 4493/11858 [38:13<1:00:10,  2.04it/s] 38%|███▊      | 4494/11858 [38:13<1:00:05,  2.04it/s] 38%|███▊      | 4495/11858 [38:14<1:00:04,  2.04it/s] 38%|███▊      | 4496/11858 [38:14<1:00:06,  2.04it/s] 38%|███▊      | 4497/11858 [38:15<1:00:08,  2.04it/s] 38%|███▊      | 4498/11858 [38:15<1:00:07,  2.04it/s] 38%|███▊      | 4499/11858 [38:16<1:00:07,  2.04it/s] 38%|███▊      | 4500/11858 [38:16<1:00:06,  2.04it/s]                                                      {'loss': 2.0131, 'grad_norm': 0.4468448758125305, 'learning_rate': 0.0007803498313582034, 'epoch': 5.31}
- 38%|███▊      | 4500/11858 [38:16<1:00:06,  2.04it/s] 38%|███▊      | 4501/11858 [38:17<1:00:08,  2.04it/s] 38%|███▊      | 4502/11858 [38:17<1:00:08,  2.04it/s] 38%|███▊      | 4503/11858 [38:18<1:00:08,  2.04it/s] 38%|███▊      | 4504/11858 [38:18<1:00:05,  2.04it/s] 38%|███▊      | 4505/11858 [38:19<1:00:04,  2.04it/s] 38%|███▊      | 4506/11858 [38:19<1:00:05,  2.04it/s] 38%|███▊      | 4507/11858 [38:20<1:00:07,  2.04it/s] 38%|███▊      | 4508/11858 [38:20<1:00:05,  2.04it/s] 38%|███▊      | 4509/11858 [38:21<1:00:04,  2.04it/s] 38%|███▊      | 4510/11858 [38:21<1:00:02,  2.04it/s] 38%|███▊      | 4511/11858 [38:22<1:00:02,  2.04it/s] 38%|███▊      | 4512/11858 [38:22<59:59,  2.04it/s]   38%|███▊      | 4513/11858 [38:23<59:58,  2.04it/s] 38%|███▊      | 4514/11858 [38:23<59:57,  2.04it/s] 38%|███▊      | 4515/11858 [38:24<1:00:00,  2.04it/s] 38%|███▊      | 4516/11858 [38:24<1:00:02,  2.04it/s] 38%|███▊      | 4517/11858 [38:25<1:00:02,  2.04it/s] 38%|███▊      | 4518/11858 [38:25<59:58,  2.04it/s]   38%|███▊      | 4519/11858 [38:26<1:00:00,  2.04it/s] 38%|███▊      | 4520/11858 [38:26<59:59,  2.04it/s]   38%|███▊      | 4521/11858 [38:27<59:57,  2.04it/s] 38%|███▊      | 4522/11858 [38:27<59:57,  2.04it/s] 38%|███▊      | 4523/11858 [38:27<59:58,  2.04it/s] 38%|███▊      | 4524/11858 [38:28<59:56,  2.04it/s] 38%|███▊      | 4525/11858 [38:28<59:55,  2.04it/s]{'loss': 2.015, 'grad_norm': 0.3051778972148895, 'learning_rate': 0.0007772953927805854, 'epoch': 5.34}
-                                                     38%|███▊      | 4525/11858 [38:28<59:55,  2.04it/s] 38%|███▊      | 4526/11858 [38:29<1:00:01,  2.04it/s] 38%|███▊      | 4527/11858 [38:29<59:55,  2.04it/s]   38%|███▊      | 4528/11858 [38:30<59:54,  2.04it/s] 38%|███▊      | 4529/11858 [38:30<59:55,  2.04it/s] 38%|███▊      | 4530/11858 [38:31<59:54,  2.04it/s] 38%|███▊      | 4531/11858 [38:31<59:50,  2.04it/s] 38%|███▊      | 4532/11858 [38:32<59:48,  2.04it/s] 38%|███▊      | 4533/11858 [38:32<59:50,  2.04it/s] 38%|███▊      | 4534/11858 [38:33<59:48,  2.04it/s] 38%|███▊      | 4535/11858 [38:33<59:44,  2.04it/s] 38%|███▊      | 4536/11858 [38:34<59:43,  2.04it/s] 38%|███▊      | 4537/11858 [38:34<59:48,  2.04it/s] 38%|███▊      | 4538/11858 [38:35<59:46,  2.04it/s] 38%|███▊      | 4539/11858 [38:35<59:41,  2.04it/s] 38%|███▊      | 4540/11858 [38:36<59:38,  2.04it/s] 38%|███▊      | 4541/11858 [38:36<59:40,  2.04it/s] 38%|███▊      | 4542/11858 [38:37<59:41,  2.04it/s] 38%|███▊      | 4543/11858 [38:37<59:40,  2.04it/s] 38%|███▊      | 4544/11858 [38:38<59:36,  2.04it/s] 38%|███▊      | 4545/11858 [38:38<59:37,  2.04it/s] 38%|███▊      | 4546/11858 [38:39<59:43,  2.04it/s] 38%|███▊      | 4547/11858 [38:39<59:43,  2.04it/s] 38%|███▊      | 4548/11858 [38:40<59:42,  2.04it/s] 38%|███▊      | 4549/11858 [38:40<59:46,  2.04it/s] 38%|███▊      | 4550/11858 [38:41<59:48,  2.04it/s]{'loss': 2.0134, 'grad_norm': 0.30168068408966064, 'learning_rate': 0.0007742259356246594, 'epoch': 5.37}
-                                                     38%|███▊      | 4550/11858 [38:41<59:48,  2.04it/s] 38%|███▊      | 4551/11858 [38:41<59:50,  2.04it/s] 38%|███▊      | 4552/11858 [38:42<59:51,  2.03it/s] 38%|███▊      | 4553/11858 [38:42<59:50,  2.03it/s] 38%|███▊      | 4554/11858 [38:43<59:42,  2.04it/s] 38%|███▊      | 4555/11858 [38:43<59:41,  2.04it/s] 38%|███▊      | 4556/11858 [38:44<59:42,  2.04it/s] 38%|███▊      | 4557/11858 [38:44<59:41,  2.04it/s] 38%|███▊      | 4558/11858 [38:45<59:41,  2.04it/s] 38%|███▊      | 4559/11858 [38:45<59:44,  2.04it/s] 38%|███▊      | 4560/11858 [38:46<59:47,  2.03it/s] 38%|███▊      | 4561/11858 [38:46<59:44,  2.04it/s] 38%|███▊      | 4562/11858 [38:47<59:42,  2.04it/s] 38%|███▊      | 4563/11858 [38:47<59:40,  2.04it/s] 38%|███▊      | 4564/11858 [38:48<59:40,  2.04it/s] 38%|███▊      | 4565/11858 [38:48<59:39,  2.04it/s] 39%|███▊      | 4566/11858 [38:49<59:36,  2.04it/s] 39%|███▊      | 4567/11858 [38:49<59:34,  2.04it/s] 39%|███▊      | 4568/11858 [38:50<59:35,  2.04it/s] 39%|███▊      | 4569/11858 [38:50<59:33,  2.04it/s] 39%|███▊      | 4570/11858 [38:51<59:32,  2.04it/s] 39%|███▊      | 4571/11858 [38:51<59:34,  2.04it/s] 39%|███▊      | 4572/11858 [38:52<59:32,  2.04it/s] 39%|███▊      | 4573/11858 [38:52<59:30,  2.04it/s] 39%|███▊      | 4574/11858 [38:52<59:32,  2.04it/s] 39%|███▊      | 4575/11858 [38:53<59:32,  2.04it/s]{'loss': 2.0112, 'grad_norm': 0.35533252358436584, 'learning_rate': 0.0007711416261351013, 'epoch': 5.4}
-                                                     39%|███▊      | 4575/11858 [38:53<59:32,  2.04it/s] 39%|███▊      | 4576/11858 [38:53<59:31,  2.04it/s] 39%|███▊      | 4577/11858 [38:54<59:30,  2.04it/s] 39%|███▊      | 4578/11858 [38:54<59:31,  2.04it/s] 39%|███▊      | 4579/11858 [38:55<59:29,  2.04it/s] 39%|███▊      | 4580/11858 [38:55<59:25,  2.04it/s] 39%|███▊      | 4581/11858 [38:56<59:27,  2.04it/s] 39%|███▊      | 4582/11858 [38:56<59:28,  2.04it/s] 39%|███▊      | 4583/11858 [38:57<59:25,  2.04it/s] 39%|███▊      | 4584/11858 [38:57<59:26,  2.04it/s] 39%|███▊      | 4585/11858 [38:58<59:26,  2.04it/s] 39%|███▊      | 4586/11858 [38:58<59:26,  2.04it/s] 39%|███▊      | 4587/11858 [38:59<59:24,  2.04it/s] 39%|███▊      | 4588/11858 [38:59<59:27,  2.04it/s] 39%|███▊      | 4589/11858 [39:00<59:27,  2.04it/s] 39%|███▊      | 4590/11858 [39:00<59:24,  2.04it/s] 39%|███▊      | 4591/11858 [39:01<59:24,  2.04it/s] 39%|███▊      | 4592/11858 [39:01<59:27,  2.04it/s] 39%|███▊      | 4593/11858 [39:02<59:22,  2.04it/s] 39%|███▊      | 4594/11858 [39:02<59:24,  2.04it/s] 39%|███▉      | 4595/11858 [39:03<59:23,  2.04it/s] 39%|███▉      | 4596/11858 [39:03<59:27,  2.04it/s] 39%|███▉      | 4597/11858 [39:04<59:22,  2.04it/s] 39%|███▉      | 4598/11858 [39:04<59:21,  2.04it/s] 39%|███▉      | 4599/11858 [39:05<59:21,  2.04it/s] 39%|███▉      | 4600/11858 [39:05<59:23,  2.04it/s]                                                    {'loss': 2.01, 'grad_norm': 0.306142657995224, 'learning_rate': 0.0007680426313610029, 'epoch': 5.43}
- 39%|███▉      | 4600/11858 [39:05<59:23,  2.04it/s] 39%|███▉      | 4601/11858 [39:06<59:24,  2.04it/s] 39%|███▉      | 4602/11858 [39:06<59:25,  2.04it/s] 39%|███▉      | 4603/11858 [39:07<59:28,  2.03it/s] 39%|███▉      | 4604/11858 [39:07<59:24,  2.03it/s] 39%|███▉      | 4605/11858 [39:08<59:22,  2.04it/s] 39%|███▉      | 4606/11858 [39:08<59:23,  2.03it/s] 39%|███▉      | 4607/11858 [39:09<59:21,  2.04it/s] 39%|███▉      | 4608/11858 [39:09<59:20,  2.04it/s] 39%|███▉      | 4609/11858 [39:10<59:18,  2.04it/s] 39%|███▉      | 4610/11858 [39:10<59:19,  2.04it/s] 39%|███▉      | 4611/11858 [39:11<59:19,  2.04it/s] 39%|███▉      | 4612/11858 [39:11<59:16,  2.04it/s] 39%|███▉      | 4613/11858 [39:12<59:16,  2.04it/s] 39%|███▉      | 4614/11858 [39:12<59:17,  2.04it/s] 39%|███▉      | 4615/11858 [39:13<59:14,  2.04it/s] 39%|███▉      | 4616/11858 [39:13<59:14,  2.04it/s] 39%|███▉      | 4617/11858 [39:14<59:12,  2.04it/s] 39%|███▉      | 4618/11858 [39:14<59:09,  2.04it/s] 39%|███▉      | 4619/11858 [39:15<59:09,  2.04it/s] 39%|███▉      | 4620/11858 [39:15<59:13,  2.04it/s] 39%|███▉      | 4621/11858 [39:16<59:10,  2.04it/s] 39%|███▉      | 4622/11858 [39:16<59:08,  2.04it/s] 39%|███▉      | 4623/11858 [39:17<59:12,  2.04it/s] 39%|███▉      | 4624/11858 [39:17<59:09,  2.04it/s] 39%|███▉      | 4625/11858 [39:18<59:09,  2.04it/s]{'loss': 2.0064, 'grad_norm': 0.3435887098312378, 'learning_rate': 0.0007649291191468253, 'epoch': 5.46}
-                                                     39%|███▉      | 4625/11858 [39:18<59:09,  2.04it/s] 39%|███▉      | 4626/11858 [39:18<59:14,  2.03it/s] 39%|███▉      | 4627/11858 [39:19<59:12,  2.04it/s] 39%|███▉      | 4628/11858 [39:19<59:12,  2.04it/s] 39%|███▉      | 4629/11858 [39:19<59:12,  2.04it/s] 39%|███▉      | 4630/11858 [39:20<59:06,  2.04it/s] 39%|███▉      | 4631/11858 [39:20<59:06,  2.04it/s] 39%|███▉      | 4632/11858 [39:21<59:08,  2.04it/s] 39%|███▉      | 4633/11858 [39:21<59:05,  2.04it/s] 39%|███▉      | 4634/11858 [39:22<59:03,  2.04it/s] 39%|███▉      | 4635/11858 [39:22<59:02,  2.04it/s] 39%|███▉      | 4636/11858 [39:23<59:03,  2.04it/s] 39%|███▉      | 4637/11858 [39:23<58:59,  2.04it/s] 39%|███▉      | 4638/11858 [39:24<58:58,  2.04it/s] 39%|███▉      | 4639/11858 [39:24<58:59,  2.04it/s] 39%|███▉      | 4640/11858 [39:25<58:56,  2.04it/s] 39%|███▉      | 4641/11858 [39:25<58:57,  2.04it/s] 39%|███▉      | 4642/11858 [39:26<59:00,  2.04it/s] 39%|███▉      | 4643/11858 [39:26<59:00,  2.04it/s] 39%|███▉      | 4644/11858 [39:27<58:55,  2.04it/s] 39%|███▉      | 4645/11858 [39:27<58:57,  2.04it/s] 39%|███▉      | 4646/11858 [39:28<58:58,  2.04it/s] 39%|███▉      | 4647/11858 [39:28<58:53,  2.04it/s] 39%|███▉      | 4648/11858 [39:29<58:49,  2.04it/s] 39%|███▉      | 4649/11858 [39:29<58:53,  2.04it/s] 39%|███▉      | 4650/11858 [39:30<58:50,  2.04it/s]{'loss': 2.0208, 'grad_norm': 0.36771148443222046, 'learning_rate': 0.0007618012581233076, 'epoch': 5.49}                                                    
- 39%|███▉      | 4650/11858 [39:30<58:50,  2.04it/s] 39%|███▉      | 4651/11858 [39:30<58:52,  2.04it/s] 39%|███▉      | 4652/11858 [39:31<58:56,  2.04it/s] 39%|███▉      | 4653/11858 [39:31<58:55,  2.04it/s] 39%|███▉      | 4654/11858 [39:32<58:51,  2.04it/s] 39%|███▉      | 4655/11858 [39:32<58:53,  2.04it/s] 39%|███▉      | 4656/11858 [39:33<58:55,  2.04it/s] 39%|███▉      | 4657/11858 [39:33<58:56,  2.04it/s] 39%|███▉      | 4658/11858 [39:34<58:59,  2.03it/s] 39%|███▉      | 4659/11858 [39:34<59:00,  2.03it/s] 39%|███▉      | 4660/11858 [39:35<58:54,  2.04it/s] 39%|███▉      | 4661/11858 [39:35<58:53,  2.04it/s] 39%|███▉      | 4662/11858 [39:36<58:51,  2.04it/s] 39%|███▉      | 4663/11858 [39:36<58:49,  2.04it/s] 39%|███▉      | 4664/11858 [39:37<58:45,  2.04it/s] 39%|███▉      | 4665/11858 [39:37<58:48,  2.04it/s] 39%|███▉      | 4666/11858 [39:38<58:49,  2.04it/s] 39%|███▉      | 4667/11858 [39:38<58:46,  2.04it/s] 39%|███▉      | 4668/11858 [39:39<58:50,  2.04it/s] 39%|███▉      | 4669/11858 [39:39<58:49,  2.04it/s] 39%|███▉      | 4670/11858 [39:40<58:48,  2.04it/s] 39%|███▉      | 4671/11858 [39:40<58:45,  2.04it/s] 39%|███▉      | 4672/11858 [39:41<58:46,  2.04it/s] 39%|███▉      | 4673/11858 [39:41<58:46,  2.04it/s] 39%|███▉      | 4674/11858 [39:42<58:41,  2.04it/s] 39%|███▉      | 4675/11858 [39:42<58:42,  2.04it/s]{'loss': 1.9941, 'grad_norm': 0.3112877905368805, 'learning_rate': 0.0007586592176983333, 'epoch': 5.52}
-                                                     39%|███▉      | 4675/11858 [39:42<58:42,  2.04it/s] 39%|███▉      | 4676/11858 [39:43<58:46,  2.04it/s] 39%|███▉      | 4677/11858 [39:43<58:44,  2.04it/s] 39%|███▉      | 4678/11858 [39:44<58:45,  2.04it/s] 39%|███▉      | 4679/11858 [39:44<58:42,  2.04it/s] 39%|███▉      | 4680/11858 [39:45<58:40,  2.04it/s] 39%|███▉      | 4681/11858 [39:45<58:41,  2.04it/s] 39%|███▉      | 4682/11858 [39:45<58:41,  2.04it/s] 39%|███▉      | 4683/11858 [39:46<58:39,  2.04it/s] 40%|███▉      | 4684/11858 [39:46<58:38,  2.04it/s] 40%|███▉      | 4685/11858 [39:47<58:37,  2.04it/s] 40%|███▉      | 4686/11858 [39:47<58:36,  2.04it/s] 40%|███▉      | 4687/11858 [39:48<58:32,  2.04it/s] 40%|███▉      | 4688/11858 [39:48<58:33,  2.04it/s] 40%|███▉      | 4689/11858 [39:49<58:35,  2.04it/s] 40%|███▉      | 4690/11858 [39:49<58:36,  2.04it/s] 40%|███▉      | 4691/11858 [39:50<58:34,  2.04it/s] 40%|███▉      | 4692/11858 [39:50<58:37,  2.04it/s] 40%|███▉      | 4693/11858 [39:51<58:35,  2.04it/s] 40%|███▉      | 4694/11858 [39:51<58:32,  2.04it/s] 40%|███▉      | 4695/11858 [39:52<58:34,  2.04it/s] 40%|███▉      | 4696/11858 [39:52<58:33,  2.04it/s] 40%|███▉      | 4697/11858 [39:53<58:28,  2.04it/s] 40%|███▉      | 4698/11858 [39:53<58:28,  2.04it/s] 40%|███▉      | 4699/11858 [39:54<58:30,  2.04it/s] 40%|███▉      | 4700/11858 [39:54<58:28,  2.04it/s]{'loss': 2.0079, 'grad_norm': 0.3536059856414795, 'learning_rate': 0.0007555031680477562, 'epoch': 5.55}
-                                                     40%|███▉      | 4700/11858 [39:54<58:28,  2.04it/s] 40%|███▉      | 4701/11858 [39:55<58:31,  2.04it/s] 40%|███▉      | 4702/11858 [39:55<58:34,  2.04it/s] 40%|███▉      | 4703/11858 [39:56<58:31,  2.04it/s] 40%|███▉      | 4704/11858 [39:56<58:27,  2.04it/s] 40%|███▉      | 4705/11858 [39:57<58:29,  2.04it/s] 40%|███▉      | 4706/11858 [39:57<58:29,  2.04it/s] 40%|███▉      | 4707/11858 [39:58<58:26,  2.04it/s] 40%|███▉      | 4708/11858 [39:58<58:27,  2.04it/s] 40%|███▉      | 4709/11858 [39:59<58:27,  2.04it/s] 40%|███▉      | 4710/11858 [39:59<58:25,  2.04it/s] 40%|███▉      | 4711/11858 [40:00<58:24,  2.04it/s] 40%|███▉      | 4712/11858 [40:00<58:24,  2.04it/s] 40%|███▉      | 4713/11858 [40:01<58:25,  2.04it/s] 40%|███▉      | 4714/11858 [40:01<58:23,  2.04it/s] 40%|███▉      | 4715/11858 [40:02<58:25,  2.04it/s] 40%|███▉      | 4716/11858 [40:02<58:24,  2.04it/s] 40%|███▉      | 4717/11858 [40:03<58:24,  2.04it/s] 40%|███▉      | 4718/11858 [40:03<58:24,  2.04it/s] 40%|███▉      | 4719/11858 [40:04<58:22,  2.04it/s] 40%|███▉      | 4720/11858 [40:04<58:22,  2.04it/s] 40%|███▉      | 4721/11858 [40:05<58:24,  2.04it/s] 40%|███▉      | 4722/11858 [40:05<58:23,  2.04it/s] 40%|███▉      | 4723/11858 [40:06<58:19,  2.04it/s] 40%|███▉      | 4724/11858 [40:06<58:21,  2.04it/s] 40%|███▉      | 4725/11858 [40:07<58:21,  2.04it/s]{'loss': 2.0121, 'grad_norm': 0.30223917961120605, 'learning_rate': 0.0007523332801061828, 'epoch': 5.58}
-                                                     40%|███▉      | 4725/11858 [40:07<58:21,  2.04it/s] 40%|███▉      | 4726/11858 [40:07<58:22,  2.04it/s] 40%|███▉      | 4727/11858 [40:08<58:19,  2.04it/s] 40%|███▉      | 4728/11858 [40:08<58:18,  2.04it/s] 40%|███▉      | 4729/11858 [40:09<58:17,  2.04it/s] 40%|███▉      | 4730/11858 [40:09<58:13,  2.04it/s] 40%|███▉      | 4731/11858 [40:10<58:11,  2.04it/s] 40%|███▉      | 4732/11858 [40:10<58:17,  2.04it/s] 40%|███▉      | 4733/11858 [40:11<58:16,  2.04it/s] 40%|███▉      | 4734/11858 [40:11<58:13,  2.04it/s] 40%|███▉      | 4735/11858 [40:11<58:12,  2.04it/s] 40%|███▉      | 4736/11858 [40:12<58:12,  2.04it/s] 40%|███▉      | 4737/11858 [40:12<58:13,  2.04it/s] 40%|███▉      | 4738/11858 [40:13<58:11,  2.04it/s] 40%|███▉      | 4739/11858 [40:13<58:08,  2.04it/s] 40%|███▉      | 4740/11858 [40:14<58:05,  2.04it/s] 40%|███▉      | 4741/11858 [40:14<58:08,  2.04it/s] 40%|███▉      | 4742/11858 [40:15<58:09,  2.04it/s] 40%|███▉      | 4743/11858 [40:15<58:06,  2.04it/s] 40%|████      | 4744/11858 [40:16<58:03,  2.04it/s] 40%|████      | 4745/11858 [40:16<58:08,  2.04it/s] 40%|████      | 4746/11858 [40:17<58:06,  2.04it/s] 40%|████      | 4747/11858 [40:17<58:04,  2.04it/s] 40%|████      | 4748/11858 [40:18<58:04,  2.04it/s] 40%|████      | 4749/11858 [40:18<58:06,  2.04it/s] 40%|████      | 4750/11858 [40:19<58:06,  2.04it/s]                                                    {'loss': 1.9908, 'grad_norm': 0.49855518341064453, 'learning_rate': 0.0007491497255577142, 'epoch': 5.6}
- 40%|████      | 4750/11858 [40:19<58:06,  2.04it/s] 40%|████      | 4751/11858 [40:19<58:20,  2.03it/s] 40%|████      | 4752/11858 [40:20<58:14,  2.03it/s] 40%|████      | 4753/11858 [40:20<58:09,  2.04it/s] 40%|████      | 4754/11858 [40:21<58:07,  2.04it/s] 40%|████      | 4755/11858 [40:21<58:09,  2.04it/s] 40%|████      | 4756/11858 [40:22<58:04,  2.04it/s] 40%|████      | 4757/11858 [40:22<58:04,  2.04it/s] 40%|████      | 4758/11858 [40:23<58:07,  2.04it/s] 40%|████      | 4759/11858 [40:23<58:05,  2.04it/s] 40%|████      | 4760/11858 [40:24<58:00,  2.04it/s] 40%|████      | 4761/11858 [40:24<58:03,  2.04it/s] 40%|████      | 4762/11858 [40:25<58:02,  2.04it/s] 40%|████      | 4763/11858 [40:25<57:59,  2.04it/s] 40%|████      | 4764/11858 [40:26<58:03,  2.04it/s] 40%|████      | 4765/11858 [40:26<58:04,  2.04it/s] 40%|████      | 4766/11858 [40:27<58:02,  2.04it/s] 40%|████      | 4767/11858 [40:27<58:06,  2.03it/s] 40%|████      | 4768/11858 [40:28<58:04,  2.03it/s] 40%|████      | 4769/11858 [40:28<58:00,  2.04it/s] 40%|████      | 4770/11858 [40:29<58:01,  2.04it/s] 40%|████      | 4771/11858 [40:29<58:02,  2.04it/s] 40%|████      | 4772/11858 [40:30<57:59,  2.04it/s] 40%|████      | 4773/11858 [40:30<58:00,  2.04it/s] 40%|████      | 4774/11858 [40:31<57:58,  2.04it/s] 40%|████      | 4775/11858 [40:31<57:56,  2.04it/s]{'loss': 2.0062, 'grad_norm': 0.2901979088783264, 'learning_rate': 0.0007459526768266478, 'epoch': 5.63}
-                                                     40%|████      | 4775/11858 [40:31<57:56,  2.04it/s] 40%|████      | 4776/11858 [40:32<58:02,  2.03it/s] 40%|████      | 4777/11858 [40:32<58:00,  2.03it/s] 40%|████      | 4778/11858 [40:33<58:04,  2.03it/s] 40%|████      | 4779/11858 [40:33<58:02,  2.03it/s] 40%|████      | 4780/11858 [40:34<57:59,  2.03it/s] 40%|████      | 4781/11858 [40:34<57:59,  2.03it/s] 40%|████      | 4782/11858 [40:35<57:58,  2.03it/s] 40%|████      | 4783/11858 [40:35<57:58,  2.03it/s] 40%|████      | 4784/11858 [40:36<57:59,  2.03it/s] 40%|████      | 4785/11858 [40:36<57:55,  2.04it/s] 40%|████      | 4786/11858 [40:37<57:58,  2.03it/s] 40%|████      | 4787/11858 [40:37<57:55,  2.03it/s] 40%|████      | 4788/11858 [40:38<57:53,  2.04it/s] 40%|████      | 4789/11858 [40:38<57:53,  2.04it/s] 40%|████      | 4790/11858 [40:38<57:50,  2.04it/s] 40%|████      | 4791/11858 [40:39<57:48,  2.04it/s] 40%|████      | 4792/11858 [40:39<57:50,  2.04it/s] 40%|████      | 4793/11858 [40:40<57:49,  2.04it/s] 40%|████      | 4794/11858 [40:40<57:48,  2.04it/s] 40%|████      | 4795/11858 [40:41<57:50,  2.04it/s] 40%|████      | 4796/11858 [40:41<57:50,  2.03it/s] 40%|████      | 4797/11858 [40:42<57:45,  2.04it/s] 40%|████      | 4798/11858 [40:42<57:45,  2.04it/s] 40%|████      | 4799/11858 [40:43<57:44,  2.04it/s] 40%|████      | 4800/11858 [40:43<57:43,  2.04it/s]{'loss': 2.0229, 'grad_norm': 0.313350647687912, 'learning_rate': 0.0007427423070681388, 'epoch': 5.66}
-                                                     40%|████      | 4800/11858 [40:43<57:43,  2.04it/s] 40%|████      | 4801/11858 [40:44<57:50,  2.03it/s] 40%|████      | 4802/11858 [40:44<57:50,  2.03it/s] 41%|████      | 4803/11858 [40:45<57:46,  2.04it/s] 41%|████      | 4804/11858 [40:45<57:44,  2.04it/s] 41%|████      | 4805/11858 [40:46<57:44,  2.04it/s] 41%|████      | 4806/11858 [40:46<57:43,  2.04it/s] 41%|████      | 4807/11858 [40:47<57:40,  2.04it/s] 41%|████      | 4808/11858 [40:47<57:41,  2.04it/s] 41%|████      | 4809/11858 [40:48<57:39,  2.04it/s] 41%|████      | 4810/11858 [40:48<57:35,  2.04it/s] 41%|████      | 4811/11858 [40:49<57:37,  2.04it/s] 41%|████      | 4812/11858 [40:49<57:41,  2.04it/s] 41%|████      | 4813/11858 [40:50<57:35,  2.04it/s] 41%|████      | 4814/11858 [40:50<57:32,  2.04it/s] 41%|████      | 4815/11858 [40:51<57:35,  2.04it/s] 41%|████      | 4816/11858 [40:51<57:35,  2.04it/s] 41%|████      | 4817/11858 [40:52<57:31,  2.04it/s] 41%|████      | 4818/11858 [40:52<57:31,  2.04it/s] 41%|████      | 4819/11858 [40:53<57:32,  2.04it/s] 41%|████      | 4820/11858 [40:53<57:30,  2.04it/s] 41%|████      | 4821/11858 [40:54<57:29,  2.04it/s] 41%|████      | 4822/11858 [40:54<57:33,  2.04it/s] 41%|████      | 4823/11858 [40:55<57:33,  2.04it/s] 41%|████      | 4824/11858 [40:55<57:31,  2.04it/s] 41%|████      | 4825/11858 [40:56<57:33,  2.04it/s]                                                    {'loss': 2.0122, 'grad_norm': 0.3486846089363098, 'learning_rate': 0.0007395187901588214, 'epoch': 5.69}
- 41%|████      | 4825/11858 [40:56<57:33,  2.04it/s] 41%|████      | 4826/11858 [40:56<57:40,  2.03it/s] 41%|████      | 4827/11858 [40:57<57:34,  2.04it/s] 41%|████      | 4828/11858 [40:57<57:35,  2.03it/s] 41%|████      | 4829/11858 [40:58<57:35,  2.03it/s] 41%|████      | 4830/11858 [40:58<57:32,  2.04it/s] 41%|████      | 4831/11858 [40:59<57:30,  2.04it/s] 41%|████      | 4832/11858 [40:59<57:31,  2.04it/s] 41%|████      | 4833/11858 [41:00<57:30,  2.04it/s] 41%|████      | 4834/11858 [41:00<57:32,  2.03it/s] 41%|████      | 4835/11858 [41:01<57:31,  2.03it/s] 41%|████      | 4836/11858 [41:01<57:29,  2.04it/s] 41%|████      | 4837/11858 [41:02<57:28,  2.04it/s] 41%|████      | 4838/11858 [41:02<57:26,  2.04it/s] 41%|████      | 4839/11858 [41:03<57:26,  2.04it/s] 41%|████      | 4840/11858 [41:03<57:29,  2.03it/s] 41%|████      | 4841/11858 [41:04<57:26,  2.04it/s] 41%|████      | 4842/11858 [41:04<57:27,  2.04it/s] 41%|████      | 4843/11858 [41:05<57:26,  2.04it/s] 41%|████      | 4844/11858 [41:05<57:23,  2.04it/s] 41%|████      | 4845/11858 [41:05<57:23,  2.04it/s] 41%|████      | 4846/11858 [41:06<57:23,  2.04it/s] 41%|████      | 4847/11858 [41:06<57:19,  2.04it/s] 41%|████      | 4848/11858 [41:07<57:21,  2.04it/s] 41%|████      | 4849/11858 [41:07<57:21,  2.04it/s] 41%|████      | 4850/11858 [41:08<57:18,  2.04it/s]{'loss': 1.9895, 'grad_norm': 0.30630239844322205, 'learning_rate': 0.000736282300687392, 'epoch': 5.72}
-                                                     41%|████      | 4850/11858 [41:08<57:18,  2.04it/s] 41%|████      | 4851/11858 [41:08<57:20,  2.04it/s] 41%|████      | 4852/11858 [41:09<57:21,  2.04it/s] 41%|████      | 4853/11858 [41:09<57:16,  2.04it/s] 41%|████      | 4854/11858 [41:10<57:15,  2.04it/s] 41%|████      | 4855/11858 [41:10<57:16,  2.04it/s] 41%|████      | 4856/11858 [41:11<57:16,  2.04it/s] 41%|████      | 4857/11858 [41:11<57:12,  2.04it/s] 41%|████      | 4858/11858 [41:12<57:12,  2.04it/s] 41%|████      | 4859/11858 [41:12<57:15,  2.04it/s] 41%|████      | 4860/11858 [41:13<57:12,  2.04it/s] 41%|████      | 4861/11858 [41:13<57:06,  2.04it/s] 41%|████      | 4862/11858 [41:14<57:07,  2.04it/s] 41%|████      | 4863/11858 [41:14<57:08,  2.04it/s] 41%|████      | 4864/11858 [41:15<57:08,  2.04it/s] 41%|████      | 4865/11858 [41:15<57:08,  2.04it/s] 41%|████      | 4866/11858 [41:16<57:09,  2.04it/s] 41%|████      | 4867/11858 [41:16<57:08,  2.04it/s] 41%|████      | 4868/11858 [41:17<57:05,  2.04it/s] 41%|████      | 4869/11858 [41:17<57:09,  2.04it/s] 41%|████      | 4870/11858 [41:18<57:10,  2.04it/s] 41%|████      | 4871/11858 [41:18<57:08,  2.04it/s] 41%|████      | 4872/11858 [41:19<57:06,  2.04it/s] 41%|████      | 4873/11858 [41:19<57:06,  2.04it/s] 41%|████      | 4874/11858 [41:20<57:04,  2.04it/s] 41%|████      | 4875/11858 [41:20<57:02,  2.04it/s]{'loss': 2.0038, 'grad_norm': 0.432626873254776, 'learning_rate': 0.0007330330139451531, 'epoch': 5.75}
-                                                     41%|████      | 4875/11858 [41:20<57:02,  2.04it/s] 41%|████      | 4876/11858 [41:21<57:03,  2.04it/s] 41%|████      | 4877/11858 [41:21<57:01,  2.04it/s] 41%|████      | 4878/11858 [41:22<57:00,  2.04it/s] 41%|████      | 4879/11858 [41:22<57:01,  2.04it/s] 41%|████      | 4880/11858 [41:23<57:03,  2.04it/s] 41%|████      | 4881/11858 [41:23<57:02,  2.04it/s] 41%|████      | 4882/11858 [41:24<57:02,  2.04it/s] 41%|████      | 4883/11858 [41:24<57:01,  2.04it/s] 41%|████      | 4884/11858 [41:25<56:58,  2.04it/s] 41%|████      | 4885/11858 [41:25<56:55,  2.04it/s] 41%|████      | 4886/11858 [41:26<56:54,  2.04it/s] 41%|████      | 4887/11858 [41:26<56:56,  2.04it/s] 41%|████      | 4888/11858 [41:27<56:58,  2.04it/s] 41%|████      | 4889/11858 [41:27<57:00,  2.04it/s] 41%|████      | 4890/11858 [41:28<57:01,  2.04it/s] 41%|████      | 4891/11858 [41:28<56:56,  2.04it/s] 41%|████▏     | 4892/11858 [41:29<56:56,  2.04it/s] 41%|████▏     | 4893/11858 [41:29<56:56,  2.04it/s] 41%|████▏     | 4894/11858 [41:30<56:56,  2.04it/s] 41%|████▏     | 4895/11858 [41:30<56:55,  2.04it/s] 41%|████▏     | 4896/11858 [41:31<56:56,  2.04it/s] 41%|████▏     | 4897/11858 [41:31<56:53,  2.04it/s] 41%|████▏     | 4898/11858 [41:31<56:52,  2.04it/s] 41%|████▏     | 4899/11858 [41:32<56:51,  2.04it/s] 41%|████▏     | 4900/11858 [41:32<56:54,  2.04it/s]{'loss': 2.0099, 'grad_norm': 0.31383761763572693, 'learning_rate': 0.0007297711059165192, 'epoch': 5.78}                                                    
- 41%|████▏     | 4900/11858 [41:32<56:54,  2.04it/s] 41%|████▏     | 4901/11858 [41:33<56:54,  2.04it/s] 41%|████▏     | 4902/11858 [41:33<56:51,  2.04it/s] 41%|████▏     | 4903/11858 [41:34<56:52,  2.04it/s] 41%|████▏     | 4904/11858 [41:34<56:50,  2.04it/s] 41%|████▏     | 4905/11858 [41:35<56:46,  2.04it/s] 41%|████▏     | 4906/11858 [41:35<56:46,  2.04it/s] 41%|████▏     | 4907/11858 [41:36<56:48,  2.04it/s] 41%|████▏     | 4908/11858 [41:36<56:44,  2.04it/s] 41%|████▏     | 4909/11858 [41:37<56:45,  2.04it/s] 41%|████▏     | 4910/11858 [41:37<56:48,  2.04it/s] 41%|████▏     | 4911/11858 [41:38<56:45,  2.04it/s] 41%|████▏     | 4912/11858 [41:38<56:40,  2.04it/s] 41%|████▏     | 4913/11858 [41:39<56:45,  2.04it/s] 41%|████▏     | 4914/11858 [41:39<56:44,  2.04it/s] 41%|████▏     | 4915/11858 [41:40<56:41,  2.04it/s] 41%|████▏     | 4916/11858 [41:40<56:38,  2.04it/s] 41%|████▏     | 4917/11858 [41:41<56:37,  2.04it/s] 41%|████▏     | 4918/11858 [41:41<56:41,  2.04it/s] 41%|████▏     | 4919/11858 [41:42<56:38,  2.04it/s] 41%|████▏     | 4920/11858 [41:42<56:37,  2.04it/s] 41%|████▏     | 4921/11858 [41:43<56:40,  2.04it/s] 42%|████▏     | 4922/11858 [41:43<56:39,  2.04it/s] 42%|████▏     | 4923/11858 [41:44<56:37,  2.04it/s] 42%|████▏     | 4924/11858 [41:44<56:38,  2.04it/s] 42%|████▏     | 4925/11858 [41:45<56:37,  2.04it/s]{'loss': 1.9854, 'grad_norm': 0.3509775400161743, 'learning_rate': 0.0007264967532694858, 'epoch': 5.81}
-                                                     42%|████▏     | 4925/11858 [41:45<56:37,  2.04it/s] 42%|████▏     | 4926/11858 [41:45<56:42,  2.04it/s] 42%|████▏     | 4927/11858 [41:46<56:35,  2.04it/s] 42%|████▏     | 4928/11858 [41:46<56:38,  2.04it/s] 42%|████▏     | 4929/11858 [41:47<56:37,  2.04it/s] 42%|████▏     | 4930/11858 [41:47<56:35,  2.04it/s] 42%|████▏     | 4931/11858 [41:48<56:33,  2.04it/s] 42%|████▏     | 4932/11858 [41:48<56:36,  2.04it/s] 42%|████▏     | 4933/11858 [41:49<56:34,  2.04it/s] 42%|████▏     | 4934/11858 [41:49<56:36,  2.04it/s] 42%|████▏     | 4935/11858 [41:50<56:37,  2.04it/s] 42%|████▏     | 4936/11858 [41:50<56:36,  2.04it/s] 42%|████▏     | 4937/11858 [41:51<56:35,  2.04it/s] 42%|████▏     | 4938/11858 [41:51<56:38,  2.04it/s] 42%|████▏     | 4939/11858 [41:52<56:37,  2.04it/s] 42%|████▏     | 4940/11858 [41:52<56:32,  2.04it/s] 42%|████▏     | 4941/11858 [41:53<56:30,  2.04it/s] 42%|████▏     | 4942/11858 [41:53<56:32,  2.04it/s] 42%|████▏     | 4943/11858 [41:54<56:33,  2.04it/s] 42%|████▏     | 4944/11858 [41:54<56:38,  2.03it/s] 42%|████▏     | 4945/11858 [41:55<56:34,  2.04it/s] 42%|████▏     | 4946/11858 [41:55<56:30,  2.04it/s] 42%|████▏     | 4947/11858 [41:56<56:30,  2.04it/s] 42%|████▏     | 4948/11858 [41:56<56:32,  2.04it/s] 42%|████▏     | 4949/11858 [41:56<56:29,  2.04it/s] 42%|████▏     | 4950/11858 [41:57<56:28,  2.04it/s]                                                    {'loss': 2.0052, 'grad_norm': 0.28853362798690796, 'learning_rate': 0.0007232101333460605, 'epoch': 5.84}
- 42%|████▏     | 4950/11858 [41:57<56:28,  2.04it/s] 42%|████▏     | 4951/11858 [41:57<56:33,  2.04it/s] 42%|████▏     | 4952/11858 [41:58<56:31,  2.04it/s] 42%|████▏     | 4953/11858 [41:58<56:29,  2.04it/s] 42%|████▏     | 4954/11858 [41:59<56:31,  2.04it/s] 42%|████▏     | 4955/11858 [41:59<56:27,  2.04it/s] 42%|████▏     | 4956/11858 [42:00<56:24,  2.04it/s] 42%|████▏     | 4957/11858 [42:00<56:27,  2.04it/s] 42%|████▏     | 4958/11858 [42:01<56:29,  2.04it/s] 42%|████▏     | 4959/11858 [42:01<56:24,  2.04it/s] 42%|████▏     | 4960/11858 [42:02<56:20,  2.04it/s] 42%|████▏     | 4961/11858 [42:02<56:23,  2.04it/s] 42%|████▏     | 4962/11858 [42:03<56:22,  2.04it/s] 42%|████▏     | 4963/11858 [42:03<56:19,  2.04it/s] 42%|████▏     | 4964/11858 [42:04<56:15,  2.04it/s] 42%|████▏     | 4965/11858 [42:04<56:19,  2.04it/s] 42%|████▏     | 4966/11858 [42:05<56:19,  2.04it/s] 42%|████▏     | 4967/11858 [42:05<56:16,  2.04it/s] 42%|████▏     | 4968/11858 [42:06<56:17,  2.04it/s] 42%|████▏     | 4969/11858 [42:06<56:19,  2.04it/s] 42%|████▏     | 4970/11858 [42:07<56:19,  2.04it/s] 42%|████▏     | 4971/11858 [42:07<56:21,  2.04it/s] 42%|████▏     | 4972/11858 [42:08<56:21,  2.04it/s] 42%|████▏     | 4973/11858 [42:08<56:20,  2.04it/s] 42%|████▏     | 4974/11858 [42:09<56:22,  2.04it/s] 42%|████▏     | 4975/11858 [42:09<56:22,  2.04it/s]{'loss': 2.0069, 'grad_norm': 0.3800428509712219, 'learning_rate': 0.0007199114241526576, 'epoch': 5.87}                                                    
- 42%|████▏     | 4975/11858 [42:09<56:22,  2.04it/s] 42%|████▏     | 4976/11858 [42:10<56:25,  2.03it/s] 42%|████▏     | 4977/11858 [42:10<56:23,  2.03it/s] 42%|████▏     | 4978/11858 [42:11<56:21,  2.03it/s] 42%|████▏     | 4979/11858 [42:11<56:16,  2.04it/s] 42%|████▏     | 4980/11858 [42:12<56:18,  2.04it/s] 42%|████▏     | 4981/11858 [42:12<56:18,  2.04it/s] 42%|████▏     | 4982/11858 [42:13<56:12,  2.04it/s] 42%|████▏     | 4983/11858 [42:13<56:13,  2.04it/s] 42%|████▏     | 4984/11858 [42:14<56:09,  2.04it/s] 42%|████▏     | 4985/11858 [42:14<56:12,  2.04it/s] 42%|████▏     | 4986/11858 [42:15<56:12,  2.04it/s] 42%|████▏     | 4987/11858 [42:15<56:11,  2.04it/s] 42%|████▏     | 4988/11858 [42:16<56:10,  2.04it/s] 42%|████▏     | 4989/11858 [42:16<56:08,  2.04it/s] 42%|████▏     | 4990/11858 [42:17<56:07,  2.04it/s] 42%|████▏     | 4991/11858 [42:17<56:08,  2.04it/s] 42%|████▏     | 4992/11858 [42:18<56:07,  2.04it/s] 42%|████▏     | 4993/11858 [42:18<56:06,  2.04it/s] 42%|████▏     | 4994/11858 [42:19<56:06,  2.04it/s] 42%|████▏     | 4995/11858 [42:19<56:04,  2.04it/s] 42%|████▏     | 4996/11858 [42:20<56:03,  2.04it/s] 42%|████▏     | 4997/11858 [42:20<56:04,  2.04it/s] 42%|████▏     | 4998/11858 [42:21<56:03,  2.04it/s] 42%|████▏     | 4999/11858 [42:21<56:03,  2.04it/s] 42%|████▏     | 5000/11858 [42:22<56:09,  2.04it/s]{'loss': 1.9959, 'grad_norm': 0.363862007856369, 'learning_rate': 0.0007166008043504587, 'epoch': 5.9}                                                    
- 42%|████▏     | 5000/11858 [42:22<56:09,  2.04it/s] 42%|████▏     | 5001/11858 [42:22<56:09,  2.04it/s] 42%|████▏     | 5002/11858 [42:23<56:03,  2.04it/s] 42%|████▏     | 5003/11858 [42:23<56:02,  2.04it/s] 42%|████▏     | 5004/11858 [42:23<56:01,  2.04it/s] 42%|████▏     | 5005/11858 [42:24<56:00,  2.04it/s] 42%|████▏     | 5006/11858 [42:24<55:57,  2.04it/s] 42%|████▏     | 5007/11858 [42:25<55:56,  2.04it/s] 42%|████▏     | 5008/11858 [42:25<55:56,  2.04it/s] 42%|████▏     | 5009/11858 [42:26<55:57,  2.04it/s] 42%|████▏     | 5010/11858 [42:26<55:57,  2.04it/s] 42%|████▏     | 5011/11858 [42:27<55:54,  2.04it/s] 42%|████▏     | 5012/11858 [42:27<55:53,  2.04it/s] 42%|████▏     | 5013/11858 [42:28<55:56,  2.04it/s] 42%|████▏     | 5014/11858 [42:28<55:56,  2.04it/s] 42%|████▏     | 5015/11858 [42:29<55:56,  2.04it/s] 42%|████▏     | 5016/11858 [42:29<55:54,  2.04it/s] 42%|████▏     | 5017/11858 [42:30<55:54,  2.04it/s] 42%|████▏     | 5018/11858 [42:30<55:52,  2.04it/s] 42%|████▏     | 5019/11858 [42:31<55:50,  2.04it/s] 42%|████▏     | 5020/11858 [42:31<55:49,  2.04it/s] 42%|████▏     | 5021/11858 [42:32<55:50,  2.04it/s] 42%|████▏     | 5022/11858 [42:32<55:51,  2.04it/s] 42%|████▏     | 5023/11858 [42:33<55:49,  2.04it/s] 42%|████▏     | 5024/11858 [42:33<55:46,  2.04it/s] 42%|████▏     | 5025/11858 [42:34<55:47,  2.04it/s]{'loss': 1.9897, 'grad_norm': 0.29329678416252136, 'learning_rate': 0.0007132784532457339, 'epoch': 5.93}                                                    
- 42%|████▏     | 5025/11858 [42:34<55:47,  2.04it/s] 42%|████▏     | 5026/11858 [42:34<55:52,  2.04it/s] 42%|████▏     | 5027/11858 [42:35<55:45,  2.04it/s] 42%|████▏     | 5028/11858 [42:35<55:48,  2.04it/s] 42%|████▏     | 5029/11858 [42:36<55:46,  2.04it/s] 42%|████▏     | 5030/11858 [42:36<55:46,  2.04it/s] 42%|████▏     | 5031/11858 [42:37<55:44,  2.04it/s] 42%|████▏     | 5032/11858 [42:37<55:46,  2.04it/s] 42%|████▏     | 5033/11858 [42:38<55:44,  2.04it/s] 42%|████▏     | 5034/11858 [42:38<55:43,  2.04it/s] 42%|████▏     | 5035/11858 [42:39<55:43,  2.04it/s] 42%|████▏     | 5036/11858 [42:39<55:44,  2.04it/s] 42%|████▏     | 5037/11858 [42:40<55:43,  2.04it/s] 42%|████▏     | 5038/11858 [42:40<55:43,  2.04it/s] 42%|████▏     | 5039/11858 [42:41<55:45,  2.04it/s] 43%|████▎     | 5040/11858 [42:41<55:44,  2.04it/s] 43%|████▎     | 5041/11858 [42:42<55:43,  2.04it/s] 43%|████▎     | 5042/11858 [42:42<55:44,  2.04it/s] 43%|████▎     | 5043/11858 [42:43<55:41,  2.04it/s] 43%|████▎     | 5044/11858 [42:43<55:40,  2.04it/s] 43%|████▎     | 5045/11858 [42:44<55:39,  2.04it/s] 43%|████▎     | 5046/11858 [42:44<55:39,  2.04it/s] 43%|████▎     | 5047/11858 [42:45<55:36,  2.04it/s] 43%|████▎     | 5048/11858 [42:45<55:36,  2.04it/s] 43%|████▎     | 5049/11858 [42:46<55:37,  2.04it/s] 43%|████▎     | 5050/11858 [42:46<55:35,  2.04it/s]{'loss': 2.0071, 'grad_norm': 0.29403921961784363, 'learning_rate': 0.0007099445507801323, 'epoch': 5.96}                                                    
- 43%|████▎     | 5050/11858 [42:46<55:35,  2.04it/s] 43%|████▎     | 5051/11858 [42:47<55:41,  2.04it/s] 43%|████▎     | 5052/11858 [42:47<55:39,  2.04it/s] 43%|████▎     | 5053/11858 [42:48<55:36,  2.04it/s] 43%|████▎     | 5054/11858 [42:48<55:38,  2.04it/s] 43%|████▎     | 5055/11858 [42:48<55:38,  2.04it/s] 43%|████▎     | 5056/11858 [42:49<55:36,  2.04it/s] 43%|████▎     | 5057/11858 [42:49<55:34,  2.04it/s] 43%|████▎     | 5058/11858 [42:50<55:33,  2.04it/s] 43%|████▎     | 5059/11858 [42:50<55:34,  2.04it/s] 43%|████▎     | 5060/11858 [42:51<55:33,  2.04it/s] 43%|████▎     | 5061/11858 [42:51<55:34,  2.04it/s] 43%|████▎     | 5062/11858 [42:52<55:35,  2.04it/s] 43%|████▎     | 5063/11858 [42:52<55:32,  2.04it/s] 43%|████▎     | 5064/11858 [42:53<55:26,  2.04it/s] 43%|████▎     | 5065/11858 [42:53<55:27,  2.04it/s] 43%|████▎     | 5066/11858 [42:54<1:00:16,  1.88it/s] 43%|████▎     | 5067/11858 [42:55<58:46,  1.93it/s]   43%|████▎     | 5068/11858 [42:55<57:43,  1.96it/s] 43%|████▎     | 5069/11858 [42:55<57:02,  1.98it/s] 43%|████▎     | 5070/11858 [42:56<56:34,  2.00it/s] 43%|████▎     | 5071/11858 [42:56<56:13,  2.01it/s] 43%|████▎     | 5072/11858 [42:57<55:58,  2.02it/s] 43%|████▎     | 5073/11858 [42:57<55:49,  2.03it/s] 43%|████▎     | 5074/11858 [42:58<55:40,  2.03it/s] 43%|████▎     | 5075/11858 [42:58<55:34,  2.03it/s]{'loss': 1.9913, 'grad_norm': 0.40883150696754456, 'learning_rate': 0.0007065992775209355, 'epoch': 5.99}                                                    
- 43%|████▎     | 5075/11858 [42:58<55:34,  2.03it/s] 43%|████▎     | 5076/11858 [42:59<55:35,  2.03it/s] 43%|████▎     | 5077/11858 [42:59<55:33,  2.03it/s] 43%|████▎     | 5078/11858 [43:00<55:26,  2.04it/s] 43%|████▎     | 5079/11858 [43:00<55:19,  2.04it/s] 43%|████▎     | 5080/11858 [43:01<55:20,  2.04it/s] 43%|████▎     | 5081/11858 [43:01<55:22,  2.04it/s] 43%|████▎     | 5082/11858 [43:02<55:21,  2.04it/s] 43%|████▎     | 5083/11858 [43:02<55:19,  2.04it/s] 43%|████▎     | 5084/11858 [43:03<55:23,  2.04it/s] 43%|████▎     | 5085/11858 [43:03<55:02,  2.05it/s] 43%|████▎     | 5086/11858 [43:24<12:04:43,  6.42s/it] 43%|████▎     | 5087/11858 [43:24<8:43:44,  4.64s/it]  43%|████▎     | 5088/11858 [43:25<6:23:10,  3.40s/it] 43%|████▎     | 5089/11858 [43:25<4:45:06,  2.53s/it] 43%|████▎     | 5090/11858 [43:26<3:36:07,  1.92s/it] 43%|████▎     | 5091/11858 [43:26<2:47:48,  1.49s/it] 43%|████▎     | 5092/11858 [43:27<2:14:04,  1.19s/it] 43%|████▎     | 5093/11858 [43:27<1:50:49,  1.02it/s] 43%|████▎     | 5094/11858 [43:28<1:34:13,  1.20it/s] 43%|████▎     | 5095/11858 [43:28<1:22:33,  1.37it/s] 43%|████▎     | 5096/11858 [43:29<1:14:15,  1.52it/s] 43%|████▎     | 5097/11858 [43:29<1:08:36,  1.64it/s] 43%|████▎     | 5098/11858 [43:29<1:04:36,  1.74it/s] 43%|████▎     | 5099/11858 [43:30<1:01:44,  1.82it/s] 43%|████▎     | 5100/11858 [43:30<59:56,  1.88it/s]  {'loss': 1.92, 'grad_norm': 0.3117102384567261, 'learning_rate': 0.0007032428146512779, 'epoch': 6.02}
-                                                     43%|████▎     | 5100/11858 [43:30<59:56,  1.88it/s] 43%|████▎     | 5101/11858 [43:31<58:33,  1.92it/s] 43%|████▎     | 5102/11858 [43:31<57:33,  1.96it/s] 43%|████▎     | 5103/11858 [43:32<57:06,  1.97it/s] 43%|████▎     | 5104/11858 [43:32<56:32,  1.99it/s] 43%|████▎     | 5105/11858 [43:33<56:08,  2.00it/s] 43%|████▎     | 5106/11858 [43:33<55:52,  2.01it/s] 43%|████▎     | 5107/11858 [43:34<55:47,  2.02it/s] 43%|████▎     | 5108/11858 [43:34<55:43,  2.02it/s] 43%|████▎     | 5109/11858 [43:35<55:34,  2.02it/s] 43%|████▎     | 5110/11858 [43:35<55:26,  2.03it/s] 43%|████▎     | 5111/11858 [43:36<55:27,  2.03it/s] 43%|████▎     | 5112/11858 [43:36<55:21,  2.03it/s] 43%|████▎     | 5113/11858 [43:37<1:00:01,  1.87it/s] 43%|████▎     | 5114/11858 [43:38<58:31,  1.92it/s]   43%|████▎     | 5115/11858 [43:38<57:32,  1.95it/s] 43%|████▎     | 5116/11858 [43:38<56:48,  1.98it/s] 43%|████▎     | 5117/11858 [43:39<56:14,  2.00it/s] 43%|████▎     | 5118/11858 [43:39<55:55,  2.01it/s] 43%|████▎     | 5119/11858 [43:40<55:40,  2.02it/s] 43%|████▎     | 5120/11858 [43:40<55:28,  2.02it/s] 43%|████▎     | 5121/11858 [43:41<55:17,  2.03it/s] 43%|████▎     | 5122/11858 [43:41<55:13,  2.03it/s] 43%|████▎     | 5123/11858 [43:42<55:12,  2.03it/s] 43%|████▎     | 5124/11858 [43:42<55:07,  2.04it/s] 43%|████▎     | 5125/11858 [43:43<55:04,  2.04it/s]{'loss': 1.8404, 'grad_norm': 0.3128039538860321, 'learning_rate': 0.0006998753439603335, 'epoch': 6.05}
-                                                     43%|████▎     | 5125/11858 [43:43<55:04,  2.04it/s] 43%|████▎     | 5126/11858 [43:43<55:10,  2.03it/s] 43%|████▎     | 5127/11858 [43:44<55:06,  2.04it/s] 43%|████▎     | 5128/11858 [43:44<55:06,  2.04it/s] 43%|████▎     | 5129/11858 [43:45<55:03,  2.04it/s] 43%|████▎     | 5130/11858 [43:45<54:58,  2.04it/s] 43%|████▎     | 5131/11858 [43:46<55:01,  2.04it/s] 43%|████▎     | 5132/11858 [43:46<55:01,  2.04it/s] 43%|████▎     | 5133/11858 [43:47<54:59,  2.04it/s] 43%|████▎     | 5134/11858 [43:47<54:55,  2.04it/s] 43%|████▎     | 5135/11858 [43:48<54:56,  2.04it/s] 43%|████▎     | 5136/11858 [43:48<54:57,  2.04it/s] 43%|████▎     | 5137/11858 [43:49<54:53,  2.04it/s] 43%|████▎     | 5138/11858 [43:49<54:52,  2.04it/s] 43%|████▎     | 5139/11858 [43:50<54:52,  2.04it/s] 43%|████▎     | 5140/11858 [43:50<54:53,  2.04it/s] 43%|████▎     | 5141/11858 [43:51<54:50,  2.04it/s] 43%|████▎     | 5142/11858 [43:51<54:53,  2.04it/s] 43%|████▎     | 5143/11858 [43:52<54:53,  2.04it/s] 43%|████▎     | 5144/11858 [43:52<54:53,  2.04it/s] 43%|████▎     | 5145/11858 [43:53<54:49,  2.04it/s] 43%|████▎     | 5146/11858 [43:53<54:51,  2.04it/s] 43%|████▎     | 5147/11858 [43:54<54:50,  2.04it/s] 43%|████▎     | 5148/11858 [43:54<54:47,  2.04it/s] 43%|████▎     | 5149/11858 [43:55<54:49,  2.04it/s] 43%|████▎     | 5150/11858 [43:55<54:52,  2.04it/s]{'loss': 1.8546, 'grad_norm': 0.34953680634498596, 'learning_rate': 0.0006964970478334705, 'epoch': 6.08}
-                                                     43%|████▎     | 5150/11858 [43:55<54:52,  2.04it/s] 43%|████▎     | 5151/11858 [43:56<54:51,  2.04it/s] 43%|████▎     | 5152/11858 [43:56<54:48,  2.04it/s] 43%|████▎     | 5153/11858 [43:57<54:48,  2.04it/s] 43%|████▎     | 5154/11858 [43:57<54:46,  2.04it/s] 43%|████▎     | 5155/11858 [43:58<54:43,  2.04it/s] 43%|████▎     | 5156/11858 [43:58<54:41,  2.04it/s] 43%|████▎     | 5157/11858 [43:59<54:43,  2.04it/s] 43%|████▎     | 5158/11858 [43:59<54:46,  2.04it/s] 44%|████▎     | 5159/11858 [44:00<54:47,  2.04it/s] 44%|████▎     | 5160/11858 [44:00<54:50,  2.04it/s] 44%|████▎     | 5161/11858 [44:01<54:47,  2.04it/s] 44%|████▎     | 5162/11858 [44:01<54:43,  2.04it/s] 44%|████▎     | 5163/11858 [44:02<54:47,  2.04it/s] 44%|████▎     | 5164/11858 [44:02<54:44,  2.04it/s] 44%|████▎     | 5165/11858 [44:03<54:43,  2.04it/s] 44%|████▎     | 5166/11858 [44:03<54:42,  2.04it/s] 44%|████▎     | 5167/11858 [44:03<54:42,  2.04it/s] 44%|████▎     | 5168/11858 [44:04<54:39,  2.04it/s] 44%|████▎     | 5169/11858 [44:04<54:35,  2.04it/s] 44%|████▎     | 5170/11858 [44:05<54:37,  2.04it/s] 44%|████▎     | 5171/11858 [44:05<54:38,  2.04it/s] 44%|████▎     | 5172/11858 [44:06<54:35,  2.04it/s] 44%|████▎     | 5173/11858 [44:06<54:34,  2.04it/s] 44%|████▎     | 5174/11858 [44:07<54:36,  2.04it/s] 44%|████▎     | 5175/11858 [44:07<54:35,  2.04it/s]{'loss': 1.878, 'grad_norm': 0.3389154076576233, 'learning_rate': 0.0006931081092423724, 'epoch': 6.11}                                                    
- 44%|████▎     | 5175/11858 [44:07<54:35,  2.04it/s] 44%|████▎     | 5176/11858 [44:08<54:36,  2.04it/s] 44%|████▎     | 5177/11858 [44:08<54:37,  2.04it/s] 44%|████▎     | 5178/11858 [44:09<54:39,  2.04it/s] 44%|████▎     | 5179/11858 [44:09<54:34,  2.04it/s] 44%|████▎     | 5180/11858 [44:10<54:30,  2.04it/s] 44%|████▎     | 5181/11858 [44:10<54:32,  2.04it/s] 44%|████▎     | 5182/11858 [44:11<54:34,  2.04it/s] 44%|████▎     | 5183/11858 [44:11<54:32,  2.04it/s] 44%|████▎     | 5184/11858 [44:12<54:33,  2.04it/s] 44%|████▎     | 5185/11858 [44:12<54:33,  2.04it/s] 44%|████▎     | 5186/11858 [44:13<54:34,  2.04it/s] 44%|████▎     | 5187/11858 [44:13<54:31,  2.04it/s] 44%|████▍     | 5188/11858 [44:14<54:32,  2.04it/s] 44%|████▍     | 5189/11858 [44:14<54:33,  2.04it/s] 44%|████▍     | 5190/11858 [44:15<54:31,  2.04it/s] 44%|████▍     | 5191/11858 [44:15<54:26,  2.04it/s] 44%|████▍     | 5192/11858 [44:16<54:29,  2.04it/s] 44%|████▍     | 5193/11858 [44:16<54:28,  2.04it/s] 44%|████▍     | 5194/11858 [44:17<54:26,  2.04it/s] 44%|████▍     | 5195/11858 [44:17<54:27,  2.04it/s] 44%|████▍     | 5196/11858 [44:18<54:26,  2.04it/s] 44%|████▍     | 5197/11858 [44:18<54:24,  2.04it/s] 44%|████▍     | 5198/11858 [44:19<54:25,  2.04it/s] 44%|████▍     | 5199/11858 [44:19<54:27,  2.04it/s] 44%|████▍     | 5200/11858 [44:20<54:24,  2.04it/s]{'loss': 1.8699, 'grad_norm': 0.31524381041526794, 'learning_rate': 0.0006897087117351293, 'epoch': 6.14}
-                                                     44%|████▍     | 5200/11858 [44:20<54:24,  2.04it/s] 44%|████▍     | 5201/11858 [44:20<54:29,  2.04it/s] 44%|████▍     | 5202/11858 [44:21<54:28,  2.04it/s] 44%|████▍     | 5203/11858 [44:21<54:25,  2.04it/s] 44%|████▍     | 5204/11858 [44:22<54:22,  2.04it/s] 44%|████▍     | 5205/11858 [44:22<54:24,  2.04it/s] 44%|████▍     | 5206/11858 [44:23<54:21,  2.04it/s] 44%|████▍     | 5207/11858 [44:23<54:20,  2.04it/s] 44%|████▍     | 5208/11858 [44:24<54:22,  2.04it/s] 44%|████▍     | 5209/11858 [44:24<54:21,  2.04it/s] 44%|████▍     | 5210/11858 [44:25<54:18,  2.04it/s] 44%|████▍     | 5211/11858 [44:25<54:18,  2.04it/s] 44%|████▍     | 5212/11858 [44:26<54:19,  2.04it/s] 44%|████▍     | 5213/11858 [44:26<54:18,  2.04it/s] 44%|████▍     | 5214/11858 [44:27<54:15,  2.04it/s] 44%|████▍     | 5215/11858 [44:27<54:17,  2.04it/s] 44%|████▍     | 5216/11858 [44:28<54:16,  2.04it/s] 44%|████▍     | 5217/11858 [44:28<54:17,  2.04it/s] 44%|████▍     | 5218/11858 [44:29<54:15,  2.04it/s] 44%|████▍     | 5219/11858 [44:29<54:16,  2.04it/s] 44%|████▍     | 5220/11858 [44:29<54:15,  2.04it/s] 44%|████▍     | 5221/11858 [44:30<54:10,  2.04it/s] 44%|████▍     | 5222/11858 [44:30<54:14,  2.04it/s] 44%|████▍     | 5223/11858 [44:31<54:15,  2.04it/s] 44%|████▍     | 5224/11858 [44:31<54:12,  2.04it/s] 44%|████▍     | 5225/11858 [44:32<54:12,  2.04it/s]{'loss': 1.8601, 'grad_norm': 0.2943078577518463, 'learning_rate': 0.0006862990394262953, 'epoch': 6.17}
-                                                     44%|████▍     | 5225/11858 [44:32<54:12,  2.04it/s] 44%|████▍     | 5226/11858 [44:32<54:15,  2.04it/s] 44%|████▍     | 5227/11858 [44:33<54:13,  2.04it/s] 44%|████▍     | 5228/11858 [44:33<54:10,  2.04it/s] 44%|████▍     | 5229/11858 [44:34<54:11,  2.04it/s] 44%|████▍     | 5230/11858 [44:34<54:10,  2.04it/s] 44%|████▍     | 5231/11858 [44:35<54:11,  2.04it/s] 44%|████▍     | 5232/11858 [44:35<54:12,  2.04it/s] 44%|████▍     | 5233/11858 [44:36<54:10,  2.04it/s] 44%|████▍     | 5234/11858 [44:36<54:09,  2.04it/s] 44%|████▍     | 5235/11858 [44:37<54:07,  2.04it/s] 44%|████▍     | 5236/11858 [44:37<54:08,  2.04it/s] 44%|████▍     | 5237/11858 [44:38<54:06,  2.04it/s] 44%|████▍     | 5238/11858 [44:38<54:04,  2.04it/s] 44%|████▍     | 5239/11858 [44:39<54:07,  2.04it/s] 44%|████▍     | 5240/11858 [44:39<54:06,  2.04it/s] 44%|████▍     | 5241/11858 [44:40<54:03,  2.04it/s] 44%|████▍     | 5242/11858 [44:40<53:58,  2.04it/s] 44%|████▍     | 5243/11858 [44:41<54:00,  2.04it/s] 44%|████▍     | 5244/11858 [44:41<54:02,  2.04it/s] 44%|████▍     | 5245/11858 [44:42<54:03,  2.04it/s] 44%|████▍     | 5246/11858 [44:42<54:01,  2.04it/s] 44%|████▍     | 5247/11858 [44:43<53:59,  2.04it/s] 44%|████▍     | 5248/11858 [44:43<53:58,  2.04it/s] 44%|████▍     | 5249/11858 [44:44<54:01,  2.04it/s] 44%|████▍     | 5250/11858 [44:44<53:59,  2.04it/s]{'loss': 1.8713, 'grad_norm': 0.3356877565383911, 'learning_rate': 0.0006828792769869174, 'epoch': 6.19}                                                    
- 44%|████▍     | 5250/11858 [44:44<53:59,  2.04it/s] 44%|████▍     | 5251/11858 [44:45<54:01,  2.04it/s] 44%|████▍     | 5252/11858 [44:45<53:59,  2.04it/s] 44%|████▍     | 5253/11858 [44:46<54:01,  2.04it/s] 44%|████▍     | 5254/11858 [44:46<53:59,  2.04it/s] 44%|████▍     | 5255/11858 [44:47<53:57,  2.04it/s] 44%|████▍     | 5256/11858 [44:47<53:56,  2.04it/s] 44%|████▍     | 5257/11858 [44:48<53:54,  2.04it/s] 44%|████▍     | 5258/11858 [44:48<53:53,  2.04it/s] 44%|████▍     | 5259/11858 [44:49<53:52,  2.04it/s] 44%|████▍     | 5260/11858 [44:49<53:55,  2.04it/s] 44%|████▍     | 5261/11858 [44:50<53:54,  2.04it/s] 44%|████▍     | 5262/11858 [44:50<53:48,  2.04it/s] 44%|████▍     | 5263/11858 [44:51<53:46,  2.04it/s] 44%|████▍     | 5264/11858 [44:51<53:52,  2.04it/s] 44%|████▍     | 5265/11858 [44:52<53:51,  2.04it/s] 44%|████▍     | 5266/11858 [44:52<53:46,  2.04it/s] 44%|████▍     | 5267/11858 [44:53<53:47,  2.04it/s] 44%|████▍     | 5268/11858 [44:53<53:47,  2.04it/s] 44%|████▍     | 5269/11858 [44:54<53:46,  2.04it/s] 44%|████▍     | 5270/11858 [44:54<53:43,  2.04it/s] 44%|████▍     | 5271/11858 [44:54<53:45,  2.04it/s] 44%|████▍     | 5272/11858 [44:55<53:45,  2.04it/s] 44%|████▍     | 5273/11858 [44:55<53:42,  2.04it/s] 44%|████▍     | 5274/11858 [44:56<53:40,  2.04it/s] 44%|████▍     | 5275/11858 [44:56<53:37,  2.05it/s]{'loss': 1.8784, 'grad_norm': 0.2924101650714874, 'learning_rate': 0.0006794496096345341, 'epoch': 6.22}
-                                                     44%|���███▍     | 5275/11858 [44:56<53:37,  2.05it/s] 44%|████▍     | 5276/11858 [44:57<53:44,  2.04it/s] 45%|████▍     | 5277/11858 [44:57<53:43,  2.04it/s] 45%|████▍     | 5278/11858 [44:58<53:42,  2.04it/s] 45%|████▍     | 5279/11858 [44:58<53:45,  2.04it/s] 45%|████▍     | 5280/11858 [44:59<53:45,  2.04it/s] 45%|████▍     | 5281/11858 [44:59<53:42,  2.04it/s] 45%|████▍     | 5282/11858 [45:00<53:41,  2.04it/s] 45%|████▍     | 5283/11858 [45:00<53:42,  2.04it/s] 45%|████▍     | 5284/11858 [45:01<53:41,  2.04it/s] 45%|████▍     | 5285/11858 [45:01<53:36,  2.04it/s] 45%|████▍     | 5286/11858 [45:02<53:37,  2.04it/s] 45%|████▍     | 5287/11858 [45:02<53:41,  2.04it/s] 45%|████▍     | 5288/11858 [45:03<53:40,  2.04it/s] 45%|████▍     | 5289/11858 [45:03<53:34,  2.04it/s] 45%|████▍     | 5290/11858 [45:04<53:32,  2.04it/s] 45%|████▍     | 5291/11858 [45:04<53:34,  2.04it/s] 45%|████▍     | 5292/11858 [45:05<53:34,  2.04it/s] 45%|████▍     | 5293/11858 [45:05<53:30,  2.04it/s] 45%|████▍     | 5294/11858 [45:06<53:32,  2.04it/s] 45%|████▍     | 5295/11858 [45:06<53:34,  2.04it/s] 45%|████▍     | 5296/11858 [45:07<53:33,  2.04it/s] 45%|████▍     | 5297/11858 [45:07<53:35,  2.04it/s] 45%|████▍     | 5298/11858 [45:08<53:35,  2.04it/s] 45%|████▍     | 5299/11858 [45:08<53:34,  2.04it/s] 45%|████▍     | 5300/11858 [45:09<53:31,  2.04it/s]{'loss': 1.8991, 'grad_norm': 0.4343039393424988, 'learning_rate': 0.0006760102231231427, 'epoch': 6.25}
-                                                     45%|████▍     | 5300/11858 [45:09<53:31,  2.04it/s] 45%|████▍     | 5301/11858 [45:09<53:35,  2.04it/s] 45%|████▍     | 5302/11858 [45:10<53:36,  2.04it/s] 45%|████▍     | 5303/11858 [45:10<53:33,  2.04it/s] 45%|████▍     | 5304/11858 [45:11<53:30,  2.04it/s] 45%|████▍     | 5305/11858 [45:11<53:33,  2.04it/s] 45%|████▍     | 5306/11858 [45:12<53:29,  2.04it/s] 45%|████▍     | 5307/11858 [45:12<53:28,  2.04it/s] 45%|████▍     | 5308/11858 [45:13<53:28,  2.04it/s] 45%|████▍     | 5309/11858 [45:13<53:30,  2.04it/s] 45%|████▍     | 5310/11858 [45:14<53:29,  2.04it/s] 45%|████▍     | 5311/11858 [45:14<53:27,  2.04it/s] 45%|████▍     | 5312/11858 [45:15<53:24,  2.04it/s] 45%|████▍     | 5313/11858 [45:15<53:25,  2.04it/s] 45%|████▍     | 5314/11858 [45:16<53:27,  2.04it/s] 45%|████▍     | 5315/11858 [45:16<53:25,  2.04it/s] 45%|████▍     | 5316/11858 [45:17<53:21,  2.04it/s] 45%|████▍     | 5317/11858 [45:17<53:23,  2.04it/s] 45%|████▍     | 5318/11858 [45:18<53:25,  2.04it/s] 45%|████▍     | 5319/11858 [45:18<53:23,  2.04it/s] 45%|████▍     | 5320/11858 [45:18<53:25,  2.04it/s] 45%|████▍     | 5321/11858 [45:19<53:25,  2.04it/s] 45%|████▍     | 5322/11858 [45:19<53:25,  2.04it/s] 45%|████▍     | 5323/11858 [45:20<53:21,  2.04it/s] 45%|████▍     | 5324/11858 [45:20<53:23,  2.04it/s] 45%|████▍     | 5325/11858 [45:21<53:22,  2.04it/s]{'loss': 1.8901, 'grad_norm': 0.31353825330734253, 'learning_rate': 0.0006725613037331398, 'epoch': 6.28}
-                                                     45%|████▍     | 5325/11858 [45:21<53:22,  2.04it/s] 45%|████▍     | 5326/11858 [45:21<53:26,  2.04it/s] 45%|████▍     | 5327/11858 [45:22<53:24,  2.04it/s] 45%|████▍     | 5328/11858 [45:22<53:23,  2.04it/s] 45%|████▍     | 5329/11858 [45:23<53:20,  2.04it/s] 45%|████▍     | 5330/11858 [45:23<53:20,  2.04it/s] 45%|████▍     | 5331/11858 [45:24<53:20,  2.04it/s] 45%|████▍     | 5332/11858 [45:24<53:19,  2.04it/s] 45%|████▍     | 5333/11858 [45:25<53:14,  2.04it/s] 45%|████▍     | 5334/11858 [45:25<53:12,  2.04it/s] 45%|████▍     | 5335/11858 [45:26<53:14,  2.04it/s] 45%|████▍     | 5336/11858 [45:26<53:15,  2.04it/s] 45%|████▌     | 5337/11858 [45:27<53:13,  2.04it/s] 45%|████▌     | 5338/11858 [45:27<53:10,  2.04it/s] 45%|████▌     | 5339/11858 [45:28<53:13,  2.04it/s] 45%|████▌     | 5340/11858 [45:28<53:12,  2.04it/s] 45%|████▌     | 5341/11858 [45:29<53:08,  2.04it/s] 45%|████▌     | 5342/11858 [45:29<53:07,  2.04it/s] 45%|████▌     | 5343/11858 [45:30<53:11,  2.04it/s] 45%|████▌     | 5344/11858 [45:30<53:10,  2.04it/s] 45%|████▌     | 5345/11858 [45:31<53:06,  2.04it/s] 45%|████▌     | 5346/11858 [45:31<53:05,  2.04it/s] 45%|████▌     | 5347/11858 [45:32<53:08,  2.04it/s] 45%|████▌     | 5348/11858 [45:32<53:07,  2.04it/s] 45%|████▌     | 5349/11858 [45:33<53:02,  2.05it/s] 45%|████▌     | 5350/11858 [45:33<53:07,  2.04it/s]                                                    {'loss': 1.881, 'grad_norm': 0.3479962646961212, 'learning_rate': 0.0006691030382612309, 'epoch': 6.31}
- 45%|████▌     | 5350/11858 [45:33<53:07,  2.04it/s] 45%|████▌     | 5351/11858 [45:34<53:11,  2.04it/s] 45%|████▌     | 5352/11858 [45:34<53:10,  2.04it/s] 45%|████▌     | 5353/11858 [45:35<53:07,  2.04it/s] 45%|████▌     | 5354/11858 [45:35<53:09,  2.04it/s] 45%|████▌     | 5355/11858 [45:36<53:07,  2.04it/s] 45%|████▌     | 5356/11858 [45:36<53:04,  2.04it/s] 45%|████▌     | 5357/11858 [45:37<53:05,  2.04it/s] 45%|████▌     | 5358/11858 [45:37<53:04,  2.04it/s] 45%|████▌     | 5359/11858 [45:38<53:02,  2.04it/s] 45%|████▌     | 5360/11858 [45:38<53:01,  2.04it/s] 45%|████▌     | 5361/11858 [45:39<53:05,  2.04it/s] 45%|████▌     | 5362/11858 [45:39<53:04,  2.04it/s] 45%|████▌     | 5363/11858 [45:40<53:07,  2.04it/s] 45%|████▌     | 5364/11858 [45:40<53:06,  2.04it/s] 45%|████▌     | 5365/11858 [45:41<53:04,  2.04it/s] 45%|████▌     | 5366/11858 [45:41<53:04,  2.04it/s] 45%|████▌     | 5367/11858 [45:42<53:02,  2.04it/s] 45%|████▌     | 5368/11858 [45:42<53:03,  2.04it/s] 45%|████▌     | 5369/11858 [45:42<52:59,  2.04it/s] 45%|████▌     | 5370/11858 [45:43<52:58,  2.04it/s] 45%|████▌     | 5371/11858 [45:43<53:03,  2.04it/s] 45%|████▌     | 5372/11858 [45:44<53:00,  2.04it/s] 45%|████▌     | 5373/11858 [45:44<52:57,  2.04it/s] 45%|████▌     | 5374/11858 [45:45<52:54,  2.04it/s] 45%|████▌     | 5375/11858 [45:45<52:58,  2.04it/s]                                                    {'loss': 1.8901, 'grad_norm': 0.31469640135765076, 'learning_rate': 0.0006656356140103145, 'epoch': 6.34}
- 45%|████▌     | 5375/11858 [45:45<52:58,  2.04it/s] 45%|████▌     | 5376/11858 [45:46<53:03,  2.04it/s] 45%|████▌     | 5377/11858 [45:46<53:01,  2.04it/s] 45%|████▌     | 5378/11858 [45:47<53:02,  2.04it/s] 45%|████▌     | 5379/11858 [45:47<53:02,  2.04it/s] 45%|████▌     | 5380/11858 [45:48<53:00,  2.04it/s] 45%|████▌     | 5381/11858 [45:48<52:55,  2.04it/s] 45%|████▌     | 5382/11858 [45:49<52:53,  2.04it/s] 45%|████▌     | 5383/11858 [45:49<52:55,  2.04it/s] 45%|████▌     | 5384/11858 [45:50<52:54,  2.04it/s] 45%|████▌     | 5385/11858 [45:50<52:51,  2.04it/s] 45%|████▌     | 5386/11858 [45:51<52:50,  2.04it/s] 45%|████▌     | 5387/11858 [45:51<52:54,  2.04it/s] 45%|████▌     | 5388/11858 [45:52<52:52,  2.04it/s] 45%|████▌     | 5389/11858 [45:52<52:49,  2.04it/s] 45%|████▌     | 5390/11858 [45:53<52:48,  2.04it/s] 45%|████▌     | 5391/11858 [45:53<52:49,  2.04it/s] 45%|████▌     | 5392/11858 [45:54<52:50,  2.04it/s] 45%|████▌     | 5393/11858 [45:54<52:48,  2.04it/s] 45%|████▌     | 5394/11858 [45:55<52:47,  2.04it/s] 45%|████▌     | 5395/11858 [45:55<52:47,  2.04it/s] 46%|████▌     | 5396/11858 [45:56<52:46,  2.04it/s] 46%|████▌     | 5397/11858 [45:56<52:43,  2.04it/s] 46%|████▌     | 5398/11858 [45:57<52:44,  2.04it/s] 46%|████▌     | 5399/11858 [45:57<52:46,  2.04it/s] 46%|████▌     | 5400/11858 [45:58<52:47,  2.04it/s]{'loss': 1.889, 'grad_norm': 0.39365774393081665, 'learning_rate': 0.0006621592187793375, 'epoch': 6.37}
-                                                     46%|████▌     | 5400/11858 [45:58<52:47,  2.04it/s] 46%|████▌     | 5401/11858 [45:58<52:53,  2.03it/s] 46%|████▌     | 5402/11858 [45:59<52:52,  2.03it/s] 46%|████▌     | 5403/11858 [45:59<52:49,  2.04it/s] 46%|████▌     | 5404/11858 [46:00<52:52,  2.03it/s] 46%|████▌     | 5405/11858 [46:00<52:51,  2.03it/s] 46%|████▌     | 5406/11858 [46:01<52:47,  2.04it/s] 46%|████▌     | 5407/11858 [46:01<52:48,  2.04it/s] 46%|████▌     | 5408/11858 [46:02<52:46,  2.04it/s] 46%|████▌     | 5409/11858 [46:02<52:44,  2.04it/s] 46%|████▌     | 5410/11858 [46:03<52:40,  2.04it/s] 46%|████▌     | 5411/11858 [46:03<52:45,  2.04it/s] 46%|████▌     | 5412/11858 [46:04<52:44,  2.04it/s] 46%|████▌     | 5413/11858 [46:04<52:43,  2.04it/s] 46%|████▌     | 5414/11858 [46:05<52:44,  2.04it/s] 46%|████▌     | 5415/11858 [46:05<52:46,  2.03it/s] 46%|████▌     | 5416/11858 [46:06<52:42,  2.04it/s] 46%|████▌     | 5417/11858 [46:06<52:42,  2.04it/s] 46%|████▌     | 5418/11858 [46:07<52:42,  2.04it/s] 46%|████▌     | 5419/11858 [46:07<52:40,  2.04it/s] 46%|████▌     | 5420/11858 [46:08<52:40,  2.04it/s] 46%|████▌     | 5421/11858 [46:08<52:42,  2.04it/s] 46%|████▌     | 5422/11858 [46:09<52:41,  2.04it/s] 46%|████▌     | 5423/11858 [46:09<52:44,  2.03it/s] 46%|████▌     | 5424/11858 [46:09<52:41,  2.04it/s] 46%|████▌     | 5425/11858 [46:10<52:40,  2.04it/s]                                                    {'loss': 1.8797, 'grad_norm': 0.30749285221099854, 'learning_rate': 0.0006586740408531227, 'epoch': 6.4}
- 46%|████▌     | 5425/11858 [46:10<52:40,  2.04it/s] 46%|████▌     | 5426/11858 [46:10<52:46,  2.03it/s] 46%|████▌     | 5427/11858 [46:11<52:44,  2.03it/s] 46%|████▌     | 5428/11858 [46:11<52:41,  2.03it/s] 46%|████▌     | 5429/11858 [46:12<52:40,  2.03it/s] 46%|████▌     | 5430/11858 [46:12<52:37,  2.04it/s] 46%|████▌     | 5431/11858 [46:13<52:35,  2.04it/s] 46%|████▌     | 5432/11858 [46:13<52:35,  2.04it/s] 46%|████▌     | 5433/11858 [46:14<52:34,  2.04it/s] 46%|████▌     | 5434/11858 [46:14<52:33,  2.04it/s] 46%|████▌     | 5435/11858 [46:15<52:34,  2.04it/s] 46%|████▌     | 5436/11858 [46:15<52:31,  2.04it/s] 46%|████▌     | 5437/11858 [46:16<52:30,  2.04it/s] 46%|████▌     | 5438/11858 [46:16<52:31,  2.04it/s] 46%|████▌     | 5439/11858 [46:17<52:30,  2.04it/s] 46%|████▌     | 5440/11858 [46:17<52:29,  2.04it/s] 46%|████▌     | 5441/11858 [46:18<52:28,  2.04it/s] 46%|████▌     | 5442/11858 [46:18<52:28,  2.04it/s] 46%|████▌     | 5443/11858 [46:19<52:29,  2.04it/s] 46%|████▌     | 5444/11858 [46:19<52:29,  2.04it/s] 46%|████▌     | 5445/11858 [46:20<52:26,  2.04it/s] 46%|████▌     | 5446/11858 [46:20<52:25,  2.04it/s] 46%|████▌     | 5447/11858 [46:21<52:25,  2.04it/s] 46%|████▌     | 5448/11858 [46:21<52:25,  2.04it/s] 46%|████▌     | 5449/11858 [46:22<52:22,  2.04it/s] 46%|████▌     | 5450/11858 [46:22<52:22,  2.04it/s]{'loss': 1.8857, 'grad_norm': 0.3007688522338867, 'learning_rate': 0.0006551802689921725, 'epoch': 6.43}
-                                                     46%|████▌     | 5450/11858 [46:22<52:22,  2.04it/s] 46%|████▌     | 5451/11858 [46:23<52:23,  2.04it/s] 46%|████▌     | 5452/11858 [46:23<52:22,  2.04it/s] 46%|████▌     | 5453/11858 [46:24<52:20,  2.04it/s] 46%|████▌     | 5454/11858 [46:24<52:21,  2.04it/s] 46%|████▌     | 5455/11858 [46:25<52:23,  2.04it/s] 46%|████▌     | 5456/11858 [46:25<52:18,  2.04it/s] 46%|████▌     | 5457/11858 [46:26<52:17,  2.04it/s] 46%|████▌     | 5458/11858 [46:26<52:22,  2.04it/s] 46%|████▌     | 5459/11858 [46:27<52:18,  2.04it/s] 46%|████▌     | 5460/11858 [46:27<52:17,  2.04it/s] 46%|████▌     | 5461/11858 [46:28<52:18,  2.04it/s] 46%|████▌     | 5462/11858 [46:28<52:24,  2.03it/s] 46%|████▌     | 5463/11858 [46:29<52:18,  2.04it/s] 46%|████▌     | 5464/11858 [46:29<52:19,  2.04it/s] 46%|████▌     | 5465/11858 [46:30<52:18,  2.04it/s] 46%|████▌     | 5466/11858 [46:30<52:13,  2.04it/s] 46%|████▌     | 5467/11858 [46:31<52:11,  2.04it/s] 46%|████▌     | 5468/11858 [46:31<52:15,  2.04it/s] 46%|████▌     | 5469/11858 [46:32<52:17,  2.04it/s] 46%|████▌     | 5470/11858 [46:32<52:15,  2.04it/s] 46%|████▌     | 5471/11858 [46:33<52:13,  2.04it/s] 46%|████▌     | 5472/11858 [46:33<52:13,  2.04it/s] 46%|████▌     | 5473/11858 [46:34<52:12,  2.04it/s] 46%|████▌     | 5474/11858 [46:34<52:12,  2.04it/s] 46%|████▌     | 5475/11858 [46:35<52:11,  2.04it/s]{'loss': 1.9046, 'grad_norm': 0.4029136300086975, 'learning_rate': 0.0006516780924224449, 'epoch': 6.46}
-                                                     46%|████▌     | 5475/11858 [46:35<52:11,  2.04it/s] 46%|████▌     | 5476/11858 [46:35<52:17,  2.03it/s] 46%|████▌     | 5477/11858 [46:36<52:18,  2.03it/s] 46%|████▌     | 5478/11858 [46:36<52:14,  2.04it/s] 46%|████▌     | 5479/11858 [46:36<52:14,  2.03it/s] 46%|████▌     | 5480/11858 [46:37<52:17,  2.03it/s] 46%|████▌     | 5481/11858 [46:37<52:14,  2.03it/s] 46%|████▌     | 5482/11858 [46:38<52:12,  2.04it/s] 46%|████▌     | 5483/11858 [46:38<52:12,  2.03it/s] 46%|████▌     | 5484/11858 [46:39<52:10,  2.04it/s] 46%|████▋     | 5485/11858 [46:39<52:11,  2.03it/s] 46%|████▋     | 5486/11858 [46:40<52:10,  2.04it/s] 46%|████▋     | 5487/11858 [46:40<52:07,  2.04it/s] 46%|████▋     | 5488/11858 [46:41<52:08,  2.04it/s] 46%|████▋     | 5489/11858 [46:41<52:07,  2.04it/s] 46%|████▋     | 5490/11858 [46:42<52:04,  2.04it/s] 46%|████▋     | 5491/11858 [46:42<52:04,  2.04it/s] 46%|████▋     | 5492/11858 [46:43<52:08,  2.03it/s] 46%|████▋     | 5493/11858 [46:43<52:04,  2.04it/s] 46%|████▋     | 5494/11858 [46:44<52:08,  2.03it/s] 46%|████▋     | 5495/11858 [46:44<52:07,  2.03it/s] 46%|████▋     | 5496/11858 [46:45<52:05,  2.04it/s] 46%|████▋     | 5497/11858 [46:45<52:02,  2.04it/s] 46%|████▋     | 5498/11858 [46:46<52:01,  2.04it/s] 46%|████▋     | 5499/11858 [46:46<52:00,  2.04it/s] 46%|████▋     | 5500/11858 [46:47<51:58,  2.04it/s]{'loss': 1.8992, 'grad_norm': 0.3533152639865875, 'learning_rate': 0.000648167700825104, 'epoch': 6.49}
-                                                     46%|████▋     | 5500/11858 [46:47<51:58,  2.04it/s] 46%|████▋     | 5501/11858 [46:47<52:03,  2.03it/s] 46%|████▋     | 5502/11858 [46:48<51:59,  2.04it/s] 46%|████▋     | 5503/11858 [46:48<51:56,  2.04it/s] 46%|████▋     | 5504/11858 [46:49<51:58,  2.04it/s] 46%|████▋     | 5505/11858 [46:49<51:58,  2.04it/s] 46%|████▋     | 5506/11858 [46:50<51:57,  2.04it/s] 46%|████▋     | 5507/11858 [46:50<51:57,  2.04it/s] 46%|████▋     | 5508/11858 [46:51<51:58,  2.04it/s] 46%|████▋     | 5509/11858 [46:51<51:57,  2.04it/s] 46%|████▋     | 5510/11858 [46:52<51:58,  2.04it/s] 46%|████▋     | 5511/11858 [46:52<52:00,  2.03it/s] 46%|████▋     | 5512/11858 [46:53<52:01,  2.03it/s] 46%|████▋     | 5513/11858 [46:53<51:59,  2.03it/s] 47%|████▋     | 5514/11858 [46:54<51:58,  2.03it/s] 47%|████▋     | 5515/11858 [46:54<51:55,  2.04it/s] 47%|████▋     | 5516/11858 [46:55<51:50,  2.04it/s] 47%|████▋     | 5517/11858 [46:55<51:50,  2.04it/s] 47%|████▋     | 5518/11858 [46:56<51:53,  2.04it/s] 47%|████▋     | 5519/11858 [46:56<51:50,  2.04it/s] 47%|████▋     | 5520/11858 [46:57<51:48,  2.04it/s] 47%|████▋     | 5521/11858 [46:57<51:48,  2.04it/s] 47%|████▋     | 5522/11858 [46:58<51:52,  2.04it/s] 47%|████▋     | 5523/11858 [46:58<51:51,  2.04it/s] 47%|████▋     | 5524/11858 [46:59<51:49,  2.04it/s] 47%|████▋     | 5525/11858 [46:59<51:52,  2.03it/s]{'loss': 1.8908, 'grad_norm': 0.316565603017807, 'learning_rate': 0.0006446492843262485, 'epoch': 6.52}
-                                                     47%|████▋     | 5525/11858 [46:59<51:52,  2.03it/s] 47%|████▋     | 5526/11858 [47:00<51:55,  2.03it/s] 47%|████▋     | 5527/11858 [47:00<51:52,  2.03it/s] 47%|████▋     | 5528/11858 [47:01<51:50,  2.03it/s] 47%|████▋     | 5529/11858 [47:01<51:49,  2.04it/s] 47%|████▋     | 5530/11858 [47:02<51:47,  2.04it/s] 47%|████▋     | 5531/11858 [47:02<51:48,  2.04it/s] 47%|████▋     | 5532/11858 [47:03<51:48,  2.03it/s] 47%|████▋     | 5533/11858 [47:03<51:47,  2.04it/s] 47%|████▋     | 5534/11858 [47:03<51:46,  2.04it/s] 47%|████▋     | 5535/11858 [47:04<51:46,  2.04it/s] 47%|████▋     | 5536/11858 [47:04<51:45,  2.04it/s] 47%|████▋     | 5537/11858 [47:05<51:42,  2.04it/s] 47%|████▋     | 5538/11858 [47:05<51:42,  2.04it/s] 47%|████▋     | 5539/11858 [47:06<51:41,  2.04it/s] 47%|████▋     | 5540/11858 [47:06<51:42,  2.04it/s] 47%|████▋     | 5541/11858 [47:07<51:40,  2.04it/s] 47%|████▋     | 5542/11858 [47:07<51:41,  2.04it/s] 47%|████▋     | 5543/11858 [47:08<51:41,  2.04it/s] 47%|████▋     | 5544/11858 [47:08<51:41,  2.04it/s] 47%|████▋     | 5545/11858 [47:09<51:40,  2.04it/s] 47%|████▋     | 5546/11858 [47:09<51:39,  2.04it/s] 47%|████▋     | 5547/11858 [47:10<51:39,  2.04it/s] 47%|████▋     | 5548/11858 [47:10<51:37,  2.04it/s] 47%|████▋     | 5549/11858 [47:11<51:35,  2.04it/s] 47%|████▋     | 5550/11858 [47:11<51:37,  2.04it/s]{'loss': 1.9156, 'grad_norm': 0.2948055863380432, 'learning_rate': 0.0006411230334866127, 'epoch': 6.55}
-                                                     47%|████▋     | 5550/11858 [47:11<51:37,  2.04it/s] 47%|████▋     | 5551/11858 [47:12<51:42,  2.03it/s] 47%|████▋     | 5552/11858 [47:12<51:39,  2.03it/s] 47%|████▋     | 5553/11858 [47:13<51:37,  2.04it/s] 47%|████▋     | 5554/11858 [47:13<51:36,  2.04it/s] 47%|████▋     | 5555/11858 [47:14<51:36,  2.04it/s] 47%|████▋     | 5556/11858 [47:14<51:33,  2.04it/s] 47%|████▋     | 5557/11858 [47:15<51:32,  2.04it/s] 47%|████▋     | 5558/11858 [47:15<51:35,  2.04it/s] 47%|████▋     | 5559/11858 [47:16<51:35,  2.04it/s] 47%|████▋     | 5560/11858 [47:16<51:35,  2.03it/s] 47%|███��▋     | 5561/11858 [47:17<51:35,  2.03it/s] 47%|████▋     | 5562/11858 [47:17<51:32,  2.04it/s] 47%|████▋     | 5563/11858 [47:18<51:27,  2.04it/s] 47%|████▋     | 5564/11858 [47:18<51:27,  2.04it/s] 47%|████▋     | 5565/11858 [47:19<51:29,  2.04it/s] 47%|████▋     | 5566/11858 [47:19<51:24,  2.04it/s] 47%|████▋     | 5567/11858 [47:20<51:21,  2.04it/s] 47%|████▋     | 5568/11858 [47:20<51:23,  2.04it/s] 47%|████▋     | 5569/11858 [47:21<51:23,  2.04it/s] 47%|████▋     | 5570/11858 [47:21<51:16,  2.04it/s] 47%|████▋     | 5571/11858 [47:22<51:18,  2.04it/s] 47%|████▋     | 5572/11858 [47:22<51:19,  2.04it/s] 47%|████▋     | 5573/11858 [47:23<51:19,  2.04it/s] 47%|████▋     | 5574/11858 [47:23<51:19,  2.04it/s] 47%|████▋     | 5575/11858 [47:24<51:20,  2.04it/s]{'loss': 1.8993, 'grad_norm': 0.2977238595485687, 'learning_rate': 0.0006375891392912464, 'epoch': 6.58}
-                                                     47%|████▋     | 5575/11858 [47:24<51:20,  2.04it/s] 47%|████▋     | 5576/11858 [47:24<51:23,  2.04it/s] 47%|████▋     | 5577/11858 [47:25<51:19,  2.04it/s] 47%|████▋     | 5578/11858 [47:25<51:18,  2.04it/s] 47%|████▋     | 5579/11858 [47:26<51:19,  2.04it/s] 47%|████▋     | 5580/11858 [47:26<51:17,  2.04it/s] 47%|████▋     | 5581/11858 [47:27<51:19,  2.04it/s] 47%|████▋     | 5582/11858 [47:27<51:19,  2.04it/s] 47%|████▋     | 5583/11858 [47:28<51:17,  2.04it/s] 47%|████▋     | 5584/11858 [47:28<51:13,  2.04it/s] 47%|████▋     | 5585/11858 [47:29<51:14,  2.04it/s] 47%|████▋     | 5586/11858 [47:29<51:14,  2.04it/s] 47%|████▋     | 5587/11858 [47:30<51:15,  2.04it/s] 47%|████▋     | 5588/11858 [47:30<51:16,  2.04it/s] 47%|████▋     | 5589/11858 [47:30<51:15,  2.04it/s] 47%|████▋     | 5590/11858 [47:31<51:12,  2.04it/s] 47%|████▋     | 5591/11858 [47:31<51:08,  2.04it/s] 47%|████▋     | 5592/11858 [47:32<51:08,  2.04it/s] 47%|████▋     | 5593/11858 [47:32<51:09,  2.04it/s] 47%|████▋     | 5594/11858 [47:33<51:10,  2.04it/s] 47%|████▋     | 5595/11858 [47:33<51:08,  2.04it/s] 47%|████▋     | 5596/11858 [47:34<51:11,  2.04it/s] 47%|████▋     | 5597/11858 [47:34<51:11,  2.04it/s] 47%|████▋     | 5598/11858 [47:35<51:08,  2.04it/s] 47%|████▋     | 5599/11858 [47:35<51:09,  2.04it/s] 47%|████▋     | 5600/11858 [47:36<51:09,  2.04it/s]{'loss': 1.9003, 'grad_norm': 0.30186426639556885, 'learning_rate': 0.0006340477931391704, 'epoch': 6.61}                                                    
- 47%|████▋     | 5600/11858 [47:36<51:09,  2.04it/s] 47%|████▋     | 5601/11858 [47:36<51:12,  2.04it/s] 47%|████▋     | 5602/11858 [47:37<51:09,  2.04it/s] 47%|████▋     | 5603/11858 [47:37<51:12,  2.04it/s] 47%|████▋     | 5604/11858 [47:38<51:10,  2.04it/s] 47%|████▋     | 5605/11858 [47:38<51:07,  2.04it/s] 47%|████▋     | 5606/11858 [47:39<51:08,  2.04it/s] 47%|████▋     | 5607/11858 [47:39<51:07,  2.04it/s] 47%|████▋     | 5608/11858 [47:40<51:06,  2.04it/s] 47%|████▋     | 5609/11858 [47:40<51:06,  2.04it/s] 47%|████▋     | 5610/11858 [47:41<51:08,  2.04it/s] 47%|████▋     | 5611/11858 [47:41<51:05,  2.04it/s] 47%|████▋     | 5612/11858 [47:42<51:04,  2.04it/s] 47%|████▋     | 5613/11858 [47:42<51:02,  2.04it/s] 47%|████▋     | 5614/11858 [47:43<51:00,  2.04it/s] 47%|████▋     | 5615/11858 [47:43<51:02,  2.04it/s] 47%|████▋     | 5616/11858 [47:44<51:03,  2.04it/s] 47%|████▋     | 5617/11858 [47:44<51:01,  2.04it/s] 47%|████▋     | 5618/11858 [47:45<50:58,  2.04it/s] 47%|████▋     | 5619/11858 [47:45<51:00,  2.04it/s] 47%|████▋     | 5620/11858 [47:46<50:59,  2.04it/s] 47%|████▋     | 5621/11858 [47:46<50:57,  2.04it/s] 47%|████▋     | 5622/11858 [47:47<50:55,  2.04it/s] 47%|████▋     | 5623/11858 [47:47<50:57,  2.04it/s] 47%|████▋     | 5624/11858 [47:48<50:56,  2.04it/s] 47%|████▋     | 5625/11858 [47:48<50:55,  2.04it/s]                                                    {'loss': 1.8913, 'grad_norm': 0.30522647500038147, 'learning_rate': 0.0006304991868330109, 'epoch': 6.64}
- 47%|████▋     | 5625/11858 [47:48<50:55,  2.04it/s] 47%|████▋     | 5626/11858 [47:49<51:00,  2.04it/s] 47%|████▋     | 5627/11858 [47:49<50:57,  2.04it/s] 47%|████▋     | 5628/11858 [47:50<50:54,  2.04it/s] 47%|████▋     | 5629/11858 [47:50<50:56,  2.04it/s] 47%|████▋     | 5630/11858 [47:51<50:56,  2.04it/s] 47%|████▋     | 5631/11858 [47:51<50:51,  2.04it/s] 47%|████▋     | 5632/11858 [47:52<50:54,  2.04it/s] 48%|████▊     | 5633/11858 [47:52<50:54,  2.04it/s] 48%|████▊     | 5634/11858 [47:53<50:52,  2.04it/s] 48%|████▊     | 5635/11858 [47:53<50:52,  2.04it/s] 48%|████▊     | 5636/11858 [47:54<50:53,  2.04it/s] 48%|████▊     | 5637/11858 [47:54<50:53,  2.04it/s] 48%|████▊     | 5638/11858 [47:55<50:51,  2.04it/s] 48%|████▊     | 5639/11858 [47:55<50:51,  2.04it/s] 48%|████▊     | 5640/11858 [47:56<50:52,  2.04it/s] 48%|████▊     | 5641/11858 [47:56<50:51,  2.04it/s] 48%|████▊     | 5642/11858 [47:56<50:51,  2.04it/s] 48%|████▊     | 5643/11858 [47:57<50:51,  2.04it/s] 48%|████▊     | 5644/11858 [47:57<50:48,  2.04it/s] 48%|████▊     | 5645/11858 [47:58<50:47,  2.04it/s] 48%|████▊     | 5646/11858 [47:58<50:46,  2.04it/s] 48%|████▊     | 5647/11858 [47:59<50:41,  2.04it/s] 48%|████▊     | 5648/11858 [47:59<50:43,  2.04it/s] 48%|████▊     | 5649/11858 [48:00<50:43,  2.04it/s] 48%|████▊     | 5650/11858 [48:00<50:44,  2.04it/s]{'loss': 1.8806, 'grad_norm': 0.30499035120010376, 'learning_rate': 0.0006269435125686105, 'epoch': 6.67}
-                                                     48%|████▊     | 5650/11858 [48:00<50:44,  2.04it/s] 48%|████▊     | 5651/11858 [48:01<50:49,  2.04it/s] 48%|████▊     | 5652/11858 [48:01<50:49,  2.03it/s] 48%|████▊     | 5653/11858 [48:02<50:48,  2.04it/s] 48%|████▊     | 5654/11858 [48:02<50:46,  2.04it/s] 48%|████▊     | 5655/11858 [48:03<50:45,  2.04it/s] 48%|████▊     | 5656/11858 [48:03<50:46,  2.04it/s] 48%|████▊     | 5657/11858 [48:04<50:45,  2.04it/s] 48%|████▊     | 5658/11858 [48:04<50:41,  2.04it/s] 48%|████▊     | 5659/11858 [48:05<50:43,  2.04it/s] 48%|████▊     | 5660/11858 [48:05<50:41,  2.04it/s] 48%|████▊     | 5661/11858 [48:06<50:41,  2.04it/s] 48%|████▊     | 5662/11858 [48:06<50:40,  2.04it/s] 48%|████▊     | 5663/11858 [48:07<50:42,  2.04it/s] 48%|████▊     | 5664/11858 [48:07<50:41,  2.04it/s] 48%|████▊     | 5665/11858 [48:08<50:39,  2.04it/s] 48%|████▊     | 5666/11858 [48:08<50:38,  2.04it/s] 48%|████▊     | 5667/11858 [48:09<50:39,  2.04it/s] 48%|████▊     | 5668/11858 [48:09<50:40,  2.04it/s] 48%|████▊     | 5669/11858 [48:10<50:39,  2.04it/s] 48%|████▊     | 5670/11858 [48:10<50:38,  2.04it/s] 48%|████▊     | 5671/11858 [48:11<50:36,  2.04it/s] 48%|████▊     | 5672/11858 [48:11<50:35,  2.04it/s] 48%|████▊     | 5673/11858 [48:12<50:38,  2.04it/s] 48%|████▊     | 5674/11858 [48:12<50:34,  2.04it/s] 48%|████▊     | 5675/11858 [48:13<50:31,  2.04it/s]{'loss': 1.8945, 'grad_norm': 0.3185454308986664, 'learning_rate': 0.0006233809629246191, 'epoch': 6.7}                                                    
- 48%|████▊     | 5675/11858 [48:13<50:31,  2.04it/s] 48%|████▊     | 5676/11858 [48:13<50:36,  2.04it/s] 48%|████▊     | 5677/11858 [48:14<50:34,  2.04it/s] 48%|████▊     | 5678/11858 [48:14<50:32,  2.04it/s] 48%|████▊     | 5679/11858 [48:15<50:33,  2.04it/s] 48%|████▊     | 5680/11858 [48:15<50:33,  2.04it/s] 48%|████▊     | 5681/11858 [48:16<50:30,  2.04it/s] 48%|████▊     | 5682/11858 [48:16<50:30,  2.04it/s] 48%|████▊     | 5683/11858 [48:17<50:30,  2.04it/s] 48%|████▊     | 5684/11858 [48:17<50:30,  2.04it/s] 48%|████▊     | 5685/11858 [48:18<50:31,  2.04it/s] 48%|████▊     | 5686/11858 [48:18<50:29,  2.04it/s] 48%|████▊     | 5687/11858 [48:19<50:31,  2.04it/s] 48%|████▊     | 5688/11858 [48:19<50:29,  2.04it/s] 48%|████▊     | 5689/11858 [48:20<50:25,  2.04it/s] 48%|████▊     | 5690/11858 [48:20<50:26,  2.04it/s] 48%|████▊     | 5691/11858 [48:21<50:25,  2.04it/s] 48%|████▊     | 5692/11858 [48:21<50:24,  2.04it/s] 48%|████▊     | 5693/11858 [48:22<50:21,  2.04it/s] 48%|████▊     | 5694/11858 [48:22<50:21,  2.04it/s] 48%|████▊     | 5695/11858 [48:22<50:23,  2.04it/s] 48%|████▊     | 5696/11858 [48:23<50:20,  2.04it/s] 48%|████▊     | 5697/11858 [48:23<50:20,  2.04it/s] 48%|████▊     | 5698/11858 [48:24<50:20,  2.04it/s] 48%|████▊     | 5699/11858 [48:24<50:20,  2.04it/s] 48%|████▊     | 5700/11858 [48:25<50:16,  2.04it/s]{'loss': 1.9031, 'grad_norm': 0.3283758759498596, 'learning_rate': 0.0006198117308520636, 'epoch': 6.73}
-                                                     48%|████▊     | 5700/11858 [48:25<50:16,  2.04it/s] 48%|████▊     | 5701/11858 [48:25<50:22,  2.04it/s] 48%|████▊     | 5702/11858 [48:26<54:44,  1.87it/s] 48%|████▊     | 5703/11858 [48:27<53:23,  1.92it/s] 48%|████▊     | 5704/11858 [48:27<52:28,  1.95it/s] 48%|████▊     | 5705/11858 [48:28<51:50,  1.98it/s] 48%|████▊     | 5706/11858 [48:28<51:18,  2.00it/s] 48%|████▊     | 5707/11858 [48:29<50:58,  2.01it/s] 48%|████▊     | 5708/11858 [48:29<50:46,  2.02it/s] 48%|████▊     | 5709/11858 [48:30<50:35,  2.03it/s] 48%|████▊     | 5710/11858 [48:30<50:26,  2.03it/s] 48%|████▊     | 5711/11858 [48:30<50:20,  2.03it/s] 48%|████▊     | 5712/11858 [48:31<50:19,  2.04it/s] 48%|████▊     | 5713/11858 [48:31<50:16,  2.04it/s] 48%|████▊     | 5714/11858 [48:32<50:12,  2.04it/s] 48%|████▊     | 5715/11858 [48:32<50:11,  2.04it/s] 48%|████▊     | 5716/11858 [48:33<50:13,  2.04it/s] 48%|████▊     | 5717/11858 [48:33<50:10,  2.04it/s] 48%|████▊     | 5718/11858 [48:34<50:07,  2.04it/s] 48%|████▊     | 5719/11858 [48:34<50:10,  2.04it/s] 48%|████▊     | 5720/11858 [48:35<50:08,  2.04it/s] 48%|████▊     | 5721/11858 [48:35<50:06,  2.04it/s] 48%|████▊     | 5722/11858 [48:36<50:02,  2.04it/s] 48%|████▊     | 5723/11858 [48:36<50:04,  2.04it/s] 48%|████▊     | 5724/11858 [48:37<50:05,  2.04it/s] 48%|████▊     | 5725/11858 [48:37<50:04,  2.04it/s]{'loss': 1.889, 'grad_norm': 0.35818836092948914, 'learning_rate': 0.0006162360096638975, 'epoch': 6.76}
-                                                     48%|████▊     | 5725/11858 [48:37<50:04,  2.04it/s] 48%|████▊     | 5726/11858 [48:38<50:07,  2.04it/s] 48%|████▊     | 5727/11858 [48:38<50:09,  2.04it/s] 48%|████▊     | 5728/11858 [48:39<50:07,  2.04it/s] 48%|████▊     | 5729/11858 [48:39<50:05,  2.04it/s] 48%|████▊     | 5730/11858 [48:40<50:03,  2.04it/s] 48%|████▊     | 5731/11858 [48:40<50:04,  2.04it/s] 48%|████▊     | 5732/11858 [48:41<50:02,  2.04it/s] 48%|████▊     | 5733/11858 [48:41<49:59,  2.04it/s] 48%|████▊     | 5734/11858 [48:42<50:01,  2.04it/s] 48%|████▊     | 5735/11858 [48:42<50:01,  2.04it/s] 48%|████▊     | 5736/11858 [48:43<49:59,  2.04it/s] 48%|████▊     | 5737/11858 [48:43<50:07,  2.04it/s] 48%|████▊     | 5738/11858 [48:44<50:03,  2.04it/s] 48%|████▊     | 5739/11858 [48:44<50:00,  2.04it/s] 48%|████▊     | 5740/11858 [48:45<50:00,  2.04it/s] 48%|████▊     | 5741/11858 [48:45<49:59,  2.04it/s] 48%|████▊     | 5742/11858 [48:46<49:57,  2.04it/s] 48%|████▊     | 5743/11858 [48:46<49:59,  2.04it/s] 48%|████▊     | 5744/11858 [48:47<49:59,  2.04it/s] 48%|████▊     | 5745/11858 [48:47<49:57,  2.04it/s] 48%|████▊     | 5746/11858 [48:48<49:54,  2.04it/s] 48%|████▊     | 5747/11858 [48:48<49:53,  2.04it/s] 48%|████▊     | 5748/11858 [48:49<49:54,  2.04it/s] 48%|████▊     | 5749/11858 [48:49<49:53,  2.04it/s] 48%|████▊     | 5750/11858 [48:50<49:53,  2.04it/s]{'loss': 1.8932, 'grad_norm': 0.582080602645874, 'learning_rate': 0.0006126539930245313, 'epoch': 6.78}
-                                                     48%|████▊     | 5750/11858 [48:50<49:53,  2.04it/s] 48%|████▊     | 5751/11858 [48:50<49:58,  2.04it/s] 49%|████▊     | 5752/11858 [48:51<49:56,  2.04it/s] 49%|████▊     | 5753/11858 [48:51<49:52,  2.04it/s] 49%|████▊     | 5754/11858 [48:52<49:54,  2.04it/s] 49%|████▊     | 5755/11858 [48:52<49:55,  2.04it/s] 49%|████▊     | 5756/11858 [48:53<54:07,  1.88it/s] 49%|████▊     | 5757/11858 [48:53<52:51,  1.92it/s] 49%|████▊     | 5758/11858 [48:54<51:59,  1.96it/s] 49%|████▊     | 5759/11858 [48:54<51:19,  1.98it/s] 49%|████▊     | 5760/11858 [48:55<50:55,  2.00it/s] 49%|████▊     | 5761/11858 [48:55<50:36,  2.01it/s] 49%|████▊     | 5762/11858 [48:56<50:21,  2.02it/s] 49%|████▊     | 5763/11858 [48:56<50:08,  2.03it/s] 49%|████▊     | 5764/11858 [48:57<50:00,  2.03it/s] 49%|████▊     | 5765/11858 [48:57<49:57,  2.03it/s] 49%|████▊     | 5766/11858 [48:58<49:51,  2.04it/s] 49%|████▊     | 5767/11858 [48:58<49:49,  2.04it/s] 49%|████▊     | 5768/11858 [48:59<49:46,  2.04it/s] 49%|████▊     | 5769/11858 [48:59<49:48,  2.04it/s] 49%|████▊     | 5770/11858 [49:00<49:45,  2.04it/s] 49%|████▊     | 5771/11858 [49:00<49:45,  2.04it/s] 49%|████▊     | 5772/11858 [49:01<49:44,  2.04it/s] 49%|████▊     | 5773/11858 [49:01<49:43,  2.04it/s] 49%|████▊     | 5774/11858 [49:02<49:44,  2.04it/s] 49%|████▊     | 5775/11858 [49:02<49:45,  2.04it/s]{'loss': 1.8673, 'grad_norm': 0.3031654357910156, 'learning_rate': 0.0006090658749393422, 'epoch': 6.81}                                                    
- 49%|████▊     | 5775/11858 [49:02<49:45,  2.04it/s] 49%|████▊     | 5776/11858 [49:02<49:49,  2.03it/s] 49%|████▊     | 5777/11858 [49:03<49:46,  2.04it/s] 49%|████▊     | 5778/11858 [49:03<49:45,  2.04it/s] 49%|████▊     | 5779/11858 [49:04<49:45,  2.04it/s] 49%|████▊     | 5780/11858 [49:04<49:44,  2.04it/s] 49%|████▉     | 5781/11858 [49:05<49:45,  2.04it/s] 49%|████▉     | 5782/11858 [49:05<49:42,  2.04it/s] 49%|████▉     | 5783/11858 [49:06<49:41,  2.04it/s] 49%|████▉     | 5784/11858 [49:06<49:42,  2.04it/s] 49%|████▉     | 5785/11858 [49:07<49:39,  2.04it/s] 49%|████▉     | 5786/11858 [49:07<49:34,  2.04it/s] 49%|████▉     | 5787/11858 [49:08<49:30,  2.04it/s] 49%|████▉     | 5788/11858 [49:08<49:35,  2.04it/s] 49%|████▉     | 5789/11858 [49:09<49:36,  2.04it/s] 49%|████▉     | 5790/11858 [49:09<49:34,  2.04it/s] 49%|████▉     | 5791/11858 [49:10<49:30,  2.04it/s] 49%|████▉     | 5792/11858 [49:10<49:31,  2.04it/s] 49%|████▉     | 5793/11858 [49:11<49:35,  2.04it/s] 49%|████▉     | 5794/11858 [49:11<49:32,  2.04it/s] 49%|████▉     | 5795/11858 [49:12<49:29,  2.04it/s] 49%|████▉     | 5796/11858 [49:12<49:26,  2.04it/s] 49%|████▉     | 5797/11858 [49:13<49:27,  2.04it/s] 49%|████▉     | 5798/11858 [49:13<49:30,  2.04it/s] 49%|████▉     | 5799/11858 [49:14<49:28,  2.04it/s] 49%|████▉     | 5800/11858 [49:14<49:26,  2.04it/s]{'loss': 1.8893, 'grad_norm': 0.3098772466182709, 'learning_rate': 0.000605471849744168, 'epoch': 6.84}
-                                                     49%|████▉     | 5800/11858 [49:14<49:26,  2.04it/s] 49%|████▉     | 5801/11858 [49:15<49:32,  2.04it/s] 49%|████▉     | 5802/11858 [49:15<49:33,  2.04it/s] 49%|████▉     | 5803/11858 [49:16<49:27,  2.04it/s] 49%|████▉     | 5804/11858 [49:16<49:24,  2.04it/s] 49%|████▉     | 5805/11858 [49:17<49:25,  2.04it/s] 49%|████▉     | 5806/11858 [49:17<49:26,  2.04it/s] 49%|████▉     | 5807/11858 [49:18<49:26,  2.04it/s] 49%|████▉     | 5808/11858 [49:18<49:27,  2.04it/s] 49%|████▉     | 5809/11858 [49:19<49:28,  2.04it/s] 49%|████▉     | 5810/11858 [49:19<49:25,  2.04it/s] 49%|████▉     | 5811/11858 [49:20<49:21,  2.04it/s] 49%|████▉     | 5812/11858 [49:20<49:24,  2.04it/s] 49%|████▉     | 5813/11858 [49:21<49:24,  2.04it/s] 49%|████▉     | 5814/11858 [49:21<49:20,  2.04it/s] 49%|████▉     | 5815/11858 [49:22<49:18,  2.04it/s] 49%|████▉     | 5816/11858 [49:22<49:21,  2.04it/s] 49%|████▉     | 5817/11858 [49:23<49:21,  2.04it/s] 49%|████▉     | 5818/11858 [49:23<49:17,  2.04it/s] 49%|████▉     | 5819/11858 [49:24<49:17,  2.04it/s] 49%|████▉     | 5820/11858 [49:24<49:18,  2.04it/s] 49%|████▉     | 5821/11858 [49:25<49:16,  2.04it/s] 49%|████▉     | 5822/11858 [49:25<49:14,  2.04it/s] 49%|████▉     | 5823/11858 [49:26<49:18,  2.04it/s] 49%|████▉     | 5824/11858 [49:26<49:16,  2.04it/s] 49%|████▉     | 5825/11858 [49:27<49:16,  2.04it/s]{'loss': 1.8887, 'grad_norm': 0.29791972041130066, 'learning_rate': 0.0006018721120947812, 'epoch': 6.87}                                                    
- 49%|████▉     | 5825/11858 [49:27<49:16,  2.04it/s] 49%|████▉     | 5826/11858 [49:27<49:21,  2.04it/s] 49%|████▉     | 5827/11858 [49:27<49:19,  2.04it/s] 49%|████▉     | 5828/11858 [49:28<49:15,  2.04it/s] 49%|████▉     | 5829/11858 [49:28<49:18,  2.04it/s] 49%|████▉     | 5830/11858 [49:29<49:16,  2.04it/s] 49%|████▉     | 5831/11858 [49:29<49:15,  2.04it/s] 49%|████▉     | 5832/11858 [49:30<49:15,  2.04it/s] 49%|████▉     | 5833/11858 [49:30<49:17,  2.04it/s] 49%|████▉     | 5834/11858 [49:31<49:16,  2.04it/s] 49%|████▉     | 5835/11858 [49:31<49:14,  2.04it/s] 49%|████▉     | 5836/11858 [49:32<49:15,  2.04it/s] 49%|████▉     | 5837/11858 [49:32<49:13,  2.04it/s] 49%|████▉     | 5838/11858 [49:33<49:12,  2.04it/s] 49%|████▉     | 5839/11858 [49:33<49:13,  2.04it/s] 49%|████▉     | 5840/11858 [49:34<49:13,  2.04it/s] 49%|████▉     | 5841/11858 [49:34<49:11,  2.04it/s] 49%|████▉     | 5842/11858 [49:35<49:13,  2.04it/s] 49%|████▉     | 5843/11858 [49:35<49:10,  2.04it/s] 49%|████▉     | 5844/11858 [49:36<49:11,  2.04it/s] 49%|████▉     | 5845/11858 [49:36<49:14,  2.04it/s] 49%|████▉     | 5846/11858 [49:37<49:09,  2.04it/s] 49%|████▉     | 5847/11858 [49:37<49:05,  2.04it/s] 49%|████▉     | 5848/11858 [49:38<49:08,  2.04it/s] 49%|████▉     | 5849/11858 [49:38<49:08,  2.04it/s] 49%|████▉     | 5850/11858 [49:39<49:07,  2.04it/s]{'loss': 1.8671, 'grad_norm': 0.3571608364582062, 'learning_rate': 0.0005982668569563458, 'epoch': 6.9}                                                    
- 49%|████▉     | 5850/11858 [49:39<49:07,  2.04it/s] 49%|████▉     | 5851/11858 [49:39<49:15,  2.03it/s] 49%|████▉     | 5852/11858 [49:40<49:09,  2.04it/s] 49%|████▉     | 5853/11858 [49:40<49:08,  2.04it/s] 49%|████▉     | 5854/11858 [49:41<49:09,  2.04it/s] 49%|████▉     | 5855/11858 [49:41<49:09,  2.04it/s] 49%|████▉     | 5856/11858 [49:42<49:06,  2.04it/s] 49%|████▉     | 5857/11858 [49:42<49:05,  2.04it/s] 49%|████▉     | 5858/11858 [49:43<49:07,  2.04it/s] 49%|████▉     | 5859/11858 [49:43<49:04,  2.04it/s] 49%|████▉     | 5860/11858 [49:44<49:04,  2.04it/s] 49%|████▉     | 5861/11858 [49:44<49:05,  2.04it/s] 49%|████▉     | 5862/11858 [49:45<49:02,  2.04it/s] 49%|████▉     | 5863/11858 [49:45<48:58,  2.04it/s] 49%|████▉     | 5864/11858 [49:46<48:58,  2.04it/s] 49%|████▉     | 5865/11858 [49:46<49:00,  2.04it/s] 49%|████▉     | 5866/11858 [49:47<48:57,  2.04it/s] 49%|████▉     | 5867/11858 [49:47<48:58,  2.04it/s] 49%|████▉     | 5868/11858 [49:48<49:00,  2.04it/s] 49%|████▉     | 5869/11858 [49:48<48:57,  2.04it/s] 50%|████▉     | 5870/11858 [49:49<48:56,  2.04it/s] 50%|████▉     | 5871/11858 [49:49<48:58,  2.04it/s] 50%|████▉     | 5872/11858 [49:50<48:58,  2.04it/s] 50%|████▉     | 5873/11858 [49:50<48:53,  2.04it/s] 50%|████▉     | 5874/11858 [49:51<48:50,  2.04it/s] 50%|████▉     | 5875/11858 [49:51<48:51,  2.04it/s]{'loss': 1.8756, 'grad_norm': 0.42795878648757935, 'learning_rate': 0.0005946562795928582, 'epoch': 6.93}
-                                                     50%|████▉     | 5875/11858 [49:51<48:51,  2.04it/s] 50%|████▉     | 5876/11858 [49:52<48:56,  2.04it/s] 50%|████▉     | 5877/11858 [49:52<48:55,  2.04it/s] 50%|████▉     | 5878/11858 [49:53<48:55,  2.04it/s] 50%|████▉     | 5879/11858 [49:53<48:56,  2.04it/s] 50%|████▉     | 5880/11858 [49:54<48:53,  2.04it/s] 50%|████▉     | 5881/11858 [49:54<48:53,  2.04it/s] 50%|████▉     | 5882/11858 [49:54<48:52,  2.04it/s] 50%|████▉     | 5883/11858 [49:55<48:51,  2.04it/s] 50%|████▉     | 5884/11858 [49:55<48:48,  2.04it/s] 50%|████▉     | 5885/11858 [49:56<48:48,  2.04it/s] 50%|████▉     | 5886/11858 [49:56<48:49,  2.04it/s] 50%|████▉     | 5887/11858 [49:57<48:49,  2.04it/s] 50%|████▉     | 5888/11858 [49:57<48:52,  2.04it/s] 50%|████▉     | 5889/11858 [49:58<48:51,  2.04it/s] 50%|████▉     | 5890/11858 [49:58<48:50,  2.04it/s] 50%|████▉     | 5891/11858 [49:59<48:49,  2.04it/s] 50%|████▉     | 5892/11858 [49:59<48:47,  2.04it/s] 50%|████▉     | 5893/11858 [50:00<48:44,  2.04it/s] 50%|████▉     | 5894/11858 [50:00<48:45,  2.04it/s] 50%|████▉     | 5895/11858 [50:01<48:43,  2.04it/s] 50%|████▉     | 5896/11858 [50:01<48:43,  2.04it/s] 50%|████▉     | 5897/11858 [50:02<48:45,  2.04it/s] 50%|████▉     | 5898/11858 [50:02<48:48,  2.03it/s] 50%|████▉     | 5899/11858 [50:03<48:46,  2.04it/s] 50%|████▉     | 5900/11858 [50:03<48:47,  2.04it/s]{'loss': 1.8874, 'grad_norm': 0.302888959646225, 'learning_rate': 0.0005910405755565719, 'epoch': 6.96}
-                                                     50%|████▉     | 5900/11858 [50:03<48:47,  2.04it/s] 50%|████▉     | 5901/11858 [50:04<48:47,  2.03it/s] 50%|████▉     | 5902/11858 [50:04<48:46,  2.04it/s] 50%|████▉     | 5903/11858 [50:05<48:47,  2.03it/s] 50%|████▉     | 5904/11858 [50:05<48:43,  2.04it/s] 50%|████▉     | 5905/11858 [50:06<48:40,  2.04it/s] 50%|████▉     | 5906/11858 [50:06<48:40,  2.04it/s] 50%|████▉     | 5907/11858 [50:07<48:38,  2.04it/s] 50%|████▉     | 5908/11858 [50:07<48:35,  2.04it/s] 50%|████▉     | 5909/11858 [50:08<48:37,  2.04it/s] 50%|████▉     | 5910/11858 [50:08<48:38,  2.04it/s] 50%|████▉     | 5911/11858 [50:09<48:35,  2.04it/s] 50%|████▉     | 5912/11858 [50:09<48:32,  2.04it/s] 50%|████▉     | 5913/11858 [50:10<48:34,  2.04it/s] 50%|████▉     | 5914/11858 [50:10<48:36,  2.04it/s] 50%|████▉     | 5915/11858 [50:11<48:32,  2.04it/s] 50%|████▉     | 5916/11858 [50:11<48:33,  2.04it/s] 50%|████▉     | 5917/11858 [50:12<48:35,  2.04it/s] 50%|████▉     | 5918/11858 [50:12<48:35,  2.04it/s] 50%|████▉     | 5919/11858 [50:13<48:36,  2.04it/s] 50%|████▉     | 5920/11858 [50:13<48:36,  2.04it/s] 50%|████▉     | 5921/11858 [50:14<48:31,  2.04it/s] 50%|████▉     | 5922/11858 [50:14<48:31,  2.04it/s] 50%|████▉     | 5923/11858 [50:15<48:31,  2.04it/s] 50%|████▉     | 5924/11858 [50:15<48:30,  2.04it/s] 50%|████▉     | 5925/11858 [50:16<48:26,  2.04it/s]{'loss': 1.8894, 'grad_norm': 0.32564133405685425, 'learning_rate': 0.0005874199406774055, 'epoch': 6.99}                                                    
- 50%|████▉     | 5925/11858 [50:16<48:26,  2.04it/s] 50%|████▉     | 5926/11858 [50:16<48:30,  2.04it/s] 50%|████▉     | 5927/11858 [50:17<48:31,  2.04it/s] 50%|████▉     | 5928/11858 [50:17<48:30,  2.04it/s] 50%|█████     | 5929/11858 [50:18<48:27,  2.04it/s] 50%|█████     | 5930/11858 [50:18<48:26,  2.04it/s] 50%|█████     | 5931/11858 [50:19<48:27,  2.04it/s] 50%|█████     | 5932/11858 [50:19<49:46,  1.98it/s] 50%|█████     | 5933/11858 [50:31<6:26:09,  3.91s/it] 50%|█████     | 5934/11858 [50:31<4:44:51,  2.89s/it] 50%|█████     | 5935/11858 [50:32<3:34:09,  2.17s/it] 50%|█████     | 5936/11858 [50:32<2:44:37,  1.67s/it] 50%|█████     | 5937/11858 [50:33<2:09:55,  1.32s/it] 50%|█████     | 5938/11858 [50:33<1:45:28,  1.07s/it] 50%|█████     | 5939/11858 [50:34<1:28:23,  1.12it/s] 50%|█████     | 5940/11858 [50:34<1:16:25,  1.29it/s] 50%|█████     | 5941/11858 [50:35<1:08:04,  1.45it/s] 50%|█████     | 5942/11858 [50:35<1:02:22,  1.58it/s] 50%|█████     | 5943/11858 [50:36<58:12,  1.69it/s]   50%|█████     | 5944/11858 [50:36<55:17,  1.78it/s] 50%|█████     | 5945/11858 [50:37<53:14,  1.85it/s] 50%|█████     | 5946/11858 [50:37<51:51,  1.90it/s] 50%|█████     | 5947/11858 [50:38<51:08,  1.93it/s] 50%|█████     | 5948/11858 [50:38<50:19,  1.96it/s] 50%|█████     | 5949/11858 [50:39<49:46,  1.98it/s] 50%|█████     | 5950/11858 [50:39<49:20,  2.00it/s]{'loss': 1.7819, 'grad_norm': 0.28956255316734314, 'learning_rate': 0.0005837945710523366, 'epoch': 7.02}
-                                                     50%|█████     | 5950/11858 [50:39<49:20,  2.00it/s] 50%|█████     | 5951/11858 [50:40<49:03,  2.01it/s] 50%|█████     | 5952/11858 [50:40<48:50,  2.02it/s] 50%|█████     | 5953/11858 [50:41<48:40,  2.02it/s] 50%|█████     | 5954/11858 [50:41<48:27,  2.03it/s] 50%|█████     | 5955/11858 [50:42<48:24,  2.03it/s] 50%|█████     | 5956/11858 [50:42<48:23,  2.03it/s] 50%|█████     | 5957/11858 [50:43<48:19,  2.03it/s] 50%|█████     | 5958/11858 [50:43<48:21,  2.03it/s] 50%|█████     | 5959/11858 [50:44<48:22,  2.03it/s] 50%|█████     | 5960/11858 [50:44<48:16,  2.04it/s] 50%|█████     | 5961/11858 [50:45<48:13,  2.04it/s] 50%|█████     | 5962/11858 [50:45<48:13,  2.04it/s] 50%|█████     | 5963/11858 [50:46<48:11,  2.04it/s] 50%|█████     | 5964/11858 [50:46<48:08,  2.04it/s] 50%|█████     | 5965/11858 [50:47<48:10,  2.04it/s] 50%|█████     | 5966/11858 [50:47<48:10,  2.04it/s] 50%|█████     | 5967/11858 [50:48<48:06,  2.04it/s] 50%|█████     | 5968/11858 [50:48<48:05,  2.04it/s] 50%|█████     | 5969/11858 [50:49<48:04,  2.04it/s] 50%|█████     | 5970/11858 [50:49<48:04,  2.04it/s] 50%|█████     | 5971/11858 [50:50<48:01,  2.04it/s] 50%|█████     | 5972/11858 [50:50<47:59,  2.04it/s] 50%|█████     | 5973/11858 [50:51<48:01,  2.04it/s] 50%|█████     | 5974/11858 [50:51<48:03,  2.04it/s] 50%|█████     | 5975/11858 [50:52<48:00,  2.04it/s]{'loss': 1.7509, 'grad_norm': 0.30030444264411926, 'learning_rate': 0.0005801646630347813, 'epoch': 7.05}
-                                                     50%|█████     | 5975/11858 [50:52<48:00,  2.04it/s] 50%|█████     | 5976/11858 [50:52<48:03,  2.04it/s] 50%|█████     | 5977/11858 [50:53<48:04,  2.04it/s] 50%|█████     | 5978/11858 [50:53<48:02,  2.04it/s] 50%|█████     | 5979/11858 [50:54<47:58,  2.04it/s] 50%|█████     | 5980/11858 [50:54<48:10,  2.03it/s] 50%|█████     | 5981/11858 [50:55<48:06,  2.04it/s] 50%|█████     | 5982/11858 [50:55<48:01,  2.04it/s] 50%|█████     | 5983/11858 [50:56<48:03,  2.04it/s] 50%|█████     | 5984/11858 [50:56<48:02,  2.04it/s] 50%|█████     | 5985/11858 [50:56<47:58,  2.04it/s] 50%|█████     | 5986/11858 [50:57<47:58,  2.04it/s] 50%|█████     | 5987/11858 [50:57<47:57,  2.04it/s] 50%|████��     | 5988/11858 [50:58<47:56,  2.04it/s] 51%|█████     | 5989/11858 [50:58<47:53,  2.04it/s] 51%|█████     | 5990/11858 [50:59<47:56,  2.04it/s] 51%|█████     | 5991/11858 [50:59<47:54,  2.04it/s] 51%|█████     | 5992/11858 [51:00<47:53,  2.04it/s] 51%|█████     | 5993/11858 [51:00<47:52,  2.04it/s] 51%|█████     | 5994/11858 [51:01<47:50,  2.04it/s] 51%|█████     | 5995/11858 [51:01<47:54,  2.04it/s] 51%|█████     | 5996/11858 [51:02<47:55,  2.04it/s] 51%|█████     | 5997/11858 [51:02<47:51,  2.04it/s] 51%|█████     | 5998/11858 [51:03<47:53,  2.04it/s] 51%|█████     | 5999/11858 [51:03<47:50,  2.04it/s] 51%|█████     | 6000/11858 [51:04<47:47,  2.04it/s]{'loss': 1.7492, 'grad_norm': 0.3296205997467041, 'learning_rate': 0.000576530413223959, 'epoch': 7.08}
-                                                     51%|█████     | 6000/11858 [51:04<47:47,  2.04it/s] 51%|█████     | 6001/11858 [51:04<47:52,  2.04it/s] 51%|█████     | 6002/11858 [51:05<47:52,  2.04it/s] 51%|█████     | 6003/11858 [51:05<47:49,  2.04it/s] 51%|█████     | 6004/11858 [51:06<47:47,  2.04it/s] 51%|█████     | 6005/11858 [51:06<47:48,  2.04it/s] 51%|█████     | 6006/11858 [51:07<47:48,  2.04it/s] 51%|█████     | 6007/11858 [51:07<47:44,  2.04it/s] 51%|█████     | 6008/11858 [51:08<47:44,  2.04it/s] 51%|█████     | 6009/11858 [51:08<47:43,  2.04it/s] 51%|█████     | 6010/11858 [51:09<47:42,  2.04it/s] 51%|█████     | 6011/11858 [51:09<47:40,  2.04it/s] 51%|█████     | 6012/11858 [51:10<47:44,  2.04it/s] 51%|█████     | 6013/11858 [51:10<47:44,  2.04it/s] 51%|█████     | 6014/11858 [51:11<47:43,  2.04it/s] 51%|█████     | 6015/11858 [51:11<47:46,  2.04it/s] 51%|█████     | 6016/11858 [51:12<47:47,  2.04it/s] 51%|█████     | 6017/11858 [51:12<47:41,  2.04it/s] 51%|█████     | 6018/11858 [51:13<47:38,  2.04it/s] 51%|█████     | 6019/11858 [51:13<47:39,  2.04it/s] 51%|█████     | 6020/11858 [51:14<47:41,  2.04it/s] 51%|█████     | 6021/11858 [51:14<47:40,  2.04it/s] 51%|█████     | 6022/11858 [51:15<47:42,  2.04it/s] 51%|█████     | 6023/11858 [51:15<47:41,  2.04it/s] 51%|█████     | 6024/11858 [51:16<47:40,  2.04it/s] 51%|█████     | 6025/11858 [51:16<47:41,  2.04it/s]                                                    {'loss': 1.756, 'grad_norm': 0.30010369420051575, 'learning_rate': 0.0005728920184542447, 'epoch': 7.11}
- 51%|█████     | 6025/11858 [51:16<47:41,  2.04it/s] 51%|█████     | 6026/11858 [51:17<47:44,  2.04it/s] 51%|█████     | 6027/11858 [51:17<47:39,  2.04it/s] 51%|█████     | 6028/11858 [51:18<47:36,  2.04it/s] 51%|█████     | 6029/11858 [51:18<47:35,  2.04it/s] 51%|█████     | 6030/11858 [51:19<47:36,  2.04it/s] 51%|█████     | 6031/11858 [51:19<47:34,  2.04it/s] 51%|█████     | 6032/11858 [51:20<47:34,  2.04it/s] 51%|█████     | 6033/11858 [51:20<47:37,  2.04it/s] 51%|█████     | 6034/11858 [51:20<47:36,  2.04it/s] 51%|█████     | 6035/11858 [51:21<47:33,  2.04it/s] 51%|█████     | 6036/11858 [51:21<47:37,  2.04it/s] 51%|█████     | 6037/11858 [51:22<47:35,  2.04it/s] 51%|█████     | 6038/11858 [51:22<47:32,  2.04it/s] 51%|█████     | 6039/11858 [51:23<47:32,  2.04it/s] 51%|█████     | 6040/11858 [51:23<47:34,  2.04it/s] 51%|█████     | 6041/11858 [51:24<47:33,  2.04it/s] 51%|█████     | 6042/11858 [51:24<47:33,  2.04it/s] 51%|█████     | 6043/11858 [51:25<47:28,  2.04it/s] 51%|█████     | 6044/11858 [51:25<47:24,  2.04it/s] 51%|█████     | 6045/11858 [51:26<47:26,  2.04it/s] 51%|█████     | 6046/11858 [51:26<47:29,  2.04it/s] 51%|█████     | 6047/11858 [51:27<47:28,  2.04it/s] 51%|█████     | 6048/11858 [51:27<47:26,  2.04it/s] 51%|█████     | 6049/11858 [51:28<47:25,  2.04it/s] 51%|█████     | 6050/11858 [51:28<47:24,  2.04it/s]{'loss': 1.7543, 'grad_norm': 0.3197695016860962, 'learning_rate': 0.0005692496757845092, 'epoch': 7.14}
-                                                     51%|█████     | 6050/11858 [51:28<47:24,  2.04it/s] 51%|█████     | 6051/11858 [51:29<47:28,  2.04it/s] 51%|█████     | 6052/11858 [51:29<47:24,  2.04it/s] 51%|█████     | 6053/11858 [51:30<47:24,  2.04it/s] 51%|█████     | 6054/11858 [51:30<47:26,  2.04it/s] 51%|█████     | 6055/11858 [51:31<47:24,  2.04it/s] 51%|█████     | 6056/11858 [51:31<47:26,  2.04it/s] 51%|█████     | 6057/11858 [51:32<47:26,  2.04it/s] 51%|█████     | 6058/11858 [51:32<47:24,  2.04it/s] 51%|█████     | 6059/11858 [51:33<47:22,  2.04it/s] 51%|█████     | 6060/11858 [51:33<47:22,  2.04it/s] 51%|█████     | 6061/11858 [51:34<47:23,  2.04it/s] 51%|█████     | 6062/11858 [51:34<47:22,  2.04it/s] 51%|█████     | 6063/11858 [51:35<47:24,  2.04it/s] 51%|█████     | 6064/11858 [51:35<47:25,  2.04it/s] 51%|█████     | 6065/11858 [51:36<47:21,  2.04it/s] 51%|█████     | 6066/11858 [51:36<47:19,  2.04it/s] 51%|█████     | 6067/11858 [51:37<47:21,  2.04it/s] 51%|█████     | 6068/11858 [51:37<47:20,  2.04it/s] 51%|█████     | 6069/11858 [51:38<47:18,  2.04it/s] 51%|█████     | 6070/11858 [51:38<47:15,  2.04it/s] 51%|█████     | 6071/11858 [51:39<47:16,  2.04it/s] 51%|█████     | 6072/11858 [51:39<47:16,  2.04it/s] 51%|█████     | 6073/11858 [51:40<47:14,  2.04it/s] 51%|█████     | 6074/11858 [51:40<47:19,  2.04it/s] 51%|█████     | 6075/11858 [51:41<47:19,  2.04it/s]{'loss': 1.7646, 'grad_norm': 0.3442913889884949, 'learning_rate': 0.0005656035824874437, 'epoch': 7.17}
-                                                     51%|█████     | 6075/11858 [51:41<47:19,  2.04it/s] 51%|█████     | 6076/11858 [51:41<47:24,  2.03it/s] 51%|█████     | 6077/11858 [51:42<47:22,  2.03it/s] 51%|█████▏    | 6078/11858 [51:42<47:18,  2.04it/s] 51%|█████▏    | 6079/11858 [51:43<47:16,  2.04it/s] 51%|█████▏    | 6080/11858 [51:43<47:17,  2.04it/s] 51%|█████▏    | 6081/11858 [51:44<47:15,  2.04it/s] 51%|█████▏    | 6082/11858 [51:44<47:11,  2.04it/s] 51%|█████▏    | 6083/11858 [51:45<47:13,  2.04it/s] 51%|█████▏    | 6084/11858 [51:45<47:10,  2.04it/s] 51%|█████▏    | 6085/11858 [51:46<47:12,  2.04it/s] 51%|█████▏    | 6086/11858 [51:46<47:11,  2.04it/s] 51%|█████▏    | 6087/11858 [51:46<47:08,  2.04it/s] 51%|█████▏    | 6088/11858 [51:47<47:05,  2.04it/s] 51%|█████▏    | 6089/11858 [51:47<47:07,  2.04it/s] 51%|█████▏    | 6090/11858 [51:48<47:13,  2.04it/s] 51%|█████▏    | 6091/11858 [51:48<47:12,  2.04it/s] 51%|█████▏    | 6092/11858 [51:49<47:13,  2.04it/s] 51%|█████▏    | 6093/11858 [51:49<47:13,  2.03it/s] 51%|█████▏    | 6094/11858 [51:50<47:12,  2.04it/s] 51%|█████▏    | 6095/11858 [51:50<47:09,  2.04it/s] 51%|█████▏    | 6096/11858 [51:51<47:09,  2.04it/s] 51%|█████▏    | 6097/11858 [51:51<47:08,  2.04it/s] 51%|█████▏    | 6098/11858 [51:52<47:07,  2.04it/s] 51%|█████▏    | 6099/11858 [51:52<47:07,  2.04it/s] 51%|█████▏    | 6100/11858 [51:53<47:05,  2.04it/s]{'loss': 1.7793, 'grad_norm': 0.3212069869041443, 'learning_rate': 0.0005619539360388779, 'epoch': 7.2}
-                                                     51%|█████▏    | 6100/11858 [51:53<47:05,  2.04it/s] 51%|█████▏    | 6101/11858 [51:53<47:08,  2.04it/s] 51%|█████▏    | 6102/11858 [51:54<47:08,  2.03it/s] 51%|█████▏    | 6103/11858 [51:54<47:04,  2.04it/s] 51%|█████▏    | 6104/11858 [51:55<47:03,  2.04it/s] 51%|█████▏    | 6105/11858 [51:55<47:04,  2.04it/s] 51%|█████▏    | 6106/11858 [51:56<47:02,  2.04it/s] 52%|█████▏    | 6107/11858 [51:56<47:01,  2.04it/s] 52%|█████▏    | 6108/11858 [51:57<47:04,  2.04it/s] 52%|█████▏    | 6109/11858 [51:57<47:01,  2.04it/s] 52%|█████▏    | 6110/11858 [51:58<46:58,  2.04it/s] 52%|█████▏    | 6111/11858 [51:58<46:58,  2.04it/s] 52%|█████▏    | 6112/11858 [51:59<46:59,  2.04it/s] 52%|█████▏    | 6113/11858 [51:59<46:56,  2.04it/s] 52%|█████▏    | 6114/11858 [52:00<46:54,  2.04it/s] 52%|█████▏    | 6115/11858 [52:00<46:58,  2.04it/s] 52%|█████▏    | 6116/11858 [52:01<46:55,  2.04it/s] 52%|█████▏    | 6117/11858 [52:01<46:52,  2.04it/s] 52%|█████▏    | 6118/11858 [52:02<46:49,  2.04it/s] 52%|█████▏    | 6119/11858 [52:02<46:53,  2.04it/s] 52%|█████▏    | 6120/11858 [52:03<46:53,  2.04it/s] 52%|█████▏    | 6121/11858 [52:03<46:50,  2.04it/s] 52%|█████▏    | 6122/11858 [52:04<46:53,  2.04it/s] 52%|█████▏    | 6123/11858 [52:04<46:57,  2.04it/s] 52%|█████▏    | 6124/11858 [52:05<46:54,  2.04it/s] 52%|█████▏    | 6125/11858 [52:05<46:51,  2.04it/s]                                                    {'loss': 1.7509, 'grad_norm': 0.29311901330947876, 'learning_rate': 0.0005583009341070836, 'epoch': 7.23}
- 52%|█████▏    | 6125/11858 [52:05<46:51,  2.04it/s] 52%|█████▏    | 6126/11858 [52:06<46:56,  2.04it/s] 52%|█████▏    | 6127/11858 [52:06<46:52,  2.04it/s] 52%|█████▏    | 6128/11858 [52:07<46:50,  2.04it/s] 52%|█████▏    | 6129/11858 [52:07<46:49,  2.04it/s] 52%|█████▏    | 6130/11858 [52:08<46:50,  2.04it/s] 52%|█████▏    | 6131/11858 [52:08<46:49,  2.04it/s] 52%|█████▏    | 6132/11858 [52:09<47:10,  2.02it/s] 52%|█████▏    | 6133/11858 [52:09<47:01,  2.03it/s] 52%|█████▏    | 6134/11858 [52:10<46:57,  2.03it/s] 52%|█████▏    | 6135/11858 [52:10<46:55,  2.03it/s] 52%|█████▏    | 6136/11858 [52:11<46:51,  2.04it/s] 52%|█████▏    | 6137/11858 [52:11<46:50,  2.04it/s] 52%|█████▏    | 6138/11858 [52:12<46:49,  2.04it/s] 52%|█████▏    | 6139/11858 [52:12<46:46,  2.04it/s] 52%|█████▏    | 6140/11858 [52:13<46:45,  2.04it/s] 52%|█████▏    | 6141/11858 [52:13<46:45,  2.04it/s] 52%|█████▏    | 6142/11858 [52:13<46:43,  2.04it/s] 52%|█████▏    | 6143/11858 [52:14<46:40,  2.04it/s] 52%|█████▏    | 6144/11858 [52:14<46:40,  2.04it/s] 52%|█████▏    | 6145/11858 [52:15<46:40,  2.04it/s] 52%|█████▏    | 6146/11858 [52:15<46:35,  2.04it/s] 52%|█████▏    | 6147/11858 [52:16<46:33,  2.04it/s] 52%|█████▏    | 6148/11858 [52:16<46:36,  2.04it/s] 52%|█████▏    | 6149/11858 [52:17<46:36,  2.04it/s] 52%|█████▏    | 6150/11858 [52:17<46:34,  2.04it/s]{'loss': 1.7849, 'grad_norm': 0.3032374382019043, 'learning_rate': 0.0005546447745420679, 'epoch': 7.26}
-                                                     52%|█████▏    | 6150/11858 [52:17<46:34,  2.04it/s] 52%|█████▏    | 6151/11858 [52:18<46:34,  2.04it/s] 52%|█████▏    | 6152/11858 [52:18<46:35,  2.04it/s] 52%|█████▏    | 6153/11858 [52:19<46:35,  2.04it/s] 52%|█████▏    | 6154/11858 [52:19<46:35,  2.04it/s] 52%|█████▏    | 6155/11858 [52:20<46:32,  2.04it/s] 52%|█████▏    | 6156/11858 [52:20<46:33,  2.04it/s] 52%|█████▏    | 6157/11858 [52:21<46:34,  2.04it/s] 52%|█████▏    | 6158/11858 [52:21<46:31,  2.04it/s] 52%|█████▏    | 6159/11858 [52:22<46:30,  2.04it/s] 52%|█████▏    | 6160/11858 [52:22<46:34,  2.04it/s] 52%|█████▏    | 6161/11858 [52:23<46:32,  2.04it/s] 52%|█████▏    | 6162/11858 [52:23<46:30,  2.04it/s] 52%|█████▏    | 6163/11858 [52:24<46:32,  2.04it/s] 52%|█████▏    | 6164/11858 [52:24<46:31,  2.04it/s] 52%|█████▏    | 6165/11858 [52:25<46:27,  2.04it/s] 52%|█████▏    | 6166/11858 [52:25<46:27,  2.04it/s] 52%|█████▏    | 6167/11858 [52:26<46:29,  2.04it/s] 52%|█████▏    | 6168/11858 [52:26<46:27,  2.04it/s] 52%|█████▏    | 6169/11858 [52:27<46:28,  2.04it/s] 52%|█████▏    | 6170/11858 [52:27<46:27,  2.04it/s] 52%|█████▏    | 6171/11858 [52:28<46:27,  2.04it/s] 52%|█████▏    | 6172/11858 [52:28<46:27,  2.04it/s] 52%|█████▏    | 6173/11858 [52:29<46:27,  2.04it/s] 52%|█████▏    | 6174/11858 [52:29<46:28,  2.04it/s] 52%|█████▏    | 6175/11858 [52:30<46:28,  2.04it/s]{'loss': 1.7801, 'grad_norm': 0.29876816272735596, 'learning_rate': 0.0005509856553648591, 'epoch': 7.29}
-                                                     52%|█████▏    | 6175/11858 [52:30<46:28,  2.04it/s] 52%|█████▏    | 6176/11858 [52:30<46:30,  2.04it/s] 52%|█████▏    | 6177/11858 [52:31<46:31,  2.04it/s] 52%|█████▏    | 6178/11858 [52:31<46:30,  2.04it/s] 52%|█████▏    | 6179/11858 [52:32<46:24,  2.04it/s] 52%|█████▏    | 6180/11858 [52:32<46:22,  2.04it/s] 52%|█████▏    | 6181/11858 [52:33<46:19,  2.04it/s] 52%|█████▏    | 6182/11858 [52:33<46:20,  2.04it/s] 52%|█████▏    | 6183/11858 [52:34<46:20,  2.04it/s] 52%|█████▏    | 6184/11858 [52:34<46:20,  2.04it/s] 52%|█████▏    | 6185/11858 [52:35<46:18,  2.04it/s] 52%|█████▏    | 6186/11858 [52:35<46:18,  2.04it/s] 52%|█████▏    | 6187/11858 [52:36<46:19,  2.04it/s] 52%|█████▏    | 6188/11858 [52:36<46:20,  2.04it/s] 52%|█████▏    | 6189/11858 [52:37<46:17,  2.04it/s] 52%|█████▏    | 6190/11858 [52:37<46:16,  2.04it/s] 52%|█████▏    | 6191/11858 [52:38<46:15,  2.04it/s] 52%|█████▏    | 6192/11858 [52:38<46:13,  2.04it/s] 52%|█████▏    | 6193/11858 [52:38<46:14,  2.04it/s] 52%|█████▏    | 6194/11858 [52:39<46:15,  2.04it/s] 52%|█████▏    | 6195/11858 [52:39<46:14,  2.04it/s] 52%|█████▏    | 6196/11858 [52:40<46:15,  2.04it/s] 52%|█████▏    | 6197/11858 [52:40<46:15,  2.04it/s] 52%|█████▏    | 6198/11858 [52:41<46:14,  2.04it/s] 52%|█████▏    | 6199/11858 [52:41<46:16,  2.04it/s] 52%|█████▏    | 6200/11858 [52:42<46:15,  2.04it/s]                                                    {'loss': 1.7866, 'grad_norm': 0.29923951625823975, 'learning_rate': 0.0005473237747567805, 'epoch': 7.32}
- 52%|█████▏    | 6200/11858 [52:42<46:15,  2.04it/s] 52%|█████▏    | 6201/11858 [52:42<46:18,  2.04it/s] 52%|█████▏    | 6202/11858 [52:43<46:17,  2.04it/s] 52%|█████▏    | 6203/11858 [52:43<46:14,  2.04it/s] 52%|█████▏    | 6204/11858 [52:44<46:10,  2.04it/s] 52%|█████▏    | 6205/11858 [52:44<46:10,  2.04it/s] 52%|█████▏    | 6206/11858 [52:45<46:12,  2.04it/s] 52%|█████▏    | 6207/11858 [52:45<46:09,  2.04it/s] 52%|█████▏    | 6208/11858 [52:46<46:07,  2.04it/s] 52%|█████▏    | 6209/11858 [52:46<46:09,  2.04it/s] 52%|█████▏    | 6210/11858 [52:47<46:10,  2.04it/s] 52%|█████▏    | 6211/11858 [52:47<46:06,  2.04it/s] 52%|█████▏    | 6212/11858 [52:48<46:06,  2.04it/s] 52%|█████▏    | 6213/11858 [52:48<46:06,  2.04it/s] 52%|█████▏    | 6214/11858 [52:49<46:07,  2.04it/s] 52%|█████▏    | 6215/11858 [52:49<46:06,  2.04it/s] 52%|█████▏    | 6216/11858 [52:50<46:07,  2.04it/s] 52%|█████▏    | 6217/11858 [52:50<46:06,  2.04it/s] 52%|█████▏    | 6218/11858 [52:51<46:04,  2.04it/s] 52%|█████▏    | 6219/11858 [52:51<46:02,  2.04it/s] 52%|█████▏    | 6220/11858 [52:52<46:03,  2.04it/s] 52%|█████▏    | 6221/11858 [52:52<46:05,  2.04it/s] 52%|█████▏    | 6222/11858 [52:53<46:00,  2.04it/s] 52%|█████▏    | 6223/11858 [52:53<45:58,  2.04it/s] 52%|█████▏    | 6224/11858 [52:54<46:00,  2.04it/s] 52%|█████▏    | 6225/11858 [52:54<46:01,  2.04it/s]                                                    {'loss': 1.7925, 'grad_norm': 0.29670172929763794, 'learning_rate': 0.0005436593310487173, 'epoch': 7.35}
- 52%|█████▏    | 6225/11858 [52:54<46:01,  2.04it/s] 53%|█████▎    | 6226/11858 [52:55<46:02,  2.04it/s] 53%|█████▎    | 6227/11858 [52:55<46:03,  2.04it/s] 53%|█████▎    | 6228/11858 [52:56<46:01,  2.04it/s] 53%|█████▎    | 6229/11858 [52:56<45:56,  2.04it/s] 53%|█████▎    | 6230/11858 [52:57<45:57,  2.04it/s] 53%|█████▎    | 6231/11858 [52:57<45:59,  2.04it/s] 53%|█████▎    | 6232/11858 [52:58<45:57,  2.04it/s] 53%|█████▎    | 6233/11858 [52:58<45:53,  2.04it/s] 53%|█████▎    | 6234/11858 [52:59<45:53,  2.04it/s] 53%|█████▎    | 6235/11858 [52:59<45:54,  2.04it/s] 53%|█████▎    | 6236/11858 [53:00<45:54,  2.04it/s] 53%|█████▎    | 6237/11858 [53:00<45:52,  2.04it/s] 53%|█████▎    | 6238/11858 [53:01<45:53,  2.04it/s] 53%|█████▎    | 6239/11858 [53:01<45:54,  2.04it/s] 53%|█████▎    | 6240/11858 [53:02<45:52,  2.04it/s] 53%|█████▎    | 6241/11858 [53:02<45:52,  2.04it/s] 53%|█████▎    | 6242/11858 [53:02<45:53,  2.04it/s] 53%|█████▎    | 6243/11858 [53:03<45:52,  2.04it/s] 53%|█████▎    | 6244/11858 [53:03<45:50,  2.04it/s] 53%|█████▎    | 6245/11858 [53:04<45:51,  2.04it/s] 53%|█████▎    | 6246/11858 [53:04<45:51,  2.04it/s] 53%|█████▎    | 6247/11858 [53:05<45:49,  2.04it/s] 53%|█████▎    | 6248/11858 [53:05<45:48,  2.04it/s] 53%|█████▎    | 6249/11858 [53:06<45:50,  2.04it/s] 53%|█████▎    | 6250/11858 [53:06<45:49,  2.04it/s]{'loss': 1.7861, 'grad_norm': 0.2938043177127838, 'learning_rate': 0.000539992522710374, 'epoch': 7.37}
-                                                     53%|█████▎    | 6250/11858 [53:06<45:49,  2.04it/s] 53%|█████▎    | 6251/11858 [53:07<45:52,  2.04it/s] 53%|█████▎    | 6252/11858 [53:07<45:52,  2.04it/s] 53%|█████▎    | 6253/11858 [53:08<45:49,  2.04it/s] 53%|█████▎    | 6254/11858 [53:08<45:50,  2.04it/s] 53%|█████▎    | 6255/11858 [53:09<45:52,  2.04it/s] 53%|█████▎    | 6256/11858 [53:09<45:50,  2.04it/s] 53%|█████▎    | 6257/11858 [53:10<45:50,  2.04it/s] 53%|█████▎    | 6258/11858 [53:10<45:47,  2.04it/s] 53%|█████▎    | 6259/11858 [53:11<45:46,  2.04it/s] 53%|█████▎    | 6260/11858 [53:11<45:45,  2.04it/s] 53%|█████▎    | 6261/11858 [53:12<45:46,  2.04it/s] 53%|█████▎    | 6262/11858 [53:12<45:45,  2.04it/s] 53%|█████▎    | 6263/11858 [53:13<45:43,  2.04it/s] 53%|█████▎    | 6264/11858 [53:13<45:42,  2.04it/s] 53%|█████▎    | 6265/11858 [53:14<45:43,  2.04it/s] 53%|█████▎    | 6266/11858 [53:14<45:42,  2.04it/s] 53%|█████▎    | 6267/11858 [53:15<45:43,  2.04it/s] 53%|█████▎    | 6268/11858 [53:15<45:44,  2.04it/s] 53%|█████▎    | 6269/11858 [53:16<45:43,  2.04it/s] 53%|█████▎    | 6270/11858 [53:16<45:40,  2.04it/s] 53%|█████▎    | 6271/11858 [53:17<45:40,  2.04it/s] 53%|█████▎    | 6272/11858 [53:17<45:40,  2.04it/s] 53%|█████▎    | 6273/11858 [53:18<45:39,  2.04it/s] 53%|█████▎    | 6274/11858 [53:18<45:35,  2.04it/s] 53%|█████▎    | 6275/11858 [53:19<45:37,  2.04it/s]                                                    {'loss': 1.8118, 'grad_norm': 0.412282794713974, 'learning_rate': 0.0005363235483395267, 'epoch': 7.4}
- 53%|█████▎    | 6275/11858 [53:19<45:37,  2.04it/s] 53%|█████▎    | 6276/11858 [53:19<45:42,  2.04it/s] 53%|█████▎    | 6277/11858 [53:20<45:37,  2.04it/s] 53%|█████▎    | 6278/11858 [53:20<45:39,  2.04it/s] 53%|█████▎    | 6279/11858 [53:21<45:40,  2.04it/s] 53%|█████▎    | 6280/11858 [53:21<45:37,  2.04it/s] 53%|█████▎    | 6281/11858 [53:22<45:36,  2.04it/s] 53%|█████▎    | 6282/11858 [53:22<45:35,  2.04it/s] 53%|█████▎    | 6283/11858 [53:23<45:34,  2.04it/s] 53%|█████▎    | 6284/11858 [53:23<45:31,  2.04it/s] 53%|█████▎    | 6285/11858 [53:24<45:28,  2.04it/s] 53%|█████▎    | 6286/11858 [53:24<45:32,  2.04it/s] 53%|█████▎    | 6287/11858 [53:25<45:29,  2.04it/s] 53%|█████▎    | 6288/11858 [53:25<45:26,  2.04it/s] 53%|█████▎    | 6289/11858 [53:26<45:26,  2.04it/s] 53%|█████▎    | 6290/11858 [53:26<45:28,  2.04it/s] 53%|█████▎    | 6291/11858 [53:27<45:27,  2.04it/s] 53%|█████▎    | 6292/11858 [53:27<45:28,  2.04it/s] 53%|█████▎    | 6293/11858 [53:28<45:29,  2.04it/s] 53%|█████▎    | 6294/11858 [53:28<45:28,  2.04it/s] 53%|█████▎    | 6295/11858 [53:28<45:25,  2.04it/s] 53%|█████▎    | 6296/11858 [53:29<45:26,  2.04it/s] 53%|█████▎    | 6297/11858 [53:29<45:27,  2.04it/s] 53%|█████▎    | 6298/11858 [53:30<45:26,  2.04it/s] 53%|█████▎    | 6299/11858 [53:30<45:27,  2.04it/s] 53%|█████▎    | 6300/11858 [53:31<45:28,  2.04it/s]                                                    {'loss': 1.7952, 'grad_norm': 0.3871895968914032, 'learning_rate': 0.0005326526066512648, 'epoch': 7.43}
- 53%|█████▎    | 6300/11858 [53:31<45:28,  2.04it/s] 53%|█████▎    | 6301/11858 [53:31<45:31,  2.03it/s] 53%|█████▎    | 6302/11858 [53:32<45:25,  2.04it/s] 53%|█████▎    | 6303/11858 [53:32<45:26,  2.04it/s] 53%|█████▎    | 6304/11858 [53:33<45:26,  2.04it/s] 53%|█████▎    | 6305/11858 [53:33<45:25,  2.04it/s] 53%|█████▎    | 6306/11858 [53:34<45:25,  2.04it/s] 53%|█████▎    | 6307/11858 [53:34<45:22,  2.04it/s] 53%|█████▎    | 6308/11858 [53:35<45:22,  2.04it/s] 53%|█████▎    | 6309/11858 [53:35<45:20,  2.04it/s] 53%|█████▎    | 6310/11858 [53:36<45:20,  2.04it/s] 53%|█████▎    | 6311/11858 [53:36<45:19,  2.04it/s] 53%|█████▎    | 6312/11858 [53:37<45:17,  2.04it/s] 53%|█████▎    | 6313/11858 [53:37<45:19,  2.04it/s] 53%|█████▎    | 6314/11858 [53:38<45:18,  2.04it/s] 53%|█████▎    | 6315/11858 [53:38<45:18,  2.04it/s] 53%|█████▎    | 6316/11858 [53:39<45:17,  2.04it/s] 53%|█████▎    | 6317/11858 [53:39<45:16,  2.04it/s] 53%|█████▎    | 6318/11858 [53:40<45:16,  2.04it/s] 53%|█████▎    | 6319/11858 [53:40<45:17,  2.04it/s] 53%|█████▎    | 6320/11858 [53:41<45:15,  2.04it/s] 53%|█████▎    | 6321/11858 [53:41<45:12,  2.04it/s] 53%|█████▎    | 6322/11858 [53:42<45:15,  2.04it/s] 53%|█████▎    | 6323/11858 [53:42<45:17,  2.04it/s] 53%|█████▎    | 6324/11858 [53:43<45:16,  2.04it/s] 53%|█████▎    | 6325/11858 [53:43<45:15,  2.04it/s]{'loss': 1.7798, 'grad_norm': 0.30593153834342957, 'learning_rate': 0.00052897989646723, 'epoch': 7.46}
-                                                     53%|█████▎    | 6325/11858 [53:43<45:15,  2.04it/s] 53%|█████▎    | 6326/11858 [53:44<45:18,  2.04it/s] 53%|█████▎    | 6327/11858 [53:44<45:15,  2.04it/s] 53%|█████▎    | 6328/11858 [53:45<45:13,  2.04it/s] 53%|█████▎    | 6329/11858 [53:45<45:12,  2.04it/s] 53%|█████▎    | 6330/11858 [53:46<45:14,  2.04it/s] 53%|█████▎    | 6331/11858 [53:46<45:11,  2.04it/s] 53%|█████▎    | 6332/11858 [53:47<45:08,  2.04it/s] 53%|█████▎    | 6333/11858 [53:47<45:10,  2.04it/s] 53%|█████▎    | 6334/11858 [53:48<45:09,  2.04it/s] 53%|█████▎    | 6335/11858 [53:48<45:07,  2.04it/s] 53%|█████▎    | 6336/11858 [53:49<45:09,  2.04it/s] 53%|█████▎    | 6337/11858 [53:49<45:07,  2.04it/s] 53%|█████▎    | 6338/11858 [53:50<49:01,  1.88it/s] 53%|█████▎    | 6339/11858 [53:50<47:52,  1.92it/s] 53%|█████▎    | 6340/11858 [53:51<47:01,  1.96it/s] 53%|█████▎    | 6341/11858 [53:51<46:25,  1.98it/s] 53%|█████▎    | 6342/11858 [53:52<46:01,  2.00it/s] 53%|█████▎    | 6343/11858 [53:52<45:43,  2.01it/s] 53%|█████▎    | 6344/11858 [53:53<45:31,  2.02it/s] 54%|█████▎    | 6345/11858 [53:53<45:19,  2.03it/s] 54%|█████▎    | 6346/11858 [53:54<45:13,  2.03it/s] 54%|█████▎    | 6347/11858 [53:54<45:08,  2.03it/s] 54%|█████▎    | 6348/11858 [53:55<45:05,  2.04it/s] 54%|█████▎    | 6349/11858 [53:55<45:01,  2.04it/s] 54%|█████▎    | 6350/11858 [53:56<44:58,  2.04it/s]{'loss': 1.7758, 'grad_norm': 0.5099261403083801, 'learning_rate': 0.0005253056167048476, 'epoch': 7.49}
-                                                     54%|█████▎    | 6350/11858 [53:56<44:58,  2.04it/s] 54%|█████▎    | 6351/11858 [53:56<45:02,  2.04it/s] 54%|█████▎    | 6352/11858 [53:57<44:59,  2.04it/s] 54%|█████▎    | 6353/11858 [53:57<45:01,  2.04it/s] 54%|█████▎    | 6354/11858 [53:58<45:00,  2.04it/s] 54%|█████▎    | 6355/11858 [53:58<44:59,  2.04it/s] 54%|█████▎    | 6356/11858 [53:59<44:56,  2.04it/s] 54%|█████▎    | 6357/11858 [53:59<44:55,  2.04it/s] 54%|█████▎    | 6358/11858 [54:00<44:55,  2.04it/s] 54%|█████▎    | 6359/11858 [54:00<44:54,  2.04it/s] 54%|█████▎    | 6360/11858 [54:01<44:54,  2.04it/s] 54%|█████▎    | 6361/11858 [54:01<44:55,  2.04it/s] 54%|█████▎    | 6362/11858 [54:01<44:54,  2.04it/s] 54%|█████▎    | 6363/11858 [54:02<44:53,  2.04it/s] 54%|█████▎    | 6364/11858 [54:02<44:55,  2.04it/s] 54%|█████▎    | 6365/11858 [54:03<44:56,  2.04it/s] 54%|█████▎    | 6366/11858 [54:03<44:54,  2.04it/s] 54%|█████▎    | 6367/11858 [54:04<44:53,  2.04it/s] 54%|█████▎    | 6368/11858 [54:04<44:51,  2.04it/s] 54%|█████▎    | 6369/11858 [54:05<44:51,  2.04it/s] 54%|█████▎    | 6370/11858 [54:05<44:51,  2.04it/s] 54%|█████▎    | 6371/11858 [54:06<44:49,  2.04it/s] 54%|█████▎    | 6372/11858 [54:06<44:47,  2.04it/s] 54%|█████▎    | 6373/11858 [54:07<44:45,  2.04it/s] 54%|█████▍    | 6374/11858 [54:07<44:49,  2.04it/s] 54%|█████▍    | 6375/11858 [54:08<44:47,  2.04it/s]{'loss': 1.79, 'grad_norm': 0.39017438888549805, 'learning_rate': 0.0005216299663665521, 'epoch': 7.52}
-                                                     54%|█████▍    | 6375/11858 [54:08<44:47,  2.04it/s] 54%|█████▍    | 6376/11858 [54:08<44:49,  2.04it/s] 54%|█████▍    | 6377/11858 [54:09<44:51,  2.04it/s] 54%|█████▍    | 6378/11858 [54:09<44:49,  2.04it/s] 54%|█████▍    | 6379/11858 [54:10<44:49,  2.04it/s] 54%|█████▍    | 6380/11858 [54:10<44:47,  2.04it/s] 54%|█████▍    | 6381/11858 [54:11<44:45,  2.04it/s] 54%|█████▍    | 6382/11858 [54:11<44:44,  2.04it/s] 54%|█████▍    | 6383/11858 [54:12<44:43,  2.04it/s] 54%|█████▍    | 6384/11858 [54:12<44:42,  2.04it/s] 54%|█████▍    | 6385/11858 [54:13<44:41,  2.04it/s] 54%|█████▍    | 6386/11858 [54:13<44:40,  2.04it/s] 54%|█████▍    | 6387/11858 [54:14<44:41,  2.04it/s] 54%|█████▍    | 6388/11858 [54:14<44:41,  2.04it/s] 54%|█████▍    | 6389/11858 [54:15<44:40,  2.04it/s] 54%|█████▍    | 6390/11858 [54:15<44:38,  2.04it/s] 54%|█████▍    | 6391/11858 [54:16<44:37,  2.04it/s] 54%|█████▍    | 6392/11858 [54:16<44:39,  2.04it/s] 54%|█████▍    | 6393/11858 [54:17<44:36,  2.04it/s] 54%|█████▍    | 6394/11858 [54:17<44:35,  2.04it/s] 54%|█████▍    | 6395/11858 [54:18<44:37,  2.04it/s] 54%|█████▍    | 6396/11858 [54:18<44:38,  2.04it/s] 54%|█████▍    | 6397/11858 [54:19<44:34,  2.04it/s] 54%|█████▍    | 6398/11858 [54:19<48:28,  1.88it/s] 54%|█████▍    | 6399/11858 [54:20<47:20,  1.92it/s] 54%|█████▍    | 6400/11858 [54:20<46:31,  1.96it/s]{'loss': 1.8034, 'grad_norm': 0.33113086223602295, 'learning_rate': 0.0005179531445290103, 'epoch': 7.55}
-                                                     54%|█████▍    | 6400/11858 [54:20<46:31,  1.96it/s] 54%|█████▍    | 6401/11858 [54:21<46:00,  1.98it/s] 54%|█████▍    | 6402/11858 [54:21<45:37,  1.99it/s] 54%|█████▍    | 6403/11858 [54:22<45:16,  2.01it/s] 54%|█████▍    | 6404/11858 [54:22<45:01,  2.02it/s] 54%|█████▍    | 6405/11858 [54:23<44:53,  2.02it/s] 54%|█████▍    | 6406/11858 [54:23<44:49,  2.03it/s] 54%|█████▍    | 6407/11858 [54:24<44:43,  2.03it/s] 54%|█████▍    | 6408/11858 [54:24<44:39,  2.03it/s] 54%|█████▍    | 6409/11858 [54:25<44:36,  2.04it/s] 54%|█████▍    | 6410/11858 [54:25<44:34,  2.04it/s] 54%|█████▍    | 6411/11858 [54:26<44:30,  2.04it/s] 54%|█████▍    | 6412/11858 [54:26<44:31,  2.04it/s] 54%|█████▍    | 6413/11858 [54:27<44:30,  2.04it/s] 54%|█████▍    | 6414/11858 [54:27<44:31,  2.04it/s] 54%|█████▍    | 6415/11858 [54:28<44:31,  2.04it/s] 54%|█████▍    | 6416/11858 [54:28<44:30,  2.04it/s] 54%|█████▍    | 6417/11858 [54:29<44:30,  2.04it/s] 54%|█████▍    | 6418/11858 [54:29<44:31,  2.04it/s] 54%|█████▍    | 6419/11858 [54:30<44:26,  2.04it/s] 54%|█████▍    | 6420/11858 [54:30<44:25,  2.04it/s] 54%|█████▍    | 6421/11858 [54:31<44:26,  2.04it/s] 54%|█████▍    | 6422/11858 [54:31<44:25,  2.04it/s] 54%|█████▍    | 6423/11858 [54:32<44:22,  2.04it/s] 54%|█████▍    | 6424/11858 [54:32<44:23,  2.04it/s] 54%|█████▍    | 6425/11858 [54:33<44:23,  2.04it/s]{'loss': 1.8039, 'grad_norm': 0.3702821731567383, 'learning_rate': 0.0005142753503323381, 'epoch': 7.58}
-                                                     54%|█████▍    | 6425/11858 [54:33<44:23,  2.04it/s] 54%|█████▍    | 6426/11858 [54:33<44:23,  2.04it/s] 54%|█████▍    | 6427/11858 [54:34<44:23,  2.04it/s] 54%|█████▍    | 6428/11858 [54:34<44:24,  2.04it/s] 54%|█████▍    | 6429/11858 [54:34<44:26,  2.04it/s] 54%|█████▍    | 6430/11858 [54:35<44:25,  2.04it/s] 54%|█████▍    | 6431/11858 [54:35<44:26,  2.04it/s] 54%|█████▍    | 6432/11858 [54:36<44:23,  2.04it/s] 54%|█████▍    | 6433/11858 [54:36<44:19,  2.04it/s] 54%|█████▍    | 6434/11858 [54:37<44:19,  2.04it/s] 54%|█████▍    | 6435/11858 [54:37<44:18,  2.04it/s] 54%|█████▍    | 6436/11858 [54:38<44:15,  2.04it/s] 54%|█████▍    | 6437/11858 [54:38<44:13,  2.04it/s] 54%|█████▍    | 6438/11858 [54:39<44:15,  2.04it/s] 54%|█████▍    | 6439/11858 [54:39<44:17,  2.04it/s] 54%|█████▍    | 6440/11858 [54:40<44:14,  2.04it/s] 54%|█████▍    | 6441/11858 [54:40<44:14,  2.04it/s] 54%|█████▍    | 6442/11858 [54:41<44:15,  2.04it/s] 54%|█████▍    | 6443/11858 [54:41<44:15,  2.04it/s] 54%|█████▍    | 6444/11858 [54:42<44:15,  2.04it/s] 54%|█████▍    | 6445/11858 [54:42<44:17,  2.04it/s] 54%|█████▍    | 6446/11858 [54:43<44:17,  2.04it/s] 54%|█████▍    | 6447/11858 [54:43<44:15,  2.04it/s] 54%|█████▍    | 6448/11858 [54:44<44:15,  2.04it/s] 54%|█████▍    | 6449/11858 [54:44<44:15,  2.04it/s] 54%|█████▍    | 6450/11858 [54:45<44:13,  2.04it/s]                                                    {'loss': 1.7709, 'grad_norm': 0.30663934350013733, 'learning_rate': 0.0005105967829693155, 'epoch': 7.61}
- 54%|█████▍    | 6450/11858 [54:45<44:13,  2.04it/s] 54%|█████▍    | 6451/11858 [54:45<44:19,  2.03it/s] 54%|█████▍    | 6452/11858 [54:46<44:20,  2.03it/s] 54%|█████▍    | 6453/11858 [54:46<44:17,  2.03it/s] 54%|█████▍    | 6454/11858 [54:47<44:18,  2.03it/s] 54%|█████▍    | 6455/11858 [54:47<44:16,  2.03it/s] 54%|█████▍    | 6456/11858 [54:48<44:13,  2.04it/s] 54%|█████▍    | 6457/11858 [54:48<44:09,  2.04it/s] 54%|█████▍    | 6458/11858 [54:49<44:10,  2.04it/s] 54%|█████▍    | 6459/11858 [54:49<44:11,  2.04it/s] 54%|█████▍    | 6460/11858 [54:50<44:09,  2.04it/s] 54%|█████▍    | 6461/11858 [54:50<44:08,  2.04it/s] 54%|█████▍    | 6462/11858 [54:51<44:09,  2.04it/s] 55%|█████▍    | 6463/11858 [54:51<44:08,  2.04it/s] 55%|█████▍    | 6464/11858 [54:52<44:07,  2.04it/s] 55%|█████▍    | 6465/11858 [54:52<44:07,  2.04it/s] 55%|█████▍    | 6466/11858 [54:53<44:07,  2.04it/s] 55%|█████▍    | 6467/11858 [54:53<44:05,  2.04it/s] 55%|█████▍    | 6468/11858 [54:54<44:06,  2.04it/s] 55%|█████▍    | 6469/11858 [54:54<44:05,  2.04it/s] 55%|█████▍    | 6470/11858 [54:55<44:03,  2.04it/s] 55%|█████▍    | 6471/11858 [54:55<44:01,  2.04it/s] 55%|█████▍    | 6472/11858 [54:56<44:04,  2.04it/s] 55%|█████▍    | 6473/11858 [54:56<44:02,  2.04it/s] 55%|█████▍    | 6474/11858 [54:57<44:00,  2.04it/s] 55%|█████▍    | 6475/11858 [54:57<43:59,  2.04it/s]{'loss': 1.789, 'grad_norm': 0.3045870363712311, 'learning_rate': 0.0005069176416745976, 'epoch': 7.64}
-                                                     55%|█████▍    | 6475/11858 [54:57<43:59,  2.04it/s] 55%|█████▍    | 6476/11858 [54:58<44:01,  2.04it/s] 55%|█████▍    | 6477/11858 [54:58<43:59,  2.04it/s] 55%|█████▍    | 6478/11858 [54:59<43:58,  2.04it/s] 55%|█████▍    | 6479/11858 [54:59<43:57,  2.04it/s] 55%|█████▍    | 6480/11858 [55:00<43:56,  2.04it/s] 55%|█████▍    | 6481/11858 [55:00<43:54,  2.04it/s] 55%|█████▍    | 6482/11858 [55:00<43:55,  2.04it/s] 55%|█████▍    | 6483/11858 [55:01<43:53,  2.04it/s] 55%|█████▍    | 6484/11858 [55:01<43:53,  2.04it/s] 55%|█████▍    | 6485/11858 [55:02<43:51,  2.04it/s] 55%|█████▍    | 6486/11858 [55:02<43:51,  2.04it/s] 55%|█████▍    | 6487/11858 [55:03<43:52,  2.04it/s] 55%|█████▍    | 6488/11858 [55:03<43:52,  2.04it/s] 55%|█████▍    | 6489/11858 [55:04<43:51,  2.04it/s] 55%|█████▍    | 6490/11858 [55:04<43:50,  2.04it/s] 55%|█████▍    | 6491/11858 [55:05<43:50,  2.04it/s] 55%|█████▍    | 6492/11858 [55:05<43:48,  2.04it/s] 55%|█████▍    | 6493/11858 [55:06<43:47,  2.04it/s] 55%|█████▍    | 6494/11858 [55:06<43:47,  2.04it/s] 55%|█████▍    | 6495/11858 [55:07<43:47,  2.04it/s] 55%|█████▍    | 6496/11858 [55:07<43:46,  2.04it/s] 55%|█████▍    | 6497/11858 [55:08<43:46,  2.04it/s] 55%|█████▍    | 6498/11858 [55:08<43:50,  2.04it/s] 55%|█████▍    | 6499/11858 [55:09<43:49,  2.04it/s] 55%|█████▍    | 6500/11858 [55:09<43:47,  2.04it/s]{'loss': 1.7964, 'grad_norm': 0.3439462184906006, 'learning_rate': 0.0005032381257139247, 'epoch': 7.67}
-                                                     55%|█████▍    | 6500/11858 [55:09<43:47,  2.04it/s] 55%|█████▍    | 6501/11858 [55:10<43:50,  2.04it/s] 55%|█████▍    | 6502/11858 [55:10<43:46,  2.04it/s] 55%|█████▍    | 6503/11858 [55:11<43:44,  2.04it/s] 55%|█████▍    | 6504/11858 [55:11<43:45,  2.04it/s] 55%|█████▍    | 6505/11858 [55:12<43:50,  2.04it/s] 55%|█████▍    | 6506/11858 [55:12<43:48,  2.04it/s] 55%|█████▍    | 6507/11858 [55:13<43:44,  2.04it/s] 55%|█████▍    | 6508/11858 [55:13<43:45,  2.04it/s] 55%|█████▍    | 6509/11858 [55:14<43:42,  2.04it/s] 55%|█████▍    | 6510/11858 [55:14<43:40,  2.04it/s] 55%|█████▍    | 6511/11858 [55:15<43:38,  2.04it/s] 55%|█████▍    | 6512/11858 [55:15<43:40,  2.04it/s] 55%|█████▍    | 6513/11858 [55:16<43:38,  2.04it/s] 55%|█████▍    | 6514/11858 [55:16<43:35,  2.04it/s] 55%|█████▍    | 6515/11858 [55:17<43:34,  2.04it/s] 55%|█████▍    | 6516/11858 [55:17<43:35,  2.04it/s] 55%|█████▍    | 6517/11858 [55:18<43:35,  2.04it/s] 55%|█████▍    | 6518/11858 [55:18<43:30,  2.05it/s] 55%|█████▍    | 6519/11858 [55:19<43:30,  2.05it/s] 55%|█████▍    | 6520/11858 [55:19<43:32,  2.04it/s] 55%|█████▍    | 6521/11858 [55:20<43:33,  2.04it/s] 55%|█████▌    | 6522/11858 [55:20<43:31,  2.04it/s] 55%|█████▌    | 6523/11858 [55:21<43:27,  2.05it/s] 55%|█████▌    | 6524/11858 [55:21<43:29,  2.04it/s] 55%|█████▌    | 6525/11858 [55:22<43:29,  2.04it/s]                                                    {'loss': 1.7912, 'grad_norm': 0.4299987852573395, 'learning_rate': 0.0004995584343733287, 'epoch': 7.7}
- 55%|█████▌    | 6525/11858 [55:22<43:29,  2.04it/s] 55%|█████▌    | 6526/11858 [55:22<43:31,  2.04it/s] 55%|█████▌    | 6527/11858 [55:23<43:29,  2.04it/s] 55%|█████▌    | 6528/11858 [55:23<43:29,  2.04it/s] 55%|█████▌    | 6529/11858 [55:24<43:29,  2.04it/s] 55%|█████▌    | 6530/11858 [55:24<43:28,  2.04it/s] 55%|█████▌    | 6531/11858 [55:25<43:26,  2.04it/s] 55%|█████▌    | 6532/11858 [55:25<43:23,  2.05it/s] 55%|█████▌    | 6533/11858 [55:25<43:25,  2.04it/s] 55%|█████▌    | 6534/11858 [55:26<43:26,  2.04it/s] 55%|█████▌    | 6535/11858 [55:26<43:26,  2.04it/s] 55%|█████▌    | 6536/11858 [55:27<43:25,  2.04it/s] 55%|█████▌    | 6537/11858 [55:27<43:27,  2.04it/s] 55%|█████▌    | 6538/11858 [55:28<43:27,  2.04it/s] 55%|█████▌    | 6539/11858 [55:28<43:25,  2.04it/s] 55%|█████▌    | 6540/11858 [55:29<43:23,  2.04it/s] 55%|█████▌    | 6541/11858 [55:29<43:23,  2.04it/s] 55%|█████▌    | 6542/11858 [55:30<43:22,  2.04it/s] 55%|█████▌    | 6543/11858 [55:30<43:22,  2.04it/s] 55%|█████▌    | 6544/11858 [55:31<43:21,  2.04it/s] 55%|███���█▌    | 6545/11858 [55:31<43:21,  2.04it/s] 55%|█████▌    | 6546/11858 [55:32<43:20,  2.04it/s] 55%|█████▌    | 6547/11858 [55:32<43:21,  2.04it/s] 55%|█████▌    | 6548/11858 [55:33<43:20,  2.04it/s] 55%|█████▌    | 6549/11858 [55:33<43:23,  2.04it/s] 55%|█████▌    | 6550/11858 [55:34<43:22,  2.04it/s]                                                    {'loss': 1.7854, 'grad_norm': 0.30825552344322205, 'learning_rate': 0.0004958787669483408, 'epoch': 7.73}
- 55%|█████▌    | 6550/11858 [55:34<43:22,  2.04it/s] 55%|█████▌    | 6551/11858 [55:34<43:23,  2.04it/s] 55%|█████▌    | 6552/11858 [55:35<43:25,  2.04it/s] 55%|█████▌    | 6553/11858 [55:35<43:23,  2.04it/s] 55%|█████▌    | 6554/11858 [55:36<43:19,  2.04it/s] 55%|█████▌    | 6555/11858 [55:36<43:19,  2.04it/s] 55%|█████▌    | 6556/11858 [55:37<43:17,  2.04it/s] 55%|█████▌    | 6557/11858 [55:37<43:17,  2.04it/s] 55%|█████▌    | 6558/11858 [55:38<43:14,  2.04it/s] 55%|█████▌    | 6559/11858 [55:38<43:12,  2.04it/s] 55%|█████▌    | 6560/11858 [55:39<43:16,  2.04it/s] 55%|█████▌    | 6561/11858 [55:39<43:15,  2.04it/s] 55%|█████▌    | 6562/11858 [55:40<43:12,  2.04it/s] 55%|█████▌    | 6563/11858 [55:40<43:12,  2.04it/s] 55%|█████▌    | 6564/11858 [55:41<43:13,  2.04it/s] 55%|█████▌    | 6565/11858 [55:41<43:12,  2.04it/s] 55%|█████▌    | 6566/11858 [55:42<43:08,  2.04it/s] 55%|█████▌    | 6567/11858 [55:42<43:11,  2.04it/s] 55%|█████▌    | 6568/11858 [55:43<43:12,  2.04it/s] 55%|█████▌    | 6569/11858 [55:43<43:09,  2.04it/s] 55%|█████▌    | 6570/11858 [55:44<43:08,  2.04it/s] 55%|█████▌    | 6571/11858 [55:44<43:09,  2.04it/s] 55%|█████▌    | 6572/11858 [55:45<43:12,  2.04it/s] 55%|█████▌    | 6573/11858 [55:45<43:11,  2.04it/s] 55%|█████▌    | 6574/11858 [55:46<43:12,  2.04it/s] 55%|█████▌    | 6575/11858 [55:46<43:13,  2.04it/s]                                                    {'loss': 1.7955, 'grad_norm': 0.4614860713481903, 'learning_rate': 0.000492199322733197, 'epoch': 7.76}
- 55%|█████▌    | 6575/11858 [55:46<43:13,  2.04it/s] 55%|█████▌    | 6576/11858 [55:47<43:16,  2.03it/s] 55%|█████▌    | 6577/11858 [55:47<43:20,  2.03it/s] 55%|█████▌    | 6578/11858 [55:48<43:17,  2.03it/s] 55%|█████▌    | 6579/11858 [55:48<43:16,  2.03it/s] 55%|█████▌    | 6580/11858 [55:49<43:19,  2.03it/s] 55%|█████▌    | 6581/11858 [55:49<43:17,  2.03it/s] 56%|█████▌    | 6582/11858 [55:50<43:19,  2.03it/s] 56%|█████▌    | 6583/11858 [55:50<43:17,  2.03it/s] 56%|█████▌    | 6584/11858 [55:50<43:14,  2.03it/s] 56%|█████▌    | 6585/11858 [55:51<43:15,  2.03it/s] 56%|█████▌    | 6586/11858 [55:51<43:14,  2.03it/s] 56%|█████▌    | 6587/11858 [55:52<43:12,  2.03it/s] 56%|█████▌    | 6588/11858 [55:52<43:14,  2.03it/s] 56%|█████▌    | 6589/11858 [55:53<43:11,  2.03it/s] 56%|█████▌    | 6590/11858 [55:53<43:11,  2.03it/s] 56%|█████▌    | 6591/11858 [55:54<43:12,  2.03it/s] 56%|█████▌    | 6592/11858 [55:54<43:09,  2.03it/s] 56%|█████▌    | 6593/11858 [55:55<43:08,  2.03it/s] 56%|█████▌    | 6594/11858 [55:55<43:08,  2.03it/s] 56%|█████▌    | 6595/11858 [55:56<43:09,  2.03it/s] 56%|█████▌    | 6596/11858 [55:56<43:08,  2.03it/s] 56%|█████▌    | 6597/11858 [55:57<43:05,  2.03it/s] 56%|█████▌    | 6598/11858 [55:57<43:07,  2.03it/s] 56%|█████▌    | 6599/11858 [55:58<43:05,  2.03it/s] 56%|█████▌    | 6600/11858 [55:58<43:05,  2.03it/s]                                                    {'loss': 1.7897, 'grad_norm': 0.2993099093437195, 'learning_rate': 0.0004885203010100434, 'epoch': 7.79}
- 56%|█████▌    | 6600/11858 [55:58<43:05,  2.03it/s] 56%|█████▌    | 6601/11858 [55:59<43:08,  2.03it/s] 56%|█████▌    | 6602/11858 [55:59<43:08,  2.03it/s] 56%|█████▌    | 6603/11858 [56:00<43:07,  2.03it/s] 56%|█████▌    | 6604/11858 [56:00<43:09,  2.03it/s] 56%|█████▌    | 6605/11858 [56:01<43:09,  2.03it/s] 56%|█████▌    | 6606/11858 [56:01<43:08,  2.03it/s] 56%|█████▌    | 6607/11858 [56:02<43:06,  2.03it/s] 56%|█████▌    | 6608/11858 [56:02<43:07,  2.03it/s] 56%|█████▌    | 6609/11858 [56:03<43:03,  2.03it/s] 56%|█████▌    | 6610/11858 [56:03<43:03,  2.03it/s] 56%|█████▌    | 6611/11858 [56:04<43:02,  2.03it/s] 56%|█████▌    | 6612/11858 [56:04<43:01,  2.03it/s] 56%|█████▌    | 6613/11858 [56:05<43:00,  2.03it/s] 56%|█████▌    | 6614/11858 [56:05<42:59,  2.03it/s] 56%|█████▌    | 6615/11858 [56:06<43:01,  2.03it/s] 56%|█████▌    | 6616/11858 [56:06<43:01,  2.03it/s] 56%|█████▌    | 6617/11858 [56:07<42:58,  2.03it/s] 56%|█████▌    | 6618/11858 [56:07<42:58,  2.03it/s] 56%|█████▌    | 6619/11858 [56:08<42:57,  2.03it/s] 56%|█████▌    | 6620/11858 [56:08<42:53,  2.04it/s] 56%|█████▌    | 6621/11858 [56:09<42:53,  2.03it/s] 56%|█████▌    | 6622/11858 [56:09<42:54,  2.03it/s] 56%|█████▌    | 6623/11858 [56:10<42:53,  2.03it/s] 56%|█████▌    | 6624/11858 [56:10<42:54,  2.03it/s] 56%|█████▌    | 6625/11858 [56:11<42:50,  2.04it/s]                                                    {'loss': 1.7862, 'grad_norm': 0.29084110260009766, 'learning_rate': 0.00048484190103814374, 'epoch': 7.82}
- 56%|█████▌    | 6625/11858 [56:11<42:50,  2.04it/s] 56%|█████▌    | 6626/11858 [56:11<42:55,  2.03it/s] 56%|█████▌    | 6627/11858 [56:12<42:54,  2.03it/s] 56%|█████▌    | 6628/11858 [56:12<42:50,  2.03it/s] 56%|█████▌    | 6629/11858 [56:13<42:52,  2.03it/s] 56%|█████▌    | 6630/11858 [56:13<42:50,  2.03it/s] 56%|█████▌    | 6631/11858 [56:14<42:47,  2.04it/s] 56%|█████▌    | 6632/11858 [56:14<42:47,  2.04it/s] 56%|█████▌    | 6633/11858 [56:15<42:48,  2.03it/s] 56%|█████▌    | 6634/11858 [56:15<42:46,  2.04it/s] 56%|█████▌    | 6635/11858 [56:16<42:48,  2.03it/s] 56%|█████▌    | 6636/11858 [56:16<42:48,  2.03it/s] 56%|█████▌    | 6637/11858 [56:17<42:44,  2.04it/s] 56%|█████▌    | 6638/11858 [56:17<42:45,  2.03it/s] 56%|█████▌    | 6639/11858 [56:18<42:45,  2.03it/s] 56%|█████▌    | 6640/11858 [56:18<42:44,  2.03it/s] 56%|█████▌    | 6641/11858 [56:19<42:45,  2.03it/s] 56%|█████▌    | 6642/11858 [56:19<42:44,  2.03it/s] 56%|█████▌    | 6643/11858 [56:20<42:41,  2.04it/s] 56%|█████▌    | 6644/11858 [56:20<42:42,  2.03it/s] 56%|█████▌    | 6645/11858 [56:20<42:41,  2.04it/s] 56%|█████▌    | 6646/11858 [56:21<42:40,  2.04it/s] 56%|█████▌    | 6647/11858 [56:21<42:42,  2.03it/s] 56%|█████▌    | 6648/11858 [56:22<42:40,  2.03it/s] 56%|█████▌    | 6649/11858 [56:22<42:41,  2.03it/s] 56%|█████▌    | 6650/11858 [56:23<42:41,  2.03it/s]                                                    {'loss': 1.7938, 'grad_norm': 0.2885786294937134, 'learning_rate': 0.00048116432204308763, 'epoch': 7.85}
- 56%|█████▌    | 6650/11858 [56:23<42:41,  2.03it/s] 56%|█████▌    | 6651/11858 [56:23<42:41,  2.03it/s] 56%|█████▌    | 6652/11858 [56:24<42:42,  2.03it/s] 56%|█████▌    | 6653/11858 [56:24<42:41,  2.03it/s] 56%|█████▌    | 6654/11858 [56:25<42:38,  2.03it/s] 56%|█████▌    | 6655/11858 [56:25<42:40,  2.03it/s] 56%|█████▌    | 6656/11858 [56:26<42:38,  2.03it/s] 56%|█████▌    | 6657/11858 [56:26<42:34,  2.04it/s] 56%|█████▌    | 6658/11858 [56:27<42:37,  2.03it/s] 56%|█████▌    | 6659/11858 [56:27<42:38,  2.03it/s] 56%|█████▌    | 6660/11858 [56:28<42:35,  2.03it/s] 56%|█████▌    | 6661/11858 [56:28<42:38,  2.03it/s] 56%|█████▌    | 6662/11858 [56:29<42:34,  2.03it/s] 56%|█████▌    | 6663/11858 [56:29<42:32,  2.04it/s] 56%|█████▌    | 6664/11858 [56:30<42:34,  2.03it/s] 56%|█████▌    | 6665/11858 [56:30<42:31,  2.04it/s] 56%|█████▌    | 6666/11858 [56:31<42:29,  2.04it/s] 56%|█████▌    | 6667/11858 [56:31<42:31,  2.03it/s] 56%|█████▌    | 6668/11858 [56:32<42:30,  2.03it/s] 56%|█████▌    | 6669/11858 [56:32<42:28,  2.04it/s] 56%|█████▌    | 6670/11858 [56:33<42:31,  2.03it/s] 56%|█████▋    | 6671/11858 [56:33<42:32,  2.03it/s] 56%|█████▋    | 6672/11858 [56:34<42:30,  2.03it/s] 56%|█████▋    | 6673/11858 [56:34<42:33,  2.03it/s] 56%|█████▋    | 6674/11858 [56:35<42:30,  2.03it/s] 56%|█████▋    | 6675/11858 [56:35<42:30,  2.03it/s]                                                    {'loss': 1.7835, 'grad_norm': 0.3981145918369293, 'learning_rate': 0.00047748776320599923, 'epoch': 7.88}
- 56%|█████▋    | 6675/11858 [56:35<42:30,  2.03it/s] 56%|█████▋    | 6676/11858 [56:36<42:35,  2.03it/s] 56%|█████▋    | 6677/11858 [56:36<42:30,  2.03it/s] 56%|█████▋    | 6678/11858 [56:37<42:30,  2.03it/s] 56%|█████▋    | 6679/11858 [56:37<42:27,  2.03it/s] 56%|█████▋    | 6680/11858 [56:38<42:28,  2.03it/s] 56%|█████▋    | 6681/11858 [56:38<42:27,  2.03it/s] 56%|█████▋    | 6682/11858 [56:39<42:26,  2.03it/s] 56%|█████▋    | 6683/11858 [56:39<42:25,  2.03it/s] 56%|█████▋    | 6684/11858 [56:40<42:26,  2.03it/s] 56%|█████▋    | 6685/11858 [56:40<42:26,  2.03it/s] 56%|█████▋    | 6686/11858 [56:41<42:24,  2.03it/s] 56%|█████▋    | 6687/11858 [56:41<42:26,  2.03it/s] 56%|█████▋    | 6688/11858 [56:42<42:24,  2.03it/s] 56%|█████▋    | 6689/11858 [56:42<42:22,  2.03it/s] 56%|█████▋    | 6690/11858 [56:43<42:22,  2.03it/s] 56%|█████▋    | 6691/11858 [56:43<42:23,  2.03it/s] 56%|█████▋    | 6692/11858 [56:44<42:22,  2.03it/s] 56%|█████▋    | 6693/11858 [56:44<42:20,  2.03it/s] 56%|█████▋    | 6694/11858 [56:45<42:21,  2.03it/s] 56%|█████▋    | 6695/11858 [56:45<42:17,  2.03it/s] 56%|█████▋    | 6696/11858 [56:46<42:18,  2.03it/s] 56%|█████▋    | 6697/11858 [56:46<42:19,  2.03it/s] 56%|█████▋    | 6698/11858 [56:47<42:20,  2.03it/s] 56%|█████▋    | 6699/11858 [56:47<42:20,  2.03it/s] 57%|█████▋    | 6700/11858 [56:48<42:17,  2.03it/s]                                                    {'loss': 1.7756, 'grad_norm': 0.4433717429637909, 'learning_rate': 0.0004738124236527503, 'epoch': 7.91}
- 57%|█████▋    | 6700/11858 [56:48<42:17,  2.03it/s] 57%|█████▋    | 6701/11858 [56:48<42:19,  2.03it/s] 57%|█████▋    | 6702/11858 [56:49<42:18,  2.03it/s] 57%|█████▋    | 6703/11858 [56:49<42:15,  2.03it/s] 57%|█████▋    | 6704/11858 [56:50<42:16,  2.03it/s] 57%|█████▋    | 6705/11858 [56:50<42:14,  2.03it/s] 57%|█████▋    | 6706/11858 [56:51<42:11,  2.03it/s] 57%|█████▋    | 6707/11858 [56:51<42:14,  2.03it/s] 57%|█████▋    | 6708/11858 [56:51<42:13,  2.03it/s] 57%|█████▋    | 6709/11858 [56:52<42:15,  2.03it/s] 57%|█████▋    | 6710/11858 [56:52<42:15,  2.03it/s] 57%|█████▋    | 6711/11858 [56:53<42:11,  2.03it/s] 57%|█████▋    | 6712/11858 [56:53<42:12,  2.03it/s] 57%|█████▋    | 6713/11858 [56:54<42:12,  2.03it/s] 57%|█████▋    | 6714/11858 [56:54<42:10,  2.03it/s] 57%|█████▋    | 6715/11858 [56:55<42:10,  2.03it/s] 57%|█████▋    | 6716/11858 [56:55<42:11,  2.03it/s] 57%|█████▋    | 6717/11858 [56:56<42:11,  2.03it/s] 57%|█████▋    | 6718/11858 [56:56<42:12,  2.03it/s] 57%|█████▋    | 6719/11858 [56:57<42:12,  2.03it/s] 57%|█████▋    | 6720/11858 [56:57<42:11,  2.03it/s] 57%|█████▋    | 6721/11858 [56:58<42:11,  2.03it/s] 57%|█████▋    | 6722/11858 [56:58<42:12,  2.03it/s] 57%|█████▋    | 6723/11858 [56:59<42:09,  2.03it/s] 57%|█████▋    | 6724/11858 [56:59<42:09,  2.03it/s] 57%|█████▋    | 6725/11858 [57:00<42:09,  2.03it/s]                                                    {'loss': 1.7857, 'grad_norm': 0.4479459226131439, 'learning_rate': 0.000470138502443175, 'epoch': 7.94}
- 57%|█████▋    | 6725/11858 [57:00<42:09,  2.03it/s] 57%|█████▋    | 6726/11858 [57:00<42:10,  2.03it/s] 57%|█████▋    | 6727/11858 [57:01<42:10,  2.03it/s] 57%|█████▋    | 6728/11858 [57:01<42:09,  2.03it/s] 57%|█████▋    | 6729/11858 [57:02<42:06,  2.03it/s] 57%|█████▋    | 6730/11858 [57:02<42:05,  2.03it/s] 57%|█████▋    | 6731/11858 [57:03<42:06,  2.03it/s] 57%|█████▋    | 6732/11858 [57:03<42:02,  2.03it/s] 57%|█████▋    | 6733/11858 [57:04<42:04,  2.03it/s] 57%|█████▋    | 6734/11858 [57:04<42:03,  2.03it/s] 57%|█████▋    | 6735/11858 [57:05<41:59,  2.03it/s] 57%|█████▋    | 6736/11858 [57:05<42:01,  2.03it/s] 57%|█████▋    | 6737/11858 [57:06<42:01,  2.03it/s] 57%|█████▋    | 6738/11858 [57:06<42:00,  2.03it/s] 57%|█████▋    | 6739/11858 [57:07<42:02,  2.03it/s] 57%|█████▋    | 6740/11858 [57:07<41:59,  2.03it/s] 57%|█████▋    | 6741/11858 [57:08<41:59,  2.03it/s] 57%|█████▋    | 6742/11858 [57:08<42:01,  2.03it/s] 57%|█████▋    | 6743/11858 [57:09<42:00,  2.03it/s] 57%|█████▋    | 6744/11858 [57:09<42:00,  2.03it/s] 57%|█████▋    | 6745/11858 [57:10<41:58,  2.03it/s] 57%|█████▋    | 6746/11858 [57:10<41:59,  2.03it/s] 57%|█████▋    | 6747/11858 [57:11<41:58,  2.03it/s] 57%|█████▋    | 6748/11858 [57:11<41:58,  2.03it/s] 57%|█████▋    | 6749/11858 [57:12<41:56,  2.03it/s] 57%|█████▋    | 6750/11858 [57:12<41:54,  2.03it/s]{'loss': 1.7782, 'grad_norm': 0.392129510641098, 'learning_rate': 0.0004664661985602886, 'epoch': 7.96}                                                    
- 57%|█████▋    | 6750/11858 [57:12<41:54,  2.03it/s] 57%|█████▋    | 6751/11858 [57:13<41:59,  2.03it/s] 57%|█████▋    | 6752/11858 [57:13<41:57,  2.03it/s] 57%|█████▋    | 6753/11858 [57:14<41:55,  2.03it/s] 57%|█████▋    | 6754/11858 [57:14<41:53,  2.03it/s] 57%|█████▋    | 6755/11858 [57:15<41:52,  2.03it/s] 57%|█████▋    | 6756/11858 [57:15<41:52,  2.03it/s] 57%|█████▋    | 6757/11858 [57:16<41:53,  2.03it/s] 57%|█████▋    | 6758/11858 [57:16<41:51,  2.03it/s] 57%|█████▋    | 6759/11858 [57:17<41:52,  2.03it/s] 57%|█████▋    | 6760/11858 [57:17<41:49,  2.03it/s] 57%|█████▋    | 6761/11858 [57:18<41:51,  2.03it/s] 57%|█████▋    | 6762/11858 [57:18<41:50,  2.03it/s] 57%|█████▋    | 6763/11858 [57:19<41:49,  2.03it/s] 57%|█████▋    | 6764/11858 [57:19<41:49,  2.03it/s] 57%|█████▋    | 6765/11858 [57:20<41:47,  2.03it/s] 57%|█████▋    | 6766/11858 [57:20<41:48,  2.03it/s] 57%|█████▋    | 6767/11858 [57:21<41:46,  2.03it/s] 57%|█████▋    | 6768/11858 [57:21<41:46,  2.03it/s] 57%|█████▋    | 6769/11858 [57:22<41:46,  2.03it/s] 57%|█████▋    | 6770/11858 [57:22<41:43,  2.03it/s] 57%|█████▋    | 6771/11858 [57:23<41:42,  2.03it/s] 57%|█████▋    | 6772/11858 [57:23<41:43,  2.03it/s] 57%|█████▋    | 6773/11858 [57:24<41:40,  2.03it/s] 57%|█████▋    | 6774/11858 [57:24<41:40,  2.03it/s] 57%|█████▋    | 6775/11858 [57:24<41:39,  2.03it/s]                                                    {'loss': 1.7667, 'grad_norm': 0.38469064235687256, 'learning_rate': 0.00046279571089951054, 'epoch': 7.99}
- 57%|█████▋    | 6775/11858 [57:24<41:39,  2.03it/s] 57%|█████▋    | 6776/11858 [57:25<41:42,  2.03it/s] 57%|█████▋    | 6777/11858 [57:25<41:44,  2.03it/s] 57%|█████▋    | 6778/11858 [57:26<41:43,  2.03it/s] 57%|█████▋    | 6779/11858 [57:26<41:42,  2.03it/s] 57%|█████▋    | 6780/11858 [57:27<41:26,  2.04it/s] 57%|█████▋    | 6781/11858 [57:39<5:34:28,  3.95s/it] 57%|█████▋    | 6782/11858 [57:39<4:06:51,  2.92s/it] 57%|█████▋    | 6783/11858 [57:40<3:05:12,  2.19s/it] 57%|█████▋    | 6784/11858 [57:40<2:22:07,  1.68s/it] 57%|█████▋    | 6785/11858 [57:41<1:51:58,  1.32s/it] 57%|█████▋    | 6786/11858 [57:41<1:30:48,  1.07s/it] 57%|█████▋    | 6787/11858 [57:42<1:16:07,  1.11it/s] 57%|█████▋    | 6788/11858 [57:42<1:05:46,  1.28it/s] 57%|█████▋    | 6789/11858 [57:43<58:36,  1.44it/s]   57%|█████▋    | 6790/11858 [57:43<53:25,  1.58it/s] 57%|█████▋    | 6791/11858 [57:44<49:51,  1.69it/s] 57%|█████▋    | 6792/11858 [57:44<47:21,  1.78it/s] 57%|█████▋    | 6793/11858 [57:45<45:34,  1.85it/s] 57%|█████▋    | 6794/11858 [57:45<44:21,  1.90it/s] 57%|█████▋    | 6795/11858 [57:46<43:29,  1.94it/s] 57%|█████▋    | 6796/11858 [57:46<42:51,  1.97it/s] 57%|█████▋    | 6797/11858 [57:47<42:25,  1.99it/s] 57%|█████▋    | 6798/11858 [57:47<42:08,  2.00it/s] 57%|█████▋    | 6799/11858 [57:48<42:01,  2.01it/s] 57%|█████▋    | 6800/11858 [57:48<41:52,  2.01it/s]{'loss': 1.6845, 'grad_norm': 0.29540523886680603, 'learning_rate': 0.0004591272382578918, 'epoch': 8.02}                                                    
- 57%|█████▋    | 6800/11858 [57:48<41:52,  2.01it/s] 57%|█████▋    | 6801/11858 [57:49<41:51,  2.01it/s] 57%|█████▋    | 6802/11858 [57:49<41:45,  2.02it/s] 57%|█████▋    | 6803/11858 [57:50<41:38,  2.02it/s] 57%|█████▋    | 6804/11858 [57:50<41:47,  2.02it/s] 57%|█████▋    | 6805/11858 [57:51<41:46,  2.02it/s] 57%|█████▋    | 6806/11858 [57:51<41:39,  2.02it/s] 57%|█████▋    | 6807/11858 [57:52<41:33,  2.03it/s] 57%|█████▋    | 6808/11858 [57:52<41:29,  2.03it/s] 57%|█████▋    | 6809/11858 [57:53<41:25,  2.03it/s] 57%|█████▋    | 6810/11858 [57:53<41:24,  2.03it/s] 57%|█████▋    | 6811/11858 [57:54<41:26,  2.03it/s] 57%|█████▋    | 6812/11858 [57:54<41:26,  2.03it/s] 57%|█████▋    | 6813/11858 [57:55<41:24,  2.03it/s] 57%|█████▋    | 6814/11858 [57:55<41:22,  2.03it/s] 57%|█████▋    | 6815/11858 [57:56<41:21,  2.03it/s] 57%|█████▋    | 6816/11858 [57:56<41:23,  2.03it/s] 57%|█████▋    | 6817/11858 [57:57<41:22,  2.03it/s] 57%|█████▋    | 6818/11858 [57:57<41:21,  2.03it/s] 58%|█████▊    | 6819/11858 [57:58<41:20,  2.03it/s] 58%|█████▊    | 6820/11858 [57:58<41:17,  2.03it/s] 58%|█████▊    | 6821/11858 [57:59<41:17,  2.03it/s] 58%|█████▊    | 6822/11858 [57:59<41:18,  2.03it/s] 58%|█████▊    | 6823/11858 [58:00<41:17,  2.03it/s] 58%|█████▊    | 6824/11858 [58:00<41:18,  2.03it/s] 58%|█████▊    | 6825/11858 [58:01<41:12,  2.04it/s]                                                    {'loss': 1.6393, 'grad_norm': 0.293276846408844, 'learning_rate': 0.00045546097932334804, 'epoch': 8.05}
- 58%|█████▊    | 6825/11858 [58:01<41:12,  2.04it/s] 58%|█████▊    | 6826/11858 [58:01<41:14,  2.03it/s] 58%|█████▊    | 6827/11858 [58:02<41:13,  2.03it/s] 58%|█████▊    | 6828/11858 [58:02<41:13,  2.03it/s] 58%|█████▊    | 6829/11858 [58:03<41:14,  2.03it/s] 58%|█████▊    | 6830/11858 [58:03<41:13,  2.03it/s] 58%|█████▊    | 6831/11858 [58:04<41:10,  2.03it/s] 58%|█████▊    | 6832/11858 [58:04<41:11,  2.03it/s] 58%|█████▊    | 6833/11858 [58:05<41:11,  2.03it/s] 58%|█████▊    | 6834/11858 [58:05<41:11,  2.03it/s] 58%|█████▊    | 6835/11858 [58:06<41:11,  2.03it/s] 58%|█████▊    | 6836/11858 [58:06<41:11,  2.03it/s] 58%|█████▊    | 6837/11858 [58:07<41:08,  2.03it/s] 58%|█████▊    | 6838/11858 [58:07<41:10,  2.03it/s] 58%|█████▊    | 6839/11858 [58:08<41:11,  2.03it/s] 58%|█████▊    | 6840/11858 [58:08<41:09,  2.03it/s] 58%|█████▊    | 6841/11858 [58:09<41:08,  2.03it/s] 58%|█████▊    | 6842/11858 [58:09<41:09,  2.03it/s] 58%|█████▊    | 6843/11858 [58:10<41:08,  2.03it/s] 58%|█████▊    | 6844/11858 [58:10<41:07,  2.03it/s] 58%|█████▊    | 6845/11858 [58:11<41:07,  2.03it/s] 58%|█████▊    | 6846/11858 [58:11<41:06,  2.03it/s] 58%|█████▊    | 6847/11858 [58:11<41:06,  2.03it/s] 58%|█████▊    | 6848/11858 [58:12<41:07,  2.03it/s] 58%|█████▊    | 6849/11858 [58:12<41:05,  2.03it/s] 58%|█████▊    | 6850/11858 [58:13<41:01,  2.03it/s]                                                    {'loss': 1.6657, 'grad_norm': 0.29107314348220825, 'learning_rate': 0.0004517971326638986, 'epoch': 8.08}
- 58%|█████▊    | 6850/11858 [58:13<41:01,  2.03it/s] 58%|█████▊    | 6851/11858 [58:13<41:05,  2.03it/s] 58%|█████▊    | 6852/11858 [58:14<41:02,  2.03it/s] 58%|█████▊    | 6853/11858 [58:14<41:02,  2.03it/s] 58%|█████▊    | 6854/11858 [58:15<41:03,  2.03it/s] 58%|█████▊    | 6855/11858 [58:15<41:02,  2.03it/s] 58%|█████▊    | 6856/11858 [58:16<41:02,  2.03it/s] 58%|█████▊    | 6857/11858 [58:16<41:01,  2.03it/s] 58%|█████▊    | 6858/11858 [58:17<40:59,  2.03it/s] 58%|█████▊    | 6859/11858 [58:17<41:00,  2.03it/s] 58%|█████▊    | 6860/11858 [58:18<40:59,  2.03it/s] 58%|█████▊    | 6861/11858 [58:18<41:00,  2.03it/s] 58%|█████▊    | 6862/11858 [58:19<40:58,  2.03it/s] 58%|█████▊    | 6863/11858 [58:19<40:58,  2.03it/s] 58%|█████▊    | 6864/11858 [58:20<40:58,  2.03it/s] 58%|█████▊    | 6865/11858 [58:20<40:57,  2.03it/s] 58%|█████▊    | 6866/11858 [58:21<40:54,  2.03it/s] 58%|█████▊    | 6867/11858 [58:21<40:55,  2.03it/s] 58%|█████▊    | 6868/11858 [58:22<40:53,  2.03it/s] 58%|█████▊    | 6869/11858 [58:22<40:52,  2.03it/s] 58%|█████▊    | 6870/11858 [58:23<40:53,  2.03it/s] 58%|█████▊    | 6871/11858 [58:23<40:53,  2.03it/s] 58%|█████▊    | 6872/11858 [58:24<40:54,  2.03it/s] 58%|█████▊    | 6873/11858 [58:24<40:54,  2.03it/s] 58%|█████▊    | 6874/11858 [58:25<40:54,  2.03it/s] 58%|█████▊    | 6875/11858 [58:25<40:53,  2.03it/s]                                                    {'loss': 1.6692, 'grad_norm': 0.3474646508693695, 'learning_rate': 0.0004481358967169119, 'epoch': 8.11}
- 58%|█████▊    | 6875/11858 [58:25<40:53,  2.03it/s] 58%|█████▊    | 6876/11858 [58:26<40:53,  2.03it/s] 58%|█████▊    | 6877/11858 [58:26<40:53,  2.03it/s] 58%|█████▊    | 6878/11858 [58:27<40:54,  2.03it/s] 58%|█████▊    | 6879/11858 [58:27<40:52,  2.03it/s] 58%|█████▊    | 6880/11858 [58:28<40:52,  2.03it/s] 58%|█████▊    | 6881/11858 [58:28<40:49,  2.03it/s] 58%|█████▊    | 6882/11858 [58:29<40:48,  2.03it/s] 58%|█████▊    | 6883/11858 [58:29<40:49,  2.03it/s] 58%|█████▊    | 6884/11858 [58:30<40:49,  2.03it/s] 58%|█████▊    | 6885/11858 [58:30<40:48,  2.03it/s] 58%|█████▊    | 6886/11858 [58:31<40:47,  2.03it/s] 58%|█████▊    | 6887/11858 [58:31<40:46,  2.03it/s] 58%|█████▊    | 6888/11858 [58:32<40:46,  2.03it/s] 58%|█████▊    | 6889/11858 [58:32<40:46,  2.03it/s] 58%|███��█▊    | 6890/11858 [58:33<40:44,  2.03it/s] 58%|█████▊    | 6891/11858 [58:33<40:43,  2.03it/s] 58%|█████▊    | 6892/11858 [58:34<40:45,  2.03it/s] 58%|█████▊    | 6893/11858 [58:34<40:43,  2.03it/s] 58%|█████▊    | 6894/11858 [58:35<40:43,  2.03it/s] 58%|█████▊    | 6895/11858 [58:35<40:43,  2.03it/s] 58%|█████▊    | 6896/11858 [58:36<40:43,  2.03it/s] 58%|█████▊    | 6897/11858 [58:36<40:43,  2.03it/s] 58%|█████▊    | 6898/11858 [58:37<40:41,  2.03it/s] 58%|█████▊    | 6899/11858 [58:37<40:41,  2.03it/s] 58%|█████▊    | 6900/11858 [58:38<40:40,  2.03it/s]                                                    {'loss': 1.6803, 'grad_norm': 0.3952629566192627, 'learning_rate': 0.00044447746977835725, 'epoch': 8.14}
- 58%|█████▊    | 6900/11858 [58:38<40:40,  2.03it/s] 58%|█████▊    | 6901/11858 [58:38<40:45,  2.03it/s] 58%|█████▊    | 6902/11858 [58:39<40:42,  2.03it/s] 58%|█████▊    | 6903/11858 [58:39<40:39,  2.03it/s] 58%|█████▊    | 6904/11858 [58:40<40:40,  2.03it/s] 58%|█████▊    | 6905/11858 [58:40<40:37,  2.03it/s] 58%|█████▊    | 6906/11858 [58:41<40:36,  2.03it/s] 58%|█████▊    | 6907/11858 [58:41<40:37,  2.03it/s] 58%|█████▊    | 6908/11858 [58:42<40:35,  2.03it/s] 58%|█████▊    | 6909/11858 [58:42<40:35,  2.03it/s] 58%|█████▊    | 6910/11858 [58:42<40:36,  2.03it/s] 58%|█████▊    | 6911/11858 [58:43<40:32,  2.03it/s] 58%|█████▊    | 6912/11858 [58:43<40:35,  2.03it/s] 58%|█████▊    | 6913/11858 [58:44<40:34,  2.03it/s] 58%|█████▊    | 6914/11858 [58:44<40:31,  2.03it/s] 58%|█████▊    | 6915/11858 [58:45<40:31,  2.03it/s] 58%|█████▊    | 6916/11858 [58:45<40:31,  2.03it/s] 58%|█████▊    | 6917/11858 [58:46<40:29,  2.03it/s] 58%|█████▊    | 6918/11858 [58:46<40:32,  2.03it/s] 58%|█████▊    | 6919/11858 [58:47<40:30,  2.03it/s] 58%|█████▊    | 6920/11858 [58:47<40:27,  2.03it/s] 58%|█████▊    | 6921/11858 [58:48<40:29,  2.03it/s] 58%|█████▊    | 6922/11858 [58:48<40:26,  2.03it/s] 58%|█████▊    | 6923/11858 [58:49<40:25,  2.04it/s] 58%|█████▊    | 6924/11858 [58:49<40:27,  2.03it/s] 58%|█████▊    | 6925/11858 [58:50<40:25,  2.03it/s]                                                    {'loss': 1.6876, 'grad_norm': 0.311064749956131, 'learning_rate': 0.000440822049992066, 'epoch': 8.17}
- 58%|█████▊    | 6925/11858 [58:50<40:25,  2.03it/s] 58%|█████▊    | 6926/11858 [58:50<40:31,  2.03it/s] 58%|█████▊    | 6927/11858 [58:51<40:30,  2.03it/s] 58%|█████▊    | 6928/11858 [58:51<40:25,  2.03it/s] 58%|█████▊    | 6929/11858 [58:52<40:26,  2.03it/s] 58%|█████▊    | 6930/11858 [58:52<40:25,  2.03it/s] 58%|█████▊    | 6931/11858 [58:53<40:22,  2.03it/s] 58%|█████▊    | 6932/11858 [58:53<40:23,  2.03it/s] 58%|█████▊    | 6933/11858 [58:54<40:22,  2.03it/s] 58%|█████▊    | 6934/11858 [58:54<40:20,  2.03it/s] 58%|█████▊    | 6935/11858 [58:55<40:21,  2.03it/s] 58%|█████▊    | 6936/11858 [58:55<40:22,  2.03it/s] 59%|█████▊    | 6937/11858 [58:56<40:24,  2.03it/s] 59%|█████▊    | 6938/11858 [58:56<40:24,  2.03it/s] 59%|█████▊    | 6939/11858 [58:57<40:22,  2.03it/s] 59%|█████▊    | 6940/11858 [58:57<40:21,  2.03it/s] 59%|█████▊    | 6941/11858 [58:58<40:20,  2.03it/s] 59%|█████▊    | 6942/11858 [58:58<40:20,  2.03it/s] 59%|█████▊    | 6943/11858 [58:59<40:18,  2.03it/s] 59%|█████▊    | 6944/11858 [58:59<40:18,  2.03it/s] 59%|█████▊    | 6945/11858 [59:00<40:17,  2.03it/s] 59%|█████▊    | 6946/11858 [59:00<40:19,  2.03it/s] 59%|█████▊    | 6947/11858 [59:01<40:19,  2.03it/s] 59%|█████▊    | 6948/11858 [59:01<40:17,  2.03it/s] 59%|█████▊    | 6949/11858 [59:02<40:16,  2.03it/s] 59%|█████▊    | 6950/11858 [59:02<40:15,  2.03it/s]                                                    {'loss': 1.6786, 'grad_norm': 0.3502531051635742, 'learning_rate': 0.00043716983533899893, 'epoch': 8.2}
- 59%|█████▊    | 6950/11858 [59:02<40:15,  2.03it/s] 59%|█████▊    | 6951/11858 [59:03<40:12,  2.03it/s] 59%|█████▊    | 6952/11858 [59:03<40:13,  2.03it/s] 59%|█████▊    | 6953/11858 [59:04<40:12,  2.03it/s] 59%|█████▊    | 6954/11858 [59:04<40:10,  2.03it/s] 59%|█████▊    | 6955/11858 [59:05<40:12,  2.03it/s] 59%|█████▊    | 6956/11858 [59:05<40:10,  2.03it/s] 59%|█████▊    | 6957/11858 [59:06<40:10,  2.03it/s] 59%|█████▊    | 6958/11858 [59:06<40:12,  2.03it/s] 59%|█████▊    | 6959/11858 [59:07<40:09,  2.03it/s] 59%|█████▊    | 6960/11858 [59:07<40:08,  2.03it/s] 59%|█████▊    | 6961/11858 [59:08<40:09,  2.03it/s] 59%|█████▊    | 6962/11858 [59:08<40:06,  2.03it/s] 59%|█████▊    | 6963/11858 [59:09<40:09,  2.03it/s] 59%|█████▊    | 6964/11858 [59:09<40:08,  2.03it/s] 59%|█████▊    | 6965/11858 [59:10<40:07,  2.03it/s] 59%|█████▊    | 6966/11858 [59:10<40:06,  2.03it/s] 59%|█████▉    | 6967/11858 [59:11<40:06,  2.03it/s] 59%|█████▉    | 6968/11858 [59:11<40:03,  2.03it/s] 59%|█████▉    | 6969/11858 [59:12<40:06,  2.03it/s] 59%|█████▉    | 6970/11858 [59:12<40:07,  2.03it/s] 59%|█████▉    | 6971/11858 [59:13<40:04,  2.03it/s] 59%|█████▉    | 6972/11858 [59:13<40:05,  2.03it/s] 59%|█████▉    | 6973/11858 [59:14<40:05,  2.03it/s] 59%|█████▉    | 6974/11858 [59:14<43:33,  1.87it/s] 59%|█████▉    | 6975/11858 [59:15<42:29,  1.91it/s]                                                    {'loss': 1.6729, 'grad_norm': 0.3183693289756775, 'learning_rate': 0.00043352102362652367, 'epoch': 8.23}
- 59%|█████▉    | 6975/11858 [59:15<42:29,  1.91it/s] 59%|█████▉    | 6976/11858 [59:15<41:46,  1.95it/s] 59%|█████▉    | 6977/11858 [59:16<41:14,  1.97it/s] 59%|█████▉    | 6978/11858 [59:16<40:51,  1.99it/s] 59%|█████▉    | 6979/11858 [59:17<40:36,  2.00it/s] 59%|█████▉    | 6980/11858 [59:17<40:27,  2.01it/s] 59%|█████▉    | 6981/11858 [59:18<40:16,  2.02it/s] 59%|█████▉    | 6982/11858 [59:18<40:08,  2.02it/s] 59%|█████▉    | 6983/11858 [59:19<40:05,  2.03it/s] 59%|█████▉    | 6984/11858 [59:19<40:03,  2.03it/s] 59%|█████▉    | 6985/11858 [59:20<39:59,  2.03it/s] 59%|█████▉    | 6986/11858 [59:20<39:58,  2.03it/s] 59%|█████▉    | 6987/11858 [59:21<39:58,  2.03it/s] 59%|█████▉    | 6988/11858 [59:21<39:55,  2.03it/s] 59%|█████▉    | 6989/11858 [59:22<39:55,  2.03it/s] 59%|█████▉    | 6990/11858 [59:22<39:56,  2.03it/s] 59%|█████▉    | 6991/11858 [59:22<39:56,  2.03it/s] 59%|█████▉    | 6992/11858 [59:23<39:56,  2.03it/s] 59%|█████▉    | 6993/11858 [59:23<39:53,  2.03it/s] 59%|█████▉    | 6994/11858 [59:24<39:54,  2.03it/s] 59%|█████▉    | 6995/11858 [59:24<39:54,  2.03it/s] 59%|█████▉    | 6996/11858 [59:25<39:52,  2.03it/s] 59%|█████▉    | 6997/11858 [59:25<39:53,  2.03it/s] 59%|█████▉    | 6998/11858 [59:26<39:49,  2.03it/s] 59%|█████▉    | 6999/11858 [59:26<39:51,  2.03it/s] 59%|█████▉    | 7000/11858 [59:27<39:51,  2.03it/s]                                                    {'loss': 1.667, 'grad_norm': 0.3968742787837982, 'learning_rate': 0.0004298758124777018, 'epoch': 8.26}
- 59%|█████▉    | 7000/11858 [59:27<39:51,  2.03it/s] 59%|█████▉    | 7001/11858 [59:27<39:51,  2.03it/s] 59%|█████▉    | 7002/11858 [59:28<39:51,  2.03it/s] 59%|█████▉    | 7003/11858 [59:28<39:48,  2.03it/s] 59%|█████▉    | 7004/11858 [59:29<39:45,  2.03it/s] 59%|█████▉    | 7005/11858 [59:29<39:46,  2.03it/s] 59%|█████▉    | 7006/11858 [59:30<39:44,  2.03it/s] 59%|█████▉    | 7007/11858 [59:30<39:43,  2.03it/s] 59%|█████▉    | 7008/11858 [59:31<39:46,  2.03it/s] 59%|█████▉    | 7009/11858 [59:31<39:44,  2.03it/s] 59%|█████▉    | 7010/11858 [59:32<39:42,  2.03it/s] 59%|█████▉    | 7011/11858 [59:32<39:42,  2.03it/s] 59%|█████▉    | 7012/11858 [59:33<39:40,  2.04it/s] 59%|█████▉    | 7013/11858 [59:33<39:42,  2.03it/s] 59%|█████▉    | 7014/11858 [59:34<39:42,  2.03it/s] 59%|█████▉    | 7015/11858 [59:34<39:39,  2.04it/s] 59%|█████▉    | 7016/11858 [59:35<39:38,  2.04it/s] 59%|█████▉    | 7017/11858 [59:35<39:39,  2.03it/s] 59%|█████▉    | 7018/11858 [59:36<39:37,  2.04it/s] 59%|█████▉    | 7019/11858 [59:36<39:36,  2.04it/s] 59%|█████▉    | 7020/11858 [59:37<39:38,  2.03it/s] 59%|█████▉    | 7021/11858 [59:37<39:36,  2.04it/s] 59%|█████▉    | 7022/11858 [59:38<39:36,  2.04it/s] 59%|█████▉    | 7023/11858 [59:38<39:37,  2.03it/s] 59%|█████▉    | 7024/11858 [59:39<39:38,  2.03it/s] 59%|█████▉    | 7025/11858 [59:39<39:38,  2.03it/s]                                                    {'loss': 1.6745, 'grad_norm': 0.29203149676322937, 'learning_rate': 0.0004262343993205849, 'epoch': 8.29}
- 59%|█████▉    | 7025/11858 [59:39<39:38,  2.03it/s] 59%|█████▉    | 7026/11858 [59:40<39:40,  2.03it/s] 59%|█████▉    | 7027/11858 [59:40<39:40,  2.03it/s] 59%|█████▉    | 7028/11858 [59:41<39:39,  2.03it/s] 59%|█████▉    | 7029/11858 [59:41<39:35,  2.03it/s] 59%|█████▉    | 7030/11858 [59:42<39:35,  2.03it/s] 59%|█████▉    | 7031/11858 [59:42<39:34,  2.03it/s] 59%|█████▉    | 7032/11858 [59:43<39:31,  2.04it/s] 59%|█████▉    | 7033/11858 [59:43<39:32,  2.03it/s] 59%|█████▉    | 7034/11858 [59:44<39:33,  2.03it/s] 59%|█████▉    | 7035/11858 [59:44<39:32,  2.03it/s] 59%|█████▉    | 7036/11858 [59:45<39:32,  2.03it/s] 59%|█████▉    | 7037/11858 [59:45<39:31,  2.03it/s] 59%|█████▉    | 7038/11858 [59:46<39:30,  2.03it/s] 59%|█████▉    | 7039/11858 [59:46<39:29,  2.03it/s] 59%|█████▉    | 7040/11858 [59:47<39:28,  2.03it/s] 59%|█████▉    | 7041/11858 [59:47<42:59,  1.87it/s] 59%|█████▉    | 7042/11858 [59:48<41:56,  1.91it/s] 59%|█████▉    | 7043/11858 [59:48<41:11,  1.95it/s] 59%|█████▉    | 7044/11858 [59:49<40:41,  1.97it/s] 59%|█████▉    | 7045/11858 [59:49<40:17,  1.99it/s] 59%|█████▉    | 7046/11858 [59:50<40:04,  2.00it/s] 59%|█████▉    | 7047/11858 [59:50<39:54,  2.01it/s] 59%|█████▉    | 7048/11858 [59:51<39:45,  2.02it/s] 59%|█████▉    | 7049/11858 [59:51<39:40,  2.02it/s] 59%|█████▉    | 7050/11858 [59:52<39:37,  2.02it/s]                                                    {'loss': 1.6883, 'grad_norm': 0.31121179461479187, 'learning_rate': 0.0004225969813775215, 'epoch': 8.32}
- 59%|█████▉    | 7050/11858 [59:52<39:37,  2.02it/s] 59%|█████▉    | 7051/11858 [59:52<39:35,  2.02it/s] 59%|█████▉    | 7052/11858 [59:53<39:34,  2.02it/s] 59%|█████▉    | 7053/11858 [59:53<39:32,  2.03it/s] 59%|█████▉    | 7054/11858 [59:54<39:31,  2.03it/s] 59%|█████▉    | 7055/11858 [59:54<39:30,  2.03it/s] 60%|█████▉    | 7056/11858 [59:55<39:26,  2.03it/s] 60%|█████▉    | 7057/11858 [59:55<39:25,  2.03it/s] 60%|█████▉    | 7058/11858 [59:56<39:24,  2.03it/s] 60%|█████▉    | 7059/11858 [59:56<39:21,  2.03it/s] 60%|█████▉    | 7060/11858 [59:57<39:22,  2.03it/s] 60%|█████▉    | 7061/11858 [59:57<39:20,  2.03it/s] 60%|█████▉    | 7062/11858 [59:58<39:18,  2.03it/s] 60%|█████▉    | 7063/11858 [59:58<39:21,  2.03it/s] 60%|█████▉    | 7064/11858 [59:59<39:20,  2.03it/s] 60%|█████▉    | 7065/11858 [59:59<39:20,  2.03it/s] 60%|█████▉    | 7066/11858 [1:00:00<39:21,  2.03it/s] 60%|█████▉    | 7067/11858 [1:00:00<39:18,  2.03it/s] 60%|█████▉    | 7068/11858 [1:00:01<39:18,  2.03it/s] 60%|█████▉    | 7069/11858 [1:00:01<39:18,  2.03it/s] 60%|█████▉    | 7070/11858 [1:00:02<39:16,  2.03it/s] 60%|█████▉    | 7071/11858 [1:00:02<39:17,  2.03it/s] 60%|█████▉    | 7072/11858 [1:00:03<39:14,  2.03it/s] 60%|█████▉    | 7073/11858 [1:00:03<39:13,  2.03it/s] 60%|█████▉    | 7074/11858 [1:00:03<39:15,  2.03it/s] 60%|█████▉    | 7075/11858 [1:00:04<39:13,  2.03it/s]                                                      {'loss': 1.699, 'grad_norm': 0.333128422498703, 'learning_rate': 0.00041896375565447596, 'epoch': 8.35}
- 60%|█████▉    | 7075/11858 [1:00:04<39:13,  2.03it/s] 60%|█████▉    | 7076/11858 [1:00:04<39:16,  2.03it/s] 60%|█████▉    | 7077/11858 [1:00:05<39:15,  2.03it/s] 60%|█████▉    | 7078/11858 [1:00:05<39:15,  2.03it/s] 60%|█████▉    | 7079/11858 [1:00:06<39:14,  2.03it/s] 60%|█████▉    | 7080/11858 [1:00:06<39:12,  2.03it/s] 60%|█████▉    | 7081/11858 [1:00:07<39:14,  2.03it/s] 60%|█████▉    | 7082/11858 [1:00:07<39:12,  2.03it/s] 60%|█████▉    | 7083/11858 [1:00:08<39:12,  2.03it/s] 60%|█████▉    | 7084/11858 [1:00:08<39:12,  2.03it/s] 60%|█████▉    | 7085/11858 [1:00:09<39:10,  2.03it/s] 60%|█████▉    | 7086/11858 [1:00:09<39:10,  2.03it/s] 60%|█████▉    | 7087/11858 [1:00:10<39:10,  2.03it/s] 60%|█████▉    | 7088/11858 [1:00:10<39:09,  2.03it/s] 60%|█████▉    | 7089/11858 [1:00:11<39:10,  2.03it/s] 60%|█████▉    | 7090/11858 [1:00:11<39:07,  2.03it/s] 60%|█████▉    | 7091/11858 [1:00:12<39:06,  2.03it/s] 60%|█████▉    | 7092/11858 [1:00:12<39:06,  2.03it/s] 60%|█████▉    | 7093/11858 [1:00:13<39:05,  2.03it/s] 60%|█████▉    | 7094/11858 [1:00:13<39:04,  2.03it/s] 60%|█████▉    | 7095/11858 [1:00:14<39:04,  2.03it/s] 60%|█████▉    | 7096/11858 [1:00:14<39:05,  2.03it/s] 60%|█████▉    | 7097/11858 [1:00:15<39:04,  2.03it/s] 60%|█████▉    | 7098/11858 [1:00:15<39:03,  2.03it/s] 60%|█████▉    | 7099/11858 [1:00:16<39:02,  2.03it/s] 60%|█████▉    | 7100/11858 [1:00:16<39:01,  2.03it/s]                                                      {'loss': 1.686, 'grad_norm': 0.29884645342826843, 'learning_rate': 0.0004153349189303577, 'epoch': 8.38}
- 60%|█████▉    | 7100/11858 [1:00:16<39:01,  2.03it/s] 60%|█████▉    | 7101/11858 [1:00:17<39:05,  2.03it/s] 60%|█████▉    | 7102/11858 [1:00:17<39:02,  2.03it/s] 60%|█████▉    | 7103/11858 [1:00:18<39:00,  2.03it/s] 60%|█████▉    | 7104/11858 [1:00:18<39:00,  2.03it/s] 60%|█████▉    | 7105/11858 [1:00:19<38:57,  2.03it/s] 60%|█████▉    | 7106/11858 [1:00:19<38:58,  2.03it/s] 60%|█████▉    | 7107/11858 [1:00:20<38:58,  2.03it/s] 60%|█████▉    | 7108/11858 [1:00:20<38:55,  2.03it/s] 60%|█████▉    | 7109/11858 [1:00:21<38:56,  2.03it/s] 60%|█████▉    | 7110/11858 [1:00:21<38:55,  2.03it/s] 60%|█████▉    | 7111/11858 [1:00:22<38:54,  2.03it/s] 60%|█████▉    | 7112/11858 [1:00:22<38:51,  2.04it/s] 60%|█████▉    | 7113/11858 [1:00:23<38:52,  2.03it/s] 60%|█████▉    | 7114/11858 [1:00:23<38:54,  2.03it/s] 60%|██████    | 7115/11858 [1:00:24<38:51,  2.03it/s] 60%|██████    | 7116/11858 [1:00:24<38:51,  2.03it/s] 60%|██████    | 7117/11858 [1:00:25<38:52,  2.03it/s] 60%|██████    | 7118/11858 [1:00:25<38:50,  2.03it/s] 60%|██████    | 7119/11858 [1:00:26<38:47,  2.04it/s] 60%|██████    | 7120/11858 [1:00:26<38:48,  2.03it/s] 60%|██████    | 7121/11858 [1:00:27<38:48,  2.03it/s] 60%|██████    | 7122/11858 [1:00:27<38:47,  2.04it/s] 60%|██████    | 7123/11858 [1:00:28<38:48,  2.03it/s] 60%|██████    | 7124/11858 [1:00:28<38:48,  2.03it/s] 60%|██████    | 7125/11858 [1:00:29<38:46,  2.03it/s]                                                      {'loss': 1.6737, 'grad_norm': 0.334051251411438, 'learning_rate': 0.0004117106677463644, 'epoch': 8.41}
- 60%|██████    | 7125/11858 [1:00:29<38:46,  2.03it/s] 60%|██████    | 7126/11858 [1:00:29<38:49,  2.03it/s] 60%|██████    | 7127/11858 [1:00:30<38:47,  2.03it/s] 60%|██████    | 7128/11858 [1:00:30<38:45,  2.03it/s] 60%|██████    | 7129/11858 [1:00:31<38:46,  2.03it/s] 60%|██████    | 7130/11858 [1:00:31<38:45,  2.03it/s] 60%|██████    | 7131/11858 [1:00:32<38:45,  2.03it/s] 60%|██████    | 7132/11858 [1:00:32<38:47,  2.03it/s] 60%|██████    | 7133/11858 [1:00:33<38:45,  2.03it/s] 60%|██████    | 7134/11858 [1:00:33<38:44,  2.03it/s] 60%|██████    | 7135/11858 [1:00:34<38:44,  2.03it/s] 60%|██████    | 7136/11858 [1:00:34<38:41,  2.03it/s] 60%|██████    | 7137/11858 [1:00:34<38:42,  2.03it/s] 60%|██████    | 7138/11858 [1:00:35<38:42,  2.03it/s] 60%|██████    | 7139/11858 [1:00:35<38:41,  2.03it/s] 60%|██████    | 7140/11858 [1:00:36<38:42,  2.03it/s] 60%|██████    | 7141/11858 [1:00:36<38:40,  2.03it/s] 60%|██████    | 7142/11858 [1:00:37<38:41,  2.03it/s] 60%|██████    | 7143/11858 [1:00:37<38:40,  2.03it/s] 60%|██████    | 7144/11858 [1:00:38<38:38,  2.03it/s] 60%|██████    | 7145/11858 [1:00:38<38:37,  2.03it/s] 60%|██████    | 7146/11858 [1:00:39<38:37,  2.03it/s] 60%|██████    | 7147/11858 [1:00:39<38:35,  2.03it/s] 60%|██████    | 7148/11858 [1:00:40<38:36,  2.03it/s] 60%|██████    | 7149/11858 [1:00:40<38:36,  2.03it/s] 60%|██████    | 7150/11858 [1:00:41<38:36,  2.03it/s]                                                      {'loss': 1.6872, 'grad_norm': 0.29910707473754883, 'learning_rate': 0.0004080911983953357, 'epoch': 8.44}
- 60%|██████    | 7150/11858 [1:00:41<38:36,  2.03it/s] 60%|██████    | 7151/11858 [1:00:41<38:38,  2.03it/s] 60%|██████    | 7152/11858 [1:00:42<38:36,  2.03it/s] 60%|██████    | 7153/11858 [1:00:42<38:36,  2.03it/s] 60%|██████    | 7154/11858 [1:00:43<38:36,  2.03it/s] 60%|██████    | 7155/11858 [1:00:43<38:37,  2.03it/s] 60%|██████    | 7156/11858 [1:00:44<38:37,  2.03it/s] 60%|██████    | 7157/11858 [1:00:44<38:35,  2.03it/s] 60%|██████    | 7158/11858 [1:00:45<38:34,  2.03it/s] 60%|██████    | 7159/11858 [1:00:45<38:36,  2.03it/s] 60%|██████    | 7160/11858 [1:00:46<38:35,  2.03it/s] 60%|██████    | 7161/11858 [1:00:46<38:35,  2.03it/s] 60%|██████    | 7162/11858 [1:00:47<38:34,  2.03it/s] 60%|██████    | 7163/11858 [1:00:47<38:34,  2.03it/s] 60%|██████    | 7164/11858 [1:00:48<38:33,  2.03it/s] 60%|██████    | 7165/11858 [1:00:48<38:30,  2.03it/s] 60%|██████    | 7166/11858 [1:00:49<38:30,  2.03it/s] 60%|██████    | 7167/11858 [1:00:49<38:30,  2.03it/s] 60%|██████    | 7168/11858 [1:00:50<38:28,  2.03it/s] 60%|██████    | 7169/11858 [1:00:50<38:29,  2.03it/s] 60%|██████    | 7170/11858 [1:00:51<38:27,  2.03it/s] 60%|██████    | 7171/11858 [1:00:51<38:25,  2.03it/s] 60%|██████    | 7172/11858 [1:00:52<38:26,  2.03it/s] 60%|██████    | 7173/11858 [1:00:52<38:24,  2.03it/s] 60%|██████    | 7174/11858 [1:00:53<38:25,  2.03it/s] 61%|██████    | 7175/11858 [1:00:53<38:25,  2.03it/s]                                                      {'loss': 1.6991, 'grad_norm': 0.32594627141952515, 'learning_rate': 0.0004044767069111237, 'epoch': 8.47}
- 61%|██████    | 7175/11858 [1:00:53<38:25,  2.03it/s] 61%|██████    | 7176/11858 [1:00:54<38:25,  2.03it/s] 61%|██████    | 7177/11858 [1:00:54<38:28,  2.03it/s] 61%|██████    | 7178/11858 [1:00:55<38:25,  2.03it/s] 61%|██████    | 7179/11858 [1:00:55<38:25,  2.03it/s] 61%|██████    | 7180/11858 [1:00:56<38:24,  2.03it/s] 61%|██████    | 7181/11858 [1:00:56<38:21,  2.03it/s] 61%|██████    | 7182/11858 [1:00:57<38:23,  2.03it/s] 61%|██████    | 7183/11858 [1:00:57<38:21,  2.03it/s] 61%|██████    | 7184/11858 [1:00:58<38:19,  2.03it/s] 61%|██████    | 7185/11858 [1:00:58<38:21,  2.03it/s] 61%|██████    | 7186/11858 [1:00:59<38:20,  2.03it/s] 61%|██████    | 7187/11858 [1:00:59<38:17,  2.03it/s] 61%|██████    | 7188/11858 [1:01:00<38:18,  2.03it/s] 61%|██████    | 7189/11858 [1:01:00<38:16,  2.03it/s] 61%|██████    | 7190/11858 [1:01:01<38:15,  2.03it/s] 61%|██████    | 7191/11858 [1:01:01<38:16,  2.03it/s] 61%|██████    | 7192/11858 [1:01:02<38:14,  2.03it/s] 61%|██████    | 7193/11858 [1:01:02<38:14,  2.03it/s] 61%|██████    | 7194/11858 [1:01:03<38:16,  2.03it/s] 61%|██████    | 7195/11858 [1:01:03<38:13,  2.03it/s] 61%|██████    | 7196/11858 [1:01:04<38:12,  2.03it/s] 61%|██████    | 7197/11858 [1:01:04<38:12,  2.03it/s] 61%|██████    | 7198/11858 [1:01:05<38:11,  2.03it/s] 61%|██████    | 7199/11858 [1:01:05<38:10,  2.03it/s] 61%|██████    | 7200/11858 [1:01:06<38:11,  2.03it/s]                                                      {'loss': 1.6834, 'grad_norm': 0.3708181083202362, 'learning_rate': 0.0004008673890579737, 'epoch': 8.5}
- 61%|██████    | 7200/11858 [1:01:06<38:11,  2.03it/s] 61%|██████    | 7201/11858 [1:01:06<38:12,  2.03it/s] 61%|██████    | 7202/11858 [1:01:06<38:12,  2.03it/s] 61%|██████    | 7203/11858 [1:01:07<38:13,  2.03it/s] 61%|██████    | 7204/11858 [1:01:07<38:09,  2.03it/s] 61%|██████    | 7205/11858 [1:01:08<38:09,  2.03it/s] 61%|██████    | 7206/11858 [1:01:08<38:08,  2.03it/s] 61%|██████    | 7207/11858 [1:01:09<38:06,  2.03it/s] 61%|██████    | 7208/11858 [1:01:09<38:06,  2.03it/s] 61%|██████    | 7209/11858 [1:01:10<38:06,  2.03it/s] 61%|██████    | 7210/11858 [1:01:10<38:03,  2.04it/s] 61%|██████    | 7211/11858 [1:01:11<38:05,  2.03it/s] 61%|██████    | 7212/11858 [1:01:11<38:05,  2.03it/s] 61%|██████    | 7213/11858 [1:01:12<38:05,  2.03it/s] 61%|██████    | 7214/11858 [1:01:12<38:02,  2.03it/s] 61%|██████    | 7215/11858 [1:01:13<38:02,  2.03it/s] 61%|██████    | 7216/11858 [1:01:13<38:01,  2.03it/s] 61%|██████    | 7217/11858 [1:01:14<38:00,  2.04it/s] 61%|██████    | 7218/11858 [1:01:14<37:59,  2.04it/s] 61%|██████    | 7219/11858 [1:01:15<37:59,  2.03it/s] 61%|██████    | 7220/11858 [1:01:15<37:57,  2.04it/s] 61%|██████    | 7221/11858 [1:01:16<37:57,  2.04it/s] 61%|██████    | 7222/11858 [1:01:16<37:57,  2.04it/s] 61%|██████    | 7223/11858 [1:01:17<37:55,  2.04it/s] 61%|██████    | 7224/11858 [1:01:17<37:56,  2.04it/s] 61%|██████    | 7225/11858 [1:01:18<37:56,  2.04it/s]                                                      {'loss': 1.7011, 'grad_norm': 0.3117808997631073, 'learning_rate': 0.00039726344031992296, 'epoch': 8.53}
- 61%|██████    | 7225/11858 [1:01:18<37:56,  2.04it/s] 61%|██████    | 7226/11858 [1:01:18<37:58,  2.03it/s] 61%|██████    | 7227/11858 [1:01:19<37:59,  2.03it/s] 61%|██████    | 7228/11858 [1:01:19<37:57,  2.03it/s] 61%|██████    | 7229/11858 [1:01:20<37:57,  2.03it/s] 61%|█���████    | 7230/11858 [1:01:20<37:57,  2.03it/s] 61%|██████    | 7231/11858 [1:01:21<37:55,  2.03it/s] 61%|██████    | 7232/11858 [1:01:21<37:54,  2.03it/s] 61%|██████    | 7233/11858 [1:01:22<37:54,  2.03it/s] 61%|██████    | 7234/11858 [1:01:22<37:51,  2.04it/s] 61%|██████    | 7235/11858 [1:01:23<37:50,  2.04it/s] 61%|██████    | 7236/11858 [1:01:23<37:52,  2.03it/s] 61%|██████    | 7237/11858 [1:01:24<37:50,  2.04it/s] 61%|██████    | 7238/11858 [1:01:24<37:49,  2.04it/s] 61%|██████    | 7239/11858 [1:01:25<37:49,  2.04it/s] 61%|██████    | 7240/11858 [1:01:25<37:50,  2.03it/s] 61%|██████    | 7241/11858 [1:01:26<37:51,  2.03it/s] 61%|██████    | 7242/11858 [1:01:26<37:52,  2.03it/s] 61%|██████    | 7243/11858 [1:01:27<37:51,  2.03it/s] 61%|██████    | 7244/11858 [1:01:27<37:51,  2.03it/s] 61%|██████    | 7245/11858 [1:01:28<37:49,  2.03it/s] 61%|██████    | 7246/11858 [1:01:28<37:48,  2.03it/s] 61%|██████    | 7247/11858 [1:01:29<37:48,  2.03it/s] 61%|██████    | 7248/11858 [1:01:29<37:47,  2.03it/s] 61%|██████    | 7249/11858 [1:01:30<37:47,  2.03it/s] 61%|██████    | 7250/11858 [1:01:30<37:45,  2.03it/s]                                                      {'loss': 1.711, 'grad_norm': 0.2923211455345154, 'learning_rate': 0.00039366505589021197, 'epoch': 8.55}
- 61%|██████    | 7250/11858 [1:01:30<37:45,  2.03it/s] 61%|██████    | 7251/11858 [1:01:31<37:46,  2.03it/s] 61%|██████    | 7252/11858 [1:01:31<37:47,  2.03it/s] 61%|██████    | 7253/11858 [1:01:32<37:47,  2.03it/s] 61%|██████    | 7254/11858 [1:01:32<37:44,  2.03it/s] 61%|██████    | 7255/11858 [1:01:33<37:43,  2.03it/s] 61%|██████    | 7256/11858 [1:01:33<37:44,  2.03it/s] 61%|██████    | 7257/11858 [1:01:34<37:44,  2.03it/s] 61%|██████    | 7258/11858 [1:01:34<37:43,  2.03it/s] 61%|██████    | 7259/11858 [1:01:35<37:42,  2.03it/s] 61%|██████    | 7260/11858 [1:01:35<37:42,  2.03it/s] 61%|██████    | 7261/11858 [1:01:36<37:41,  2.03it/s] 61%|██████    | 7262/11858 [1:01:36<37:40,  2.03it/s] 61%|██████    | 7263/11858 [1:01:36<37:41,  2.03it/s] 61%|██████▏   | 7264/11858 [1:01:37<37:41,  2.03it/s] 61%|██████▏   | 7265/11858 [1:01:37<37:41,  2.03it/s] 61%|██████▏   | 7266/11858 [1:01:38<37:38,  2.03it/s] 61%|██████▏   | 7267/11858 [1:01:38<37:39,  2.03it/s] 61%|██████▏   | 7268/11858 [1:01:39<37:39,  2.03it/s] 61%|██████▏   | 7269/11858 [1:01:39<37:41,  2.03it/s] 61%|██████▏   | 7270/11858 [1:01:40<37:40,  2.03it/s] 61%|██████▏   | 7271/11858 [1:01:40<37:40,  2.03it/s] 61%|██████▏   | 7272/11858 [1:01:41<37:37,  2.03it/s] 61%|██████▏   | 7273/11858 [1:01:41<37:37,  2.03it/s] 61%|██████▏   | 7274/11858 [1:01:42<37:36,  2.03it/s] 61%|██████▏   | 7275/11858 [1:01:42<37:36,  2.03it/s]                                                      {'loss': 1.6901, 'grad_norm': 0.3039659857749939, 'learning_rate': 0.00039007243066071324, 'epoch': 8.58}
- 61%|██████▏   | 7275/11858 [1:01:42<37:36,  2.03it/s] 61%|██████▏   | 7276/11858 [1:01:43<37:36,  2.03it/s] 61%|██████▏   | 7277/11858 [1:01:43<37:36,  2.03it/s] 61%|██████▏   | 7278/11858 [1:01:44<37:34,  2.03it/s] 61%|██████▏   | 7279/11858 [1:01:44<37:31,  2.03it/s] 61%|██████▏   | 7280/11858 [1:01:45<37:33,  2.03it/s] 61%|██████▏   | 7281/11858 [1:01:45<37:31,  2.03it/s] 61%|██████▏   | 7282/11858 [1:01:46<37:30,  2.03it/s] 61%|██████▏   | 7283/11858 [1:01:46<37:31,  2.03it/s] 61%|██████▏   | 7284/11858 [1:01:47<37:28,  2.03it/s] 61%|██████▏   | 7285/11858 [1:01:47<37:30,  2.03it/s] 61%|██████▏   | 7286/11858 [1:01:48<37:30,  2.03it/s] 61%|██████▏   | 7287/11858 [1:01:48<37:26,  2.03it/s] 61%|██████▏   | 7288/11858 [1:01:49<37:27,  2.03it/s] 61%|██████▏   | 7289/11858 [1:01:49<37:27,  2.03it/s] 61%|██████▏   | 7290/11858 [1:01:50<37:26,  2.03it/s] 61%|██████▏   | 7291/11858 [1:01:50<37:27,  2.03it/s] 61%|██████▏   | 7292/11858 [1:01:51<37:25,  2.03it/s] 62%|██████▏   | 7293/11858 [1:01:51<37:24,  2.03it/s] 62%|██████▏   | 7294/11858 [1:01:52<37:25,  2.03it/s] 62%|██████▏   | 7295/11858 [1:01:52<37:23,  2.03it/s] 62%|██████▏   | 7296/11858 [1:01:53<37:22,  2.03it/s] 62%|██████▏   | 7297/11858 [1:01:53<37:22,  2.03it/s] 62%|██████▏   | 7298/11858 [1:01:54<37:21,  2.03it/s] 62%|██████▏   | 7299/11858 [1:01:54<37:21,  2.03it/s] 62%|██████▏   | 7300/11858 [1:01:55<37:20,  2.03it/s]                                                      {'loss': 1.6988, 'grad_norm': 0.2804713249206543, 'learning_rate': 0.00038648575921137595, 'epoch': 8.61}
- 62%|██████▏   | 7300/11858 [1:01:55<37:20,  2.03it/s] 62%|██████▏   | 7301/11858 [1:01:55<37:22,  2.03it/s] 62%|██████▏   | 7302/11858 [1:01:56<37:23,  2.03it/s] 62%|██████▏   | 7303/11858 [1:01:56<37:20,  2.03it/s] 62%|██████▏   | 7304/11858 [1:01:57<37:19,  2.03it/s] 62%|██████▏   | 7305/11858 [1:01:57<37:19,  2.03it/s] 62%|██████▏   | 7306/11858 [1:01:58<37:18,  2.03it/s] 62%|██████▏   | 7307/11858 [1:01:58<37:17,  2.03it/s] 62%|██████▏   | 7308/11858 [1:01:59<37:18,  2.03it/s] 62%|██████▏   | 7309/11858 [1:01:59<37:17,  2.03it/s] 62%|██████▏   | 7310/11858 [1:02:00<37:15,  2.03it/s] 62%|██████▏   | 7311/11858 [1:02:00<37:17,  2.03it/s] 62%|██████▏   | 7312/11858 [1:02:01<37:15,  2.03it/s] 62%|██████▏   | 7313/11858 [1:02:01<37:17,  2.03it/s] 62%|██████▏   | 7314/11858 [1:02:02<37:15,  2.03it/s] 62%|██████▏   | 7315/11858 [1:02:02<37:14,  2.03it/s] 62%|██████▏   | 7316/11858 [1:02:03<37:14,  2.03it/s] 62%|██████▏   | 7317/11858 [1:02:03<37:13,  2.03it/s] 62%|██████▏   | 7318/11858 [1:02:04<37:14,  2.03it/s] 62%|██████▏   | 7319/11858 [1:02:04<37:15,  2.03it/s] 62%|██████▏   | 7320/11858 [1:02:05<37:12,  2.03it/s] 62%|██████▏   | 7321/11858 [1:02:05<37:11,  2.03it/s] 62%|██████▏   | 7322/11858 [1:02:06<37:13,  2.03it/s] 62%|██████▏   | 7323/11858 [1:02:06<37:10,  2.03it/s] 62%|██████▏   | 7324/11858 [1:02:06<37:09,  2.03it/s] 62%|██████▏   | 7325/11858 [1:02:07<37:09,  2.03it/s]                                                      {'loss': 1.6851, 'grad_norm': 0.33635616302490234, 'learning_rate': 0.00038290523579968626, 'epoch': 8.64}
- 62%|██████▏   | 7325/11858 [1:02:07<37:09,  2.03it/s] 62%|██████▏   | 7326/11858 [1:02:07<37:09,  2.03it/s] 62%|██████▏   | 7327/11858 [1:02:08<37:09,  2.03it/s] 62%|██████▏   | 7328/11858 [1:02:08<37:09,  2.03it/s] 62%|██████▏   | 7329/11858 [1:02:09<37:06,  2.03it/s] 62%|██████▏   | 7330/11858 [1:02:09<37:07,  2.03it/s] 62%|██████▏   | 7331/11858 [1:02:10<37:06,  2.03it/s] 62%|██████▏   | 7332/11858 [1:02:10<37:05,  2.03it/s] 62%|██████▏   | 7333/11858 [1:02:11<37:06,  2.03it/s] 62%|██████▏   | 7334/11858 [1:02:11<37:06,  2.03it/s] 62%|██████▏   | 7335/11858 [1:02:12<37:04,  2.03it/s] 62%|██████▏   | 7336/11858 [1:02:12<37:03,  2.03it/s] 62%|██████▏   | 7337/11858 [1:02:13<37:03,  2.03it/s] 62%|██████▏   | 7338/11858 [1:02:13<37:03,  2.03it/s] 62%|██████▏   | 7339/11858 [1:02:14<37:00,  2.03it/s] 62%|██████▏   | 7340/11858 [1:02:14<37:02,  2.03it/s] 62%|██████▏   | 7341/11858 [1:02:15<37:01,  2.03it/s] 62%|██████▏   | 7342/11858 [1:02:15<37:00,  2.03it/s] 62%|██████▏   | 7343/11858 [1:02:16<37:01,  2.03it/s] 62%|██████▏   | 7344/11858 [1:02:16<36:59,  2.03it/s] 62%|██████▏   | 7345/11858 [1:02:17<36:57,  2.04it/s] 62%|██████▏   | 7346/11858 [1:02:17<36:59,  2.03it/s] 62%|██████▏   | 7347/11858 [1:02:18<36:57,  2.03it/s] 62%|██████▏   | 7348/11858 [1:02:18<36:55,  2.04it/s] 62%|██████▏   | 7349/11858 [1:02:19<36:56,  2.03it/s] 62%|██████▏   | 7350/11858 [1:02:19<36:56,  2.03it/s]                                                      {'loss': 1.6813, 'grad_norm': 0.28918060660362244, 'learning_rate': 0.00037933105435014727, 'epoch': 8.67}
- 62%|██████▏   | 7350/11858 [1:02:19<36:56,  2.03it/s] 62%|██████▏   | 7351/11858 [1:02:20<37:00,  2.03it/s] 62%|██████▏   | 7352/11858 [1:02:20<37:00,  2.03it/s] 62%|██████▏   | 7353/11858 [1:02:21<36:56,  2.03it/s] 62%|██████▏   | 7354/11858 [1:02:21<36:56,  2.03it/s] 62%|██████▏   | 7355/11858 [1:02:22<36:57,  2.03it/s] 62%|██████▏   | 7356/11858 [1:02:22<36:57,  2.03it/s] 62%|██████▏   | 7357/11858 [1:02:23<36:55,  2.03it/s] 62%|██████▏   | 7358/11858 [1:02:23<36:55,  2.03it/s] 62%|██████▏   | 7359/11858 [1:02:24<36:54,  2.03it/s] 62%|██████▏   | 7360/11858 [1:02:24<36:55,  2.03it/s] 62%|██████▏   | 7361/11858 [1:02:25<36:56,  2.03it/s] 62%|██████▏   | 7362/11858 [1:02:25<36:53,  2.03it/s] 62%|██████▏   | 7363/11858 [1:02:26<36:54,  2.03it/s] 62%|██████▏   | 7364/11858 [1:02:26<36:54,  2.03it/s] 62%|██████▏   | 7365/11858 [1:02:27<36:53,  2.03it/s] 62%|██████▏   | 7366/11858 [1:02:27<36:53,  2.03it/s] 62%|██████▏   | 7367/11858 [1:02:28<36:49,  2.03it/s] 62%|██████▏   | 7368/11858 [1:02:28<36:47,  2.03it/s] 62%|██████▏   | 7369/11858 [1:02:29<36:48,  2.03it/s] 62%|██████▏   | 7370/11858 [1:02:29<36:46,  2.03it/s] 62%|██████▏   | 7371/11858 [1:02:30<36:47,  2.03it/s] 62%|██████▏   | 7372/11858 [1:02:30<36:48,  2.03it/s] 62%|██████▏   | 7373/11858 [1:02:31<36:48,  2.03it/s] 62%|██████▏   | 7374/11858 [1:02:31<36:49,  2.03it/s] 62%|██████▏   | 7375/11858 [1:02:32<36:47,  2.03it/s]                                                      {'loss': 1.6968, 'grad_norm': 0.29356053471565247, 'learning_rate': 0.0003757634084437754, 'epoch': 8.7}
- 62%|██████▏   | 7375/11858 [1:02:32<36:47,  2.03it/s] 62%|██████▏   | 7376/11858 [1:02:32<36:49,  2.03it/s] 62%|██████▏   | 7377/11858 [1:02:33<36:47,  2.03it/s] 62%|██████▏   | 7378/11858 [1:02:33<36:43,  2.03it/s] 62%|██████▏   | 7379/11858 [1:02:34<36:42,  2.03it/s] 62%|██████▏   | 7380/11858 [1:02:34<36:44,  2.03it/s] 62%|██████▏   | 7381/11858 [1:02:35<36:40,  2.03it/s] 62%|██████▏   | 7382/11858 [1:02:35<36:38,  2.04it/s] 62%|██████▏   | 7383/11858 [1:02:36<36:38,  2.04it/s] 62%|██████▏   | 7384/11858 [1:02:36<36:40,  2.03it/s] 62%|██████▏   | 7385/11858 [1:02:37<36:37,  2.04it/s] 62%|██████▏   | 7386/11858 [1:02:37<36:36,  2.04it/s] 62%|██████▏   | 7387/11858 [1:02:37<36:38,  2.03it/s] 62%|██████▏   | 7388/11858 [1:02:38<36:38,  2.03it/s] 62%|██████▏   | 7389/11858 [1:02:38<36:37,  2.03it/s] 62%|██████▏   | 7390/11858 [1:02:39<36:38,  2.03it/s] 62%|██████▏   | 7391/11858 [1:02:39<36:38,  2.03it/s] 62%|██████▏   | 7392/11858 [1:02:40<36:35,  2.03it/s] 62%|██████▏   | 7393/11858 [1:02:40<36:36,  2.03it/s] 62%|██████▏   | 7394/11858 [1:02:41<36:35,  2.03it/s] 62%|██████▏   | 7395/11858 [1:02:41<36:32,  2.04it/s] 62%|██████▏   | 7396/11858 [1:02:42<36:32,  2.04it/s] 62%|██████▏   | 7397/11858 [1:02:42<36:30,  2.04it/s] 62%|██████▏   | 7398/11858 [1:02:43<36:31,  2.03it/s] 62%|██████▏   | 7399/11858 [1:02:43<36:32,  2.03it/s] 62%|██████▏   | 7400/11858 [1:02:44<36:33,  2.03it/s]                                                      {'loss': 1.6862, 'grad_norm': 0.29996588826179504, 'learning_rate': 0.0003722024913076161, 'epoch': 8.73}
- 62%|██████▏   | 7400/11858 [1:02:44<36:33,  2.03it/s] 62%|██████▏   | 7401/11858 [1:02:44<36:33,  2.03it/s] 62%|██████▏   | 7402/11858 [1:02:45<36:34,  2.03it/s] 62%|██████▏   | 7403/11858 [1:02:45<36:32,  2.03it/s] 62%|██████▏   | 7404/11858 [1:02:46<36:31,  2.03it/s] 62%|██████▏   | 7405/11858 [1:02:46<36:33,  2.03it/s] 62%|██████▏   | 7406/11858 [1:02:47<36:30,  2.03it/s] 62%|██████▏   | 7407/11858 [1:02:47<36:29,  2.03it/s] 62%|██████▏   | 7408/11858 [1:02:48<36:29,  2.03it/s] 62%|██████▏   | 7409/11858 [1:02:48<36:26,  2.03it/s] 62%|██████▏   | 7410/11858 [1:02:49<36:26,  2.03it/s] 62%|██████▏   | 7411/11858 [1:02:49<36:27,  2.03it/s] 63%|██████▎   | 7412/11858 [1:02:50<36:25,  2.03it/s] 63%|██████▎   | 7413/11858 [1:02:50<36:27,  2.03it/s] 63%|██████▎   | 7414/11858 [1:02:51<36:26,  2.03it/s] 63%|██████▎   | 7415/11858 [1:02:51<36:27,  2.03it/s] 63%|██████▎   | 7416/11858 [1:02:52<36:26,  2.03it/s] 63%|██████▎   | 7417/11858 [1:02:52<36:25,  2.03it/s] 63%|██████▎   | 7418/11858 [1:02:53<36:24,  2.03it/s] 63%|██████▎   | 7419/11858 [1:02:53<36:23,  2.03it/s] 63%|██████▎   | 7420/11858 [1:02:54<36:23,  2.03it/s] 63%|██████▎   | 7421/11858 [1:02:54<36:21,  2.03it/s] 63%|██████▎   | 7422/11858 [1:02:55<36:20,  2.03it/s] 63%|██████▎   | 7423/11858 [1:02:55<36:22,  2.03it/s] 63%|██████▎   | 7424/11858 [1:02:56<36:19,  2.03it/s] 63%|██████▎   | 7425/11858 [1:02:56<36:16,  2.04it/s]                                                      {'loss': 1.6915, 'grad_norm': 0.3827850818634033, 'learning_rate': 0.00036864849580427796, 'epoch': 8.76}
- 63%|██████▎   | 7425/11858 [1:02:56<36:16,  2.04it/s] 63%|██████▎   | 7426/11858 [1:02:57<36:20,  2.03it/s] 63%|██████▎   | 7427/11858 [1:02:57<36:20,  2.03it/s] 63%|██████▎   | 7428/11858 [1:02:58<36:21,  2.03it/s] 63%|██████▎   | 7429/11858 [1:02:58<36:18,  2.03it/s] 63%|██████▎   | 7430/11858 [1:02:59<36:15,  2.04it/s] 63%|██████▎   | 7431/11858 [1:02:59<36:14,  2.04it/s] 63%|██████▎   | 7432/11858 [1:03:00<36:15,  2.03it/s] 63%|██████▎   | 7433/11858 [1:03:00<36:11,  2.04it/s] 63%|██████▎   | 7434/11858 [1:03:01<36:14,  2.03it/s] 63%|██████▎   | 7435/11858 [1:03:01<36:14,  2.03it/s] 63%|██████▎   | 7436/11858 [1:03:02<36:12,  2.04it/s] 63%|██████▎   | 7437/11858 [1:03:02<36:13,  2.03it/s] 63%|██████▎   | 7438/11858 [1:03:03<36:12,  2.03it/s] 63%|██████▎   | 7439/11858 [1:03:03<36:08,  2.04it/s] 63%|██████▎   | 7440/11858 [1:03:04<36:09,  2.04it/s] 63%|██████▎   | 7441/11858 [1:03:04<36:09,  2.04it/s] 63%|██████▎   | 7442/11858 [1:03:05<36:06,  2.04it/s] 63%|██████▎   | 7443/11858 [1:03:05<36:06,  2.04it/s] 63%|██████▎   | 7444/11858 [1:03:06<36:08,  2.04it/s] 63%|██████▎   | 7445/11858 [1:03:06<36:06,  2.04it/s] 63%|██████▎   | 7446/11858 [1:03:07<36:09,  2.03it/s] 63%|██████▎   | 7447/11858 [1:03:07<36:08,  2.03it/s] 63%|██████▎   | 7448/11858 [1:03:07<36:06,  2.04it/s] 63%|██████▎   | 7449/11858 [1:03:08<36:06,  2.03it/s] 63%|██████▎   | 7450/11858 [1:03:08<36:06,  2.03it/s]                                                      {'loss': 1.6983, 'grad_norm': 0.32622015476226807, 'learning_rate': 0.0003651016144214878, 'epoch': 8.79}
- 63%|██████▎   | 7450/11858 [1:03:08<36:06,  2.03it/s] 63%|██████▎   | 7451/11858 [1:03:09<36:07,  2.03it/s] 63%|██████▎   | 7452/11858 [1:03:09<36:08,  2.03it/s] 63%|██████▎   | 7453/11858 [1:03:10<36:05,  2.03it/s] 63%|██████▎   | 7454/11858 [1:03:10<36:03,  2.04it/s] 63%|██████▎   | 7455/11858 [1:03:11<36:03,  2.03it/s] 63%|██████▎   | 7456/11858 [1:03:11<36:02,  2.04it/s] 63%|██████▎   | 7457/11858 [1:03:12<36:00,  2.04it/s] 63%|██████▎   | 7458/11858 [1:03:12<36:01,  2.04it/s] 63%|██████▎   | 7459/11858 [1:03:13<36:01,  2.03it/s] 63%|██████▎   | 7460/11858 [1:03:13<36:02,  2.03it/s] 63%|██████▎   | 7461/11858 [1:03:14<36:03,  2.03it/s] 63%|██████▎   | 7462/11858 [1:03:14<36:00,  2.03it/s] 63%|██████▎   | 7463/11858 [1:03:15<35:59,  2.03it/s] 63%|██████▎   | 7464/11858 [1:03:15<36:02,  2.03it/s] 63%|██████▎   | 7465/11858 [1:03:16<35:59,  2.03it/s] 63%|██████▎   | 7466/11858 [1:03:16<36:00,  2.03it/s] 63%|██████▎   | 7467/11858 [1:03:17<36:00,  2.03it/s] 63%|██████▎   | 7468/11858 [1:03:17<36:00,  2.03it/s] 63%|██████▎   | 7469/11858 [1:03:18<35:59,  2.03it/s] 63%|██████▎   | 7470/11858 [1:03:18<35:59,  2.03it/s] 63%|██████▎   | 7471/11858 [1:03:19<35:58,  2.03it/s] 63%|██████▎   | 7472/11858 [1:03:19<35:57,  2.03it/s] 63%|██████▎   | 7473/11858 [1:03:20<35:57,  2.03it/s] 63%|██████▎   | 7474/11858 [1:03:20<35:57,  2.03it/s] 63%|██████▎   | 7475/11858 [1:03:21<35:57,  2.03it/s]                                                      {'loss': 1.7043, 'grad_norm': 0.36951151490211487, 'learning_rate': 0.0003615620392616651, 'epoch': 8.82}
- 63%|██████▎   | 7475/11858 [1:03:21<35:57,  2.03it/s] 63%|██████▎   | 7476/11858 [1:03:21<35:57,  2.03it/s] 63%|██████▎   | 7477/11858 [1:03:22<35:56,  2.03it/s] 63%|██████▎   | 7478/11858 [1:03:22<35:57,  2.03it/s] 63%|██████▎   | 7479/11858 [1:03:23<35:54,  2.03it/s] 63%|██████▎   | 7480/11858 [1:03:23<35:52,  2.03it/s] 63%|██████▎   | 7481/11858 [1:03:24<35:53,  2.03it/s] 63%|██████▎   | 7482/11858 [1:03:24<35:53,  2.03it/s] 63%|██████▎   | 7483/11858 [1:03:25<35:52,  2.03it/s] 63%|██████▎   | 7484/11858 [1:03:25<35:53,  2.03it/s] 63%|██████▎   | 7485/11858 [1:03:26<35:53,  2.03it/s] 63%|██████▎   | 7486/11858 [1:03:26<35:51,  2.03it/s] 63%|██████▎   | 7487/11858 [1:03:27<35:51,  2.03it/s] 63%|██████▎   | 7488/11858 [1:03:27<35:51,  2.03it/s] 63%|██████▎   | 7489/11858 [1:03:28<35:50,  2.03it/s] 63%|██████▎   | 7490/11858 [1:03:28<35:50,  2.03it/s] 63%|██████▎   | 7491/11858 [1:03:29<35:47,  2.03it/s] 63%|██████▎   | 7492/11858 [1:03:29<35:46,  2.03it/s] 63%|██████▎   | 7493/11858 [1:03:30<35:47,  2.03it/s] 63%|██████▎   | 7494/11858 [1:03:30<35:45,  2.03it/s] 63%|██████▎   | 7495/11858 [1:03:31<35:45,  2.03it/s] 63%|██████▎   | 7496/11858 [1:03:31<35:46,  2.03it/s] 63%|██████▎   | 7497/11858 [1:03:32<35:42,  2.04it/s] 63%|██████▎   | 7498/11858 [1:03:32<35:43,  2.03it/s] 63%|██████▎   | 7499/11858 [1:03:33<35:44,  2.03it/s] 63%|██████▎   | 7500/11858 [1:03:33<35:42,  2.03it/s]                                                      {'loss': 1.6973, 'grad_norm': 0.29549089074134827, 'learning_rate': 0.00035802996203151657, 'epoch': 8.85}
- 63%|██████▎   | 7500/11858 [1:03:33<35:42,  2.03it/s] 63%|██████▎   | 7501/11858 [1:03:34<35:45,  2.03it/s] 63%|██████▎   | 7502/11858 [1:03:34<35:42,  2.03it/s] 63%|██████▎   | 7503/11858 [1:03:35<35:39,  2.04it/s] 63%|██████▎   | 7504/11858 [1:03:35<35:40,  2.03it/s] 63%|██████▎   | 7505/11858 [1:03:36<35:40,  2.03it/s] 63%|██████▎   | 7506/11858 [1:03:36<35:38,  2.03it/s] 63%|██████▎   | 7507/11858 [1:03:37<35:38,  2.03it/s] 63%|██████▎   | 7508/11858 [1:03:37<35:38,  2.03it/s] 63%|██████▎   | 7509/11858 [1:03:37<35:39,  2.03it/s] 63%|██████▎   | 7510/11858 [1:03:38<35:39,  2.03it/s] 63%|██████▎   | 7511/11858 [1:03:38<35:36,  2.03it/s] 63%|██████▎   | 7512/11858 [1:03:39<35:37,  2.03it/s] 63%|██████▎   | 7513/11858 [1:03:39<35:37,  2.03it/s] 63%|██████▎   | 7514/11858 [1:03:40<35:37,  2.03it/s] 63%|██████▎   | 7515/11858 [1:03:40<35:36,  2.03it/s] 63%|██████▎   | 7516/11858 [1:03:41<35:34,  2.03it/s] 63%|██████▎   | 7517/11858 [1:03:41<35:35,  2.03it/s] 63%|██████▎   | 7518/11858 [1:03:42<35:34,  2.03it/s] 63%|██████▎   | 7519/11858 [1:03:42<35:32,  2.03it/s] 63%|██████▎   | 7520/11858 [1:03:43<35:32,  2.03it/s] 63%|██████▎   | 7521/11858 [1:03:43<35:33,  2.03it/s] 63%|██████▎   | 7522/11858 [1:03:44<35:31,  2.03it/s] 63%|██████▎   | 7523/11858 [1:03:44<35:29,  2.04it/s] 63%|██████▎   | 7524/11858 [1:03:45<35:32,  2.03it/s] 63%|██████▎   | 7525/11858 [1:03:45<35:31,  2.03it/s]                                                      {'loss': 1.6818, 'grad_norm': 0.29099035263061523, 'learning_rate': 0.0003545055740316551, 'epoch': 8.88}
- 63%|██████▎   | 7525/11858 [1:03:45<35:31,  2.03it/s] 63%|██████▎   | 7526/11858 [1:03:46<35:31,  2.03it/s] 63%|██████▎   | 7527/11858 [1:03:46<35:31,  2.03it/s] 63%|██████▎   | 7528/11858 [1:03:47<35:30,  2.03it/s] 63%|██████▎   | 7529/11858 [1:03:47<35:29,  2.03it/s] 64%|██████▎   | 7530/11858 [1:03:48<35:28,  2.03it/s] 64%|██████▎   | 7531/11858 [1:03:48<35:29,  2.03it/s] 64%|██████▎   | 7532/11858 [1:03:49<35:26,  2.03it/s] 64%|██████▎   | 7533/11858 [1:03:49<35:26,  2.03it/s] 64%|██████▎   | 7534/11858 [1:03:50<35:25,  2.03it/s] 64%|██████▎   | 7535/11858 [1:03:50<35:23,  2.04it/s] 64%|██████▎   | 7536/11858 [1:03:51<35:24,  2.03it/s] 64%|██████▎   | 7537/11858 [1:03:51<35:25,  2.03it/s] 64%|██████▎   | 7538/11858 [1:03:52<35:23,  2.03it/s] 64%|██████▎   | 7539/11858 [1:03:52<35:24,  2.03it/s] 64%|██████▎   | 7540/11858 [1:03:53<35:24,  2.03it/s] 64%|██████▎   | 7541/11858 [1:03:53<35:23,  2.03it/s] 64%|██████▎   | 7542/11858 [1:03:54<35:24,  2.03it/s] 64%|██████▎   | 7543/11858 [1:03:54<35:21,  2.03it/s] 64%|██████▎   | 7544/11858 [1:03:55<35:20,  2.03it/s] 64%|██████▎   | 7545/11858 [1:03:55<35:21,  2.03it/s] 64%|██████▎   | 7546/11858 [1:03:56<35:20,  2.03it/s] 64%|██████▎   | 7547/11858 [1:03:56<35:18,  2.03it/s] 64%|██████▎   | 7548/11858 [1:03:57<35:20,  2.03it/s] 64%|██████▎   | 7549/11858 [1:03:57<35:18,  2.03it/s] 64%|██████▎   | 7550/11858 [1:03:58<35:19,  2.03it/s]                                                      {'loss': 1.7115, 'grad_norm': 0.2917289137840271, 'learning_rate': 0.00035098906614623715, 'epoch': 8.91}
- 64%|██████▎   | 7550/11858 [1:03:58<35:19,  2.03it/s] 64%|██████▎   | 7551/11858 [1:03:58<35:21,  2.03it/s] 64%|██████▎   | 7552/11858 [1:03:59<35:18,  2.03it/s] 64%|██████▎   | 7553/11858 [1:03:59<35:18,  2.03it/s] 64%|██████▎   | 7554/11858 [1:04:00<35:17,  2.03it/s] 64%|██████▎   | 7555/11858 [1:04:00<35:16,  2.03it/s] 64%|██████▎   | 7556/11858 [1:04:01<35:16,  2.03it/s] 64%|██████▎   | 7557/11858 [1:04:01<35:16,  2.03it/s] 64%|██████▎   | 7558/11858 [1:04:02<35:17,  2.03it/s] 64%|██████▎   | 7559/11858 [1:04:02<35:16,  2.03it/s] 64%|██████▍   | 7560/11858 [1:04:03<35:14,  2.03it/s] 64%|██████▍   | 7561/11858 [1:04:03<35:14,  2.03it/s] 64%|██████▍   | 7562/11858 [1:04:04<35:13,  2.03it/s] 64%|██████▍   | 7563/11858 [1:04:04<35:11,  2.03it/s] 64%|██████▍   | 7564/11858 [1:04:05<35:10,  2.03it/s] 64%|██████▍   | 7565/11858 [1:04:05<35:10,  2.03it/s] 64%|██████▍   | 7566/11858 [1:04:06<35:10,  2.03it/s] 64%|██████▍   | 7567/11858 [1:04:06<35:09,  2.03it/s] 64%|██████▍   | 7568/11858 [1:04:07<35:10,  2.03it/s] 64%|██████▍   | 7569/11858 [1:04:07<35:10,  2.03it/s] 64%|██████▍   | 7570/11858 [1:04:07<35:09,  2.03it/s] 64%|██████▍   | 7571/11858 [1:04:08<35:09,  2.03it/s] 64%|██████▍   | 7572/11858 [1:04:08<35:08,  2.03it/s] 64%|██████▍   | 7573/11858 [1:04:09<35:07,  2.03it/s] 64%|██████▍   | 7574/11858 [1:04:09<35:05,  2.03it/s] 64%|██████▍   | 7575/11858 [1:04:10<35:05,  2.03it/s]                                                      {'loss': 1.6929, 'grad_norm': 0.2937314808368683, 'learning_rate': 0.00034748062883262486, 'epoch': 8.94}
- 64%|██████▍   | 7575/11858 [1:04:10<35:05,  2.03it/s] 64%|██████▍   | 7576/11858 [1:04:10<35:07,  2.03it/s] 64%|██████▍   | 7577/11858 [1:04:11<35:08,  2.03it/s] 64%|██████▍   | 7578/11858 [1:04:11<35:07,  2.03it/s] 64%|██████▍   | 7579/11858 [1:04:12<35:05,  2.03it/s] 64%|██████▍   | 7580/11858 [1:04:12<35:04,  2.03it/s] 64%|██████▍   | 7581/11858 [1:04:13<35:03,  2.03it/s] 64%|██████▍   | 7582/11858 [1:04:13<35:03,  2.03it/s] 64%|██████▍   | 7583/11858 [1:04:14<35:02,  2.03it/s] 64%|██████▍   | 7584/11858 [1:04:14<35:02,  2.03it/s] 64%|██████▍   | 7585/11858 [1:04:15<35:02,  2.03it/s] 64%|██████▍   | 7586/11858 [1:04:15<35:00,  2.03it/s] 64%|██████▍   | 7587/11858 [1:04:16<34:58,  2.03it/s] 64%|██████▍   | 7588/11858 [1:04:16<34:59,  2.03it/s] 64%|██████▍   | 7589/11858 [1:04:17<34:57,  2.04it/s] 64%|██████▍   | 7590/11858 [1:04:17<34:59,  2.03it/s] 64%|██████▍   | 7591/11858 [1:04:18<35:00,  2.03it/s] 64%|██████▍   | 7592/11858 [1:04:18<34:58,  2.03it/s] 64%|██████▍   | 7593/11858 [1:04:19<34:57,  2.03it/s] 64%|██████▍   | 7594/11858 [1:04:19<34:56,  2.03it/s] 64%|██████▍   | 7595/11858 [1:04:20<34:55,  2.03it/s] 64%|██████▍   | 7596/11858 [1:04:20<34:56,  2.03it/s] 64%|██████▍   | 7597/11858 [1:04:21<34:54,  2.03it/s] 64%|██████▍   | 7598/11858 [1:04:21<34:53,  2.03it/s] 64%|██████▍   | 7599/11858 [1:04:22<34:54,  2.03it/s] 64%|██████▍   | 7600/11858 [1:04:22<34:53,  2.03it/s]                                                      {'loss': 1.7032, 'grad_norm': 0.37486350536346436, 'learning_rate': 0.0003439804521110708, 'epoch': 8.97}
- 64%|██████▍   | 7600/11858 [1:04:22<34:53,  2.03it/s] 64%|██████▍   | 7601/11858 [1:04:23<34:55,  2.03it/s] 64%|██████▍   | 7602/11858 [1:04:23<34:54,  2.03it/s] 64%|██████▍   | 7603/11858 [1:04:24<34:52,  2.03it/s] 64%|██████▍   | 7604/11858 [1:04:24<34:50,  2.03it/s] 64%|██████▍   | 7605/11858 [1:04:25<34:51,  2.03it/s] 64%|██████▍   | 7606/11858 [1:04:25<34:49,  2.03it/s] 64%|██████▍   | 7607/11858 [1:04:26<34:49,  2.03it/s] 64%|██████▍   | 7608/11858 [1:04:26<34:50,  2.03it/s] 64%|██████▍   | 7609/11858 [1:04:27<34:48,  2.03it/s] 64%|██████▍   | 7610/11858 [1:04:27<34:47,  2.03it/s] 64%|██████▍   | 7611/11858 [1:04:28<34:48,  2.03it/s] 64%|██████▍   | 7612/11858 [1:04:28<34:47,  2.03it/s] 64%|██████▍   | 7613/11858 [1:04:29<34:45,  2.04it/s] 64%|██████▍   | 7614/11858 [1:04:29<34:46,  2.03it/s] 64%|██████▍   | 7615/11858 [1:04:30<34:46,  2.03it/s] 64%|██████▍   | 7616/11858 [1:04:30<37:48,  1.87it/s] 64%|██████▍   | 7617/11858 [1:04:31<36:52,  1.92it/s] 64%|██████▍   | 7618/11858 [1:04:31<36:13,  1.95it/s] 64%|██████▍   | 7619/11858 [1:04:32<35:44,  1.98it/s] 64%|██████▍   | 7620/11858 [1:04:32<35:26,  1.99it/s] 64%|██████▍   | 7621/11858 [1:04:33<35:13,  2.00it/s] 64%|██████▍   | 7622/11858 [1:04:33<35:05,  2.01it/s] 64%|██████▍   | 7623/11858 [1:04:34<34:58,  2.02it/s] 64%|██████▍   | 7624/11858 [1:04:34<34:51,  2.02it/s] 64%|██████▍   | 7625/11858 [1:04:35<34:49,  2.03it/s]                                                      {'loss': 1.7028, 'grad_norm': 0.3370336592197418, 'learning_rate': 0.0003404887255544258, 'epoch': 9.0}
- 64%|██████▍   | 7625/11858 [1:04:35<34:49,  2.03it/s] 64%|██████▍   | 7626/11858 [1:04:35<34:49,  2.03it/s] 64%|██████▍   | 7627/11858 [1:04:36<35:40,  1.98it/s] 64%|██████▍   | 7628/11858 [1:04:48<4:38:21,  3.95s/it] 64%|██████▍   | 7629/11858 [1:04:48<3:25:24,  2.91s/it] 64%|██████▍   | 7630/11858 [1:04:49<2:34:10,  2.19s/it] 64%|██████▍   | 7631/11858 [1:04:49<1:58:17,  1.68s/it] 64%|██████▍   | 7632/11858 [1:04:50<1:33:10,  1.32s/it] 64%|██████▍   | 7633/11858 [1:04:50<1:15:47,  1.08s/it] 64%|██████▍   | 7634/11858 [1:04:51<1:03:31,  1.11it/s] 64%|██████▍   | 7635/11858 [1:04:51<54:51,  1.28it/s]   64%|██████▍   | 7636/11858 [1:04:52<48:51,  1.44it/s] 64%|██████▍   | 7637/11858 [1:04:52<44:33,  1.58it/s] 64%|██████▍   | 7638/11858 [1:04:53<41:34,  1.69it/s] 64%|██████▍   | 7639/11858 [1:04:53<39:31,  1.78it/s] 64%|██████▍   | 7640/11858 [1:04:54<38:04,  1.85it/s] 64%|██████▍   | 7641/11858 [1:04:54<37:00,  1.90it/s] 64%|██████▍   | 7642/11858 [1:04:55<36:15,  1.94it/s] 64%|██████▍   | 7643/11858 [1:04:55<35:44,  1.97it/s] 64%|██████▍   | 7644/11858 [1:04:56<35:22,  1.99it/s] 64%|██████▍   | 7645/11858 [1:04:56<35:06,  2.00it/s] 64%|██████▍   | 7646/11858 [1:04:57<34:57,  2.01it/s] 64%|██████▍   | 7647/11858 [1:04:57<34:48,  2.02it/s] 64%|██████▍   | 7648/11858 [1:04:58<34:48,  2.02it/s] 65%|██████▍   | 7649/11858 [1:04:58<34:42,  2.02it/s] 65%|██████▍   | 7650/11858 [1:04:59<34:37,  2.03it/s]                                                      {'loss': 1.5662, 'grad_norm': 0.29725778102874756, 'learning_rate': 0.0003370056382778722, 'epoch': 9.03}
- 65%|██████▍   | 7650/11858 [1:04:59<34:37,  2.03it/s] 65%|██████▍   | 7651/11858 [1:04:59<34:41,  2.02it/s] 65%|██████▍   | 7652/11858 [1:05:00<34:37,  2.02it/s] 65%|██████▍   | 7653/11858 [1:05:00<34:35,  2.03it/s] 65%|██████▍   | 7654/11858 [1:05:01<34:38,  2.02it/s] 65%|██████▍   | 7655/11858 [1:05:01<34:35,  2.03it/s] 65%|██████▍   | 7656/11858 [1:05:02<34:34,  2.03it/s] 65%|██████▍   | 7657/11858 [1:05:02<34:31,  2.03it/s] 65%|██████▍   | 7658/11858 [1:05:02<34:26,  2.03it/s] 65%|██████▍   | 7659/11858 [1:05:03<34:24,  2.03it/s] 65%|██████▍   | 7660/11858 [1:05:03<34:24,  2.03it/s] 65%|██████▍   | 7661/11858 [1:05:04<34:23,  2.03it/s] 65%|██████▍   | 7662/11858 [1:05:04<34:19,  2.04it/s] 65%|██████▍   | 7663/11858 [1:05:05<34:20,  2.04it/s] 65%|██████▍   | 7664/11858 [1:05:05<34:19,  2.04it/s] 65%|██████▍   | 7665/11858 [1:05:06<34:18,  2.04it/s] 65%|██████▍   | 7666/11858 [1:05:06<34:19,  2.04it/s] 65%|██████▍   | 7667/11858 [1:05:07<34:19,  2.03it/s] 65%|██████▍   | 7668/11858 [1:05:07<34:17,  2.04it/s] 65%|██████▍   | 7669/11858 [1:05:08<34:19,  2.03it/s] 65%|██████▍   | 7670/11858 [1:05:08<34:17,  2.04it/s] 65%|██████▍   | 7671/11858 [1:05:09<34:17,  2.04it/s] 65%|██████▍   | 7672/11858 [1:05:09<34:17,  2.03it/s] 65%|██████▍   | 7673/11858 [1:05:10<34:15,  2.04it/s] 65%|██████▍   | 7674/11858 [1:05:10<34:14,  2.04it/s] 65%|██████▍   | 7675/11858 [1:05:11<34:16,  2.03it/s]                                                      {'loss': 1.5689, 'grad_norm': 0.34578055143356323, 'learning_rate': 0.00033353137892868045, 'epoch': 9.06}
- 65%|██████▍   | 7675/11858 [1:05:11<34:16,  2.03it/s] 65%|██████▍   | 7676/11858 [1:05:11<34:17,  2.03it/s] 65%|██████▍   | 7677/11858 [1:05:12<34:17,  2.03it/s] 65%|██████▍   | 7678/11858 [1:05:12<34:14,  2.03it/s] 65%|██████▍   | 7679/11858 [1:05:13<34:12,  2.04it/s] 65%|██████▍   | 7680/11858 [1:05:13<34:12,  2.04it/s] 65%|██████▍   | 7681/11858 [1:05:14<34:13,  2.03it/s] 65%|██████▍   | 7682/11858 [1:05:14<34:11,  2.04it/s] 65%|██████▍   | 7683/11858 [1:05:15<37:10,  1.87it/s] 65%|██████▍   | 7684/11858 [1:05:15<36:16,  1.92it/s] 65%|██████▍   | 7685/11858 [1:05:16<35:38,  1.95it/s] 65%|██████▍   | 7686/11858 [1:05:16<35:12,  1.97it/s] 65%|██████▍   | 7687/11858 [1:05:17<34:52,  1.99it/s] 65%|██████▍   | 7688/11858 [1:05:17<34:41,  2.00it/s] 65%|██████▍   | 7689/11858 [1:05:18<34:31,  2.01it/s] 65%|██████▍   | 7690/11858 [1:05:18<34:24,  2.02it/s] 65%|██████▍   | 7691/11858 [1:05:19<34:20,  2.02it/s] 65%|██████▍   | 7692/11858 [1:05:19<34:16,  2.03it/s] 65%|██████▍   | 7693/11858 [1:05:20<34:12,  2.03it/s] 65%|██████▍   | 7694/11858 [1:05:20<34:12,  2.03it/s] 65%|██████▍   | 7695/11858 [1:05:21<34:09,  2.03it/s] 65%|██████▍   | 7696/11858 [1:05:21<34:06,  2.03it/s] 65%|██████▍   | 7697/11858 [1:05:22<34:07,  2.03it/s] 65%|██████▍   | 7698/11858 [1:05:22<34:05,  2.03it/s] 65%|██████▍   | 7699/11858 [1:05:23<34:06,  2.03it/s] 65%|██████▍   | 7700/11858 [1:05:23<34:05,  2.03it/s]                                                      {'loss': 1.5853, 'grad_norm': 0.330570250749588, 'learning_rate': 0.00033006613567599264, 'epoch': 9.09}
- 65%|██████▍   | 7700/11858 [1:05:23<34:05,  2.03it/s] 65%|██████▍   | 7701/11858 [1:05:24<34:06,  2.03it/s] 65%|██████▍   | 7702/11858 [1:05:24<34:06,  2.03it/s] 65%|██████▍   | 7703/11858 [1:05:25<34:06,  2.03it/s] 65%|██████▍   | 7704/11858 [1:05:25<34:05,  2.03it/s] 65%|██████▍   | 7705/11858 [1:05:26<34:05,  2.03it/s] 65%|██████▍   | 7706/11858 [1:05:26<34:04,  2.03it/s] 65%|██████▍   | 7707/11858 [1:05:27<34:06,  2.03it/s] 65%|██████▌   | 7708/11858 [1:05:27<34:03,  2.03it/s] 65%|██████▌   | 7709/11858 [1:05:28<34:03,  2.03it/s] 65%|██████▌   | 7710/11858 [1:05:28<34:03,  2.03it/s] 65%|██████▌   | 7711/11858 [1:05:29<34:00,  2.03it/s] 65%|██████▌   | 7712/11858 [1:05:29<34:00,  2.03it/s] 65%|██████▌   | 7713/11858 [1:05:30<33:59,  2.03it/s] 65%|██████▌   | 7714/11858 [1:05:30<33:59,  2.03it/s] 65%|██████▌   | 7715/11858 [1:05:31<33:59,  2.03it/s] 65%|██████▌   | 7716/11858 [1:05:31<33:58,  2.03it/s] 65%|██████▌   | 7717/11858 [1:05:32<33:59,  2.03it/s] 65%|██████▌   | 7718/11858 [1:05:32<33:59,  2.03it/s] 65%|██████▌   | 7719/11858 [1:05:33<33:58,  2.03it/s] 65%|██████▌   | 7720/11858 [1:05:33<33:57,  2.03it/s] 65%|██████▌   | 7721/11858 [1:05:34<33:58,  2.03it/s] 65%|██████▌   | 7722/11858 [1:05:34<33:57,  2.03it/s] 65%|██████▌   | 7723/11858 [1:05:35<33:58,  2.03it/s] 65%|██████▌   | 7724/11858 [1:05:35<33:55,  2.03it/s] 65%|██████▌   | 7725/11858 [1:05:36<33:54,  2.03it/s]                                                      {'loss': 1.585, 'grad_norm': 0.3091517686843872, 'learning_rate': 0.0003266100962006301, 'epoch': 9.12}
- 65%|██████▌   | 7725/11858 [1:05:36<33:54,  2.03it/s] 65%|██████▌   | 7726/11858 [1:05:36<33:56,  2.03it/s] 65%|██████▌   | 7727/11858 [1:05:37<33:56,  2.03it/s] 65%|██████▌   | 7728/11858 [1:05:37<33:55,  2.03it/s] 65%|██████▌   | 7729/11858 [1:05:38<33:52,  2.03it/s] 65%|██████▌   | 7730/11858 [1:05:38<33:52,  2.03it/s] 65%|██████▌   | 7731/11858 [1:05:39<33:54,  2.03it/s] 65%|██████▌   | 7732/11858 [1:05:39<33:53,  2.03it/s] 65%|██████▌   | 7733/11858 [1:05:40<33:52,  2.03it/s] 65%|██████▌   | 7734/11858 [1:05:40<33:51,  2.03it/s] 65%|██████▌   | 7735/11858 [1:05:41<33:49,  2.03it/s] 65%|██████▌   | 7736/11858 [1:05:41<33:51,  2.03it/s] 65%|██████▌   | 7737/11858 [1:05:42<33:52,  2.03it/s] 65%|██████▌   | 7738/11858 [1:05:42<33:52,  2.03it/s] 65%|██████▌   | 7739/11858 [1:05:42<33:51,  2.03it/s] 65%|██████▌   | 7740/11858 [1:05:43<33:48,  2.03it/s] 65%|██████▌   | 7741/11858 [1:05:43<33:49,  2.03it/s] 65%|██████▌   | 7742/11858 [1:05:44<33:47,  2.03it/s] 65%|██████▌   | 7743/11858 [1:05:44<33:46,  2.03it/s] 65%|██████▌   | 7744/11858 [1:05:45<33:46,  2.03it/s] 65%|██████▌   | 7745/11858 [1:05:45<33:43,  2.03it/s] 65%|██████▌   | 7746/11858 [1:05:46<33:42,  2.03it/s] 65%|██████▌   | 7747/11858 [1:05:46<33:43,  2.03it/s] 65%|██████▌   | 7748/11858 [1:05:47<33:42,  2.03it/s] 65%|██████▌   | 7749/11858 [1:05:47<33:44,  2.03it/s] 65%|██████▌   | 7750/11858 [1:05:48<33:42,  2.03it/s]                                                      {'loss': 1.5954, 'grad_norm': 0.2968948781490326, 'learning_rate': 0.0003231634476849295, 'epoch': 9.14}
- 65%|██████▌   | 7750/11858 [1:05:48<33:42,  2.03it/s] 65%|██████▌   | 7751/11858 [1:05:48<33:46,  2.03it/s] 65%|██████▌   | 7752/11858 [1:05:49<33:45,  2.03it/s] 65%|██████▌   | 7753/11858 [1:05:49<33:42,  2.03it/s] 65%|██████▌   | 7754/11858 [1:05:50<33:43,  2.03it/s] 65%|██████▌   | 7755/11858 [1:05:50<33:40,  2.03it/s] 65%|██████▌   | 7756/11858 [1:05:51<33:39,  2.03it/s] 65%|██████▌   | 7757/11858 [1:05:51<33:38,  2.03it/s] 65%|██████▌   | 7758/11858 [1:05:52<33:35,  2.03it/s] 65%|██████▌   | 7759/11858 [1:05:52<33:37,  2.03it/s] 65%|██████▌   | 7760/11858 [1:05:53<33:36,  2.03it/s] 65%|██████▌   | 7761/11858 [1:05:53<33:35,  2.03it/s] 65%|██████▌   | 7762/11858 [1:05:54<33:36,  2.03it/s] 65%|██████▌   | 7763/11858 [1:05:54<33:35,  2.03it/s] 65%|██████▌   | 7764/11858 [1:05:55<33:35,  2.03it/s] 65%|██████▌   | 7765/11858 [1:05:55<33:36,  2.03it/s] 65%|██████▌   | 7766/11858 [1:05:56<33:34,  2.03it/s] 66%|██████▌   | 7767/11858 [1:05:56<33:35,  2.03it/s] 66%|██████▌   | 7768/11858 [1:05:57<33:33,  2.03it/s] 66%|██████▌   | 7769/11858 [1:05:57<33:32,  2.03it/s] 66%|██████▌   | 7770/11858 [1:05:58<33:31,  2.03it/s] 66%|██████▌   | 7771/11858 [1:05:58<33:30,  2.03it/s] 66%|██████▌   | 7772/11858 [1:05:59<33:30,  2.03it/s] 66%|██████▌   | 7773/11858 [1:05:59<33:31,  2.03it/s] 66%|██████▌   | 7774/11858 [1:06:00<33:31,  2.03it/s] 66%|██████▌   | 7775/11858 [1:06:00<33:30,  2.03it/s]                                                      {'loss': 1.5723, 'grad_norm': 0.29054567217826843, 'learning_rate': 0.00031972637680260387, 'epoch': 9.17}
- 66%|██████▌   | 7775/11858 [1:06:00<33:30,  2.03it/s] 66%|██████▌   | 7776/11858 [1:06:01<33:31,  2.03it/s] 66%|██████▌   | 7777/11858 [1:06:01<33:31,  2.03it/s] 66%|██████▌   | 7778/11858 [1:06:02<33:31,  2.03it/s] 66%|██████▌   | 7779/11858 [1:06:02<33:30,  2.03it/s] 66%|██████▌   | 7780/11858 [1:06:03<33:30,  2.03it/s] 66%|██████▌   | 7781/11858 [1:06:03<33:31,  2.03it/s] 66%|██████▌   | 7782/11858 [1:06:04<33:30,  2.03it/s] 66%|██████▌   | 7783/11858 [1:06:04<33:28,  2.03it/s] 66%|██████▌   | 7784/11858 [1:06:05<33:28,  2.03it/s] 66%|██████▌   | 7785/11858 [1:06:05<33:27,  2.03it/s] 66%|██████▌   | 7786/11858 [1:06:06<33:25,  2.03it/s] 66%|██████▌   | 7787/11858 [1:06:06<33:23,  2.03it/s] 66%|██████▌   | 7788/11858 [1:06:07<33:24,  2.03it/s] 66%|██████▌   | 7789/11858 [1:06:07<33:24,  2.03it/s] 66%|██████▌   | 7790/11858 [1:06:08<33:24,  2.03it/s] 66%|██████▌   | 7791/11858 [1:06:08<33:22,  2.03it/s] 66%|██████▌   | 7792/11858 [1:06:09<33:34,  2.02it/s] 66%|██████▌   | 7793/11858 [1:06:09<33:30,  2.02it/s] 66%|██████▌   | 7794/11858 [1:06:10<33:27,  2.02it/s] 66%|██████▌   | 7795/11858 [1:06:10<33:25,  2.03it/s] 66%|██████▌   | 7796/11858 [1:06:11<33:22,  2.03it/s] 66%|██████▌   | 7797/11858 [1:06:11<33:21,  2.03it/s] 66%|██████▌   | 7798/11858 [1:06:12<33:20,  2.03it/s] 66%|██████▌   | 7799/11858 [1:06:12<33:18,  2.03it/s] 66%|██████▌   | 7800/11858 [1:06:13<33:17,  2.03it/s]                                                      {'loss': 1.6015, 'grad_norm': 0.2960878014564514, 'learning_rate': 0.0003162990697086332, 'epoch': 9.2}
- 66%|██████▌   | 7800/11858 [1:06:13<33:17,  2.03it/s] 66%|██████▌   | 7801/11858 [1:06:13<33:17,  2.03it/s] 66%|██████▌   | 7802/11858 [1:06:14<33:17,  2.03it/s] 66%|██████▌   | 7803/11858 [1:06:14<33:18,  2.03it/s] 66%|██████▌   | 7804/11858 [1:06:15<33:18,  2.03it/s] 66%|██████▌   | 7805/11858 [1:06:15<33:17,  2.03it/s] 66%|██████▌   | 7806/11858 [1:06:16<33:14,  2.03it/s] 66%|██████▌   | 7807/11858 [1:06:16<33:14,  2.03it/s] 66%|██████▌   | 7808/11858 [1:06:16<33:13,  2.03it/s] 66%|██████▌   | 7809/11858 [1:06:17<33:11,  2.03it/s] 66%|██████▌   | 7810/11858 [1:06:17<33:11,  2.03it/s] 66%|██████▌   | 7811/11858 [1:06:18<33:11,  2.03it/s] 66%|██████▌   | 7812/11858 [1:06:18<33:12,  2.03it/s] 66%|██████▌   | 7813/11858 [1:06:19<33:13,  2.03it/s] 66%|██████▌   | 7814/11858 [1:06:19<33:09,  2.03it/s] 66%|██████▌   | 7815/11858 [1:06:20<33:11,  2.03it/s] 66%|██████▌   | 7816/11858 [1:06:20<33:09,  2.03it/s] 66%|██████▌   | 7817/11858 [1:06:21<33:08,  2.03it/s] 66%|██████▌   | 7818/11858 [1:06:21<33:09,  2.03it/s] 66%|██████▌   | 7819/11858 [1:06:22<33:06,  2.03it/s] 66%|██████▌   | 7820/11858 [1:06:22<33:06,  2.03it/s] 66%|██████▌   | 7821/11858 [1:06:23<33:06,  2.03it/s] 66%|██████▌   | 7822/11858 [1:06:23<33:03,  2.03it/s] 66%|██████▌   | 7823/11858 [1:06:24<33:05,  2.03it/s] 66%|██████▌   | 7824/11858 [1:06:24<33:05,  2.03it/s] 66%|██████▌   | 7825/11858 [1:06:25<33:02,  2.03it/s]                                                      {'loss': 1.5938, 'grad_norm': 0.298392653465271, 'learning_rate': 0.0003128817120291807, 'epoch': 9.23}
- 66%|██████▌   | 7825/11858 [1:06:25<33:02,  2.03it/s] 66%|██████▌   | 7826/11858 [1:06:25<33:06,  2.03it/s] 66%|██████▌   | 7827/11858 [1:06:26<33:03,  2.03it/s] 66%|██████▌   | 7828/11858 [1:06:26<33:02,  2.03it/s] 66%|██████▌   | 7829/11858 [1:06:27<33:02,  2.03it/s] 66%|██████▌   | 7830/11858 [1:06:27<33:00,  2.03it/s] 66%|██████▌   | 7831/11858 [1:06:28<33:00,  2.03it/s] 66%|██████▌   | 7832/11858 [1:06:28<33:00,  2.03it/s] 66%|██████▌   | 7833/11858 [1:06:29<32:58,  2.03it/s] 66%|██████▌   | 7834/11858 [1:06:29<33:00,  2.03it/s] 66%|██████▌   | 7835/11858 [1:06:30<32:59,  2.03it/s] 66%|██████▌   | 7836/11858 [1:06:30<32:57,  2.03it/s] 66%|██████▌   | 7837/11858 [1:06:31<32:58,  2.03it/s] 66%|██████▌   | 7838/11858 [1:06:31<32:56,  2.03it/s] 66%|██████▌   | 7839/11858 [1:06:32<32:58,  2.03it/s] 66%|██████▌   | 7840/11858 [1:06:32<32:57,  2.03it/s] 66%|██████▌   | 7841/11858 [1:06:33<32:55,  2.03it/s] 66%|██████▌   | 7842/11858 [1:06:33<32:56,  2.03it/s] 66%|██████▌   | 7843/11858 [1:06:34<32:55,  2.03it/s] 66%|██████▌   | 7844/11858 [1:06:34<32:52,  2.03it/s] 66%|██████▌   | 7845/11858 [1:06:35<32:53,  2.03it/s] 66%|██████▌   | 7846/11858 [1:06:35<32:53,  2.03it/s] 66%|██████▌   | 7847/11858 [1:06:36<32:51,  2.03it/s] 66%|██████▌   | 7848/11858 [1:06:36<32:51,  2.03it/s] 66%|██████▌   | 7849/11858 [1:06:37<32:51,  2.03it/s] 66%|██████▌   | 7850/11858 [1:06:37<32:49,  2.03it/s]                                                      {'loss': 1.5898, 'grad_norm': 0.32513347268104553, 'learning_rate': 0.00030947448885154086, 'epoch': 9.26}
- 66%|██████▌   | 7850/11858 [1:06:37<32:49,  2.03it/s] 66%|██████▌   | 7851/11858 [1:06:38<32:52,  2.03it/s] 66%|██████▌   | 7852/11858 [1:06:38<32:50,  2.03it/s] 66%|██████▌   | 7853/11858 [1:06:39<32:49,  2.03it/s] 66%|██████▌   | 7854/11858 [1:06:39<32:50,  2.03it/s] 66%|██████▌   | 7855/11858 [1:06:40<32:48,  2.03it/s] 66%|██████▋   | 7856/11858 [1:06:40<32:50,  2.03it/s] 66%|██████▋   | 7857/11858 [1:06:41<32:50,  2.03it/s] 66%|██████▋   | 7858/11858 [1:06:41<32:50,  2.03it/s] 66%|██████▋   | 7859/11858 [1:06:42<32:49,  2.03it/s] 66%|██████▋   | 7860/11858 [1:06:42<32:47,  2.03it/s] 66%|██████▋   | 7861/11858 [1:06:43<32:46,  2.03it/s] 66%|██████▋   | 7862/11858 [1:06:43<32:45,  2.03it/s] 66%|██████▋   | 7863/11858 [1:06:44<32:43,  2.03it/s] 66%|██████▋   | 7864/11858 [1:06:44<32:43,  2.03it/s] 66%|██████▋   | 7865/11858 [1:06:45<32:45,  2.03it/s] 66%|██████▋   | 7866/11858 [1:06:45<32:44,  2.03it/s] 66%|██████▋   | 7867/11858 [1:06:46<32:45,  2.03it/s] 66%|██████▋   | 7868/11858 [1:06:46<32:43,  2.03it/s] 66%|██████▋   | 7869/11858 [1:06:46<32:43,  2.03it/s] 66%|██████▋   | 7870/11858 [1:06:47<32:45,  2.03it/s] 66%|██████▋   | 7871/11858 [1:06:47<32:42,  2.03it/s] 66%|██████▋   | 7872/11858 [1:06:48<32:42,  2.03it/s] 66%|██████▋   | 7873/11858 [1:06:48<32:39,  2.03it/s] 66%|██████▋   | 7874/11858 [1:06:49<32:37,  2.03it/s] 66%|██████▋   | 7875/11858 [1:06:49<32:37,  2.03it/s]                                                      {'loss': 1.5948, 'grad_norm': 0.33638298511505127, 'learning_rate': 0.00030607758471411337, 'epoch': 9.29}
- 66%|██████▋   | 7875/11858 [1:06:49<32:37,  2.03it/s] 66%|██████▋   | 7876/11858 [1:06:50<32:37,  2.03it/s] 66%|██████▋   | 7877/11858 [1:06:50<32:38,  2.03it/s] 66%|██████▋   | 7878/11858 [1:06:51<32:40,  2.03it/s] 66%|██████▋   | 7879/11858 [1:06:51<32:38,  2.03it/s] 66%|██████▋   | 7880/11858 [1:06:52<32:39,  2.03it/s] 66%|██████▋   | 7881/11858 [1:06:52<32:38,  2.03it/s] 66%|██████▋   | 7882/11858 [1:06:53<32:40,  2.03it/s] 66%|██████▋   | 7883/11858 [1:06:53<32:38,  2.03it/s] 66%|██████▋   | 7884/11858 [1:06:54<32:36,  2.03it/s] 66%|██████▋   | 7885/11858 [1:06:54<32:36,  2.03it/s] 67%|██████▋   | 7886/11858 [1:06:55<32:35,  2.03it/s] 67%|██████▋   | 7887/11858 [1:06:55<32:33,  2.03it/s] 67%|██████▋   | 7888/11858 [1:06:56<32:36,  2.03it/s] 67%|██████▋   | 7889/11858 [1:06:56<32:33,  2.03it/s] 67%|██████▋   | 7890/11858 [1:06:57<32:34,  2.03it/s] 67%|██████▋   | 7891/11858 [1:06:57<32:34,  2.03it/s] 67%|██████▋   | 7892/11858 [1:06:58<32:36,  2.03it/s] 67%|██████▋   | 7893/11858 [1:06:58<32:34,  2.03it/s] 67%|██████▋   | 7894/11858 [1:06:59<32:31,  2.03it/s] 67%|██████▋   | 7895/11858 [1:06:59<32:31,  2.03it/s] 67%|██████▋   | 7896/11858 [1:07:00<32:31,  2.03it/s] 67%|██████▋   | 7897/11858 [1:07:00<32:31,  2.03it/s] 67%|██████▋   | 7898/11858 [1:07:01<32:31,  2.03it/s] 67%|██████▋   | 7899/11858 [1:07:01<32:30,  2.03it/s] 67%|██████▋   | 7900/11858 [1:07:02<32:29,  2.03it/s]                                                      {'loss': 1.6026, 'grad_norm': 0.3032122254371643, 'learning_rate': 0.00030269118359640957, 'epoch': 9.32}
- 67%|██████▋   | 7900/11858 [1:07:02<32:29,  2.03it/s] 67%|██████▋   | 7901/11858 [1:07:02<32:34,  2.03it/s] 67%|██████▋   | 7902/11858 [1:07:03<32:34,  2.02it/s] 67%|██████▋   | 7903/11858 [1:07:03<32:34,  2.02it/s] 67%|██████▋   | 7904/11858 [1:07:04<32:33,  2.02it/s] 67%|██████▋   | 7905/11858 [1:07:04<32:29,  2.03it/s] 67%|██████▋   | 7906/11858 [1:07:05<32:26,  2.03it/s] 67%|██████▋   | 7907/11858 [1:07:05<32:26,  2.03it/s] 67%|██████▋   | 7908/11858 [1:07:06<32:23,  2.03it/s] 67%|██████▋   | 7909/11858 [1:07:06<32:23,  2.03it/s] 67%|██████▋   | 7910/11858 [1:07:07<32:26,  2.03it/s] 67%|██████▋   | 7911/11858 [1:07:07<32:24,  2.03it/s] 67%|██████▋   | 7912/11858 [1:07:08<32:24,  2.03it/s] 67%|██████▋   | 7913/11858 [1:07:08<32:25,  2.03it/s] 67%|██████▋   | 7914/11858 [1:07:09<32:22,  2.03it/s] 67%|██████▋   | 7915/11858 [1:07:09<32:22,  2.03it/s] 67%|██████▋   | 7916/11858 [1:07:10<32:22,  2.03it/s] 67%|██████▋   | 7917/11858 [1:07:10<32:20,  2.03it/s] 67%|██████▋   | 7918/11858 [1:07:11<32:20,  2.03it/s] 67%|██████▋   | 7919/11858 [1:07:11<32:20,  2.03it/s] 67%|██████▋   | 7920/11858 [1:07:12<32:17,  2.03it/s] 67%|██████▋   | 7921/11858 [1:07:12<32:18,  2.03it/s] 67%|██████▋   | 7922/11858 [1:07:13<32:19,  2.03it/s] 67%|██████▋   | 7923/11858 [1:07:13<32:17,  2.03it/s] 67%|██████▋   | 7924/11858 [1:07:14<32:18,  2.03it/s] 67%|██████▋   | 7925/11858 [1:07:14<32:17,  2.03it/s]                                                      {'loss': 1.6009, 'grad_norm': 0.311849981546402, 'learning_rate': 0.00029931546890908694, 'epoch': 9.35}
- 67%|██████▋   | 7925/11858 [1:07:14<32:17,  2.03it/s] 67%|██████▋   | 7926/11858 [1:07:15<32:23,  2.02it/s] 67%|██████▋   | 7927/11858 [1:07:15<32:20,  2.03it/s] 67%|██████▋   | 7928/11858 [1:07:16<32:19,  2.03it/s] 67%|██████▋   | 7929/11858 [1:07:16<32:17,  2.03it/s] 67%|██████▋   | 7930/11858 [1:07:17<32:15,  2.03it/s] 67%|██████▋   | 7931/11858 [1:07:17<32:16,  2.03it/s] 67%|██████▋   | 7932/11858 [1:07:18<32:12,  2.03it/s] 67%|██████▋   | 7933/11858 [1:07:18<32:14,  2.03it/s] 67%|██████▋   | 7934/11858 [1:07:19<32:12,  2.03it/s] 67%|██████▋   | 7935/11858 [1:07:19<32:11,  2.03it/s] 67%|██████▋   | 7936/11858 [1:07:20<32:12,  2.03it/s] 67%|██████▋   | 7937/11858 [1:07:20<32:10,  2.03it/s] 67%|██████▋   | 7938/11858 [1:07:20<32:09,  2.03it/s] 67%|██████▋   | 7939/11858 [1:07:21<32:10,  2.03it/s] 67%|██████▋   | 7940/11858 [1:07:21<32:08,  2.03it/s] 67%|██████▋   | 7941/11858 [1:07:22<32:09,  2.03it/s] 67%|██████▋   | 7942/11858 [1:07:22<32:09,  2.03it/s] 67%|██████▋   | 7943/11858 [1:07:23<32:09,  2.03it/s] 67%|██████▋   | 7944/11858 [1:07:23<32:10,  2.03it/s] 67%|██████▋   | 7945/11858 [1:07:24<32:09,  2.03it/s] 67%|██████▋   | 7946/11858 [1:07:24<32:08,  2.03it/s] 67%|██████▋   | 7947/11858 [1:07:25<32:05,  2.03it/s] 67%|██████▋   | 7948/11858 [1:07:25<32:05,  2.03it/s] 67%|██████▋   | 7949/11858 [1:07:26<32:04,  2.03it/s] 67%|██████▋   | 7950/11858 [1:07:26<32:03,  2.03it/s]                                                      {'loss': 1.6018, 'grad_norm': 0.3126268982887268, 'learning_rate': 0.00029595062348401627, 'epoch': 9.38}
- 67%|██████▋   | 7950/11858 [1:07:26<32:03,  2.03it/s] 67%|██████▋   | 7951/11858 [1:07:27<32:05,  2.03it/s] 67%|██████▋   | 7952/11858 [1:07:27<32:03,  2.03it/s] 67%|██████▋   | 7953/11858 [1:07:28<32:03,  2.03it/s] 67%|██████▋   | 7954/11858 [1:07:28<32:03,  2.03it/s] 67%|██████▋   | 7955/11858 [1:07:29<32:03,  2.03it/s] 67%|██████▋   | 7956/11858 [1:07:29<32:04,  2.03it/s] 67%|██████▋   | 7957/11858 [1:07:30<32:01,  2.03it/s] 67%|██████▋   | 7958/11858 [1:07:30<32:00,  2.03it/s] 67%|██████▋   | 7959/11858 [1:07:31<32:01,  2.03it/s] 67%|██████▋   | 7960/11858 [1:07:31<32:01,  2.03it/s] 67%|██████▋   | 7961/11858 [1:07:32<32:02,  2.03it/s] 67%|██████▋   | 7962/11858 [1:07:32<32:00,  2.03it/s] 67%|██████▋   | 7963/11858 [1:07:33<31:59,  2.03it/s] 67%|██████▋   | 7964/11858 [1:07:33<32:00,  2.03it/s] 67%|██████▋   | 7965/11858 [1:07:34<31:59,  2.03it/s] 67%|██████▋   | 7966/11858 [1:07:34<31:58,  2.03it/s] 67%|██████▋   | 7967/11858 [1:07:35<32:00,  2.03it/s] 67%|██████▋   | 7968/11858 [1:07:35<32:01,  2.02it/s] 67%|██████▋   | 7969/11858 [1:07:36<31:58,  2.03it/s] 67%|██████▋   | 7970/11858 [1:07:36<31:58,  2.03it/s] 67%|██████▋   | 7971/11858 [1:07:37<31:56,  2.03it/s] 67%|██████▋   | 7972/11858 [1:07:37<31:54,  2.03it/s] 67%|██████▋   | 7973/11858 [1:07:38<31:54,  2.03it/s] 67%|██████▋   | 7974/11858 [1:07:38<31:54,  2.03it/s] 67%|██████▋   | 7975/11858 [1:07:39<31:53,  2.03it/s]                                                      {'loss': 1.5914, 'grad_norm': 0.33531928062438965, 'learning_rate': 0.00029259682956437894, 'epoch': 9.41}
- 67%|██████▋   | 7975/11858 [1:07:39<31:53,  2.03it/s] 67%|██████▋   | 7976/11858 [1:07:39<31:54,  2.03it/s] 67%|██████▋   | 7977/11858 [1:07:40<31:54,  2.03it/s] 67%|██████▋   | 7978/11858 [1:07:40<31:53,  2.03it/s] 67%|██████▋   | 7979/11858 [1:07:41<31:54,  2.03it/s] 67%|██████▋   | 7980/11858 [1:07:41<31:53,  2.03it/s] 67%|██████▋   | 7981/11858 [1:07:42<31:51,  2.03it/s] 67%|██████▋   | 7982/11858 [1:07:42<31:51,  2.03it/s] 67%|██████▋   | 7983/11858 [1:07:43<31:49,  2.03it/s] 67%|██████▋   | 7984/11858 [1:07:43<31:48,  2.03it/s] 67%|██████▋   | 7985/11858 [1:07:44<31:47,  2.03it/s] 67%|██████▋   | 7986/11858 [1:07:44<31:46,  2.03it/s] 67%|██████▋   | 7987/11858 [1:07:45<31:45,  2.03it/s] 67%|██████▋   | 7988/11858 [1:07:45<31:48,  2.03it/s] 67%|██████▋   | 7989/11858 [1:07:46<31:47,  2.03it/s] 67%|██████▋   | 7990/11858 [1:07:46<31:48,  2.03it/s] 67%|██████▋   | 7991/11858 [1:07:47<31:46,  2.03it/s] 67%|██████▋   | 7992/11858 [1:07:47<31:46,  2.03it/s] 67%|██████▋   | 7993/11858 [1:07:48<31:46,  2.03it/s] 67%|██████▋   | 7994/11858 [1:07:48<31:45,  2.03it/s] 67%|██████▋   | 7995/11858 [1:07:49<31:45,  2.03it/s] 67%|██████▋   | 7996/11858 [1:07:49<31:44,  2.03it/s] 67%|██████▋   | 7997/11858 [1:07:50<31:40,  2.03it/s] 67%|██████▋   | 7998/11858 [1:07:50<31:42,  2.03it/s] 67%|██████▋   | 7999/11858 [1:07:51<31:41,  2.03it/s] 67%|██████▋   | 8000/11858 [1:07:51<31:39,  2.03it/s]                                                      {'loss': 1.5991, 'grad_norm': 0.3003566265106201, 'learning_rate': 0.0002892542687947959, 'epoch': 9.44}
- 67%|██████▋   | 8000/11858 [1:07:51<31:39,  2.03it/s] 67%|██████▋   | 8001/11858 [1:07:52<31:42,  2.03it/s] 67%|██████▋   | 8002/11858 [1:07:52<31:39,  2.03it/s] 67%|██████▋   | 8003/11858 [1:07:53<31:39,  2.03it/s] 67%|██████▋   | 8004/11858 [1:07:53<31:39,  2.03it/s] 68%|██████▊   | 8005/11858 [1:07:54<31:37,  2.03it/s] 68%|██████▊   | 8006/11858 [1:07:54<31:38,  2.03it/s] 68%|██████▊   | 8007/11858 [1:07:55<31:36,  2.03it/s] 68%|██████▊   | 8008/11858 [1:07:55<31:34,  2.03it/s] 68%|██████▊   | 8009/11858 [1:07:55<31:35,  2.03it/s] 68%|██████▊   | 8010/11858 [1:07:56<31:33,  2.03it/s] 68%|██████▊   | 8011/11858 [1:07:56<31:33,  2.03it/s] 68%|██████▊   | 8012/11858 [1:07:57<31:34,  2.03it/s] 68%|██████▊   | 8013/11858 [1:07:57<31:35,  2.03it/s] 68%|██████▊   | 8014/11858 [1:07:58<31:34,  2.03it/s] 68%|██████▊   | 8015/11858 [1:07:58<31:32,  2.03it/s] 68%|██████▊   | 8016/11858 [1:07:59<31:31,  2.03it/s] 68%|██████▊   | 8017/11858 [1:07:59<31:31,  2.03it/s] 68%|██████▊   | 8018/11858 [1:08:00<31:31,  2.03it/s] 68%|██████▊   | 8019/11858 [1:08:00<31:32,  2.03it/s] 68%|██████▊   | 8020/11858 [1:08:01<31:31,  2.03it/s] 68%|██████▊   | 8021/11858 [1:08:01<31:30,  2.03it/s] 68%|██████▊   | 8022/11858 [1:08:02<31:31,  2.03it/s] 68%|██████▊   | 8023/11858 [1:08:02<31:29,  2.03it/s] 68%|██████▊   | 8024/11858 [1:08:03<31:29,  2.03it/s] 68%|██████▊   | 8025/11858 [1:08:03<31:28,  2.03it/s]                                                      {'loss': 1.6008, 'grad_norm': 0.31853997707366943, 'learning_rate': 0.0002859231222114905, 'epoch': 9.47}
- 68%|██████▊   | 8025/11858 [1:08:03<31:28,  2.03it/s] 68%|██████▊   | 8026/11858 [1:08:04<31:29,  2.03it/s] 68%|██████▊   | 8027/11858 [1:08:04<31:28,  2.03it/s] 68%|██████▊   | 8028/11858 [1:08:05<31:26,  2.03it/s] 68%|██████▊   | 8029/11858 [1:08:05<31:26,  2.03it/s] 68%|██████▊   | 8030/11858 [1:08:06<31:26,  2.03it/s] 68%|██████▊   | 8031/11858 [1:08:06<31:23,  2.03it/s] 68%|██████▊   | 8032/11858 [1:08:07<31:25,  2.03it/s] 68%|██████▊   | 8033/11858 [1:08:07<31:23,  2.03it/s] 68%|██████▊   | 8034/11858 [1:08:08<31:22,  2.03it/s] 68%|██████▊   | 8035/11858 [1:08:08<31:21,  2.03it/s] 68%|██████▊   | 8036/11858 [1:08:09<31:26,  2.03it/s] 68%|██████▊   | 8037/11858 [1:08:09<31:24,  2.03it/s] 68%|██████▊   | 8038/11858 [1:08:10<31:23,  2.03it/s] 68%|██████▊   | 8039/11858 [1:08:10<31:21,  2.03it/s] 68%|██████▊   | 8040/11858 [1:08:11<31:21,  2.03it/s] 68%|██████▊   | 8041/11858 [1:08:11<31:20,  2.03it/s] 68%|██████▊   | 8042/11858 [1:08:12<31:22,  2.03it/s] 68%|██████▊   | 8043/11858 [1:08:12<31:20,  2.03it/s] 68%|██████▊   | 8044/11858 [1:08:13<31:18,  2.03it/s] 68%|██████▊   | 8045/11858 [1:08:13<31:18,  2.03it/s] 68%|██████▊   | 8046/11858 [1:08:14<31:17,  2.03it/s] 68%|██████▊   | 8047/11858 [1:08:14<31:15,  2.03it/s] 68%|██████▊   | 8048/11858 [1:08:15<31:16,  2.03it/s] 68%|██████▊   | 8049/11858 [1:08:15<31:16,  2.03it/s] 68%|██████▊   | 8050/11858 [1:08:16<31:15,  2.03it/s]                                                      {'loss': 1.6169, 'grad_norm': 0.3235202431678772, 'learning_rate': 0.0002826035702324832, 'epoch': 9.5}
- 68%|██████▊   | 8050/11858 [1:08:16<31:15,  2.03it/s] 68%|██████▊   | 8051/11858 [1:08:16<31:16,  2.03it/s] 68%|██████▊   | 8052/11858 [1:08:17<31:16,  2.03it/s] 68%|██████▊   | 8053/11858 [1:08:17<31:15,  2.03it/s] 68%|██████▊   | 8054/11858 [1:08:18<31:14,  2.03it/s] 68%|██████▊   | 8055/11858 [1:08:18<31:13,  2.03it/s] 68%|██████▊   | 8056/11858 [1:08:19<31:12,  2.03it/s] 68%|██████▊   | 8057/11858 [1:08:19<31:13,  2.03it/s] 68%|██████▊   | 8058/11858 [1:08:20<31:10,  2.03it/s] 68%|██████▊   | 8059/11858 [1:08:20<31:10,  2.03it/s] 68%|██████▊   | 8060/11858 [1:08:21<31:20,  2.02it/s] 68%|██████▊   | 8061/11858 [1:08:21<31:20,  2.02it/s] 68%|██████▊   | 8062/11858 [1:08:22<31:15,  2.02it/s] 68%|██████▊   | 8063/11858 [1:08:22<31:15,  2.02it/s] 68%|██████▊   | 8064/11858 [1:08:23<31:12,  2.03it/s] 68%|██████▊   | 8065/11858 [1:08:23<31:11,  2.03it/s] 68%|██████▊   | 8066/11858 [1:08:24<31:11,  2.03it/s] 68%|██████▊   | 8067/11858 [1:08:24<31:08,  2.03it/s] 68%|██████▊   | 8068/11858 [1:08:25<31:10,  2.03it/s] 68%|██████▊   | 8069/11858 [1:08:25<31:08,  2.03it/s] 68%|██████▊   | 8070/11858 [1:08:26<31:08,  2.03it/s] 68%|██████▊   | 8071/11858 [1:08:26<31:07,  2.03it/s] 68%|██████▊   | 8072/11858 [1:08:27<31:09,  2.03it/s] 68%|██████▊   | 8073/11858 [1:08:27<31:06,  2.03it/s] 68%|██████▊   | 8074/11858 [1:08:28<31:03,  2.03it/s] 68%|██████▊   | 8075/11858 [1:08:28<31:04,  2.03it/s]                                                      {'loss': 1.6098, 'grad_norm': 0.34477511048316956, 'learning_rate': 0.00027929579264782004, 'epoch': 9.53}
- 68%|██████▊   | 8075/11858 [1:08:28<31:04,  2.03it/s] 68%|██████▊   | 8076/11858 [1:08:29<31:04,  2.03it/s] 68%|██████▊   | 8077/11858 [1:08:29<31:03,  2.03it/s] 68%|██████▊   | 8078/11858 [1:08:29<31:03,  2.03it/s] 68%|██████▊   | 8079/11858 [1:08:30<31:03,  2.03it/s] 68%|██████▊   | 8080/11858 [1:08:30<31:01,  2.03it/s] 68%|██████▊   | 8081/11858 [1:08:31<31:00,  2.03it/s] 68%|██████▊   | 8082/11858 [1:08:31<31:00,  2.03it/s] 68%|██████▊   | 8083/11858 [1:08:32<30:59,  2.03it/s] 68%|██████▊   | 8084/11858 [1:08:32<31:00,  2.03it/s] 68%|██████▊   | 8085/11858 [1:08:33<31:00,  2.03it/s] 68%|██████▊   | 8086/11858 [1:08:33<31:00,  2.03it/s] 68%|██████▊   | 8087/11858 [1:08:34<30:58,  2.03it/s] 68%|██████▊   | 8088/11858 [1:08:34<30:58,  2.03it/s] 68%|██████▊   | 8089/11858 [1:08:35<30:57,  2.03it/s] 68%|██████▊   | 8090/11858 [1:08:35<30:57,  2.03it/s] 68%|██████▊   | 8091/11858 [1:08:36<30:58,  2.03it/s] 68%|██████▊   | 8092/11858 [1:08:36<30:58,  2.03it/s] 68%|██████▊   | 8093/11858 [1:08:37<30:59,  2.02it/s] 68%|██████▊   | 8094/11858 [1:08:37<30:59,  2.02it/s] 68%|██████▊   | 8095/11858 [1:08:38<30:58,  2.02it/s] 68%|██████▊   | 8096/11858 [1:08:38<30:56,  2.03it/s] 68%|██████▊   | 8097/11858 [1:08:39<30:55,  2.03it/s] 68%|██████▊   | 8098/11858 [1:08:39<30:53,  2.03it/s] 68%|██████▊   | 8099/11858 [1:08:40<30:52,  2.03it/s] 68%|██████▊   | 8100/11858 [1:08:40<30:53,  2.03it/s]                                                      {'loss': 1.6175, 'grad_norm': 0.3190510869026184, 'learning_rate': 0.00027599996860983397, 'epoch': 9.56}
- 68%|██████▊   | 8100/11858 [1:08:40<30:53,  2.03it/s] 68%|██████▊   | 8101/11858 [1:08:41<30:53,  2.03it/s] 68%|██████▊   | 8102/11858 [1:08:41<30:52,  2.03it/s] 68%|██████▊   | 8103/11858 [1:08:42<30:49,  2.03it/s] 68%|██████▊   | 8104/11858 [1:08:42<30:49,  2.03it/s] 68%|██████▊   | 8105/11858 [1:08:43<30:48,  2.03it/s] 68%|██████▊   | 8106/11858 [1:08:43<30:47,  2.03it/s] 68%|██████▊   | 8107/11858 [1:08:44<30:47,  2.03it/s] 68%|██████▊   | 8108/11858 [1:08:44<30:45,  2.03it/s] 68%|██████▊   | 8109/11858 [1:08:45<30:47,  2.03it/s] 68%|██████▊   | 8110/11858 [1:08:45<30:47,  2.03it/s] 68%|██████▊   | 8111/11858 [1:08:46<30:47,  2.03it/s] 68%|██████▊   | 8112/11858 [1:08:46<30:46,  2.03it/s] 68%|██████▊   | 8113/11858 [1:08:47<30:43,  2.03it/s] 68%|██████▊   | 8114/11858 [1:08:47<30:43,  2.03it/s] 68%|██████▊   | 8115/11858 [1:08:48<30:43,  2.03it/s] 68%|██████▊   | 8116/11858 [1:08:48<30:43,  2.03it/s] 68%|██████▊   | 8117/11858 [1:08:49<30:43,  2.03it/s] 68%|██████▊   | 8118/11858 [1:08:49<30:42,  2.03it/s] 68%|██████▊   | 8119/11858 [1:08:50<30:41,  2.03it/s] 68%|██████▊   | 8120/11858 [1:08:50<30:40,  2.03it/s] 68%|██████▊   | 8121/11858 [1:08:51<30:40,  2.03it/s] 68%|██████▊   | 8122/11858 [1:08:51<30:39,  2.03it/s] 69%|██████▊   | 8123/11858 [1:08:52<30:38,  2.03it/s] 69%|██████▊   | 8124/11858 [1:08:52<30:36,  2.03it/s] 69%|██████▊   | 8125/11858 [1:08:53<30:38,  2.03it/s]                                                      {'loss': 1.6179, 'grad_norm': 0.3496072590351105, 'learning_rate': 0.0002727162766234434, 'epoch': 9.59}
- 69%|██████▊   | 8125/11858 [1:08:53<30:38,  2.03it/s] 69%|██████▊   | 8126/11858 [1:08:53<30:37,  2.03it/s] 69%|██████▊   | 8127/11858 [1:08:54<30:36,  2.03it/s] 69%|██████▊   | 8128/11858 [1:08:54<30:36,  2.03it/s] 69%|██████▊   | 8129/11858 [1:08:55<30:35,  2.03it/s] 69%|██████▊   | 8130/11858 [1:08:55<30:35,  2.03it/s] 69%|██████▊   | 8131/11858 [1:08:56<30:34,  2.03it/s] 69%|██████▊   | 8132/11858 [1:08:56<30:31,  2.03it/s] 69%|██████▊   | 8133/11858 [1:08:57<30:31,  2.03it/s] 69%|██████▊   | 8134/11858 [1:08:57<30:31,  2.03it/s] 69%|██████▊   | 8135/11858 [1:08:58<30:30,  2.03it/s] 69%|██████▊   | 8136/11858 [1:08:58<30:31,  2.03it/s] 69%|██████▊   | 8137/11858 [1:08:59<30:30,  2.03it/s] 69%|██████▊   | 8138/11858 [1:08:59<30:29,  2.03it/s] 69%|██████▊   | 8139/11858 [1:09:00<30:29,  2.03it/s] 69%|██████▊   | 8140/11858 [1:09:00<30:28,  2.03it/s] 69%|██████▊   | 8141/11858 [1:09:01<30:28,  2.03it/s] 69%|██████▊   | 8142/11858 [1:09:01<30:29,  2.03it/s] 69%|██████▊   | 8143/11858 [1:09:02<30:27,  2.03it/s] 69%|██████▊   | 8144/11858 [1:09:02<30:28,  2.03it/s] 69%|██████▊   | 8145/11858 [1:09:03<30:28,  2.03it/s] 69%|██████▊   | 8146/11858 [1:09:03<30:26,  2.03it/s] 69%|██████▊   | 8147/11858 [1:09:03<30:25,  2.03it/s] 69%|██████▊   | 8148/11858 [1:09:04<30:26,  2.03it/s] 69%|██████▊   | 8149/11858 [1:09:04<30:25,  2.03it/s] 69%|██████▊   | 8150/11858 [1:09:05<30:25,  2.03it/s]                                                      {'loss': 1.6072, 'grad_norm': 0.3334520161151886, 'learning_rate': 0.00026944489453648344, 'epoch': 9.62}
- 69%|██████▊   | 8150/11858 [1:09:05<30:25,  2.03it/s] 69%|██████▊   | 8151/11858 [1:09:05<30:27,  2.03it/s] 69%|██████▊   | 8152/11858 [1:09:06<30:25,  2.03it/s] 69%|██████▉   | 8153/11858 [1:09:06<30:24,  2.03it/s] 69%|██████▉   | 8154/11858 [1:09:07<30:23,  2.03it/s] 69%|██████▉   | 8155/11858 [1:09:07<30:23,  2.03it/s] 69%|██████▉   | 8156/11858 [1:09:08<30:24,  2.03it/s] 69%|██████▉   | 8157/11858 [1:09:08<30:21,  2.03it/s] 69%|██████▉   | 8158/11858 [1:09:09<30:20,  2.03it/s] 69%|██████▉   | 8159/11858 [1:09:09<30:19,  2.03it/s] 69%|██████▉   | 8160/11858 [1:09:10<30:17,  2.03it/s] 69%|██████▉   | 8161/11858 [1:09:10<30:19,  2.03it/s] 69%|██████▉   | 8162/11858 [1:09:11<30:20,  2.03it/s] 69%|██████▉   | 8163/11858 [1:09:11<30:19,  2.03it/s] 69%|██████▉   | 8164/11858 [1:09:12<30:19,  2.03it/s] 69%|██████▉   | 8165/11858 [1:09:12<30:17,  2.03it/s] 69%|██████▉   | 8166/11858 [1:09:13<30:19,  2.03it/s] 69%|██████▉   | 8167/11858 [1:09:13<30:18,  2.03it/s] 69%|██████▉   | 8168/11858 [1:09:14<30:18,  2.03it/s] 69%|██████▉   | 8169/11858 [1:09:14<30:17,  2.03it/s] 69%|██████▉   | 8170/11858 [1:09:15<30:15,  2.03it/s] 69%|██████▉   | 8171/11858 [1:09:15<30:15,  2.03it/s] 69%|██████▉   | 8172/11858 [1:09:16<30:14,  2.03it/s] 69%|██████▉   | 8173/11858 [1:09:16<30:15,  2.03it/s] 69%|██████▉   | 8174/11858 [1:09:17<30:15,  2.03it/s] 69%|██████▉   | 8175/11858 [1:09:17<30:14,  2.03it/s]                                                      {'loss': 1.6065, 'grad_norm': 0.3059903681278229, 'learning_rate': 0.00026618599953007297, 'epoch': 9.65}
- 69%|██████▉   | 8175/11858 [1:09:17<30:14,  2.03it/s] 69%|██████▉   | 8176/11858 [1:09:18<30:16,  2.03it/s] 69%|██████▉   | 8177/11858 [1:09:18<30:15,  2.03it/s] 69%|██████▉   | 8178/11858 [1:09:19<30:13,  2.03it/s] 69%|██████▉   | 8179/11858 [1:09:19<30:12,  2.03it/s] 69%|██████▉   | 8180/11858 [1:09:20<30:12,  2.03it/s] 69%|██████▉   | 8181/11858 [1:09:20<30:11,  2.03it/s] 69%|██████▉   | 8182/11858 [1:09:21<30:11,  2.03it/s] 69%|██████▉   | 8183/11858 [1:09:21<30:10,  2.03it/s] 69%|██████▉   | 8184/11858 [1:09:22<30:09,  2.03it/s] 69%|██████▉   | 8185/11858 [1:09:22<30:09,  2.03it/s] 69%|██████▉   | 8186/11858 [1:09:23<30:08,  2.03it/s] 69%|██████▉   | 8187/11858 [1:09:23<30:07,  2.03it/s] 69%|██████▉   | 8188/11858 [1:09:24<30:07,  2.03it/s] 69%|██████▉   | 8189/11858 [1:09:24<30:04,  2.03it/s] 69%|██████▉   | 8190/11858 [1:09:25<30:05,  2.03it/s] 69%|██████▉   | 8191/11858 [1:09:25<30:05,  2.03it/s] 69%|██████▉   | 8192/11858 [1:09:26<30:04,  2.03it/s] 69%|██████▉   | 8193/11858 [1:09:26<30:04,  2.03it/s] 69%|██████▉   | 8194/11858 [1:09:27<30:03,  2.03it/s] 69%|██████▉   | 8195/11858 [1:09:27<30:01,  2.03it/s] 69%|██████▉   | 8196/11858 [1:09:28<30:02,  2.03it/s] 69%|██████▉   | 8197/11858 [1:09:28<30:02,  2.03it/s] 69%|██████▉   | 8198/11858 [1:09:29<30:03,  2.03it/s] 69%|██████▉   | 8199/11858 [1:09:29<30:02,  2.03it/s] 69%|██████▉   | 8200/11858 [1:09:30<30:00,  2.03it/s]                                                      {'loss': 1.6092, 'grad_norm': 0.29080528020858765, 'learning_rate': 0.0002629397681090194, 'epoch': 9.68}
- 69%|██████▉   | 8200/11858 [1:09:30<30:00,  2.03it/s] 69%|██████▉   | 8201/11858 [1:09:30<30:03,  2.03it/s] 69%|██████▉   | 8202/11858 [1:09:31<30:00,  2.03it/s] 69%|██████▉   | 8203/11858 [1:09:31<29:59,  2.03it/s] 69%|██████▉   | 8204/11858 [1:09:32<29:59,  2.03it/s] 69%|██████▉   | 8205/11858 [1:09:32<29:58,  2.03it/s] 69%|██████▉   | 8206/11858 [1:09:33<29:59,  2.03it/s] 69%|██████▉   | 8207/11858 [1:09:33<29:57,  2.03it/s] 69%|██████▉   | 8208/11858 [1:09:34<29:59,  2.03it/s] 69%|██████▉   | 8209/11858 [1:09:34<29:57,  2.03it/s] 69%|██████▉   | 8210/11858 [1:09:35<29:55,  2.03it/s] 69%|██████▉   | 8211/11858 [1:09:35<29:56,  2.03it/s] 69%|██████▉   | 8212/11858 [1:09:35<29:54,  2.03it/s] 69%|██████▉   | 8213/11858 [1:09:36<29:53,  2.03it/s] 69%|██████▉   | 8214/11858 [1:09:36<29:53,  2.03it/s] 69%|██████▉   | 8215/11858 [1:09:37<29:52,  2.03it/s] 69%|██████▉   | 8216/11858 [1:09:37<29:54,  2.03it/s] 69%|██████▉   | 8217/11858 [1:09:38<29:52,  2.03it/s] 69%|██████▉   | 8218/11858 [1:09:38<29:50,  2.03it/s] 69%|██████▉   | 8219/11858 [1:09:39<29:51,  2.03it/s] 69%|██████▉   | 8220/11858 [1:09:39<29:50,  2.03it/s] 69%|██████▉   | 8221/11858 [1:09:40<29:49,  2.03it/s] 69%|██████▉   | 8222/11858 [1:09:40<29:50,  2.03it/s] 69%|██████▉   | 8223/11858 [1:09:41<29:48,  2.03it/s] 69%|██████▉   | 8224/11858 [1:09:41<29:48,  2.03it/s] 69%|██████▉   | 8225/11858 [1:09:42<29:47,  2.03it/s]                                                      {'loss': 1.6064, 'grad_norm': 0.315208375453949, 'learning_rate': 0.0002597063760922582, 'epoch': 9.71}
- 69%|██████▉   | 8225/11858 [1:09:42<29:47,  2.03it/s] 69%|██████▉   | 8226/11858 [1:09:42<29:49,  2.03it/s] 69%|██████▉   | 8227/11858 [1:09:43<29:49,  2.03it/s] 69%|██████▉   | 8228/11858 [1:09:43<29:45,  2.03it/s] 69%|██████▉   | 8229/11858 [1:09:44<29:46,  2.03it/s] 69%|██████▉   | 8230/11858 [1:09:44<29:45,  2.03it/s] 69%|██████▉   | 8231/11858 [1:09:45<29:44,  2.03it/s] 69%|██████▉   | 8232/11858 [1:09:45<29:44,  2.03it/s] 69%|██████▉   | 8233/11858 [1:09:46<29:44,  2.03it/s] 69%|██████▉   | 8234/11858 [1:09:46<29:45,  2.03it/s] 69%|██████▉   | 8235/11858 [1:09:47<29:43,  2.03it/s] 69%|██████▉   | 8236/11858 [1:09:47<29:43,  2.03it/s] 69%|██████▉   | 8237/11858 [1:09:48<29:43,  2.03it/s] 69%|██████▉   | 8238/11858 [1:09:48<29:42,  2.03it/s] 69%|██████▉   | 8239/11858 [1:09:49<29:43,  2.03it/s] 69%|██████▉   | 8240/11858 [1:09:49<29:43,  2.03it/s] 69%|██████▉   | 8241/11858 [1:09:50<29:43,  2.03it/s] 70%|██████▉   | 8242/11858 [1:09:50<29:42,  2.03it/s] 70%|██████▉   | 8243/11858 [1:09:51<29:40,  2.03it/s] 70%|██████▉   | 8244/11858 [1:09:51<29:41,  2.03it/s] 70%|██████▉   | 8245/11858 [1:09:52<29:39,  2.03it/s] 70%|██████▉   | 8246/11858 [1:09:52<29:40,  2.03it/s] 70%|██████▉   | 8247/11858 [1:09:53<29:39,  2.03it/s] 70%|██████▉   | 8248/11858 [1:09:53<29:38,  2.03it/s] 70%|██████▉   | 8249/11858 [1:09:54<29:38,  2.03it/s] 70%|██████▉   | 8250/11858 [1:09:54<29:35,  2.03it/s]                                                      {'loss': 1.6218, 'grad_norm': 0.28570374846458435, 'learning_rate': 0.0002564859986033312, 'epoch': 9.73}
- 70%|██████▉   | 8250/11858 [1:09:54<29:35,  2.03it/s] 70%|██████▉   | 8251/11858 [1:09:55<29:37,  2.03it/s] 70%|██████▉   | 8252/11858 [1:09:55<32:12,  1.87it/s] 70%|██████▉   | 8253/11858 [1:09:56<31:24,  1.91it/s] 70%|██████▉   | 8254/11858 [1:09:56<30:49,  1.95it/s] 70%|██████▉   | 8255/11858 [1:09:57<30:27,  1.97it/s] 70%|██████▉   | 8256/11858 [1:09:57<30:11,  1.99it/s] 70%|██████▉   | 8257/11858 [1:09:58<29:58,  2.00it/s] 70%|██████▉   | 8258/11858 [1:09:58<29:49,  2.01it/s] 70%|██████▉   | 8259/11858 [1:09:59<29:44,  2.02it/s] 70%|██████▉   | 8260/11858 [1:09:59<29:40,  2.02it/s] 70%|██████▉   | 8261/11858 [1:10:00<29:38,  2.02it/s] 70%|██████▉   | 8262/11858 [1:10:00<29:35,  2.03it/s] 70%|██████▉   | 8263/11858 [1:10:01<29:33,  2.03it/s] 70%|██████▉   | 8264/11858 [1:10:01<29:32,  2.03it/s] 70%|██████▉   | 8265/11858 [1:10:02<29:29,  2.03it/s] 70%|██████▉   | 8266/11858 [1:10:02<29:29,  2.03it/s] 70%|██████▉   | 8267/11858 [1:10:03<29:27,  2.03it/s] 70%|██████▉   | 8268/11858 [1:10:03<29:25,  2.03it/s] 70%|██████▉   | 8269/11858 [1:10:04<29:26,  2.03it/s] 70%|██████▉   | 8270/11858 [1:10:04<29:26,  2.03it/s] 70%|██████▉   | 8271/11858 [1:10:05<29:25,  2.03it/s] 70%|██████▉   | 8272/11858 [1:10:05<29:25,  2.03it/s] 70%|██████▉   | 8273/11858 [1:10:06<29:23,  2.03it/s] 70%|██████▉   | 8274/11858 [1:10:06<29:21,  2.03it/s] 70%|██████▉   | 8275/11858 [1:10:07<29:22,  2.03it/s]                                                      {'loss': 1.6172, 'grad_norm': 0.3753127455711365, 'learning_rate': 0.0002532788100609003, 'epoch': 9.76}
- 70%|██████▉   | 8275/11858 [1:10:07<29:22,  2.03it/s] 70%|██████▉   | 8276/11858 [1:10:07<29:24,  2.03it/s] 70%|��█████▉   | 8277/11858 [1:10:08<29:24,  2.03it/s] 70%|██████▉   | 8278/11858 [1:10:08<29:22,  2.03it/s] 70%|██████▉   | 8279/11858 [1:10:09<29:20,  2.03it/s] 70%|██████▉   | 8280/11858 [1:10:09<29:21,  2.03it/s] 70%|██████▉   | 8281/11858 [1:10:10<29:22,  2.03it/s] 70%|██████▉   | 8282/11858 [1:10:10<29:22,  2.03it/s] 70%|██████▉   | 8283/11858 [1:10:11<29:22,  2.03it/s] 70%|██████▉   | 8284/11858 [1:10:11<29:19,  2.03it/s] 70%|██████▉   | 8285/11858 [1:10:12<29:18,  2.03it/s] 70%|██████▉   | 8286/11858 [1:10:12<29:18,  2.03it/s] 70%|██████▉   | 8287/11858 [1:10:13<29:20,  2.03it/s] 70%|██████▉   | 8288/11858 [1:10:13<29:20,  2.03it/s] 70%|██████▉   | 8289/11858 [1:10:14<29:18,  2.03it/s] 70%|██████▉   | 8290/11858 [1:10:14<29:16,  2.03it/s] 70%|██████▉   | 8291/11858 [1:10:15<29:16,  2.03it/s] 70%|██████▉   | 8292/11858 [1:10:15<29:18,  2.03it/s] 70%|██████▉   | 8293/11858 [1:10:16<29:16,  2.03it/s] 70%|██████▉   | 8294/11858 [1:10:16<29:16,  2.03it/s] 70%|██████▉   | 8295/11858 [1:10:17<29:13,  2.03it/s] 70%|██████▉   | 8296/11858 [1:10:17<29:12,  2.03it/s] 70%|██████▉   | 8297/11858 [1:10:17<29:13,  2.03it/s] 70%|██████▉   | 8298/11858 [1:10:18<29:11,  2.03it/s] 70%|██████▉   | 8299/11858 [1:10:18<29:12,  2.03it/s] 70%|██████▉   | 8300/11858 [1:10:19<29:10,  2.03it/s]                                                      {'loss': 1.6147, 'grad_norm': 0.3107220530509949, 'learning_rate': 0.0002500849841693024, 'epoch': 9.79}
- 70%|██████▉   | 8300/11858 [1:10:19<29:10,  2.03it/s] 70%|███████   | 8301/11858 [1:10:19<29:11,  2.03it/s] 70%|███████   | 8302/11858 [1:10:20<29:10,  2.03it/s] 70%|███████   | 8303/11858 [1:10:20<29:08,  2.03it/s] 70%|███████   | 8304/11858 [1:10:21<29:09,  2.03it/s] 70%|███████   | 8305/11858 [1:10:21<29:07,  2.03it/s] 70%|███████   | 8306/11858 [1:10:22<29:05,  2.04it/s] 70%|███████   | 8307/11858 [1:10:22<29:06,  2.03it/s] 70%|███████   | 8308/11858 [1:10:23<29:06,  2.03it/s] 70%|███████   | 8309/11858 [1:10:23<29:04,  2.03it/s] 70%|███████   | 8310/11858 [1:10:24<29:05,  2.03it/s] 70%|███████   | 8311/11858 [1:10:24<29:05,  2.03it/s] 70%|███████   | 8312/11858 [1:10:25<29:03,  2.03it/s] 70%|███████   | 8313/11858 [1:10:25<29:05,  2.03it/s] 70%|███████   | 8314/11858 [1:10:26<29:04,  2.03it/s] 70%|███████   | 8315/11858 [1:10:26<29:02,  2.03it/s] 70%|███████   | 8316/11858 [1:10:27<29:02,  2.03it/s] 70%|███████   | 8317/11858 [1:10:27<29:02,  2.03it/s] 70%|███████   | 8318/11858 [1:10:28<29:01,  2.03it/s] 70%|███████   | 8319/11858 [1:10:28<29:01,  2.03it/s] 70%|███████   | 8320/11858 [1:10:29<29:01,  2.03it/s] 70%|███████   | 8321/11858 [1:10:29<29:01,  2.03it/s] 70%|███████   | 8322/11858 [1:10:30<28:59,  2.03it/s] 70%|███████   | 8323/11858 [1:10:30<28:58,  2.03it/s] 70%|███████   | 8324/11858 [1:10:31<28:58,  2.03it/s] 70%|███████   | 8325/11858 [1:10:31<28:58,  2.03it/s]                                                      {'loss': 1.6121, 'grad_norm': 0.29278481006622314, 'learning_rate': 0.0002469046939091407, 'epoch': 9.82}
- 70%|███████   | 8325/11858 [1:10:31<28:58,  2.03it/s] 70%|███████   | 8326/11858 [1:10:32<31:34,  1.86it/s] 70%|███████   | 8327/11858 [1:10:32<30:47,  1.91it/s] 70%|███████   | 8328/11858 [1:10:33<30:15,  1.94it/s] 70%|███████   | 8329/11858 [1:10:33<29:54,  1.97it/s] 70%|███████   | 8330/11858 [1:10:34<29:37,  1.99it/s] 70%|███████   | 8331/11858 [1:10:34<29:26,  2.00it/s] 70%|███████   | 8332/11858 [1:10:35<29:17,  2.01it/s] 70%|███████   | 8333/11858 [1:10:35<29:11,  2.01it/s] 70%|███████   | 8334/11858 [1:10:36<29:06,  2.02it/s] 70%|███████   | 8335/11858 [1:10:36<29:05,  2.02it/s] 70%|███████   | 8336/11858 [1:10:37<29:01,  2.02it/s] 70%|███████   | 8337/11858 [1:10:37<28:58,  2.03it/s] 70%|███████   | 8338/11858 [1:10:38<28:56,  2.03it/s] 70%|███████   | 8339/11858 [1:10:38<28:56,  2.03it/s] 70%|███████   | 8340/11858 [1:10:39<29:28,  1.99it/s] 70%|███████   | 8341/11858 [1:10:39<29:18,  2.00it/s] 70%|███████   | 8342/11858 [1:10:40<29:11,  2.01it/s] 70%|███████   | 8343/11858 [1:10:40<29:03,  2.02it/s] 70%|███████   | 8344/11858 [1:10:41<29:00,  2.02it/s] 70%|███████   | 8345/11858 [1:10:41<28:56,  2.02it/s] 70%|███████   | 8346/11858 [1:10:42<28:56,  2.02it/s] 70%|███████   | 8347/11858 [1:10:42<28:54,  2.02it/s] 70%|███████   | 8348/11858 [1:10:43<28:52,  2.03it/s] 70%|███████   | 8349/11858 [1:10:43<28:51,  2.03it/s] 70%|███████   | 8350/11858 [1:10:44<28:47,  2.03it/s]                                                      {'loss': 1.6159, 'grad_norm': 0.30987489223480225, 'learning_rate': 0.00024373811152791536, 'epoch': 9.85}
- 70%|███████   | 8350/11858 [1:10:44<28:47,  2.03it/s] 70%|███████   | 8351/11858 [1:10:44<28:48,  2.03it/s] 70%|███████   | 8352/11858 [1:10:45<28:46,  2.03it/s] 70%|███████   | 8353/11858 [1:10:45<28:47,  2.03it/s] 70%|███████   | 8354/11858 [1:10:46<28:48,  2.03it/s] 70%|███████   | 8355/11858 [1:10:46<28:45,  2.03it/s] 70%|███████   | 8356/11858 [1:10:47<28:45,  2.03it/s] 70%|███████   | 8357/11858 [1:10:47<28:45,  2.03it/s] 70%|███████   | 8358/11858 [1:10:48<28:43,  2.03it/s] 70%|███████   | 8359/11858 [1:10:48<28:45,  2.03it/s] 71%|███████   | 8360/11858 [1:10:49<28:43,  2.03it/s] 71%|███████   | 8361/11858 [1:10:49<28:48,  2.02it/s] 71%|███████   | 8362/11858 [1:10:50<28:46,  2.02it/s] 71%|███████   | 8363/11858 [1:10:50<28:45,  2.03it/s] 71%|███████   | 8364/11858 [1:10:51<28:42,  2.03it/s] 71%|███████   | 8365/11858 [1:10:51<28:43,  2.03it/s] 71%|███████   | 8366/11858 [1:10:52<28:41,  2.03it/s] 71%|███████   | 8367/11858 [1:10:52<28:39,  2.03it/s] 71%|███████   | 8368/11858 [1:10:53<28:41,  2.03it/s] 71%|███████   | 8369/11858 [1:10:53<28:38,  2.03it/s] 71%|███████   | 8370/11858 [1:10:54<28:38,  2.03it/s] 71%|███████   | 8371/11858 [1:10:54<28:37,  2.03it/s] 71%|███████   | 8372/11858 [1:10:55<28:35,  2.03it/s] 71%|███████   | 8373/11858 [1:10:55<28:36,  2.03it/s] 71%|███████   | 8374/11858 [1:10:56<28:34,  2.03it/s] 71%|███████   | 8375/11858 [1:10:56<28:34,  2.03it/s]                                                      {'loss': 1.6215, 'grad_norm': 0.30707216262817383, 'learning_rate': 0.0002405854085306955, 'epoch': 9.88}
- 71%|███████   | 8375/11858 [1:10:56<28:34,  2.03it/s] 71%|███████   | 8376/11858 [1:10:57<28:35,  2.03it/s] 71%|███████   | 8377/11858 [1:10:57<28:34,  2.03it/s] 71%|███████   | 8378/11858 [1:10:58<28:35,  2.03it/s] 71%|███████   | 8379/11858 [1:10:58<28:33,  2.03it/s] 71%|███████   | 8380/11858 [1:10:59<28:34,  2.03it/s] 71%|███████   | 8381/11858 [1:10:59<28:34,  2.03it/s] 71%|███████   | 8382/11858 [1:11:00<28:31,  2.03it/s] 71%|███████   | 8383/11858 [1:11:00<28:33,  2.03it/s] 71%|███████   | 8384/11858 [1:11:01<28:31,  2.03it/s] 71%|███████   | 8385/11858 [1:11:01<28:31,  2.03it/s] 71%|███████   | 8386/11858 [1:11:02<28:31,  2.03it/s] 71%|███████   | 8387/11858 [1:11:02<28:30,  2.03it/s] 71%|███████   | 8388/11858 [1:11:03<28:30,  2.03it/s] 71%|███████   | 8389/11858 [1:11:03<28:28,  2.03it/s] 71%|███████   | 8390/11858 [1:11:03<28:29,  2.03it/s] 71%|███████   | 8391/11858 [1:11:04<28:28,  2.03it/s] 71%|███████   | 8392/11858 [1:11:04<28:29,  2.03it/s] 71%|███████   | 8393/11858 [1:11:05<28:28,  2.03it/s] 71%|███████   | 8394/11858 [1:11:05<28:26,  2.03it/s] 71%|███████   | 8395/11858 [1:11:06<28:26,  2.03it/s] 71%|███████   | 8396/11858 [1:11:06<28:25,  2.03it/s] 71%|███████   | 8397/11858 [1:11:07<28:24,  2.03it/s] 71%|███████   | 8398/11858 [1:11:07<28:24,  2.03it/s] 71%|███████   | 8399/11858 [1:11:08<28:23,  2.03it/s] 71%|███████   | 8400/11858 [1:11:08<28:23,  2.03it/s]                                                      {'loss': 1.6042, 'grad_norm': 0.300098180770874, 'learning_rate': 0.00023744675567082986, 'epoch': 9.91}
- 71%|███████   | 8400/11858 [1:11:08<28:23,  2.03it/s] 71%|███████   | 8401/11858 [1:11:09<28:24,  2.03it/s] 71%|███████   | 8402/11858 [1:11:09<28:23,  2.03it/s] 71%|███████   | 8403/11858 [1:11:10<28:21,  2.03it/s] 71%|███████   | 8404/11858 [1:11:10<28:22,  2.03it/s] 71%|███████   | 8405/11858 [1:11:11<28:22,  2.03it/s] 71%|███████   | 8406/11858 [1:11:11<28:20,  2.03it/s] 71%|███████   | 8407/11858 [1:11:12<28:21,  2.03it/s] 71%|███████   | 8408/11858 [1:11:12<28:19,  2.03it/s] 71%|███████   | 8409/11858 [1:11:13<28:19,  2.03it/s] 71%|███████   | 8410/11858 [1:11:13<28:18,  2.03it/s] 71%|███████   | 8411/11858 [1:11:14<28:16,  2.03it/s] 71%|███████   | 8412/11858 [1:11:14<28:15,  2.03it/s] 71%|███████   | 8413/11858 [1:11:15<28:16,  2.03it/s] 71%|███████   | 8414/11858 [1:11:15<28:13,  2.03it/s] 71%|███████   | 8415/11858 [1:11:16<28:16,  2.03it/s] 71%|███████   | 8416/11858 [1:11:16<28:14,  2.03it/s] 71%|███████   | 8417/11858 [1:11:17<28:13,  2.03it/s] 71%|███████   | 8418/11858 [1:11:17<28:14,  2.03it/s] 71%|███████   | 8419/11858 [1:11:18<28:12,  2.03it/s] 71%|███████   | 8420/11858 [1:11:18<28:11,  2.03it/s] 71%|███████   | 8421/11858 [1:11:19<28:13,  2.03it/s] 71%|███████   | 8422/11858 [1:11:19<28:11,  2.03it/s] 71%|███████   | 8423/11858 [1:11:20<28:12,  2.03it/s] 71%|███████   | 8424/11858 [1:11:20<28:10,  2.03it/s] 71%|███████   | 8425/11858 [1:11:21<28:10,  2.03it/s]                                                      {'loss': 1.6145, 'grad_norm': 0.2930581867694855, 'learning_rate': 0.00023432232294069794, 'epoch': 9.94}
- 71%|███████   | 8425/11858 [1:11:21<28:10,  2.03it/s] 71%|███████   | 8426/11858 [1:11:21<28:11,  2.03it/s] 71%|███████   | 8427/11858 [1:11:22<28:10,  2.03it/s] 71%|███████   | 8428/11858 [1:11:22<28:10,  2.03it/s] 71%|███████   | 8429/11858 [1:11:23<28:09,  2.03it/s] 71%|███████   | 8430/11858 [1:11:23<28:08,  2.03it/s] 71%|███████   | 8431/11858 [1:11:24<28:08,  2.03it/s] 71%|███████   | 8432/11858 [1:11:24<28:08,  2.03it/s] 71%|███████   | 8433/11858 [1:11:25<28:08,  2.03it/s] 71%|███████   | 8434/11858 [1:11:25<28:07,  2.03it/s] 71%|███████   | 8435/11858 [1:11:26<28:08,  2.03it/s] 71%|███████   | 8436/11858 [1:11:26<28:08,  2.03it/s] 71%|███████   | 8437/11858 [1:11:27<28:07,  2.03it/s] 71%|███████   | 8438/11858 [1:11:27<28:06,  2.03it/s] 71%|███████   | 8439/11858 [1:11:28<28:05,  2.03it/s] 71%|███████   | 8440/11858 [1:11:28<28:04,  2.03it/s] 71%|███████   | 8441/11858 [1:11:29<28:03,  2.03it/s] 71%|███████   | 8442/11858 [1:11:29<28:02,  2.03it/s] 71%|███████   | 8443/11858 [1:11:30<28:04,  2.03it/s] 71%|███████   | 8444/11858 [1:11:30<28:04,  2.03it/s] 71%|███████   | 8445/11858 [1:11:31<28:02,  2.03it/s] 71%|███████   | 8446/11858 [1:11:31<28:01,  2.03it/s] 71%|███████   | 8447/11858 [1:11:32<28:00,  2.03it/s] 71%|███████   | 8448/11858 [1:11:32<28:00,  2.03it/s] 71%|███████▏  | 8449/11858 [1:11:33<28:00,  2.03it/s] 71%|███████▏  | 8450/11858 [1:11:33<27:58,  2.03it/s]                                                      {'loss': 1.6298, 'grad_norm': 0.31545478105545044, 'learning_rate': 0.00023121227956250434, 'epoch': 9.97}
- 71%|███████▏  | 8450/11858 [1:11:33<27:58,  2.03it/s] 71%|███████▏  | 8451/11858 [1:11:34<27:58,  2.03it/s] 71%|███████▏  | 8452/11858 [1:11:34<27:57,  2.03it/s] 71%|███████▏  | 8453/11858 [1:11:35<27:55,  2.03it/s] 71%|███████▏  | 8454/11858 [1:11:35<27:53,  2.03it/s] 71%|███████▏  | 8455/11858 [1:11:36<27:55,  2.03it/s] 71%|███████▏  | 8456/11858 [1:11:36<27:54,  2.03it/s] 71%|███████▏  | 8457/11858 [1:11:36<27:53,  2.03it/s] 71%|███████▏  | 8458/11858 [1:11:37<27:53,  2.03it/s] 71%|███████▏  | 8459/11858 [1:11:37<27:52,  2.03it/s] 71%|███████▏  | 8460/11858 [1:11:38<27:52,  2.03it/s] 71%|███████▏  | 8461/11858 [1:11:38<27:52,  2.03it/s] 71%|███████▏  | 8462/11858 [1:11:39<27:51,  2.03it/s] 71%|███████▏  | 8463/11858 [1:11:39<27:50,  2.03it/s] 71%|███████▏  | 8464/11858 [1:11:40<27:51,  2.03it/s] 71%|███████▏  | 8465/11858 [1:11:40<27:50,  2.03it/s] 71%|███████▏  | 8466/11858 [1:11:41<27:49,  2.03it/s] 71%|███████▏  | 8467/11858 [1:11:41<27:49,  2.03it/s] 71%|███████▏  | 8468/11858 [1:11:42<27:48,  2.03it/s] 71%|███████▏  | 8469/11858 [1:11:42<27:48,  2.03it/s] 71%|███████▏  | 8470/11858 [1:11:43<27:49,  2.03it/s] 71%|███████▏  | 8471/11858 [1:11:43<27:47,  2.03it/s] 71%|███████▏  | 8472/11858 [1:11:44<27:47,  2.03it/s] 71%|███████▏  | 8473/11858 [1:11:44<27:46,  2.03it/s] 71%|███████▏  | 8474/11858 [1:11:45<27:47,  2.03it/s] 71%|███████���  | 8475/11858 [1:11:45<27:33,  2.05it/s]                                                      {'loss': 1.601, 'grad_norm': 0.32503122091293335, 'learning_rate': 0.00022811679397911257, 'epoch': 10.0}
- 71%|███████▏  | 8475/11858 [1:11:45<27:33,  2.05it/s] 71%|███████▏  | 8476/11858 [1:11:57<3:42:25,  3.95s/it] 71%|███████▏  | 8477/11858 [1:11:58<2:43:59,  2.91s/it] 71%|███████▏  | 8478/11858 [1:11:58<2:03:03,  2.18s/it] 72%|███████▏  | 8479/11858 [1:11:59<1:34:33,  1.68s/it] 72%|███████▏  | 8480/11858 [1:11:59<1:14:27,  1.32s/it] 72%|███████▏  | 8481/11858 [1:12:00<1:00:26,  1.07s/it] 72%|███████▏  | 8482/11858 [1:12:00<50:34,  1.11it/s]   72%|███████▏  | 8483/11858 [1:12:01<43:41,  1.29it/s] 72%|███████▏  | 8484/11858 [1:12:01<38:52,  1.45it/s] 72%|███████▏  | 8485/11858 [1:12:02<35:29,  1.58it/s] 72%|███████▏  | 8486/11858 [1:12:02<33:08,  1.70it/s] 72%|███████▏  | 8487/11858 [1:12:03<31:29,  1.78it/s] 72%|███████▏  | 8488/11858 [1:12:03<30:20,  1.85it/s] 72%|███████▏  | 8489/11858 [1:12:04<29:33,  1.90it/s] 72%|███████▏  | 8490/11858 [1:12:04<29:03,  1.93it/s] 72%|███████▏  | 8491/11858 [1:12:05<28:37,  1.96it/s] 72%|███████▏  | 8492/11858 [1:12:05<28:16,  1.98it/s] 72%|███████▏  | 8493/11858 [1:12:06<28:04,  2.00it/s] 72%|███████▏  | 8494/11858 [1:12:06<27:55,  2.01it/s] 72%|███████▏  | 8495/11858 [1:12:07<27:48,  2.02it/s] 72%|███████▏  | 8496/11858 [1:12:07<27:46,  2.02it/s] 72%|███████▏  | 8497/11858 [1:12:08<27:43,  2.02it/s] 72%|███████▏  | 8498/11858 [1:12:08<27:39,  2.03it/s] 72%|███████▏  | 8499/11858 [1:12:09<27:37,  2.03it/s] 72%|███████▏  | 8500/11858 [1:12:09<27:33,  2.03it/s]                                                      {'loss': 1.5231, 'grad_norm': 0.2837274670600891, 'learning_rate': 0.0002250360338449226, 'epoch': 10.03}
- 72%|███████▏  | 8500/11858 [1:12:09<27:33,  2.03it/s] 72%|███████▏  | 8501/11858 [1:12:10<27:33,  2.03it/s] 72%|███████▏  | 8502/11858 [1:12:10<27:31,  2.03it/s] 72%|███████▏  | 8503/11858 [1:12:11<27:29,  2.03it/s] 72%|███████▏  | 8504/11858 [1:12:11<27:29,  2.03it/s] 72%|███████▏  | 8505/11858 [1:12:12<27:28,  2.03it/s] 72%|███████▏  | 8506/11858 [1:12:12<27:26,  2.04it/s] 72%|███████▏  | 8507/11858 [1:12:13<27:26,  2.03it/s] 72%|███████▏  | 8508/11858 [1:12:13<27:25,  2.04it/s] 72%|███████▏  | 8509/11858 [1:12:14<27:24,  2.04it/s] 72%|███████▏  | 8510/11858 [1:12:14<27:23,  2.04it/s] 72%|███████▏  | 8511/11858 [1:12:15<27:23,  2.04it/s] 72%|███████▏  | 8512/11858 [1:12:15<27:22,  2.04it/s] 72%|███████▏  | 8513/11858 [1:12:16<27:22,  2.04it/s] 72%|███████▏  | 8514/11858 [1:12:16<27:22,  2.04it/s] 72%|███████▏  | 8515/11858 [1:12:17<27:22,  2.04it/s] 72%|███████▏  | 8516/11858 [1:12:17<27:20,  2.04it/s] 72%|███████▏  | 8517/11858 [1:12:18<27:22,  2.03it/s] 72%|███████▏  | 8518/11858 [1:12:18<27:20,  2.04it/s] 72%|███████▏  | 8519/11858 [1:12:19<27:19,  2.04it/s] 72%|███████▏  | 8520/11858 [1:12:19<27:20,  2.04it/s] 72%|███████▏  | 8521/11858 [1:12:20<27:19,  2.04it/s] 72%|███████▏  | 8522/11858 [1:12:20<27:17,  2.04it/s] 72%|███████▏  | 8523/11858 [1:12:20<27:17,  2.04it/s] 72%|███████▏  | 8524/11858 [1:12:21<27:17,  2.04it/s] 72%|███████▏  | 8525/11858 [1:12:21<27:15,  2.04it/s]                                                      {'loss': 1.4995, 'grad_norm': 0.2848288118839264, 'learning_rate': 0.00022197016601678977, 'epoch': 10.06}
- 72%|███████▏  | 8525/11858 [1:12:21<27:15,  2.04it/s] 72%|███████▏  | 8526/11858 [1:12:22<27:19,  2.03it/s] 72%|███████▏  | 8527/11858 [1:12:22<27:18,  2.03it/s] 72%|███████▏  | 8528/11858 [1:12:23<27:17,  2.03it/s] 72%|███████▏  | 8529/11858 [1:12:23<27:17,  2.03it/s] 72%|███████▏  | 8530/11858 [1:12:24<27:17,  2.03it/s] 72%|███████▏  | 8531/11858 [1:12:24<27:16,  2.03it/s] 72%|███████▏  | 8532/11858 [1:12:25<27:17,  2.03it/s] 72%|███████▏  | 8533/11858 [1:12:25<27:15,  2.03it/s] 72%|███████▏  | 8534/11858 [1:12:26<27:15,  2.03it/s] 72%|███████▏  | 8535/11858 [1:12:26<27:13,  2.03it/s] 72%|███████▏  | 8536/11858 [1:12:27<27:13,  2.03it/s] 72%|███████��  | 8537/11858 [1:12:27<27:12,  2.03it/s] 72%|███████▏  | 8538/11858 [1:12:28<27:11,  2.03it/s] 72%|███████▏  | 8539/11858 [1:12:28<27:11,  2.03it/s] 72%|███████▏  | 8540/11858 [1:12:29<27:11,  2.03it/s] 72%|███████▏  | 8541/11858 [1:12:29<27:09,  2.04it/s] 72%|███████▏  | 8542/11858 [1:12:30<27:10,  2.03it/s] 72%|███████▏  | 8543/11858 [1:12:30<27:09,  2.03it/s] 72%|███████▏  | 8544/11858 [1:12:31<27:08,  2.04it/s] 72%|███████▏  | 8545/11858 [1:12:31<27:09,  2.03it/s] 72%|███████▏  | 8546/11858 [1:12:32<27:08,  2.03it/s] 72%|███████▏  | 8547/11858 [1:12:32<27:07,  2.03it/s] 72%|███████▏  | 8548/11858 [1:12:33<27:08,  2.03it/s] 72%|███████▏  | 8549/11858 [1:12:33<27:05,  2.04it/s] 72%|███████▏  | 8550/11858 [1:12:34<27:05,  2.04it/s]                                                      {'loss': 1.5264, 'grad_norm': 0.3425782024860382, 'learning_rate': 0.00021891935654498875, 'epoch': 10.09}
- 72%|███████▏  | 8550/11858 [1:12:34<27:05,  2.04it/s] 72%|███████▏  | 8551/11858 [1:12:34<27:07,  2.03it/s] 72%|███████▏  | 8552/11858 [1:12:35<27:04,  2.03it/s] 72%|███████▏  | 8553/11858 [1:12:35<27:04,  2.03it/s] 72%|███████▏  | 8554/11858 [1:12:36<27:05,  2.03it/s] 72%|███████▏  | 8555/11858 [1:12:36<27:03,  2.03it/s] 72%|███████▏  | 8556/11858 [1:12:37<27:04,  2.03it/s] 72%|███████▏  | 8557/11858 [1:12:37<27:04,  2.03it/s] 72%|███████▏  | 8558/11858 [1:12:38<27:02,  2.03it/s] 72%|███████▏  | 8559/11858 [1:12:38<27:03,  2.03it/s] 72%|███████▏  | 8560/11858 [1:12:39<27:02,  2.03it/s] 72%|███████▏  | 8561/11858 [1:12:39<27:02,  2.03it/s] 72%|███████▏  | 8562/11858 [1:12:40<27:01,  2.03it/s] 72%|███████▏  | 8563/11858 [1:12:40<27:02,  2.03it/s] 72%|███████▏  | 8564/11858 [1:12:41<27:02,  2.03it/s] 72%|███████▏  | 8565/11858 [1:12:41<27:00,  2.03it/s] 72%|███████▏  | 8566/11858 [1:12:42<26:59,  2.03it/s] 72%|███████▏  | 8567/11858 [1:12:42<27:00,  2.03it/s] 72%|███████▏  | 8568/11858 [1:12:43<26:59,  2.03it/s] 72%|███████▏  | 8569/11858 [1:12:43<26:59,  2.03it/s] 72%|███████▏  | 8570/11858 [1:12:44<27:01,  2.03it/s] 72%|███████▏  | 8571/11858 [1:12:44<26:59,  2.03it/s] 72%|███████▏  | 8572/11858 [1:12:45<26:59,  2.03it/s] 72%|███████▏  | 8573/11858 [1:12:45<26:57,  2.03it/s] 72%|███████▏  | 8574/11858 [1:12:46<26:55,  2.03it/s] 72%|███████▏  | 8575/11858 [1:12:46<26:54,  2.03it/s]                                                      {'loss': 1.5041, 'grad_norm': 0.2880987524986267, 'learning_rate': 0.00021588377066421893, 'epoch': 10.12}
- 72%|███████▏  | 8575/11858 [1:12:46<26:54,  2.03it/s] 72%|███████▏  | 8576/11858 [1:12:47<26:56,  2.03it/s] 72%|███████▏  | 8577/11858 [1:12:47<26:53,  2.03it/s] 72%|███████▏  | 8578/11858 [1:12:48<26:51,  2.04it/s] 72%|███████▏  | 8579/11858 [1:12:48<26:52,  2.03it/s] 72%|███████▏  | 8580/11858 [1:12:49<26:51,  2.03it/s] 72%|███████▏  | 8581/11858 [1:12:49<26:50,  2.03it/s] 72%|███████▏  | 8582/11858 [1:12:50<26:51,  2.03it/s] 72%|███████▏  | 8583/11858 [1:12:50<26:49,  2.03it/s] 72%|███████▏  | 8584/11858 [1:12:50<26:48,  2.04it/s] 72%|███████▏  | 8585/11858 [1:12:51<26:48,  2.03it/s] 72%|███████▏  | 8586/11858 [1:12:51<26:47,  2.04it/s] 72%|███████▏  | 8587/11858 [1:12:52<26:45,  2.04it/s] 72%|███████▏  | 8588/11858 [1:12:52<26:46,  2.04it/s] 72%|███████▏  | 8589/11858 [1:12:53<26:45,  2.04it/s] 72%|███████▏  | 8590/11858 [1:12:53<26:43,  2.04it/s] 72%|███████▏  | 8591/11858 [1:12:54<26:45,  2.03it/s] 72%|███████▏  | 8592/11858 [1:12:54<26:44,  2.04it/s] 72%|███████▏  | 8593/11858 [1:12:55<26:42,  2.04it/s] 72%|███████▏  | 8594/11858 [1:12:55<26:44,  2.03it/s] 72%|███████▏  | 8595/11858 [1:12:56<26:42,  2.04it/s] 72%|███████▏  | 8596/11858 [1:12:56<26:43,  2.03it/s] 72%|███████▏  | 8597/11858 [1:12:57<26:43,  2.03it/s] 73%|███████▎  | 8598/11858 [1:12:57<26:42,  2.03it/s] 73%|███████▎  | 8599/11858 [1:12:58<26:41,  2.03it/s] 73%|███████▎  | 8600/11858 [1:12:58<26:42,  2.03it/s]                                                      {'loss': 1.5009, 'grad_norm': 0.29595667123794556, 'learning_rate': 0.00021286357278465622, 'epoch': 10.15}
- 73%|███████▎  | 8600/11858 [1:12:58<26:42,  2.03it/s] 73%|███████▎  | 8601/11858 [1:12:59<26:41,  2.03it/s] 73%|███████▎  | 8602/11858 [1:12:59<26:42,  2.03it/s] 73%|███████▎  | 8603/11858 [1:13:00<26:43,  2.03it/s] 73%|███████▎  | 8604/11858 [1:13:00<26:42,  2.03it/s] 73%|███████▎  | 8605/11858 [1:13:01<26:42,  2.03it/s] 73%|███████▎  | 8606/11858 [1:13:01<26:39,  2.03it/s] 73%|███████▎  | 8607/11858 [1:13:02<26:39,  2.03it/s] 73%|███████▎  | 8608/11858 [1:13:02<26:40,  2.03it/s] 73%|███████▎  | 8609/11858 [1:13:03<26:37,  2.03it/s] 73%|███████▎  | 8610/11858 [1:13:03<26:37,  2.03it/s] 73%|███████▎  | 8611/11858 [1:13:04<26:37,  2.03it/s] 73%|███████▎  | 8612/11858 [1:13:04<26:36,  2.03it/s] 73%|███████▎  | 8613/11858 [1:13:05<26:37,  2.03it/s] 73%|███████▎  | 8614/11858 [1:13:05<26:36,  2.03it/s] 73%|███████▎  | 8615/11858 [1:13:06<26:36,  2.03it/s] 73%|███████▎  | 8616/11858 [1:13:06<26:36,  2.03it/s] 73%|███████▎  | 8617/11858 [1:13:07<26:37,  2.03it/s] 73%|███████▎  | 8618/11858 [1:13:07<26:36,  2.03it/s] 73%|███████▎  | 8619/11858 [1:13:08<26:35,  2.03it/s] 73%|███████▎  | 8620/11858 [1:13:08<26:34,  2.03it/s] 73%|███████▎  | 8621/11858 [1:13:09<26:33,  2.03it/s] 73%|███████▎  | 8622/11858 [1:13:09<26:32,  2.03it/s] 73%|███████▎  | 8623/11858 [1:13:10<26:31,  2.03it/s] 73%|███████▎  | 8624/11858 [1:13:10<26:31,  2.03it/s] 73%|███████▎  | 8625/11858 [1:13:11<26:30,  2.03it/s]                                                      {'loss': 1.5228, 'grad_norm': 0.28382381796836853, 'learning_rate': 0.00020985892648304783, 'epoch': 10.18}
- 73%|███████▎  | 8625/11858 [1:13:11<26:30,  2.03it/s] 73%|███████▎  | 8626/11858 [1:13:11<26:33,  2.03it/s] 73%|███████▎  | 8627/11858 [1:13:12<26:32,  2.03it/s] 73%|███████▎  | 8628/11858 [1:13:12<26:31,  2.03it/s] 73%|███████▎  | 8629/11858 [1:13:13<26:29,  2.03it/s] 73%|███████▎  | 8630/11858 [1:13:13<26:29,  2.03it/s] 73%|███████▎  | 8631/11858 [1:13:14<26:28,  2.03it/s] 73%|███████▎  | 8632/11858 [1:13:14<26:28,  2.03it/s] 73%|███████▎  | 8633/11858 [1:13:15<26:27,  2.03it/s] 73%|███████▎  | 8634/11858 [1:13:15<26:25,  2.03it/s] 73%|███████▎  | 8635/11858 [1:13:16<26:24,  2.03it/s] 73%|███████▎  | 8636/11858 [1:13:16<26:23,  2.03it/s] 73%|███████▎  | 8637/11858 [1:13:17<26:22,  2.04it/s] 73%|███████▎  | 8638/11858 [1:13:17<26:23,  2.03it/s] 73%|███████▎  | 8639/11858 [1:13:18<26:23,  2.03it/s] 73%|███████▎  | 8640/11858 [1:13:18<26:22,  2.03it/s] 73%|███████▎  | 8641/11858 [1:13:19<26:23,  2.03it/s] 73%|███████▎  | 8642/11858 [1:13:19<26:22,  2.03it/s] 73%|███████▎  | 8643/11858 [1:13:20<26:22,  2.03it/s] 73%|███████▎  | 8644/11858 [1:13:20<26:22,  2.03it/s] 73%|███████▎  | 8645/11858 [1:13:20<26:20,  2.03it/s] 73%|███████▎  | 8646/11858 [1:13:21<26:19,  2.03it/s] 73%|███████▎  | 8647/11858 [1:13:21<26:20,  2.03it/s] 73%|███████▎  | 8648/11858 [1:13:22<26:17,  2.04it/s] 73%|███████▎  | 8649/11858 [1:13:22<26:17,  2.03it/s] 73%|███████▎  | 8650/11858 [1:13:23<26:17,  2.03it/s]                                                      {'loss': 1.5332, 'grad_norm': 0.2921319007873535, 'learning_rate': 0.00020686999449385284, 'epoch': 10.21}
- 73%|███████▎  | 8650/11858 [1:13:23<26:17,  2.03it/s] 73%|███████▎  | 8651/11858 [1:13:23<26:17,  2.03it/s] 73%|███████▎  | 8652/11858 [1:13:24<26:16,  2.03it/s] 73%|███████▎  | 8653/11858 [1:13:24<26:17,  2.03it/s] 73%|███████▎  | 8654/11858 [1:13:25<26:15,  2.03it/s] 73%|███████▎  | 8655/11858 [1:13:25<26:16,  2.03it/s] 73%|███████▎  | 8656/11858 [1:13:26<26:15,  2.03it/s] 73%|███████▎  | 8657/11858 [1:13:26<26:14,  2.03it/s] 73%|███████▎  | 8658/11858 [1:13:27<26:14,  2.03it/s] 73%|███████▎  | 8659/11858 [1:13:27<26:14,  2.03it/s] 73%|███████▎  | 8660/11858 [1:13:28<26:14,  2.03it/s] 73%|███████▎  | 8661/11858 [1:13:28<26:14,  2.03it/s] 73%|███████▎  | 8662/11858 [1:13:29<26:12,  2.03it/s] 73%|███████▎  | 8663/11858 [1:13:29<26:13,  2.03it/s] 73%|███████▎  | 8664/11858 [1:13:30<26:11,  2.03it/s] 73%|███████▎  | 8665/11858 [1:13:30<26:10,  2.03it/s] 73%|███████▎  | 8666/11858 [1:13:31<26:11,  2.03it/s] 73%|███████▎  | 8667/11858 [1:13:31<26:10,  2.03it/s] 73%|███████▎  | 8668/11858 [1:13:32<26:13,  2.03it/s] 73%|███████▎  | 8669/11858 [1:13:32<26:10,  2.03it/s] 73%|███████▎  | 8670/11858 [1:13:33<26:09,  2.03it/s] 73%|███████▎  | 8671/11858 [1:13:33<26:09,  2.03it/s] 73%|███████▎  | 8672/11858 [1:13:34<26:06,  2.03it/s] 73%|███████▎  | 8673/11858 [1:13:34<26:06,  2.03it/s] 73%|███████▎  | 8674/11858 [1:13:35<26:05,  2.03it/s] 73%|███████▎  | 8675/11858 [1:13:35<26:03,  2.04it/s]                                                      {'loss': 1.5142, 'grad_norm': 0.2876974940299988, 'learning_rate': 0.0002038969387004288, 'epoch': 10.24}
- 73%|███████▎  | 8675/11858 [1:13:35<26:03,  2.04it/s] 73%|███████▎  | 8676/11858 [1:13:36<26:06,  2.03it/s] 73%|███████▎  | 8677/11858 [1:13:36<26:05,  2.03it/s] 73%|███████▎  | 8678/11858 [1:13:37<26:04,  2.03it/s] 73%|███████▎  | 8679/11858 [1:13:37<26:05,  2.03it/s] 73%|███████▎  | 8680/11858 [1:13:38<26:04,  2.03it/s] 73%|███████▎  | 8681/11858 [1:13:38<26:04,  2.03it/s] 73%|███████▎  | 8682/11858 [1:13:39<26:03,  2.03it/s] 73%|███████▎  | 8683/11858 [1:13:39<26:01,  2.03it/s] 73%|███████▎  | 8684/11858 [1:13:40<26:02,  2.03it/s] 73%|███████▎  | 8685/11858 [1:13:40<26:00,  2.03it/s] 73%|███████▎  | 8686/11858 [1:13:41<25:58,  2.03it/s] 73%|███████▎  | 8687/11858 [1:13:41<25:59,  2.03it/s] 73%|███████▎  | 8688/11858 [1:13:42<25:58,  2.03it/s] 73%|███████▎  | 8689/11858 [1:13:42<25:59,  2.03it/s] 73%|███████▎  | 8690/11858 [1:13:43<25:58,  2.03it/s] 73%|███████▎  | 8691/11858 [1:13:43<25:57,  2.03it/s] 73%|███████▎  | 8692/11858 [1:13:44<25:57,  2.03it/s] 73%|███████▎  | 8693/11858 [1:13:44<25:57,  2.03it/s] 73%|███████▎  | 8694/11858 [1:13:45<25:56,  2.03it/s] 73%|███████▎  | 8695/11858 [1:13:45<25:57,  2.03it/s] 73%|███████▎  | 8696/11858 [1:13:46<25:56,  2.03it/s] 73%|███████▎  | 8697/11858 [1:13:46<25:54,  2.03it/s] 73%|███████▎  | 8698/11858 [1:13:47<25:54,  2.03it/s] 73%|███████▎  | 8699/11858 [1:13:47<25:54,  2.03it/s] 73%|███████▎  | 8700/11858 [1:13:48<25:54,  2.03it/s]                                                      {'loss': 1.5108, 'grad_norm': 0.3064069151878357, 'learning_rate': 0.00020093992012626305, 'epoch': 10.27}
- 73%|███████▎  | 8700/11858 [1:13:48<25:54,  2.03it/s] 73%|███████▎  | 8701/11858 [1:13:48<25:54,  2.03it/s] 73%|███████▎  | 8702/11858 [1:13:49<25:54,  2.03it/s] 73%|███████▎  | 8703/11858 [1:13:49<25:54,  2.03it/s] 73%|███████▎  | 8704/11858 [1:13:50<25:53,  2.03it/s] 73%|███████▎  | 8705/11858 [1:13:50<25:53,  2.03it/s] 73%|███████▎  | 8706/11858 [1:13:51<25:53,  2.03it/s] 73%|███████▎  | 8707/11858 [1:13:51<25:52,  2.03it/s] 73%|███████▎  | 8708/11858 [1:13:52<25:52,  2.03it/s] 73%|███████▎  | 8709/11858 [1:13:52<25:50,  2.03it/s] 73%|███████▎  | 8710/11858 [1:13:52<25:49,  2.03it/s] 73%|███████▎  | 8711/11858 [1:13:53<25:49,  2.03it/s] 73%|███████▎  | 8712/11858 [1:13:53<25:49,  2.03it/s] 73%|███████▎  | 8713/11858 [1:13:54<25:49,  2.03it/s] 73%|███████▎  | 8714/11858 [1:13:54<25:48,  2.03it/s] 73%|███████▎  | 8715/11858 [1:13:55<25:46,  2.03it/s] 74%|███████▎  | 8716/11858 [1:13:55<25:46,  2.03it/s] 74%|███████▎  | 8717/11858 [1:13:56<25:46,  2.03it/s] 74%|███████▎  | 8718/11858 [1:13:56<25:46,  2.03it/s] 74%|███████▎  | 8719/11858 [1:13:57<25:45,  2.03it/s] 74%|███████▎  | 8720/11858 [1:13:57<25:44,  2.03it/s] 74%|███████▎  | 8721/11858 [1:13:58<25:44,  2.03it/s] 74%|███████▎  | 8722/11858 [1:13:58<25:43,  2.03it/s] 74%|███████▎  | 8723/11858 [1:13:59<25:42,  2.03it/s] 74%|███████▎  | 8724/11858 [1:13:59<25:41,  2.03it/s] 74%|███████▎  | 8725/11858 [1:14:00<25:42,  2.03it/s]                                                      {'loss': 1.5423, 'grad_norm': 0.3549622893333435, 'learning_rate': 0.00019799909892625223, 'epoch': 10.29}
- 74%|███████▎  | 8725/11858 [1:14:00<25:42,  2.03it/s] 74%|███████▎  | 8726/11858 [1:14:00<25:44,  2.03it/s] 74%|███████▎  | 8727/11858 [1:14:01<25:42,  2.03it/s] 74%|███████▎  | 8728/11858 [1:14:01<25:41,  2.03it/s] 74%|███████▎  | 8729/11858 [1:14:02<25:39,  2.03it/s] 74%|███████▎  | 8730/11858 [1:14:02<25:40,  2.03it/s] 74%|███████▎  | 8731/11858 [1:14:03<25:40,  2.03it/s] 74%|███████▎  | 8732/11858 [1:14:03<25:40,  2.03it/s] 74%|███████▎  | 8733/11858 [1:14:04<25:41,  2.03it/s] 74%|███████▎  | 8734/11858 [1:14:04<25:39,  2.03it/s] 74%|███████▎  | 8735/11858 [1:14:05<25:38,  2.03it/s] 74%|███████▎  | 8736/11858 [1:14:05<25:37,  2.03it/s] 74%|███████▎  | 8737/11858 [1:14:06<25:36,  2.03it/s] 74%|███████▎  | 8738/11858 [1:14:06<25:37,  2.03it/s] 74%|███████▎  | 8739/11858 [1:14:07<25:34,  2.03it/s] 74%|███████▎  | 8740/11858 [1:14:07<25:33,  2.03it/s] 74%|███████▎  | 8741/11858 [1:14:08<25:34,  2.03it/s] 74%|███████▎  | 8742/11858 [1:14:08<25:33,  2.03it/s] 74%|███████▎  | 8743/11858 [1:14:09<25:33,  2.03it/s] 74%|███████▎  | 8744/11858 [1:14:09<25:32,  2.03it/s] 74%|███████▎  | 8745/11858 [1:14:10<25:29,  2.04it/s] 74%|███████▍  | 8746/11858 [1:14:10<25:29,  2.03it/s] 74%|███████▍  | 8747/11858 [1:14:11<25:30,  2.03it/s] 74%|███████▍  | 8748/11858 [1:14:11<25:28,  2.03it/s] 74%|███████▍  | 8749/11858 [1:14:12<25:29,  2.03it/s] 74%|███████▍  | 8750/11858 [1:14:12<25:27,  2.03it/s]                                                      {'loss': 1.5369, 'grad_norm': 0.3002345561981201, 'learning_rate': 0.0001950746343780284, 'epoch': 10.32}
- 74%|███████▍  | 8750/11858 [1:14:12<25:27,  2.03it/s] 74%|███████▍  | 8751/11858 [1:14:13<25:27,  2.03it/s] 74%|███████▍  | 8752/11858 [1:14:13<25:28,  2.03it/s] 74%|███████▍  | 8753/11858 [1:14:14<25:26,  2.03it/s] 74%|███████▍  | 8754/11858 [1:14:14<25:26,  2.03it/s] 74%|███████▍  | 8755/11858 [1:14:15<25:26,  2.03it/s] 74%|███████▍  | 8756/11858 [1:14:15<25:24,  2.03it/s] 74%|███████▍  | 8757/11858 [1:14:16<25:25,  2.03it/s] 74%|███████▍  | 8758/11858 [1:14:16<25:24,  2.03it/s] 74%|███████▍  | 8759/11858 [1:14:17<25:23,  2.03it/s] 74%|███████▍  | 8760/11858 [1:14:17<25:22,  2.03it/s] 74%|███████▍  | 8761/11858 [1:14:18<25:23,  2.03it/s] 74%|███████▍  | 8762/11858 [1:14:18<25:22,  2.03it/s] 74%|███████▍  | 8763/11858 [1:14:19<25:22,  2.03it/s] 74%|███████▍  | 8764/11858 [1:14:19<25:23,  2.03it/s] 74%|███████▍  | 8765/11858 [1:14:20<25:23,  2.03it/s] 74%|███████▍  | 8766/11858 [1:14:20<25:24,  2.03it/s] 74%|███████▍  | 8767/11858 [1:14:21<25:22,  2.03it/s] 74%|███████▍  | 8768/11858 [1:14:21<25:22,  2.03it/s] 74%|███████▍  | 8769/11858 [1:14:22<25:20,  2.03it/s] 74%|███████▍  | 8770/11858 [1:14:22<25:21,  2.03it/s] 74%|███████▍  | 8771/11858 [1:14:23<25:21,  2.03it/s] 74%|███████▍  | 8772/11858 [1:14:23<25:20,  2.03it/s] 74%|███████▍  | 8773/11858 [1:14:24<25:21,  2.03it/s] 74%|███████▍  | 8774/11858 [1:14:24<25:19,  2.03it/s] 74%|███████▍  | 8775/11858 [1:14:24<25:20,  2.03it/s]                                                      {'loss': 1.5532, 'grad_norm': 0.2878411114215851, 'learning_rate': 0.00019216668487333178, 'epoch': 10.35}
- 74%|███████▍  | 8775/11858 [1:14:24<25:20,  2.03it/s] 74%|███████▍  | 8776/11858 [1:14:25<25:20,  2.03it/s] 74%|███████▍  | 8777/11858 [1:14:25<25:21,  2.02it/s] 74%|███████▍  | 8778/11858 [1:14:26<25:21,  2.02it/s] 74%|███████▍  | 8779/11858 [1:14:26<25:20,  2.02it/s] 74%|███████▍  | 8780/11858 [1:14:27<25:19,  2.03it/s] 74%|███████▍  | 8781/11858 [1:14:27<25:17,  2.03it/s] 74%|███████▍  | 8782/11858 [1:14:28<25:16,  2.03it/s] 74%|███████▍  | 8783/11858 [1:14:28<25:15,  2.03it/s] 74%|███████▍  | 8784/11858 [1:14:29<25:14,  2.03it/s] 74%|███████▍  | 8785/11858 [1:14:29<25:13,  2.03it/s] 74%|███████▍  | 8786/11858 [1:14:30<25:14,  2.03it/s] 74%|███████▍  | 8787/11858 [1:14:30<25:14,  2.03it/s] 74%|███████▍  | 8788/11858 [1:14:31<25:13,  2.03it/s] 74%|███████▍  | 8789/11858 [1:14:31<25:13,  2.03it/s] 74%|███████▍  | 8790/11858 [1:14:32<25:12,  2.03it/s] 74%|███████▍  | 8791/11858 [1:14:32<25:11,  2.03it/s] 74%|███████▍  | 8792/11858 [1:14:33<25:11,  2.03it/s] 74%|███████▍  | 8793/11858 [1:14:33<25:10,  2.03it/s] 74%|███████▍  | 8794/11858 [1:14:34<25:09,  2.03it/s] 74%|███████▍  | 8795/11858 [1:14:34<25:08,  2.03it/s] 74%|███████▍  | 8796/11858 [1:14:35<25:09,  2.03it/s] 74%|███████▍  | 8797/11858 [1:14:35<25:08,  2.03it/s] 74%|███████▍  | 8798/11858 [1:14:36<25:07,  2.03it/s] 74%|███████▍  | 8799/11858 [1:14:36<25:07,  2.03it/s] 74%|███████▍  | 8800/11858 [1:14:37<25:05,  2.03it/s]                                                      {'loss': 1.5315, 'grad_norm': 0.3415934145450592, 'learning_rate': 0.00018927540790943242, 'epoch': 10.38}
- 74%|███████▍  | 8800/11858 [1:14:37<25:05,  2.03it/s] 74%|███████▍  | 8801/11858 [1:14:37<25:08,  2.03it/s] 74%|███████▍  | 8802/11858 [1:14:38<25:05,  2.03it/s] 74%|███████▍  | 8803/11858 [1:14:38<25:02,  2.03it/s] 74%|███████▍  | 8804/11858 [1:14:39<25:03,  2.03it/s] 74%|███████▍  | 8805/11858 [1:14:39<25:03,  2.03it/s] 74%|███████▍  | 8806/11858 [1:14:40<25:02,  2.03it/s] 74%|███████▍  | 8807/11858 [1:14:40<25:03,  2.03it/s] 74%|███████▍  | 8808/11858 [1:14:41<25:00,  2.03it/s] 74%|███████▍  | 8809/11858 [1:14:41<25:02,  2.03it/s] 74%|███████▍  | 8810/11858 [1:14:42<25:01,  2.03it/s] 74%|███████▍  | 8811/11858 [1:14:42<24:58,  2.03it/s] 74%|███████▍  | 8812/11858 [1:14:43<24:59,  2.03it/s] 74%|███████▍  | 8813/11858 [1:14:43<24:58,  2.03it/s] 74%|███████▍  | 8814/11858 [1:14:44<24:56,  2.03it/s] 74%|███████▍  | 8815/11858 [1:14:44<24:56,  2.03it/s] 74%|███████▍  | 8816/11858 [1:14:45<24:55,  2.03it/s] 74%|███████▍  | 8817/11858 [1:14:45<24:54,  2.03it/s] 74%|███████▍  | 8818/11858 [1:14:46<24:57,  2.03it/s] 74%|███████▍  | 8819/11858 [1:14:46<24:55,  2.03it/s] 74%|███████▍  | 8820/11858 [1:14:47<24:57,  2.03it/s] 74%|███████▍  | 8821/11858 [1:14:47<24:55,  2.03it/s] 74%|███████▍  | 8822/11858 [1:14:48<24:54,  2.03it/s] 74%|███████▍  | 8823/11858 [1:14:48<24:54,  2.03it/s] 74%|███████▍  | 8824/11858 [1:14:49<24:53,  2.03it/s] 74%|███████▍  | 8825/11858 [1:14:49<24:52,  2.03it/s]                                                      {'loss': 1.522, 'grad_norm': 0.2926342785358429, 'learning_rate': 0.0001864009600806001, 'epoch': 10.41}
- 74%|███████▍  | 8825/11858 [1:14:49<24:52,  2.03it/s] 74%|███████▍  | 8826/11858 [1:14:50<24:54,  2.03it/s] 74%|███████▍  | 8827/11858 [1:14:50<24:53,  2.03it/s] 74%|███████▍  | 8828/11858 [1:14:51<24:53,  2.03it/s] 74%|███████▍  | 8829/11858 [1:14:51<24:53,  2.03it/s] 74%|███████▍  | 8830/11858 [1:14:52<24:52,  2.03it/s] 74%|███████▍  | 8831/11858 [1:14:52<24:51,  2.03it/s] 74%|███████▍  | 8832/11858 [1:14:53<24:51,  2.03it/s] 74%|███████▍  | 8833/11858 [1:14:53<24:49,  2.03it/s] 74%|███████▍  | 8834/11858 [1:14:54<24:50,  2.03it/s] 75%|███████▍  | 8835/11858 [1:14:54<24:49,  2.03it/s] 75%|███████▍  | 8836/11858 [1:14:55<24:47,  2.03it/s] 75%|███████▍  | 8837/11858 [1:14:55<24:46,  2.03it/s] 75%|███████▍  | 8838/11858 [1:14:56<24:47,  2.03it/s] 75%|███████▍  | 8839/11858 [1:14:56<24:47,  2.03it/s] 75%|███████▍  | 8840/11858 [1:14:57<24:48,  2.03it/s] 75%|███████▍  | 8841/11858 [1:14:57<24:47,  2.03it/s] 75%|███████▍  | 8842/11858 [1:14:57<24:47,  2.03it/s] 75%|███████▍  | 8843/11858 [1:14:58<24:46,  2.03it/s] 75%|███████▍  | 8844/11858 [1:14:58<24:45,  2.03it/s] 75%|███████▍  | 8845/11858 [1:14:59<24:43,  2.03it/s] 75%|███████▍  | 8846/11858 [1:14:59<24:44,  2.03it/s] 75%|███████▍  | 8847/11858 [1:15:00<24:43,  2.03it/s] 75%|███████▍  | 8848/11858 [1:15:00<24:42,  2.03it/s] 75%|███████▍  | 8849/11858 [1:15:01<24:43,  2.03it/s] 75%|███████▍  | 8850/11858 [1:15:01<24:42,  2.03it/s]                                                      {'loss': 1.5347, 'grad_norm': 0.3081815838813782, 'learning_rate': 0.00018354349706962243, 'epoch': 10.44}
- 75%|███████▍  | 8850/11858 [1:15:01<24:42,  2.03it/s] 75%|███████▍  | 8851/11858 [1:15:02<24:43,  2.03it/s] 75%|███████▍  | 8852/11858 [1:15:02<24:42,  2.03it/s] 75%|███████▍  | 8853/11858 [1:15:03<24:40,  2.03it/s] 75%|███████▍  | 8854/11858 [1:15:03<24:39,  2.03it/s] 75%|███████▍  | 8855/11858 [1:15:04<24:39,  2.03it/s] 75%|███████▍  | 8856/11858 [1:15:04<24:37,  2.03it/s] 75%|███████▍  | 8857/11858 [1:15:05<24:37,  2.03it/s] 75%|███████▍  | 8858/11858 [1:15:05<24:36,  2.03it/s] 75%|███████▍  | 8859/11858 [1:15:06<24:35,  2.03it/s] 75%|███████▍  | 8860/11858 [1:15:06<24:35,  2.03it/s] 75%|███████▍  | 8861/11858 [1:15:07<24:33,  2.03it/s] 75%|███████▍  | 8862/11858 [1:15:07<24:33,  2.03it/s] 75%|███████▍  | 8863/11858 [1:15:08<24:33,  2.03it/s] 75%|███████▍  | 8864/11858 [1:15:08<24:32,  2.03it/s] 75%|███████▍  | 8865/11858 [1:15:09<24:31,  2.03it/s] 75%|███████▍  | 8866/11858 [1:15:09<24:32,  2.03it/s] 75%|███████▍  | 8867/11858 [1:15:10<24:31,  2.03it/s] 75%|███████▍  | 8868/11858 [1:15:10<24:32,  2.03it/s] 75%|███████▍  | 8869/11858 [1:15:11<24:30,  2.03it/s] 75%|███████▍  | 8870/11858 [1:15:11<24:30,  2.03it/s] 75%|███████▍  | 8871/11858 [1:15:12<24:31,  2.03it/s] 75%|███████▍  | 8872/11858 [1:15:12<24:30,  2.03it/s] 75%|███████▍  | 8873/11858 [1:15:13<24:29,  2.03it/s] 75%|███████▍  | 8874/11858 [1:15:13<24:29,  2.03it/s] 75%|███████▍  | 8875/11858 [1:15:14<24:29,  2.03it/s]                                                      {'loss': 1.5283, 'grad_norm': 0.28538140654563904, 'learning_rate': 0.00018070317363937344, 'epoch': 10.47}
- 75%|███████▍  | 8875/11858 [1:15:14<24:29,  2.03it/s] 75%|███████▍  | 8876/11858 [1:15:14<24:29,  2.03it/s] 75%|███████▍  | 8877/11858 [1:15:15<24:28,  2.03it/s] 75%|███████▍  | 8878/11858 [1:15:15<24:27,  2.03it/s] 75%|███████▍  | 8879/11858 [1:15:16<24:27,  2.03it/s] 75%|███████▍  | 8880/11858 [1:15:16<24:27,  2.03it/s] 75%|███████▍  | 8881/11858 [1:15:17<24:25,  2.03it/s] 75%|███████▍  | 8882/11858 [1:15:17<24:25,  2.03it/s] 75%|███████▍  | 8883/11858 [1:15:18<24:24,  2.03it/s] 75%|███████▍  | 8884/11858 [1:15:18<24:24,  2.03it/s] 75%|███████▍  | 8885/11858 [1:15:19<24:24,  2.03it/s] 75%|███████▍  | 8886/11858 [1:15:19<24:24,  2.03it/s] 75%|███████▍  | 8887/11858 [1:15:20<24:22,  2.03it/s] 75%|███████▍  | 8888/11858 [1:15:20<26:30,  1.87it/s] 75%|███████▍  | 8889/11858 [1:15:21<25:51,  1.91it/s] 75%|███████▍  | 8890/11858 [1:15:21<25:23,  1.95it/s] 75%|███████▍  | 8891/11858 [1:15:22<25:03,  1.97it/s] 75%|███████▍  | 8892/11858 [1:15:22<24:51,  1.99it/s] 75%|███████▍  | 8893/11858 [1:15:23<24:41,  2.00it/s] 75%|███████▌  | 8894/11858 [1:15:23<24:34,  2.01it/s] 75%|███████▌  | 8895/11858 [1:15:24<24:29,  2.02it/s] 75%|███████▌  | 8896/11858 [1:15:24<24:25,  2.02it/s] 75%|███████▌  | 8897/11858 [1:15:25<24:23,  2.02it/s] 75%|███████▌  | 8898/11858 [1:15:25<24:20,  2.03it/s] 75%|███████▌  | 8899/11858 [1:15:26<24:18,  2.03it/s] 75%|███████▌  | 8900/11858 [1:15:26<24:18,  2.03it/s]                                                      {'loss': 1.5241, 'grad_norm': 0.29605796933174133, 'learning_rate': 0.0001778801436244319, 'epoch': 10.5}
- 75%|███████▌  | 8900/11858 [1:15:26<24:18,  2.03it/s] 75%|███████▌  | 8901/11858 [1:15:27<24:17,  2.03it/s] 75%|███████▌  | 8902/11858 [1:15:27<24:16,  2.03it/s] 75%|███████▌  | 8903/11858 [1:15:28<24:15,  2.03it/s] 75%|███████▌  | 8904/11858 [1:15:28<24:13,  2.03it/s] 75%|███████▌  | 8905/11858 [1:15:29<24:14,  2.03it/s] 75%|███████▌  | 8906/11858 [1:15:29<24:12,  2.03it/s] 75%|███████▌  | 8907/11858 [1:15:30<24:11,  2.03it/s] 75%|███████▌  | 8908/11858 [1:15:30<24:11,  2.03it/s] 75%|███████▌  | 8909/11858 [1:15:31<24:10,  2.03it/s] 75%|███████▌  | 8910/11858 [1:15:31<24:10,  2.03it/s] 75%|███████▌  | 8911/11858 [1:15:32<24:10,  2.03it/s] 75%|███████▌  | 8912/11858 [1:15:32<24:09,  2.03it/s] 75%|███████▌  | 8913/11858 [1:15:33<24:09,  2.03it/s] 75%|███████▌  | 8914/11858 [1:15:33<24:08,  2.03it/s] 75%|███████▌  | 8915/11858 [1:15:34<24:07,  2.03it/s] 75%|███████▌  | 8916/11858 [1:15:34<24:08,  2.03it/s] 75%|███████▌  | 8917/11858 [1:15:35<24:07,  2.03it/s] 75%|███████▌  | 8918/11858 [1:15:35<24:06,  2.03it/s] 75%|███████▌  | 8919/11858 [1:15:36<24:06,  2.03it/s] 75%|███████▌  | 8920/11858 [1:15:36<24:05,  2.03it/s] 75%|███████▌  | 8921/11858 [1:15:37<24:03,  2.04it/s] 75%|███████▌  | 8922/11858 [1:15:37<24:03,  2.03it/s] 75%|███████▌  | 8923/11858 [1:15:38<24:03,  2.03it/s] 75%|███████▌  | 8924/11858 [1:15:38<24:02,  2.03it/s] 75%|███████▌  | 8925/11858 [1:15:38<24:03,  2.03it/s]                                                      {'loss': 1.5411, 'grad_norm': 0.2901167869567871, 'learning_rate': 0.00017507455992274852, 'epoch': 10.53}
- 75%|███████▌  | 8925/11858 [1:15:39<24:03,  2.03it/s] 75%|███████▌  | 8926/11858 [1:15:39<24:03,  2.03it/s] 75%|███████▌  | 8927/11858 [1:15:39<24:01,  2.03it/s] 75%|███████▌  | 8928/11858 [1:15:40<24:02,  2.03it/s] 75%|███████▌  | 8929/11858 [1:15:40<24:00,  2.03it/s] 75%|███████▌  | 8930/11858 [1:15:41<23:59,  2.03it/s] 75%|███████▌  | 8931/11858 [1:15:41<23:59,  2.03it/s] 75%|███████▌  | 8932/11858 [1:15:42<23:58,  2.03it/s] 75%|███████▌  | 8933/11858 [1:15:42<23:58,  2.03it/s] 75%|███████▌  | 8934/11858 [1:15:43<23:58,  2.03it/s] 75%|███████▌  | 8935/11858 [1:15:43<23:57,  2.03it/s] 75%|███████▌  | 8936/11858 [1:15:44<23:57,  2.03it/s] 75%|███████▌  | 8937/11858 [1:15:44<23:57,  2.03it/s] 75%|███████▌  | 8938/11858 [1:15:45<23:55,  2.03it/s] 75%|███████▌  | 8939/11858 [1:15:45<23:57,  2.03it/s] 75%|███████▌  | 8940/11858 [1:15:46<23:56,  2.03it/s] 75%|███████▌  | 8941/11858 [1:15:46<23:55,  2.03it/s] 75%|███████▌  | 8942/11858 [1:15:47<23:56,  2.03it/s] 75%|███████▌  | 8943/11858 [1:15:47<23:55,  2.03it/s] 75%|███████▌  | 8944/11858 [1:15:48<23:54,  2.03it/s] 75%|███████▌  | 8945/11858 [1:15:48<23:53,  2.03it/s] 75%|███████▌  | 8946/11858 [1:15:49<23:52,  2.03it/s] 75%|███████▌  | 8947/11858 [1:15:49<23:51,  2.03it/s] 75%|███████▌  | 8948/11858 [1:15:50<23:52,  2.03it/s] 75%|███████▌  | 8949/11858 [1:15:50<23:51,  2.03it/s] 75%|███████▌  | 8950/11858 [1:15:51<23:52,  2.03it/s]                                                      {'loss': 1.5353, 'grad_norm': 0.2865045964717865, 'learning_rate': 0.00017228657448736562, 'epoch': 10.56}
- 75%|███████▌  | 8950/11858 [1:15:51<23:52,  2.03it/s] 75%|███████▌  | 8951/11858 [1:15:51<23:53,  2.03it/s] 75%|███████▌  | 8952/11858 [1:15:52<23:51,  2.03it/s] 76%|███████▌  | 8953/11858 [1:15:52<23:51,  2.03it/s] 76%|███████▌  | 8954/11858 [1:15:53<23:49,  2.03it/s] 76%|███████▌  | 8955/11858 [1:15:53<23:49,  2.03it/s] 76%|███████▌  | 8956/11858 [1:15:54<23:49,  2.03it/s] 76%|███████▌  | 8957/11858 [1:15:54<23:47,  2.03it/s] 76%|███████▌  | 8958/11858 [1:15:55<23:47,  2.03it/s] 76%|███████▌  | 8959/11858 [1:15:55<23:46,  2.03it/s] 76%|███████▌  | 8960/11858 [1:15:56<23:44,  2.03it/s] 76%|███████▌  | 8961/11858 [1:15:56<23:44,  2.03it/s] 76%|███████▌  | 8962/11858 [1:15:57<23:43,  2.03it/s] 76%|███████▌  | 8963/11858 [1:15:57<23:42,  2.04it/s] 76%|███████▌  | 8964/11858 [1:15:58<23:42,  2.03it/s] 76%|███████▌  | 8965/11858 [1:15:58<23:42,  2.03it/s] 76%|███████▌  | 8966/11858 [1:15:59<23:41,  2.03it/s] 76%|███████▌  | 8967/11858 [1:15:59<23:41,  2.03it/s] 76%|███████▌  | 8968/11858 [1:16:00<25:46,  1.87it/s] 76%|███████▌  | 8969/11858 [1:16:00<25:09,  1.91it/s] 76%|███████▌  | 8970/11858 [1:16:01<24:43,  1.95it/s] 76%|███████▌  | 8971/11858 [1:16:01<24:22,  1.97it/s] 76%|███████▌  | 8972/11858 [1:16:02<24:09,  1.99it/s] 76%|███████▌  | 8973/11858 [1:16:02<24:01,  2.00it/s] 76%|███████▌  | 8974/11858 [1:16:03<23:53,  2.01it/s] 76%|███████▌  | 8975/11858 [1:16:03<23:48,  2.02it/s]                                                      {'loss': 1.516, 'grad_norm': 0.3083016574382782, 'learning_rate': 0.00016951633831818698, 'epoch': 10.59}
- 76%|███████▌  | 8975/11858 [1:16:03<23:48,  2.02it/s] 76%|███████▌  | 8976/11858 [1:16:04<23:45,  2.02it/s] 76%|███████▌  | 8977/11858 [1:16:04<23:42,  2.02it/s] 76%|███████▌  | 8978/11858 [1:16:05<23:41,  2.03it/s] 76%|███████▌  | 8979/11858 [1:16:05<23:39,  2.03it/s] 76%|███████▌  | 8980/11858 [1:16:06<23:38,  2.03it/s] 76%|███████▌  | 8981/11858 [1:16:06<23:36,  2.03it/s] 76%|███████▌  | 8982/11858 [1:16:07<23:35,  2.03it/s] 76%|███████▌  | 8983/11858 [1:16:07<23:35,  2.03it/s] 76%|███████▌  | 8984/11858 [1:16:08<23:32,  2.03it/s] 76%|███████▌  | 8985/11858 [1:16:08<23:32,  2.03it/s] 76%|███████▌  | 8986/11858 [1:16:09<23:33,  2.03it/s] 76%|███████▌  | 8987/11858 [1:16:09<23:32,  2.03it/s] 76%|███████▌  | 8988/11858 [1:16:10<23:32,  2.03it/s] 76%|███████▌  | 8989/11858 [1:16:10<23:31,  2.03it/s] 76%|███████▌  | 8990/11858 [1:16:11<23:30,  2.03it/s] 76%|███████▌  | 8991/11858 [1:16:11<23:28,  2.03it/s] 76%|███████▌  | 8992/11858 [1:16:12<23:29,  2.03it/s] 76%|███████▌  | 8993/11858 [1:16:12<23:27,  2.04it/s] 76%|███████▌  | 8994/11858 [1:16:13<23:29,  2.03it/s] 76%|███████▌  | 8995/11858 [1:16:13<23:28,  2.03it/s] 76%|███████▌  | 8996/11858 [1:16:14<23:27,  2.03it/s] 76%|███████▌  | 8997/11858 [1:16:14<23:26,  2.03it/s] 76%|███████▌  | 8998/11858 [1:16:15<23:26,  2.03it/s] 76%|███████▌  | 8999/11858 [1:16:15<23:26,  2.03it/s] 76%|███████▌  | 9000/11858 [1:16:16<23:25,  2.03it/s]                                                      {'loss': 1.5568, 'grad_norm': 0.2866906225681305, 'learning_rate': 0.00016676400145379893, 'epoch': 10.62}
- 76%|███████▌  | 9000/11858 [1:16:16<23:25,  2.03it/s] 76%|███████▌  | 9001/11858 [1:16:16<23:25,  2.03it/s] 76%|███████▌  | 9002/11858 [1:16:17<23:25,  2.03it/s] 76%|███████▌  | 9003/11858 [1:16:17<23:25,  2.03it/s] 76%|███████▌  | 9004/11858 [1:16:18<23:24,  2.03it/s] 76%|███████▌  | 9005/11858 [1:16:18<23:24,  2.03it/s] 76%|███████▌  | 9006/11858 [1:16:18<23:23,  2.03it/s] 76%|███████▌  | 9007/11858 [1:16:19<23:23,  2.03it/s] 76%|███████▌  | 9008/11858 [1:16:19<23:22,  2.03it/s] 76%|███████▌  | 9009/11858 [1:16:20<23:22,  2.03it/s] 76%|███████▌  | 9010/11858 [1:16:20<23:22,  2.03it/s] 76%|███████▌  | 9011/11858 [1:16:21<23:22,  2.03it/s] 76%|███████▌  | 9012/11858 [1:16:21<23:21,  2.03it/s] 76%|███████▌  | 9013/11858 [1:16:22<23:19,  2.03it/s] 76%|███████▌  | 9014/11858 [1:16:22<23:18,  2.03it/s] 76%|███████▌  | 9015/11858 [1:16:23<23:18,  2.03it/s] 76%|███████▌  | 9016/11858 [1:16:23<23:17,  2.03it/s] 76%|███████▌  | 9017/11858 [1:16:24<23:17,  2.03it/s] 76%|███████▌  | 9018/11858 [1:16:24<23:16,  2.03it/s] 76%|███████▌  | 9019/11858 [1:16:25<23:16,  2.03it/s] 76%|███████▌  | 9020/11858 [1:16:25<23:16,  2.03it/s] 76%|███████▌  | 9021/11858 [1:16:26<23:14,  2.03it/s] 76%|███████▌  | 9022/11858 [1:16:26<23:13,  2.03it/s] 76%|███████▌  | 9023/11858 [1:16:27<23:14,  2.03it/s] 76%|███████▌  | 9024/11858 [1:16:27<23:13,  2.03it/s] 76%|███████▌  | 9025/11858 [1:16:28<23:12,  2.03it/s]                                                      {'loss': 1.5355, 'grad_norm': 0.32557615637779236, 'learning_rate': 0.00016402971296334545, 'epoch': 10.65}
- 76%|███████▌  | 9025/11858 [1:16:28<23:12,  2.03it/s] 76%|███████▌  | 9026/11858 [1:16:28<23:13,  2.03it/s] 76%|███████▌  | 9027/11858 [1:16:29<23:10,  2.04it/s] 76%|███████▌  | 9028/11858 [1:16:29<23:11,  2.03it/s] 76%|███████▌  | 9029/11858 [1:16:30<23:10,  2.04it/s] 76%|███████▌  | 9030/11858 [1:16:30<23:08,  2.04it/s] 76%|███████▌  | 9031/11858 [1:16:31<23:09,  2.03it/s] 76%|███████▌  | 9032/11858 [1:16:31<23:09,  2.03it/s] 76%|███████▌  | 9033/11858 [1:16:32<23:08,  2.03it/s] 76%|███████▌  | 9034/11858 [1:16:32<23:09,  2.03it/s] 76%|███████▌  | 9035/11858 [1:16:33<23:07,  2.03it/s] 76%|███████▌  | 9036/11858 [1:16:33<23:06,  2.03it/s] 76%|███████▌  | 9037/11858 [1:16:34<23:08,  2.03it/s] 76%|███████▌  | 9038/11858 [1:16:34<23:06,  2.03it/s] 76%|███████▌  | 9039/11858 [1:16:35<23:07,  2.03it/s] 76%|███████▌  | 9040/11858 [1:16:35<23:06,  2.03it/s] 76%|███████▌  | 9041/11858 [1:16:36<23:05,  2.03it/s] 76%|███████▋  | 9042/11858 [1:16:36<23:06,  2.03it/s] 76%|███████▋  | 9043/11858 [1:16:37<23:04,  2.03it/s] 76%|███████▋  | 9044/11858 [1:16:37<23:04,  2.03it/s] 76%|███████▋  | 9045/11858 [1:16:38<23:05,  2.03it/s] 76%|███████▋  | 9046/11858 [1:16:38<23:03,  2.03it/s] 76%|███████▋  | 9047/11858 [1:16:39<23:03,  2.03it/s] 76%|█���█████▋  | 9048/11858 [1:16:39<23:03,  2.03it/s] 76%|███████▋  | 9049/11858 [1:16:40<23:00,  2.03it/s] 76%|███████▋  | 9050/11858 [1:16:40<23:01,  2.03it/s]                                                      {'loss': 1.5423, 'grad_norm': 0.29038164019584656, 'learning_rate': 0.00016131362093845298, 'epoch': 10.68}
- 76%|███████▋  | 9050/11858 [1:16:40<23:01,  2.03it/s] 76%|███████▋  | 9051/11858 [1:16:41<23:01,  2.03it/s] 76%|███████▋  | 9052/11858 [1:16:41<22:59,  2.03it/s] 76%|███████▋  | 9053/11858 [1:16:42<23:00,  2.03it/s] 76%|███████▋  | 9054/11858 [1:16:42<22:58,  2.03it/s] 76%|███████▋  | 9055/11858 [1:16:43<22:57,  2.04it/s] 76%|███████▋  | 9056/11858 [1:16:43<22:57,  2.03it/s] 76%|███████▋  | 9057/11858 [1:16:44<22:56,  2.04it/s] 76%|███████▋  | 9058/11858 [1:16:44<22:55,  2.04it/s] 76%|███████▋  | 9059/11858 [1:16:45<22:57,  2.03it/s] 76%|███████▋  | 9060/11858 [1:16:45<22:56,  2.03it/s] 76%|███████▋  | 9061/11858 [1:16:46<22:54,  2.03it/s] 76%|███████▋  | 9062/11858 [1:16:46<22:55,  2.03it/s] 76%|███████▋  | 9063/11858 [1:16:47<22:54,  2.03it/s] 76%|███████▋  | 9064/11858 [1:16:47<22:53,  2.03it/s] 76%|███████▋  | 9065/11858 [1:16:48<22:53,  2.03it/s] 76%|███████▋  | 9066/11858 [1:16:48<22:53,  2.03it/s] 76%|███████▋  | 9067/11858 [1:16:48<22:51,  2.03it/s] 76%|███████▋  | 9068/11858 [1:16:49<22:51,  2.03it/s] 76%|███████▋  | 9069/11858 [1:16:49<22:51,  2.03it/s] 76%|███████▋  | 9070/11858 [1:16:50<22:50,  2.03it/s] 76%|███████▋  | 9071/11858 [1:16:50<22:50,  2.03it/s] 77%|███████▋  | 9072/11858 [1:16:51<22:50,  2.03it/s] 77%|███████▋  | 9073/11858 [1:16:51<22:50,  2.03it/s] 77%|███████▋  | 9074/11858 [1:16:52<22:50,  2.03it/s] 77%|███████▋  | 9075/11858 [1:16:52<22:49,  2.03it/s]                                                      {'loss': 1.5313, 'grad_norm': 0.2865915894508362, 'learning_rate': 0.0001586158724852108, 'epoch': 10.71}
- 77%|███████▋  | 9075/11858 [1:16:52<22:49,  2.03it/s] 77%|███████▋  | 9076/11858 [1:16:53<22:50,  2.03it/s] 77%|███████▋  | 9077/11858 [1:16:53<22:49,  2.03it/s] 77%|███████▋  | 9078/11858 [1:16:54<22:48,  2.03it/s] 77%|███████▋  | 9079/11858 [1:16:54<22:46,  2.03it/s] 77%|███████▋  | 9080/11858 [1:16:55<22:45,  2.03it/s] 77%|███████▋  | 9081/11858 [1:16:55<22:45,  2.03it/s] 77%|███████▋  | 9082/11858 [1:16:56<22:44,  2.03it/s] 77%|███████▋  | 9083/11858 [1:16:56<22:43,  2.03it/s] 77%|███████▋  | 9084/11858 [1:16:57<22:44,  2.03it/s] 77%|███████▋  | 9085/11858 [1:16:57<22:43,  2.03it/s] 77%|███████▋  | 9086/11858 [1:16:58<22:41,  2.04it/s] 77%|███████▋  | 9087/11858 [1:16:58<22:43,  2.03it/s] 77%|███████▋  | 9088/11858 [1:16:59<22:41,  2.03it/s] 77%|███████▋  | 9089/11858 [1:16:59<22:42,  2.03it/s] 77%|███████▋  | 9090/11858 [1:17:00<22:42,  2.03it/s] 77%|███████▋  | 9091/11858 [1:17:00<22:40,  2.03it/s] 77%|███████▋  | 9092/11858 [1:17:01<22:43,  2.03it/s] 77%|███████▋  | 9093/11858 [1:17:01<22:40,  2.03it/s] 77%|███████▋  | 9094/11858 [1:17:02<22:39,  2.03it/s] 77%|███████▋  | 9095/11858 [1:17:02<22:40,  2.03it/s] 77%|███████▋  | 9096/11858 [1:17:03<22:39,  2.03it/s] 77%|███████▋  | 9097/11858 [1:17:03<22:38,  2.03it/s] 77%|███████▋  | 9098/11858 [1:17:04<22:38,  2.03it/s] 77%|███████▋  | 9099/11858 [1:17:04<22:36,  2.03it/s] 77%|███████▋  | 9100/11858 [1:17:05<22:36,  2.03it/s]                                                      {'loss': 1.5396, 'grad_norm': 0.28621888160705566, 'learning_rate': 0.00015593661371620299, 'epoch': 10.74}
- 77%|███████▋  | 9100/11858 [1:17:05<22:36,  2.03it/s] 77%|███████▋  | 9101/11858 [1:17:05<22:37,  2.03it/s] 77%|███████▋  | 9102/11858 [1:17:06<22:35,  2.03it/s] 77%|███████▋  | 9103/11858 [1:17:06<22:37,  2.03it/s] 77%|███████▋  | 9104/11858 [1:17:07<22:35,  2.03it/s] 77%|███████▋  | 9105/11858 [1:17:07<22:34,  2.03it/s] 77%|███████▋  | 9106/11858 [1:17:08<22:34,  2.03it/s] 77%|███████▋  | 9107/11858 [1:17:08<22:34,  2.03it/s] 77%|███████▋  | 9108/11858 [1:17:09<22:33,  2.03it/s] 77%|███████▋  | 9109/11858 [1:17:09<22:31,  2.03it/s] 77%|█████���█▋  | 9110/11858 [1:17:10<22:31,  2.03it/s] 77%|███████▋  | 9111/11858 [1:17:10<22:30,  2.03it/s] 77%|███████▋  | 9112/11858 [1:17:11<22:30,  2.03it/s] 77%|███████▋  | 9113/11858 [1:17:11<22:29,  2.03it/s] 77%|███████▋  | 9114/11858 [1:17:12<22:31,  2.03it/s] 77%|███████▋  | 9115/11858 [1:17:12<22:30,  2.03it/s] 77%|███████▋  | 9116/11858 [1:17:13<22:29,  2.03it/s] 77%|███████▋  | 9117/11858 [1:17:13<22:29,  2.03it/s] 77%|███████▋  | 9118/11858 [1:17:14<22:28,  2.03it/s] 77%|███████▋  | 9119/11858 [1:17:14<22:26,  2.03it/s] 77%|███████▋  | 9120/11858 [1:17:15<22:25,  2.03it/s] 77%|███████▋  | 9121/11858 [1:17:15<22:26,  2.03it/s] 77%|███████▋  | 9122/11858 [1:17:16<22:24,  2.03it/s] 77%|███████▋  | 9123/11858 [1:17:16<22:23,  2.04it/s] 77%|███████▋  | 9124/11858 [1:17:17<22:24,  2.03it/s] 77%|███████▋  | 9125/11858 [1:17:17<22:24,  2.03it/s]                                                      {'loss': 1.5447, 'grad_norm': 0.3093631863594055, 'learning_rate': 0.00015327598974259528, 'epoch': 10.77}
- 77%|███████▋  | 9125/11858 [1:17:17<22:24,  2.03it/s] 77%|███████▋  | 9126/11858 [1:17:18<22:24,  2.03it/s] 77%|███████▋  | 9127/11858 [1:17:18<22:25,  2.03it/s] 77%|███████▋  | 9128/11858 [1:17:19<22:22,  2.03it/s] 77%|███████▋  | 9129/11858 [1:17:19<22:20,  2.04it/s] 77%|███████▋  | 9130/11858 [1:17:19<22:21,  2.03it/s] 77%|███████▋  | 9131/11858 [1:17:20<22:19,  2.04it/s] 77%|███████▋  | 9132/11858 [1:17:20<22:19,  2.04it/s] 77%|███████▋  | 9133/11858 [1:17:21<22:19,  2.03it/s] 77%|███████▋  | 9134/11858 [1:17:21<22:18,  2.04it/s] 77%|███████▋  | 9135/11858 [1:17:22<22:17,  2.04it/s] 77%|███████▋  | 9136/11858 [1:17:22<22:17,  2.04it/s] 77%|███████▋  | 9137/11858 [1:17:23<22:16,  2.04it/s] 77%|███████▋  | 9138/11858 [1:17:23<22:15,  2.04it/s] 77%|███████▋  | 9139/11858 [1:17:24<22:16,  2.04it/s] 77%|███████▋  | 9140/11858 [1:17:24<22:15,  2.04it/s] 77%|███████▋  | 9141/11858 [1:17:25<22:15,  2.04it/s] 77%|███████▋  | 9142/11858 [1:17:25<22:15,  2.03it/s] 77%|███████▋  | 9143/11858 [1:17:26<22:14,  2.03it/s] 77%|███████▋  | 9144/11858 [1:17:26<22:15,  2.03it/s] 77%|███████▋  | 9145/11858 [1:17:27<22:13,  2.03it/s] 77%|███████▋  | 9146/11858 [1:17:27<22:12,  2.04it/s] 77%|███████▋  | 9147/11858 [1:17:28<22:13,  2.03it/s] 77%|███████▋  | 9148/11858 [1:17:28<22:13,  2.03it/s] 77%|███████▋  | 9149/11858 [1:17:29<22:11,  2.03it/s] 77%|███████▋  | 9150/11858 [1:17:29<22:10,  2.04it/s]                                                      {'loss': 1.5419, 'grad_norm': 0.30691760778427124, 'learning_rate': 0.00015063414466627472, 'epoch': 10.8}
- 77%|███████▋  | 9150/11858 [1:17:29<22:10,  2.04it/s] 77%|███████▋  | 9151/11858 [1:17:30<22:12,  2.03it/s] 77%|███████▋  | 9152/11858 [1:17:30<22:13,  2.03it/s] 77%|███████▋  | 9153/11858 [1:17:31<22:12,  2.03it/s] 77%|███████▋  | 9154/11858 [1:17:31<22:10,  2.03it/s] 77%|███████▋  | 9155/11858 [1:17:32<22:10,  2.03it/s] 77%|███████▋  | 9156/11858 [1:17:32<22:10,  2.03it/s] 77%|███████▋  | 9157/11858 [1:17:33<22:10,  2.03it/s] 77%|███████▋  | 9158/11858 [1:17:33<22:09,  2.03it/s] 77%|███████▋  | 9159/11858 [1:17:34<22:09,  2.03it/s] 77%|███████▋  | 9160/11858 [1:17:34<22:08,  2.03it/s] 77%|███████▋  | 9161/11858 [1:17:35<22:07,  2.03it/s] 77%|███████▋  | 9162/11858 [1:17:35<22:07,  2.03it/s] 77%|███████▋  | 9163/11858 [1:17:36<22:06,  2.03it/s] 77%|███████▋  | 9164/11858 [1:17:36<22:06,  2.03it/s] 77%|███████▋  | 9165/11858 [1:17:37<22:05,  2.03it/s] 77%|███████▋  | 9166/11858 [1:17:37<22:04,  2.03it/s] 77%|███████▋  | 9167/11858 [1:17:38<22:03,  2.03it/s] 77%|███████▋  | 9168/11858 [1:17:38<22:04,  2.03it/s] 77%|███████▋  | 9169/11858 [1:17:39<22:04,  2.03it/s] 77%|███████▋  | 9170/11858 [1:17:39<22:03,  2.03it/s] 77%|███████▋  | 9171/11858 [1:17:40<22:02,  2.03it/s] 77%|███████▋  | 9172/11858 [1:17:40<22:01,  2.03it/s] 77%|███████▋  | 9173/11858 [1:17:41<22:01,  2.03it/s] 77%|███████▋  | 9174/11858 [1:17:41<22:00,  2.03it/s] 77%|███████▋  | 9175/11858 [1:17:42<22:00,  2.03it/s]                                                      {'loss': 1.5204, 'grad_norm': 0.2959463894367218, 'learning_rate': 0.0001480112215720466, 'epoch': 10.83}
- 77%|███████▋  | 9175/11858 [1:17:42<22:00,  2.03it/s] 77%|███████▋  | 9176/11858 [1:17:42<22:00,  2.03it/s] 77%|███████▋  | 9177/11858 [1:17:43<22:00,  2.03it/s] 77%|███████▋  | 9178/11858 [1:17:43<21:59,  2.03it/s] 77%|███████▋  | 9179/11858 [1:17:44<21:58,  2.03it/s] 77%|███████▋  | 9180/11858 [1:17:44<21:58,  2.03it/s] 77%|███████▋  | 9181/11858 [1:17:45<21:57,  2.03it/s] 77%|███████▋  | 9182/11858 [1:17:45<21:56,  2.03it/s] 77%|███████▋  | 9183/11858 [1:17:46<21:55,  2.03it/s] 77%|███████▋  | 9184/11858 [1:17:46<21:55,  2.03it/s] 77%|███████▋  | 9185/11858 [1:17:47<21:54,  2.03it/s] 77%|███████▋  | 9186/11858 [1:17:47<21:53,  2.03it/s] 77%|███████▋  | 9187/11858 [1:17:48<21:53,  2.03it/s] 77%|███████▋  | 9188/11858 [1:17:48<21:53,  2.03it/s] 77%|███████▋  | 9189/11858 [1:17:49<21:53,  2.03it/s] 78%|███████▊  | 9190/11858 [1:17:49<21:52,  2.03it/s] 78%|███████▊  | 9191/11858 [1:17:49<21:52,  2.03it/s] 78%|███████▊  | 9192/11858 [1:17:50<21:53,  2.03it/s] 78%|███████▊  | 9193/11858 [1:17:50<21:51,  2.03it/s] 78%|███████▊  | 9194/11858 [1:17:51<21:51,  2.03it/s] 78%|███████▊  | 9195/11858 [1:17:51<21:50,  2.03it/s] 78%|███████▊  | 9196/11858 [1:17:52<21:48,  2.03it/s] 78%|███████▊  | 9197/11858 [1:17:52<21:48,  2.03it/s] 78%|███████▊  | 9198/11858 [1:17:53<21:48,  2.03it/s] 78%|███████▊  | 9199/11858 [1:17:53<21:46,  2.04it/s] 78%|███████▊  | 9200/11858 [1:17:54<21:46,  2.03it/s]                                                      {'loss': 1.5427, 'grad_norm': 0.29388803243637085, 'learning_rate': 0.00014540736251988308, 'epoch': 10.86}
- 78%|███████▊  | 9200/11858 [1:17:54<21:46,  2.03it/s] 78%|███████▊  | 9201/11858 [1:17:54<21:47,  2.03it/s] 78%|███████▊  | 9202/11858 [1:17:55<21:45,  2.03it/s] 78%|███████▊  | 9203/11858 [1:17:55<21:46,  2.03it/s] 78%|███████▊  | 9204/11858 [1:17:56<21:45,  2.03it/s] 78%|███████▊  | 9205/11858 [1:17:56<21:43,  2.04it/s] 78%|███████▊  | 9206/11858 [1:17:57<21:44,  2.03it/s] 78%|███████▊  | 9207/11858 [1:17:57<21:43,  2.03it/s] 78%|███████▊  | 9208/11858 [1:17:58<21:43,  2.03it/s] 78%|███████▊  | 9209/11858 [1:17:58<21:43,  2.03it/s] 78%|███████▊  | 9210/11858 [1:17:59<21:41,  2.03it/s] 78%|███████▊  | 9211/11858 [1:17:59<21:40,  2.04it/s] 78%|███████▊  | 9212/11858 [1:18:00<21:41,  2.03it/s] 78%|███████▊  | 9213/11858 [1:18:00<21:40,  2.03it/s] 78%|███████▊  | 9214/11858 [1:18:01<21:40,  2.03it/s] 78%|███████▊  | 9215/11858 [1:18:01<21:40,  2.03it/s] 78%|███████▊  | 9216/11858 [1:18:02<21:38,  2.03it/s] 78%|███████▊  | 9217/11858 [1:18:02<21:38,  2.03it/s] 78%|███████▊  | 9218/11858 [1:18:03<21:37,  2.03it/s] 78%|███████▊  | 9219/11858 [1:18:03<21:36,  2.04it/s] 78%|███████▊  | 9220/11858 [1:18:04<21:36,  2.03it/s] 78%|███████▊  | 9221/11858 [1:18:04<21:35,  2.03it/s] 78%|███████▊  | 9222/11858 [1:18:05<21:34,  2.04it/s] 78%|███████▊  | 9223/11858 [1:18:05<21:36,  2.03it/s] 78%|███████▊  | 9224/11858 [1:18:06<21:35,  2.03it/s] 78%|███████▊  | 9225/11858 [1:18:06<21:35,  2.03it/s]                                                      {'loss': 1.5288, 'grad_norm': 0.289963036775589, 'learning_rate': 0.00014282270853723046, 'epoch': 10.88}
- 78%|███████▊  | 9225/11858 [1:18:06<21:35,  2.03it/s] 78%|███████▊  | 9226/11858 [1:18:07<21:37,  2.03it/s] 78%|███████▊  | 9227/11858 [1:18:07<21:35,  2.03it/s] 78%|███████▊  | 9228/11858 [1:18:08<21:34,  2.03it/s] 78%|███████▊  | 9229/11858 [1:18:08<21:34,  2.03it/s] 78%|███████▊  | 9230/11858 [1:18:09<21:34,  2.03it/s] 78%|███████▊  | 9231/11858 [1:18:09<21:32,  2.03it/s] 78%|███████▊  | 9232/11858 [1:18:10<21:32,  2.03it/s] 78%|███████▊  | 9233/11858 [1:18:10<21:31,  2.03it/s] 78%|███████▊  | 9234/11858 [1:18:11<21:31,  2.03it/s] 78%|███████▊  | 9235/11858 [1:18:11<21:31,  2.03it/s] 78%|███████▊  | 9236/11858 [1:18:12<21:30,  2.03it/s] 78%|███████▊  | 9237/11858 [1:18:12<21:28,  2.03it/s] 78%|███████▊  | 9238/11858 [1:18:13<21:29,  2.03it/s] 78%|███████▊  | 9239/11858 [1:18:13<21:28,  2.03it/s] 78%|███████▊  | 9240/11858 [1:18:14<21:28,  2.03it/s] 78%|███████▊  | 9241/11858 [1:18:14<21:28,  2.03it/s] 78%|███████▊  | 9242/11858 [1:18:15<21:26,  2.03it/s] 78%|███████▊  | 9243/11858 [1:18:15<21:26,  2.03it/s] 78%|███████▊  | 9244/11858 [1:18:16<21:26,  2.03it/s] 78%|███████▊  | 9245/11858 [1:18:16<21:24,  2.03it/s] 78%|███████▊  | 9246/11858 [1:18:17<21:24,  2.03it/s] 78%|███████▊  | 9247/11858 [1:18:17<21:24,  2.03it/s] 78%|███████▊  | 9248/11858 [1:18:18<21:21,  2.04it/s] 78%|███████▊  | 9249/11858 [1:18:18<21:20,  2.04it/s] 78%|███████▊  | 9250/11858 [1:18:19<21:22,  2.03it/s]                                                      {'loss': 1.5307, 'grad_norm': 0.28614479303359985, 'learning_rate': 0.0001402573996113704, 'epoch': 10.91}
- 78%|███████▊  | 9250/11858 [1:18:19<21:22,  2.03it/s] 78%|███████▊  | 9251/11858 [1:18:19<21:22,  2.03it/s] 78%|███████▊  | 9252/11858 [1:18:20<21:20,  2.03it/s] 78%|███████▊  | 9253/11858 [1:18:20<21:21,  2.03it/s] 78%|███████▊  | 9254/11858 [1:18:20<21:20,  2.03it/s] 78%|███████▊  | 9255/11858 [1:18:21<21:19,  2.03it/s] 78%|███████▊  | 9256/11858 [1:18:21<21:20,  2.03it/s] 78%|███████▊  | 9257/11858 [1:18:22<21:20,  2.03it/s] 78%|███████▊  | 9258/11858 [1:18:22<21:18,  2.03it/s] 78%|███████▊  | 9259/11858 [1:18:23<21:18,  2.03it/s] 78%|███████▊  | 9260/11858 [1:18:23<21:18,  2.03it/s] 78%|███████▊  | 9261/11858 [1:18:24<21:17,  2.03it/s] 78%|███████▊  | 9262/11858 [1:18:24<21:16,  2.03it/s] 78%|███████▊  | 9263/11858 [1:18:25<21:17,  2.03it/s] 78%|███████▊  | 9264/11858 [1:18:25<21:15,  2.03it/s] 78%|███████▊  | 9265/11858 [1:18:26<21:14,  2.03it/s] 78%|███████▊  | 9266/11858 [1:18:26<21:15,  2.03it/s] 78%|███████▊  | 9267/11858 [1:18:27<21:14,  2.03it/s] 78%|███████▊  | 9268/11858 [1:18:27<21:14,  2.03it/s] 78%|███████▊  | 9269/11858 [1:18:28<21:14,  2.03it/s] 78%|███████▊  | 9270/11858 [1:18:28<21:12,  2.03it/s] 78%|███████▊  | 9271/11858 [1:18:29<21:12,  2.03it/s] 78%|███████▊  | 9272/11858 [1:18:29<21:12,  2.03it/s] 78%|███████▊  | 9273/11858 [1:18:30<21:12,  2.03it/s] 78%|███████▊  | 9274/11858 [1:18:30<21:12,  2.03it/s] 78%|███████▊  | 9275/11858 [1:18:31<21:11,  2.03it/s]                                                      {'loss': 1.5481, 'grad_norm': 0.28981727361679077, 'learning_rate': 0.00013771157468183825, 'epoch': 10.94}
- 78%|███████▊  | 9275/11858 [1:18:31<21:11,  2.03it/s] 78%|███████▊  | 9276/11858 [1:18:31<21:12,  2.03it/s] 78%|███████▊  | 9277/11858 [1:18:32<21:11,  2.03it/s] 78%|███████▊  | 9278/11858 [1:18:32<21:11,  2.03it/s] 78%|███████▊  | 9279/11858 [1:18:33<21:10,  2.03it/s] 78%|███████▊  | 9280/11858 [1:18:33<21:08,  2.03it/s] 78%|███████▊  | 9281/11858 [1:18:34<21:08,  2.03it/s] 78%|███████▊  | 9282/11858 [1:18:34<21:07,  2.03it/s] 78%|███████▊  | 9283/11858 [1:18:35<21:07,  2.03it/s] 78%|███████▊  | 9284/11858 [1:18:35<21:07,  2.03it/s] 78%|███████▊  | 9285/11858 [1:18:36<21:05,  2.03it/s] 78%|███████▊  | 9286/11858 [1:18:36<21:07,  2.03it/s] 78%|███████▊  | 9287/11858 [1:18:37<21:06,  2.03it/s] 78%|███████▊  | 9288/11858 [1:18:37<21:05,  2.03it/s] 78%|███████▊  | 9289/11858 [1:18:38<21:04,  2.03it/s] 78%|███████▊  | 9290/11858 [1:18:38<21:03,  2.03it/s] 78%|███████▊  | 9291/11858 [1:18:39<21:02,  2.03it/s] 78%|███████▊  | 9292/11858 [1:18:39<21:03,  2.03it/s] 78%|███████▊  | 9293/11858 [1:18:40<21:02,  2.03it/s] 78%|███████▊  | 9294/11858 [1:18:40<21:01,  2.03it/s] 78%|███████▊  | 9295/11858 [1:18:41<21:00,  2.03it/s] 78%|███████▊  | 9296/11858 [1:18:41<21:01,  2.03it/s] 78%|███████▊  | 9297/11858 [1:18:42<20:59,  2.03it/s] 78%|███████▊  | 9298/11858 [1:18:42<20:59,  2.03it/s] 78%|███████▊  | 9299/11858 [1:18:43<21:00,  2.03it/s] 78%|███████▊  | 9300/11858 [1:18:43<20:59,  2.03it/s]                                                      {'loss': 1.5341, 'grad_norm': 0.29046696424484253, 'learning_rate': 0.00013518537163289735, 'epoch': 10.97}
- 78%|█��█████▊  | 9300/11858 [1:18:43<20:59,  2.03it/s] 78%|███████▊  | 9301/11858 [1:18:44<21:00,  2.03it/s] 78%|███████▊  | 9302/11858 [1:18:44<20:58,  2.03it/s] 78%|███████▊  | 9303/11858 [1:18:45<20:58,  2.03it/s] 78%|███████▊  | 9304/11858 [1:18:45<20:57,  2.03it/s] 78%|███████▊  | 9305/11858 [1:18:46<20:56,  2.03it/s] 78%|███████▊  | 9306/11858 [1:18:46<20:56,  2.03it/s] 78%|███████▊  | 9307/11858 [1:18:47<20:55,  2.03it/s] 78%|███████▊  | 9308/11858 [1:18:47<20:55,  2.03it/s] 79%|███████▊  | 9309/11858 [1:18:48<20:55,  2.03it/s] 79%|███████▊  | 9310/11858 [1:18:48<20:54,  2.03it/s] 79%|███████▊  | 9311/11858 [1:18:49<20:54,  2.03it/s] 79%|███████▊  | 9312/11858 [1:18:49<20:53,  2.03it/s] 79%|███████▊  | 9313/11858 [1:18:50<20:53,  2.03it/s] 79%|███████▊  | 9314/11858 [1:18:50<20:52,  2.03it/s] 79%|███████▊  | 9315/11858 [1:18:51<20:51,  2.03it/s] 79%|███████▊  | 9316/11858 [1:18:51<20:50,  2.03it/s] 79%|███████▊  | 9317/11858 [1:18:51<20:50,  2.03it/s] 79%|███████▊  | 9318/11858 [1:18:52<20:48,  2.03it/s] 79%|███████▊  | 9319/11858 [1:18:52<20:50,  2.03it/s] 79%|███████▊  | 9320/11858 [1:18:53<20:49,  2.03it/s] 79%|███████▊  | 9321/11858 [1:18:53<20:49,  2.03it/s] 79%|███████▊  | 9322/11858 [1:18:54<21:22,  1.98it/s] 79%|███████▊  | 9323/11858 [1:19:06<2:46:25,  3.94s/it] 79%|███████▊  | 9324/11858 [1:19:06<2:02:40,  2.90s/it] 79%|███████▊  | 9325/11858 [1:19:07<1:32:10,  2.18s/it]                                                        {'loss': 1.5285, 'grad_norm': 0.3559425175189972, 'learning_rate': 0.00013267892728607223, 'epoch': 11.0}
- 79%|███████▊  | 9325/11858 [1:19:07<1:32:10,  2.18s/it] 79%|███████▊  | 9326/11858 [1:19:07<1:10:45,  1.68s/it] 79%|███████▊  | 9327/11858 [1:19:08<55:45,  1.32s/it]   79%|███████▊  | 9328/11858 [1:19:08<45:23,  1.08s/it] 79%|███████▊  | 9329/11858 [1:19:09<37:58,  1.11it/s] 79%|███████▊  | 9330/11858 [1:19:09<32:48,  1.28it/s] 79%|███████▊  | 9331/11858 [1:19:10<29:13,  1.44it/s] 79%|███████▊  | 9332/11858 [1:19:10<26:40,  1.58it/s] 79%|███████▊  | 9333/11858 [1:19:11<24:53,  1.69it/s] 79%|███████▊  | 9334/11858 [1:19:11<23:37,  1.78it/s] 79%|███████▊  | 9335/11858 [1:19:12<22:45,  1.85it/s] 79%|███████▊  | 9336/11858 [1:19:12<22:07,  1.90it/s] 79%|███████▊  | 9337/11858 [1:19:13<21:42,  1.94it/s] 79%|███████▊  | 9338/11858 [1:19:13<21:23,  1.96it/s] 79%|███████▉  | 9339/11858 [1:19:14<21:10,  1.98it/s] 79%|███████▉  | 9340/11858 [1:19:14<21:04,  1.99it/s] 79%|███████▉  | 9341/11858 [1:19:15<20:55,  2.00it/s] 79%|███████▉  | 9342/11858 [1:19:15<20:50,  2.01it/s] 79%|███████▉  | 9343/11858 [1:19:16<20:46,  2.02it/s] 79%|███████▉  | 9344/11858 [1:19:16<20:45,  2.02it/s] 79%|███████▉  | 9345/11858 [1:19:17<20:44,  2.02it/s] 79%|███████▉  | 9346/11858 [1:19:17<20:43,  2.02it/s] 79%|███████▉  | 9347/11858 [1:19:18<20:40,  2.02it/s] 79%|███████▉  | 9348/11858 [1:19:18<20:38,  2.03it/s] 79%|███████▉  | 9349/11858 [1:19:19<20:38,  2.03it/s] 79%|███████▉  | 9350/11858 [1:19:19<20:37,  2.03it/s]                                                      {'loss': 1.4658, 'grad_norm': 0.2735925614833832, 'learning_rate': 0.00013019237739273737, 'epoch': 11.03}
- 79%|███████▉  | 9350/11858 [1:19:19<20:37,  2.03it/s] 79%|███████▉  | 9351/11858 [1:19:20<20:36,  2.03it/s] 79%|███████▉  | 9352/11858 [1:19:20<20:35,  2.03it/s] 79%|███████▉  | 9353/11858 [1:19:21<20:33,  2.03it/s] 79%|███████▉  | 9354/11858 [1:19:21<20:31,  2.03it/s] 79%|███████▉  | 9355/11858 [1:19:22<20:32,  2.03it/s] 79%|███████▉  | 9356/11858 [1:19:22<20:30,  2.03it/s] 79%|███████▉  | 9357/11858 [1:19:23<20:30,  2.03it/s] 79%|███████▉  | 9358/11858 [1:19:23<20:30,  2.03it/s] 79%|███████▉  | 9359/11858 [1:19:24<20:30,  2.03it/s] 79%|███████▉  | 9360/11858 [1:19:24<20:30,  2.03it/s] 79%|███████▉  | 9361/11858 [1:19:25<20:30,  2.03it/s] 79%|███████▉  | 9362/11858 [1:19:25<20:29,  2.03it/s] 79%|███████▉  | 9363/11858 [1:19:26<20:28,  2.03it/s] 79%|███████▉  | 9364/11858 [1:19:26<20:28,  2.03it/s] 79%|███████▉  | 9365/11858 [1:19:27<20:27,  2.03it/s] 79%|███████▉  | 9366/11858 [1:19:27<20:27,  2.03it/s] 79%|███████▉  | 9367/11858 [1:19:28<20:26,  2.03it/s] 79%|███████▉  | 9368/11858 [1:19:28<20:26,  2.03it/s] 79%|███████▉  | 9369/11858 [1:19:29<20:25,  2.03it/s] 79%|███████▉  | 9370/11858 [1:19:29<20:25,  2.03it/s] 79%|███████▉  | 9371/11858 [1:19:30<20:25,  2.03it/s] 79%|███████▉  | 9372/11858 [1:19:30<20:24,  2.03it/s] 79%|███████▉  | 9373/11858 [1:19:31<20:24,  2.03it/s] 79%|███████▉  | 9374/11858 [1:19:31<20:24,  2.03it/s] 79%|███████▉  | 9375/11858 [1:19:32<20:24,  2.03it/s]                                                      {'loss': 1.4447, 'grad_norm': 0.2821231186389923, 'learning_rate': 0.00012772585662676472, 'epoch': 11.06}
- 79%|███████▉  | 9375/11858 [1:19:32<20:24,  2.03it/s] 79%|███████▉  | 9376/11858 [1:19:32<20:24,  2.03it/s] 79%|███████▉  | 9377/11858 [1:19:33<20:23,  2.03it/s] 79%|███████▉  | 9378/11858 [1:19:33<20:23,  2.03it/s] 79%|███████▉  | 9379/11858 [1:19:34<20:22,  2.03it/s] 79%|███████▉  | 9380/11858 [1:19:34<20:23,  2.03it/s] 79%|███████▉  | 9381/11858 [1:19:35<20:23,  2.02it/s] 79%|███████▉  | 9382/11858 [1:19:35<20:22,  2.03it/s] 79%|███████▉  | 9383/11858 [1:19:36<20:20,  2.03it/s] 79%|███████▉  | 9384/11858 [1:19:36<20:19,  2.03it/s] 79%|███████▉  | 9385/11858 [1:19:37<20:19,  2.03it/s] 79%|███████▉  | 9386/11858 [1:19:37<20:18,  2.03it/s] 79%|███████▉  | 9387/11858 [1:19:38<20:18,  2.03it/s] 79%|███████▉  | 9388/11858 [1:19:38<20:18,  2.03it/s] 79%|███████▉  | 9389/11858 [1:19:39<20:17,  2.03it/s] 79%|███████▉  | 9390/11858 [1:19:39<20:16,  2.03it/s] 79%|███████▉  | 9391/11858 [1:19:39<20:17,  2.03it/s] 79%|███████▉  | 9392/11858 [1:19:40<20:15,  2.03it/s] 79%|███████▉  | 9393/11858 [1:19:40<20:14,  2.03it/s] 79%|███████▉  | 9394/11858 [1:19:41<20:13,  2.03it/s] 79%|███████▉  | 9395/11858 [1:19:41<20:13,  2.03it/s] 79%|███████▉  | 9396/11858 [1:19:42<20:13,  2.03it/s] 79%|███████▉  | 9397/11858 [1:19:42<20:11,  2.03it/s] 79%|███████▉  | 9398/11858 [1:19:43<20:11,  2.03it/s] 79%|███████▉  | 9399/11858 [1:19:43<20:12,  2.03it/s] 79%|███████▉  | 9400/11858 [1:19:44<20:10,  2.03it/s]                                                      {'loss': 1.4464, 'grad_norm': 0.2979789972305298, 'learning_rate': 0.00012527949857723037, 'epoch': 11.09}
- 79%|███████▉  | 9400/11858 [1:19:44<20:10,  2.03it/s] 79%|███████▉  | 9401/11858 [1:19:44<20:13,  2.03it/s] 79%|███████▉  | 9402/11858 [1:19:45<20:10,  2.03it/s] 79%|███████▉  | 9403/11858 [1:19:45<20:11,  2.03it/s] 79%|███████▉  | 9404/11858 [1:19:46<20:09,  2.03it/s] 79%|███████▉  | 9405/11858 [1:19:46<20:09,  2.03it/s] 79%|███████▉  | 9406/11858 [1:19:47<20:09,  2.03it/s] 79%|███████▉  | 9407/11858 [1:19:47<20:08,  2.03it/s] 79%|███████▉  | 9408/11858 [1:19:48<20:07,  2.03it/s] 79%|███████▉  | 9409/11858 [1:19:48<20:06,  2.03it/s] 79%|███████▉  | 9410/11858 [1:19:49<20:06,  2.03it/s] 79%|███████▉  | 9411/11858 [1:19:49<20:06,  2.03it/s] 79%|███████▉  | 9412/11858 [1:19:50<20:04,  2.03it/s] 79%|███████▉  | 9413/11858 [1:19:50<20:04,  2.03it/s] 79%|███████▉  | 9414/11858 [1:19:51<20:04,  2.03it/s] 79%|███████▉  | 9415/11858 [1:19:51<20:04,  2.03it/s] 79%|███████▉  | 9416/11858 [1:19:52<20:03,  2.03it/s] 79%|███████▉  | 9417/11858 [1:19:52<20:02,  2.03it/s] 79%|███████▉  | 9418/11858 [1:19:53<20:02,  2.03it/s] 79%|███████▉  | 9419/11858 [1:19:53<20:01,  2.03it/s] 79%|███████▉  | 9420/11858 [1:19:54<20:01,  2.03it/s] 79%|███████▉  | 9421/11858 [1:19:54<20:00,  2.03it/s] 79%|███████▉  | 9422/11858 [1:19:55<20:00,  2.03it/s] 79%|███████▉  | 9423/11858 [1:19:55<20:01,  2.03it/s] 79%|███████▉  | 9424/11858 [1:19:56<20:00,  2.03it/s] 79%|███████▉  | 9425/11858 [1:19:56<19:58,  2.03it/s]                                                      {'loss': 1.4696, 'grad_norm': 0.29414087533950806, 'learning_rate': 0.00012285343574117868, 'epoch': 11.12}
- 79%|███████▉  | 9425/11858 [1:19:56<19:58,  2.03it/s] 79%|███████▉  | 9426/11858 [1:19:57<20:00,  2.03it/s] 79%|███████▉  | 9427/11858 [1:19:57<19:58,  2.03it/s] 80%|███████▉  | 9428/11858 [1:19:58<19:59,  2.03it/s] 80%|███████▉  | 9429/11858 [1:19:58<19:57,  2.03it/s] 80%|███████▉  | 9430/11858 [1:19:59<19:57,  2.03it/s] 80%|███████▉  | 9431/11858 [1:19:59<19:57,  2.03it/s] 80%|███████▉  | 9432/11858 [1:20:00<19:56,  2.03it/s] 80%|███████▉  | 9433/11858 [1:20:00<19:57,  2.03it/s] 80%|███████▉  | 9434/11858 [1:20:01<19:55,  2.03it/s] 80%|███████▉  | 9435/11858 [1:20:01<19:56,  2.03it/s] 80%|███████▉  | 9436/11858 [1:20:02<19:54,  2.03it/s] 80%|███████▉  | 9437/11858 [1:20:02<19:53,  2.03it/s] 80%|███████▉  | 9438/11858 [1:20:03<19:53,  2.03it/s] 80%|███████▉  | 9439/11858 [1:20:03<19:52,  2.03it/s] 80%|███████▉  | 9440/11858 [1:20:04<19:52,  2.03it/s] 80%|███████▉  | 9441/11858 [1:20:04<19:50,  2.03it/s] 80%|███████▉  | 9442/11858 [1:20:05<19:51,  2.03it/s] 80%|███████▉  | 9443/11858 [1:20:05<19:50,  2.03it/s] 80%|███████▉  | 9444/11858 [1:20:06<19:50,  2.03it/s] 80%|███████▉  | 9445/11858 [1:20:06<19:50,  2.03it/s] 80%|███████▉  | 9446/11858 [1:20:07<19:49,  2.03it/s] 80%|███████▉  | 9447/11858 [1:20:07<19:48,  2.03it/s] 80%|███████▉  | 9448/11858 [1:20:08<19:48,  2.03it/s] 80%|███████▉  | 9449/11858 [1:20:08<19:47,  2.03it/s] 80%|███████▉  | 9450/11858 [1:20:09<19:59,  2.01it/s]                                                      {'loss': 1.4534, 'grad_norm': 0.28610867261886597, 'learning_rate': 0.00012044779951644585, 'epoch': 11.15}
- 80%|███████▉  | 9450/11858 [1:20:09<19:59,  2.01it/s] 80%|███████▉  | 9451/11858 [1:20:09<19:57,  2.01it/s] 80%|███████▉  | 9452/11858 [1:20:10<19:54,  2.01it/s] 80%|███████▉  | 9453/11858 [1:20:10<19:51,  2.02it/s] 80%|███████▉  | 9454/11858 [1:20:11<19:48,  2.02it/s] 80%|███████▉  | 9455/11858 [1:20:11<19:48,  2.02it/s] 80%|███████▉  | 9456/11858 [1:20:12<19:45,  2.03it/s] 80%|███████▉  | 9457/11858 [1:20:12<19:46,  2.02it/s] 80%|███████▉  | 9458/11858 [1:20:13<19:44,  2.03it/s] 80%|███████▉  | 9459/11858 [1:20:13<19:43,  2.03it/s] 80%|███████▉  | 9460/11858 [1:20:14<19:43,  2.03it/s] 80%|███████▉  | 9461/11858 [1:20:14<19:42,  2.03it/s] 80%|███████▉  | 9462/11858 [1:20:15<19:42,  2.03it/s] 80%|███████▉  | 9463/11858 [1:20:15<19:41,  2.03it/s] 80%|███████▉  | 9464/11858 [1:20:16<19:40,  2.03it/s] 80%|███████▉  | 9465/11858 [1:20:16<19:40,  2.03it/s] 80%|███████▉  | 9466/11858 [1:20:16<19:39,  2.03it/s] 80%|███████▉  | 9467/11858 [1:20:17<19:38,  2.03it/s] 80%|███████▉  | 9468/11858 [1:20:17<19:38,  2.03it/s] 80%|███████▉  | 9469/11858 [1:20:18<19:37,  2.03it/s] 80%|███████▉  | 9470/11858 [1:20:18<19:38,  2.03it/s] 80%|███████▉  | 9471/11858 [1:20:19<19:37,  2.03it/s] 80%|███████▉  | 9472/11858 [1:20:19<19:37,  2.03it/s] 80%|███████▉  | 9473/11858 [1:20:20<19:36,  2.03it/s] 80%|███████▉  | 9474/11858 [1:20:20<19:35,  2.03it/s] 80%|███████▉  | 9475/11858 [1:20:21<19:35,  2.03it/s]                                                      {'loss': 1.4371, 'grad_norm': 0.2981805205345154, 'learning_rate': 0.00011806272019454423, 'epoch': 11.18}
- 80%|███████▉  | 9475/11858 [1:20:21<19:35,  2.03it/s] 80%|███████▉  | 9476/11858 [1:20:21<19:34,  2.03it/s] 80%|███████▉  | 9477/11858 [1:20:22<19:34,  2.03it/s] 80%|███████▉  | 9478/11858 [1:20:22<19:33,  2.03it/s] 80%|███████▉  | 9479/11858 [1:20:23<19:33,  2.03it/s] 80%|███████▉  | 9480/11858 [1:20:23<19:32,  2.03it/s] 80%|███████▉  | 9481/11858 [1:20:24<19:31,  2.03it/s] 80%|███████▉  | 9482/11858 [1:20:24<19:31,  2.03it/s] 80%|███████▉  | 9483/11858 [1:20:25<19:30,  2.03it/s] 80%|███████▉  | 9484/11858 [1:20:25<19:30,  2.03it/s] 80%|███████▉  | 9485/11858 [1:20:26<19:29,  2.03it/s] 80%|███████▉  | 9486/11858 [1:20:26<19:27,  2.03it/s] 80%|████████  | 9487/11858 [1:20:27<19:28,  2.03it/s] 80%|████████  | 9488/11858 [1:20:27<19:27,  2.03it/s] 80%|████████  | 9489/11858 [1:20:28<19:27,  2.03it/s] 80%|████████  | 9490/11858 [1:20:28<19:27,  2.03it/s] 80%|████████  | 9491/11858 [1:20:29<19:26,  2.03it/s] 80%|████████  | 9492/11858 [1:20:29<19:26,  2.03it/s] 80%|��███████  | 9493/11858 [1:20:30<19:24,  2.03it/s] 80%|████████  | 9494/11858 [1:20:30<19:25,  2.03it/s] 80%|████████  | 9495/11858 [1:20:31<19:24,  2.03it/s] 80%|████████  | 9496/11858 [1:20:31<19:25,  2.03it/s] 80%|████████  | 9497/11858 [1:20:32<19:25,  2.03it/s] 80%|████████  | 9498/11858 [1:20:32<19:23,  2.03it/s] 80%|████████  | 9499/11858 [1:20:33<19:22,  2.03it/s] 80%|████████  | 9500/11858 [1:20:33<19:22,  2.03it/s]                                                      {'loss': 1.4639, 'grad_norm': 0.30652397871017456, 'learning_rate': 0.00011569832695360465, 'epoch': 11.21}
- 80%|████████  | 9500/11858 [1:20:33<19:22,  2.03it/s] 80%|████████  | 9501/11858 [1:20:34<19:23,  2.03it/s] 80%|████████  | 9502/11858 [1:20:34<19:22,  2.03it/s] 80%|████████  | 9503/11858 [1:20:35<19:21,  2.03it/s] 80%|████████  | 9504/11858 [1:20:35<19:19,  2.03it/s] 80%|████████  | 9505/11858 [1:20:36<19:19,  2.03it/s] 80%|████████  | 9506/11858 [1:20:36<19:19,  2.03it/s] 80%|████████  | 9507/11858 [1:20:37<19:19,  2.03it/s] 80%|████████  | 9508/11858 [1:20:37<19:18,  2.03it/s] 80%|████████  | 9509/11858 [1:20:38<19:18,  2.03it/s] 80%|████████  | 9510/11858 [1:20:38<19:17,  2.03it/s] 80%|████████  | 9511/11858 [1:20:39<19:16,  2.03it/s] 80%|████████  | 9512/11858 [1:20:39<19:15,  2.03it/s] 80%|████████  | 9513/11858 [1:20:40<19:15,  2.03it/s] 80%|████████  | 9514/11858 [1:20:40<19:16,  2.03it/s] 80%|████████  | 9515/11858 [1:20:41<19:15,  2.03it/s] 80%|████████  | 9516/11858 [1:20:41<19:14,  2.03it/s] 80%|████████  | 9517/11858 [1:20:42<19:13,  2.03it/s] 80%|████████  | 9518/11858 [1:20:42<19:12,  2.03it/s] 80%|████████  | 9519/11858 [1:20:43<19:11,  2.03it/s] 80%|████████  | 9520/11858 [1:20:43<19:11,  2.03it/s] 80%|████████  | 9521/11858 [1:20:44<19:10,  2.03it/s] 80%|████████  | 9522/11858 [1:20:44<19:10,  2.03it/s] 80%|████████  | 9523/11858 [1:20:45<19:09,  2.03it/s] 80%|████████  | 9524/11858 [1:20:45<20:50,  1.87it/s] 80%|████████  | 9525/11858 [1:20:46<20:18,  1.91it/s]                                                      {'loss': 1.4677, 'grad_norm': 0.28355881571769714, 'learning_rate': 0.00011335474785138084, 'epoch': 11.24}
- 80%|████████  | 9525/11858 [1:20:46<20:18,  1.91it/s] 80%|████████  | 9526/11858 [1:20:46<19:58,  1.95it/s] 80%|████████  | 9527/11858 [1:20:47<19:42,  1.97it/s] 80%|████████  | 9528/11858 [1:20:47<19:30,  1.99it/s] 80%|████████  | 9529/11858 [1:20:48<19:23,  2.00it/s] 80%|████████  | 9530/11858 [1:20:48<19:18,  2.01it/s] 80%|████████  | 9531/11858 [1:20:49<19:12,  2.02it/s] 80%|████████  | 9532/11858 [1:20:49<19:10,  2.02it/s] 80%|████████  | 9533/11858 [1:20:50<19:08,  2.02it/s] 80%|████████  | 9534/11858 [1:20:50<19:06,  2.03it/s] 80%|████████  | 9535/11858 [1:20:51<19:05,  2.03it/s] 80%|████████  | 9536/11858 [1:20:51<19:03,  2.03it/s] 80%|████████  | 9537/11858 [1:20:52<19:02,  2.03it/s] 80%|████████  | 9538/11858 [1:20:52<19:01,  2.03it/s] 80%|████████  | 9539/11858 [1:20:53<19:00,  2.03it/s] 80%|████████  | 9540/11858 [1:20:53<19:00,  2.03it/s] 80%|████████  | 9541/11858 [1:20:54<19:00,  2.03it/s] 80%|████████  | 9542/11858 [1:20:54<18:57,  2.04it/s] 80%|████████  | 9543/11858 [1:20:55<18:58,  2.03it/s] 80%|████████  | 9544/11858 [1:20:55<18:58,  2.03it/s] 80%|████████  | 9545/11858 [1:20:56<18:57,  2.03it/s] 81%|████████  | 9546/11858 [1:20:56<18:57,  2.03it/s] 81%|████████  | 9547/11858 [1:20:57<18:56,  2.03it/s] 81%|████████  | 9548/11858 [1:20:57<18:54,  2.04it/s] 81%|████████  | 9549/11858 [1:20:58<18:54,  2.03it/s] 81%|████████  | 9550/11858 [1:20:58<18:54,  2.04it/s]                                                      {'loss': 1.4718, 'grad_norm': 0.325838565826416, 'learning_rate': 0.00011103210981831251, 'epoch': 11.27}
- 81%|████████  | 9550/11858 [1:20:58<18:54,  2.04it/s] 81%|████████  | 9551/11858 [1:20:59<18:55,  2.03it/s] 81%|████████  | 9552/11858 [1:20:59<18:54,  2.03it/s] 81%|████████  | 9553/11858 [1:20:59<18:53,  2.03it/s] 81%|████████  | 9554/11858 [1:21:00<18:53,  2.03it/s] 81%|████��███  | 9555/11858 [1:21:00<18:52,  2.03it/s] 81%|████████  | 9556/11858 [1:21:01<18:51,  2.03it/s] 81%|████████  | 9557/11858 [1:21:01<18:51,  2.03it/s] 81%|████████  | 9558/11858 [1:21:02<18:51,  2.03it/s] 81%|████████  | 9559/11858 [1:21:02<18:49,  2.03it/s] 81%|████████  | 9560/11858 [1:21:03<18:50,  2.03it/s] 81%|████████  | 9561/11858 [1:21:03<18:50,  2.03it/s] 81%|████████  | 9562/11858 [1:21:04<18:49,  2.03it/s] 81%|████████  | 9563/11858 [1:21:04<18:49,  2.03it/s] 81%|████████  | 9564/11858 [1:21:05<18:48,  2.03it/s] 81%|████████  | 9565/11858 [1:21:05<18:48,  2.03it/s] 81%|████████  | 9566/11858 [1:21:06<18:48,  2.03it/s] 81%|████████  | 9567/11858 [1:21:06<18:46,  2.03it/s] 81%|████████  | 9568/11858 [1:21:07<18:46,  2.03it/s] 81%|████████  | 9569/11858 [1:21:07<18:45,  2.03it/s] 81%|████████  | 9570/11858 [1:21:08<18:44,  2.03it/s] 81%|████████  | 9571/11858 [1:21:08<18:44,  2.03it/s] 81%|████████  | 9572/11858 [1:21:09<18:44,  2.03it/s] 81%|████████  | 9573/11858 [1:21:09<18:43,  2.03it/s] 81%|████████  | 9574/11858 [1:21:10<18:43,  2.03it/s] 81%|████████  | 9575/11858 [1:21:10<18:42,  2.03it/s]                                                      {'loss': 1.4713, 'grad_norm': 0.31893786787986755, 'learning_rate': 0.00010873053865065241, 'epoch': 11.3}
- 81%|████████  | 9575/11858 [1:21:10<18:42,  2.03it/s] 81%|████████  | 9576/11858 [1:21:11<18:44,  2.03it/s] 81%|████████  | 9577/11858 [1:21:11<18:43,  2.03it/s] 81%|████████  | 9578/11858 [1:21:12<18:42,  2.03it/s] 81%|████████  | 9579/11858 [1:21:12<18:41,  2.03it/s] 81%|████████  | 9580/11858 [1:21:13<18:41,  2.03it/s] 81%|████████  | 9581/11858 [1:21:13<18:39,  2.03it/s] 81%|████████  | 9582/11858 [1:21:14<18:39,  2.03it/s] 81%|████████  | 9583/11858 [1:21:14<18:40,  2.03it/s] 81%|████████  | 9584/11858 [1:21:15<18:39,  2.03it/s] 81%|████████  | 9585/11858 [1:21:15<18:38,  2.03it/s] 81%|████████  | 9586/11858 [1:21:16<18:38,  2.03it/s] 81%|████████  | 9587/11858 [1:21:16<18:38,  2.03it/s] 81%|████████  | 9588/11858 [1:21:17<18:37,  2.03it/s] 81%|████████  | 9589/11858 [1:21:17<18:36,  2.03it/s] 81%|████████  | 9590/11858 [1:21:18<18:35,  2.03it/s] 81%|████████  | 9591/11858 [1:21:18<18:35,  2.03it/s] 81%|████████  | 9592/11858 [1:21:19<18:34,  2.03it/s] 81%|████████  | 9593/11858 [1:21:19<18:34,  2.03it/s] 81%|████████  | 9594/11858 [1:21:20<18:33,  2.03it/s] 81%|████████  | 9595/11858 [1:21:20<18:32,  2.03it/s] 81%|████████  | 9596/11858 [1:21:21<18:32,  2.03it/s] 81%|████████  | 9597/11858 [1:21:21<18:30,  2.04it/s] 81%|████████  | 9598/11858 [1:21:22<18:30,  2.03it/s] 81%|████████  | 9599/11858 [1:21:22<18:30,  2.03it/s] 81%|████████  | 9600/11858 [1:21:23<18:29,  2.03it/s]                                                      {'loss': 1.4783, 'grad_norm': 0.29707029461860657, 'learning_rate': 0.00010645015900365124, 'epoch': 11.33}
- 81%|████████  | 9600/11858 [1:21:23<18:29,  2.03it/s] 81%|████████  | 9601/11858 [1:21:23<18:30,  2.03it/s] 81%|████████  | 9602/11858 [1:21:24<18:29,  2.03it/s] 81%|████████  | 9603/11858 [1:21:24<18:28,  2.03it/s] 81%|████████  | 9604/11858 [1:21:25<18:28,  2.03it/s] 81%|████████  | 9605/11858 [1:21:25<18:27,  2.03it/s] 81%|████████  | 9606/11858 [1:21:26<18:26,  2.03it/s] 81%|████████  | 9607/11858 [1:21:26<18:26,  2.03it/s] 81%|████████  | 9608/11858 [1:21:27<18:25,  2.03it/s] 81%|████████  | 9609/11858 [1:21:27<18:26,  2.03it/s] 81%|████████  | 9610/11858 [1:21:28<18:25,  2.03it/s] 81%|████████  | 9611/11858 [1:21:28<20:00,  1.87it/s] 81%|████████  | 9612/11858 [1:21:29<19:32,  1.92it/s] 81%|████████  | 9613/11858 [1:21:29<19:11,  1.95it/s] 81%|████████  | 9614/11858 [1:21:30<18:57,  1.97it/s] 81%|████████  | 9615/11858 [1:21:30<18:47,  1.99it/s] 81%|████████  | 9616/11858 [1:21:31<18:39,  2.00it/s] 81%|████████  | 9617/11858 [1:21:31<18:34,  2.01it/s] 81%|████████  | 9618/11858 [1:21:32<18:30,  2.02it/s] 81%|████████  | 9619/11858 [1:21:32<18:27,  2.02it/s] 81%|████████  | 9620/11858 [1:21:33<18:25,  2.03it/s] 81%|████████  | 9621/11858 [1:21:33<18:22,  2.03it/s] 81%|████████  | 9622/11858 [1:21:34<18:21,  2.03it/s] 81%|████████  | 9623/11858 [1:21:34<18:20,  2.03it/s] 81%|████████  | 9624/11858 [1:21:35<18:19,  2.03it/s] 81%|████████  | 9625/11858 [1:21:35<18:18,  2.03it/s]                                                      {'loss': 1.4824, 'grad_norm': 0.29365453124046326, 'learning_rate': 0.00010419109438480762, 'epoch': 11.36}
- 81%|████████  | 9625/11858 [1:21:35<18:18,  2.03it/s] 81%|████████  | 9626/11858 [1:21:36<18:18,  2.03it/s] 81%|████████  | 9627/11858 [1:21:36<18:17,  2.03it/s] 81%|████████  | 9628/11858 [1:21:37<18:17,  2.03it/s] 81%|████████  | 9629/11858 [1:21:37<18:15,  2.03it/s] 81%|████████  | 9630/11858 [1:21:38<18:17,  2.03it/s] 81%|████████  | 9631/11858 [1:21:38<18:15,  2.03it/s] 81%|████████  | 9632/11858 [1:21:38<18:13,  2.04it/s] 81%|████████  | 9633/11858 [1:21:39<18:13,  2.03it/s] 81%|████████  | 9634/11858 [1:21:39<18:14,  2.03it/s] 81%|████████▏ | 9635/11858 [1:21:40<18:13,  2.03it/s] 81%|████████▏ | 9636/11858 [1:21:40<18:13,  2.03it/s] 81%|████████▏ | 9637/11858 [1:21:41<18:13,  2.03it/s] 81%|████████▏ | 9638/11858 [1:21:41<18:12,  2.03it/s] 81%|████████▏ | 9639/11858 [1:21:42<18:12,  2.03it/s] 81%|████████▏ | 9640/11858 [1:21:42<18:10,  2.03it/s] 81%|████████▏ | 9641/11858 [1:21:43<18:11,  2.03it/s] 81%|████████▏ | 9642/11858 [1:21:43<18:10,  2.03it/s] 81%|████████▏ | 9643/11858 [1:21:44<18:09,  2.03it/s] 81%|████████▏ | 9644/11858 [1:21:44<18:08,  2.03it/s] 81%|████████▏ | 9645/11858 [1:21:45<18:08,  2.03it/s] 81%|████████▏ | 9646/11858 [1:21:45<18:07,  2.03it/s] 81%|████████▏ | 9647/11858 [1:21:46<18:07,  2.03it/s] 81%|████████▏ | 9648/11858 [1:21:46<18:07,  2.03it/s] 81%|████████▏ | 9649/11858 [1:21:47<18:06,  2.03it/s] 81%|████████▏ | 9650/11858 [1:21:47<18:06,  2.03it/s]                                                      {'loss': 1.4715, 'grad_norm': 0.28519466519355774, 'learning_rate': 0.00010195346714717812, 'epoch': 11.39}
- 81%|████████▏ | 9650/11858 [1:21:47<18:06,  2.03it/s] 81%|████████▏ | 9651/11858 [1:21:48<18:07,  2.03it/s] 81%|████████▏ | 9652/11858 [1:21:48<18:06,  2.03it/s] 81%|████████▏ | 9653/11858 [1:21:49<18:06,  2.03it/s] 81%|████████▏ | 9654/11858 [1:21:49<18:04,  2.03it/s] 81%|████████▏ | 9655/11858 [1:21:50<18:03,  2.03it/s] 81%|████████▏ | 9656/11858 [1:21:50<18:03,  2.03it/s] 81%|████████▏ | 9657/11858 [1:21:51<18:03,  2.03it/s] 81%|████████▏ | 9658/11858 [1:21:51<18:03,  2.03it/s] 81%|████████▏ | 9659/11858 [1:21:52<18:02,  2.03it/s] 81%|████████▏ | 9660/11858 [1:21:52<18:00,  2.03it/s] 81%|████████▏ | 9661/11858 [1:21:53<18:00,  2.03it/s] 81%|████████▏ | 9662/11858 [1:21:53<17:59,  2.03it/s] 81%|████████▏ | 9663/11858 [1:21:54<17:58,  2.04it/s] 81%|████████▏ | 9664/11858 [1:21:54<17:59,  2.03it/s] 82%|████████▏ | 9665/11858 [1:21:55<17:58,  2.03it/s] 82%|████████▏ | 9666/11858 [1:21:55<17:58,  2.03it/s] 82%|████████▏ | 9667/11858 [1:21:56<17:58,  2.03it/s] 82%|████████▏ | 9668/11858 [1:21:56<17:57,  2.03it/s] 82%|████████▏ | 9669/11858 [1:21:57<17:57,  2.03it/s] 82%|████████▏ | 9670/11858 [1:21:57<17:56,  2.03it/s] 82%|████████▏ | 9671/11858 [1:21:58<17:55,  2.03it/s] 82%|████████▏ | 9672/11858 [1:21:58<17:55,  2.03it/s] 82%|████████▏ | 9673/11858 [1:21:59<17:53,  2.04it/s] 82%|████████▏ | 9674/11858 [1:21:59<17:54,  2.03it/s] 82%|████████▏ | 9675/11858 [1:22:00<17:53,  2.03it/s]                                                      {'loss': 1.468, 'grad_norm': 0.2935543358325958, 'learning_rate': 9.973739848275065e-05, 'epoch': 11.42}
- 82%|████████▏ | 9675/11858 [1:22:00<17:53,  2.03it/s] 82%|████████▏ | 9676/11858 [1:22:00<17:53,  2.03it/s] 82%|████████▏ | 9677/11858 [1:22:01<17:53,  2.03it/s] 82%|████████▏ | 9678/11858 [1:22:01<17:52,  2.03it/s] 82%|████████▏ | 9679/11858 [1:22:02<17:50,  2.03it/s] 82%|████████▏ | 9680/11858 [1:22:02<17:50,  2.03it/s] 82%|████████▏ | 9681/11858 [1:22:03<17:50,  2.03it/s] 82%|████████▏ | 9682/11858 [1:22:03<17:50,  2.03it/s] 82%|████████▏ | 9683/11858 [1:22:04<17:49,  2.03it/s] 82%|████████▏ | 9684/11858 [1:22:04<17:49,  2.03it/s] 82%|████████▏ | 9685/11858 [1:22:05<17:50,  2.03it/s] 82%|████████▏ | 9686/11858 [1:22:05<17:49,  2.03it/s] 82%|████████▏ | 9687/11858 [1:22:06<17:49,  2.03it/s] 82%|████████▏ | 9688/11858 [1:22:06<17:47,  2.03it/s] 82%|████████▏ | 9689/11858 [1:22:07<17:48,  2.03it/s] 82%|████████▏ | 9690/11858 [1:22:07<17:47,  2.03it/s] 82%|████████▏ | 9691/11858 [1:22:08<17:45,  2.03it/s] 82%|████████▏ | 9692/11858 [1:22:08<17:46,  2.03it/s] 82%|████████▏ | 9693/11858 [1:22:09<17:44,  2.03it/s] 82%|████████▏ | 9694/11858 [1:22:09<17:44,  2.03it/s] 82%|████████▏ | 9695/11858 [1:22:09<17:44,  2.03it/s] 82%|████████▏ | 9696/11858 [1:22:10<17:43,  2.03it/s] 82%|████████▏ | 9697/11858 [1:22:10<17:43,  2.03it/s] 82%|████████▏ | 9698/11858 [1:22:11<17:42,  2.03it/s] 82%|████████▏ | 9699/11858 [1:22:11<17:42,  2.03it/s] 82%|████████▏ | 9700/11858 [1:22:12<17:42,  2.03it/s]                                                      {'loss': 1.4785, 'grad_norm': 0.28248512744903564, 'learning_rate': 9.754300841588082e-05, 'epoch': 11.45}
- 82%|████████▏ | 9700/11858 [1:22:12<17:42,  2.03it/s] 82%|████████▏ | 9701/11858 [1:22:12<17:42,  2.03it/s] 82%|████████▏ | 9702/11858 [1:22:13<17:41,  2.03it/s] 82%|████████▏ | 9703/11858 [1:22:13<17:40,  2.03it/s] 82%|████████▏ | 9704/11858 [1:22:14<17:38,  2.03it/s] 82%|████████▏ | 9705/11858 [1:22:14<17:39,  2.03it/s] 82%|████████▏ | 9706/11858 [1:22:15<17:37,  2.03it/s] 82%|████████▏ | 9707/11858 [1:22:15<17:36,  2.04it/s] 82%|████████▏ | 9708/11858 [1:22:16<17:36,  2.03it/s] 82%|████████▏ | 9709/11858 [1:22:16<17:36,  2.03it/s] 82%|████████▏ | 9710/11858 [1:22:17<17:36,  2.03it/s] 82%|████████▏ | 9711/11858 [1:22:17<17:36,  2.03it/s] 82%|████████▏ | 9712/11858 [1:22:18<17:35,  2.03it/s] 82%|████████▏ | 9713/11858 [1:22:18<17:35,  2.03it/s] 82%|████████▏ | 9714/11858 [1:22:19<17:35,  2.03it/s] 82%|████████▏ | 9715/11858 [1:22:19<17:33,  2.03it/s] 82%|████████▏ | 9716/11858 [1:22:20<17:33,  2.03it/s] 82%|████████▏ | 9717/11858 [1:22:20<17:33,  2.03it/s] 82%|████████▏ | 9718/11858 [1:22:21<17:31,  2.03it/s] 82%|████████▏ | 9719/11858 [1:22:21<17:31,  2.03it/s] 82%|████████▏ | 9720/11858 [1:22:22<17:32,  2.03it/s] 82%|████████▏ | 9721/11858 [1:22:22<17:30,  2.03it/s] 82%|████████▏ | 9722/11858 [1:22:23<17:30,  2.03it/s] 82%|████████▏ | 9723/11858 [1:22:23<17:30,  2.03it/s] 82%|████████▏ | 9724/11858 [1:22:24<17:30,  2.03it/s] 82%|████████▏ | 9725/11858 [1:22:24<17:30,  2.03it/s]                                                      {'loss': 1.48, 'grad_norm': 0.28514355421066284, 'learning_rate': 9.537041579679062e-05, 'epoch': 11.47}
- 82%|████████▏ | 9725/11858 [1:22:24<17:30,  2.03it/s] 82%|████████▏ | 9726/11858 [1:22:25<17:30,  2.03it/s] 82%|████████▏ | 9727/11858 [1:22:25<17:29,  2.03it/s] 82%|████████▏ | 9728/11858 [1:22:26<17:29,  2.03it/s] 82%|████████▏ | 9729/11858 [1:22:26<17:29,  2.03it/s] 82%|████████▏ | 9730/11858 [1:22:27<17:29,  2.03it/s] 82%|████████▏ | 9731/11858 [1:22:27<17:28,  2.03it/s] 82%|████████▏ | 9732/11858 [1:22:28<17:27,  2.03it/s] 82%|████████▏ | 9733/11858 [1:22:28<17:26,  2.03it/s] 82%|████████▏ | 9734/11858 [1:22:29<17:26,  2.03it/s] 82%|████████▏ | 9735/11858 [1:22:29<17:24,  2.03it/s] 82%|████████▏ | 9736/11858 [1:22:30<17:25,  2.03it/s] 82%|████████▏ | 9737/11858 [1:22:30<17:24,  2.03it/s] 82%|████████▏ | 9738/11858 [1:22:31<17:22,  2.03it/s] 82%|████████▏ | 9739/11858 [1:22:31<17:23,  2.03it/s] 82%|████████▏ | 9740/11858 [1:22:32<17:22,  2.03it/s] 82%|████████▏ | 9741/11858 [1:22:32<17:21,  2.03it/s] 82%|████████▏ | 9742/11858 [1:22:33<17:21,  2.03it/s] 82%|████████▏ | 9743/11858 [1:22:33<17:20,  2.03it/s] 82%|████████▏ | 9744/11858 [1:22:34<17:21,  2.03it/s] 82%|████████▏ | 9745/11858 [1:22:34<17:20,  2.03it/s] 82%|████████▏ | 9746/11858 [1:22:35<17:19,  2.03it/s] 82%|████████▏ | 9747/11858 [1:22:35<17:19,  2.03it/s] 82%|████████▏ | 9748/11858 [1:22:36<17:17,  2.03it/s] 82%|████████▏ | 9749/11858 [1:22:36<17:17,  2.03it/s] 82%|████████▏ | 9750/11858 [1:22:37<17:17,  2.03it/s]                                                      {'loss': 1.4839, 'grad_norm': 0.28167247772216797, 'learning_rate': 9.321973829513202e-05, 'epoch': 11.5}
- 82%|████████▏ | 9750/11858 [1:22:37<17:17,  2.03it/s] 82%|████████▏ | 9751/11858 [1:22:37<17:17,  2.03it/s] 82%|████████▏ | 9752/11858 [1:22:38<17:18,  2.03it/s] 82%|████████▏ | 9753/11858 [1:22:38<17:17,  2.03it/s] 82%|████████▏ | 9754/11858 [1:22:39<17:17,  2.03it/s] 82%|████████▏ | 9755/11858 [1:22:39<17:16,  2.03it/s] 82%|████████▏ | 9756/11858 [1:22:40<17:14,  2.03it/s] 82%|████████▏ | 9757/11858 [1:22:40<17:14,  2.03it/s] 82%|████████▏ | 9758/11858 [1:22:40<17:13,  2.03it/s] 82%|████████▏ | 9759/11858 [1:22:41<17:12,  2.03it/s] 82%|████████▏ | 9760/11858 [1:22:41<17:11,  2.03it/s] 82%|████████▏ | 9761/11858 [1:22:42<17:11,  2.03it/s] 82%|████████▏ | 9762/11858 [1:22:42<17:09,  2.04it/s] 82%|████████▏ | 9763/11858 [1:22:43<17:10,  2.03it/s] 82%|████████▏ | 9764/11858 [1:22:43<17:08,  2.04it/s] 82%|████████▏ | 9765/11858 [1:22:44<17:08,  2.04it/s] 82%|████████▏ | 9766/11858 [1:22:44<17:08,  2.03it/s] 82%|████████▏ | 9767/11858 [1:22:45<17:08,  2.03it/s] 82%|████████▏ | 9768/11858 [1:22:45<17:08,  2.03it/s] 82%|████████▏ | 9769/11858 [1:22:46<17:07,  2.03it/s] 82%|████████▏ | 9770/11858 [1:22:46<17:07,  2.03it/s] 82%|████████▏ | 9771/11858 [1:22:47<17:08,  2.03it/s] 82%|████████▏ | 9772/11858 [1:22:47<17:07,  2.03it/s] 82%|████████▏ | 9773/11858 [1:22:48<17:06,  2.03it/s] 82%|████████▏ | 9774/11858 [1:22:48<17:05,  2.03it/s] 82%|████████▏ | 9775/11858 [1:22:49<17:04,  2.03it/s]                                                      {'loss': 1.4958, 'grad_norm': 0.2858578860759735, 'learning_rate': 9.109109239361396e-05, 'epoch': 11.53}
- 82%|████████▏ | 9775/11858 [1:22:49<17:04,  2.03it/s] 82%|████████▏ | 9776/11858 [1:22:49<17:05,  2.03it/s] 82%|████████▏ | 9777/11858 [1:22:50<17:05,  2.03it/s] 82%|████████▏ | 9778/11858 [1:22:50<17:03,  2.03it/s] 82%|████████▏ | 9779/11858 [1:22:51<17:02,  2.03it/s] 82%|████████▏ | 9780/11858 [1:22:51<17:02,  2.03it/s] 82%|████████▏ | 9781/11858 [1:22:52<17:01,  2.03it/s] 82%|████████▏ | 9782/11858 [1:22:52<17:01,  2.03it/s] 83%|████████▎ | 9783/11858 [1:22:53<17:01,  2.03it/s] 83%|████████▎ | 9784/11858 [1:22:53<17:01,  2.03it/s] 83%|████████▎ | 9785/11858 [1:22:54<17:00,  2.03it/s] 83%|████████▎ | 9786/11858 [1:22:54<16:59,  2.03it/s] 83%|████████▎ | 9787/11858 [1:22:55<16:58,  2.03it/s] 83%|████████▎ | 9788/11858 [1:22:55<16:57,  2.03it/s] 83%|████████▎ | 9789/11858 [1:22:56<16:57,  2.03it/s] 83%|████████▎ | 9790/11858 [1:22:56<16:56,  2.03it/s] 83%|████████▎ | 9791/11858 [1:22:57<16:56,  2.03it/s] 83%|████████▎ | 9792/11858 [1:22:57<16:57,  2.03it/s] 83%|████████▎ | 9793/11858 [1:22:58<16:55,  2.03it/s] 83%|████████▎ | 9794/11858 [1:22:58<16:55,  2.03it/s] 83%|████████▎ | 9795/11858 [1:22:59<16:55,  2.03it/s] 83%|████████▎ | 9796/11858 [1:22:59<16:53,  2.03it/s] 83%|████████▎ | 9797/11858 [1:23:00<16:53,  2.03it/s] 83%|████████▎ | 9798/11858 [1:23:00<16:53,  2.03it/s] 83%|████████▎ | 9799/11858 [1:23:01<16:51,  2.04it/s] 83%|████████▎ | 9800/11858 [1:23:01<16:52,  2.03it/s]                                                      {'loss': 1.4766, 'grad_norm': 0.28502437472343445, 'learning_rate': 8.898459338169296e-05, 'epoch': 11.56}
- 83%|████████▎ | 9800/11858 [1:23:01<16:52,  2.03it/s] 83%|████████▎ | 9801/11858 [1:23:02<16:51,  2.03it/s] 83%|████████▎ | 9802/11858 [1:23:02<16:50,  2.03it/s] 83%|████████▎ | 9803/11858 [1:23:03<16:50,  2.03it/s] 83%|████████▎ | 9804/11858 [1:23:03<16:49,  2.03it/s] 83%|████████▎ | 9805/11858 [1:23:04<16:48,  2.03it/s] 83%|████████▎ | 9806/11858 [1:23:04<16:48,  2.03it/s] 83%|████████▎ | 9807/11858 [1:23:05<16:48,  2.03it/s] 83%|████████▎ | 9808/11858 [1:23:05<16:48,  2.03it/s] 83%|████████▎ | 9809/11858 [1:23:06<16:48,  2.03it/s] 83%|████████▎ | 9810/11858 [1:23:06<16:47,  2.03it/s] 83%|████████▎ | 9811/11858 [1:23:07<16:46,  2.03it/s] 83%|████████▎ | 9812/11858 [1:23:07<16:46,  2.03it/s] 83%|████████▎ | 9813/11858 [1:23:08<16:46,  2.03it/s] 83%|████████▎ | 9814/11858 [1:23:08<16:46,  2.03it/s] 83%|████████▎ | 9815/11858 [1:23:09<16:44,  2.03it/s] 83%|████████▎ | 9816/11858 [1:23:09<16:45,  2.03it/s] 83%|████████▎ | 9817/11858 [1:23:10<16:45,  2.03it/s] 83%|████████▎ | 9818/11858 [1:23:10<16:43,  2.03it/s] 83%|████████▎ | 9819/11858 [1:23:11<16:42,  2.03it/s] 83%|████████▎ | 9820/11858 [1:23:11<16:41,  2.04it/s] 83%|████████▎ | 9821/11858 [1:23:11<16:39,  2.04it/s] 83%|████████▎ | 9822/11858 [1:23:12<16:38,  2.04it/s] 83%|████████▎ | 9823/11858 [1:23:12<16:39,  2.04it/s] 83%|████████▎ | 9824/11858 [1:23:13<16:38,  2.04it/s] 83%|████████▎ | 9825/11858 [1:23:13<16:39,  2.03it/s]                                                      {'loss': 1.4798, 'grad_norm': 0.3155616819858551, 'learning_rate': 8.690035534932939e-05, 'epoch': 11.59}
- 83%|████████▎ | 9825/11858 [1:23:13<16:39,  2.03it/s] 83%|████████▎ | 9826/11858 [1:23:14<16:40,  2.03it/s] 83%|████████▎ | 9827/11858 [1:23:14<16:39,  2.03it/s] 83%|████████▎ | 9828/11858 [1:23:15<16:39,  2.03it/s] 83%|████████▎ | 9829/11858 [1:23:15<16:38,  2.03it/s] 83%|████████▎ | 9830/11858 [1:23:16<16:38,  2.03it/s] 83%|████████▎ | 9831/11858 [1:23:16<16:37,  2.03it/s] 83%|████████▎ | 9832/11858 [1:23:17<16:36,  2.03it/s] 83%|████████▎ | 9833/11858 [1:23:17<16:35,  2.03it/s] 83%|████████▎ | 9834/11858 [1:23:18<16:35,  2.03it/s] 83%|████████▎ | 9835/11858 [1:23:18<16:34,  2.03it/s] 83%|████████▎ | 9836/11858 [1:23:19<16:34,  2.03it/s] 83%|████████▎ | 9837/11858 [1:23:19<16:33,  2.03it/s] 83%|████████▎ | 9838/11858 [1:23:20<16:33,  2.03it/s] 83%|████████▎ | 9839/11858 [1:23:20<16:33,  2.03it/s] 83%|████████▎ | 9840/11858 [1:23:21<16:31,  2.04it/s] 83%|████████▎ | 9841/11858 [1:23:21<16:31,  2.03it/s] 83%|████████▎ | 9842/11858 [1:23:22<16:31,  2.03it/s] 83%|████████▎ | 9843/11858 [1:23:22<16:30,  2.04it/s] 83%|████████▎ | 9844/11858 [1:23:23<16:30,  2.03it/s] 83%|████████▎ | 9845/11858 [1:23:23<16:29,  2.03it/s] 83%|████████▎ | 9846/11858 [1:23:24<16:28,  2.04it/s] 83%|████████▎ | 9847/11858 [1:23:24<16:28,  2.03it/s] 83%|████████▎ | 9848/11858 [1:23:25<16:28,  2.03it/s] 83%|████████▎ | 9849/11858 [1:23:25<16:28,  2.03it/s] 83%|████████▎ | 9850/11858 [1:23:26<16:28,  2.03it/s]                                                      {'loss': 1.4784, 'grad_norm': 0.30513983964920044, 'learning_rate': 8.483849118080827e-05, 'epoch': 11.62}
- 83%|████████▎ | 9850/11858 [1:23:26<16:28,  2.03it/s] 83%|████████▎ | 9851/11858 [1:23:26<16:27,  2.03it/s] 83%|████████▎ | 9852/11858 [1:23:27<16:27,  2.03it/s] 83%|████████▎ | 9853/11858 [1:23:27<16:26,  2.03it/s] 83%|████████▎ | 9854/11858 [1:23:28<16:26,  2.03it/s] 83%|████████▎ | 9855/11858 [1:23:28<16:25,  2.03it/s] 83%|████████▎ | 9856/11858 [1:23:29<16:24,  2.03it/s] 83%|████████▎ | 9857/11858 [1:23:29<16:24,  2.03it/s] 83%|████████▎ | 9858/11858 [1:23:30<16:23,  2.03it/s] 83%|████████▎ | 9859/11858 [1:23:30<16:23,  2.03it/s] 83%|████████▎ | 9860/11858 [1:23:31<16:23,  2.03it/s] 83%|████████▎ | 9861/11858 [1:23:31<16:22,  2.03it/s] 83%|████████▎ | 9862/11858 [1:23:32<16:22,  2.03it/s] 83%|████████▎ | 9863/11858 [1:23:32<16:22,  2.03it/s] 83%|████████▎ | 9864/11858 [1:23:33<16:20,  2.03it/s] 83%|████████▎ | 9865/11858 [1:23:33<16:19,  2.03it/s] 83%|████████▎ | 9866/11858 [1:23:34<16:19,  2.03it/s] 83%|████████▎ | 9867/11858 [1:23:34<16:18,  2.03it/s] 83%|████████▎ | 9868/11858 [1:23:35<16:18,  2.03it/s] 83%|████████▎ | 9869/11858 [1:23:35<16:18,  2.03it/s] 83%|████████▎ | 9870/11858 [1:23:36<16:17,  2.03it/s] 83%|████████▎ | 9871/11858 [1:23:36<16:17,  2.03it/s] 83%|████████▎ | 9872/11858 [1:23:37<16:16,  2.03it/s] 83%|████████▎ | 9873/11858 [1:23:37<16:14,  2.04it/s] 83%|████████▎ | 9874/11858 [1:23:38<16:15,  2.03it/s] 83%|████████▎ | 9875/11858 [1:23:38<16:14,  2.03it/s]                                                      {'loss': 1.4881, 'grad_norm': 0.2830888628959656, 'learning_rate': 8.279911254862482e-05, 'epoch': 11.65}
- 83%|████████▎ | 9875/11858 [1:23:38<16:14,  2.03it/s] 83%|████████▎ | 9876/11858 [1:23:39<16:15,  2.03it/s] 83%|████████▎ | 9877/11858 [1:23:39<16:15,  2.03it/s] 83%|████████▎ | 9878/11858 [1:23:40<16:14,  2.03it/s] 83%|████████▎ | 9879/11858 [1:23:40<16:13,  2.03it/s] 83%|████████▎ | 9880/11858 [1:23:41<16:13,  2.03it/s] 83%|████████▎ | 9881/11858 [1:23:41<16:11,  2.03it/s] 83%|████████▎ | 9882/11858 [1:23:41<16:11,  2.03it/s] 83%|████████▎ | 9883/11858 [1:23:42<16:11,  2.03it/s] 83%|████████▎ | 9884/11858 [1:23:42<16:10,  2.03it/s] 83%|████████▎ | 9885/11858 [1:23:43<16:10,  2.03it/s] 83%|████████▎ | 9886/11858 [1:23:43<16:09,  2.03it/s] 83%|████████▎ | 9887/11858 [1:23:44<16:09,  2.03it/s] 83%|████████▎ | 9888/11858 [1:23:44<16:09,  2.03it/s] 83%|████████▎ | 9889/11858 [1:23:45<16:08,  2.03it/s] 83%|████████▎ | 9890/11858 [1:23:45<16:08,  2.03it/s] 83%|████████▎ | 9891/11858 [1:23:46<16:08,  2.03it/s] 83%|████████▎ | 9892/11858 [1:23:46<16:08,  2.03it/s] 83%|████████▎ | 9893/11858 [1:23:47<16:07,  2.03it/s] 83%|████████▎ | 9894/11858 [1:23:47<16:06,  2.03it/s] 83%|████████▎ | 9895/11858 [1:23:48<16:06,  2.03it/s] 83%|████████▎ | 9896/11858 [1:23:48<16:05,  2.03it/s] 83%|████████▎ | 9897/11858 [1:23:49<16:05,  2.03it/s] 83%|████████▎ | 9898/11858 [1:23:49<16:04,  2.03it/s] 83%|████████▎ | 9899/11858 [1:23:50<16:03,  2.03it/s] 83%|████████▎ | 9900/11858 [1:23:50<16:02,  2.03it/s]                                                      {'loss': 1.4732, 'grad_norm': 0.2857860326766968, 'learning_rate': 8.078232990743667e-05, 'epoch': 11.68}
- 83%|████████▎ | 9900/11858 [1:23:50<16:02,  2.03it/s] 83%|████████▎ | 9901/11858 [1:23:51<16:02,  2.03it/s] 84%|████████▎ | 9902/11858 [1:23:51<16:02,  2.03it/s] 84%|████████▎ | 9903/11858 [1:23:52<16:02,  2.03it/s] 84%|████████▎ | 9904/11858 [1:23:52<16:00,  2.03it/s] 84%|████████▎ | 9905/11858 [1:23:53<16:00,  2.03it/s] 84%|████████▎ | 9906/11858 [1:23:53<16:00,  2.03it/s] 84%|████████▎ | 9907/11858 [1:23:54<15:58,  2.03it/s] 84%|████████▎ | 9908/11858 [1:23:54<15:57,  2.04it/s] 84%|████████▎ | 9909/11858 [1:23:55<15:57,  2.04it/s] 84%|████████▎ | 9910/11858 [1:23:55<15:57,  2.03it/s] 84%|████████▎ | 9911/11858 [1:23:56<15:56,  2.04it/s] 84%|████████▎ | 9912/11858 [1:23:56<15:57,  2.03it/s] 84%|████████▎ | 9913/11858 [1:23:57<15:56,  2.03it/s] 84%|████████▎ | 9914/11858 [1:23:57<15:56,  2.03it/s] 84%|████████▎ | 9915/11858 [1:23:58<15:56,  2.03it/s] 84%|████████▎ | 9916/11858 [1:23:58<15:55,  2.03it/s] 84%|████████▎ | 9917/11858 [1:23:59<15:54,  2.03it/s] 84%|████████▎ | 9918/11858 [1:23:59<15:54,  2.03it/s] 84%|████████▎ | 9919/11858 [1:24:00<15:53,  2.03it/s] 84%|████████▎ | 9920/11858 [1:24:00<15:53,  2.03it/s] 84%|████████▎ | 9921/11858 [1:24:01<15:53,  2.03it/s] 84%|████████▎ | 9922/11858 [1:24:01<15:53,  2.03it/s] 84%|████████▎ | 9923/11858 [1:24:02<15:51,  2.03it/s] 84%|████████▎ | 9924/11858 [1:24:02<15:52,  2.03it/s] 84%|████████▎ | 9925/11858 [1:24:03<15:52,  2.03it/s]                                                      {'loss': 1.4842, 'grad_norm': 0.28278848528862, 'learning_rate': 7.878825248808147e-05, 'epoch': 11.71}
- 84%|████████▎ | 9925/11858 [1:24:03<15:52,  2.03it/s] 84%|████████▎ | 9926/11858 [1:24:03<15:52,  2.03it/s] 84%|████████▎ | 9927/11858 [1:24:04<15:51,  2.03it/s] 84%|████████▎ | 9928/11858 [1:24:04<15:49,  2.03it/s] 84%|████████▎ | 9929/11858 [1:24:05<15:49,  2.03it/s] 84%|████████▎ | 9930/11858 [1:24:05<15:48,  2.03it/s] 84%|████████▎ | 9931/11858 [1:24:06<15:47,  2.03it/s] 84%|████████▍ | 9932/11858 [1:24:06<15:47,  2.03it/s] 84%|████████▍ | 9933/11858 [1:24:07<15:47,  2.03it/s] 84%|████████▍ | 9934/11858 [1:24:07<15:46,  2.03it/s] 84%|████████▍ | 9935/11858 [1:24:08<15:45,  2.03it/s] 84%|████████▍ | 9936/11858 [1:24:08<15:45,  2.03it/s] 84%|████████▍ | 9937/11858 [1:24:09<15:45,  2.03it/s] 84%|████████▍ | 9938/11858 [1:24:09<15:45,  2.03it/s] 84%|████████▍ | 9939/11858 [1:24:10<15:44,  2.03it/s] 84%|████████▍ | 9940/11858 [1:24:10<15:44,  2.03it/s] 84%|████████▍ | 9941/11858 [1:24:11<15:43,  2.03it/s] 84%|████████▍ | 9942/11858 [1:24:11<15:42,  2.03it/s] 84%|████████▍ | 9943/11858 [1:24:12<15:42,  2.03it/s] 84%|████████▍ | 9944/11858 [1:24:12<15:42,  2.03it/s] 84%|████████▍ | 9945/11858 [1:24:12<15:41,  2.03it/s] 84%|████████▍ | 9946/11858 [1:24:13<15:41,  2.03it/s] 84%|████████▍ | 9947/11858 [1:24:13<15:40,  2.03it/s] 84%|████████▍ | 9948/11858 [1:24:14<15:39,  2.03it/s] 84%|████████▍ | 9949/11858 [1:24:14<15:39,  2.03it/s] 84%|████████▍ | 9950/11858 [1:24:15<15:38,  2.03it/s]                                                      {'loss': 1.4768, 'grad_norm': 0.2930186986923218, 'learning_rate': 7.681698829166083e-05, 'epoch': 11.74}
- 84%|████████▍ | 9950/11858 [1:24:15<15:38,  2.03it/s] 84%|████████▍ | 9951/11858 [1:24:15<15:38,  2.03it/s] 84%|████████▍ | 9952/11858 [1:24:16<15:37,  2.03it/s] 84%|████████▍ | 9953/11858 [1:24:16<15:37,  2.03it/s] 84%|████████▍ | 9954/11858 [1:24:17<15:35,  2.03it/s] 84%|████████▍ | 9955/11858 [1:24:17<15:35,  2.03it/s] 84%|████████▍ | 9956/11858 [1:24:18<15:35,  2.03it/s] 84%|████████▍ | 9957/11858 [1:24:18<15:33,  2.04it/s] 84%|████████▍ | 9958/11858 [1:24:19<15:35,  2.03it/s] 84%|████████▍ | 9959/11858 [1:24:19<15:34,  2.03it/s] 84%|████████▍ | 9960/11858 [1:24:20<15:33,  2.03it/s] 84%|████████▍ | 9961/11858 [1:24:20<15:33,  2.03it/s] 84%|████████▍ | 9962/11858 [1:24:21<15:32,  2.03it/s] 84%|████████▍ | 9963/11858 [1:24:21<15:30,  2.04it/s] 84%|████████▍ | 9964/11858 [1:24:22<15:31,  2.03it/s] 84%|████████▍ | 9965/11858 [1:24:22<15:29,  2.04it/s] 84%|████████▍ | 9966/11858 [1:24:23<15:29,  2.04it/s] 84%|████████▍ | 9967/11858 [1:24:23<15:30,  2.03it/s] 84%|████████▍ | 9968/11858 [1:24:24<15:28,  2.04it/s] 84%|████████▍ | 9969/11858 [1:24:24<15:29,  2.03it/s] 84%|████████▍ | 9970/11858 [1:24:25<15:29,  2.03it/s] 84%|████████▍ | 9971/11858 [1:24:25<15:27,  2.03it/s] 84%|████████▍ | 9972/11858 [1:24:26<15:27,  2.03it/s] 84%|████████▍ | 9973/11858 [1:24:26<15:27,  2.03it/s] 84%|████████▍ | 9974/11858 [1:24:27<15:26,  2.03it/s] 84%|████████▍ | 9975/11858 [1:24:27<15:26,  2.03it/s]                                                      {'loss': 1.4813, 'grad_norm': 0.28653478622436523, 'learning_rate': 7.486864408369082e-05, 'epoch': 11.77}
- 84%|████████▍ | 9975/11858 [1:24:27<15:26,  2.03it/s] 84%|████████▍ | 9976/11858 [1:24:28<15:26,  2.03it/s] 84%|████████▍ | 9977/11858 [1:24:28<15:25,  2.03it/s] 84%|████████▍ | 9978/11858 [1:24:29<15:25,  2.03it/s] 84%|████████▍ | 9979/11858 [1:24:29<15:24,  2.03it/s] 84%|████████▍ | 9980/11858 [1:24:30<15:24,  2.03it/s] 84%|████████▍ | 9981/11858 [1:24:30<15:23,  2.03it/s] 84%|████████▍ | 9982/11858 [1:24:31<15:23,  2.03it/s] 84%|████████▍ | 9983/11858 [1:24:31<15:22,  2.03it/s] 84%|████████▍ | 9984/11858 [1:24:32<15:22,  2.03it/s] 84%|████████▍ | 9985/11858 [1:24:32<15:21,  2.03it/s] 84%|████████▍ | 9986/11858 [1:24:33<15:21,  2.03it/s] 84%|████████▍ | 9987/11858 [1:24:33<15:20,  2.03it/s] 84%|████████▍ | 9988/11858 [1:24:34<15:19,  2.03it/s] 84%|████████▍ | 9989/11858 [1:24:34<15:20,  2.03it/s] 84%|████████▍ | 9990/11858 [1:24:35<15:19,  2.03it/s] 84%|████████▍ | 9991/11858 [1:24:35<15:19,  2.03it/s] 84%|████████▍ | 9992/11858 [1:24:36<15:18,  2.03it/s] 84%|████████▍ | 9993/11858 [1:24:36<15:17,  2.03it/s] 84%|████████▍ | 9994/11858 [1:24:37<15:17,  2.03it/s] 84%|████████▍ | 9995/11858 [1:24:37<15:16,  2.03it/s] 84%|████████▍ | 9996/11858 [1:24:38<15:15,  2.03it/s] 84%|████████▍ | 9997/11858 [1:24:38<15:14,  2.03it/s] 84%|████████▍ | 9998/11858 [1:24:39<15:14,  2.03it/s] 84%|████████▍ | 9999/11858 [1:24:39<15:13,  2.03it/s] 84%|████████▍ | 10000/11858 [1:24:40<15:13,  2.03it/s]                                                       {'loss': 1.4857, 'grad_norm': 0.3003602623939514, 'learning_rate': 7.294332538831943e-05, 'epoch': 11.8}
- 84%|████████▍ | 10000/11858 [1:24:40<15:13,  2.03it/s] 84%|████████▍ | 10001/11858 [1:24:40<15:14,  2.03it/s] 84%|████████▍ | 10002/11858 [1:24:41<15:13,  2.03it/s] 84%|████████▍ | 10003/11858 [1:24:41<15:12,  2.03it/s] 84%|████████▍ | 10004/11858 [1:24:42<15:11,  2.03it/s] 84%|████████▍ | 10005/11858 [1:24:42<15:11,  2.03it/s] 84%|████████▍ | 10006/11858 [1:24:42<15:10,  2.03it/s] 84%|████████▍ | 10007/11858 [1:24:43<15:09,  2.03it/s] 84%|████████▍ | 10008/11858 [1:24:43<15:09,  2.03it/s] 84%|████████▍ | 10009/11858 [1:24:44<15:07,  2.04it/s] 84%|████████▍ | 10010/11858 [1:24:44<15:08,  2.03it/s] 84%|████████▍ | 10011/11858 [1:24:45<15:08,  2.03it/s] 84%|████████▍ | 10012/11858 [1:24:45<15:07,  2.03it/s] 84%|████████▍ | 10013/11858 [1:24:46<15:06,  2.03it/s] 84%|████████▍ | 10014/11858 [1:24:46<15:06,  2.03it/s] 84%|████████▍ | 10015/11858 [1:24:47<15:05,  2.04it/s] 84%|████████▍ | 10016/11858 [1:24:47<15:05,  2.03it/s] 84%|████████▍ | 10017/11858 [1:24:48<15:05,  2.03it/s] 84%|████████▍ | 10018/11858 [1:24:48<15:03,  2.04it/s] 84%|████████▍ | 10019/11858 [1:24:49<15:04,  2.03it/s] 84%|████████▍ | 10020/11858 [1:24:49<15:03,  2.03it/s] 85%|████████▍ | 10021/11858 [1:24:50<15:02,  2.04it/s] 85%|████████▍ | 10022/11858 [1:24:50<15:02,  2.03it/s] 85%|████████▍ | 10023/11858 [1:24:51<15:02,  2.03it/s] 85%|████████▍ | 10024/11858 [1:24:51<15:01,  2.04it/s] 85%|████████▍ | 10025/11858 [1:24:52<15:01,  2.03it/s]                                                       {'loss': 1.4809, 'grad_norm': 0.2834470570087433, 'learning_rate': 7.104113648261113e-05, 'epoch': 11.83}
- 85%|████████▍ | 10025/11858 [1:24:52<15:01,  2.03it/s] 85%|████████▍ | 10026/11858 [1:24:52<15:01,  2.03it/s] 85%|████████▍ | 10027/11858 [1:24:53<15:01,  2.03it/s] 85%|████████▍ | 10028/11858 [1:24:53<15:00,  2.03it/s] 85%|████████▍ | 10029/11858 [1:24:54<14:59,  2.03it/s] 85%|████████▍ | 10030/11858 [1:24:54<14:59,  2.03it/s] 85%|████████▍ | 10031/11858 [1:24:55<14:59,  2.03it/s] 85%|████████▍ | 10032/11858 [1:24:55<14:58,  2.03it/s] 85%|████████▍ | 10033/11858 [1:24:56<14:57,  2.03it/s] 85%|████████▍ | 10034/11858 [1:24:56<14:56,  2.03it/s] 85%|████████▍ | 10035/11858 [1:24:57<14:57,  2.03it/s] 85%|████████▍ | 10036/11858 [1:24:57<14:57,  2.03it/s] 85%|████████▍ | 10037/11858 [1:24:58<14:56,  2.03it/s] 85%|████████▍ | 10038/11858 [1:24:58<14:56,  2.03it/s] 85%|████████▍ | 10039/11858 [1:24:59<14:55,  2.03it/s] 85%|████████▍ | 10040/11858 [1:24:59<14:55,  2.03it/s] 85%|████████▍ | 10041/11858 [1:25:00<14:54,  2.03it/s] 85%|████████▍ | 10042/11858 [1:25:00<14:54,  2.03it/s] 85%|████████▍ | 10043/11858 [1:25:01<14:53,  2.03it/s] 85%|████████▍ | 10044/11858 [1:25:01<14:52,  2.03it/s] 85%|████████▍ | 10045/11858 [1:25:02<14:51,  2.03it/s] 85%|████████▍ | 10046/11858 [1:25:02<14:51,  2.03it/s] 85%|████████▍ | 10047/11858 [1:25:03<14:51,  2.03it/s] 85%|████████▍ | 10048/11858 [1:25:03<14:50,  2.03it/s] 85%|████████▍ | 10049/11858 [1:25:04<14:50,  2.03it/s] 85%|████████▍ | 10050/11858 [1:25:04<14:50,  2.03it/s]                                                       {'loss': 1.4691, 'grad_norm': 0.2926397919654846, 'learning_rate': 6.91621803908996e-05, 'epoch': 11.86}
- 85%|████████▍ | 10050/11858 [1:25:04<14:50,  2.03it/s] 85%|████████▍ | 10051/11858 [1:25:05<14:50,  2.03it/s] 85%|████████▍ | 10052/11858 [1:25:05<14:49,  2.03it/s] 85%|��███████▍ | 10053/11858 [1:25:06<14:48,  2.03it/s] 85%|████████▍ | 10054/11858 [1:25:06<14:47,  2.03it/s] 85%|████████▍ | 10055/11858 [1:25:07<14:46,  2.03it/s] 85%|████████▍ | 10056/11858 [1:25:07<14:46,  2.03it/s] 85%|████████▍ | 10057/11858 [1:25:08<14:45,  2.03it/s] 85%|████████▍ | 10058/11858 [1:25:08<14:45,  2.03it/s] 85%|████████▍ | 10059/11858 [1:25:09<14:44,  2.03it/s] 85%|████████▍ | 10060/11858 [1:25:09<14:43,  2.03it/s] 85%|████████▍ | 10061/11858 [1:25:10<14:43,  2.03it/s] 85%|████████▍ | 10062/11858 [1:25:10<14:43,  2.03it/s] 85%|████████▍ | 10063/11858 [1:25:11<14:42,  2.03it/s] 85%|████████▍ | 10064/11858 [1:25:11<14:43,  2.03it/s] 85%|████████▍ | 10065/11858 [1:25:12<14:41,  2.03it/s] 85%|████████▍ | 10066/11858 [1:25:12<14:40,  2.04it/s] 85%|████████▍ | 10067/11858 [1:25:13<14:40,  2.03it/s] 85%|████████▍ | 10068/11858 [1:25:13<14:39,  2.03it/s] 85%|████████▍ | 10069/11858 [1:25:13<14:39,  2.04it/s] 85%|████████▍ | 10070/11858 [1:25:14<14:39,  2.03it/s] 85%|████████▍ | 10071/11858 [1:25:14<14:38,  2.03it/s] 85%|████████▍ | 10072/11858 [1:25:15<14:37,  2.04it/s] 85%|████████▍ | 10073/11858 [1:25:15<14:38,  2.03it/s] 85%|████████▍ | 10074/11858 [1:25:16<14:37,  2.03it/s] 85%|████████▍ | 10075/11858 [1:25:16<14:37,  2.03it/s]                                                       {'loss': 1.4719, 'grad_norm': 0.2781839370727539, 'learning_rate': 6.730655887920734e-05, 'epoch': 11.89}
- 85%|████████▍ | 10075/11858 [1:25:16<14:37,  2.03it/s] 85%|████████▍ | 10076/11858 [1:25:17<14:37,  2.03it/s] 85%|████████▍ | 10077/11858 [1:25:17<14:36,  2.03it/s] 85%|████████▍ | 10078/11858 [1:25:18<14:37,  2.03it/s] 85%|████████▍ | 10079/11858 [1:25:18<14:36,  2.03it/s] 85%|████████▌ | 10080/11858 [1:25:19<14:35,  2.03it/s] 85%|████████▌ | 10081/11858 [1:25:19<14:35,  2.03it/s] 85%|████████▌ | 10082/11858 [1:25:20<14:35,  2.03it/s] 85%|████████▌ | 10083/11858 [1:25:20<14:34,  2.03it/s] 85%|████████▌ | 10084/11858 [1:25:21<14:33,  2.03it/s] 85%|████████▌ | 10085/11858 [1:25:21<14:32,  2.03it/s] 85%|████████▌ | 10086/11858 [1:25:22<14:31,  2.03it/s] 85%|████████▌ | 10087/11858 [1:25:22<14:31,  2.03it/s] 85%|████████▌ | 10088/11858 [1:25:23<14:30,  2.03it/s] 85%|████████▌ | 10089/11858 [1:25:23<14:30,  2.03it/s] 85%|████████▌ | 10090/11858 [1:25:24<14:30,  2.03it/s] 85%|████████▌ | 10091/11858 [1:25:24<14:29,  2.03it/s] 85%|████████▌ | 10092/11858 [1:25:25<14:29,  2.03it/s] 85%|████████▌ | 10093/11858 [1:25:25<14:28,  2.03it/s] 85%|████████▌ | 10094/11858 [1:25:26<14:27,  2.03it/s] 85%|████████▌ | 10095/11858 [1:25:26<14:27,  2.03it/s] 85%|████████▌ | 10096/11858 [1:25:27<14:26,  2.03it/s] 85%|████████▌ | 10097/11858 [1:25:27<14:26,  2.03it/s] 85%|████████▌ | 10098/11858 [1:25:28<14:25,  2.03it/s] 85%|████████▌ | 10099/11858 [1:25:28<14:25,  2.03it/s] 85%|████████▌ | 10100/11858 [1:25:29<14:25,  2.03it/s]                                                       {'loss': 1.4722, 'grad_norm': 0.2842382788658142, 'learning_rate': 6.547437244973414e-05, 'epoch': 11.92}
- 85%|████████▌ | 10100/11858 [1:25:29<14:25,  2.03it/s] 85%|████████▌ | 10101/11858 [1:25:29<14:24,  2.03it/s] 85%|████████▌ | 10102/11858 [1:25:30<14:24,  2.03it/s] 85%|████████▌ | 10103/11858 [1:25:30<14:24,  2.03it/s] 85%|████████▌ | 10104/11858 [1:25:31<14:22,  2.03it/s] 85%|████████▌ | 10105/11858 [1:25:31<14:22,  2.03it/s] 85%|████████▌ | 10106/11858 [1:25:32<14:21,  2.03it/s] 85%|████████▌ | 10107/11858 [1:25:32<14:20,  2.03it/s] 85%|████████▌ | 10108/11858 [1:25:33<14:20,  2.03it/s] 85%|████████▌ | 10109/11858 [1:25:33<14:20,  2.03it/s] 85%|████████▌ | 10110/11858 [1:25:34<14:19,  2.03it/s] 85%|████████▌ | 10111/11858 [1:25:34<14:19,  2.03it/s] 85%|████████▌ | 10112/11858 [1:25:35<14:18,  2.03it/s] 85%|████████▌ | 10113/11858 [1:25:35<14:17,  2.03it/s] 85%|████████▌ | 10114/11858 [1:25:36<14:17,  2.03it/s] 85%|████████▌ | 10115/11858 [1:25:36<14:16,  2.03it/s] 85%|████████▌ | 10116/11858 [1:25:37<14:16,  2.03it/s] 85%|████████▌ | 10117/11858 [1:25:37<14:16,  2.03it/s] 85%|████████▌ | 10118/11858 [1:25:38<14:15,  2.03it/s] 85%|████████▌ | 10119/11858 [1:25:38<14:14,  2.03it/s] 85%|████████▌ | 10120/11858 [1:25:39<14:14,  2.03it/s] 85%|████████▌ | 10121/11858 [1:25:39<14:13,  2.03it/s] 85%|████████▌ | 10122/11858 [1:25:40<14:13,  2.03it/s] 85%|████████▌ | 10123/11858 [1:25:40<14:13,  2.03it/s] 85%|████████▌ | 10124/11858 [1:25:41<14:12,  2.03it/s] 85%|████████▌ | 10125/11858 [1:25:41<14:12,  2.03it/s]                                                       {'loss': 1.468, 'grad_norm': 0.28579941391944885, 'learning_rate': 6.366572033541395e-05, 'epoch': 11.95}
- 85%|████████▌ | 10125/11858 [1:25:41<14:12,  2.03it/s] 85%|████████▌ | 10126/11858 [1:25:42<14:12,  2.03it/s] 85%|████████▌ | 10127/11858 [1:25:42<14:11,  2.03it/s] 85%|████████▌ | 10128/11858 [1:25:43<14:11,  2.03it/s] 85%|████████▌ | 10129/11858 [1:25:43<14:11,  2.03it/s] 85%|████████▌ | 10130/11858 [1:25:43<14:10,  2.03it/s] 85%|████████▌ | 10131/11858 [1:25:44<14:09,  2.03it/s] 85%|████████▌ | 10132/11858 [1:25:44<14:10,  2.03it/s] 85%|████████▌ | 10133/11858 [1:25:45<14:08,  2.03it/s] 85%|████████▌ | 10134/11858 [1:25:45<14:08,  2.03it/s] 85%|████████▌ | 10135/11858 [1:25:46<14:08,  2.03it/s] 85%|████████▌ | 10136/11858 [1:25:46<14:08,  2.03it/s] 85%|████████▌ | 10137/11858 [1:25:47<14:07,  2.03it/s] 85%|████████▌ | 10138/11858 [1:25:47<14:07,  2.03it/s] 86%|████████▌ | 10139/11858 [1:25:48<14:06,  2.03it/s] 86%|████████▌ | 10140/11858 [1:25:48<14:05,  2.03it/s] 86%|████████▌ | 10141/11858 [1:25:49<14:04,  2.03it/s] 86%|████████▌ | 10142/11858 [1:25:49<14:04,  2.03it/s] 86%|████████▌ | 10143/11858 [1:25:50<14:04,  2.03it/s] 86%|████████▌ | 10144/11858 [1:25:50<14:04,  2.03it/s] 86%|████████▌ | 10145/11858 [1:25:51<14:02,  2.03it/s] 86%|████████▌ | 10146/11858 [1:25:51<14:02,  2.03it/s] 86%|████████▌ | 10147/11858 [1:25:52<14:02,  2.03it/s] 86%|████████▌ | 10148/11858 [1:25:52<14:00,  2.03it/s] 86%|████████▌ | 10149/11858 [1:25:53<14:01,  2.03it/s] 86%|████████▌ | 10150/11858 [1:25:53<14:00,  2.03it/s]                                                       {'loss': 1.4787, 'grad_norm': 0.30520954728126526, 'learning_rate': 6.188070049454014e-05, 'epoch': 11.98}
- 86%|████████▌ | 10150/11858 [1:25:53<14:00,  2.03it/s] 86%|████████▌ | 10151/11858 [1:25:54<13:59,  2.03it/s] 86%|████████▌ | 10152/11858 [1:25:54<14:00,  2.03it/s] 86%|████████▌ | 10153/11858 [1:25:55<13:58,  2.03it/s] 86%|████████▌ | 10154/11858 [1:25:55<13:57,  2.03it/s] 86%|████████▌ | 10155/11858 [1:25:56<13:57,  2.03it/s] 86%|████████▌ | 10156/11858 [1:25:56<13:56,  2.03it/s] 86%|████████▌ | 10157/11858 [1:25:57<13:55,  2.03it/s] 86%|████████▌ | 10158/11858 [1:25:57<13:55,  2.03it/s] 86%|████████▌ | 10159/11858 [1:25:58<13:55,  2.03it/s] 86%|████████▌ | 10160/11858 [1:25:58<13:54,  2.03it/s] 86%|████████▌ | 10161/11858 [1:25:59<13:54,  2.03it/s] 86%|████████▌ | 10162/11858 [1:25:59<13:54,  2.03it/s] 86%|████████▌ | 10163/11858 [1:26:00<13:53,  2.03it/s] 86%|████████▌ | 10164/11858 [1:26:00<13:53,  2.03it/s] 86%|████████▌ | 10165/11858 [1:26:01<13:52,  2.03it/s] 86%|████████▌ | 10166/11858 [1:26:01<15:05,  1.87it/s] 86%|████████▌ | 10167/11858 [1:26:02<14:42,  1.92it/s] 86%|████████▌ | 10168/11858 [1:26:02<14:25,  1.95it/s] 86%|████████▌ | 10169/11858 [1:26:03<14:15,  1.98it/s] 86%|████████▌ | 10170/11858 [1:26:03<14:00,  2.01it/s] 86%|████████▌ | 10171/11858 [1:26:15<1:51:16,  3.96s/it] 86%|████████▌ | 10172/11858 [1:26:16<1:21:59,  2.92s/it] 86%|████████▌ | 10173/11858 [1:26:16<1:01:29,  2.19s/it] 86%|████████▌ | 10174/11858 [1:26:17<47:09,  1.68s/it]   86%|████████▌ | 10175/11858 [1:26:17<37:11,  1.33s/it]                                                       {'loss': 1.4607, 'grad_norm': 0.3543113172054291, 'learning_rate': 6.0119409605459697e-05, 'epoch': 12.01}
- 86%|████��███▌ | 10175/11858 [1:26:17<37:11,  1.33s/it] 86%|████████▌ | 10176/11858 [1:26:18<30:09,  1.08s/it] 86%|████████▌ | 10177/11858 [1:26:18<25:15,  1.11it/s] 86%|████████▌ | 10178/11858 [1:26:19<21:47,  1.28it/s] 86%|████████▌ | 10179/11858 [1:26:19<19:23,  1.44it/s] 86%|████████▌ | 10180/11858 [1:26:20<17:41,  1.58it/s] 86%|████████▌ | 10181/11858 [1:26:20<16:32,  1.69it/s] 86%|████████▌ | 10182/11858 [1:26:21<15:41,  1.78it/s] 86%|████████▌ | 10183/11858 [1:26:21<15:05,  1.85it/s] 86%|████████▌ | 10184/11858 [1:26:22<14:40,  1.90it/s] 86%|████████▌ | 10185/11858 [1:26:22<14:22,  1.94it/s] 86%|████████▌ | 10186/11858 [1:26:23<14:10,  1.97it/s] 86%|████████▌ | 10187/11858 [1:26:23<14:00,  1.99it/s] 86%|████████▌ | 10188/11858 [1:26:24<13:54,  2.00it/s] 86%|████████▌ | 10189/11858 [1:26:24<13:52,  2.01it/s] 86%|████████▌ | 10190/11858 [1:26:25<13:48,  2.01it/s] 86%|████████▌ | 10191/11858 [1:26:25<13:44,  2.02it/s] 86%|████████▌ | 10192/11858 [1:26:26<13:44,  2.02it/s] 86%|████████▌ | 10193/11858 [1:26:26<13:43,  2.02it/s] 86%|████████▌ | 10194/11858 [1:26:27<13:44,  2.02it/s] 86%|████████▌ | 10195/11858 [1:26:27<13:41,  2.02it/s] 86%|████████▌ | 10196/11858 [1:26:28<13:40,  2.03it/s] 86%|████████▌ | 10197/11858 [1:26:28<13:38,  2.03it/s] 86%|████████▌ | 10198/11858 [1:26:29<13:37,  2.03it/s] 86%|████████▌ | 10199/11858 [1:26:29<13:37,  2.03it/s] 86%|████████▌ | 10200/11858 [1:26:30<13:35,  2.03it/s]                                                       {'loss': 1.4272, 'grad_norm': 0.313700407743454, 'learning_rate': 5.838194306133765e-05, 'epoch': 12.04}
- 86%|████████▌ | 10200/11858 [1:26:30<13:35,  2.03it/s] 86%|████████▌ | 10201/11858 [1:26:30<13:35,  2.03it/s] 86%|████████▌ | 10202/11858 [1:26:31<13:35,  2.03it/s] 86%|████████▌ | 10203/11858 [1:26:31<13:34,  2.03it/s] 86%|████████▌ | 10204/11858 [1:26:32<13:34,  2.03it/s] 86%|████████▌ | 10205/11858 [1:26:32<13:33,  2.03it/s] 86%|████████▌ | 10206/11858 [1:26:33<13:32,  2.03it/s] 86%|████████▌ | 10207/11858 [1:26:33<13:32,  2.03it/s] 86%|████████▌ | 10208/11858 [1:26:34<13:30,  2.03it/s] 86%|████████▌ | 10209/11858 [1:26:34<13:31,  2.03it/s] 86%|████████▌ | 10210/11858 [1:26:35<13:30,  2.03it/s] 86%|████████▌ | 10211/11858 [1:26:35<13:29,  2.03it/s] 86%|████████▌ | 10212/11858 [1:26:36<13:29,  2.03it/s] 86%|████████▌ | 10213/11858 [1:26:36<13:29,  2.03it/s] 86%|████████▌ | 10214/11858 [1:26:37<13:28,  2.03it/s] 86%|████████▌ | 10215/11858 [1:26:37<13:28,  2.03it/s] 86%|████████▌ | 10216/11858 [1:26:37<13:27,  2.03it/s] 86%|████████▌ | 10217/11858 [1:26:38<13:26,  2.03it/s] 86%|████████▌ | 10218/11858 [1:26:38<13:26,  2.03it/s] 86%|████████▌ | 10219/11858 [1:26:39<13:25,  2.03it/s] 86%|████████▌ | 10220/11858 [1:26:39<13:25,  2.03it/s] 86%|████████▌ | 10221/11858 [1:26:40<13:24,  2.03it/s] 86%|████████▌ | 10222/11858 [1:26:40<13:23,  2.04it/s] 86%|████████▌ | 10223/11858 [1:26:41<13:23,  2.03it/s] 86%|████████▌ | 10224/11858 [1:26:41<13:23,  2.03it/s] 86%|████████▌ | 10225/11858 [1:26:42<13:23,  2.03it/s]                                                       {'loss': 1.4094, 'grad_norm': 0.2767142057418823, 'learning_rate': 5.666839496499021e-05, 'epoch': 12.06}
- 86%|████████▌ | 10225/11858 [1:26:42<13:23,  2.03it/s] 86%|████████▌ | 10226/11858 [1:26:42<13:23,  2.03it/s] 86%|████████▌ | 10227/11858 [1:26:43<13:23,  2.03it/s] 86%|████████▋ | 10228/11858 [1:26:43<13:23,  2.03it/s] 86%|████████▋ | 10229/11858 [1:26:44<13:23,  2.03it/s] 86%|████████▋ | 10230/11858 [1:26:44<13:22,  2.03it/s] 86%|████████▋ | 10231/11858 [1:26:45<13:22,  2.03it/s] 86%|████████▋ | 10232/11858 [1:26:45<13:22,  2.03it/s] 86%|████████▋ | 10233/11858 [1:26:46<13:20,  2.03it/s] 86%|████████▋ | 10234/11858 [1:26:46<13:20,  2.03it/s] 86%|████████▋ | 10235/11858 [1:26:47<13:19,  2.03it/s] 86%|████████▋ | 10236/11858 [1:26:47<13:19,  2.03it/s] 86%|████████▋ | 10237/11858 [1:26:48<13:18,  2.03it/s] 86%|████████▋ | 10238/11858 [1:26:48<13:17,  2.03it/s] 86%|████████▋ | 10239/11858 [1:26:49<13:17,  2.03it/s] 86%|████████▋ | 10240/11858 [1:26:49<13:16,  2.03it/s] 86%|████████▋ | 10241/11858 [1:26:50<13:15,  2.03it/s] 86%|████████▋ | 10242/11858 [1:26:50<13:15,  2.03it/s] 86%|████████▋ | 10243/11858 [1:26:51<13:14,  2.03it/s] 86%|████████▋ | 10244/11858 [1:26:51<13:14,  2.03it/s] 86%|████████▋ | 10245/11858 [1:26:52<13:13,  2.03it/s] 86%|████████▋ | 10246/11858 [1:26:52<13:13,  2.03it/s] 86%|████████▋ | 10247/11858 [1:26:53<13:13,  2.03it/s] 86%|████████▋ | 10248/11858 [1:26:53<13:13,  2.03it/s] 86%|████████▋ | 10249/11858 [1:26:54<13:12,  2.03it/s] 86%|████████▋ | 10250/11858 [1:26:54<13:11,  2.03it/s]                                                       {'loss': 1.4241, 'grad_norm': 0.27702975273132324, 'learning_rate': 5.497885812378772e-05, 'epoch': 12.09}
- 86%|████████▋ | 10250/11858 [1:26:54<13:11,  2.03it/s] 86%|████████▋ | 10251/11858 [1:26:55<13:12,  2.03it/s] 86%|████████▋ | 10252/11858 [1:26:55<13:10,  2.03it/s] 86%|████████▋ | 10253/11858 [1:26:56<14:19,  1.87it/s] 86%|████████▋ | 10254/11858 [1:26:56<13:57,  1.92it/s] 86%|████████▋ | 10255/11858 [1:26:57<13:43,  1.95it/s] 86%|████████▋ | 10256/11858 [1:26:57<13:32,  1.97it/s] 86%|████████▋ | 10257/11858 [1:26:58<13:23,  1.99it/s] 87%|████████▋ | 10258/11858 [1:26:58<13:19,  2.00it/s] 87%|████████▋ | 10259/11858 [1:26:59<13:14,  2.01it/s] 87%|████████▋ | 10260/11858 [1:26:59<13:12,  2.02it/s] 87%|████████▋ | 10261/11858 [1:27:00<13:10,  2.02it/s] 87%|████████▋ | 10262/11858 [1:27:00<13:08,  2.02it/s] 87%|████████▋ | 10263/11858 [1:27:01<13:08,  2.02it/s] 87%|████████▋ | 10264/11858 [1:27:01<13:07,  2.02it/s] 87%|████████▋ | 10265/11858 [1:27:02<13:06,  2.02it/s] 87%|████████▋ | 10266/11858 [1:27:02<13:05,  2.03it/s] 87%|████████▋ | 10267/11858 [1:27:03<13:05,  2.02it/s] 87%|████████▋ | 10268/11858 [1:27:03<13:04,  2.03it/s] 87%|████████▋ | 10269/11858 [1:27:04<13:03,  2.03it/s] 87%|████████▋ | 10270/11858 [1:27:04<13:03,  2.03it/s] 87%|████████▋ | 10271/11858 [1:27:05<13:07,  2.01it/s] 87%|████████▋ | 10272/11858 [1:27:05<13:04,  2.02it/s] 87%|████████▋ | 10273/11858 [1:27:06<13:03,  2.02it/s] 87%|████████▋ | 10274/11858 [1:27:06<13:02,  2.03it/s] 87%|████████▋ | 10275/11858 [1:27:07<13:04,  2.02it/s]                                                       {'loss': 1.4284, 'grad_norm': 0.28313952684402466, 'learning_rate': 5.3313424044628746e-05, 'epoch': 12.12}
- 87%|████████▋ | 10275/11858 [1:27:07<13:04,  2.02it/s] 87%|████████▋ | 10276/11858 [1:27:07<13:03,  2.02it/s] 87%|████████▋ | 10277/11858 [1:27:08<13:01,  2.02it/s] 87%|████████▋ | 10278/11858 [1:27:08<13:00,  2.02it/s] 87%|████████▋ | 10279/11858 [1:27:09<13:00,  2.02it/s] 87%|████████▋ | 10280/11858 [1:27:09<13:00,  2.02it/s] 87%|████████▋ | 10281/11858 [1:27:10<12:59,  2.02it/s] 87%|████████▋ | 10282/11858 [1:27:10<12:58,  2.03it/s] 87%|████████▋ | 10283/11858 [1:27:11<12:57,  2.03it/s] 87%|████████▋ | 10284/11858 [1:27:11<12:56,  2.03it/s] 87%|████████▋ | 10285/11858 [1:27:12<12:55,  2.03it/s] 87%|████████▋ | 10286/11858 [1:27:12<12:55,  2.03it/s] 87%|████████▋ | 10287/11858 [1:27:13<12:54,  2.03it/s] 87%|████████▋ | 10288/11858 [1:27:13<12:54,  2.03it/s] 87%|████████▋ | 10289/11858 [1:27:14<12:53,  2.03it/s] 87%|████████▋ | 10290/11858 [1:27:14<12:57,  2.02it/s] 87%|████████▋ | 10291/11858 [1:27:15<12:55,  2.02it/s] 87%|████████▋ | 10292/11858 [1:27:15<12:58,  2.01it/s] 87%|████████▋ | 10293/11858 [1:27:16<12:56,  2.02it/s] 87%|████████▋ | 10294/11858 [1:27:16<12:54,  2.02it/s] 87%|████████▋ | 10295/11858 [1:27:17<12:52,  2.02it/s] 87%|████████▋ | 10296/11858 [1:27:17<12:51,  2.03it/s] 87%|████████▋ | 10297/11858 [1:27:18<12:50,  2.03it/s] 87%|████████▋ | 10298/11858 [1:27:18<12:49,  2.03it/s] 87%|████████▋ | 10299/11858 [1:27:19<12:48,  2.03it/s] 87%|████████▋ | 10300/11858 [1:27:19<12:48,  2.03it/s]                                                       {'loss': 1.4286, 'grad_norm': 0.27940866351127625, 'learning_rate': 5.167218292898368e-05, 'epoch': 12.15}
- 87%|████████▋ | 10300/11858 [1:27:19<12:48,  2.03it/s] 87%|████████▋ | 10301/11858 [1:27:20<12:49,  2.02it/s] 87%|████████▋ | 10302/11858 [1:27:20<12:47,  2.03it/s] 87%|████████▋ | 10303/11858 [1:27:21<12:46,  2.03it/s] 87%|████████▋ | 10304/11858 [1:27:21<12:45,  2.03it/s] 87%|████████▋ | 10305/11858 [1:27:22<12:45,  2.03it/s] 87%|████████▋ | 10306/11858 [1:27:22<12:45,  2.03it/s] 87%|████████▋ | 10307/11858 [1:27:23<12:45,  2.03it/s] 87%|████████▋ | 10308/11858 [1:27:23<12:44,  2.03it/s] 87%|████████▋ | 10309/11858 [1:27:23<12:44,  2.03it/s] 87%|████████▋ | 10310/11858 [1:27:24<12:43,  2.03it/s] 87%|████████▋ | 10311/11858 [1:27:24<12:42,  2.03it/s] 87%|████████▋ | 10312/11858 [1:27:25<12:42,  2.03it/s] 87%|████████▋ | 10313/11858 [1:27:25<12:41,  2.03it/s] 87%|████████▋ | 10314/11858 [1:27:26<12:41,  2.03it/s] 87%|████████▋ | 10315/11858 [1:27:26<12:40,  2.03it/s] 87%|████████▋ | 10316/11858 [1:27:27<12:39,  2.03it/s] 87%|████████▋ | 10317/11858 [1:27:27<12:39,  2.03it/s] 87%|████████▋ | 10318/11858 [1:27:28<12:38,  2.03it/s] 87%|████████▋ | 10319/11858 [1:27:28<12:38,  2.03it/s] 87%|████████▋ | 10320/11858 [1:27:29<12:38,  2.03it/s] 87%|████████▋ | 10321/11858 [1:27:29<12:36,  2.03it/s] 87%|████████▋ | 10322/11858 [1:27:30<12:37,  2.03it/s] 87%|████████▋ | 10323/11858 [1:27:30<12:35,  2.03it/s] 87%|████████▋ | 10324/11858 [1:27:31<12:36,  2.03it/s] 87%|████████▋ | 10325/11858 [1:27:31<12:35,  2.03it/s]                                                       {'loss': 1.4064, 'grad_norm': 0.271724671125412, 'learning_rate': 5.005522366800902e-05, 'epoch': 12.18}
- 87%|████████▋ | 10325/11858 [1:27:31<12:35,  2.03it/s] 87%|████████▋ | 10326/11858 [1:27:32<12:34,  2.03it/s] 87%|████████▋ | 10327/11858 [1:27:32<12:35,  2.03it/s] 87%|████████▋ | 10328/11858 [1:27:33<12:34,  2.03it/s] 87%|████████▋ | 10329/11858 [1:27:33<12:33,  2.03it/s] 87%|████████▋ | 10330/11858 [1:27:34<12:33,  2.03it/s] 87%|████████▋ | 10331/11858 [1:27:34<12:32,  2.03it/s] 87%|████████▋ | 10332/11858 [1:27:35<12:32,  2.03it/s] 87%|████████▋ | 10333/11858 [1:27:35<12:31,  2.03it/s] 87%|████████▋ | 10334/11858 [1:27:36<12:31,  2.03it/s] 87%|████████▋ | 10335/11858 [1:27:36<12:30,  2.03it/s] 87%|████████▋ | 10336/11858 [1:27:37<12:29,  2.03it/s] 87%|████████▋ | 10337/11858 [1:27:37<12:29,  2.03it/s] 87%|████████▋ | 10338/11858 [1:27:38<12:28,  2.03it/s] 87%|████████▋ | 10339/11858 [1:27:38<12:29,  2.03it/s] 87%|████████▋ | 10340/11858 [1:27:39<12:28,  2.03it/s] 87%|████████▋ | 10341/11858 [1:27:39<12:27,  2.03it/s] 87%|████████▋ | 10342/11858 [1:27:40<12:26,  2.03it/s] 87%|████████▋ | 10343/11858 [1:27:40<12:26,  2.03it/s] 87%|████████▋ | 10344/11858 [1:27:41<12:27,  2.03it/s] 87%|████████▋ | 10345/11858 [1:27:41<12:25,  2.03it/s] 87%|████████▋ | 10346/11858 [1:27:42<12:25,  2.03it/s] 87%|████████▋ | 10347/11858 [1:27:42<12:24,  2.03it/s] 87%|████████▋ | 10348/11858 [1:27:43<12:23,  2.03it/s] 87%|████████▋ | 10349/11858 [1:27:43<12:23,  2.03it/s] 87%|████████▋ | 10350/11858 [1:27:44<12:22,  2.03it/s]                                                       {'loss': 1.4488, 'grad_norm': 0.28506821393966675, 'learning_rate': 4.846263383773364e-05, 'epoch': 12.21}
- 87%|████████▋ | 10350/11858 [1:27:44<12:22,  2.03it/s] 87%|████████▋ | 10351/11858 [1:27:44<12:23,  2.03it/s] 87%|████████▋ | 10352/11858 [1:27:45<12:22,  2.03it/s] 87%|████████▋ | 10353/11858 [1:27:45<12:21,  2.03it/s] 87%|████████▋ | 10354/11858 [1:27:46<12:20,  2.03it/s] 87%|████████▋ | 10355/11858 [1:27:46<12:19,  2.03it/s] 87%|████████▋ | 10356/11858 [1:27:47<12:20,  2.03it/s] 87%|████████▋ | 10357/11858 [1:27:47<12:19,  2.03it/s] 87%|████████▋ | 10358/11858 [1:27:48<12:18,  2.03it/s] 87%|████████▋ | 10359/11858 [1:27:48<12:18,  2.03it/s] 87%|████████▋ | 10360/11858 [1:27:49<12:17,  2.03it/s] 87%|████████▋ | 10361/11858 [1:27:49<12:17,  2.03it/s] 87%|████████▋ | 10362/11858 [1:27:50<12:16,  2.03it/s] 87%|████████▋ | 10363/11858 [1:27:50<12:15,  2.03it/s] 87%|████████▋ | 10364/11858 [1:27:51<12:15,  2.03it/s] 87%|████████▋ | 10365/11858 [1:27:51<12:14,  2.03it/s] 87%|████████▋ | 10366/11858 [1:27:52<12:14,  2.03it/s] 87%|████████▋ | 10367/11858 [1:27:52<12:14,  2.03it/s] 87%|████████▋ | 10368/11858 [1:27:53<12:12,  2.03it/s] 87%|████████▋ | 10369/11858 [1:27:53<12:12,  2.03it/s] 87%|████████▋ | 10370/11858 [1:27:54<12:12,  2.03it/s] 87%|████████▋ | 10371/11858 [1:27:54<12:11,  2.03it/s] 87%|████████▋ | 10372/11858 [1:27:55<12:11,  2.03it/s] 87%|████████▋ | 10373/11858 [1:27:55<12:11,  2.03it/s] 87%|████████▋ | 10374/11858 [1:27:56<12:10,  2.03it/s] 87%|████████▋ | 10375/11858 [1:27:56<12:10,  2.03it/s]                                                       {'loss': 1.4313, 'grad_norm': 0.2962180972099304, 'learning_rate': 4.689449969431503e-05, 'epoch': 12.24}
- 87%|████████▋ | 10375/11858 [1:27:56<12:10,  2.03it/s] 88%|████████▊ | 10376/11858 [1:27:57<12:11,  2.03it/s] 88%|████████▊ | 10377/11858 [1:27:57<12:10,  2.03it/s] 88%|████████▊ | 10378/11858 [1:27:57<12:09,  2.03it/s] 88%|████████▊ | 10379/11858 [1:27:58<12:09,  2.03it/s] 88%|████████▊ | 10380/11858 [1:27:58<12:08,  2.03it/s] 88%|████████▊ | 10381/11858 [1:27:59<12:07,  2.03it/s] 88%|████████▊ | 10382/11858 [1:27:59<12:07,  2.03it/s] 88%|████████▊ | 10383/11858 [1:28:00<12:06,  2.03it/s] 88%|████████▊ | 10384/11858 [1:28:00<12:06,  2.03it/s] 88%|████████▊ | 10385/11858 [1:28:01<12:05,  2.03it/s] 88%|████████▊ | 10386/11858 [1:28:01<12:05,  2.03it/s] 88%|████████▊ | 10387/11858 [1:28:02<12:04,  2.03it/s] 88%|████████▊ | 10388/11858 [1:28:02<12:04,  2.03it/s] 88%|████████▊ | 10389/11858 [1:28:03<12:04,  2.03it/s] 88%|████████▊ | 10390/11858 [1:28:03<12:03,  2.03it/s] 88%|████████▊ | 10391/11858 [1:28:04<12:03,  2.03it/s] 88%|████████▊ | 10392/11858 [1:28:04<12:02,  2.03it/s] 88%|████████▊ | 10393/11858 [1:28:05<12:01,  2.03it/s] 88%|████████▊ | 10394/11858 [1:28:05<12:01,  2.03it/s] 88%|████████▊ | 10395/11858 [1:28:06<12:00,  2.03it/s] 88%|████████▊ | 10396/11858 [1:28:06<11:59,  2.03it/s] 88%|████████▊ | 10397/11858 [1:28:07<11:59,  2.03it/s] 88%|████████▊ | 10398/11858 [1:28:07<11:58,  2.03it/s] 88%|████████▊ | 10399/11858 [1:28:08<11:58,  2.03it/s] 88%|████████▊ | 10400/11858 [1:28:08<11:57,  2.03it/s]                                                       {'loss': 1.419, 'grad_norm': 0.27426815032958984, 'learning_rate': 4.535090616936788e-05, 'epoch': 12.27}
- 88%|████████▊ | 10400/11858 [1:28:08<11:57,  2.03it/s] 88%|████████▊ | 10401/11858 [1:28:09<12:04,  2.01it/s] 88%|████████▊ | 10402/11858 [1:28:09<12:02,  2.01it/s] 88%|████████▊ | 10403/11858 [1:28:10<12:00,  2.02it/s] 88%|████████▊ | 10404/11858 [1:28:10<11:58,  2.02it/s] 88%|████████▊ | 10405/11858 [1:28:11<11:58,  2.02it/s] 88%|████████▊ | 10406/11858 [1:28:11<11:56,  2.03it/s] 88%|████████▊ | 10407/11858 [1:28:12<11:55,  2.03it/s] 88%|████████▊ | 10408/11858 [1:28:12<11:54,  2.03it/s] 88%|████████▊ | 10409/11858 [1:28:13<11:54,  2.03it/s] 88%|████████▊ | 10410/11858 [1:28:13<11:53,  2.03it/s] 88%|████████▊ | 10411/11858 [1:28:14<11:53,  2.03it/s] 88%|████████▊ | 10412/11858 [1:28:14<11:52,  2.03it/s] 88%|████████▊ | 10413/11858 [1:28:15<11:52,  2.03it/s] 88%|████████▊ | 10414/11858 [1:28:15<11:51,  2.03it/s] 88%|████████▊ | 10415/11858 [1:28:16<11:51,  2.03it/s] 88%|████████▊ | 10416/11858 [1:28:16<11:50,  2.03it/s] 88%|████████▊ | 10417/11858 [1:28:17<11:50,  2.03it/s] 88%|████████▊ | 10418/11858 [1:28:17<11:49,  2.03it/s] 88%|████████▊ | 10419/11858 [1:28:18<11:49,  2.03it/s] 88%|████████▊ | 10420/11858 [1:28:18<11:48,  2.03it/s] 88%|████████▊ | 10421/11858 [1:28:19<11:47,  2.03it/s] 88%|████████▊ | 10422/11858 [1:28:19<11:47,  2.03it/s] 88%|████████▊ | 10423/11858 [1:28:20<11:47,  2.03it/s] 88%|████████▊ | 10424/11858 [1:28:20<11:46,  2.03it/s] 88%|████████▊ | 10425/11858 [1:28:21<11:45,  2.03it/s]                                                       {'loss': 1.4363, 'grad_norm': 0.284241646528244, 'learning_rate': 4.3831936865363745e-05, 'epoch': 12.3}
- 88%|████████▊ | 10425/11858 [1:28:21<11:45,  2.03it/s] 88%|████████▊ | 10426/11858 [1:28:21<11:46,  2.03it/s] 88%|████████▊ | 10427/11858 [1:28:22<11:45,  2.03it/s] 88%|████████▊ | 10428/11858 [1:28:22<11:44,  2.03it/s] 88%|████████▊ | 10429/11858 [1:28:23<11:44,  2.03it/s] 88%|████████▊ | 10430/11858 [1:28:23<11:43,  2.03it/s] 88%|████████▊ | 10431/11858 [1:28:24<11:43,  2.03it/s] 88%|████████▊ | 10432/11858 [1:28:24<11:42,  2.03it/s] 88%|████████▊ | 10433/11858 [1:28:25<11:41,  2.03it/s] 88%|████████▊ | 10434/11858 [1:28:25<11:41,  2.03it/s] 88%|████████▊ | 10435/11858 [1:28:26<11:41,  2.03it/s] 88%|████████▊ | 10436/11858 [1:28:26<11:40,  2.03it/s] 88%|████████▊ | 10437/11858 [1:28:27<11:40,  2.03it/s] 88%|████████▊ | 10438/11858 [1:28:27<11:39,  2.03it/s] 88%|████████▊ | 10439/11858 [1:28:28<11:38,  2.03it/s] 88%|████████▊ | 10440/11858 [1:28:28<11:38,  2.03it/s] 88%|████████▊ | 10441/11858 [1:28:29<11:37,  2.03it/s] 88%|████████▊ | 10442/11858 [1:28:29<11:37,  2.03it/s] 88%|████████▊ | 10443/11858 [1:28:30<11:37,  2.03it/s] 88%|████████▊ | 10444/11858 [1:28:30<11:36,  2.03it/s] 88%|████████▊ | 10445/11858 [1:28:31<11:36,  2.03it/s] 88%|████████▊ | 10446/11858 [1:28:31<11:36,  2.03it/s] 88%|████████▊ | 10447/11858 [1:28:32<11:34,  2.03it/s] 88%|████████▊ | 10448/11858 [1:28:32<11:34,  2.03it/s] 88%|████████▊ | 10449/11858 [1:28:32<11:33,  2.03it/s] 88%|████████▊ | 10450/11858 [1:28:33<11:32,  2.03it/s]                                                       {'loss': 1.4261, 'grad_norm': 0.27132418751716614, 'learning_rate': 4.2337674051103505e-05, 'epoch': 12.33}
- 88%|████████▊ | 10450/11858 [1:28:33<11:32,  2.03it/s] 88%|████████▊ | 10451/11858 [1:28:33<11:33,  2.03it/s] 88%|████████▊ | 10452/11858 [1:28:34<11:32,  2.03it/s] 88%|████████▊ | 10453/11858 [1:28:34<11:32,  2.03it/s] 88%|████████▊ | 10454/11858 [1:28:35<11:31,  2.03it/s] 88%|████████▊ | 10455/11858 [1:28:35<11:31,  2.03it/s] 88%|████████▊ | 10456/11858 [1:28:36<11:31,  2.03it/s] 88%|████████▊ | 10457/11858 [1:28:36<11:30,  2.03it/s] 88%|████████▊ | 10458/11858 [1:28:37<11:30,  2.03it/s] 88%|████████▊ | 10459/11858 [1:28:37<11:29,  2.03it/s] 88%|████████▊ | 10460/11858 [1:28:38<11:28,  2.03it/s] 88%|████████▊ | 10461/11858 [1:28:38<11:28,  2.03it/s] 88%|████████▊ | 10462/11858 [1:28:39<11:27,  2.03it/s] 88%|████████▊ | 10463/11858 [1:28:39<11:27,  2.03it/s] 88%|████████▊ | 10464/11858 [1:28:40<11:27,  2.03it/s] 88%|████████▊ | 10465/11858 [1:28:40<11:27,  2.03it/s] 88%|████████▊ | 10466/11858 [1:28:41<11:26,  2.03it/s] 88%|████████▊ | 10467/11858 [1:28:41<11:26,  2.03it/s] 88%|████████▊ | 10468/11858 [1:28:42<11:26,  2.03it/s] 88%|████████▊ | 10469/11858 [1:28:42<11:24,  2.03it/s] 88%|████████▊ | 10470/11858 [1:28:43<11:24,  2.03it/s] 88%|████████▊ | 10471/11858 [1:28:43<11:23,  2.03it/s] 88%|████████▊ | 10472/11858 [1:28:44<11:22,  2.03it/s] 88%|████████▊ | 10473/11858 [1:28:44<11:22,  2.03it/s] 88%|████████▊ | 10474/11858 [1:28:45<11:21,  2.03it/s] 88%|████████▊ | 10475/11858 [1:28:45<11:21,  2.03it/s]                                                       {'loss': 1.4517, 'grad_norm': 0.28180786967277527, 'learning_rate': 4.086819865726143e-05, 'epoch': 12.36}
- 88%|████████▊ | 10475/11858 [1:28:45<11:21,  2.03it/s] 88%|████████▊ | 10476/11858 [1:28:46<11:21,  2.03it/s] 88%|████████▊ | 10477/11858 [1:28:46<11:20,  2.03it/s] 88%|████████▊ | 10478/11858 [1:28:47<11:20,  2.03it/s] 88%|████████▊ | 10479/11858 [1:28:47<11:19,  2.03it/s] 88%|████████▊ | 10480/11858 [1:28:48<11:19,  2.03it/s] 88%|████████▊ | 10481/11858 [1:28:48<11:18,  2.03it/s] 88%|████████▊ | 10482/11858 [1:28:49<11:17,  2.03it/s] 88%|████████▊ | 10483/11858 [1:28:49<11:17,  2.03it/s] 88%|████████▊ | 10484/11858 [1:28:50<11:17,  2.03it/s] 88%|████████▊ | 10485/11858 [1:28:50<11:16,  2.03it/s] 88%|████████▊ | 10486/11858 [1:28:51<11:15,  2.03it/s] 88%|████████▊ | 10487/11858 [1:28:51<11:15,  2.03it/s] 88%|████████▊ | 10488/11858 [1:28:52<11:15,  2.03it/s] 88%|████████▊ | 10489/11858 [1:28:52<11:15,  2.03it/s] 88%|████████▊ | 10490/11858 [1:28:53<11:14,  2.03it/s] 88%|████████▊ | 10491/11858 [1:28:53<11:14,  2.03it/s] 88%|████████▊ | 10492/11858 [1:28:54<11:14,  2.03it/s] 88%|████████▊ | 10493/11858 [1:28:54<11:13,  2.03it/s] 88%|████████▊ | 10494/11858 [1:28:55<11:13,  2.03it/s] 89%|████████▊ | 10495/11858 [1:28:55<11:13,  2.02it/s] 89%|████████▊ | 10496/11858 [1:28:56<11:13,  2.02it/s] 89%|████████▊ | 10497/11858 [1:28:56<11:12,  2.02it/s] 89%|████████▊ | 10498/11858 [1:28:57<11:11,  2.02it/s] 89%|████████▊ | 10499/11858 [1:28:57<11:11,  2.03it/s] 89%|████████▊ | 10500/11858 [1:28:58<11:09,  2.03it/s]                                                       {'loss': 1.445, 'grad_norm': 0.2810029983520508, 'learning_rate': 3.942359027200165e-05, 'epoch': 12.39}
- 89%|████████▊ | 10500/11858 [1:28:58<11:09,  2.03it/s] 89%|████████▊ | 10501/11858 [1:28:58<11:10,  2.02it/s] 89%|████████▊ | 10502/11858 [1:28:59<11:09,  2.03it/s] 89%|████████▊ | 10503/11858 [1:28:59<11:09,  2.02it/s] 89%|████████▊ | 10504/11858 [1:29:00<11:08,  2.03it/s] 89%|████████▊ | 10505/11858 [1:29:00<11:07,  2.03it/s] 89%|████████▊ | 10506/11858 [1:29:01<11:07,  2.03it/s] 89%|████████▊ | 10507/11858 [1:29:01<11:06,  2.03it/s] 89%|████████▊ | 10508/11858 [1:29:02<11:06,  2.03it/s] 89%|████████▊ | 10509/11858 [1:29:02<11:05,  2.03it/s] 89%|████████▊ | 10510/11858 [1:29:03<11:04,  2.03it/s] 89%|████████▊ | 10511/11858 [1:29:03<11:03,  2.03it/s] 89%|████████▊ | 10512/11858 [1:29:04<11:03,  2.03it/s] 89%|████████▊ | 10513/11858 [1:29:04<11:03,  2.03it/s] 89%|████████▊ | 10514/11858 [1:29:05<11:02,  2.03it/s] 89%|████████▊ | 10515/11858 [1:29:05<11:02,  2.03it/s] 89%|████████▊ | 10516/11858 [1:29:06<11:01,  2.03it/s] 89%|████████▊ | 10517/11858 [1:29:06<11:00,  2.03it/s] 89%|████████▊ | 10518/11858 [1:29:07<11:00,  2.03it/s] 89%|████████▊ | 10519/11858 [1:29:07<11:00,  2.03it/s] 89%|████████▊ | 10520/11858 [1:29:08<11:00,  2.03it/s] 89%|████████▊ | 10521/11858 [1:29:08<10:59,  2.03it/s] 89%|████████▊ | 10522/11858 [1:29:08<10:58,  2.03it/s] 89%|████████▊ | 10523/11858 [1:29:09<10:57,  2.03it/s] 89%|████████▉ | 10524/11858 [1:29:09<10:56,  2.03it/s] 89%|████████▉ | 10525/11858 [1:29:10<10:55,  2.03it/s]                                                       {'loss': 1.4275, 'grad_norm': 0.27868664264678955, 'learning_rate': 3.800392713666806e-05, 'epoch': 12.42}
- 89%|████████▉ | 10525/11858 [1:29:10<10:55,  2.03it/s] 89%|████████▉ | 10526/11858 [1:29:10<10:56,  2.03it/s] 89%|████████▉ | 10527/11858 [1:29:11<10:55,  2.03it/s] 89%|████████▉ | 10528/11858 [1:29:11<10:55,  2.03it/s] 89%|████████▉ | 10529/11858 [1:29:12<10:54,  2.03it/s] 89%|████████▉ | 10530/11858 [1:29:12<10:53,  2.03it/s] 89%|████████▉ | 10531/11858 [1:29:13<10:53,  2.03it/s] 89%|████████▉ | 10532/11858 [1:29:13<10:52,  2.03it/s] 89%|████████▉ | 10533/11858 [1:29:14<10:53,  2.03it/s] 89%|████████▉ | 10534/11858 [1:29:14<10:52,  2.03it/s] 89%|████████▉ | 10535/11858 [1:29:15<10:51,  2.03it/s] 89%|████████▉ | 10536/11858 [1:29:15<10:51,  2.03it/s] 89%|████████▉ | 10537/11858 [1:29:16<10:51,  2.03it/s] 89%|████████▉ | 10538/11858 [1:29:16<10:50,  2.03it/s] 89%|████████▉ | 10539/11858 [1:29:17<10:49,  2.03it/s] 89%|████████▉ | 10540/11858 [1:29:17<10:49,  2.03it/s] 89%|████████▉ | 10541/11858 [1:29:18<10:49,  2.03it/s] 89%|████████▉ | 10542/11858 [1:29:18<10:48,  2.03it/s] 89%|████████▉ | 10543/11858 [1:29:19<10:47,  2.03it/s] 89%|████████▉ | 10544/11858 [1:29:19<10:47,  2.03it/s] 89%|█████��██▉ | 10545/11858 [1:29:20<10:47,  2.03it/s] 89%|████████▉ | 10546/11858 [1:29:20<10:46,  2.03it/s] 89%|████████▉ | 10547/11858 [1:29:21<10:46,  2.03it/s] 89%|████████▉ | 10548/11858 [1:29:21<10:45,  2.03it/s] 89%|████████▉ | 10549/11858 [1:29:22<10:45,  2.03it/s] 89%|████████▉ | 10550/11858 [1:29:22<10:44,  2.03it/s]                                                       {'loss': 1.4269, 'grad_norm': 0.2767258584499359, 'learning_rate': 3.6609286141546406e-05, 'epoch': 12.45}
- 89%|████████▉ | 10550/11858 [1:29:22<10:44,  2.03it/s] 89%|████████▉ | 10551/11858 [1:29:23<10:45,  2.02it/s] 89%|████████▉ | 10552/11858 [1:29:23<10:44,  2.03it/s] 89%|████████▉ | 10553/11858 [1:29:24<10:43,  2.03it/s] 89%|████████▉ | 10554/11858 [1:29:24<10:43,  2.03it/s] 89%|████████▉ | 10555/11858 [1:29:25<10:41,  2.03it/s] 89%|████████▉ | 10556/11858 [1:29:25<10:42,  2.03it/s] 89%|████████▉ | 10557/11858 [1:29:26<10:41,  2.03it/s] 89%|████████▉ | 10558/11858 [1:29:26<10:40,  2.03it/s] 89%|████████▉ | 10559/11858 [1:29:27<10:40,  2.03it/s] 89%|████████▉ | 10560/11858 [1:29:27<10:38,  2.03it/s] 89%|████████▉ | 10561/11858 [1:29:28<10:39,  2.03it/s] 89%|████████▉ | 10562/11858 [1:29:28<10:38,  2.03it/s] 89%|████████▉ | 10563/11858 [1:29:29<10:37,  2.03it/s] 89%|████████▉ | 10564/11858 [1:29:29<10:37,  2.03it/s] 89%|████████▉ | 10565/11858 [1:29:30<10:37,  2.03it/s] 89%|████████▉ | 10566/11858 [1:29:30<10:35,  2.03it/s] 89%|████████▉ | 10567/11858 [1:29:31<10:35,  2.03it/s] 89%|████████▉ | 10568/11858 [1:29:31<10:35,  2.03it/s] 89%|████████▉ | 10569/11858 [1:29:32<10:34,  2.03it/s] 89%|████████▉ | 10570/11858 [1:29:32<10:33,  2.03it/s] 89%|████████▉ | 10571/11858 [1:29:33<10:33,  2.03it/s] 89%|████████▉ | 10572/11858 [1:29:33<10:32,  2.03it/s] 89%|████████▉ | 10573/11858 [1:29:34<10:32,  2.03it/s] 89%|████████▉ | 10574/11858 [1:29:34<10:32,  2.03it/s] 89%|████████▉ | 10575/11858 [1:29:35<10:32,  2.03it/s]                                                       {'loss': 1.4407, 'grad_norm': 0.2714133858680725, 'learning_rate': 3.523974282169967e-05, 'epoch': 12.48}
- 89%|████████▉ | 10575/11858 [1:29:35<10:32,  2.03it/s] 89%|████████▉ | 10576/11858 [1:29:35<10:32,  2.03it/s] 89%|████████▉ | 10577/11858 [1:29:36<10:32,  2.03it/s] 89%|████████▉ | 10578/11858 [1:29:36<10:31,  2.03it/s] 89%|████████▉ | 10579/11858 [1:29:37<10:31,  2.03it/s] 89%|████████▉ | 10580/11858 [1:29:37<10:30,  2.03it/s] 89%|████████▉ | 10581/11858 [1:29:38<10:29,  2.03it/s] 89%|████████▉ | 10582/11858 [1:29:38<10:28,  2.03it/s] 89%|████████▉ | 10583/11858 [1:29:39<10:28,  2.03it/s] 89%|████████▉ | 10584/11858 [1:29:39<10:28,  2.03it/s] 89%|████████▉ | 10585/11858 [1:29:40<10:28,  2.03it/s] 89%|████████▉ | 10586/11858 [1:29:40<10:27,  2.03it/s] 89%|████████▉ | 10587/11858 [1:29:41<10:27,  2.03it/s] 89%|████████▉ | 10588/11858 [1:29:41<10:25,  2.03it/s] 89%|████████▉ | 10589/11858 [1:29:42<10:25,  2.03it/s] 89%|████████▉ | 10590/11858 [1:29:42<10:24,  2.03it/s] 89%|████████▉ | 10591/11858 [1:29:42<10:24,  2.03it/s] 89%|████████▉ | 10592/11858 [1:29:43<10:24,  2.03it/s] 89%|████████▉ | 10593/11858 [1:29:43<10:23,  2.03it/s] 89%|████████▉ | 10594/11858 [1:29:44<10:23,  2.03it/s] 89%|████████▉ | 10595/11858 [1:29:44<10:22,  2.03it/s] 89%|████████▉ | 10596/11858 [1:29:45<10:21,  2.03it/s] 89%|████████▉ | 10597/11858 [1:29:45<10:21,  2.03it/s] 89%|████████▉ | 10598/11858 [1:29:46<10:20,  2.03it/s] 89%|████████▉ | 10599/11858 [1:29:46<10:20,  2.03it/s] 89%|████████▉ | 10600/11858 [1:29:47<10:19,  2.03it/s]                                                       {'loss': 1.4439, 'grad_norm': 0.27477413415908813, 'learning_rate': 3.389537135287735e-05, 'epoch': 12.51}
- 89%|████████▉ | 10600/11858 [1:29:47<10:19,  2.03it/s] 89%|████████▉ | 10601/11858 [1:29:47<10:19,  2.03it/s] 89%|████████▉ | 10602/11858 [1:29:48<10:19,  2.03it/s] 89%|████████▉ | 10603/11858 [1:29:48<10:18,  2.03it/s] 89%|████████▉ | 10604/11858 [1:29:49<10:18,  2.03it/s] 89%|████████▉ | 10605/11858 [1:29:49<10:18,  2.02it/s] 89%|████████▉ | 10606/11858 [1:29:50<10:18,  2.02it/s] 89%|████████▉ | 10607/11858 [1:29:50<10:17,  2.03it/s] 89%|████████▉ | 10608/11858 [1:29:51<10:16,  2.03it/s] 89%|████████▉ | 10609/11858 [1:29:51<10:15,  2.03it/s] 89%|████████▉ | 10610/11858 [1:29:52<10:14,  2.03it/s] 89%|████████▉ | 10611/11858 [1:29:52<10:14,  2.03it/s] 89%|████████▉ | 10612/11858 [1:29:53<10:14,  2.03it/s] 90%|████████▉ | 10613/11858 [1:29:53<10:14,  2.03it/s] 90%|████████▉ | 10614/11858 [1:29:54<10:13,  2.03it/s] 90%|████████▉ | 10615/11858 [1:29:54<10:12,  2.03it/s] 90%|████████▉ | 10616/11858 [1:29:55<10:11,  2.03it/s] 90%|████████▉ | 10617/11858 [1:29:55<10:11,  2.03it/s] 90%|████████▉ | 10618/11858 [1:29:56<10:10,  2.03it/s] 90%|████████▉ | 10619/11858 [1:29:56<10:09,  2.03it/s] 90%|████████▉ | 10620/11858 [1:29:57<10:09,  2.03it/s] 90%|████████▉ | 10621/11858 [1:29:57<10:09,  2.03it/s] 90%|████████▉ | 10622/11858 [1:29:58<10:09,  2.03it/s] 90%|████████▉ | 10623/11858 [1:29:58<10:08,  2.03it/s] 90%|████████▉ | 10624/11858 [1:29:59<10:07,  2.03it/s] 90%|████████▉ | 10625/11858 [1:29:59<10:07,  2.03it/s]                                                       {'loss': 1.4325, 'grad_norm': 0.2771093547344208, 'learning_rate': 3.257624454749814e-05, 'epoch': 12.54}
- 90%|████████▉ | 10625/11858 [1:29:59<10:07,  2.03it/s] 90%|████████▉ | 10626/11858 [1:30:00<10:07,  2.03it/s] 90%|████████▉ | 10627/11858 [1:30:00<10:07,  2.03it/s] 90%|████████▉ | 10628/11858 [1:30:01<10:06,  2.03it/s] 90%|████████▉ | 10629/11858 [1:30:01<10:05,  2.03it/s] 90%|████████▉ | 10630/11858 [1:30:02<10:05,  2.03it/s] 90%|████████▉ | 10631/11858 [1:30:02<10:05,  2.03it/s] 90%|████████▉ | 10632/11858 [1:30:03<10:04,  2.03it/s] 90%|████████▉ | 10633/11858 [1:30:03<10:03,  2.03it/s] 90%|████████▉ | 10634/11858 [1:30:04<10:03,  2.03it/s] 90%|████████▉ | 10635/11858 [1:30:04<10:02,  2.03it/s] 90%|████████▉ | 10636/11858 [1:30:05<10:01,  2.03it/s] 90%|████████▉ | 10637/11858 [1:30:05<10:00,  2.03it/s] 90%|████████▉ | 10638/11858 [1:30:06<10:01,  2.03it/s] 90%|████████▉ | 10639/11858 [1:30:06<10:01,  2.03it/s] 90%|████████▉ | 10640/11858 [1:30:07<10:00,  2.03it/s] 90%|████████▉ | 10641/11858 [1:30:07<09:59,  2.03it/s] 90%|████████▉ | 10642/11858 [1:30:08<09:59,  2.03it/s] 90%|████████▉ | 10643/11858 [1:30:08<09:58,  2.03it/s] 90%|████████▉ | 10644/11858 [1:30:09<09:57,  2.03it/s] 90%|████████▉ | 10645/11858 [1:30:09<09:57,  2.03it/s] 90%|████████▉ | 10646/11858 [1:30:10<09:57,  2.03it/s] 90%|████████▉ | 10647/11858 [1:30:10<09:57,  2.03it/s] 90%|████████▉ | 10648/11858 [1:30:11<09:56,  2.03it/s] 90%|████████▉ | 10649/11858 [1:30:11<09:56,  2.03it/s] 90%|████████▉ | 10650/11858 [1:30:12<09:55,  2.03it/s]                                                       {'loss': 1.4379, 'grad_norm': 0.27966049313545227, 'learning_rate': 3.1282433850705615e-05, 'epoch': 12.57}
- 90%|████████▉ | 10650/11858 [1:30:12<09:55,  2.03it/s] 90%|████████▉ | 10651/11858 [1:30:12<09:55,  2.03it/s] 90%|████████▉ | 10652/11858 [1:30:13<09:54,  2.03it/s] 90%|████████▉ | 10653/11858 [1:30:13<09:54,  2.03it/s] 90%|████████▉ | 10654/11858 [1:30:14<09:54,  2.03it/s] 90%|████████▉ | 10655/11858 [1:30:14<09:54,  2.03it/s] 90%|████████▉ | 10656/11858 [1:30:15<09:53,  2.03it/s] 90%|████████▉ | 10657/11858 [1:30:15<09:52,  2.03it/s] 90%|████████▉ | 10658/11858 [1:30:16<09:52,  2.03it/s] 90%|████████▉ | 10659/11858 [1:30:16<09:51,  2.03it/s] 90%|████████▉ | 10660/11858 [1:30:17<09:50,  2.03it/s] 90%|████████▉ | 10661/11858 [1:30:17<09:50,  2.03it/s] 90%|████████▉ | 10662/11858 [1:30:17<09:49,  2.03it/s] 90%|████████▉ | 10663/11858 [1:30:18<09:49,  2.03it/s] 90%|████████▉ | 10664/11858 [1:30:18<09:48,  2.03it/s] 90%|████████▉ | 10665/11858 [1:30:19<09:48,  2.03it/s] 90%|████████▉ | 10666/11858 [1:30:19<09:47,  2.03it/s] 90%|████████▉ | 10667/11858 [1:30:20<09:46,  2.03it/s] 90%|████████▉ | 10668/11858 [1:30:20<09:46,  2.03it/s] 90%|████████▉ | 10669/11858 [1:30:21<09:45,  2.03it/s] 90%|████████▉ | 10670/11858 [1:30:21<09:45,  2.03it/s] 90%|████████▉ | 10671/11858 [1:30:22<09:44,  2.03it/s] 90%|████████▉ | 10672/11858 [1:30:22<09:43,  2.03it/s] 90%|█████████ | 10673/11858 [1:30:23<09:43,  2.03it/s] 90%|█████████ | 10674/11858 [1:30:23<09:43,  2.03it/s] 90%|█████████ | 10675/11858 [1:30:24<09:43,  2.03it/s]                                                       {'loss': 1.4388, 'grad_norm': 0.28002840280532837, 'learning_rate': 3.0014009336499558e-05, 'epoch': 12.6}
- 90%|█████████ | 10675/11858 [1:30:24<09:43,  2.03it/s] 90%|█████████ | 10676/11858 [1:30:24<09:42,  2.03it/s] 90%|█████████ | 10677/11858 [1:30:25<09:41,  2.03it/s] 90%|█████████ | 10678/11858 [1:30:25<09:41,  2.03it/s] 90%|█████████ | 10679/11858 [1:30:26<09:40,  2.03it/s] 90%|█████████ | 10680/11858 [1:30:26<09:40,  2.03it/s] 90%|█████████ | 10681/11858 [1:30:27<09:40,  2.03it/s] 90%|█████████ | 10682/11858 [1:30:27<09:39,  2.03it/s] 90%|█████████ | 10683/11858 [1:30:28<09:39,  2.03it/s] 90%|█████████ | 10684/11858 [1:30:28<09:38,  2.03it/s] 90%|█████████ | 10685/11858 [1:30:29<09:37,  2.03it/s] 90%|█████████ | 10686/11858 [1:30:29<09:37,  2.03it/s] 90%|█████████ | 10687/11858 [1:30:30<09:36,  2.03it/s] 90%|█████████ | 10688/11858 [1:30:30<09:36,  2.03it/s] 90%|█████████ | 10689/11858 [1:30:31<09:36,  2.03it/s] 90%|█████████ | 10690/11858 [1:30:31<09:35,  2.03it/s] 90%|█████████ | 10691/11858 [1:30:32<09:35,  2.03it/s] 90%|█████████ | 10692/11858 [1:30:32<09:35,  2.03it/s] 90%|█████████ | 10693/11858 [1:30:33<09:34,  2.03it/s] 90%|█████████ | 10694/11858 [1:30:33<09:34,  2.03it/s] 90%|█████████ | 10695/11858 [1:30:34<09:33,  2.03it/s] 90%|█████████ | 10696/11858 [1:30:34<09:32,  2.03it/s] 90%|█████████ | 10697/11858 [1:30:35<09:32,  2.03it/s] 90%|█████████ | 10698/11858 [1:30:35<09:31,  2.03it/s] 90%|█████████ | 10699/11858 [1:30:36<09:31,  2.03it/s] 90%|█████████ | 10700/11858 [1:30:36<09:30,  2.03it/s]                                                       {'loss': 1.4436, 'grad_norm': 0.2903655171394348, 'learning_rate': 2.877103970394024e-05, 'epoch': 12.63}
- 90%|█████████ | 10700/11858 [1:30:36<09:30,  2.03it/s] 90%|█████████ | 10701/11858 [1:30:37<09:30,  2.03it/s] 90%|█████████ | 10702/11858 [1:30:37<09:29,  2.03it/s] 90%|█████████ | 10703/11858 [1:30:38<09:28,  2.03it/s] 90%|█████████ | 10704/11858 [1:30:38<09:28,  2.03it/s] 90%|█████████ | 10705/11858 [1:30:39<09:28,  2.03it/s] 90%|█████████ | 10706/11858 [1:30:39<09:26,  2.03it/s] 90%|█████████ | 10707/11858 [1:30:40<09:26,  2.03it/s] 90%|█████████ | 10708/11858 [1:30:40<09:26,  2.03it/s] 90%|█████████ | 10709/11858 [1:30:41<09:25,  2.03it/s] 90%|█████████ | 10710/11858 [1:30:41<09:25,  2.03it/s] 90%|█████████ | 10711/11858 [1:30:42<09:25,  2.03it/s] 90%|█████████ | 10712/11858 [1:30:42<09:24,  2.03it/s] 90%|█████████ | 10713/11858 [1:30:43<09:24,  2.03it/s] 90%|█████████ | 10714/11858 [1:30:43<09:24,  2.03it/s] 90%|█████████ | 10715/11858 [1:30:44<09:23,  2.03it/s] 90%|█████████ | 10716/11858 [1:30:44<09:23,  2.03it/s] 90%|█████████ | 10717/11858 [1:30:45<09:22,  2.03it/s] 90%|█████████ | 10718/11858 [1:30:45<09:21,  2.03it/s] 90%|█████████ | 10719/11858 [1:30:46<09:21,  2.03it/s] 90%|█████████ | 10720/11858 [1:30:46<09:20,  2.03it/s] 90%|█████████ | 10721/11858 [1:30:47<09:20,  2.03it/s] 90%|█████████ | 10722/11858 [1:30:47<09:19,  2.03it/s] 90%|█████████ | 10723/11858 [1:30:48<09:18,  2.03it/s] 90%|█████████ | 10724/11858 [1:30:48<09:18,  2.03it/s] 90%|█████████ | 10725/11858 [1:30:49<09:18,  2.03it/s]                                                       {'loss': 1.4368, 'grad_norm': 0.27504873275756836, 'learning_rate': 2.7553592273427742e-05, 'epoch': 12.65}
- 90%|█████████ | 10725/11858 [1:30:49<09:18,  2.03it/s] 90%|█████████ | 10726/11858 [1:30:49<09:18,  2.03it/s] 90%|█████████ | 10727/11858 [1:30:50<09:17,  2.03it/s] 90%|█████████ | 10728/11858 [1:30:50<09:17,  2.03it/s] 90%|█████████ | 10729/11858 [1:30:51<09:16,  2.03it/s] 90%|█████████ | 10730/11858 [1:30:51<09:15,  2.03it/s] 90%|█████████ | 10731/11858 [1:30:51<09:15,  2.03it/s] 91%|█████████ | 10732/11858 [1:30:52<09:15,  2.03it/s] 91%|█████████ | 10733/11858 [1:30:52<09:14,  2.03it/s] 91%|█████████ | 10734/11858 [1:30:53<09:14,  2.03it/s] 91%|█████████ | 10735/11858 [1:30:53<09:12,  2.03it/s] 91%|█████████ | 10736/11858 [1:30:54<09:13,  2.03it/s] 91%|█████████ | 10737/11858 [1:30:54<09:12,  2.03it/s] 91%|█████████ | 10738/11858 [1:30:55<09:11,  2.03it/s] 91%|█████████ | 10739/11858 [1:30:55<09:11,  2.03it/s] 91%|█████████ | 10740/11858 [1:30:56<09:10,  2.03it/s] 91%|█████████ | 10741/11858 [1:30:56<09:10,  2.03it/s] 91%|█████████ | 10742/11858 [1:30:57<09:09,  2.03it/s] 91%|█████████ | 10743/11858 [1:30:57<09:09,  2.03it/s] 91%|█████████ | 10744/11858 [1:30:58<09:09,  2.03it/s] 91%|█████████ | 10745/11858 [1:30:58<09:08,  2.03it/s] 91%|█████████ | 10746/11858 [1:30:59<09:08,  2.03it/s] 91%|█████████ | 10747/11858 [1:30:59<09:07,  2.03it/s] 91%|█████████ | 10748/11858 [1:31:00<09:06,  2.03it/s] 91%|█████████ | 10749/11858 [1:31:00<09:06,  2.03it/s] 91%|█████████ | 10750/11858 [1:31:01<09:05,  2.03it/s]                                                       {'loss': 1.4215, 'grad_norm': 0.27546441555023193, 'learning_rate': 2.6361732983055498e-05, 'epoch': 12.68}
- 91%|█████████ | 10750/11858 [1:31:01<09:05,  2.03it/s] 91%|█████████ | 10751/11858 [1:31:01<09:05,  2.03it/s] 91%|█████████ | 10752/11858 [1:31:02<09:04,  2.03it/s] 91%|█████████ | 10753/11858 [1:31:02<09:04,  2.03it/s] 91%|█████████ | 10754/11858 [1:31:03<09:04,  2.03it/s] 91%|█████████ | 10755/11858 [1:31:03<09:03,  2.03it/s] 91%|█████████ | 10756/11858 [1:31:04<09:03,  2.03it/s] 91%|█████████ | 10757/11858 [1:31:04<09:02,  2.03it/s] 91%|█████████ | 10758/11858 [1:31:05<09:02,  2.03it/s] 91%|█████████ | 10759/11858 [1:31:05<09:01,  2.03it/s] 91%|█████████ | 10760/11858 [1:31:06<09:00,  2.03it/s] 91%|█████████ | 10761/11858 [1:31:06<09:00,  2.03it/s] 91%|█████████ | 10762/11858 [1:31:07<08:59,  2.03it/s] 91%|█████████ | 10763/11858 [1:31:07<08:58,  2.03it/s] 91%|█████████ | 10764/11858 [1:31:08<08:58,  2.03it/s] 91%|█████████ | 10765/11858 [1:31:08<08:57,  2.03it/s] 91%|█████████ | 10766/11858 [1:31:09<08:57,  2.03it/s] 91%|█████████ | 10767/11858 [1:31:09<08:57,  2.03it/s] 91%|█████████ | 10768/11858 [1:31:10<08:57,  2.03it/s] 91%|█████████ | 10769/11858 [1:31:10<08:56,  2.03it/s] 91%|█████████ | 10770/11858 [1:31:11<08:55,  2.03it/s] 91%|█████████ | 10771/11858 [1:31:11<08:55,  2.03it/s] 91%|█████████ | 10772/11858 [1:31:12<08:55,  2.03it/s] 91%|█████████ | 10773/11858 [1:31:12<08:54,  2.03it/s] 91%|█████████ | 10774/11858 [1:31:13<08:53,  2.03it/s] 91%|█████████ | 10775/11858 [1:31:13<08:52,  2.03it/s]                                                       {'loss': 1.4251, 'grad_norm': 0.27237316966056824, 'learning_rate': 2.5195526385039637e-05, 'epoch': 12.71}
- 91%|█████████ | 10775/11858 [1:31:13<08:52,  2.03it/s] 91%|█████████ | 10776/11858 [1:31:14<08:53,  2.03it/s] 91%|█████████ | 10777/11858 [1:31:14<08:52,  2.03it/s] 91%|█████████ | 10778/11858 [1:31:15<08:51,  2.03it/s] 91%|█████████ | 10779/11858 [1:31:15<08:52,  2.03it/s] 91%|█████████ | 10780/11858 [1:31:16<08:51,  2.03it/s] 91%|█████████ | 10781/11858 [1:31:16<08:50,  2.03it/s] 91%|█████████ | 10782/11858 [1:31:17<08:50,  2.03it/s] 91%|█████████ | 10783/11858 [1:31:17<08:49,  2.03it/s] 91%|█████████ | 10784/11858 [1:31:18<08:48,  2.03it/s] 91%|█████████ | 10785/11858 [1:31:18<08:48,  2.03it/s] 91%|█████████ | 10786/11858 [1:31:19<08:47,  2.03it/s] 91%|█████████ | 10787/11858 [1:31:19<08:47,  2.03it/s] 91%|█████████ | 10788/11858 [1:31:20<08:46,  2.03it/s] 91%|█████████ | 10789/11858 [1:31:20<08:46,  2.03it/s] 91%|█████████ | 10790/11858 [1:31:21<08:46,  2.03it/s] 91%|█████████ | 10791/11858 [1:31:21<08:45,  2.03it/s] 91%|█████████ | 10792/11858 [1:31:22<08:45,  2.03it/s] 91%|█████████ | 10793/11858 [1:31:22<08:44,  2.03it/s] 91%|█████████ | 10794/11858 [1:31:23<08:44,  2.03it/s] 91%|█████████ | 10795/11858 [1:31:23<08:43,  2.03it/s] 91%|█████████ | 10796/11858 [1:31:24<08:43,  2.03it/s] 91%|█████████ | 10797/11858 [1:31:24<08:42,  2.03it/s] 91%|█████████ | 10798/11858 [1:31:25<08:41,  2.03it/s] 91%|█████████ | 10799/11858 [1:31:25<08:41,  2.03it/s] 91%|█████████ | 10800/11858 [1:31:25<08:40,  2.03it/s]                                                       {'loss': 1.4415, 'grad_norm': 0.2855837941169739, 'learning_rate': 2.4055035642222222e-05, 'epoch': 12.74}
- 91%|█████████ | 10800/11858 [1:31:25<08:40,  2.03it/s] 91%|█████████ | 10801/11858 [1:31:26<09:26,  1.87it/s] 91%|█████████ | 10802/11858 [1:31:27<09:11,  1.91it/s] 91%|█████████ | 10803/11858 [1:31:27<09:01,  1.95it/s] 91%|█████████ | 10804/11858 [1:31:28<08:55,  1.97it/s] 91%|█████████ | 10805/11858 [1:31:28<08:49,  1.99it/s] 91%|█████████ | 10806/11858 [1:31:29<08:45,  2.00it/s] 91%|█████████ | 10807/11858 [1:31:29<08:43,  2.01it/s] 91%|█████████ | 10808/11858 [1:31:30<08:40,  2.02it/s] 91%|█████████ | 10809/11858 [1:31:30<08:38,  2.02it/s] 91%|█████████ | 10810/11858 [1:31:31<08:37,  2.02it/s] 91%|█████████ | 10811/11858 [1:31:31<08:36,  2.03it/s] 91%|█████████ | 10812/11858 [1:31:32<08:36,  2.03it/s] 91%|█████████ | 10813/11858 [1:31:32<08:35,  2.03it/s] 91%|█████████ | 10814/11858 [1:31:33<08:33,  2.03it/s] 91%|█████████ | 10815/11858 [1:31:33<08:33,  2.03it/s] 91%|█████████ | 10816/11858 [1:31:34<08:32,  2.03it/s] 91%|█████████ | 10817/11858 [1:31:34<08:32,  2.03it/s] 91%|█████████ | 10818/11858 [1:31:34<08:32,  2.03it/s] 91%|█████████ | 10819/11858 [1:31:35<08:31,  2.03it/s] 91%|█████████ | 10820/11858 [1:31:35<08:31,  2.03it/s] 91%|█████████▏| 10821/11858 [1:31:36<08:30,  2.03it/s] 91%|█████████▏| 10822/11858 [1:31:36<08:29,  2.03it/s] 91%|█████████▏| 10823/11858 [1:31:37<08:29,  2.03it/s] 91%|█████████▏| 10824/11858 [1:31:37<08:28,  2.03it/s] 91%|█████████▏| 10825/11858 [1:31:38<08:29,  2.03it/s]                                                       {'loss': 1.4317, 'grad_norm': 0.2780250906944275, 'learning_rate': 2.294032252465056e-05, 'epoch': 12.77}
- 91%|█████████▏| 10825/11858 [1:31:38<08:29,  2.03it/s] 91%|█████████▏| 10826/11858 [1:31:38<08:28,  2.03it/s] 91%|█████████▏| 10827/11858 [1:31:39<08:28,  2.03it/s] 91%|█████████▏| 10828/11858 [1:31:39<08:28,  2.03it/s] 91%|█████████▏| 10829/11858 [1:31:40<08:26,  2.03it/s] 91%|█████████▏| 10830/11858 [1:31:40<08:26,  2.03it/s] 91%|█████████▏| 10831/11858 [1:31:41<08:25,  2.03it/s] 91%|█████████▏| 10832/11858 [1:31:41<08:25,  2.03it/s] 91%|█████████▏| 10833/11858 [1:31:42<08:25,  2.03it/s] 91%|█████████▏| 10834/11858 [1:31:42<08:24,  2.03it/s] 91%|█████████▏| 10835/11858 [1:31:43<08:23,  2.03it/s] 91%|█████████▏| 10836/11858 [1:31:43<08:23,  2.03it/s] 91%|█████████▏| 10837/11858 [1:31:44<08:22,  2.03it/s] 91%|█████████▏| 10838/11858 [1:31:44<08:22,  2.03it/s] 91%|█████████▏| 10839/11858 [1:31:45<08:22,  2.03it/s] 91%|█████████▏| 10840/11858 [1:31:45<08:21,  2.03it/s] 91%|█████████▏| 10841/11858 [1:31:46<08:20,  2.03it/s] 91%|█████████▏| 10842/11858 [1:31:46<08:20,  2.03it/s] 91%|█████████▏| 10843/11858 [1:31:47<08:19,  2.03it/s] 91%|█████████▏| 10844/11858 [1:31:47<08:19,  2.03it/s] 91%|█████████▏| 10845/11858 [1:31:48<08:19,  2.03it/s] 91%|█████████▏| 10846/11858 [1:31:48<08:18,  2.03it/s] 91%|█████████▏| 10847/11858 [1:31:49<08:18,  2.03it/s] 91%|█████████▏| 10848/11858 [1:31:49<08:18,  2.03it/s] 91%|█████████▏| 10849/11858 [1:31:50<08:17,  2.03it/s] 91%|█████████▏| 10850/11858 [1:31:50<08:17,  2.03it/s]                                                       {'loss': 1.4282, 'grad_norm': 0.27235931158065796, 'learning_rate': 2.185144740623157e-05, 'epoch': 12.8}
- 91%|█████████▏| 10850/11858 [1:31:50<08:17,  2.03it/s] 92%|█████████▏| 10851/11858 [1:31:51<08:17,  2.03it/s] 92%|█████████▏| 10852/11858 [1:31:51<08:16,  2.03it/s] 92%|█████████▏| 10853/11858 [1:31:52<08:15,  2.03it/s] 92%|█████████▏| 10854/11858 [1:31:52<08:14,  2.03it/s] 92%|█████████▏| 10855/11858 [1:31:53<08:14,  2.03it/s] 92%|█████████▏| 10856/11858 [1:31:53<08:14,  2.03it/s] 92%|█████████▏| 10857/11858 [1:31:54<08:13,  2.03it/s] 92%|█████████▏| 10858/11858 [1:31:54<08:13,  2.03it/s] 92%|█████████▏| 10859/11858 [1:31:55<08:12,  2.03it/s] 92%|█████████▏| 10860/11858 [1:31:55<08:12,  2.03it/s] 92%|█████████▏| 10861/11858 [1:31:56<08:11,  2.03it/s] 92%|█████████▏| 10862/11858 [1:31:56<08:11,  2.03it/s] 92%|█████████▏| 10863/11858 [1:31:57<08:10,  2.03it/s] 92%|█████████▏| 10864/11858 [1:31:57<08:10,  2.03it/s] 92%|█████████▏| 10865/11858 [1:31:58<08:09,  2.03it/s] 92%|█████████▏| 10866/11858 [1:31:58<08:09,  2.03it/s] 92%|█████████▏| 10867/11858 [1:31:59<08:08,  2.03it/s] 92%|█████████▏| 10868/11858 [1:31:59<08:08,  2.03it/s] 92%|█████████▏| 10869/11858 [1:32:00<08:07,  2.03it/s] 92%|█████████▏| 10870/11858 [1:32:00<08:06,  2.03it/s] 92%|█████████▏| 10871/11858 [1:32:01<08:06,  2.03it/s] 92%|█████████▏| 10872/11858 [1:32:01<08:05,  2.03it/s] 92%|█████████▏| 10873/11858 [1:32:02<08:05,  2.03it/s] 92%|█████████▏| 10874/11858 [1:32:02<08:04,  2.03it/s] 92%|█████████▏| 10875/11858 [1:32:03<08:04,  2.03it/s]                                                       {'loss': 1.4319, 'grad_norm': 0.27073055505752563, 'learning_rate': 2.0788469261462108e-05, 'epoch': 12.83}
- 92%|█████████▏| 10875/11858 [1:32:03<08:04,  2.03it/s] 92%|█████████▏| 10876/11858 [1:32:03<08:04,  2.03it/s] 92%|█████████▏| 10877/11858 [1:32:04<08:03,  2.03it/s] 92%|█████████▏| 10878/11858 [1:32:04<08:03,  2.03it/s] 92%|█████████▏| 10879/11858 [1:32:05<08:02,  2.03it/s] 92%|█████████▏| 10880/11858 [1:32:05<08:01,  2.03it/s] 92%|█████████▏| 10881/11858 [1:32:06<08:01,  2.03it/s] 92%|█████████▏| 10882/11858 [1:32:06<08:00,  2.03it/s] 92%|█████████▏| 10883/11858 [1:32:07<08:00,  2.03it/s] 92%|█████████▏| 10884/11858 [1:32:07<07:59,  2.03it/s] 92%|█████████▏| 10885/11858 [1:32:08<07:59,  2.03it/s] 92%|█████████▏| 10886/11858 [1:32:08<07:58,  2.03it/s] 92%|█████████▏| 10887/11858 [1:32:09<07:58,  2.03it/s] 92%|█████████▏| 10888/11858 [1:32:09<07:58,  2.03it/s] 92%|█████████▏| 10889/11858 [1:32:09<07:57,  2.03it/s] 92%|█████████▏| 10890/11858 [1:32:10<07:57,  2.03it/s] 92%|█████████▏| 10891/11858 [1:32:10<07:56,  2.03it/s] 92%|█████████▏| 10892/11858 [1:32:11<07:56,  2.03it/s] 92%|█████████▏| 10893/11858 [1:32:11<07:55,  2.03it/s] 92%|█████████▏| 10894/11858 [1:32:12<07:54,  2.03it/s] 92%|█████████▏| 10895/11858 [1:32:12<07:54,  2.03it/s] 92%|█████████▏| 10896/11858 [1:32:13<08:35,  1.87it/s] 92%|█████████▏| 10897/11858 [1:32:14<08:22,  1.91it/s] 92%|█████████▏| 10898/11858 [1:32:14<08:13,  1.95it/s] 92%|█████████▏| 10899/11858 [1:32:15<08:06,  1.97it/s] 92%|█████████▏| 10900/11858 [1:32:15<08:02,  1.99it/s]                                                       {'loss': 1.4269, 'grad_norm': 0.2787124216556549, 'learning_rate': 1.9751445662234524e-05, 'epoch': 12.86}
- 92%|█████████▏| 10900/11858 [1:32:15<08:02,  1.99it/s] 92%|█████████▏| 10901/11858 [1:32:16<07:58,  2.00it/s] 92%|█████████▏| 10902/11858 [1:32:16<07:55,  2.01it/s] 92%|█████████▏| 10903/11858 [1:32:17<07:54,  2.01it/s] 92%|█████████▏| 10904/11858 [1:32:17<07:53,  2.02it/s] 92%|█████████▏| 10905/11858 [1:32:18<07:51,  2.02it/s] 92%|█████████▏| 10906/11858 [1:32:18<07:50,  2.02it/s] 92%|█████████▏| 10907/11858 [1:32:19<07:50,  2.02it/s] 92%|█████████▏| 10908/11858 [1:32:19<07:49,  2.02it/s] 92%|█████████▏| 10909/11858 [1:32:19<07:49,  2.02it/s] 92%|█████████▏| 10910/11858 [1:32:20<07:47,  2.03it/s] 92%|█████████▏| 10911/11858 [1:32:20<07:47,  2.03it/s] 92%|█████████▏| 10912/11858 [1:32:21<07:46,  2.03it/s] 92%|█████████▏| 10913/11858 [1:32:21<07:45,  2.03it/s] 92%|█████████▏| 10914/11858 [1:32:22<07:45,  2.03it/s] 92%|█████████▏| 10915/11858 [1:32:22<07:44,  2.03it/s] 92%|█████████▏| 10916/11858 [1:32:23<07:44,  2.03it/s] 92%|█████████▏| 10917/11858 [1:32:23<07:43,  2.03it/s] 92%|█████████▏| 10918/11858 [1:32:24<07:43,  2.03it/s] 92%|█████████▏| 10919/11858 [1:32:24<07:43,  2.03it/s] 92%|█████████▏| 10920/11858 [1:32:25<07:42,  2.03it/s] 92%|█████████▏| 10921/11858 [1:32:25<07:42,  2.03it/s] 92%|█████████▏| 10922/11858 [1:32:26<07:41,  2.03it/s] 92%|█████████▏| 10923/11858 [1:32:26<07:40,  2.03it/s] 92%|█████████▏| 10924/11858 [1:32:27<07:39,  2.03it/s] 92%|█████████▏| 10925/11858 [1:32:27<07:39,  2.03it/s]                                                       {'loss': 1.4355, 'grad_norm': 0.2808634042739868, 'learning_rate': 1.8740432774718595e-05, 'epoch': 12.89}
- 92%|█████████▏| 10925/11858 [1:32:27<07:39,  2.03it/s] 92%|█████████▏| 10926/11858 [1:32:28<07:39,  2.03it/s] 92%|█████████▏| 10927/11858 [1:32:28<07:39,  2.03it/s] 92%|█████████▏| 10928/11858 [1:32:29<07:38,  2.03it/s] 92%|█████████▏| 10929/11858 [1:32:29<07:37,  2.03it/s] 92%|█████████▏| 10930/11858 [1:32:30<07:37,  2.03it/s] 92%|█████████▏| 10931/11858 [1:32:30<07:37,  2.03it/s] 92%|█████████▏| 10932/11858 [1:32:31<07:36,  2.03it/s] 92%|█████████▏| 10933/11858 [1:32:31<07:36,  2.03it/s] 92%|█████████▏| 10934/11858 [1:32:32<07:35,  2.03it/s] 92%|█████████▏| 10935/11858 [1:32:32<07:35,  2.03it/s] 92%|█████████▏| 10936/11858 [1:32:33<07:34,  2.03it/s] 92%|█████████▏| 10937/11858 [1:32:33<07:33,  2.03it/s] 92%|█████████▏| 10938/11858 [1:32:34<07:33,  2.03it/s] 92%|█████████▏| 10939/11858 [1:32:34<07:32,  2.03it/s] 92%|█████████▏| 10940/11858 [1:32:35<07:31,  2.03it/s] 92%|█████████▏| 10941/11858 [1:32:35<07:31,  2.03it/s] 92%|█████████▏| 10942/11858 [1:32:36<07:31,  2.03it/s] 92%|█████████▏| 10943/11858 [1:32:36<07:30,  2.03it/s] 92%|█████████▏| 10944/11858 [1:32:37<07:30,  2.03it/s] 92%|█████████▏| 10945/11858 [1:32:37<07:29,  2.03it/s] 92%|█████████▏| 10946/11858 [1:32:38<07:30,  2.03it/s] 92%|█████████▏| 10947/11858 [1:32:38<07:29,  2.03it/s] 92%|█████████▏| 10948/11858 [1:32:39<07:28,  2.03it/s] 92%|█████████▏| 10949/11858 [1:32:39<07:27,  2.03it/s] 92%|█████████▏| 10950/11858 [1:32:40<07:27,  2.03it/s]                                                       {'loss': 1.4418, 'grad_norm': 0.2962653636932373, 'learning_rate': 1.7755485356319654e-05, 'epoch': 12.92}
- 92%|█████████▏| 10950/11858 [1:32:40<07:27,  2.03it/s] 92%|█████████▏| 10951/11858 [1:32:40<07:27,  2.03it/s] 92%|█████████▏| 10952/11858 [1:32:41<07:26,  2.03it/s] 92%|█████████▏| 10953/11858 [1:32:41<07:26,  2.03it/s] 92%|█████████▏| 10954/11858 [1:32:42<07:25,  2.03it/s] 92%|█████████▏| 10955/11858 [1:32:42<07:24,  2.03it/s] 92%|█████████▏| 10956/11858 [1:32:43<07:24,  2.03it/s] 92%|█████████▏| 10957/11858 [1:32:43<07:23,  2.03it/s] 92%|█████████▏| 10958/11858 [1:32:44<07:23,  2.03it/s] 92%|█████████▏| 10959/11858 [1:32:44<07:22,  2.03it/s] 92%|█████████▏| 10960/11858 [1:32:45<07:22,  2.03it/s] 92%|█████████▏| 10961/11858 [1:32:45<07:22,  2.03it/s] 92%|█████████▏| 10962/11858 [1:32:46<07:21,  2.03it/s] 92%|█████████▏| 10963/11858 [1:32:46<07:20,  2.03it/s] 92%|█████████▏| 10964/11858 [1:32:47<07:20,  2.03it/s] 92%|█████████▏| 10965/11858 [1:32:47<07:19,  2.03it/s] 92%|█████████▏| 10966/11858 [1:32:48<07:19,  2.03it/s] 92%|█████████▏| 10967/11858 [1:32:48<07:18,  2.03it/s] 92%|█████████▏| 10968/11858 [1:32:49<07:17,  2.03it/s] 93%|█████████▎| 10969/11858 [1:32:49<07:17,  2.03it/s] 93%|█████████▎| 10970/11858 [1:32:50<07:17,  2.03it/s] 93%|█████████▎| 10971/11858 [1:32:50<07:16,  2.03it/s] 93%|█████████▎| 10972/11858 [1:32:51<07:16,  2.03it/s] 93%|█████████▎| 10973/11858 [1:32:51<07:15,  2.03it/s] 93%|█████████▎| 10974/11858 [1:32:52<07:14,  2.03it/s] 93%|█████████▎| 10975/11858 [1:32:52<07:14,  2.03it/s]                                                       {'loss': 1.4378, 'grad_norm': 0.26865994930267334, 'learning_rate': 1.6796656752712858e-05, 'epoch': 12.95}
- 93%|█████████▎| 10975/11858 [1:32:52<07:14,  2.03it/s] 93%|█████████▎| 10976/11858 [1:32:52<07:14,  2.03it/s] 93%|█████████▎| 10977/11858 [1:32:53<07:13,  2.03it/s] 93%|█████████▎| 10978/11858 [1:32:53<07:13,  2.03it/s] 93%|█████████▎| 10979/11858 [1:32:54<07:13,  2.03it/s] 93%|█████████▎| 10980/11858 [1:32:54<07:12,  2.03it/s] 93%|█████████▎| 10981/11858 [1:32:55<07:11,  2.03it/s] 93%|█████████▎| 10982/11858 [1:32:55<07:11,  2.03it/s] 93%|█████████▎| 10983/11858 [1:32:56<07:10,  2.03it/s] 93%|█████████▎| 10984/11858 [1:32:56<07:10,  2.03it/s] 93%|█████████▎| 10985/11858 [1:32:57<07:10,  2.03it/s] 93%|█████████▎| 10986/11858 [1:32:57<07:09,  2.03it/s] 93%|█████████▎| 10987/11858 [1:32:58<07:08,  2.03it/s] 93%|█████████▎| 10988/11858 [1:32:58<07:08,  2.03it/s] 93%|█████████▎| 10989/11858 [1:32:59<07:07,  2.03it/s] 93%|█████████▎| 10990/11858 [1:32:59<07:07,  2.03it/s] 93%|█████████▎| 10991/11858 [1:33:00<07:06,  2.03it/s] 93%|█████████▎| 10992/11858 [1:33:00<07:05,  2.03it/s] 93%|█████████▎| 10993/11858 [1:33:01<07:05,  2.03it/s] 93%|█████████▎| 10994/11858 [1:33:01<07:05,  2.03it/s] 93%|█████████▎| 10995/11858 [1:33:02<07:04,  2.03it/s] 93%|█████████▎| 10996/11858 [1:33:02<07:05,  2.03it/s] 93%|█████████▎| 10997/11858 [1:33:03<07:04,  2.03it/s] 93%|█████████▎| 10998/11858 [1:33:03<07:03,  2.03it/s] 93%|█████████▎| 10999/11858 [1:33:04<07:03,  2.03it/s] 93%|█████████▎| 11000/11858 [1:33:04<07:02,  2.03it/s]                                                       {'loss': 1.4157, 'grad_norm': 0.29019695520401, 'learning_rate': 1.5863998894953823e-05, 'epoch': 12.98}
- 93%|█████████▎| 11000/11858 [1:33:04<07:02,  2.03it/s] 93%|█████████▎| 11001/11858 [1:33:05<07:02,  2.03it/s] 93%|█████████▎| 11002/11858 [1:33:05<07:01,  2.03it/s] 93%|█████████▎| 11003/11858 [1:33:06<07:01,  2.03it/s] 93%|█████████▎| 11004/11858 [1:33:06<07:00,  2.03it/s] 93%|█████████▎| 11005/11858 [1:33:07<06:59,  2.03it/s] 93%|█████████▎| 11006/11858 [1:33:07<06:59,  2.03it/s] 93%|█████████▎| 11007/11858 [1:33:08<06:59,  2.03it/s] 93%|█████████▎| 11008/11858 [1:33:08<06:58,  2.03it/s] 93%|█████████▎| 11009/11858 [1:33:09<06:58,  2.03it/s] 93%|█████████▎| 11010/11858 [1:33:09<06:57,  2.03it/s] 93%|█████████▎| 11011/11858 [1:33:10<06:57,  2.03it/s] 93%|█████████▎| 11012/11858 [1:33:10<06:56,  2.03it/s] 93%|█████████▎| 11013/11858 [1:33:11<06:56,  2.03it/s] 93%|█████████▎| 11014/11858 [1:33:11<06:55,  2.03it/s] 93%|█████████▎| 11015/11858 [1:33:12<06:55,  2.03it/s] 93%|█████████▎| 11016/11858 [1:33:12<06:55,  2.03it/s] 93%|█████████▎| 11017/11858 [1:33:13<07:05,  1.97it/s] 93%|█████████▎| 11018/11858 [1:33:25<58:07,  4.15s/it] 93%|█████████▎| 11019/11858 [1:33:26<42:42,  3.05s/it] 93%|█████████▎| 11020/11858 [1:33:26<31:55,  2.29s/it] 93%|█████████▎| 11021/11858 [1:33:27<24:22,  1.75s/it] 93%|█████████▎| 11022/11858 [1:33:27<19:08,  1.37s/it] 93%|█████████▎| 11023/11858 [1:33:28<15:28,  1.11s/it] 93%|█████████▎| 11024/11858 [1:33:28<12:52,  1.08it/s] 93%|█████████▎| 11025/11858 [1:33:29<11:03,  1.26it/s]                                                       {'loss': 1.4136, 'grad_norm': 0.3153298795223236, 'learning_rate': 1.4957562296666005e-05, 'epoch': 13.01}
- 93%|█████████▎| 11025/11858 [1:33:29<11:03,  1.26it/s] 93%|█████████▎| 11026/11858 [1:33:29<09:46,  1.42it/s] 93%|█████████▎| 11027/11858 [1:33:30<08:52,  1.56it/s] 93%|█████████▎| 11028/11858 [1:33:30<08:15,  1.68it/s] 93%|█████████▎| 11029/11858 [1:33:31<07:48,  1.77it/s] 93%|█████████▎| 11030/11858 [1:33:31<07:29,  1.84it/s] 93%|█████████▎| 11031/11858 [1:33:32<07:17,  1.89it/s] 93%|█████████▎| 11032/11858 [1:33:32<07:08,  1.93it/s] 93%|█████████▎| 11033/11858 [1:33:33<07:01,  1.96it/s] 93%|█████████▎| 11034/11858 [1:33:33<06:56,  1.98it/s] 93%|█████████▎| 11035/11858 [1:33:34<06:52,  1.99it/s] 93%|█████████▎| 11036/11858 [1:33:34<06:49,  2.01it/s] 93%|█████████▎| 11037/11858 [1:33:35<06:47,  2.01it/s] 93%|█████████▎| 11038/11858 [1:33:35<06:46,  2.02it/s] 93%|█████████▎| 11039/11858 [1:33:36<06:45,  2.02it/s] 93%|█████████▎| 11040/11858 [1:33:36<06:43,  2.03it/s] 93%|█████████▎| 11041/11858 [1:33:37<06:43,  2.03it/s] 93%|█████████▎| 11042/11858 [1:33:37<06:42,  2.03it/s] 93%|█████████▎| 11043/11858 [1:33:38<06:41,  2.03it/s] 93%|█████████▎| 11044/11858 [1:33:38<06:41,  2.03it/s] 93%|█████████▎| 11045/11858 [1:33:39<06:41,  2.02it/s] 93%|█████████▎| 11046/11858 [1:33:39<06:41,  2.02it/s] 93%|█████████▎| 11047/11858 [1:33:40<06:40,  2.03it/s] 93%|█████████▎| 11048/11858 [1:33:40<06:39,  2.03it/s] 93%|█████████▎| 11049/11858 [1:33:41<06:38,  2.03it/s] 93%|█████████▎| 11050/11858 [1:33:41<06:37,  2.03it/s]                                                       {'loss': 1.4029, 'grad_norm': 0.27162864804267883, 'learning_rate': 1.4077396051305091e-05, 'epoch': 13.04}
- 93%|█████████▎| 11050/11858 [1:33:41<06:37,  2.03it/s] 93%|█████████▎| 11051/11858 [1:33:42<06:37,  2.03it/s] 93%|█████████▎| 11052/11858 [1:33:42<06:37,  2.03it/s] 93%|█████████▎| 11053/11858 [1:33:43<06:36,  2.03it/s] 93%|█████████▎| 11054/11858 [1:33:43<06:35,  2.03it/s] 93%|█████████▎| 11055/11858 [1:33:44<06:35,  2.03it/s] 93%|█████████▎| 11056/11858 [1:33:44<06:34,  2.03it/s] 93%|█████████▎| 11057/11858 [1:33:45<06:34,  2.03it/s] 93%|█████████▎| 11058/11858 [1:33:45<06:33,  2.03it/s] 93%|█████████▎| 11059/11858 [1:33:46<06:33,  2.03it/s] 93%|█████████▎| 11060/11858 [1:33:46<06:32,  2.03it/s] 93%|█████████▎| 11061/11858 [1:33:47<06:32,  2.03it/s] 93%|█████████▎| 11062/11858 [1:33:47<06:31,  2.03it/s] 93%|█████████▎| 11063/11858 [1:33:48<06:31,  2.03it/s] 93%|█████████▎| 11064/11858 [1:33:48<06:30,  2.03it/s] 93%|█████████▎| 11065/11858 [1:33:49<06:30,  2.03it/s] 93%|█████████▎| 11066/11858 [1:33:49<06:29,  2.03it/s] 93%|█████████▎| 11067/11858 [1:33:50<06:28,  2.03it/s] 93%|█████████▎| 11068/11858 [1:33:50<06:28,  2.03it/s] 93%|█████████▎| 11069/11858 [1:33:51<06:27,  2.03it/s] 93%|█████████▎| 11070/11858 [1:33:51<06:27,  2.03it/s] 93%|█████████▎| 11071/11858 [1:33:52<06:27,  2.03it/s] 93%|█████████▎| 11072/11858 [1:33:52<06:26,  2.03it/s] 93%|█████████▎| 11073/11858 [1:33:53<06:26,  2.03it/s] 93%|█████████▎| 11074/11858 [1:33:53<06:25,  2.03it/s] 93%|█████████▎| 11075/11858 [1:33:53<06:25,  2.03it/s]                                                       {'loss': 1.402, 'grad_norm': 0.2747058570384979, 'learning_rate': 1.3223547829499528e-05, 'epoch': 13.07}
- 93%|█████████▎| 11075/11858 [1:33:53<06:25,  2.03it/s] 93%|█████████▎| 11076/11858 [1:33:54<06:25,  2.03it/s] 93%|█████████▎| 11077/11858 [1:33:54<06:24,  2.03it/s] 93%|█████████▎| 11078/11858 [1:33:55<06:23,  2.03it/s] 93%|█████████▎| 11079/11858 [1:33:55<06:23,  2.03it/s] 93%|█████████▎| 11080/11858 [1:33:56<06:22,  2.03it/s] 93%|█████████▎| 11081/11858 [1:33:56<06:22,  2.03it/s] 93%|█████████▎| 11082/11858 [1:33:57<06:21,  2.03it/s] 93%|█████████▎| 11083/11858 [1:33:57<06:21,  2.03it/s] 93%|█████████▎| 11084/11858 [1:33:58<06:21,  2.03it/s] 93%|█████████▎| 11085/11858 [1:33:58<06:20,  2.03it/s] 93%|█████████▎| 11086/11858 [1:33:59<06:19,  2.03it/s] 93%|█████████▎| 11087/11858 [1:33:59<06:19,  2.03it/s] 94%|█████████▎| 11088/11858 [1:34:00<06:18,  2.03it/s] 94%|████████��▎| 11089/11858 [1:34:00<06:18,  2.03it/s] 94%|█████████▎| 11090/11858 [1:34:01<06:18,  2.03it/s] 94%|█████████▎| 11091/11858 [1:34:01<06:17,  2.03it/s] 94%|█████████▎| 11092/11858 [1:34:02<06:17,  2.03it/s] 94%|█████████▎| 11093/11858 [1:34:02<06:16,  2.03it/s] 94%|█████████▎| 11094/11858 [1:34:03<06:16,  2.03it/s] 94%|█████████▎| 11095/11858 [1:34:03<06:15,  2.03it/s] 94%|█████████▎| 11096/11858 [1:34:04<06:15,  2.03it/s] 94%|█████████▎| 11097/11858 [1:34:04<06:14,  2.03it/s] 94%|█████████▎| 11098/11858 [1:34:05<06:14,  2.03it/s] 94%|█████████▎| 11099/11858 [1:34:05<06:13,  2.03it/s] 94%|█████████▎| 11100/11858 [1:34:06<06:13,  2.03it/s]                                                       {'loss': 1.4142, 'grad_norm': 0.27240705490112305, 'learning_rate': 1.2396063876469077e-05, 'epoch': 13.1}
- 94%|█████████▎| 11100/11858 [1:34:06<06:13,  2.03it/s] 94%|█████████▎| 11101/11858 [1:34:06<06:13,  2.03it/s] 94%|█████████▎| 11102/11858 [1:34:07<06:12,  2.03it/s] 94%|█████████▎| 11103/11858 [1:34:07<06:12,  2.03it/s] 94%|█████████▎| 11104/11858 [1:34:08<06:11,  2.03it/s] 94%|█████████▎| 11105/11858 [1:34:08<06:10,  2.03it/s] 94%|█████████▎| 11106/11858 [1:34:09<06:10,  2.03it/s] 94%|█████████▎| 11107/11858 [1:34:09<06:09,  2.03it/s] 94%|█████████▎| 11108/11858 [1:34:10<06:09,  2.03it/s] 94%|█████████▎| 11109/11858 [1:34:10<06:08,  2.03it/s] 94%|█████████▎| 11110/11858 [1:34:11<06:07,  2.03it/s] 94%|█████████▎| 11111/11858 [1:34:11<06:07,  2.03it/s] 94%|█████████▎| 11112/11858 [1:34:12<06:07,  2.03it/s] 94%|█████████▎| 11113/11858 [1:34:12<06:06,  2.03it/s] 94%|█████████▎| 11114/11858 [1:34:13<06:06,  2.03it/s] 94%|█████████▎| 11115/11858 [1:34:13<06:05,  2.03it/s] 94%|█████████▎| 11116/11858 [1:34:14<06:05,  2.03it/s] 94%|█████████▍| 11117/11858 [1:34:14<06:05,  2.03it/s] 94%|█████████▍| 11118/11858 [1:34:15<06:04,  2.03it/s] 94%|█████████▍| 11119/11858 [1:34:15<06:03,  2.03it/s] 94%|█████████▍| 11120/11858 [1:34:16<06:03,  2.03it/s] 94%|█████████▍| 11121/11858 [1:34:16<06:02,  2.03it/s] 94%|█████████▍| 11122/11858 [1:34:17<06:02,  2.03it/s] 94%|█████████▍| 11123/11858 [1:34:17<06:01,  2.03it/s] 94%|█████████▍| 11124/11858 [1:34:18<06:01,  2.03it/s] 94%|█████████▍| 11125/11858 [1:34:18<06:00,  2.03it/s]                                                       {'loss': 1.4172, 'grad_norm': 0.2706087827682495, 'learning_rate': 1.1594989009520106e-05, 'epoch': 13.13}
- 94%|█████████▍| 11125/11858 [1:34:18<06:00,  2.03it/s] 94%|█████████▍| 11126/11858 [1:34:19<06:00,  2.03it/s] 94%|█████████▍| 11127/11858 [1:34:19<06:00,  2.03it/s] 94%|█████████▍| 11128/11858 [1:34:20<05:59,  2.03it/s] 94%|█████████▍| 11129/11858 [1:34:20<05:59,  2.03it/s] 94%|█████████▍| 11130/11858 [1:34:21<05:58,  2.03it/s] 94%|█████████▍| 11131/11858 [1:34:21<05:58,  2.03it/s] 94%|█████████▍| 11132/11858 [1:34:22<05:57,  2.03it/s] 94%|█████████▍| 11133/11858 [1:34:22<05:57,  2.03it/s] 94%|█████████▍| 11134/11858 [1:34:23<05:56,  2.03it/s] 94%|█████████▍| 11135/11858 [1:34:23<05:56,  2.03it/s] 94%|█████████▍| 11136/11858 [1:34:24<05:55,  2.03it/s] 94%|█████████▍| 11137/11858 [1:34:24<05:54,  2.03it/s] 94%|█████████▍| 11138/11858 [1:34:25<05:54,  2.03it/s] 94%|█████████▍| 11139/11858 [1:34:25<05:53,  2.03it/s] 94%|█████████▍| 11140/11858 [1:34:25<05:53,  2.03it/s] 94%|█████████▍| 11141/11858 [1:34:26<05:52,  2.03it/s] 94%|█████████▍| 11142/11858 [1:34:26<05:52,  2.03it/s] 94%|█████████▍| 11143/11858 [1:34:27<05:52,  2.03it/s] 94%|█████████▍| 11144/11858 [1:34:27<05:51,  2.03it/s] 94%|█████████▍| 11145/11858 [1:34:28<05:51,  2.03it/s] 94%|█████████▍| 11146/11858 [1:34:28<05:50,  2.03it/s] 94%|█████████▍| 11147/11858 [1:34:29<05:50,  2.03it/s] 94%|█████████▍| 11148/11858 [1:34:29<05:49,  2.03it/s] 94%|█████████▍| 11149/11858 [1:34:30<05:49,  2.03it/s] 94%|█████████���| 11150/11858 [1:34:30<05:48,  2.03it/s]                                                       {'loss': 1.4018, 'grad_norm': 0.27455469965934753, 'learning_rate': 1.0820366615617972e-05, 'epoch': 13.16}
- 94%|█████████▍| 11150/11858 [1:34:30<05:48,  2.03it/s] 94%|█████████▍| 11151/11858 [1:34:31<05:48,  2.03it/s] 94%|█████████▍| 11152/11858 [1:34:31<05:47,  2.03it/s] 94%|█████████▍| 11153/11858 [1:34:32<05:47,  2.03it/s] 94%|█████████▍| 11154/11858 [1:34:32<05:46,  2.03it/s] 94%|█████████▍| 11155/11858 [1:34:33<05:46,  2.03it/s] 94%|█████████▍| 11156/11858 [1:34:33<05:45,  2.03it/s] 94%|█████████▍| 11157/11858 [1:34:34<05:45,  2.03it/s] 94%|█████████▍| 11158/11858 [1:34:34<05:44,  2.03it/s] 94%|█████████▍| 11159/11858 [1:34:35<05:44,  2.03it/s] 94%|█████████▍| 11160/11858 [1:34:35<05:43,  2.03it/s] 94%|█████████▍| 11161/11858 [1:34:36<05:42,  2.03it/s] 94%|█████████▍| 11162/11858 [1:34:36<05:42,  2.03it/s] 94%|█████████▍| 11163/11858 [1:34:37<05:41,  2.03it/s] 94%|█████████▍| 11164/11858 [1:34:37<05:41,  2.03it/s] 94%|█████████▍| 11165/11858 [1:34:38<05:40,  2.03it/s] 94%|█████████▍| 11166/11858 [1:34:38<05:40,  2.03it/s] 94%|█████████▍| 11167/11858 [1:34:39<05:42,  2.02it/s] 94%|█████████▍| 11168/11858 [1:34:39<05:41,  2.02it/s] 94%|█████████▍| 11169/11858 [1:34:40<05:40,  2.03it/s] 94%|█████████▍| 11170/11858 [1:34:40<05:39,  2.03it/s] 94%|█████████▍| 11171/11858 [1:34:41<05:38,  2.03it/s] 94%|█████████▍| 11172/11858 [1:34:41<05:37,  2.03it/s] 94%|█████████▍| 11173/11858 [1:34:42<05:37,  2.03it/s] 94%|█████████▍| 11174/11858 [1:34:42<05:36,  2.03it/s] 94%|█████████▍| 11175/11858 [1:34:43<05:36,  2.03it/s]                                                       {'loss': 1.4055, 'grad_norm': 0.27555397152900696, 'learning_rate': 1.007223864903739e-05, 'epoch': 13.19}
- 94%|█████████▍| 11175/11858 [1:34:43<05:36,  2.03it/s] 94%|█████████▍| 11176/11858 [1:34:43<05:35,  2.03it/s] 94%|█████████▍| 11177/11858 [1:34:44<05:35,  2.03it/s] 94%|█████████▍| 11178/11858 [1:34:44<05:34,  2.03it/s] 94%|█████████▍| 11179/11858 [1:34:45<05:33,  2.03it/s] 94%|█████████▍| 11180/11858 [1:34:45<05:33,  2.03it/s] 94%|█████████▍| 11181/11858 [1:34:46<05:33,  2.03it/s] 94%|█████████▍| 11182/11858 [1:34:46<05:32,  2.03it/s] 94%|█████████▍| 11183/11858 [1:34:47<05:32,  2.03it/s] 94%|█████████▍| 11184/11858 [1:34:47<05:31,  2.03it/s] 94%|█████████▍| 11185/11858 [1:34:48<05:31,  2.03it/s] 94%|█████████▍| 11186/11858 [1:34:48<05:30,  2.03it/s] 94%|█████████▍| 11187/11858 [1:34:49<05:30,  2.03it/s] 94%|█████████▍| 11188/11858 [1:34:49<05:29,  2.03it/s] 94%|█████████▍| 11189/11858 [1:34:50<05:29,  2.03it/s] 94%|█████████▍| 11190/11858 [1:34:50<05:28,  2.03it/s] 94%|█████████▍| 11191/11858 [1:34:51<05:28,  2.03it/s] 94%|█████████▍| 11192/11858 [1:34:51<05:27,  2.03it/s] 94%|█████████▍| 11193/11858 [1:34:52<05:27,  2.03it/s] 94%|█████████▍| 11194/11858 [1:34:52<05:26,  2.03it/s] 94%|█████████▍| 11195/11858 [1:34:53<05:26,  2.03it/s] 94%|█████████▍| 11196/11858 [1:34:53<05:25,  2.03it/s] 94%|█████████▍| 11197/11858 [1:34:54<05:25,  2.03it/s] 94%|█████████▍| 11198/11858 [1:34:54<05:25,  2.03it/s] 94%|█████████▍| 11199/11858 [1:34:55<05:24,  2.03it/s] 94%|█████████▍| 11200/11858 [1:34:55<05:23,  2.03it/s]                                                       {'loss': 1.4237, 'grad_norm': 0.270266056060791, 'learning_rate': 9.350645629090104e-06, 'epoch': 13.22}
- 94%|█████████▍| 11200/11858 [1:34:55<05:23,  2.03it/s] 94%|█████████▍| 11201/11858 [1:34:56<05:23,  2.03it/s] 94%|█████████▍| 11202/11858 [1:34:56<05:23,  2.03it/s] 94%|█████████▍| 11203/11858 [1:34:57<05:22,  2.03it/s] 94%|█████████▍| 11204/11858 [1:34:57<05:21,  2.03it/s] 94%|█████████▍| 11205/11858 [1:34:57<05:21,  2.03it/s] 95%|█████████▍| 11206/11858 [1:34:58<05:20,  2.03it/s] 95%|█████████▍| 11207/11858 [1:34:58<05:20,  2.03it/s] 95%|█████████▍| 11208/11858 [1:34:59<05:20,  2.03it/s] 95%|█████████▍| 11209/11858 [1:34:59<05:19,  2.03it/s] 95%|█████████▍| 11210/11858 [1:35:00<05:19,  2.03it/s] 95%|█████████▍| 11211/11858 [1:35:00<05:18,  2.03it/s] 95%|█████████▍| 11212/11858 [1:35:01<05:18,  2.03it/s] 95%|█████████▍| 11213/11858 [1:35:01<05:17,  2.03it/s] 95%|█████████▍| 11214/11858 [1:35:02<05:16,  2.03it/s] 95%|█████████▍| 11215/11858 [1:35:02<05:16,  2.03it/s] 95%|█████████▍| 11216/11858 [1:35:03<05:16,  2.03it/s] 95%|█████████▍| 11217/11858 [1:35:03<05:15,  2.03it/s] 95%|█████████▍| 11218/11858 [1:35:04<05:14,  2.03it/s] 95%|█████████▍| 11219/11858 [1:35:04<05:14,  2.03it/s] 95%|█████████▍| 11220/11858 [1:35:05<05:13,  2.03it/s] 95%|█████████▍| 11221/11858 [1:35:05<05:13,  2.03it/s] 95%|█████████▍| 11222/11858 [1:35:06<05:12,  2.03it/s] 95%|█████████▍| 11223/11858 [1:35:06<05:12,  2.03it/s] 95%|█████████▍| 11224/11858 [1:35:07<05:11,  2.03it/s] 95%|█████████▍| 11225/11858 [1:35:07<05:11,  2.03it/s]                                                       {'loss': 1.409, 'grad_norm': 0.27121517062187195, 'learning_rate': 8.65562663793018e-06, 'epoch': 13.24}
- 95%|█████████▍| 11225/11858 [1:35:07<05:11,  2.03it/s] 95%|█████████▍| 11226/11858 [1:35:08<05:10,  2.03it/s] 95%|█████████▍| 11227/11858 [1:35:08<05:10,  2.03it/s] 95%|█████████▍| 11228/11858 [1:35:09<05:14,  2.00it/s] 95%|█████████▍| 11229/11858 [1:35:09<05:12,  2.01it/s] 95%|█████████▍| 11230/11858 [1:35:10<05:11,  2.02it/s] 95%|█████████▍| 11231/11858 [1:35:10<05:10,  2.02it/s] 95%|█████████▍| 11232/11858 [1:35:11<05:09,  2.02it/s] 95%|█████████▍| 11233/11858 [1:35:11<05:08,  2.03it/s] 95%|█████████▍| 11234/11858 [1:35:12<05:07,  2.03it/s] 95%|█████████▍| 11235/11858 [1:35:12<05:07,  2.03it/s] 95%|█████████▍| 11236/11858 [1:35:13<05:06,  2.03it/s] 95%|█████████▍| 11237/11858 [1:35:13<05:05,  2.03it/s] 95%|█████████▍| 11238/11858 [1:35:14<05:05,  2.03it/s] 95%|█████████▍| 11239/11858 [1:35:14<05:04,  2.03it/s] 95%|█████████▍| 11240/11858 [1:35:15<05:04,  2.03it/s] 95%|█████████▍| 11241/11858 [1:35:15<05:03,  2.03it/s] 95%|█████████▍| 11242/11858 [1:35:16<05:03,  2.03it/s] 95%|█████████▍| 11243/11858 [1:35:16<05:02,  2.03it/s] 95%|█████████▍| 11244/11858 [1:35:17<05:02,  2.03it/s] 95%|█████████▍| 11245/11858 [1:35:17<05:01,  2.03it/s] 95%|█████████▍| 11246/11858 [1:35:18<05:01,  2.03it/s] 95%|█████████▍| 11247/11858 [1:35:18<05:00,  2.03it/s] 95%|█████████▍| 11248/11858 [1:35:19<05:00,  2.03it/s] 95%|█████████▍| 11249/11858 [1:35:19<04:59,  2.03it/s] 95%|█████████▍| 11250/11858 [1:35:20<04:59,  2.03it/s]                                                       {'loss': 1.4137, 'grad_norm': 0.27439412474632263, 'learning_rate': 7.987219318437489e-06, 'epoch': 13.27}
- 95%|█████████▍| 11250/11858 [1:35:20<04:59,  2.03it/s] 95%|█████████▍| 11251/11858 [1:35:20<04:59,  2.03it/s] 95%|█████████▍| 11252/11858 [1:35:21<04:58,  2.03it/s] 95%|█████████▍| 11253/11858 [1:35:21<04:57,  2.03it/s] 95%|█████████▍| 11254/11858 [1:35:22<04:57,  2.03it/s] 95%|█████████▍| 11255/11858 [1:35:22<04:56,  2.03it/s] 95%|█████████▍| 11256/11858 [1:35:23<04:56,  2.03it/s] 95%|█████████▍| 11257/11858 [1:35:23<04:55,  2.03it/s] 95%|█████████▍| 11258/11858 [1:35:24<04:54,  2.03it/s] 95%|█████████▍| 11259/11858 [1:35:24<04:54,  2.03it/s] 95%|█████████▍| 11260/11858 [1:35:25<04:54,  2.03it/s] 95%|█████████▍| 11261/11858 [1:35:25<04:53,  2.03it/s] 95%|█████████▍| 11262/11858 [1:35:26<04:53,  2.03it/s] 95%|█████████▍| 11263/11858 [1:35:26<04:52,  2.03it/s] 95%|█████████▍| 11264/11858 [1:35:27<04:52,  2.03it/s] 95%|█████████▍| 11265/11858 [1:35:27<04:51,  2.03it/s] 95%|█████████▌| 11266/11858 [1:35:28<04:50,  2.04it/s] 95%|█████████▌| 11267/11858 [1:35:28<04:50,  2.04it/s] 95%|█████████▌| 11268/11858 [1:35:29<04:50,  2.03it/s] 95%|███████���█▌| 11269/11858 [1:35:29<04:49,  2.03it/s] 95%|█████████▌| 11270/11858 [1:35:30<04:49,  2.03it/s] 95%|█████████▌| 11271/11858 [1:35:30<04:48,  2.03it/s] 95%|█████████▌| 11272/11858 [1:35:30<04:48,  2.03it/s] 95%|█████████▌| 11273/11858 [1:35:31<04:48,  2.03it/s] 95%|█████████▌| 11274/11858 [1:35:31<04:47,  2.03it/s] 95%|█████████▌| 11275/11858 [1:35:32<04:47,  2.03it/s]                                                       {'loss': 1.4096, 'grad_norm': 0.2748500406742096, 'learning_rate': 7.345459872178662e-06, 'epoch': 13.3}
- 95%|█████████▌| 11275/11858 [1:35:32<04:47,  2.03it/s] 95%|█████████▌| 11276/11858 [1:35:32<04:46,  2.03it/s] 95%|█████████▌| 11277/11858 [1:35:33<04:46,  2.03it/s] 95%|█████████▌| 11278/11858 [1:35:33<04:45,  2.03it/s] 95%|█████████▌| 11279/11858 [1:35:34<04:45,  2.03it/s] 95%|█████████▌| 11280/11858 [1:35:34<04:44,  2.03it/s] 95%|█████████▌| 11281/11858 [1:35:35<04:44,  2.03it/s] 95%|█████████▌| 11282/11858 [1:35:35<04:43,  2.03it/s] 95%|█████████▌| 11283/11858 [1:35:36<04:43,  2.03it/s] 95%|█████████▌| 11284/11858 [1:35:36<04:42,  2.03it/s] 95%|█████████▌| 11285/11858 [1:35:37<04:41,  2.03it/s] 95%|█████████▌| 11286/11858 [1:35:37<04:41,  2.03it/s] 95%|█████████▌| 11287/11858 [1:35:38<04:41,  2.03it/s] 95%|█████████▌| 11288/11858 [1:35:38<04:40,  2.03it/s] 95%|█████████▌| 11289/11858 [1:35:39<04:40,  2.03it/s] 95%|█████████▌| 11290/11858 [1:35:39<04:39,  2.03it/s] 95%|█████████▌| 11291/11858 [1:35:40<04:38,  2.03it/s] 95%|█████████▌| 11292/11858 [1:35:40<04:38,  2.03it/s] 95%|█████████▌| 11293/11858 [1:35:41<04:37,  2.03it/s] 95%|█████████▌| 11294/11858 [1:35:41<04:37,  2.03it/s] 95%|█████████▌| 11295/11858 [1:35:42<04:37,  2.03it/s] 95%|█████████▌| 11296/11858 [1:35:42<04:36,  2.03it/s] 95%|█████████▌| 11297/11858 [1:35:43<04:36,  2.03it/s] 95%|█████████▌| 11298/11858 [1:35:43<04:35,  2.03it/s] 95%|█████████▌| 11299/11858 [1:35:44<04:35,  2.03it/s] 95%|█████████▌| 11300/11858 [1:35:44<04:34,  2.03it/s]                                                       {'loss': 1.4072, 'grad_norm': 0.2879108488559723, 'learning_rate': 6.730383057446776e-06, 'epoch': 13.33}
- 95%|█████████▌| 11300/11858 [1:35:44<04:34,  2.03it/s] 95%|█████████▌| 11301/11858 [1:35:45<04:34,  2.03it/s] 95%|█████████▌| 11302/11858 [1:35:45<04:33,  2.03it/s] 95%|█████████▌| 11303/11858 [1:35:46<04:33,  2.03it/s] 95%|█████████▌| 11304/11858 [1:35:46<04:32,  2.03it/s] 95%|█████████▌| 11305/11858 [1:35:47<04:32,  2.03it/s] 95%|█████████▌| 11306/11858 [1:35:47<04:31,  2.03it/s] 95%|█████████▌| 11307/11858 [1:35:48<04:30,  2.03it/s] 95%|█████████▌| 11308/11858 [1:35:48<04:30,  2.03it/s] 95%|█████████▌| 11309/11858 [1:35:49<04:30,  2.03it/s] 95%|█████████▌| 11310/11858 [1:35:49<04:29,  2.03it/s] 95%|█████████▌| 11311/11858 [1:35:50<04:29,  2.03it/s] 95%|█████████▌| 11312/11858 [1:35:50<04:28,  2.03it/s] 95%|█████████▌| 11313/11858 [1:35:51<04:28,  2.03it/s] 95%|█████████▌| 11314/11858 [1:35:51<04:27,  2.03it/s] 95%|█████████▌| 11315/11858 [1:35:52<04:27,  2.03it/s] 95%|█████████▌| 11316/11858 [1:35:52<04:26,  2.03it/s] 95%|█████████▌| 11317/11858 [1:35:53<04:26,  2.03it/s] 95%|█████████▌| 11318/11858 [1:35:53<04:25,  2.03it/s] 95%|█████████▌| 11319/11858 [1:35:54<04:25,  2.03it/s] 95%|█████████▌| 11320/11858 [1:35:54<04:24,  2.03it/s] 95%|█████████▌| 11321/11858 [1:35:55<04:24,  2.03it/s] 95%|█████████▌| 11322/11858 [1:35:55<04:23,  2.03it/s] 95%|█████████▌| 11323/11858 [1:35:56<04:23,  2.03it/s] 95%|█████████▌| 11324/11858 [1:35:56<04:22,  2.03it/s] 96%|█████████▌| 11325/11858 [1:35:57<04:22,  2.03it/s]                                                       {'loss': 1.3971, 'grad_norm': 0.27184367179870605, 'learning_rate': 6.14202218737836e-06, 'epoch': 13.36}
- 96%|█████████▌| 11325/11858 [1:35:57<04:22,  2.03it/s] 96%|█████████▌| 11326/11858 [1:35:57<04:22,  2.03it/s] 96%|█████████▌| 11327/11858 [1:35:58<04:21,  2.03it/s] 96%|█████████▌| 11328/11858 [1:35:58<04:21,  2.03it/s] 96%|█████████▌| 11329/11858 [1:35:59<04:20,  2.03it/s] 96%|█████████▌| 11330/11858 [1:35:59<04:19,  2.03it/s] 96%|█████████▌| 11331/11858 [1:36:00<04:19,  2.03it/s] 96%|█████████▌| 11332/11858 [1:36:00<04:18,  2.03it/s] 96%|█████████▌| 11333/11858 [1:36:01<04:18,  2.03it/s] 96%|█████████▌| 11334/11858 [1:36:01<04:18,  2.03it/s] 96%|█████████▌| 11335/11858 [1:36:01<04:17,  2.03it/s] 96%|█████████▌| 11336/11858 [1:36:02<04:16,  2.03it/s] 96%|█████████▌| 11337/11858 [1:36:02<04:16,  2.03it/s] 96%|█████████▌| 11338/11858 [1:36:03<04:16,  2.03it/s] 96%|█████████▌| 11339/11858 [1:36:03<04:15,  2.03it/s] 96%|█████████▌| 11340/11858 [1:36:04<04:14,  2.03it/s] 96%|█████████▌| 11341/11858 [1:36:04<04:14,  2.03it/s] 96%|█████████▌| 11342/11858 [1:36:05<04:14,  2.03it/s] 96%|█████████▌| 11343/11858 [1:36:05<04:13,  2.03it/s] 96%|█████████▌| 11344/11858 [1:36:06<04:12,  2.03it/s] 96%|█████████▌| 11345/11858 [1:36:06<04:12,  2.03it/s] 96%|█████████▌| 11346/11858 [1:36:07<04:11,  2.03it/s] 96%|█████████▌| 11347/11858 [1:36:07<04:11,  2.03it/s] 96%|█████████▌| 11348/11858 [1:36:08<04:11,  2.03it/s] 96%|█████████▌| 11349/11858 [1:36:08<04:10,  2.03it/s] 96%|█████████▌| 11350/11858 [1:36:09<04:10,  2.03it/s]                                                       {'loss': 1.3887, 'grad_norm': 0.27154362201690674, 'learning_rate': 5.580409128149555e-06, 'epoch': 13.39}
- 96%|█████████▌| 11350/11858 [1:36:09<04:10,  2.03it/s] 96%|█████████▌| 11351/11858 [1:36:09<04:09,  2.03it/s] 96%|█████████▌| 11352/11858 [1:36:10<04:09,  2.03it/s] 96%|█████████▌| 11353/11858 [1:36:10<04:08,  2.03it/s] 96%|█████████▌| 11354/11858 [1:36:11<04:07,  2.03it/s] 96%|█████████▌| 11355/11858 [1:36:11<04:07,  2.03it/s] 96%|█████████▌| 11356/11858 [1:36:12<04:07,  2.03it/s] 96%|█████████▌| 11357/11858 [1:36:12<04:06,  2.03it/s] 96%|█████████▌| 11358/11858 [1:36:13<04:06,  2.03it/s] 96%|█████████▌| 11359/11858 [1:36:13<04:05,  2.03it/s] 96%|█████████▌| 11360/11858 [1:36:14<04:05,  2.03it/s] 96%|█████████▌| 11361/11858 [1:36:14<04:04,  2.03it/s] 96%|█████████▌| 11362/11858 [1:36:15<04:04,  2.03it/s] 96%|█████████▌| 11363/11858 [1:36:15<04:03,  2.03it/s] 96%|█████████▌| 11364/11858 [1:36:16<04:03,  2.03it/s] 96%|█████████▌| 11365/11858 [1:36:16<04:02,  2.03it/s] 96%|█████████▌| 11366/11858 [1:36:17<04:02,  2.03it/s] 96%|█████████▌| 11367/11858 [1:36:17<04:01,  2.03it/s] 96%|█████████▌| 11368/11858 [1:36:18<04:01,  2.03it/s] 96%|█████████▌| 11369/11858 [1:36:18<04:00,  2.03it/s] 96%|█████████▌| 11370/11858 [1:36:19<04:00,  2.03it/s] 96%|█████████▌| 11371/11858 [1:36:19<04:00,  2.03it/s] 96%|█████████▌| 11372/11858 [1:36:20<03:59,  2.03it/s] 96%|█████████▌| 11373/11858 [1:36:20<03:58,  2.03it/s] 96%|█████████▌| 11374/11858 [1:36:21<03:58,  2.03it/s] 96%|█████████▌| 11375/11858 [1:36:21<03:57,  2.03it/s]                                                       {'loss': 1.4055, 'grad_norm': 0.27447032928466797, 'learning_rate': 5.045574297249833e-06, 'epoch': 13.42}
- 96%|█████████▌| 11375/11858 [1:36:21<03:57,  2.03it/s] 96%|█████████▌| 11376/11858 [1:36:22<03:57,  2.03it/s] 96%|█████████▌| 11377/11858 [1:36:22<03:57,  2.03it/s] 96%|█████████▌| 11378/11858 [1:36:23<03:56,  2.03it/s] 96%|█████████▌| 11379/11858 [1:36:23<03:55,  2.03it/s] 96%|█████████▌| 11380/11858 [1:36:24<03:55,  2.03it/s] 96%|█████████▌| 11381/11858 [1:36:24<03:54,  2.03it/s] 96%|█████████▌| 11382/11858 [1:36:25<03:54,  2.03it/s] 96%|█████████▌| 11383/11858 [1:36:25<03:53,  2.03it/s] 96%|█████████▌| 11384/11858 [1:36:26<03:53,  2.03it/s] 96%|█████████▌| 11385/11858 [1:36:26<03:52,  2.03it/s] 96%|█████████▌| 11386/11858 [1:36:27<03:52,  2.03it/s] 96%|█████████▌| 11387/11858 [1:36:27<03:51,  2.03it/s] 96%|█████��███▌| 11388/11858 [1:36:28<03:51,  2.03it/s] 96%|█████████▌| 11389/11858 [1:36:28<03:50,  2.03it/s] 96%|█████████▌| 11390/11858 [1:36:29<03:50,  2.03it/s] 96%|█████████▌| 11391/11858 [1:36:29<03:49,  2.03it/s] 96%|█████████▌| 11392/11858 [1:36:30<03:49,  2.03it/s] 96%|█████████▌| 11393/11858 [1:36:30<03:48,  2.03it/s] 96%|█████████▌| 11394/11858 [1:36:31<03:48,  2.03it/s] 96%|█████████▌| 11395/11858 [1:36:31<03:47,  2.03it/s] 96%|█████████▌| 11396/11858 [1:36:32<03:47,  2.03it/s] 96%|█████████▌| 11397/11858 [1:36:32<03:46,  2.03it/s] 96%|█████████▌| 11398/11858 [1:36:33<03:46,  2.03it/s] 96%|█████████▌| 11399/11858 [1:36:33<03:45,  2.03it/s] 96%|█████████▌| 11400/11858 [1:36:33<03:45,  2.03it/s]                                                       {'loss': 1.4059, 'grad_norm': 0.2724441587924957, 'learning_rate': 4.537546661834813e-06, 'epoch': 13.45}
- 96%|█████████▌| 11400/11858 [1:36:34<03:45,  2.03it/s] 96%|█████████▌| 11401/11858 [1:36:34<03:45,  2.03it/s] 96%|█████████▌| 11402/11858 [1:36:34<03:44,  2.03it/s] 96%|█████████▌| 11403/11858 [1:36:35<03:44,  2.03it/s] 96%|█████████▌| 11404/11858 [1:36:35<03:43,  2.03it/s] 96%|█████████▌| 11405/11858 [1:36:36<03:42,  2.03it/s] 96%|█████████▌| 11406/11858 [1:36:36<03:42,  2.03it/s] 96%|█████████▌| 11407/11858 [1:36:37<03:41,  2.03it/s] 96%|█████████▌| 11408/11858 [1:36:37<03:41,  2.03it/s] 96%|█████████▌| 11409/11858 [1:36:38<03:40,  2.03it/s] 96%|█████████▌| 11410/11858 [1:36:38<03:40,  2.03it/s] 96%|█████████▌| 11411/11858 [1:36:39<03:39,  2.03it/s] 96%|█████████▌| 11412/11858 [1:36:39<03:39,  2.03it/s] 96%|█████████▌| 11413/11858 [1:36:40<03:39,  2.03it/s] 96%|█████████▋| 11414/11858 [1:36:40<03:38,  2.03it/s] 96%|█████████▋| 11415/11858 [1:36:41<03:38,  2.03it/s] 96%|█████████▋| 11416/11858 [1:36:41<03:37,  2.03it/s] 96%|█████████▋| 11417/11858 [1:36:42<03:37,  2.03it/s] 96%|█████████▋| 11418/11858 [1:36:42<03:36,  2.03it/s] 96%|█████████▋| 11419/11858 [1:36:43<03:36,  2.03it/s] 96%|█████████▋| 11420/11858 [1:36:43<03:35,  2.03it/s] 96%|█████████▋| 11421/11858 [1:36:44<03:35,  2.03it/s] 96%|█████████▋| 11422/11858 [1:36:44<03:34,  2.03it/s] 96%|█████████▋| 11423/11858 [1:36:45<03:34,  2.03it/s] 96%|█████████▋| 11424/11858 [1:36:45<03:33,  2.03it/s] 96%|█████████▋| 11425/11858 [1:36:46<03:33,  2.03it/s]                                                       {'loss': 1.3936, 'grad_norm': 0.27472788095474243, 'learning_rate': 4.056353737157292e-06, 'epoch': 13.48}
- 96%|█████████▋| 11425/11858 [1:36:46<03:33,  2.03it/s] 96%|█████████▋| 11426/11858 [1:36:46<03:32,  2.03it/s] 96%|█████████▋| 11427/11858 [1:36:47<03:32,  2.03it/s] 96%|█████████▋| 11428/11858 [1:36:47<03:31,  2.03it/s] 96%|█████████▋| 11429/11858 [1:36:48<03:31,  2.03it/s] 96%|█████████▋| 11430/11858 [1:36:48<03:30,  2.03it/s] 96%|█████████▋| 11431/11858 [1:36:49<03:30,  2.03it/s] 96%|█████████▋| 11432/11858 [1:36:49<03:29,  2.03it/s] 96%|█████████▋| 11433/11858 [1:36:50<03:29,  2.03it/s] 96%|█████████▋| 11434/11858 [1:36:50<03:28,  2.03it/s] 96%|█████████▋| 11435/11858 [1:36:51<03:28,  2.03it/s] 96%|█████████▋| 11436/11858 [1:36:51<03:27,  2.03it/s] 96%|█████████▋| 11437/11858 [1:36:52<03:45,  1.87it/s] 96%|█████████▋| 11438/11858 [1:36:52<03:39,  1.91it/s] 96%|█████████▋| 11439/11858 [1:36:53<03:35,  1.94it/s] 96%|█████████▋| 11440/11858 [1:36:53<03:32,  1.97it/s] 96%|█████████▋| 11441/11858 [1:36:54<03:29,  1.99it/s] 96%|█████████▋| 11442/11858 [1:36:54<03:27,  2.00it/s] 97%|█████████▋| 11443/11858 [1:36:55<03:26,  2.01it/s] 97%|█████████▋| 11444/11858 [1:36:55<03:25,  2.02it/s] 97%|█████████▋| 11445/11858 [1:36:56<03:24,  2.02it/s] 97%|█████████▋| 11446/11858 [1:36:56<03:23,  2.02it/s] 97%|█████████▋| 11447/11858 [1:36:57<03:22,  2.03it/s] 97%|█████████▋| 11448/11858 [1:36:57<03:21,  2.03it/s] 97%|██████��██▋| 11449/11858 [1:36:58<03:21,  2.03it/s] 97%|█████████▋| 11450/11858 [1:36:58<03:20,  2.03it/s]                                                       {'loss': 1.4081, 'grad_norm': 0.2751930058002472, 'learning_rate': 3.602021585076942e-06, 'epoch': 13.51}
- 97%|█████████▋| 11450/11858 [1:36:58<03:20,  2.03it/s] 97%|█████████▋| 11451/11858 [1:36:59<03:20,  2.03it/s] 97%|█████████▋| 11452/11858 [1:36:59<03:19,  2.03it/s] 97%|█████████▋| 11453/11858 [1:37:00<03:19,  2.03it/s] 97%|█████████▋| 11454/11858 [1:37:00<03:19,  2.03it/s] 97%|█████████▋| 11455/11858 [1:37:01<03:18,  2.03it/s] 97%|█████████▋| 11456/11858 [1:37:01<03:17,  2.03it/s] 97%|█████████▋| 11457/11858 [1:37:02<03:17,  2.03it/s] 97%|█████████▋| 11458/11858 [1:37:02<03:16,  2.03it/s] 97%|█████████▋| 11459/11858 [1:37:03<03:16,  2.03it/s] 97%|█████████▋| 11460/11858 [1:37:03<03:15,  2.03it/s] 97%|█████████▋| 11461/11858 [1:37:04<03:15,  2.03it/s] 97%|█████████▋| 11462/11858 [1:37:04<03:14,  2.03it/s] 97%|█████████▋| 11463/11858 [1:37:05<03:14,  2.03it/s] 97%|█████████▋| 11464/11858 [1:37:05<03:13,  2.03it/s] 97%|█████████▋| 11465/11858 [1:37:06<03:13,  2.03it/s] 97%|█████████▋| 11466/11858 [1:37:06<03:12,  2.03it/s] 97%|█████████▋| 11467/11858 [1:37:07<03:12,  2.03it/s] 97%|█████████▋| 11468/11858 [1:37:07<03:11,  2.03it/s] 97%|█████████▋| 11469/11858 [1:37:08<03:11,  2.03it/s] 97%|█████████▋| 11470/11858 [1:37:08<03:11,  2.03it/s] 97%|█████████▋| 11471/11858 [1:37:09<03:12,  2.01it/s] 97%|█████████▋| 11472/11858 [1:37:09<03:11,  2.02it/s] 97%|█████████▋| 11473/11858 [1:37:10<03:10,  2.02it/s] 97%|█████████▋| 11474/11858 [1:37:10<03:09,  2.02it/s] 97%|█████████▋| 11475/11858 [1:37:11<03:09,  2.02it/s]                                                       {'loss': 1.4237, 'grad_norm': 0.2719740867614746, 'learning_rate': 3.1745748126487673e-06, 'epoch': 13.54}
- 97%|█████████▋| 11475/11858 [1:37:11<03:09,  2.02it/s] 97%|█████████▋| 11476/11858 [1:37:11<03:08,  2.02it/s] 97%|█████████▋| 11477/11858 [1:37:12<03:08,  2.03it/s] 97%|█████████▋| 11478/11858 [1:37:12<03:07,  2.03it/s] 97%|█████████▋| 11479/11858 [1:37:13<03:06,  2.03it/s] 97%|█████████▋| 11480/11858 [1:37:13<03:06,  2.03it/s] 97%|█████████▋| 11481/11858 [1:37:14<03:05,  2.03it/s] 97%|█████████▋| 11482/11858 [1:37:14<03:05,  2.03it/s] 97%|█████████▋| 11483/11858 [1:37:15<03:04,  2.03it/s] 97%|█████████▋| 11484/11858 [1:37:15<03:04,  2.03it/s] 97%|█████████▋| 11485/11858 [1:37:16<03:03,  2.03it/s] 97%|█████████▋| 11486/11858 [1:37:16<03:03,  2.03it/s] 97%|█████████▋| 11487/11858 [1:37:16<03:02,  2.03it/s] 97%|█████████▋| 11488/11858 [1:37:17<03:02,  2.03it/s] 97%|█████████▋| 11489/11858 [1:37:17<03:01,  2.03it/s] 97%|█████████▋| 11490/11858 [1:37:18<03:01,  2.03it/s] 97%|█████████▋| 11491/11858 [1:37:18<03:00,  2.03it/s] 97%|█████████▋| 11492/11858 [1:37:19<03:00,  2.03it/s] 97%|█████████▋| 11493/11858 [1:37:19<02:59,  2.03it/s] 97%|█████████▋| 11494/11858 [1:37:20<02:59,  2.03it/s] 97%|█████████▋| 11495/11858 [1:37:20<02:58,  2.03it/s] 97%|█████████▋| 11496/11858 [1:37:21<02:58,  2.03it/s] 97%|█████████▋| 11497/11858 [1:37:21<02:57,  2.03it/s] 97%|█████████▋| 11498/11858 [1:37:22<02:57,  2.03it/s] 97%|█████████▋| 11499/11858 [1:37:22<02:56,  2.03it/s] 97%|█████████▋| 11500/11858 [1:37:23<02:56,  2.03it/s]                                                       {'loss': 1.4059, 'grad_norm': 0.28154313564300537, 'learning_rate': 2.774036570790672e-06, 'epoch': 13.57}
- 97%|█████████▋| 11500/11858 [1:37:23<02:56,  2.03it/s] 97%|█████████▋| 11501/11858 [1:37:23<02:55,  2.03it/s] 97%|█████████▋| 11502/11858 [1:37:24<02:55,  2.03it/s] 97%|█████████▋| 11503/11858 [1:37:24<02:54,  2.03it/s] 97%|█████████▋| 11504/11858 [1:37:25<02:54,  2.03it/s] 97%|█████████▋| 11505/11858 [1:37:25<02:53,  2.03it/s] 97%|█████████▋| 11506/11858 [1:37:26<02:53,  2.03it/s] 97%|███���█████▋| 11507/11858 [1:37:26<02:52,  2.03it/s] 97%|█████████▋| 11508/11858 [1:37:27<02:52,  2.03it/s] 97%|█████████▋| 11509/11858 [1:37:27<02:51,  2.03it/s] 97%|█████████▋| 11510/11858 [1:37:28<02:51,  2.03it/s] 97%|█████████▋| 11511/11858 [1:37:28<02:50,  2.03it/s] 97%|█████████▋| 11512/11858 [1:37:29<02:50,  2.03it/s] 97%|█████████▋| 11513/11858 [1:37:29<02:49,  2.03it/s] 97%|█████████▋| 11514/11858 [1:37:30<02:49,  2.03it/s] 97%|█████████▋| 11515/11858 [1:37:30<02:48,  2.03it/s] 97%|█████████▋| 11516/11858 [1:37:31<02:48,  2.03it/s] 97%|█████████▋| 11517/11858 [1:37:31<02:47,  2.03it/s] 97%|█████████▋| 11518/11858 [1:37:32<02:47,  2.03it/s] 97%|█████████▋| 11519/11858 [1:37:32<02:46,  2.03it/s] 97%|█████████▋| 11520/11858 [1:37:33<02:46,  2.03it/s] 97%|█████████▋| 11521/11858 [1:37:33<02:45,  2.03it/s] 97%|█████████▋| 11522/11858 [1:37:34<02:45,  2.03it/s] 97%|█████████▋| 11523/11858 [1:37:34<02:44,  2.03it/s] 97%|█████████▋| 11524/11858 [1:37:35<02:44,  2.03it/s] 97%|█████████▋| 11525/11858 [1:37:35<02:43,  2.03it/s]                                                       {'loss': 1.4113, 'grad_norm': 0.2736089527606964, 'learning_rate': 2.400428553028966e-06, 'epoch': 13.6}
- 97%|█████████▋| 11525/11858 [1:37:35<02:43,  2.03it/s] 97%|█████████▋| 11526/11858 [1:37:36<02:43,  2.03it/s] 97%|█████████▋| 11527/11858 [1:37:36<02:42,  2.03it/s] 97%|█████████▋| 11528/11858 [1:37:37<02:42,  2.03it/s] 97%|█████████▋| 11529/11858 [1:37:37<02:41,  2.03it/s] 97%|█████████▋| 11530/11858 [1:37:38<02:41,  2.03it/s] 97%|█████████▋| 11531/11858 [1:37:38<02:40,  2.03it/s] 97%|█████████▋| 11532/11858 [1:37:39<02:40,  2.03it/s] 97%|█████████▋| 11533/11858 [1:37:39<02:39,  2.03it/s] 97%|█████████▋| 11534/11858 [1:37:40<02:39,  2.03it/s] 97%|█████████▋| 11535/11858 [1:37:40<02:38,  2.03it/s] 97%|█████████▋| 11536/11858 [1:37:41<02:38,  2.03it/s] 97%|█████████▋| 11537/11858 [1:37:41<02:37,  2.03it/s] 97%|█████████▋| 11538/11858 [1:37:42<02:51,  1.87it/s] 97%|█████████▋| 11539/11858 [1:37:42<02:46,  1.91it/s] 97%|█████████▋| 11540/11858 [1:37:43<02:43,  1.95it/s] 97%|█████████▋| 11541/11858 [1:37:43<02:40,  1.97it/s] 97%|█████████▋| 11542/11858 [1:37:44<02:38,  1.99it/s] 97%|█████████▋| 11543/11858 [1:37:44<02:37,  2.00it/s] 97%|█████████▋| 11544/11858 [1:37:45<02:36,  2.01it/s] 97%|█████████▋| 11545/11858 [1:37:45<02:35,  2.02it/s] 97%|█████████▋| 11546/11858 [1:37:46<02:34,  2.02it/s] 97%|█████████▋| 11547/11858 [1:37:46<02:33,  2.02it/s] 97%|█████████▋| 11548/11858 [1:37:47<02:32,  2.03it/s] 97%|█████████▋| 11549/11858 [1:37:47<02:32,  2.03it/s] 97%|█████████▋| 11550/11858 [1:37:48<02:31,  2.03it/s]                                                       {'loss': 1.3966, 'grad_norm': 0.26977524161338806, 'learning_rate': 2.053770994324078e-06, 'epoch': 13.63}
- 97%|█████████▋| 11550/11858 [1:37:48<02:31,  2.03it/s] 97%|█████████▋| 11551/11858 [1:37:48<02:31,  2.03it/s] 97%|█████████▋| 11552/11858 [1:37:49<02:30,  2.03it/s] 97%|█████████▋| 11553/11858 [1:37:49<02:30,  2.03it/s] 97%|█████████▋| 11554/11858 [1:37:50<02:29,  2.03it/s] 97%|█████████▋| 11555/11858 [1:37:50<02:29,  2.03it/s] 97%|█████████▋| 11556/11858 [1:37:51<02:28,  2.03it/s] 97%|█████████▋| 11557/11858 [1:37:51<02:28,  2.03it/s] 97%|█████████▋| 11558/11858 [1:37:52<02:27,  2.03it/s] 97%|█████████▋| 11559/11858 [1:37:52<02:27,  2.03it/s] 97%|█████████▋| 11560/11858 [1:37:53<02:26,  2.03it/s] 97%|█████████▋| 11561/11858 [1:37:53<02:26,  2.03it/s] 98%|█████████▊| 11562/11858 [1:37:54<02:25,  2.03it/s] 98%|█████████▊| 11563/11858 [1:37:54<02:25,  2.03it/s] 98%|█████████▊| 11564/11858 [1:37:55<02:24,  2.03it/s] 98%|█████████▊| 11565/11858 [1:37:55<02:24,  2.03it/s] 98%|█████████▊| 11566/11858 [1:37:56<02:23,  2.03it/s] 98%|█████████▊| 11567/11858 [1:37:56<02:23,  2.03it/s] 98%|████��████▊| 11568/11858 [1:37:57<02:22,  2.03it/s] 98%|█████████▊| 11569/11858 [1:37:57<02:22,  2.03it/s] 98%|█████████▊| 11570/11858 [1:37:58<02:21,  2.03it/s] 98%|█████████▊| 11571/11858 [1:37:58<02:21,  2.03it/s] 98%|█████████▊| 11572/11858 [1:37:58<02:21,  2.03it/s] 98%|█████████▊| 11573/11858 [1:37:59<02:20,  2.03it/s] 98%|█████████▊| 11574/11858 [1:37:59<02:19,  2.03it/s] 98%|█████████▊| 11575/11858 [1:38:00<02:19,  2.03it/s]                                                       {'loss': 1.4143, 'grad_norm': 0.26982587575912476, 'learning_rate': 1.734082669974213e-06, 'epoch': 13.66}
- 98%|█████████▊| 11575/11858 [1:38:00<02:19,  2.03it/s] 98%|█████████▊| 11576/11858 [1:38:00<02:18,  2.03it/s] 98%|█████████▊| 11577/11858 [1:38:01<02:18,  2.03it/s] 98%|█████████▊| 11578/11858 [1:38:01<02:17,  2.03it/s] 98%|█████████▊| 11579/11858 [1:38:02<02:17,  2.03it/s] 98%|█████████▊| 11580/11858 [1:38:02<02:16,  2.03it/s] 98%|█████████▊| 11581/11858 [1:38:03<02:16,  2.03it/s] 98%|█████████▊| 11582/11858 [1:38:03<02:16,  2.03it/s] 98%|█████████▊| 11583/11858 [1:38:04<02:15,  2.03it/s] 98%|█████████▊| 11584/11858 [1:38:04<02:15,  2.03it/s] 98%|█████████▊| 11585/11858 [1:38:05<02:14,  2.03it/s] 98%|█████████▊| 11586/11858 [1:38:05<02:14,  2.03it/s] 98%|█████████▊| 11587/11858 [1:38:06<02:13,  2.03it/s] 98%|█████████▊| 11588/11858 [1:38:06<02:12,  2.03it/s] 98%|█████████▊| 11589/11858 [1:38:07<02:12,  2.03it/s] 98%|█████████▊| 11590/11858 [1:38:07<02:12,  2.03it/s] 98%|█████████▊| 11591/11858 [1:38:08<02:11,  2.03it/s] 98%|█████████▊| 11592/11858 [1:38:08<02:11,  2.03it/s] 98%|█████████▊| 11593/11858 [1:38:09<02:11,  2.02it/s] 98%|█████████▊| 11594/11858 [1:38:09<02:10,  2.02it/s] 98%|█████████▊| 11595/11858 [1:38:10<02:09,  2.02it/s] 98%|█████████▊| 11596/11858 [1:38:10<02:09,  2.03it/s] 98%|█████████▊| 11597/11858 [1:38:11<02:08,  2.03it/s] 98%|█████████▊| 11598/11858 [1:38:11<02:08,  2.03it/s] 98%|█████████▊| 11599/11858 [1:38:12<02:07,  2.03it/s] 98%|█████████▊| 11600/11858 [1:38:12<02:07,  2.03it/s]                                                       {'loss': 1.4166, 'grad_norm': 0.2741139233112335, 'learning_rate': 1.441380894598554e-06, 'epoch': 13.69}
- 98%|█████████▊| 11600/11858 [1:38:12<02:07,  2.03it/s] 98%|█████████▊| 11601/11858 [1:38:13<02:06,  2.02it/s] 98%|█████████▊| 11602/11858 [1:38:13<02:06,  2.03it/s] 98%|█████████▊| 11603/11858 [1:38:14<02:05,  2.03it/s] 98%|█████████▊| 11604/11858 [1:38:14<02:05,  2.03it/s] 98%|█████████▊| 11605/11858 [1:38:15<02:04,  2.03it/s] 98%|█████████▊| 11606/11858 [1:38:15<02:04,  2.03it/s] 98%|█████████▊| 11607/11858 [1:38:16<02:03,  2.03it/s] 98%|█████████▊| 11608/11858 [1:38:16<02:03,  2.03it/s] 98%|█████████▊| 11609/11858 [1:38:17<02:02,  2.03it/s] 98%|█████████▊| 11610/11858 [1:38:17<02:02,  2.03it/s] 98%|█████████▊| 11611/11858 [1:38:18<02:01,  2.03it/s] 98%|█████████▊| 11612/11858 [1:38:18<02:01,  2.03it/s] 98%|█████████▊| 11613/11858 [1:38:19<02:00,  2.03it/s] 98%|█████████▊| 11614/11858 [1:38:19<02:00,  2.03it/s] 98%|█████████▊| 11615/11858 [1:38:20<01:59,  2.03it/s] 98%|█████████▊| 11616/11858 [1:38:20<01:59,  2.03it/s] 98%|█████████▊| 11617/11858 [1:38:21<01:58,  2.03it/s] 98%|█████████▊| 11618/11858 [1:38:21<01:58,  2.03it/s] 98%|█████████▊| 11619/11858 [1:38:22<01:57,  2.03it/s] 98%|█████████▊| 11620/11858 [1:38:22<01:57,  2.03it/s] 98%|█████████▊| 11621/11858 [1:38:23<01:56,  2.03it/s] 98%|█████████▊| 11622/11858 [1:38:23<01:56,  2.03it/s] 98%|█████████▊| 11623/11858 [1:38:24<01:55,  2.03it/s] 98%|█████████▊| 11624/11858 [1:38:24<01:55,  2.03it/s] 98%|█████████▊| 11625/11858 [1:38:25<01:54,  2.03it/s]                                                       {'loss': 1.4156, 'grad_norm': 0.27150142192840576, 'learning_rate': 1.175681521199512e-06, 'epoch': 13.72}
- 98%|█████████▊| 11625/11858 [1:38:25<01:54,  2.03it/s] 98%|█���███████▊| 11626/11858 [1:38:25<01:54,  2.03it/s] 98%|█████████▊| 11627/11858 [1:38:26<01:53,  2.03it/s] 98%|█████████▊| 11628/11858 [1:38:26<01:53,  2.03it/s] 98%|█████████▊| 11629/11858 [1:38:27<01:52,  2.03it/s] 98%|█████████▊| 11630/11858 [1:38:27<01:52,  2.03it/s] 98%|█████████▊| 11631/11858 [1:38:28<01:51,  2.03it/s] 98%|█████████▊| 11632/11858 [1:38:28<01:51,  2.03it/s] 98%|█████████▊| 11633/11858 [1:38:29<01:50,  2.03it/s] 98%|█████████▊| 11634/11858 [1:38:29<01:50,  2.03it/s] 98%|█████████▊| 11635/11858 [1:38:30<01:50,  2.03it/s] 98%|█████████▊| 11636/11858 [1:38:30<01:49,  2.03it/s] 98%|█████████▊| 11637/11858 [1:38:31<01:48,  2.03it/s] 98%|█████████▊| 11638/11858 [1:38:31<01:48,  2.03it/s] 98%|█████████▊| 11639/11858 [1:38:32<01:47,  2.03it/s] 98%|█████████▊| 11640/11858 [1:38:32<01:47,  2.03it/s] 98%|█████████▊| 11641/11858 [1:38:32<01:46,  2.03it/s] 98%|█████████▊| 11642/11858 [1:38:33<01:46,  2.03it/s] 98%|█████████▊| 11643/11858 [1:38:33<01:45,  2.03it/s] 98%|█████████▊| 11644/11858 [1:38:34<01:45,  2.03it/s] 98%|█████████▊| 11645/11858 [1:38:34<01:44,  2.03it/s] 98%|█████████▊| 11646/11858 [1:38:35<01:44,  2.03it/s] 98%|█████████▊| 11647/11858 [1:38:35<01:43,  2.03it/s] 98%|█████████▊| 11648/11858 [1:38:36<01:43,  2.03it/s] 98%|█████████▊| 11649/11858 [1:38:36<01:42,  2.03it/s] 98%|█████████▊| 11650/11858 [1:38:37<01:42,  2.03it/s]                                                       {'loss': 1.4163, 'grad_norm': 0.2758302390575409, 'learning_rate': 9.369989403041345e-07, 'epoch': 13.75}
- 98%|█████████▊| 11650/11858 [1:38:37<01:42,  2.03it/s] 98%|█████████▊| 11651/11858 [1:38:37<01:41,  2.03it/s] 98%|█████████▊| 11652/11858 [1:38:38<01:41,  2.03it/s] 98%|█████████▊| 11653/11858 [1:38:38<01:40,  2.03it/s] 98%|█████████▊| 11654/11858 [1:38:39<01:40,  2.03it/s] 98%|█████████▊| 11655/11858 [1:38:39<01:40,  2.03it/s] 98%|█████████▊| 11656/11858 [1:38:40<01:39,  2.03it/s] 98%|█████████▊| 11657/11858 [1:38:40<01:39,  2.03it/s] 98%|█████████▊| 11658/11858 [1:38:41<01:38,  2.03it/s] 98%|█████████▊| 11659/11858 [1:38:41<01:37,  2.03it/s] 98%|█████████▊| 11660/11858 [1:38:42<01:37,  2.03it/s] 98%|█████████▊| 11661/11858 [1:38:42<01:36,  2.03it/s] 98%|█████████▊| 11662/11858 [1:38:43<01:36,  2.03it/s] 98%|█████████▊| 11663/11858 [1:38:43<01:35,  2.03it/s] 98%|█████████▊| 11664/11858 [1:38:44<01:35,  2.03it/s] 98%|█████████▊| 11665/11858 [1:38:44<01:34,  2.03it/s] 98%|█████████▊| 11666/11858 [1:38:45<01:34,  2.03it/s] 98%|█████████▊| 11667/11858 [1:38:45<01:34,  2.03it/s] 98%|█████████▊| 11668/11858 [1:38:46<01:33,  2.03it/s] 98%|█████████▊| 11669/11858 [1:38:46<01:33,  2.03it/s] 98%|█████████▊| 11670/11858 [1:38:47<01:32,  2.03it/s] 98%|█████████▊| 11671/11858 [1:38:47<01:32,  2.03it/s] 98%|█████████▊| 11672/11858 [1:38:48<01:31,  2.03it/s] 98%|█████████▊| 11673/11858 [1:38:48<01:31,  2.03it/s] 98%|█████████▊| 11674/11858 [1:38:49<01:30,  2.03it/s] 98%|█████████▊| 11675/11858 [1:38:49<01:30,  2.03it/s]                                                       {'loss': 1.4056, 'grad_norm': 0.2707933783531189, 'learning_rate': 7.253460791846744e-07, 'epoch': 13.78}
- 98%|█████████▊| 11675/11858 [1:38:49<01:30,  2.03it/s] 98%|█████████▊| 11676/11858 [1:38:50<01:29,  2.03it/s] 98%|█████████▊| 11677/11858 [1:38:50<01:29,  2.03it/s] 98%|█████████▊| 11678/11858 [1:38:51<01:28,  2.02it/s] 98%|█████████▊| 11679/11858 [1:38:51<01:28,  2.02it/s] 98%|█████████▊| 11680/11858 [1:38:52<01:27,  2.02it/s] 99%|█████████▊| 11681/11858 [1:38:52<01:27,  2.03it/s] 99%|█████████▊| 11682/11858 [1:38:53<01:26,  2.03it/s] 99%|█████████▊| 11683/11858 [1:38:53<01:26,  2.03it/s] 99%|█████████▊| 11684/11858 [1:38:54<01:25,  2.03it/s] 99%|█████████▊| 11685/11858 [1:38:54<01:25,  2.03it/s] 99%|█████████▊| 11686/11858 [1:38:55<01:24,  2.03it/s] 99%|██��██████▊| 11687/11858 [1:38:55<01:24,  2.03it/s] 99%|█████████▊| 11688/11858 [1:38:56<01:23,  2.03it/s] 99%|█████████▊| 11689/11858 [1:38:56<01:23,  2.03it/s] 99%|█████████▊| 11690/11858 [1:38:57<01:22,  2.03it/s] 99%|█████████▊| 11691/11858 [1:38:57<01:22,  2.03it/s] 99%|█████████▊| 11692/11858 [1:38:58<01:21,  2.03it/s] 99%|█████████▊| 11693/11858 [1:38:58<01:21,  2.03it/s] 99%|█████████▊| 11694/11858 [1:38:59<01:20,  2.03it/s] 99%|█████████▊| 11695/11858 [1:38:59<01:20,  2.03it/s] 99%|█████████▊| 11696/11858 [1:39:00<01:19,  2.03it/s] 99%|█████████▊| 11697/11858 [1:39:00<01:19,  2.03it/s] 99%|█████████▊| 11698/11858 [1:39:01<01:18,  2.03it/s] 99%|█████████▊| 11699/11858 [1:39:01<01:18,  2.03it/s] 99%|█████████▊| 11700/11858 [1:39:02<01:17,  2.03it/s]                                                       {'loss': 1.4194, 'grad_norm': 0.2714517116546631, 'learning_rate': 5.40734401158427e-07, 'epoch': 13.81}
- 99%|█████████▊| 11700/11858 [1:39:02<01:17,  2.03it/s] 99%|█████████▊| 11701/11858 [1:39:02<01:17,  2.02it/s] 99%|█████████▊| 11702/11858 [1:39:03<01:17,  2.02it/s] 99%|█████████▊| 11703/11858 [1:39:03<01:16,  2.03it/s] 99%|█████████▊| 11704/11858 [1:39:04<01:16,  2.02it/s] 99%|█████████▊| 11705/11858 [1:39:04<01:15,  2.02it/s] 99%|█████████▊| 11706/11858 [1:39:05<01:15,  2.02it/s] 99%|█████████▊| 11707/11858 [1:39:05<01:14,  2.02it/s] 99%|█████████▊| 11708/11858 [1:39:06<01:14,  2.02it/s] 99%|█████████▊| 11709/11858 [1:39:06<01:13,  2.02it/s] 99%|█████████▉| 11710/11858 [1:39:07<01:13,  2.02it/s] 99%|█████████▉| 11711/11858 [1:39:07<01:12,  2.02it/s] 99%|█████████▉| 11712/11858 [1:39:08<01:12,  2.02it/s] 99%|█████████▉| 11713/11858 [1:39:08<01:11,  2.02it/s] 99%|█████████▉| 11714/11858 [1:39:08<01:11,  2.02it/s] 99%|█████████▉| 11715/11858 [1:39:09<01:10,  2.02it/s] 99%|█████████▉| 11716/11858 [1:39:09<01:10,  2.02it/s] 99%|█████████▉| 11717/11858 [1:39:10<01:09,  2.02it/s] 99%|█████████▉| 11718/11858 [1:39:10<01:09,  2.02it/s] 99%|█████████▉| 11719/11858 [1:39:11<01:08,  2.02it/s] 99%|█████████▉| 11720/11858 [1:39:11<01:08,  2.02it/s] 99%|█████████▉| 11721/11858 [1:39:12<01:07,  2.02it/s] 99%|█████████▉| 11722/11858 [1:39:12<01:07,  2.02it/s] 99%|█████████▉| 11723/11858 [1:39:13<01:07,  2.01it/s] 99%|█████████▉| 11724/11858 [1:39:13<01:06,  2.02it/s] 99%|█████████▉| 11725/11858 [1:39:14<01:05,  2.02it/s]                                                       {'loss': 1.3945, 'grad_norm': 0.26841220259666443, 'learning_rate': 3.8317390496678264e-07, 'epoch': 13.83}
- 99%|█████████▉| 11725/11858 [1:39:14<01:05,  2.02it/s] 99%|█████████▉| 11726/11858 [1:39:14<01:05,  2.02it/s] 99%|█████████▉| 11727/11858 [1:39:15<01:05,  2.02it/s] 99%|█████████▉| 11728/11858 [1:39:15<01:04,  2.02it/s] 99%|█████████▉| 11729/11858 [1:39:16<01:03,  2.02it/s] 99%|█████████▉| 11730/11858 [1:39:16<01:03,  2.02it/s] 99%|█████████▉| 11731/11858 [1:39:17<01:02,  2.02it/s] 99%|█████████▉| 11732/11858 [1:39:17<01:02,  2.02it/s] 99%|█████████▉| 11733/11858 [1:39:18<01:01,  2.02it/s] 99%|█████████▉| 11734/11858 [1:39:18<01:01,  2.02it/s] 99%|█████████▉| 11735/11858 [1:39:19<01:00,  2.02it/s] 99%|█████████▉| 11736/11858 [1:39:19<01:00,  2.02it/s] 99%|█████████▉| 11737/11858 [1:39:20<00:59,  2.02it/s] 99%|█████████▉| 11738/11858 [1:39:20<00:59,  2.02it/s] 99%|█████████▉| 11739/11858 [1:39:21<00:58,  2.02it/s] 99%|█████████▉| 11740/11858 [1:39:21<00:58,  2.02it/s] 99%|█████████▉| 11741/11858 [1:39:22<00:57,  2.02it/s] 99%|█████████▉| 11742/11858 [1:39:22<00:57,  2.02it/s] 99%|█████████▉| 11743/11858 [1:39:23<00:56,  2.02it/s] 99%|█████████▉| 11744/11858 [1:39:23<00:56,  2.02it/s] 99%|█████████▉| 11745/11858 [1:39:24<00:55,  2.02it/s] 99%|█████████▉| 11746/11858 [1:39:24<00:55,  2.02it/s] 99%|█████████▉| 11747/11858 [1:39:25<00:55,  2.01it/s] 99%|███��█████▉| 11748/11858 [1:39:25<00:54,  2.02it/s] 99%|█████████▉| 11749/11858 [1:39:26<00:54,  2.01it/s] 99%|█████████▉| 11750/11858 [1:39:26<00:53,  2.02it/s]                                                       {'loss': 1.4102, 'grad_norm': 0.26787447929382324, 'learning_rate': 2.5267312423393753e-07, 'epoch': 13.86}
- 99%|█████████▉| 11750/11858 [1:39:26<00:53,  2.02it/s] 99%|█████████▉| 11751/11858 [1:39:27<00:53,  2.02it/s] 99%|█████████▉| 11752/11858 [1:39:27<00:52,  2.02it/s] 99%|█████████▉| 11753/11858 [1:39:28<00:52,  2.02it/s] 99%|█████████▉| 11754/11858 [1:39:28<00:51,  2.02it/s] 99%|█████████▉| 11755/11858 [1:39:29<00:51,  2.02it/s] 99%|█████████▉| 11756/11858 [1:39:29<00:50,  2.02it/s] 99%|█████████▉| 11757/11858 [1:39:30<00:50,  2.02it/s] 99%|█████████▉| 11758/11858 [1:39:30<00:49,  2.02it/s] 99%|█████████▉| 11759/11858 [1:39:31<00:49,  2.02it/s] 99%|█████████▉| 11760/11858 [1:39:31<00:48,  2.01it/s] 99%|█████████▉| 11761/11858 [1:39:32<00:48,  2.01it/s] 99%|█████████▉| 11762/11858 [1:39:32<00:47,  2.01it/s] 99%|█████████▉| 11763/11858 [1:39:33<00:47,  2.01it/s] 99%|█████████▉| 11764/11858 [1:39:33<00:46,  2.01it/s] 99%|█████████▉| 11765/11858 [1:39:34<00:46,  2.01it/s] 99%|█████████▉| 11766/11858 [1:39:34<00:45,  2.01it/s] 99%|█████████▉| 11767/11858 [1:39:35<00:45,  2.02it/s] 99%|█████████▉| 11768/11858 [1:39:35<00:44,  2.02it/s] 99%|█████████▉| 11769/11858 [1:39:36<00:43,  2.02it/s] 99%|█████████▉| 11770/11858 [1:39:36<00:43,  2.03it/s] 99%|█████████▉| 11771/11858 [1:39:37<00:42,  2.03it/s] 99%|█████████▉| 11772/11858 [1:39:37<00:42,  2.03it/s] 99%|█████████▉| 11773/11858 [1:39:38<00:41,  2.03it/s] 99%|█████████▉| 11774/11858 [1:39:38<00:41,  2.03it/s] 99%|█████████▉| 11775/11858 [1:39:39<00:40,  2.03it/s]                                                       {'loss': 1.4141, 'grad_norm': 0.2717013359069824, 'learning_rate': 1.492391270044302e-07, 'epoch': 13.89}
- 99%|█████████▉| 11775/11858 [1:39:39<00:40,  2.03it/s] 99%|█████████▉| 11776/11858 [1:39:39<00:40,  2.03it/s] 99%|█████████▉| 11777/11858 [1:39:40<00:39,  2.03it/s] 99%|█████████▉| 11778/11858 [1:39:40<00:39,  2.03it/s] 99%|█████████▉| 11779/11858 [1:39:41<00:38,  2.03it/s] 99%|█████████▉| 11780/11858 [1:39:41<00:38,  2.03it/s] 99%|█████████▉| 11781/11858 [1:39:42<00:37,  2.03it/s] 99%|█████████▉| 11782/11858 [1:39:42<00:37,  2.03it/s] 99%|█████████▉| 11783/11858 [1:39:43<00:36,  2.03it/s] 99%|█████████▉| 11784/11858 [1:39:43<00:36,  2.03it/s] 99%|█████████▉| 11785/11858 [1:39:44<00:35,  2.03it/s] 99%|█████████▉| 11786/11858 [1:39:44<00:35,  2.03it/s] 99%|█████████▉| 11787/11858 [1:39:45<00:34,  2.03it/s] 99%|█████████▉| 11788/11858 [1:39:45<00:34,  2.03it/s] 99%|█████████▉| 11789/11858 [1:39:46<00:33,  2.03it/s] 99%|█████████▉| 11790/11858 [1:39:46<00:33,  2.03it/s] 99%|█████████▉| 11791/11858 [1:39:47<00:32,  2.03it/s] 99%|█████████▉| 11792/11858 [1:39:47<00:32,  2.03it/s] 99%|█████████▉| 11793/11858 [1:39:48<00:31,  2.03it/s] 99%|█████████▉| 11794/11858 [1:39:48<00:31,  2.03it/s] 99%|█████████▉| 11795/11858 [1:39:49<00:31,  2.03it/s] 99%|█████████▉| 11796/11858 [1:39:49<00:30,  2.03it/s] 99%|█████████▉| 11797/11858 [1:39:50<00:30,  2.03it/s] 99%|█████████▉| 11798/11858 [1:39:50<00:29,  2.03it/s]100%|█████████▉| 11799/11858 [1:39:51<00:29,  2.03it/s]100%|█████████▉| 11800/11858 [1:39:51<00:28,  2.03it/s]                                                       {'loss': 1.4248, 'grad_norm': 0.2673147916793823, 'learning_rate': 7.287751536050324e-08, 'epoch': 13.92}
-100%|█████████▉| 11800/11858 [1:39:51<00:28,  2.03it/s]100%|█████████▉| 11801/11858 [1:39:52<00:28,  2.03it/s]100%|█████████▉| 11802/11858 [1:39:52<00:27,  2.03it/s]100%|█████████▉| 11803/11858 [1:39:52<00:27,  2.03it/s]100%|█████████▉| 11804/11858 [1:39:53<00:26,  2.03it/s]100%|█████████▉| 11805/11858 [1:39:53<00:26,  2.03it/s]100%|���████████▉| 11806/11858 [1:39:54<00:25,  2.03it/s]100%|█████████▉| 11807/11858 [1:39:54<00:25,  2.03it/s]100%|█████████▉| 11808/11858 [1:39:55<00:24,  2.03it/s]100%|█████████▉| 11809/11858 [1:39:55<00:24,  2.03it/s]100%|█████████▉| 11810/11858 [1:39:56<00:23,  2.03it/s]100%|█████████▉| 11811/11858 [1:39:56<00:23,  2.03it/s]100%|█████████▉| 11812/11858 [1:39:57<00:22,  2.03it/s]100%|█████████▉| 11813/11858 [1:39:57<00:22,  2.03it/s]100%|█████████▉| 11814/11858 [1:39:58<00:21,  2.03it/s]100%|█████████▉| 11815/11858 [1:39:58<00:21,  2.03it/s]100%|█████████▉| 11816/11858 [1:39:59<00:20,  2.03it/s]100%|█████████▉| 11817/11858 [1:39:59<00:20,  2.03it/s]100%|█████████▉| 11818/11858 [1:40:00<00:19,  2.03it/s]100%|█████████▉| 11819/11858 [1:40:00<00:19,  2.03it/s]100%|█████████▉| 11820/11858 [1:40:01<00:18,  2.03it/s]100%|█████████▉| 11821/11858 [1:40:01<00:18,  2.03it/s]100%|█████████▉| 11822/11858 [1:40:02<00:17,  2.03it/s]100%|█████████▉| 11823/11858 [1:40:02<00:17,  2.03it/s]100%|█████████▉| 11824/11858 [1:40:03<00:16,  2.03it/s]100%|█████████▉| 11825/11858 [1:40:03<00:16,  2.03it/s]                                                       {'loss': 1.4013, 'grad_norm': 0.2696280777454376, 'learning_rate': 2.359242511851267e-08, 'epoch': 13.95}
-100%|█████████▉| 11825/11858 [1:40:03<00:16,  2.03it/s]100%|█████████▉| 11826/11858 [1:40:04<00:15,  2.03it/s]100%|█████████▉| 11827/11858 [1:40:04<00:15,  2.03it/s]100%|█████████▉| 11828/11858 [1:40:05<00:14,  2.03it/s]100%|█████████▉| 11829/11858 [1:40:05<00:14,  2.03it/s]100%|█████████▉| 11830/11858 [1:40:06<00:13,  2.03it/s]100%|█████████▉| 11831/11858 [1:40:06<00:13,  2.03it/s]100%|█████████▉| 11832/11858 [1:40:07<00:12,  2.03it/s]100%|█████████▉| 11833/11858 [1:40:07<00:12,  2.03it/s]100%|█████████▉| 11834/11858 [1:40:08<00:11,  2.03it/s]100%|█████████▉| 11835/11858 [1:40:08<00:11,  2.03it/s]100%|█████████▉| 11836/11858 [1:40:09<00:10,  2.03it/s]100%|█████████▉| 11837/11858 [1:40:09<00:10,  2.03it/s]100%|█████████▉| 11838/11858 [1:40:10<00:09,  2.03it/s]100%|█████████▉| 11839/11858 [1:40:10<00:09,  2.03it/s]100%|█████████▉| 11840/11858 [1:40:11<00:08,  2.03it/s]100%|█████████▉| 11841/11858 [1:40:11<00:08,  2.03it/s]100%|█████████▉| 11842/11858 [1:40:12<00:07,  2.03it/s]100%|█████████▉| 11843/11858 [1:40:12<00:07,  2.03it/s]100%|█████████▉| 11844/11858 [1:40:13<00:06,  2.03it/s]100%|█████████▉| 11845/11858 [1:40:13<00:06,  2.03it/s]100%|█████████▉| 11846/11858 [1:40:14<00:05,  2.03it/s]100%|█████████▉| 11847/11858 [1:40:14<00:05,  2.03it/s]100%|█████████▉| 11848/11858 [1:40:15<00:04,  2.03it/s]100%|█████████▉| 11849/11858 [1:40:15<00:04,  2.03it/s]100%|█████████▉| 11850/11858 [1:40:16<00:03,  2.03it/s]                                                       {'loss': 1.4009, 'grad_norm': 0.2688133418560028, 'learning_rate': 1.3865256052181252e-09, 'epoch': 13.98}
-100%|█████████▉| 11850/11858 [1:40:16<00:03,  2.03it/s]100%|█████████▉| 11851/11858 [1:40:16<00:03,  2.03it/s]100%|█████████▉| 11852/11858 [1:40:17<00:02,  2.03it/s]100%|█████████▉| 11853/11858 [1:40:17<00:02,  2.03it/s]100%|█████████▉| 11854/11858 [1:40:18<00:01,  2.03it/s]100%|█████████▉| 11855/11858 [1:40:18<00:01,  2.03it/s]100%|█████████▉| 11856/11858 [1:40:19<00:00,  2.03it/s]100%|█████████▉| 11857/11858 [1:40:19<00:00,  2.03it/s]100%|██████████| 11858/11858 [1:40:20<00:00,  2.03it/s]                                                       {'train_runtime': 6031.7196, 'train_samples_per_second': 2013.541, 'train_steps_per_second': 1.966, 'train_loss': 2.1793647651267025, 'epoch': 13.99}
-100%|██████████| 11858/11858 [1:40:31<00:00,  2.03it/s]100%|██████████| 11858/11858 [1:40:31<00:00,  1.97it/s]
-Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
+[2024-05-27 10:05:53,482] torch.distributed.run: [WARNING] 
+[2024-05-27 10:05:53,482] torch.distributed.run: [WARNING] *****************************************
+[2024-05-27 10:05:53,482] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+[2024-05-27 10:05:53,482] torch.distributed.run: [WARNING] *****************************************
+05/27/2024 10:06:12 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=14.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+05/27/2024 10:06:15 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_projection/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=14.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+  0%|          | 0/10682 [00:00<?, ?it/s][rank0]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+[rank1]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+  0%|          | 1/10682 [00:10<31:15:36, 10.54s/it]  0%|          | 2/10682 [00:14<20:14:46,  6.82s/it]  0%|          | 3/10682 [00:18<16:10:01,  5.45s/it]  0%|          | 4/10682 [00:20<12:28:20,  4.20s/it]  0%|          | 5/10682 [00:23<10:46:51,  3.64s/it]  0%|          | 6/10682 [00:25<9:36:45,  3.24s/it]   0%|          | 7/10682 [00:27<8:11:25,  2.76s/it]  0%|          | 8/10682 [00:29<7:34:52,  2.56s/it]  0%|          | 9/10682 [00:31<6:42:37,  2.26s/it]  0%|          | 10/10682 [00:33<6:07:18,  2.07s/it]  0%|          | 11/10682 [00:34<5:22:06,  1.81s/it]  0%|          | 12/10682 [00:35<5:02:01,  1.70s/it]  0%|          | 13/10682 [00:36<4:34:37,  1.54s/it]  0%|          | 14/10682 [00:38<4:13:15,  1.42s/it]  0%|          | 15/10682 [00:39<3:53:25,  1.31s/it]  0%|          | 16/10682 [00:40<3:32:44,  1.20s/it]  0%|          | 17/10682 [00:41<3:18:22,  1.12s/it]  0%|          | 18/10682 [00:41<3:00:59,  1.02s/it]  0%|          | 19/10682 [00:42<3:03:58,  1.04s/it]  0%|          | 20/10682 [00:43<2:51:46,  1.03it/s]  0%|          | 21/10682 [00:44<2:42:19,  1.09it/s]  0%|          | 22/10682 [00:45<2:33:12,  1.16it/s]  0%|          | 23/10682 [00:45<2:24:02,  1.23it/s]  0%|          | 24/10682 [00:46<2:16:31,  1.30it/s]  0%|          | 25/10682 [00:47<2:14:11,  1.32it/s]{'loss': 10.6474, 'grad_norm': 1.4571192264556885, 'learning_rate': 2.3386342376052384e-05, 'epoch': 0.03}                                                    
+  0%|          | 25/10682 [00:47<2:14:11,  1.32it/s]  0%|          | 26/10682 [00:48<2:19:36,  1.27it/s]  0%|          | 27/10682 [00:48<2:11:34,  1.35it/s]  0%|          | 28/10682 [00:49<2:07:07,  1.40it/s]  0%|          | 29/10682 [00:50<2:02:26,  1.45it/s]  0%|          | 30/10682 [00:50<1:55:59,  1.53it/s]  0%|          | 31/10682 [00:51<1:51:27,  1.59it/s]  0%|          | 32/10682 [00:51<1:49:26,  1.62it/s]  0%|          | 33/10682 [00:52<1:50:08,  1.61it/s]  0%|          | 34/10682 [00:53<1:48:17,  1.64it/s]  0%|          | 35/10682 [00:53<1:57:44,  1.51it/s]  0%|          | 36/10682 [00:54<1:53:55,  1.56it/s]  0%|          | 37/10682 [00:54<1:48:19,  1.64it/s]  0%|          | 38/10682 [00:55<1:47:36,  1.65it/s]  0%|          | 39/10682 [00:56<1:45:07,  1.69it/s]  0%|          | 40/10682 [00:56<1:43:20,  1.72it/s]  0%|          | 41/10682 [00:57<1:40:35,  1.76it/s]  0%|          | 42/10682 [00:57<1:42:26,  1.73it/s]  0%|          | 43/10682 [00:58<1:40:02,  1.77it/s]  0%|          | 44/10682 [00:58<1:38:14,  1.80it/s]  0%|          | 45/10682 [00:59<1:38:18,  1.80it/s]  0%|          | 46/10682 [00:59<1:36:53,  1.83it/s]  0%|          | 47/10682 [01:00<1:34:36,  1.87it/s]  0%|          | 48/10682 [01:00<1:32:40,  1.91it/s]  0%|          | 49/10682 [01:01<1:31:16,  1.94it/s]  0%|          | 50/10682 [01:01<1:30:30,  1.96it/s]                                                    {'loss': 9.9024, 'grad_norm': 1.3314062356948853, 'learning_rate': 4.677268475210477e-05, 'epoch': 0.07}
+  0%|          | 50/10682 [01:01<1:30:30,  1.96it/s]  0%|          | 51/10682 [01:02<1:29:48,  1.97it/s]  0%|          | 52/10682 [01:02<1:30:13,  1.96it/s]  0%|          | 53/10682 [01:03<1:31:21,  1.94it/s]  1%|          | 54/10682 [01:04<1:31:20,  1.94it/s]  1%|          | 55/10682 [01:04<1:31:27,  1.94it/s]  1%|          | 56/10682 [01:05<1:32:24,  1.92it/s]  1%|          | 57/10682 [01:05<1:32:34,  1.91it/s]  1%|          | 58/10682 [01:06<1:32:51,  1.91it/s]  1%|          | 59/10682 [01:06<1:33:54,  1.89it/s]  1%|          | 60/10682 [01:07<1:32:35,  1.91it/s]  1%|          | 61/10682 [01:07<1:32:23,  1.92it/s]  1%|          | 62/10682 [01:08<1:32:03,  1.92it/s]  1%|          | 63/10682 [01:08<1:31:01,  1.94it/s]  1%|          | 64/10682 [01:09<1:30:28,  1.96it/s]  1%|          | 65/10682 [01:09<1:31:04,  1.94it/s]  1%|          | 66/10682 [01:10<1:30:05,  1.96it/s]  1%|          | 67/10682 [01:10<1:29:44,  1.97it/s]  1%|          | 68/10682 [01:11<1:29:09,  1.98it/s]  1%|          | 69/10682 [01:11<1:29:27,  1.98it/s]  1%|          | 70/10682 [01:12<1:29:05,  1.99it/s]  1%|          | 71/10682 [01:12<1:28:39,  1.99it/s]  1%|          | 72/10682 [01:13<1:28:23,  2.00it/s]  1%|          | 73/10682 [01:13<1:28:11,  2.00it/s]  1%|          | 74/10682 [01:14<1:27:54,  2.01it/s]  1%|          | 75/10682 [01:14<1:27:45,  2.01it/s]{'loss': 9.1814, 'grad_norm': 1.1333130598068237, 'learning_rate': 7.015902712815715e-05, 'epoch': 0.1}
+                                                      1%|          | 75/10682 [01:14<1:27:45,  2.01it/s]  1%|          | 76/10682 [01:15<1:27:54,  2.01it/s]  1%|          | 77/10682 [01:15<1:27:58,  2.01it/s]  1%|          | 78/10682 [01:16<1:27:47,  2.01it/s]  1%|          | 79/10682 [01:16<1:28:03,  2.01it/s]  1%|          | 80/10682 [01:17<1:28:44,  1.99it/s]  1%|          | 81/10682 [01:17<1:28:29,  2.00it/s]  1%|          | 82/10682 [01:18<1:28:28,  2.00it/s]  1%|          | 83/10682 [01:18<1:28:05,  2.01it/s]  1%|          | 84/10682 [01:19<1:27:51,  2.01it/s]  1%|          | 85/10682 [01:19<1:28:10,  2.00it/s]  1%|          | 86/10682 [01:20<1:27:57,  2.01it/s]  1%|          | 87/10682 [01:20<1:27:43,  2.01it/s]  1%|          | 88/10682 [01:21<1:27:33,  2.02it/s]  1%|          | 89/10682 [01:21<1:27:19,  2.02it/s]  1%|          | 90/10682 [01:22<1:27:12,  2.02it/s]  1%|          | 91/10682 [01:22<1:27:49,  2.01it/s]  1%|          | 92/10682 [01:23<1:28:05,  2.00it/s]  1%|          | 93/10682 [01:23<1:28:10,  2.00it/s]  1%|          | 94/10682 [01:24<1:28:24,  2.00it/s]  1%|          | 95/10682 [01:24<1:28:01,  2.00it/s]  1%|          | 96/10682 [01:25<1:27:40,  2.01it/s]  1%|          | 97/10682 [01:25<1:27:25,  2.02it/s]  1%|          | 98/10682 [01:26<1:27:21,  2.02it/s]  1%|          | 99/10682 [01:26<1:27:12,  2.02it/s]  1%|          | 100/10682 [01:27<1:27:06,  2.02it/s]{'loss': 8.3876, 'grad_norm': 0.7866231203079224, 'learning_rate': 9.354536950420954e-05, 'epoch': 0.13}
+                                                       1%|          | 100/10682 [01:27<1:27:06,  2.02it/s]  1%|          | 101/10682 [01:27<1:27:09,  2.02it/s]  1%|          | 102/10682 [01:28<1:27:08,  2.02it/s]  1%|          | 103/10682 [01:28<1:27:30,  2.01it/s]  1%|          | 104/10682 [01:29<1:27:34,  2.01it/s]  1%|          | 105/10682 [01:29<1:27:19,  2.02it/s]  1%|          | 106/10682 [01:30<1:27:22,  2.02it/s]  1%|          | 107/10682 [01:30<1:27:09,  2.02it/s]  1%|          | 108/10682 [01:31<1:27:05,  2.02it/s]  1%|          | 109/10682 [01:31<1:27:29,  2.01it/s]  1%|          | 110/10682 [01:32<1:27:16,  2.02it/s]  1%|          | 111/10682 [01:32<1:27:07,  2.02it/s]  1%|          | 112/10682 [01:33<1:27:02,  2.02it/s]  1%|          | 113/10682 [01:33<1:26:58,  2.03it/s]  1%|          | 114/10682 [01:34<1:26:56,  2.03it/s]  1%|          | 115/10682 [01:34<1:26:54,  2.03it/s]  1%|          | 116/10682 [01:35<1:26:57,  2.03it/s]  1%|          | 117/10682 [01:35<1:26:48,  2.03it/s]  1%|          | 118/10682 [01:36<1:26:48,  2.03it/s]  1%|          | 119/10682 [01:36<1:26:53,  2.03it/s]  1%|          | 120/10682 [01:37<1:26:55,  2.03it/s]  1%|          | 121/10682 [01:37<1:26:50,  2.03it/s]  1%|          | 122/10682 [01:38<1:26:44,  2.03it/s]  1%|          | 123/10682 [01:38<1:26:48,  2.03it/s]  1%|          | 124/10682 [01:39<1:26:53,  2.03it/s]  1%|          | 125/10682 [01:39<1:26:54,  2.02it/s]                                                     {'loss': 7.7383, 'grad_norm': 0.45621567964553833, 'learning_rate': 0.00011693171188026193, 'epoch': 0.16}
+  1%|          | 125/10682 [01:39<1:26:54,  2.02it/s]  1%|          | 126/10682 [01:40<1:27:25,  2.01it/s]  1%|          | 127/10682 [01:40<1:27:14,  2.02it/s]  1%|          | 128/10682 [01:40<1:27:05,  2.02it/s]  1%|          | 129/10682 [01:41<1:27:24,  2.01it/s]  1%|          | 130/10682 [01:41<1:27:12,  2.02it/s]  1%|          | 131/10682 [01:42<1:26:58,  2.02it/s]  1%|          | 132/10682 [01:42<1:26:57,  2.02it/s]  1%|          | 133/10682 [01:43<1:26:47,  2.03it/s]  1%|▏         | 134/10682 [01:43<1:26:42,  2.03it/s]  1%|▏         | 135/10682 [01:44<1:26:39,  2.03it/s]  1%|▏         | 136/10682 [01:44<1:26:37,  2.03it/s]  1%|▏         | 137/10682 [01:45<1:26:48,  2.02it/s]  1%|▏         | 138/10682 [01:45<1:26:44,  2.03it/s]  1%|▏         | 139/10682 [01:46<1:26:42,  2.03it/s]  1%|▏         | 140/10682 [01:46<1:26:41,  2.03it/s]  1%|▏         | 141/10682 [01:47<1:26:36,  2.03it/s]  1%|▏         | 142/10682 [01:47<1:26:37,  2.03it/s]  1%|▏         | 143/10682 [01:48<1:26:41,  2.03it/s]  1%|▏         | 144/10682 [01:48<1:26:36,  2.03it/s]  1%|▏         | 145/10682 [01:49<1:26:27,  2.03it/s]  1%|▏         | 146/10682 [01:49<1:26:27,  2.03it/s]  1%|▏         | 147/10682 [01:50<1:26:27,  2.03it/s]  1%|▏         | 148/10682 [01:50<1:26:20,  2.03it/s]  1%|▏         | 149/10682 [01:51<1:26:20,  2.03it/s]  1%|▏         | 150/10682 [01:51<1:26:23,  2.03it/s]                                                     {'loss': 7.2714, 'grad_norm': 0.5800231099128723, 'learning_rate': 0.0001403180542563143, 'epoch': 0.2}
+  1%|▏         | 150/10682 [01:51<1:26:23,  2.03it/s]  1%|▏         | 151/10682 [01:52<1:26:26,  2.03it/s]  1%|▏         | 152/10682 [01:52<1:26:25,  2.03it/s]  1%|▏         | 153/10682 [01:53<1:26:23,  2.03it/s]  1%|▏         | 154/10682 [01:53<1:26:22,  2.03it/s]  1%|▏         | 155/10682 [01:54<1:26:24,  2.03it/s]  1%|▏         | 156/10682 [01:54<1:26:22,  2.03it/s]  1%|▏         | 157/10682 [01:55<1:26:22,  2.03it/s]  1%|▏         | 158/10682 [01:55<1:26:15,  2.03it/s]  1%|▏         | 159/10682 [01:56<1:26:19,  2.03it/s]  1%|▏         | 160/10682 [01:56<1:26:19,  2.03it/s]  2%|▏         | 161/10682 [01:57<1:26:12,  2.03it/s]  2%|▏         | 162/10682 [01:57<1:26:21,  2.03it/s]  2%|▏         | 163/10682 [01:58<1:26:19,  2.03it/s]  2%|▏         | 164/10682 [01:58<1:26:15,  2.03it/s]  2%|▏         | 165/10682 [01:59<1:26:17,  2.03it/s]  2%|▏         | 166/10682 [01:59<1:26:13,  2.03it/s]  2%|▏         | 167/10682 [02:00<1:26:11,  2.03it/s]  2%|▏         | 168/10682 [02:00<1:26:15,  2.03it/s]  2%|▏         | 169/10682 [02:01<1:26:10,  2.03it/s]  2%|▏         | 170/10682 [02:01<1:26:08,  2.03it/s]  2%|▏         | 171/10682 [02:02<1:26:09,  2.03it/s]  2%|▏         | 172/10682 [02:02<1:26:10,  2.03it/s]  2%|▏         | 173/10682 [02:03<1:26:14,  2.03it/s]  2%|▏         | 174/10682 [02:03<1:26:14,  2.03it/s]  2%|▏         | 175/10682 [02:04<1:26:13,  2.03it/s]                                                     {'loss': 6.8893, 'grad_norm': 0.4449046552181244, 'learning_rate': 0.00016370439663236668, 'epoch': 0.23}
+  2%|▏         | 175/10682 [02:04<1:26:13,  2.03it/s]  2%|▏         | 176/10682 [02:04<1:26:19,  2.03it/s]  2%|▏         | 177/10682 [02:05<1:26:15,  2.03it/s]  2%|▏         | 178/10682 [02:05<1:26:20,  2.03it/s]  2%|▏         | 179/10682 [02:06<1:26:15,  2.03it/s]  2%|▏         | 180/10682 [02:06<1:26:18,  2.03it/s]  2%|▏         | 181/10682 [02:07<1:26:12,  2.03it/s]  2%|▏         | 182/10682 [02:07<1:26:06,  2.03it/s]  2%|▏         | 183/10682 [02:08<1:26:10,  2.03it/s]  2%|▏         | 184/10682 [02:08<1:26:05,  2.03it/s]  2%|▏         | 185/10682 [02:09<1:26:03,  2.03it/s]  2%|▏         | 186/10682 [02:09<1:26:07,  2.03it/s]  2%|▏         | 187/10682 [02:10<1:26:09,  2.03it/s]  2%|▏         | 188/10682 [02:10<1:26:09,  2.03it/s]  2%|▏         | 189/10682 [02:11<1:26:04,  2.03it/s]  2%|▏         | 190/10682 [02:11<1:26:04,  2.03it/s]  2%|▏         | 191/10682 [02:12<1:26:02,  2.03it/s]  2%|▏         | 192/10682 [02:12<1:26:08,  2.03it/s]  2%|▏         | 193/10682 [02:13<1:26:08,  2.03it/s]  2%|▏         | 194/10682 [02:13<1:26:04,  2.03it/s]  2%|▏         | 195/10682 [02:14<1:26:03,  2.03it/s]  2%|▏         | 196/10682 [02:14<1:26:04,  2.03it/s]  2%|▏         | 197/10682 [02:14<1:26:01,  2.03it/s]  2%|▏         | 198/10682 [02:15<1:26:02,  2.03it/s]  2%|▏         | 199/10682 [02:15<1:26:00,  2.03it/s]  2%|▏         | 200/10682 [02:16<1:26:03,  2.03it/s]{'loss': 6.5708, 'grad_norm': 0.5720486640930176, 'learning_rate': 0.00018709073900841907, 'epoch': 0.26}                                                     
+  2%|▏         | 200/10682 [02:16<1:26:03,  2.03it/s]  2%|▏         | 201/10682 [02:16<1:26:30,  2.02it/s]  2%|▏         | 202/10682 [02:17<1:26:20,  2.02it/s]  2%|▏         | 203/10682 [02:17<1:26:18,  2.02it/s]  2%|▏         | 204/10682 [02:18<1:26:14,  2.02it/s]  2%|▏         | 205/10682 [02:18<1:26:12,  2.03it/s]  2%|▏         | 206/10682 [02:19<1:26:07,  2.03it/s]  2%|▏         | 207/10682 [02:19<1:26:08,  2.03it/s]  2%|▏         | 208/10682 [02:20<1:26:04,  2.03it/s]  2%|▏         | 209/10682 [02:20<1:25:59,  2.03it/s]  2%|▏         | 210/10682 [02:21<1:25:59,  2.03it/s]  2%|▏         | 211/10682 [02:21<1:25:57,  2.03it/s]  2%|▏         | 212/10682 [02:22<1:25:55,  2.03it/s]  2%|▏         | 213/10682 [02:22<1:25:53,  2.03it/s]  2%|▏         | 214/10682 [02:23<1:26:00,  2.03it/s]  2%|▏         | 215/10682 [02:23<1:25:59,  2.03it/s]  2%|▏         | 216/10682 [02:24<1:25:58,  2.03it/s]  2%|▏         | 217/10682 [02:24<1:26:01,  2.03it/s]  2%|▏         | 218/10682 [02:25<1:25:56,  2.03it/s]  2%|▏         | 219/10682 [02:25<1:25:57,  2.03it/s]  2%|▏         | 220/10682 [02:26<1:25:53,  2.03it/s]  2%|▏         | 221/10682 [02:26<1:25:57,  2.03it/s]  2%|▏         | 222/10682 [02:27<1:25:52,  2.03it/s]  2%|▏         | 223/10682 [02:27<1:25:49,  2.03it/s]  2%|▏         | 224/10682 [02:28<1:25:52,  2.03it/s]  2%|▏         | 225/10682 [02:28<1:25:53,  2.03it/s]{'loss': 6.3201, 'grad_norm': 0.6047703623771667, 'learning_rate': 0.00021047708138447147, 'epoch': 0.29}                                                     
+  2%|▏         | 225/10682 [02:28<1:25:53,  2.03it/s]  2%|▏         | 226/10682 [02:29<1:26:00,  2.03it/s]  2%|▏         | 227/10682 [02:29<1:25:56,  2.03it/s]  2%|▏         | 228/10682 [02:30<1:25:59,  2.03it/s]  2%|▏         | 229/10682 [02:30<1:25:56,  2.03it/s]  2%|▏         | 230/10682 [02:31<1:25:58,  2.03it/s]  2%|▏         | 231/10682 [02:31<1:25:57,  2.03it/s]  2%|▏         | 232/10682 [02:32<1:25:55,  2.03it/s]  2%|▏         | 233/10682 [02:32<1:25:58,  2.03it/s]  2%|▏         | 234/10682 [02:33<1:25:51,  2.03it/s]  2%|▏         | 235/10682 [02:33<1:25:50,  2.03it/s]  2%|▏         | 236/10682 [02:34<1:25:44,  2.03it/s]  2%|▏         | 237/10682 [02:34<1:25:48,  2.03it/s]  2%|▏         | 238/10682 [02:35<1:25:45,  2.03it/s]  2%|▏         | 239/10682 [02:35<1:25:43,  2.03it/s]  2%|▏         | 240/10682 [02:36<1:25:47,  2.03it/s]  2%|▏         | 241/10682 [02:36<1:25:39,  2.03it/s]  2%|▏         | 242/10682 [02:37<1:25:40,  2.03it/s]  2%|▏         | 243/10682 [02:37<1:25:38,  2.03it/s]  2%|▏         | 244/10682 [02:38<1:25:36,  2.03it/s]  2%|▏         | 245/10682 [02:38<1:25:39,  2.03it/s]  2%|▏         | 246/10682 [02:39<1:25:40,  2.03it/s]  2%|▏         | 247/10682 [02:39<1:25:42,  2.03it/s]  2%|▏         | 248/10682 [02:40<1:25:40,  2.03it/s]  2%|▏         | 249/10682 [02:40<1:25:39,  2.03it/s]  2%|▏         | 250/10682 [02:41<1:25:40,  2.03it/s]{'loss': 6.1126, 'grad_norm': 0.669146716594696, 'learning_rate': 0.00023386342376052386, 'epoch': 0.33}
+                                                       2%|▏         | 250/10682 [02:41<1:25:40,  2.03it/s]  2%|▏         | 251/10682 [02:41<1:25:41,  2.03it/s]  2%|▏         | 252/10682 [02:42<1:25:50,  2.03it/s]  2%|▏         | 253/10682 [02:42<1:25:42,  2.03it/s]  2%|▏         | 254/10682 [02:43<1:25:40,  2.03it/s]  2%|▏         | 255/10682 [02:43<1:25:42,  2.03it/s]  2%|▏         | 256/10682 [02:44<1:25:43,  2.03it/s]  2%|▏         | 257/10682 [02:44<1:25:40,  2.03it/s]  2%|▏         | 258/10682 [02:45<1:25:35,  2.03it/s]  2%|▏         | 259/10682 [02:45<1:25:32,  2.03it/s]  2%|▏         | 260/10682 [02:46<1:25:35,  2.03it/s]  2%|▏         | 261/10682 [02:46<1:25:36,  2.03it/s]  2%|▏         | 262/10682 [02:47<1:25:38,  2.03it/s]  2%|▏         | 263/10682 [02:47<1:25:35,  2.03it/s]  2%|▏         | 264/10682 [02:48<1:25:35,  2.03it/s]  2%|▏         | 265/10682 [02:48<1:25:32,  2.03it/s]  2%|▏         | 266/10682 [02:49<1:25:32,  2.03it/s]  2%|▏         | 267/10682 [02:49<1:25:34,  2.03it/s]  3%|▎         | 268/10682 [02:49<1:25:38,  2.03it/s]  3%|▎         | 269/10682 [02:50<1:25:30,  2.03it/s]  3%|▎         | 270/10682 [02:50<1:25:32,  2.03it/s]  3%|▎         | 271/10682 [02:51<1:25:29,  2.03it/s]  3%|▎         | 272/10682 [02:51<1:25:34,  2.03it/s]  3%|▎         | 273/10682 [02:52<1:25:29,  2.03it/s]  3%|▎         | 274/10682 [02:52<1:25:25,  2.03it/s]  3%|▎         | 275/10682 [02:53<1:25:27,  2.03it/s]{'loss': 5.9336, 'grad_norm': 1.123867154121399, 'learning_rate': 0.00025724976613657625, 'epoch': 0.36}
+                                                       3%|▎         | 275/10682 [02:53<1:25:27,  2.03it/s]  3%|▎         | 276/10682 [02:53<1:25:30,  2.03it/s]  3%|▎         | 277/10682 [02:54<1:25:29,  2.03it/s]  3%|▎         | 278/10682 [02:54<1:25:25,  2.03it/s]  3%|▎         | 279/10682 [02:55<1:25:35,  2.03it/s]  3%|▎         | 280/10682 [02:55<1:25:30,  2.03it/s]  3%|▎         | 281/10682 [02:56<1:25:26,  2.03it/s]  3%|▎         | 282/10682 [02:56<1:25:31,  2.03it/s]  3%|▎         | 283/10682 [02:57<1:25:28,  2.03it/s]  3%|▎         | 284/10682 [02:57<1:25:32,  2.03it/s]  3%|▎         | 285/10682 [02:58<1:25:27,  2.03it/s]  3%|▎         | 286/10682 [02:58<1:25:30,  2.03it/s]  3%|▎         | 287/10682 [02:59<1:25:26,  2.03it/s]  3%|▎         | 288/10682 [02:59<1:25:30,  2.03it/s]  3%|▎         | 289/10682 [03:00<1:25:25,  2.03it/s]  3%|▎         | 290/10682 [03:00<1:25:25,  2.03it/s]  3%|▎         | 291/10682 [03:01<1:25:35,  2.02it/s]  3%|▎         | 292/10682 [03:01<1:25:33,  2.02it/s]  3%|▎         | 293/10682 [03:02<1:25:30,  2.02it/s]  3%|▎         | 294/10682 [03:02<1:25:23,  2.03it/s]  3%|▎         | 295/10682 [03:03<1:25:25,  2.03it/s]  3%|▎         | 296/10682 [03:03<1:25:20,  2.03it/s]  3%|▎         | 297/10682 [03:04<1:25:19,  2.03it/s]  3%|▎         | 298/10682 [03:04<1:25:20,  2.03it/s]  3%|▎         | 299/10682 [03:05<1:25:15,  2.03it/s]  3%|▎         | 300/10682 [03:05<1:25:17,  2.03it/s]{'loss': 5.7914, 'grad_norm': 0.8035856485366821, 'learning_rate': 0.0002806361085126286, 'epoch': 0.39}
+                                                       3%|▎         | 300/10682 [03:05<1:25:17,  2.03it/s]  3%|▎         | 301/10682 [03:06<1:25:18,  2.03it/s]  3%|▎         | 302/10682 [03:06<1:25:20,  2.03it/s]  3%|▎         | 303/10682 [03:07<1:25:21,  2.03it/s]  3%|▎         | 304/10682 [03:07<1:25:21,  2.03it/s]  3%|▎         | 305/10682 [03:08<1:25:25,  2.02it/s]  3%|▎         | 306/10682 [03:08<1:25:18,  2.03it/s]  3%|▎         | 307/10682 [03:09<1:25:21,  2.03it/s]  3%|▎         | 308/10682 [03:09<1:25:23,  2.02it/s]  3%|▎         | 309/10682 [03:10<1:25:23,  2.02it/s]  3%|▎         | 310/10682 [03:10<1:25:18,  2.03it/s]  3%|▎         | 311/10682 [03:11<1:25:10,  2.03it/s]  3%|▎         | 312/10682 [03:11<1:25:10,  2.03it/s]  3%|▎         | 313/10682 [03:12<1:25:12,  2.03it/s]  3%|▎         | 314/10682 [03:12<1:25:18,  2.03it/s]  3%|▎         | 315/10682 [03:13<1:25:17,  2.03it/s]  3%|▎         | 316/10682 [03:13<1:25:18,  2.03it/s]  3%|▎         | 317/10682 [03:14<1:25:13,  2.03it/s]  3%|▎         | 318/10682 [03:14<1:25:15,  2.03it/s]  3%|▎         | 319/10682 [03:15<1:25:10,  2.03it/s]  3%|▎         | 320/10682 [03:15<1:25:11,  2.03it/s]  3%|▎         | 321/10682 [03:16<1:25:08,  2.03it/s]  3%|▎         | 322/10682 [03:16<1:25:05,  2.03it/s]  3%|▎         | 323/10682 [03:17<1:25:09,  2.03it/s]  3%|▎         | 324/10682 [03:17<1:25:04,  2.03it/s]  3%|▎         | 325/10682 [03:18<1:25:09,  2.03it/s]                                                     {'loss': 5.6603, 'grad_norm': 0.6922128200531006, 'learning_rate': 0.00030402245088868103, 'epoch': 0.43}
+  3%|▎         | 325/10682 [03:18<1:25:09,  2.03it/s]  3%|▎         | 326/10682 [03:18<1:25:11,  2.03it/s]  3%|▎         | 327/10682 [03:19<1:25:12,  2.03it/s]  3%|▎         | 328/10682 [03:19<1:25:06,  2.03it/s]  3%|▎         | 329/10682 [03:20<1:25:06,  2.03it/s]  3%|▎         | 330/10682 [03:20<1:25:07,  2.03it/s]  3%|▎         | 331/10682 [03:21<1:25:14,  2.02it/s]  3%|▎         | 332/10682 [03:21<1:25:10,  2.03it/s]  3%|▎         | 333/10682 [03:22<1:25:08,  2.03it/s]  3%|▎         | 334/10682 [03:22<1:25:05,  2.03it/s]  3%|▎         | 335/10682 [03:23<1:25:04,  2.03it/s]  3%|▎         | 336/10682 [03:23<1:25:05,  2.03it/s]  3%|▎         | 337/10682 [03:24<1:25:01,  2.03it/s]  3%|▎         | 338/10682 [03:24<1:25:01,  2.03it/s]  3%|▎         | 339/10682 [03:25<1:24:55,  2.03it/s]  3%|▎         | 340/10682 [03:25<1:24:59,  2.03it/s]  3%|▎         | 341/10682 [03:25<1:24:55,  2.03it/s]  3%|▎         | 342/10682 [03:26<1:24:58,  2.03it/s]  3%|▎         | 343/10682 [03:26<1:24:58,  2.03it/s]  3%|▎         | 344/10682 [03:27<1:24:57,  2.03it/s]  3%|▎         | 345/10682 [03:27<1:24:53,  2.03it/s]  3%|▎         | 346/10682 [03:28<1:24:51,  2.03it/s]  3%|▎         | 347/10682 [03:28<1:24:51,  2.03it/s]  3%|▎         | 348/10682 [03:29<1:24:55,  2.03it/s]  3%|▎         | 349/10682 [03:29<1:24:55,  2.03it/s]  3%|▎         | 350/10682 [03:30<1:24:57,  2.03it/s]                                                     {'loss': 5.5384, 'grad_norm': 0.8799753785133362, 'learning_rate': 0.00032740879326473337, 'epoch': 0.46}
+  3%|▎         | 350/10682 [03:30<1:24:57,  2.03it/s]  3%|▎         | 351/10682 [03:30<1:25:01,  2.03it/s]  3%|▎         | 352/10682 [03:31<1:25:03,  2.02it/s]  3%|▎         | 353/10682 [03:31<1:25:00,  2.03it/s]  3%|▎         | 354/10682 [03:32<1:24:54,  2.03it/s]  3%|▎         | 355/10682 [03:32<1:24:53,  2.03it/s]  3%|▎         | 356/10682 [03:33<1:24:48,  2.03it/s]  3%|▎         | 357/10682 [03:33<1:24:49,  2.03it/s]  3%|▎         | 358/10682 [03:34<1:24:48,  2.03it/s]  3%|▎         | 359/10682 [03:34<1:24:44,  2.03it/s]  3%|▎         | 360/10682 [03:35<1:24:46,  2.03it/s]  3%|▎         | 361/10682 [03:35<1:24:45,  2.03it/s]  3%|▎         | 362/10682 [03:36<1:24:46,  2.03it/s]  3%|▎         | 363/10682 [03:36<1:24:49,  2.03it/s]  3%|▎         | 364/10682 [03:37<1:24:47,  2.03it/s]  3%|▎         | 365/10682 [03:37<1:24:46,  2.03it/s]  3%|▎         | 366/10682 [03:38<1:24:47,  2.03it/s]  3%|▎         | 367/10682 [03:38<1:24:45,  2.03it/s]  3%|▎         | 368/10682 [03:39<1:24:40,  2.03it/s]  3%|▎         | 369/10682 [03:39<1:24:45,  2.03it/s]  3%|▎         | 370/10682 [03:40<1:24:43,  2.03it/s]  3%|▎         | 371/10682 [03:40<1:24:47,  2.03it/s]  3%|▎         | 372/10682 [03:41<1:24:44,  2.03it/s]  3%|▎         | 373/10682 [03:41<1:24:42,  2.03it/s]  4%|▎         | 374/10682 [03:42<1:24:46,  2.03it/s]  4%|▎         | 375/10682 [03:42<1:24:38,  2.03it/s]                                                     {'loss': 5.4296, 'grad_norm': 0.642095685005188, 'learning_rate': 0.0003507951356407858, 'epoch': 0.49}
+  4%|▎         | 375/10682 [03:42<1:24:38,  2.03it/s]  4%|▎         | 376/10682 [03:43<1:24:48,  2.03it/s]  4%|▎         | 377/10682 [03:43<1:24:40,  2.03it/s]  4%|▎         | 378/10682 [03:44<1:24:43,  2.03it/s]  4%|▎         | 379/10682 [03:44<1:24:40,  2.03it/s]  4%|▎         | 380/10682 [03:45<1:24:33,  2.03it/s]  4%|▎         | 381/10682 [03:45<1:24:36,  2.03it/s]  4%|▎         | 382/10682 [03:46<1:24:33,  2.03it/s]  4%|▎         | 383/10682 [03:46<1:24:38,  2.03it/s]  4%|▎         | 384/10682 [03:47<1:24:40,  2.03it/s]  4%|▎         | 385/10682 [03:47<1:24:45,  2.02it/s]  4%|▎         | 386/10682 [03:48<1:24:40,  2.03it/s]  4%|▎         | 387/10682 [03:48<1:24:33,  2.03it/s]  4%|▎         | 388/10682 [03:49<1:24:38,  2.03it/s]  4%|▎         | 389/10682 [03:49<1:24:35,  2.03it/s]  4%|▎         | 390/10682 [03:50<1:24:37,  2.03it/s]  4%|▎         | 391/10682 [03:50<1:24:33,  2.03it/s]  4%|▎         | 392/10682 [03:51<1:24:34,  2.03it/s]  4%|▎         | 393/10682 [03:51<1:24:30,  2.03it/s]  4%|▎         | 394/10682 [03:52<1:24:27,  2.03it/s]  4%|▎         | 395/10682 [03:52<1:24:31,  2.03it/s]  4%|▎         | 396/10682 [03:53<1:24:28,  2.03it/s]  4%|▎         | 397/10682 [03:53<1:24:33,  2.03it/s]  4%|▎         | 398/10682 [03:54<1:24:31,  2.03it/s]  4%|▎         | 399/10682 [03:54<1:24:30,  2.03it/s]  4%|▎         | 400/10682 [03:55<1:24:33,  2.03it/s]                                                     {'loss': 5.327, 'grad_norm': 0.7051675319671631, 'learning_rate': 0.00037418147801683815, 'epoch': 0.52}
+  4%|▎         | 400/10682 [03:55<1:24:33,  2.03it/s]  4%|▍         | 401/10682 [03:55<1:24:36,  2.03it/s]  4%|▍         | 402/10682 [03:56<1:24:37,  2.02it/s]  4%|▍         | 403/10682 [03:56<1:24:34,  2.03it/s]  4%|▍         | 404/10682 [03:57<1:24:34,  2.03it/s]  4%|▍         | 405/10682 [03:57<1:24:32,  2.03it/s]  4%|▍         | 406/10682 [03:58<1:24:27,  2.03it/s]  4%|▍         | 407/10682 [03:58<1:24:29,  2.03it/s]  4%|▍         | 408/10682 [03:59<1:24:28,  2.03it/s]  4%|▍         | 409/10682 [03:59<1:24:26,  2.03it/s]  4%|▍         | 410/10682 [04:00<1:24:25,  2.03it/s]  4%|▍         | 411/10682 [04:00<1:24:16,  2.03it/s]  4%|▍         | 412/10682 [04:01<1:24:18,  2.03it/s]  4%|▍         | 413/10682 [04:01<1:24:18,  2.03it/s]  4%|▍         | 414/10682 [04:01<1:24:23,  2.03it/s]  4%|▍         | 415/10682 [04:02<1:24:21,  2.03it/s]  4%|▍         | 416/10682 [04:02<1:24:13,  2.03it/s]  4%|▍         | 417/10682 [04:03<1:24:16,  2.03it/s]  4%|▍         | 418/10682 [04:03<1:24:16,  2.03it/s]  4%|▍         | 419/10682 [04:04<1:24:17,  2.03it/s]  4%|▍         | 420/10682 [04:04<1:24:15,  2.03it/s]  4%|▍         | 421/10682 [04:05<1:24:08,  2.03it/s]  4%|▍         | 422/10682 [04:05<1:24:10,  2.03it/s]  4%|▍         | 423/10682 [04:06<1:24:07,  2.03it/s]  4%|▍         | 424/10682 [04:06<1:24:09,  2.03it/s]  4%|▍         | 425/10682 [04:07<1:24:10,  2.03it/s]{'loss': 5.234, 'grad_norm': 0.7084140777587891, 'learning_rate': 0.0003975678203928906, 'epoch': 0.56}                                                     
+  4%|▍         | 425/10682 [04:07<1:24:10,  2.03it/s]  4%|▍         | 426/10682 [04:07<1:24:12,  2.03it/s]  4%|▍         | 427/10682 [04:08<1:24:14,  2.03it/s]  4%|▍         | 428/10682 [04:08<1:24:11,  2.03it/s]  4%|▍         | 429/10682 [04:09<1:24:12,  2.03it/s]  4%|▍         | 430/10682 [04:09<1:24:10,  2.03it/s]  4%|▍         | 431/10682 [04:10<1:24:08,  2.03it/s]  4%|▍         | 432/10682 [04:10<1:24:14,  2.03it/s]  4%|▍         | 433/10682 [04:11<1:24:09,  2.03it/s]  4%|▍         | 434/10682 [04:11<1:24:04,  2.03it/s]  4%|▍         | 435/10682 [04:12<1:24:05,  2.03it/s]  4%|▍         | 436/10682 [04:12<1:24:02,  2.03it/s]  4%|▍         | 437/10682 [04:13<1:24:05,  2.03it/s]  4%|▍         | 438/10682 [04:13<1:24:12,  2.03it/s]  4%|▍         | 439/10682 [04:14<1:24:06,  2.03it/s]  4%|▍         | 440/10682 [04:14<1:24:09,  2.03it/s]  4%|▍         | 441/10682 [04:15<1:24:05,  2.03it/s]  4%|▍         | 442/10682 [04:15<1:23:59,  2.03it/s]  4%|▍         | 443/10682 [04:16<1:24:00,  2.03it/s]  4%|▍         | 444/10682 [04:16<1:23:58,  2.03it/s]  4%|▍         | 445/10682 [04:17<1:23:55,  2.03it/s]  4%|▍         | 446/10682 [04:17<1:23:59,  2.03it/s]  4%|▍         | 447/10682 [04:18<1:24:00,  2.03it/s]  4%|▍         | 448/10682 [04:18<1:23:56,  2.03it/s]  4%|▍         | 449/10682 [04:19<1:23:56,  2.03it/s]  4%|▍         | 450/10682 [04:19<1:24:00,  2.03it/s]{'loss': 5.1535, 'grad_norm': 0.733258068561554, 'learning_rate': 0.00042095416276894293, 'epoch': 0.59}                                                     
+  4%|▍         | 450/10682 [04:19<1:24:00,  2.03it/s]  4%|▍         | 451/10682 [04:20<1:24:02,  2.03it/s]  4%|▍         | 452/10682 [04:20<1:23:59,  2.03it/s]  4%|▍         | 453/10682 [04:21<1:23:59,  2.03it/s]  4%|▍         | 454/10682 [04:21<1:23:54,  2.03it/s]  4%|▍         | 455/10682 [04:22<1:23:55,  2.03it/s]  4%|▍         | 456/10682 [04:22<1:23:54,  2.03it/s]  4%|▍         | 457/10682 [04:23<1:23:53,  2.03it/s]  4%|▍         | 458/10682 [04:23<1:23:55,  2.03it/s]  4%|▍         | 459/10682 [04:24<1:23:52,  2.03it/s]  4%|▍         | 460/10682 [04:24<1:23:51,  2.03it/s]  4%|▍         | 461/10682 [04:25<1:23:55,  2.03it/s]  4%|▍         | 462/10682 [04:25<1:23:53,  2.03it/s]  4%|▍         | 463/10682 [04:26<1:23:56,  2.03it/s]  4%|▍         | 464/10682 [04:26<1:23:51,  2.03it/s]  4%|▍         | 465/10682 [04:27<1:23:58,  2.03it/s]  4%|▍         | 466/10682 [04:27<1:23:58,  2.03it/s]  4%|▍         | 467/10682 [04:28<1:23:57,  2.03it/s]  4%|▍         | 468/10682 [04:28<1:23:52,  2.03it/s]  4%|▍         | 469/10682 [04:29<1:23:51,  2.03it/s]  4%|▍         | 470/10682 [04:29<1:23:55,  2.03it/s]  4%|▍         | 471/10682 [04:30<1:23:52,  2.03it/s]  4%|▍         | 472/10682 [04:30<1:23:48,  2.03it/s]  4%|▍         | 473/10682 [04:31<1:23:54,  2.03it/s]  4%|▍         | 474/10682 [04:31<1:23:51,  2.03it/s]  4%|▍         | 475/10682 [04:32<1:23:54,  2.03it/s]{'loss': 5.0819, 'grad_norm': 0.5916937589645386, 'learning_rate': 0.0004443405051449954, 'epoch': 0.62}                                                     
+  4%|▍         | 475/10682 [04:32<1:23:54,  2.03it/s]  4%|▍         | 476/10682 [04:32<1:23:55,  2.03it/s]  4%|▍         | 477/10682 [04:33<1:23:56,  2.03it/s]  4%|▍         | 478/10682 [04:33<1:23:52,  2.03it/s]  4%|▍         | 479/10682 [04:34<1:23:56,  2.03it/s]  4%|▍         | 480/10682 [04:34<1:23:49,  2.03it/s]  5%|▍         | 481/10682 [04:35<1:23:50,  2.03it/s]  5%|▍         | 482/10682 [04:35<1:23:50,  2.03it/s]  5%|▍         | 483/10682 [04:35<1:23:51,  2.03it/s]  5%|▍         | 484/10682 [04:36<1:23:49,  2.03it/s]  5%|▍         | 485/10682 [04:36<1:23:48,  2.03it/s]  5%|▍         | 486/10682 [04:37<1:23:50,  2.03it/s]  5%|▍         | 487/10682 [04:37<1:23:44,  2.03it/s]  5%|▍         | 488/10682 [04:38<1:23:45,  2.03it/s]  5%|▍         | 489/10682 [04:38<1:23:44,  2.03it/s]  5%|▍         | 490/10682 [04:39<1:23:47,  2.03it/s]  5%|▍         | 491/10682 [04:39<1:23:50,  2.03it/s]  5%|▍         | 492/10682 [04:40<1:23:48,  2.03it/s]  5%|▍         | 493/10682 [04:40<1:23:45,  2.03it/s]  5%|▍         | 494/10682 [04:41<1:23:38,  2.03it/s]  5%|▍         | 495/10682 [04:41<1:23:42,  2.03it/s]  5%|▍         | 496/10682 [04:42<1:23:40,  2.03it/s]  5%|▍         | 497/10682 [04:42<1:23:40,  2.03it/s]  5%|▍         | 498/10682 [04:43<1:23:41,  2.03it/s]  5%|▍         | 499/10682 [04:43<1:23:41,  2.03it/s]  5%|▍         | 500/10682 [04:44<1:23:37,  2.03it/s]{'loss': 5.0165, 'grad_norm': 0.5962570309638977, 'learning_rate': 0.0004677268475210477, 'epoch': 0.65}
+                                                       5%|▍         | 500/10682 [04:44<1:23:37,  2.03it/s]  5%|▍         | 501/10682 [04:44<1:23:41,  2.03it/s]  5%|▍         | 502/10682 [04:45<1:23:42,  2.03it/s]  5%|▍         | 503/10682 [04:45<1:23:38,  2.03it/s]  5%|▍         | 504/10682 [04:46<1:23:37,  2.03it/s]  5%|▍         | 505/10682 [04:46<1:23:37,  2.03it/s]  5%|▍         | 506/10682 [04:47<1:23:39,  2.03it/s]  5%|▍         | 507/10682 [04:47<1:23:39,  2.03it/s]  5%|▍         | 508/10682 [04:48<1:23:38,  2.03it/s]  5%|▍         | 509/10682 [04:48<1:23:44,  2.02it/s]  5%|▍         | 510/10682 [04:49<1:23:43,  2.02it/s]  5%|▍         | 511/10682 [04:49<1:23:42,  2.02it/s]  5%|▍         | 512/10682 [04:50<1:23:37,  2.03it/s]  5%|▍         | 513/10682 [04:50<1:23:37,  2.03it/s]  5%|▍         | 514/10682 [04:51<1:23:35,  2.03it/s]  5%|▍         | 515/10682 [04:51<1:23:38,  2.03it/s]  5%|▍         | 516/10682 [04:52<1:23:37,  2.03it/s]  5%|���         | 517/10682 [04:52<1:23:36,  2.03it/s]  5%|▍         | 518/10682 [04:53<1:23:35,  2.03it/s]  5%|▍         | 519/10682 [04:53<1:23:36,  2.03it/s]  5%|▍         | 520/10682 [04:54<1:23:35,  2.03it/s]  5%|▍         | 521/10682 [04:54<1:23:32,  2.03it/s]  5%|▍         | 522/10682 [04:55<1:23:31,  2.03it/s]  5%|▍         | 523/10682 [04:55<1:23:30,  2.03it/s]  5%|▍         | 524/10682 [04:56<1:23:36,  2.03it/s]  5%|▍         | 525/10682 [04:56<1:23:35,  2.03it/s]{'loss': 4.9437, 'grad_norm': 0.6917767524719238, 'learning_rate': 0.0004911131898971, 'epoch': 0.69}
+                                                       5%|▍         | 525/10682 [04:56<1:23:35,  2.03it/s]  5%|▍         | 526/10682 [04:57<1:23:41,  2.02it/s]  5%|▍         | 527/10682 [04:57<1:23:40,  2.02it/s]  5%|▍         | 528/10682 [04:58<1:23:36,  2.02it/s]  5%|▍         | 529/10682 [04:58<1:23:36,  2.02it/s]  5%|▍         | 530/10682 [04:59<1:23:34,  2.02it/s]  5%|▍         | 531/10682 [04:59<1:23:30,  2.03it/s]  5%|▍         | 532/10682 [05:00<1:23:30,  2.03it/s]  5%|▍         | 533/10682 [05:00<1:23:26,  2.03it/s]  5%|▍         | 534/10682 [05:01<1:23:31,  2.02it/s]  5%|▌         | 535/10682 [05:01<1:23:26,  2.03it/s]  5%|▌         | 536/10682 [05:02<1:23:28,  2.03it/s]  5%|▌         | 537/10682 [05:02<1:23:24,  2.03it/s]  5%|▌         | 538/10682 [05:03<1:23:24,  2.03it/s]  5%|▌         | 539/10682 [05:03<1:23:25,  2.03it/s]  5%|▌         | 540/10682 [05:04<1:23:19,  2.03it/s]  5%|▌         | 541/10682 [05:04<1:23:22,  2.03it/s]  5%|▌         | 542/10682 [05:05<1:23:20,  2.03it/s]  5%|▌         | 543/10682 [05:05<1:23:18,  2.03it/s]  5%|▌         | 544/10682 [05:06<1:23:16,  2.03it/s]  5%|▌         | 545/10682 [05:06<1:23:20,  2.03it/s]  5%|▌         | 546/10682 [05:07<1:23:20,  2.03it/s]  5%|▌         | 547/10682 [05:07<1:23:19,  2.03it/s]  5%|▌         | 548/10682 [05:08<1:23:20,  2.03it/s]  5%|▌         | 549/10682 [05:08<1:23:16,  2.03it/s]  5%|▌         | 550/10682 [05:09<1:23:17,  2.03it/s]                                                     {'loss': 4.8784, 'grad_norm': 0.6977190971374512, 'learning_rate': 0.0005144995322731525, 'epoch': 0.72}
+  5%|▌         | 550/10682 [05:09<1:23:17,  2.03it/s]  5%|▌         | 551/10682 [05:09<1:23:22,  2.03it/s]  5%|▌         | 552/10682 [05:10<1:23:18,  2.03it/s]  5%|▌         | 553/10682 [05:10<1:23:17,  2.03it/s]  5%|▌         | 554/10682 [05:11<1:23:18,  2.03it/s]  5%|▌         | 555/10682 [05:11<1:23:18,  2.03it/s]  5%|▌         | 556/10682 [05:12<1:23:23,  2.02it/s]  5%|▌         | 557/10682 [05:12<1:23:21,  2.02it/s]  5%|▌         | 558/10682 [05:12<1:23:17,  2.03it/s]  5%|▌         | 559/10682 [05:13<1:23:18,  2.03it/s]  5%|▌         | 560/10682 [05:13<1:23:15,  2.03it/s]  5%|▌         | 561/10682 [05:14<1:23:11,  2.03it/s]  5%|▌         | 562/10682 [05:14<1:23:09,  2.03it/s]  5%|▌         | 563/10682 [05:15<1:23:11,  2.03it/s]  5%|▌         | 564/10682 [05:15<1:23:09,  2.03it/s]  5%|▌         | 565/10682 [05:16<1:23:08,  2.03it/s]  5%|▌         | 566/10682 [05:16<1:23:10,  2.03it/s]  5%|▌         | 567/10682 [05:17<1:23:08,  2.03it/s]  5%|▌         | 568/10682 [05:17<1:23:13,  2.03it/s]  5%|▌         | 569/10682 [05:18<1:23:15,  2.02it/s]  5%|▌         | 570/10682 [05:18<1:23:10,  2.03it/s]  5%|▌         | 571/10682 [05:19<1:23:11,  2.03it/s]  5%|▌         | 572/10682 [05:19<1:23:10,  2.03it/s]  5%|▌         | 573/10682 [05:20<1:23:09,  2.03it/s]  5%|▌         | 574/10682 [05:20<1:23:06,  2.03it/s]  5%|▌         | 575/10682 [05:21<1:23:13,  2.02it/s]{'loss': 4.8253, 'grad_norm': 0.582194447517395, 'learning_rate': 0.0005378858746492049, 'epoch': 0.75}
+                                                       5%|▌         | 575/10682 [05:21<1:23:13,  2.02it/s]  5%|▌         | 576/10682 [05:21<1:23:15,  2.02it/s]  5%|▌         | 577/10682 [05:22<1:23:11,  2.02it/s]  5%|▌         | 578/10682 [05:22<1:23:14,  2.02it/s]  5%|▌         | 579/10682 [05:23<1:23:07,  2.03it/s]  5%|▌         | 580/10682 [05:23<1:23:11,  2.02it/s]  5%|▌         | 581/10682 [05:24<1:23:03,  2.03it/s]  5%|▌         | 582/10682 [05:24<1:23:00,  2.03it/s]  5%|▌         | 583/10682 [05:25<1:22:59,  2.03it/s]  5%|▌         | 584/10682 [05:25<1:22:57,  2.03it/s]  5%|▌         | 585/10682 [05:26<1:22:54,  2.03it/s]  5%|▌         | 586/10682 [05:26<1:22:56,  2.03it/s]  5%|▌         | 587/10682 [05:27<1:22:58,  2.03it/s]  6%|▌         | 588/10682 [05:27<1:22:57,  2.03it/s]  6%|▌         | 589/10682 [05:28<1:22:59,  2.03it/s]  6%|▌         | 590/10682 [05:28<1:22:55,  2.03it/s]  6%|▌         | 591/10682 [05:29<1:23:04,  2.02it/s]  6%|▌         | 592/10682 [05:29<1:22:57,  2.03it/s]  6%|▌         | 593/10682 [05:30<1:22:55,  2.03it/s]  6%|▌         | 594/10682 [05:30<1:22:54,  2.03it/s]  6%|▌         | 595/10682 [05:31<1:22:49,  2.03it/s]  6%|▌         | 596/10682 [05:31<1:22:53,  2.03it/s]  6%|▌         | 597/10682 [05:32<1:22:48,  2.03it/s]  6%|▌         | 598/10682 [05:32<1:22:54,  2.03it/s]  6%|▌         | 599/10682 [05:33<1:22:51,  2.03it/s]  6%|▌         | 600/10682 [05:33<1:22:50,  2.03it/s]{'loss': 4.7621, 'grad_norm': 0.5218554735183716, 'learning_rate': 0.0005612722170252572, 'epoch': 0.79}
+                                                       6%|▌         | 600/10682 [05:33<1:22:50,  2.03it/s]  6%|▌         | 601/10682 [05:34<1:22:54,  2.03it/s]  6%|▌         | 602/10682 [05:34<1:22:55,  2.03it/s]  6%|▌         | 603/10682 [05:35<1:22:53,  2.03it/s]  6%|▌         | 604/10682 [05:35<1:22:52,  2.03it/s]  6%|▌         | 605/10682 [05:36<1:23:00,  2.02it/s]  6%|▌         | 606/10682 [05:36<1:22:58,  2.02it/s]  6%|▌         | 607/10682 [05:37<1:23:01,  2.02it/s]  6%|▌         | 608/10682 [05:37<1:22:54,  2.03it/s]  6%|▌         | 609/10682 [05:38<1:22:54,  2.03it/s]  6%|▌         | 610/10682 [05:38<1:22:50,  2.03it/s]  6%|▌         | 611/10682 [05:39<1:22:54,  2.02it/s]  6%|▌         | 612/10682 [05:39<1:22:52,  2.02it/s]  6%|▌         | 613/10682 [05:40<1:22:52,  2.03it/s]  6%|▌         | 614/10682 [05:40<1:22:54,  2.02it/s]  6%|▌         | 615/10682 [05:41<1:29:54,  1.87it/s]  6%|▌         | 616/10682 [05:41<1:34:42,  1.77it/s]  6%|▌         | 617/10682 [05:42<1:31:07,  1.84it/s]  6%|▌         | 618/10682 [05:42<1:28:38,  1.89it/s]  6%|▌         | 619/10682 [05:43<1:26:49,  1.93it/s]  6%|▌         | 620/10682 [05:43<1:25:31,  1.96it/s]  6%|▌         | 621/10682 [05:44<1:24:42,  1.98it/s]  6%|▌         | 622/10682 [05:44<1:24:00,  2.00it/s]  6%|▌         | 623/10682 [05:45<1:23:36,  2.00it/s]  6%|▌         | 624/10682 [05:45<1:23:18,  2.01it/s]  6%|▌         | 625/10682 [05:46<1:23:03,  2.02it/s]{'loss': 4.7137, 'grad_norm': 0.5765935182571411, 'learning_rate': 0.0005846585594013096, 'epoch': 0.82}
+                                                       6%|▌         | 625/10682 [05:46<1:23:03,  2.02it/s]  6%|▌         | 626/10682 [05:46<1:23:00,  2.02it/s]  6%|▌         | 627/10682 [05:47<1:22:48,  2.02it/s]  6%|▌         | 628/10682 [05:47<1:22:48,  2.02it/s]  6%|▌         | 629/10682 [05:48<1:22:41,  2.03it/s]  6%|▌         | 630/10682 [05:48<1:22:44,  2.02it/s]  6%|▌         | 631/10682 [05:49<1:22:36,  2.03it/s]  6%|▌         | 632/10682 [05:49<1:22:35,  2.03it/s]  6%|▌         | 633/10682 [05:50<1:22:35,  2.03it/s]  6%|▌         | 634/10682 [05:50<1:22:31,  2.03it/s]  6%|▌         | 635/10682 [05:51<1:22:31,  2.03it/s]  6%|▌         | 636/10682 [05:51<1:22:28,  2.03it/s]  6%|▌         | 637/10682 [05:52<1:22:26,  2.03it/s]  6%|▌         | 638/10682 [05:52<1:22:27,  2.03it/s]  6%|▌         | 639/10682 [05:53<1:22:26,  2.03it/s]  6%|▌         | 640/10682 [05:53<1:22:31,  2.03it/s]  6%|▌         | 641/10682 [05:54<1:22:29,  2.03it/s]  6%|▌         | 642/10682 [05:54<1:22:30,  2.03it/s]  6%|▌         | 643/10682 [05:55<1:22:29,  2.03it/s]  6%|▌         | 644/10682 [05:55<1:22:27,  2.03it/s]  6%|▌         | 645/10682 [05:56<1:22:31,  2.03it/s]  6%|▌         | 646/10682 [05:56<1:22:28,  2.03it/s]  6%|▌         | 647/10682 [05:57<1:22:31,  2.03it/s]  6%|▌         | 648/10682 [05:57<1:22:22,  2.03it/s]  6%|▌         | 649/10682 [05:58<1:22:24,  2.03it/s]  6%|▌         | 650/10682 [05:58<1:22:25,  2.03it/s]{'loss': 4.663, 'grad_norm': 0.4962884187698364, 'learning_rate': 0.0006080449017773621, 'epoch': 0.85}                                                     
+  6%|▌         | 650/10682 [05:58<1:22:25,  2.03it/s]  6%|▌         | 651/10682 [05:59<1:22:37,  2.02it/s]  6%|▌         | 652/10682 [05:59<1:22:35,  2.02it/s]  6%|▌         | 653/10682 [06:00<1:22:29,  2.03it/s]  6%|▌         | 654/10682 [06:00<1:22:32,  2.02it/s]  6%|▌         | 655/10682 [06:01<1:22:30,  2.03it/s]  6%|▌         | 656/10682 [06:01<1:22:31,  2.02it/s]  6%|▌         | 657/10682 [06:02<1:22:23,  2.03it/s]  6%|▌         | 658/10682 [06:02<1:22:27,  2.03it/s]  6%|▌         | 659/10682 [06:03<1:22:24,  2.03it/s]  6%|▌         | 660/10682 [06:03<1:22:21,  2.03it/s]  6%|▌         | 661/10682 [06:04<1:22:25,  2.03it/s]  6%|▌         | 662/10682 [06:04<1:22:22,  2.03it/s]  6%|▌         | 663/10682 [06:05<1:22:24,  2.03it/s]  6%|▌         | 664/10682 [06:05<1:22:22,  2.03it/s]  6%|▌         | 665/10682 [06:06<1:22:19,  2.03it/s]  6%|▌         | 666/10682 [06:06<1:22:17,  2.03it/s]  6%|▌         | 667/10682 [06:07<1:22:19,  2.03it/s]  6%|▋         | 668/10682 [06:07<1:22:20,  2.03it/s]  6%|▋         | 669/10682 [06:08<1:22:20,  2.03it/s]  6%|▋         | 670/10682 [06:08<1:22:15,  2.03it/s]  6%|▋         | 671/10682 [06:09<1:22:16,  2.03it/s]  6%|▋         | 672/10682 [06:09<1:22:10,  2.03it/s]  6%|▋         | 673/10682 [06:10<1:22:13,  2.03it/s]  6%|▋         | 674/10682 [06:10<1:22:10,  2.03it/s]  6%|▋         | 675/10682 [06:10<1:22:08,  2.03it/s]                                                     {'loss': 4.622, 'grad_norm': 0.5398389101028442, 'learning_rate': 0.0006314312441534145, 'epoch': 0.88}
+  6%|▋         | 675/10682 [06:10<1:22:08,  2.03it/s]  6%|▋         | 676/10682 [06:11<1:22:17,  2.03it/s]  6%|▋         | 677/10682 [06:11<1:22:12,  2.03it/s]  6%|▋         | 678/10682 [06:12<1:22:15,  2.03it/s]  6%|▋         | 679/10682 [06:12<1:22:13,  2.03it/s]  6%|▋         | 680/10682 [06:13<1:22:18,  2.03it/s]  6%|▋         | 681/10682 [06:13<1:22:16,  2.03it/s]  6%|▋         | 682/10682 [06:14<1:22:18,  2.02it/s]  6%|▋         | 683/10682 [06:14<1:22:14,  2.03it/s]  6%|▋         | 684/10682 [06:15<1:22:13,  2.03it/s]  6%|▋         | 685/10682 [06:15<1:22:15,  2.03it/s]  6%|▋         | 686/10682 [06:16<1:22:09,  2.03it/s]  6%|▋         | 687/10682 [06:16<1:22:22,  2.02it/s]  6%|▋         | 688/10682 [06:17<1:22:14,  2.03it/s]  6%|▋         | 689/10682 [06:17<1:22:16,  2.02it/s]  6%|▋         | 690/10682 [06:18<1:22:09,  2.03it/s]  6%|▋         | 691/10682 [06:18<1:22:07,  2.03it/s]  6%|▋         | 692/10682 [06:19<1:22:08,  2.03it/s]  6%|▋         | 693/10682 [06:19<1:22:11,  2.03it/s]  6%|▋         | 694/10682 [06:20<1:22:08,  2.03it/s]  7%|▋         | 695/10682 [06:20<1:22:08,  2.03it/s]  7%|▋         | 696/10682 [06:21<1:22:13,  2.02it/s]  7%|▋         | 697/10682 [06:21<1:22:07,  2.03it/s]  7%|▋         | 698/10682 [06:22<1:22:18,  2.02it/s]  7%|▋         | 699/10682 [06:22<1:22:12,  2.02it/s]  7%|▋         | 700/10682 [06:23<1:22:12,  2.02it/s]                                                     {'loss': 4.5632, 'grad_norm': 0.4890291392803192, 'learning_rate': 0.0006548175865294667, 'epoch': 0.92}
+  7%|▋         | 700/10682 [06:23<1:22:12,  2.02it/s]  7%|▋         | 701/10682 [06:23<1:22:18,  2.02it/s]  7%|▋         | 702/10682 [06:24<1:22:17,  2.02it/s]  7%|▋         | 703/10682 [06:24<1:22:14,  2.02it/s]  7%|▋         | 704/10682 [06:25<1:22:13,  2.02it/s]  7%|▋         | 705/10682 [06:25<1:22:06,  2.03it/s]  7%|▋         | 706/10682 [06:26<1:22:11,  2.02it/s]  7%|▋         | 707/10682 [06:26<1:22:09,  2.02it/s]  7%|▋         | 708/10682 [06:27<1:22:13,  2.02it/s]  7%|▋         | 709/10682 [06:27<1:22:02,  2.03it/s]  7%|▋         | 710/10682 [06:28<1:22:06,  2.02it/s]  7%|▋         | 711/10682 [06:28<1:22:09,  2.02it/s]  7%|▋         | 712/10682 [06:29<1:22:05,  2.02it/s]  7%|▋         | 713/10682 [06:29<1:22:01,  2.03it/s]  7%|▋         | 714/10682 [06:30<1:21:53,  2.03it/s]  7%|▋         | 715/10682 [06:30<1:21:53,  2.03it/s]  7%|▋         | 716/10682 [06:31<1:21:55,  2.03it/s]  7%|▋         | 717/10682 [06:31<1:21:50,  2.03it/s]  7%|▋         | 718/10682 [06:32<1:21:53,  2.03it/s]  7%|▋         | 719/10682 [06:32<1:21:53,  2.03it/s]  7%|▋         | 720/10682 [06:33<1:21:57,  2.03it/s]  7%|▋         | 721/10682 [06:33<1:21:55,  2.03it/s]  7%|▋         | 722/10682 [06:34<1:21:52,  2.03it/s]  7%|▋         | 723/10682 [06:34<1:21:51,  2.03it/s]  7%|▋         | 724/10682 [06:35<1:21:51,  2.03it/s]  7%|▋         | 725/10682 [06:35<1:21:47,  2.03it/s]{'loss': 4.5343, 'grad_norm': 0.4946634769439697, 'learning_rate': 0.0006782039289055192, 'epoch': 0.95}
+                                                       7%|▋         | 725/10682 [06:35<1:21:47,  2.03it/s]  7%|▋         | 726/10682 [06:36<1:21:55,  2.03it/s]  7%|▋         | 727/10682 [06:36<1:21:52,  2.03it/s]  7%|▋         | 728/10682 [06:37<1:21:49,  2.03it/s]  7%|▋         | 729/10682 [06:37<1:21:52,  2.03it/s]  7%|▋         | 730/10682 [06:38<1:21:48,  2.03it/s]  7%|▋         | 731/10682 [06:38<1:21:51,  2.03it/s]  7%|▋         | 732/10682 [06:39<1:21:53,  2.03it/s]  7%|▋         | 733/10682 [06:39<1:21:56,  2.02it/s]  7%|▋         | 734/10682 [06:40<1:21:53,  2.02it/s]  7%|▋         | 735/10682 [06:40<1:21:55,  2.02it/s]  7%|▋         | 736/10682 [06:41<1:21:50,  2.03it/s]  7%|▋         | 737/10682 [06:41<1:21:54,  2.02it/s]  7%|▋         | 738/10682 [06:42<1:21:51,  2.02it/s]  7%|▋         | 739/10682 [06:42<1:21:50,  2.02it/s]  7%|▋         | 740/10682 [06:43<1:21:51,  2.02it/s]  7%|▋         | 741/10682 [06:43<1:21:49,  2.02it/s]  7%|▋         | 742/10682 [06:44<1:21:48,  2.03it/s]  7%|▋         | 743/10682 [06:44<1:21:46,  2.03it/s]  7%|▋         | 744/10682 [06:45<1:21:49,  2.02it/s]  7%|▋         | 745/10682 [06:45<1:21:52,  2.02it/s]  7%|▋         | 746/10682 [06:46<1:21:53,  2.02it/s]  7%|▋         | 747/10682 [06:46<1:21:51,  2.02it/s]  7%|▋         | 748/10682 [06:47<1:21:50,  2.02it/s]  7%|▋         | 749/10682 [06:47<1:21:46,  2.02it/s]  7%|▋         | 750/10682 [06:48<1:21:42,  2.03it/s]                                                     {'loss': 4.4964, 'grad_norm': 0.47002631425857544, 'learning_rate': 0.0007015902712815716, 'epoch': 0.98}
+  7%|▋         | 750/10682 [06:48<1:21:42,  2.03it/s]  7%|▋         | 751/10682 [06:48<1:21:47,  2.02it/s]  7%|▋         | 752/10682 [06:49<1:21:46,  2.02it/s]  7%|▋         | 753/10682 [06:49<1:21:47,  2.02it/s]  7%|▋         | 754/10682 [06:49<1:21:48,  2.02it/s]  7%|▋         | 755/10682 [06:50<1:21:40,  2.03it/s]  7%|▋         | 756/10682 [06:50<1:21:38,  2.03it/s]  7%|▋         | 757/10682 [06:51<1:21:41,  2.02it/s]  7%|▋         | 758/10682 [06:51<1:21:35,  2.03it/s]  7%|▋         | 759/10682 [06:52<1:21:36,  2.03it/s]  7%|▋         | 760/10682 [06:52<1:21:34,  2.03it/s]  7%|▋         | 761/10682 [06:53<1:21:41,  2.02it/s]  7%|▋         | 762/10682 [06:53<1:21:32,  2.03it/s]  7%|▋         | 763/10682 [06:54<1:23:40,  1.98it/s]  7%|▋         | 764/10682 [07:06<10:54:54,  3.96s/it]  7%|▋         | 765/10682 [07:07<8:02:51,  2.92s/it]   7%|▋         | 766/10682 [07:07<6:02:50,  2.20s/it]  7%|▋         | 767/10682 [07:07<4:38:27,  1.69s/it]  7%|▋         | 768/10682 [07:08<3:39:18,  1.33s/it]  7%|▋         | 769/10682 [07:08<2:57:58,  1.08s/it]  7%|▋         | 770/10682 [07:09<2:29:06,  1.11it/s]  7%|▋         | 771/10682 [07:09<2:08:50,  1.28it/s]  7%|▋         | 772/10682 [07:10<1:54:38,  1.44it/s]  7%|▋         | 773/10682 [07:10<1:44:47,  1.58it/s]  7%|▋         | 774/10682 [07:11<1:37:40,  1.69it/s]  7%|▋         | 775/10682 [07:11<1:32:55,  1.78it/s]{'loss': 4.4347, 'grad_norm': 0.5852263569831848, 'learning_rate': 0.0007249766136576241, 'epoch': 1.02}
+                                                       7%|▋         | 775/10682 [07:11<1:32:55,  1.78it/s]  7%|▋         | 776/10682 [07:12<1:29:35,  1.84it/s]  7%|▋         | 777/10682 [07:12<1:27:13,  1.89it/s]  7%|▋         | 778/10682 [07:13<1:25:21,  1.93it/s]  7%|▋         | 779/10682 [07:13<1:24:15,  1.96it/s]  7%|▋         | 780/10682 [07:14<1:23:24,  1.98it/s]  7%|▋         | 781/10682 [07:14<1:22:52,  1.99it/s]  7%|▋         | 782/10682 [07:15<1:22:26,  2.00it/s]  7%|▋         | 783/10682 [07:15<1:22:11,  2.01it/s]  7%|▋         | 784/10682 [07:16<1:21:56,  2.01it/s]  7%|▋         | 785/10682 [07:16<1:21:49,  2.02it/s]  7%|▋         | 786/10682 [07:17<1:21:40,  2.02it/s]  7%|▋         | 787/10682 [07:17<1:21:33,  2.02it/s]
\ No newline at end of file