diff --git "a/train_job_output.txt" "b/train_job_output.txt"
--- "a/train_job_output.txt"
+++ "b/train_job_output.txt"
@@ -1,4 +1,4 @@
-slurm submission log: 2024-05-24 11:42:10.609607
+slurm submission log: 2024-05-24 23:54:02.551434
 created following sbatch script: 
 
 ###############################
@@ -7,13 +7,13 @@ created following sbatch script:
 
 #SBATCH --account=nlp
 #SBATCH --cpus-per-task=16
-#SBATCH --dependency=afterok:7648448
+#SBATCH --dependency=afterok:7649440
 #SBATCH --gres=gpu:2
-#SBATCH --job-name=tthrush-job-245568
+#SBATCH --job-name=tthrush-job-2884917
 #SBATCH --mem=100G
 #SBATCH --nodelist=sphinx2
 #SBATCH --open-mode=append
-#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/llms/pythia-70m_sciq_1/train_job_output.txt
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_diff/llms/pythia-70m_sciq_1/train_job_output.txt
 #SBATCH --partition=sphinx
 #SBATCH --time=14-0
 
@@ -24,7 +24,7 @@ created following sbatch script:
 cd .
 
 # launch commands
-srun --unbuffered run_as_child_processes 'torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14'
+srun --unbuffered run_as_child_processes 'torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_diff/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_diff/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14'
 
 ###############################
 
@@ -34,13 +34,13 @@ submission to slurm complete!
 ###############################
 slurm submission output
 
-Submitted batch job 7648449
+Submitted batch job 7649441
 
 
 
 ###############################
 
-/var/lib/slurm/slurmd/job7648449/slurm_script: line 16: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory
+/var/lib/slurm/slurmd/job7649441/slurm_script: line 16: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory
 
 CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.
 To initialize your shell, run
@@ -61,606 +61,59 @@ IMPORTANT: You may need to close and restart your shell after running 'conda ini
 
 
 ###############################
-start time: 2024-05-24 11:43:07.650666
+start time: 2024-05-25 04:55:04.852621
 machine: sphinx2
 conda env: pretraining-coreset-selection
 ###############################
 running following processes
 
-	torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14
+	torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_diff/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_diff/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14
 
 
 ###############################
 command outputs: 
 
 
-[2024-05-24 11:43:09,861] torch.distributed.run: [WARNING] 
-[2024-05-24 11:43:09,861] torch.distributed.run: [WARNING] *****************************************
-[2024-05-24 11:43:09,861] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
-[2024-05-24 11:43:09,861] torch.distributed.run: [WARNING] *****************************************
-05/24/2024 11:43:15 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=14.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
-05/24/2024 11:43:15 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=14.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
-Traceback (most recent call last):
-  File "/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_llm.py", line 204, in <module>
-    train_model()
-  File "/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_llm.py", line 164, in train_model
-    train_dataset = load_from_disk(script_args.dataset_id)
-  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/datasets/load.py", line 2638, in load_from_disk
-    raise FileNotFoundError(
-FileNotFoundError: Directory /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/data/sciq is neither a `Dataset` directory nor a `DatasetDict` directory.
-Traceback (most recent call last):
-  File "/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_llm.py", line 204, in <module>
-    train_model()
-  File "/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_llm.py", line 164, in train_model
-    train_dataset = load_from_disk(script_args.dataset_id)
-  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/datasets/load.py", line 2638, in load_from_disk
-    raise FileNotFoundError(
-FileNotFoundError: Directory /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/data/sciq is neither a `Dataset` directory nor a `DatasetDict` directory.
-[2024-05-24 11:43:19,880] torch.distributed.elastic.multiprocessing.api: [ERROR] failed (exitcode: 1) local_rank: 0 (pid: 2635363) of binary: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/bin/python
-Traceback (most recent call last):
-  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/bin/torchrun", line 8, in <module>
-    sys.exit(main())
-  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/elastic/multiprocessing/errors/__init__.py", line 347, in wrapper
-    return f(*args, **kwargs)
-  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/run.py", line 812, in main
-    run(args)
-  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/run.py", line 803, in run
-    elastic_launch(
-  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 135, in __call__
-    return launch_agent(self._config, self._entrypoint, list(args))
-  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 268, in launch_agent
-    raise ChildFailedError(
-torch.distributed.elastic.multiprocessing.errors.ChildFailedError: 
-============================================================
-train_llm.py FAILED
-------------------------------------------------------------
-Failures:
-[1]:
-  time      : 2024-05-24_11:43:19
-  host      : sphinx2.stanford.edu
-  rank      : 1 (local_rank: 1)
-  exitcode  : 1 (pid: 2635364)
-  error_file: <N/A>
-  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
-------------------------------------------------------------
-Root Cause (first observed failure):
-[0]:
-  time      : 2024-05-24_11:43:19
-  host      : sphinx2.stanford.edu
-  rank      : 0 (local_rank: 0)
-  exitcode  : 1 (pid: 2635363)
-  error_file: <N/A>
-  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
-============================================================
-###############################
-end time: 2024-05-24 11:43:27.673614
-elapsed time: 0:00:20.022948
-slurm submission log: 2024-05-24 11:46:16.259550
-created following sbatch script: 
-
-###############################
-
-#!/bin/bash
-
-#SBATCH --account=nlp
-#SBATCH --cpus-per-task=16
-#SBATCH --dependency=afterok:7648480
-#SBATCH --gres=gpu:2
-#SBATCH --job-name=tthrush-job-4918505
-#SBATCH --mem=100G
-#SBATCH --nodelist=sphinx2
-#SBATCH --open-mode=append
-#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/llms/pythia-70m_sciq_1/train_job_output.txt
-#SBATCH --partition=sphinx
-#SBATCH --time=14-0
-
-# activate your desired anaconda environment
-. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
-
-# cd to working directory
-cd .
-
-# launch commands
-srun --unbuffered run_as_child_processes 'torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14'
-
-###############################
-
-submission to slurm complete!
-
-
-###############################
-slurm submission output
-
-Submitted batch job 7648481
-
-
-
-###############################
-
-/var/lib/slurm/slurmd/job7648481/slurm_script: line 16: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory
-
-CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.
-To initialize your shell, run
-
-    $ conda init <SHELL_NAME>
-
-Currently supported shells are:
-  - bash
-  - fish
-  - tcsh
-  - xonsh
-  - zsh
-  - powershell
-
-See 'conda init --help' for more information and options.
-
-IMPORTANT: You may need to close and restart your shell after running 'conda init'.
-
-
-###############################
-start time: 2024-05-24 13:43:42.025549
-machine: sphinx2
-conda env: pretraining-coreset-selection
-###############################
-running following processes
-
-	torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14
-
-
-###############################
-command outputs: 
-
-
-[2024-05-24 13:43:45,190] torch.distributed.run: [WARNING] 
-[2024-05-24 13:43:45,190] torch.distributed.run: [WARNING] *****************************************
-[2024-05-24 13:43:45,190] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
-[2024-05-24 13:43:45,190] torch.distributed.run: [WARNING] *****************************************
-05/24/2024 13:43:52 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=14.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
-05/24/2024 13:43:52 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_initial_init_min_threshold/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=14.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
-  0%|          | 0/11074 [00:00<?, ?it/s][rank0]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
-[rank1]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
-  0%|          | 1/11074 [00:06<19:27:32,  6.33s/it]  0%|          | 2/11074 [00:08<11:36:45,  3.78s/it]  0%|          | 3/11074 [00:09<8:19:26,  2.71s/it]   0%|          | 4/11074 [00:10<6:27:31,  2.10s/it]  0%|          | 5/11074 [00:11<5:16:04,  1.71s/it]  0%|          | 6/11074 [00:12<4:25:53,  1.44s/it]  0%|          | 7/11074 [00:13<3:51:11,  1.25s/it]  0%|          | 8/11074 [00:14<3:25:10,  1.11s/it]  0%|          | 9/11074 [00:15<3:03:29,  1.01it/s]  0%|          | 10/11074 [00:15<2:46:28,  1.11it/s]  0%|          | 11/11074 [00:16<2:34:46,  1.19it/s]  0%|          | 12/11074 [00:17<2:24:27,  1.28it/s]  0%|          | 13/11074 [00:17<2:15:35,  1.36it/s]  0%|          | 14/11074 [00:18<2:09:07,  1.43it/s]  0%|          | 15/11074 [00:19<2:06:05,  1.46it/s]  0%|          | 16/11074 [00:19<2:05:11,  1.47it/s]  0%|          | 17/11074 [00:20<2:03:24,  1.49it/s]  0%|          | 18/11074 [00:21<1:57:19,  1.57it/s]  0%|          | 19/11074 [00:21<1:52:57,  1.63it/s]  0%|          | 20/11074 [00:22<1:49:13,  1.69it/s]  0%|          | 21/11074 [00:22<1:46:18,  1.73it/s]  0%|          | 22/11074 [00:23<1:48:25,  1.70it/s]  0%|          | 23/11074 [00:23<1:48:57,  1.69it/s]  0%|          | 24/11074 [00:24<1:48:05,  1.70it/s]  0%|          | 25/11074 [00:25<1:47:46,  1.71it/s]                                                    {'loss': 10.675, 'grad_norm': 1.3296610116958618, 'learning_rate': 2.256317689530686e-05, 'epoch': 0.03}
-  0%|          | 25/11074 [00:25<1:47:46,  1.71it/s]  0%|          | 26/11074 [00:25<1:46:01,  1.74it/s]  0%|          | 27/11074 [00:26<1:46:10,  1.73it/s]  0%|          | 28/11074 [00:26<1:42:38,  1.79it/s]  0%|          | 29/11074 [00:27<1:41:49,  1.81it/s]  0%|          | 30/11074 [00:27<1:41:55,  1.81it/s]  0%|          | 31/11074 [00:28<1:40:26,  1.83it/s]  0%|          | 32/11074 [00:28<1:39:00,  1.86it/s]  0%|          | 33/11074 [00:29<1:39:13,  1.85it/s]  0%|          | 34/11074 [00:29<1:37:11,  1.89it/s]  0%|          | 35/11074 [00:30<1:36:56,  1.90it/s]  0%|          | 36/11074 [00:30<1:36:19,  1.91it/s]  0%|          | 37/11074 [00:31<1:35:03,  1.94it/s]  0%|          | 38/11074 [00:31<1:35:00,  1.94it/s]  0%|          | 39/11074 [00:32<1:35:09,  1.93it/s]  0%|          | 40/11074 [00:33<1:35:38,  1.92it/s]  0%|          | 41/11074 [00:33<1:35:18,  1.93it/s]  0%|          | 42/11074 [00:34<1:34:28,  1.95it/s]  0%|          | 43/11074 [00:34<1:33:58,  1.96it/s]  0%|          | 44/11074 [00:35<1:34:21,  1.95it/s]  0%|          | 45/11074 [00:35<1:33:47,  1.96it/s]  0%|          | 46/11074 [00:36<1:33:15,  1.97it/s]  0%|          | 47/11074 [00:36<1:32:49,  1.98it/s]  0%|          | 48/11074 [00:37<1:32:32,  1.99it/s]  0%|          | 49/11074 [00:37<1:32:06,  1.99it/s]  0%|          | 50/11074 [00:38<1:32:03,  2.00it/s]{'loss': 9.9567, 'grad_norm': 1.2397633790969849, 'learning_rate': 4.512635379061372e-05, 'epoch': 0.06}                                                    
-  0%|          | 50/11074 [00:38<1:32:03,  2.00it/s]  0%|          | 51/11074 [00:38<1:32:17,  1.99it/s]  0%|          | 52/11074 [00:39<1:32:16,  1.99it/s]  0%|          | 53/11074 [00:39<1:32:10,  1.99it/s]  0%|          | 54/11074 [00:40<1:31:56,  2.00it/s]  0%|          | 55/11074 [00:40<1:31:42,  2.00it/s]  1%|          | 56/11074 [00:41<1:31:37,  2.00it/s]  1%|          | 57/11074 [00:41<1:31:24,  2.01it/s]  1%|          | 58/11074 [00:42<1:31:25,  2.01it/s]  1%|          | 59/11074 [00:42<1:31:15,  2.01it/s]  1%|          | 60/11074 [00:43<1:31:05,  2.02it/s]  1%|          | 61/11074 [00:43<1:31:00,  2.02it/s]  1%|          | 62/11074 [00:44<1:32:01,  1.99it/s]  1%|          | 63/11074 [00:44<1:31:55,  2.00it/s]  1%|          | 64/11074 [00:45<1:31:44,  2.00it/s]  1%|          | 65/11074 [00:45<1:31:31,  2.00it/s]  1%|          | 66/11074 [00:46<1:31:21,  2.01it/s]  1%|          | 67/11074 [00:46<1:31:12,  2.01it/s]  1%|          | 68/11074 [00:47<1:31:06,  2.01it/s]  1%|          | 69/11074 [00:47<1:30:58,  2.02it/s]  1%|          | 70/11074 [00:48<1:31:02,  2.01it/s]  1%|          | 71/11074 [00:48<1:30:53,  2.02it/s]  1%|          | 72/11074 [00:49<1:30:48,  2.02it/s]  1%|          | 73/11074 [00:49<1:30:49,  2.02it/s]  1%|          | 74/11074 [00:50<1:30:54,  2.02it/s]  1%|          | 75/11074 [00:50<1:30:48,  2.02it/s]                                                    {'loss': 9.2388, 'grad_norm': 1.0269027948379517, 'learning_rate': 6.768953068592058e-05, 'epoch': 0.09}
-  1%|          | 75/11074 [00:50<1:30:48,  2.02it/s]  1%|          | 76/11074 [00:51<1:30:58,  2.01it/s]  1%|          | 77/11074 [00:51<1:30:50,  2.02it/s]  1%|          | 78/11074 [00:52<1:30:45,  2.02it/s]  1%|          | 79/11074 [00:52<1:30:43,  2.02it/s]  1%|          | 80/11074 [00:52<1:30:37,  2.02it/s]  1%|          | 81/11074 [00:53<1:30:45,  2.02it/s]  1%|          | 82/11074 [00:53<1:30:38,  2.02it/s]  1%|          | 83/11074 [00:54<1:30:43,  2.02it/s]  1%|          | 84/11074 [00:54<1:30:41,  2.02it/s]  1%|          | 85/11074 [00:55<1:30:38,  2.02it/s]  1%|          | 86/11074 [00:55<1:30:35,  2.02it/s]  1%|          | 87/11074 [00:56<1:30:39,  2.02it/s]  1%|          | 88/11074 [00:56<1:30:32,  2.02it/s]  1%|          | 89/11074 [00:57<1:30:35,  2.02it/s]  1%|          | 90/11074 [00:57<1:30:27,  2.02it/s]  1%|          | 91/11074 [00:58<1:30:27,  2.02it/s]  1%|          | 92/11074 [00:58<1:30:29,  2.02it/s]  1%|          | 93/11074 [00:59<1:30:23,  2.02it/s]  1%|          | 94/11074 [00:59<1:30:24,  2.02it/s]  1%|          | 95/11074 [01:00<1:30:18,  2.03it/s]  1%|          | 96/11074 [01:00<1:30:18,  2.03it/s]  1%|          | 97/11074 [01:01<1:30:14,  2.03it/s]  1%|          | 98/11074 [01:01<1:30:17,  2.03it/s]  1%|          | 99/11074 [01:02<1:30:22,  2.02it/s]  1%|          | 100/11074 [01:02<1:30:23,  2.02it/s]                                                     {'loss': 8.45, 'grad_norm': 0.7720701098442078, 'learning_rate': 9.025270758122745e-05, 'epoch': 0.13}
-  1%|          | 100/11074 [01:02<1:30:23,  2.02it/s]  1%|          | 101/11074 [01:03<1:30:32,  2.02it/s]  1%|          | 102/11074 [01:03<1:30:34,  2.02it/s]  1%|          | 103/11074 [01:04<1:30:26,  2.02it/s]  1%|          | 104/11074 [01:04<1:30:26,  2.02it/s]  1%|          | 105/11074 [01:05<1:30:22,  2.02it/s]  1%|          | 106/11074 [01:05<1:30:19,  2.02it/s]  1%|          | 107/11074 [01:06<1:30:19,  2.02it/s]  1%|          | 108/11074 [01:06<1:30:26,  2.02it/s]  1%|          | 109/11074 [01:07<1:30:26,  2.02it/s]  1%|          | 110/11074 [01:07<1:30:22,  2.02it/s]  1%|          | 111/11074 [01:08<1:30:16,  2.02it/s]  1%|          | 112/11074 [01:08<1:30:12,  2.03it/s]  1%|          | 113/11074 [01:09<1:30:17,  2.02it/s]  1%|          | 114/11074 [01:09<1:30:24,  2.02it/s]  1%|          | 115/11074 [01:10<1:30:18,  2.02it/s]  1%|          | 116/11074 [01:10<1:30:18,  2.02it/s]  1%|          | 117/11074 [01:11<1:30:17,  2.02it/s]  1%|          | 118/11074 [01:11<1:30:13,  2.02it/s]  1%|          | 119/11074 [01:12<1:30:13,  2.02it/s]  1%|          | 120/11074 [01:12<1:30:12,  2.02it/s]  1%|          | 121/11074 [01:13<1:30:10,  2.02it/s]  1%|          | 122/11074 [01:13<1:30:07,  2.03it/s]  1%|          | 123/11074 [01:14<1:30:13,  2.02it/s]  1%|          | 124/11074 [01:14<1:30:13,  2.02it/s]  1%|          | 125/11074 [01:15<1:30:06,  2.03it/s]{'loss': 7.787, 'grad_norm': 0.4905513823032379, 'learning_rate': 0.00011281588447653429, 'epoch': 0.16}                                                     
-  1%|          | 125/11074 [01:15<1:30:06,  2.03it/s]  1%|          | 126/11074 [01:15<1:30:10,  2.02it/s]  1%|          | 127/11074 [01:16<1:30:07,  2.02it/s]  1%|          | 128/11074 [01:16<1:30:04,  2.03it/s]  1%|          | 129/11074 [01:17<1:30:03,  2.03it/s]  1%|          | 130/11074 [01:17<1:29:59,  2.03it/s]  1%|          | 131/11074 [01:18<1:29:58,  2.03it/s]  1%|          | 132/11074 [01:18<1:29:58,  2.03it/s]  1%|          | 133/11074 [01:19<1:30:05,  2.02it/s]  1%|          | 134/11074 [01:19<1:30:03,  2.02it/s]  1%|          | 135/11074 [01:20<1:29:59,  2.03it/s]  1%|          | 136/11074 [01:20<1:29:59,  2.03it/s]  1%|          | 137/11074 [01:21<1:29:51,  2.03it/s]  1%|          | 138/11074 [01:21<1:29:58,  2.03it/s]  1%|▏         | 139/11074 [01:22<1:29:52,  2.03it/s]  1%|▏         | 140/11074 [01:22<1:29:54,  2.03it/s]  1%|▏         | 141/11074 [01:23<1:29:53,  2.03it/s]  1%|▏         | 142/11074 [01:23<1:29:49,  2.03it/s]  1%|▏         | 143/11074 [01:24<1:29:51,  2.03it/s]  1%|▏         | 144/11074 [01:24<1:29:50,  2.03it/s]  1%|▏         | 145/11074 [01:25<1:29:49,  2.03it/s]  1%|▏         | 146/11074 [01:25<1:29:58,  2.02it/s]  1%|▏         | 147/11074 [01:26<1:29:57,  2.02it/s]  1%|▏         | 148/11074 [01:26<1:29:55,  2.03it/s]  1%|▏         | 149/11074 [01:27<1:29:56,  2.02it/s]  1%|▏         | 150/11074 [01:27<1:29:49,  2.03it/s]{'loss': 7.2994, 'grad_norm': 0.50101637840271, 'learning_rate': 0.00013537906137184115, 'epoch': 0.19}                                                     
-  1%|▏         | 150/11074 [01:27<1:29:49,  2.03it/s]  1%|▏         | 151/11074 [01:28<1:29:57,  2.02it/s]  1%|▏         | 152/11074 [01:28<1:29:47,  2.03it/s]  1%|▏         | 153/11074 [01:29<1:29:48,  2.03it/s]  1%|▏         | 154/11074 [01:29<1:29:47,  2.03it/s]  1%|▏         | 155/11074 [01:30<1:29:47,  2.03it/s]  1%|▏         | 156/11074 [01:30<1:29:46,  2.03it/s]  1%|▏         | 157/11074 [01:31<1:29:41,  2.03it/s]  1%|▏         | 158/11074 [01:31<1:29:48,  2.03it/s]  1%|▏         | 159/11074 [01:32<1:29:45,  2.03it/s]  1%|▏         | 160/11074 [01:32<1:29:43,  2.03it/s]  1%|▏         | 161/11074 [01:33<1:29:45,  2.03it/s]  1%|▏         | 162/11074 [01:33<1:29:50,  2.02it/s]  1%|▏         | 163/11074 [01:34<1:29:50,  2.02it/s]  1%|▏         | 164/11074 [01:34<1:29:51,  2.02it/s]  1%|▏         | 165/11074 [01:34<1:29:51,  2.02it/s]  1%|▏         | 166/11074 [01:35<1:29:52,  2.02it/s]  2%|▏         | 167/11074 [01:35<1:29:50,  2.02it/s]  2%|▏         | 168/11074 [01:36<1:29:48,  2.02it/s]  2%|▏         | 169/11074 [01:36<1:29:45,  2.03it/s]  2%|▏         | 170/11074 [01:37<1:29:43,  2.03it/s]  2%|▏         | 171/11074 [01:37<1:29:44,  2.02it/s]  2%|▏         | 172/11074 [01:38<1:29:40,  2.03it/s]  2%|▏         | 173/11074 [01:38<1:29:37,  2.03it/s]  2%|▏         | 174/11074 [01:39<1:29:40,  2.03it/s]  2%|▏         | 175/11074 [01:39<1:29:37,  2.03it/s]{'loss': 6.8875, 'grad_norm': 0.36507293581962585, 'learning_rate': 0.000157942238267148, 'epoch': 0.22}                                                     
-  2%|▏         | 175/11074 [01:39<1:29:37,  2.03it/s]  2%|▏         | 176/11074 [01:40<1:29:45,  2.02it/s]  2%|▏         | 177/11074 [01:40<1:29:38,  2.03it/s]  2%|▏         | 178/11074 [01:41<1:29:36,  2.03it/s]  2%|▏         | 179/11074 [01:41<1:29:38,  2.03it/s]  2%|▏         | 180/11074 [01:42<1:29:45,  2.02it/s]  2%|▏         | 181/11074 [01:42<1:29:44,  2.02it/s]  2%|▏         | 182/11074 [01:43<1:29:45,  2.02it/s]  2%|▏         | 183/11074 [01:43<1:29:43,  2.02it/s]  2%|▏         | 184/11074 [01:44<1:29:49,  2.02it/s]  2%|▏         | 185/11074 [01:44<1:29:41,  2.02it/s]  2%|▏         | 186/11074 [01:45<1:29:42,  2.02it/s]  2%|▏         | 187/11074 [01:45<1:29:39,  2.02it/s]  2%|▏         | 188/11074 [01:46<1:29:36,  2.02it/s]  2%|▏         | 189/11074 [01:46<1:29:37,  2.02it/s]  2%|▏         | 190/11074 [01:47<1:29:38,  2.02it/s]  2%|▏         | 191/11074 [01:47<1:29:34,  2.02it/s]  2%|▏         | 192/11074 [01:48<1:29:42,  2.02it/s]  2%|▏         | 193/11074 [01:48<1:29:37,  2.02it/s]  2%|▏         | 194/11074 [01:49<1:29:38,  2.02it/s]  2%|▏         | 195/11074 [01:49<1:29:36,  2.02it/s]  2%|▏         | 196/11074 [01:50<1:29:37,  2.02it/s]  2%|▏         | 197/11074 [01:50<1:29:41,  2.02it/s]  2%|▏         | 198/11074 [01:51<1:29:36,  2.02it/s]  2%|▏         | 199/11074 [01:51<1:29:38,  2.02it/s]  2%|▏         | 200/11074 [01:52<1:29:37,  2.02it/s]{'loss': 6.5399, 'grad_norm': 0.4303317070007324, 'learning_rate': 0.0001805054151624549, 'epoch': 0.25}
-                                                       2%|▏         | 200/11074 [01:52<1:29:37,  2.02it/s]  2%|▏         | 201/11074 [01:52<1:29:36,  2.02it/s]  2%|▏         | 202/11074 [01:53<1:29:34,  2.02it/s]  2%|▏         | 203/11074 [01:53<1:29:35,  2.02it/s]  2%|▏         | 204/11074 [01:54<1:29:34,  2.02it/s]  2%|▏         | 205/11074 [01:54<1:29:32,  2.02it/s]  2%|▏         | 206/11074 [01:55<1:29:36,  2.02it/s]  2%|▏         | 207/11074 [01:55<1:29:36,  2.02it/s]  2%|▏         | 208/11074 [01:56<1:29:38,  2.02it/s]  2%|▏         | 209/11074 [01:56<1:29:35,  2.02it/s]  2%|▏         | 210/11074 [01:57<1:29:32,  2.02it/s]  2%|▏         | 211/11074 [01:57<1:29:31,  2.02it/s]  2%|▏         | 212/11074 [01:58<1:29:27,  2.02it/s]  2%|▏         | 213/11074 [01:58<1:29:31,  2.02it/s]  2%|▏         | 214/11074 [01:59<1:29:27,  2.02it/s]  2%|▏         | 215/11074 [01:59<1:29:27,  2.02it/s]  2%|▏         | 216/11074 [02:00<1:29:29,  2.02it/s]  2%|▏         | 217/11074 [02:00<1:29:27,  2.02it/s]  2%|▏         | 218/11074 [02:01<1:29:26,  2.02it/s]  2%|▏         | 219/11074 [02:01<1:29:26,  2.02it/s]  2%|▏         | 220/11074 [02:02<1:29:28,  2.02it/s]  2%|▏         | 221/11074 [02:02<1:29:27,  2.02it/s]  2%|▏         | 222/11074 [02:03<1:29:27,  2.02it/s]  2%|▏         | 223/11074 [02:03<1:29:27,  2.02it/s]  2%|▏         | 224/11074 [02:04<1:29:26,  2.02it/s]  2%|▏         | 225/11074 [02:04<1:29:23,  2.02it/s]{'loss': 6.2696, 'grad_norm': 0.44111841917037964, 'learning_rate': 0.00020306859205776175, 'epoch': 0.28}
-                                                       2%|▏         | 225/11074 [02:04<1:29:23,  2.02it/s]  2%|▏         | 226/11074 [02:05<1:29:41,  2.02it/s]  2%|▏         | 227/11074 [02:05<1:29:33,  2.02it/s]  2%|▏         | 228/11074 [02:06<1:29:28,  2.02it/s]  2%|▏         | 229/11074 [02:06<1:29:26,  2.02it/s]  2%|▏         | 230/11074 [02:07<1:29:22,  2.02it/s]  2%|▏         | 231/11074 [02:07<1:29:23,  2.02it/s]  2%|▏         | 232/11074 [02:08<1:29:34,  2.02it/s]  2%|▏         | 233/11074 [02:08<1:29:26,  2.02it/s]  2%|▏         | 234/11074 [02:09<1:29:25,  2.02it/s]  2%|▏         | 235/11074 [02:09<1:29:23,  2.02it/s]  2%|▏         | 236/11074 [02:10<1:29:16,  2.02it/s]  2%|▏         | 237/11074 [02:10<1:29:13,  2.02it/s]  2%|▏         | 238/11074 [02:11<1:29:04,  2.03it/s]  2%|▏         | 239/11074 [02:11<1:29:12,  2.02it/s]  2%|▏         | 240/11074 [02:12<1:29:13,  2.02it/s]  2%|▏         | 241/11074 [02:12<1:29:12,  2.02it/s]  2%|▏         | 242/11074 [02:13<1:29:10,  2.02it/s]  2%|▏         | 243/11074 [02:13<1:29:11,  2.02it/s]  2%|▏         | 244/11074 [02:14<1:29:06,  2.03it/s]  2%|▏         | 245/11074 [02:14<1:29:08,  2.02it/s]  2%|▏         | 246/11074 [02:15<1:29:11,  2.02it/s]  2%|▏         | 247/11074 [02:15<1:29:13,  2.02it/s]  2%|▏         | 248/11074 [02:16<1:29:05,  2.03it/s]  2%|▏         | 249/11074 [02:16<1:29:05,  2.03it/s]  2%|▏         | 250/11074 [02:17<1:29:03,  2.03it/s]                                                     {'loss': 6.0673, 'grad_norm': 0.690520167350769, 'learning_rate': 0.00022563176895306857, 'epoch': 0.32}
-  2%|▏         | 250/11074 [02:17<1:29:03,  2.03it/s]  2%|▏         | 251/11074 [02:17<1:29:28,  2.02it/s]  2%|▏         | 252/11074 [02:17<1:29:16,  2.02it/s]  2%|▏         | 253/11074 [02:18<1:29:13,  2.02it/s]  2%|▏         | 254/11074 [02:18<1:29:08,  2.02it/s]  2%|▏         | 255/11074 [02:19<1:29:16,  2.02it/s]  2%|▏         | 256/11074 [02:19<1:29:08,  2.02it/s]  2%|▏         | 257/11074 [02:20<1:29:07,  2.02it/s]  2%|▏         | 258/11074 [02:20<1:29:04,  2.02it/s]  2%|▏         | 259/11074 [02:21<1:29:09,  2.02it/s]  2%|▏         | 260/11074 [02:21<1:29:06,  2.02it/s]  2%|▏         | 261/11074 [02:22<1:29:00,  2.02it/s]  2%|▏         | 262/11074 [02:22<1:28:58,  2.03it/s]  2%|▏         | 263/11074 [02:23<1:28:58,  2.03it/s]  2%|▏         | 264/11074 [02:23<1:29:00,  2.02it/s]  2%|▏         | 265/11074 [02:24<1:28:58,  2.02it/s]  2%|▏         | 266/11074 [02:24<1:29:07,  2.02it/s]  2%|▏         | 267/11074 [02:25<1:29:02,  2.02it/s]  2%|▏         | 268/11074 [02:25<1:29:02,  2.02it/s]  2%|▏         | 269/11074 [02:26<1:29:03,  2.02it/s]  2%|▏         | 270/11074 [02:26<1:29:05,  2.02it/s]  2%|▏         | 271/11074 [02:27<1:29:04,  2.02it/s]  2%|▏         | 272/11074 [02:27<1:29:03,  2.02it/s]  2%|▏         | 273/11074 [02:28<1:29:03,  2.02it/s]  2%|▏         | 274/11074 [02:28<1:29:02,  2.02it/s]  2%|▏         | 275/11074 [02:29<1:29:03,  2.02it/s]{'loss': 5.8915, 'grad_norm': 0.7362236380577087, 'learning_rate': 0.00024819494584837545, 'epoch': 0.35}                                                     
-  2%|▏         | 275/11074 [02:29<1:29:03,  2.02it/s]  2%|▏         | 276/11074 [02:29<1:29:05,  2.02it/s]  3%|▎         | 277/11074 [02:30<1:28:59,  2.02it/s]  3%|▎         | 278/11074 [02:30<1:29:01,  2.02it/s]  3%|▎         | 279/11074 [02:31<1:29:01,  2.02it/s]  3%|▎         | 280/11074 [02:31<1:29:02,  2.02it/s]  3%|▎         | 281/11074 [02:32<1:28:59,  2.02it/s]  3%|▎         | 282/11074 [02:32<1:28:54,  2.02it/s]  3%|▎         | 283/11074 [02:33<1:28:55,  2.02it/s]  3%|▎         | 284/11074 [02:33<1:28:48,  2.03it/s]  3%|▎         | 285/11074 [02:34<1:28:55,  2.02it/s]  3%|▎         | 286/11074 [02:34<1:28:57,  2.02it/s]  3%|▎         | 287/11074 [02:35<1:28:55,  2.02it/s]  3%|▎         | 288/11074 [02:35<1:28:50,  2.02it/s]  3%|▎         | 289/11074 [02:36<1:28:49,  2.02it/s]  3%|▎         | 290/11074 [02:36<1:28:56,  2.02it/s]  3%|▎         | 291/11074 [02:37<1:28:54,  2.02it/s]  3%|▎         | 292/11074 [02:37<1:28:52,  2.02it/s]  3%|▎         | 293/11074 [02:38<1:28:49,  2.02it/s]  3%|▎         | 294/11074 [02:38<1:28:47,  2.02it/s]  3%|▎         | 295/11074 [02:39<1:28:47,  2.02it/s]  3%|▎         | 296/11074 [02:39<1:28:48,  2.02it/s]  3%|▎         | 297/11074 [02:40<1:28:48,  2.02it/s]  3%|▎         | 298/11074 [02:40<1:28:44,  2.02it/s]  3%|▎         | 299/11074 [02:41<1:28:43,  2.02it/s]  3%|▎         | 300/11074 [02:41<1:28:40,  2.03it/s]                                                     {'loss': 5.7447, 'grad_norm': 0.6928529739379883, 'learning_rate': 0.0002707581227436823, 'epoch': 0.38}
-  3%|▎         | 300/11074 [02:41<1:28:40,  2.03it/s]  3%|▎         | 301/11074 [02:42<1:28:50,  2.02it/s]  3%|▎         | 302/11074 [02:42<1:28:44,  2.02it/s]  3%|▎         | 303/11074 [02:43<1:28:44,  2.02it/s]  3%|▎         | 304/11074 [02:43<1:28:37,  2.03it/s]  3%|▎         | 305/11074 [02:44<1:28:42,  2.02it/s]  3%|▎         | 306/11074 [02:44<1:28:33,  2.03it/s]  3%|▎         | 307/11074 [02:45<1:28:36,  2.03it/s]  3%|▎         | 308/11074 [02:45<1:28:31,  2.03it/s]  3%|▎         | 309/11074 [02:46<1:28:38,  2.02it/s]  3%|▎         | 310/11074 [02:46<1:28:31,  2.03it/s]  3%|▎         | 311/11074 [02:47<1:28:32,  2.03it/s]  3%|▎         | 312/11074 [02:47<1:28:31,  2.03it/s]  3%|▎         | 313/11074 [02:48<1:28:42,  2.02it/s]  3%|▎         | 314/11074 [02:48<1:28:35,  2.02it/s]  3%|▎         | 315/11074 [02:49<1:28:35,  2.02it/s]  3%|▎         | 316/11074 [02:49<1:28:31,  2.03it/s]  3%|▎         | 317/11074 [02:50<1:28:29,  2.03it/s]  3%|▎         | 318/11074 [02:50<1:28:31,  2.03it/s]  3%|▎         | 319/11074 [02:51<1:28:23,  2.03it/s]  3%|▎         | 320/11074 [02:51<1:28:28,  2.03it/s]  3%|▎         | 321/11074 [02:52<1:28:26,  2.03it/s]  3%|▎         | 322/11074 [02:52<1:28:28,  2.03it/s]  3%|▎         | 323/11074 [02:53<1:28:23,  2.03it/s]  3%|▎         | 324/11074 [02:53<1:28:23,  2.03it/s]  3%|▎         | 325/11074 [02:54<1:28:29,  2.02it/s]                                                     {'loss': 5.63, 'grad_norm': 0.8543111681938171, 'learning_rate': 0.00029332129963898916, 'epoch': 0.41}
-  3%|▎         | 325/11074 [02:54<1:28:29,  2.02it/s]  3%|▎         | 326/11074 [02:54<1:28:47,  2.02it/s]  3%|▎         | 327/11074 [02:55<1:28:37,  2.02it/s]  3%|▎         | 328/11074 [02:55<1:28:36,  2.02it/s]  3%|▎         | 329/11074 [02:56<1:28:29,  2.02it/s]  3%|▎         | 330/11074 [02:56<1:28:31,  2.02it/s]  3%|▎         | 331/11074 [02:57<1:28:23,  2.03it/s]  3%|▎         | 332/11074 [02:57<1:28:29,  2.02it/s]  3%|▎         | 333/11074 [02:58<1:28:27,  2.02it/s]  3%|▎         | 334/11074 [02:58<1:28:28,  2.02it/s]  3%|▎         | 335/11074 [02:59<1:28:26,  2.02it/s]  3%|▎         | 336/11074 [02:59<1:28:29,  2.02it/s]  3%|▎         | 337/11074 [03:00<1:28:30,  2.02it/s]  3%|▎         | 338/11074 [03:00<1:28:30,  2.02it/s]  3%|▎         | 339/11074 [03:00<1:28:25,  2.02it/s]  3%|▎         | 340/11074 [03:01<1:28:32,  2.02it/s]  3%|▎         | 341/11074 [03:01<1:28:26,  2.02it/s]  3%|▎         | 342/11074 [03:02<1:28:21,  2.02it/s]  3%|▎         | 343/11074 [03:02<1:28:22,  2.02it/s]  3%|▎         | 344/11074 [03:03<1:28:20,  2.02it/s]  3%|▎         | 345/11074 [03:03<1:28:24,  2.02it/s]  3%|▎         | 346/11074 [03:04<1:28:21,  2.02it/s]  3%|▎         | 347/11074 [03:04<1:28:23,  2.02it/s]  3%|▎         | 348/11074 [03:05<1:28:22,  2.02it/s]  3%|▎         | 349/11074 [03:05<1:28:24,  2.02it/s]  3%|▎         | 350/11074 [03:06<1:28:17,  2.02it/s]{'loss': 5.5239, 'grad_norm': 0.6494495868682861, 'learning_rate': 0.000315884476534296, 'epoch': 0.44}                                                     
-  3%|▎         | 350/11074 [03:06<1:28:17,  2.02it/s]  3%|▎         | 351/11074 [03:06<1:28:29,  2.02it/s]  3%|▎         | 352/11074 [03:07<1:28:19,  2.02it/s]  3%|▎         | 353/11074 [03:07<1:28:24,  2.02it/s]  3%|▎         | 354/11074 [03:08<1:28:17,  2.02it/s]  3%|▎         | 355/11074 [03:08<1:28:18,  2.02it/s]  3%|▎         | 356/11074 [03:09<1:28:11,  2.03it/s]  3%|▎         | 357/11074 [03:09<1:28:11,  2.03it/s]  3%|▎         | 358/11074 [03:10<1:28:12,  2.02it/s]  3%|▎         | 359/11074 [03:10<1:28:09,  2.03it/s]  3%|▎         | 360/11074 [03:11<1:28:12,  2.02it/s]  3%|▎         | 361/11074 [03:11<1:28:07,  2.03it/s]  3%|▎         | 362/11074 [03:12<1:28:15,  2.02it/s]  3%|▎         | 363/11074 [03:12<1:28:04,  2.03it/s]  3%|▎         | 364/11074 [03:13<1:28:08,  2.03it/s]  3%|▎         | 365/11074 [03:13<1:28:06,  2.03it/s]  3%|▎         | 366/11074 [03:14<1:28:06,  2.03it/s]  3%|▎         | 367/11074 [03:14<1:28:07,  2.03it/s]  3%|▎         | 368/11074 [03:15<1:28:06,  2.03it/s]  3%|▎         | 369/11074 [03:15<1:28:06,  2.02it/s]  3%|▎         | 370/11074 [03:16<1:28:04,  2.03it/s]  3%|▎         | 371/11074 [03:16<1:28:09,  2.02it/s]  3%|▎         | 372/11074 [03:17<1:28:11,  2.02it/s]  3%|▎         | 373/11074 [03:17<1:28:14,  2.02it/s]  3%|▎         | 374/11074 [03:18<1:28:08,  2.02it/s]  3%|▎         | 375/11074 [03:18<1:28:10,  2.02it/s]                                                     {'loss': 5.4202, 'grad_norm': 0.5738305449485779, 'learning_rate': 0.0003384476534296029, 'epoch': 0.47}
-  3%|▎         | 375/11074 [03:18<1:28:10,  2.02it/s]  3%|▎         | 376/11074 [03:19<1:28:13,  2.02it/s]  3%|▎         | 377/11074 [03:19<1:28:11,  2.02it/s]  3%|▎         | 378/11074 [03:20<1:28:07,  2.02it/s]  3%|▎         | 379/11074 [03:20<1:28:09,  2.02it/s]  3%|▎         | 380/11074 [03:21<1:28:10,  2.02it/s]  3%|▎         | 381/11074 [03:21<1:28:08,  2.02it/s]  3%|▎         | 382/11074 [03:22<1:28:05,  2.02it/s]  3%|▎         | 383/11074 [03:22<1:28:13,  2.02it/s]  3%|▎         | 384/11074 [03:23<1:28:12,  2.02it/s]  3%|▎         | 385/11074 [03:23<1:28:13,  2.02it/s]  3%|▎         | 386/11074 [03:24<1:28:10,  2.02it/s]  3%|▎         | 387/11074 [03:24<1:28:10,  2.02it/s]  4%|▎         | 388/11074 [03:25<1:28:05,  2.02it/s]  4%|▎         | 389/11074 [03:25<1:28:01,  2.02it/s]  4%|▎         | 390/11074 [03:26<1:27:57,  2.02it/s]  4%|▎         | 391/11074 [03:26<1:28:01,  2.02it/s]  4%|▎         | 392/11074 [03:27<1:28:00,  2.02it/s]  4%|▎         | 393/11074 [03:27<1:27:56,  2.02it/s]  4%|▎         | 394/11074 [03:28<1:27:51,  2.03it/s]  4%|▎         | 395/11074 [03:28<1:27:56,  2.02it/s]  4%|▎         | 396/11074 [03:29<1:27:51,  2.03it/s]  4%|▎         | 397/11074 [03:29<1:27:50,  2.03it/s]  4%|▎         | 398/11074 [03:30<1:27:52,  2.02it/s]  4%|▎         | 399/11074 [03:30<1:27:48,  2.03it/s]  4%|▎         | 400/11074 [03:31<1:27:53,  2.02it/s]                                                     {'loss': 5.3339, 'grad_norm': 0.6759169697761536, 'learning_rate': 0.0003610108303249098, 'epoch': 0.51}
-  4%|▎         | 400/11074 [03:31<1:27:53,  2.02it/s]  4%|▎         | 401/11074 [03:31<1:27:53,  2.02it/s]  4%|▎         | 402/11074 [03:32<1:27:57,  2.02it/s]  4%|▎         | 403/11074 [03:32<1:27:52,  2.02it/s]  4%|▎         | 404/11074 [03:33<1:27:57,  2.02it/s]  4%|▎         | 405/11074 [03:33<1:27:52,  2.02it/s]  4%|▎         | 406/11074 [03:34<1:27:57,  2.02it/s]  4%|▎         | 407/11074 [03:34<1:27:53,  2.02it/s]  4%|▎         | 408/11074 [03:35<1:27:54,  2.02it/s]  4%|▎         | 409/11074 [03:35<1:27:52,  2.02it/s]  4%|▎         | 410/11074 [03:36<1:27:54,  2.02it/s]  4%|▎         | 411/11074 [03:36<1:27:50,  2.02it/s]  4%|▎         | 412/11074 [03:37<1:27:51,  2.02it/s]  4%|▎         | 413/11074 [03:37<1:27:49,  2.02it/s]  4%|▎         | 414/11074 [03:38<1:27:43,  2.03it/s]  4%|▎         | 415/11074 [03:38<1:27:45,  2.02it/s]  4%|▍         | 416/11074 [03:39<1:27:39,  2.03it/s]  4%|▍         | 417/11074 [03:39<1:27:41,  2.03it/s]  4%|▍         | 418/11074 [03:40<1:27:43,  2.02it/s]  4%|▍         | 419/11074 [03:40<1:27:43,  2.02it/s]  4%|▍         | 420/11074 [03:41<1:27:41,  2.02it/s]  4%|▍         | 421/11074 [03:41<1:27:37,  2.03it/s]  4%|▍         | 422/11074 [03:42<1:27:42,  2.02it/s]  4%|▍         | 423/11074 [03:42<1:27:43,  2.02it/s]  4%|▍         | 424/11074 [03:43<1:27:37,  2.03it/s]  4%|▍         | 425/11074 [03:43<1:27:39,  2.02it/s]{'loss': 5.2564, 'grad_norm': 0.8406959772109985, 'learning_rate': 0.00038357400722021664, 'epoch': 0.54}                                                     
-  4%|▍         | 425/11074 [03:43<1:27:39,  2.02it/s]  4%|▍         | 426/11074 [03:43<1:27:38,  2.03it/s]  4%|▍         | 427/11074 [03:44<1:27:44,  2.02it/s]  4%|▍         | 428/11074 [03:44<1:27:40,  2.02it/s]  4%|▍         | 429/11074 [03:45<1:27:41,  2.02it/s]  4%|▍         | 430/11074 [03:45<1:27:47,  2.02it/s]  4%|▍         | 431/11074 [03:46<1:27:44,  2.02it/s]  4%|▍         | 432/11074 [03:46<1:27:43,  2.02it/s]  4%|▍         | 433/11074 [03:47<1:27:36,  2.02it/s]  4%|▍         | 434/11074 [03:47<1:27:36,  2.02it/s]  4%|▍         | 435/11074 [03:48<1:27:37,  2.02it/s]  4%|▍         | 436/11074 [03:48<1:27:39,  2.02it/s]  4%|▍         | 437/11074 [03:49<1:27:32,  2.03it/s]  4%|▍         | 438/11074 [03:49<1:27:38,  2.02it/s]  4%|▍         | 439/11074 [03:50<1:27:30,  2.03it/s]  4%|▍         | 440/11074 [03:50<1:27:33,  2.02it/s]  4%|▍         | 441/11074 [03:51<1:27:28,  2.03it/s]  4%|▍         | 442/11074 [03:51<1:27:29,  2.03it/s]  4%|▍         | 443/11074 [03:52<1:27:29,  2.03it/s]  4%|▍         | 444/11074 [03:52<1:27:29,  2.03it/s]  4%|▍         | 445/11074 [03:53<1:27:27,  2.03it/s]  4%|▍         | 446/11074 [03:53<1:27:32,  2.02it/s]  4%|▍         | 447/11074 [03:54<1:27:33,  2.02it/s]  4%|▍         | 448/11074 [03:54<1:27:32,  2.02it/s]  4%|▍         | 449/11074 [03:55<1:27:32,  2.02it/s]  4%|▍         | 450/11074 [03:55<1:27:28,  2.02it/s]                                                     {'loss': 5.1923, 'grad_norm': 0.7013170719146729, 'learning_rate': 0.0004061371841155235, 'epoch': 0.57}
-  4%|▍         | 450/11074 [03:55<1:27:28,  2.02it/s]  4%|▍         | 451/11074 [03:56<1:27:33,  2.02it/s]  4%|▍         | 452/11074 [03:56<1:27:32,  2.02it/s]  4%|▍         | 453/11074 [03:57<1:27:38,  2.02it/s]  4%|▍         | 454/11074 [03:57<1:27:32,  2.02it/s]  4%|▍         | 455/11074 [03:58<1:27:30,  2.02it/s]  4%|▍         | 456/11074 [03:58<1:27:28,  2.02it/s]  4%|▍         | 457/11074 [03:59<1:27:27,  2.02it/s]  4%|▍         | 458/11074 [03:59<1:27:26,  2.02it/s]  4%|▍         | 459/11074 [04:00<1:27:23,  2.02it/s]  4%|▍         | 460/11074 [04:00<1:27:25,  2.02it/s]  4%|▍         | 461/11074 [04:01<1:27:27,  2.02it/s]  4%|▍         | 462/11074 [04:01<1:27:25,  2.02it/s]  4%|▍         | 463/11074 [04:02<1:27:25,  2.02it/s]  4%|▍         | 464/11074 [04:02<1:27:25,  2.02it/s]  4%|▍         | 465/11074 [04:03<1:27:31,  2.02it/s]  4%|▍         | 466/11074 [04:03<1:27:27,  2.02it/s]  4%|▍         | 467/11074 [04:04<1:27:22,  2.02it/s]  4%|▍         | 468/11074 [04:04<1:27:17,  2.03it/s]  4%|▍         | 469/11074 [04:05<1:27:12,  2.03it/s]  4%|▍         | 470/11074 [04:05<1:27:18,  2.02it/s]  4%|▍         | 471/11074 [04:06<1:27:12,  2.03it/s]  4%|▍         | 472/11074 [04:06<1:27:13,  2.03it/s]  4%|▍         | 473/11074 [04:07<1:27:14,  2.03it/s]  4%|▍         | 474/11074 [04:07<1:27:19,  2.02it/s]  4%|▍         | 475/11074 [04:08<1:27:14,  2.02it/s]{'loss': 5.1154, 'grad_norm': 0.6117867231369019, 'learning_rate': 0.00042870036101083035, 'epoch': 0.6}                                                     
-  4%|▍         | 475/11074 [04:08<1:27:14,  2.02it/s]  4%|▍         | 476/11074 [04:08<1:27:22,  2.02it/s]  4%|▍         | 477/11074 [04:09<1:27:28,  2.02it/s]  4%|▍         | 478/11074 [04:09<1:27:19,  2.02it/s]  4%|▍         | 479/11074 [04:10<1:27:16,  2.02it/s]  4%|▍         | 480/11074 [04:10<1:27:15,  2.02it/s]  4%|▍         | 481/11074 [04:11<1:27:12,  2.02it/s]  4%|▍         | 482/11074 [04:11<1:27:16,  2.02it/s]  4%|▍         | 483/11074 [04:12<1:27:14,  2.02it/s]  4%|▍         | 484/11074 [04:12<1:27:12,  2.02it/s]  4%|▍         | 485/11074 [04:13<1:27:11,  2.02it/s]  4%|▍         | 486/11074 [04:13<1:27:13,  2.02it/s]  4%|▍         | 487/11074 [04:14<1:27:12,  2.02it/s]  4%|▍         | 488/11074 [04:14<1:27:15,  2.02it/s]  4%|▍         | 489/11074 [04:15<1:27:13,  2.02it/s]  4%|▍         | 490/11074 [04:15<1:27:12,  2.02it/s]  4%|▍         | 491/11074 [04:16<1:27:09,  2.02it/s]  4%|▍         | 492/11074 [04:16<1:27:10,  2.02it/s]  4%|▍         | 493/11074 [04:17<1:27:10,  2.02it/s]  4%|▍         | 494/11074 [04:17<1:27:03,  2.03it/s]  4%|▍         | 495/11074 [04:18<1:27:07,  2.02it/s]  4%|▍         | 496/11074 [04:18<1:27:05,  2.02it/s]  4%|▍         | 497/11074 [04:19<1:27:08,  2.02it/s]  4%|▍         | 498/11074 [04:19<1:27:04,  2.02it/s]  5%|▍         | 499/11074 [04:20<1:27:00,  2.03it/s]  5%|▍         | 500/11074 [04:20<1:27:04,  2.02it/s]                                                     {'loss': 5.0663, 'grad_norm': 0.5091294050216675, 'learning_rate': 0.00045126353790613715, 'epoch': 0.63}
-  5%|▍         | 500/11074 [04:20<1:27:04,  2.02it/s]  5%|▍         | 501/11074 [04:21<1:27:03,  2.02it/s]  5%|▍         | 502/11074 [04:21<1:27:06,  2.02it/s]  5%|▍         | 503/11074 [04:22<1:26:58,  2.03it/s]  5%|▍         | 504/11074 [04:22<1:27:03,  2.02it/s]  5%|▍         | 505/11074 [04:23<1:26:56,  2.03it/s]  5%|▍         | 506/11074 [04:23<1:26:57,  2.03it/s]  5%|▍         | 507/11074 [04:24<1:26:55,  2.03it/s]  5%|▍         | 508/11074 [04:24<1:26:54,  2.03it/s]  5%|▍         | 509/11074 [04:25<1:26:59,  2.02it/s]  5%|▍         | 510/11074 [04:25<1:26:58,  2.02it/s]  5%|▍         | 511/11074 [04:25<1:27:08,  2.02it/s]  5%|▍         | 512/11074 [04:26<1:27:08,  2.02it/s]  5%|▍         | 513/11074 [04:26<1:27:05,  2.02it/s]  5%|▍         | 514/11074 [04:27<1:27:00,  2.02it/s]  5%|▍         | 515/11074 [04:27<1:27:01,  2.02it/s]  5%|▍         | 516/11074 [04:28<1:26:59,  2.02it/s]  5%|▍         | 517/11074 [04:28<1:27:00,  2.02it/s]  5%|▍         | 518/11074 [04:29<1:26:59,  2.02it/s]  5%|▍         | 519/11074 [04:29<1:26:58,  2.02it/s]  5%|▍         | 520/11074 [04:30<1:26:58,  2.02it/s]  5%|▍         | 521/11074 [04:30<1:26:58,  2.02it/s]  5%|▍         | 522/11074 [04:31<1:26:54,  2.02it/s]  5%|▍         | 523/11074 [04:31<1:27:03,  2.02it/s]  5%|▍         | 524/11074 [04:32<1:27:06,  2.02it/s]  5%|▍         | 525/11074 [04:32<1:27:07,  2.02it/s]{'loss': 5.0015, 'grad_norm': 0.5795043110847473, 'learning_rate': 0.00047382671480144405, 'epoch': 0.66}                                                     
-  5%|▍         | 525/11074 [04:32<1:27:07,  2.02it/s]  5%|▍         | 526/11074 [04:33<1:27:06,  2.02it/s]  5%|▍         | 527/11074 [04:33<1:27:02,  2.02it/s]  5%|▍         | 528/11074 [04:34<1:27:08,  2.02it/s]  5%|▍         | 529/11074 [04:34<1:27:00,  2.02it/s]  5%|▍         | 530/11074 [04:35<1:27:00,  2.02it/s]  5%|▍         | 531/11074 [04:35<1:26:56,  2.02it/s]  5%|▍         | 532/11074 [04:36<1:26:57,  2.02it/s]  5%|▍         | 533/11074 [04:36<1:26:53,  2.02it/s]  5%|▍         | 534/11074 [04:37<1:26:52,  2.02it/s]  5%|▍         | 535/11074 [04:37<1:26:49,  2.02it/s]  5%|▍         | 536/11074 [04:38<1:26:43,  2.03it/s]  5%|▍         | 537/11074 [04:38<1:26:44,  2.02it/s]  5%|▍         | 538/11074 [04:39<1:26:40,  2.03it/s]  5%|▍         | 539/11074 [04:39<1:26:40,  2.03it/s]  5%|▍         | 540/11074 [04:40<1:26:40,  2.03it/s]  5%|▍         | 541/11074 [04:40<1:26:32,  2.03it/s]  5%|▍         | 542/11074 [04:41<1:26:36,  2.03it/s]  5%|▍         | 543/11074 [04:41<1:26:32,  2.03it/s]  5%|▍         | 544/11074 [04:42<1:26:37,  2.03it/s]  5%|▍         | 545/11074 [04:42<1:26:35,  2.03it/s]  5%|▍         | 546/11074 [04:43<1:26:35,  2.03it/s]  5%|▍         | 547/11074 [04:43<1:26:35,  2.03it/s]  5%|▍         | 548/11074 [04:44<1:26:24,  2.03it/s]  5%|▍         | 549/11074 [04:44<1:26:28,  2.03it/s]  5%|▍         | 550/11074 [04:45<1:26:25,  2.03it/s]                                                     {'loss': 4.9515, 'grad_norm': 0.6043726205825806, 'learning_rate': 0.0004963898916967509, 'epoch': 0.69}
-  5%|▍         | 550/11074 [04:45<1:26:25,  2.03it/s]  5%|▍         | 551/11074 [04:45<1:26:34,  2.03it/s]  5%|▍         | 552/11074 [04:46<1:26:32,  2.03it/s]  5%|▍         | 553/11074 [04:46<1:26:29,  2.03it/s]  5%|▌         | 554/11074 [04:47<1:26:30,  2.03it/s]  5%|▌         | 555/11074 [04:47<1:26:33,  2.03it/s]  5%|▌         | 556/11074 [04:48<1:26:33,  2.03it/s]  5%|▌         | 557/11074 [04:48<1:26:37,  2.02it/s]  5%|▌         | 558/11074 [04:49<1:26:43,  2.02it/s]  5%|▌         | 559/11074 [04:49<1:26:45,  2.02it/s]  5%|▌         | 560/11074 [04:50<1:26:35,  2.02it/s]  5%|▌         | 561/11074 [04:50<1:26:35,  2.02it/s]  5%|▌         | 562/11074 [04:51<1:26:29,  2.03it/s]  5%|▌         | 563/11074 [04:51<1:26:26,  2.03it/s]  5%|▌         | 564/11074 [04:52<1:26:27,  2.03it/s]  5%|▌         | 565/11074 [04:52<1:26:22,  2.03it/s]  5%|▌         | 566/11074 [04:53<1:26:30,  2.02it/s]  5%|▌         | 567/11074 [04:53<1:26:25,  2.03it/s]  5%|▌         | 568/11074 [04:54<1:26:26,  2.03it/s]  5%|▌         | 569/11074 [04:54<1:26:25,  2.03it/s]  5%|▌         | 570/11074 [04:55<1:26:38,  2.02it/s]  5%|▌         | 571/11074 [04:55<1:26:38,  2.02it/s]  5%|▌         | 572/11074 [04:56<1:26:35,  2.02it/s]  5%|▌         | 573/11074 [04:56<1:26:29,  2.02it/s]  5%|▌         | 574/11074 [04:57<1:26:27,  2.02it/s]  5%|▌         | 575/11074 [04:57<1:26:24,  2.02it/s]                                                     {'loss': 4.9, 'grad_norm': 0.5282106399536133, 'learning_rate': 0.0005189530685920579, 'epoch': 0.73}
-  5%|▌         | 575/11074 [04:57<1:26:24,  2.02it/s]  5%|▌         | 576/11074 [04:58<1:26:33,  2.02it/s]  5%|▌         | 577/11074 [04:58<1:26:30,  2.02it/s]  5%|▌         | 578/11074 [04:59<1:26:26,  2.02it/s]  5%|▌         | 579/11074 [04:59<1:26:27,  2.02it/s]  5%|▌         | 580/11074 [05:00<1:26:27,  2.02it/s]  5%|▌         | 581/11074 [05:00<1:26:25,  2.02it/s]  5%|▌         | 582/11074 [05:01<1:26:26,  2.02it/s]  5%|▌         | 583/11074 [05:01<1:26:24,  2.02it/s]  5%|▌         | 584/11074 [05:02<1:26:22,  2.02it/s]  5%|▌         | 585/11074 [05:02<1:26:22,  2.02it/s]  5%|▌         | 586/11074 [05:03<1:26:20,  2.02it/s]  5%|▌         | 587/11074 [05:03<1:26:18,  2.02it/s]  5%|▌         | 588/11074 [05:04<1:26:14,  2.03it/s]  5%|▌         | 589/11074 [05:04<1:26:20,  2.02it/s]  5%|▌         | 590/11074 [05:05<1:26:12,  2.03it/s]  5%|▌         | 591/11074 [05:05<1:26:17,  2.02it/s]  5%|▌         | 592/11074 [05:06<1:26:15,  2.03it/s]  5%|▌         | 593/11074 [05:06<1:26:21,  2.02it/s]  5%|▌         | 594/11074 [05:07<1:26:15,  2.02it/s]  5%|▌         | 595/11074 [05:07<1:26:18,  2.02it/s]  5%|▌         | 596/11074 [05:07<1:26:16,  2.02it/s]  5%|▌         | 597/11074 [05:08<1:26:17,  2.02it/s]  5%|▌         | 598/11074 [05:08<1:26:14,  2.02it/s]  5%|▌         | 599/11074 [05:09<1:26:12,  2.02it/s]  5%|▌         | 600/11074 [05:09<1:26:12,  2.02it/s]                                                     {'loss': 4.8589, 'grad_norm': 0.6156551837921143, 'learning_rate': 0.0005415162454873646, 'epoch': 0.76}
-  5%|▌         | 600/11074 [05:09<1:26:12,  2.02it/s]  5%|▌         | 601/11074 [05:10<1:26:20,  2.02it/s]  5%|▌         | 602/11074 [05:10<1:26:15,  2.02it/s]  5%|▌         | 603/11074 [05:11<1:26:13,  2.02it/s]  5%|▌         | 604/11074 [05:11<1:26:14,  2.02it/s]  5%|▌         | 605/11074 [05:12<1:26:19,  2.02it/s]  5%|▌         | 606/11074 [05:12<1:26:17,  2.02it/s]  5%|▌         | 607/11074 [05:13<1:26:14,  2.02it/s]  5%|▌         | 608/11074 [05:13<1:26:11,  2.02it/s]  5%|▌         | 609/11074 [05:14<1:26:07,  2.03it/s]  6%|▌         | 610/11074 [05:14<1:26:08,  2.02it/s]  6%|▌         | 611/11074 [05:15<1:26:03,  2.03it/s]  6%|▌         | 612/11074 [05:15<1:26:04,  2.03it/s]  6%|▌         | 613/11074 [05:16<1:26:04,  2.03it/s]  6%|▌         | 614/11074 [05:16<1:26:02,  2.03it/s]  6%|▌         | 615/11074 [05:17<1:33:25,  1.87it/s]  6%|▌         | 616/11074 [05:18<1:38:31,  1.77it/s]  6%|▌         | 617/11074 [05:18<1:34:49,  1.84it/s]  6%|▌         | 618/11074 [05:19<1:32:08,  1.89it/s]  6%|▌         | 619/11074 [05:19<1:30:20,  1.93it/s]  6%|▌         | 620/11074 [05:20<1:29:00,  1.96it/s]  6%|▌         | 621/11074 [05:20<1:28:06,  1.98it/s]  6%|▌         | 622/11074 [05:21<1:27:29,  1.99it/s]  6%|▌         | 623/11074 [05:21<1:26:59,  2.00it/s]  6%|▌         | 624/11074 [05:22<1:26:45,  2.01it/s]  6%|▌         | 625/11074 [05:22<1:26:26,  2.01it/s]{'loss': 4.8123, 'grad_norm': 0.45251548290252686, 'learning_rate': 0.0005640794223826715, 'epoch': 0.79}                                                     
-  6%|▌         | 625/11074 [05:22<1:26:26,  2.01it/s]  6%|▌         | 626/11074 [05:23<1:26:25,  2.01it/s]  6%|▌         | 627/11074 [05:23<1:26:13,  2.02it/s]  6%|▌         | 628/11074 [05:24<1:26:07,  2.02it/s]  6%|▌         | 629/11074 [05:24<1:26:05,  2.02it/s]  6%|▌         | 630/11074 [05:25<1:26:03,  2.02it/s]  6%|▌         | 631/11074 [05:25<1:26:01,  2.02it/s]  6%|▌         | 632/11074 [05:26<1:25:55,  2.03it/s]  6%|▌         | 633/11074 [05:26<1:25:56,  2.02it/s]  6%|▌         | 634/11074 [05:27<1:25:55,  2.02it/s]  6%|▌         | 635/11074 [05:27<1:25:54,  2.03it/s]  6%|▌         | 636/11074 [05:28<1:25:55,  2.02it/s]  6%|▌         | 637/11074 [05:28<1:25:53,  2.03it/s]  6%|▌         | 638/11074 [05:29<1:25:54,  2.02it/s]  6%|▌         | 639/11074 [05:29<1:25:59,  2.02it/s]  6%|▌         | 640/11074 [05:30<1:26:00,  2.02it/s]  6%|▌         | 641/11074 [05:30<1:25:56,  2.02it/s]  6%|▌         | 642/11074 [05:30<1:25:53,  2.02it/s]  6%|▌         | 643/11074 [05:31<1:25:51,  2.02it/s]  6%|▌         | 644/11074 [05:31<1:25:51,  2.02it/s]  6%|▌         | 645/11074 [05:32<1:25:50,  2.02it/s]  6%|▌         | 646/11074 [05:32<1:25:47,  2.03it/s]  6%|▌         | 647/11074 [05:33<1:25:49,  2.02it/s]  6%|▌         | 648/11074 [05:33<1:25:50,  2.02it/s]  6%|▌         | 649/11074 [05:34<1:25:47,  2.03it/s]  6%|▌         | 650/11074 [05:34<1:25:51,  2.02it/s]{'loss': 4.7777, 'grad_norm': 0.47486814856529236, 'learning_rate': 0.0005866425992779783, 'epoch': 0.82}                                                     
-  6%|▌         | 650/11074 [05:34<1:25:51,  2.02it/s]  6%|▌         | 651/11074 [05:35<1:25:55,  2.02it/s]  6%|▌         | 652/11074 [05:35<1:25:52,  2.02it/s]  6%|▌         | 653/11074 [05:36<1:25:52,  2.02it/s]  6%|▌         | 654/11074 [05:36<1:25:48,  2.02it/s]  6%|▌         | 655/11074 [05:37<1:25:44,  2.03it/s]  6%|▌         | 656/11074 [05:37<1:25:44,  2.03it/s]  6%|▌         | 657/11074 [05:38<1:25:41,  2.03it/s]  6%|▌         | 658/11074 [05:38<1:25:42,  2.03it/s]  6%|▌         | 659/11074 [05:39<1:25:35,  2.03it/s]  6%|▌         | 660/11074 [05:39<1:25:42,  2.02it/s]  6%|▌         | 661/11074 [05:40<1:25:38,  2.03it/s]  6%|▌         | 662/11074 [05:40<1:25:47,  2.02it/s]  6%|▌         | 663/11074 [05:41<1:25:41,  2.02it/s]  6%|▌         | 664/11074 [05:41<1:25:43,  2.02it/s]  6%|▌         | 665/11074 [05:42<1:25:41,  2.02it/s]  6%|▌         | 666/11074 [05:42<1:25:40,  2.02it/s]  6%|▌         | 667/11074 [05:43<1:25:41,  2.02it/s]  6%|▌         | 668/11074 [05:43<1:25:41,  2.02it/s]  6%|▌         | 669/11074 [05:44<1:25:38,  2.02it/s]  6%|▌         | 670/11074 [05:44<1:25:34,  2.03it/s]  6%|▌         | 671/11074 [05:45<1:25:34,  2.03it/s]  6%|▌         | 672/11074 [05:45<1:25:35,  2.03it/s]  6%|▌         | 673/11074 [05:46<1:25:41,  2.02it/s]  6%|▌         | 674/11074 [05:46<1:25:43,  2.02it/s]  6%|▌         | 675/11074 [05:47<1:25:41,  2.02it/s]                                                     {'loss': 4.7391, 'grad_norm': 0.4448661506175995, 'learning_rate': 0.0006092057761732852, 'epoch': 0.85}
-  6%|▌         | 675/11074 [05:47<1:25:41,  2.02it/s]  6%|▌         | 676/11074 [05:47<1:25:39,  2.02it/s]  6%|▌         | 677/11074 [05:48<1:25:40,  2.02it/s]  6%|▌         | 678/11074 [05:48<1:25:35,  2.02it/s]  6%|▌         | 679/11074 [05:49<1:25:40,  2.02it/s]  6%|▌         | 680/11074 [05:49<1:25:34,  2.02it/s]  6%|▌         | 681/11074 [05:50<1:25:33,  2.02it/s]  6%|▌         | 682/11074 [05:50<1:25:28,  2.03it/s]  6%|▌         | 683/11074 [05:51<1:25:26,  2.03it/s]  6%|▌         | 684/11074 [05:51<1:25:30,  2.03it/s]  6%|▌         | 685/11074 [05:52<1:25:25,  2.03it/s]  6%|▌         | 686/11074 [05:52<1:25:30,  2.02it/s]  6%|▌         | 687/11074 [05:53<1:25:22,  2.03it/s]  6%|▌         | 688/11074 [05:53<1:25:25,  2.03it/s]  6%|▌         | 689/11074 [05:54<1:25:27,  2.03it/s]  6%|▌         | 690/11074 [05:54<1:25:28,  2.02it/s]  6%|▌         | 691/11074 [05:55<1:25:26,  2.03it/s]  6%|▌         | 692/11074 [05:55<1:25:25,  2.03it/s]  6%|▋         | 693/11074 [05:56<1:25:19,  2.03it/s]  6%|▋         | 694/11074 [05:56<1:25:21,  2.03it/s]  6%|▋         | 695/11074 [05:57<1:25:21,  2.03it/s]  6%|▋         | 696/11074 [05:57<1:25:21,  2.03it/s]  6%|▋         | 697/11074 [05:58<1:25:25,  2.02it/s]  6%|▋         | 698/11074 [05:58<1:25:21,  2.03it/s]  6%|▋         | 699/11074 [05:59<1:25:21,  2.03it/s]  6%|▋         | 700/11074 [05:59<1:25:17,  2.03it/s]{'loss': 4.7008, 'grad_norm': 0.4486216902732849, 'learning_rate': 0.000631768953068592, 'epoch': 0.88}
-                                                       6%|▋         | 700/11074 [05:59<1:25:17,  2.03it/s]  6%|▋         | 701/11074 [06:00<1:25:24,  2.02it/s]  6%|▋         | 702/11074 [06:00<1:25:23,  2.02it/s]  6%|▋         | 703/11074 [06:01<1:25:25,  2.02it/s]  6%|▋         | 704/11074 [06:01<1:25:23,  2.02it/s]  6%|▋         | 705/11074 [06:02<1:25:21,  2.02it/s]  6%|▋         | 706/11074 [06:02<1:25:23,  2.02it/s]  6%|▋         | 707/11074 [06:03<1:25:28,  2.02it/s]  6%|▋         | 708/11074 [06:03<1:25:26,  2.02it/s]  6%|▋         | 709/11074 [06:04<1:25:33,  2.02it/s]  6%|▋         | 710/11074 [06:04<1:25:27,  2.02it/s]  6%|▋         | 711/11074 [06:05<1:25:24,  2.02it/s]  6%|▋         | 712/11074 [06:05<1:25:22,  2.02it/s]  6%|▋         | 713/11074 [06:06<1:25:20,  2.02it/s]  6%|▋         | 714/11074 [06:06<1:25:20,  2.02it/s]  6%|▋         | 715/11074 [06:07<1:25:19,  2.02it/s]  6%|▋         | 716/11074 [06:07<1:25:24,  2.02it/s]  6%|▋         | 717/11074 [06:08<1:25:21,  2.02it/s]  6%|▋         | 718/11074 [06:08<1:25:22,  2.02it/s]  6%|▋         | 719/11074 [06:09<1:25:19,  2.02it/s]  7%|▋         | 720/11074 [06:09<1:25:19,  2.02it/s]  7%|▋         | 721/11074 [06:10<1:25:21,  2.02it/s]  7%|▋         | 722/11074 [06:10<1:25:23,  2.02it/s]  7%|▋         | 723/11074 [06:11<1:25:17,  2.02it/s]  7%|▋         | 724/11074 [06:11<1:25:13,  2.02it/s]  7%|▋         | 725/11074 [06:12<1:25:12,  2.02it/s]{'loss': 4.6672, 'grad_norm': 0.43926626443862915, 'learning_rate': 0.0006543321299638989, 'epoch': 0.92}                                                     
-  7%|▋         | 725/11074 [06:12<1:25:12,  2.02it/s]  7%|▋         | 726/11074 [06:12<1:25:26,  2.02it/s]  7%|▋         | 727/11074 [06:12<1:25:19,  2.02it/s]  7%|▋         | 728/11074 [06:13<1:25:19,  2.02it/s]  7%|▋         | 729/11074 [06:13<1:25:14,  2.02it/s]  7%|▋         | 730/11074 [06:14<1:25:17,  2.02it/s]  7%|▋         | 731/11074 [06:14<1:25:11,  2.02it/s]  7%|▋         | 732/11074 [06:15<1:25:18,  2.02it/s]  7%|▋         | 733/11074 [06:15<1:25:09,  2.02it/s]  7%|▋         | 734/11074 [06:16<1:25:10,  2.02it/s]  7%|▋         | 735/11074 [06:16<1:25:09,  2.02it/s]  7%|▋         | 736/11074 [06:17<1:25:12,  2.02it/s]  7%|▋         | 737/11074 [06:17<1:25:08,  2.02it/s]  7%|▋         | 738/11074 [06:18<1:25:02,  2.03it/s]  7%|▋         | 739/11074 [06:18<1:25:04,  2.02it/s]  7%|▋         | 740/11074 [06:19<1:25:07,  2.02it/s]  7%|▋         | 741/11074 [06:19<1:25:10,  2.02it/s]  7%|▋         | 742/11074 [06:20<1:25:08,  2.02it/s]  7%|▋         | 743/11074 [06:20<1:25:07,  2.02it/s]  7%|▋         | 744/11074 [06:21<1:25:01,  2.02it/s]  7%|▋         | 745/11074 [06:21<1:25:01,  2.02it/s]  7%|▋         | 746/11074 [06:22<1:25:00,  2.03it/s]  7%|▋         | 747/11074 [06:22<1:25:01,  2.02it/s]  7%|▋         | 748/11074 [06:23<1:24:57,  2.03it/s]  7%|▋         | 749/11074 [06:23<1:24:57,  2.03it/s]  7%|▋         | 750/11074 [06:24<1:24:54,  2.03it/s]                                                     {'loss': 4.6397, 'grad_norm': 0.4309982657432556, 'learning_rate': 0.0006768953068592057, 'epoch': 0.95}
-  7%|▋         | 750/11074 [06:24<1:24:54,  2.03it/s]  7%|▋         | 751/11074 [06:24<1:25:00,  2.02it/s]  7%|▋         | 752/11074 [06:25<1:25:00,  2.02it/s]  7%|▋         | 753/11074 [06:25<1:24:54,  2.03it/s]  7%|▋         | 754/11074 [06:26<1:24:55,  2.03it/s]  7%|▋         | 755/11074 [06:26<1:24:59,  2.02it/s]  7%|▋         | 756/11074 [06:27<1:25:00,  2.02it/s]  7%|▋         | 757/11074 [06:27<1:24:56,  2.02it/s]  7%|▋         | 758/11074 [06:28<1:24:56,  2.02it/s]  7%|▋         | 759/11074 [06:28<1:24:52,  2.03it/s]  7%|▋         | 760/11074 [06:29<1:25:00,  2.02it/s]  7%|▋         | 761/11074 [06:29<1:24:55,  2.02it/s]  7%|▋         | 762/11074 [06:30<1:24:54,  2.02it/s]  7%|▋         | 763/11074 [06:30<1:24:55,  2.02it/s]  7%|▋         | 764/11074 [06:31<1:24:55,  2.02it/s]  7%|▋         | 765/11074 [06:31<1:24:56,  2.02it/s]  7%|▋         | 766/11074 [06:32<1:24:53,  2.02it/s]  7%|▋         | 767/11074 [06:32<1:24:57,  2.02it/s]  7%|▋         | 768/11074 [06:33<1:24:51,  2.02it/s]  7%|▋         | 769/11074 [06:33<1:24:56,  2.02it/s]  7%|▋         | 770/11074 [06:34<1:24:50,  2.02it/s]  7%|▋         | 771/11074 [06:34<1:24:52,  2.02it/s]  7%|▋         | 772/11074 [06:35<1:24:48,  2.02it/s]  7%|▋         | 773/11074 [06:35<1:24:51,  2.02it/s]  7%|▋         | 774/11074 [06:36<1:24:47,  2.02it/s]  7%|▋         | 775/11074 [06:36<1:24:44,  2.03it/s]                                                     {'loss': 4.6088, 'grad_norm': 0.39196979999542236, 'learning_rate': 0.0006994584837545126, 'epoch': 0.98}
-  7%|▋         | 775/11074 [06:36<1:24:44,  2.03it/s]  7%|▋         | 776/11074 [06:37<1:25:03,  2.02it/s]  7%|▋         | 777/11074 [06:37<1:25:01,  2.02it/s]  7%|▋         | 778/11074 [06:38<1:24:51,  2.02it/s]  7%|▋         | 779/11074 [06:38<1:24:53,  2.02it/s]  7%|▋         | 780/11074 [06:39<1:24:48,  2.02it/s]  7%|▋         | 781/11074 [06:39<1:24:46,  2.02it/s]  7%|▋         | 782/11074 [06:40<1:24:46,  2.02it/s]  7%|▋         | 783/11074 [06:40<1:24:44,  2.02it/s]  7%|▋         | 784/11074 [06:41<1:24:47,  2.02it/s]  7%|▋         | 785/11074 [06:41<1:24:45,  2.02it/s]  7%|▋         | 786/11074 [06:42<1:24:44,  2.02it/s]  7%|▋         | 787/11074 [06:42<1:24:43,  2.02it/s]  7%|▋         | 788/11074 [06:43<1:24:49,  2.02it/s]  7%|▋         | 789/11074 [06:43<1:24:49,  2.02it/s]  7%|▋         | 790/11074 [06:44<1:24:55,  2.02it/s]  7%|▋         | 791/11074 [06:44<1:27:10,  1.97it/s]  7%|▋         | 792/11074 [06:56<11:15:13,  3.94s/it]  7%|▋         | 793/11074 [06:57<8:18:05,  2.91s/it]   7%|▋         | 794/11074 [06:57<6:14:26,  2.19s/it]  7%|▋         | 795/11074 [06:58<4:47:24,  1.68s/it]  7%|▋         | 796/11074 [06:58<3:46:58,  1.33s/it]  7%|▋         | 797/11074 [06:59<3:04:27,  1.08s/it]  7%|▋         | 798/11074 [06:59<2:34:26,  1.11it/s]  7%|▋         | 799/11074 [07:00<2:13:31,  1.28it/s]  7%|▋         | 800/11074 [07:00<1:58:53,  1.44it/s]{'loss': 4.572, 'grad_norm': 0.45922085642814636, 'learning_rate': 0.0007220216606498196, 'epoch': 1.01}
-                                                       7%|▋         | 800/11074 [07:00<1:58:53,  1.44it/s]  7%|▋         | 801/11074 [07:01<1:48:41,  1.58it/s]  7%|▋         | 802/11074 [07:01<1:41:35,  1.69it/s]  7%|▋         | 803/11074 [07:02<1:36:36,  1.77it/s]  7%|▋         | 804/11074 [07:02<1:32:58,  1.84it/s]  7%|▋         | 805/11074 [07:03<1:30:26,  1.89it/s]  7%|▋         | 806/11074 [07:03<1:28:52,  1.93it/s]  7%|▋         | 807/11074 [07:04<1:27:35,  1.95it/s]  7%|▋         | 808/11074 [07:04<1:26:41,  1.97it/s]  7%|▋         | 809/11074 [07:05<1:26:05,  1.99it/s]  7%|▋         | 810/11074 [07:05<1:25:38,  2.00it/s]  7%|▋         | 811/11074 [07:06<1:25:13,  2.01it/s]  7%|▋         | 812/11074 [07:06<1:25:02,  2.01it/s]  7%|▋         | 813/11074 [07:07<1:25:01,  2.01it/s]  7%|▋         | 814/11074 [07:07<1:24:54,  2.01it/s]  7%|▋         | 815/11074 [07:08<1:24:46,  2.02it/s]  7%|▋         | 816/11074 [07:08<1:24:39,  2.02it/s]  7%|▋         | 817/11074 [07:09<1:24:36,  2.02it/s]  7%|▋         | 818/11074 [07:09<1:24:33,  2.02it/s]  7%|▋         | 819/11074 [07:09<1:24:29,  2.02it/s]  7%|▋         | 820/11074 [07:10<1:24:29,  2.02it/s]  7%|▋         | 821/11074 [07:10<1:24:32,  2.02it/s]  7%|▋         | 822/11074 [07:11<1:24:31,  2.02it/s]  7%|▋         | 823/11074 [07:11<1:24:29,  2.02it/s]  7%|▋         | 824/11074 [07:12<1:24:28,  2.02it/s]  7%|▋         | 825/11074 [07:12<1:24:26,  2.02it/s]{'loss': 4.5219, 'grad_norm': 0.4425448775291443, 'learning_rate': 0.0007445848375451264, 'epoch': 1.04}                                                     
-  7%|▋         | 825/11074 [07:12<1:24:26,  2.02it/s]  7%|▋         | 826/11074 [07:13<1:24:51,  2.01it/s]  7%|▋         | 827/11074 [07:13<1:24:42,  2.02it/s]  7%|▋         | 828/11074 [07:14<1:24:34,  2.02it/s]  7%|▋         | 829/11074 [07:14<1:24:31,  2.02it/s]  7%|▋         | 830/11074 [07:15<1:24:26,  2.02it/s]  8%|▊         | 831/11074 [07:15<1:24:25,  2.02it/s]  8%|▊         | 832/11074 [07:16<1:24:28,  2.02it/s]  8%|▊         | 833/11074 [07:16<1:24:27,  2.02it/s]  8%|▊         | 834/11074 [07:17<1:24:20,  2.02it/s]  8%|▊         | 835/11074 [07:17<1:24:20,  2.02it/s]  8%|▊         | 836/11074 [07:18<1:24:19,  2.02it/s]  8%|▊         | 837/11074 [07:18<1:24:19,  2.02it/s]  8%|▊         | 838/11074 [07:19<1:24:13,  2.03it/s]  8%|▊         | 839/11074 [07:19<1:24:16,  2.02it/s]  8%|▊         | 840/11074 [07:20<1:24:14,  2.02it/s]  8%|▊         | 841/11074 [07:20<1:24:16,  2.02it/s]  8%|▊         | 842/11074 [07:21<1:24:16,  2.02it/s]  8%|▊         | 843/11074 [07:21<1:24:18,  2.02it/s]  8%|▊         | 844/11074 [07:22<1:24:13,  2.02it/s]  8%|▊         | 845/11074 [07:22<1:24:16,  2.02it/s]  8%|▊         | 846/11074 [07:23<1:24:19,  2.02it/s]  8%|▊         | 847/11074 [07:23<1:24:19,  2.02it/s]  8%|▊         | 848/11074 [07:24<1:24:13,  2.02it/s]  8%|▊         | 849/11074 [07:24<1:24:12,  2.02it/s]  8%|▊         | 850/11074 [07:25<1:24:11,  2.02it/s]{'loss': 4.5131, 'grad_norm': 0.3824766278266907, 'learning_rate': 0.0007671480144404333, 'epoch': 1.07}
-                                                       8%|▊         | 850/11074 [07:25<1:24:11,  2.02it/s]  8%|▊         | 851/11074 [07:25<1:24:17,  2.02it/s]  8%|▊         | 852/11074 [07:26<1:24:14,  2.02it/s]  8%|▊         | 853/11074 [07:26<1:24:16,  2.02it/s]  8%|▊         | 854/11074 [07:27<1:24:11,  2.02it/s]  8%|▊         | 855/11074 [07:27<1:24:18,  2.02it/s]  8%|▊         | 856/11074 [07:28<1:24:14,  2.02it/s]  8%|▊         | 857/11074 [07:28<1:24:14,  2.02it/s]  8%|▊         | 858/11074 [07:29<1:24:08,  2.02it/s]  8%|▊         | 859/11074 [07:29<1:24:09,  2.02it/s]  8%|▊         | 860/11074 [07:30<1:24:07,  2.02it/s]  8%|▊         | 861/11074 [07:30<1:24:10,  2.02it/s]  8%|▊         | 862/11074 [07:31<1:24:07,  2.02it/s]  8%|▊         | 863/11074 [07:31<1:24:08,  2.02it/s]  8%|▊         | 864/11074 [07:32<1:24:07,  2.02it/s]  8%|▊         | 865/11074 [07:32<1:24:08,  2.02it/s]  8%|▊         | 866/11074 [07:33<1:24:08,  2.02it/s]  8%|▊         | 867/11074 [07:33<1:24:13,  2.02it/s]  8%|▊         | 868/11074 [07:34<1:24:10,  2.02it/s]  8%|▊         | 869/11074 [07:34<1:24:12,  2.02it/s]  8%|▊         | 870/11074 [07:35<1:24:11,  2.02it/s]  8%|▊         | 871/11074 [07:35<1:24:09,  2.02it/s]  8%|▊         | 872/11074 [07:36<1:24:08,  2.02it/s]  8%|▊         | 873/11074 [07:36<1:24:05,  2.02it/s]  8%|▊         | 874/11074 [07:37<1:24:06,  2.02it/s]  8%|▊         | 875/11074 [07:37<1:24:06,  2.02it/s]{'loss': 4.4956, 'grad_norm': 0.3762827515602112, 'learning_rate': 0.0007897111913357401, 'epoch': 1.11}
-                                                       8%|▊         | 875/11074 [07:37<1:24:06,  2.02it/s]  8%|▊         | 876/11074 [07:38<1:24:08,  2.02it/s]  8%|▊         | 877/11074 [07:38<1:24:09,  2.02it/s]  8%|▊         | 878/11074 [07:39<1:24:06,  2.02it/s]  8%|▊         | 879/11074 [07:39<1:24:06,  2.02it/s]  8%|▊         | 880/11074 [07:40<1:24:01,  2.02it/s]  8%|▊         | 881/11074 [07:40<1:24:03,  2.02it/s]  8%|▊         | 882/11074 [07:41<1:24:00,  2.02it/s]  8%|▊         | 883/11074 [07:41<1:24:00,  2.02it/s]  8%|▊         | 884/11074 [07:42<1:23:57,  2.02it/s]  8%|▊         | 885/11074 [07:42<1:23:53,  2.02it/s]  8%|▊         | 886/11074 [07:43<1:23:54,  2.02it/s]  8%|▊         | 887/11074 [07:43<1:23:49,  2.03it/s]  8%|▊         | 888/11074 [07:44<1:23:54,  2.02it/s]  8%|▊         | 889/11074 [07:44<1:23:49,  2.03it/s]  8%|▊         | 890/11074 [07:45<1:23:50,  2.02it/s]  8%|▊         | 891/11074 [07:45<1:23:43,  2.03it/s]  8%|▊         | 892/11074 [07:46<1:23:46,  2.03it/s]  8%|▊         | 893/11074 [07:46<1:23:46,  2.03it/s]  8%|▊         | 894/11074 [07:47<1:23:51,  2.02it/s]  8%|▊         | 895/11074 [07:47<1:23:50,  2.02it/s]  8%|▊         | 896/11074 [07:48<1:23:51,  2.02it/s]  8%|▊         | 897/11074 [07:48<1:23:46,  2.02it/s]  8%|▊         | 898/11074 [07:49<1:23:44,  2.03it/s]  8%|▊         | 899/11074 [07:49<1:23:44,  2.03it/s]  8%|▊         | 900/11074 [07:50<1:23:39,  2.03it/s]{'loss': 4.4714, 'grad_norm': 0.35828837752342224, 'learning_rate': 0.000812274368231047, 'epoch': 1.14}
-                                                       8%|▊         | 900/11074 [07:50<1:23:39,  2.03it/s]  8%|▊         | 901/11074 [07:50<1:23:49,  2.02it/s]  8%|▊         | 902/11074 [07:51<1:23:43,  2.03it/s]  8%|▊         | 903/11074 [07:51<1:23:47,  2.02it/s]  8%|▊         | 904/11074 [07:52<1:23:40,  2.03it/s]  8%|▊         | 905/11074 [07:52<1:23:42,  2.02it/s]  8%|▊         | 906/11074 [07:53<1:23:39,  2.03it/s]  8%|▊         | 907/11074 [07:53<1:23:40,  2.03it/s]  8%|▊         | 908/11074 [07:53<1:23:37,  2.03it/s]  8%|▊         | 909/11074 [07:54<1:23:41,  2.02it/s]  8%|▊         | 910/11074 [07:54<1:23:39,  2.02it/s]  8%|▊         | 911/11074 [07:55<1:23:33,  2.03it/s]  8%|▊         | 912/11074 [07:55<1:23:38,  2.02it/s]  8%|▊         | 913/11074 [07:56<1:23:39,  2.02it/s]  8%|▊         | 914/11074 [07:56<1:23:43,  2.02it/s]  8%|▊         | 915/11074 [07:57<1:23:37,  2.02it/s]  8%|▊         | 916/11074 [07:57<1:23:38,  2.02it/s]  8%|▊         | 917/11074 [07:58<1:23:36,  2.02it/s]  8%|▊         | 918/11074 [07:58<1:23:43,  2.02it/s]  8%|▊         | 919/11074 [07:59<1:23:38,  2.02it/s]  8%|▊         | 920/11074 [07:59<1:23:43,  2.02it/s]  8%|▊         | 921/11074 [08:00<1:23:40,  2.02it/s]  8%|▊         | 922/11074 [08:00<1:23:41,  2.02it/s]  8%|▊         | 923/11074 [08:01<1:23:37,  2.02it/s]  8%|▊         | 924/11074 [08:01<1:23:33,  2.02it/s]  8%|▊         | 925/11074 [08:02<1:23:38,  2.02it/s]{'loss': 4.4545, 'grad_norm': 0.3848886489868164, 'learning_rate': 0.0008348375451263538, 'epoch': 1.17}
-                                                       8%|▊         | 925/11074 [08:02<1:23:38,  2.02it/s]  8%|▊         | 926/11074 [08:02<1:23:47,  2.02it/s]  8%|▊         | 927/11074 [08:03<1:23:43,  2.02it/s]  8%|▊         | 928/11074 [08:03<1:23:42,  2.02it/s]  8%|▊         | 929/11074 [08:04<1:23:41,  2.02it/s]  8%|▊         | 930/11074 [08:04<1:23:37,  2.02it/s]  8%|▊         | 931/11074 [08:05<1:23:36,  2.02it/s]  8%|▊         | 932/11074 [08:05<1:23:36,  2.02it/s]  8%|▊         | 933/11074 [08:06<1:23:32,  2.02it/s]  8%|▊         | 934/11074 [08:06<1:23:33,  2.02it/s]  8%|▊         | 935/11074 [08:07<1:23:28,  2.02it/s]  8%|▊         | 936/11074 [08:07<1:23:31,  2.02it/s]  8%|▊         | 937/11074 [08:08<1:23:31,  2.02it/s]  8%|▊         | 938/11074 [08:08<1:23:30,  2.02it/s]  8%|▊         | 939/11074 [08:09<1:23:29,  2.02it/s]  8%|▊         | 940/11074 [08:09<1:23:29,  2.02it/s]  8%|▊         | 941/11074 [08:10<1:23:27,  2.02it/s]  9%|▊         | 942/11074 [08:10<1:23:27,  2.02it/s]  9%|▊         | 943/11074 [08:11<1:23:21,  2.03it/s]  9%|▊         | 944/11074 [08:11<1:23:25,  2.02it/s]  9%|▊         | 945/11074 [08:12<1:23:19,  2.03it/s]  9%|▊         | 946/11074 [08:12<1:23:24,  2.02it/s]  9%|▊         | 947/11074 [08:13<1:23:21,  2.02it/s]  9%|▊         | 948/11074 [08:13<1:23:26,  2.02it/s]  9%|▊         | 949/11074 [08:14<1:23:25,  2.02it/s]  9%|▊         | 950/11074 [08:14<1:23:25,  2.02it/s]{'loss': 4.442, 'grad_norm': 0.5188645124435425, 'learning_rate': 0.0008574007220216607, 'epoch': 1.2}                                                     
-  9%|▊         | 950/11074 [08:14<1:23:25,  2.02it/s]  9%|▊         | 951/11074 [08:15<1:23:32,  2.02it/s]  9%|▊         | 952/11074 [08:15<1:23:28,  2.02it/s]  9%|▊         | 953/11074 [08:16<1:23:25,  2.02it/s]  9%|▊         | 954/11074 [08:16<1:23:22,  2.02it/s]  9%|▊         | 955/11074 [08:17<1:23:25,  2.02it/s]  9%|▊         | 956/11074 [08:17<1:23:27,  2.02it/s]  9%|▊         | 957/11074 [08:18<1:23:24,  2.02it/s]  9%|▊         | 958/11074 [08:18<1:23:20,  2.02it/s]  9%|▊         | 959/11074 [08:19<1:23:20,  2.02it/s]  9%|▊         | 960/11074 [08:19<1:23:24,  2.02it/s]  9%|▊         | 961/11074 [08:20<1:23:19,  2.02it/s]  9%|▊         | 962/11074 [08:20<1:23:17,  2.02it/s]  9%|▊         | 963/11074 [08:21<1:23:17,  2.02it/s]  9%|▊         | 964/11074 [08:21<1:23:15,  2.02it/s]  9%|▊         | 965/11074 [08:22<1:23:16,  2.02it/s]  9%|▊         | 966/11074 [08:22<1:23:14,  2.02it/s]  9%|▊         | 967/11074 [08:23<1:23:15,  2.02it/s]  9%|▊         | 968/11074 [08:23<1:23:06,  2.03it/s]  9%|▉         | 969/11074 [08:24<1:23:08,  2.03it/s]  9%|▉         | 970/11074 [08:24<1:23:08,  2.03it/s]  9%|▉         | 971/11074 [08:25<1:23:12,  2.02it/s]  9%|▉         | 972/11074 [08:25<1:23:15,  2.02it/s]  9%|▉         | 973/11074 [08:26<1:23:14,  2.02it/s]  9%|▉         | 974/11074 [08:26<1:23:11,  2.02it/s]  9%|▉         | 975/11074 [08:27<1:23:10,  2.02it/s]{'loss': 4.4242, 'grad_norm': 0.3708081841468811, 'learning_rate': 0.0008799638989169674, 'epoch': 1.23}
-                                                       9%|▉         | 975/11074 [08:27<1:23:10,  2.02it/s]  9%|▉         | 976/11074 [08:27<1:23:23,  2.02it/s]  9%|▉         | 977/11074 [08:28<1:23:21,  2.02it/s]  9%|▉         | 978/11074 [08:28<1:23:22,  2.02it/s]  9%|▉         | 979/11074 [08:29<1:23:20,  2.02it/s]  9%|▉         | 980/11074 [08:29<1:23:16,  2.02it/s]  9%|▉         | 981/11074 [08:30<1:23:13,  2.02it/s]  9%|▉         | 982/11074 [08:30<1:23:13,  2.02it/s]  9%|▉         | 983/11074 [08:31<1:23:19,  2.02it/s]  9%|▉         | 984/11074 [08:31<1:23:18,  2.02it/s]  9%|▉         | 985/11074 [08:32<1:23:12,  2.02it/s]  9%|▉         | 986/11074 [08:32<1:23:10,  2.02it/s]  9%|▉         | 987/11074 [08:33<1:23:07,  2.02it/s]  9%|▉         | 988/11074 [08:33<1:23:08,  2.02it/s]  9%|▉         | 989/11074 [08:34<1:23:07,  2.02it/s]  9%|▉         | 990/11074 [08:34<1:23:06,  2.02it/s]  9%|▉         | 991/11074 [08:35<1:23:04,  2.02it/s]  9%|▉         | 992/11074 [08:35<1:23:06,  2.02it/s]  9%|▉         | 993/11074 [08:36<1:23:06,  2.02it/s]  9%|▉         | 994/11074 [08:36<1:23:06,  2.02it/s]  9%|▉         | 995/11074 [08:37<1:23:03,  2.02it/s]  9%|▉         | 996/11074 [08:37<1:23:03,  2.02it/s]  9%|▉         | 997/11074 [08:38<1:23:02,  2.02it/s]  9%|▉         | 998/11074 [08:38<1:23:07,  2.02it/s]  9%|▉         | 999/11074 [08:38<1:23:02,  2.02it/s]  9%|▉         | 1000/11074 [08:39<1:22:59,  2.02it/s]                                                      {'loss': 4.4072, 'grad_norm': 0.3662174940109253, 'learning_rate': 0.0009025270758122743, 'epoch': 1.26}
-  9%|▉         | 1000/11074 [08:39<1:22:59,  2.02it/s]  9%|▉         | 1001/11074 [08:39<1:23:06,  2.02it/s]  9%|▉         | 1002/11074 [08:40<1:23:00,  2.02it/s]  9%|▉         | 1003/11074 [08:40<1:22:59,  2.02it/s]  9%|▉         | 1004/11074 [08:41<1:22:56,  2.02it/s]  9%|▉         | 1005/11074 [08:41<1:22:59,  2.02it/s]  9%|▉         | 1006/11074 [08:42<1:23:01,  2.02it/s]  9%|▉         | 1007/11074 [08:42<1:22:58,  2.02it/s]  9%|▉         | 1008/11074 [08:43<1:22:56,  2.02it/s]  9%|▉         | 1009/11074 [08:43<1:23:02,  2.02it/s]  9%|▉         | 1010/11074 [08:44<1:23:00,  2.02it/s]  9%|▉         | 1011/11074 [08:44<1:22:59,  2.02it/s]  9%|▉         | 1012/11074 [08:45<1:22:50,  2.02it/s]  9%|▉         | 1013/11074 [08:45<1:22:54,  2.02it/s]  9%|▉         | 1014/11074 [08:46<1:22:47,  2.02it/s]  9%|▉         | 1015/11074 [08:46<1:22:51,  2.02it/s]  9%|▉         | 1016/11074 [08:47<1:22:46,  2.03it/s]  9%|▉         | 1017/11074 [08:47<1:22:43,  2.03it/s]  9%|▉         | 1018/11074 [08:48<1:22:46,  2.02it/s]  9%|▉         | 1019/11074 [08:48<1:22:39,  2.03it/s]  9%|▉         | 1020/11074 [08:49<1:22:40,  2.03it/s]  9%|▉         | 1021/11074 [08:49<1:22:40,  2.03it/s]  9%|▉         | 1022/11074 [08:50<1:22:42,  2.03it/s]  9%|▉         | 1023/11074 [08:50<1:22:40,  2.03it/s]  9%|▉         | 1024/11074 [08:51<1:22:43,  2.02it/s]  9%|▉         | 1025/11074 [08:51<1:22:43,  2.02it/s]{'loss': 4.3926, 'grad_norm': 0.375769704580307, 'learning_rate': 0.0009250902527075813, 'epoch': 1.3}
-                                                        9%|▉         | 1025/11074 [08:51<1:22:43,  2.02it/s]  9%|▉         | 1026/11074 [08:52<1:22:49,  2.02it/s]  9%|▉         | 1027/11074 [08:52<1:22:44,  2.02it/s]  9%|▉         | 1028/11074 [08:53<1:22:38,  2.03it/s]  9%|▉         | 1029/11074 [08:53<1:22:36,  2.03it/s]  9%|▉         | 1030/11074 [08:54<1:22:39,  2.03it/s]  9%|▉         | 1031/11074 [08:54<1:22:42,  2.02it/s]  9%|▉         | 1032/11074 [08:55<1:22:36,  2.03it/s]  9%|▉         | 1033/11074 [08:55<1:22:39,  2.02it/s]  9%|▉         | 1034/11074 [08:56<1:22:36,  2.03it/s]  9%|▉         | 1035/11074 [08:56<1:22:36,  2.03it/s]  9%|▉         | 1036/11074 [08:57<1:22:34,  2.03it/s]  9%|▉         | 1037/11074 [08:57<1:22:29,  2.03it/s]  9%|▉         | 1038/11074 [08:58<1:22:32,  2.03it/s]  9%|▉         | 1039/11074 [08:58<1:22:29,  2.03it/s]  9%|▉         | 1040/11074 [08:59<1:22:33,  2.03it/s]  9%|▉         | 1041/11074 [08:59<1:22:29,  2.03it/s]  9%|▉         | 1042/11074 [09:00<1:22:32,  2.03it/s]  9%|▉         | 1043/11074 [09:00<1:22:34,  2.02it/s]  9%|▉         | 1044/11074 [09:01<1:22:34,  2.02it/s]  9%|▉         | 1045/11074 [09:01<1:22:31,  2.03it/s]  9%|▉         | 1046/11074 [09:02<1:22:28,  2.03it/s]  9%|▉         | 1047/11074 [09:02<1:22:32,  2.02it/s]  9%|▉         | 1048/11074 [09:03<1:22:28,  2.03it/s]  9%|▉         | 1049/11074 [09:03<1:22:33,  2.02it/s]  9%|▉         | 1050/11074 [09:04<1:22:26,  2.03it/s]{'loss': 4.3786, 'grad_norm': 0.3398919403553009, 'learning_rate': 0.0009476534296028881, 'epoch': 1.33}                                                      
-  9%|▉         | 1050/11074 [09:04<1:22:26,  2.03it/s]  9%|▉         | 1051/11074 [09:04<1:22:39,  2.02it/s]  9%|▉         | 1052/11074 [09:05<1:22:32,  2.02it/s] 10%|▉         | 1053/11074 [09:05<1:22:27,  2.03it/s] 10%|▉         | 1054/11074 [09:06<1:22:22,  2.03it/s] 10%|▉         | 1055/11074 [09:06<1:22:22,  2.03it/s] 10%|▉         | 1056/11074 [09:07<1:22:22,  2.03it/s] 10%|▉         | 1057/11074 [09:07<1:22:26,  2.03it/s] 10%|▉         | 1058/11074 [09:08<1:22:24,  2.03it/s] 10%|▉         | 1059/11074 [09:08<1:22:25,  2.03it/s] 10%|▉         | 1060/11074 [09:09<1:22:24,  2.03it/s] 10%|▉         | 1061/11074 [09:09<1:22:16,  2.03it/s] 10%|▉         | 1062/11074 [09:10<1:22:20,  2.03it/s] 10%|▉         | 1063/11074 [09:10<1:22:20,  2.03it/s] 10%|▉         | 1064/11074 [09:11<1:22:22,  2.03it/s] 10%|▉         | 1065/11074 [09:11<1:22:20,  2.03it/s] 10%|▉         | 1066/11074 [09:12<1:22:19,  2.03it/s] 10%|▉         | 1067/11074 [09:12<1:22:19,  2.03it/s] 10%|▉         | 1068/11074 [09:13<1:22:15,  2.03it/s] 10%|▉         | 1069/11074 [09:13<1:22:18,  2.03it/s] 10%|▉         | 1070/11074 [09:14<1:22:19,  2.03it/s] 10%|▉         | 1071/11074 [09:14<1:22:22,  2.02it/s] 10%|▉         | 1072/11074 [09:15<1:22:16,  2.03it/s] 10%|▉         | 1073/11074 [09:15<1:22:19,  2.02it/s] 10%|▉         | 1074/11074 [09:16<1:22:17,  2.03it/s] 10%|▉         | 1075/11074 [09:16<1:22:12,  2.03it/s]{'loss': 4.3631, 'grad_norm': 0.3040606677532196, 'learning_rate': 0.000970216606498195, 'epoch': 1.36}                                                      
- 10%|▉         | 1075/11074 [09:16<1:22:12,  2.03it/s] 10%|▉         | 1076/11074 [09:17<1:22:21,  2.02it/s] 10%|▉         | 1077/11074 [09:17<1:22:23,  2.02it/s] 10%|▉         | 1078/11074 [09:18<1:22:17,  2.02it/s] 10%|▉         | 1079/11074 [09:18<1:22:22,  2.02it/s] 10%|▉         | 1080/11074 [09:18<1:22:16,  2.02it/s] 10%|▉         | 1081/11074 [09:19<1:22:19,  2.02it/s] 10%|▉         | 1082/11074 [09:19<1:22:16,  2.02it/s] 10%|▉         | 1083/11074 [09:20<1:22:08,  2.03it/s] 10%|▉         | 1084/11074 [09:20<1:22:08,  2.03it/s] 10%|▉         | 1085/11074 [09:21<1:22:06,  2.03it/s] 10%|▉         | 1086/11074 [09:21<1:22:11,  2.03it/s] 10%|▉         | 1087/11074 [09:22<1:22:12,  2.02it/s] 10%|▉         | 1088/11074 [09:22<1:22:11,  2.02it/s] 10%|▉         | 1089/11074 [09:23<1:22:10,  2.03it/s] 10%|▉         | 1090/11074 [09:23<1:22:09,  2.03it/s] 10%|▉         | 1091/11074 [09:24<1:22:09,  2.03it/s] 10%|▉         | 1092/11074 [09:24<1:22:09,  2.02it/s] 10%|▉         | 1093/11074 [09:25<1:22:04,  2.03it/s] 10%|▉         | 1094/11074 [09:25<1:22:05,  2.03it/s] 10%|▉         | 1095/11074 [09:26<1:22:02,  2.03it/s] 10%|▉         | 1096/11074 [09:26<1:22:03,  2.03it/s] 10%|▉         | 1097/11074 [09:27<1:22:07,  2.02it/s] 10%|▉         | 1098/11074 [09:27<1:22:07,  2.02it/s] 10%|▉         | 1099/11074 [09:28<1:22:08,  2.02it/s] 10%|▉         | 1100/11074 [09:28<1:22:03,  2.03it/s]{'loss': 4.3499, 'grad_norm': 0.3159518539905548, 'learning_rate': 0.0009927797833935018, 'epoch': 1.39}
-                                                       10%|▉         | 1100/11074 [09:28<1:22:03,  2.03it/s] 10%|▉         | 1101/11074 [09:29<1:22:10,  2.02it/s] 10%|▉         | 1102/11074 [09:29<1:22:15,  2.02it/s] 10%|▉         | 1103/11074 [09:30<1:22:10,  2.02it/s] 10%|▉         | 1104/11074 [09:30<1:22:06,  2.02it/s] 10%|▉         | 1105/11074 [09:31<1:22:05,  2.02it/s] 10%|▉         | 1106/11074 [09:31<1:22:00,  2.03it/s] 10%|▉         | 1107/11074 [09:32<1:22:02,  2.02it/s] 10%|█         | 1108/11074 [09:32<1:21:55,  2.03it/s] 10%|█         | 1109/11074 [09:33<1:21:55,  2.03it/s] 10%|█         | 1110/11074 [09:33<1:21:56,  2.03it/s] 10%|█         | 1111/11074 [09:34<1:21:58,  2.03it/s] 10%|█         | 1112/11074 [09:34<1:21:57,  2.03it/s] 10%|█         | 1113/11074 [09:35<1:21:56,  2.03it/s] 10%|█         | 1114/11074 [09:35<1:22:00,  2.02it/s] 10%|█         | 1115/11074 [09:36<1:21:57,  2.03it/s] 10%|█         | 1116/11074 [09:36<1:21:58,  2.02it/s] 10%|█         | 1117/11074 [09:37<1:21:56,  2.03it/s] 10%|█         | 1118/11074 [09:37<1:21:59,  2.02it/s] 10%|█         | 1119/11074 [09:38<1:21:54,  2.03it/s] 10%|█         | 1120/11074 [09:38<1:22:02,  2.02it/s] 10%|█         | 1121/11074 [09:39<1:21:56,  2.02it/s] 10%|█         | 1122/11074 [09:39<1:21:59,  2.02it/s] 10%|█         | 1123/11074 [09:40<1:21:53,  2.03it/s] 10%|█         | 1124/11074 [09:40<1:21:55,  2.02it/s] 10%|█         | 1125/11074 [09:41<1:21:50,  2.03it/s]                                                      {'loss': 4.3342, 'grad_norm': 0.29850077629089355, 'learning_rate': 0.000999992820490214, 'epoch': 1.42}
- 10%|█         | 1125/11074 [09:41<1:21:50,  2.03it/s] 10%|█         | 1126/11074 [09:41<1:21:58,  2.02it/s] 10%|█         | 1127/11074 [09:42<1:21:54,  2.02it/s] 10%|█         | 1128/11074 [09:42<1:21:55,  2.02it/s] 10%|█         | 1129/11074 [09:43<1:21:54,  2.02it/s] 10%|█         | 1130/11074 [09:43<1:21:48,  2.03it/s] 10%|█         | 1131/11074 [09:44<1:21:55,  2.02it/s] 10%|█         | 1132/11074 [09:44<1:21:50,  2.02it/s] 10%|█         | 1133/11074 [09:45<1:21:49,  2.02it/s] 10%|█         | 1134/11074 [09:45<1:21:44,  2.03it/s] 10%|█         | 1135/11074 [09:46<1:21:45,  2.03it/s] 10%|█         | 1136/11074 [09:46<1:21:43,  2.03it/s] 10%|█         | 1137/11074 [09:47<1:21:52,  2.02it/s] 10%|█         | 1138/11074 [09:47<1:21:46,  2.03it/s] 10%|█         | 1139/11074 [09:48<1:21:44,  2.03it/s] 10%|█         | 1140/11074 [09:48<1:21:47,  2.02it/s] 10%|█         | 1141/11074 [09:49<1:21:42,  2.03it/s] 10%|█         | 1142/11074 [09:49<1:21:46,  2.02it/s] 10%|█         | 1143/11074 [09:50<1:21:38,  2.03it/s] 10%|█         | 1144/11074 [09:50<1:21:41,  2.03it/s] 10%|█         | 1145/11074 [09:51<1:21:37,  2.03it/s] 10%|█         | 1146/11074 [09:51<1:21:35,  2.03it/s] 10%|█         | 1147/11074 [09:52<1:21:37,  2.03it/s] 10%|█         | 1148/11074 [09:52<1:21:32,  2.03it/s] 10%|█         | 1149/11074 [09:53<1:21:37,  2.03it/s] 10%|█         | 1150/11074 [09:53<1:21:33,  2.03it/s]{'loss': 4.316, 'grad_norm': 0.3067918121814728, 'learning_rate': 0.0009999561781987086, 'epoch': 1.45}                                                      
- 10%|█         | 1150/11074 [09:53<1:21:33,  2.03it/s] 10%|█         | 1151/11074 [09:54<1:21:48,  2.02it/s] 10%|█         | 1152/11074 [09:54<1:21:41,  2.02it/s] 10%|█         | 1153/11074 [09:55<1:21:40,  2.02it/s] 10%|█         | 1154/11074 [09:55<1:21:39,  2.02it/s] 10%|█         | 1155/11074 [09:56<1:21:33,  2.03it/s] 10%|█         | 1156/11074 [09:56<1:21:37,  2.03it/s] 10%|█         | 1157/11074 [09:57<1:21:34,  2.03it/s] 10%|█         | 1158/11074 [09:57<1:21:39,  2.02it/s] 10%|█         | 1159/11074 [09:58<1:21:32,  2.03it/s] 10%|█         | 1160/11074 [09:58<1:21:38,  2.02it/s] 10%|█         | 1161/11074 [09:58<1:21:34,  2.03it/s] 10%|█         | 1162/11074 [09:59<1:21:37,  2.02it/s] 11%|█         | 1163/11074 [09:59<1:21:37,  2.02it/s] 11%|█         | 1164/11074 [10:00<1:21:39,  2.02it/s] 11%|█         | 1165/11074 [10:00<1:21:34,  2.02it/s] 11%|█         | 1166/11074 [10:01<1:21:35,  2.02it/s] 11%|█         | 1167/11074 [10:01<1:21:33,  2.02it/s] 11%|█         | 1168/11074 [10:02<1:21:34,  2.02it/s] 11%|█         | 1169/11074 [10:02<1:21:33,  2.02it/s] 11%|█         | 1170/11074 [10:03<1:21:34,  2.02it/s] 11%|█         | 1171/11074 [10:03<1:21:31,  2.02it/s] 11%|█         | 1172/11074 [10:04<1:21:34,  2.02it/s] 11%|█         | 1173/11074 [10:04<1:21:34,  2.02it/s] 11%|█         | 1174/11074 [10:05<1:21:37,  2.02it/s] 11%|█         | 1175/11074 [10:05<1:21:37,  2.02it/s]                                                      {'loss': 4.2962, 'grad_norm': 0.31999969482421875, 'learning_rate': 0.0009998884854721967, 'epoch': 1.48}
- 11%|█         | 1175/11074 [10:05<1:21:37,  2.02it/s] 11%|█         | 1176/11074 [10:06<1:21:40,  2.02it/s] 11%|█         | 1177/11074 [10:06<1:21:35,  2.02it/s] 11%|█         | 1178/11074 [10:07<1:21:32,  2.02it/s] 11%|█         | 1179/11074 [10:07<1:21:34,  2.02it/s] 11%|█         | 1180/11074 [10:08<1:21:32,  2.02it/s] 11%|█         | 1181/11074 [10:08<1:21:28,  2.02it/s] 11%|█         | 1182/11074 [10:09<1:21:33,  2.02it/s] 11%|█         | 1183/11074 [10:09<1:21:30,  2.02it/s] 11%|█         | 1184/11074 [10:10<1:21:33,  2.02it/s] 11%|█         | 1185/11074 [10:10<1:21:30,  2.02it/s] 11%|█         | 1186/11074 [10:11<1:21:24,  2.02it/s] 11%|█         | 1187/11074 [10:11<1:21:27,  2.02it/s] 11%|█         | 1188/11074 [10:12<1:21:18,  2.03it/s] 11%|█         | 1189/11074 [10:12<1:21:21,  2.03it/s] 11%|█         | 1190/11074 [10:13<1:21:19,  2.03it/s] 11%|█         | 1191/11074 [10:13<1:21:14,  2.03it/s] 11%|█         | 1192/11074 [10:14<1:21:25,  2.02it/s] 11%|█         | 1193/11074 [10:14<1:21:18,  2.03it/s] 11%|█         | 1194/11074 [10:15<1:21:18,  2.03it/s] 11%|█         | 1195/11074 [10:15<1:21:16,  2.03it/s] 11%|█         | 1196/11074 [10:16<1:21:25,  2.02it/s] 11%|█         | 1197/11074 [10:16<1:21:22,  2.02it/s] 11%|█         | 1198/11074 [10:17<1:21:21,  2.02it/s] 11%|█         | 1199/11074 [10:17<1:21:18,  2.02it/s] 11%|█         | 1200/11074 [10:18<1:21:14,  2.03it/s]{'loss': 4.2857, 'grad_norm': 0.31632253527641296, 'learning_rate': 0.0009997897465148235, 'epoch': 1.52}
-                                                       11%|█         | 1200/11074 [10:18<1:21:14,  2.03it/s] 11%|█         | 1201/11074 [10:18<1:21:23,  2.02it/s] 11%|█         | 1202/11074 [10:19<1:21:21,  2.02it/s] 11%|█         | 1203/11074 [10:19<1:21:20,  2.02it/s] 11%|█         | 1204/11074 [10:20<1:21:23,  2.02it/s] 11%|█         | 1205/11074 [10:20<1:21:22,  2.02it/s] 11%|█         | 1206/11074 [10:21<1:21:16,  2.02it/s] 11%|█         | 1207/11074 [10:21<1:21:16,  2.02it/s] 11%|█         | 1208/11074 [10:22<1:21:14,  2.02it/s] 11%|█         | 1209/11074 [10:22<1:21:14,  2.02it/s] 11%|█         | 1210/11074 [10:23<1:21:12,  2.02it/s] 11%|█         | 1211/11074 [10:23<1:21:13,  2.02it/s] 11%|█         | 1212/11074 [10:24<1:21:11,  2.02it/s] 11%|█         | 1213/11074 [10:24<1:21:08,  2.03it/s] 11%|█         | 1214/11074 [10:25<1:21:13,  2.02it/s] 11%|█         | 1215/11074 [10:25<1:21:06,  2.03it/s] 11%|█         | 1216/11074 [10:26<1:21:10,  2.02it/s] 11%|█         | 1217/11074 [10:26<1:21:07,  2.02it/s] 11%|█         | 1218/11074 [10:27<1:21:11,  2.02it/s] 11%|█         | 1219/11074 [10:27<1:21:08,  2.02it/s] 11%|█         | 1220/11074 [10:28<1:21:11,  2.02it/s] 11%|█         | 1221/11074 [10:28<1:21:14,  2.02it/s] 11%|█         | 1222/11074 [10:29<1:21:10,  2.02it/s] 11%|█         | 1223/11074 [10:29<1:21:02,  2.03it/s] 11%|█         | 1224/11074 [10:30<1:21:07,  2.02it/s] 11%|█         | 1225/11074 [10:30<1:21:03,  2.03it/s]{'loss': 4.2679, 'grad_norm': 0.278068870306015, 'learning_rate': 0.0009996599674589022, 'epoch': 1.55}                                                      
- 11%|█         | 1225/11074 [10:30<1:21:03,  2.03it/s] 11%|█         | 1226/11074 [10:31<1:21:13,  2.02it/s] 11%|█         | 1227/11074 [10:31<1:21:10,  2.02it/s] 11%|█         | 1228/11074 [10:32<1:21:12,  2.02it/s] 11%|█         | 1229/11074 [10:32<1:21:04,  2.02it/s] 11%|█         | 1230/11074 [10:33<1:21:06,  2.02it/s] 11%|█         | 1231/11074 [10:33<1:20:58,  2.03it/s] 11%|█         | 1232/11074 [10:34<1:21:00,  2.03it/s] 11%|█         | 1233/11074 [10:34<1:20:57,  2.03it/s] 11%|█         | 1234/11074 [10:35<1:20:55,  2.03it/s] 11%|█         | 1235/11074 [10:35<1:20:55,  2.03it/s] 11%|█         | 1236/11074 [10:36<1:20:54,  2.03it/s] 11%|█         | 1237/11074 [10:36<1:20:55,  2.03it/s] 11%|█         | 1238/11074 [10:37<1:27:53,  1.87it/s] 11%|█         | 1239/11074 [10:37<1:25:49,  1.91it/s] 11%|█         | 1240/11074 [10:38<1:24:18,  1.94it/s] 11%|█         | 1241/11074 [10:38<1:23:19,  1.97it/s] 11%|█         | 1242/11074 [10:39<1:22:33,  1.98it/s] 11%|█         | 1243/11074 [10:39<1:22:06,  2.00it/s] 11%|█         | 1244/11074 [10:40<1:21:40,  2.01it/s] 11%|█         | 1245/11074 [10:40<1:21:26,  2.01it/s] 11%|█▏        | 1246/11074 [10:41<1:21:15,  2.02it/s] 11%|█▏        | 1247/11074 [10:41<1:21:05,  2.02it/s] 11%|█▏        | 1248/11074 [10:42<1:21:04,  2.02it/s] 11%|█▏        | 1249/11074 [10:42<1:20:58,  2.02it/s] 11%|█▏        | 1250/11074 [10:43<1:20:56,  2.02it/s]{'loss': 4.2541, 'grad_norm': 0.314207524061203, 'learning_rate': 0.0009994991563645312, 'epoch': 1.58}                                                      
- 11%|��▏        | 1250/11074 [10:43<1:20:56,  2.02it/s] 11%|█▏        | 1251/11074 [10:43<1:21:01,  2.02it/s] 11%|█▏        | 1252/11074 [10:44<1:21:05,  2.02it/s] 11%|█▏        | 1253/11074 [10:44<1:21:04,  2.02it/s] 11%|█▏        | 1254/11074 [10:45<1:21:03,  2.02it/s] 11%|█▏        | 1255/11074 [10:45<1:21:03,  2.02it/s] 11%|█▏        | 1256/11074 [10:46<1:20:59,  2.02it/s] 11%|█▏        | 1257/11074 [10:46<1:21:00,  2.02it/s] 11%|█▏        | 1258/11074 [10:47<1:28:07,  1.86it/s] 11%|█▏        | 1259/11074 [10:47<1:25:58,  1.90it/s] 11%|█▏        | 1260/11074 [10:48<1:24:20,  1.94it/s] 11%|█▏        | 1261/11074 [10:48<1:23:19,  1.96it/s] 11%|█▏        | 1262/11074 [10:49<1:22:34,  1.98it/s] 11%|█▏        | 1263/11074 [10:49<1:22:02,  1.99it/s] 11%|█▏        | 1264/11074 [10:50<1:21:40,  2.00it/s] 11%|█▏        | 1265/11074 [10:50<1:21:38,  2.00it/s] 11%|█▏        | 1266/11074 [10:51<1:21:20,  2.01it/s] 11%|█▏        | 1267/11074 [10:51<1:21:15,  2.01it/s] 11%|█▏        | 1268/11074 [10:52<1:21:00,  2.02it/s] 11%|█▏        | 1269/11074 [10:52<1:21:03,  2.02it/s] 11%|█▏        | 1270/11074 [10:53<1:20:52,  2.02it/s] 11%|█▏        | 1271/11074 [10:53<1:20:53,  2.02it/s] 11%|█▏        | 1272/11074 [10:54<1:20:47,  2.02it/s] 11%|█▏        | 1273/11074 [10:54<1:20:49,  2.02it/s] 12%|█▏        | 1274/11074 [10:55<1:20:40,  2.02it/s] 12%|█▏        | 1275/11074 [10:55<1:20:40,  2.02it/s]{'loss': 4.2492, 'grad_norm': 0.27288874983787537, 'learning_rate': 0.0009993073232190948, 'epoch': 1.61}                                                      
- 12%|█▏        | 1275/11074 [10:55<1:20:40,  2.02it/s] 12%|█▏        | 1276/11074 [10:56<1:20:45,  2.02it/s] 12%|█▏        | 1277/11074 [10:56<1:20:44,  2.02it/s] 12%|█▏        | 1278/11074 [10:57<1:20:44,  2.02it/s] 12%|█▏        | 1279/11074 [10:57<1:20:55,  2.02it/s] 12%|█▏        | 1280/11074 [10:58<1:20:47,  2.02it/s] 12%|█▏        | 1281/11074 [10:58<1:20:50,  2.02it/s] 12%|█▏        | 1282/11074 [10:59<1:20:38,  2.02it/s] 12%|█▏        | 1283/11074 [10:59<1:20:42,  2.02it/s] 12%|█▏        | 1284/11074 [11:00<1:20:44,  2.02it/s] 12%|█▏        | 1285/11074 [11:00<1:20:42,  2.02it/s] 12%|█▏        | 1286/11074 [11:01<1:20:36,  2.02it/s] 12%|█▏        | 1287/11074 [11:01<1:20:32,  2.03it/s] 12%|█▏        | 1288/11074 [11:02<1:20:36,  2.02it/s] 12%|█▏        | 1289/11074 [11:02<1:20:30,  2.03it/s] 12%|█▏        | 1290/11074 [11:03<1:20:34,  2.02it/s] 12%|█▏        | 1291/11074 [11:03<1:20:29,  2.03it/s] 12%|█▏        | 1292/11074 [11:04<1:20:30,  2.02it/s] 12%|█▏        | 1293/11074 [11:04<1:20:30,  2.02it/s] 12%|█▏        | 1294/11074 [11:05<1:20:33,  2.02it/s] 12%|█▏        | 1295/11074 [11:05<1:20:34,  2.02it/s] 12%|█▏        | 1296/11074 [11:06<1:20:34,  2.02it/s] 12%|█▏        | 1297/11074 [11:06<1:20:33,  2.02it/s] 12%|█▏        | 1298/11074 [11:06<1:20:33,  2.02it/s] 12%|█▏        | 1299/11074 [11:07<1:20:32,  2.02it/s] 12%|█▏        | 1300/11074 [11:07<1:20:28,  2.02it/s]                                                      {'loss': 4.2271, 'grad_norm': 0.2915230393409729, 'learning_rate': 0.000999084479936642, 'epoch': 1.64}
- 12%|█▏        | 1300/11074 [11:07<1:20:28,  2.02it/s] 12%|█▏        | 1301/11074 [11:08<1:20:39,  2.02it/s] 12%|█▏        | 1302/11074 [11:08<1:20:33,  2.02it/s] 12%|█▏        | 1303/11074 [11:09<1:20:32,  2.02it/s] 12%|█▏        | 1304/11074 [11:09<1:20:30,  2.02it/s] 12%|█▏        | 1305/11074 [11:10<1:20:30,  2.02it/s] 12%|█▏        | 1306/11074 [11:10<1:20:32,  2.02it/s] 12%|█▏        | 1307/11074 [11:11<1:20:31,  2.02it/s] 12%|█▏        | 1308/11074 [11:11<1:20:29,  2.02it/s] 12%|█▏        | 1309/11074 [11:12<1:20:27,  2.02it/s] 12%|█▏        | 1310/11074 [11:12<1:20:30,  2.02it/s] 12%|█▏        | 1311/11074 [11:13<1:20:28,  2.02it/s] 12%|█▏        | 1312/11074 [11:13<1:20:27,  2.02it/s] 12%|█▏        | 1313/11074 [11:14<1:20:34,  2.02it/s] 12%|█▏        | 1314/11074 [11:14<1:20:30,  2.02it/s] 12%|█▏        | 1315/11074 [11:15<1:20:27,  2.02it/s] 12%|█▏        | 1316/11074 [11:15<1:20:25,  2.02it/s] 12%|█▏        | 1317/11074 [11:16<1:20:25,  2.02it/s] 12%|█▏        | 1318/11074 [11:16<1:20:25,  2.02it/s] 12%|█▏        | 1319/11074 [11:17<1:20:24,  2.02it/s] 12%|█▏        | 1320/11074 [11:17<1:20:20,  2.02it/s] 12%|█▏        | 1321/11074 [11:18<1:20:15,  2.03it/s] 12%|█▏        | 1322/11074 [11:18<1:20:16,  2.02it/s] 12%|█▏        | 1323/11074 [11:19<1:20:12,  2.03it/s] 12%|█▏        | 1324/11074 [11:19<1:20:14,  2.03it/s] 12%|█▏        | 1325/11074 [11:20<1:20:18,  2.02it/s]{'loss': 4.2113, 'grad_norm': 0.25502267479896545, 'learning_rate': 0.0009988306403571482, 'epoch': 1.67}                                                      
- 12%|█▏        | 1325/11074 [11:20<1:20:18,  2.02it/s] 12%|█▏        | 1326/11074 [11:20<1:20:21,  2.02it/s] 12%|█▏        | 1327/11074 [11:21<1:20:18,  2.02it/s] 12%|█▏        | 1328/11074 [11:21<1:20:17,  2.02it/s] 12%|█▏        | 1329/11074 [11:22<1:20:09,  2.03it/s] 12%|█▏        | 1330/11074 [11:22<1:20:13,  2.02it/s] 12%|█▏        | 1331/11074 [11:23<1:20:08,  2.03it/s] 12%|█▏        | 1332/11074 [11:23<1:20:07,  2.03it/s] 12%|█▏        | 1333/11074 [11:24<1:20:09,  2.03it/s] 12%|█▏        | 1334/11074 [11:24<1:20:04,  2.03it/s] 12%|█▏        | 1335/11074 [11:25<1:20:07,  2.03it/s] 12%|█▏        | 1336/11074 [11:25<1:20:03,  2.03it/s] 12%|█▏        | 1337/11074 [11:26<1:20:06,  2.03it/s] 12%|█▏        | 1338/11074 [11:26<1:20:09,  2.02it/s] 12%|█▏        | 1339/11074 [11:27<1:20:15,  2.02it/s] 12%|█▏        | 1340/11074 [11:27<1:20:10,  2.02it/s] 12%|█▏        | 1341/11074 [11:28<1:20:05,  2.03it/s] 12%|█▏        | 1342/11074 [11:28<1:20:05,  2.03it/s] 12%|█▏        | 1343/11074 [11:29<1:20:04,  2.03it/s] 12%|█▏        | 1344/11074 [11:29<1:20:07,  2.02it/s] 12%|█▏        | 1345/11074 [11:30<1:19:59,  2.03it/s] 12%|█▏        | 1346/11074 [11:30<1:20:06,  2.02it/s] 12%|█▏        | 1347/11074 [11:31<1:20:04,  2.02it/s] 12%|█▏        | 1348/11074 [11:31<1:20:05,  2.02it/s] 12%|█▏        | 1349/11074 [11:32<1:20:01,  2.03it/s] 12%|█▏        | 1350/11074 [11:32<1:20:04,  2.02it/s]                                                      {'loss': 4.1967, 'grad_norm': 0.2785267233848572, 'learning_rate': 0.0009985458202456533, 'epoch': 1.71}
- 12%|█▏        | 1350/11074 [11:32<1:20:04,  2.02it/s] 12%|█▏        | 1351/11074 [11:33<1:20:09,  2.02it/s] 12%|█▏        | 1352/11074 [11:33<1:20:03,  2.02it/s] 12%|█▏        | 1353/11074 [11:34<1:20:02,  2.02it/s] 12%|█▏        | 1354/11074 [11:34<1:20:05,  2.02it/s] 12%|█▏        | 1355/11074 [11:35<1:20:00,  2.02it/s] 12%|█▏        | 1356/11074 [11:35<1:20:05,  2.02it/s] 12%|█▏        | 1357/11074 [11:36<1:19:58,  2.03it/s] 12%|█▏        | 1358/11074 [11:36<1:20:05,  2.02it/s] 12%|█▏        | 1359/11074 [11:37<1:19:58,  2.02it/s] 12%|█▏        | 1360/11074 [11:37<1:20:02,  2.02it/s] 12%|█▏        | 1361/11074 [11:38<1:20:00,  2.02it/s] 12%|█▏        | 1362/11074 [11:38<1:19:58,  2.02it/s] 12%|█▏        | 1363/11074 [11:39<1:19:55,  2.03it/s] 12%|█▏        | 1364/11074 [11:39<1:19:56,  2.02it/s] 12%|█▏        | 1365/11074 [11:40<1:19:54,  2.03it/s] 12%|█▏        | 1366/11074 [11:40<1:19:55,  2.02it/s] 12%|█▏        | 1367/11074 [11:41<1:19:51,  2.03it/s] 12%|█▏        | 1368/11074 [11:41<1:19:43,  2.03it/s] 12%|█▏        | 1369/11074 [11:42<1:19:47,  2.03it/s] 12%|█▏        | 1370/11074 [11:42<1:19:44,  2.03it/s] 12%|█▏        | 1371/11074 [11:43<1:19:48,  2.03it/s] 12%|█▏        | 1372/11074 [11:43<1:19:49,  2.03it/s] 12%|█▏        | 1373/11074 [11:44<1:20:00,  2.02it/s] 12%|█▏        | 1374/11074 [11:44<1:19:56,  2.02it/s] 12%|█▏        | 1375/11074 [11:45<1:19:57,  2.02it/s]{'loss': 4.1902, 'grad_norm': 0.2525789141654968, 'learning_rate': 0.0009982300372912848, 'epoch': 1.74}
-                                                       12%|█▏        | 1375/11074 [11:45<1:19:57,  2.02it/s] 12%|█▏        | 1376/11074 [11:45<1:20:04,  2.02it/s] 12%|█▏        | 1377/11074 [11:46<1:20:00,  2.02it/s] 12%|█▏        | 1378/11074 [11:46<1:19:52,  2.02it/s] 12%|█▏        | 1379/11074 [11:47<1:19:54,  2.02it/s] 12%|█▏        | 1380/11074 [11:47<1:19:48,  2.02it/s] 12%|█▏        | 1381/11074 [11:48<1:19:48,  2.02it/s] 12%|█▏        | 1382/11074 [11:48<1:19:48,  2.02it/s] 12%|█▏        | 1383/11074 [11:48<1:19:49,  2.02it/s] 12%|█▏        | 1384/11074 [11:49<1:19:46,  2.02it/s] 13%|█▎        | 1385/11074 [11:49<1:19:48,  2.02it/s] 13%|█▎        | 1386/11074 [11:50<1:19:50,  2.02it/s] 13%|█▎        | 1387/11074 [11:50<1:19:49,  2.02it/s] 13%|█▎        | 1388/11074 [11:51<1:19:46,  2.02it/s] 13%|█▎        | 1389/11074 [11:51<1:19:43,  2.02it/s] 13%|█▎        | 1390/11074 [11:52<1:19:41,  2.03it/s] 13%|█▎        | 1391/11074 [11:52<1:19:42,  2.02it/s] 13%|█▎        | 1392/11074 [11:53<1:19:43,  2.02it/s] 13%|█▎        | 1393/11074 [11:53<1:19:47,  2.02it/s] 13%|█▎        | 1394/11074 [11:54<1:19:47,  2.02it/s] 13%|█▎        | 1395/11074 [11:54<1:19:45,  2.02it/s] 13%|█▎        | 1396/11074 [11:55<1:19:44,  2.02it/s] 13%|█▎        | 1397/11074 [11:55<1:19:47,  2.02it/s] 13%|█▎        | 1398/11074 [11:56<1:19:45,  2.02it/s] 13%|█▎        | 1399/11074 [11:56<1:19:45,  2.02it/s] 13%|█▎        | 1400/11074 [11:57<1:19:42,  2.02it/s]{'loss': 4.171, 'grad_norm': 0.25633740425109863, 'learning_rate': 0.000997883311106157, 'epoch': 1.77}
-                                                       13%|█▎        | 1400/11074 [11:57<1:19:42,  2.02it/s] 13%|█▎        | 1401/11074 [11:57<1:19:48,  2.02it/s] 13%|█▎        | 1402/11074 [11:58<1:19:47,  2.02it/s] 13%|█▎        | 1403/11074 [11:58<1:19:46,  2.02it/s] 13%|█▎        | 1404/11074 [11:59<1:19:46,  2.02it/s] 13%|█▎        | 1405/11074 [11:59<1:19:45,  2.02it/s] 13%|█▎        | 1406/11074 [12:00<1:19:39,  2.02it/s] 13%|█▎        | 1407/11074 [12:00<1:19:39,  2.02it/s] 13%|█▎        | 1408/11074 [12:01<1:19:39,  2.02it/s] 13%|█▎        | 1409/11074 [12:01<1:19:44,  2.02it/s] 13%|█▎        | 1410/11074 [12:02<1:19:42,  2.02it/s] 13%|█▎        | 1411/11074 [12:02<1:19:40,  2.02it/s] 13%|█▎        | 1412/11074 [12:03<1:19:38,  2.02it/s] 13%|█▎        | 1413/11074 [12:03<1:19:39,  2.02it/s] 13%|█▎        | 1414/11074 [12:04<1:19:36,  2.02it/s] 13%|█▎        | 1415/11074 [12:04<1:19:36,  2.02it/s] 13%|█▎        | 1416/11074 [12:05<1:19:36,  2.02it/s] 13%|█▎        | 1417/11074 [12:05<1:19:35,  2.02it/s] 13%|█▎        | 1418/11074 [12:06<1:19:32,  2.02it/s] 13%|█▎        | 1419/11074 [12:06<1:19:26,  2.03it/s] 13%|█▎        | 1420/11074 [12:07<1:19:29,  2.02it/s] 13%|█▎        | 1421/11074 [12:07<1:19:27,  2.02it/s] 13%|█▎        | 1422/11074 [12:08<1:19:28,  2.02it/s] 13%|█▎        | 1423/11074 [12:08<1:19:30,  2.02it/s] 13%|█▎        | 1424/11074 [12:09<1:19:31,  2.02it/s] 13%|█▎        | 1425/11074 [12:09<1:19:31,  2.02it/s]{'loss': 4.1608, 'grad_norm': 0.24578550457954407, 'learning_rate': 0.000997505663224156, 'epoch': 1.8}                                                      
- 13%|█▎        | 1425/11074 [12:09<1:19:31,  2.02it/s] 13%|█▎        | 1426/11074 [12:10<1:19:33,  2.02it/s] 13%|█▎        | 1427/11074 [12:10<1:19:32,  2.02it/s] 13%|█▎        | 1428/11074 [12:11<1:19:31,  2.02it/s] 13%|█▎        | 1429/11074 [12:11<1:19:29,  2.02it/s] 13%|█▎        | 1430/11074 [12:12<1:19:29,  2.02it/s] 13%|█▎        | 1431/11074 [12:12<1:19:28,  2.02it/s] 13%|█▎        | 1432/11074 [12:13<1:19:27,  2.02it/s] 13%|█▎        | 1433/11074 [12:13<1:19:28,  2.02it/s] 13%|█▎        | 1434/11074 [12:14<1:19:29,  2.02it/s] 13%|█▎        | 1435/11074 [12:14<1:19:31,  2.02it/s] 13%|█▎        | 1436/11074 [12:15<1:19:25,  2.02it/s] 13%|█▎        | 1437/11074 [12:15<1:19:23,  2.02it/s] 13%|█▎        | 1438/11074 [12:16<1:19:21,  2.02it/s] 13%|█▎        | 1439/11074 [12:16<1:19:19,  2.02it/s] 13%|█▎        | 1440/11074 [12:17<1:19:20,  2.02it/s] 13%|█▎        | 1441/11074 [12:17<1:19:13,  2.03it/s] 13%|█▎        | 1442/11074 [12:18<1:19:18,  2.02it/s] 13%|█▎        | 1443/11074 [12:18<1:19:12,  2.03it/s] 13%|█▎        | 1444/11074 [12:19<1:19:24,  2.02it/s] 13%|█▎        | 1445/11074 [12:19<1:19:26,  2.02it/s] 13%|█▎        | 1446/11074 [12:20<1:19:27,  2.02it/s] 13%|█▎        | 1447/11074 [12:20<1:19:18,  2.02it/s] 13%|█▎        | 1448/11074 [12:21<1:19:20,  2.02it/s] 13%|█▎        | 1449/11074 [12:21<1:19:11,  2.03it/s] 13%|█▎        | 1450/11074 [12:22<1:19:14,  2.02it/s]                                                      {'loss': 4.1432, 'grad_norm': 0.24463176727294922, 'learning_rate': 0.0009970971170995986, 'epoch': 1.83}
- 13%|█▎        | 1450/11074 [12:22<1:19:14,  2.02it/s] 13%|█▎        | 1451/11074 [12:22<1:19:14,  2.02it/s] 13%|█▎        | 1452/11074 [12:23<1:19:18,  2.02it/s] 13%|█▎        | 1453/11074 [12:23<1:19:13,  2.02it/s] 13%|█▎        | 1454/11074 [12:24<1:19:16,  2.02it/s] 13%|█▎        | 1455/11074 [12:24<1:19:12,  2.02it/s] 13%|█▎        | 1456/11074 [12:25<1:19:16,  2.02it/s] 13%|█▎        | 1457/11074 [12:25<1:19:09,  2.02it/s] 13%|█▎        | 1458/11074 [12:26<1:19:08,  2.03it/s] 13%|█▎        | 1459/11074 [12:26<1:19:11,  2.02it/s] 13%|█▎        | 1460/11074 [12:27<1:19:06,  2.03it/s] 13%|█▎        | 1461/11074 [12:27<1:19:09,  2.02it/s] 13%|█▎        | 1462/11074 [12:28<1:19:04,  2.03it/s] 13%|█▎        | 1463/11074 [12:28<1:19:04,  2.03it/s] 13%|█▎        | 1464/11074 [12:29<1:19:03,  2.03it/s] 13%|█▎        | 1465/11074 [12:29<1:19:03,  2.03it/s] 13%|█▎        | 1466/11074 [12:30<1:19:02,  2.03it/s] 13%|█▎        | 1467/11074 [12:30<1:19:02,  2.03it/s] 13%|█▎        | 1468/11074 [12:31<1:19:01,  2.03it/s] 13%|█▎        | 1469/11074 [12:31<1:19:03,  2.02it/s] 13%|█▎        | 1470/11074 [12:32<1:19:04,  2.02it/s] 13%|█▎        | 1471/11074 [12:32<1:19:07,  2.02it/s] 13%|█▎        | 1472/11074 [12:32<1:19:06,  2.02it/s] 13%|█▎        | 1473/11074 [12:33<1:19:05,  2.02it/s] 13%|█▎        | 1474/11074 [12:33<1:19:04,  2.02it/s] 13%|█▎        | 1475/11074 [12:34<1:19:00,  2.02it/s]                                                      {'loss': 4.1357, 'grad_norm': 0.2596167027950287, 'learning_rate': 0.0009966576981057789, 'epoch': 1.86}
- 13%|█▎        | 1475/11074 [12:34<1:19:00,  2.02it/s] 13%|█▎        | 1476/11074 [12:34<1:19:03,  2.02it/s] 13%|█▎        | 1477/11074 [12:35<1:18:58,  2.03it/s] 13%|█▎        | 1478/11074 [12:35<1:18:59,  2.02it/s] 13%|█▎        | 1479/11074 [12:36<1:18:59,  2.02it/s] 13%|█▎        | 1480/11074 [12:36<1:19:03,  2.02it/s] 13%|█▎        | 1481/11074 [12:37<1:18:58,  2.02it/s] 13%|█▎        | 1482/11074 [12:37<1:19:00,  2.02it/s] 13%|█▎        | 1483/11074 [12:38<1:18:59,  2.02it/s] 13%|█▎        | 1484/11074 [12:38<1:18:59,  2.02it/s] 13%|█▎        | 1485/11074 [12:39<1:18:50,  2.03it/s] 13%|█▎        | 1486/11074 [12:39<1:18:53,  2.03it/s] 13%|█▎        | 1487/11074 [12:40<1:18:49,  2.03it/s] 13%|█▎        | 1488/11074 [12:40<1:18:51,  2.03it/s] 13%|█▎        | 1489/11074 [12:41<1:18:53,  2.03it/s] 13%|█▎        | 1490/11074 [12:41<1:18:49,  2.03it/s] 13%|█▎        | 1491/11074 [12:42<1:18:57,  2.02it/s] 13%|█▎        | 1492/11074 [12:42<1:19:06,  2.02it/s] 13%|█▎        | 1493/11074 [12:43<1:19:01,  2.02it/s] 13%|█▎        | 1494/11074 [12:43<1:19:03,  2.02it/s] 14%|█▎        | 1495/11074 [12:44<1:19:11,  2.02it/s] 14%|█▎        | 1496/11074 [12:44<1:19:02,  2.02it/s] 14%|█▎        | 1497/11074 [12:45<1:18:58,  2.02it/s] 14%|█▎        | 1498/11074 [12:45<1:18:57,  2.02it/s] 14%|█▎        | 1499/11074 [12:46<1:18:50,  2.02it/s] 14%|█▎        | 1500/11074 [12:46<1:18:55,  2.02it/s]{'loss': 4.1334, 'grad_norm': 0.25433897972106934, 'learning_rate': 0.0009961874335333903, 'epoch': 1.9}                                                      
- 14%|█▎        | 1500/11074 [12:46<1:18:55,  2.02it/s] 14%|█▎        | 1501/11074 [12:47<1:18:57,  2.02it/s] 14%|█▎        | 1502/11074 [12:47<1:18:57,  2.02it/s] 14%|█▎        | 1503/11074 [12:48<1:18:51,  2.02it/s] 14%|█▎        | 1504/11074 [12:48<1:18:53,  2.02it/s] 14%|█▎        | 1505/11074 [12:49<1:18:47,  2.02it/s] 14%|█▎        | 1506/11074 [12:49<1:18:49,  2.02it/s] 14%|█▎        | 1507/11074 [12:50<1:18:42,  2.03it/s] 14%|█▎        | 1508/11074 [12:50<1:18:44,  2.02it/s] 14%|█▎        | 1509/11074 [12:51<1:18:39,  2.03it/s] 14%|█▎        | 1510/11074 [12:51<1:18:44,  2.02it/s] 14%|█▎        | 1511/11074 [12:52<1:18:40,  2.03it/s] 14%|█▎        | 1512/11074 [12:52<1:18:36,  2.03it/s] 14%|█▎        | 1513/11074 [12:53<1:18:39,  2.03it/s] 14%|█▎        | 1514/11074 [12:53<1:18:36,  2.03it/s] 14%|█▎        | 1515/11074 [12:54<1:18:44,  2.02it/s] 14%|█▎        | 1516/11074 [12:54<1:18:43,  2.02it/s] 14%|█▎        | 1517/11074 [12:55<1:18:47,  2.02it/s] 14%|█▎        | 1518/11074 [12:55<1:18:40,  2.02it/s] 14%|█▎        | 1519/11074 [12:56<1:18:42,  2.02it/s] 14%|█▎        | 1520/11074 [12:56<1:18:34,  2.03it/s] 14%|█▎        | 1521/11074 [12:57<1:18:35,  2.03it/s] 14%|█▎        | 1522/11074 [12:57<1:18:35,  2.03it/s] 14%|█▍        | 1523/11074 [12:58<1:18:35,  2.03it/s] 14%|█▍        | 1524/11074 [12:58<1:18:37,  2.02it/s] 14%|█▍        | 1525/11074 [12:59<1:18:36,  2.02it/s]{'loss': 4.1172, 'grad_norm': 0.26340189576148987, 'learning_rate': 0.0009956863525888318, 'epoch': 1.93}                                                      
- 14%|█▍        | 1525/11074 [12:59<1:18:36,  2.02it/s] 14%|█▍        | 1526/11074 [12:59<1:18:46,  2.02it/s] 14%|█▍        | 1527/11074 [13:00<1:18:43,  2.02it/s] 14%|█▍        | 1528/11074 [13:00<1:18:40,  2.02it/s] 14%|█▍        | 1529/11074 [13:01<1:18:37,  2.02it/s] 14%|█▍        | 1530/11074 [13:01<1:18:36,  2.02it/s] 14%|█▍        | 1531/11074 [13:02<1:18:37,  2.02it/s] 14%|█▍        | 1532/11074 [13:02<1:18:37,  2.02it/s] 14%|█▍        | 1533/11074 [13:03<1:18:37,  2.02it/s] 14%|█▍        | 1534/11074 [13:03<1:18:35,  2.02it/s] 14%|█▍        | 1535/11074 [13:04<1:18:37,  2.02it/s] 14%|█▍        | 1536/11074 [13:04<1:18:36,  2.02it/s] 14%|█▍        | 1537/11074 [13:05<1:18:34,  2.02it/s] 14%|█▍        | 1538/11074 [13:05<1:18:33,  2.02it/s] 14%|█▍        | 1539/11074 [13:06<1:18:35,  2.02it/s] 14%|█▍        | 1540/11074 [13:06<1:18:35,  2.02it/s] 14%|█▍        | 1541/11074 [13:07<1:18:32,  2.02it/s] 14%|█▍        | 1542/11074 [13:07<1:18:32,  2.02it/s] 14%|█▍        | 1543/11074 [13:08<1:18:27,  2.02it/s] 14%|█▍        | 1544/11074 [13:08<1:18:25,  2.03it/s] 14%|█▍        | 1545/11074 [13:09<1:18:23,  2.03it/s] 14%|█▍        | 1546/11074 [13:09<1:18:26,  2.02it/s] 14%|█▍        | 1547/11074 [13:10<1:18:22,  2.03it/s] 14%|█▍        | 1548/11074 [13:10<1:18:26,  2.02it/s] 14%|█▍        | 1549/11074 [13:11<1:18:24,  2.02it/s] 14%|█▍        | 1550/11074 [13:11<1:18:28,  2.02it/s]                                                      {'loss': 4.1175, 'grad_norm': 0.25189343094825745, 'learning_rate': 0.0009951544863923934, 'epoch': 1.96}
- 14%|█▍        | 1550/11074 [13:11<1:18:28,  2.02it/s] 14%|█▍        | 1551/11074 [13:12<1:18:33,  2.02it/s] 14%|█▍        | 1552/11074 [13:12<1:18:33,  2.02it/s] 14%|█▍        | 1553/11074 [13:13<1:18:28,  2.02it/s] 14%|█▍        | 1554/11074 [13:13<1:18:27,  2.02it/s] 14%|█▍        | 1555/11074 [13:14<1:18:30,  2.02it/s] 14%|█▍        | 1556/11074 [13:14<1:18:32,  2.02it/s] 14%|█▍        | 1557/11074 [13:15<1:18:27,  2.02it/s] 14%|█▍        | 1558/11074 [13:15<1:18:26,  2.02it/s] 14%|█▍        | 1559/11074 [13:15<1:18:27,  2.02it/s] 14%|█▍        | 1560/11074 [13:16<1:18:31,  2.02it/s] 14%|█▍        | 1561/11074 [13:16<1:18:27,  2.02it/s] 14%|█▍        | 1562/11074 [13:17<1:18:30,  2.02it/s] 14%|█▍        | 1563/11074 [13:17<1:18:26,  2.02it/s] 14%|█▍        | 1564/11074 [13:18<1:18:27,  2.02it/s] 14%|█▍        | 1565/11074 [13:18<1:18:26,  2.02it/s] 14%|█▍        | 1566/11074 [13:19<1:18:23,  2.02it/s] 14%|█▍        | 1567/11074 [13:19<1:18:22,  2.02it/s] 14%|█▍        | 1568/11074 [13:20<1:18:22,  2.02it/s] 14%|█▍        | 1569/11074 [13:20<1:18:21,  2.02it/s] 14%|█▍        | 1570/11074 [13:21<1:18:23,  2.02it/s] 14%|█▍        | 1571/11074 [13:21<1:18:24,  2.02it/s] 14%|█▍        | 1572/11074 [13:22<1:18:23,  2.02it/s] 14%|█▍        | 1573/11074 [13:22<1:18:22,  2.02it/s] 14%|█▍        | 1574/11074 [13:23<1:18:20,  2.02it/s] 14%|█▍        | 1575/11074 [13:23<1:18:26,  2.02it/s]{'loss': 4.0953, 'grad_norm': 0.24511846899986267, 'learning_rate': 0.0009945918679763238, 'epoch': 1.99}                                                      
- 14%|█▍        | 1575/11074 [13:23<1:18:26,  2.02it/s] 14%|█▍        | 1576/11074 [13:24<1:18:30,  2.02it/s] 14%|█▍        | 1577/11074 [13:24<1:18:29,  2.02it/s] 14%|█▍        | 1578/11074 [13:25<1:18:24,  2.02it/s] 14%|█▍        | 1579/11074 [13:25<1:18:23,  2.02it/s] 14%|█▍        | 1580/11074 [13:26<1:18:17,  2.02it/s] 14%|█▍        | 1581/11074 [13:26<1:18:18,  2.02it/s] 14%|█▍        | 1582/11074 [13:27<1:18:11,  2.02it/s] 14%|█▍        | 1583/11074 [13:27<1:17:40,  2.04it/s] 14%|█▍        | 1584/11074 [13:42<12:09:31,  4.61s/it] 14%|█▍        | 1585/11074 [13:42<8:54:16,  3.38s/it]  14%|█▍        | 1586/11074 [13:43<6:37:23,  2.51s/it] 14%|█▍        | 1587/11074 [13:43<5:01:32,  1.91s/it] 14%|█▍        | 1588/11074 [13:44<3:55:01,  1.49s/it] 14%|█▍        | 1589/11074 [13:44<3:07:56,  1.19s/it] 14%|█▍        | 1590/11074 [13:45<2:35:06,  1.02it/s] 14%|█▍        | 1591/11074 [13:45<2:12:13,  1.20it/s] 14%|█▍        | 1592/11074 [13:46<1:56:02,  1.36it/s] 14%|█▍        | 1593/11074 [13:46<1:44:34,  1.51it/s] 14%|█▍        | 1594/11074 [13:47<1:36:37,  1.64it/s] 14%|█▍        | 1595/11074 [13:47<1:30:57,  1.74it/s] 14%|█▍        | 1596/11074 [13:48<1:27:05,  1.81it/s] 14%|█▍        | 1597/11074 [13:48<1:24:25,  1.87it/s] 14%|█▍        | 1598/11074 [13:49<1:22:32,  1.91it/s] 14%|█▍        | 1599/11074 [13:49<1:21:11,  1.94it/s] 14%|█▍        | 1600/11074 [13:50<1:20:15,  1.97it/s]{'loss': 4.0203, 'grad_norm': 0.2405504733324051, 'learning_rate': 0.0009939985322827782, 'epoch': 2.02}
-                                                       14%|█▍        | 1600/11074 [13:50<1:20:15,  1.97it/s] 14%|█▍        | 1601/11074 [13:50<1:19:46,  1.98it/s] 14%|█▍        | 1602/11074 [13:51<1:19:24,  1.99it/s] 14%|█▍        | 1603/11074 [13:51<1:18:57,  2.00it/s] 14%|█▍        | 1604/11074 [13:52<1:18:48,  2.00it/s] 14%|█▍        | 1605/11074 [13:52<1:18:33,  2.01it/s] 15%|█▍        | 1606/11074 [13:52<1:18:23,  2.01it/s] 15%|█▍        | 1607/11074 [13:53<1:18:20,  2.01it/s] 15%|█▍        | 1608/11074 [13:53<1:18:13,  2.02it/s] 15%|█▍        | 1609/11074 [13:54<1:18:10,  2.02it/s] 15%|█▍        | 1610/11074 [13:54<1:18:05,  2.02it/s] 15%|█▍        | 1611/11074 [13:55<1:18:01,  2.02it/s] 15%|█▍        | 1612/11074 [13:55<1:17:57,  2.02it/s] 15%|█▍        | 1613/11074 [13:56<1:17:57,  2.02it/s] 15%|█▍        | 1614/11074 [13:56<1:17:49,  2.03it/s] 15%|█▍        | 1615/11074 [13:57<1:17:54,  2.02it/s] 15%|█▍        | 1616/11074 [13:57<1:17:47,  2.03it/s] 15%|█▍        | 1617/11074 [13:58<1:17:48,  2.03it/s] 15%|█▍        | 1618/11074 [13:58<1:17:47,  2.03it/s] 15%|█▍        | 1619/11074 [13:59<1:17:43,  2.03it/s] 15%|█▍        | 1620/11074 [13:59<1:17:46,  2.03it/s] 15%|█▍        | 1621/11074 [14:00<1:17:43,  2.03it/s] 15%|█▍        | 1622/11074 [14:00<1:17:43,  2.03it/s] 15%|█▍        | 1623/11074 [14:01<1:17:39,  2.03it/s] 15%|█▍        | 1624/11074 [14:01<1:17:42,  2.03it/s] 15%|█▍        | 1625/11074 [14:02<1:17:40,  2.03it/s]{'loss': 3.9812, 'grad_norm': 0.26216834783554077, 'learning_rate': 0.0009933745161616497, 'epoch': 2.05}                                                      
- 15%|█▍        | 1625/11074 [14:02<1:17:40,  2.03it/s] 15%|█▍        | 1626/11074 [14:02<1:17:52,  2.02it/s] 15%|█▍        | 1627/11074 [14:03<1:17:49,  2.02it/s] 15%|█▍        | 1628/11074 [14:03<1:17:53,  2.02it/s] 15%|█▍        | 1629/11074 [14:04<1:17:44,  2.03it/s] 15%|█▍        | 1630/11074 [14:04<1:17:44,  2.02it/s] 15%|█▍        | 1631/11074 [14:05<1:17:41,  2.03it/s] 15%|█▍        | 1632/11074 [14:05<1:17:46,  2.02it/s] 15%|█▍        | 1633/11074 [14:06<1:17:44,  2.02it/s] 15%|█▍        | 1634/11074 [14:06<1:17:46,  2.02it/s] 15%|█▍        | 1635/11074 [14:07<1:17:44,  2.02it/s] 15%|█▍        | 1636/11074 [14:07<1:17:41,  2.02it/s] 15%|█▍        | 1637/11074 [14:08<1:17:41,  2.02it/s] 15%|█▍        | 1638/11074 [14:08<1:17:36,  2.03it/s] 15%|█▍        | 1639/11074 [14:09<1:17:38,  2.03it/s] 15%|█▍        | 1640/11074 [14:09<1:17:35,  2.03it/s] 15%|█▍        | 1641/11074 [14:10<1:17:38,  2.02it/s] 15%|█▍        | 1642/11074 [14:10<1:17:33,  2.03it/s] 15%|█▍        | 1643/11074 [14:11<1:17:36,  2.03it/s] 15%|█▍        | 1644/11074 [14:11<1:17:33,  2.03it/s] 15%|█▍        | 1645/11074 [14:12<1:17:33,  2.03it/s] 15%|█▍        | 1646/11074 [14:12<1:17:34,  2.03it/s] 15%|█▍        | 1647/11074 [14:13<1:17:31,  2.03it/s] 15%|█▍        | 1648/11074 [14:13<1:17:35,  2.02it/s] 15%|█▍        | 1649/11074 [14:14<1:17:31,  2.03it/s] 15%|█▍        | 1650/11074 [14:14<1:17:35,  2.02it/s]{'loss': 3.9825, 'grad_norm': 0.2353016436100006, 'learning_rate': 0.0009927198583682783, 'epoch': 2.08}
-                                                       15%|█▍        | 1650/11074 [14:14<1:17:35,  2.02it/s] 15%|█▍        | 1651/11074 [14:15<1:17:35,  2.02it/s] 15%|█▍        | 1652/11074 [14:15<1:17:35,  2.02it/s] 15%|█▍        | 1653/11074 [14:16<1:17:34,  2.02it/s] 15%|█▍        | 1654/11074 [14:16<1:17:35,  2.02it/s] 15%|█▍        | 1655/11074 [14:17<1:17:33,  2.02it/s] 15%|█▍        | 1656/11074 [14:17<1:17:35,  2.02it/s] 15%|█▍        | 1657/11074 [14:18<1:17:31,  2.02it/s] 15%|█▍        | 1658/11074 [14:18<1:17:31,  2.02it/s] 15%|█▍        | 1659/11074 [14:19<1:17:31,  2.02it/s] 15%|█▍        | 1660/11074 [14:19<1:17:25,  2.03it/s] 15%|█▍        | 1661/11074 [14:20<1:17:26,  2.03it/s] 15%|█▌        | 1662/11074 [14:20<1:17:22,  2.03it/s] 15%|█▌        | 1663/11074 [14:21<1:17:29,  2.02it/s] 15%|█▌        | 1664/11074 [14:21<1:17:23,  2.03it/s] 15%|█▌        | 1665/11074 [14:22<1:17:21,  2.03it/s] 15%|█▌        | 1666/11074 [14:22<1:17:24,  2.03it/s] 15%|█▌        | 1667/11074 [14:23<1:17:21,  2.03it/s] 15%|█▌        | 1668/11074 [14:23<1:17:25,  2.02it/s] 15%|█▌        | 1669/11074 [14:24<1:17:20,  2.03it/s] 15%|█▌        | 1670/11074 [14:24<1:17:22,  2.03it/s] 15%|█▌        | 1671/11074 [14:25<1:17:18,  2.03it/s] 15%|█▌        | 1672/11074 [14:25<1:17:22,  2.03it/s] 15%|█▌        | 1673/11074 [14:26<1:17:18,  2.03it/s] 15%|█▌        | 1674/11074 [14:26<1:17:18,  2.03it/s] 15%|█▌        | 1675/11074 [14:27<1:17:19,  2.03it/s]                                                      {'loss': 3.9869, 'grad_norm': 0.24601206183433533, 'learning_rate': 0.0009920345995610466, 'epoch': 2.12}
- 15%|█▌        | 1675/11074 [14:27<1:17:19,  2.03it/s] 15%|█▌        | 1676/11074 [14:27<1:17:22,  2.02it/s] 15%|█▌        | 1677/11074 [14:28<1:17:23,  2.02it/s] 15%|█▌        | 1678/11074 [14:28<1:17:17,  2.03it/s] 15%|█▌        | 1679/11074 [14:29<1:17:19,  2.02it/s] 15%|█▌        | 1680/11074 [14:29<1:17:16,  2.03it/s] 15%|█▌        | 1681/11074 [14:30<1:17:17,  2.03it/s] 15%|█▌        | 1682/11074 [14:30<1:17:15,  2.03it/s] 15%|█▌        | 1683/11074 [14:31<1:17:15,  2.03it/s] 15%|█▌        | 1684/11074 [14:31<1:17:18,  2.02it/s] 15%|█▌        | 1685/11074 [14:32<1:17:17,  2.02it/s] 15%|█▌        | 1686/11074 [14:32<1:17:23,  2.02it/s] 15%|█▌        | 1687/11074 [14:32<1:17:26,  2.02it/s] 15%|█▌        | 1688/11074 [14:33<1:17:22,  2.02it/s] 15%|█▌        | 1689/11074 [14:33<1:17:20,  2.02it/s] 15%|█▌        | 1690/11074 [14:34<1:17:18,  2.02it/s] 15%|█▌        | 1691/11074 [14:34<1:17:19,  2.02it/s] 15%|█▌        | 1692/11074 [14:35<1:17:22,  2.02it/s] 15%|█▌        | 1693/11074 [14:35<1:17:18,  2.02it/s] 15%|█▌        | 1694/11074 [14:36<1:17:16,  2.02it/s] 15%|█▌        | 1695/11074 [14:36<1:17:14,  2.02it/s] 15%|█▌        | 1696/11074 [14:37<1:17:14,  2.02it/s] 15%|█▌        | 1697/11074 [14:37<1:17:13,  2.02it/s] 15%|█▌        | 1698/11074 [14:38<1:17:14,  2.02it/s] 15%|█▌        | 1699/11074 [14:38<1:17:07,  2.03it/s] 15%|█▌        | 1700/11074 [14:39<1:17:08,  2.03it/s]                                                      {'loss': 3.9939, 'grad_norm': 0.25600117444992065, 'learning_rate': 0.0009913187822988521, 'epoch': 2.15}
- 15%|█▌        | 1700/11074 [14:39<1:17:08,  2.03it/s] 15%|█▌        | 1701/11074 [14:39<1:17:07,  2.03it/s] 15%|█▌        | 1702/11074 [14:40<1:17:09,  2.02it/s] 15%|█▌        | 1703/11074 [14:40<1:17:06,  2.03it/s] 15%|█▌        | 1704/11074 [14:41<1:17:00,  2.03it/s] 15%|█▌        | 1705/11074 [14:41<1:17:05,  2.03it/s] 15%|█▌        | 1706/11074 [14:42<1:17:00,  2.03it/s] 15%|█▌        | 1707/11074 [14:42<1:17:02,  2.03it/s] 15%|█▌        | 1708/11074 [14:43<1:17:02,  2.03it/s] 15%|█▌        | 1709/11074 [14:43<1:17:06,  2.02it/s] 15%|█▌        | 1710/11074 [14:44<1:17:09,  2.02it/s] 15%|█▌        | 1711/11074 [14:44<1:17:08,  2.02it/s] 15%|█▌        | 1712/11074 [14:45<1:17:07,  2.02it/s] 15%|█▌        | 1713/11074 [14:45<1:17:10,  2.02it/s] 15%|█▌        | 1714/11074 [14:46<1:17:06,  2.02it/s] 15%|█▌        | 1715/11074 [14:46<1:17:06,  2.02it/s] 15%|█▌        | 1716/11074 [14:47<1:17:08,  2.02it/s] 16%|█▌        | 1717/11074 [14:47<1:17:04,  2.02it/s] 16%|█▌        | 1718/11074 [14:48<1:17:03,  2.02it/s] 16%|█▌        | 1719/11074 [14:48<1:17:02,  2.02it/s] 16%|█▌        | 1720/11074 [14:49<1:17:06,  2.02it/s] 16%|█▌        | 1721/11074 [14:49<1:17:08,  2.02it/s] 16%|█▌        | 1722/11074 [14:50<1:17:05,  2.02it/s] 16%|█▌        | 1723/11074 [14:50<1:17:04,  2.02it/s] 16%|█▌        | 1724/11074 [14:51<1:17:03,  2.02it/s] 16%|█▌        | 1725/11074 [14:51<1:17:01,  2.02it/s]{'loss': 3.9836, 'grad_norm': 0.23847171664237976, 'learning_rate': 0.0009905724510384665, 'epoch': 2.18}
-                                                       16%|█▌        | 1725/11074 [14:51<1:17:01,  2.02it/s] 16%|█▌        | 1726/11074 [14:52<1:17:12,  2.02it/s] 16%|█▌        | 1727/11074 [14:52<1:17:05,  2.02it/s] 16%|█▌        | 1728/11074 [14:53<1:17:03,  2.02it/s] 16%|█▌        | 1729/11074 [14:53<1:17:00,  2.02it/s] 16%|█▌        | 1730/11074 [14:54<1:16:59,  2.02it/s] 16%|█▌        | 1731/11074 [14:54<1:17:01,  2.02it/s] 16%|█▌        | 1732/11074 [14:55<1:16:55,  2.02it/s] 16%|█▌        | 1733/11074 [14:55<1:16:58,  2.02it/s] 16%|█▌        | 1734/11074 [14:56<1:16:55,  2.02it/s] 16%|█▌        | 1735/11074 [14:56<1:16:54,  2.02it/s] 16%|█▌        | 1736/11074 [14:57<1:16:56,  2.02it/s] 16%|█▌        | 1737/11074 [14:57<1:16:53,  2.02it/s] 16%|█▌        | 1738/11074 [14:58<1:16:54,  2.02it/s] 16%|█▌        | 1739/11074 [14:58<1:16:54,  2.02it/s] 16%|█▌        | 1740/11074 [14:59<1:16:53,  2.02it/s] 16%|█▌        | 1741/11074 [14:59<1:16:53,  2.02it/s] 16%|█▌        | 1742/11074 [15:00<1:16:49,  2.02it/s] 16%|█▌        | 1743/11074 [15:00<1:16:54,  2.02it/s] 16%|█▌        | 1744/11074 [15:01<1:16:48,  2.02it/s] 16%|█▌        | 1745/11074 [15:01<1:16:53,  2.02it/s] 16%|█▌        | 1746/11074 [15:02<1:16:50,  2.02it/s] 16%|█▌        | 1747/11074 [15:02<1:16:51,  2.02it/s] 16%|█▌        | 1748/11074 [15:03<1:16:50,  2.02it/s] 16%|█▌        | 1749/11074 [15:03<1:16:51,  2.02it/s] 16%|█▌        | 1750/11074 [15:04<1:16:44,  2.03it/s]{'loss': 3.9863, 'grad_norm': 0.2312663495540619, 'learning_rate': 0.0009897956521317723, 'epoch': 2.21}
-                                                       16%|█▌        | 1750/11074 [15:04<1:16:44,  2.03it/s] 16%|█▌        | 1751/11074 [15:04<1:16:51,  2.02it/s] 16%|█▌        | 1752/11074 [15:05<1:16:44,  2.02it/s] 16%|█▌        | 1753/11074 [15:05<1:16:43,  2.02it/s] 16%|█▌        | 1754/11074 [15:06<1:16:43,  2.02it/s] 16%|█▌        | 1755/11074 [15:06<1:16:43,  2.02it/s] 16%|█▌        | 1756/11074 [15:07<1:16:41,  2.02it/s] 16%|█▌        | 1757/11074 [15:07<1:16:35,  2.03it/s] 16%|█▌        | 1758/11074 [15:08<1:16:40,  2.03it/s] 16%|█▌        | 1759/11074 [15:08<1:16:33,  2.03it/s] 16%|█▌        | 1760/11074 [15:09<1:16:39,  2.02it/s] 16%|█▌        | 1761/11074 [15:09<1:16:34,  2.03it/s] 16%|█▌        | 1762/11074 [15:10<1:16:43,  2.02it/s] 16%|█▌        | 1763/11074 [15:10<1:16:37,  2.03it/s] 16%|█▌        | 1764/11074 [15:11<1:16:43,  2.02it/s] 16%|█▌        | 1765/11074 [15:11<1:16:37,  2.02it/s] 16%|█▌        | 1766/11074 [15:12<1:16:43,  2.02it/s] 16%|█▌        | 1767/11074 [15:12<1:16:35,  2.03it/s] 16%|█▌        | 1768/11074 [15:13<1:16:40,  2.02it/s] 16%|█▌        | 1769/11074 [15:13<1:16:36,  2.02it/s] 16%|█▌        | 1770/11074 [15:14<1:16:34,  2.02it/s] 16%|█▌        | 1771/11074 [15:14<1:16:32,  2.03it/s] 16%|█▌        | 1772/11074 [15:15<1:16:39,  2.02it/s] 16%|█▌        | 1773/11074 [15:15<1:16:38,  2.02it/s] 16%|█▌        | 1774/11074 [15:15<1:16:37,  2.02it/s] 16%|█▌        | 1775/11074 [15:16<1:16:35,  2.02it/s]{'loss': 3.9823, 'grad_norm': 0.2241223007440567, 'learning_rate': 0.0009889884338228861, 'epoch': 2.24}
-                                                       16%|█▌        | 1775/11074 [15:16<1:16:35,  2.02it/s] 16%|█▌        | 1776/11074 [15:16<1:16:42,  2.02it/s] 16%|█▌        | 1777/11074 [15:17<1:16:37,  2.02it/s] 16%|█▌        | 1778/11074 [15:17<1:16:37,  2.02it/s] 16%|█▌        | 1779/11074 [15:18<1:16:34,  2.02it/s] 16%|█▌        | 1780/11074 [15:18<1:16:40,  2.02it/s] 16%|█▌        | 1781/11074 [15:19<1:16:33,  2.02it/s] 16%|█▌        | 1782/11074 [15:19<1:16:31,  2.02it/s] 16%|█▌        | 1783/11074 [15:20<1:16:29,  2.02it/s] 16%|█▌        | 1784/11074 [15:20<1:16:25,  2.03it/s] 16%|█▌        | 1785/11074 [15:21<1:16:26,  2.03it/s] 16%|█▌        | 1786/11074 [15:21<1:16:24,  2.03it/s] 16%|█▌        | 1787/11074 [15:22<1:16:28,  2.02it/s] 16%|█▌        | 1788/11074 [15:22<1:16:26,  2.02it/s] 16%|█▌        | 1789/11074 [15:23<1:16:28,  2.02it/s] 16%|█▌        | 1790/11074 [15:23<1:16:24,  2.03it/s] 16%|█▌        | 1791/11074 [15:24<1:16:30,  2.02it/s] 16%|█▌        | 1792/11074 [15:24<1:16:25,  2.02it/s] 16%|█▌        | 1793/11074 [15:25<1:16:23,  2.03it/s] 16%|█▌        | 1794/11074 [15:25<1:16:23,  2.02it/s] 16%|█▌        | 1795/11074 [15:26<1:16:19,  2.03it/s] 16%|█▌        | 1796/11074 [15:26<1:16:20,  2.03it/s] 16%|█▌        | 1797/11074 [15:27<1:16:13,  2.03it/s] 16%|█▌        | 1798/11074 [15:27<1:16:20,  2.03it/s] 16%|█▌        | 1799/11074 [15:28<1:16:18,  2.03it/s] 16%|█▋        | 1800/11074 [15:28<1:16:20,  2.02it/s]{'loss': 3.9771, 'grad_norm': 0.23391938209533691, 'learning_rate': 0.0009881508462451609, 'epoch': 2.27}                                                      
- 16%|█▋        | 1800/11074 [15:28<1:16:20,  2.02it/s] 16%|█▋        | 1801/11074 [15:29<1:16:21,  2.02it/s] 16%|█▋        | 1802/11074 [15:29<1:16:22,  2.02it/s] 16%|█▋        | 1803/11074 [15:30<1:16:21,  2.02it/s] 16%|█▋        | 1804/11074 [15:30<1:16:20,  2.02it/s] 16%|█▋        | 1805/11074 [15:31<1:16:19,  2.02it/s] 16%|█▋        | 1806/11074 [15:31<1:16:18,  2.02it/s] 16%|█▋        | 1807/11074 [15:32<1:16:20,  2.02it/s] 16%|█▋        | 1808/11074 [15:32<1:16:13,  2.03it/s] 16%|█▋        | 1809/11074 [15:33<1:16:16,  2.02it/s] 16%|█▋        | 1810/11074 [15:33<1:16:16,  2.02it/s] 16%|█▋        | 1811/11074 [15:34<1:16:17,  2.02it/s] 16%|█▋        | 1812/11074 [15:34<1:16:16,  2.02it/s] 16%|█▋        | 1813/11074 [15:35<1:16:17,  2.02it/s] 16%|█▋        | 1814/11074 [15:35<1:16:16,  2.02it/s] 16%|█▋        | 1815/11074 [15:36<1:16:18,  2.02it/s] 16%|█▋        | 1816/11074 [15:36<1:16:17,  2.02it/s] 16%|█▋        | 1817/11074 [15:37<1:16:17,  2.02it/s] 16%|█▋        | 1818/11074 [15:37<1:16:13,  2.02it/s] 16%|█▋        | 1819/11074 [15:38<1:16:14,  2.02it/s] 16%|█▋        | 1820/11074 [15:38<1:16:15,  2.02it/s] 16%|█▋        | 1821/11074 [15:39<1:16:13,  2.02it/s] 16%|█▋        | 1822/11074 [15:39<1:16:17,  2.02it/s] 16%|█▋        | 1823/11074 [15:40<1:16:15,  2.02it/s] 16%|█▋        | 1824/11074 [15:40<1:16:15,  2.02it/s] 16%|█▋        | 1825/11074 [15:41<1:16:10,  2.02it/s]{'loss': 3.9707, 'grad_norm': 0.23363414406776428, 'learning_rate': 0.0009872829414180732, 'epoch': 2.31}
-                                                       16%|█▋        | 1825/11074 [15:41<1:16:10,  2.02it/s] 16%|█▋        | 1826/11074 [15:41<1:16:22,  2.02it/s] 16%|█▋        | 1827/11074 [15:42<1:16:17,  2.02it/s] 17%|█▋        | 1828/11074 [15:42<1:16:14,  2.02it/s] 17%|█▋        | 1829/11074 [15:43<1:16:15,  2.02it/s] 17%|█▋        | 1830/11074 [15:43<1:16:15,  2.02it/s] 17%|█▋        | 1831/11074 [15:44<1:16:14,  2.02it/s] 17%|█▋        | 1832/11074 [15:44<1:16:12,  2.02it/s] 17%|█▋        | 1833/11074 [15:45<1:16:10,  2.02it/s] 17%|█▋        | 1834/11074 [15:45<1:16:10,  2.02it/s] 17%|█▋        | 1835/11074 [15:46<1:16:06,  2.02it/s] 17%|█▋        | 1836/11074 [15:46<1:16:05,  2.02it/s] 17%|█▋        | 1837/11074 [15:47<1:16:07,  2.02it/s] 17%|█▋        | 1838/11074 [15:47<1:16:12,  2.02it/s] 17%|█▋        | 1839/11074 [15:48<1:16:05,  2.02it/s] 17%|█▋        | 1840/11074 [15:48<1:16:06,  2.02it/s] 17%|█▋        | 1841/11074 [15:49<1:16:00,  2.02it/s] 17%|█▋        | 1842/11074 [15:49<1:16:04,  2.02it/s] 17%|█▋        | 1843/11074 [15:50<1:15:55,  2.03it/s] 17%|█▋        | 1844/11074 [15:50<1:15:56,  2.03it/s] 17%|█▋        | 1845/11074 [15:51<1:15:58,  2.02it/s] 17%|█▋        | 1846/11074 [15:51<1:15:58,  2.02it/s] 17%|█▋        | 1847/11074 [15:52<1:16:00,  2.02it/s] 17%|█▋        | 1848/11074 [15:52<1:15:57,  2.02it/s] 17%|█▋        | 1849/11074 [15:53<1:15:59,  2.02it/s] 17%|█▋        | 1850/11074 [15:53<1:15:54,  2.03it/s]                                                      {'loss': 3.9678, 'grad_norm': 0.23738247156143188, 'learning_rate': 0.000986384773243992, 'epoch': 2.34}
- 17%|█▋        | 1850/11074 [15:53<1:15:54,  2.03it/s] 17%|█▋        | 1851/11074 [15:54<1:16:04,  2.02it/s] 17%|█▋        | 1852/11074 [15:54<1:15:59,  2.02it/s] 17%|█▋        | 1853/11074 [15:55<1:16:01,  2.02it/s] 17%|█▋        | 1854/11074 [15:55<1:15:59,  2.02it/s] 17%|█▋        | 1855/11074 [15:56<1:16:00,  2.02it/s] 17%|█▋        | 1856/11074 [15:56<1:16:00,  2.02it/s] 17%|█▋        | 1857/11074 [15:57<1:16:00,  2.02it/s] 17%|█▋        | 1858/11074 [15:57<1:16:00,  2.02it/s] 17%|█▋        | 1859/11074 [15:58<1:16:00,  2.02it/s] 17%|█▋        | 1860/11074 [15:58<1:15:57,  2.02it/s] 17%|█▋        | 1861/11074 [15:58<1:16:01,  2.02it/s] 17%|█▋        | 1862/11074 [15:59<1:15:55,  2.02it/s] 17%|█▋        | 1863/11074 [15:59<1:15:54,  2.02it/s] 17%|█▋        | 1864/11074 [16:00<1:15:55,  2.02it/s] 17%|█▋        | 1865/11074 [16:00<1:15:48,  2.02it/s] 17%|█▋        | 1866/11074 [16:01<1:15:54,  2.02it/s] 17%|█▋        | 1867/11074 [16:01<1:15:47,  2.02it/s] 17%|█▋        | 1868/11074 [16:02<1:15:50,  2.02it/s] 17%|█▋        | 1869/11074 [16:02<1:15:45,  2.02it/s] 17%|█▋        | 1870/11074 [16:03<1:15:46,  2.02it/s] 17%|█▋        | 1871/11074 [16:03<1:15:48,  2.02it/s] 17%|█▋        | 1872/11074 [16:04<1:15:49,  2.02it/s] 17%|█▋        | 1873/11074 [16:04<1:15:52,  2.02it/s] 17%|█▋        | 1874/11074 [16:05<1:22:31,  1.86it/s] 17%|█▋        | 1875/11074 [16:06<1:20:33,  1.90it/s]                                                      {'loss': 3.9604, 'grad_norm': 0.22475285828113556, 'learning_rate': 0.0009854563975048314, 'epoch': 2.37}
- 17%|█▋        | 1875/11074 [16:06<1:20:33,  1.90it/s] 17%|█▋        | 1876/11074 [16:06<1:19:07,  1.94it/s] 17%|█▋        | 1877/11074 [16:07<1:18:08,  1.96it/s] 17%|█▋        | 1878/11074 [16:07<1:17:23,  1.98it/s] 17%|█▋        | 1879/11074 [16:08<1:16:53,  1.99it/s] 17%|█▋        | 1880/11074 [16:08<1:16:32,  2.00it/s] 17%|█▋        | 1881/11074 [16:09<1:16:21,  2.01it/s] 17%|█▋        | 1882/11074 [16:09<1:16:05,  2.01it/s] 17%|█▋        | 1883/11074 [16:10<1:16:02,  2.01it/s] 17%|█▋        | 1884/11074 [16:10<1:15:55,  2.02it/s] 17%|█▋        | 1885/11074 [16:11<1:15:52,  2.02it/s] 17%|█▋        | 1886/11074 [16:11<1:15:47,  2.02it/s] 17%|█▋        | 1887/11074 [16:11<1:15:47,  2.02it/s] 17%|█▋        | 1888/11074 [16:12<1:15:39,  2.02it/s] 17%|█▋        | 1889/11074 [16:12<1:15:42,  2.02it/s] 17%|█▋        | 1890/11074 [16:13<1:15:38,  2.02it/s] 17%|█▋        | 1891/11074 [16:13<1:15:37,  2.02it/s] 17%|█▋        | 1892/11074 [16:14<1:15:36,  2.02it/s] 17%|█▋        | 1893/11074 [16:14<1:15:34,  2.02it/s] 17%|█▋        | 1894/11074 [16:15<1:15:38,  2.02it/s] 17%|█▋        | 1895/11074 [16:15<1:15:34,  2.02it/s] 17%|█▋        | 1896/11074 [16:16<1:15:39,  2.02it/s] 17%|█▋        | 1897/11074 [16:16<1:15:30,  2.03it/s] 17%|█▋        | 1898/11074 [16:17<1:15:30,  2.03it/s] 17%|█▋        | 1899/11074 [16:17<1:15:32,  2.02it/s] 17%|█▋        | 1900/11074 [16:18<1:15:36,  2.02it/s]{'loss': 3.971, 'grad_norm': 0.23110321164131165, 'learning_rate': 0.0009844978718585855, 'epoch': 2.4}
-                                                       17%|█▋        | 1900/11074 [16:18<1:15:36,  2.02it/s] 17%|█▋        | 1901/11074 [16:19<1:22:16,  1.86it/s] 17%|█▋        | 1902/11074 [16:19<1:20:14,  1.91it/s] 17%|█▋        | 1903/11074 [16:20<1:18:47,  1.94it/s] 17%|█▋        | 1904/11074 [16:20<1:17:48,  1.96it/s] 17%|█▋        | 1905/11074 [16:21<1:17:06,  1.98it/s] 17%|█▋        | 1906/11074 [16:21<1:16:38,  1.99it/s] 17%|█▋        | 1907/11074 [16:22<1:16:19,  2.00it/s] 17%|█▋        | 1908/11074 [16:22<1:16:05,  2.01it/s] 17%|█▋        | 1909/11074 [16:23<1:15:52,  2.01it/s] 17%|█▋        | 1910/11074 [16:23<1:15:48,  2.01it/s] 17%|█▋        | 1911/11074 [16:23<1:15:40,  2.02it/s] 17%|█▋        | 1912/11074 [16:24<1:15:42,  2.02it/s] 17%|█▋        | 1913/11074 [16:24<1:15:34,  2.02it/s] 17%|█▋        | 1914/11074 [16:25<1:15:34,  2.02it/s] 17%|█▋        | 1915/11074 [16:25<1:15:26,  2.02it/s] 17%|█▋        | 1916/11074 [16:26<1:15:29,  2.02it/s] 17%|█▋        | 1917/11074 [16:26<1:15:24,  2.02it/s] 17%|█▋        | 1918/11074 [16:27<1:15:29,  2.02it/s] 17%|█▋        | 1919/11074 [16:27<1:15:24,  2.02it/s] 17%|█▋        | 1920/11074 [16:28<1:15:29,  2.02it/s] 17%|█▋        | 1921/11074 [16:28<1:15:24,  2.02it/s] 17%|█▋        | 1922/11074 [16:29<1:15:27,  2.02it/s] 17%|█▋        | 1923/11074 [16:29<1:15:21,  2.02it/s] 17%|█▋        | 1924/11074 [16:30<1:15:23,  2.02it/s] 17%|█▋        | 1925/11074 [16:30<1:15:21,  2.02it/s]{'loss': 3.9524, 'grad_norm': 0.22868122160434723, 'learning_rate': 0.0009835092558357489, 'epoch': 2.43}
-                                                       17%|█▋        | 1925/11074 [16:30<1:15:21,  2.02it/s] 17%|█▋        | 1926/11074 [16:31<1:15:32,  2.02it/s] 17%|█▋        | 1927/11074 [16:31<1:15:23,  2.02it/s] 17%|█▋        | 1928/11074 [16:32<1:15:29,  2.02it/s] 17%|█▋        | 1929/11074 [16:32<1:15:21,  2.02it/s] 17%|█▋        | 1930/11074 [16:33<1:15:24,  2.02it/s] 17%|█▋        | 1931/11074 [16:33<1:15:18,  2.02it/s] 17%|█▋        | 1932/11074 [16:34<1:15:17,  2.02it/s] 17%|█▋        | 1933/11074 [16:34<1:15:22,  2.02it/s] 17%|█▋        | 1934/11074 [16:35<1:15:23,  2.02it/s] 17%|█▋        | 1935/11074 [16:35<1:15:19,  2.02it/s] 17%|█▋        | 1936/11074 [16:36<1:15:17,  2.02it/s] 17%|█▋        | 1937/11074 [16:36<1:15:16,  2.02it/s] 18%|█▊        | 1938/11074 [16:37<1:15:18,  2.02it/s] 18%|█▊        | 1939/11074 [16:37<1:15:19,  2.02it/s] 18%|█▊        | 1940/11074 [16:38<1:15:20,  2.02it/s] 18%|█▊        | 1941/11074 [16:38<1:15:21,  2.02it/s] 18%|█▊        | 1942/11074 [16:39<1:15:21,  2.02it/s] 18%|█▊        | 1943/11074 [16:39<1:15:17,  2.02it/s] 18%|█▊        | 1944/11074 [16:40<1:15:18,  2.02it/s] 18%|█▊        | 1945/11074 [16:40<1:15:16,  2.02it/s] 18%|█▊        | 1946/11074 [16:41<1:15:07,  2.02it/s] 18%|█▊        | 1947/11074 [16:41<1:15:07,  2.02it/s] 18%|█▊        | 1948/11074 [16:42<1:15:04,  2.03it/s] 18%|█▊        | 1949/11074 [16:42<1:15:05,  2.03it/s] 18%|█▊        | 1950/11074 [16:43<1:15:05,  2.03it/s]{'loss': 3.9496, 'grad_norm': 0.2288714498281479, 'learning_rate': 0.0009824906108356173, 'epoch': 2.46}                                                      
- 18%|█▊        | 1950/11074 [16:43<1:15:05,  2.03it/s] 18%|█▊        | 1951/11074 [16:43<1:15:07,  2.02it/s] 18%|█▊        | 1952/11074 [16:44<1:15:09,  2.02it/s] 18%|█▊        | 1953/11074 [16:44<1:15:09,  2.02it/s] 18%|█▊        | 1954/11074 [16:45<1:15:11,  2.02it/s] 18%|█▊        | 1955/11074 [16:45<1:15:10,  2.02it/s] 18%|█▊        | 1956/11074 [16:46<1:15:09,  2.02it/s] 18%|█▊        | 1957/11074 [16:46<1:15:08,  2.02it/s] 18%|█▊        | 1958/11074 [16:47<1:15:06,  2.02it/s] 18%|█▊        | 1959/11074 [16:47<1:15:05,  2.02it/s] 18%|█▊        | 1960/11074 [16:48<1:15:06,  2.02it/s] 18%|█▊        | 1961/11074 [16:48<1:15:05,  2.02it/s] 18%|█▊        | 1962/11074 [16:49<1:15:06,  2.02it/s] 18%|█▊        | 1963/11074 [16:49<1:15:04,  2.02it/s] 18%|█▊        | 1964/11074 [16:50<1:15:05,  2.02it/s] 18%|█▊        | 1965/11074 [16:50<1:15:05,  2.02it/s] 18%|█▊        | 1966/11074 [16:51<1:15:08,  2.02it/s] 18%|█▊        | 1967/11074 [16:51<1:15:06,  2.02it/s] 18%|█▊        | 1968/11074 [16:52<1:15:07,  2.02it/s] 18%|█▊        | 1969/11074 [16:52<1:15:02,  2.02it/s] 18%|█▊        | 1970/11074 [16:53<1:15:00,  2.02it/s] 18%|█▊        | 1971/11074 [16:53<1:15:03,  2.02it/s] 18%|█▊        | 1972/11074 [16:54<1:15:01,  2.02it/s] 18%|█▊        | 1973/11074 [16:54<1:15:00,  2.02it/s] 18%|█▊        | 1974/11074 [16:55<1:15:00,  2.02it/s] 18%|█▊        | 1975/11074 [16:55<1:14:59,  2.02it/s]                                                      {'loss': 3.947, 'grad_norm': 0.23515145480632782, 'learning_rate': 0.0009814420001224766, 'epoch': 2.5}
- 18%|█▊        | 1975/11074 [16:55<1:14:59,  2.02it/s] 18%|█▊        | 1976/11074 [16:56<1:15:03,  2.02it/s] 18%|█▊        | 1977/11074 [16:56<1:15:04,  2.02it/s] 18%|█▊        | 1978/11074 [16:57<1:14:59,  2.02it/s] 18%|█▊        | 1979/11074 [16:57<1:14:52,  2.02it/s] 18%|█▊        | 1980/11074 [16:58<1:14:53,  2.02it/s] 18%|█▊        | 1981/11074 [16:58<1:14:50,  2.02it/s] 18%|█▊        | 1982/11074 [16:59<1:14:55,  2.02it/s] 18%|█▊        | 1983/11074 [16:59<1:14:50,  2.02it/s] 18%|█▊        | 1984/11074 [17:00<1:14:50,  2.02it/s] 18%|█▊        | 1985/11074 [17:00<1:14:47,  2.03it/s] 18%|█▊        | 1986/11074 [17:01<1:14:46,  2.03it/s] 18%|█▊        | 1987/11074 [17:01<1:14:49,  2.02it/s] 18%|█▊        | 1988/11074 [17:02<1:14:54,  2.02it/s] 18%|█▊        | 1989/11074 [17:02<1:14:52,  2.02it/s] 18%|█▊        | 1990/11074 [17:03<1:14:55,  2.02it/s] 18%|█▊        | 1991/11074 [17:03<1:14:52,  2.02it/s] 18%|█▊        | 1992/11074 [17:04<1:14:50,  2.02it/s] 18%|█▊        | 1993/11074 [17:04<1:14:48,  2.02it/s] 18%|█▊        | 1994/11074 [17:05<1:14:46,  2.02it/s] 18%|█▊        | 1995/11074 [17:05<1:14:47,  2.02it/s] 18%|█▊        | 1996/11074 [17:06<1:14:41,  2.03it/s] 18%|█▊        | 1997/11074 [17:06<1:14:45,  2.02it/s] 18%|█▊        | 1998/11074 [17:07<1:14:41,  2.03it/s] 18%|█▊        | 1999/11074 [17:07<1:14:41,  2.02it/s] 18%|█▊        | 2000/11074 [17:08<1:14:41,  2.02it/s]{'loss': 3.944, 'grad_norm': 0.24489326775074005, 'learning_rate': 0.0009803634888216723, 'epoch': 2.53}                                                      
- 18%|█▊        | 2000/11074 [17:08<1:14:41,  2.02it/s] 18%|█▊        | 2001/11074 [17:08<1:14:49,  2.02it/s] 18%|█▊        | 2002/11074 [17:08<1:14:52,  2.02it/s] 18%|█▊        | 2003/11074 [17:09<1:14:46,  2.02it/s] 18%|█▊        | 2004/11074 [17:09<1:14:47,  2.02it/s] 18%|█▊        | 2005/11074 [17:10<1:14:44,  2.02it/s] 18%|█▊        | 2006/11074 [17:10<1:14:45,  2.02it/s] 18%|█▊        | 2007/11074 [17:11<1:14:45,  2.02it/s] 18%|█▊        | 2008/11074 [17:11<1:14:43,  2.02it/s] 18%|█▊        | 2009/11074 [17:12<1:14:48,  2.02it/s] 18%|█▊        | 2010/11074 [17:12<1:14:43,  2.02it/s] 18%|█▊        | 2011/11074 [17:13<1:14:42,  2.02it/s] 18%|█▊        | 2012/11074 [17:13<1:14:36,  2.02it/s] 18%|█▊        | 2013/11074 [17:14<1:14:43,  2.02it/s] 18%|█▊        | 2014/11074 [17:14<1:14:36,  2.02it/s] 18%|█▊        | 2015/11074 [17:15<1:14:36,  2.02it/s] 18%|█▊        | 2016/11074 [17:15<1:14:32,  2.03it/s] 18%|█▊        | 2017/11074 [17:16<1:14:37,  2.02it/s] 18%|█▊        | 2018/11074 [17:16<1:14:38,  2.02it/s] 18%|█▊        | 2019/11074 [17:17<1:14:33,  2.02it/s] 18%|█▊        | 2020/11074 [17:17<1:14:33,  2.02it/s] 18%|█▊        | 2021/11074 [17:18<1:14:32,  2.02it/s] 18%|█▊        | 2022/11074 [17:18<1:14:32,  2.02it/s] 18%|█▊        | 2023/11074 [17:19<1:14:30,  2.02it/s] 18%|█▊        | 2024/11074 [17:19<1:14:35,  2.02it/s] 18%|█▊        | 2025/11074 [17:20<1:14:32,  2.02it/s]                                                      {'loss': 3.9343, 'grad_norm': 0.2201104611158371, 'learning_rate': 0.0009792551439155649, 'epoch': 2.56}
- 18%|█▊        | 2025/11074 [17:20<1:14:32,  2.02it/s] 18%|█▊        | 2026/11074 [17:20<1:14:38,  2.02it/s] 18%|█▊        | 2027/11074 [17:21<1:14:39,  2.02it/s] 18%|█▊        | 2028/11074 [17:21<1:14:36,  2.02it/s] 18%|█▊        | 2029/11074 [17:22<1:14:36,  2.02it/s] 18%|█▊        | 2030/11074 [17:22<1:14:35,  2.02it/s] 18%|█▊        | 2031/11074 [17:23<1:14:34,  2.02it/s] 18%|█▊        | 2032/11074 [17:23<1:14:33,  2.02it/s] 18%|█▊        | 2033/11074 [17:24<1:14:32,  2.02it/s] 18%|█▊        | 2034/11074 [17:24<1:14:32,  2.02it/s] 18%|█▊        | 2035/11074 [17:25<1:14:32,  2.02it/s] 18%|█▊        | 2036/11074 [17:25<1:14:30,  2.02it/s] 18%|█▊        | 2037/11074 [17:26<1:14:25,  2.02it/s] 18%|█▊        | 2038/11074 [17:26<1:14:27,  2.02it/s] 18%|█▊        | 2039/11074 [17:27<1:14:27,  2.02it/s] 18%|█▊        | 2040/11074 [17:27<1:14:25,  2.02it/s] 18%|█▊        | 2041/11074 [17:28<1:14:28,  2.02it/s] 18%|█▊        | 2042/11074 [17:28<1:14:28,  2.02it/s] 18%|█▊        | 2043/11074 [17:29<1:14:26,  2.02it/s] 18%|█▊        | 2044/11074 [17:29<1:14:23,  2.02it/s] 18%|█▊        | 2045/11074 [17:30<1:14:24,  2.02it/s] 18%|█▊        | 2046/11074 [17:30<1:14:24,  2.02it/s] 18%|█▊        | 2047/11074 [17:31<1:14:23,  2.02it/s] 18%|█▊        | 2048/11074 [17:31<1:14:22,  2.02it/s] 19%|█▊        | 2049/11074 [17:32<1:14:24,  2.02it/s] 19%|█▊        | 2050/11074 [17:32<1:14:25,  2.02it/s]{'loss': 3.9365, 'grad_norm': 0.22570429742336273, 'learning_rate': 0.0009781170342393702, 'epoch': 2.59}
-                                                       19%|█▊        | 2050/11074 [17:32<1:14:25,  2.02it/s] 19%|█▊        | 2051/11074 [17:33<1:14:30,  2.02it/s] 19%|█▊        | 2052/11074 [17:33<1:14:23,  2.02it/s] 19%|█▊        | 2053/11074 [17:34<1:14:25,  2.02it/s] 19%|█▊        | 2054/11074 [17:34<1:14:18,  2.02it/s] 19%|█▊        | 2055/11074 [17:35<1:14:26,  2.02it/s] 19%|█▊        | 2056/11074 [17:35<1:14:20,  2.02it/s] 19%|█▊        | 2057/11074 [17:36<1:14:22,  2.02it/s] 19%|█▊        | 2058/11074 [17:36<1:14:22,  2.02it/s] 19%|█▊        | 2059/11074 [17:37<1:14:22,  2.02it/s] 19%|█▊        | 2060/11074 [17:37<1:14:15,  2.02it/s] 19%|█▊        | 2061/11074 [17:38<1:14:19,  2.02it/s] 19%|█▊        | 2062/11074 [17:38<1:14:20,  2.02it/s] 19%|█▊        | 2063/11074 [17:39<1:14:22,  2.02it/s] 19%|█▊        | 2064/11074 [17:39<1:14:17,  2.02it/s] 19%|█▊        | 2065/11074 [17:40<1:14:15,  2.02it/s] 19%|█▊        | 2066/11074 [17:40<1:14:11,  2.02it/s] 19%|█▊        | 2067/11074 [17:41<1:14:10,  2.02it/s] 19%|█▊        | 2068/11074 [17:41<1:14:09,  2.02it/s] 19%|█▊        | 2069/11074 [17:42<1:14:10,  2.02it/s] 19%|█▊        | 2070/11074 [17:42<1:14:11,  2.02it/s] 19%|█▊        | 2071/11074 [17:43<1:14:16,  2.02it/s] 19%|█▊        | 2072/11074 [17:43<1:14:10,  2.02it/s] 19%|█▊        | 2073/11074 [17:44<1:14:13,  2.02it/s] 19%|█▊        | 2074/11074 [17:44<1:14:07,  2.02it/s] 19%|█▊        | 2075/11074 [17:45<1:14:12,  2.02it/s]{'loss': 3.9329, 'grad_norm': 0.24227140843868256, 'learning_rate': 0.0009769492304768843, 'epoch': 2.62}
-                                                       19%|█▊        | 2075/11074 [17:45<1:14:12,  2.02it/s] 19%|█▊        | 2076/11074 [17:45<1:14:12,  2.02it/s] 19%|█▉        | 2077/11074 [17:46<1:14:10,  2.02it/s] 19%|█▉        | 2078/11074 [17:46<1:14:11,  2.02it/s] 19%|█▉        | 2079/11074 [17:47<1:14:10,  2.02it/s] 19%|█▉        | 2080/11074 [17:47<1:14:08,  2.02it/s] 19%|█▉        | 2081/11074 [17:48<1:14:08,  2.02it/s] 19%|█▉        | 2082/11074 [17:48<1:14:11,  2.02it/s] 19%|█▉        | 2083/11074 [17:49<1:14:10,  2.02it/s] 19%|█▉        | 2084/11074 [17:49<1:14:09,  2.02it/s] 19%|█▉        | 2085/11074 [17:50<1:14:06,  2.02it/s] 19%|█▉        | 2086/11074 [17:50<1:14:09,  2.02it/s] 19%|█▉        | 2087/11074 [17:51<1:14:09,  2.02it/s] 19%|█▉        | 2088/11074 [17:51<1:14:06,  2.02it/s] 19%|█▉        | 2089/11074 [17:52<1:14:05,  2.02it/s] 19%|█▉        | 2090/11074 [17:52<1:14:07,  2.02it/s] 19%|█▉        | 2091/11074 [17:53<1:14:04,  2.02it/s] 19%|█▉        | 2092/11074 [17:53<1:14:02,  2.02it/s] 19%|█▉        | 2093/11074 [17:54<1:14:01,  2.02it/s] 19%|█▉        | 2094/11074 [17:54<1:14:05,  2.02it/s] 19%|█▉        | 2095/11074 [17:54<1:14:01,  2.02it/s] 19%|█▉        | 2096/11074 [17:55<1:14:03,  2.02it/s] 19%|█▉        | 2097/11074 [17:55<1:13:59,  2.02it/s] 19%|█▉        | 2098/11074 [17:56<1:14:00,  2.02it/s] 19%|█▉        | 2099/11074 [17:56<1:13:56,  2.02it/s] 19%|█▉        | 2100/11074 [17:57<1:13:58,  2.02it/s]                                                      {'loss': 3.9247, 'grad_norm': 0.21707594394683838, 'learning_rate': 0.0009757518051560935, 'epoch': 2.65}
- 19%|█▉        | 2100/11074 [17:57<1:13:58,  2.02it/s] 19%|█▉        | 2101/11074 [17:57<1:14:01,  2.02it/s] 19%|█▉        | 2102/11074 [17:58<1:14:03,  2.02it/s] 19%|█▉        | 2103/11074 [17:58<1:13:55,  2.02it/s] 19%|█▉        | 2104/11074 [17:59<1:13:55,  2.02it/s] 19%|█▉        | 2105/11074 [17:59<1:13:55,  2.02it/s] 19%|█▉        | 2106/11074 [18:00<1:13:54,  2.02it/s] 19%|█▉        | 2107/11074 [18:00<1:13:51,  2.02it/s] 19%|█▉        | 2108/11074 [18:01<1:13:55,  2.02it/s] 19%|█▉        | 2109/11074 [18:01<1:13:52,  2.02it/s] 19%|█▉        | 2110/11074 [18:02<1:13:58,  2.02it/s] 19%|█▉        | 2111/11074 [18:02<1:13:55,  2.02it/s] 19%|█▉        | 2112/11074 [18:03<1:13:54,  2.02it/s] 19%|█▉        | 2113/11074 [18:03<1:13:52,  2.02it/s] 19%|█▉        | 2114/11074 [18:04<1:13:51,  2.02it/s] 19%|█▉        | 2115/11074 [18:04<1:13:50,  2.02it/s] 19%|█▉        | 2116/11074 [18:05<1:13:48,  2.02it/s] 19%|█▉        | 2117/11074 [18:05<1:13:52,  2.02it/s] 19%|█▉        | 2118/11074 [18:06<1:13:50,  2.02it/s] 19%|█▉        | 2119/11074 [18:06<1:13:47,  2.02it/s] 19%|█▉        | 2120/11074 [18:07<1:13:50,  2.02it/s] 19%|█▉        | 2121/11074 [18:07<1:13:46,  2.02it/s] 19%|█▉        | 2122/11074 [18:08<1:13:49,  2.02it/s] 19%|█▉        | 2123/11074 [18:08<1:13:45,  2.02it/s] 19%|█▉        | 2124/11074 [18:09<1:13:48,  2.02it/s] 19%|█▉        | 2125/11074 [18:09<1:13:47,  2.02it/s]{'loss': 3.9237, 'grad_norm': 0.2161690890789032, 'learning_rate': 0.0009745248326446698, 'epoch': 2.68}
-                                                       19%|█▉        | 2125/11074 [18:09<1:13:47,  2.02it/s] 19%|█▉        | 2126/11074 [18:10<1:13:50,  2.02it/s] 19%|█▉        | 2127/11074 [18:10<1:13:43,  2.02it/s] 19%|█▉        | 2128/11074 [18:11<1:13:48,  2.02it/s] 19%|█▉        | 2129/11074 [18:11<1:13:42,  2.02it/s] 19%|█▉        | 2130/11074 [18:12<1:13:46,  2.02it/s] 19%|█▉        | 2131/11074 [18:12<1:13:42,  2.02it/s] 19%|█▉        | 2132/11074 [18:13<1:13:42,  2.02it/s] 19%|█▉        | 2133/11074 [18:13<1:13:37,  2.02it/s] 19%|█▉        | 2134/11074 [18:14<1:13:42,  2.02it/s] 19%|█▉        | 2135/11074 [18:14<1:13:41,  2.02it/s] 19%|█▉        | 2136/11074 [18:15<1:13:42,  2.02it/s] 19%|█▉        | 2137/11074 [18:15<1:13:43,  2.02it/s] 19%|█▉        | 2138/11074 [18:16<1:13:43,  2.02it/s] 19%|█▉        | 2139/11074 [18:16<1:13:43,  2.02it/s] 19%|█▉        | 2140/11074 [18:17<1:13:42,  2.02it/s] 19%|█▉        | 2141/11074 [18:17<1:13:44,  2.02it/s] 19%|█▉        | 2142/11074 [18:18<1:13:38,  2.02it/s] 19%|█▉        | 2143/11074 [18:18<1:13:40,  2.02it/s] 19%|█▉        | 2144/11074 [18:19<1:13:37,  2.02it/s] 19%|█▉        | 2145/11074 [18:19<1:13:35,  2.02it/s] 19%|█▉        | 2146/11074 [18:20<1:13:36,  2.02it/s] 19%|█▉        | 2147/11074 [18:20<1:13:33,  2.02it/s] 19%|█▉        | 2148/11074 [18:21<1:13:34,  2.02it/s] 19%|█▉        | 2149/11074 [18:21<1:13:30,  2.02it/s] 19%|█▉        | 2150/11074 [18:22<1:13:36,  2.02it/s]{'loss': 3.9197, 'grad_norm': 0.243439182639122, 'learning_rate': 0.0009732683891453527, 'epoch': 2.72}                                                      
- 19%|█▉        | 2150/11074 [18:22<1:13:36,  2.02it/s] 19%|█▉        | 2151/11074 [18:22<1:13:41,  2.02it/s] 19%|█▉        | 2152/11074 [18:23<1:13:40,  2.02it/s] 19%|█▉        | 2153/11074 [18:23<1:13:38,  2.02it/s] 19%|█▉        | 2154/11074 [18:24<1:13:37,  2.02it/s] 19%|█▉        | 2155/11074 [18:24<1:13:32,  2.02it/s] 19%|█▉        | 2156/11074 [18:25<1:13:32,  2.02it/s] 19%|█▉        | 2157/11074 [18:25<1:13:32,  2.02it/s] 19%|█▉        | 2158/11074 [18:26<1:13:31,  2.02it/s] 19%|█▉        | 2159/11074 [18:26<1:13:31,  2.02it/s] 20%|█▉        | 2160/11074 [18:27<1:13:30,  2.02it/s] 20%|█▉        | 2161/11074 [18:27<1:13:30,  2.02it/s] 20%|█▉        | 2162/11074 [18:28<1:13:30,  2.02it/s] 20%|█▉        | 2163/11074 [18:28<1:13:29,  2.02it/s] 20%|█▉        | 2164/11074 [18:29<1:13:26,  2.02it/s] 20%|█▉        | 2165/11074 [18:29<1:13:26,  2.02it/s] 20%|█▉        | 2166/11074 [18:30<1:13:24,  2.02it/s] 20%|█▉        | 2167/11074 [18:30<1:13:28,  2.02it/s] 20%|█▉        | 2168/11074 [18:31<1:13:25,  2.02it/s] 20%|█▉        | 2169/11074 [18:31<1:13:27,  2.02it/s] 20%|█▉        | 2170/11074 [18:32<1:13:23,  2.02it/s] 20%|█▉        | 2171/11074 [18:32<1:13:22,  2.02it/s] 20%|█▉        | 2172/11074 [18:33<1:13:22,  2.02it/s] 20%|█▉        | 2173/11074 [18:33<1:13:19,  2.02it/s] 20%|█▉        | 2174/11074 [18:34<1:13:18,  2.02it/s] 20%|█▉        | 2175/11074 [18:34<1:13:22,  2.02it/s]{'loss': 3.9171, 'grad_norm': 0.21455878019332886, 'learning_rate': 0.0009719825526912152, 'epoch': 2.75}
-                                                       20%|█▉        | 2175/11074 [18:34<1:13:22,  2.02it/s] 20%|█▉        | 2176/11074 [18:35<1:13:25,  2.02it/s] 20%|█▉        | 2177/11074 [18:35<1:13:20,  2.02it/s] 20%|█▉        | 2178/11074 [18:36<1:13:18,  2.02it/s] 20%|█▉        | 2179/11074 [18:36<1:13:13,  2.02it/s] 20%|█▉        | 2180/11074 [18:37<1:13:15,  2.02it/s] 20%|█▉        | 2181/11074 [18:37<1:13:15,  2.02it/s] 20%|█▉        | 2182/11074 [18:38<1:13:18,  2.02it/s] 20%|█▉        | 2183/11074 [18:38<1:13:17,  2.02it/s] 20%|█▉        | 2184/11074 [18:39<1:13:18,  2.02it/s] 20%|█▉        | 2185/11074 [18:39<1:13:14,  2.02it/s] 20%|█▉        | 2186/11074 [18:40<1:13:15,  2.02it/s] 20%|█▉        | 2187/11074 [18:40<1:13:14,  2.02it/s] 20%|█▉        | 2188/11074 [18:41<1:13:17,  2.02it/s] 20%|█▉        | 2189/11074 [18:41<1:13:13,  2.02it/s] 20%|█▉        | 2190/11074 [18:41<1:13:11,  2.02it/s] 20%|█▉        | 2191/11074 [18:42<1:13:14,  2.02it/s] 20%|█▉        | 2192/11074 [18:42<1:13:12,  2.02it/s] 20%|█▉        | 2193/11074 [18:43<1:13:10,  2.02it/s] 20%|█▉        | 2194/11074 [18:43<1:13:11,  2.02it/s] 20%|█▉        | 2195/11074 [18:44<1:13:10,  2.02it/s] 20%|█▉        | 2196/11074 [18:44<1:13:10,  2.02it/s] 20%|█▉        | 2197/11074 [18:45<1:13:08,  2.02it/s] 20%|█▉        | 2198/11074 [18:45<1:13:12,  2.02it/s] 20%|█▉        | 2199/11074 [18:46<1:13:09,  2.02it/s] 20%|█▉        | 2200/11074 [18:46<1:13:10,  2.02it/s]{'loss': 3.9149, 'grad_norm': 0.20793400704860687, 'learning_rate': 0.000970667403140819, 'epoch': 2.78}
-                                                       20%|█▉        | 2200/11074 [18:46<1:13:10,  2.02it/s] 20%|█▉        | 2201/11074 [18:47<1:13:17,  2.02it/s] 20%|█▉        | 2202/11074 [18:47<1:13:11,  2.02it/s] 20%|█▉        | 2203/11074 [18:48<1:13:10,  2.02it/s] 20%|█▉        | 2204/11074 [18:48<1:13:08,  2.02it/s] 20%|█▉        | 2205/11074 [18:49<1:13:07,  2.02it/s] 20%|█▉        | 2206/11074 [18:49<1:13:07,  2.02it/s] 20%|█▉        | 2207/11074 [18:50<1:13:06,  2.02it/s] 20%|█▉        | 2208/11074 [18:50<1:13:05,  2.02it/s] 20%|█▉        | 2209/11074 [18:51<1:13:03,  2.02it/s] 20%|█▉        | 2210/11074 [18:51<1:13:08,  2.02it/s] 20%|█▉        | 2211/11074 [18:52<1:13:10,  2.02it/s] 20%|█▉        | 2212/11074 [18:52<1:13:07,  2.02it/s] 20%|█▉        | 2213/11074 [18:53<1:13:10,  2.02it/s] 20%|█▉        | 2214/11074 [18:53<1:13:06,  2.02it/s] 20%|██        | 2215/11074 [18:54<1:13:06,  2.02it/s] 20%|██        | 2216/11074 [18:54<1:13:01,  2.02it/s] 20%|██        | 2217/11074 [18:55<1:13:00,  2.02it/s] 20%|██        | 2218/11074 [18:55<1:13:01,  2.02it/s] 20%|██        | 2219/11074 [18:56<1:12:59,  2.02it/s] 20%|██        | 2220/11074 [18:56<1:13:00,  2.02it/s] 20%|██        | 2221/11074 [18:57<1:12:57,  2.02it/s] 20%|██        | 2222/11074 [18:57<1:12:57,  2.02it/s] 20%|██        | 2223/11074 [18:58<1:12:55,  2.02it/s] 20%|██        | 2224/11074 [18:58<1:12:56,  2.02it/s] 20%|██        | 2225/11074 [18:59<1:12:54,  2.02it/s]{'loss': 3.9048, 'grad_norm': 0.22691307961940765, 'learning_rate': 0.0009693230221732544, 'epoch': 2.81}                                                      
- 20%|██        | 2225/11074 [18:59<1:12:54,  2.02it/s] 20%|██        | 2226/11074 [18:59<1:13:13,  2.01it/s] 20%|██        | 2227/11074 [19:00<1:13:03,  2.02it/s] 20%|██        | 2228/11074 [19:00<1:13:02,  2.02it/s] 20%|██        | 2229/11074 [19:01<1:12:55,  2.02it/s] 20%|██        | 2230/11074 [19:01<1:12:56,  2.02it/s] 20%|██        | 2231/11074 [19:02<1:12:50,  2.02it/s] 20%|██        | 2232/11074 [19:02<1:12:49,  2.02it/s] 20%|██        | 2233/11074 [19:03<1:12:50,  2.02it/s] 20%|██        | 2234/11074 [19:03<1:12:46,  2.02it/s] 20%|██        | 2235/11074 [19:04<1:12:48,  2.02it/s] 20%|██        | 2236/11074 [19:04<1:12:44,  2.03it/s] 20%|██        | 2237/11074 [19:05<1:12:47,  2.02it/s] 20%|██        | 2238/11074 [19:05<1:12:42,  2.03it/s] 20%|██        | 2239/11074 [19:06<1:12:45,  2.02it/s] 20%|██        | 2240/11074 [19:06<1:12:42,  2.03it/s] 20%|██        | 2241/11074 [19:07<1:12:47,  2.02it/s] 20%|██        | 2242/11074 [19:07<1:12:42,  2.02it/s] 20%|██        | 2243/11074 [19:08<1:12:45,  2.02it/s] 20%|██        | 2244/11074 [19:08<1:12:40,  2.03it/s] 20%|██        | 2245/11074 [19:09<1:12:48,  2.02it/s] 20%|██        | 2246/11074 [19:09<1:12:43,  2.02it/s] 20%|██        | 2247/11074 [19:10<1:12:43,  2.02it/s] 20%|██        | 2248/11074 [19:10<1:12:40,  2.02it/s] 20%|██        | 2249/11074 [19:11<1:12:41,  2.02it/s] 20%|██        | 2250/11074 [19:11<1:12:39,  2.02it/s]                                                      {'loss': 3.9135, 'grad_norm': 0.2231542021036148, 'learning_rate': 0.0009679494932830664, 'epoch': 2.84}
- 20%|██        | 2250/11074 [19:11<1:12:39,  2.02it/s] 20%|██        | 2251/11074 [19:12<1:12:46,  2.02it/s] 20%|██        | 2252/11074 [19:12<1:12:44,  2.02it/s] 20%|██        | 2253/11074 [19:13<1:12:42,  2.02it/s] 20%|██        | 2254/11074 [19:13<1:12:42,  2.02it/s] 20%|██        | 2255/11074 [19:14<1:12:43,  2.02it/s] 20%|██        | 2256/11074 [19:14<1:12:39,  2.02it/s] 20%|██        | 2257/11074 [19:15<1:12:42,  2.02it/s] 20%|██        | 2258/11074 [19:15<1:12:35,  2.02it/s] 20%|██        | 2259/11074 [19:16<1:12:35,  2.02it/s] 20%|██        | 2260/11074 [19:16<1:12:35,  2.02it/s] 20%|██        | 2261/11074 [19:17<1:12:37,  2.02it/s] 20%|██        | 2262/11074 [19:17<1:12:35,  2.02it/s] 20%|██        | 2263/11074 [19:18<1:12:37,  2.02it/s] 20%|██        | 2264/11074 [19:18<1:12:34,  2.02it/s] 20%|██        | 2265/11074 [19:19<1:12:30,  2.02it/s] 20%|██        | 2266/11074 [19:19<1:12:35,  2.02it/s] 20%|██        | 2267/11074 [19:20<1:12:29,  2.02it/s] 20%|██        | 2268/11074 [19:20<1:12:33,  2.02it/s] 20%|██        | 2269/11074 [19:21<1:12:32,  2.02it/s] 20%|██        | 2270/11074 [19:21<1:12:27,  2.03it/s] 21%|██        | 2271/11074 [19:22<1:12:30,  2.02it/s] 21%|██        | 2272/11074 [19:22<1:12:28,  2.02it/s] 21%|██        | 2273/11074 [19:23<1:12:29,  2.02it/s] 21%|██        | 2274/11074 [19:23<1:12:29,  2.02it/s] 21%|██        | 2275/11074 [19:24<1:12:33,  2.02it/s]{'loss': 3.9137, 'grad_norm': 0.2099832147359848, 'learning_rate': 0.0009665469017750707, 'epoch': 2.87}
-                                                       21%|██        | 2275/11074 [19:24<1:12:33,  2.02it/s] 21%|██        | 2276/11074 [19:24<1:12:34,  2.02it/s] 21%|██        | 2277/11074 [19:25<1:12:30,  2.02it/s] 21%|██        | 2278/11074 [19:25<1:12:32,  2.02it/s] 21%|██        | 2279/11074 [19:26<1:12:28,  2.02it/s] 21%|██        | 2280/11074 [19:26<1:12:27,  2.02it/s] 21%|██        | 2281/11074 [19:26<1:12:25,  2.02it/s] 21%|██        | 2282/11074 [19:27<1:12:22,  2.02it/s] 21%|██        | 2283/11074 [19:27<1:12:26,  2.02it/s] 21%|██        | 2284/11074 [19:28<1:12:25,  2.02it/s] 21%|██        | 2285/11074 [19:28<1:12:25,  2.02it/s] 21%|██        | 2286/11074 [19:29<1:12:24,  2.02it/s] 21%|██        | 2287/11074 [19:29<1:12:26,  2.02it/s] 21%|██        | 2288/11074 [19:30<1:12:22,  2.02it/s] 21%|██        | 2289/11074 [19:30<1:12:25,  2.02it/s] 21%|██        | 2290/11074 [19:31<1:12:20,  2.02it/s] 21%|██        | 2291/11074 [19:31<1:12:27,  2.02it/s] 21%|██        | 2292/11074 [19:32<1:12:25,  2.02it/s] 21%|██        | 2293/11074 [19:32<1:12:23,  2.02it/s] 21%|██        | 2294/11074 [19:33<1:12:23,  2.02it/s] 21%|██        | 2295/11074 [19:33<1:12:19,  2.02it/s] 21%|██        | 2296/11074 [19:34<1:12:20,  2.02it/s] 21%|██        | 2297/11074 [19:34<1:12:28,  2.02it/s] 21%|██        | 2298/11074 [19:35<1:12:21,  2.02it/s] 21%|██        | 2299/11074 [19:35<1:12:21,  2.02it/s] 21%|██        | 2300/11074 [19:36<1:12:19,  2.02it/s]                                                      {'loss': 3.8981, 'grad_norm': 0.213436558842659, 'learning_rate': 0.0009651153347590549, 'epoch': 2.91}
- 21%|██        | 2300/11074 [19:36<1:12:19,  2.02it/s] 21%|██        | 2301/11074 [19:36<1:12:26,  2.02it/s] 21%|██        | 2302/11074 [19:37<1:12:22,  2.02it/s] 21%|██        | 2303/11074 [19:37<1:12:21,  2.02it/s] 21%|██        | 2304/11074 [19:38<1:12:17,  2.02it/s] 21%|██        | 2305/11074 [19:38<1:12:18,  2.02it/s] 21%|██        | 2306/11074 [19:39<1:12:12,  2.02it/s] 21%|██        | 2307/11074 [19:39<1:12:17,  2.02it/s] 21%|██        | 2308/11074 [19:40<1:12:12,  2.02it/s] 21%|██        | 2309/11074 [19:40<1:12:13,  2.02it/s] 21%|██        | 2310/11074 [19:41<1:12:11,  2.02it/s] 21%|██        | 2311/11074 [19:41<1:12:11,  2.02it/s] 21%|██        | 2312/11074 [19:42<1:12:08,  2.02it/s] 21%|██        | 2313/11074 [19:42<1:12:16,  2.02it/s] 21%|██        | 2314/11074 [19:43<1:12:08,  2.02it/s] 21%|██        | 2315/11074 [19:43<1:12:13,  2.02it/s] 21%|██        | 2316/11074 [19:44<1:12:07,  2.02it/s] 21%|██        | 2317/11074 [19:44<1:12:09,  2.02it/s] 21%|██        | 2318/11074 [19:45<1:12:06,  2.02it/s] 21%|██        | 2319/11074 [19:45<1:12:09,  2.02it/s] 21%|██        | 2320/11074 [19:46<1:12:04,  2.02it/s] 21%|██        | 2321/11074 [19:46<1:12:13,  2.02it/s] 21%|██        | 2322/11074 [19:47<1:12:07,  2.02it/s] 21%|██        | 2323/11074 [19:47<1:12:10,  2.02it/s] 21%|██        | 2324/11074 [19:48<1:12:03,  2.02it/s] 21%|██        | 2325/11074 [19:48<1:12:06,  2.02it/s]                                                      {'loss': 3.8959, 'grad_norm': 0.22175395488739014, 'learning_rate': 0.0009636548811443685, 'epoch': 2.94}
- 21%|██        | 2325/11074 [19:48<1:12:06,  2.02it/s] 21%|██        | 2326/11074 [19:49<1:12:08,  2.02it/s] 21%|██        | 2327/11074 [19:49<1:12:10,  2.02it/s] 21%|██        | 2328/11074 [19:50<1:12:01,  2.02it/s] 21%|██        | 2329/11074 [19:50<1:12:04,  2.02it/s] 21%|██        | 2330/11074 [19:51<1:11:59,  2.02it/s] 21%|██        | 2331/11074 [19:51<1:11:59,  2.02it/s] 21%|██        | 2332/11074 [19:52<1:11:56,  2.03it/s] 21%|██        | 2333/11074 [19:52<1:12:00,  2.02it/s] 21%|██        | 2334/11074 [19:53<1:11:59,  2.02it/s] 21%|██        | 2335/11074 [19:53<1:11:58,  2.02it/s] 21%|██        | 2336/11074 [19:54<1:11:59,  2.02it/s] 21%|██        | 2337/11074 [19:54<1:11:58,  2.02it/s] 21%|██        | 2338/11074 [19:55<1:11:59,  2.02it/s] 21%|██        | 2339/11074 [19:55<1:11:57,  2.02it/s] 21%|██        | 2340/11074 [19:56<1:12:00,  2.02it/s] 21%|██        | 2341/11074 [19:56<1:12:02,  2.02it/s] 21%|██        | 2342/11074 [19:57<1:11:59,  2.02it/s] 21%|██        | 2343/11074 [19:57<1:11:53,  2.02it/s] 21%|██        | 2344/11074 [19:58<1:11:53,  2.02it/s] 21%|██        | 2345/11074 [19:58<1:11:50,  2.03it/s] 21%|██        | 2346/11074 [19:59<1:11:55,  2.02it/s] 21%|██        | 2347/11074 [19:59<1:11:52,  2.02it/s] 21%|██        | 2348/11074 [20:00<1:11:54,  2.02it/s] 21%|██        | 2349/11074 [20:00<1:11:51,  2.02it/s] 21%|██        | 2350/11074 [20:01<1:11:55,  2.02it/s]{'loss': 3.8943, 'grad_norm': 0.2159530520439148, 'learning_rate': 0.0009621656316344011, 'epoch': 2.97}                                                      
- 21%|██        | 2350/11074 [20:01<1:11:55,  2.02it/s] 21%|██        | 2351/11074 [20:01<1:11:53,  2.02it/s] 21%|██        | 2352/11074 [20:02<1:11:56,  2.02it/s] 21%|██        | 2353/11074 [20:02<1:11:49,  2.02it/s] 21%|██▏       | 2354/11074 [20:03<1:11:52,  2.02it/s] 21%|██▏       | 2355/11074 [20:03<1:11:52,  2.02it/s] 21%|██▏       | 2356/11074 [20:04<1:11:58,  2.02it/s] 21%|██▏       | 2357/11074 [20:04<1:11:53,  2.02it/s] 21%|██▏       | 2358/11074 [20:05<1:11:52,  2.02it/s] 21%|██▏       | 2359/11074 [20:05<1:11:48,  2.02it/s] 21%|██▏       | 2360/11074 [20:06<1:11:45,  2.02it/s] 21%|██▏       | 2361/11074 [20:06<1:11:48,  2.02it/s] 21%|██▏       | 2362/11074 [20:07<1:11:55,  2.02it/s] 21%|██▏       | 2363/11074 [20:07<1:11:52,  2.02it/s] 21%|██▏       | 2364/11074 [20:08<1:11:52,  2.02it/s] 21%|██▏       | 2365/11074 [20:08<1:11:47,  2.02it/s] 21%|██▏       | 2366/11074 [20:09<1:11:47,  2.02it/s] 21%|██▏       | 2367/11074 [20:09<1:11:45,  2.02it/s] 21%|██▏       | 2368/11074 [20:10<1:11:42,  2.02it/s] 21%|██▏       | 2369/11074 [20:10<1:11:44,  2.02it/s] 21%|██▏       | 2370/11074 [20:11<1:11:36,  2.03it/s] 21%|██▏       | 2371/11074 [20:11<1:11:42,  2.02it/s] 21%|██▏       | 2372/11074 [20:11<1:11:40,  2.02it/s] 21%|██▏       | 2373/11074 [20:12<1:11:47,  2.02it/s] 21%|██▏       | 2374/11074 [20:13<1:13:42,  1.97it/s] 21%|██▏       | 2375/11074 [20:24<9:31:52,  3.94s/it]                                                      {'loss': 3.8866, 'grad_norm': 0.21410486102104187, 'learning_rate': 0.0009606476787209493, 'epoch': 3.0}
- 21%|██▏       | 2375/11074 [20:24<9:31:52,  3.94s/it] 21%|██▏       | 2376/11074 [20:25<7:02:13,  2.91s/it] 21%|██▏       | 2377/11074 [20:25<5:17:14,  2.19s/it] 21%|██▏       | 2378/11074 [20:26<4:03:32,  1.68s/it] 21%|██▏       | 2379/11074 [20:26<3:12:03,  1.33s/it] 21%|██▏       | 2380/11074 [20:27<2:35:54,  1.08s/it] 22%|██▏       | 2381/11074 [20:27<2:10:34,  1.11it/s] 22%|██▏       | 2382/11074 [20:28<1:52:54,  1.28it/s] 22%|██▏       | 2383/11074 [20:28<1:40:32,  1.44it/s] 22%|██▏       | 2384/11074 [20:29<1:32:02,  1.57it/s] 22%|██▏       | 2385/11074 [20:29<1:26:02,  1.68it/s] 22%|██▏       | 2386/11074 [20:30<1:21:50,  1.77it/s] 22%|██▏       | 2387/11074 [20:30<1:18:44,  1.84it/s] 22%|██▏       | 2388/11074 [20:31<1:16:46,  1.89it/s] 22%|██▏       | 2389/11074 [20:31<1:15:07,  1.93it/s] 22%|██▏       | 2390/11074 [20:32<1:14:11,  1.95it/s] 22%|██▏       | 2391/11074 [20:32<1:13:18,  1.97it/s] 22%|██▏       | 2392/11074 [20:33<1:12:46,  1.99it/s] 22%|██▏       | 2393/11074 [20:33<1:12:23,  2.00it/s] 22%|██▏       | 2394/11074 [20:34<1:12:18,  2.00it/s] 22%|██▏       | 2395/11074 [20:34<1:12:07,  2.01it/s] 22%|██▏       | 2396/11074 [20:35<1:11:56,  2.01it/s] 22%|██▏       | 2397/11074 [20:35<1:11:48,  2.01it/s] 22%|██▏       | 2398/11074 [20:36<1:11:41,  2.02it/s] 22%|██▏       | 2399/11074 [20:36<1:11:40,  2.02it/s] 22%|██▏       | 2400/11074 [20:37<1:11:39,  2.02it/s]                                                      {'loss': 3.7633, 'grad_norm': 0.21043726801872253, 'learning_rate': 0.000959101116678472, 'epoch': 3.03}
- 22%|██▏       | 2400/11074 [20:37<1:11:39,  2.02it/s] 22%|██▏       | 2401/11074 [20:37<1:11:58,  2.01it/s] 22%|██▏       | 2402/11074 [20:38<1:11:51,  2.01it/s] 22%|██▏       | 2403/11074 [20:38<1:11:49,  2.01it/s] 22%|██▏       | 2404/11074 [20:39<1:11:42,  2.01it/s] 22%|██▏       | 2405/11074 [20:39<1:11:33,  2.02it/s] 22%|██▏       | 2406/11074 [20:40<1:11:33,  2.02it/s] 22%|██▏       | 2407/11074 [20:40<1:11:25,  2.02it/s] 22%|██▏       | 2408/11074 [20:41<1:11:22,  2.02it/s] 22%|██▏       | 2409/11074 [20:41<1:11:21,  2.02it/s] 22%|██▏       | 2410/11074 [20:42<1:11:23,  2.02it/s] 22%|██▏       | 2411/11074 [20:42<1:11:23,  2.02it/s] 22%|██▏       | 2412/11074 [20:43<1:11:21,  2.02it/s] 22%|██▏       | 2413/11074 [20:43<1:11:20,  2.02it/s] 22%|██▏       | 2414/11074 [20:44<1:11:22,  2.02it/s] 22%|██▏       | 2415/11074 [20:44<1:11:19,  2.02it/s] 22%|██▏       | 2416/11074 [20:45<1:11:19,  2.02it/s] 22%|██▏       | 2417/11074 [20:45<1:11:17,  2.02it/s] 22%|██▏       | 2418/11074 [20:46<1:11:20,  2.02it/s] 22%|██▏       | 2419/11074 [20:46<1:11:18,  2.02it/s] 22%|██▏       | 2420/11074 [20:47<1:11:18,  2.02it/s] 22%|██▏       | 2421/11074 [20:47<1:11:20,  2.02it/s] 22%|██▏       | 2422/11074 [20:48<1:11:18,  2.02it/s] 22%|██▏       | 2423/11074 [20:48<1:11:18,  2.02it/s] 22%|██▏       | 2424/11074 [20:49<1:11:17,  2.02it/s] 22%|██▏       | 2425/11074 [20:49<1:11:17,  2.02it/s]                                                      {'loss': 3.7598, 'grad_norm': 0.215725377202034, 'learning_rate': 0.0009575260415582361, 'epoch': 3.06}
- 22%|██▏       | 2425/11074 [20:49<1:11:17,  2.02it/s] 22%|██▏       | 2426/11074 [20:50<1:11:21,  2.02it/s] 22%|██▏       | 2427/11074 [20:50<1:11:22,  2.02it/s] 22%|██▏       | 2428/11074 [20:51<1:11:20,  2.02it/s] 22%|██▏       | 2429/11074 [20:51<1:11:15,  2.02it/s] 22%|██▏       | 2430/11074 [20:52<1:11:15,  2.02it/s] 22%|██▏       | 2431/11074 [20:52<1:11:13,  2.02it/s] 22%|██▏       | 2432/11074 [20:53<1:11:13,  2.02it/s] 22%|██▏       | 2433/11074 [20:53<1:11:12,  2.02it/s] 22%|██▏       | 2434/11074 [20:54<1:11:13,  2.02it/s] 22%|██▏       | 2435/11074 [20:54<1:11:13,  2.02it/s] 22%|██▏       | 2436/11074 [20:55<1:11:15,  2.02it/s] 22%|██▏       | 2437/11074 [20:55<1:11:13,  2.02it/s] 22%|██▏       | 2438/11074 [20:56<1:11:13,  2.02it/s] 22%|██▏       | 2439/11074 [20:56<1:11:12,  2.02it/s] 22%|██▏       | 2440/11074 [20:57<1:11:12,  2.02it/s] 22%|██▏       | 2441/11074 [20:57<1:11:08,  2.02it/s] 22%|██▏       | 2442/11074 [20:58<1:11:09,  2.02it/s] 22%|██▏       | 2443/11074 [20:58<1:11:07,  2.02it/s] 22%|██▏       | 2444/11074 [20:59<1:11:09,  2.02it/s] 22%|██▏       | 2445/11074 [20:59<1:11:08,  2.02it/s] 22%|██▏       | 2446/11074 [21:00<1:11:09,  2.02it/s] 22%|██▏       | 2447/11074 [21:00<1:11:07,  2.02it/s] 22%|██▏       | 2448/11074 [21:01<1:11:04,  2.02it/s] 22%|██▏       | 2449/11074 [21:01<1:11:04,  2.02it/s] 22%|██▏       | 2450/11074 [21:02<1:11:06,  2.02it/s]                                                      {'loss': 3.7695, 'grad_norm': 0.21585698425769806, 'learning_rate': 0.0009559225511823504, 'epoch': 3.1}
- 22%|██▏       | 2450/11074 [21:02<1:11:06,  2.02it/s] 22%|██▏       | 2451/11074 [21:02<1:11:14,  2.02it/s] 22%|██▏       | 2452/11074 [21:03<1:11:08,  2.02it/s] 22%|██▏       | 2453/11074 [21:03<1:11:06,  2.02it/s] 22%|██▏       | 2454/11074 [21:04<1:11:03,  2.02it/s] 22%|██▏       | 2455/11074 [21:04<1:11:05,  2.02it/s] 22%|██▏       | 2456/11074 [21:05<1:11:04,  2.02it/s] 22%|██▏       | 2457/11074 [21:05<1:11:06,  2.02it/s] 22%|██▏       | 2458/11074 [21:06<1:11:04,  2.02it/s] 22%|██▏       | 2459/11074 [21:06<1:11:03,  2.02it/s] 22%|██▏       | 2460/11074 [21:07<1:11:00,  2.02it/s] 22%|██▏       | 2461/11074 [21:07<1:10:58,  2.02it/s] 22%|██▏       | 2462/11074 [21:08<1:10:58,  2.02it/s] 22%|██▏       | 2463/11074 [21:08<1:10:57,  2.02it/s] 22%|██▏       | 2464/11074 [21:09<1:10:55,  2.02it/s] 22%|██▏       | 2465/11074 [21:09<1:10:57,  2.02it/s] 22%|██▏       | 2466/11074 [21:10<1:10:59,  2.02it/s] 22%|██▏       | 2467/11074 [21:10<1:10:58,  2.02it/s] 22%|██▏       | 2468/11074 [21:11<1:10:57,  2.02it/s] 22%|██▏       | 2469/11074 [21:11<1:10:57,  2.02it/s] 22%|██▏       | 2470/11074 [21:12<1:10:53,  2.02it/s] 22%|██▏       | 2471/11074 [21:12<1:10:54,  2.02it/s] 22%|██▏       | 2472/11074 [21:13<1:10:47,  2.03it/s] 22%|██▏       | 2473/11074 [21:13<1:10:53,  2.02it/s] 22%|██▏       | 2474/11074 [21:13<1:10:47,  2.02it/s] 22%|██▏       | 2475/11074 [21:14<1:10:49,  2.02it/s]{'loss': 3.7681, 'grad_norm': 0.22273629903793335, 'learning_rate': 0.0009542907451376904, 'epoch': 3.13}
-                                                       22%|██▏       | 2475/11074 [21:14<1:10:49,  2.02it/s] 22%|██▏       | 2476/11074 [21:14<1:10:52,  2.02it/s] 22%|██▏       | 2477/11074 [21:15<1:10:52,  2.02it/s] 22%|██▏       | 2478/11074 [21:15<1:10:50,  2.02it/s] 22%|██▏       | 2479/11074 [21:16<1:10:50,  2.02it/s] 22%|██▏       | 2480/11074 [21:16<1:10:47,  2.02it/s] 22%|██▏       | 2481/11074 [21:17<1:10:48,  2.02it/s] 22%|██▏       | 2482/11074 [21:17<1:10:44,  2.02it/s] 22%|██▏       | 2483/11074 [21:18<1:10:44,  2.02it/s] 22%|██▏       | 2484/11074 [21:18<1:10:44,  2.02it/s] 22%|██▏       | 2485/11074 [21:19<1:10:49,  2.02it/s] 22%|██▏       | 2486/11074 [21:19<1:10:45,  2.02it/s] 22%|██▏       | 2487/11074 [21:20<1:10:46,  2.02it/s] 22%|██▏       | 2488/11074 [21:20<1:10:44,  2.02it/s] 22%|██▏       | 2489/11074 [21:21<1:10:45,  2.02it/s] 22%|██▏       | 2490/11074 [21:21<1:10:42,  2.02it/s] 22%|██▏       | 2491/11074 [21:22<1:10:46,  2.02it/s] 23%|██▎       | 2492/11074 [21:22<1:10:45,  2.02it/s] 23%|██▎       | 2493/11074 [21:23<1:10:42,  2.02it/s] 23%|██▎       | 2494/11074 [21:23<1:10:40,  2.02it/s] 23%|██▎       | 2495/11074 [21:24<1:10:37,  2.02it/s] 23%|██▎       | 2496/11074 [21:24<1:10:40,  2.02it/s] 23%|██▎       | 2497/11074 [21:25<1:10:35,  2.03it/s] 23%|██▎       | 2498/11074 [21:25<1:10:39,  2.02it/s] 23%|██▎       | 2499/11074 [21:26<1:10:33,  2.03it/s] 23%|██▎       | 2500/11074 [21:26<1:10:36,  2.02it/s]{'loss': 3.7779, 'grad_norm': 0.23203428089618683, 'learning_rate': 0.0009526307247697132, 'epoch': 3.16}
-                                                       23%|██▎       | 2500/11074 [21:26<1:10:36,  2.02it/s] 23%|██▎       | 2501/11074 [21:27<1:10:38,  2.02it/s] 23%|██▎       | 2502/11074 [21:27<1:10:40,  2.02it/s] 23%|██▎       | 2503/11074 [21:28<1:10:41,  2.02it/s] 23%|██▎       | 2504/11074 [21:28<1:10:38,  2.02it/s] 23%|██▎       | 2505/11074 [21:29<1:10:34,  2.02it/s] 23%|██▎       | 2506/11074 [21:29<1:10:40,  2.02it/s] 23%|██▎       | 2507/11074 [21:30<1:10:40,  2.02it/s] 23%|██▎       | 2508/11074 [21:30<1:10:42,  2.02it/s] 23%|██▎       | 2509/11074 [21:31<1:10:37,  2.02it/s] 23%|██▎       | 2510/11074 [21:31<1:16:52,  1.86it/s] 23%|██▎       | 2511/11074 [21:32<1:15:00,  1.90it/s] 23%|██▎       | 2512/11074 [21:32<1:13:40,  1.94it/s] 23%|██▎       | 2513/11074 [21:33<1:12:40,  1.96it/s] 23%|██▎       | 2514/11074 [21:33<1:12:02,  1.98it/s] 23%|██▎       | 2515/11074 [21:34<1:11:33,  1.99it/s] 23%|██▎       | 2516/11074 [21:34<1:11:16,  2.00it/s] 23%|██▎       | 2517/11074 [21:35<1:11:02,  2.01it/s] 23%|██▎       | 2518/11074 [21:35<1:10:53,  2.01it/s] 23%|██▎       | 2519/11074 [21:36<1:10:47,  2.01it/s] 23%|██▎       | 2520/11074 [21:36<1:10:35,  2.02it/s] 23%|██▎       | 2521/11074 [21:37<1:10:35,  2.02it/s] 23%|██▎       | 2522/11074 [21:37<1:10:28,  2.02it/s] 23%|██▎       | 2523/11074 [21:38<1:10:29,  2.02it/s] 23%|██▎       | 2524/11074 [21:38<1:10:25,  2.02it/s] 23%|██▎       | 2525/11074 [21:39<1:10:23,  2.02it/s]{'loss': 3.7784, 'grad_norm': 0.2249036282300949, 'learning_rate': 0.000950942593176164, 'epoch': 3.19}                                                      
- 23%|██▎       | 2525/11074 [21:39<1:10:23,  2.02it/s] 23%|██▎       | 2526/11074 [21:39<1:10:28,  2.02it/s] 23%|██▎       | 2527/11074 [21:40<1:10:28,  2.02it/s] 23%|██▎       | 2528/11074 [21:40<1:10:30,  2.02it/s] 23%|██▎       | 2529/11074 [21:41<1:10:30,  2.02it/s] 23%|██▎       | 2530/11074 [21:41<1:10:28,  2.02it/s] 23%|██▎       | 2531/11074 [21:42<1:10:27,  2.02it/s] 23%|██▎       | 2532/11074 [21:42<1:10:25,  2.02it/s] 23%|██▎       | 2533/11074 [21:43<1:10:22,  2.02it/s] 23%|██▎       | 2534/11074 [21:43<1:10:18,  2.02it/s] 23%|██▎       | 2535/11074 [21:44<1:10:19,  2.02it/s] 23%|██▎       | 2536/11074 [21:44<1:10:13,  2.03it/s] 23%|██▎       | 2537/11074 [21:45<1:10:19,  2.02it/s] 23%|██▎       | 2538/11074 [21:45<1:10:15,  2.03it/s] 23%|██▎       | 2539/11074 [21:46<1:10:19,  2.02it/s] 23%|██▎       | 2540/11074 [21:46<1:10:17,  2.02it/s] 23%|██▎       | 2541/11074 [21:47<1:10:19,  2.02it/s] 23%|██▎       | 2542/11074 [21:47<1:10:15,  2.02it/s] 23%|██▎       | 2543/11074 [21:48<1:16:22,  1.86it/s] 23%|██▎       | 2544/11074 [21:48<1:14:30,  1.91it/s] 23%|██▎       | 2545/11074 [21:49<1:13:10,  1.94it/s] 23%|██▎       | 2546/11074 [21:49<1:12:23,  1.96it/s] 23%|██▎       | 2547/11074 [21:50<1:11:39,  1.98it/s] 23%|██▎       | 2548/11074 [21:50<1:11:13,  2.00it/s] 23%|██▎       | 2549/11074 [21:51<1:10:48,  2.01it/s] 23%|██▎       | 2550/11074 [21:51<1:10:48,  2.01it/s]{'loss': 3.7839, 'grad_norm': 0.2157004177570343, 'learning_rate': 0.0009492264552006725, 'epoch': 3.22}                                                      
- 23%|██▎       | 2550/11074 [21:51<1:10:48,  2.01it/s] 23%|██▎       | 2551/11074 [21:52<1:10:40,  2.01it/s] 23%|██▎       | 2552/11074 [21:52<1:10:32,  2.01it/s] 23%|██▎       | 2553/11074 [21:53<1:10:25,  2.02it/s] 23%|██▎       | 2554/11074 [21:53<1:10:27,  2.02it/s] 23%|██▎       | 2555/11074 [21:54<1:10:24,  2.02it/s] 23%|██▎       | 2556/11074 [21:54<1:10:19,  2.02it/s] 23%|██▎       | 2557/11074 [21:55<1:10:11,  2.02it/s] 23%|██▎       | 2558/11074 [21:55<1:10:12,  2.02it/s] 23%|██▎       | 2559/11074 [21:56<1:10:07,  2.02it/s] 23%|██▎       | 2560/11074 [21:56<1:10:10,  2.02it/s] 23%|██▎       | 2561/11074 [21:57<1:10:07,  2.02it/s] 23%|██▎       | 2562/11074 [21:57<1:10:06,  2.02it/s] 23%|██▎       | 2563/11074 [21:58<1:10:01,  2.03it/s] 23%|██▎       | 2564/11074 [21:58<1:10:05,  2.02it/s] 23%|██▎       | 2565/11074 [21:59<1:10:01,  2.03it/s] 23%|██▎       | 2566/11074 [21:59<1:10:04,  2.02it/s] 23%|██▎       | 2567/11074 [22:00<1:10:00,  2.03it/s] 23%|██▎       | 2568/11074 [22:00<1:10:01,  2.02it/s] 23%|██▎       | 2569/11074 [22:01<1:09:58,  2.03it/s] 23%|██▎       | 2570/11074 [22:01<1:09:58,  2.03it/s] 23%|██▎       | 2571/11074 [22:02<1:10:00,  2.02it/s] 23%|██▎       | 2572/11074 [22:02<1:10:02,  2.02it/s] 23%|██▎       | 2573/11074 [22:03<1:10:00,  2.02it/s] 23%|██▎       | 2574/11074 [22:03<1:10:02,  2.02it/s] 23%|██▎       | 2575/11074 [22:04<1:09:59,  2.02it/s]                                                      {'loss': 3.7851, 'grad_norm': 0.2159939855337143, 'learning_rate': 0.0009474824174262409, 'epoch': 3.25}
- 23%|██▎       | 2575/11074 [22:04<1:09:59,  2.02it/s] 23%|██▎       | 2576/11074 [22:04<1:10:03,  2.02it/s] 23%|██▎       | 2577/11074 [22:05<1:10:01,  2.02it/s] 23%|██▎       | 2578/11074 [22:05<1:09:59,  2.02it/s] 23%|██▎       | 2579/11074 [22:06<1:09:59,  2.02it/s] 23%|██▎       | 2580/11074 [22:06<1:09:55,  2.02it/s] 23%|██▎       | 2581/11074 [22:07<1:09:58,  2.02it/s] 23%|██▎       | 2582/11074 [22:07<1:09:53,  2.03it/s] 23%|██▎       | 2583/11074 [22:08<1:09:55,  2.02it/s] 23%|██▎       | 2584/11074 [22:08<1:09:51,  2.03it/s] 23%|██▎       | 2585/11074 [22:09<1:09:53,  2.02it/s] 23%|██▎       | 2586/11074 [22:09<1:09:51,  2.03it/s] 23%|██▎       | 2587/11074 [22:10<1:09:54,  2.02it/s] 23%|██▎       | 2588/11074 [22:10<1:09:51,  2.02it/s] 23%|██▎       | 2589/11074 [22:11<1:09:58,  2.02it/s] 23%|██▎       | 2590/11074 [22:11<1:09:54,  2.02it/s] 23%|██▎       | 2591/11074 [22:12<1:09:59,  2.02it/s] 23%|██▎       | 2592/11074 [22:12<1:09:53,  2.02it/s] 23%|██▎       | 2593/11074 [22:13<1:09:56,  2.02it/s] 23%|██▎       | 2594/11074 [22:13<1:09:50,  2.02it/s] 23%|██▎       | 2595/11074 [22:14<1:09:50,  2.02it/s] 23%|██▎       | 2596/11074 [22:14<1:09:49,  2.02it/s] 23%|██▎       | 2597/11074 [22:15<1:09:46,  2.03it/s] 23%|██▎       | 2598/11074 [22:15<1:09:49,  2.02it/s] 23%|██▎       | 2599/11074 [22:16<1:09:44,  2.03it/s] 23%|██▎       | 2600/11074 [22:16<1:09:47,  2.02it/s]{'loss': 3.7831, 'grad_norm': 0.21955661475658417, 'learning_rate': 0.0009457105881686259, 'epoch': 3.28}
-                                                       23%|██▎       | 2600/11074 [22:16<1:09:47,  2.02it/s] 23%|██▎       | 2601/11074 [22:17<1:09:51,  2.02it/s] 23%|██▎       | 2602/11074 [22:17<1:09:55,  2.02it/s] 24%|██▎       | 2603/11074 [22:18<1:09:49,  2.02it/s] 24%|██▎       | 2604/11074 [22:18<1:09:51,  2.02it/s] 24%|██▎       | 2605/11074 [22:19<1:09:48,  2.02it/s] 24%|██▎       | 2606/11074 [22:19<1:09:48,  2.02it/s] 24%|██▎       | 2607/11074 [22:20<1:09:42,  2.02it/s] 24%|██▎       | 2608/11074 [22:20<1:09:45,  2.02it/s] 24%|██▎       | 2609/11074 [22:21<1:09:44,  2.02it/s] 24%|██▎       | 2610/11074 [22:21<1:09:43,  2.02it/s] 24%|██▎       | 2611/11074 [22:22<1:09:46,  2.02it/s] 24%|██▎       | 2612/11074 [22:22<1:09:48,  2.02it/s] 24%|██▎       | 2613/11074 [22:23<1:09:47,  2.02it/s] 24%|██▎       | 2614/11074 [22:23<1:09:50,  2.02it/s] 24%|██▎       | 2615/11074 [22:23<1:09:46,  2.02it/s] 24%|██▎       | 2616/11074 [22:24<1:09:44,  2.02it/s] 24%|██▎       | 2617/11074 [22:24<1:09:43,  2.02it/s] 24%|██▎       | 2618/11074 [22:25<1:09:43,  2.02it/s] 24%|██▎       | 2619/11074 [22:25<1:09:42,  2.02it/s] 24%|██▎       | 2620/11074 [22:26<1:09:41,  2.02it/s] 24%|██▎       | 2621/11074 [22:26<1:09:40,  2.02it/s] 24%|██▎       | 2622/11074 [22:27<1:09:39,  2.02it/s] 24%|██▎       | 2623/11074 [22:27<1:09:38,  2.02it/s] 24%|██▎       | 2624/11074 [22:28<1:09:40,  2.02it/s] 24%|██▎       | 2625/11074 [22:28<1:09:38,  2.02it/s]                                                      {'loss': 3.7798, 'grad_norm': 0.22922898828983307, 'learning_rate': 0.00094391107746961, 'epoch': 3.32}
- 24%|██▎       | 2625/11074 [22:28<1:09:38,  2.02it/s] 24%|██▎       | 2626/11074 [22:29<1:09:41,  2.02it/s] 24%|██▎       | 2627/11074 [22:29<1:09:39,  2.02it/s] 24%|██▎       | 2628/11074 [22:30<1:09:39,  2.02it/s] 24%|██▎       | 2629/11074 [22:30<1:09:39,  2.02it/s] 24%|██▎       | 2630/11074 [22:31<1:09:39,  2.02it/s] 24%|██▍       | 2631/11074 [22:31<1:09:39,  2.02it/s] 24%|██▍       | 2632/11074 [22:32<1:09:38,  2.02it/s] 24%|██▍       | 2633/11074 [22:32<1:09:37,  2.02it/s] 24%|██▍       | 2634/11074 [22:33<1:09:35,  2.02it/s] 24%|██▍       | 2635/11074 [22:33<1:09:31,  2.02it/s] 24%|██▍       | 2636/11074 [22:34<1:09:32,  2.02it/s] 24%|██▍       | 2637/11074 [22:34<1:09:31,  2.02it/s] 24%|██▍       | 2638/11074 [22:35<1:09:27,  2.02it/s] 24%|██▍       | 2639/11074 [22:35<1:09:29,  2.02it/s] 24%|██▍       | 2640/11074 [22:36<1:09:29,  2.02it/s] 24%|██▍       | 2641/11074 [22:36<1:09:31,  2.02it/s] 24%|██▍       | 2642/11074 [22:37<1:09:30,  2.02it/s] 24%|██▍       | 2643/11074 [22:37<1:09:32,  2.02it/s] 24%|██▍       | 2644/11074 [22:38<1:09:29,  2.02it/s] 24%|██▍       | 2645/11074 [22:38<1:09:32,  2.02it/s] 24%|██▍       | 2646/11074 [22:39<1:09:28,  2.02it/s] 24%|██▍       | 2647/11074 [22:39<1:09:27,  2.02it/s] 24%|██▍       | 2648/11074 [22:40<1:09:28,  2.02it/s] 24%|██▍       | 2649/11074 [22:40<1:09:24,  2.02it/s] 24%|██▍       | 2650/11074 [22:41<1:09:25,  2.02it/s]{'loss': 3.7797, 'grad_norm': 0.2167922705411911, 'learning_rate': 0.0009420839970901689, 'epoch': 3.35}                                                      
- 24%|██▍       | 2650/11074 [22:41<1:09:25,  2.02it/s] 24%|██▍       | 2651/11074 [22:41<1:09:33,  2.02it/s] 24%|██▍       | 2652/11074 [22:42<1:09:28,  2.02it/s] 24%|██▍       | 2653/11074 [22:42<1:09:28,  2.02it/s] 24%|██▍       | 2654/11074 [22:43<1:09:23,  2.02it/s] 24%|██▍       | 2655/11074 [22:43<1:09:22,  2.02it/s] 24%|██▍       | 2656/11074 [22:44<1:09:25,  2.02it/s] 24%|██▍       | 2657/11074 [22:44<1:09:26,  2.02it/s] 24%|██▍       | 2658/11074 [22:45<1:09:26,  2.02it/s] 24%|██▍       | 2659/11074 [22:45<1:09:29,  2.02it/s] 24%|██▍       | 2660/11074 [22:46<1:09:27,  2.02it/s] 24%|██▍       | 2661/11074 [22:46<1:09:27,  2.02it/s] 24%|██▍       | 2662/11074 [22:47<1:09:27,  2.02it/s] 24%|██▍       | 2663/11074 [22:47<1:09:25,  2.02it/s] 24%|██▍       | 2664/11074 [22:48<1:09:27,  2.02it/s] 24%|██▍       | 2665/11074 [22:48<1:09:22,  2.02it/s] 24%|██▍       | 2666/11074 [22:49<1:09:19,  2.02it/s] 24%|██▍       | 2667/11074 [22:49<1:09:16,  2.02it/s] 24%|██▍       | 2668/11074 [22:50<1:09:14,  2.02it/s] 24%|██▍       | 2669/11074 [22:50<1:09:16,  2.02it/s] 24%|██▍       | 2670/11074 [22:51<1:09:11,  2.02it/s] 24%|██▍       | 2671/11074 [22:51<1:09:15,  2.02it/s] 24%|██▍       | 2672/11074 [22:52<1:09:12,  2.02it/s] 24%|██▍       | 2673/11074 [22:52<1:09:18,  2.02it/s] 24%|██▍       | 2674/11074 [22:53<1:09:13,  2.02it/s] 24%|██▍       | 2675/11074 [22:53<1:09:14,  2.02it/s]{'loss': 3.7782, 'grad_norm': 0.22318293154239655, 'learning_rate': 0.0009402294605035284, 'epoch': 3.38}
-                                                       24%|██▍       | 2675/11074 [22:53<1:09:14,  2.02it/s] 24%|██▍       | 2676/11074 [22:54<1:09:39,  2.01it/s] 24%|██▍       | 2677/11074 [22:54<1:09:25,  2.02it/s] 24%|██▍       | 2678/11074 [22:55<1:09:25,  2.02it/s] 24%|██▍       | 2679/11074 [22:55<1:09:17,  2.02it/s] 24%|██▍       | 2680/11074 [22:56<1:09:18,  2.02it/s] 24%|██▍       | 2681/11074 [22:56<1:09:11,  2.02it/s] 24%|██▍       | 2682/11074 [22:57<1:09:16,  2.02it/s] 24%|██▍       | 2683/11074 [22:57<1:09:08,  2.02it/s] 24%|██▍       | 2684/11074 [22:58<1:09:10,  2.02it/s] 24%|██▍       | 2685/11074 [22:58<1:09:04,  2.02it/s] 24%|██▍       | 2686/11074 [22:59<1:09:05,  2.02it/s] 24%|██▍       | 2687/11074 [22:59<1:09:03,  2.02it/s] 24%|██▍       | 2688/11074 [23:00<1:09:08,  2.02it/s] 24%|██▍       | 2689/11074 [23:00<1:09:04,  2.02it/s] 24%|██▍       | 2690/11074 [23:01<1:09:08,  2.02it/s] 24%|██▍       | 2691/11074 [23:01<1:09:03,  2.02it/s] 24%|██▍       | 2692/11074 [23:02<1:09:06,  2.02it/s] 24%|██▍       | 2693/11074 [23:02<1:09:04,  2.02it/s] 24%|██▍       | 2694/11074 [23:03<1:09:06,  2.02it/s] 24%|██▍       | 2695/11074 [23:03<1:09:02,  2.02it/s] 24%|██▍       | 2696/11074 [23:04<1:09:00,  2.02it/s] 24%|██▍       | 2697/11074 [23:04<1:08:56,  2.03it/s] 24%|██▍       | 2698/11074 [23:05<1:08:57,  2.02it/s] 24%|██▍       | 2699/11074 [23:05<1:08:57,  2.02it/s] 24%|██▍       | 2700/11074 [23:06<1:08:59,  2.02it/s]                                                      {'loss': 3.7844, 'grad_norm': 0.222323939204216, 'learning_rate': 0.0009383475828881189, 'epoch': 3.41}
- 24%|██▍       | 2700/11074 [23:06<1:08:59,  2.02it/s] 24%|██▍       | 2701/11074 [23:06<1:09:02,  2.02it/s] 24%|██▍       | 2702/11074 [23:07<1:09:03,  2.02it/s] 24%|██▍       | 2703/11074 [23:07<1:08:58,  2.02it/s] 24%|██▍       | 2704/11074 [23:08<1:08:58,  2.02it/s] 24%|██▍       | 2705/11074 [23:08<1:08:57,  2.02it/s] 24%|██▍       | 2706/11074 [23:09<1:08:58,  2.02it/s] 24%|██▍       | 2707/11074 [23:09<1:08:56,  2.02it/s] 24%|██▍       | 2708/11074 [23:10<1:08:54,  2.02it/s] 24%|██▍       | 2709/11074 [23:10<1:08:57,  2.02it/s] 24%|██▍       | 2710/11074 [23:10<1:09:01,  2.02it/s] 24%|██▍       | 2711/11074 [23:11<1:08:56,  2.02it/s] 24%|██▍       | 2712/11074 [23:11<1:08:58,  2.02it/s] 24%|██▍       | 2713/11074 [23:12<1:08:55,  2.02it/s] 25%|██▍       | 2714/11074 [23:12<1:08:56,  2.02it/s] 25%|██▍       | 2715/11074 [23:13<1:08:53,  2.02it/s] 25%|██▍       | 2716/11074 [23:13<1:08:55,  2.02it/s] 25%|██▍       | 2717/11074 [23:14<1:08:53,  2.02it/s] 25%|██▍       | 2718/11074 [23:14<1:08:54,  2.02it/s] 25%|██▍       | 2719/11074 [23:15<1:08:53,  2.02it/s] 25%|██▍       | 2720/11074 [23:15<1:08:50,  2.02it/s] 25%|██▍       | 2721/11074 [23:16<1:08:50,  2.02it/s] 25%|██▍       | 2722/11074 [23:16<1:08:47,  2.02it/s] 25%|██▍       | 2723/11074 [23:17<1:08:46,  2.02it/s] 25%|██▍       | 2724/11074 [23:17<1:08:41,  2.03it/s] 25%|██▍       | 2725/11074 [23:18<1:08:46,  2.02it/s]                                                      {'loss': 3.7862, 'grad_norm': 0.20881235599517822, 'learning_rate': 0.0009364384811204212, 'epoch': 3.44}
- 25%|██▍       | 2725/11074 [23:18<1:08:46,  2.02it/s] 25%|██▍       | 2726/11074 [23:18<1:08:48,  2.02it/s] 25%|██▍       | 2727/11074 [23:19<1:08:52,  2.02it/s] 25%|██▍       | 2728/11074 [23:19<1:08:47,  2.02it/s] 25%|██▍       | 2729/11074 [23:20<1:08:51,  2.02it/s] 25%|██▍       | 2730/11074 [23:20<1:08:46,  2.02it/s] 25%|██▍       | 2731/11074 [23:21<1:08:46,  2.02it/s] 25%|██▍       | 2732/11074 [23:21<1:08:41,  2.02it/s] 25%|██▍       | 2733/11074 [23:22<1:08:41,  2.02it/s] 25%|██▍       | 2734/11074 [23:22<1:08:40,  2.02it/s] 25%|██▍       | 2735/11074 [23:23<1:08:40,  2.02it/s] 25%|██▍       | 2736/11074 [23:23<1:08:41,  2.02it/s] 25%|██▍       | 2737/11074 [23:24<1:08:42,  2.02it/s] 25%|██▍       | 2738/11074 [23:24<1:08:47,  2.02it/s] 25%|██▍       | 2739/11074 [23:25<1:08:44,  2.02it/s] 25%|██▍       | 2740/11074 [23:25<1:08:43,  2.02it/s] 25%|██▍       | 2741/11074 [23:26<1:08:41,  2.02it/s] 25%|██▍       | 2742/11074 [23:26<1:08:40,  2.02it/s] 25%|██▍       | 2743/11074 [23:27<1:08:37,  2.02it/s] 25%|██▍       | 2744/11074 [23:27<1:08:38,  2.02it/s] 25%|██▍       | 2745/11074 [23:28<1:08:38,  2.02it/s] 25%|██▍       | 2746/11074 [23:28<1:08:40,  2.02it/s] 25%|██▍       | 2747/11074 [23:29<1:08:38,  2.02it/s] 25%|██▍       | 2748/11074 [23:29<1:08:43,  2.02it/s] 25%|██▍       | 2749/11074 [23:30<1:08:42,  2.02it/s] 25%|██▍       | 2750/11074 [23:30<1:08:43,  2.02it/s]                                                      {'loss': 3.7844, 'grad_norm': 0.21739104390144348, 'learning_rate': 0.0009345022737677073, 'epoch': 3.47}
- 25%|██▍       | 2750/11074 [23:30<1:08:43,  2.02it/s] 25%|██▍       | 2751/11074 [23:31<1:08:40,  2.02it/s] 25%|██▍       | 2752/11074 [23:31<1:08:41,  2.02it/s] 25%|██▍       | 2753/11074 [23:32<1:08:36,  2.02it/s] 25%|██▍       | 2754/11074 [23:32<1:08:36,  2.02it/s] 25%|██▍       | 2755/11074 [23:33<1:08:33,  2.02it/s] 25%|██▍       | 2756/11074 [23:33<1:08:33,  2.02it/s] 25%|██▍       | 2757/11074 [23:34<1:08:30,  2.02it/s] 25%|██▍       | 2758/11074 [23:34<1:08:30,  2.02it/s] 25%|██▍       | 2759/11074 [23:35<1:08:31,  2.02it/s] 25%|██▍       | 2760/11074 [23:35<1:08:31,  2.02it/s] 25%|██▍       | 2761/11074 [23:36<1:08:29,  2.02it/s] 25%|██▍       | 2762/11074 [23:36<1:08:26,  2.02it/s] 25%|██▍       | 2763/11074 [23:37<1:08:27,  2.02it/s] 25%|██▍       | 2764/11074 [23:37<1:08:33,  2.02it/s] 25%|██▍       | 2765/11074 [23:38<1:08:28,  2.02it/s] 25%|██▍       | 2766/11074 [23:38<1:08:28,  2.02it/s] 25%|██▍       | 2767/11074 [23:39<1:08:29,  2.02it/s] 25%|██▍       | 2768/11074 [23:39<1:08:27,  2.02it/s] 25%|██▌       | 2769/11074 [23:40<1:08:25,  2.02it/s] 25%|██▌       | 2770/11074 [23:40<1:08:24,  2.02it/s] 25%|██▌       | 2771/11074 [23:41<1:08:22,  2.02it/s] 25%|██▌       | 2772/11074 [23:41<1:08:25,  2.02it/s] 25%|██▌       | 2773/11074 [23:42<1:08:19,  2.02it/s] 25%|██▌       | 2774/11074 [23:42<1:08:23,  2.02it/s] 25%|██▌       | 2775/11074 [23:43<1:08:19,  2.02it/s]{'loss': 3.7779, 'grad_norm': 0.207262322306633, 'learning_rate': 0.0009325390810806778, 'epoch': 3.51}
-                                                       25%|██▌       | 2775/11074 [23:43<1:08:19,  2.02it/s] 25%|██▌       | 2776/11074 [23:43<1:08:30,  2.02it/s] 25%|██▌       | 2777/11074 [23:44<1:08:22,  2.02it/s] 25%|██▌       | 2778/11074 [23:44<1:08:25,  2.02it/s] 25%|██▌       | 2779/11074 [23:45<1:08:21,  2.02it/s] 25%|██▌       | 2780/11074 [23:45<1:08:19,  2.02it/s] 25%|██▌       | 2781/11074 [23:46<1:08:18,  2.02it/s] 25%|██▌       | 2782/11074 [23:46<1:08:19,  2.02it/s] 25%|██▌       | 2783/11074 [23:47<1:08:18,  2.02it/s] 25%|██▌       | 2784/11074 [23:47<1:08:15,  2.02it/s] 25%|██▌       | 2785/11074 [23:48<1:08:16,  2.02it/s] 25%|██▌       | 2786/11074 [23:48<1:08:12,  2.03it/s] 25%|██▌       | 2787/11074 [23:49<1:08:15,  2.02it/s] 25%|██▌       | 2788/11074 [23:49<1:08:13,  2.02it/s] 25%|██▌       | 2789/11074 [23:50<1:08:15,  2.02it/s] 25%|██▌       | 2790/11074 [23:50<1:08:10,  2.03it/s] 25%|██▌       | 2791/11074 [23:51<1:08:10,  2.02it/s] 25%|██▌       | 2792/11074 [23:51<1:08:12,  2.02it/s] 25%|██▌       | 2793/11074 [23:52<1:08:07,  2.03it/s] 25%|██▌       | 2794/11074 [23:52<1:08:09,  2.02it/s] 25%|██▌       | 2795/11074 [23:53<1:08:11,  2.02it/s] 25%|██▌       | 2796/11074 [23:53<1:08:11,  2.02it/s] 25%|██▌       | 2797/11074 [23:54<1:08:12,  2.02it/s] 25%|██▌       | 2798/11074 [23:54<1:08:12,  2.02it/s] 25%|██▌       | 2799/11074 [23:55<1:08:15,  2.02it/s] 25%|██▌       | 2800/11074 [23:55<1:08:13,  2.02it/s]{'loss': 3.7818, 'grad_norm': 0.20900769531726837, 'learning_rate': 0.0009305490249859926, 'epoch': 3.54}
-                                                       25%|██▌       | 2800/11074 [23:55<1:08:13,  2.02it/s] 25%|██▌       | 2801/11074 [23:55<1:08:19,  2.02it/s] 25%|██▌       | 2802/11074 [23:56<1:08:13,  2.02it/s] 25%|██▌       | 2803/11074 [23:56<1:08:11,  2.02it/s] 25%|██▌       | 2804/11074 [23:57<1:08:08,  2.02it/s] 25%|██▌       | 2805/11074 [23:57<1:08:09,  2.02it/s] 25%|██▌       | 2806/11074 [23:58<1:08:07,  2.02it/s] 25%|██▌       | 2807/11074 [23:58<1:08:02,  2.02it/s] 25%|██▌       | 2808/11074 [23:59<1:08:06,  2.02it/s] 25%|██▌       | 2809/11074 [23:59<1:08:01,  2.03it/s] 25%|██▌       | 2810/11074 [24:00<1:08:02,  2.02it/s] 25%|██▌       | 2811/11074 [24:00<1:08:03,  2.02it/s] 25%|██▌       | 2812/11074 [24:01<1:08:06,  2.02it/s] 25%|██▌       | 2813/11074 [24:01<1:08:02,  2.02it/s] 25%|██▌       | 2814/11074 [24:02<1:08:04,  2.02it/s] 25%|██▌       | 2815/11074 [24:02<1:07:59,  2.02it/s] 25%|██▌       | 2816/11074 [24:03<1:08:03,  2.02it/s] 25%|██▌       | 2817/11074 [24:03<1:08:01,  2.02it/s] 25%|██▌       | 2818/11074 [24:04<1:08:02,  2.02it/s] 25%|██▌       | 2819/11074 [24:04<1:07:59,  2.02it/s] 25%|██▌       | 2820/11074 [24:05<1:07:59,  2.02it/s] 25%|██▌       | 2821/11074 [24:05<1:07:53,  2.03it/s] 25%|██▌       | 2822/11074 [24:06<1:07:54,  2.03it/s] 25%|██▌       | 2823/11074 [24:06<1:07:55,  2.02it/s] 26%|██▌       | 2824/11074 [24:07<1:07:56,  2.02it/s] 26%|██▌       | 2825/11074 [24:07<1:07:54,  2.02it/s]{'loss': 3.7794, 'grad_norm': 0.21010801196098328, 'learning_rate': 0.000928532229078699, 'epoch': 3.57}                                                      
- 26%|██▌       | 2825/11074 [24:07<1:07:54,  2.02it/s] 26%|██▌       | 2826/11074 [24:08<1:08:06,  2.02it/s] 26%|██▌       | 2827/11074 [24:08<1:08:05,  2.02it/s] 26%|██▌       | 2828/11074 [24:09<1:08:04,  2.02it/s] 26%|██▌       | 2829/11074 [24:09<1:07:57,  2.02it/s] 26%|██▌       | 2830/11074 [24:10<1:07:58,  2.02it/s] 26%|██▌       | 2831/11074 [24:10<1:07:54,  2.02it/s] 26%|██▌       | 2832/11074 [24:11<1:07:57,  2.02it/s] 26%|██▌       | 2833/11074 [24:11<1:07:53,  2.02it/s] 26%|██▌       | 2834/11074 [24:12<1:07:58,  2.02it/s] 26%|██▌       | 2835/11074 [24:12<1:07:54,  2.02it/s] 26%|██▌       | 2836/11074 [24:13<1:07:58,  2.02it/s] 26%|██▌       | 2837/11074 [24:13<1:07:54,  2.02it/s] 26%|██▌       | 2838/11074 [24:14<1:07:56,  2.02it/s] 26%|██▌       | 2839/11074 [24:14<1:07:51,  2.02it/s] 26%|██▌       | 2840/11074 [24:15<1:07:55,  2.02it/s] 26%|██▌       | 2841/11074 [24:15<1:07:51,  2.02it/s] 26%|██▌       | 2842/11074 [24:16<1:07:53,  2.02it/s] 26%|██▌       | 2843/11074 [24:16<1:07:48,  2.02it/s] 26%|██▌       | 2844/11074 [24:17<1:07:52,  2.02it/s] 26%|██▌       | 2845/11074 [24:17<1:07:47,  2.02it/s] 26%|██▌       | 2846/11074 [24:18<1:07:51,  2.02it/s] 26%|██▌       | 2847/11074 [24:18<1:07:47,  2.02it/s] 26%|██▌       | 2848/11074 [24:19<1:07:50,  2.02it/s] 26%|██▌       | 2849/11074 [24:19<1:07:46,  2.02it/s] 26%|██▌       | 2850/11074 [24:20<1:07:48,  2.02it/s]                                                      {'loss': 3.7815, 'grad_norm': 0.20716503262519836, 'learning_rate': 0.000926488818614555, 'epoch': 3.6}
- 26%|██▌       | 2850/11074 [24:20<1:07:48,  2.02it/s] 26%|██▌       | 2851/11074 [24:20<1:07:46,  2.02it/s] 26%|██▌       | 2852/11074 [24:21<1:07:45,  2.02it/s] 26%|██▌       | 2853/11074 [24:21<1:07:41,  2.02it/s] 26%|██▌       | 2854/11074 [24:22<1:07:44,  2.02it/s] 26%|██▌       | 2855/11074 [24:22<1:07:40,  2.02it/s] 26%|██▌       | 2856/11074 [24:23<1:07:42,  2.02it/s] 26%|██▌       | 2857/11074 [24:23<1:07:39,  2.02it/s] 26%|██▌       | 2858/11074 [24:24<1:07:44,  2.02it/s] 26%|██▌       | 2859/11074 [24:24<1:07:41,  2.02it/s] 26%|██▌       | 2860/11074 [24:25<1:07:42,  2.02it/s] 26%|██▌       | 2861/11074 [24:25<1:07:38,  2.02it/s] 26%|██▌       | 2862/11074 [24:26<1:07:41,  2.02it/s] 26%|██▌       | 2863/11074 [24:26<1:07:37,  2.02it/s] 26%|██▌       | 2864/11074 [24:27<1:07:39,  2.02it/s] 26%|██▌       | 2865/11074 [24:27<1:07:35,  2.02it/s] 26%|██▌       | 2866/11074 [24:28<1:07:34,  2.02it/s] 26%|██▌       | 2867/11074 [24:28<1:07:34,  2.02it/s] 26%|██▌       | 2868/11074 [24:29<1:07:31,  2.03it/s] 26%|██▌       | 2869/11074 [24:29<1:07:36,  2.02it/s] 26%|██▌       | 2870/11074 [24:30<1:07:33,  2.02it/s] 26%|██▌       | 2871/11074 [24:30<1:07:35,  2.02it/s] 26%|██▌       | 2872/11074 [24:31<1:07:29,  2.03it/s] 26%|██▌       | 2873/11074 [24:31<1:07:34,  2.02it/s] 26%|██▌       | 2874/11074 [24:32<1:07:32,  2.02it/s] 26%|██▌       | 2875/11074 [24:32<1:07:35,  2.02it/s]{'loss': 3.7762, 'grad_norm': 0.21774141490459442, 'learning_rate': 0.0009244189205022513, 'epoch': 3.63}                                                      
- 26%|██▌       | 2875/11074 [24:32<1:07:35,  2.02it/s] 26%|██▌       | 2876/11074 [24:33<1:07:34,  2.02it/s] 26%|██▌       | 2877/11074 [24:33<1:07:38,  2.02it/s] 26%|██▌       | 2878/11074 [24:34<1:07:31,  2.02it/s] 26%|██▌       | 2879/11074 [24:34<1:07:34,  2.02it/s] 26%|██▌       | 2880/11074 [24:35<1:07:30,  2.02it/s] 26%|██▌       | 2881/11074 [24:35<1:07:35,  2.02it/s] 26%|██▌       | 2882/11074 [24:36<1:07:34,  2.02it/s] 26%|██▌       | 2883/11074 [24:36<1:07:32,  2.02it/s] 26%|██▌       | 2884/11074 [24:37<1:07:30,  2.02it/s] 26%|██▌       | 2885/11074 [24:37<1:07:29,  2.02it/s] 26%|██▌       | 2886/11074 [24:38<1:07:27,  2.02it/s] 26%|██▌       | 2887/11074 [24:38<1:07:28,  2.02it/s] 26%|██▌       | 2888/11074 [24:39<1:07:29,  2.02it/s] 26%|██▌       | 2889/11074 [24:39<1:07:26,  2.02it/s] 26%|██▌       | 2890/11074 [24:39<1:07:26,  2.02it/s] 26%|██▌       | 2891/11074 [24:40<1:07:25,  2.02it/s] 26%|██▌       | 2892/11074 [24:40<1:07:26,  2.02it/s] 26%|██▌       | 2893/11074 [24:41<1:07:25,  2.02it/s] 26%|██▌       | 2894/11074 [24:41<1:07:26,  2.02it/s] 26%|██▌       | 2895/11074 [24:42<1:07:24,  2.02it/s] 26%|██▌       | 2896/11074 [24:42<1:07:24,  2.02it/s] 26%|██▌       | 2897/11074 [24:43<1:07:25,  2.02it/s] 26%|██▌       | 2898/11074 [24:43<1:07:24,  2.02it/s] 26%|██▌       | 2899/11074 [24:44<1:07:23,  2.02it/s] 26%|██▌       | 2900/11074 [24:44<1:07:24,  2.02it/s]                                                      {'loss': 3.7768, 'grad_norm': 0.23638159036636353, 'learning_rate': 0.0009223226632955283, 'epoch': 3.66}
- 26%|██▌       | 2900/11074 [24:44<1:07:24,  2.02it/s] 26%|██▌       | 2901/11074 [24:45<1:07:28,  2.02it/s] 26%|██▌       | 2902/11074 [24:45<1:07:24,  2.02it/s] 26%|██▌       | 2903/11074 [24:46<1:07:24,  2.02it/s] 26%|██▌       | 2904/11074 [24:46<1:07:20,  2.02it/s] 26%|██▌       | 2905/11074 [24:47<1:07:25,  2.02it/s] 26%|██▌       | 2906/11074 [24:47<1:07:21,  2.02it/s] 26%|██▋       | 2907/11074 [24:48<1:07:15,  2.02it/s] 26%|██▋       | 2908/11074 [24:48<1:07:16,  2.02it/s] 26%|██▋       | 2909/11074 [24:49<1:07:11,  2.03it/s] 26%|██▋       | 2910/11074 [24:49<1:07:16,  2.02it/s] 26%|██▋       | 2911/11074 [24:50<1:07:13,  2.02it/s] 26%|██▋       | 2912/11074 [24:50<1:07:17,  2.02it/s] 26%|██▋       | 2913/11074 [24:51<1:07:15,  2.02it/s] 26%|██▋       | 2914/11074 [24:51<1:07:17,  2.02it/s] 26%|██▋       | 2915/11074 [24:52<1:07:15,  2.02it/s] 26%|██▋       | 2916/11074 [24:52<1:07:19,  2.02it/s] 26%|██▋       | 2917/11074 [24:53<1:07:17,  2.02it/s] 26%|██▋       | 2918/11074 [24:53<1:07:18,  2.02it/s] 26%|██▋       | 2919/11074 [24:54<1:07:17,  2.02it/s] 26%|██▋       | 2920/11074 [24:54<1:07:17,  2.02it/s] 26%|██▋       | 2921/11074 [24:55<1:07:13,  2.02it/s] 26%|██▋       | 2922/11074 [24:55<1:07:12,  2.02it/s] 26%|██▋       | 2923/11074 [24:56<1:07:11,  2.02it/s] 26%|██▋       | 2924/11074 [24:56<1:07:12,  2.02it/s] 26%|██▋       | 2925/11074 [24:57<1:07:08,  2.02it/s]{'loss': 3.7764, 'grad_norm': 0.20968833565711975, 'learning_rate': 0.0009202001771851927, 'epoch': 3.7}
-                                                       26%|██▋       | 2925/11074 [24:57<1:07:08,  2.02it/s] 26%|██▋       | 2926/11074 [24:57<1:07:13,  2.02it/s] 26%|██▋       | 2927/11074 [24:58<1:07:13,  2.02it/s] 26%|██▋       | 2928/11074 [24:58<1:07:14,  2.02it/s] 26%|██▋       | 2929/11074 [24:59<1:07:06,  2.02it/s] 26%|██▋       | 2930/11074 [24:59<1:07:03,  2.02it/s] 26%|██▋       | 2931/11074 [25:00<1:07:05,  2.02it/s] 26%|██▋       | 2932/11074 [25:00<1:07:05,  2.02it/s] 26%|██▋       | 2933/11074 [25:01<1:07:05,  2.02it/s] 26%|██▋       | 2934/11074 [25:01<1:07:01,  2.02it/s] 27%|██▋       | 2935/11074 [25:02<1:07:03,  2.02it/s] 27%|██▋       | 2936/11074 [25:02<1:07:04,  2.02it/s] 27%|██▋       | 2937/11074 [25:03<1:07:03,  2.02it/s] 27%|██▋       | 2938/11074 [25:03<1:07:04,  2.02it/s] 27%|██▋       | 2939/11074 [25:04<1:06:58,  2.02it/s] 27%|██▋       | 2940/11074 [25:04<1:07:03,  2.02it/s] 27%|██▋       | 2941/11074 [25:05<1:06:58,  2.02it/s] 27%|██▋       | 2942/11074 [25:05<1:07:03,  2.02it/s] 27%|██▋       | 2943/11074 [25:06<1:07:01,  2.02it/s] 27%|██▋       | 2944/11074 [25:06<1:07:02,  2.02it/s] 27%|██▋       | 2945/11074 [25:07<1:06:59,  2.02it/s] 27%|██▋       | 2946/11074 [25:07<1:07:04,  2.02it/s] 27%|██▋       | 2947/11074 [25:08<1:06:58,  2.02it/s] 27%|██▋       | 2948/11074 [25:08<1:07:02,  2.02it/s] 27%|██▋       | 2949/11074 [25:09<1:06:55,  2.02it/s] 27%|██▋       | 2950/11074 [25:09<1:06:58,  2.02it/s]{'loss': 3.7788, 'grad_norm': 0.21539045870304108, 'learning_rate': 0.0009180515939910316, 'epoch': 3.73}
-                                                       27%|██▋       | 2950/11074 [25:09<1:06:58,  2.02it/s] 27%|██▋       | 2951/11074 [25:10<1:07:05,  2.02it/s] 27%|██▋       | 2952/11074 [25:10<1:07:06,  2.02it/s] 27%|██▋       | 2953/11074 [25:11<1:07:03,  2.02it/s] 27%|██▋       | 2954/11074 [25:11<1:07:00,  2.02it/s] 27%|██▋       | 2955/11074 [25:12<1:06:57,  2.02it/s] 27%|██▋       | 2956/11074 [25:12<1:06:59,  2.02it/s] 27%|██▋       | 2957/11074 [25:13<1:07:01,  2.02it/s] 27%|██▋       | 2958/11074 [25:13<1:06:56,  2.02it/s] 27%|██▋       | 2959/11074 [25:14<1:06:58,  2.02it/s] 27%|██▋       | 2960/11074 [25:14<1:06:56,  2.02it/s] 27%|██▋       | 2961/11074 [25:15<1:06:57,  2.02it/s] 27%|██▋       | 2962/11074 [25:15<1:06:53,  2.02it/s] 27%|██▋       | 2963/11074 [25:16<1:06:58,  2.02it/s] 27%|██▋       | 2964/11074 [25:16<1:06:53,  2.02it/s] 27%|██▋       | 2965/11074 [25:17<1:06:55,  2.02it/s] 27%|██▋       | 2966/11074 [25:17<1:06:53,  2.02it/s] 27%|██▋       | 2967/11074 [25:18<1:06:56,  2.02it/s] 27%|██▋       | 2968/11074 [25:18<1:06:51,  2.02it/s] 27%|██▋       | 2969/11074 [25:19<1:06:53,  2.02it/s] 27%|██▋       | 2970/11074 [25:19<1:06:50,  2.02it/s] 27%|██▋       | 2971/11074 [25:20<1:06:53,  2.02it/s] 27%|██▋       | 2972/11074 [25:20<1:06:47,  2.02it/s] 27%|██▋       | 2973/11074 [25:21<1:06:50,  2.02it/s] 27%|██▋       | 2974/11074 [25:21<1:06:46,  2.02it/s] 27%|██▋       | 2975/11074 [25:22<1:06:50,  2.02it/s]                                                      {'loss': 3.7828, 'grad_norm': 0.21020963788032532, 'learning_rate': 0.0009158770471536261, 'epoch': 3.76}
- 27%|██▋       | 2975/11074 [25:22<1:06:50,  2.02it/s] 27%|██▋       | 2976/11074 [25:22<1:06:51,  2.02it/s] 27%|██▋       | 2977/11074 [25:23<1:06:48,  2.02it/s] 27%|██▋       | 2978/11074 [25:23<1:06:48,  2.02it/s] 27%|██▋       | 2979/11074 [25:24<1:06:49,  2.02it/s] 27%|██▋       | 2980/11074 [25:24<1:06:49,  2.02it/s] 27%|██▋       | 2981/11074 [25:25<1:06:45,  2.02it/s] 27%|██▋       | 2982/11074 [25:25<1:06:45,  2.02it/s] 27%|██▋       | 2983/11074 [25:26<1:06:40,  2.02it/s] 27%|██▋       | 2984/11074 [25:26<1:06:40,  2.02it/s] 27%|██▋       | 2985/11074 [25:27<1:06:42,  2.02it/s] 27%|██▋       | 2986/11074 [25:27<1:06:41,  2.02it/s] 27%|██▋       | 2987/11074 [25:27<1:06:38,  2.02it/s] 27%|██▋       | 2988/11074 [25:28<1:06:37,  2.02it/s] 27%|██▋       | 2989/11074 [25:28<1:06:37,  2.02it/s] 27%|██▋       | 2990/11074 [25:29<1:06:33,  2.02it/s] 27%|██▋       | 2991/11074 [25:29<1:06:35,  2.02it/s] 27%|██▋       | 2992/11074 [25:30<1:06:32,  2.02it/s] 27%|██▋       | 2993/11074 [25:30<1:06:34,  2.02it/s] 27%|██▋       | 2994/11074 [25:31<1:06:31,  2.02it/s] 27%|██▋       | 2995/11074 [25:31<1:06:33,  2.02it/s] 27%|██▋       | 2996/11074 [25:32<1:06:34,  2.02it/s] 27%|██▋       | 2997/11074 [25:32<1:06:33,  2.02it/s] 27%|██▋       | 2998/11074 [25:33<1:06:29,  2.02it/s] 27%|██▋       | 2999/11074 [25:33<1:06:28,  2.02it/s] 27%|██▋       | 3000/11074 [25:34<1:06:29,  2.02it/s]{'loss': 3.7716, 'grad_norm': 0.2324460744857788, 'learning_rate': 0.0009136766717260631, 'epoch': 3.79}
-                                                       27%|██▋       | 3000/11074 [25:34<1:06:29,  2.02it/s] 27%|██▋       | 3001/11074 [25:34<1:06:37,  2.02it/s] 27%|██▋       | 3002/11074 [25:35<1:06:33,  2.02it/s] 27%|██▋       | 3003/11074 [25:35<1:06:32,  2.02it/s] 27%|██▋       | 3004/11074 [25:36<1:06:33,  2.02it/s] 27%|██▋       | 3005/11074 [25:36<1:06:32,  2.02it/s] 27%|██▋       | 3006/11074 [25:37<1:06:28,  2.02it/s] 27%|██▋       | 3007/11074 [25:37<1:06:26,  2.02it/s] 27%|██▋       | 3008/11074 [25:38<1:06:28,  2.02it/s] 27%|██▋       | 3009/11074 [25:38<1:06:25,  2.02it/s] 27%|██▋       | 3010/11074 [25:39<1:06:30,  2.02it/s] 27%|██▋       | 3011/11074 [25:39<1:06:32,  2.02it/s] 27%|██▋       | 3012/11074 [25:40<1:06:31,  2.02it/s] 27%|██▋       | 3013/11074 [25:40<1:06:29,  2.02it/s] 27%|██▋       | 3014/11074 [25:41<1:06:28,  2.02it/s] 27%|██▋       | 3015/11074 [25:41<1:06:26,  2.02it/s] 27%|██▋       | 3016/11074 [25:42<1:06:25,  2.02it/s] 27%|██▋       | 3017/11074 [25:42<1:06:27,  2.02it/s] 27%|██▋       | 3018/11074 [25:43<1:06:24,  2.02it/s] 27%|██▋       | 3019/11074 [25:43<1:06:22,  2.02it/s] 27%|██▋       | 3020/11074 [25:44<1:06:22,  2.02it/s] 27%|██▋       | 3021/11074 [25:44<1:06:22,  2.02it/s] 27%|██▋       | 3022/11074 [25:45<1:06:26,  2.02it/s] 27%|██▋       | 3023/11074 [25:45<1:06:24,  2.02it/s] 27%|██▋       | 3024/11074 [25:46<1:06:22,  2.02it/s] 27%|██▋       | 3025/11074 [25:46<1:06:23,  2.02it/s]                                                      {'loss': 3.7694, 'grad_norm': 0.20607422292232513, 'learning_rate': 0.000911450604365548, 'epoch': 3.82}
- 27%|██▋       | 3025/11074 [25:46<1:06:23,  2.02it/s] 27%|██▋       | 3026/11074 [25:47<1:06:24,  2.02it/s] 27%|██▋       | 3027/11074 [25:47<1:06:22,  2.02it/s] 27%|██▋       | 3028/11074 [25:48<1:06:21,  2.02it/s] 27%|██▋       | 3029/11074 [25:48<1:06:19,  2.02it/s] 27%|██▋       | 3030/11074 [25:49<1:06:17,  2.02it/s] 27%|██▋       | 3031/11074 [25:49<1:06:23,  2.02it/s] 27%|██▋       | 3032/11074 [25:50<1:06:20,  2.02it/s] 27%|██▋       | 3033/11074 [25:50<1:06:22,  2.02it/s] 27%|██▋       | 3034/11074 [25:51<1:06:17,  2.02it/s] 27%|██▋       | 3035/11074 [25:51<1:06:17,  2.02it/s] 27%|██▋       | 3036/11074 [25:52<1:06:12,  2.02it/s] 27%|██▋       | 3037/11074 [25:52<1:06:14,  2.02it/s] 27%|██▋       | 3038/11074 [25:53<1:06:12,  2.02it/s] 27%|██▋       | 3039/11074 [25:53<1:06:12,  2.02it/s] 27%|██▋       | 3040/11074 [25:54<1:06:12,  2.02it/s] 27%|██▋       | 3041/11074 [25:54<1:06:12,  2.02it/s] 27%|██▋       | 3042/11074 [25:55<1:06:10,  2.02it/s] 27%|██▋       | 3043/11074 [25:55<1:06:10,  2.02it/s] 27%|██▋       | 3044/11074 [25:56<1:06:12,  2.02it/s] 27%|██▋       | 3045/11074 [25:56<1:06:09,  2.02it/s] 28%|██▊       | 3046/11074 [25:57<1:06:09,  2.02it/s] 28%|██▊       | 3047/11074 [25:57<1:06:07,  2.02it/s] 28%|██▊       | 3048/11074 [25:58<1:06:09,  2.02it/s] 28%|██▊       | 3049/11074 [25:58<1:06:08,  2.02it/s] 28%|██▊       | 3050/11074 [25:59<1:06:09,  2.02it/s]{'loss': 3.772, 'grad_norm': 0.2150435745716095, 'learning_rate': 0.0009091989833249178, 'epoch': 3.85}                                                      
- 28%|██▊       | 3050/11074 [25:59<1:06:09,  2.02it/s] 28%|██▊       | 3051/11074 [25:59<1:06:12,  2.02it/s] 28%|██▊       | 3052/11074 [26:00<1:06:18,  2.02it/s] 28%|██▊       | 3053/11074 [26:00<1:06:15,  2.02it/s] 28%|██▊       | 3054/11074 [26:01<1:06:10,  2.02it/s] 28%|██▊       | 3055/11074 [26:01<1:06:08,  2.02it/s] 28%|██▊       | 3056/11074 [26:02<1:06:08,  2.02it/s] 28%|██▊       | 3057/11074 [26:02<1:06:15,  2.02it/s] 28%|██▊       | 3058/11074 [26:03<1:06:08,  2.02it/s] 28%|██▊       | 3059/11074 [26:03<1:06:08,  2.02it/s] 28%|██▊       | 3060/11074 [26:04<1:06:05,  2.02it/s] 28%|██▊       | 3061/11074 [26:04<1:06:03,  2.02it/s] 28%|██▊       | 3062/11074 [26:05<1:06:03,  2.02it/s] 28%|██▊       | 3063/11074 [26:05<1:06:01,  2.02it/s] 28%|██▊       | 3064/11074 [26:06<1:06:04,  2.02it/s] 28%|██▊       | 3065/11074 [26:06<1:06:02,  2.02it/s] 28%|██▊       | 3066/11074 [26:07<1:06:01,  2.02it/s] 28%|██▊       | 3067/11074 [26:07<1:05:59,  2.02it/s] 28%|██▊       | 3068/11074 [26:08<1:06:01,  2.02it/s] 28%|██▊       | 3069/11074 [26:08<1:06:00,  2.02it/s] 28%|██▊       | 3070/11074 [26:09<1:06:00,  2.02it/s] 28%|██▊       | 3071/11074 [26:09<1:06:02,  2.02it/s] 28%|██▊       | 3072/11074 [26:10<1:06:02,  2.02it/s] 28%|██▊       | 3073/11074 [26:10<1:06:01,  2.02it/s] 28%|██▊       | 3074/11074 [26:11<1:06:01,  2.02it/s] 28%|██▊       | 3075/11074 [26:11<1:06:02,  2.02it/s]                                                      {'loss': 3.771, 'grad_norm': 0.22101539373397827, 'learning_rate': 0.0009069219484440541, 'epoch': 3.89}
- 28%|██▊       | 3075/11074 [26:11<1:06:02,  2.02it/s] 28%|██▊       | 3076/11074 [26:12<1:06:07,  2.02it/s] 28%|██▊       | 3077/11074 [26:12<1:06:04,  2.02it/s] 28%|██▊       | 3078/11074 [26:13<1:06:02,  2.02it/s] 28%|██▊       | 3079/11074 [26:13<1:06:02,  2.02it/s] 28%|██▊       | 3080/11074 [26:14<1:06:03,  2.02it/s] 28%|██▊       | 3081/11074 [26:14<1:06:01,  2.02it/s] 28%|██▊       | 3082/11074 [26:14<1:05:55,  2.02it/s] 28%|██▊       | 3083/11074 [26:15<1:05:56,  2.02it/s] 28%|██▊       | 3084/11074 [26:15<1:05:53,  2.02it/s] 28%|██▊       | 3085/11074 [26:16<1:05:52,  2.02it/s] 28%|██▊       | 3086/11074 [26:16<1:05:46,  2.02it/s] 28%|██▊       | 3087/11074 [26:17<1:05:51,  2.02it/s] 28%|██▊       | 3088/11074 [26:17<1:05:47,  2.02it/s] 28%|██▊       | 3089/11074 [26:18<1:05:50,  2.02it/s] 28%|██▊       | 3090/11074 [26:18<1:05:46,  2.02it/s] 28%|██▊       | 3091/11074 [26:19<1:05:49,  2.02it/s] 28%|██▊       | 3092/11074 [26:19<1:05:45,  2.02it/s] 28%|██▊       | 3093/11074 [26:20<1:05:47,  2.02it/s] 28%|██▊       | 3094/11074 [26:20<1:05:40,  2.03it/s] 28%|██▊       | 3095/11074 [26:21<1:05:42,  2.02it/s] 28%|██▊       | 3096/11074 [26:21<1:05:40,  2.02it/s] 28%|██▊       | 3097/11074 [26:22<1:05:42,  2.02it/s] 28%|██▊       | 3098/11074 [26:22<1:05:38,  2.03it/s] 28%|██▊       | 3099/11074 [26:23<1:05:38,  2.02it/s] 28%|██▊       | 3100/11074 [26:23<1:05:39,  2.02it/s]                                                      {'loss': 3.7711, 'grad_norm': 0.2044101357460022, 'learning_rate': 0.0009046196411411982, 'epoch': 3.92}
- 28%|██▊       | 3100/11074 [26:23<1:05:39,  2.02it/s] 28%|██▊       | 3101/11074 [26:24<1:05:44,  2.02it/s] 28%|██▊       | 3102/11074 [26:24<1:05:39,  2.02it/s] 28%|██▊       | 3103/11074 [26:25<1:05:36,  2.03it/s] 28%|██▊       | 3104/11074 [26:25<1:05:38,  2.02it/s] 28%|██▊       | 3105/11074 [26:26<1:05:31,  2.03it/s] 28%|██▊       | 3106/11074 [26:26<1:05:36,  2.02it/s] 28%|██▊       | 3107/11074 [26:27<1:05:30,  2.03it/s] 28%|██▊       | 3108/11074 [26:27<1:05:33,  2.03it/s] 28%|██▊       | 3109/11074 [26:28<1:05:29,  2.03it/s] 28%|██▊       | 3110/11074 [26:28<1:05:33,  2.02it/s] 28%|██▊       | 3111/11074 [26:29<1:05:29,  2.03it/s] 28%|██▊       | 3112/11074 [26:29<1:05:29,  2.03it/s] 28%|██▊       | 3113/11074 [26:30<1:05:30,  2.03it/s] 28%|██▊       | 3114/11074 [26:30<1:05:29,  2.03it/s] 28%|██▊       | 3115/11074 [26:31<1:05:33,  2.02it/s] 28%|██▊       | 3116/11074 [26:31<1:05:30,  2.02it/s] 28%|██▊       | 3117/11074 [26:32<1:05:31,  2.02it/s] 28%|██▊       | 3118/11074 [26:32<1:05:29,  2.02it/s] 28%|██▊       | 3119/11074 [26:33<1:05:32,  2.02it/s] 28%|██▊       | 3120/11074 [26:33<1:05:31,  2.02it/s] 28%|██▊       | 3121/11074 [26:34<1:05:31,  2.02it/s] 28%|██▊       | 3122/11074 [26:34<1:05:28,  2.02it/s] 28%|██▊       | 3123/11074 [26:35<1:05:31,  2.02it/s] 28%|██▊       | 3124/11074 [26:35<1:05:27,  2.02it/s] 28%|██▊       | 3125/11074 [26:36<1:05:26,  2.02it/s]{'loss': 3.7624, 'grad_norm': 0.21281620860099792, 'learning_rate': 0.000902292204404169, 'epoch': 3.95}
-                                                       28%|██▊       | 3125/11074 [26:36<1:05:26,  2.02it/s] 28%|██▊       | 3126/11074 [26:36<1:05:28,  2.02it/s] 28%|██▊       | 3127/11074 [26:37<1:05:31,  2.02it/s] 28%|██▊       | 3128/11074 [26:37<1:05:28,  2.02it/s] 28%|██▊       | 3129/11074 [26:38<1:05:25,  2.02it/s] 28%|██▊       | 3130/11074 [26:38<1:05:24,  2.02it/s] 28%|██▊       | 3131/11074 [26:39<1:05:23,  2.02it/s] 28%|██▊       | 3132/11074 [26:39<1:05:23,  2.02it/s] 28%|██▊       | 3133/11074 [26:40<1:05:21,  2.03it/s] 28%|██▊       | 3134/11074 [26:40<1:05:23,  2.02it/s] 28%|██▊       | 3135/11074 [26:41<1:05:19,  2.03it/s] 28%|██▊       | 3136/11074 [26:41<1:05:23,  2.02it/s] 28%|██▊       | 3137/11074 [26:42<1:05:17,  2.03it/s] 28%|██▊       | 3138/11074 [26:42<1:05:26,  2.02it/s] 28%|██▊       | 3139/11074 [26:43<1:05:27,  2.02it/s] 28%|██▊       | 3140/11074 [26:43<1:05:27,  2.02it/s] 28%|██▊       | 3141/11074 [26:44<1:05:23,  2.02it/s] 28%|██▊       | 3142/11074 [26:44<1:05:25,  2.02it/s] 28%|██▊       | 3143/11074 [26:45<1:05:22,  2.02it/s] 28%|██▊       | 3144/11074 [26:45<1:05:20,  2.02it/s] 28%|██▊       | 3145/11074 [26:46<1:05:16,  2.02it/s] 28%|██▊       | 3146/11074 [26:46<1:05:21,  2.02it/s] 28%|██▊       | 3147/11074 [26:47<1:05:16,  2.02it/s] 28%|██▊       | 3148/11074 [26:47<1:05:13,  2.03it/s] 28%|██▊       | 3149/11074 [26:48<1:05:15,  2.02it/s] 28%|██▊       | 3150/11074 [26:48<1:05:11,  2.03it/s]{'loss': 3.768, 'grad_norm': 0.2036007046699524, 'learning_rate': 0.0008999397827814812, 'epoch': 3.98}                                                      
- 28%|██▊       | 3150/11074 [26:48<1:05:11,  2.03it/s] 28%|██▊       | 3151/11074 [26:49<1:05:18,  2.02it/s] 28%|██▊       | 3152/11074 [26:49<1:10:55,  1.86it/s] 28%|██▊       | 3153/11074 [26:50<1:09:13,  1.91it/s] 28%|██▊       | 3154/11074 [26:50<1:08:01,  1.94it/s] 28%|██▊       | 3155/11074 [26:51<1:07:11,  1.96it/s] 28%|██▊       | 3156/11074 [26:51<1:06:36,  1.98it/s] 29%|██▊       | 3157/11074 [26:52<1:06:10,  1.99it/s] 29%|██▊       | 3158/11074 [26:52<1:05:52,  2.00it/s] 29%|██▊       | 3159/11074 [26:53<1:05:36,  2.01it/s] 29%|██▊       | 3160/11074 [26:53<1:05:28,  2.01it/s] 29%|██▊       | 3161/11074 [26:54<1:05:20,  2.02it/s] 29%|██▊       | 3162/11074 [26:54<1:05:25,  2.02it/s] 29%|██▊       | 3163/11074 [26:55<1:05:14,  2.02it/s] 29%|██▊       | 3164/11074 [26:55<1:05:14,  2.02it/s] 29%|██▊       | 3165/11074 [26:56<1:05:10,  2.02it/s] 29%|██▊       | 3166/11074 [26:56<1:04:34,  2.04it/s] 29%|██▊       | 3167/11074 [27:16<13:58:24,  6.36s/it] 29%|██▊       | 3168/11074 [27:17<10:06:21,  4.60s/it] 29%|██▊       | 3169/11074 [27:17<7:24:13,  3.37s/it]  29%|██▊       | 3170/11074 [27:18<5:30:31,  2.51s/it] 29%|██▊       | 3171/11074 [27:18<4:10:50,  1.90s/it] 29%|██▊       | 3172/11074 [27:19<3:15:09,  1.48s/it] 29%|██▊       | 3173/11074 [27:19<2:36:04,  1.19s/it] 29%|██▊       | 3174/11074 [27:20<2:08:47,  1.02it/s] 29%|██▊       | 3175/11074 [27:20<1:49:43,  1.20it/s]{'loss': 3.712, 'grad_norm': 0.21616263687610626, 'learning_rate': 0.0008975625223733692, 'epoch': 4.01}
-                                                       29%|██▊       | 3175/11074 [27:20<1:49:43,  1.20it/s] 29%|██▊       | 3176/11074 [27:21<1:36:30,  1.36it/s] 29%|██▊       | 3177/11074 [27:21<1:27:03,  1.51it/s] 29%|██▊       | 3178/11074 [27:22<1:20:30,  1.63it/s] 29%|██▊       | 3179/11074 [27:22<1:16:03,  1.73it/s] 29%|██▊       | 3180/11074 [27:23<1:12:48,  1.81it/s] 29%|██▊       | 3181/11074 [27:23<1:10:34,  1.86it/s] 29%|██▊       | 3182/11074 [27:24<1:08:57,  1.91it/s] 29%|██▊       | 3183/11074 [27:24<1:07:42,  1.94it/s] 29%|██▉       | 3184/11074 [27:25<1:06:57,  1.96it/s] 29%|██▉       | 3185/11074 [27:25<1:06:16,  1.98it/s] 29%|██▉       | 3186/11074 [27:26<1:11:15,  1.85it/s] 29%|██▉       | 3187/11074 [27:26<1:09:20,  1.90it/s] 29%|██��       | 3188/11074 [27:27<1:07:58,  1.93it/s] 29%|██▉       | 3189/11074 [27:27<1:07:02,  1.96it/s] 29%|██▉       | 3190/11074 [27:28<1:06:23,  1.98it/s] 29%|██▉       | 3191/11074 [27:28<1:05:59,  1.99it/s] 29%|██▉       | 3192/11074 [27:29<1:05:36,  2.00it/s] 29%|██▉       | 3193/11074 [27:29<1:05:25,  2.01it/s] 29%|██▉       | 3194/11074 [27:30<1:05:16,  2.01it/s] 29%|██▉       | 3195/11074 [27:30<1:05:06,  2.02it/s] 29%|██▉       | 3196/11074 [27:31<1:05:01,  2.02it/s] 29%|██▉       | 3197/11074 [27:31<1:04:55,  2.02it/s] 29%|██▉       | 3198/11074 [27:32<1:04:55,  2.02it/s] 29%|██▉       | 3199/11074 [27:32<1:04:50,  2.02it/s] 29%|██▉       | 3200/11074 [27:33<1:04:50,  2.02it/s]{'loss': 3.6219, 'grad_norm': 0.218672975897789, 'learning_rate': 0.0008951605708227124, 'epoch': 4.04}
-                                                       29%|██▉       | 3200/11074 [27:33<1:04:50,  2.02it/s] 29%|██▉       | 3201/11074 [27:33<1:04:47,  2.03it/s] 29%|██▉       | 3202/11074 [27:34<1:04:53,  2.02it/s] 29%|██▉       | 3203/11074 [27:34<1:04:50,  2.02it/s] 29%|██▉       | 3204/11074 [27:35<1:04:51,  2.02it/s] 29%|██▉       | 3205/11074 [27:35<1:04:46,  2.02it/s] 29%|██▉       | 3206/11074 [27:36<1:04:46,  2.02it/s] 29%|██▉       | 3207/11074 [27:36<1:04:44,  2.03it/s] 29%|██▉       | 3208/11074 [27:37<1:04:43,  2.03it/s] 29%|██▉       | 3209/11074 [27:37<1:04:43,  2.03it/s] 29%|██▉       | 3210/11074 [27:38<1:04:44,  2.02it/s] 29%|██▉       | 3211/11074 [27:38<1:04:41,  2.03it/s] 29%|██▉       | 3212/11074 [27:39<1:04:38,  2.03it/s] 29%|██▉       | 3213/11074 [27:39<1:04:45,  2.02it/s] 29%|██▉       | 3214/11074 [27:40<1:04:39,  2.03it/s] 29%|██▉       | 3215/11074 [27:40<1:04:41,  2.02it/s] 29%|██▉       | 3216/11074 [27:41<1:04:39,  2.03it/s] 29%|██▉       | 3217/11074 [27:41<1:04:42,  2.02it/s] 29%|██▉       | 3218/11074 [27:42<1:04:39,  2.02it/s] 29%|██▉       | 3219/11074 [27:42<1:04:39,  2.02it/s] 29%|██▉       | 3220/11074 [27:43<1:04:38,  2.02it/s] 29%|██▉       | 3221/11074 [27:43<1:04:34,  2.03it/s] 29%|██▉       | 3222/11074 [27:44<1:04:37,  2.03it/s] 29%|██▉       | 3223/11074 [27:44<1:04:36,  2.03it/s] 29%|██▉       | 3224/11074 [27:45<1:04:39,  2.02it/s] 29%|██▉       | 3225/11074 [27:45<1:04:34,  2.03it/s]{'loss': 3.6334, 'grad_norm': 0.2159862518310547, 'learning_rate': 0.0008927340773058663, 'epoch': 4.07}                                                      
- 29%|██▉       | 3225/11074 [27:45<1:04:34,  2.03it/s] 29%|██▉       | 3226/11074 [27:46<1:04:42,  2.02it/s] 29%|██▉       | 3227/11074 [27:46<1:04:37,  2.02it/s] 29%|██▉       | 3228/11074 [27:46<1:04:36,  2.02it/s] 29%|██▉       | 3229/11074 [27:47<1:04:36,  2.02it/s] 29%|██▉       | 3230/11074 [27:47<1:04:37,  2.02it/s] 29%|██▉       | 3231/11074 [27:48<1:04:34,  2.02it/s] 29%|██▉       | 3232/11074 [27:48<1:04:30,  2.03it/s] 29%|██▉       | 3233/11074 [27:49<1:04:34,  2.02it/s] 29%|██▉       | 3234/11074 [27:49<1:04:29,  2.03it/s] 29%|██▉       | 3235/11074 [27:50<1:04:34,  2.02it/s] 29%|██▉       | 3236/11074 [27:50<1:04:29,  2.03it/s] 29%|██▉       | 3237/11074 [27:51<1:04:35,  2.02it/s] 29%|██▉       | 3238/11074 [27:51<1:04:34,  2.02it/s] 29%|██▉       | 3239/11074 [27:52<1:04:36,  2.02it/s] 29%|██▉       | 3240/11074 [27:52<1:04:33,  2.02it/s] 29%|██▉       | 3241/11074 [27:53<1:04:34,  2.02it/s] 29%|██▉       | 3242/11074 [27:53<1:04:28,  2.02it/s] 29%|██▉       | 3243/11074 [27:54<1:04:29,  2.02it/s] 29%|██▉       | 3244/11074 [27:54<1:04:27,  2.02it/s] 29%|██▉       | 3245/11074 [27:55<1:04:25,  2.03it/s] 29%|██▉       | 3246/11074 [27:55<1:04:27,  2.02it/s] 29%|██▉       | 3247/11074 [27:56<1:04:27,  2.02it/s] 29%|██▉       | 3248/11074 [27:56<1:04:25,  2.02it/s] 29%|██▉       | 3249/11074 [27:57<1:04:26,  2.02it/s] 29%|██▉       | 3250/11074 [27:57<1:04:37,  2.02it/s]{'loss': 3.6345, 'grad_norm': 0.2215413749217987, 'learning_rate': 0.0008902831925233971, 'epoch': 4.11}
-                                                       29%|██▉       | 3250/11074 [27:57<1:04:37,  2.02it/s] 29%|██▉       | 3251/11074 [27:58<1:04:42,  2.01it/s] 29%|██▉       | 3252/11074 [27:58<1:04:36,  2.02it/s] 29%|██▉       | 3253/11074 [27:59<1:04:32,  2.02it/s] 29%|██▉       | 3254/11074 [27:59<1:04:30,  2.02it/s] 29%|██▉       | 3255/11074 [28:00<1:04:29,  2.02it/s] 29%|██▉       | 3256/11074 [28:00<1:04:28,  2.02it/s] 29%|██▉       | 3257/11074 [28:01<1:04:26,  2.02it/s] 29%|██▉       | 3258/11074 [28:01<1:04:25,  2.02it/s] 29%|██▉       | 3259/11074 [28:02<1:04:25,  2.02it/s] 29%|██▉       | 3260/11074 [28:02<1:04:25,  2.02it/s] 29%|██���       | 3261/11074 [28:03<1:04:22,  2.02it/s] 29%|██▉       | 3262/11074 [28:03<1:04:22,  2.02it/s] 29%|██▉       | 3263/11074 [28:04<1:04:22,  2.02it/s] 29%|██▉       | 3264/11074 [28:04<1:04:22,  2.02it/s] 29%|██▉       | 3265/11074 [28:05<1:04:22,  2.02it/s] 29%|██▉       | 3266/11074 [28:05<1:04:21,  2.02it/s] 30%|██▉       | 3267/11074 [28:06<1:04:18,  2.02it/s] 30%|██▉       | 3268/11074 [28:06<1:04:19,  2.02it/s] 30%|██▉       | 3269/11074 [28:07<1:04:22,  2.02it/s] 30%|██▉       | 3270/11074 [28:07<1:04:23,  2.02it/s] 30%|██▉       | 3271/11074 [28:08<1:04:21,  2.02it/s] 30%|██▉       | 3272/11074 [28:08<1:04:20,  2.02it/s] 30%|██▉       | 3273/11074 [28:09<1:04:18,  2.02it/s] 30%|██▉       | 3274/11074 [28:09<1:04:20,  2.02it/s] 30%|██▉       | 3275/11074 [28:10<1:04:16,  2.02it/s]{'loss': 3.645, 'grad_norm': 0.2105727344751358, 'learning_rate': 0.000887808068690723, 'epoch': 4.14}
-                                                       30%|██▉       | 3275/11074 [28:10<1:04:16,  2.02it/s] 30%|██▉       | 3276/11074 [28:10<1:04:19,  2.02it/s] 30%|██▉       | 3277/11074 [28:11<1:04:14,  2.02it/s] 30%|██▉       | 3278/11074 [28:11<1:04:15,  2.02it/s] 30%|██▉       | 3279/11074 [28:12<1:04:12,  2.02it/s] 30%|██▉       | 3280/11074 [28:12<1:04:13,  2.02it/s] 30%|██▉       | 3281/11074 [28:13<1:04:11,  2.02it/s] 30%|██▉       | 3282/11074 [28:13<1:04:12,  2.02it/s] 30%|██▉       | 3283/11074 [28:14<1:04:10,  2.02it/s] 30%|██▉       | 3284/11074 [28:14<1:04:07,  2.02it/s] 30%|██▉       | 3285/11074 [28:15<1:04:09,  2.02it/s] 30%|██▉       | 3286/11074 [28:15<1:04:14,  2.02it/s] 30%|██▉       | 3287/11074 [28:16<1:04:11,  2.02it/s] 30%|██▉       | 3288/11074 [28:16<1:04:08,  2.02it/s] 30%|██▉       | 3289/11074 [28:17<1:04:08,  2.02it/s] 30%|██▉       | 3290/11074 [28:17<1:04:03,  2.03it/s] 30%|██▉       | 3291/11074 [28:18<1:04:06,  2.02it/s] 30%|██▉       | 3292/11074 [28:18<1:04:02,  2.03it/s] 30%|██▉       | 3293/11074 [28:19<1:04:06,  2.02it/s] 30%|██▉       | 3294/11074 [28:19<1:04:02,  2.02it/s] 30%|██▉       | 3295/11074 [28:20<1:04:04,  2.02it/s] 30%|██▉       | 3296/11074 [28:20<1:04:04,  2.02it/s] 30%|██▉       | 3297/11074 [28:21<1:04:02,  2.02it/s] 30%|██▉       | 3298/11074 [28:21<1:04:04,  2.02it/s] 30%|██▉       | 3299/11074 [28:22<1:04:04,  2.02it/s] 30%|██▉       | 3300/11074 [28:22<1:04:02,  2.02it/s]{'loss': 3.6492, 'grad_norm': 0.21517910063266754, 'learning_rate': 0.0008853088595286601, 'epoch': 4.17}
-                                                       30%|██▉       | 3300/11074 [28:22<1:04:02,  2.02it/s] 30%|██▉       | 3301/11074 [28:23<1:04:06,  2.02it/s] 30%|██▉       | 3302/11074 [28:23<1:04:06,  2.02it/s] 30%|██▉       | 3303/11074 [28:24<1:04:06,  2.02it/s] 30%|██▉       | 3304/11074 [28:24<1:04:00,  2.02it/s] 30%|██▉       | 3305/11074 [28:25<1:04:01,  2.02it/s] 30%|██▉       | 3306/11074 [28:25<1:03:57,  2.02it/s] 30%|██▉       | 3307/11074 [28:26<1:03:58,  2.02it/s] 30%|██▉       | 3308/11074 [28:26<1:03:59,  2.02it/s] 30%|██▉       | 3309/11074 [28:27<1:04:06,  2.02it/s] 30%|██▉       | 3310/11074 [28:27<1:04:07,  2.02it/s] 30%|██▉       | 3311/11074 [28:28<1:04:04,  2.02it/s] 30%|██▉       | 3312/11074 [28:28<1:04:00,  2.02it/s] 30%|██▉       | 3313/11074 [28:29<1:03:58,  2.02it/s] 30%|██▉       | 3314/11074 [28:29<1:03:56,  2.02it/s] 30%|██▉       | 3315/11074 [28:30<1:03:55,  2.02it/s] 30%|██▉       | 3316/11074 [28:30<1:03:54,  2.02it/s] 30%|██▉       | 3317/11074 [28:31<1:03:55,  2.02it/s] 30%|██▉       | 3318/11074 [28:31<1:03:52,  2.02it/s] 30%|██▉       | 3319/11074 [28:31<1:03:51,  2.02it/s] 30%|██▉       | 3320/11074 [28:32<1:03:53,  2.02it/s] 30%|██▉       | 3321/11074 [28:32<1:03:54,  2.02it/s] 30%|██▉       | 3322/11074 [28:33<1:03:54,  2.02it/s] 30%|███       | 3323/11074 [28:33<1:03:53,  2.02it/s] 30%|███       | 3324/11074 [28:34<1:03:52,  2.02it/s] 30%|███       | 3325/11074 [28:34<1:03:50,  2.02it/s]{'loss': 3.6468, 'grad_norm': 0.21132111549377441, 'learning_rate': 0.0008827857202538751, 'epoch': 4.2}
-                                                       30%|███       | 3325/11074 [28:34<1:03:50,  2.02it/s] 30%|███       | 3326/11074 [28:35<1:03:57,  2.02it/s] 30%|███       | 3327/11074 [28:35<1:03:51,  2.02it/s] 30%|███       | 3328/11074 [28:36<1:03:51,  2.02it/s] 30%|███       | 3329/11074 [28:36<1:03:50,  2.02it/s] 30%|███       | 3330/11074 [28:37<1:03:48,  2.02it/s] 30%|███       | 3331/11074 [28:37<1:03:47,  2.02it/s] 30%|███       | 3332/11074 [28:38<1:03:52,  2.02it/s] 30%|███       | 3333/11074 [28:38<1:03:48,  2.02it/s] 30%|███       | 3334/11074 [28:39<1:03:48,  2.02it/s] 30%|███       | 3335/11074 [28:39<1:03:46,  2.02it/s] 30%|███       | 3336/11074 [28:40<1:03:46,  2.02it/s] 30%|███       | 3337/11074 [28:40<1:03:39,  2.03it/s] 30%|███       | 3338/11074 [28:41<1:03:42,  2.02it/s] 30%|███       | 3339/11074 [28:41<1:03:41,  2.02it/s] 30%|███       | 3340/11074 [28:42<1:03:44,  2.02it/s] 30%|███       | 3341/11074 [28:42<1:03:40,  2.02it/s] 30%|███       | 3342/11074 [28:43<1:03:42,  2.02it/s] 30%|███       | 3343/11074 [28:43<1:03:39,  2.02it/s] 30%|███       | 3344/11074 [28:44<1:03:44,  2.02it/s] 30%|███       | 3345/11074 [28:44<1:03:38,  2.02it/s] 30%|███       | 3346/11074 [28:45<1:03:38,  2.02it/s] 30%|███       | 3347/11074 [28:45<1:03:38,  2.02it/s] 30%|███       | 3348/11074 [28:46<1:03:43,  2.02it/s] 30%|███       | 3349/11074 [28:46<1:03:37,  2.02it/s] 30%|███       | 3350/11074 [28:47<1:03:37,  2.02it/s]{'loss': 3.6572, 'grad_norm': 0.22353991866111755, 'learning_rate': 0.0008802388075692465, 'epoch': 4.23}
-                                                       30%|███       | 3350/11074 [28:47<1:03:37,  2.02it/s] 30%|███       | 3351/11074 [28:47<1:03:40,  2.02it/s] 30%|███       | 3352/11074 [28:48<1:03:39,  2.02it/s] 30%|███       | 3353/11074 [28:48<1:03:35,  2.02it/s] 30%|███       | 3354/11074 [28:49<1:03:35,  2.02it/s] 30%|███       | 3355/11074 [28:49<1:03:37,  2.02it/s] 30%|███       | 3356/11074 [28:50<1:03:40,  2.02it/s] 30%|███       | 3357/11074 [28:50<1:03:36,  2.02it/s] 30%|███       | 3358/11074 [28:51<1:03:36,  2.02it/s] 30%|███       | 3359/11074 [28:51<1:03:36,  2.02it/s] 30%|███       | 3360/11074 [28:52<1:03:37,  2.02it/s] 30%|███       | 3361/11074 [28:52<1:03:35,  2.02it/s] 30%|███       | 3362/11074 [28:53<1:03:36,  2.02it/s] 30%|███       | 3363/11074 [28:53<1:03:35,  2.02it/s] 30%|███       | 3364/11074 [28:54<1:03:33,  2.02it/s] 30%|███       | 3365/11074 [28:54<1:03:32,  2.02it/s] 30%|███       | 3366/11074 [28:55<1:03:31,  2.02it/s] 30%|███       | 3367/11074 [28:55<1:03:33,  2.02it/s] 30%|███       | 3368/11074 [28:56<1:03:35,  2.02it/s] 30%|███       | 3369/11074 [28:56<1:03:32,  2.02it/s] 30%|███       | 3370/11074 [28:57<1:03:28,  2.02it/s] 30%|███       | 3371/11074 [28:57<1:03:27,  2.02it/s] 30%|███       | 3372/11074 [28:58<1:03:23,  2.03it/s] 30%|███       | 3373/11074 [28:58<1:03:26,  2.02it/s] 30%|███       | 3374/11074 [28:59<1:03:25,  2.02it/s] 30%|███       | 3375/11074 [28:59<1:03:25,  2.02it/s]{'loss': 3.6608, 'grad_norm': 0.2225199043750763, 'learning_rate': 0.0008776682796541311, 'epoch': 4.26}
-                                                       30%|███       | 3375/11074 [28:59<1:03:25,  2.02it/s] 30%|███       | 3376/11074 [29:00<1:03:28,  2.02it/s] 30%|███       | 3377/11074 [29:00<1:03:28,  2.02it/s] 31%|███       | 3378/11074 [29:01<1:03:25,  2.02it/s] 31%|███       | 3379/11074 [29:01<1:03:26,  2.02it/s] 31%|███       | 3380/11074 [29:02<1:03:25,  2.02it/s] 31%|███       | 3381/11074 [29:02<1:03:27,  2.02it/s] 31%|███       | 3382/11074 [29:03<1:03:22,  2.02it/s] 31%|███       | 3383/11074 [29:03<1:03:22,  2.02it/s] 31%|███       | 3384/11074 [29:04<1:03:18,  2.02it/s] 31%|███       | 3385/11074 [29:04<1:03:21,  2.02it/s] 31%|███       | 3386/11074 [29:05<1:03:18,  2.02it/s] 31%|███       | 3387/11074 [29:05<1:03:16,  2.02it/s] 31%|███       | 3388/11074 [29:06<1:03:19,  2.02it/s] 31%|███       | 3389/11074 [29:06<1:03:15,  2.02it/s] 31%|███       | 3390/11074 [29:07<1:03:18,  2.02it/s] 31%|███       | 3391/11074 [29:07<1:03:12,  2.03it/s] 31%|███       | 3392/11074 [29:08<1:03:13,  2.03it/s] 31%|███       | 3393/11074 [29:08<1:03:11,  2.03it/s] 31%|███       | 3394/11074 [29:09<1:03:11,  2.03it/s] 31%|███       | 3395/11074 [29:09<1:03:10,  2.03it/s] 31%|███       | 3396/11074 [29:10<1:03:13,  2.02it/s] 31%|███       | 3397/11074 [29:10<1:03:10,  2.03it/s] 31%|███       | 3398/11074 [29:11<1:03:12,  2.02it/s] 31%|███       | 3399/11074 [29:11<1:03:13,  2.02it/s] 31%|███       | 3400/11074 [29:12<1:03:10,  2.02it/s]{'loss': 3.6573, 'grad_norm': 0.22175776958465576, 'learning_rate': 0.0008750742961545408, 'epoch': 4.3}
-                                                       31%|███       | 3400/11074 [29:12<1:03:10,  2.02it/s] 31%|███       | 3401/11074 [29:12<1:03:14,  2.02it/s] 31%|███       | 3402/11074 [29:13<1:03:13,  2.02it/s] 31%|███       | 3403/11074 [29:13<1:03:11,  2.02it/s] 31%|███       | 3404/11074 [29:14<1:03:05,  2.03it/s] 31%|███       | 3405/11074 [29:14<1:03:09,  2.02it/s] 31%|███       | 3406/11074 [29:15<1:03:04,  2.03it/s] 31%|███       | 3407/11074 [29:15<1:03:08,  2.02it/s] 31%|███       | 3408/11074 [29:15<1:03:04,  2.03it/s] 31%|███       | 3409/11074 [29:16<1:03:07,  2.02it/s] 31%|███       | 3410/11074 [29:16<1:03:06,  2.02it/s] 31%|███       | 3411/11074 [29:17<1:03:09,  2.02it/s] 31%|███       | 3412/11074 [29:17<1:03:09,  2.02it/s] 31%|███       | 3413/11074 [29:18<1:03:08,  2.02it/s] 31%|███       | 3414/11074 [29:18<1:03:09,  2.02it/s] 31%|███       | 3415/11074 [29:19<1:03:11,  2.02it/s] 31%|███       | 3416/11074 [29:19<1:03:09,  2.02it/s] 31%|███       | 3417/11074 [29:20<1:03:08,  2.02it/s] 31%|███       | 3418/11074 [29:20<1:03:07,  2.02it/s] 31%|███       | 3419/11074 [29:21<1:03:05,  2.02it/s] 31%|███       | 3420/11074 [29:21<1:03:04,  2.02it/s] 31%|███       | 3421/11074 [29:22<1:03:05,  2.02it/s] 31%|███       | 3422/11074 [29:22<1:03:03,  2.02it/s] 31%|███       | 3423/11074 [29:23<1:03:04,  2.02it/s] 31%|███       | 3424/11074 [29:23<1:03:04,  2.02it/s] 31%|███       | 3425/11074 [29:24<1:03:03,  2.02it/s]{'loss': 3.6638, 'grad_norm': 0.23836736381053925, 'learning_rate': 0.0008724570181732274, 'epoch': 4.33}                                                      
- 31%|███       | 3425/11074 [29:24<1:03:03,  2.02it/s] 31%|███       | 3426/11074 [29:24<1:03:10,  2.02it/s] 31%|███       | 3427/11074 [29:25<1:03:07,  2.02it/s] 31%|███       | 3428/11074 [29:25<1:03:01,  2.02it/s] 31%|███       | 3429/11074 [29:26<1:03:01,  2.02it/s] 31%|███       | 3430/11074 [29:26<1:03:02,  2.02it/s] 31%|███       | 3431/11074 [29:27<1:02:56,  2.02it/s] 31%|███       | 3432/11074 [29:27<1:03:01,  2.02it/s] 31%|███       | 3433/11074 [29:28<1:03:00,  2.02it/s] 31%|███       | 3434/11074 [29:28<1:03:02,  2.02it/s] 31%|███       | 3435/11074 [29:29<1:03:00,  2.02it/s] 31%|███       | 3436/11074 [29:29<1:03:01,  2.02it/s] 31%|███       | 3437/11074 [29:30<1:02:58,  2.02it/s] 31%|███       | 3438/11074 [29:30<1:02:55,  2.02it/s] 31%|███       | 3439/11074 [29:31<1:02:56,  2.02it/s] 31%|███       | 3440/11074 [29:31<1:02:48,  2.03it/s] 31%|███       | 3441/11074 [29:32<1:02:52,  2.02it/s] 31%|███       | 3442/11074 [29:32<1:02:50,  2.02it/s] 31%|███       | 3443/11074 [29:33<1:02:49,  2.02it/s] 31%|███       | 3444/11074 [29:33<1:02:51,  2.02it/s] 31%|███       | 3445/11074 [29:34<1:02:51,  2.02it/s] 31%|███       | 3446/11074 [29:34<1:02:53,  2.02it/s] 31%|███       | 3447/11074 [29:35<1:02:50,  2.02it/s] 31%|███       | 3448/11074 [29:35<1:02:48,  2.02it/s] 31%|███       | 3449/11074 [29:36<1:02:50,  2.02it/s] 31%|███       | 3450/11074 [29:36<1:02:52,  2.02it/s]{'loss': 3.6658, 'grad_norm': 0.22638899087905884, 'learning_rate': 0.000869816608259677, 'epoch': 4.36}                                                      
- 31%|███       | 3450/11074 [29:36<1:02:52,  2.02it/s] 31%|███       | 3451/11074 [29:37<1:02:51,  2.02it/s] 31%|███       | 3452/11074 [29:37<1:02:53,  2.02it/s] 31%|███       | 3453/11074 [29:38<1:02:51,  2.02it/s] 31%|███       | 3454/11074 [29:38<1:02:53,  2.02it/s] 31%|███       | 3455/11074 [29:39<1:02:46,  2.02it/s] 31%|███       | 3456/11074 [29:39<1:02:49,  2.02it/s] 31%|███       | 3457/11074 [29:40<1:02:45,  2.02it/s] 31%|███       | 3458/11074 [29:40<1:02:47,  2.02it/s] 31%|███       | 3459/11074 [29:41<1:02:42,  2.02it/s] 31%|███       | 3460/11074 [29:41<1:02:48,  2.02it/s] 31%|███▏      | 3461/11074 [29:42<1:02:43,  2.02it/s] 31%|███▏      | 3462/11074 [29:42<1:02:45,  2.02it/s] 31%|███▏      | 3463/11074 [29:43<1:02:42,  2.02it/s] 31%|███▏      | 3464/11074 [29:43<1:02:43,  2.02it/s] 31%|███▏      | 3465/11074 [29:44<1:02:39,  2.02it/s] 31%|███▏      | 3466/11074 [29:44<1:02:46,  2.02it/s] 31%|███▏      | 3467/11074 [29:45<1:02:38,  2.02it/s] 31%|███▏      | 3468/11074 [29:45<1:02:41,  2.02it/s] 31%|███▏      | 3469/11074 [29:46<1:02:36,  2.02it/s] 31%|███▏      | 3470/11074 [29:46<1:02:37,  2.02it/s] 31%|███▏      | 3471/11074 [29:47<1:02:38,  2.02it/s] 31%|███▏      | 3472/11074 [29:47<1:02:42,  2.02it/s] 31%|███▏      | 3473/11074 [29:48<1:02:40,  2.02it/s] 31%|███▏      | 3474/11074 [29:48<1:02:41,  2.02it/s] 31%|███▏      | 3475/11074 [29:49<1:02:35,  2.02it/s]{'loss': 3.6618, 'grad_norm': 0.21777622401714325, 'learning_rate': 0.0008671532304000148, 'epoch': 4.39}                                                      
- 31%|███▏      | 3475/11074 [29:49<1:02:35,  2.02it/s] 31%|███▏      | 3476/11074 [29:49<1:02:45,  2.02it/s] 31%|███▏      | 3477/11074 [29:50<1:02:38,  2.02it/s] 31%|███▏      | 3478/11074 [29:50<1:02:40,  2.02it/s] 31%|███▏      | 3479/11074 [29:51<1:02:33,  2.02it/s] 31%|███▏      | 3480/11074 [29:51<1:02:36,  2.02it/s] 31%|███▏      | 3481/11074 [29:52<1:02:31,  2.02it/s] 31%|███▏      | 3482/11074 [29:52<1:02:34,  2.02it/s] 31%|███▏      | 3483/11074 [29:53<1:02:30,  2.02it/s] 31%|███▏      | 3484/11074 [29:53<1:02:36,  2.02it/s] 31%|███▏      | 3485/11074 [29:54<1:02:33,  2.02it/s] 31%|███▏      | 3486/11074 [29:54<1:02:34,  2.02it/s] 31%|███▏      | 3487/11074 [29:55<1:02:30,  2.02it/s] 31%|███▏      | 3488/11074 [29:55<1:02:33,  2.02it/s] 32%|███▏      | 3489/11074 [29:56<1:02:27,  2.02it/s] 32%|███▏      | 3490/11074 [29:56<1:02:28,  2.02it/s] 32%|███▏      | 3491/11074 [29:57<1:02:26,  2.02it/s] 32%|███▏      | 3492/11074 [29:57<1:02:25,  2.02it/s] 32%|███▏      | 3493/11074 [29:58<1:02:26,  2.02it/s] 32%|███▏      | 3494/11074 [29:58<1:02:25,  2.02it/s] 32%|███▏      | 3495/11074 [29:59<1:02:27,  2.02it/s] 32%|███▏      | 3496/11074 [29:59<1:02:22,  2.02it/s] 32%|███▏      | 3497/11074 [30:00<1:02:26,  2.02it/s] 32%|███▏      | 3498/11074 [30:00<1:02:26,  2.02it/s] 32%|███▏      | 3499/11074 [30:00<1:02:27,  2.02it/s] 32%|███▏      | 3500/11074 [30:01<1:02:23,  2.02it/s]{'loss': 3.662, 'grad_norm': 0.21918591856956482, 'learning_rate': 0.0008644670500068204, 'epoch': 4.42}                                                      
- 32%|███▏      | 3500/11074 [30:01<1:02:23,  2.02it/s] 32%|███▏      | 3501/11074 [30:01<1:02:29,  2.02it/s] 32%|███▏      | 3502/11074 [30:02<1:02:23,  2.02it/s] 32%|███▏      | 3503/11074 [30:02<1:02:26,  2.02it/s] 32%|███▏      | 3504/11074 [30:03<1:02:21,  2.02it/s] 32%|███▏      | 3505/11074 [30:03<1:02:23,  2.02it/s] 32%|███▏      | 3506/11074 [30:04<1:02:19,  2.02it/s] 32%|███▏      | 3507/11074 [30:04<1:02:23,  2.02it/s] 32%|███▏      | 3508/11074 [30:05<1:02:18,  2.02it/s] 32%|███▏      | 3509/11074 [30:05<1:02:20,  2.02it/s] 32%|███▏      | 3510/11074 [30:06<1:02:18,  2.02it/s] 32%|███▏      | 3511/11074 [30:06<1:02:18,  2.02it/s] 32%|███▏      | 3512/11074 [30:07<1:02:18,  2.02it/s] 32%|███▏      | 3513/11074 [30:07<1:02:17,  2.02it/s] 32%|███▏      | 3514/11074 [30:08<1:02:18,  2.02it/s] 32%|███▏      | 3515/11074 [30:08<1:02:18,  2.02it/s] 32%|███▏      | 3516/11074 [30:09<1:02:21,  2.02it/s] 32%|███▏      | 3517/11074 [30:09<1:02:18,  2.02it/s] 32%|███▏      | 3518/11074 [30:10<1:02:19,  2.02it/s] 32%|███▏      | 3519/11074 [30:10<1:02:20,  2.02it/s] 32%|███▏      | 3520/11074 [30:11<1:02:20,  2.02it/s] 32%|███▏      | 3521/11074 [30:11<1:02:19,  2.02it/s] 32%|███▏      | 3522/11074 [30:12<1:02:16,  2.02it/s] 32%|███▏      | 3523/11074 [30:12<1:02:15,  2.02it/s] 32%|███▏      | 3524/11074 [30:13<1:02:14,  2.02it/s] 32%|███▏      | 3525/11074 [30:13<1:02:15,  2.02it/s]{'loss': 3.6677, 'grad_norm': 0.22465039789676666, 'learning_rate': 0.0008617582339088545, 'epoch': 4.45}
-                                                       32%|███▏      | 3525/11074 [30:13<1:02:15,  2.02it/s] 32%|███▏      | 3526/11074 [30:14<1:02:20,  2.02it/s] 32%|███▏      | 3527/11074 [30:14<1:02:19,  2.02it/s] 32%|███▏      | 3528/11074 [30:15<1:02:14,  2.02it/s] 32%|███▏      | 3529/11074 [30:15<1:02:11,  2.02it/s] 32%|███▏      | 3530/11074 [30:16<1:02:10,  2.02it/s] 32%|███▏      | 3531/11074 [30:16<1:02:09,  2.02it/s] 32%|███▏      | 3532/11074 [30:17<1:02:10,  2.02it/s] 32%|███▏      | 3533/11074 [30:17<1:02:10,  2.02it/s] 32%|███▏      | 3534/11074 [30:18<1:02:08,  2.02it/s] 32%|███▏      | 3535/11074 [30:18<1:02:07,  2.02it/s] 32%|███▏      | 3536/11074 [30:19<1:02:07,  2.02it/s] 32%|███▏      | 3537/11074 [30:19<1:02:09,  2.02it/s] 32%|███▏      | 3538/11074 [30:20<1:02:07,  2.02it/s] 32%|███▏      | 3539/11074 [30:20<1:02:06,  2.02it/s] 32%|███▏      | 3540/11074 [30:21<1:02:04,  2.02it/s] 32%|███▏      | 3541/11074 [30:21<1:02:05,  2.02it/s] 32%|███▏      | 3542/11074 [30:22<1:02:08,  2.02it/s] 32%|███▏      | 3543/11074 [30:22<1:02:10,  2.02it/s] 32%|███▏      | 3544/11074 [30:23<1:02:09,  2.02it/s] 32%|███▏      | 3545/11074 [30:23<1:02:08,  2.02it/s] 32%|███▏      | 3546/11074 [30:24<1:02:08,  2.02it/s] 32%|███▏      | 3547/11074 [30:24<1:02:07,  2.02it/s] 32%|███▏      | 3548/11074 [30:25<1:02:02,  2.02it/s] 32%|███▏      | 3549/11074 [30:25<1:02:06,  2.02it/s] 32%|███▏      | 3550/11074 [30:26<1:01:59,  2.02it/s]                                                      {'loss': 3.674, 'grad_norm': 0.221734419465065, 'learning_rate': 0.0008590269503406985, 'epoch': 4.49}
- 32%|███▏      | 3550/11074 [30:26<1:01:59,  2.02it/s] 32%|███▏      | 3551/11074 [30:26<1:02:05,  2.02it/s] 32%|███▏      | 3552/11074 [30:27<1:02:04,  2.02it/s] 32%|███▏      | 3553/11074 [30:27<1:02:03,  2.02it/s] 32%|███▏      | 3554/11074 [30:28<1:02:00,  2.02it/s] 32%|███▏      | 3555/11074 [30:28<1:02:03,  2.02it/s] 32%|███▏      | 3556/11074 [30:29<1:02:00,  2.02it/s] 32%|███▏      | 3557/11074 [30:29<1:02:05,  2.02it/s] 32%|███▏      | 3558/11074 [30:30<1:02:02,  2.02it/s] 32%|███▏      | 3559/11074 [30:30<1:01:59,  2.02it/s] 32%|███▏      | 3560/11074 [30:31<1:01:57,  2.02it/s] 32%|███▏      | 3561/11074 [30:31<1:01:56,  2.02it/s] 32%|███▏      | 3562/11074 [30:32<1:01:55,  2.02it/s] 32%|███▏      | 3563/11074 [30:32<1:01:56,  2.02it/s] 32%|███▏      | 3564/11074 [30:33<1:01:55,  2.02it/s] 32%|███▏      | 3565/11074 [30:33<1:01:54,  2.02it/s] 32%|███▏      | 3566/11074 [30:34<1:01:55,  2.02it/s] 32%|███▏      | 3567/11074 [30:34<1:01:55,  2.02it/s] 32%|███▏      | 3568/11074 [30:35<1:01:55,  2.02it/s] 32%|███▏      | 3569/11074 [30:35<1:01:53,  2.02it/s] 32%|███▏      | 3570/11074 [30:36<1:01:51,  2.02it/s] 32%|███▏      | 3571/11074 [30:36<1:01:45,  2.03it/s] 32%|███▏      | 3572/11074 [30:37<1:01:46,  2.02it/s] 32%|███▏      | 3573/11074 [30:37<1:01:40,  2.03it/s] 32%|███▏      | 3574/11074 [30:38<1:01:43,  2.03it/s] 32%|███▏      | 3575/11074 [30:38<1:01:42,  2.03it/s]{'loss': 3.6702, 'grad_norm': 0.21935613453388214, 'learning_rate': 0.000856273368932305, 'epoch': 4.52}
-                                                       32%|███▏      | 3575/11074 [30:38<1:01:42,  2.03it/s] 32%|███▏      | 3576/11074 [30:39<1:01:45,  2.02it/s] 32%|███▏      | 3577/11074 [30:39<1:01:51,  2.02it/s] 32%|███▏      | 3578/11074 [30:40<1:01:53,  2.02it/s] 32%|███▏      | 3579/11074 [30:40<1:01:50,  2.02it/s] 32%|███▏      | 3580/11074 [30:41<1:01:47,  2.02it/s] 32%|███▏      | 3581/11074 [30:41<1:01:45,  2.02it/s] 32%|███▏      | 3582/11074 [30:42<1:01:47,  2.02it/s] 32%|███▏      | 3583/11074 [30:42<1:01:47,  2.02it/s] 32%|███▏      | 3584/11074 [30:43<1:01:47,  2.02it/s] 32%|███▏      | 3585/11074 [30:43<1:01:44,  2.02it/s] 32%|███▏      | 3586/11074 [30:44<1:01:43,  2.02it/s] 32%|███▏      | 3587/11074 [30:44<1:01:43,  2.02it/s] 32%|███▏      | 3588/11074 [30:45<1:01:43,  2.02it/s] 32%|███▏      | 3589/11074 [30:45<1:01:46,  2.02it/s] 32%|███▏      | 3590/11074 [30:46<1:01:42,  2.02it/s] 32%|███▏      | 3591/11074 [30:46<1:01:38,  2.02it/s] 32%|███▏      | 3592/11074 [30:47<1:01:38,  2.02it/s] 32%|███▏      | 3593/11074 [30:47<1:01:35,  2.02it/s] 32%|███▏      | 3594/11074 [30:47<1:01:37,  2.02it/s] 32%|███▏      | 3595/11074 [30:48<1:01:32,  2.03it/s] 32%|███▏      | 3596/11074 [30:48<1:01:36,  2.02it/s] 32%|███▏      | 3597/11074 [30:49<1:01:31,  2.03it/s] 32%|███▏      | 3598/11074 [30:49<1:01:33,  2.02it/s] 32%|███▏      | 3599/11074 [30:50<1:01:31,  2.03it/s] 33%|███▎      | 3600/11074 [30:50<1:01:33,  2.02it/s]                                                      {'loss': 3.6748, 'grad_norm': 0.214516744017601, 'learning_rate': 0.0008534976606984635, 'epoch': 4.55}
- 33%|███▎      | 3600/11074 [30:50<1:01:33,  2.02it/s] 33%|███▎      | 3601/11074 [30:51<1:01:46,  2.02it/s] 33%|███▎      | 3602/11074 [30:51<1:01:42,  2.02it/s] 33%|███▎      | 3603/11074 [30:52<1:01:36,  2.02it/s] 33%|███▎      | 3604/11074 [30:52<1:01:36,  2.02it/s] 33%|███▎      | 3605/11074 [30:53<1:01:29,  2.02it/s] 33%|███▎      | 3606/11074 [30:53<1:01:33,  2.02it/s] 33%|███▎      | 3607/11074 [30:54<1:01:28,  2.02it/s] 33%|███▎      | 3608/11074 [30:54<1:01:31,  2.02it/s] 33%|███▎      | 3609/11074 [30:55<1:01:27,  2.02it/s] 33%|███▎      | 3610/11074 [30:55<1:01:28,  2.02it/s] 33%|███▎      | 3611/11074 [30:56<1:01:26,  2.02it/s] 33%|███▎      | 3612/11074 [30:56<1:01:24,  2.03it/s] 33%|███▎      | 3613/11074 [30:57<1:01:23,  2.03it/s] 33%|███▎      | 3614/11074 [30:57<1:01:24,  2.02it/s] 33%|███▎      | 3615/11074 [30:58<1:01:24,  2.02it/s] 33%|███▎      | 3616/11074 [30:58<1:01:24,  2.02it/s] 33%|███▎      | 3617/11074 [30:59<1:01:22,  2.02it/s] 33%|███▎      | 3618/11074 [30:59<1:01:24,  2.02it/s] 33%|███▎      | 3619/11074 [31:00<1:01:26,  2.02it/s] 33%|███▎      | 3620/11074 [31:00<1:01:21,  2.02it/s] 33%|███▎      | 3621/11074 [31:01<1:01:26,  2.02it/s] 33%|███▎      | 3622/11074 [31:01<1:01:22,  2.02it/s] 33%|███▎      | 3623/11074 [31:02<1:01:23,  2.02it/s] 33%|█���█▎      | 3624/11074 [31:02<1:01:20,  2.02it/s] 33%|███▎      | 3625/11074 [31:03<1:01:20,  2.02it/s]                                                      {'loss': 3.6714, 'grad_norm': 0.21085797250270844, 'learning_rate': 0.0008506999980281791, 'epoch': 4.58}
- 33%|███▎      | 3625/11074 [31:03<1:01:20,  2.02it/s] 33%|███▎      | 3626/11074 [31:03<1:01:18,  2.02it/s] 33%|███▎      | 3627/11074 [31:04<1:01:21,  2.02it/s] 33%|███▎      | 3628/11074 [31:04<1:01:15,  2.03it/s] 33%|███▎      | 3629/11074 [31:05<1:01:17,  2.02it/s] 33%|███▎      | 3630/11074 [31:05<1:01:14,  2.03it/s] 33%|███▎      | 3631/11074 [31:06<1:01:14,  2.03it/s] 33%|███▎      | 3632/11074 [31:06<1:01:17,  2.02it/s] 33%|███▎      | 3633/11074 [31:07<1:01:15,  2.02it/s] 33%|███▎      | 3634/11074 [31:07<1:01:16,  2.02it/s] 33%|███▎      | 3635/11074 [31:08<1:01:13,  2.03it/s] 33%|███▎      | 3636/11074 [31:08<1:01:15,  2.02it/s] 33%|███▎      | 3637/11074 [31:09<1:01:11,  2.03it/s] 33%|███▎      | 3638/11074 [31:09<1:01:16,  2.02it/s] 33%|███▎      | 3639/11074 [31:10<1:01:10,  2.03it/s] 33%|███▎      | 3640/11074 [31:10<1:01:14,  2.02it/s] 33%|███▎      | 3641/11074 [31:11<1:01:10,  2.03it/s] 33%|███▎      | 3642/11074 [31:11<1:01:12,  2.02it/s] 33%|███▎      | 3643/11074 [31:12<1:01:13,  2.02it/s] 33%|███▎      | 3644/11074 [31:12<1:01:09,  2.02it/s] 33%|███▎      | 3645/11074 [31:13<1:01:10,  2.02it/s] 33%|███▎      | 3646/11074 [31:13<1:01:04,  2.03it/s] 33%|███▎      | 3647/11074 [31:14<1:01:13,  2.02it/s] 33%|███▎      | 3648/11074 [31:14<1:01:12,  2.02it/s] 33%|███▎      | 3649/11074 [31:15<1:01:13,  2.02it/s] 33%|███▎      | 3650/11074 [31:15<1:01:09,  2.02it/s]                                                      {'loss': 3.6738, 'grad_norm': 0.2121991068124771, 'learning_rate': 0.000847880554673966, 'epoch': 4.61}
- 33%|███▎      | 3650/11074 [31:15<1:01:09,  2.02it/s] 33%|███▎      | 3651/11074 [31:16<1:01:17,  2.02it/s] 33%|███▎      | 3652/11074 [31:16<1:01:10,  2.02it/s] 33%|███▎      | 3653/11074 [31:17<1:01:12,  2.02it/s] 33%|███▎      | 3654/11074 [31:17<1:01:06,  2.02it/s] 33%|███▎      | 3655/11074 [31:18<1:01:06,  2.02it/s] 33%|███▎      | 3656/11074 [31:18<1:01:05,  2.02it/s] 33%|███▎      | 3657/11074 [31:19<1:01:06,  2.02it/s] 33%|███▎      | 3658/11074 [31:19<1:01:03,  2.02it/s] 33%|███▎      | 3659/11074 [31:20<1:01:12,  2.02it/s] 33%|███▎      | 3660/11074 [31:20<1:01:08,  2.02it/s] 33%|███▎      | 3661/11074 [31:21<1:01:07,  2.02it/s] 33%|███▎      | 3662/11074 [31:21<1:01:05,  2.02it/s] 33%|███▎      | 3663/11074 [31:22<1:01:03,  2.02it/s] 33%|███▎      | 3664/11074 [31:22<1:01:04,  2.02it/s] 33%|███▎      | 3665/11074 [31:23<1:01:02,  2.02it/s] 33%|███▎      | 3666/11074 [31:23<1:01:00,  2.02it/s] 33%|███▎      | 3667/11074 [31:24<1:01:01,  2.02it/s] 33%|███▎      | 3668/11074 [31:24<1:01:01,  2.02it/s] 33%|███▎      | 3669/11074 [31:25<1:00:59,  2.02it/s] 33%|███▎      | 3670/11074 [31:25<1:01:00,  2.02it/s] 33%|███▎      | 3671/11074 [31:26<1:00:56,  2.02it/s] 33%|███▎      | 3672/11074 [31:26<1:00:58,  2.02it/s] 33%|███▎      | 3673/11074 [31:27<1:00:56,  2.02it/s] 33%|███▎      | 3674/11074 [31:27<1:00:59,  2.02it/s] 33%|███▎      | 3675/11074 [31:28<1:00:59,  2.02it/s]{'loss': 3.6753, 'grad_norm': 0.2240818440914154, 'learning_rate': 0.000845039505741056, 'epoch': 4.64}                                                      
- 33%|███▎      | 3675/11074 [31:28<1:00:59,  2.02it/s] 33%|███▎      | 3676/11074 [31:28<1:01:01,  2.02it/s] 33%|███▎      | 3677/11074 [31:29<1:00:59,  2.02it/s] 33%|███▎      | 3678/11074 [31:29<1:00:58,  2.02it/s] 33%|███▎      | 3679/11074 [31:30<1:00:51,  2.03it/s] 33%|███▎      | 3680/11074 [31:30<1:00:55,  2.02it/s] 33%|███▎      | 3681/11074 [31:30<1:00:52,  2.02it/s] 33%|███▎      | 3682/11074 [31:31<1:00:55,  2.02it/s] 33%|███▎      | 3683/11074 [31:31<1:00:52,  2.02it/s] 33%|███▎      | 3684/11074 [31:32<1:00:54,  2.02it/s] 33%|███▎      | 3685/11074 [31:32<1:00:49,  2.02it/s] 33%|███▎      | 3686/11074 [31:33<1:00:50,  2.02it/s] 33%|███▎      | 3687/11074 [31:33<1:00:51,  2.02it/s] 33%|███▎      | 3688/11074 [31:34<1:00:51,  2.02it/s] 33%|███▎      | 3689/11074 [31:34<1:00:49,  2.02it/s] 33%|███▎      | 3690/11074 [31:35<1:00:50,  2.02it/s] 33%|███▎      | 3691/11074 [31:35<1:00:49,  2.02it/s] 33%|███▎      | 3692/11074 [31:36<1:00:47,  2.02it/s] 33%|███▎      | 3693/11074 [31:36<1:00:47,  2.02it/s] 33%|███▎      | 3694/11074 [31:37<1:00:48,  2.02it/s] 33%|███▎      | 3695/11074 [31:37<1:00:46,  2.02it/s] 33%|███▎      | 3696/11074 [31:38<1:00:48,  2.02it/s] 33%|███▎      | 3697/11074 [31:38<1:00:47,  2.02it/s] 33%|███▎      | 3698/11074 [31:39<1:00:46,  2.02it/s] 33%|███▎      | 3699/11074 [31:39<1:00:47,  2.02it/s] 33%|███▎      | 3700/11074 [31:40<1:00:48,  2.02it/s]{'loss': 3.6707, 'grad_norm': 0.2103637307882309, 'learning_rate': 0.0008421770276765244, 'epoch': 4.67}
-                                                       33%|███▎      | 3700/11074 [31:40<1:00:48,  2.02it/s] 33%|███▎      | 3701/11074 [31:40<1:00:50,  2.02it/s] 33%|███▎      | 3702/11074 [31:41<1:00:47,  2.02it/s] 33%|███▎      | 3703/11074 [31:41<1:00:47,  2.02it/s] 33%|███▎      | 3704/11074 [31:42<1:00:44,  2.02it/s] 33%|███▎      | 3705/11074 [31:42<1:00:44,  2.02it/s] 33%|███▎      | 3706/11074 [31:43<1:00:43,  2.02it/s] 33%|███▎      | 3707/11074 [31:43<1:00:43,  2.02it/s] 33%|███▎      | 3708/11074 [31:44<1:00:46,  2.02it/s] 33%|███▎      | 3709/11074 [31:44<1:00:43,  2.02it/s] 34%|███▎      | 3710/11074 [31:45<1:00:43,  2.02it/s] 34%|███▎      | 3711/11074 [31:45<1:00:40,  2.02it/s] 34%|███▎      | 3712/11074 [31:46<1:00:40,  2.02it/s] 34%|███▎      | 3713/11074 [31:46<1:00:36,  2.02it/s] 34%|███▎      | 3714/11074 [31:47<1:00:36,  2.02it/s] 34%|███▎      | 3715/11074 [31:47<1:00:36,  2.02it/s] 34%|███▎      | 3716/11074 [31:48<1:00:38,  2.02it/s] 34%|███▎      | 3717/11074 [31:48<1:00:38,  2.02it/s] 34%|███▎      | 3718/11074 [31:49<1:00:40,  2.02it/s] 34%|███▎      | 3719/11074 [31:49<1:00:37,  2.02it/s] 34%|███▎      | 3720/11074 [31:50<1:00:34,  2.02it/s] 34%|███▎      | 3721/11074 [31:50<1:00:35,  2.02it/s] 34%|███▎      | 3722/11074 [31:51<1:00:35,  2.02it/s] 34%|███▎      | 3723/11074 [31:51<1:00:34,  2.02it/s] 34%|███▎      | 3724/11074 [31:52<1:00:31,  2.02it/s] 34%|███▎      | 3725/11074 [31:52<1:00:26,  2.03it/s]                                                      {'loss': 3.6756, 'grad_norm': 0.21801400184631348, 'learning_rate': 0.0008392932982583301, 'epoch': 4.71}
- 34%|███▎      | 3725/11074 [31:52<1:00:26,  2.03it/s] 34%|███▎      | 3726/11074 [31:53<1:00:39,  2.02it/s] 34%|███▎      | 3727/11074 [31:53<1:00:35,  2.02it/s] 34%|███▎      | 3728/11074 [31:54<1:00:34,  2.02it/s] 34%|███▎      | 3729/11074 [31:54<1:00:33,  2.02it/s] 34%|███▎      | 3730/11074 [31:55<1:00:30,  2.02it/s] 34%|███▎      | 3731/11074 [31:55<1:00:24,  2.03it/s] 34%|███▎      | 3732/11074 [31:56<1:00:27,  2.02it/s] 34%|███▎      | 3733/11074 [31:56<1:00:21,  2.03it/s] 34%|███▎      | 3734/11074 [31:57<1:00:27,  2.02it/s] 34%|███▎      | 3735/11074 [31:57<1:00:22,  2.03it/s] 34%|███▎      | 3736/11074 [31:58<1:00:21,  2.03it/s] 34%|███▎      | 3737/11074 [31:58<1:00:20,  2.03it/s] 34%|███▍      | 3738/11074 [31:59<1:00:24,  2.02it/s] 34%|███▍      | 3739/11074 [31:59<1:00:23,  2.02it/s] 34%|███▍      | 3740/11074 [32:00<1:00:25,  2.02it/s] 34%|███▍      | 3741/11074 [32:00<1:00:25,  2.02it/s] 34%|███▍      | 3742/11074 [32:01<1:00:21,  2.02it/s] 34%|███▍      | 3743/11074 [32:01<1:00:21,  2.02it/s] 34%|███▍      | 3744/11074 [32:02<1:00:22,  2.02it/s] 34%|███▍      | 3745/11074 [32:02<1:00:22,  2.02it/s] 34%|███▍      | 3746/11074 [32:03<1:00:18,  2.03it/s] 34%|███▍      | 3747/11074 [32:03<1:00:21,  2.02it/s] 34%|███▍      | 3748/11074 [32:04<1:00:16,  2.03it/s] 34%|███▍      | 3749/11074 [32:04<1:00:17,  2.02it/s] 34%|███▍      | 3750/11074 [32:05<1:00:15,  2.03it/s]                                                      {'loss': 3.6711, 'grad_norm': 0.21465517580509186, 'learning_rate': 0.0008363884965842758, 'epoch': 4.74}
- 34%|███▍      | 3750/11074 [32:05<1:00:15,  2.03it/s] 34%|███▍      | 3751/11074 [32:05<1:00:19,  2.02it/s] 34%|███▍      | 3752/11074 [32:06<1:00:15,  2.03it/s] 34%|███▍      | 3753/11074 [32:06<1:00:26,  2.02it/s] 34%|███▍      | 3754/11074 [32:07<1:00:19,  2.02it/s] 34%|███▍      | 3755/11074 [32:07<1:00:18,  2.02it/s] 34%|███▍      | 3756/11074 [32:08<1:00:12,  2.03it/s] 34%|███▍      | 3757/11074 [32:08<1:00:13,  2.02it/s] 34%|███▍      | 3758/11074 [32:09<1:00:11,  2.03it/s] 34%|███▍      | 3759/11074 [32:09<1:00:06,  2.03it/s] 34%|███▍      | 3760/11074 [32:10<1:00:10,  2.03it/s] 34%|███▍      | 3761/11074 [32:10<1:00:08,  2.03it/s] 34%|███▍      | 3762/11074 [32:11<1:00:13,  2.02it/s] 34%|███▍      | 3763/11074 [32:11<1:00:09,  2.03it/s] 34%|███▍      | 3764/11074 [32:12<1:00:11,  2.02it/s] 34%|███���      | 3765/11074 [32:12<1:00:09,  2.02it/s] 34%|███▍      | 3766/11074 [32:13<1:00:09,  2.02it/s] 34%|███▍      | 3767/11074 [32:13<1:00:08,  2.03it/s] 34%|███▍      | 3768/11074 [32:13<1:00:05,  2.03it/s] 34%|███▍      | 3769/11074 [32:14<1:00:07,  2.02it/s] 34%|███▍      | 3770/11074 [32:14<1:00:04,  2.03it/s] 34%|███▍      | 3771/11074 [32:15<1:00:07,  2.02it/s] 34%|███▍      | 3772/11074 [32:15<1:00:04,  2.03it/s] 34%|███▍      | 3773/11074 [32:16<1:00:05,  2.03it/s] 34%|███▍      | 3774/11074 [32:16<1:00:04,  2.03it/s] 34%|███▍      | 3775/11074 [32:17<1:00:06,  2.02it/s]{'loss': 3.6701, 'grad_norm': 0.20698747038841248, 'learning_rate': 0.0008334628030608844, 'epoch': 4.77}                                                      
- 34%|███▍      | 3775/11074 [32:17<1:00:06,  2.02it/s] 34%|███▍      | 3776/11074 [32:17<1:00:09,  2.02it/s] 34%|███▍      | 3777/11074 [32:18<1:00:09,  2.02it/s] 34%|███▍      | 3778/11074 [32:18<1:00:10,  2.02it/s] 34%|███▍      | 3779/11074 [32:19<1:00:09,  2.02it/s] 34%|███▍      | 3780/11074 [32:19<1:00:05,  2.02it/s] 34%|███▍      | 3781/11074 [32:20<1:00:04,  2.02it/s] 34%|███▍      | 3782/11074 [32:20<1:00:03,  2.02it/s] 34%|███▍      | 3783/11074 [32:21<1:00:04,  2.02it/s] 34%|███▍      | 3784/11074 [32:21<1:00:03,  2.02it/s] 34%|███▍      | 3785/11074 [32:22<1:00:00,  2.02it/s] 34%|███▍      | 3786/11074 [32:22<1:00:02,  2.02it/s] 34%|███▍      | 3787/11074 [32:23<59:58,  2.03it/s]   34%|███▍      | 3788/11074 [32:24<1:05:13,  1.86it/s] 34%|███▍      | 3789/11074 [32:24<1:03:32,  1.91it/s] 34%|███▍      | 3790/11074 [32:25<1:02:35,  1.94it/s] 34%|███▍      | 3791/11074 [32:25<1:01:42,  1.97it/s] 34%|███▍      | 3792/11074 [32:25<1:01:16,  1.98it/s] 34%|███▍      | 3793/11074 [32:26<1:00:51,  1.99it/s] 34%|███▍      | 3794/11074 [32:26<1:00:37,  2.00it/s] 34%|███▍      | 3795/11074 [32:27<1:00:22,  2.01it/s] 34%|███▍      | 3796/11074 [32:27<1:00:13,  2.01it/s] 34%|███▍      | 3797/11074 [32:28<1:00:04,  2.02it/s] 34%|███▍      | 3798/11074 [32:28<1:00:00,  2.02it/s] 34%|███▍      | 3799/11074 [32:29<1:00:03,  2.02it/s] 34%|███▍      | 3800/11074 [32:29<59:59,  2.02it/s]                                                      {'loss': 3.6674, 'grad_norm': 0.20534780621528625, 'learning_rate': 0.000830516399392194, 'epoch': 4.8}
- 34%|███▍      | 3800/11074 [32:29<59:59,  2.02it/s] 34%|███▍      | 3801/11074 [32:30<59:59,  2.02it/s] 34%|███▍      | 3802/11074 [32:30<59:58,  2.02it/s] 34%|███▍      | 3803/11074 [32:31<59:56,  2.02it/s] 34%|███▍      | 3804/11074 [32:31<59:54,  2.02it/s] 34%|███▍      | 3805/11074 [32:32<59:58,  2.02it/s] 34%|███▍      | 3806/11074 [32:32<59:54,  2.02it/s] 34%|███▍      | 3807/11074 [32:33<59:52,  2.02it/s] 34%|███▍      | 3808/11074 [32:33<59:49,  2.02it/s] 34%|███▍      | 3809/11074 [32:34<59:50,  2.02it/s] 34%|███▍      | 3810/11074 [32:34<59:50,  2.02it/s] 34%|███▍      | 3811/11074 [32:35<59:53,  2.02it/s] 34%|███▍      | 3812/11074 [32:35<59:46,  2.03it/s] 34%|███▍      | 3813/11074 [32:36<59:46,  2.02it/s] 34%|███▍      | 3814/11074 [32:36<59:42,  2.03it/s] 34%|███▍      | 3815/11074 [32:37<59:46,  2.02it/s] 34%|███▍      | 3816/11074 [32:37<59:43,  2.03it/s] 34%|███▍      | 3817/11074 [32:38<59:43,  2.03it/s] 34%|███▍      | 3818/11074 [32:38<59:41,  2.03it/s] 34%|███▍      | 3819/11074 [32:39<59:41,  2.03it/s] 34%|███▍      | 3820/11074 [32:39<59:41,  2.03it/s] 35%|███▍      | 3821/11074 [32:40<59:37,  2.03it/s] 35%|███▍      | 3822/11074 [32:40<59:40,  2.03it/s] 35%|███▍      | 3823/11074 [32:41<59:44,  2.02it/s] 35%|███▍      | 3824/11074 [32:41<59:43,  2.02it/s] 35%|███▍      | 3825/11074 [32:42<59:43,  2.02it/s]{'loss': 3.6706, 'grad_norm': 0.20761437714099884, 'learning_rate': 0.0008275494685684739, 'epoch': 4.83}                                                    
- 35%|███▍      | 3825/11074 [32:42<59:43,  2.02it/s] 35%|███▍      | 3826/11074 [32:42<59:46,  2.02it/s] 35%|███▍      | 3827/11074 [32:43<59:45,  2.02it/s] 35%|███▍      | 3828/11074 [32:43<1:04:54,  1.86it/s] 35%|███▍      | 3829/11074 [32:44<1:03:20,  1.91it/s] 35%|███▍      | 3830/11074 [32:44<1:02:14,  1.94it/s] 35%|███▍      | 3831/11074 [32:45<1:01:26,  1.96it/s] 35%|███▍      | 3832/11074 [32:45<1:00:52,  1.98it/s] 35%|███▍      | 3833/11074 [32:46<1:00:27,  2.00it/s] 35%|███▍      | 3834/11074 [32:46<1:00:16,  2.00it/s] 35%|███▍      | 3835/11074 [32:47<1:00:03,  2.01it/s] 35%|███▍      | 3836/11074 [32:47<59:55,  2.01it/s]   35%|███▍      | 3837/11074 [32:48<59:47,  2.02it/s] 35%|███▍      | 3838/11074 [32:48<59:44,  2.02it/s] 35%|███▍      | 3839/11074 [32:49<59:37,  2.02it/s] 35%|███▍      | 3840/11074 [32:49<59:35,  2.02it/s] 35%|███▍      | 3841/11074 [32:50<59:32,  2.02it/s] 35%|███▍      | 3842/11074 [32:50<59:28,  2.03it/s] 35%|███▍      | 3843/11074 [32:51<59:28,  2.03it/s] 35%|███▍      | 3844/11074 [32:51<59:28,  2.03it/s] 35%|███▍      | 3845/11074 [32:52<59:26,  2.03it/s] 35%|███▍      | 3846/11074 [32:52<59:30,  2.02it/s] 35%|███▍      | 3847/11074 [32:53<59:30,  2.02it/s] 35%|███▍      | 3848/11074 [32:53<59:33,  2.02it/s] 35%|███▍      | 3849/11074 [32:54<59:30,  2.02it/s] 35%|███▍      | 3850/11074 [32:54<59:25,  2.03it/s]{'loss': 3.67, 'grad_norm': 0.2092786729335785, 'learning_rate': 0.0008245621948548592, 'epoch': 4.86}                                                    
- 35%|███▍      | 3850/11074 [32:54<59:25,  2.03it/s] 35%|███▍      | 3851/11074 [32:55<59:41,  2.02it/s] 35%|███▍      | 3852/11074 [32:55<59:32,  2.02it/s] 35%|███▍      | 3853/11074 [32:56<59:33,  2.02it/s] 35%|███▍      | 3854/11074 [32:56<59:27,  2.02it/s] 35%|███▍      | 3855/11074 [32:57<59:29,  2.02it/s] 35%|███▍      | 3856/11074 [32:57<59:26,  2.02it/s] 35%|███▍      | 3857/11074 [32:58<59:27,  2.02it/s] 35%|███▍      | 3858/11074 [32:58<59:27,  2.02it/s] 35%|███▍      | 3859/11074 [32:59<59:25,  2.02it/s] 35%|███▍      | 3860/11074 [32:59<59:22,  2.03it/s] 35%|███▍      | 3861/11074 [33:00<59:21,  2.03it/s] 35%|███▍      | 3862/11074 [33:00<59:23,  2.02it/s] 35%|███▍      | 3863/11074 [33:01<59:23,  2.02it/s] 35%|███▍      | 3864/11074 [33:01<59:23,  2.02it/s] 35%|███▍      | 3865/11074 [33:02<59:20,  2.02it/s] 35%|███▍      | 3866/11074 [33:02<59:21,  2.02it/s] 35%|███▍      | 3867/11074 [33:03<59:19,  2.02it/s] 35%|███▍      | 3868/11074 [33:03<59:17,  2.03it/s] 35%|███▍      | 3869/11074 [33:04<59:14,  2.03it/s] 35%|███▍      | 3870/11074 [33:04<59:21,  2.02it/s] 35%|███▍      | 3871/11074 [33:05<59:16,  2.03it/s] 35%|███▍      | 3872/11074 [33:05<59:15,  2.03it/s] 35%|███▍      | 3873/11074 [33:06<59:15,  2.03it/s] 35%|███▍      | 3874/11074 [33:06<59:15,  2.02it/s] 35%|███▍      | 3875/11074 [33:07<59:15,  2.03it/s]{'loss': 3.6778, 'grad_norm': 0.21563637256622314, 'learning_rate': 0.0008215547637799068, 'epoch': 4.9}                                                    
- 35%|███▍      | 3875/11074 [33:07<59:15,  2.03it/s] 35%|███▌      | 3876/11074 [33:07<59:36,  2.01it/s] 35%|███▌      | 3877/11074 [33:08<59:29,  2.02it/s] 35%|███▌      | 3878/11074 [33:08<59:25,  2.02it/s] 35%|███▌      | 3879/11074 [33:09<59:22,  2.02it/s] 35%|███▌      | 3880/11074 [33:09<59:23,  2.02it/s] 35%|███▌      | 3881/11074 [33:10<59:21,  2.02it/s] 35%|███▌      | 3882/11074 [33:10<59:20,  2.02it/s] 35%|███▌      | 3883/11074 [33:11<59:16,  2.02it/s] 35%|███▌      | 3884/11074 [33:11<59:14,  2.02it/s] 35%|███▌      | 3885/11074 [33:12<59:13,  2.02it/s] 35%|███▌      | 3886/11074 [33:12<59:13,  2.02it/s] 35%|███▌      | 3887/11074 [33:13<59:12,  2.02it/s] 35%|███▌      | 3888/11074 [33:13<59:08,  2.03it/s] 35%|███▌      | 3889/11074 [33:14<59:09,  2.02it/s] 35%|███▌      | 3890/11074 [33:14<59:07,  2.02it/s] 35%|███▌      | 3891/11074 [33:15<59:08,  2.02it/s] 35%|███▌      | 3892/11074 [33:15<59:08,  2.02it/s] 35%|███▌      | 3893/11074 [33:16<59:07,  2.02it/s] 35%|███▌      | 3894/11074 [33:16<59:09,  2.02it/s] 35%|███▌      | 3895/11074 [33:17<59:08,  2.02it/s] 35%|███▌      | 3896/11074 [33:17<59:05,  2.02it/s] 35%|███▌      | 3897/11074 [33:18<59:06,  2.02it/s] 35%|███▌      | 3898/11074 [33:18<59:05,  2.02it/s] 35%|███▌      | 3899/11074 [33:19<59:06,  2.02it/s] 35%|███▌      | 3900/11074 [33:19<59:05,  2.02it/s]                                                    {'loss': 3.678, 'grad_norm': 0.2093210071325302, 'learning_rate': 0.000818527362124073, 'epoch': 4.93}
- 35%|███▌      | 3900/11074 [33:19<59:05,  2.02it/s] 35%|███▌      | 3901/11074 [33:20<59:11,  2.02it/s] 35%|███▌      | 3902/11074 [33:20<59:07,  2.02it/s] 35%|███▌      | 3903/11074 [33:20<59:07,  2.02it/s] 35%|███▌      | 3904/11074 [33:21<59:04,  2.02it/s] 35%|███▌      | 3905/11074 [33:21<59:05,  2.02it/s] 35%|███▌      | 3906/11074 [33:22<59:03,  2.02it/s] 35%|███▌      | 3907/11074 [33:22<59:03,  2.02it/s] 35%|███▌      | 3908/11074 [33:23<59:02,  2.02it/s] 35%|███▌      | 3909/11074 [33:23<59:01,  2.02it/s] 35%|███▌      | 3910/11074 [33:24<59:01,  2.02it/s] 35%|███▌      | 3911/11074 [33:24<59:00,  2.02it/s] 35%|███▌      | 3912/11074 [33:25<59:00,  2.02it/s] 35%|███▌      | 3913/11074 [33:25<59:02,  2.02it/s] 35%|███▌      | 3914/11074 [33:26<58:58,  2.02it/s] 35%|███▌      | 3915/11074 [33:26<58:53,  2.03it/s] 35%|███▌      | 3916/11074 [33:27<58:58,  2.02it/s] 35%|███▌      | 3917/11074 [33:27<58:56,  2.02it/s] 35%|███▌      | 3918/11074 [33:28<58:55,  2.02it/s] 35%|███▌      | 3919/11074 [33:28<58:54,  2.02it/s] 35%|███▌      | 3920/11074 [33:29<58:54,  2.02it/s] 35%|███▌      | 3921/11074 [33:29<58:54,  2.02it/s] 35%|███▌      | 3922/11074 [33:30<58:53,  2.02it/s] 35%|███▌      | 3923/11074 [33:30<58:55,  2.02it/s] 35%|███▌      | 3924/11074 [33:31<58:53,  2.02it/s] 35%|███▌      | 3925/11074 [33:31<58:52,  2.02it/s]{'loss': 3.6716, 'grad_norm': 0.20729190111160278, 'learning_rate': 0.0008154801779081133, 'epoch': 4.96}                                                    
- 35%|███▌      | 3925/11074 [33:31<58:52,  2.02it/s] 35%|███▌      | 3926/11074 [33:32<58:49,  2.02it/s] 35%|███▌      | 3927/11074 [33:32<58:52,  2.02it/s] 35%|███▌      | 3928/11074 [33:33<58:46,  2.03it/s] 35%|███▌      | 3929/11074 [33:33<58:52,  2.02it/s] 35%|███▌      | 3930/11074 [33:34<58:48,  2.02it/s] 35%|███▌      | 3931/11074 [33:34<58:52,  2.02it/s] 36%|███▌      | 3932/11074 [33:35<58:49,  2.02it/s] 36%|███▌      | 3933/11074 [33:35<58:48,  2.02it/s] 36%|███▌      | 3934/11074 [33:36<58:47,  2.02it/s] 36%|███▌      | 3935/11074 [33:36<58:47,  2.02it/s] 36%|███▌      | 3936/11074 [33:37<58:48,  2.02it/s] 36%|███▌      | 3937/11074 [33:37<58:51,  2.02it/s] 36%|███▌      | 3938/11074 [33:38<58:51,  2.02it/s] 36%|███▌      | 3939/11074 [33:38<58:49,  2.02it/s] 36%|███▌      | 3940/11074 [33:39<58:52,  2.02it/s] 36%|███▌      | 3941/11074 [33:39<58:49,  2.02it/s] 36%|███▌      | 3942/11074 [33:40<58:45,  2.02it/s] 36%|███▌      | 3943/11074 [33:40<58:44,  2.02it/s] 36%|███▌      | 3944/11074 [33:41<58:42,  2.02it/s] 36%|███▌      | 3945/11074 [33:41<58:41,  2.02it/s] 36%|███▌      | 3946/11074 [33:42<58:42,  2.02it/s] 36%|███▌      | 3947/11074 [33:42<58:42,  2.02it/s] 36%|███▌      | 3948/11074 [33:43<58:42,  2.02it/s] 36%|███▌      | 3949/11074 [33:43<58:38,  2.03it/s] 36%|███▌      | 3950/11074 [33:44<58:39,  2.02it/s]{'loss': 3.6835, 'grad_norm': 0.20831939578056335, 'learning_rate': 0.0008124134003814054, 'epoch': 4.99}                                                    
- 36%|███▌      | 3950/11074 [33:44<58:39,  2.02it/s] 36%|███▌      | 3951/11074 [33:44<58:39,  2.02it/s] 36%|███▌      | 3952/11074 [33:45<58:49,  2.02it/s] 36%|███▌      | 3953/11074 [33:45<58:43,  2.02it/s] 36%|███▌      | 3954/11074 [33:46<58:43,  2.02it/s] 36%|███▌      | 3955/11074 [33:46<58:37,  2.02it/s] 36%|███▌      | 3956/11074 [33:47<58:40,  2.02it/s] 36%|███▌      | 3957/11074 [33:47<1:00:05,  1.97it/s] 36%|███▌      | 3958/11074 [33:59<7:47:25,  3.94s/it] 36%|███▌      | 3959/11074 [34:00<5:44:46,  2.91s/it] 36%|███▌      | 3960/11074 [34:00<4:19:07,  2.19s/it] 36%|███▌      | 3961/11074 [34:01<3:19:06,  1.68s/it] 36%|███▌      | 3962/11074 [34:01<2:36:56,  1.32s/it] 36%|███▌      | 3963/11074 [34:02<2:07:24,  1.08s/it] 36%|███▌      | 3964/11074 [34:02<1:46:48,  1.11it/s] 36%|███▌      | 3965/11074 [34:03<1:32:49,  1.28it/s] 36%|███▌      | 3966/11074 [34:03<1:22:44,  1.43it/s] 36%|███▌      | 3967/11074 [34:04<1:15:27,  1.57it/s] 36%|███▌      | 3968/11074 [34:04<1:10:21,  1.68it/s] 36%|███▌      | 3969/11074 [34:05<1:06:50,  1.77it/s] 36%|███▌      | 3970/11074 [34:05<1:04:15,  1.84it/s] 36%|███▌      | 3971/11074 [34:06<1:02:37,  1.89it/s] 36%|███▌      | 3972/11074 [34:06<1:01:17,  1.93it/s] 36%|███▌      | 3973/11074 [34:07<1:00:36,  1.95it/s] 36%|███▌      | 3974/11074 [34:07<59:54,  1.98it/s]   36%|███▌      | 3975/11074 [34:08<59:28,  1.99it/s]                                                    {'loss': 3.5689, 'grad_norm': 0.22039969265460968, 'learning_rate': 0.0008093272200101946, 'epoch': 5.02}
- 36%|███▌      | 3975/11074 [34:08<59:28,  1.99it/s] 36%|███▌      | 3976/11074 [34:08<59:11,  2.00it/s] 36%|███▌      | 3977/11074 [34:09<59:02,  2.00it/s] 36%|███▌      | 3978/11074 [34:09<58:48,  2.01it/s] 36%|███▌      | 3979/11074 [34:10<58:47,  2.01it/s] 36%|███▌      | 3980/11074 [34:10<58:42,  2.01it/s] 36%|███▌      | 3981/11074 [34:11<58:34,  2.02it/s] 36%|███▌      | 3982/11074 [34:11<58:52,  2.01it/s] 36%|███▌      | 3983/11074 [34:12<58:38,  2.02it/s] 36%|███▌      | 3984/11074 [34:12<58:35,  2.02it/s] 36%|███▌      | 3985/11074 [34:13<58:27,  2.02it/s] 36%|███▌      | 3986/11074 [34:13<58:25,  2.02it/s] 36%|███▌      | 3987/11074 [34:14<58:19,  2.03it/s] 36%|███▌      | 3988/11074 [34:14<58:16,  2.03it/s] 36%|███▌      | 3989/11074 [34:15<58:16,  2.03it/s] 36%|███▌      | 3990/11074 [34:15<58:11,  2.03it/s] 36%|███▌      | 3991/11074 [34:16<58:15,  2.03it/s] 36%|███▌      | 3992/11074 [34:16<58:15,  2.03it/s] 36%|███▌      | 3993/11074 [34:17<58:17,  2.02it/s] 36%|███▌      | 3994/11074 [34:17<58:16,  2.03it/s] 36%|███▌      | 3995/11074 [34:18<58:12,  2.03it/s] 36%|███▌      | 3996/11074 [34:18<58:14,  2.03it/s] 36%|███▌      | 3997/11074 [34:18<58:11,  2.03it/s] 36%|███▌      | 3998/11074 [34:19<58:11,  2.03it/s] 36%|███▌      | 3999/11074 [34:19<58:09,  2.03it/s] 36%|███▌      | 4000/11074 [34:20<58:10,  2.03it/s]{'loss': 3.5186, 'grad_norm': 0.2098090797662735, 'learning_rate': 0.0008062218284657662, 'epoch': 5.05}                                                    
- 36%|███▌      | 4000/11074 [34:20<58:10,  2.03it/s] 36%|███▌      | 4001/11074 [34:20<58:12,  2.03it/s] 36%|███▌      | 4002/11074 [34:21<58:12,  2.02it/s] 36%|███▌      | 4003/11074 [34:21<58:09,  2.03it/s] 36%|███▌      | 4004/11074 [34:22<58:07,  2.03it/s] 36%|███▌      | 4005/11074 [34:22<58:08,  2.03it/s] 36%|███▌      | 4006/11074 [34:23<58:15,  2.02it/s] 36%|███▌      | 4007/11074 [34:23<58:15,  2.02it/s] 36%|███▌      | 4008/11074 [34:24<58:14,  2.02it/s] 36%|███▌      | 4009/11074 [34:24<58:13,  2.02it/s] 36%|███▌      | 4010/11074 [34:25<58:09,  2.02it/s] 36%|███▌      | 4011/11074 [34:25<58:11,  2.02it/s] 36%|███▌      | 4012/11074 [34:26<58:07,  2.03it/s] 36%|███▌      | 4013/11074 [34:26<58:09,  2.02it/s] 36%|███▌      | 4014/11074 [34:27<58:04,  2.03it/s] 36%|███▋      | 4015/11074 [34:27<58:07,  2.02it/s] 36%|███▋      | 4016/11074 [34:28<58:04,  2.03it/s] 36%|███▋      | 4017/11074 [34:28<58:05,  2.02it/s] 36%|███▋      | 4018/11074 [34:29<58:00,  2.03it/s] 36%|███▋      | 4019/11074 [34:29<57:59,  2.03it/s] 36%|███▋      | 4020/11074 [34:30<58:04,  2.02it/s] 36%|███▋      | 4021/11074 [34:30<58:01,  2.03it/s] 36%|███▋      | 4022/11074 [34:31<58:01,  2.03it/s] 36%|███▋      | 4023/11074 [34:31<57:56,  2.03it/s] 36%|███▋      | 4024/11074 [34:32<57:59,  2.03it/s] 36%|███▋      | 4025/11074 [34:32<57:58,  2.03it/s]                                                    {'loss': 3.5317, 'grad_norm': 0.21672308444976807, 'learning_rate': 0.0008030974186125397, 'epoch': 5.09}
- 36%|███▋      | 4025/11074 [34:32<57:58,  2.03it/s] 36%|███▋      | 4026/11074 [34:33<58:04,  2.02it/s] 36%|███▋      | 4027/11074 [34:33<58:01,  2.02it/s] 36%|███▋      | 4028/11074 [34:34<57:58,  2.03it/s] 36%|███▋      | 4029/11074 [34:34<58:00,  2.02it/s] 36%|███▋      | 4030/11074 [34:35<57:58,  2.03it/s] 36%|███▋      | 4031/11074 [34:35<58:00,  2.02it/s] 36%|███▋      | 4032/11074 [34:36<57:55,  2.03it/s] 36%|███▋      | 4033/11074 [34:36<57:58,  2.02it/s] 36%|███▋      | 4034/11074 [34:37<57:56,  2.03it/s] 36%|███▋      | 4035/11074 [34:37<57:52,  2.03it/s] 36%|███▋      | 4036/11074 [34:38<57:54,  2.03it/s] 36%|███▋      | 4037/11074 [34:38<57:50,  2.03it/s] 36%|███▋      | 4038/11074 [34:39<57:56,  2.02it/s] 36%|███▋      | 4039/11074 [34:39<57:53,  2.03it/s] 36%|███▋      | 4040/11074 [34:40<57:55,  2.02it/s] 36%|███▋      | 4041/11074 [34:40<57:54,  2.02it/s] 36%|███▋      | 4042/11074 [34:41<57:54,  2.02it/s] 37%|███▋      | 4043/11074 [34:41<57:52,  2.02it/s] 37%|███▋      | 4044/11074 [34:42<57:53,  2.02it/s] 37%|███▋      | 4045/11074 [34:42<57:52,  2.02it/s] 37%|███▋      | 4046/11074 [34:43<57:53,  2.02it/s] 37%|███▋      | 4047/11074 [34:43<57:54,  2.02it/s] 37%|███▋      | 4048/11074 [34:44<57:54,  2.02it/s] 37%|███▋      | 4049/11074 [34:44<57:53,  2.02it/s] 37%|███▋      | 4050/11074 [34:45<57:54,  2.02it/s]                                                    {'loss': 3.5483, 'grad_norm': 0.21234911680221558, 'learning_rate': 0.0007999541844960925, 'epoch': 5.12}
- 37%|███▋      | 4050/11074 [34:45<57:54,  2.02it/s] 37%|███▋      | 4051/11074 [34:45<57:56,  2.02it/s] 37%|███▋      | 4052/11074 [34:46<57:55,  2.02it/s] 37%|███▋      | 4053/11074 [34:46<57:54,  2.02it/s] 37%|███▋      | 4054/11074 [34:47<57:51,  2.02it/s] 37%|███▋      | 4055/11074 [34:47<57:50,  2.02it/s] 37%|███▋      | 4056/11074 [34:48<57:47,  2.02it/s] 37%|███▋      | 4057/11074 [34:48<57:48,  2.02it/s] 37%|███▋      | 4058/11074 [34:49<57:46,  2.02it/s] 37%|███▋      | 4059/11074 [34:49<57:46,  2.02it/s] 37%|███▋      | 4060/11074 [34:50<57:43,  2.02it/s] 37%|███▋      | 4061/11074 [34:50<57:43,  2.02it/s] 37%|███▋      | 4062/11074 [34:51<57:41,  2.03it/s] 37%|███▋      | 4063/11074 [34:51<57:43,  2.02it/s] 37%|███▋      | 4064/11074 [34:52<57:42,  2.02it/s] 37%|███▋      | 4065/11074 [34:52<57:44,  2.02it/s] 37%|███▋      | 4066/11074 [34:53<57:40,  2.03it/s] 37%|███▋      | 4067/11074 [34:53<57:37,  2.03it/s] 37%|███▋      | 4068/11074 [34:54<57:39,  2.03it/s] 37%|███▋      | 4069/11074 [34:54<57:35,  2.03it/s] 37%|███▋      | 4070/11074 [34:55<57:37,  2.03it/s] 37%|███▋      | 4071/11074 [34:55<57:36,  2.03it/s] 37%|███▋      | 4072/11074 [34:56<57:40,  2.02it/s] 37%|███▋      | 4073/11074 [34:56<57:39,  2.02it/s] 37%|███▋      | 4074/11074 [34:57<57:39,  2.02it/s] 37%|███▋      | 4075/11074 [34:57<57:40,  2.02it/s]{'loss': 3.546, 'grad_norm': 0.21191541850566864, 'learning_rate': 0.000796792321331107, 'epoch': 5.15}                                                    
- 37%|███▋      | 4075/11074 [34:57<57:40,  2.02it/s] 37%|███▋      | 4076/11074 [34:58<57:46,  2.02it/s] 37%|███▋      | 4077/11074 [34:58<57:42,  2.02it/s] 37%|███▋      | 4078/11074 [34:59<57:40,  2.02it/s] 37%|███▋      | 4079/11074 [34:59<57:39,  2.02it/s] 37%|███▋      | 4080/11074 [34:59<57:40,  2.02it/s] 37%|███▋      | 4081/11074 [35:00<57:38,  2.02it/s] 37%|███▋      | 4082/11074 [35:00<57:36,  2.02it/s] 37%|███▋      | 4083/11074 [35:01<57:32,  2.03it/s] 37%|███▋      | 4084/11074 [35:01<57:30,  2.03it/s] 37%|███▋      | 4085/11074 [35:02<57:31,  2.02it/s] 37%|███▋      | 4086/11074 [35:02<57:30,  2.03it/s] 37%|███▋      | 4087/11074 [35:03<57:34,  2.02it/s] 37%|███▋      | 4088/11074 [35:03<57:31,  2.02it/s] 37%|███▋      | 4089/11074 [35:04<57:32,  2.02it/s] 37%|███▋      | 4090/11074 [35:04<57:31,  2.02it/s] 37%|███▋      | 4091/11074 [35:05<57:26,  2.03it/s] 37%|███▋      | 4092/11074 [35:05<57:28,  2.02it/s] 37%|███▋      | 4093/11074 [35:06<57:25,  2.03it/s] 37%|███▋      | 4094/11074 [35:06<57:23,  2.03it/s] 37%|███▋      | 4095/11074 [35:07<57:23,  2.03it/s] 37%|███▋      | 4096/11074 [35:07<57:28,  2.02it/s] 37%|███▋      | 4097/11074 [35:08<57:30,  2.02it/s] 37%|███▋      | 4098/11074 [35:08<57:25,  2.02it/s] 37%|███▋      | 4099/11074 [35:09<57:26,  2.02it/s] 37%|███▋      | 4100/11074 [35:09<57:25,  2.02it/s]{'loss': 3.5534, 'grad_norm': 0.22988741099834442, 'learning_rate': 0.0007936120254892472, 'epoch': 5.18}                                                    
- 37%|███▋      | 4100/11074 [35:09<57:25,  2.02it/s] 37%|███▋      | 4101/11074 [35:10<57:26,  2.02it/s] 37%|███▋      | 4102/11074 [35:10<57:25,  2.02it/s] 37%|███▋      | 4103/11074 [35:11<57:22,  2.02it/s] 37%|███▋      | 4104/11074 [35:11<57:22,  2.02it/s] 37%|███▋      | 4105/11074 [35:12<57:24,  2.02it/s] 37%|███▋      | 4106/11074 [35:12<57:24,  2.02it/s] 37%|███▋      | 4107/11074 [35:13<57:23,  2.02it/s] 37%|███▋      | 4108/11074 [35:13<57:21,  2.02it/s] 37%|███▋      | 4109/11074 [35:14<57:20,  2.02it/s] 37%|███▋      | 4110/11074 [35:14<57:17,  2.03it/s] 37%|███▋      | 4111/11074 [35:15<57:21,  2.02it/s] 37%|███▋      | 4112/11074 [35:15<57:17,  2.03it/s] 37%|███▋      | 4113/11074 [35:16<57:19,  2.02it/s] 37%|███▋      | 4114/11074 [35:16<57:14,  2.03it/s] 37%|███▋      | 4115/11074 [35:17<57:17,  2.02it/s] 37%|███▋      | 4116/11074 [35:17<57:12,  2.03it/s] 37%|███▋      | 4117/11074 [35:18<57:12,  2.03it/s] 37%|███▋      | 4118/11074 [35:18<57:12,  2.03it/s] 37%|███▋      | 4119/11074 [35:19<57:09,  2.03it/s] 37%|███▋      | 4120/11074 [35:19<57:12,  2.03it/s] 37%|███▋      | 4121/11074 [35:20<57:07,  2.03it/s] 37%|███▋      | 4122/11074 [35:20<57:08,  2.03it/s] 37%|███▋      | 4123/11074 [35:21<57:06,  2.03it/s] 37%|███▋      | 4124/11074 [35:21<57:07,  2.03it/s] 37%|███▋      | 4125/11074 [35:22<57:07,  2.03it/s]                                                    {'loss': 3.5583, 'grad_norm': 0.21563300490379333, 'learning_rate': 0.000790413494486963, 'epoch': 5.21}
- 37%|███▋      | 4125/11074 [35:22<57:07,  2.03it/s] 37%|███▋      | 4126/11074 [35:22<57:14,  2.02it/s] 37%|███▋      | 4127/11074 [35:23<57:13,  2.02it/s] 37%|███▋      | 4128/11074 [35:23<57:10,  2.02it/s] 37%|███▋      | 4129/11074 [35:24<57:08,  2.03it/s] 37%|███▋      | 4130/11074 [35:24<57:06,  2.03it/s] 37%|███▋      | 4131/11074 [35:25<57:08,  2.03it/s] 37%|███▋      | 4132/11074 [35:25<57:04,  2.03it/s] 37%|███▋      | 4133/11074 [35:26<57:06,  2.03it/s] 37%|███▋      | 4134/11074 [35:26<57:03,  2.03it/s] 37%|███▋      | 4135/11074 [35:27<57:08,  2.02it/s] 37%|███▋      | 4136/11074 [35:27<57:02,  2.03it/s] 37%|███▋      | 4137/11074 [35:28<57:04,  2.03it/s] 37%|███▋      | 4138/11074 [35:28<57:01,  2.03it/s] 37%|███▋      | 4139/11074 [35:29<57:01,  2.03it/s] 37%|███▋      | 4140/11074 [35:29<57:01,  2.03it/s] 37%|███▋      | 4141/11074 [35:30<56:56,  2.03it/s] 37%|███▋      | 4142/11074 [35:30<56:57,  2.03it/s] 37%|███▋      | 4143/11074 [35:31<56:56,  2.03it/s] 37%|███▋      | 4144/11074 [35:31<56:56,  2.03it/s] 37%|███▋      | 4145/11074 [35:32<56:57,  2.03it/s] 37%|███▋      | 4146/11074 [35:32<56:54,  2.03it/s] 37%|███▋      | 4147/11074 [35:33<56:57,  2.03it/s] 37%|███▋      | 4148/11074 [35:33<56:53,  2.03it/s] 37%|███▋      | 4149/11074 [35:34<56:56,  2.03it/s] 37%|███▋      | 4150/11074 [35:34<56:52,  2.03it/s]                                                    {'loss': 3.5643, 'grad_norm': 0.21118684113025665, 'learning_rate': 0.0007871969269732229, 'epoch': 5.24}
- 37%|███▋      | 4150/11074 [35:34<56:52,  2.03it/s] 37%|███▋      | 4151/11074 [35:35<56:56,  2.03it/s] 37%|███▋      | 4152/11074 [35:35<56:54,  2.03it/s] 38%|███▊      | 4153/11074 [35:36<57:01,  2.02it/s] 38%|███▊      | 4154/11074 [35:36<56:57,  2.03it/s] 38%|███▊      | 4155/11074 [35:37<56:59,  2.02it/s] 38%|███▊      | 4156/11074 [35:37<56:57,  2.02it/s] 38%|███▊      | 4157/11074 [35:38<56:53,  2.03it/s] 38%|███▊      | 4158/11074 [35:38<56:58,  2.02it/s] 38%|███▊      | 4159/11074 [35:38<56:54,  2.02it/s] 38%|███▊      | 4160/11074 [35:39<56:54,  2.03it/s] 38%|███▊      | 4161/11074 [35:39<56:51,  2.03it/s] 38%|███▊      | 4162/11074 [35:40<56:51,  2.03it/s] 38%|███▊      | 4163/11074 [35:40<56:49,  2.03it/s] 38%|███▊      | 4164/11074 [35:41<56:49,  2.03it/s] 38%|███▊      | 4165/11074 [35:41<56:50,  2.03it/s] 38%|███▊      | 4166/11074 [35:42<56:48,  2.03it/s] 38%|███▊      | 4167/11074 [35:42<56:52,  2.02it/s] 38%|███▊      | 4168/11074 [35:43<56:48,  2.03it/s] 38%|███▊      | 4169/11074 [35:43<56:49,  2.03it/s] 38%|███▊      | 4170/11074 [35:44<56:47,  2.03it/s] 38%|███▊      | 4171/11074 [35:44<56:45,  2.03it/s] 38%|███▊      | 4172/11074 [35:45<56:45,  2.03it/s] 38%|███▊      | 4173/11074 [35:45<56:41,  2.03it/s] 38%|███▊      | 4174/11074 [35:46<56:44,  2.03it/s] 38%|███▊      | 4175/11074 [35:46<56:43,  2.03it/s]{'loss': 3.5606, 'grad_norm': 0.2143179029226303, 'learning_rate': 0.0007839625227171761, 'epoch': 5.27}                                                    
- 38%|███▊      | 4175/11074 [35:46<56:43,  2.03it/s] 38%|███▊      | 4176/11074 [35:47<56:49,  2.02it/s] 38%|███▊      | 4177/11074 [35:47<56:44,  2.03it/s] 38%|███▊      | 4178/11074 [35:48<56:46,  2.02it/s] 38%|███▊      | 4179/11074 [35:48<56:46,  2.02it/s] 38%|███▊      | 4180/11074 [35:49<56:45,  2.02it/s] 38%|███▊      | 4181/11074 [35:49<56:45,  2.02it/s] 38%|███▊      | 4182/11074 [35:50<56:44,  2.02it/s] 38%|███▊      | 4183/11074 [35:50<56:45,  2.02it/s] 38%|███▊      | 4184/11074 [35:51<56:43,  2.02it/s] 38%|███▊      | 4185/11074 [35:51<56:44,  2.02it/s] 38%|███▊      | 4186/11074 [35:52<56:40,  2.03it/s] 38%|███▊      | 4187/11074 [35:52<56:42,  2.02it/s] 38%|███▊      | 4188/11074 [35:53<56:41,  2.02it/s] 38%|███▊      | 4189/11074 [35:53<56:40,  2.02it/s] 38%|███▊      | 4190/11074 [35:54<56:40,  2.02it/s] 38%|███▊      | 4191/11074 [35:54<56:41,  2.02it/s] 38%|███▊      | 4192/11074 [35:55<56:38,  2.02it/s] 38%|███▊      | 4193/11074 [35:55<56:38,  2.02it/s] 38%|███▊      | 4194/11074 [35:56<56:38,  2.02it/s] 38%|███▊      | 4195/11074 [35:56<56:36,  2.03it/s] 38%|███▊      | 4196/11074 [35:57<56:35,  2.03it/s] 38%|███▊      | 4197/11074 [35:57<56:33,  2.03it/s] 38%|███▊      | 4198/11074 [35:58<56:31,  2.03it/s] 38%|███▊      | 4199/11074 [35:58<56:31,  2.03it/s] 38%|███▊      | 4200/11074 [35:59<56:32,  2.03it/s]                                                    {'loss': 3.5658, 'grad_norm': 0.2205374389886856, 'learning_rate': 0.0007807104825957466, 'epoch': 5.31}
- 38%|███▊      | 4200/11074 [35:59<56:32,  2.03it/s] 38%|███▊      | 4201/11074 [35:59<56:34,  2.02it/s] 38%|███▊      | 4202/11074 [36:00<56:34,  2.02it/s] 38%|███▊      | 4203/11074 [36:00<56:35,  2.02it/s] 38%|███▊      | 4204/11074 [36:01<56:30,  2.03it/s] 38%|███▊      | 4205/11074 [36:01<56:34,  2.02it/s] 38%|███▊      | 4206/11074 [36:02<56:29,  2.03it/s] 38%|███▊      | 4207/11074 [36:02<56:30,  2.03it/s] 38%|███▊      | 4208/11074 [36:03<56:27,  2.03it/s] 38%|███▊      | 4209/11074 [36:03<56:30,  2.03it/s] 38%|███▊      | 4210/11074 [36:04<56:29,  2.03it/s] 38%|███▊      | 4211/11074 [36:04<56:24,  2.03it/s] 38%|███▊      | 4212/11074 [36:05<56:25,  2.03it/s] 38%|███▊      | 4213/11074 [36:05<56:27,  2.03it/s] 38%|███▊      | 4214/11074 [36:06<56:25,  2.03it/s] 38%|███▊      | 4215/11074 [36:06<56:26,  2.03it/s] 38%|███▊      | 4216/11074 [36:07<56:26,  2.03it/s] 38%|███▊      | 4217/11074 [36:07<56:26,  2.02it/s] 38%|███▊      | 4218/11074 [36:08<56:28,  2.02it/s] 38%|███▊      | 4219/11074 [36:08<56:24,  2.03it/s] 38%|███▊      | 4220/11074 [36:09<56:22,  2.03it/s] 38%|███▊      | 4221/11074 [36:09<56:24,  2.02it/s] 38%|███▊      | 4222/11074 [36:10<56:22,  2.03it/s] 38%|███▊      | 4223/11074 [36:10<56:25,  2.02it/s] 38%|███▊      | 4224/11074 [36:11<56:23,  2.02it/s] 38%|███▊      | 4225/11074 [36:11<56:19,  2.03it/s]                                                    {'loss': 3.5679, 'grad_norm': 0.2228410542011261, 'learning_rate': 0.000777441008581157, 'epoch': 5.34}
- 38%|███▊      | 4225/11074 [36:11<56:19,  2.03it/s] 38%|███▊      | 4226/11074 [36:12<56:26,  2.02it/s] 38%|███▊      | 4227/11074 [36:12<56:21,  2.02it/s] 38%|███▊      | 4228/11074 [36:13<56:25,  2.02it/s] 38%|███▊      | 4229/11074 [36:13<56:24,  2.02it/s] 38%|███▊      | 4230/11074 [36:14<56:24,  2.02it/s] 38%|███▊      | 4231/11074 [36:14<56:21,  2.02it/s] 38%|███▊      | 4232/11074 [36:15<56:20,  2.02it/s] 38%|███▊      | 4233/11074 [36:15<56:18,  2.02it/s] 38%|███▊      | 4234/11074 [36:16<56:16,  2.03it/s] 38%|███▊      | 4235/11074 [36:16<56:15,  2.03it/s] 38%|███▊      | 4236/11074 [36:17<56:15,  2.03it/s] 38%|███▊      | 4237/11074 [36:17<56:15,  2.03it/s] 38%|███▊      | 4238/11074 [36:18<56:16,  2.02it/s] 38%|███▊      | 4239/11074 [36:18<56:18,  2.02it/s] 38%|███▊      | 4240/11074 [36:18<56:26,  2.02it/s] 38%|███▊      | 4241/11074 [36:19<56:18,  2.02it/s] 38%|███▊      | 4242/11074 [36:19<56:23,  2.02it/s] 38%|███▊      | 4243/11074 [36:20<56:16,  2.02it/s] 38%|███▊      | 4244/11074 [36:20<56:15,  2.02it/s] 38%|███▊      | 4245/11074 [36:21<56:11,  2.03it/s] 38%|███▊      | 4246/11074 [36:21<56:08,  2.03it/s] 38%|███▊      | 4247/11074 [36:22<56:13,  2.02it/s] 38%|███▊      | 4248/11074 [36:22<56:09,  2.03it/s] 38%|███▊      | 4249/11074 [36:23<56:11,  2.02it/s] 38%|███▊      | 4250/11074 [36:23<56:09,  2.03it/s]{'loss': 3.5761, 'grad_norm': 0.21330027282238007, 'learning_rate': 0.0007741543037283842, 'epoch': 5.37}
-                                                     38%|███▊      | 4250/11074 [36:23<56:09,  2.03it/s] 38%|███▊      | 4251/11074 [36:24<56:14,  2.02it/s] 38%|███▊      | 4252/11074 [36:24<56:08,  2.03it/s] 38%|███▊      | 4253/11074 [36:25<56:08,  2.02it/s] 38%|███▊      | 4254/11074 [36:25<56:05,  2.03it/s] 38%|███▊      | 4255/11074 [36:26<56:10,  2.02it/s] 38%|███▊      | 4256/11074 [36:26<56:06,  2.03it/s] 38%|███▊      | 4257/11074 [36:27<56:08,  2.02it/s] 38%|███▊      | 4258/11074 [36:27<56:05,  2.03it/s] 38%|███▊      | 4259/11074 [36:28<56:06,  2.02it/s] 38%|███▊      | 4260/11074 [36:28<56:05,  2.02it/s] 38%|███▊      | 4261/11074 [36:29<56:14,  2.02it/s] 38%|███▊      | 4262/11074 [36:29<56:09,  2.02it/s] 38%|███▊      | 4263/11074 [36:30<56:07,  2.02it/s] 39%|███▊      | 4264/11074 [36:30<56:03,  2.02it/s] 39%|███▊      | 4265/11074 [36:31<56:03,  2.02it/s] 39%|███▊      | 4266/11074 [36:31<56:00,  2.03it/s] 39%|███▊      | 4267/11074 [36:32<55:56,  2.03it/s] 39%|███▊      | 4268/11074 [36:32<56:00,  2.03it/s] 39%|███▊      | 4269/11074 [36:33<55:55,  2.03it/s] 39%|███▊      | 4270/11074 [36:33<55:54,  2.03it/s] 39%|███▊      | 4271/11074 [36:34<55:55,  2.03it/s] 39%|███▊      | 4272/11074 [36:34<55:54,  2.03it/s] 39%|███▊      | 4273/11074 [36:35<55:54,  2.03it/s] 39%|███▊      | 4274/11074 [36:35<55:55,  2.03it/s] 39%|███▊      | 4275/11074 [36:36<56:00,  2.02it/s]                                                    {'loss': 3.5697, 'grad_norm': 0.2225637137889862, 'learning_rate': 0.0007708505721625497, 'epoch': 5.4}
- 39%|███▊      | 4275/11074 [36:36<56:00,  2.02it/s] 39%|███▊      | 4276/11074 [36:36<56:00,  2.02it/s] 39%|███▊      | 4277/11074 [36:37<55:59,  2.02it/s] 39%|███▊      | 4278/11074 [36:37<55:57,  2.02it/s] 39%|███▊      | 4279/11074 [36:38<55:57,  2.02it/s] 39%|███▊      | 4280/11074 [36:38<55:56,  2.02it/s] 39%|███▊      | 4281/11074 [36:39<55:57,  2.02it/s] 39%|███▊      | 4282/11074 [36:39<55:52,  2.03it/s] 39%|███▊      | 4283/11074 [36:40<55:53,  2.02it/s] 39%|███▊      | 4284/11074 [36:40<55:50,  2.03it/s] 39%|███▊      | 4285/11074 [36:41<55:50,  2.03it/s] 39%|███▊      | 4286/11074 [36:41<55:50,  2.03it/s] 39%|███▊      | 4287/11074 [36:42<55:48,  2.03it/s] 39%|███▊      | 4288/11074 [36:42<55:50,  2.03it/s] 39%|███▊      | 4289/11074 [36:43<55:47,  2.03it/s] 39%|███▊      | 4290/11074 [36:43<55:50,  2.02it/s] 39%|███▊      | 4291/11074 [36:44<55:45,  2.03it/s] 39%|███▉      | 4292/11074 [36:44<55:45,  2.03it/s] 39%|███▉      | 4293/11074 [36:45<55:45,  2.03it/s] 39%|███▉      | 4294/11074 [36:45<55:42,  2.03it/s] 39%|███▉      | 4295/11074 [36:46<55:42,  2.03it/s] 39%|███▉      | 4296/11074 [36:46<55:39,  2.03it/s] 39%|███▉      | 4297/11074 [36:47<55:44,  2.03it/s] 39%|███▉      | 4298/11074 [36:47<55:43,  2.03it/s] 39%|███▉      | 4299/11074 [36:48<55:47,  2.02it/s] 39%|███▉      | 4300/11074 [36:48<55:43,  2.03it/s]                                                    {'loss': 3.5811, 'grad_norm': 0.21777655184268951, 'learning_rate': 0.0007675300190662405, 'epoch': 5.43}
- 39%|███▉      | 4300/11074 [36:48<55:43,  2.03it/s] 39%|███▉      | 4301/11074 [36:49<55:44,  2.03it/s] 39%|███▉      | 4302/11074 [36:49<55:45,  2.02it/s] 39%|███▉      | 4303/11074 [36:50<55:41,  2.03it/s] 39%|███▉      | 4304/11074 [36:50<55:42,  2.03it/s] 39%|███▉      | 4305/11074 [36:51<55:41,  2.03it/s] 39%|███▉      | 4306/11074 [36:51<55:38,  2.03it/s] 39%|███▉      | 4307/11074 [36:52<55:38,  2.03it/s] 39%|███▉      | 4308/11074 [36:52<55:34,  2.03it/s] 39%|███▉      | 4309/11074 [36:53<55:38,  2.03it/s] 39%|███▉      | 4310/11074 [36:53<55:39,  2.03it/s] 39%|███▉      | 4311/11074 [36:54<55:44,  2.02it/s] 39%|███▉      | 4312/11074 [36:54<55:39,  2.02it/s] 39%|███▉      | 4313/11074 [36:55<55:37,  2.03it/s] 39%|███▉      | 4314/11074 [36:55<55:36,  2.03it/s] 39%|███▉      | 4315/11074 [36:56<55:37,  2.03it/s] 39%|███▉      | 4316/11074 [36:56<55:38,  2.02it/s] 39%|███▉      | 4317/11074 [36:57<55:36,  2.03it/s] 39%|███▉      | 4318/11074 [36:57<55:35,  2.03it/s] 39%|███▉      | 4319/11074 [36:58<55:33,  2.03it/s] 39%|███▉      | 4320/11074 [36:58<55:36,  2.02it/s] 39%|███▉      | 4321/11074 [36:58<55:40,  2.02it/s] 39%|███▉      | 4322/11074 [36:59<55:37,  2.02it/s] 39%|███▉      | 4323/11074 [36:59<55:36,  2.02it/s] 39%|███▉      | 4324/11074 [37:00<55:37,  2.02it/s] 39%|███▉      | 4325/11074 [37:00<55:39,  2.02it/s]{'loss': 3.5801, 'grad_norm': 0.20626021921634674, 'learning_rate': 0.0007641928506667677, 'epoch': 5.46}                                                    
- 39%|███▉      | 4325/11074 [37:00<55:39,  2.02it/s] 39%|███▉      | 4326/11074 [37:01<55:44,  2.02it/s] 39%|███▉      | 4327/11074 [37:01<55:40,  2.02it/s] 39%|███▉      | 4328/11074 [37:02<55:40,  2.02it/s] 39%|███▉      | 4329/11074 [37:02<55:39,  2.02it/s] 39%|███▉      | 4330/11074 [37:03<55:37,  2.02it/s] 39%|███▉      | 4331/11074 [37:03<55:34,  2.02it/s] 39%|███▉      | 4332/11074 [37:04<55:36,  2.02it/s] 39%|███▉      | 4333/11074 [37:04<55:36,  2.02it/s] 39%|███▉      | 4334/11074 [37:05<55:34,  2.02it/s] 39%|███▉      | 4335/11074 [37:05<55:34,  2.02it/s] 39%|███▉      | 4336/11074 [37:06<55:33,  2.02it/s] 39%|███▉      | 4337/11074 [37:06<55:32,  2.02it/s] 39%|███▉      | 4338/11074 [37:07<55:34,  2.02it/s] 39%|███▉      | 4339/11074 [37:07<55:32,  2.02it/s] 39%|███▉      | 4340/11074 [37:08<55:31,  2.02it/s] 39%|███▉      | 4341/11074 [37:08<55:28,  2.02it/s] 39%|███▉      | 4342/11074 [37:09<55:30,  2.02it/s] 39%|███▉      | 4343/11074 [37:09<55:25,  2.02it/s] 39%|███▉      | 4344/11074 [37:10<55:29,  2.02it/s] 39%|███▉      | 4345/11074 [37:10<55:27,  2.02it/s] 39%|███▉      | 4346/11074 [37:11<55:26,  2.02it/s] 39%|███▉      | 4347/11074 [37:11<55:23,  2.02it/s] 39%|███▉      | 4348/11074 [37:12<55:24,  2.02it/s] 39%|███▉      | 4349/11074 [37:12<55:23,  2.02it/s] 39%|███▉      | 4350/11074 [37:13<55:31,  2.02it/s]                                                    {'loss': 3.5777, 'grad_norm': 0.21064308285713196, 'learning_rate': 0.0007608392742233572, 'epoch': 5.5}
- 39%|███▉      | 4350/11074 [37:13<55:31,  2.02it/s] 39%|███▉      | 4351/11074 [37:13<55:30,  2.02it/s] 39%|███▉      | 4352/11074 [37:14<55:26,  2.02it/s] 39%|███▉      | 4353/11074 [37:14<55:26,  2.02it/s] 39%|███▉      | 4354/11074 [37:15<55:23,  2.02it/s] 39%|███▉      | 4355/11074 [37:15<55:21,  2.02it/s] 39%|███▉      | 4356/11074 [37:16<55:21,  2.02it/s] 39%|███▉      | 4357/11074 [37:16<55:23,  2.02it/s] 39%|███▉      | 4358/11074 [37:17<55:22,  2.02it/s] 39%|███▉      | 4359/11074 [37:17<55:23,  2.02it/s] 39%|███▉      | 4360/11074 [37:18<55:22,  2.02it/s] 39%|███▉      | 4361/11074 [37:18<55:20,  2.02it/s] 39%|███▉      | 4362/11074 [37:19<55:16,  2.02it/s] 39%|███▉      | 4363/11074 [37:19<55:16,  2.02it/s] 39%|███▉      | 4364/11074 [37:20<55:13,  2.03it/s] 39%|███▉      | 4365/11074 [37:20<55:14,  2.02it/s] 39%|███▉      | 4366/11074 [37:21<55:12,  2.02it/s] 39%|███▉      | 4367/11074 [37:21<55:12,  2.02it/s] 39%|███▉      | 4368/11074 [37:22<55:13,  2.02it/s] 39%|███▉      | 4369/11074 [37:22<55:16,  2.02it/s] 39%|███▉      | 4370/11074 [37:23<55:17,  2.02it/s] 39%|███▉      | 4371/11074 [37:23<55:17,  2.02it/s] 39%|███▉      | 4372/11074 [37:24<55:16,  2.02it/s] 39%|███▉      | 4373/11074 [37:24<55:15,  2.02it/s] 39%|███▉      | 4374/11074 [37:25<55:17,  2.02it/s] 40%|███▉      | 4375/11074 [37:25<55:16,  2.02it/s]{'loss': 3.5875, 'grad_norm': 0.22677649557590485, 'learning_rate': 0.0007574694980142779, 'epoch': 5.53}
-                                                     40%|███▉      | 4375/11074 [37:25<55:16,  2.02it/s] 40%|███▉      | 4376/11074 [37:26<55:20,  2.02it/s] 40%|███▉      | 4377/11074 [37:26<55:14,  2.02it/s] 40%|███▉      | 4378/11074 [37:27<55:14,  2.02it/s] 40%|███▉      | 4379/11074 [37:27<55:13,  2.02it/s] 40%|███▉      | 4380/11074 [37:28<55:14,  2.02it/s] 40%|███▉      | 4381/11074 [37:28<55:10,  2.02it/s] 40%|███▉      | 4382/11074 [37:29<55:10,  2.02it/s] 40%|███▉      | 4383/11074 [37:29<55:08,  2.02it/s] 40%|███▉      | 4384/11074 [37:30<55:07,  2.02it/s] 40%|███▉      | 4385/11074 [37:30<55:06,  2.02it/s] 40%|███▉      | 4386/11074 [37:31<55:06,  2.02it/s] 40%|███▉      | 4387/11074 [37:31<55:05,  2.02it/s] 40%|███▉      | 4388/11074 [37:32<55:03,  2.02it/s] 40%|███▉      | 4389/11074 [37:32<55:02,  2.02it/s] 40%|███▉      | 4390/11074 [37:33<54:57,  2.03it/s] 40%|███▉      | 4391/11074 [37:33<54:57,  2.03it/s] 40%|███▉      | 4392/11074 [37:34<54:55,  2.03it/s] 40%|███▉      | 4393/11074 [37:34<54:56,  2.03it/s] 40%|███▉      | 4394/11074 [37:35<54:54,  2.03it/s] 40%|███▉      | 4395/11074 [37:35<54:50,  2.03it/s] 40%|███▉      | 4396/11074 [37:36<54:53,  2.03it/s] 40%|███▉      | 4397/11074 [37:36<54:50,  2.03it/s] 40%|███▉      | 4398/11074 [37:37<54:52,  2.03it/s] 40%|███▉      | 4399/11074 [37:37<54:49,  2.03it/s] 40%|███▉      | 4400/11074 [37:38<54:50,  2.03it/s]{'loss': 3.5825, 'grad_norm': 0.211432084441185, 'learning_rate': 0.0007540837313239067, 'epoch': 5.56}
-                                                     40%|███▉      | 4400/11074 [37:38<54:50,  2.03it/s] 40%|███▉      | 4401/11074 [37:38<54:52,  2.03it/s] 40%|███▉      | 4402/11074 [37:39<54:52,  2.03it/s] 40%|███▉      | 4403/11074 [37:39<54:54,  2.02it/s] 40%|███▉      | 4404/11074 [37:40<54:54,  2.02it/s] 40%|███▉      | 4405/11074 [37:40<54:53,  2.02it/s] 40%|███▉      | 4406/11074 [37:41<54:50,  2.03it/s] 40%|███▉      | 4407/11074 [37:41<55:01,  2.02it/s] 40%|███▉      | 4408/11074 [37:42<55:05,  2.02it/s] 40%|███▉      | 4409/11074 [37:42<54:59,  2.02it/s] 40%|███▉      | 4410/11074 [37:42<54:58,  2.02it/s] 40%|███▉      | 4411/11074 [37:43<54:55,  2.02it/s] 40%|███▉      | 4412/11074 [37:43<54:53,  2.02it/s] 40%|███▉      | 4413/11074 [37:44<54:50,  2.02it/s] 40%|███▉      | 4414/11074 [37:44<54:46,  2.03it/s] 40%|███▉      | 4415/11074 [37:45<54:51,  2.02it/s] 40%|███▉      | 4416/11074 [37:45<54:46,  2.03it/s] 40%|███▉      | 4417/11074 [37:46<54:49,  2.02it/s] 40%|███▉      | 4418/11074 [37:46<54:46,  2.03it/s] 40%|███▉      | 4419/11074 [37:47<54:49,  2.02it/s] 40%|███▉      | 4420/11074 [37:47<54:45,  2.02it/s] 40%|███▉      | 4421/11074 [37:48<54:48,  2.02it/s] 40%|███▉      | 4422/11074 [37:48<54:45,  2.02it/s] 40%|███▉      | 4423/11074 [37:49<54:48,  2.02it/s] 40%|███��      | 4424/11074 [37:50<59:30,  1.86it/s] 40%|███▉      | 4425/11074 [37:50<58:05,  1.91it/s]{'loss': 3.5897, 'grad_norm': 0.21120253205299377, 'learning_rate': 0.00075068218442973, 'epoch': 5.59}
-                                                     40%|███▉      | 4425/11074 [37:50<58:05,  1.91it/s] 40%|███▉      | 4426/11074 [37:51<57:09,  1.94it/s] 40%|███▉      | 4427/11074 [37:51<56:29,  1.96it/s] 40%|███▉      | 4428/11074 [37:52<55:54,  1.98it/s] 40%|███▉      | 4429/11074 [37:52<55:32,  1.99it/s] 40%|████      | 4430/11074 [37:53<55:18,  2.00it/s] 40%|████      | 4431/11074 [37:53<55:07,  2.01it/s] 40%|████      | 4432/11074 [37:54<55:01,  2.01it/s] 40%|████      | 4433/11074 [37:54<54:52,  2.02it/s] 40%|████      | 4434/11074 [37:55<54:48,  2.02it/s] 40%|████      | 4435/11074 [37:55<54:42,  2.02it/s] 40%|████      | 4436/11074 [37:55<54:42,  2.02it/s] 40%|████      | 4437/11074 [37:56<54:39,  2.02it/s] 40%|████      | 4438/11074 [37:56<54:38,  2.02it/s] 40%|████      | 4439/11074 [37:57<54:38,  2.02it/s] 40%|████      | 4440/11074 [37:57<54:36,  2.02it/s] 40%|████      | 4441/11074 [37:58<54:35,  2.02it/s] 40%|████      | 4442/11074 [37:58<54:35,  2.02it/s] 40%|████      | 4443/11074 [37:59<54:35,  2.02it/s] 40%|████      | 4444/11074 [37:59<54:33,  2.03it/s] 40%|████      | 4445/11074 [38:00<54:31,  2.03it/s] 40%|████      | 4446/11074 [38:00<54:32,  2.03it/s] 40%|████      | 4447/11074 [38:01<54:32,  2.03it/s] 40%|████      | 4448/11074 [38:01<54:32,  2.02it/s] 40%|████      | 4449/11074 [38:02<54:31,  2.02it/s] 40%|████      | 4450/11074 [38:02<54:28,  2.03it/s]{'loss': 3.5885, 'grad_norm': 0.21591557562351227, 'learning_rate': 0.000747265068589285, 'epoch': 5.62}
-                                                     40%|████      | 4450/11074 [38:02<54:28,  2.03it/s] 40%|████      | 4451/11074 [38:03<54:33,  2.02it/s] 40%|████      | 4452/11074 [38:03<54:32,  2.02it/s] 40%|████      | 4453/11074 [38:04<54:34,  2.02it/s] 40%|████      | 4454/11074 [38:04<54:31,  2.02it/s] 40%|████      | 4455/11074 [38:05<54:31,  2.02it/s] 40%|████      | 4456/11074 [38:05<54:28,  2.02it/s] 40%|████      | 4457/11074 [38:06<54:27,  2.03it/s] 40%|████      | 4458/11074 [38:06<54:26,  2.03it/s] 40%|████      | 4459/11074 [38:07<54:24,  2.03it/s] 40%|████      | 4460/11074 [38:07<54:27,  2.02it/s] 40%|████      | 4461/11074 [38:08<54:27,  2.02it/s] 40%|████      | 4462/11074 [38:08<54:30,  2.02it/s] 40%|████      | 4463/11074 [38:09<54:27,  2.02it/s] 40%|████      | 4464/11074 [38:09<54:29,  2.02it/s] 40%|████      | 4465/11074 [38:10<54:25,  2.02it/s] 40%|████      | 4466/11074 [38:10<54:28,  2.02it/s] 40%|████      | 4467/11074 [38:11<54:25,  2.02it/s] 40%|████      | 4468/11074 [38:11<54:23,  2.02it/s] 40%|████      | 4469/11074 [38:12<54:20,  2.03it/s] 40%|████      | 4470/11074 [38:12<54:23,  2.02it/s] 40%|████      | 4471/11074 [38:13<59:03,  1.86it/s] 40%|████      | 4472/11074 [38:13<57:39,  1.91it/s] 40%|████      | 4473/11074 [38:14<56:42,  1.94it/s] 40%|████      | 4474/11074 [38:14<55:58,  1.97it/s] 40%|████      | 4475/11074 [38:15<55:29,  1.98it/s]                                                    {'loss': 3.5795, 'grad_norm': 0.21282026171684265, 'learning_rate': 0.0007438325960270381, 'epoch': 5.65}
- 40%|████      | 4475/11074 [38:15<55:29,  1.98it/s] 40%|████      | 4476/11074 [38:15<55:12,  1.99it/s] 40%|████      | 4477/11074 [38:16<54:57,  2.00it/s] 40%|████      | 4478/11074 [38:16<54:41,  2.01it/s] 40%|████      | 4479/11074 [38:17<54:34,  2.01it/s] 40%|████      | 4480/11074 [38:17<54:27,  2.02it/s] 40%|████      | 4481/11074 [38:18<54:23,  2.02it/s] 40%|████      | 4482/11074 [38:18<54:21,  2.02it/s] 40%|████      | 4483/11074 [38:19<54:19,  2.02it/s] 40%|████      | 4484/11074 [38:19<54:17,  2.02it/s] 41%|████      | 4485/11074 [38:20<54:16,  2.02it/s] 41%|████      | 4486/11074 [38:20<54:13,  2.02it/s] 41%|████      | 4487/11074 [38:21<54:12,  2.03it/s] 41%|████      | 4488/11074 [38:21<54:14,  2.02it/s] 41%|████      | 4489/11074 [38:22<54:13,  2.02it/s] 41%|████      | 4490/11074 [38:22<54:12,  2.02it/s] 41%|████      | 4491/11074 [38:23<54:12,  2.02it/s] 41%|████      | 4492/11074 [38:23<54:09,  2.03it/s] 41%|████      | 4493/11074 [38:24<54:10,  2.02it/s] 41%|████      | 4494/11074 [38:24<54:10,  2.02it/s] 41%|████      | 4495/11074 [38:25<54:10,  2.02it/s] 41%|████      | 4496/11074 [38:25<54:07,  2.03it/s] 41%|████      | 4497/11074 [38:26<54:06,  2.03it/s] 41%|████      | 4498/11074 [38:26<54:05,  2.03it/s] 41%|████      | 4499/11074 [38:27<54:05,  2.03it/s] 41%|████      | 4500/11074 [38:27<54:04,  2.03it/s]                                                    {'loss': 3.5895, 'grad_norm': 0.21097303926944733, 'learning_rate': 0.0007403849799212057, 'epoch': 5.69}
- 41%|████      | 4500/11074 [38:27<54:04,  2.03it/s] 41%|████      | 4501/11074 [38:28<54:09,  2.02it/s] 41%|████      | 4502/11074 [38:28<54:09,  2.02it/s] 41%|████      | 4503/11074 [38:29<54:08,  2.02it/s] 41%|████      | 4504/11074 [38:29<54:09,  2.02it/s] 41%|████      | 4505/11074 [38:30<54:04,  2.02it/s] 41%|████      | 4506/11074 [38:30<54:03,  2.02it/s] 41%|████      | 4507/11074 [38:31<54:04,  2.02it/s] 41%|████      | 4508/11074 [38:31<54:04,  2.02it/s] 41%|████      | 4509/11074 [38:32<54:06,  2.02it/s] 41%|████      | 4510/11074 [38:32<54:06,  2.02it/s] 41%|████      | 4511/11074 [38:33<54:05,  2.02it/s] 41%|████      | 4512/11074 [38:33<54:04,  2.02it/s] 41%|████      | 4513/11074 [38:34<54:09,  2.02it/s] 41%|████      | 4514/11074 [38:34<54:04,  2.02it/s] 41%|████      | 4515/11074 [38:35<54:05,  2.02it/s] 41%|████      | 4516/11074 [38:35<54:02,  2.02it/s] 41%|████      | 4517/11074 [38:36<54:07,  2.02it/s] 41%|████      | 4518/11074 [38:36<54:02,  2.02it/s] 41%|████      | 4519/11074 [38:37<53:59,  2.02it/s] 41%|████      | 4520/11074 [38:37<54:00,  2.02it/s] 41%|████      | 4521/11074 [38:38<53:55,  2.03it/s] 41%|████      | 4522/11074 [38:38<53:55,  2.03it/s] 41%|████      | 4523/11074 [38:39<53:53,  2.03it/s] 41%|████      | 4524/11074 [38:39<53:53,  2.03it/s] 41%|████      | 4525/11074 [38:40<53:50,  2.03it/s]                                                    {'loss': 3.5898, 'grad_norm': 0.21886992454528809, 'learning_rate': 0.0007369224343905135, 'epoch': 5.72}
- 41%|████      | 4525/11074 [38:40<53:50,  2.03it/s] 41%|████      | 4526/11074 [38:40<54:11,  2.01it/s] 41%|████      | 4527/11074 [38:41<54:05,  2.02it/s] 41%|████      | 4528/11074 [38:41<53:59,  2.02it/s] 41%|████      | 4529/11074 [38:42<53:55,  2.02it/s] 41%|████      | 4530/11074 [38:42<53:55,  2.02it/s] 41%|████      | 4531/11074 [38:43<53:57,  2.02it/s] 41%|████      | 4532/11074 [38:43<53:56,  2.02it/s] 41%|████      | 4533/11074 [38:44<53:55,  2.02it/s] 41%|████      | 4534/11074 [38:44<53:53,  2.02it/s] 41%|████      | 4535/11074 [38:45<53:51,  2.02it/s] 41%|████      | 4536/11074 [38:45<53:50,  2.02it/s] 41%|████      | 4537/11074 [38:46<53:47,  2.03it/s] 41%|████      | 4538/11074 [38:46<53:47,  2.03it/s] 41%|████      | 4539/11074 [38:47<53:44,  2.03it/s] 41%|████      | 4540/11074 [38:47<53:47,  2.02it/s] 41%|████      | 4541/11074 [38:48<53:43,  2.03it/s] 41%|████      | 4542/11074 [38:48<53:45,  2.03it/s] 41%|████      | 4543/11074 [38:48<53:43,  2.03it/s] 41%|████      | 4544/11074 [38:49<53:46,  2.02it/s] 41%|████      | 4545/11074 [38:49<53:44,  2.03it/s] 41%|████      | 4546/11074 [38:50<53:42,  2.03it/s] 41%|████      | 4547/11074 [38:50<53:44,  2.02it/s] 41%|████      | 4548/11074 [38:51<53:46,  2.02it/s] 41%|████      | 4549/11074 [38:51<53:45,  2.02it/s] 41%|████      | 4550/11074 [38:52<53:40,  2.03it/s]{'loss': 3.5849, 'grad_norm': 0.21592164039611816, 'learning_rate': 0.0007334451744808988, 'epoch': 5.75}                                                    
- 41%|████      | 4550/11074 [38:52<53:40,  2.03it/s] 41%|████      | 4551/11074 [38:52<53:43,  2.02it/s] 41%|████      | 4552/11074 [38:53<53:40,  2.03it/s] 41%|████      | 4553/11074 [38:53<53:39,  2.03it/s] 41%|████      | 4554/11074 [38:54<53:35,  2.03it/s] 41%|████      | 4555/11074 [38:54<53:37,  2.03it/s] 41%|████      | 4556/11074 [38:55<53:36,  2.03it/s] 41%|████      | 4557/11074 [38:55<53:33,  2.03it/s] 41%|████      | 4558/11074 [38:56<53:33,  2.03it/s] 41%|████      | 4559/11074 [38:56<53:30,  2.03it/s] 41%|████      | 4560/11074 [38:57<53:33,  2.03it/s] 41%|████      | 4561/11074 [38:57<53:31,  2.03it/s] 41%|████      | 4562/11074 [38:58<53:33,  2.03it/s] 41%|████      | 4563/11074 [38:58<53:35,  2.02it/s] 41%|████      | 4564/11074 [38:59<53:33,  2.03it/s] 41%|████      | 4565/11074 [38:59<53:35,  2.02it/s] 41%|████      | 4566/11074 [39:00<53:30,  2.03it/s] 41%|████      | 4567/11074 [39:00<53:34,  2.02it/s] 41%|████      | 4568/11074 [39:01<53:27,  2.03it/s] 41%|████▏     | 4569/11074 [39:01<53:31,  2.03it/s] 41%|████��     | 4570/11074 [39:02<53:28,  2.03it/s] 41%|████▏     | 4571/11074 [39:02<53:29,  2.03it/s] 41%|████▏     | 4572/11074 [39:03<53:30,  2.03it/s] 41%|████▏     | 4573/11074 [39:03<53:26,  2.03it/s] 41%|████▏     | 4574/11074 [39:04<53:27,  2.03it/s] 41%|████▏     | 4575/11074 [39:04<53:29,  2.02it/s]                                                    {'loss': 3.5943, 'grad_norm': 0.2086528241634369, 'learning_rate': 0.0007299534161521547, 'epoch': 5.78}
- 41%|████▏     | 4575/11074 [39:04<53:29,  2.02it/s] 41%|████▏     | 4576/11074 [39:05<53:34,  2.02it/s] 41%|████▏     | 4577/11074 [39:05<53:28,  2.02it/s] 41%|████▏     | 4578/11074 [39:06<53:30,  2.02it/s] 41%|████▏     | 4579/11074 [39:06<53:27,  2.02it/s] 41%|████▏     | 4580/11074 [39:07<53:24,  2.03it/s] 41%|████▏     | 4581/11074 [39:07<53:24,  2.03it/s] 41%|████▏     | 4582/11074 [39:08<53:20,  2.03it/s] 41%|████▏     | 4583/11074 [39:08<53:23,  2.03it/s] 41%|████▏     | 4584/11074 [39:09<53:20,  2.03it/s] 41%|████▏     | 4585/11074 [39:09<53:22,  2.03it/s] 41%|████▏     | 4586/11074 [39:10<53:21,  2.03it/s] 41%|████▏     | 4587/11074 [39:10<53:23,  2.02it/s] 41%|████▏     | 4588/11074 [39:11<53:22,  2.03it/s] 41%|████▏     | 4589/11074 [39:11<53:21,  2.03it/s] 41%|████▏     | 4590/11074 [39:12<53:24,  2.02it/s] 41%|████▏     | 4591/11074 [39:12<53:21,  2.02it/s] 41%|████▏     | 4592/11074 [39:13<53:24,  2.02it/s] 41%|████▏     | 4593/11074 [39:13<53:21,  2.02it/s] 41%|████▏     | 4594/11074 [39:14<53:21,  2.02it/s] 41%|████▏     | 4595/11074 [39:14<53:16,  2.03it/s] 42%|████▏     | 4596/11074 [39:15<53:17,  2.03it/s] 42%|████▏     | 4597/11074 [39:15<53:16,  2.03it/s] 42%|████▏     | 4598/11074 [39:16<53:17,  2.03it/s] 42%|████▏     | 4599/11074 [39:16<53:19,  2.02it/s] 42%|████▏     | 4600/11074 [39:17<53:20,  2.02it/s]                                                    {'loss': 3.5881, 'grad_norm': 0.21321672201156616, 'learning_rate': 0.0007264473762645178, 'epoch': 5.81}
- 42%|████▏     | 4600/11074 [39:17<53:20,  2.02it/s] 42%|████▏     | 4601/11074 [39:17<53:20,  2.02it/s] 42%|████▏     | 4602/11074 [39:18<53:19,  2.02it/s] 42%|████▏     | 4603/11074 [39:18<53:18,  2.02it/s] 42%|████▏     | 4604/11074 [39:19<53:19,  2.02it/s] 42%|████▏     | 4605/11074 [39:19<53:16,  2.02it/s] 42%|████▏     | 4606/11074 [39:20<53:13,  2.03it/s] 42%|████▏     | 4607/11074 [39:20<53:14,  2.02it/s] 42%|████▏     | 4608/11074 [39:21<53:11,  2.03it/s] 42%|████▏     | 4609/11074 [39:21<53:13,  2.02it/s] 42%|████▏     | 4610/11074 [39:22<53:10,  2.03it/s] 42%|████▏     | 4611/11074 [39:22<53:14,  2.02it/s] 42%|████▏     | 4612/11074 [39:23<53:10,  2.03it/s] 42%|████▏     | 4613/11074 [39:23<53:10,  2.02it/s] 42%|████▏     | 4614/11074 [39:24<53:16,  2.02it/s] 42%|████▏     | 4615/11074 [39:24<53:15,  2.02it/s] 42%|████▏     | 4616/11074 [39:25<53:12,  2.02it/s] 42%|████▏     | 4617/11074 [39:25<53:08,  2.02it/s] 42%|████▏     | 4618/11074 [39:26<53:11,  2.02it/s] 42%|████▏     | 4619/11074 [39:26<53:12,  2.02it/s] 42%|████▏     | 4620/11074 [39:27<53:11,  2.02it/s] 42%|████▏     | 4621/11074 [39:27<53:09,  2.02it/s] 42%|████▏     | 4622/11074 [39:28<53:07,  2.02it/s] 42%|████▏     | 4623/11074 [39:28<53:06,  2.02it/s] 42%|████▏     | 4624/11074 [39:29<53:06,  2.02it/s] 42%|████▏     | 4625/11074 [39:29<53:05,  2.02it/s]{'loss': 3.5846, 'grad_norm': 0.2136494517326355, 'learning_rate': 0.0007229272725651994, 'epoch': 5.84}
-                                                     42%|████▏     | 4625/11074 [39:29<53:05,  2.02it/s] 42%|████▏     | 4626/11074 [39:29<53:09,  2.02it/s] 42%|████▏     | 4627/11074 [39:30<53:04,  2.02it/s] 42%|████▏     | 4628/11074 [39:30<53:05,  2.02it/s] 42%|████▏     | 4629/11074 [39:31<53:05,  2.02it/s] 42%|████▏     | 4630/11074 [39:31<53:05,  2.02it/s] 42%|████▏     | 4631/11074 [39:32<53:01,  2.02it/s] 42%|████▏     | 4632/11074 [39:32<53:00,  2.03it/s] 42%|████▏     | 4633/11074 [39:33<53:01,  2.02it/s] 42%|████▏     | 4634/11074 [39:33<52:59,  2.03it/s] 42%|████▏     | 4635/11074 [39:34<52:59,  2.03it/s] 42%|████▏     | 4636/11074 [39:34<52:59,  2.02it/s] 42%|████▏     | 4637/11074 [39:35<52:59,  2.02it/s] 42%|████▏     | 4638/11074 [39:35<53:04,  2.02it/s] 42%|████▏     | 4639/11074 [39:36<53:00,  2.02it/s] 42%|████▏     | 4640/11074 [39:36<52:59,  2.02it/s] 42%|████▏     | 4641/11074 [39:37<52:56,  2.03it/s] 42%|████▏     | 4642/11074 [39:37<52:56,  2.03it/s] 42%|████▏     | 4643/11074 [39:38<52:55,  2.03it/s] 42%|████▏     | 4644/11074 [39:38<52:56,  2.02it/s] 42%|████▏     | 4645/11074 [39:39<52:56,  2.02it/s] 42%|████▏     | 4646/11074 [39:39<52:56,  2.02it/s] 42%|████▏     | 4647/11074 [39:40<52:53,  2.03it/s] 42%|████▏     | 4648/11074 [39:40<52:56,  2.02it/s] 42%|████▏     | 4649/11074 [39:41<52:55,  2.02it/s] 42%|████▏     | 4650/11074 [39:41<52:57,  2.02it/s]                                                    {'loss': 3.5881, 'grad_norm': 0.2147834300994873, 'learning_rate': 0.0007193933236748627, 'epoch': 5.87}
- 42%|████▏     | 4650/11074 [39:41<52:57,  2.02it/s] 42%|████▏     | 4651/11074 [39:42<53:13,  2.01it/s] 42%|████▏     | 4652/11074 [39:42<53:05,  2.02it/s] 42%|████▏     | 4653/11074 [39:43<53:03,  2.02it/s] 42%|████▏     | 4654/11074 [39:43<52:59,  2.02it/s] 42%|████▏     | 4655/11074 [39:44<52:59,  2.02it/s] 42%|████▏     | 4656/11074 [39:44<52:55,  2.02it/s] 42%|████▏     | 4657/11074 [39:45<52:53,  2.02it/s] 42%|████▏     | 4658/11074 [39:45<52:53,  2.02it/s] 42%|████▏     | 4659/11074 [39:46<52:52,  2.02it/s] 42%|████▏     | 4660/11074 [39:46<52:53,  2.02it/s] 42%|████▏     | 4661/11074 [39:47<52:52,  2.02it/s] 42%|████▏     | 4662/11074 [39:47<52:53,  2.02it/s] 42%|████▏     | 4663/11074 [39:48<52:54,  2.02it/s] 42%|████▏     | 4664/11074 [39:48<52:50,  2.02it/s] 42%|████▏     | 4665/11074 [39:49<52:50,  2.02it/s] 42%|████▏     | 4666/11074 [39:49<52:46,  2.02it/s] 42%|████▏     | 4667/11074 [39:50<52:45,  2.02it/s] 42%|████▏     | 4668/11074 [39:50<52:45,  2.02it/s] 42%|████▏     | 4669/11074 [39:51<52:44,  2.02it/s] 42%|████▏     | 4670/11074 [39:51<52:43,  2.02it/s] 42%|████▏     | 4671/11074 [39:52<52:46,  2.02it/s] 42%|████▏     | 4672/11074 [39:52<52:46,  2.02it/s] 42%|████▏     | 4673/11074 [39:53<52:47,  2.02it/s] 42%|████▏     | 4674/11074 [39:53<52:48,  2.02it/s] 42%|████▏     | 4675/11074 [39:54<52:47,  2.02it/s]{'loss': 3.5848, 'grad_norm': 0.21450282633304596, 'learning_rate': 0.0007158457490740442, 'epoch': 5.91}
-                                                     42%|████▏     | 4675/11074 [39:54<52:47,  2.02it/s] 42%|████▏     | 4676/11074 [39:54<52:45,  2.02it/s] 42%|████▏     | 4677/11074 [39:55<52:45,  2.02it/s] 42%|████▏     | 4678/11074 [39:55<52:42,  2.02it/s] 42%|████▏     | 4679/11074 [39:56<52:40,  2.02it/s] 42%|████▏     | 4680/11074 [39:56<52:37,  2.02it/s] 42%|████▏     | 4681/11074 [39:57<52:38,  2.02it/s] 42%|████▏     | 4682/11074 [39:57<52:40,  2.02it/s] 42%|████▏     | 4683/11074 [39:58<52:39,  2.02it/s] 42%|████▏     | 4684/11074 [39:58<52:43,  2.02it/s] 42%|████▏     | 4685/11074 [39:59<52:44,  2.02it/s] 42%|████▏     | 4686/11074 [39:59<52:40,  2.02it/s] 42%|████▏     | 4687/11074 [40:00<52:39,  2.02it/s] 42%|████▏     | 4688/11074 [40:00<52:39,  2.02it/s] 42%|████▏     | 4689/11074 [40:01<52:38,  2.02it/s] 42%|████▏     | 4690/11074 [40:01<52:36,  2.02it/s] 42%|████▏     | 4691/11074 [40:02<52:33,  2.02it/s] 42%|████▏     | 4692/11074 [40:02<52:34,  2.02it/s] 42%|████▏     | 4693/11074 [40:03<52:34,  2.02it/s] 42%|████▏     | 4694/11074 [40:03<52:35,  2.02it/s] 42%|████▏     | 4695/11074 [40:04<52:33,  2.02it/s] 42%|████▏     | 4696/11074 [40:04<52:37,  2.02it/s] 42%|████▏     | 4697/11074 [40:05<52:35,  2.02it/s] 42%|████▏     | 4698/11074 [40:05<52:34,  2.02it/s] 42%|████▏     | 4699/11074 [40:06<52:35,  2.02it/s] 42%|████▏     | 4700/11074 [40:06<52:34,  2.02it/s]                                                    {'loss': 3.5938, 'grad_norm': 0.20518536865711212, 'learning_rate': 0.0007122847690895234, 'epoch': 5.94}
- 42%|████▏     | 4700/11074 [40:06<52:34,  2.02it/s] 42%|████▏     | 4701/11074 [40:07<52:39,  2.02it/s] 42%|████▏     | 4702/11074 [40:07<52:36,  2.02it/s] 42%|████▏     | 4703/11074 [40:08<52:34,  2.02it/s] 42%|████▏     | 4704/11074 [40:08<52:31,  2.02it/s] 42%|████▏     | 4705/11074 [40:09<52:34,  2.02it/s] 42%|████▏     | 4706/11074 [40:09<52:31,  2.02it/s] 43%|████▎     | 4707/11074 [40:10<52:30,  2.02it/s] 43%|████▎     | 4708/11074 [40:10<52:33,  2.02it/s] 43%|████▎     | 4709/11074 [40:11<52:33,  2.02it/s] 43%|████▎     | 4710/11074 [40:11<52:30,  2.02it/s] 43%|████▎     | 4711/11074 [40:12<52:31,  2.02it/s] 43%|████▎     | 4712/11074 [40:12<52:26,  2.02it/s] 43%|████▎     | 4713/11074 [40:13<52:22,  2.02it/s] 43%|████▎     | 4714/11074 [40:13<52:23,  2.02it/s] 43%|████▎     | 4715/11074 [40:14<52:23,  2.02it/s] 43%|████▎     | 4716/11074 [40:14<52:22,  2.02it/s] 43%|████▎     | 4717/11074 [40:14<52:22,  2.02it/s] 43%|████▎     | 4718/11074 [40:15<52:18,  2.03it/s] 43%|████▎     | 4719/11074 [40:15<52:18,  2.02it/s] 43%|████▎     | 4720/11074 [40:16<52:17,  2.03it/s] 43%|████▎     | 4721/11074 [40:16<52:18,  2.02it/s] 43%|████▎     | 4722/11074 [40:17<52:16,  2.03it/s] 43%|████▎     | 4723/11074 [40:17<52:17,  2.02it/s] 43%|████▎     | 4724/11074 [40:18<52:17,  2.02it/s] 43%|████▎     | 4725/11074 [40:18<52:16,  2.02it/s]{'loss': 3.5914, 'grad_norm': 0.2193446308374405, 'learning_rate': 0.0007087106048806387, 'epoch': 5.97}
-                                                     43%|████▎     | 4725/11074 [40:18<52:16,  2.02it/s] 43%|████▎     | 4726/11074 [40:19<52:18,  2.02it/s] 43%|████▎     | 4727/11074 [40:19<52:16,  2.02it/s] 43%|████▎     | 4728/11074 [40:20<52:16,  2.02it/s] 43%|████▎     | 4729/11074 [40:20<52:12,  2.03it/s] 43%|████▎     | 4730/11074 [40:21<52:14,  2.02it/s] 43%|████▎     | 4731/11074 [40:21<52:12,  2.03it/s] 43%|████▎     | 4732/11074 [40:22<52:13,  2.02it/s] 43%|████▎     | 4733/11074 [40:22<52:10,  2.03it/s] 43%|████▎     | 4734/11074 [40:23<52:11,  2.02it/s] 43%|████▎     | 4735/11074 [40:23<52:10,  2.03it/s] 43%|████▎     | 4736/11074 [40:24<52:07,  2.03it/s] 43%|████▎     | 4737/11074 [40:24<52:07,  2.03it/s] 43%|████▎     | 4738/11074 [40:25<52:05,  2.03it/s] 43%|████▎     | 4739/11074 [40:25<52:06,  2.03it/s] 43%|████▎     | 4740/11074 [40:26<52:02,  2.03it/s] 43%|████▎     | 4741/11074 [40:26<52:05,  2.03it/s] 43%|████▎     | 4742/11074 [40:27<52:05,  2.03it/s] 43%|████▎     | 4743/11074 [40:27<52:11,  2.02it/s] 43%|████▎     | 4744/11074 [40:28<52:06,  2.02it/s] 43%|████▎     | 4745/11074 [40:28<52:02,  2.03it/s] 43%|████▎     | 4746/11074 [40:29<52:06,  2.02it/s] 43%|████▎     | 4747/11074 [40:29<52:02,  2.03it/s] 43%|████▎     | 4748/11074 [40:30<52:03,  2.03it/s] 43%|████▎     | 4749/11074 [40:30<51:37,  2.04it/s] 43%|████▎     | 4750/11074 [40:42<7:00:36,  3.99s/it]                                                      {'loss': 3.5814, 'grad_norm': 0.23716001212596893, 'learning_rate': 0.000705123478425552, 'epoch': 6.0}
- 43%|████▎     | 4750/11074 [40:42<7:00:36,  3.99s/it] 43%|████▎     | 4751/11074 [40:43<5:10:01,  2.94s/it] 43%|████▎     | 4752/11074 [40:43<3:52:35,  2.21s/it] 43%|████▎     | 4753/11074 [40:44<2:58:36,  1.70s/it] 43%|████▎     | 4754/11074 [40:44<2:20:37,  1.33s/it] 43%|████▎     | 4755/11074 [40:45<1:53:57,  1.08s/it] 43%|████▎     | 4756/11074 [40:45<1:35:22,  1.10it/s] 43%|████▎     | 4757/11074 [40:46<1:22:25,  1.28it/s] 43%|████▎     | 4758/11074 [40:46<1:13:14,  1.44it/s] 43%|████▎     | 4759/11074 [40:47<1:06:53,  1.57it/s] 43%|████▎     | 4760/11074 [40:47<1:02:28,  1.68it/s] 43%|████▎     | 4761/11074 [40:48<59:26,  1.77it/s]   43%|████▎     | 4762/11074 [40:48<57:10,  1.84it/s] 43%|████▎     | 4763/11074 [40:49<55:43,  1.89it/s] 43%|████▎     | 4764/11074 [40:49<54:35,  1.93it/s] 43%|████▎     | 4765/11074 [40:50<53:48,  1.95it/s] 43%|████▎     | 4766/11074 [40:50<53:11,  1.98it/s] 43%|████▎     | 4767/11074 [40:51<52:51,  1.99it/s] 43%|████▎     | 4768/11074 [40:51<52:31,  2.00it/s] 43%|████▎     | 4769/11074 [40:52<52:22,  2.01it/s] 43%|████▎     | 4770/11074 [40:52<52:13,  2.01it/s] 43%|████▎     | 4771/11074 [40:53<52:08,  2.01it/s] 43%|████▎     | 4772/11074 [40:53<52:06,  2.02it/s] 43%|████▎     | 4773/11074 [40:54<52:01,  2.02it/s] 43%|████▎     | 4774/11074 [40:54<51:58,  2.02it/s] 43%|████▎     | 4775/11074 [40:55<51:55,  2.02it/s]{'loss': 3.4348, 'grad_norm': 0.21467731893062592, 'learning_rate': 0.0007015236125074625, 'epoch': 6.03}
-                                                     43%|████▎     | 4775/11074 [40:55<51:55,  2.02it/s] 43%|████▎     | 4776/11074 [40:55<51:55,  2.02it/s] 43%|████▎     | 4777/11074 [40:56<51:55,  2.02it/s] 43%|████▎     | 4778/11074 [40:56<51:54,  2.02it/s] 43%|████▎     | 4779/11074 [40:57<51:54,  2.02it/s] 43%|████▎     | 4780/11074 [40:57<51:54,  2.02it/s] 43%|████▎     | 4781/11074 [40:58<51:53,  2.02it/s] 43%|████▎     | 4782/11074 [40:58<51:51,  2.02it/s] 43%|████▎     | 4783/11074 [40:59<51:50,  2.02it/s] 43%|████▎     | 4784/11074 [40:59<51:49,  2.02it/s] 43%|████▎     | 4785/11074 [41:00<51:53,  2.02it/s] 43%|████▎     | 4786/11074 [41:00<51:50,  2.02it/s] 43%|████▎     | 4787/11074 [41:01<51:51,  2.02it/s] 43%|████▎     | 4788/11074 [41:01<51:48,  2.02it/s] 43%|████▎     | 4789/11074 [41:02<51:49,  2.02it/s] 43%|████▎     | 4790/11074 [41:02<51:47,  2.02it/s] 43%|████▎     | 4791/11074 [41:03<51:49,  2.02it/s] 43%|████▎     | 4792/11074 [41:03<51:45,  2.02it/s] 43%|████▎     | 4793/11074 [41:04<51:44,  2.02it/s] 43%|████▎     | 4794/11074 [41:04<51:41,  2.02it/s] 43%|████▎     | 4795/11074 [41:05<51:39,  2.03it/s] 43%|████▎     | 4796/11074 [41:05<51:41,  2.02it/s] 43%|████▎     | 4797/11074 [41:06<51:37,  2.03it/s] 43%|████▎     | 4798/11074 [41:06<51:41,  2.02it/s] 43%|████▎     | 4799/11074 [41:07<51:36,  2.03it/s] 43%|████▎     | 4800/11074 [41:07<51:39,  2.02it/s]                                                    {'loss': 3.4463, 'grad_norm': 0.21537235379219055, 'learning_rate': 0.0006979112307007704, 'epoch': 6.06}
- 43%|████▎     | 4800/11074 [41:07<51:39,  2.02it/s] 43%|████▎     | 4801/11074 [41:08<51:38,  2.02it/s] 43%|████▎     | 4802/11074 [41:08<51:37,  2.02it/s] 43%|████▎     | 4803/11074 [41:09<51:36,  2.03it/s] 43%|████▎     | 4804/11074 [41:09<51:37,  2.02it/s] 43%|████▎     | 4805/11074 [41:10<51:35,  2.02it/s] 43%|████▎     | 4806/11074 [41:10<51:33,  2.03it/s] 43%|████▎     | 4807/11074 [41:11<51:30,  2.03it/s] 43%|████▎     | 4808/11074 [41:11<51:33,  2.03it/s] 43%|████▎     | 4809/11074 [41:12<51:35,  2.02it/s] 43%|████▎     | 4810/11074 [41:12<51:32,  2.03it/s] 43%|████▎     | 4811/11074 [41:13<51:32,  2.03it/s] 43%|████▎     | 4812/11074 [41:13<51:29,  2.03it/s] 43%|████▎     | 4813/11074 [41:14<51:29,  2.03it/s] 43%|████▎     | 4814/11074 [41:14<51:31,  2.03it/s] 43%|████▎     | 4815/11074 [41:15<51:29,  2.03it/s] 43%|████▎     | 4816/11074 [41:15<51:31,  2.02it/s] 43%|████▎     | 4817/11074 [41:16<51:27,  2.03it/s] 44%|████▎     | 4818/11074 [41:16<51:30,  2.02it/s] 44%|████▎     | 4819/11074 [41:17<51:26,  2.03it/s] 44%|████▎     | 4820/11074 [41:17<51:31,  2.02it/s] 44%|████▎     | 4821/11074 [41:18<51:29,  2.02it/s] 44%|████▎     | 4822/11074 [41:18<51:35,  2.02it/s] 44%|████▎     | 4823/11074 [41:19<51:30,  2.02it/s] 44%|████▎     | 4824/11074 [41:19<51:30,  2.02it/s] 44%|████▎     | 4825/11074 [41:20<51:29,  2.02it/s]{'loss': 3.4508, 'grad_norm': 0.21900425851345062, 'learning_rate': 0.0006942865573571918, 'epoch': 6.1}                                                    
- 44%|████▎     | 4825/11074 [41:20<51:29,  2.02it/s] 44%|████▎     | 4826/11074 [41:20<51:30,  2.02it/s] 44%|████▎     | 4827/11074 [41:21<51:29,  2.02it/s] 44%|████▎     | 4828/11074 [41:21<51:25,  2.02it/s] 44%|████▎     | 4829/11074 [41:21<51:25,  2.02it/s] 44%|████▎     | 4830/11074 [41:22<51:20,  2.03it/s] 44%|████▎     | 4831/11074 [41:22<51:24,  2.02it/s] 44%|████▎     | 4832/11074 [41:23<51:22,  2.03it/s] 44%|████▎     | 4833/11074 [41:23<51:22,  2.02it/s] 44%|████▎     | 4834/11074 [41:24<51:21,  2.02it/s] 44%|████▎     | 4835/11074 [41:24<51:23,  2.02it/s] 44%|████▎     | 4836/11074 [41:25<51:23,  2.02it/s] 44%|████▎     | 4837/11074 [41:25<51:22,  2.02it/s] 44%|████▎     | 4838/11074 [41:26<51:26,  2.02it/s] 44%|████▎     | 4839/11074 [41:26<51:23,  2.02it/s] 44%|████▎     | 4840/11074 [41:27<51:23,  2.02it/s] 44%|████▎     | 4841/11074 [41:27<51:22,  2.02it/s] 44%|████▎     | 4842/11074 [41:28<51:23,  2.02it/s] 44%|████▎     | 4843/11074 [41:28<51:21,  2.02it/s] 44%|████▎     | 4844/11074 [41:29<51:22,  2.02it/s] 44%|████▍     | 4845/11074 [41:29<51:20,  2.02it/s] 44%|████▍     | 4846/11074 [41:30<51:19,  2.02it/s] 44%|████▍     | 4847/11074 [41:30<51:20,  2.02it/s] 44%|████▍     | 4848/11074 [41:31<51:22,  2.02it/s] 44%|████▍     | 4849/11074 [41:31<51:20,  2.02it/s] 44%|████▍     | 4850/11074 [41:32<51:21,  2.02it/s]{'loss': 3.4598, 'grad_norm': 0.22384662926197052, 'learning_rate': 0.000690649817591825, 'epoch': 6.13}
-                                                     44%|████▍     | 4850/11074 [41:32<51:21,  2.02it/s] 44%|████▍     | 4851/11074 [41:32<51:22,  2.02it/s] 44%|████▍     | 4852/11074 [41:33<51:20,  2.02it/s] 44%|████▍     | 4853/11074 [41:33<51:17,  2.02it/s] 44%|████▍     | 4854/11074 [41:34<51:16,  2.02it/s] 44%|████▍     | 4855/11074 [41:34<51:13,  2.02it/s] 44%|████▍     | 4856/11074 [41:35<51:13,  2.02it/s] 44%|████▍     | 4857/11074 [41:35<51:13,  2.02it/s] 44%|████▍     | 4858/11074 [41:36<51:13,  2.02it/s] 44%|████▍     | 4859/11074 [41:36<51:14,  2.02it/s] 44%|████▍     | 4860/11074 [41:37<51:13,  2.02it/s] 44%|████▍     | 4861/11074 [41:37<51:10,  2.02it/s] 44%|████▍     | 4862/11074 [41:38<51:08,  2.02it/s] 44%|████▍     | 4863/11074 [41:38<51:08,  2.02it/s] 44%|████▍     | 4864/11074 [41:39<51:09,  2.02it/s] 44%|████▍     | 4865/11074 [41:39<51:09,  2.02it/s] 44%|████▍     | 4866/11074 [41:40<51:11,  2.02it/s] 44%|████▍     | 4867/11074 [41:40<51:12,  2.02it/s] 44%|████▍     | 4868/11074 [41:41<51:09,  2.02it/s] 44%|████▍     | 4869/11074 [41:41<51:07,  2.02it/s] 44%|████▍     | 4870/11074 [41:42<51:03,  2.03it/s] 44%|████▍     | 4871/11074 [41:42<51:03,  2.02it/s] 44%|████▍     | 4872/11074 [41:43<51:02,  2.03it/s] 44%|████▍     | 4873/11074 [41:43<51:03,  2.02it/s] 44%|████▍     | 4874/11074 [41:44<51:04,  2.02it/s] 44%|████▍     | 4875/11074 [41:44<51:07,  2.02it/s]{'loss': 3.4736, 'grad_norm': 0.22501328587532043, 'learning_rate': 0.0006870012372691685, 'epoch': 6.16}                                                    
- 44%|████▍     | 4875/11074 [41:44<51:07,  2.02it/s] 44%|████▍     | 4876/11074 [41:45<51:06,  2.02it/s] 44%|████▍     | 4877/11074 [41:45<51:02,  2.02it/s] 44%|████▍     | 4878/11074 [41:46<51:03,  2.02it/s] 44%|████▍     | 4879/11074 [41:46<51:05,  2.02it/s] 44%|████▍     | 4880/11074 [41:47<51:04,  2.02it/s] 44%|████▍     | 4881/11074 [41:47<51:03,  2.02it/s] 44%|████▍     | 4882/11074 [41:48<51:07,  2.02it/s] 44%|████▍     | 4883/11074 [41:48<51:03,  2.02it/s] 44%|████▍     | 4884/11074 [41:49<50:57,  2.02it/s] 44%|████▍     | 4885/11074 [41:49<50:59,  2.02it/s] 44%|████▍     | 4886/11074 [41:50<50:54,  2.03it/s] 44%|████▍     | 4887/11074 [41:50<50:56,  2.02it/s] 44%|████▍     | 4888/11074 [41:51<50:56,  2.02it/s] 44%|████▍     | 4889/11074 [41:51<50:56,  2.02it/s] 44%|████▍     | 4890/11074 [41:52<50:56,  2.02it/s] 44%|████▍     | 4891/11074 [41:52<50:57,  2.02it/s] 44%|████▍     | 4892/11074 [41:53<50:57,  2.02it/s] 44%|████▍     | 4893/11074 [41:53<50:56,  2.02it/s] 44%|████▍     | 4894/11074 [41:54<50:58,  2.02it/s] 44%|████▍     | 4895/11074 [41:54<50:58,  2.02it/s] 44%|████▍     | 4896/11074 [41:55<50:53,  2.02it/s] 44%|████▍     | 4897/11074 [41:55<50:54,  2.02it/s] 44%|████▍     | 4898/11074 [41:56<50:50,  2.02it/s] 44%|████▍     | 4899/11074 [41:56<50:51,  2.02it/s] 44%|████▍     | 4900/11074 [41:57<50:47,  2.03it/s]{'loss': 3.4683, 'grad_norm': 0.21938066184520721, 'learning_rate': 0.0006833410429890948, 'epoch': 6.19}
-                                                     44%|████▍     | 4900/11074 [41:57<50:47,  2.03it/s] 44%|████▍     | 4901/11074 [41:57<50:55,  2.02it/s] 44%|████▍     | 4902/11074 [41:58<50:50,  2.02it/s] 44%|████▍     | 4903/11074 [41:58<50:50,  2.02it/s] 44%|████▍     | 4904/11074 [41:59<50:48,  2.02it/s] 44%|████▍     | 4905/11074 [41:59<50:49,  2.02it/s] 44%|████▍     | 4906/11074 [42:00<50:47,  2.02it/s] 44%|████▍     | 4907/11074 [42:00<50:45,  2.02it/s] 44%|████▍     | 4908/11074 [42:01<50:44,  2.03it/s] 44%|████▍     | 4909/11074 [42:01<50:40,  2.03it/s] 44%|████▍     | 4910/11074 [42:02<50:43,  2.03it/s] 44%|████▍     | 4911/11074 [42:02<50:41,  2.03it/s] 44%|████▍     | 4912/11074 [42:03<50:43,  2.02it/s] 44%|████▍     | 4913/11074 [42:03<50:42,  2.02it/s] 44%|████▍     | 4914/11074 [42:04<50:46,  2.02it/s] 44%|████▍     | 4915/11074 [42:04<50:41,  2.02it/s] 44%|████▍     | 4916/11074 [42:05<50:45,  2.02it/s] 44%|████▍     | 4917/11074 [42:05<50:41,  2.02it/s] 44%|████▍     | 4918/11074 [42:05<50:40,  2.02it/s] 44%|████▍     | 4919/11074 [42:06<50:41,  2.02it/s] 44%|████▍     | 4920/11074 [42:06<50:41,  2.02it/s] 44%|████▍     | 4921/11074 [42:07<50:44,  2.02it/s] 44%|████▍     | 4922/11074 [42:07<50:44,  2.02it/s] 44%|████▍     | 4923/11074 [42:08<50:38,  2.02it/s] 44%|████▍     | 4924/11074 [42:08<50:41,  2.02it/s] 44%|████▍     | 4925/11074 [42:09<50:42,  2.02it/s]                                                    {'loss': 3.4782, 'grad_norm': 0.22557124495506287, 'learning_rate': 0.0006796694620727768, 'epoch': 6.22}
- 44%|████▍     | 4925/11074 [42:09<50:42,  2.02it/s] 44%|████▍     | 4926/11074 [42:09<50:43,  2.02it/s] 44%|████▍     | 4927/11074 [42:10<50:40,  2.02it/s] 45%|████▍     | 4928/11074 [42:10<50:39,  2.02it/s] 45%|████▍     | 4929/11074 [42:11<50:37,  2.02it/s] 45%|████▍     | 4930/11074 [42:11<50:39,  2.02it/s] 45%|████▍     | 4931/11074 [42:12<50:36,  2.02it/s] 45%|████▍     | 4932/11074 [42:12<50:37,  2.02it/s] 45%|████▍     | 4933/11074 [42:13<50:35,  2.02it/s] 45%|████▍     | 4934/11074 [42:13<50:33,  2.02it/s] 45%|████▍     | 4935/11074 [42:14<50:35,  2.02it/s] 45%|████▍     | 4936/11074 [42:14<50:36,  2.02it/s] 45%|████▍     | 4937/11074 [42:15<50:38,  2.02it/s] 45%|████▍     | 4938/11074 [42:15<50:37,  2.02it/s] 45%|████▍     | 4939/11074 [42:16<50:36,  2.02it/s] 45%|████▍     | 4940/11074 [42:16<50:33,  2.02it/s] 45%|████▍     | 4941/11074 [42:17<50:31,  2.02it/s] 45%|████▍     | 4942/11074 [42:17<50:33,  2.02it/s] 45%|████▍     | 4943/11074 [42:18<50:33,  2.02it/s] 45%|████▍     | 4944/11074 [42:18<50:34,  2.02it/s] 45%|████▍     | 4945/11074 [42:19<50:32,  2.02it/s] 45%|████▍     | 4946/11074 [42:19<50:29,  2.02it/s] 45%|████▍     | 4947/11074 [42:20<50:29,  2.02it/s] 45%|████▍     | 4948/11074 [42:20<50:28,  2.02it/s] 45%|████▍     | 4949/11074 [42:21<50:30,  2.02it/s] 45%|████▍     | 4950/11074 [42:21<50:26,  2.02it/s]                                                    {'loss': 3.4794, 'grad_norm': 0.21594256162643433, 'learning_rate': 0.0006759867225485687, 'epoch': 6.25}
- 45%|████▍     | 4950/11074 [42:21<50:26,  2.02it/s] 45%|████▍     | 4951/11074 [42:22<50:31,  2.02it/s] 45%|████▍     | 4952/11074 [42:22<50:30,  2.02it/s] 45%|████▍     | 4953/11074 [42:23<50:30,  2.02it/s] 45%|████▍     | 4954/11074 [42:23<50:25,  2.02it/s] 45%|████▍     | 4955/11074 [42:24<50:25,  2.02it/s] 45%|████▍     | 4956/11074 [42:24<50:20,  2.03it/s] 45%|████▍     | 4957/11074 [42:25<50:23,  2.02it/s] 45%|████▍     | 4958/11074 [42:25<50:20,  2.02it/s] 45%|████▍     | 4959/11074 [42:26<50:21,  2.02it/s] 45%|████▍     | 4960/11074 [42:26<50:20,  2.02it/s] 45%|████▍     | 4961/11074 [42:27<50:19,  2.02it/s] 45%|████▍     | 4962/11074 [42:27<50:20,  2.02it/s] 45%|████▍     | 4963/11074 [42:28<50:17,  2.03it/s] 45%|████▍     | 4964/11074 [42:28<50:19,  2.02it/s] 45%|████▍     | 4965/11074 [42:29<50:14,  2.03it/s] 45%|████▍     | 4966/11074 [42:29<50:15,  2.03it/s] 45%|████▍     | 4967/11074 [42:30<50:16,  2.02it/s] 45%|████▍     | 4968/11074 [42:30<50:14,  2.03it/s] 45%|████▍     | 4969/11074 [42:31<50:17,  2.02it/s] 45%|████▍     | 4970/11074 [42:31<50:14,  2.03it/s] 45%|████▍     | 4971/11074 [42:32<50:15,  2.02it/s] 45%|████▍     | 4972/11074 [42:32<50:15,  2.02it/s] 45%|████▍     | 4973/11074 [42:33<50:17,  2.02it/s] 45%|████▍     | 4974/11074 [42:33<50:17,  2.02it/s] 45%|████▍     | 4975/11074 [42:34<50:18,  2.02it/s]{'loss': 3.4902, 'grad_norm': 0.21561378240585327, 'learning_rate': 0.0006722930531378446, 'epoch': 6.29}                                                    
- 45%|████▍     | 4975/11074 [42:34<50:18,  2.02it/s] 45%|████▍     | 4976/11074 [42:34<50:19,  2.02it/s] 45%|████▍     | 4977/11074 [42:35<50:17,  2.02it/s] 45%|████▍     | 4978/11074 [42:35<50:14,  2.02it/s] 45%|████▍     | 4979/11074 [42:36<50:11,  2.02it/s] 45%|████▍     | 4980/11074 [42:36<50:13,  2.02it/s] 45%|████▍     | 4981/11074 [42:37<50:07,  2.03it/s] 45%|████▍     | 4982/11074 [42:37<50:08,  2.02it/s] 45%|████▍     | 4983/11074 [42:38<50:09,  2.02it/s] 45%|████▌     | 4984/11074 [42:38<50:09,  2.02it/s] 45%|████▌     | 4985/11074 [42:39<50:06,  2.03it/s] 45%|████▌     | 4986/11074 [42:39<50:04,  2.03it/s] 45%|████▌     | 4987/11074 [42:40<50:04,  2.03it/s] 45%|████▌     | 4988/11074 [42:40<50:01,  2.03it/s] 45%|████▌     | 4989/11074 [42:41<50:03,  2.03it/s] 45%|████▌     | 4990/11074 [42:41<50:00,  2.03it/s] 45%|████▌     | 4991/11074 [42:42<49:59,  2.03it/s] 45%|████▌     | 4992/11074 [42:42<50:00,  2.03it/s] 45%|████▌     | 4993/11074 [42:43<49:59,  2.03it/s] 45%|████▌     | 4994/11074 [42:43<50:02,  2.02it/s] 45%|████▌     | 4995/11074 [42:44<50:03,  2.02it/s] 45%|████▌     | 4996/11074 [42:44<50:03,  2.02it/s] 45%|█��██▌     | 4997/11074 [42:45<50:01,  2.02it/s] 45%|████▌     | 4998/11074 [42:45<50:02,  2.02it/s] 45%|████▌     | 4999/11074 [42:46<49:59,  2.03it/s] 45%|████▌     | 5000/11074 [42:46<50:02,  2.02it/s]                                                    {'loss': 3.4929, 'grad_norm': 0.21483494341373444, 'learning_rate': 0.0006685886832407945, 'epoch': 6.32}
- 45%|████▌     | 5000/11074 [42:46<50:02,  2.02it/s] 45%|████▌     | 5001/11074 [42:47<50:06,  2.02it/s] 45%|████▌     | 5002/11074 [42:47<50:03,  2.02it/s] 45%|████▌     | 5003/11074 [42:48<50:03,  2.02it/s] 45%|████▌     | 5004/11074 [42:48<50:02,  2.02it/s] 45%|████▌     | 5005/11074 [42:48<49:59,  2.02it/s] 45%|████▌     | 5006/11074 [42:49<50:03,  2.02it/s] 45%|████▌     | 5007/11074 [42:49<50:00,  2.02it/s] 45%|████▌     | 5008/11074 [42:50<49:59,  2.02it/s] 45%|████▌     | 5009/11074 [42:50<49:56,  2.02it/s] 45%|████▌     | 5010/11074 [42:51<49:58,  2.02it/s] 45%|████▌     | 5011/11074 [42:51<49:57,  2.02it/s] 45%|████▌     | 5012/11074 [42:52<49:57,  2.02it/s] 45%|████▌     | 5013/11074 [42:52<49:55,  2.02it/s] 45%|████▌     | 5014/11074 [42:53<49:51,  2.03it/s] 45%|████▌     | 5015/11074 [42:53<49:52,  2.02it/s] 45%|████▌     | 5016/11074 [42:54<49:53,  2.02it/s] 45%|████▌     | 5017/11074 [42:54<49:55,  2.02it/s] 45%|████▌     | 5018/11074 [42:55<49:54,  2.02it/s] 45%|████▌     | 5019/11074 [42:55<49:56,  2.02it/s] 45%|████▌     | 5020/11074 [42:56<49:53,  2.02it/s] 45%|████▌     | 5021/11074 [42:56<49:51,  2.02it/s] 45%|████▌     | 5022/11074 [42:57<49:51,  2.02it/s] 45%|████▌     | 5023/11074 [42:57<49:49,  2.02it/s] 45%|████▌     | 5024/11074 [42:58<49:48,  2.02it/s] 45%|████▌     | 5025/11074 [42:58<49:47,  2.03it/s]                                                    {'loss': 3.4887, 'grad_norm': 0.2202717661857605, 'learning_rate': 0.0006648738429221752, 'epoch': 6.35}
- 45%|████▌     | 5025/11074 [42:58<49:47,  2.03it/s] 45%|████▌     | 5026/11074 [42:59<49:48,  2.02it/s] 45%|████▌     | 5027/11074 [42:59<49:47,  2.02it/s] 45%|████▌     | 5028/11074 [43:00<49:47,  2.02it/s] 45%|████▌     | 5029/11074 [43:00<49:47,  2.02it/s] 45%|████▌     | 5030/11074 [43:01<49:48,  2.02it/s] 45%|████▌     | 5031/11074 [43:01<49:45,  2.02it/s] 45%|████▌     | 5032/11074 [43:02<49:45,  2.02it/s] 45%|████▌     | 5033/11074 [43:02<49:44,  2.02it/s] 45%|████▌     | 5034/11074 [43:03<49:46,  2.02it/s] 45%|████▌     | 5035/11074 [43:03<49:44,  2.02it/s] 45%|████▌     | 5036/11074 [43:04<49:43,  2.02it/s] 45%|████▌     | 5037/11074 [43:04<49:42,  2.02it/s] 45%|████▌     | 5038/11074 [43:05<49:42,  2.02it/s] 46%|████▌     | 5039/11074 [43:05<49:42,  2.02it/s] 46%|████▌     | 5040/11074 [43:06<49:44,  2.02it/s] 46%|████▌     | 5041/11074 [43:06<49:42,  2.02it/s] 46%|████▌     | 5042/11074 [43:07<49:44,  2.02it/s] 46%|████▌     | 5043/11074 [43:07<49:42,  2.02it/s] 46%|████▌     | 5044/11074 [43:08<49:41,  2.02it/s] 46%|████▌     | 5045/11074 [43:08<49:39,  2.02it/s] 46%|████▌     | 5046/11074 [43:09<49:38,  2.02it/s] 46%|████▌     | 5047/11074 [43:09<49:37,  2.02it/s] 46%|████▌     | 5048/11074 [43:10<49:32,  2.03it/s] 46%|████▌     | 5049/11074 [43:10<49:35,  2.03it/s] 46%|████▌     | 5050/11074 [43:11<49:34,  2.03it/s]                                                    {'loss': 3.4955, 'grad_norm': 0.21274767816066742, 'learning_rate': 0.0006611487628970232, 'epoch': 6.38}
- 46%|████▌     | 5050/11074 [43:11<49:34,  2.03it/s] 46%|████▌     | 5051/11074 [43:11<49:40,  2.02it/s] 46%|████▌     | 5052/11074 [43:12<49:36,  2.02it/s] 46%|████▌     | 5053/11074 [43:12<49:38,  2.02it/s] 46%|████▌     | 5054/11074 [43:13<49:39,  2.02it/s] 46%|████▌     | 5055/11074 [43:13<49:42,  2.02it/s] 46%|████▌     | 5056/11074 [43:14<49:36,  2.02it/s] 46%|████▌     | 5057/11074 [43:14<49:37,  2.02it/s] 46%|████▌     | 5058/11074 [43:15<49:34,  2.02it/s] 46%|████▌     | 5059/11074 [43:15<49:34,  2.02it/s] 46%|████▌     | 5060/11074 [43:16<53:52,  1.86it/s] 46%|████▌     | 5061/11074 [43:16<52:36,  1.91it/s] 46%|████▌     | 5062/11074 [43:17<51:37,  1.94it/s] 46%|████▌     | 5063/11074 [43:17<51:02,  1.96it/s] 46%|████▌     | 5064/11074 [43:18<50:31,  1.98it/s] 46%|████▌     | 5065/11074 [43:18<50:15,  1.99it/s] 46%|████▌     | 5066/11074 [43:19<49:59,  2.00it/s] 46%|████▌     | 5067/11074 [43:19<49:51,  2.01it/s] 46%|████▌     | 5068/11074 [43:20<49:43,  2.01it/s] 46%|████▌     | 5069/11074 [43:20<49:38,  2.02it/s] 46%|████▌     | 5070/11074 [43:21<49:34,  2.02it/s] 46%|████▌     | 5071/11074 [43:21<49:29,  2.02it/s] 46%|████▌     | 5072/11074 [43:22<49:28,  2.02it/s] 46%|████▌     | 5073/11074 [43:22<49:22,  2.03it/s] 46%|████▌     | 5074/11074 [43:23<49:22,  2.03it/s] 46%|████▌     | 5075/11074 [43:23<49:20,  2.03it/s]{'loss': 3.4963, 'grad_norm': 0.22562971711158752, 'learning_rate': 0.0006574136745163253, 'epoch': 6.41}
-                                                     46%|████▌     | 5075/11074 [43:23<49:20,  2.03it/s] 46%|████▌     | 5076/11074 [43:24<49:25,  2.02it/s] 46%|████▌     | 5077/11074 [43:24<49:21,  2.02it/s] 46%|████▌     | 5078/11074 [43:25<49:21,  2.02it/s] 46%|████▌     | 5079/11074 [43:25<49:23,  2.02it/s] 46%|████▌     | 5080/11074 [43:26<49:20,  2.02it/s] 46%|████▌     | 5081/11074 [43:26<49:23,  2.02it/s] 46%|████▌     | 5082/11074 [43:27<49:19,  2.02it/s] 46%|████▌     | 5083/11074 [43:27<49:22,  2.02it/s] 46%|████▌     | 5084/11074 [43:28<49:19,  2.02it/s] 46%|████▌     | 5085/11074 [43:28<49:20,  2.02it/s] 46%|████▌     | 5086/11074 [43:29<49:18,  2.02it/s] 46%|████▌     | 5087/11074 [43:29<49:18,  2.02it/s] 46%|████▌     | 5088/11074 [43:30<49:20,  2.02it/s] 46%|████▌     | 5089/11074 [43:30<49:21,  2.02it/s] 46%|████▌     | 5090/11074 [43:31<49:17,  2.02it/s] 46%|████▌     | 5091/11074 [43:31<49:17,  2.02it/s] 46%|████▌     | 5092/11074 [43:32<49:15,  2.02it/s] 46%|████▌     | 5093/11074 [43:32<49:13,  2.03it/s] 46%|████▌     | 5094/11074 [43:33<49:14,  2.02it/s] 46%|████▌     | 5095/11074 [43:33<49:10,  2.03it/s] 46%|████▌     | 5096/11074 [43:34<49:13,  2.02it/s] 46%|████▌     | 5097/11074 [43:34<49:11,  2.03it/s] 46%|████▌     | 5098/11074 [43:35<49:15,  2.02it/s] 46%|████▌     | 5099/11074 [43:35<49:11,  2.02it/s] 46%|████▌     | 5100/11074 [43:36<49:15,  2.02it/s]                                                    {'loss': 3.4964, 'grad_norm': 0.2079339474439621, 'learning_rate': 0.0006536688097526505, 'epoch': 6.44}
- 46%|████▌     | 5100/11074 [43:36<49:15,  2.02it/s] 46%|████▌     | 5101/11074 [43:36<49:13,  2.02it/s] 46%|████▌     | 5102/11074 [43:37<49:15,  2.02it/s] 46%|████▌     | 5103/11074 [43:37<49:13,  2.02it/s] 46%|████▌     | 5104/11074 [43:38<49:09,  2.02it/s] 46%|████▌     | 5105/11074 [43:38<49:11,  2.02it/s] 46%|████▌     | 5106/11074 [43:39<49:09,  2.02it/s] 46%|████▌     | 5107/11074 [43:39<49:10,  2.02it/s] 46%|████▌     | 5108/11074 [43:40<49:09,  2.02it/s] 46%|████▌     | 5109/11074 [43:40<49:08,  2.02it/s] 46%|████▌     | 5110/11074 [43:41<49:06,  2.02it/s] 46%|████▌     | 5111/11074 [43:41<49:06,  2.02it/s] 46%|████▌     | 5112/11074 [43:42<49:11,  2.02it/s] 46%|████▌     | 5113/11074 [43:42<53:23,  1.86it/s] 46%|████▌     | 5114/11074 [43:43<52:06,  1.91it/s] 46%|████▌     | 5115/11074 [43:43<51:11,  1.94it/s] 46%|████▌     | 5116/11074 [43:44<50:34,  1.96it/s] 46%|████▌     | 5117/11074 [43:44<50:05,  1.98it/s] 46%|████▌     | 5118/11074 [43:45<49:47,  1.99it/s] 46%|████▌     | 5119/11074 [43:45<49:32,  2.00it/s] 46%|████▌     | 5120/11074 [43:46<49:25,  2.01it/s] 46%|████▌     | 5121/11074 [43:46<49:16,  2.01it/s] 46%|████▋     | 5122/11074 [43:47<49:15,  2.01it/s] 46%|████▋     | 5123/11074 [43:47<49:06,  2.02it/s] 46%|████▋     | 5124/11074 [43:48<49:05,  2.02it/s] 46%|████▋     | 5125/11074 [43:48<48:59,  2.02it/s]{'loss': 3.5076, 'grad_norm': 0.21813121438026428, 'learning_rate': 0.0006499144011857431, 'epoch': 6.48}
-                                                     46%|████▋     | 5125/11074 [43:48<48:59,  2.02it/s] 46%|████▋     | 5126/11074 [43:49<49:07,  2.02it/s] 46%|████▋     | 5127/11074 [43:49<49:03,  2.02it/s] 46%|████▋     | 5128/11074 [43:50<49:04,  2.02it/s] 46%|████▋     | 5129/11074 [43:50<48:59,  2.02it/s] 46%|████▋     | 5130/11074 [43:51<49:01,  2.02it/s] 46%|████▋     | 5131/11074 [43:51<48:59,  2.02it/s] 46%|████▋     | 5132/11074 [43:52<48:59,  2.02it/s] 46%|████▋     | 5133/11074 [43:52<48:56,  2.02it/s] 46%|████▋     | 5134/11074 [43:53<48:55,  2.02it/s] 46%|████▋     | 5135/11074 [43:53<48:56,  2.02it/s] 46%|████▋     | 5136/11074 [43:54<48:55,  2.02it/s] 46%|████▋     | 5137/11074 [43:54<48:55,  2.02it/s] 46%|████▋     | 5138/11074 [43:55<48:56,  2.02it/s] 46%|████▋     | 5139/11074 [43:55<48:54,  2.02it/s] 46%|████▋     | 5140/11074 [43:56<48:52,  2.02it/s] 46%|████▋     | 5141/11074 [43:56<48:53,  2.02it/s] 46%|████▋     | 5142/11074 [43:57<48:54,  2.02it/s] 46%|████▋     | 5143/11074 [43:57<48:53,  2.02it/s] 46%|████▋     | 5144/11074 [43:57<48:52,  2.02it/s] 46%|████▋     | 5145/11074 [43:58<48:54,  2.02it/s] 46%|████▋     | 5146/11074 [43:58<48:52,  2.02it/s] 46%|████▋     | 5147/11074 [43:59<48:55,  2.02it/s] 46%|████▋     | 5148/11074 [43:59<48:52,  2.02it/s] 46%|████▋     | 5149/11074 [44:00<48:51,  2.02it/s] 47%|████▋     | 5150/11074 [44:00<48:49,  2.02it/s]{'loss': 3.5004, 'grad_norm': 0.22710047662258148, 'learning_rate': 0.0006461506819880772, 'epoch': 6.51}
-                                                     47%|████▋     | 5150/11074 [44:00<48:49,  2.02it/s] 47%|████▋     | 5151/11074 [44:01<48:53,  2.02it/s] 47%|████▋     | 5152/11074 [44:01<48:48,  2.02it/s] 47%|████▋     | 5153/11074 [44:02<48:51,  2.02it/s] 47%|████▋     | 5154/11074 [44:02<48:49,  2.02it/s] 47%|████▋     | 5155/11074 [44:03<48:49,  2.02it/s] 47%|████▋     | 5156/11074 [44:03<48:49,  2.02it/s] 47%|████▋     | 5157/11074 [44:04<48:47,  2.02it/s] 47%|████▋     | 5158/11074 [44:04<48:45,  2.02it/s] 47%|████▋     | 5159/11074 [44:05<48:43,  2.02it/s] 47%|████▋     | 5160/11074 [44:05<48:45,  2.02it/s] 47%|████▋     | 5161/11074 [44:06<48:42,  2.02it/s] 47%|████▋     | 5162/11074 [44:06<48:42,  2.02it/s] 47%|████▋     | 5163/11074 [44:07<48:42,  2.02it/s] 47%|████▋     | 5164/11074 [44:07<48:42,  2.02it/s] 47%|████▋     | 5165/11074 [44:08<48:43,  2.02it/s] 47%|████▋     | 5166/11074 [44:08<48:41,  2.02it/s] 47%|████▋     | 5167/11074 [44:09<48:40,  2.02it/s] 47%|████▋     | 5168/11074 [44:09<48:40,  2.02it/s] 47%|████▋     | 5169/11074 [44:10<48:38,  2.02it/s] 47%|████▋     | 5170/11074 [44:10<48:43,  2.02it/s] 47%|████▋     | 5171/11074 [44:11<48:47,  2.02it/s] 47%|████▋     | 5172/11074 [44:11<48:43,  2.02it/s] 47%|████▋     | 5173/11074 [44:12<48:40,  2.02it/s] 47%|████▋     | 5174/11074 [44:12<48:40,  2.02it/s] 47%|████▋     | 5175/11074 [44:13<48:40,  2.02it/s]{'loss': 3.5048, 'grad_norm': 0.22117666900157928, 'learning_rate': 0.0006423778859103762, 'epoch': 6.54}
-                                                     47%|████▋     | 5175/11074 [44:13<48:40,  2.02it/s] 47%|████▋     | 5176/11074 [44:13<48:41,  2.02it/s] 47%|████▋     | 5177/11074 [44:14<48:43,  2.02it/s] 47%|████▋     | 5178/11074 [44:14<48:38,  2.02it/s] 47%|████▋     | 5179/11074 [44:15<48:39,  2.02it/s] 47%|████▋     | 5180/11074 [44:15<48:33,  2.02it/s] 47%|████▋     | 5181/11074 [44:16<48:34,  2.02it/s] 47%|████▋     | 5182/11074 [44:16<48:32,  2.02it/s] 47%|████▋     | 5183/11074 [44:17<48:31,  2.02it/s] 47%|████▋     | 5184/11074 [44:17<48:31,  2.02it/s] 47%|████▋     | 5185/11074 [44:18<48:30,  2.02it/s] 47%|████▋     | 5186/11074 [44:18<48:30,  2.02it/s] 47%|████▋     | 5187/11074 [44:19<48:29,  2.02it/s] 47%|████▋     | 5188/11074 [44:19<48:29,  2.02it/s] 47%|████▋     | 5189/11074 [44:20<48:24,  2.03it/s] 47%|████▋     | 5190/11074 [44:20<48:26,  2.02it/s] 47%|████▋     | 5191/11074 [44:21<48:23,  2.03it/s] 47%|████▋     | 5192/11074 [44:21<48:24,  2.02it/s] 47%|████▋     | 5193/11074 [44:22<48:22,  2.03it/s] 47%|████▋     | 5194/11074 [44:22<48:25,  2.02it/s] 47%|████▋     | 5195/11074 [44:23<48:23,  2.02it/s] 47%|████▋     | 5196/11074 [44:23<48:28,  2.02it/s] 47%|████▋     | 5197/11074 [44:24<48:24,  2.02it/s] 47%|████▋     | 5198/11074 [44:24<48:27,  2.02it/s] 47%|████▋     | 5199/11074 [44:25<48:24,  2.02it/s] 47%|████▋     | 5200/11074 [44:25<48:25,  2.02it/s]                                                    {'loss': 3.5057, 'grad_norm': 0.20811282098293304, 'learning_rate': 0.0006385962472670953, 'epoch': 6.57}
- 47%|████▋     | 5200/11074 [44:25<48:25,  2.02it/s] 47%|████▋     | 5201/11074 [44:26<48:34,  2.02it/s] 47%|████▋     | 5202/11074 [44:26<48:30,  2.02it/s] 47%|████▋     | 5203/11074 [44:27<48:27,  2.02it/s] 47%|████▋     | 5204/11074 [44:27<48:26,  2.02it/s] 47%|████▋     | 5205/11074 [44:28<48:24,  2.02it/s] 47%|████▋     | 5206/11074 [44:28<48:27,  2.02it/s] 47%|████▋     | 5207/11074 [44:29<48:24,  2.02it/s] 47%|████▋     | 5208/11074 [44:29<48:22,  2.02it/s] 47%|████▋     | 5209/11074 [44:30<48:20,  2.02it/s] 47%|████▋     | 5210/11074 [44:30<48:20,  2.02it/s] 47%|████▋     | 5211/11074 [44:31<48:19,  2.02it/s] 47%|████▋     | 5212/11074 [44:31<48:20,  2.02it/s] 47%|████▋     | 5213/11074 [44:32<48:16,  2.02it/s] 47%|████▋     | 5214/11074 [44:32<48:16,  2.02it/s] 47%|████▋     | 5215/11074 [44:33<48:14,  2.02it/s] 47%|████▋     | 5216/11074 [44:33<48:14,  2.02it/s] 47%|████▋     | 5217/11074 [44:34<48:12,  2.02it/s] 47%|████▋     | 5218/11074 [44:34<48:15,  2.02it/s] 47%|████▋     | 5219/11074 [44:35<48:13,  2.02it/s] 47%|████▋     | 5220/11074 [44:35<48:13,  2.02it/s] 47%|████▋     | 5221/11074 [44:36<48:10,  2.02it/s] 47%|████▋     | 5222/11074 [44:36<48:09,  2.02it/s] 47%|████▋     | 5223/11074 [44:37<48:10,  2.02it/s] 47%|████▋     | 5224/11074 [44:37<48:09,  2.02it/s] 47%|████▋     | 5225/11074 [44:38<48:10,  2.02it/s]{'loss': 3.4991, 'grad_norm': 0.22943174839019775, 'learning_rate': 0.0006348060009218686, 'epoch': 6.6}
-                                                     47%|████▋     | 5225/11074 [44:38<48:10,  2.02it/s] 47%|████▋     | 5226/11074 [44:38<48:14,  2.02it/s] 47%|████▋     | 5227/11074 [44:39<48:13,  2.02it/s] 47%|████▋     | 5228/11074 [44:39<48:10,  2.02it/s] 47%|████▋     | 5229/11074 [44:40<48:13,  2.02it/s] 47%|████▋     | 5230/11074 [44:40<48:10,  2.02it/s] 47%|████▋     | 5231/11074 [44:41<48:12,  2.02it/s] 47%|████▋     | 5232/11074 [44:41<48:06,  2.02it/s] 47%|████▋     | 5233/11074 [44:42<48:05,  2.02it/s] 47%|████▋     | 5234/11074 [44:42<48:05,  2.02it/s] 47%|████▋     | 5235/11074 [44:42<48:06,  2.02it/s] 47%|████▋     | 5236/11074 [44:43<48:06,  2.02it/s] 47%|████▋     | 5237/11074 [44:43<48:05,  2.02it/s] 47%|████▋     | 5238/11074 [44:44<48:09,  2.02it/s] 47%|████▋     | 5239/11074 [44:44<48:05,  2.02it/s] 47%|████▋     | 5240/11074 [44:45<48:05,  2.02it/s] 47%|████▋     | 5241/11074 [44:45<48:05,  2.02it/s] 47%|████▋     | 5242/11074 [44:46<48:09,  2.02it/s] 47%|████▋     | 5243/11074 [44:46<48:06,  2.02it/s] 47%|████▋     | 5244/11074 [44:47<48:06,  2.02it/s] 47%|████▋     | 5245/11074 [44:47<48:02,  2.02it/s] 47%|████▋     | 5246/11074 [44:48<47:59,  2.02it/s] 47%|████▋     | 5247/11074 [44:48<48:01,  2.02it/s] 47%|████▋     | 5248/11074 [44:49<47:56,  2.03it/s] 47%|████▋     | 5249/11074 [44:49<47:59,  2.02it/s] 47%|████▋     | 5250/11074 [44:50<47:57,  2.02it/s]{'loss': 3.504, 'grad_norm': 0.21726316213607788, 'learning_rate': 0.0006310073822729228, 'epoch': 6.63}
-                                                     47%|████▋     | 5250/11074 [44:50<47:57,  2.02it/s] 47%|████▋     | 5251/11074 [44:50<48:05,  2.02it/s] 47%|████▋     | 5252/11074 [44:51<48:00,  2.02it/s] 47%|████▋     | 5253/11074 [44:51<48:03,  2.02it/s] 47%|████▋     | 5254/11074 [44:52<47:58,  2.02it/s] 47%|████▋     | 5255/11074 [44:52<47:59,  2.02it/s] 47%|████▋     | 5256/11074 [44:53<47:55,  2.02it/s] 47%|████▋     | 5257/11074 [44:53<47:57,  2.02it/s] 47%|████▋     | 5258/11074 [44:54<47:53,  2.02it/s] 47%|████▋     | 5259/11074 [44:54<47:56,  2.02it/s] 47%|████▋     | 5260/11074 [44:55<47:53,  2.02it/s] 48%|████▊     | 5261/11074 [44:55<47:56,  2.02it/s] 48%|████▊     | 5262/11074 [44:56<47:53,  2.02it/s] 48%|████▊     | 5263/11074 [44:56<47:55,  2.02it/s] 48%|████▊     | 5264/11074 [44:57<47:51,  2.02it/s] 48%|████▊     | 5265/11074 [44:57<47:54,  2.02it/s] 48%|████▊     | 5266/11074 [44:58<47:51,  2.02it/s] 48%|████▊     | 5267/11074 [44:58<47:52,  2.02it/s] 48%|████▊     | 5268/11074 [44:59<47:49,  2.02it/s] 48%|████▊     | 5269/11074 [44:59<47:49,  2.02it/s] 48%|████▊     | 5270/11074 [45:00<47:49,  2.02it/s] 48%|████▊     | 5271/11074 [45:00<47:50,  2.02it/s] 48%|████▊     | 5272/11074 [45:01<47:48,  2.02it/s] 48%|████▊     | 5273/11074 [45:01<47:47,  2.02it/s] 48%|████▊     | 5274/11074 [45:02<47:49,  2.02it/s] 48%|████▊     | 5275/11074 [45:02<47:48,  2.02it/s]{'loss': 3.5097, 'grad_norm': 0.21788997948169708, 'learning_rate': 0.0006272006272384573, 'epoch': 6.66}
-                                                     48%|████▊     | 5275/11074 [45:02<47:48,  2.02it/s] 48%|████▊     | 5276/11074 [45:03<47:52,  2.02it/s] 48%|████▊     | 5277/11074 [45:03<47:50,  2.02it/s] 48%|████▊     | 5278/11074 [45:04<47:48,  2.02it/s] 48%|████▊     | 5279/11074 [45:04<47:48,  2.02it/s] 48%|████▊     | 5280/11074 [45:05<47:44,  2.02it/s] 48%|████▊     | 5281/11074 [45:05<47:41,  2.02it/s] 48%|████▊     | 5282/11074 [45:06<47:43,  2.02it/s] 48%|████▊     | 5283/11074 [45:06<47:41,  2.02it/s] 48%|████▊     | 5284/11074 [45:07<47:42,  2.02it/s] 48%|████▊     | 5285/11074 [45:07<47:41,  2.02it/s] 48%|████▊     | 5286/11074 [45:08<47:44,  2.02it/s] 48%|████▊     | 5287/11074 [45:08<47:42,  2.02it/s] 48%|████▊     | 5288/11074 [45:09<47:45,  2.02it/s] 48%|████▊     | 5289/11074 [45:09<47:42,  2.02it/s] 48%|████▊     | 5290/11074 [45:10<47:40,  2.02it/s] 48%|████▊     | 5291/11074 [45:10<47:39,  2.02it/s] 48%|████▊     | 5292/11074 [45:11<47:39,  2.02it/s] 48%|████▊     | 5293/11074 [45:11<47:38,  2.02it/s] 48%|████▊     | 5294/11074 [45:12<47:35,  2.02it/s] 48%|████▊     | 5295/11074 [45:12<47:39,  2.02it/s] 48%|████▊     | 5296/11074 [45:13<47:38,  2.02it/s] 48%|████▊     | 5297/11074 [45:13<47:39,  2.02it/s] 48%|████▊     | 5298/11074 [45:14<47:37,  2.02it/s] 48%|████▊     | 5299/11074 [45:14<47:36,  2.02it/s] 48%|████▊     | 5300/11074 [45:15<47:37,  2.02it/s]{'loss': 3.509, 'grad_norm': 0.2157001495361328, 'learning_rate': 0.0006233859722419931, 'epoch': 6.7}
-                                                     48%|████▊     | 5300/11074 [45:15<47:37,  2.02it/s] 48%|████▊     | 5301/11074 [45:15<47:38,  2.02it/s] 48%|████▊     | 5302/11074 [45:16<47:38,  2.02it/s] 48%|████▊     | 5303/11074 [45:16<47:37,  2.02it/s] 48%|████▊     | 5304/11074 [45:17<47:39,  2.02it/s] 48%|████▊     | 5305/11074 [45:17<47:31,  2.02it/s] 48%|████▊     | 5306/11074 [45:18<47:33,  2.02it/s] 48%|████▊     | 5307/11074 [45:18<47:29,  2.02it/s] 48%|████▊     | 5308/11074 [45:19<47:30,  2.02it/s] 48%|████▊     | 5309/11074 [45:19<47:27,  2.02it/s] 48%|████▊     | 5310/11074 [45:20<47:27,  2.02it/s] 48%|████▊     | 5311/11074 [45:20<47:27,  2.02it/s] 48%|████▊     | 5312/11074 [45:21<47:27,  2.02it/s] 48%|████▊     | 5313/11074 [45:21<47:25,  2.02it/s] 48%|████▊     | 5314/11074 [45:22<47:26,  2.02it/s] 48%|████▊     | 5315/11074 [45:22<47:25,  2.02it/s] 48%|████▊     | 5316/11074 [45:23<47:25,  2.02it/s] 48%|████▊     | 5317/11074 [45:23<47:27,  2.02it/s] 48%|████▊     | 5318/11074 [45:24<47:25,  2.02it/s] 48%|████▊     | 5319/11074 [45:24<47:25,  2.02it/s] 48%|████▊     | 5320/11074 [45:25<47:22,  2.02it/s] 48%|████▊     | 5321/11074 [45:25<47:21,  2.02it/s] 48%|████▊     | 5322/11074 [45:26<47:18,  2.03it/s] 48%|████▊     | 5323/11074 [45:26<47:25,  2.02it/s] 48%|████▊     | 5324/11074 [45:27<47:22,  2.02it/s] 48%|████▊     | 5325/11074 [45:27<47:22,  2.02it/s]                                                    {'loss': 3.5101, 'grad_norm': 0.2142326980829239, 'learning_rate': 0.0006195636541976882, 'epoch': 6.73}
- 48%|████▊     | 5325/11074 [45:27<47:22,  2.02it/s] 48%|████▊     | 5326/11074 [45:28<47:21,  2.02it/s] 48%|████▊     | 5327/11074 [45:28<47:22,  2.02it/s] 48%|████▊     | 5328/11074 [45:28<47:18,  2.02it/s] 48%|████▊     | 5329/11074 [45:29<47:18,  2.02it/s] 48%|████▊     | 5330/11074 [45:29<47:19,  2.02it/s] 48%|████▊     | 5331/11074 [45:30<47:19,  2.02it/s] 48%|████▊     | 5332/11074 [45:30<47:19,  2.02it/s] 48%|████▊     | 5333/11074 [45:31<47:17,  2.02it/s] 48%|████▊     | 5334/11074 [45:31<47:19,  2.02it/s] 48%|████▊     | 5335/11074 [45:32<47:18,  2.02it/s] 48%|████▊     | 5336/11074 [45:32<47:17,  2.02it/s] 48%|████▊     | 5337/11074 [45:33<47:16,  2.02it/s] 48%|████▊     | 5338/11074 [45:33<47:15,  2.02it/s] 48%|████▊     | 5339/11074 [45:34<47:15,  2.02it/s] 48%|████▊     | 5340/11074 [45:34<47:17,  2.02it/s] 48%|████▊     | 5341/11074 [45:35<47:15,  2.02it/s] 48%|████▊     | 5342/11074 [45:35<47:16,  2.02it/s] 48%|████▊     | 5343/11074 [45:36<47:13,  2.02it/s] 48%|████▊     | 5344/11074 [45:36<47:14,  2.02it/s] 48%|████▊     | 5345/11074 [45:37<47:11,  2.02it/s] 48%|████▊     | 5346/11074 [45:37<47:12,  2.02it/s] 48%|████▊     | 5347/11074 [45:38<47:13,  2.02it/s] 48%|████▊     | 5348/11074 [45:38<47:15,  2.02it/s] 48%|████▊     | 5349/11074 [45:39<47:12,  2.02it/s] 48%|████▊     | 5350/11074 [45:39<47:11,  2.02it/s]{'loss': 3.5111, 'grad_norm': 0.21294023096561432, 'learning_rate': 0.000615733910495624, 'epoch': 6.76}
-                                                     48%|████▊     | 5350/11074 [45:39<47:11,  2.02it/s] 48%|████▊     | 5351/11074 [45:40<47:14,  2.02it/s] 48%|████▊     | 5352/11074 [45:40<47:13,  2.02it/s] 48%|████▊     | 5353/11074 [45:41<47:11,  2.02it/s] 48%|████▊     | 5354/11074 [45:41<47:10,  2.02it/s] 48%|████▊     | 5355/11074 [45:42<47:08,  2.02it/s] 48%|████▊     | 5356/11074 [45:42<47:10,  2.02it/s] 48%|████▊     | 5357/11074 [45:43<47:08,  2.02it/s] 48%|████▊     | 5358/11074 [45:43<47:07,  2.02it/s] 48%|████▊     | 5359/11074 [45:44<47:08,  2.02it/s] 48%|████▊     | 5360/11074 [45:44<47:11,  2.02it/s] 48%|████▊     | 5361/11074 [45:45<47:09,  2.02it/s] 48%|████▊     | 5362/11074 [45:45<47:06,  2.02it/s] 48%|████▊     | 5363/11074 [45:46<47:04,  2.02it/s] 48%|████▊     | 5364/11074 [45:46<47:05,  2.02it/s] 48%|████▊     | 5365/11074 [45:47<47:03,  2.02it/s] 48%|████▊     | 5366/11074 [45:47<47:03,  2.02it/s] 48%|████▊     | 5367/11074 [45:48<47:02,  2.02it/s] 48%|████▊     | 5368/11074 [45:48<46:57,  2.03it/s] 48%|████▊     | 5369/11074 [45:49<46:59,  2.02it/s] 48%|████▊     | 5370/11074 [45:49<46:57,  2.02it/s] 49%|████▊     | 5371/11074 [45:50<46:59,  2.02it/s] 49%|████▊     | 5372/11074 [45:50<46:56,  2.02it/s] 49%|████▊     | 5373/11074 [45:51<46:55,  2.03it/s] 49%|████▊     | 5374/11074 [45:51<46:56,  2.02it/s] 49%|████▊     | 5375/11074 [45:52<46:53,  2.03it/s]                                                    {'loss': 3.51, 'grad_norm': 0.2324526458978653, 'learning_rate': 0.0006118969789870629, 'epoch': 6.79}
- 49%|████▊     | 5375/11074 [45:52<46:53,  2.03it/s] 49%|████▊     | 5376/11074 [45:52<46:56,  2.02it/s] 49%|████▊     | 5377/11074 [45:53<46:56,  2.02it/s] 49%|████▊     | 5378/11074 [45:53<46:56,  2.02it/s] 49%|████▊     | 5379/11074 [45:54<46:53,  2.02it/s] 49%|████▊     | 5380/11074 [45:54<46:56,  2.02it/s] 49%|████▊     | 5381/11074 [45:55<46:53,  2.02it/s] 49%|████▊     | 5382/11074 [45:55<46:54,  2.02it/s] 49%|████▊     | 5383/11074 [45:56<46:51,  2.02it/s] 49%|████▊     | 5384/11074 [45:56<46:52,  2.02it/s] 49%|████▊     | 5385/11074 [45:57<46:51,  2.02it/s] 49%|████▊     | 5386/11074 [45:57<46:49,  2.02it/s] 49%|████▊     | 5387/11074 [45:58<46:53,  2.02it/s] 49%|████▊     | 5388/11074 [45:58<46:49,  2.02it/s] 49%|████▊     | 5389/11074 [45:59<46:53,  2.02it/s] 49%|████▊     | 5390/11074 [45:59<46:50,  2.02it/s] 49%|████▊     | 5391/11074 [46:00<46:50,  2.02it/s] 49%|████▊     | 5392/11074 [46:00<46:47,  2.02it/s] 49%|████▊     | 5393/11074 [46:01<46:49,  2.02it/s] 49%|████▊     | 5394/11074 [46:01<46:45,  2.02it/s] 49%|████▊     | 5395/11074 [46:02<46:48,  2.02it/s] 49%|████▊     | 5396/11074 [46:02<46:48,  2.02it/s] 49%|████▊     | 5397/11074 [46:03<46:49,  2.02it/s] 49%|████▊     | 5398/11074 [46:03<46:45,  2.02it/s] 49%|████▉     | 5399/11074 [46:04<46:46,  2.02it/s] 49%|████▉     | 5400/11074 [46:04<46:44,  2.02it/s]{'loss': 3.5144, 'grad_norm': 0.22963355481624603, 'learning_rate': 0.0006080530979696748, 'epoch': 6.82}
-                                                     49%|████▉     | 5400/11074 [46:04<46:44,  2.02it/s] 49%|████▉     | 5401/11074 [46:05<46:49,  2.02it/s] 49%|████▉     | 5402/11074 [46:05<46:45,  2.02it/s] 49%|████▉     | 5403/11074 [46:06<46:45,  2.02it/s] 49%|████▉     | 5404/11074 [46:06<46:42,  2.02it/s] 49%|████▉     | 5405/11074 [46:07<46:48,  2.02it/s] 49%|████▉     | 5406/11074 [46:07<46:46,  2.02it/s] 49%|████▉     | 5407/11074 [46:08<46:48,  2.02it/s] 49%|████▉     | 5408/11074 [46:08<46:44,  2.02it/s] 49%|████▉     | 5409/11074 [46:09<46:46,  2.02it/s] 49%|████▉     | 5410/11074 [46:09<46:43,  2.02it/s] 49%|████▉     | 5411/11074 [46:10<46:45,  2.02it/s] 49%|████▉     | 5412/11074 [46:10<46:44,  2.02it/s] 49%|████▉     | 5413/11074 [46:11<46:44,  2.02it/s] 49%|████▉     | 5414/11074 [46:11<46:43,  2.02it/s] 49%|████▉     | 5415/11074 [46:12<46:44,  2.02it/s] 49%|████▉     | 5416/11074 [46:12<46:44,  2.02it/s] 49%|████▉     | 5417/11074 [46:13<46:41,  2.02it/s] 49%|████▉     | 5418/11074 [46:13<46:44,  2.02it/s] 49%|████▉     | 5419/11074 [46:14<46:41,  2.02it/s] 49%|████▉     | 5420/11074 [46:14<46:40,  2.02it/s] 49%|████▉     | 5421/11074 [46:14<46:35,  2.02it/s] 49%|████▉     | 5422/11074 [46:15<46:34,  2.02it/s] 49%|████▉     | 5423/11074 [46:15<46:33,  2.02it/s] 49%|████▉     | 5424/11074 [46:16<46:31,  2.02it/s] 49%|████▉     | 5425/11074 [46:16<46:33,  2.02it/s]{'loss': 3.5186, 'grad_norm': 0.21343179047107697, 'learning_rate': 0.0006042025061727384, 'epoch': 6.85}
-                                                     49%|████▉     | 5425/11074 [46:16<46:33,  2.02it/s] 49%|████▉     | 5426/11074 [46:17<46:38,  2.02it/s] 49%|████▉     | 5427/11074 [46:17<46:37,  2.02it/s] 49%|████▉     | 5428/11074 [46:18<46:35,  2.02it/s] 49%|████▉     | 5429/11074 [46:18<46:36,  2.02it/s] 49%|████▉     | 5430/11074 [46:19<46:33,  2.02it/s] 49%|████▉     | 5431/11074 [46:19<46:31,  2.02it/s] 49%|████▉     | 5432/11074 [46:20<46:30,  2.02it/s] 49%|████▉     | 5433/11074 [46:20<46:27,  2.02it/s] 49%|████▉     | 5434/11074 [46:21<46:29,  2.02it/s] 49%|████▉     | 5435/11074 [46:21<46:26,  2.02it/s] 49%|████▉     | 5436/11074 [46:22<46:26,  2.02it/s] 49%|████▉     | 5437/11074 [46:22<46:26,  2.02it/s] 49%|████▉     | 5438/11074 [46:23<46:25,  2.02it/s] 49%|████▉     | 5439/11074 [46:23<46:30,  2.02it/s] 49%|████▉     | 5440/11074 [46:24<46:26,  2.02it/s] 49%|████▉     | 5441/11074 [46:24<46:27,  2.02it/s] 49%|████▉     | 5442/11074 [46:25<46:24,  2.02it/s] 49%|████▉     | 5443/11074 [46:25<46:23,  2.02it/s] 49%|████▉     | 5444/11074 [46:26<46:22,  2.02it/s] 49%|████▉     | 5445/11074 [46:26<46:24,  2.02it/s] 49%|████▉     | 5446/11074 [46:27<46:23,  2.02it/s] 49%|████▉     | 5447/11074 [46:27<46:23,  2.02it/s] 49%|████▉     | 5448/11074 [46:28<46:22,  2.02it/s] 49%|████▉     | 5449/11074 [46:28<46:19,  2.02it/s] 49%|████▉     | 5450/11074 [46:29<46:19,  2.02it/s]                                                    {'loss': 3.5146, 'grad_norm': 0.21026529371738434, 'learning_rate': 0.0006003454427423134, 'epoch': 6.89}
- 49%|████▉     | 5450/11074 [46:29<46:19,  2.02it/s] 49%|████▉     | 5451/11074 [46:29<46:26,  2.02it/s] 49%|████▉     | 5452/11074 [46:30<46:23,  2.02it/s] 49%|████▉     | 5453/11074 [46:30<46:24,  2.02it/s] 49%|████▉     | 5454/11074 [46:31<46:20,  2.02it/s] 49%|████▉     | 5455/11074 [46:31<46:20,  2.02it/s] 49%|████▉     | 5456/11074 [46:32<46:18,  2.02it/s] 49%|████▉     | 5457/11074 [46:32<46:17,  2.02it/s] 49%|████▉     | 5458/11074 [46:33<46:16,  2.02it/s] 49%|████▉     | 5459/11074 [46:33<46:13,  2.02it/s] 49%|████▉     | 5460/11074 [46:34<46:16,  2.02it/s] 49%|████▉     | 5461/11074 [46:34<46:16,  2.02it/s] 49%|████▉     | 5462/11074 [46:35<46:17,  2.02it/s] 49%|████▉     | 5463/11074 [46:35<46:20,  2.02it/s] 49%|████▉     | 5464/11074 [46:36<46:18,  2.02it/s] 49%|████▉     | 5465/11074 [46:36<46:18,  2.02it/s] 49%|████▉     | 5466/11074 [46:37<46:15,  2.02it/s] 49%|████▉     | 5467/11074 [46:37<46:14,  2.02it/s] 49%|████▉     | 5468/11074 [46:38<46:11,  2.02it/s] 49%|████▉     | 5469/11074 [46:38<46:13,  2.02it/s] 49%|████▉     | 5470/11074 [46:39<46:10,  2.02it/s] 49%|████▉     | 5471/11074 [46:39<46:18,  2.02it/s] 49%|████▉     | 5472/11074 [46:40<46:12,  2.02it/s] 49%|████▉     | 5473/11074 [46:40<46:13,  2.02it/s] 49%|████▉     | 5474/11074 [46:41<46:09,  2.02it/s] 49%|████▉     | 5475/11074 [46:41<46:10,  2.02it/s]{'loss': 3.5152, 'grad_norm': 0.2168535590171814, 'learning_rate': 0.0005964821472263902, 'epoch': 6.92}
-                                                     49%|████▉     | 5475/11074 [46:41<46:10,  2.02it/s] 49%|████▉     | 5476/11074 [46:42<46:12,  2.02it/s] 49%|████▉     | 5477/11074 [46:42<46:14,  2.02it/s] 49%|████▉     | 5478/11074 [46:43<46:12,  2.02it/s] 49%|████▉     | 5479/11074 [46:43<46:11,  2.02it/s] 49%|████▉     | 5480/11074 [46:44<46:11,  2.02it/s] 49%|████▉     | 5481/11074 [46:44<46:09,  2.02it/s] 50%|████▉     | 5482/11074 [46:45<46:09,  2.02it/s] 50%|████▉     | 5483/11074 [46:45<46:09,  2.02it/s] 50%|████▉     | 5484/11074 [46:46<46:06,  2.02it/s] 50%|████▉     | 5485/11074 [46:46<46:07,  2.02it/s] 50%|████▉     | 5486/11074 [46:47<46:09,  2.02it/s] 50%|████▉     | 5487/11074 [46:47<46:07,  2.02it/s] 50%|████▉     | 5488/11074 [46:48<46:08,  2.02it/s] 50%|████▉     | 5489/11074 [46:48<46:04,  2.02it/s] 50%|████▉     | 5490/11074 [46:49<46:04,  2.02it/s] 50%|████▉     | 5491/11074 [46:49<46:01,  2.02it/s] 50%|████▉     | 5492/11074 [46:50<46:00,  2.02it/s] 50%|████▉     | 5493/11074 [46:50<46:01,  2.02it/s] 50%|████▉     | 5494/11074 [46:51<46:02,  2.02it/s] 50%|█���██▉     | 5495/11074 [46:51<46:01,  2.02it/s] 50%|████▉     | 5496/11074 [46:52<46:01,  2.02it/s] 50%|████▉     | 5497/11074 [46:52<46:02,  2.02it/s] 50%|████▉     | 5498/11074 [46:53<46:01,  2.02it/s] 50%|████▉     | 5499/11074 [46:53<46:00,  2.02it/s] 50%|████▉     | 5500/11074 [46:54<46:00,  2.02it/s]                                                    {'loss': 3.5212, 'grad_norm': 0.21839910745620728, 'learning_rate': 0.0005926128595600097, 'epoch': 6.95}
- 50%|████▉     | 5500/11074 [46:54<46:00,  2.02it/s] 50%|████▉     | 5501/11074 [46:54<46:06,  2.01it/s] 50%|████▉     | 5502/11074 [46:55<46:03,  2.02it/s] 50%|████▉     | 5503/11074 [46:55<45:59,  2.02it/s] 50%|████▉     | 5504/11074 [46:56<45:57,  2.02it/s] 50%|████▉     | 5505/11074 [46:56<45:55,  2.02it/s] 50%|████▉     | 5506/11074 [46:57<45:53,  2.02it/s] 50%|████▉     | 5507/11074 [46:57<45:52,  2.02it/s] 50%|████▉     | 5508/11074 [46:58<45:50,  2.02it/s] 50%|████▉     | 5509/11074 [46:58<45:54,  2.02it/s] 50%|████▉     | 5510/11074 [46:59<45:52,  2.02it/s] 50%|████▉     | 5511/11074 [46:59<45:52,  2.02it/s] 50%|████▉     | 5512/11074 [47:00<45:50,  2.02it/s] 50%|████▉     | 5513/11074 [47:00<45:50,  2.02it/s] 50%|████▉     | 5514/11074 [47:01<45:48,  2.02it/s] 50%|████▉     | 5515/11074 [47:01<45:44,  2.03it/s] 50%|████▉     | 5516/11074 [47:02<45:46,  2.02it/s] 50%|████▉     | 5517/11074 [47:02<45:41,  2.03it/s] 50%|████▉     | 5518/11074 [47:02<45:45,  2.02it/s] 50%|████▉     | 5519/11074 [47:03<45:44,  2.02it/s] 50%|████▉     | 5520/11074 [47:03<45:43,  2.02it/s] 50%|████▉     | 5521/11074 [47:04<45:44,  2.02it/s] 50%|████▉     | 5522/11074 [47:04<45:45,  2.02it/s] 50%|████▉     | 5523/11074 [47:05<45:44,  2.02it/s] 50%|████▉     | 5524/11074 [47:05<45:42,  2.02it/s] 50%|████▉     | 5525/11074 [47:06<45:43,  2.02it/s]                                                    {'loss': 3.5104, 'grad_norm': 0.21748881042003632, 'learning_rate': 0.0005887378200503639, 'epoch': 6.98}
- 50%|████▉     | 5525/11074 [47:06<45:43,  2.02it/s] 50%|████▉     | 5526/11074 [47:06<45:46,  2.02it/s] 50%|████▉     | 5527/11074 [47:07<45:46,  2.02it/s] 50%|████▉     | 5528/11074 [47:07<45:45,  2.02it/s] 50%|████▉     | 5529/11074 [47:08<45:45,  2.02it/s] 50%|████▉     | 5530/11074 [47:08<45:44,  2.02it/s] 50%|████▉     | 5531/11074 [47:09<45:43,  2.02it/s] 50%|████▉     | 5532/11074 [47:09<45:42,  2.02it/s] 50%|████▉     | 5533/11074 [47:10<45:43,  2.02it/s] 50%|████▉     | 5534/11074 [47:10<45:42,  2.02it/s] 50%|████▉     | 5535/11074 [47:11<45:41,  2.02it/s] 50%|████▉     | 5536/11074 [47:11<45:40,  2.02it/s] 50%|█████     | 5537/11074 [47:12<45:38,  2.02it/s] 50%|█████     | 5538/11074 [47:12<45:38,  2.02it/s] 50%|█████     | 5539/11074 [47:13<45:38,  2.02it/s] 50%|█████     | 5540/11074 [47:13<46:44,  1.97it/s] 50%|█████     | 5541/11074 [47:31<8:47:41,  5.72s/it] 50%|█████     | 5542/11074 [47:32<6:23:00,  4.15s/it] 50%|█████     | 5543/11074 [47:32<4:41:50,  3.06s/it] 50%|█████     | 5544/11074 [47:33<3:30:54,  2.29s/it] 50%|█████     | 5545/11074 [47:33<2:41:35,  1.75s/it] 50%|█████     | 5546/11074 [47:34<2:06:48,  1.38s/it] 50%|█████     | 5547/11074 [47:34<1:42:25,  1.11s/it] 50%|█████     | 5548/11074 [47:35<1:25:25,  1.08it/s] 50%|█████     | 5549/11074 [47:35<1:13:34,  1.25it/s] 50%|█████     | 5550/11074 [47:36<1:05:13,  1.41it/s]{'loss': 3.4486, 'grad_norm': 0.2252369523048401, 'learning_rate': 0.0005848572693618702, 'epoch': 7.01}                                                      
- 50%|█████     | 5550/11074 [47:36<1:05:13,  1.41it/s] 50%|█████     | 5551/11074 [47:36<59:31,  1.55it/s]   50%|█████     | 5552/11074 [47:37<55:17,  1.66it/s] 50%|█████     | 5553/11074 [47:37<52:19,  1.76it/s] 50%|█████     | 5554/11074 [47:38<50:20,  1.83it/s] 50%|█████     | 5555/11074 [47:38<48:56,  1.88it/s] 50%|█████     | 5556/11074 [47:39<47:54,  1.92it/s] 50%|█████     | 5557/11074 [47:39<47:06,  1.95it/s] 50%|█████     | 5558/11074 [47:40<46:39,  1.97it/s] 50%|█████     | 5559/11074 [47:40<46:14,  1.99it/s] 50%|█████     | 5560/11074 [47:41<46:02,  2.00it/s] 50%|█████     | 5561/11074 [47:41<45:50,  2.00it/s] 50%|█████     | 5562/11074 [47:42<45:43,  2.01it/s] 50%|█████     | 5563/11074 [47:42<45:39,  2.01it/s] 50%|█████     | 5564/11074 [47:43<45:35,  2.01it/s] 50%|█████     | 5565/11074 [47:43<45:30,  2.02it/s] 50%|█████     | 5566/11074 [47:44<45:28,  2.02it/s] 50%|█████     | 5567/11074 [47:44<45:23,  2.02it/s] 50%|█████     | 5568/11074 [47:45<45:24,  2.02it/s] 50%|█████     | 5569/11074 [47:45<45:20,  2.02it/s] 50%|█████     | 5570/11074 [47:46<45:21,  2.02it/s] 50%|█████     | 5571/11074 [47:46<45:20,  2.02it/s] 50%|█████     | 5572/11074 [47:47<45:18,  2.02it/s] 50%|█████     | 5573/11074 [47:47<45:17,  2.02it/s] 50%|█████     | 5574/11074 [47:48<45:17,  2.02it/s] 50%|█████     | 5575/11074 [47:48<45:17,  2.02it/s]                                                    {'loss': 3.368, 'grad_norm': 0.22238337993621826, 'learning_rate': 0.0005809714485012254, 'epoch': 7.04}
- 50%|█████     | 5575/11074 [47:48<45:17,  2.02it/s] 50%|█████     | 5576/11074 [47:49<45:18,  2.02it/s] 50%|█████     | 5577/11074 [47:49<45:17,  2.02it/s] 50%|█████     | 5578/11074 [47:50<45:18,  2.02it/s] 50%|█████     | 5579/11074 [47:50<45:16,  2.02it/s] 50%|█████     | 5580/11074 [47:51<45:17,  2.02it/s] 50%|█████     | 5581/11074 [47:51<45:17,  2.02it/s] 50%|█████     | 5582/11074 [47:52<45:16,  2.02it/s] 50%|█████     | 5583/11074 [47:52<45:15,  2.02it/s] 50%|█████     | 5584/11074 [47:53<45:16,  2.02it/s] 50%|█████     | 5585/11074 [47:53<45:16,  2.02it/s] 50%|█████     | 5586/11074 [47:54<45:12,  2.02it/s] 50%|█████     | 5587/11074 [47:54<45:12,  2.02it/s] 50%|█████     | 5588/11074 [47:55<45:09,  2.03it/s] 50%|█████     | 5589/11074 [47:55<45:08,  2.03it/s] 50%|█████     | 5590/11074 [47:56<45:06,  2.03it/s] 50%|█████     | 5591/11074 [47:56<45:06,  2.03it/s] 50%|█████     | 5592/11074 [47:57<45:06,  2.03it/s] 51%|█████     | 5593/11074 [47:57<45:06,  2.02it/s] 51%|█████     | 5594/11074 [47:58<45:06,  2.02it/s] 51%|█████     | 5595/11074 [47:58<45:07,  2.02it/s] 51%|█████     | 5596/11074 [47:59<45:06,  2.02it/s] 51%|█████     | 5597/11074 [47:59<45:06,  2.02it/s] 51%|█████     | 5598/11074 [48:00<45:06,  2.02it/s] 51%|█████     | 5599/11074 [48:00<45:02,  2.03it/s] 51%|█████     | 5600/11074 [48:01<45:04,  2.02it/s]{'loss': 3.3763, 'grad_norm': 0.2223232239484787, 'learning_rate': 0.000577080598802437, 'epoch': 7.08}
-                                                     51%|█████     | 5600/11074 [48:01<45:04,  2.02it/s] 51%|█████     | 5601/11074 [48:01<45:04,  2.02it/s] 51%|█████     | 5602/11074 [48:02<45:07,  2.02it/s] 51%|█████     | 5603/11074 [48:02<45:04,  2.02it/s] 51%|█████     | 5604/11074 [48:02<45:03,  2.02it/s] 51%|█████     | 5605/11074 [48:03<45:02,  2.02it/s] 51%|█████     | 5606/11074 [48:03<45:01,  2.02it/s] 51%|█████     | 5607/11074 [48:04<45:02,  2.02it/s] 51%|█████     | 5608/11074 [48:04<44:59,  2.02it/s] 51%|█████     | 5609/11074 [48:05<44:59,  2.02it/s] 51%|█████     | 5610/11074 [48:05<44:56,  2.03it/s] 51%|█████     | 5611/11074 [48:06<44:58,  2.02it/s] 51%|█████     | 5612/11074 [48:06<44:58,  2.02it/s] 51%|█████     | 5613/11074 [48:07<44:58,  2.02it/s] 51%|█████     | 5614/11074 [48:07<44:59,  2.02it/s] 51%|█████     | 5615/11074 [48:08<44:57,  2.02it/s] 51%|█████     | 5616/11074 [48:08<44:59,  2.02it/s] 51%|█████     | 5617/11074 [48:09<44:57,  2.02it/s] 51%|█████     | 5618/11074 [48:09<44:58,  2.02it/s] 51%|█████     | 5619/11074 [48:10<44:56,  2.02it/s] 51%|█████     | 5620/11074 [48:10<45:02,  2.02it/s] 51%|█████     | 5621/11074 [48:11<44:57,  2.02it/s] 51%|█████     | 5622/11074 [48:11<44:57,  2.02it/s] 51%|█████     | 5623/11074 [48:12<44:54,  2.02it/s] 51%|█████     | 5624/11074 [48:12<44:54,  2.02it/s] 51%|█████     | 5625/11074 [48:13<44:54,  2.02it/s]                                                    {'loss': 3.3745, 'grad_norm': 0.22638021409511566, 'learning_rate': 0.000573184961911835, 'epoch': 7.11}
- 51%|█████     | 5625/11074 [48:13<44:54,  2.02it/s] 51%|█████     | 5626/11074 [48:13<45:03,  2.01it/s] 51%|█████     | 5627/11074 [48:14<44:57,  2.02it/s] 51%|█████     | 5628/11074 [48:14<44:56,  2.02it/s] 51%|█████     | 5629/11074 [48:15<44:52,  2.02it/s] 51%|█████     | 5630/11074 [48:15<44:52,  2.02it/s] 51%|█████     | 5631/11074 [48:16<44:48,  2.02it/s] 51%|█████     | 5632/11074 [48:16<44:51,  2.02it/s] 51%|█████     | 5633/11074 [48:17<44:49,  2.02it/s] 51%|█████     | 5634/11074 [48:17<44:52,  2.02it/s] 51%|█████     | 5635/11074 [48:18<44:50,  2.02it/s] 51%|█████     | 5636/11074 [48:18<44:48,  2.02it/s] 51%|█████     | 5637/11074 [48:19<44:47,  2.02it/s] 51%|█████     | 5638/11074 [48:19<44:49,  2.02it/s] 51%|█████     | 5639/11074 [48:20<44:47,  2.02it/s] 51%|█████     | 5640/11074 [48:20<44:46,  2.02it/s] 51%|█████     | 5641/11074 [48:21<44:43,  2.02it/s] 51%|█████     | 5642/11074 [48:21<44:43,  2.02it/s] 51%|█████     | 5643/11074 [48:22<44:42,  2.02it/s] 51%|█████     | 5644/11074 [48:22<44:43,  2.02it/s] 51%|█████     | 5645/11074 [48:23<44:42,  2.02it/s] 51%|█████     | 5646/11074 [48:23<44:38,  2.03it/s] 51%|█████     | 5647/11074 [48:24<44:41,  2.02it/s] 51%|█████     | 5648/11074 [48:24<44:38,  2.03it/s] 51%|█████     | 5649/11074 [48:25<44:41,  2.02it/s] 51%|█████     | 5650/11074 [48:25<44:39,  2.02it/s]{'loss': 3.3885, 'grad_norm': 0.2230163961648941, 'learning_rate': 0.0005692847797730643, 'epoch': 7.14}
-                                                     51%|█████     | 5650/11074 [48:25<44:39,  2.02it/s] 51%|█████     | 5651/11074 [48:26<44:41,  2.02it/s] 51%|█████     | 5652/11074 [48:26<44:40,  2.02it/s] 51%|█████     | 5653/11074 [48:27<44:41,  2.02it/s] 51%|█████     | 5654/11074 [48:27<44:39,  2.02it/s] 51%|█████     | 5655/11074 [48:28<44:38,  2.02it/s] 51%|█████     | 5656/11074 [48:28<44:39,  2.02it/s] 51%|█████     | 5657/11074 [48:29<44:38,  2.02it/s] 51%|█████     | 5658/11074 [48:29<44:38,  2.02it/s] 51%|█████     | 5659/11074 [48:30<44:35,  2.02it/s] 51%|█████     | 5660/11074 [48:30<44:37,  2.02it/s] 51%|█████     | 5661/11074 [48:31<44:32,  2.03it/s] 51%|█████     | 5662/11074 [48:31<44:32,  2.03it/s] 51%|█████     | 5663/11074 [48:32<44:33,  2.02it/s] 51%|█████     | 5664/11074 [48:32<44:31,  2.02it/s] 51%|█████     | 5665/11074 [48:33<44:33,  2.02it/s] 51%|█████     | 5666/11074 [48:33<44:29,  2.03it/s] 51%|█████     | 5667/11074 [48:34<44:27,  2.03it/s] 51%|█████     | 5668/11074 [48:34<44:32,  2.02it/s] 51%|█████     | 5669/11074 [48:35<44:29,  2.02it/s] 51%|█████     | 5670/11074 [48:35<44:31,  2.02it/s] 51%|█████     | 5671/11074 [48:36<44:29,  2.02it/s] 51%|█████     | 5672/11074 [48:36<44:24,  2.03it/s] 51%|█████     | 5673/11074 [48:37<44:26,  2.03it/s] 51%|█████     | 5674/11074 [48:37<44:25,  2.03it/s] 51%|█████     | 5675/11074 [48:38<44:27,  2.02it/s]{'loss': 3.3925, 'grad_norm': 0.22430843114852905, 'learning_rate': 0.000565380294612059, 'epoch': 7.17}
-                                                     51%|█████     | 5675/11074 [48:38<44:27,  2.02it/s] 51%|█████▏    | 5676/11074 [48:38<44:29,  2.02it/s] 51%|█████▏    | 5677/11074 [48:39<44:29,  2.02it/s] 51%|█████▏    | 5678/11074 [48:39<44:28,  2.02it/s] 51%|█████▏    | 5679/11074 [48:40<44:28,  2.02it/s] 51%|█████▏    | 5680/11074 [48:40<44:27,  2.02it/s] 51%|█████▏    | 5681/11074 [48:41<44:24,  2.02it/s] 51%|█████▏    | 5682/11074 [48:41<44:24,  2.02it/s] 51%|█████▏    | 5683/11074 [48:42<44:24,  2.02it/s] 51%|█████▏    | 5684/11074 [48:42<44:27,  2.02it/s] 51%|█████▏    | 5685/11074 [48:43<44:27,  2.02it/s] 51%|█████▏    | 5686/11074 [48:43<44:27,  2.02it/s] 51%|█████▏    | 5687/11074 [48:44<44:24,  2.02it/s] 51%|█████▏    | 5688/11074 [48:44<44:23,  2.02it/s] 51%|█████▏    | 5689/11074 [48:45<44:22,  2.02it/s] 51%|█████▏    | 5690/11074 [48:45<44:21,  2.02it/s] 51%|█████▏    | 5691/11074 [48:45<44:21,  2.02it/s] 51%|█████▏    | 5692/11074 [48:46<44:26,  2.02it/s] 51%|█████▏    | 5693/11074 [48:46<44:23,  2.02it/s] 51%|█████▏    | 5694/11074 [48:47<44:21,  2.02it/s] 51%|█████▏    | 5695/11074 [48:47<44:19,  2.02it/s] 51%|█████▏    | 5696/11074 [48:48<48:15,  1.86it/s] 51%|█████▏    | 5697/11074 [48:49<47:02,  1.91it/s] 51%|█████▏    | 5698/11074 [48:49<46:12,  1.94it/s] 51%|█████▏    | 5699/11074 [48:50<45:37,  1.96it/s] 51%|█████▏    | 5700/11074 [48:50<45:14,  1.98it/s]{'loss': 3.3952, 'grad_norm': 0.22084489464759827, 'learning_rate': 0.0005614717489219969, 'epoch': 7.2}                                                    
- 51%|█████▏    | 5700/11074 [48:50<45:14,  1.98it/s] 51%|█████▏    | 5701/11074 [48:51<44:56,  1.99it/s] 51%|█████▏    | 5702/11074 [48:51<44:43,  2.00it/s] 51%|█████▏    | 5703/11074 [48:52<44:34,  2.01it/s] 52%|█████▏    | 5704/11074 [48:52<44:27,  2.01it/s] 52%|█████▏    | 5705/11074 [48:53<44:21,  2.02it/s] 52%|█████▏    | 5706/11074 [48:53<44:22,  2.02it/s] 52%|█████▏    | 5707/11074 [48:54<44:16,  2.02it/s] 52%|█████▏    | 5708/11074 [48:54<44:14,  2.02it/s] 52%|█████▏    | 5709/11074 [48:55<44:15,  2.02it/s] 52%|█████▏    | 5710/11074 [48:55<44:12,  2.02it/s] 52%|█████▏    | 5711/11074 [48:56<44:13,  2.02it/s] 52%|█████▏    | 5712/11074 [48:56<44:09,  2.02it/s] 52%|█████▏    | 5713/11074 [48:57<44:10,  2.02it/s] 52%|█████▏    | 5714/11074 [48:57<44:13,  2.02it/s] 52%|█████▏    | 5715/11074 [48:58<44:12,  2.02it/s] 52%|█████▏    | 5716/11074 [48:58<44:07,  2.02it/s] 52%|█████▏    | 5717/11074 [48:58<44:08,  2.02it/s] 52%|█████▏    | 5718/11074 [48:59<44:05,  2.02it/s] 52%|█████▏    | 5719/11074 [48:59<44:07,  2.02it/s] 52%|█████▏    | 5720/11074 [49:00<44:04,  2.02it/s] 52%|█████▏    | 5721/11074 [49:00<44:05,  2.02it/s] 52%|█████▏    | 5722/11074 [49:01<44:02,  2.03it/s] 52%|█████▏    | 5723/11074 [49:01<44:03,  2.02it/s] 52%|█████▏    | 5724/11074 [49:02<44:01,  2.03it/s] 52%|█████▏    | 5725/11074 [49:02<44:04,  2.02it/s]{'loss': 3.4029, 'grad_norm': 0.22638282179832458, 'learning_rate': 0.0005575593854482414, 'epoch': 7.23}
-                                                     52%|█████▏    | 5725/11074 [49:02<44:04,  2.02it/s] 52%|█████▏    | 5726/11074 [49:03<44:08,  2.02it/s] 52%|█████▏    | 5727/11074 [49:03<44:07,  2.02it/s] 52%|█████▏    | 5728/11074 [49:04<44:02,  2.02it/s] 52%|█████▏    | 5729/11074 [49:04<44:03,  2.02it/s] 52%|█████▏    | 5730/11074 [49:05<44:01,  2.02it/s] 52%|█████▏    | 5731/11074 [49:05<44:02,  2.02it/s] 52%|█████▏    | 5732/11074 [49:06<43:59,  2.02it/s] 52%|█████▏    | 5733/11074 [49:06<43:55,  2.03it/s] 52%|█████▏    | 5734/11074 [49:07<43:58,  2.02it/s] 52%|█████▏    | 5735/11074 [49:07<43:56,  2.02it/s] 52%|█████▏    | 5736/11074 [49:08<44:00,  2.02it/s] 52%|█████▏    | 5737/11074 [49:08<43:56,  2.02it/s] 52%|█████▏    | 5738/11074 [49:09<43:56,  2.02it/s] 52%|█████▏    | 5739/11074 [49:09<43:55,  2.02it/s] 52%|█████▏    | 5740/11074 [49:10<43:55,  2.02it/s] 52%|█████▏    | 5741/11074 [49:10<43:55,  2.02it/s] 52%|█████▏    | 5742/11074 [49:11<43:51,  2.03it/s] 52%|█████▏    | 5743/11074 [49:11<43:54,  2.02it/s] 52%|█████▏    | 5744/11074 [49:12<43:52,  2.02it/s] 52%|█████▏    | 5745/11074 [49:12<43:52,  2.02it/s] 52%|█████▏    | 5746/11074 [49:13<43:50,  2.03it/s] 52%|█████▏    | 5747/11074 [49:13<43:50,  2.03it/s] 52%|█████▏    | 5748/11074 [49:14<43:50,  2.02it/s] 52%|█████▏    | 5749/11074 [49:14<43:51,  2.02it/s] 52%|█████▏    | 5750/11074 [49:15<43:55,  2.02it/s]                                                    {'loss': 3.4104, 'grad_norm': 0.2244698852300644, 'learning_rate': 0.0005536434471732634, 'epoch': 7.26}
- 52%|█████▏    | 5750/11074 [49:15<43:55,  2.02it/s] 52%|█████▏    | 5751/11074 [49:15<44:05,  2.01it/s] 52%|█████▏    | 5752/11074 [49:16<44:02,  2.01it/s] 52%|█████▏    | 5753/11074 [49:16<44:00,  2.02it/s] 52%|█████▏    | 5754/11074 [49:17<44:01,  2.01it/s] 52%|█████▏    | 5755/11074 [49:17<44:00,  2.01it/s] 52%|█████▏    | 5756/11074 [49:18<47:44,  1.86it/s] 52%|█████▏    | 5757/11074 [49:18<46:36,  1.90it/s] 52%|█████▏    | 5758/11074 [49:19<45:42,  1.94it/s] 52%|█████▏    | 5759/11074 [49:19<45:09,  1.96it/s] 52%|█████▏    | 5760/11074 [49:20<44:44,  1.98it/s] 52%|█████▏    | 5761/11074 [49:20<44:28,  1.99it/s] 52%|█████▏    | 5762/11074 [49:21<44:14,  2.00it/s] 52%|█████▏    | 5763/11074 [49:21<44:06,  2.01it/s] 52%|█████▏    | 5764/11074 [49:22<43:59,  2.01it/s] 52%|█████▏    | 5765/11074 [49:22<43:57,  2.01it/s] 52%|█████▏    | 5766/11074 [49:23<43:51,  2.02it/s] 52%|█████▏    | 5767/11074 [49:23<43:50,  2.02it/s] 52%|█████▏    | 5768/11074 [49:24<43:46,  2.02it/s] 52%|█████▏    | 5769/11074 [49:24<43:47,  2.02it/s] 52%|█████▏    | 5770/11074 [49:25<43:44,  2.02it/s] 52%|█████▏    | 5771/11074 [49:25<43:44,  2.02it/s] 52%|█████▏    | 5772/11074 [49:26<43:42,  2.02it/s] 52%|█████▏    | 5773/11074 [49:26<43:43,  2.02it/s] 52%|█████▏    | 5774/11074 [49:27<43:42,  2.02it/s] 52%|█████▏    | 5775/11074 [49:27<43:43,  2.02it/s]{'loss': 3.4181, 'grad_norm': 0.22089169919490814, 'learning_rate': 0.0005497241773015526, 'epoch': 7.3}
-                                                     52%|█████▏    | 5775/11074 [49:27<43:43,  2.02it/s] 52%|█████▏    | 5776/11074 [49:28<43:41,  2.02it/s] 52%|█████▏    | 5777/11074 [49:28<43:37,  2.02it/s] 52%|█████▏    | 5778/11074 [49:29<43:36,  2.02it/s] 52%|█████▏    | 5779/11074 [49:29<43:36,  2.02it/s] 52%|█████▏    | 5780/11074 [49:30<43:36,  2.02it/s] 52%|█████▏    | 5781/11074 [49:30<43:35,  2.02it/s] 52%|█████▏    | 5782/11074 [49:31<43:34,  2.02it/s] 52%|█████▏    | 5783/11074 [49:31<43:33,  2.02it/s] 52%|█████▏    | 5784/11074 [49:32<43:36,  2.02it/s] 52%|█████▏    | 5785/11074 [49:32<43:31,  2.03it/s] 52%|█████▏    | 5786/11074 [49:33<43:31,  2.02it/s] 52%|█████▏    | 5787/11074 [49:33<43:32,  2.02it/s] 52%|█████▏    | 5788/11074 [49:34<43:32,  2.02it/s] 52%|█████▏    | 5789/11074 [49:34<43:31,  2.02it/s] 52%|█████▏    | 5790/11074 [49:35<43:28,  2.03it/s] 52%|█████▏    | 5791/11074 [49:35<43:30,  2.02it/s] 52%|█████▏    | 5792/11074 [49:36<43:27,  2.03it/s] 52%|█████▏    | 5793/11074 [49:36<43:29,  2.02it/s] 52%|█████▏    | 5794/11074 [49:37<43:26,  2.03it/s] 52%|█████▏    | 5795/11074 [49:37<43:27,  2.02it/s] 52%|█████▏    | 5796/11074 [49:38<43:31,  2.02it/s] 52%|█████▏    | 5797/11074 [49:38<43:32,  2.02it/s] 52%|█████▏    | 5798/11074 [49:39<43:29,  2.02it/s] 52%|█████▏    | 5799/11074 [49:39<43:27,  2.02it/s] 52%|█████▏    | 5800/11074 [49:40<43:27,  2.02it/s]{'loss': 3.4146, 'grad_norm': 0.22669245302677155, 'learning_rate': 0.0005458018192445108, 'epoch': 7.33}
-                                                     52%|█████▏    | 5800/11074 [49:40<43:27,  2.02it/s] 52%|█████▏    | 5801/11074 [49:40<43:28,  2.02it/s] 52%|█████▏    | 5802/11074 [49:41<43:28,  2.02it/s] 52%|█████▏    | 5803/11074 [49:41<43:26,  2.02it/s] 52%|█████▏    | 5804/11074 [49:42<43:25,  2.02it/s] 52%|█████▏    | 5805/11074 [49:42<43:25,  2.02it/s] 52%|█████▏    | 5806/11074 [49:43<43:23,  2.02it/s] 52%|█████▏    | 5807/11074 [49:43<43:25,  2.02it/s] 52%|█████▏    | 5808/11074 [49:44<43:24,  2.02it/s] 52%|█████▏    | 5809/11074 [49:44<43:27,  2.02it/s] 52%|█████▏    | 5810/11074 [49:45<43:24,  2.02it/s] 52%|█████▏    | 5811/11074 [49:45<43:24,  2.02it/s] 52%|█████▏    | 5812/11074 [49:46<43:24,  2.02it/s] 52%|█████▏    | 5813/11074 [49:46<43:22,  2.02it/s] 53%|█████▎    | 5814/11074 [49:47<43:22,  2.02it/s] 53%|█████▎    | 5815/11074 [49:47<43:19,  2.02it/s] 53%|█████▎    | 5816/11074 [49:48<43:20,  2.02it/s] 53%|█████▎    | 5817/11074 [49:48<43:17,  2.02it/s] 53%|█████▎    | 5818/11074 [49:49<43:18,  2.02it/s] 53%|█████▎    | 5819/11074 [49:49<43:16,  2.02it/s] 53%|█████▎    | 5820/11074 [49:50<43:18,  2.02it/s] 53%|█████▎    | 5821/11074 [49:50<43:17,  2.02it/s] 53%|█████▎    | 5822/11074 [49:51<43:17,  2.02it/s] 53%|█████▎    | 5823/11074 [49:51<43:15,  2.02it/s] 53%|█████▎    | 5824/11074 [49:52<43:11,  2.03it/s] 53%|█████▎    | 5825/11074 [49:52<43:13,  2.02it/s]{'loss': 3.4237, 'grad_norm': 0.22281280159950256, 'learning_rate': 0.0005418766166053362, 'epoch': 7.36}
-                                                     53%|█████▎    | 5825/11074 [49:52<43:13,  2.02it/s] 53%|█████▎    | 5826/11074 [49:53<43:17,  2.02it/s] 53%|█████▎    | 5827/11074 [49:53<43:15,  2.02it/s] 53%|█████▎    | 5828/11074 [49:54<43:11,  2.02it/s] 53%|█████▎    | 5829/11074 [49:54<43:12,  2.02it/s] 53%|█████▎    | 5830/11074 [49:55<43:08,  2.03it/s] 53%|█████▎    | 5831/11074 [49:55<43:11,  2.02it/s] 53%|█████▎    | 5832/11074 [49:56<43:07,  2.03it/s] 53%|█████▎    | 5833/11074 [49:56<43:08,  2.02it/s] 53%|█████▎    | 5834/11074 [49:56<43:07,  2.03it/s] 53%|█████▎    | 5835/11074 [49:57<43:06,  2.03it/s] 53%|█████▎    | 5836/11074 [49:57<43:07,  2.02it/s] 53%|█████▎    | 5837/11074 [49:58<43:04,  2.03it/s] 53%|█████▎    | 5838/11074 [49:58<43:07,  2.02it/s] 53%|█████▎    | 5839/11074 [49:59<43:04,  2.03it/s] 53%|█████▎    | 5840/11074 [49:59<43:06,  2.02it/s] 53%|█████▎    | 5841/11074 [50:00<43:03,  2.03it/s] 53%|█████▎    | 5842/11074 [50:00<43:06,  2.02it/s] 53%|█████▎    | 5843/11074 [50:01<43:03,  2.02it/s] 53%|█████▎    | 5844/11074 [50:01<43:04,  2.02it/s] 53%|█████▎    | 5845/11074 [50:02<43:02,  2.03it/s] 53%|█████▎    | 5846/11074 [50:02<43:06,  2.02it/s] 53%|█████▎    | 5847/11074 [50:03<43:03,  2.02it/s] 53%|█████▎    | 5848/11074 [50:03<43:04,  2.02it/s] 53%|█████▎    | 5849/11074 [50:04<43:00,  2.02it/s] 53%|█████▎    | 5850/11074 [50:04<43:01,  2.02it/s]{'loss': 3.4237, 'grad_norm': 0.23821192979812622, 'learning_rate': 0.0005379488131638936, 'epoch': 7.39}
-                                                     53%|█████▎    | 5850/11074 [50:04<43:01,  2.02it/s] 53%|█████▎    | 5851/11074 [50:05<43:08,  2.02it/s] 53%|█████▎    | 5852/11074 [50:05<43:07,  2.02it/s] 53%|█████▎    | 5853/11074 [50:06<43:03,  2.02it/s] 53%|█████▎    | 5854/11074 [50:06<43:03,  2.02it/s] 53%|█████▎    | 5855/11074 [50:07<43:00,  2.02it/s] 53%|█████▎    | 5856/11074 [50:07<43:02,  2.02it/s] 53%|█████▎    | 5857/11074 [50:08<42:59,  2.02it/s] 53%|█████▎    | 5858/11074 [50:08<42:58,  2.02it/s] 53%|█████▎    | 5859/11074 [50:09<42:58,  2.02it/s] 53%|█████▎    | 5860/11074 [50:09<42:56,  2.02it/s] 53%|█████▎    | 5861/11074 [50:10<42:58,  2.02it/s] 53%|█████▎    | 5862/11074 [50:10<42:56,  2.02it/s] 53%|█████▎    | 5863/11074 [50:11<42:56,  2.02it/s] 53%|█████▎    | 5864/11074 [50:11<42:53,  2.02it/s] 53%|█████▎    | 5865/11074 [50:12<42:53,  2.02it/s] 53%|█████▎    | 5866/11074 [50:12<42:53,  2.02it/s] 53%|█████▎    | 5867/11074 [50:13<42:54,  2.02it/s] 53%|█████▎    | 5868/11074 [50:13<42:52,  2.02it/s] 53%|█████▎    | 5869/11074 [50:14<42:55,  2.02it/s] 53%|█████▎    | 5870/11074 [50:14<42:55,  2.02it/s] 53%|█████▎    | 5871/11074 [50:15<42:55,  2.02it/s] 53%|█████▎    | 5872/11074 [50:15<42:51,  2.02it/s] 53%|█████▎    | 5873/11074 [50:16<42:51,  2.02it/s] 53%|█████▎    | 5874/11074 [50:16<42:49,  2.02it/s] 53%|█████▎    | 5875/11074 [50:17<42:49,  2.02it/s]{'loss': 3.426, 'grad_norm': 0.22152826189994812, 'learning_rate': 0.0005340186528615738, 'epoch': 7.42}
-                                                     53%|█████▎    | 5875/11074 [50:17<42:49,  2.02it/s] 53%|█████▎    | 5876/11074 [50:17<42:49,  2.02it/s] 53%|█████▎    | 5877/11074 [50:18<42:47,  2.02it/s] 53%|█████▎    | 5878/11074 [50:18<42:50,  2.02it/s] 53%|█████▎    | 5879/11074 [50:19<42:49,  2.02it/s] 53%|█████▎    | 5880/11074 [50:19<42:49,  2.02it/s] 53%|█████▎    | 5881/11074 [50:20<42:47,  2.02it/s] 53%|█████▎    | 5882/11074 [50:20<42:49,  2.02it/s] 53%|█████▎    | 5883/11074 [50:21<42:47,  2.02it/s] 53%|█████▎    | 5884/11074 [50:21<42:48,  2.02it/s] 53%|█████▎    | 5885/11074 [50:22<42:47,  2.02it/s] 53%|█████▎    | 5886/11074 [50:22<42:46,  2.02it/s] 53%|█████▎    | 5887/11074 [50:23<42:46,  2.02it/s] 53%|█████▎    | 5888/11074 [50:23<42:46,  2.02it/s] 53%|█████▎    | 5889/11074 [50:24<42:44,  2.02it/s] 53%|█████▎    | 5890/11074 [50:24<42:45,  2.02it/s] 53%|█████▎    | 5891/11074 [50:25<42:43,  2.02it/s] 53%|█████▎    | 5892/11074 [50:25<42:42,  2.02it/s] 53%|█████▎    | 5893/11074 [50:26<42:43,  2.02it/s] 53%|█████▎    | 5894/11074 [50:26<42:43,  2.02it/s] 53%|█████▎    | 5895/11074 [50:27<42:43,  2.02it/s] 53%|█████▎    | 5896/11074 [50:27<42:42,  2.02it/s] 53%|█████▎    | 5897/11074 [50:28<42:42,  2.02it/s] 53%|█████▎    | 5898/11074 [50:28<42:37,  2.02it/s] 53%|█████▎    | 5899/11074 [50:29<42:39,  2.02it/s] 53%|█████▎    | 5900/11074 [50:29<42:35,  2.02it/s]{'loss': 3.4265, 'grad_norm': 0.23226560652256012, 'learning_rate': 0.0005300863797861436, 'epoch': 7.45}
-                                                     53%|█████▎    | 5900/11074 [50:29<42:35,  2.02it/s] 53%|█████▎    | 5901/11074 [50:30<42:41,  2.02it/s] 53%|█████▎    | 5902/11074 [50:30<42:38,  2.02it/s] 53%|█████▎    | 5903/11074 [50:31<42:39,  2.02it/s] 53%|█████▎    | 5904/11074 [50:31<42:34,  2.02it/s] 53%|█████▎    | 5905/11074 [50:32<42:37,  2.02it/s] 53%|█████▎    | 5906/11074 [50:32<42:33,  2.02it/s] 53%|█████▎    | 5907/11074 [50:33<42:33,  2.02it/s] 53%|█████▎    | 5908/11074 [50:33<42:32,  2.02it/s] 53%|█████▎    | 5909/11074 [50:34<42:33,  2.02it/s] 53%|█████▎    | 5910/11074 [50:34<42:32,  2.02it/s] 53%|█████▎    | 5911/11074 [50:35<42:32,  2.02it/s] 53%|█████▎    | 5912/11074 [50:35<42:32,  2.02it/s] 53%|█████▎    | 5913/11074 [50:36<42:36,  2.02it/s] 53%|███���█▎    | 5914/11074 [50:36<42:35,  2.02it/s] 53%|█████▎    | 5915/11074 [50:37<42:33,  2.02it/s] 53%|█████▎    | 5916/11074 [50:37<42:34,  2.02it/s] 53%|█████▎    | 5917/11074 [50:38<42:35,  2.02it/s] 53%|█████▎    | 5918/11074 [50:38<42:32,  2.02it/s] 53%|█████▎    | 5919/11074 [50:39<42:32,  2.02it/s] 53%|█████▎    | 5920/11074 [50:39<42:31,  2.02it/s] 53%|█████▎    | 5921/11074 [50:40<42:28,  2.02it/s] 53%|█████▎    | 5922/11074 [50:40<42:26,  2.02it/s] 53%|█████▎    | 5923/11074 [50:41<42:28,  2.02it/s] 53%|█████▎    | 5924/11074 [50:41<42:25,  2.02it/s] 54%|█████▎    | 5925/11074 [50:41<42:28,  2.02it/s]{'loss': 3.4355, 'grad_norm': 0.22696688771247864, 'learning_rate': 0.0005261522381565864, 'epoch': 7.49}                                                    
- 54%|█████▎    | 5925/11074 [50:42<42:28,  2.02it/s] 54%|█████▎    | 5926/11074 [50:42<42:28,  2.02it/s] 54%|█████▎    | 5927/11074 [50:42<42:28,  2.02it/s] 54%|█████▎    | 5928/11074 [50:43<42:23,  2.02it/s] 54%|█████▎    | 5929/11074 [50:43<42:24,  2.02it/s] 54%|█████▎    | 5930/11074 [50:44<42:23,  2.02it/s] 54%|█████▎    | 5931/11074 [50:44<42:23,  2.02it/s] 54%|█████▎    | 5932/11074 [50:45<42:24,  2.02it/s] 54%|█████▎    | 5933/11074 [50:45<42:22,  2.02it/s] 54%|█████▎    | 5934/11074 [50:46<42:25,  2.02it/s] 54%|█████▎    | 5935/11074 [50:46<42:21,  2.02it/s] 54%|█████▎    | 5936/11074 [50:47<42:23,  2.02it/s] 54%|█████▎    | 5937/11074 [50:47<42:19,  2.02it/s] 54%|█████▎    | 5938/11074 [50:48<42:15,  2.03it/s] 54%|█████▎    | 5939/11074 [50:48<42:16,  2.02it/s] 54%|█████▎    | 5940/11074 [50:49<42:14,  2.03it/s] 54%|█████▎    | 5941/11074 [50:49<42:16,  2.02it/s] 54%|█████▎    | 5942/11074 [50:50<42:13,  2.03it/s] 54%|█████▎    | 5943/11074 [50:50<42:14,  2.02it/s] 54%|█████▎    | 5944/11074 [50:51<42:16,  2.02it/s] 54%|█████▎    | 5945/11074 [50:51<42:16,  2.02it/s] 54%|█████▎    | 5946/11074 [50:52<42:16,  2.02it/s] 54%|█████▎    | 5947/11074 [50:52<42:14,  2.02it/s] 54%|█████▎    | 5948/11074 [50:53<42:15,  2.02it/s] 54%|█████▎    | 5949/11074 [50:53<42:13,  2.02it/s] 54%|█████▎    | 5950/11074 [50:54<42:12,  2.02it/s]{'loss': 3.4318, 'grad_norm': 0.21647268533706665, 'learning_rate': 0.0005222164723079343, 'epoch': 7.52}
-                                                     54%|█████▎    | 5950/11074 [50:54<42:12,  2.02it/s] 54%|█████▎    | 5951/11074 [50:54<42:14,  2.02it/s] 54%|█████▎    | 5952/11074 [50:55<42:10,  2.02it/s] 54%|█████▍    | 5953/11074 [50:55<42:13,  2.02it/s] 54%|█████▍    | 5954/11074 [50:56<42:12,  2.02it/s] 54%|█████▍    | 5955/11074 [50:56<42:11,  2.02it/s] 54%|█████▍    | 5956/11074 [50:57<42:07,  2.03it/s] 54%|█████▍    | 5957/11074 [50:57<42:08,  2.02it/s] 54%|█████▍    | 5958/11074 [50:58<42:05,  2.03it/s] 54%|█████▍    | 5959/11074 [50:58<42:09,  2.02it/s] 54%|█████▍    | 5960/11074 [50:59<42:07,  2.02it/s] 54%|█████▍    | 5961/11074 [50:59<42:10,  2.02it/s] 54%|█████▍    | 5962/11074 [51:00<42:05,  2.02it/s] 54%|█████▍    | 5963/11074 [51:00<42:08,  2.02it/s] 54%|█████▍    | 5964/11074 [51:01<42:05,  2.02it/s] 54%|█████▍    | 5965/11074 [51:01<42:05,  2.02it/s] 54%|█████▍    | 5966/11074 [51:02<42:04,  2.02it/s] 54%|█████▍    | 5967/11074 [51:02<42:07,  2.02it/s] 54%|█████▍    | 5968/11074 [51:03<42:03,  2.02it/s] 54%|█████▍    | 5969/11074 [51:03<42:03,  2.02it/s] 54%|█████▍    | 5970/11074 [51:04<42:01,  2.02it/s] 54%|█████▍    | 5971/11074 [51:04<42:00,  2.02it/s] 54%|█████▍    | 5972/11074 [51:05<42:02,  2.02it/s] 54%|█████▍    | 5973/11074 [51:05<42:00,  2.02it/s] 54%|█████▍    | 5974/11074 [51:06<42:00,  2.02it/s] 54%|█████▍    | 5975/11074 [51:06<42:01,  2.02it/s]                                                    {'loss': 3.4345, 'grad_norm': 0.22415612637996674, 'learning_rate': 0.0005182793266760941, 'epoch': 7.55}
- 54%|█████▍    | 5975/11074 [51:06<42:01,  2.02it/s] 54%|█████▍    | 5976/11074 [51:07<42:03,  2.02it/s] 54%|█████▍    | 5977/11074 [51:07<42:02,  2.02it/s] 54%|█████▍    | 5978/11074 [51:08<42:01,  2.02it/s] 54%|█████▍    | 5979/11074 [51:08<42:01,  2.02it/s] 54%|█████▍    | 5980/11074 [51:09<42:00,  2.02it/s] 54%|█████▍    | 5981/11074 [51:09<41:58,  2.02it/s] 54%|█████▍    | 5982/11074 [51:10<41:59,  2.02it/s] 54%|█████▍    | 5983/11074 [51:10<42:01,  2.02it/s] 54%|█████▍    | 5984/11074 [51:11<42:02,  2.02it/s] 54%|█████▍    | 5985/11074 [51:11<42:00,  2.02it/s] 54%|█████▍    | 5986/11074 [51:12<41:56,  2.02it/s] 54%|█████▍    | 5987/11074 [51:12<41:57,  2.02it/s] 54%|█████▍    | 5988/11074 [51:13<41:57,  2.02it/s] 54%|█████▍    | 5989/11074 [51:13<41:53,  2.02it/s] 54%|█████▍    | 5990/11074 [51:14<41:53,  2.02it/s] 54%|█████▍    | 5991/11074 [51:14<41:54,  2.02it/s] 54%|█████▍    | 5992/11074 [51:15<41:56,  2.02it/s] 54%|█████▍    | 5993/11074 [51:15<41:55,  2.02it/s] 54%|█████▍    | 5994/11074 [51:16<41:54,  2.02it/s] 54%|█████▍    | 5995/11074 [51:16<41:51,  2.02it/s] 54%|█████▍    | 5996/11074 [51:17<41:53,  2.02it/s] 54%|█████▍    | 5997/11074 [51:17<41:50,  2.02it/s] 54%|█████▍    | 5998/11074 [51:18<41:52,  2.02it/s] 54%|█████▍    | 5999/11074 [51:18<41:50,  2.02it/s] 54%|█████▍    | 6000/11074 [51:19<41:52,  2.02it/s]                                                    {'loss': 3.4281, 'grad_norm': 0.22060881555080414, 'learning_rate': 0.0005143410457826657, 'epoch': 7.58}
- 54%|█████▍    | 6000/11074 [51:19<41:52,  2.02it/s] 54%|█████▍    | 6001/11074 [51:19<41:52,  2.02it/s] 54%|█████▍    | 6002/11074 [51:20<41:51,  2.02it/s] 54%|█████▍    | 6003/11074 [51:20<41:49,  2.02it/s] 54%|█████▍    | 6004/11074 [51:21<41:50,  2.02it/s] 54%|█████▍    | 6005/11074 [51:21<41:48,  2.02it/s] 54%|█████▍    | 6006/11074 [51:22<41:47,  2.02it/s] 54%|█████▍    | 6007/11074 [51:22<41:46,  2.02it/s] 54%|█████▍    | 6008/11074 [51:23<41:48,  2.02it/s] 54%|█████▍    | 6009/11074 [51:23<41:47,  2.02it/s] 54%|█████▍    | 6010/11074 [51:24<41:45,  2.02it/s] 54%|█████▍    | 6011/11074 [51:24<41:44,  2.02it/s] 54%|█████▍    | 6012/11074 [51:25<41:43,  2.02it/s] 54%|█████▍    | 6013/11074 [51:25<41:44,  2.02it/s] 54%|█████▍    | 6014/11074 [51:26<41:44,  2.02it/s] 54%|█████▍    | 6015/11074 [51:26<41:44,  2.02it/s] 54%|█████▍    | 6016/11074 [51:27<41:44,  2.02it/s] 54%|█████▍    | 6017/11074 [51:27<41:42,  2.02it/s] 54%|█████▍    | 6018/11074 [51:27<41:44,  2.02it/s] 54%|█████▍    | 6019/11074 [51:28<41:41,  2.02it/s] 54%|█████▍    | 6020/11074 [51:28<41:41,  2.02it/s] 54%|█████▍    | 6021/11074 [51:29<41:40,  2.02it/s] 54%|█████▍    | 6022/11074 [51:29<41:37,  2.02it/s] 54%|█████▍    | 6023/11074 [51:30<41:39,  2.02it/s] 54%|█████▍    | 6024/11074 [51:30<41:36,  2.02it/s] 54%|█████▍    | 6025/11074 [51:31<41:37,  2.02it/s]{'loss': 3.4348, 'grad_norm': 0.23927581310272217, 'learning_rate': 0.0005104018742197557, 'epoch': 7.61}
-                                                     54%|█████▍    | 6025/11074 [51:31<41:37,  2.02it/s] 54%|█████▍    | 6026/11074 [51:31<41:37,  2.02it/s] 54%|█████▍    | 6027/11074 [51:32<41:37,  2.02it/s] 54%|█████▍    | 6028/11074 [51:32<41:36,  2.02it/s] 54%|█████▍    | 6029/11074 [51:33<41:39,  2.02it/s] 54%|█████▍    | 6030/11074 [51:33<41:36,  2.02it/s] 54%|█████▍    | 6031/11074 [51:34<41:34,  2.02it/s] 54%|█████▍    | 6032/11074 [51:34<41:31,  2.02it/s] 54%|█████▍    | 6033/11074 [51:35<41:31,  2.02it/s] 54%|█████▍    | 6034/11074 [51:35<41:32,  2.02it/s] 54%|█████▍    | 6035/11074 [51:36<41:31,  2.02it/s] 55%|█████▍    | 6036/11074 [51:36<41:30,  2.02it/s] 55%|█████▍    | 6037/11074 [51:37<41:30,  2.02it/s] 55%|█████▍    | 6038/11074 [51:37<41:30,  2.02it/s] 55%|█████▍    | 6039/11074 [51:38<41:29,  2.02it/s] 55%|█████▍    | 6040/11074 [51:38<41:31,  2.02it/s] 55%|█████▍    | 6041/11074 [51:39<41:30,  2.02it/s] 55%|█████▍    | 6042/11074 [51:39<41:29,  2.02it/s] 55%|█████▍    | 6043/11074 [51:40<41:28,  2.02it/s] 55%|█████▍    | 6044/11074 [51:40<41:27,  2.02it/s] 55%|█████▍    | 6045/11074 [51:41<41:27,  2.02it/s] 55%|█████▍    | 6046/11074 [51:41<41:25,  2.02it/s] 55%|█████▍    | 6047/11074 [51:42<41:23,  2.02it/s] 55%|█████▍    | 6048/11074 [51:42<41:25,  2.02it/s] 55%|█████▍    | 6049/11074 [51:43<41:24,  2.02it/s] 55%|█████▍    | 6050/11074 [51:43<41:22,  2.02it/s]{'loss': 3.4329, 'grad_norm': 0.22865353524684906, 'learning_rate': 0.0005064620566347873, 'epoch': 7.64}                                                    
- 55%|█████▍    | 6050/11074 [51:43<41:22,  2.02it/s] 55%|█████▍    | 6051/11074 [51:44<41:39,  2.01it/s] 55%|█████▍    | 6052/11074 [51:44<41:33,  2.01it/s] 55%|█████▍    | 6053/11074 [51:45<41:27,  2.02it/s] 55%|█████▍    | 6054/11074 [51:45<41:26,  2.02it/s] 55%|█████▍    | 6055/11074 [51:46<41:21,  2.02it/s] 55%|█████▍    | 6056/11074 [51:46<41:22,  2.02it/s] 55%|█████▍    | 6057/11074 [51:47<41:20,  2.02it/s] 55%|█████▍    | 6058/11074 [51:47<41:20,  2.02it/s] 55%|█████▍    | 6059/11074 [51:48<41:18,  2.02it/s] 55%|█████▍    | 6060/11074 [51:48<41:21,  2.02it/s] 55%|█████▍    | 6061/11074 [51:49<41:19,  2.02it/s] 55%|█████▍    | 6062/11074 [51:49<41:18,  2.02it/s] 55%|█████▍    | 6063/11074 [51:50<41:18,  2.02it/s] 55%|█████▍    | 6064/11074 [51:50<41:16,  2.02it/s] 55%|█████▍    | 6065/11074 [51:51<41:17,  2.02it/s] 55%|█████▍    | 6066/11074 [51:51<41:13,  2.02it/s] 55%|█████▍    | 6067/11074 [51:52<41:15,  2.02it/s] 55%|█████▍    | 6068/11074 [51:52<41:13,  2.02it/s] 55%|█████▍    | 6069/11074 [51:53<41:13,  2.02it/s] 55%|█████▍    | 6070/11074 [51:53<41:11,  2.02it/s] 55%|█████▍    | 6071/11074 [51:54<41:10,  2.03it/s] 55%|█████▍    | 6072/11074 [51:54<41:11,  2.02it/s] 55%|█████▍    | 6073/11074 [51:55<41:12,  2.02it/s] 55%|█████▍    | 6074/11074 [51:55<41:12,  2.02it/s] 55%|█████▍    | 6075/11074 [51:56<41:10,  2.02it/s]{'loss': 3.4361, 'grad_norm': 0.23015685379505157, 'learning_rate': 0.0005025218377153053, 'epoch': 7.68}
-                                                     55%|█████▍    | 6075/11074 [51:56<41:10,  2.02it/s] 55%|█████▍    | 6076/11074 [51:56<41:12,  2.02it/s] 55%|█████▍    | 6077/11074 [51:57<41:13,  2.02it/s] 55%|█████▍    | 6078/11074 [51:57<41:10,  2.02it/s] 55%|█████▍    | 6079/11074 [51:58<41:10,  2.02it/s] 55%|█████▍    | 6080/11074 [51:58<41:08,  2.02it/s] 55%|█████▍    | 6081/11074 [51:59<41:11,  2.02it/s] 55%|█████▍    | 6082/11074 [51:59<41:08,  2.02it/s] 55%|█████▍    | 6083/11074 [52:00<41:05,  2.02it/s] 55%|█████▍    | 6084/11074 [52:00<41:07,  2.02it/s] 55%|█████▍    | 6085/11074 [52:01<41:06,  2.02it/s] 55%|█████▍    | 6086/11074 [52:01<41:07,  2.02it/s] 55%|█████▍    | 6087/11074 [52:02<41:05,  2.02it/s] 55%|█████▍    | 6088/11074 [52:02<41:08,  2.02it/s] 55%|█████▍    | 6089/11074 [52:03<41:08,  2.02it/s] 55%|█████▍    | 6090/11074 [52:03<41:05,  2.02it/s] 55%|█████▌    | 6091/11074 [52:04<41:03,  2.02it/s] 55%|█████▌    | 6092/11074 [52:04<41:03,  2.02it/s] 55%|█████▌    | 6093/11074 [52:05<41:03,  2.02it/s] 55%|█████▌    | 6094/11074 [52:05<41:02,  2.02it/s] 55%|█████▌    | 6095/11074 [52:06<41:01,  2.02it/s] 55%|█████▌    | 6096/11074 [52:06<40:58,  2.02it/s] 55%|█████▌    | 6097/11074 [52:07<40:59,  2.02it/s] 55%|█████▌    | 6098/11074 [52:07<41:00,  2.02it/s] 55%|█████▌    | 6099/11074 [52:08<41:00,  2.02it/s] 55%|█████▌    | 6100/11074 [52:08<41:01,  2.02it/s]{'loss': 3.4363, 'grad_norm': 0.22342325747013092, 'learning_rate': 0.0004985814621737803, 'epoch': 7.71}                                                    
- 55%|█████▌    | 6100/11074 [52:08<41:01,  2.02it/s] 55%|█████▌    | 6101/11074 [52:09<41:03,  2.02it/s] 55%|█████▌    | 6102/11074 [52:09<41:08,  2.01it/s] 55%|█████▌    | 6103/11074 [52:10<41:02,  2.02it/s] 55%|█████▌    | 6104/11074 [52:10<41:02,  2.02it/s] 55%|█████▌    | 6105/11074 [52:11<40:59,  2.02it/s] 55%|█████▌    | 6106/11074 [52:11<41:00,  2.02it/s] 55%|█████▌    | 6107/11074 [52:12<40:57,  2.02it/s] 55%|█████▌    | 6108/11074 [52:12<40:58,  2.02it/s] 55%|█████▌    | 6109/11074 [52:13<40:55,  2.02it/s] 55%|█████▌    | 6110/11074 [52:13<40:55,  2.02it/s] 55%|█████▌    | 6111/11074 [52:13<40:52,  2.02it/s] 55%|█████▌    | 6112/11074 [52:14<40:52,  2.02it/s] 55%|█████▌    | 6113/11074 [52:14<40:53,  2.02it/s] 55%|█████▌    | 6114/11074 [52:15<40:51,  2.02it/s] 55%|█████▌    | 6115/11074 [52:15<40:51,  2.02it/s] 55%|█████▌    | 6116/11074 [52:16<40:50,  2.02it/s] 55%|█████▌    | 6117/11074 [52:16<40:50,  2.02it/s] 55%|█████▌    | 6118/11074 [52:17<40:46,  2.03it/s] 55%|█████▌    | 6119/11074 [52:17<40:47,  2.02it/s] 55%|█████▌    | 6120/11074 [52:18<40:44,  2.03it/s] 55%|█████▌    | 6121/11074 [52:18<40:45,  2.03it/s] 55%|█████▌    | 6122/11074 [52:19<40:45,  2.02it/s] 55%|█████▌    | 6123/11074 [52:19<40:45,  2.02it/s] 55%|█████▌    | 6124/11074 [52:20<40:47,  2.02it/s] 55%|█████▌    | 6125/11074 [52:20<40:46,  2.02it/s]{'loss': 3.4307, 'grad_norm': 0.22170762717723846, 'learning_rate': 0.0004946411747324098, 'epoch': 7.74}
-                                                     55%|█████▌    | 6125/11074 [52:20<40:46,  2.02it/s] 55%|█████▌    | 6126/11074 [52:21<40:48,  2.02it/s] 55%|█████▌    | 6127/11074 [52:21<40:43,  2.02it/s] 55%|█████▌    | 6128/11074 [52:22<40:46,  2.02it/s] 55%|█████▌    | 6129/11074 [52:22<40:43,  2.02it/s] 55%|█████▌    | 6130/11074 [52:23<40:44,  2.02it/s] 55%|█████▌    | 6131/11074 [52:23<40:41,  2.02it/s] 55%|█████▌    | 6132/11074 [52:24<40:42,  2.02it/s] 55%|█████▌    | 6133/11074 [52:24<40:38,  2.03it/s] 55%|█████▌    | 6134/11074 [52:25<40:41,  2.02it/s] 55%|█████▌    | 6135/11074 [52:25<40:41,  2.02it/s] 55%|█████▌    | 6136/11074 [52:26<40:41,  2.02it/s] 55%|█████▌    | 6137/11074 [52:26<40:40,  2.02it/s] 55%|█████▌    | 6138/11074 [52:27<40:39,  2.02it/s] 55%|█████▌    | 6139/11074 [52:27<40:38,  2.02it/s] 55%|█████▌    | 6140/11074 [52:28<40:37,  2.02it/s] 55%|█████▌    | 6141/11074 [52:28<40:37,  2.02it/s] 55%|█████▌    | 6142/11074 [52:29<40:34,  2.03it/s] 55%|█████▌    | 6143/11074 [52:29<40:36,  2.02it/s] 55%|█████▌    | 6144/11074 [52:30<40:33,  2.03it/s] 55%|█████▌    | 6145/11074 [52:30<40:34,  2.02it/s] 55%|█████▌    | 6146/11074 [52:31<40:35,  2.02it/s] 56%|█████▌    | 6147/11074 [52:31<40:33,  2.02it/s] 56%|█████▌    | 6148/11074 [52:32<40:36,  2.02it/s] 56%|█████▌    | 6149/11074 [52:32<40:34,  2.02it/s] 56%|█████▌    | 6150/11074 [52:33<40:34,  2.02it/s]{'loss': 3.4409, 'grad_norm': 0.2267332375049591, 'learning_rate': 0.00049070122010792, 'epoch': 7.77}
-                                                     56%|█████▌    | 6150/11074 [52:33<40:34,  2.02it/s] 56%|█████▌    | 6151/11074 [52:33<40:35,  2.02it/s] 56%|█████▌    | 6152/11074 [52:34<40:34,  2.02it/s] 56%|█████▌    | 6153/11074 [52:34<40:31,  2.02it/s] 56%|█████▌    | 6154/11074 [52:35<40:32,  2.02it/s] 56%|█████▌    | 6155/11074 [52:35<40:29,  2.02it/s] 56%|█████▌    | 6156/11074 [52:36<40:38,  2.02it/s] 56%|█████▌    | 6157/11074 [52:36<40:38,  2.02it/s] 56%|█████▌    | 6158/11074 [52:37<40:39,  2.02it/s] 56%|█████▌    | 6159/11074 [52:37<40:39,  2.01it/s] 56%|█████▌    | 6160/11074 [52:38<40:35,  2.02it/s] 56%|█████▌    | 6161/11074 [52:38<40:31,  2.02it/s] 56%|█████▌    | 6162/11074 [52:39<40:31,  2.02it/s] 56%|█████▌    | 6163/11074 [52:39<40:29,  2.02it/s] 56%|█████▌    | 6164/11074 [52:40<40:30,  2.02it/s] 56%|█████▌    | 6165/11074 [52:40<40:27,  2.02it/s] 56%|█████▌    | 6166/11074 [52:41<40:27,  2.02it/s] 56%|█████▌    | 6167/11074 [52:41<40:28,  2.02it/s] 56%|█████▌    | 6168/11074 [52:42<40:29,  2.02it/s] 56%|█████▌    | 6169/11074 [52:42<40:27,  2.02it/s] 56%|█████▌    | 6170/11074 [52:43<40:28,  2.02it/s] 56%|█████▌    | 6171/11074 [52:43<40:25,  2.02it/s] 56%|█████▌    | 6172/11074 [52:44<40:26,  2.02it/s] 56%|█████▌    | 6173/11074 [52:44<40:24,  2.02it/s] 56%|█████▌    | 6174/11074 [52:45<40:24,  2.02it/s] 56%|█████▌    | 6175/11074 [52:45<40:23,  2.02it/s]{'loss': 3.4447, 'grad_norm': 0.22098205983638763, 'learning_rate': 0.0004867618429963669, 'epoch': 7.8}
-                                                     56%|█████▌    | 6175/11074 [52:45<40:23,  2.02it/s] 56%|█████▌    | 6176/11074 [52:46<40:23,  2.02it/s] 56%|█████▌    | 6177/11074 [52:46<40:25,  2.02it/s] 56%|█████▌    | 6178/11074 [52:47<40:26,  2.02it/s] 56%|█████▌    | 6179/11074 [52:47<40:22,  2.02it/s] 56%|█████▌    | 6180/11074 [52:48<40:22,  2.02it/s] 56%|█████▌    | 6181/11074 [52:48<40:21,  2.02it/s] 56%|█████▌    | 6182/11074 [52:49<40:20,  2.02it/s] 56%|█████▌    | 6183/11074 [52:49<40:18,  2.02it/s] 56%|█████▌    | 6184/11074 [52:50<40:18,  2.02it/s] 56%|█████▌    | 6185/11074 [52:50<40:17,  2.02it/s] 56%|█████▌    | 6186/11074 [52:51<40:18,  2.02it/s] 56%|█████▌    | 6187/11074 [52:51<40:16,  2.02it/s] 56%|█████▌    | 6188/11074 [52:52<40:16,  2.02it/s] 56%|█████▌    | 6189/11074 [52:52<40:15,  2.02it/s] 56%|█████▌    | 6190/11074 [52:53<40:17,  2.02it/s] 56%|█████▌    | 6191/11074 [52:53<40:13,  2.02it/s] 56%|█████▌    | 6192/11074 [52:54<40:13,  2.02it/s] 56%|█████▌    | 6193/11074 [52:54<40:11,  2.02it/s] 56%|█████▌    | 6194/11074 [52:55<40:11,  2.02it/s] 56%|█████▌    | 6195/11074 [52:55<40:09,  2.02it/s] 56%|█████▌    | 6196/11074 [52:56<40:08,  2.03it/s] 56%|█████▌    | 6197/11074 [52:56<40:09,  2.02it/s] 56%|█████▌    | 6198/11074 [52:57<40:05,  2.03it/s] 56%|█████▌    | 6199/11074 [52:57<40:06,  2.03it/s] 56%|█████▌    | 6200/11074 [52:58<40:05,  2.03it/s]                                                    {'loss': 3.4424, 'grad_norm': 0.22015869617462158, 'learning_rate': 0.00048282328805793927, 'epoch': 7.83}
- 56%|█████▌    | 6200/11074 [52:58<40:05,  2.03it/s] 56%|█████▌    | 6201/11074 [52:58<40:12,  2.02it/s] 56%|█████▌    | 6202/11074 [52:58<40:09,  2.02it/s] 56%|█████▌    | 6203/11074 [52:59<40:09,  2.02it/s] 56%|█████▌    | 6204/11074 [52:59<40:08,  2.02it/s] 56%|█████▌    | 6205/11074 [53:00<40:09,  2.02it/s] 56%|█████▌    | 6206/11074 [53:00<40:07,  2.02it/s] 56%|█████▌    | 6207/11074 [53:01<40:06,  2.02it/s] 56%|█████▌    | 6208/11074 [53:01<40:06,  2.02it/s] 56%|█████▌    | 6209/11074 [53:02<40:06,  2.02it/s] 56%|█████▌    | 6210/11074 [53:02<40:06,  2.02it/s] 56%|█████▌    | 6211/11074 [53:03<40:06,  2.02it/s] 56%|█████▌    | 6212/11074 [53:03<40:03,  2.02it/s] 56%|█████▌    | 6213/11074 [53:04<40:04,  2.02it/s] 56%|█████▌    | 6214/11074 [53:04<40:00,  2.02it/s] 56%|█████▌    | 6215/11074 [53:05<40:01,  2.02it/s] 56%|█████▌    | 6216/11074 [53:05<39:59,  2.02it/s] 56%|█████▌    | 6217/11074 [53:06<40:04,  2.02it/s] 56%|█████▌    | 6218/11074 [53:06<40:03,  2.02it/s] 56%|█████▌    | 6219/11074 [53:07<40:04,  2.02it/s] 56%|█████▌    | 6220/11074 [53:07<40:01,  2.02it/s] 56%|█████▌    | 6221/11074 [53:08<40:04,  2.02it/s] 56%|█████▌    | 6222/11074 [53:08<40:00,  2.02it/s] 56%|█████▌    | 6223/11074 [53:09<39:59,  2.02it/s] 56%|█████▌    | 6224/11074 [53:09<39:59,  2.02it/s] 56%|█████▌    | 6225/11074 [53:10<40:00,  2.02it/s]{'loss': 3.4469, 'grad_norm': 0.23351138830184937, 'learning_rate': 0.00047888579990176393, 'epoch': 7.86}
-                                                     56%|█████▌    | 6225/11074 [53:10<40:00,  2.02it/s] 56%|█████▌    | 6226/11074 [53:10<40:01,  2.02it/s] 56%|█████▌    | 6227/11074 [53:11<40:00,  2.02it/s] 56%|█████▌    | 6228/11074 [53:11<39:58,  2.02it/s] 56%|█████▌    | 6229/11074 [53:12<39:56,  2.02it/s] 56%|█████▋    | 6230/11074 [53:12<39:54,  2.02it/s] 56%|█████▋    | 6231/11074 [53:13<39:54,  2.02it/s] 56%|█████▋    | 6232/11074 [53:13<39:54,  2.02it/s] 56%|█████▋    | 6233/11074 [53:14<39:53,  2.02it/s] 56%|█████▋    | 6234/11074 [53:14<39:54,  2.02it/s] 56%|█████▋    | 6235/11074 [53:15<39:53,  2.02it/s] 56%|█████▋    | 6236/11074 [53:15<39:53,  2.02it/s] 56%|█████▋    | 6237/11074 [53:16<39:52,  2.02it/s] 56%|█████▋    | 6238/11074 [53:16<39:53,  2.02it/s] 56%|█████▋    | 6239/11074 [53:17<39:51,  2.02it/s] 56%|█████▋    | 6240/11074 [53:17<39:52,  2.02it/s] 56%|█████▋    | 6241/11074 [53:18<39:49,  2.02it/s] 56%|█████▋    | 6242/11074 [53:18<39:51,  2.02it/s] 56%|█████▋    | 6243/11074 [53:19<39:48,  2.02it/s] 56%|█████▋    | 6244/11074 [53:19<39:49,  2.02it/s] 56%|█████▋    | 6245/11074 [53:20<39:47,  2.02it/s] 56%|█████▋    | 6246/11074 [53:20<39:50,  2.02it/s] 56%|█████▋    | 6247/11074 [53:21<39:47,  2.02it/s] 56%|█████▋    | 6248/11074 [53:21<39:46,  2.02it/s] 56%|█████▋    | 6249/11074 [53:22<39:44,  2.02it/s] 56%|█████▋    | 6250/11074 [53:22<39:46,  2.02it/s]{'loss': 3.4401, 'grad_norm': 0.21938441693782806, 'learning_rate': 0.0004749496230707135, 'epoch': 7.9}                                                    
- 56%|█████▋    | 6250/11074 [53:22<39:46,  2.02it/s] 56%|█████▋    | 6251/11074 [53:23<39:46,  2.02it/s] 56%|█████▋    | 6252/11074 [53:23<39:49,  2.02it/s] 56%|█████▋    | 6253/11074 [53:24<39:45,  2.02it/s] 56%|█████▋    | 6254/11074 [53:24<39:45,  2.02it/s] 56%|█████▋    | 6255/11074 [53:25<39:41,  2.02it/s] 56%|█████▋    | 6256/11074 [53:25<39:41,  2.02it/s] 57%|█████▋    | 6257/11074 [53:26<39:39,  2.02it/s] 57%|█████▋    | 6258/11074 [53:26<39:42,  2.02it/s] 57%|█████▋    | 6259/11074 [53:27<39:39,  2.02it/s] 57%|█████▋    | 6260/11074 [53:27<39:41,  2.02it/s] 57%|█████▋    | 6261/11074 [53:28<39:37,  2.02it/s] 57%|█████▋    | 6262/11074 [53:28<39:38,  2.02it/s] 57%|█████▋    | 6263/11074 [53:29<39:38,  2.02it/s] 57%|█████▋    | 6264/11074 [53:29<39:37,  2.02it/s] 57%|█████▋    | 6265/11074 [53:30<39:36,  2.02it/s] 57%|█████▋    | 6266/11074 [53:30<39:38,  2.02it/s] 57%|█████▋    | 6267/11074 [53:31<39:37,  2.02it/s] 57%|█████▋    | 6268/11074 [53:31<39:38,  2.02it/s] 57%|█████▋    | 6269/11074 [53:32<39:37,  2.02it/s] 57%|█████▋    | 6270/11074 [53:32<39:37,  2.02it/s] 57%|█████▋    | 6271/11074 [53:33<39:35,  2.02it/s] 57%|█████▋    | 6272/11074 [53:33<39:33,  2.02it/s] 57%|█████▋    | 6273/11074 [53:34<39:32,  2.02it/s] 57%|█████▋    | 6274/11074 [53:34<39:31,  2.02it/s] 57%|█████▋    | 6275/11074 [53:35<39:35,  2.02it/s]{'loss': 3.4476, 'grad_norm': 0.215606689453125, 'learning_rate': 0.00047101500202621934, 'epoch': 7.93}
-                                                     57%|█████▋    | 6275/11074 [53:35<39:35,  2.02it/s] 57%|█████▋    | 6276/11074 [53:35<39:43,  2.01it/s] 57%|█████▋    | 6277/11074 [53:36<39:37,  2.02it/s] 57%|█████▋    | 6278/11074 [53:36<39:35,  2.02it/s] 57%|█████▋    | 6279/11074 [53:37<39:33,  2.02it/s] 57%|█████▋    | 6280/11074 [53:37<39:33,  2.02it/s] 57%|█████▋    | 6281/11074 [53:38<39:33,  2.02it/s] 57%|█████▋    | 6282/11074 [53:38<39:33,  2.02it/s] 57%|█████▋    | 6283/11074 [53:39<39:30,  2.02it/s] 57%|█████▋    | 6284/11074 [53:39<39:30,  2.02it/s] 57%|█████▋    | 6285/11074 [53:40<39:30,  2.02it/s] 57%|█████▋    | 6286/11074 [53:40<39:30,  2.02it/s] 57%|█████▋    | 6287/11074 [53:41<39:28,  2.02it/s] 57%|█████▋    | 6288/11074 [53:41<39:26,  2.02it/s] 57%|█████▋    | 6289/11074 [53:42<39:24,  2.02it/s] 57%|█████▋    | 6290/11074 [53:42<39:24,  2.02it/s] 57%|█████▋    | 6291/11074 [53:43<39:23,  2.02it/s] 57%|█████▋    | 6292/11074 [53:43<39:22,  2.02it/s] 57%|█████▋    | 6293/11074 [53:44<39:22,  2.02it/s] 57%|█████▋    | 6294/11074 [53:44<39:20,  2.02it/s] 57%|█████▋    | 6295/11074 [53:45<39:23,  2.02it/s] 57%|█████▋    | 6296/11074 [53:45<39:22,  2.02it/s] 57%|█████▋    | 6297/11074 [53:45<39:23,  2.02it/s] 57%|█████▋    | 6298/11074 [53:46<39:21,  2.02it/s] 57%|█████▋    | 6299/11074 [53:46<39:22,  2.02it/s] 57%|█████▋    | 6300/11074 [53:47<39:18,  2.02it/s]{'loss': 3.446, 'grad_norm': 0.22482430934906006, 'learning_rate': 0.00046708218113308836, 'epoch': 7.96}
-                                                     57%|█████▋    | 6300/11074 [53:47<39:18,  2.02it/s] 57%|█████▋    | 6301/11074 [53:47<39:21,  2.02it/s] 57%|█████▋    | 6302/11074 [53:48<39:19,  2.02it/s] 57%|█████▋    | 6303/11074 [53:48<39:15,  2.03it/s] 57%|█████▋    | 6304/11074 [53:49<39:18,  2.02it/s] 57%|█████▋    | 6305/11074 [53:49<39:15,  2.02it/s] 57%|█████▋    | 6306/11074 [53:50<39:17,  2.02it/s] 57%|█████▋    | 6307/11074 [53:50<39:14,  2.02it/s] 57%|█████▋    | 6308/11074 [53:51<39:16,  2.02it/s] 57%|█████▋    | 6309/11074 [53:51<39:17,  2.02it/s] 57%|█████▋    | 6310/11074 [53:52<39:19,  2.02it/s] 57%|█████▋    | 6311/11074 [53:52<39:17,  2.02it/s] 57%|█████▋    | 6312/11074 [53:53<39:16,  2.02it/s] 57%|█████▋    | 6313/11074 [53:53<39:13,  2.02it/s] 57%|█████▋    | 6314/11074 [53:54<39:14,  2.02it/s] 57%|█████▋    | 6315/11074 [53:54<39:12,  2.02it/s] 57%|█████▋    | 6316/11074 [53:55<39:13,  2.02it/s] 57%|█████▋    | 6317/11074 [53:55<39:11,  2.02it/s] 57%|█████▋    | 6318/11074 [53:56<39:12,  2.02it/s] 57%|█████▋    | 6319/11074 [53:56<39:10,  2.02it/s] 57%|█████▋    | 6320/11074 [53:57<39:07,  2.02it/s] 57%|█████▋    | 6321/11074 [53:57<39:11,  2.02it/s] 57%|█████▋    | 6322/11074 [53:58<39:08,  2.02it/s] 57%|█████▋    | 6323/11074 [53:58<39:07,  2.02it/s] 57%|█████▋    | 6324/11074 [53:59<39:05,  2.03it/s] 57%|█████▋    | 6325/11074 [53:59<39:08,  2.02it/s]{'loss': 3.442, 'grad_norm': 0.21625582873821259, 'learning_rate': 0.0004631514046443271, 'epoch': 7.99}
-                                                     57%|█████▋    | 6325/11074 [53:59<39:08,  2.02it/s] 57%|█████▋    | 6326/11074 [54:00<39:08,  2.02it/s] 57%|█████▋    | 6327/11074 [54:00<39:09,  2.02it/s] 57%|█████▋    | 6328/11074 [54:01<39:07,  2.02it/s] 57%|█████▋    | 6329/11074 [54:01<39:07,  2.02it/s] 57%|█████▋    | 6330/11074 [54:02<39:07,  2.02it/s] 57%|█████▋    | 6331/11074 [54:02<39:08,  2.02it/s] 57%|█████▋    | 6332/11074 [54:03<38:43,  2.04it/s] 57%|█████▋    | 6333/11074 [54:15<5:13:09,  3.96s/it] 57%|█████▋    | 6334/11074 [54:15<3:50:55,  2.92s/it] 57%|█████▋    | 6335/11074 [54:16<2:53:17,  2.19s/it] 57%|█████▋    | 6336/11074 [54:16<2:13:04,  1.69s/it] 57%|█████▋    | 6337/11074 [54:17<1:44:59,  1.33s/it] 57%|█████▋    | 6338/11074 [54:17<1:28:26,  1.12s/it] 57%|█████▋    | 6339/11074 [54:18<1:13:58,  1.07it/s] 57%|█████▋    | 6340/11074 [54:18<1:03:35,  1.24it/s] 57%|█████▋    | 6341/11074 [54:19<56:11,  1.40it/s]   57%|█████▋    | 6342/11074 [54:19<51:04,  1.54it/s] 57%|█████▋    | 6343/11074 [54:20<47:27,  1.66it/s] 57%|█████▋    | 6344/11074 [54:20<44:56,  1.75it/s] 57%|█████▋    | 6345/11074 [54:21<43:08,  1.83it/s] 57%|█████▋    | 6346/11074 [54:21<41:54,  1.88it/s] 57%|█████▋    | 6347/11074 [54:22<40:59,  1.92it/s] 57%|█████▋    | 6348/11074 [54:22<40:21,  1.95it/s] 57%|█████▋    | 6349/11074 [54:23<39:55,  1.97it/s] 57%|█████▋    | 6350/11074 [54:23<39:43,  1.98it/s]{'loss': 3.3292, 'grad_norm': 0.22343750298023224, 'learning_rate': 0.00045922291668597107, 'epoch': 8.02}
-                                                     57%|█████▋    | 6350/11074 [54:23<39:43,  1.98it/s] 57%|█████▋    | 6351/11074 [54:24<39:31,  1.99it/s] 57%|█████▋    | 6352/11074 [54:24<39:21,  2.00it/s] 57%|█████▋    | 6353/11074 [54:25<39:13,  2.01it/s] 57%|█████▋    | 6354/11074 [54:25<39:08,  2.01it/s] 57%|█████▋    | 6355/11074 [54:26<39:06,  2.01it/s] 57%|█████▋    | 6356/11074 [54:26<39:02,  2.01it/s] 57%|█████▋    | 6357/11074 [54:27<39:03,  2.01it/s] 57%|█████▋    | 6358/11074 [54:27<38:56,  2.02it/s] 57%|█████▋    | 6359/11074 [54:28<38:54,  2.02it/s] 57%|█████▋    | 6360/11074 [54:28<38:50,  2.02it/s] 57%|█████▋    | 6361/11074 [54:29<38:51,  2.02it/s] 57%|█████▋    | 6362/11074 [54:29<38:48,  2.02it/s] 57%|█████▋    | 6363/11074 [54:30<38:50,  2.02it/s] 57%|█████▋    | 6364/11074 [54:30<38:48,  2.02it/s] 57%|█████▋    | 6365/11074 [54:31<38:46,  2.02it/s] 57%|█████▋    | 6366/11074 [54:31<38:47,  2.02it/s] 57%|█████▋    | 6367/11074 [54:32<38:46,  2.02it/s] 58%|█████▊    | 6368/11074 [54:32<38:46,  2.02it/s] 58%|█████▊    | 6369/11074 [54:33<38:44,  2.02it/s] 58%|█████▊    | 6370/11074 [54:33<38:46,  2.02it/s] 58%|█████▊    | 6371/11074 [54:34<38:43,  2.02it/s] 58%|█████▊    | 6372/11074 [54:34<38:45,  2.02it/s] 58%|█████▊    | 6373/11074 [54:35<38:41,  2.03it/s] 58%|█████▊    | 6374/11074 [54:35<38:44,  2.02it/s] 58%|█████▊    | 6375/11074 [54:36<38:42,  2.02it/s]{'loss': 3.3099, 'grad_norm': 0.22725610435009003, 'learning_rate': 0.00045529696124192416, 'epoch': 8.05}
-                                                     58%|█████▊    | 6375/11074 [54:36<38:42,  2.02it/s] 58%|█████▊    | 6376/11074 [54:36<38:45,  2.02it/s] 58%|█████▊    | 6377/11074 [54:37<38:42,  2.02it/s] 58%|█████▊    | 6378/11074 [54:37<38:39,  2.02it/s] 58%|█████▊    | 6379/11074 [54:38<38:38,  2.03it/s] 58%|█████▊    | 6380/11074 [54:38<38:36,  2.03it/s] 58%|█████▊    | 6381/11074 [54:39<38:38,  2.02it/s] 58%|█████▊    | 6382/11074 [54:39<38:35,  2.03it/s] 58%|█████▊    | 6383/11074 [54:40<38:36,  2.03it/s] 58%|█████▊    | 6384/11074 [54:40<38:35,  2.03it/s] 58%|█████▊    | 6385/11074 [54:41<38:35,  2.03it/s] 58%|█████▊    | 6386/11074 [54:41<38:40,  2.02it/s] 58%|█████▊    | 6387/11074 [54:42<38:41,  2.02it/s] 58%|█████▊    | 6388/11074 [54:42<38:38,  2.02it/s] 58%|█████▊    | 6389/11074 [54:43<38:37,  2.02it/s] 58%|█████▊    | 6390/11074 [54:43<38:34,  2.02it/s] 58%|█████▊    | 6391/11074 [54:44<38:34,  2.02it/s] 58%|█████▊    | 6392/11074 [54:44<38:34,  2.02it/s] 58%|█████▊    | 6393/11074 [54:45<38:32,  2.02it/s] 58%|█████▊    | 6394/11074 [54:45<38:33,  2.02it/s] 58%|█████▊    | 6395/11074 [54:46<38:31,  2.02it/s] 58%|█████▊    | 6396/11074 [54:46<38:32,  2.02it/s] 58%|█████▊    | 6397/11074 [54:47<38:30,  2.02it/s] 58%|█████▊    | 6398/11074 [54:47<41:56,  1.86it/s] 58%|█████���    | 6399/11074 [54:48<40:56,  1.90it/s] 58%|█████▊    | 6400/11074 [54:48<40:13,  1.94it/s]                                                    {'loss': 3.3061, 'grad_norm': 0.22684818506240845, 'learning_rate': 0.00045137378213880487, 'epoch': 8.09}
- 58%|█████▊    | 6400/11074 [54:48<40:13,  1.94it/s] 58%|█████▊    | 6401/11074 [54:49<39:45,  1.96it/s] 58%|█████▊    | 6402/11074 [54:49<39:22,  1.98it/s] 58%|█████▊    | 6403/11074 [54:50<39:06,  1.99it/s] 58%|█████▊    | 6404/11074 [54:50<38:55,  2.00it/s] 58%|█████▊    | 6405/11074 [54:51<38:48,  2.01it/s] 58%|█████▊    | 6406/11074 [54:51<38:41,  2.01it/s] 58%|█████▊    | 6407/11074 [54:52<38:36,  2.01it/s] 58%|█████▊    | 6408/11074 [54:52<38:32,  2.02it/s] 58%|█████▊    | 6409/11074 [54:53<38:33,  2.02it/s] 58%|█████▊    | 6410/11074 [54:53<38:33,  2.02it/s] 58%|█████▊    | 6411/11074 [54:54<38:28,  2.02it/s] 58%|█████▊    | 6412/11074 [54:54<38:29,  2.02it/s] 58%|█████▊    | 6413/11074 [54:55<38:26,  2.02it/s] 58%|█████▊    | 6414/11074 [54:55<38:27,  2.02it/s] 58%|█████▊    | 6415/11074 [54:56<38:25,  2.02it/s] 58%|█████▊    | 6416/11074 [54:56<38:24,  2.02it/s] 58%|█████▊    | 6417/11074 [54:57<38:23,  2.02it/s] 58%|█████▊    | 6418/11074 [54:57<38:22,  2.02it/s] 58%|█████▊    | 6419/11074 [54:58<38:22,  2.02it/s] 58%|█████▊    | 6420/11074 [54:58<38:22,  2.02it/s] 58%|█████▊    | 6421/11074 [54:59<38:22,  2.02it/s] 58%|█████▊    | 6422/11074 [54:59<38:20,  2.02it/s] 58%|█████▊    | 6423/11074 [55:00<38:18,  2.02it/s] 58%|█████▊    | 6424/11074 [55:00<38:15,  2.03it/s] 58%|█████▊    | 6425/11074 [55:01<38:17,  2.02it/s]{'loss': 3.3176, 'grad_norm': 0.22717179358005524, 'learning_rate': 0.00044745362303080354, 'epoch': 8.12}
-                                                     58%|█████▊    | 6425/11074 [55:01<38:17,  2.02it/s] 58%|█████▊    | 6426/11074 [55:01<38:22,  2.02it/s] 58%|█████▊    | 6427/11074 [55:02<38:21,  2.02it/s] 58%|█████▊    | 6428/11074 [55:02<38:19,  2.02it/s] 58%|█████▊    | 6429/11074 [55:03<38:16,  2.02it/s] 58%|█████▊    | 6430/11074 [55:03<38:13,  2.03it/s] 58%|█████▊    | 6431/11074 [55:04<38:14,  2.02it/s] 58%|█████▊    | 6432/11074 [55:04<38:12,  2.02it/s] 58%|█████▊    | 6433/11074 [55:05<38:11,  2.03it/s] 58%|█████▊    | 6434/11074 [55:05<38:11,  2.02it/s] 58%|█████▊    | 6435/11074 [55:06<38:10,  2.03it/s] 58%|█████▊    | 6436/11074 [55:06<38:11,  2.02it/s] 58%|█████▊    | 6437/11074 [55:07<38:08,  2.03it/s] 58%|█████▊    | 6438/11074 [55:07<38:10,  2.02it/s] 58%|█████▊    | 6439/11074 [55:08<38:09,  2.02it/s] 58%|█████▊    | 6440/11074 [55:08<38:07,  2.03it/s] 58%|█████▊    | 6441/11074 [55:09<38:07,  2.03it/s] 58%|█████▊    | 6442/11074 [55:09<38:09,  2.02it/s] 58%|█████▊    | 6443/11074 [55:10<38:09,  2.02it/s] 58%|█████▊    | 6444/11074 [55:10<38:10,  2.02it/s] 58%|█████▊    | 6445/11074 [55:11<38:09,  2.02it/s] 58%|█████▊    | 6446/11074 [55:11<38:08,  2.02it/s] 58%|█████▊    | 6447/11074 [55:12<38:06,  2.02it/s] 58%|█████▊    | 6448/11074 [55:12<38:07,  2.02it/s] 58%|█████▊    | 6449/11074 [55:13<38:06,  2.02it/s] 58%|█████▊    | 6450/11074 [55:13<38:06,  2.02it/s]{'loss': 3.3259, 'grad_norm': 0.22799476981163025, 'learning_rate': 0.00044353672738454953, 'epoch': 8.15}
-                                                     58%|█████▊    | 6450/11074 [55:13<38:06,  2.02it/s] 58%|█████▊    | 6451/11074 [55:14<38:06,  2.02it/s] 58%|█████▊    | 6452/11074 [55:14<38:07,  2.02it/s] 58%|█████▊    | 6453/11074 [55:15<38:06,  2.02it/s] 58%|█████▊    | 6454/11074 [55:15<38:03,  2.02it/s] 58%|█████▊    | 6455/11074 [55:15<38:04,  2.02it/s] 58%|█████▊    | 6456/11074 [55:16<38:03,  2.02it/s] 58%|█████▊    | 6457/11074 [55:16<38:03,  2.02it/s] 58%|█████▊    | 6458/11074 [55:17<38:02,  2.02it/s] 58%|█████▊    | 6459/11074 [55:17<37:59,  2.02it/s] 58%|█████▊    | 6460/11074 [55:18<38:00,  2.02it/s] 58%|█████▊    | 6461/11074 [55:18<37:58,  2.02it/s] 58%|█████▊    | 6462/11074 [55:19<37:59,  2.02it/s] 58%|█████▊    | 6463/11074 [55:19<37:59,  2.02it/s] 58%|█████▊    | 6464/11074 [55:20<37:57,  2.02it/s] 58%|█████▊    | 6465/11074 [55:20<37:57,  2.02it/s] 58%|█████▊    | 6466/11074 [55:21<37:56,  2.02it/s] 58%|█████▊    | 6467/11074 [55:21<37:54,  2.03it/s] 58%|█████▊    | 6468/11074 [55:22<37:56,  2.02it/s] 58%|█████▊    | 6469/11074 [55:22<37:53,  2.03it/s] 58%|█████▊    | 6470/11074 [55:23<37:56,  2.02it/s] 58%|█████▊    | 6471/11074 [55:23<37:53,  2.02it/s] 58%|█████▊    | 6472/11074 [55:24<37:50,  2.03it/s] 58%|█████▊    | 6473/11074 [55:24<37:52,  2.02it/s] 58%|█████▊    | 6474/11074 [55:25<37:52,  2.02it/s] 58%|█████▊    | 6475/11074 [55:25<37:53,  2.02it/s]{'loss': 3.3267, 'grad_norm': 0.22307640314102173, 'learning_rate': 0.0004396233384639907, 'epoch': 8.18}
-                                                     58%|█████▊    | 6475/11074 [55:25<37:53,  2.02it/s] 58%|█████▊    | 6476/11074 [55:26<37:52,  2.02it/s] 58%|█████▊    | 6477/11074 [55:26<37:53,  2.02it/s] 58%|█████▊    | 6478/11074 [55:27<37:51,  2.02it/s] 59%|█████▊    | 6479/11074 [55:27<37:52,  2.02it/s] 59%|█████▊    | 6480/11074 [55:28<37:53,  2.02it/s] 59%|█████▊    | 6481/11074 [55:28<37:51,  2.02it/s] 59%|█████▊    | 6482/11074 [55:29<37:49,  2.02it/s] 59%|█████▊    | 6483/11074 [55:29<37:48,  2.02it/s] 59%|█████▊    | 6484/11074 [55:30<37:47,  2.02it/s] 59%|█████▊    | 6485/11074 [55:30<37:48,  2.02it/s] 59%|█████▊    | 6486/11074 [55:31<37:47,  2.02it/s] 59%|█████▊    | 6487/11074 [55:31<37:45,  2.02it/s] 59%|█████▊    | 6488/11074 [55:32<37:46,  2.02it/s] 59%|█████▊    | 6489/11074 [55:32<37:47,  2.02it/s] 59%|█████▊    | 6490/11074 [55:33<37:44,  2.02it/s] 59%|█████▊    | 6491/11074 [55:33<37:44,  2.02it/s] 59%|█████▊    | 6492/11074 [55:34<37:40,  2.03it/s] 59%|█████▊    | 6493/11074 [55:34<37:42,  2.03it/s] 59%|█████▊    | 6494/11074 [55:35<37:40,  2.03it/s] 59%|█████▊    | 6495/11074 [55:35<37:42,  2.02it/s] 59%|█████▊    | 6496/11074 [55:36<37:41,  2.02it/s] 59%|█████▊    | 6497/11074 [55:36<37:40,  2.03it/s] 59%|█████▊    | 6498/11074 [55:37<37:38,  2.03it/s] 59%|█████▊    | 6499/11074 [55:37<37:36,  2.03it/s] 59%|█████▊    | 6500/11074 [55:38<37:38,  2.03it/s]{'loss': 3.3379, 'grad_norm': 0.2257000356912613, 'learning_rate': 0.0004357136993152854, 'epoch': 8.21}                                                    
- 59%|█████▊    | 6500/11074 [55:38<37:38,  2.03it/s] 59%|█████▊    | 6501/11074 [55:38<37:39,  2.02it/s] 59%|█████▊    | 6502/11074 [55:39<37:39,  2.02it/s] 59%|█████▊    | 6503/11074 [55:39<37:40,  2.02it/s] 59%|█████▊    | 6504/11074 [55:40<37:40,  2.02it/s] 59%|█████▊    | 6505/11074 [55:40<37:38,  2.02it/s] 59%|█████▉    | 6506/11074 [55:41<37:38,  2.02it/s] 59%|█████▉    | 6507/11074 [55:41<37:34,  2.03it/s] 59%|█████▉    | 6508/11074 [55:42<37:36,  2.02it/s] 59%|█████▉    | 6509/11074 [55:42<37:33,  2.03it/s] 59%|█████▉    | 6510/11074 [55:43<37:36,  2.02it/s] 59%|█████▉    | 6511/11074 [55:43<37:34,  2.02it/s] 59%|█████▉    | 6512/11074 [55:44<37:33,  2.02it/s] 59%|█████▉    | 6513/11074 [55:44<37:32,  2.02it/s] 59%|█████▉    | 6514/11074 [55:45<37:32,  2.02it/s] 59%|█████▉    | 6515/11074 [55:45<37:31,  2.02it/s] 59%|█████▉    | 6516/11074 [55:46<37:30,  2.03it/s] 59%|█████▉    | 6517/11074 [55:46<37:33,  2.02it/s] 59%|█████▉    | 6518/11074 [55:47<37:30,  2.02it/s] 59%|█████▉    | 6519/11074 [55:47<37:30,  2.02it/s] 59%|█████▉    | 6520/11074 [55:48<37:28,  2.03it/s] 59%|█████▉    | 6521/11074 [55:48<37:30,  2.02it/s] 59%|█████▉    | 6522/11074 [55:49<37:27,  2.03it/s] 59%|█████▉    | 6523/11074 [55:49<37:26,  2.03it/s] 59%|█████▉    | 6524/11074 [55:50<37:25,  2.03it/s] 59%|█████▉    | 6525/11074 [55:50<37:24,  2.03it/s]{'loss': 3.3345, 'grad_norm': 0.22320950031280518, 'learning_rate': 0.0004318080527517071, 'epoch': 8.24}
-                                                     59%|█████▉    | 6525/11074 [55:50<37:24,  2.03it/s] 59%|█████▉    | 6526/11074 [55:51<37:29,  2.02it/s] 59%|█████▉    | 6527/11074 [55:51<37:25,  2.02it/s] 59%|█████▉    | 6528/11074 [55:52<37:27,  2.02it/s] 59%|█████▉    | 6529/11074 [55:52<37:24,  2.03it/s] 59%|█████▉    | 6530/11074 [55:53<37:25,  2.02it/s] 59%|█████▉    | 6531/11074 [55:53<37:25,  2.02it/s] 59%|█████▉    | 6532/11074 [55:54<37:25,  2.02it/s] 59%|█████▉    | 6533/11074 [55:54<37:26,  2.02it/s] 59%|█████▉    | 6534/11074 [55:55<37:26,  2.02it/s] 59%|█████▉    | 6535/11074 [55:55<37:26,  2.02it/s] 59%|█████▉    | 6536/11074 [55:56<37:23,  2.02it/s] 59%|█████▉    | 6537/11074 [55:56<37:22,  2.02it/s] 59%|█████▉    | 6538/11074 [55:57<37:25,  2.02it/s] 59%|█████▉    | 6539/11074 [55:57<37:24,  2.02it/s] 59%|█████▉    | 6540/11074 [55:57<37:22,  2.02it/s] 59%|█████▉    | 6541/11074 [55:58<37:23,  2.02it/s] 59%|█████▉    | 6542/11074 [55:58<37:23,  2.02it/s] 59%|█████▉    | 6543/11074 [55:59<37:21,  2.02it/s] 59%|█████▉    | 6544/11074 [55:59<37:20,  2.02it/s] 59%|█████▉    | 6545/11074 [56:00<37:16,  2.02it/s] 59%|█████▉    | 6546/11074 [56:00<37:18,  2.02it/s] 59%|█████▉    | 6547/11074 [56:01<37:18,  2.02it/s] 59%|█████▉    | 6548/11074 [56:01<37:19,  2.02it/s] 59%|█████▉    | 6549/11074 [56:02<37:16,  2.02it/s] 59%|█████▉    | 6550/11074 [56:02<37:20,  2.02it/s]{'loss': 3.3404, 'grad_norm': 0.22427597641944885, 'learning_rate': 0.0004279066413385646, 'epoch': 8.28}                                                    
- 59%|█████▉    | 6550/11074 [56:02<37:20,  2.02it/s] 59%|█████▉    | 6551/11074 [56:03<37:19,  2.02it/s] 59%|█████▉    | 6552/11074 [56:03<37:19,  2.02it/s] 59%|█████▉    | 6553/11074 [56:04<37:15,  2.02it/s] 59%|█████▉    | 6554/11074 [56:04<37:16,  2.02it/s] 59%|█████▉    | 6555/11074 [56:05<37:12,  2.02it/s] 59%|█████▉    | 6556/11074 [56:05<37:13,  2.02it/s] 59%|█████▉    | 6557/11074 [56:06<37:11,  2.02it/s] 59%|█████▉    | 6558/11074 [56:06<37:12,  2.02it/s] 59%|█████▉    | 6559/11074 [56:07<37:12,  2.02it/s] 59%|█████▉    | 6560/11074 [56:07<37:11,  2.02it/s] 59%|█████▉    | 6561/11074 [56:08<37:11,  2.02it/s] 59%|█████▉    | 6562/11074 [56:08<37:13,  2.02it/s] 59%|█████▉    | 6563/11074 [56:09<37:11,  2.02it/s] 59%|█████▉    | 6564/11074 [56:09<37:11,  2.02it/s] 59%|█████▉    | 6565/11074 [56:10<37:10,  2.02it/s] 59%|█████▉    | 6566/11074 [56:10<37:12,  2.02it/s] 59%|█████▉    | 6567/11074 [56:11<37:08,  2.02it/s] 59%|█████▉    | 6568/11074 [56:11<37:05,  2.02it/s] 59%|█████▉    | 6569/11074 [56:12<37:06,  2.02it/s] 59%|█████▉    | 6570/11074 [56:12<37:04,  2.02it/s] 59%|█████▉    | 6571/11074 [56:13<37:06,  2.02it/s] 59%|█████▉    | 6572/11074 [56:13<37:03,  2.03it/s] 59%|█████▉    | 6573/11074 [56:14<37:05,  2.02it/s] 59%|█████▉    | 6574/11074 [56:14<37:05,  2.02it/s] 59%|█████▉    | 6575/11074 [56:15<37:05,  2.02it/s]                                                    {'loss': 3.3407, 'grad_norm': 0.2344975769519806, 'learning_rate': 0.0004240097073781374, 'epoch': 8.31}
- 59%|█████▉    | 6575/11074 [56:15<37:05,  2.02it/s] 59%|█████▉    | 6576/11074 [56:15<37:05,  2.02it/s] 59%|█████▉    | 6577/11074 [56:16<37:05,  2.02it/s] 59%|█████▉    | 6578/11074 [56:16<37:04,  2.02it/s] 59%|█████▉    | 6579/11074 [56:17<37:04,  2.02it/s] 59%|█████▉    | 6580/11074 [56:17<37:02,  2.02it/s] 59%|█████▉    | 6581/11074 [56:18<37:04,  2.02it/s] 59%|█████▉    | 6582/11074 [56:18<37:02,  2.02it/s] 59%|█████▉    | 6583/11074 [56:19<37:03,  2.02it/s] 59%|█████▉    | 6584/11074 [56:19<37:01,  2.02it/s] 59%|█████▉    | 6585/11074 [56:20<37:02,  2.02it/s] 59%|█████▉    | 6586/11074 [56:20<37:00,  2.02it/s] 59%|█████▉    | 6587/11074 [56:21<36:59,  2.02it/s] 59%|█████▉    | 6588/11074 [56:21<36:58,  2.02it/s] 59%|█████▉    | 6589/11074 [56:22<36:55,  2.02it/s] 60%|█████▉    | 6590/11074 [56:22<36:58,  2.02it/s] 60%|█████▉    | 6591/11074 [56:23<36:57,  2.02it/s] 60%|█████▉    | 6592/11074 [56:23<36:59,  2.02it/s] 60%|█████▉    | 6593/11074 [56:24<36:55,  2.02it/s] 60%|█████▉    | 6594/11074 [56:24<36:56,  2.02it/s] 60%|█████▉    | 6595/11074 [56:25<36:54,  2.02it/s] 60%|█████▉    | 6596/11074 [56:25<36:55,  2.02it/s] 60%|█████▉    | 6597/11074 [56:26<36:56,  2.02it/s] 60%|█████▉    | 6598/11074 [56:26<36:54,  2.02it/s] 60%|█████▉    | 6599/11074 [56:27<36:55,  2.02it/s] 60%|█████▉    | 6600/11074 [56:27<36:52,  2.02it/s]{'loss': 3.3498, 'grad_norm': 0.22194364666938782, 'learning_rate': 0.00042011749289462644, 'epoch': 8.34}
-                                                     60%|█████▉    | 6600/11074 [56:27<36:52,  2.02it/s] 60%|█████▉    | 6601/11074 [56:28<36:53,  2.02it/s] 60%|█████▉    | 6602/11074 [56:28<36:53,  2.02it/s] 60%|█████▉    | 6603/11074 [56:29<36:51,  2.02it/s] 60%|█████▉    | 6604/11074 [56:29<36:51,  2.02it/s] 60%|█████▉    | 6605/11074 [56:30<36:47,  2.02it/s] 60%|█████▉    | 6606/11074 [56:30<36:47,  2.02it/s] 60%|█████▉    | 6607/11074 [56:31<36:45,  2.03it/s] 60%|█████▉    | 6608/11074 [56:31<36:46,  2.02it/s] 60%|█████▉    | 6609/11074 [56:32<36:48,  2.02it/s] 60%|█████▉    | 6610/11074 [56:32<36:46,  2.02it/s] 60%|█████▉    | 6611/11074 [56:33<36:46,  2.02it/s] 60%|█████▉    | 6612/11074 [56:33<36:46,  2.02it/s] 60%|█████▉    | 6613/11074 [56:34<36:46,  2.02it/s] 60%|█████▉    | 6614/11074 [56:34<36:45,  2.02it/s] 60%|█████▉    | 6615/11074 [56:35<36:47,  2.02it/s] 60%|█████▉    | 6616/11074 [56:35<36:44,  2.02it/s] 60%|█████▉    | 6617/11074 [56:36<36:44,  2.02it/s] 60%|█████▉    | 6618/11074 [56:36<36:44,  2.02it/s] 60%|█████▉    | 6619/11074 [56:37<36:43,  2.02it/s] 60%|█████▉    | 6620/11074 [56:37<36:43,  2.02it/s] 60%|█████▉    | 6621/11074 [56:38<36:43,  2.02it/s] 60%|█████▉    | 6622/11074 [56:38<36:41,  2.02it/s] 60%|█████▉    | 6623/11074 [56:39<36:42,  2.02it/s] 60%|█████▉    | 6624/11074 [56:39<36:41,  2.02it/s] 60%|█████▉    | 6625/11074 [56:40<36:41,  2.02it/s]{'loss': 3.342, 'grad_norm': 0.23584336042404175, 'learning_rate': 0.00041623023961912366, 'epoch': 8.37}
-                                                     60%|█████▉    | 6625/11074 [56:40<36:41,  2.02it/s] 60%|█████▉    | 6626/11074 [56:40<36:42,  2.02it/s] 60%|█████▉    | 6627/11074 [56:41<36:40,  2.02it/s] 60%|█████▉    | 6628/11074 [56:41<36:36,  2.02it/s] 60%|█████▉    | 6629/11074 [56:42<36:37,  2.02it/s] 60%|█████▉    | 6630/11074 [56:42<36:35,  2.02it/s] 60%|█████▉    | 6631/11074 [56:43<36:36,  2.02it/s] 60%|█████▉    | 6632/11074 [56:43<36:35,  2.02it/s] 60%|█████▉    | 6633/11074 [56:43<36:32,  2.03it/s] 60%|█████▉    | 6634/11074 [56:44<36:33,  2.02it/s] 60%|█████▉    | 6635/11074 [56:44<36:32,  2.02it/s] 60%|█████▉    | 6636/11074 [56:45<36:33,  2.02it/s] 60%|█████▉    | 6637/11074 [56:45<36:30,  2.03it/s] 60%|█████▉    | 6638/11074 [56:46<36:32,  2.02it/s] 60%|█████▉    | 6639/11074 [56:46<36:30,  2.02it/s] 60%|█████▉    | 6640/11074 [56:47<36:31,  2.02it/s] 60%|█████▉    | 6641/11074 [56:47<36:28,  2.03it/s] 60%|█████▉    | 6642/11074 [56:48<36:29,  2.02it/s] 60%|█████▉    | 6643/11074 [56:48<36:28,  2.02it/s] 60%|█████▉    | 6644/11074 [56:49<36:27,  2.03it/s] 60%|██████    | 6645/11074 [56:49<36:29,  2.02it/s] 60%|██████    | 6646/11074 [56:50<36:27,  2.02it/s] 60%|██████    | 6647/11074 [56:50<36:27,  2.02it/s] 60%|██████    | 6648/11074 [56:51<36:25,  2.03it/s] 60%|██████    | 6649/11074 [56:51<36:27,  2.02it/s] 60%|██████    | 6650/11074 [56:52<36:23,  2.03it/s]{'loss': 3.3565, 'grad_norm': 0.23263058066368103, 'learning_rate': 0.0004123481889745987, 'epoch': 8.4}
-                                                     60%|██████    | 6650/11074 [56:52<36:23,  2.03it/s] 60%|██████    | 6651/11074 [56:52<36:26,  2.02it/s] 60%|██████    | 6652/11074 [56:53<36:25,  2.02it/s] 60%|██████    | 6653/11074 [56:53<36:26,  2.02it/s] 60%|██████    | 6654/11074 [56:54<36:25,  2.02it/s] 60%|██████    | 6655/11074 [56:54<36:28,  2.02it/s] 60%|██████    | 6656/11074 [56:55<36:25,  2.02it/s] 60%|██████    | 6657/11074 [56:55<36:25,  2.02it/s] 60%|██████    | 6658/11074 [56:56<36:23,  2.02it/s] 60%|██████    | 6659/11074 [56:56<36:23,  2.02it/s] 60%|██████    | 6660/11074 [56:57<36:22,  2.02it/s] 60%|██████    | 6661/11074 [56:57<36:23,  2.02it/s] 60%|██████    | 6662/11074 [56:58<36:20,  2.02it/s] 60%|██████    | 6663/11074 [56:58<36:19,  2.02it/s] 60%|██████    | 6664/11074 [56:59<36:20,  2.02it/s] 60%|██████    | 6665/11074 [56:59<36:19,  2.02it/s] 60%|██████    | 6666/11074 [57:00<36:19,  2.02it/s] 60%|██████    | 6667/11074 [57:00<36:18,  2.02it/s] 60%|██████    | 6668/11074 [57:01<36:19,  2.02it/s] 60%|██████    | 6669/11074 [57:01<36:18,  2.02it/s] 60%|██████    | 6670/11074 [57:02<36:19,  2.02it/s] 60%|██████    | 6671/11074 [57:02<36:16,  2.02it/s] 60%|██████    | 6672/11074 [57:03<36:17,  2.02it/s] 60%|██████    | 6673/11074 [57:03<36:15,  2.02it/s] 60%|██████    | 6674/11074 [57:04<36:14,  2.02it/s] 60%|██████    | 6675/11074 [57:04<36:14,  2.02it/s]                                                    {'loss': 3.3523, 'grad_norm': 0.24159778654575348, 'learning_rate': 0.00040847158206090494, 'epoch': 8.43}
- 60%|██████    | 6675/11074 [57:04<36:14,  2.02it/s] 60%|██████    | 6676/11074 [57:05<36:18,  2.02it/s] 60%|██████    | 6677/11074 [57:05<36:17,  2.02it/s] 60%|██████    | 6678/11074 [57:06<36:17,  2.02it/s] 60%|██████    | 6679/11074 [57:06<36:17,  2.02it/s] 60%|██████    | 6680/11074 [57:07<36:15,  2.02it/s] 60%|██████    | 6681/11074 [57:07<36:13,  2.02it/s] 60%|██████    | 6682/11074 [57:08<36:13,  2.02it/s] 60%|██████    | 6683/11074 [57:08<36:13,  2.02it/s] 60%|██████    | 6684/11074 [57:09<36:11,  2.02it/s] 60%|██████    | 6685/11074 [57:09<36:11,  2.02it/s] 60%|██████    | 6686/11074 [57:10<36:10,  2.02it/s] 60%|██████    | 6687/11074 [57:10<36:13,  2.02it/s] 60%|██████    | 6688/11074 [57:11<36:09,  2.02it/s] 60%|██████    | 6689/11074 [57:11<36:12,  2.02it/s] 60%|██████    | 6690/11074 [57:12<36:08,  2.02it/s] 60%|██████    | 6691/11074 [57:12<36:08,  2.02it/s] 60%|██████    | 6692/11074 [57:13<36:04,  2.02it/s] 60%|██████    | 6693/11074 [57:13<36:06,  2.02it/s] 60%|██████    | 6694/11074 [57:14<36:02,  2.03it/s] 60%|██████    | 6695/11074 [57:14<36:03,  2.02it/s] 60%|██████    | 6696/11074 [57:15<36:02,  2.02it/s] 60%|██████    | 6697/11074 [57:15<36:03,  2.02it/s] 60%|██████    | 6698/11074 [57:16<36:03,  2.02it/s] 60%|██████    | 6699/11074 [57:16<36:04,  2.02it/s] 61%|██████    | 6700/11074 [57:17<36:03,  2.02it/s]{'loss': 3.3539, 'grad_norm': 0.22557418048381805, 'learning_rate': 0.00040460065963980553, 'epoch': 8.46}
-                                                     61%|██████    | 6700/11074 [57:17<36:03,  2.02it/s] 61%|██████    | 6701/11074 [57:17<36:06,  2.02it/s] 61%|██████    | 6702/11074 [57:18<36:04,  2.02it/s] 61%|██████    | 6703/11074 [57:18<36:05,  2.02it/s] 61%|██████    | 6704/11074 [57:19<36:03,  2.02it/s] 61%|██████    | 6705/11074 [57:19<36:02,  2.02it/s] 61%|██████    | 6706/11074 [57:20<36:01,  2.02it/s] 61%|██████    | 6707/11074 [57:20<36:02,  2.02it/s] 61%|██████    | 6708/11074 [57:21<36:00,  2.02it/s] 61%|██████    | 6709/11074 [57:21<35:59,  2.02it/s] 61%|██████    | 6710/11074 [57:22<35:59,  2.02it/s] 61%|██████    | 6711/11074 [57:22<35:59,  2.02it/s] 61%|██████    | 6712/11074 [57:23<35:56,  2.02it/s] 61%|██████    | 6713/11074 [57:23<35:57,  2.02it/s] 61%|██████    | 6714/11074 [57:24<35:57,  2.02it/s] 61%|██████    | 6715/11074 [57:24<35:58,  2.02it/s] 61%|██████    | 6716/11074 [57:25<35:55,  2.02it/s] 61%|██████    | 6717/11074 [57:25<35:54,  2.02it/s] 61%|██████    | 6718/11074 [57:26<35:53,  2.02it/s] 61%|██████    | 6719/11074 [57:26<35:54,  2.02it/s] 61%|██████    | 6720/11074 [57:27<35:51,  2.02it/s] 61%|██████    | 6721/11074 [57:27<35:53,  2.02it/s] 61%|██████    | 6722/11074 [57:28<35:50,  2.02it/s] 61%|██████    | 6723/11074 [57:28<35:49,  2.02it/s] 61%|██████    | 6724/11074 [57:28<35:49,  2.02it/s] 61%|██████    | 6725/11074 [57:29<35:50,  2.02it/s]{'loss': 3.3676, 'grad_norm': 0.22192180156707764, 'learning_rate': 0.00040073566212002075, 'epoch': 8.5}
-                                                     61%|██████    | 6725/11074 [57:29<35:50,  2.02it/s] 61%|██████    | 6726/11074 [57:29<35:51,  2.02it/s] 61%|██████    | 6727/11074 [57:30<35:49,  2.02it/s] 61%|██████    | 6728/11074 [57:30<35:50,  2.02it/s] 61%|██████    | 6729/11074 [57:31<35:49,  2.02it/s] 61%|██████    | 6730/11074 [57:31<35:46,  2.02it/s] 61%|██████    | 6731/11074 [57:32<35:47,  2.02it/s] 61%|██████    | 6732/11074 [57:32<35:45,  2.02it/s] 61%|██████    | 6733/11074 [57:33<35:46,  2.02it/s] 61%|██████    | 6734/11074 [57:33<35:44,  2.02it/s] 61%|██████    | 6735/11074 [57:34<35:47,  2.02it/s] 61%|██████    | 6736/11074 [57:34<35:45,  2.02it/s] 61%|██████    | 6737/11074 [57:35<35:46,  2.02it/s] 61%|██████    | 6738/11074 [57:35<35:46,  2.02it/s] 61%|██████    | 6739/11074 [57:36<35:44,  2.02it/s] 61%|██████    | 6740/11074 [57:36<35:45,  2.02it/s] 61%|██████    | 6741/11074 [57:37<35:44,  2.02it/s] 61%|██████    | 6742/11074 [57:37<35:43,  2.02it/s] 61%|██████    | 6743/11074 [57:38<35:41,  2.02it/s] 61%|██████    | 6744/11074 [57:38<35:42,  2.02it/s] 61%|██████    | 6745/11074 [57:39<35:41,  2.02it/s] 61%|██████    | 6746/11074 [57:39<35:39,  2.02it/s] 61%|██████    | 6747/11074 [57:40<35:39,  2.02it/s] 61%|██████    | 6748/11074 [57:40<35:36,  2.02it/s] 61%|██████    | 6749/11074 [57:41<35:37,  2.02it/s] 61%|██████    | 6750/11074 [57:41<35:35,  2.02it/s]{'loss': 3.3597, 'grad_norm': 0.2214174121618271, 'learning_rate': 0.00039687682954229743, 'epoch': 8.53}
-                                                     61%|██████    | 6750/11074 [57:41<35:35,  2.02it/s] 61%|██████    | 6751/11074 [57:42<35:38,  2.02it/s] 61%|██████    | 6752/11074 [57:42<35:36,  2.02it/s] 61%|██████    | 6753/11074 [57:43<35:38,  2.02it/s] 61%|██████    | 6754/11074 [57:43<35:36,  2.02it/s] 61%|██████    | 6755/11074 [57:44<35:37,  2.02it/s] 61%|██████    | 6756/11074 [57:44<35:34,  2.02it/s] 61%|██████    | 6757/11074 [57:45<35:36,  2.02it/s] 61%|██████    | 6758/11074 [57:45<35:32,  2.02it/s] 61%|██████    | 6759/11074 [57:46<35:35,  2.02it/s] 61%|██████    | 6760/11074 [57:46<35:35,  2.02it/s] 61%|██████    | 6761/11074 [57:47<35:36,  2.02it/s] 61%|██████    | 6762/11074 [57:47<35:33,  2.02it/s] 61%|██████    | 6763/11074 [57:48<35:34,  2.02it/s] 61%|██████    | 6764/11074 [57:48<35:32,  2.02it/s] 61%|██████    | 6765/11074 [57:49<35:33,  2.02it/s] 61%|██████    | 6766/11074 [57:49<35:32,  2.02it/s] 61%|██████    | 6767/11074 [57:50<35:31,  2.02it/s] 61%|██████    | 6768/11074 [57:50<35:32,  2.02it/s] 61%|██████    | 6769/11074 [57:51<35:32,  2.02it/s] 61%|██████    | 6770/11074 [57:51<35:30,  2.02it/s] 61%|██████    | 6771/11074 [57:52<35:29,  2.02it/s] 61%|██████    | 6772/11074 [57:52<35:29,  2.02it/s] 61%|██████    | 6773/11074 [57:53<35:27,  2.02it/s] 61%|██████    | 6774/11074 [57:53<35:27,  2.02it/s] 61%|██████    | 6775/11074 [57:54<35:27,  2.02it/s]                                                    {'loss': 3.3656, 'grad_norm': 0.22992229461669922, 'learning_rate': 0.00039302440156450036, 'epoch': 8.56}
- 61%|██████    | 6775/11074 [57:54<35:27,  2.02it/s] 61%|██████    | 6776/11074 [57:54<35:28,  2.02it/s] 61%|██████    | 6777/11074 [57:55<35:28,  2.02it/s] 61%|██████    | 6778/11074 [57:55<35:25,  2.02it/s] 61%|██████    | 6779/11074 [57:56<35:25,  2.02it/s] 61%|██████    | 6780/11074 [57:56<35:24,  2.02it/s] 61%|██████    | 6781/11074 [57:57<35:23,  2.02it/s] 61%|██████    | 6782/11074 [57:57<35:20,  2.02it/s] 61%|██████▏   | 6783/11074 [57:58<35:21,  2.02it/s] 61%|██████▏   | 6784/11074 [57:58<35:22,  2.02it/s] 61%|██████▏   | 6785/11074 [57:59<35:22,  2.02it/s] 61%|██████▏   | 6786/11074 [57:59<35:20,  2.02it/s] 61%|██████▏   | 6787/11074 [58:00<35:20,  2.02it/s] 61%|██████▏   | 6788/11074 [58:00<35:18,  2.02it/s] 61%|██████▏   | 6789/11074 [58:01<35:20,  2.02it/s] 61%|██████▏   | 6790/11074 [58:01<35:17,  2.02it/s] 61%|██████▏   | 6791/11074 [58:02<35:17,  2.02it/s] 61%|██████▏   | 6792/11074 [58:02<35:16,  2.02it/s] 61%|██████▏   | 6793/11074 [58:03<35:17,  2.02it/s] 61%|██████▏   | 6794/11074 [58:03<35:16,  2.02it/s] 61%|██████▏   | 6795/11074 [58:04<35:17,  2.02it/s] 61%|██████▏   | 6796/11074 [58:04<35:15,  2.02it/s] 61%|██████▏   | 6797/11074 [58:05<35:14,  2.02it/s] 61%|██████▏   | 6798/11074 [58:05<35:14,  2.02it/s] 61%|██████▏   | 6799/11074 [58:06<35:12,  2.02it/s] 61%|██████▏   | 6800/11074 [58:06<35:12,  2.02it/s]                                                    {'loss': 3.3653, 'grad_norm': 0.22503212094306946, 'learning_rate': 0.00038917861744672803, 'epoch': 8.59}
- 61%|██████▏   | 6800/11074 [58:06<35:12,  2.02it/s] 61%|██████▏   | 6801/11074 [58:07<35:15,  2.02it/s] 61%|██████▏   | 6802/11074 [58:07<35:15,  2.02it/s] 61%|██████▏   | 6803/11074 [58:08<35:13,  2.02it/s] 61%|██████▏   | 6804/11074 [58:08<35:12,  2.02it/s] 61%|██████▏   | 6805/11074 [58:09<35:09,  2.02it/s] 61%|██████▏   | 6806/11074 [58:09<35:11,  2.02it/s] 61%|██████▏   | 6807/11074 [58:10<35:08,  2.02it/s] 61%|██████▏   | 6808/11074 [58:10<35:10,  2.02it/s] 61%|██████▏   | 6809/11074 [58:11<35:07,  2.02it/s] 61%|██████▏   | 6810/11074 [58:11<35:09,  2.02it/s] 62%|██████▏   | 6811/11074 [58:12<35:06,  2.02it/s] 62%|██████▏   | 6812/11074 [58:12<35:05,  2.02it/s] 62%|██████▏   | 6813/11074 [58:13<35:05,  2.02it/s] 62%|██████▏   | 6814/11074 [58:13<35:05,  2.02it/s] 62%|██████▏   | 6815/11074 [58:14<35:05,  2.02it/s] 62%|██████▏   | 6816/11074 [58:14<35:05,  2.02it/s] 62%|██████▏   | 6817/11074 [58:15<35:06,  2.02it/s] 62%|██████▏   | 6818/11074 [58:15<35:05,  2.02it/s] 62%|██████▏   | 6819/11074 [58:15<35:07,  2.02it/s] 62%|██████▏   | 6820/11074 [58:16<35:04,  2.02it/s] 62%|██████▏   | 6821/11074 [58:16<35:04,  2.02it/s] 62%|██████▏   | 6822/11074 [58:17<35:03,  2.02it/s] 62%|██████▏   | 6823/11074 [58:17<35:03,  2.02it/s] 62%|██████▏   | 6824/11074 [58:18<35:02,  2.02it/s] 62%|██████▏   | 6825/11074 [58:18<35:02,  2.02it/s]{'loss': 3.368, 'grad_norm': 0.22349414229393005, 'learning_rate': 0.00038533971603645366, 'epoch': 8.62}
-                                                     62%|██████▏   | 6825/11074 [58:18<35:02,  2.02it/s] 62%|██████▏   | 6826/11074 [58:19<35:03,  2.02it/s] 62%|██████▏   | 6827/11074 [58:19<35:04,  2.02it/s] 62%|██████▏   | 6828/11074 [58:20<35:01,  2.02it/s] 62%|██████▏   | 6829/11074 [58:20<35:01,  2.02it/s] 62%|██████▏   | 6830/11074 [58:21<34:58,  2.02it/s] 62%|██████▏   | 6831/11074 [58:21<34:59,  2.02it/s] 62%|██████▏   | 6832/11074 [58:22<34:58,  2.02it/s] 62%|██████▏   | 6833/11074 [58:22<34:56,  2.02it/s] 62%|██████▏   | 6834/11074 [58:23<34:56,  2.02it/s] 62%|██████▏   | 6835/11074 [58:23<34:56,  2.02it/s] 62%|██████▏   | 6836/11074 [58:24<34:57,  2.02it/s] 62%|██████▏   | 6837/11074 [58:24<34:55,  2.02it/s] 62%|██████▏   | 6838/11074 [58:25<34:56,  2.02it/s] 62%|██████▏   | 6839/11074 [58:25<34:55,  2.02it/s] 62%|██████▏   | 6840/11074 [58:26<34:55,  2.02it/s] 62%|██████▏   | 6841/11074 [58:26<34:54,  2.02it/s] 62%|██████▏   | 6842/11074 [58:27<34:53,  2.02it/s] 62%|██████▏   | 6843/11074 [58:27<34:55,  2.02it/s] 62%|██████▏   | 6844/11074 [58:28<34:53,  2.02it/s] 62%|██████▏   | 6845/11074 [58:28<34:52,  2.02it/s] 62%|██████▏   | 6846/11074 [58:29<34:50,  2.02it/s] 62%|██████▏   | 6847/11074 [58:29<34:49,  2.02it/s] 62%|██████▏   | 6848/11074 [58:30<34:47,  2.02it/s] 62%|██████▏   | 6849/11074 [58:30<34:46,  2.02it/s] 62%|██████▏   | 6850/11074 [58:31<34:46,  2.02it/s]                                                    {'loss': 3.3679, 'grad_norm': 0.22241181135177612, 'learning_rate': 0.00038150793575369063, 'epoch': 8.65}
- 62%|██████▏   | 6850/11074 [58:31<34:46,  2.02it/s] 62%|██████▏   | 6851/11074 [58:31<34:49,  2.02it/s] 62%|██████▏   | 6852/11074 [58:32<34:48,  2.02it/s] 62%|██████▏   | 6853/11074 [58:32<34:45,  2.02it/s] 62%|██████▏   | 6854/11074 [58:33<34:45,  2.02it/s] 62%|██████▏   | 6855/11074 [58:33<34:44,  2.02it/s] 62%|██████▏   | 6856/11074 [58:34<34:46,  2.02it/s] 62%|██████▏   | 6857/11074 [58:34<34:43,  2.02it/s] 62%|██████▏   | 6858/11074 [58:35<34:44,  2.02it/s] 62%|██████▏   | 6859/11074 [58:35<34:41,  2.03it/s] 62%|██████▏   | 6860/11074 [58:36<34:41,  2.02it/s] 62%|██████▏   | 6861/11074 [58:36<34:40,  2.02it/s] 62%|██████▏   | 6862/11074 [58:37<34:39,  2.03it/s] 62%|██████▏   | 6863/11074 [58:37<34:40,  2.02it/s] 62%|██████▏   | 6864/11074 [58:38<34:41,  2.02it/s] 62%|██████▏   | 6865/11074 [58:38<34:41,  2.02it/s] 62%|██████▏   | 6866/11074 [58:39<34:44,  2.02it/s] 62%|██████▏   | 6867/11074 [58:39<34:44,  2.02it/s] 62%|██████▏   | 6868/11074 [58:40<34:43,  2.02it/s] 62%|██████▏   | 6869/11074 [58:40<34:42,  2.02it/s] 62%|██████▏   | 6870/11074 [58:41<34:41,  2.02it/s] 62%|██████▏   | 6871/11074 [58:41<34:37,  2.02it/s] 62%|██████▏   | 6872/11074 [58:42<34:38,  2.02it/s] 62%|██████▏   | 6873/11074 [58:42<34:35,  2.02it/s] 62%|██████▏   | 6874/11074 [58:43<34:36,  2.02it/s] 62%|██████▏   | 6875/11074 [58:43<34:34,  2.02it/s]                                                    {'loss': 3.3735, 'grad_norm': 0.23530688881874084, 'learning_rate': 0.0003776835145761854, 'epoch': 8.69}
- 62%|██████▏   | 6875/11074 [58:43<34:34,  2.02it/s] 62%|██████▏   | 6876/11074 [58:44<34:36,  2.02it/s] 62%|██████▏   | 6877/11074 [58:44<34:35,  2.02it/s] 62%|██████▏   | 6878/11074 [58:45<34:35,  2.02it/s] 62%|██████▏   | 6879/11074 [58:45<34:35,  2.02it/s] 62%|██████▏   | 6880/11074 [58:46<34:34,  2.02it/s] 62%|██████▏   | 6881/11074 [58:46<34:35,  2.02it/s] 62%|██████▏   | 6882/11074 [58:47<34:34,  2.02it/s] 62%|██████▏   | 6883/11074 [58:47<34:33,  2.02it/s] 62%|██████▏   | 6884/11074 [58:48<34:31,  2.02it/s] 62%|██████▏   | 6885/11074 [58:48<34:32,  2.02it/s] 62%|██████▏   | 6886/11074 [58:49<34:29,  2.02it/s] 62%|██████▏   | 6887/11074 [58:49<34:30,  2.02it/s] 62%|██████▏   | 6888/11074 [58:50<34:28,  2.02it/s] 62%|██████▏   | 6889/11074 [58:50<34:28,  2.02it/s] 62%|██████▏   | 6890/11074 [58:51<34:28,  2.02it/s] 62%|██████▏   | 6891/11074 [58:51<34:27,  2.02it/s] 62%|██████▏   | 6892/11074 [58:52<34:26,  2.02it/s] 62%|██████▏   | 6893/11074 [58:52<34:25,  2.02it/s] 62%|██████▏   | 6894/11074 [58:53<34:25,  2.02it/s] 62%|██████▏   | 6895/11074 [58:53<34:25,  2.02it/s] 62%|██████▏   | 6896/11074 [58:54<34:24,  2.02it/s] 62%|██████▏   | 6897/11074 [58:54<34:24,  2.02it/s] 62%|██████▏   | 6898/11074 [58:55<34:24,  2.02it/s] 62%|██████▏   | 6899/11074 [58:55<34:20,  2.03it/s] 62%|██████▏   | 6900/11074 [58:56<34:21,  2.02it/s]{'loss': 3.3663, 'grad_norm': 0.23676970601081848, 'learning_rate': 0.0003738666900246377, 'epoch': 8.72}
-                                                     62%|██████▏   | 6900/11074 [58:56<34:21,  2.02it/s] 62%|██████▏   | 6901/11074 [58:56<34:21,  2.02it/s] 62%|██████▏   | 6902/11074 [58:57<34:23,  2.02it/s] 62%|██████▏   | 6903/11074 [58:57<34:21,  2.02it/s] 62%|██████▏   | 6904/11074 [58:58<34:21,  2.02it/s] 62%|██████▏   | 6905/11074 [58:58<34:18,  2.03it/s] 62%|██████▏   | 6906/11074 [58:59<34:20,  2.02it/s] 62%|██████▏   | 6907/11074 [58:59<34:16,  2.03it/s] 62%|██████▏   | 6908/11074 [58:59<34:17,  2.03it/s] 62%|██████▏   | 6909/11074 [59:00<34:16,  2.03it/s] 62%|██████▏   | 6910/11074 [59:00<34:14,  2.03it/s] 62%|██████▏   | 6911/11074 [59:01<34:15,  2.03it/s] 62%|██████▏   | 6912/11074 [59:01<34:15,  2.02it/s] 62%|██████▏   | 6913/11074 [59:02<34:16,  2.02it/s] 62%|██████▏   | 6914/11074 [59:02<34:14,  2.02it/s] 62%|██████▏   | 6915/11074 [59:03<34:16,  2.02it/s] 62%|██████▏   | 6916/11074 [59:03<34:13,  2.02it/s] 62%|██████▏   | 6917/11074 [59:04<34:16,  2.02it/s] 62%|██████▏   | 6918/11074 [59:04<34:12,  2.02it/s] 62%|██████▏   | 6919/11074 [59:05<34:14,  2.02it/s] 62%|██████▏   | 6920/11074 [59:05<34:11,  2.02it/s] 62%|██████▏   | 6921/11074 [59:06<34:11,  2.02it/s] 63%|██████▎   | 6922/11074 [59:06<34:10,  2.03it/s] 63%|██████▎   | 6923/11074 [59:07<34:10,  2.02it/s] 63%|██████▎   | 6924/11074 [59:07<34:09,  2.02it/s] 63%|██████▎   | 6925/11074 [59:08<34:08,  2.03it/s]{'loss': 3.3664, 'grad_norm': 0.22845487296581268, 'learning_rate': 0.0003700576991479486, 'epoch': 8.75}
-                                                     63%|██████▎   | 6925/11074 [59:08<34:08,  2.03it/s] 63%|██████▎   | 6926/11074 [59:08<34:12,  2.02it/s] 63%|██████▎   | 6927/11074 [59:09<34:08,  2.02it/s] 63%|██████▎   | 6928/11074 [59:09<34:09,  2.02it/s] 63%|██████▎   | 6929/11074 [59:10<34:05,  2.03it/s] 63%|██████▎   | 6930/11074 [59:10<34:05,  2.03it/s] 63%|██████▎   | 6931/11074 [59:11<34:06,  2.02it/s] 63%|██████▎   | 6932/11074 [59:11<34:05,  2.03it/s] 63%|██████▎   | 6933/11074 [59:12<34:06,  2.02it/s] 63%|██████▎   | 6934/11074 [59:12<34:08,  2.02it/s] 63%|██████▎   | 6935/11074 [59:13<34:07,  2.02it/s] 63%|██████▎   | 6936/11074 [59:13<34:07,  2.02it/s] 63%|██████▎   | 6937/11074 [59:14<34:06,  2.02it/s] 63%|██████▎   | 6938/11074 [59:14<34:04,  2.02it/s] 63%|██████▎   | 6939/11074 [59:15<34:03,  2.02it/s] 63%|██████▎   | 6940/11074 [59:15<34:01,  2.02it/s] 63%|██████▎   | 6941/11074 [59:16<34:02,  2.02it/s] 63%|██████▎   | 6942/11074 [59:16<33:59,  2.03it/s] 63%|██████▎   | 6943/11074 [59:17<34:00,  2.02it/s] 63%|██████▎   | 6944/11074 [59:17<33:59,  2.03it/s] 63%|██████▎   | 6945/11074 [59:18<33:59,  2.02it/s] 63%|██████▎   | 6946/11074 [59:18<34:00,  2.02it/s] 63%|██████▎   | 6947/11074 [59:19<33:58,  2.02it/s] 63%|██████▎   | 6948/11074 [59:19<33:58,  2.02it/s] 63%|██████▎   | 6949/11074 [59:20<33:55,  2.03it/s] 63%|██████▎   | 6950/11074 [59:20<33:57,  2.02it/s]{'loss': 3.3747, 'grad_norm': 0.227634996175766, 'learning_rate': 0.00036625677850849874, 'epoch': 8.78}
-                                                     63%|██████▎   | 6950/11074 [59:20<33:57,  2.02it/s] 63%|██████▎   | 6951/11074 [59:21<34:05,  2.02it/s] 63%|██████▎   | 6952/11074 [59:21<34:02,  2.02it/s] 63%|██████▎   | 6953/11074 [59:22<33:59,  2.02it/s] 63%|██████▎   | 6954/11074 [59:22<33:58,  2.02it/s] 63%|██████▎   | 6955/11074 [59:23<33:57,  2.02it/s] 63%|██████▎   | 6956/11074 [59:23<33:57,  2.02it/s] 63%|██████▎   | 6957/11074 [59:24<33:54,  2.02it/s] 63%|██████▎   | 6958/11074 [59:24<33:53,  2.02it/s] 63%|██████▎   | 6959/11074 [59:25<33:52,  2.02it/s] 63%|██████▎   | 6960/11074 [59:25<33:55,  2.02it/s] 63%|██████▎   | 6961/11074 [59:26<33:52,  2.02it/s] 63%|██████▎   | 6962/11074 [59:26<33:52,  2.02it/s] 63%|██████▎   | 6963/11074 [59:27<33:51,  2.02it/s] 63%|██████▎   | 6964/11074 [59:27<33:51,  2.02it/s] 63%|██████▎   | 6965/11074 [59:28<33:50,  2.02it/s] 63%|██████▎   | 6966/11074 [59:28<33:50,  2.02it/s] 63%|██████▎   | 6967/11074 [59:29<33:50,  2.02it/s] 63%|██████▎   | 6968/11074 [59:29<33:50,  2.02it/s] 63%|██████▎   | 6969/11074 [59:30<33:49,  2.02it/s] 63%|██████▎   | 6970/11074 [59:30<33:49,  2.02it/s] 63%|██████▎   | 6971/11074 [59:31<33:49,  2.02it/s] 63%|██████▎   | 6972/11074 [59:31<33:49,  2.02it/s] 63%|██████▎   | 6973/11074 [59:32<33:49,  2.02it/s] 63%|██████▎   | 6974/11074 [59:32<36:43,  1.86it/s] 63%|██████▎   | 6975/11074 [59:33<35:51,  1.91it/s]                                                    {'loss': 3.3679, 'grad_norm': 0.22947275638580322, 'learning_rate': 0.00036246416416745573, 'epoch': 8.81}
- 63%|██████▎   | 6975/11074 [59:33<35:51,  1.91it/s] 63%|██████▎   | 6976/11074 [59:33<35:15,  1.94it/s] 63%|██████▎   | 6977/11074 [59:34<34:48,  1.96it/s] 63%|██████▎   | 6978/11074 [59:34<34:30,  1.98it/s] 63%|██████▎   | 6979/11074 [59:35<34:15,  1.99it/s] 63%|██████▎   | 6980/11074 [59:35<34:03,  2.00it/s] 63%|██████▎   | 6981/11074 [59:36<33:59,  2.01it/s] 63%|██████▎   | 6982/11074 [59:36<33:52,  2.01it/s] 63%|██████▎   | 6983/11074 [59:37<33:50,  2.01it/s] 63%|██████▎   | 6984/11074 [59:37<33:45,  2.02it/s] 63%|██████▎   | 6985/11074 [59:38<33:43,  2.02it/s] 63%|██████▎   | 6986/11074 [59:38<33:41,  2.02it/s] 63%|██████▎   | 6987/11074 [59:39<33:39,  2.02it/s] 63%|██████▎   | 6988/11074 [59:39<33:39,  2.02it/s] 63%|██████▎   | 6989/11074 [59:40<33:37,  2.02it/s] 63%|██████▎   | 6990/11074 [59:40<33:38,  2.02it/s] 63%|██████▎   | 6991/11074 [59:41<33:35,  2.03it/s] 63%|██████▎   | 6992/11074 [59:41<33:36,  2.02it/s] 63%|██████▎   | 6993/11074 [59:42<33:35,  2.02it/s] 63%|██████▎   | 6994/11074 [59:42<33:34,  2.02it/s] 63%|██████▎   | 6995/11074 [59:43<33:34,  2.02it/s] 63%|██████▎   | 6996/11074 [59:43<33:33,  2.03it/s] 63%|██████▎   | 6997/11074 [59:44<33:34,  2.02it/s] 63%|██████▎   | 6998/11074 [59:44<33:32,  2.02it/s] 63%|██████▎   | 6999/11074 [59:45<33:33,  2.02it/s] 63%|██████▎   | 7000/11074 [59:45<33:31,  2.03it/s]                                                    {'loss': 3.3742, 'grad_norm': 0.22470520436763763, 'learning_rate': 0.00035868009167011383, 'epoch': 8.84}
- 63%|██████▎   | 7000/11074 [59:45<33:31,  2.03it/s] 63%|██████▎   | 7001/11074 [59:46<33:35,  2.02it/s] 63%|██████▎   | 7002/11074 [59:46<33:33,  2.02it/s] 63%|██████▎   | 7003/11074 [59:47<33:34,  2.02it/s] 63%|██████▎   | 7004/11074 [59:47<33:33,  2.02it/s] 63%|██████▎   | 7005/11074 [59:48<33:32,  2.02it/s] 63%|██████▎   | 7006/11074 [59:48<33:31,  2.02it/s] 63%|██████▎   | 7007/11074 [59:49<33:32,  2.02it/s] 63%|██████▎   | 7008/11074 [59:49<33:30,  2.02it/s] 63%|██████▎   | 7009/11074 [59:50<33:30,  2.02it/s] 63%|██████▎   | 7010/11074 [59:50<33:27,  2.02it/s] 63%|██████▎   | 7011/11074 [59:51<33:28,  2.02it/s] 63%|██████▎   | 7012/11074 [59:51<33:25,  2.03it/s] 63%|██████▎   | 7013/11074 [59:52<33:25,  2.02it/s] 63%|██████▎   | 7014/11074 [59:52<33:24,  2.02it/s] 63%|██████▎   | 7015/11074 [59:53<33:22,  2.03it/s] 63%|██████▎   | 7016/11074 [59:53<33:24,  2.02it/s] 63%|██████▎   | 7017/11074 [59:54<33:22,  2.03it/s] 63%|██████▎   | 7018/11074 [59:54<33:22,  2.03it/s] 63%|██████▎   | 7019/11074 [59:55<33:22,  2.02it/s] 63%|██████▎   | 7020/11074 [59:55<33:24,  2.02it/s] 63%|██████▎   | 7021/11074 [59:55<33:21,  2.03it/s] 63%|██████▎   | 7022/11074 [59:56<33:22,  2.02it/s] 63%|██████▎   | 7023/11074 [59:56<33:21,  2.02it/s] 63%|██████▎   | 7024/11074 [59:57<33:21,  2.02it/s] 63%|██████▎   | 7025/11074 [59:57<33:20,  2.02it/s]                                                    {'loss': 3.3731, 'grad_norm': 0.22383926808834076, 'learning_rate': 0.00035490479603126495, 'epoch': 8.88}
- 63%|██████▎   | 7025/11074 [59:57<33:20,  2.02it/s] 63%|██████▎   | 7026/11074 [59:58<33:22,  2.02it/s] 63%|██████▎   | 7027/11074 [59:58<33:20,  2.02it/s] 63%|██████▎   | 7028/11074 [59:59<33:20,  2.02it/s] 63%|██████▎   | 7029/11074 [59:59<33:20,  2.02it/s] 63%|██████▎   | 7030/11074 [1:00:00<33:21,  2.02it/s] 63%|██████▎   | 7031/11074 [1:00:00<33:21,  2.02it/s] 64%|██████▎   | 7032/11074 [1:00:01<33:20,  2.02it/s] 64%|██████▎   | 7033/11074 [1:00:01<33:19,  2.02it/s] 64%|██████▎   | 7034/11074 [1:00:02<33:16,  2.02it/s] 64%|██████▎   | 7035/11074 [1:00:02<33:17,  2.02it/s] 64%|██████▎   | 7036/11074 [1:00:03<33:16,  2.02it/s] 64%|██████▎   | 7037/11074 [1:00:03<33:15,  2.02it/s] 64%|██████▎   | 7038/11074 [1:00:04<33:15,  2.02it/s] 64%|██████▎   | 7039/11074 [1:00:04<33:16,  2.02it/s] 64%|██████▎   | 7040/11074 [1:00:05<33:13,  2.02it/s] 64%|██████▎   | 7041/11074 [1:00:06<36:08,  1.86it/s] 64%|██████▎   | 7042/11074 [1:00:06<35:14,  1.91it/s] 64%|██████▎   | 7043/11074 [1:00:07<34:35,  1.94it/s] 64%|██████▎   | 7044/11074 [1:00:07<34:10,  1.97it/s] 64%|██████▎   | 7045/11074 [1:00:07<33:53,  1.98it/s] 64%|██████▎   | 7046/11074 [1:00:08<33:39,  1.99it/s] 64%|██████▎   | 7047/11074 [1:00:08<33:30,  2.00it/s] 64%|██████▎   | 7048/11074 [1:00:09<33:23,  2.01it/s] 64%|██████▎   | 7049/11074 [1:00:09<33:17,  2.01it/s] 64%|██████▎   | 7050/11074 [1:00:10<33:14,  2.02it/s]{'loss': 3.3742, 'grad_norm': 0.22696553170681, 'learning_rate': 0.00035113851172060266, 'epoch': 8.91}
-                                                       64%|██████▎   | 7050/11074 [1:00:10<33:14,  2.02it/s] 64%|██████▎   | 7051/11074 [1:00:10<33:15,  2.02it/s] 64%|██████▎   | 7052/11074 [1:00:11<33:12,  2.02it/s] 64%|██████▎   | 7053/11074 [1:00:11<33:09,  2.02it/s] 64%|██████▎   | 7054/11074 [1:00:12<33:09,  2.02it/s] 64%|██████▎   | 7055/11074 [1:00:12<33:08,  2.02it/s] 64%|██████▎   | 7056/11074 [1:00:13<33:07,  2.02it/s] 64%|██████▎   | 7057/11074 [1:00:13<33:06,  2.02it/s] 64%|██████▎   | 7058/11074 [1:00:14<33:05,  2.02it/s] 64%|██████▎   | 7059/11074 [1:00:14<33:02,  2.02it/s] 64%|██████▍   | 7060/11074 [1:00:15<33:03,  2.02it/s] 64%|██████▍   | 7061/11074 [1:00:15<33:01,  2.02it/s] 64%|██████▍   | 7062/11074 [1:00:16<33:01,  2.02it/s] 64%|██████▍   | 7063/11074 [1:00:16<33:01,  2.02it/s] 64%|██████▍   | 7064/11074 [1:00:17<33:01,  2.02it/s] 64%|██████▍   | 7065/11074 [1:00:17<33:01,  2.02it/s] 64%|██████▍   | 7066/11074 [1:00:18<33:01,  2.02it/s] 64%|██████▍   | 7067/11074 [1:00:18<33:01,  2.02it/s] 64%|██████▍   | 7068/11074 [1:00:19<33:01,  2.02it/s] 64%|██████▍   | 7069/11074 [1:00:19<32:59,  2.02it/s] 64%|██████▍   | 7070/11074 [1:00:20<32:59,  2.02it/s] 64%|██████▍   | 7071/11074 [1:00:20<32:59,  2.02it/s] 64%|██████▍   | 7072/11074 [1:00:21<33:00,  2.02it/s] 64%|██████▍   | 7073/11074 [1:00:21<32:59,  2.02it/s] 64%|██████▍   | 7074/11074 [1:00:22<32:58,  2.02it/s] 64%|██████▍   | 7075/11074 [1:00:22<32:57,  2.02it/s]                                                      {'loss': 3.3709, 'grad_norm': 0.22354719042778015, 'learning_rate': 0.0003473814726481599, 'epoch': 8.94}
- 64%|██████▍   | 7075/11074 [1:00:22<32:57,  2.02it/s] 64%|██████▍   | 7076/11074 [1:00:23<33:00,  2.02it/s] 64%|██████▍   | 7077/11074 [1:00:23<32:57,  2.02it/s] 64%|██████▍   | 7078/11074 [1:00:24<32:57,  2.02it/s] 64%|██████▍   | 7079/11074 [1:00:24<32:56,  2.02it/s] 64%|██████▍   | 7080/11074 [1:00:25<32:55,  2.02it/s] 64%|██████▍   | 7081/11074 [1:00:25<32:55,  2.02it/s] 64%|██████▍   | 7082/11074 [1:00:26<32:54,  2.02it/s] 64%|██████▍   | 7083/11074 [1:00:26<32:52,  2.02it/s] 64%|██████▍   | 7084/11074 [1:00:27<32:51,  2.02it/s] 64%|██████▍   | 7085/11074 [1:00:27<32:51,  2.02it/s] 64%|██████▍   | 7086/11074 [1:00:28<32:49,  2.03it/s] 64%|██████▍   | 7087/11074 [1:00:28<32:50,  2.02it/s] 64%|██████▍   | 7088/11074 [1:00:29<32:46,  2.03it/s] 64%|██████▍   | 7089/11074 [1:00:29<32:48,  2.02it/s] 64%|██████▍   | 7090/11074 [1:00:30<32:49,  2.02it/s] 64%|██████▍   | 7091/11074 [1:00:30<32:49,  2.02it/s] 64%|██████▍   | 7092/11074 [1:00:31<32:48,  2.02it/s] 64%|██████▍   | 7093/11074 [1:00:31<32:49,  2.02it/s] 64%|██████▍   | 7094/11074 [1:00:32<32:46,  2.02it/s] 64%|██████▍   | 7095/11074 [1:00:32<32:47,  2.02it/s] 64%|██████▍   | 7096/11074 [1:00:33<32:46,  2.02it/s] 64%|██████▍   | 7097/11074 [1:00:33<32:46,  2.02it/s] 64%|██████▍   | 7098/11074 [1:00:34<32:46,  2.02it/s] 64%|██████▍   | 7099/11074 [1:00:34<32:46,  2.02it/s] 64%|██████▍   | 7100/11074 [1:00:35<32:46,  2.02it/s]{'loss': 3.3739, 'grad_norm': 0.22911973297595978, 'learning_rate': 0.0003436339121497822, 'epoch': 8.97}
-                                                       64%|██████▍   | 7100/11074 [1:00:35<32:46,  2.02it/s] 64%|██████▍   | 7101/11074 [1:00:35<32:48,  2.02it/s] 64%|██████▍   | 7102/11074 [1:00:36<32:46,  2.02it/s] 64%|██████▍   | 7103/11074 [1:00:36<32:44,  2.02it/s] 64%|██████▍   | 7104/11074 [1:00:37<32:43,  2.02it/s] 64%|██████▍   | 7105/11074 [1:00:37<32:45,  2.02it/s] 64%|██████▍   | 7106/11074 [1:00:38<32:41,  2.02it/s] 64%|██████▍   | 7107/11074 [1:00:38<32:42,  2.02it/s] 64%|██████▍   | 7108/11074 [1:00:39<32:41,  2.02it/s] 64%|██████▍   | 7109/11074 [1:00:39<32:40,  2.02it/s] 64%|██████▍   | 7110/11074 [1:00:40<32:38,  2.02it/s] 64%|██████▍   | 7111/11074 [1:00:40<32:35,  2.03it/s] 64%|██████▍   | 7112/11074 [1:00:41<32:37,  2.02it/s] 64%|██████▍   | 7113/11074 [1:00:41<32:33,  2.03it/s] 64%|██████▍   | 7114/11074 [1:00:42<32:34,  2.03it/s] 64%|██████▍   | 7115/11074 [1:00:42<32:34,  2.03it/s] 64%|██████▍   | 7116/11074 [1:00:43<32:34,  2.02it/s] 64%|██████▍   | 7117/11074 [1:00:43<32:33,  2.03it/s] 64%|██████▍   | 7118/11074 [1:00:44<32:34,  2.02it/s] 64%|██████▍   | 7119/11074 [1:00:44<32:33,  2.02it/s] 64%|██████▍   | 7120/11074 [1:00:45<32:31,  2.03it/s] 64%|██████▍   | 7121/11074 [1:00:45<32:33,  2.02it/s] 64%|██████▍   | 7122/11074 [1:00:46<32:32,  2.02it/s] 64%|██████▍   | 7123/11074 [1:00:46<33:21,  1.97it/s] 64%|██████▍   | 7124/11074 [1:00:58<4:20:29,  3.96s/it] 64%|██████▍   | 7125/11074 [1:00:59<3:12:13,  2.92s/it]{'loss': 3.371, 'grad_norm': 0.2374652773141861, 'learning_rate': 0.00033989606297263575, 'epoch': 9.0}                                                        
- 64%|██████▍   | 7125/11074 [1:00:59<3:12:13,  2.92s/it] 64%|██████▍   | 7126/11074 [1:00:59<2:24:22,  2.19s/it] 64%|██████▍   | 7127/11074 [1:01:00<1:50:48,  1.68s/it] 64%|██████▍   | 7128/11074 [1:01:00<1:27:20,  1.33s/it] 64%|██████▍   | 7129/11074 [1:01:01<1:10:52,  1.08s/it] 64%|██████▍   | 7130/11074 [1:01:01<59:22,  1.11it/s]   64%|██████▍   | 7131/11074 [1:01:02<51:19,  1.28it/s] 64%|██████▍   | 7132/11074 [1:01:02<45:40,  1.44it/s] 64%|██████▍   | 7133/11074 [1:01:03<41:40,  1.58it/s] 64%|██████▍   | 7134/11074 [1:01:03<38:58,  1.68it/s] 64%|██████▍   | 7135/11074 [1:01:04<37:05,  1.77it/s] 64%|██████▍   | 7136/11074 [1:01:04<35:40,  1.84it/s] 64%|██████▍   | 7137/11074 [1:01:05<34:39,  1.89it/s] 64%|██████▍   | 7138/11074 [1:01:05<34:00,  1.93it/s] 64%|██████▍   | 7139/11074 [1:01:06<33:29,  1.96it/s] 64%|██████▍   | 7140/11074 [1:01:06<33:11,  1.98it/s] 64%|██████▍   | 7141/11074 [1:01:07<32:59,  1.99it/s] 64%|██████▍   | 7142/11074 [1:01:07<32:48,  2.00it/s] 65%|██████▍   | 7143/11074 [1:01:08<32:48,  2.00it/s] 65%|██████▍   | 7144/11074 [1:01:08<32:42,  2.00it/s] 65%|██████▍   | 7145/11074 [1:01:09<32:39,  2.01it/s] 65%|██████▍   | 7146/11074 [1:01:09<32:32,  2.01it/s] 65%|██████▍   | 7147/11074 [1:01:10<32:30,  2.01it/s] 65%|██████▍   | 7148/11074 [1:01:10<32:27,  2.02it/s] 65%|██████▍   | 7149/11074 [1:01:11<32:27,  2.02it/s] 65%|██████▍   | 7150/11074 [1:01:11<32:24,  2.02it/s]{'loss': 3.238, 'grad_norm': 0.23618361353874207, 'learning_rate': 0.00033616815726075246, 'epoch': 9.03}
-                                                       65%|██████▍   | 7150/11074 [1:01:11<32:24,  2.02it/s] 65%|██████▍   | 7151/11074 [1:01:11<32:32,  2.01it/s] 65%|██████▍   | 7152/11074 [1:01:12<32:28,  2.01it/s] 65%|██████▍   | 7153/11074 [1:01:12<32:23,  2.02it/s] 65%|██████▍   | 7154/11074 [1:01:13<32:21,  2.02it/s] 65%|██████▍   | 7155/11074 [1:01:13<32:18,  2.02it/s] 65%|██████▍   | 7156/11074 [1:01:14<32:18,  2.02it/s] 65%|██████▍   | 7157/11074 [1:01:14<32:15,  2.02it/s] 65%|██████▍   | 7158/11074 [1:01:15<32:15,  2.02it/s] 65%|██████▍   | 7159/11074 [1:01:15<32:13,  2.03it/s] 65%|██████▍   | 7160/11074 [1:01:16<32:12,  2.03it/s] 65%|██████▍   | 7161/11074 [1:01:16<32:11,  2.03it/s] 65%|██████▍   | 7162/11074 [1:01:17<32:08,  2.03it/s] 65%|██████▍   | 7163/11074 [1:01:17<32:09,  2.03it/s] 65%|██████▍   | 7164/11074 [1:01:18<32:08,  2.03it/s] 65%|██████▍   | 7165/11074 [1:01:18<32:09,  2.03it/s] 65%|██████▍   | 7166/11074 [1:01:19<32:07,  2.03it/s] 65%|██████▍   | 7167/11074 [1:01:19<32:08,  2.03it/s] 65%|██████▍   | 7168/11074 [1:01:20<32:08,  2.03it/s] 65%|██████▍   | 7169/11074 [1:01:20<32:06,  2.03it/s] 65%|██████▍   | 7170/11074 [1:01:21<32:06,  2.03it/s] 65%|██████▍   | 7171/11074 [1:01:21<32:05,  2.03it/s] 65%|██████▍   | 7172/11074 [1:01:22<32:08,  2.02it/s] 65%|██████▍   | 7173/11074 [1:01:22<32:06,  2.02it/s] 65%|██████▍   | 7174/11074 [1:01:23<32:06,  2.02it/s] 65%|██████▍   | 7175/11074 [1:01:23<32:05,  2.02it/s]                                                      {'loss': 3.2443, 'grad_norm': 0.22908008098602295, 'learning_rate': 0.000332450426540612, 'epoch': 9.07}
- 65%|██████▍   | 7175/11074 [1:01:23<32:05,  2.02it/s] 65%|██████▍   | 7176/11074 [1:01:24<32:07,  2.02it/s] 65%|██████▍   | 7177/11074 [1:01:24<32:06,  2.02it/s] 65%|██████▍   | 7178/11074 [1:01:25<32:04,  2.02it/s] 65%|██████▍   | 7179/11074 [1:01:25<32:04,  2.02it/s] 65%|██████▍   | 7180/11074 [1:01:26<32:01,  2.03it/s] 65%|██████▍   | 7181/11074 [1:01:26<32:03,  2.02it/s] 65%|██████▍   | 7182/11074 [1:01:27<32:00,  2.03it/s] 65%|██████▍   | 7183/11074 [1:01:27<32:01,  2.02it/s] 65%|██████▍   | 7184/11074 [1:01:28<31:59,  2.03it/s] 65%|██████▍   | 7185/11074 [1:01:28<32:00,  2.03it/s] 65%|██████▍   | 7186/11074 [1:01:29<31:59,  2.03it/s] 65%|██████▍   | 7187/11074 [1:01:29<31:57,  2.03it/s] 65%|██████▍   | 7188/11074 [1:01:30<31:59,  2.02it/s] 65%|██████▍   | 7189/11074 [1:01:30<32:00,  2.02it/s] 65%|██████▍   | 7190/11074 [1:01:31<32:00,  2.02it/s] 65%|██████▍   | 7191/11074 [1:01:31<31:57,  2.03it/s] 65%|██████▍   | 7192/11074 [1:01:32<31:57,  2.02it/s] 65%|██████▍   | 7193/11074 [1:01:32<31:55,  2.03it/s] 65%|██████▍   | 7194/11074 [1:01:33<31:55,  2.03it/s] 65%|██████▍   | 7195/11074 [1:01:33<31:53,  2.03it/s] 65%|██████▍   | 7196/11074 [1:01:34<31:52,  2.03it/s] 65%|██████▍   | 7197/11074 [1:01:34<31:53,  2.03it/s] 65%|██████▍   | 7198/11074 [1:01:35<31:53,  2.03it/s] 65%|██████▌   | 7199/11074 [1:01:35<31:53,  2.03it/s] 65%|██████▌   | 7200/11074 [1:01:36<31:52,  2.03it/s]{'loss': 3.2534, 'grad_norm': 0.2305447906255722, 'learning_rate': 0.0003287431017067631, 'epoch': 9.1}
-                                                       65%|██████▌   | 7200/11074 [1:01:36<31:52,  2.03it/s] 65%|██████▌   | 7201/11074 [1:01:36<31:57,  2.02it/s] 65%|██████▌   | 7202/11074 [1:01:37<31:54,  2.02it/s] 65%|██████▌   | 7203/11074 [1:01:37<31:54,  2.02it/s] 65%|██████▌   | 7204/11074 [1:01:38<31:53,  2.02it/s] 65%|██████▌   | 7205/11074 [1:01:38<31:54,  2.02it/s] 65%|██████▌   | 7206/11074 [1:01:39<31:54,  2.02it/s] 65%|██████▌   | 7207/11074 [1:01:39<31:52,  2.02it/s] 65%|██████▌   | 7208/11074 [1:01:40<31:50,  2.02it/s] 65%|██████▌   | 7209/11074 [1:01:40<31:50,  2.02it/s] 65%|██████▌   | 7210/11074 [1:01:41<31:50,  2.02it/s] 65%|██████▌   | 7211/11074 [1:01:41<31:50,  2.02it/s] 65%|██████▌   | 7212/11074 [1:01:42<31:49,  2.02it/s] 65%|██████▌   | 7213/11074 [1:01:42<31:49,  2.02it/s] 65%|██████▌   | 7214/11074 [1:01:43<31:49,  2.02it/s] 65%|██████▌   | 7215/11074 [1:01:43<31:48,  2.02it/s] 65%|██████▌   | 7216/11074 [1:01:44<31:47,  2.02it/s] 65%|██████▌   | 7217/11074 [1:01:44<31:47,  2.02it/s] 65%|██████▌   | 7218/11074 [1:01:45<31:47,  2.02it/s] 65%|██████▌   | 7219/11074 [1:01:45<31:46,  2.02it/s] 65%|██████▌   | 7220/11074 [1:01:46<31:45,  2.02it/s] 65%|██████▌   | 7221/11074 [1:01:46<31:44,  2.02it/s] 65%|██████▌   | 7222/11074 [1:01:47<31:44,  2.02it/s] 65%|██████▌   | 7223/11074 [1:01:47<31:44,  2.02it/s] 65%|██████▌   | 7224/11074 [1:01:48<31:44,  2.02it/s] 65%|██████▌   | 7225/11074 [1:01:48<31:43,  2.02it/s]{'loss': 3.2564, 'grad_norm': 0.23095867037773132, 'learning_rate': 0.00032504641300748314, 'epoch': 9.13}
-                                                       65%|██████▌   | 7225/11074 [1:01:48<31:43,  2.02it/s] 65%|██████▌   | 7226/11074 [1:01:49<31:44,  2.02it/s] 65%|██████▌   | 7227/11074 [1:01:49<31:41,  2.02it/s] 65%|██████▌   | 7228/11074 [1:01:50<31:41,  2.02it/s] 65%|██████▌   | 7229/11074 [1:01:50<31:38,  2.03it/s] 65%|██████▌   | 7230/11074 [1:01:51<31:39,  2.02it/s] 65%|██████▌   | 7231/11074 [1:01:51<31:36,  2.03it/s] 65%|██████▌   | 7232/11074 [1:01:52<31:37,  2.02it/s] 65%|██████▌   | 7233/11074 [1:01:52<31:37,  2.02it/s] 65%|██████▌   | 7234/11074 [1:01:53<31:36,  2.02it/s] 65%|██████▌   | 7235/11074 [1:01:53<31:36,  2.02it/s] 65%|██████▌   | 7236/11074 [1:01:53<31:34,  2.03it/s] 65%|██████▌   | 7237/11074 [1:01:54<31:34,  2.03it/s] 65%|██████▌   | 7238/11074 [1:01:54<31:34,  2.02it/s] 65%|██████▌   | 7239/11074 [1:01:55<31:35,  2.02it/s] 65%|██████▌   | 7240/11074 [1:01:55<31:33,  2.02it/s] 65%|██████▌   | 7241/11074 [1:01:56<31:33,  2.02it/s] 65%|██████▌   | 7242/11074 [1:01:56<31:33,  2.02it/s] 65%|██████▌   | 7243/11074 [1:01:57<31:33,  2.02it/s] 65%|██████▌   | 7244/11074 [1:01:57<31:32,  2.02it/s] 65%|██████▌   | 7245/11074 [1:01:58<31:33,  2.02it/s] 65%|██████▌   | 7246/11074 [1:01:58<31:32,  2.02it/s] 65%|██████▌   | 7247/11074 [1:01:59<31:30,  2.02it/s] 65%|██████▌   | 7248/11074 [1:01:59<31:30,  2.02it/s] 65%|██████▌   | 7249/11074 [1:02:00<31:27,  2.03it/s] 65%|██████▌   | 7250/11074 [1:02:00<31:28,  2.02it/s]{'loss': 3.2607, 'grad_norm': 0.23604585230350494, 'learning_rate': 0.00032136059003047833, 'epoch': 9.16}
-                                                       65%|██████▌   | 7250/11074 [1:02:00<31:28,  2.02it/s] 65%|██████▌   | 7251/11074 [1:02:01<31:30,  2.02it/s] 65%|██████▌   | 7252/11074 [1:02:01<31:29,  2.02it/s] 65%|██████▌   | 7253/11074 [1:02:02<31:27,  2.02it/s] 66%|██████▌   | 7254/11074 [1:02:02<31:24,  2.03it/s] 66%|██████▌   | 7255/11074 [1:02:03<31:25,  2.03it/s] 66%|██████▌   | 7256/11074 [1:02:03<31:23,  2.03it/s] 66%|██████▌   | 7257/11074 [1:02:04<31:23,  2.03it/s] 66%|██████▌   | 7258/11074 [1:02:04<31:22,  2.03it/s] 66%|██████▌   | 7259/11074 [1:02:05<31:23,  2.03it/s] 66%|██████▌   | 7260/11074 [1:02:05<31:28,  2.02it/s] 66%|██████▌   | 7261/11074 [1:02:06<31:26,  2.02it/s] 66%|██████▌   | 7262/11074 [1:02:06<31:23,  2.02it/s] 66%|██████▌   | 7263/11074 [1:02:07<31:22,  2.02it/s] 66%|██████▌   | 7264/11074 [1:02:07<31:20,  2.03it/s] 66%|██████▌   | 7265/11074 [1:02:08<31:21,  2.02it/s] 66%|██████▌   | 7266/11074 [1:02:08<31:20,  2.03it/s] 66%|██████▌   | 7267/11074 [1:02:09<31:20,  2.02it/s] 66%|██████▌   | 7268/11074 [1:02:09<31:18,  2.03it/s] 66%|██████▌   | 7269/11074 [1:02:10<31:18,  2.03it/s] 66%|██████▌   | 7270/11074 [1:02:10<31:18,  2.03it/s] 66%|██████▌   | 7271/11074 [1:02:11<31:16,  2.03it/s] 66%|██████▌   | 7272/11074 [1:02:11<31:17,  2.03it/s] 66%|██████▌   | 7273/11074 [1:02:12<31:16,  2.03it/s] 66%|██████▌   | 7274/11074 [1:02:12<31:17,  2.02it/s] 66%|██████▌   | 7275/11074 [1:02:13<31:15,  2.03it/s]                                                      {'loss': 3.2684, 'grad_norm': 0.23639388382434845, 'learning_rate': 0.00031768586168862524, 'epoch': 9.19}
- 66%|██████▌   | 7275/11074 [1:02:13<31:15,  2.03it/s] 66%|██████▌   | 7276/11074 [1:02:13<31:18,  2.02it/s] 66%|██████▌   | 7277/11074 [1:02:14<31:15,  2.02it/s] 66%|██████▌   | 7278/11074 [1:02:14<31:16,  2.02it/s] 66%|██████▌   | 7279/11074 [1:02:15<31:13,  2.03it/s] 66%|██████▌   | 7280/11074 [1:02:15<31:14,  2.02it/s] 66%|██████▌   | 7281/11074 [1:02:16<31:15,  2.02it/s] 66%|██████▌   | 7282/11074 [1:02:16<31:16,  2.02it/s] 66%|██████▌   | 7283/11074 [1:02:17<31:12,  2.02it/s] 66%|██████▌   | 7284/11074 [1:02:17<31:12,  2.02it/s] 66%|██████▌   | 7285/11074 [1:02:18<31:12,  2.02it/s] 66%|██████▌   | 7286/11074 [1:02:18<31:12,  2.02it/s] 66%|██████▌   | 7287/11074 [1:02:19<31:12,  2.02it/s] 66%|██████▌   | 7288/11074 [1:02:19<31:11,  2.02it/s] 66%|██████▌   | 7289/11074 [1:02:20<31:10,  2.02it/s] 66%|██████▌   | 7290/11074 [1:02:20<31:09,  2.02it/s] 66%|██████▌   | 7291/11074 [1:02:21<31:08,  2.02it/s] 66%|██████▌   | 7292/11074 [1:02:21<31:09,  2.02it/s] 66%|██████▌   | 7293/11074 [1:02:22<31:08,  2.02it/s] 66%|██████▌   | 7294/11074 [1:02:22<31:09,  2.02it/s] 66%|██████▌   | 7295/11074 [1:02:23<31:08,  2.02it/s] 66%|██████▌   | 7296/11074 [1:02:23<31:08,  2.02it/s] 66%|██████▌   | 7297/11074 [1:02:24<31:08,  2.02it/s] 66%|██████▌   | 7298/11074 [1:02:24<31:06,  2.02it/s] 66%|██████▌   | 7299/11074 [1:02:25<31:06,  2.02it/s] 66%|██████▌   | 7300/11074 [1:02:25<31:05,  2.02it/s]{'loss': 3.2719, 'grad_norm': 0.22805973887443542, 'learning_rate': 0.0003140224562057532, 'epoch': 9.22}
-                                                       66%|██████▌   | 7300/11074 [1:02:25<31:05,  2.02it/s] 66%|██████▌   | 7301/11074 [1:02:26<31:07,  2.02it/s] 66%|██████▌   | 7302/11074 [1:02:26<31:06,  2.02it/s] 66%|██████▌   | 7303/11074 [1:02:27<31:06,  2.02it/s] 66%|██████▌   | 7304/11074 [1:02:27<31:04,  2.02it/s] 66%|██████▌   | 7305/11074 [1:02:28<31:03,  2.02it/s] 66%|██████▌   | 7306/11074 [1:02:28<31:02,  2.02it/s] 66%|██████▌   | 7307/11074 [1:02:29<31:03,  2.02it/s] 66%|██████▌   | 7308/11074 [1:02:29<31:03,  2.02it/s] 66%|██████▌   | 7309/11074 [1:02:30<31:02,  2.02it/s] 66%|██████▌   | 7310/11074 [1:02:30<31:01,  2.02it/s] 66%|██████▌   | 7311/11074 [1:02:31<31:02,  2.02it/s] 66%|██████▌   | 7312/11074 [1:02:31<31:00,  2.02it/s] 66%|██████▌   | 7313/11074 [1:02:32<30:59,  2.02it/s] 66%|██████▌   | 7314/11074 [1:02:32<30:58,  2.02it/s] 66%|██████▌   | 7315/11074 [1:02:33<30:57,  2.02it/s] 66%|██████▌   | 7316/11074 [1:02:33<30:58,  2.02it/s] 66%|██████▌   | 7317/11074 [1:02:34<30:57,  2.02it/s] 66%|██████▌   | 7318/11074 [1:02:34<31:01,  2.02it/s] 66%|██████▌   | 7319/11074 [1:02:35<30:59,  2.02it/s] 66%|██████▌   | 7320/11074 [1:02:35<30:58,  2.02it/s] 66%|██████▌   | 7321/11074 [1:02:36<30:56,  2.02it/s] 66%|██████▌   | 7322/11074 [1:02:36<30:55,  2.02it/s] 66%|██████▌   | 7323/11074 [1:02:36<30:54,  2.02it/s] 66%|██████▌   | 7324/11074 [1:02:37<30:52,  2.02it/s] 66%|██████▌   | 7325/11074 [1:02:37<30:53,  2.02it/s]{'loss': 3.2819, 'grad_norm': 0.23239585757255554, 'learning_rate': 0.0003103706011024705, 'epoch': 9.25}
-                                                       66%|██████▌   | 7325/11074 [1:02:37<30:53,  2.02it/s] 66%|██████▌   | 7326/11074 [1:02:38<30:53,  2.02it/s] 66%|██████▌   | 7327/11074 [1:02:38<30:54,  2.02it/s] 66%|██████▌   | 7328/11074 [1:02:39<30:50,  2.02it/s] 66%|██████▌   | 7329/11074 [1:02:39<30:49,  2.02it/s] 66%|██████▌   | 7330/11074 [1:02:40<30:49,  2.02it/s] 66%|██████▌   | 7331/11074 [1:02:40<30:49,  2.02it/s] 66%|██████▌   | 7332/11074 [1:02:41<30:48,  2.02it/s] 66%|██████▌   | 7333/11074 [1:02:41<30:46,  2.03it/s] 66%|██████▌   | 7334/11074 [1:02:42<30:48,  2.02it/s] 66%|██████▌   | 7335/11074 [1:02:42<30:48,  2.02it/s] 66%|██████▌   | 7336/11074 [1:02:43<30:48,  2.02it/s] 66%|██████▋   | 7337/11074 [1:02:43<30:47,  2.02it/s] 66%|██████▋   | 7338/11074 [1:02:44<30:47,  2.02it/s] 66%|██████▋   | 7339/11074 [1:02:44<30:46,  2.02it/s] 66%|██████▋   | 7340/11074 [1:02:45<30:47,  2.02it/s] 66%|██████▋   | 7341/11074 [1:02:45<30:45,  2.02it/s] 66%|██████▋   | 7342/11074 [1:02:46<30:46,  2.02it/s] 66%|██████▋   | 7343/11074 [1:02:46<30:46,  2.02it/s] 66%|██████▋   | 7344/11074 [1:02:47<30:45,  2.02it/s] 66%|██████▋   | 7345/11074 [1:02:47<30:44,  2.02it/s] 66%|██████▋   | 7346/11074 [1:02:48<30:42,  2.02it/s] 66%|██████▋   | 7347/11074 [1:02:48<30:41,  2.02it/s] 66%|██████▋   | 7348/11074 [1:02:49<30:40,  2.02it/s] 66%|██████▋   | 7349/11074 [1:02:49<30:41,  2.02it/s] 66%|██████▋   | 7350/11074 [1:02:50<30:38,  2.03it/s]{'loss': 3.2731, 'grad_norm': 0.23187832534313202, 'learning_rate': 0.00030673052318203417, 'epoch': 9.29}
-                                                       66%|██████▋   | 7350/11074 [1:02:50<30:38,  2.03it/s] 66%|██████▋   | 7351/11074 [1:02:50<30:40,  2.02it/s] 66%|██████▋   | 7352/11074 [1:02:51<30:39,  2.02it/s] 66%|██████▋   | 7353/11074 [1:02:51<30:41,  2.02it/s] 66%|██████▋   | 7354/11074 [1:02:52<30:38,  2.02it/s] 66%|██████▋   | 7355/11074 [1:02:52<30:37,  2.02it/s] 66%|██████▋   | 7356/11074 [1:02:53<30:36,  2.03it/s] 66%|██████▋   | 7357/11074 [1:02:53<30:37,  2.02it/s] 66%|██████▋   | 7358/11074 [1:02:54<30:36,  2.02it/s] 66%|██████▋   | 7359/11074 [1:02:54<30:36,  2.02it/s] 66%|██████▋   | 7360/11074 [1:02:55<30:35,  2.02it/s] 66%|██████▋   | 7361/11074 [1:02:55<30:34,  2.02it/s] 66%|██████▋   | 7362/11074 [1:02:56<30:32,  2.03it/s] 66%|██████▋   | 7363/11074 [1:02:56<30:32,  2.03it/s] 66%|██████▋   | 7364/11074 [1:02:57<30:33,  2.02it/s] 67%|██████▋   | 7365/11074 [1:02:57<30:34,  2.02it/s] 67%|██████▋   | 7366/11074 [1:02:58<30:32,  2.02it/s] 67%|██████▋   | 7367/11074 [1:02:58<30:32,  2.02it/s] 67%|██████▋   | 7368/11074 [1:02:59<30:32,  2.02it/s] 67%|██████▋   | 7369/11074 [1:02:59<30:31,  2.02it/s] 67%|██████▋   | 7370/11074 [1:03:00<30:30,  2.02it/s] 67%|██████▋   | 7371/11074 [1:03:00<30:28,  2.03it/s] 67%|██████▋   | 7372/11074 [1:03:01<30:28,  2.02it/s] 67%|██████▋   | 7373/11074 [1:03:01<30:27,  2.02it/s] 67%|██████▋   | 7374/11074 [1:03:02<30:26,  2.03it/s] 67%|██████▋   | 7375/11074 [1:03:02<30:27,  2.02it/s]                                                      {'loss': 3.2916, 'grad_norm': 0.23099683225154877, 'learning_rate': 0.0003031024485162637, 'epoch': 9.32}
- 67%|██████▋   | 7375/11074 [1:03:02<30:27,  2.02it/s] 67%|██████▋   | 7376/11074 [1:03:03<30:31,  2.02it/s] 67%|██████▋   | 7377/11074 [1:03:03<30:29,  2.02it/s] 67%|██████▋   | 7378/11074 [1:03:04<30:29,  2.02it/s] 67%|██████▋   | 7379/11074 [1:03:04<30:28,  2.02it/s] 67%|██████▋   | 7380/11074 [1:03:05<30:29,  2.02it/s] 67%|██████▋   | 7381/11074 [1:03:05<30:26,  2.02it/s] 67%|██████▋   | 7382/11074 [1:03:06<30:25,  2.02it/s] 67%|██████▋   | 7383/11074 [1:03:06<30:25,  2.02it/s] 67%|██████▋   | 7384/11074 [1:03:07<30:24,  2.02it/s] 67%|██████▋   | 7385/11074 [1:03:07<30:23,  2.02it/s] 67%|██████▋   | 7386/11074 [1:03:08<30:22,  2.02it/s] 67%|██████▋   | 7387/11074 [1:03:08<30:21,  2.02it/s] 67%|██████▋   | 7388/11074 [1:03:09<30:21,  2.02it/s] 67%|██████▋   | 7389/11074 [1:03:09<30:23,  2.02it/s] 67%|██████▋   | 7390/11074 [1:03:10<30:22,  2.02it/s] 67%|██████▋   | 7391/11074 [1:03:10<30:19,  2.02it/s] 67%|██████▋   | 7392/11074 [1:03:11<30:20,  2.02it/s] 67%|██████▋   | 7393/11074 [1:03:11<30:16,  2.03it/s] 67%|██████▋   | 7394/11074 [1:03:12<30:17,  2.02it/s] 67%|██████▋   | 7395/11074 [1:03:12<30:17,  2.02it/s] 67%|██████▋   | 7396/11074 [1:03:13<30:16,  2.02it/s] 67%|██████▋   | 7397/11074 [1:03:13<30:15,  2.03it/s] 67%|██████▋   | 7398/11074 [1:03:14<30:15,  2.03it/s] 67%|██████▋   | 7399/11074 [1:03:14<30:15,  2.02it/s] 67%|██████▋   | 7400/11074 [1:03:15<30:16,  2.02it/s]{'loss': 3.2809, 'grad_norm': 0.23284220695495605, 'learning_rate': 0.00029948660243150096, 'epoch': 9.35}
-                                                       67%|██████▋   | 7400/11074 [1:03:15<30:16,  2.02it/s] 67%|██████▋   | 7401/11074 [1:03:15<30:16,  2.02it/s] 67%|██████▋   | 7402/11074 [1:03:16<30:16,  2.02it/s] 67%|██████▋   | 7403/11074 [1:03:16<30:13,  2.02it/s] 67%|██████▋   | 7404/11074 [1:03:17<30:14,  2.02it/s] 67%|██████▋   | 7405/11074 [1:03:17<30:13,  2.02it/s] 67%|██████▋   | 7406/11074 [1:03:18<30:13,  2.02it/s] 67%|██████▋   | 7407/11074 [1:03:18<30:11,  2.02it/s] 67%|██████▋   | 7408/11074 [1:03:19<30:11,  2.02it/s] 67%|██████▋   | 7409/11074 [1:03:19<30:09,  2.03it/s] 67%|██████▋   | 7410/11074 [1:03:19<30:06,  2.03it/s] 67%|██████▋   | 7411/11074 [1:03:20<30:09,  2.02it/s] 67%|██████▋   | 7412/11074 [1:03:20<30:07,  2.03it/s] 67%|██████▋   | 7413/11074 [1:03:21<30:08,  2.02it/s] 67%|██████▋   | 7414/11074 [1:03:21<30:05,  2.03it/s] 67%|██████▋   | 7415/11074 [1:03:22<30:06,  2.03it/s] 67%|██████▋   | 7416/11074 [1:03:22<30:05,  2.03it/s] 67%|██████▋   | 7417/11074 [1:03:23<30:05,  2.03it/s] 67%|██████▋   | 7418/11074 [1:03:23<30:04,  2.03it/s] 67%|██████▋   | 7419/11074 [1:03:24<30:05,  2.02it/s] 67%|██████▋   | 7420/11074 [1:03:24<30:03,  2.03it/s] 67%|██████▋   | 7421/11074 [1:03:25<30:01,  2.03it/s] 67%|██████▋   | 7422/11074 [1:03:25<30:03,  2.02it/s] 67%|██████▋   | 7423/11074 [1:03:26<30:06,  2.02it/s] 67%|██████▋   | 7424/11074 [1:03:26<30:05,  2.02it/s] 67%|██████▋   | 7425/11074 [1:03:27<30:01,  2.03it/s]{'loss': 3.2872, 'grad_norm': 0.24848097562789917, 'learning_rate': 0.0002958832094946151, 'epoch': 9.38}
-                                                       67%|██████▋   | 7425/11074 [1:03:27<30:01,  2.03it/s] 67%|██████▋   | 7426/11074 [1:03:27<30:03,  2.02it/s] 67%|██████▋   | 7427/11074 [1:03:28<30:01,  2.02it/s] 67%|██████▋   | 7428/11074 [1:03:28<30:02,  2.02it/s] 67%|██████▋   | 7429/11074 [1:03:29<30:00,  2.02it/s] 67%|██████▋   | 7430/11074 [1:03:29<30:01,  2.02it/s] 67%|██████▋   | 7431/11074 [1:03:30<29:58,  2.03it/s] 67%|██████▋   | 7432/11074 [1:03:30<30:01,  2.02it/s] 67%|██████▋   | 7433/11074 [1:03:31<29:58,  2.02it/s] 67%|██████▋   | 7434/11074 [1:03:31<29:59,  2.02it/s] 67%|██████▋   | 7435/11074 [1:03:32<29:57,  2.02it/s] 67%|██████▋   | 7436/11074 [1:03:32<29:57,  2.02it/s] 67%|██████▋   | 7437/11074 [1:03:33<29:56,  2.02it/s] 67%|██████▋   | 7438/11074 [1:03:33<29:58,  2.02it/s] 67%|██████▋   | 7439/11074 [1:03:34<29:56,  2.02it/s] 67%|██████▋   | 7440/11074 [1:03:34<29:57,  2.02it/s] 67%|██████▋   | 7441/11074 [1:03:35<29:55,  2.02it/s] 67%|██████▋   | 7442/11074 [1:03:35<29:54,  2.02it/s] 67%|██████▋   | 7443/11074 [1:03:36<29:54,  2.02it/s] 67%|██████▋   | 7444/11074 [1:03:36<29:50,  2.03it/s] 67%|██████▋   | 7445/11074 [1:03:37<29:51,  2.03it/s] 67%|██████▋   | 7446/11074 [1:03:37<29:50,  2.03it/s] 67%|██████▋   | 7447/11074 [1:03:38<29:50,  2.03it/s] 67%|██████▋   | 7448/11074 [1:03:38<29:49,  2.03it/s] 67%|██████▋   | 7449/11074 [1:03:39<29:46,  2.03it/s] 67%|██████▋   | 7450/11074 [1:03:39<29:48,  2.03it/s]{'loss': 3.296, 'grad_norm': 0.22972343862056732, 'learning_rate': 0.0002922924934990568, 'epoch': 9.41}
-                                                       67%|██████▋   | 7450/11074 [1:03:39<29:48,  2.03it/s] 67%|██████▋   | 7451/11074 [1:03:40<29:47,  2.03it/s] 67%|██████▋   | 7452/11074 [1:03:40<29:48,  2.03it/s] 67%|██████▋   | 7453/11074 [1:03:41<29:47,  2.03it/s] 67%|██████▋   | 7454/11074 [1:03:41<29:47,  2.03it/s] 67%|██████▋   | 7455/11074 [1:03:42<29:46,  2.03it/s] 67%|██████▋   | 7456/11074 [1:03:42<29:47,  2.02it/s] 67%|██████▋   | 7457/11074 [1:03:43<29:47,  2.02it/s] 67%|██████▋   | 7458/11074 [1:03:43<29:45,  2.03it/s] 67%|██████▋   | 7459/11074 [1:03:44<29:44,  2.03it/s] 67%|██████▋   | 7460/11074 [1:03:44<29:43,  2.03it/s] 67%|██████▋   | 7461/11074 [1:03:45<29:43,  2.03it/s] 67%|██████▋   | 7462/11074 [1:03:45<29:42,  2.03it/s] 67%|██████▋   | 7463/11074 [1:03:46<29:41,  2.03it/s] 67%|██████▋   | 7464/11074 [1:03:46<29:42,  2.03it/s] 67%|██████▋   | 7465/11074 [1:03:47<29:41,  2.03it/s] 67%|██████▋   | 7466/11074 [1:03:47<29:42,  2.02it/s] 67%|██████▋   | 7467/11074 [1:03:48<29:41,  2.03it/s] 67%|██████▋   | 7468/11074 [1:03:48<29:40,  2.02it/s] 67%|██████▋   | 7469/11074 [1:03:49<29:40,  2.03it/s] 67%|██████▋   | 7470/11074 [1:03:49<29:40,  2.02it/s] 67%|██████▋   | 7471/11074 [1:03:50<29:38,  2.03it/s] 67%|██████▋   | 7472/11074 [1:03:50<29:39,  2.02it/s] 67%|██████▋   | 7473/11074 [1:03:51<29:39,  2.02it/s] 67%|██████▋   | 7474/11074 [1:03:51<29:39,  2.02it/s] 68%|██████▊   | 7475/11074 [1:03:52<29:39,  2.02it/s]{'loss': 3.2915, 'grad_norm': 0.23844318091869354, 'learning_rate': 0.0002887146774509584, 'epoch': 9.44}
-                                                       68%|██████▊   | 7475/11074 [1:03:52<29:39,  2.02it/s] 68%|██████▊   | 7476/11074 [1:03:52<29:40,  2.02it/s] 68%|██████▊   | 7477/11074 [1:03:53<29:41,  2.02it/s] 68%|██████▊   | 7478/11074 [1:03:53<29:39,  2.02it/s] 68%|██████▊   | 7479/11074 [1:03:54<29:38,  2.02it/s] 68%|██████▊   | 7480/11074 [1:03:54<29:36,  2.02it/s] 68%|██████▊   | 7481/11074 [1:03:55<29:38,  2.02it/s] 68%|██████▊   | 7482/11074 [1:03:55<29:38,  2.02it/s] 68%|██████▊   | 7483/11074 [1:03:56<29:37,  2.02it/s] 68%|██████▊   | 7484/11074 [1:03:56<29:35,  2.02it/s] 68%|██████▊   | 7485/11074 [1:03:57<29:35,  2.02it/s] 68%|██████▊   | 7486/11074 [1:03:57<29:34,  2.02it/s] 68%|██████▊   | 7487/11074 [1:03:58<29:33,  2.02it/s] 68%|██████▊   | 7488/11074 [1:03:58<29:33,  2.02it/s] 68%|██████▊   | 7489/11074 [1:03:59<29:30,  2.02it/s] 68%|██████▊   | 7490/11074 [1:03:59<29:30,  2.02it/s] 68%|██████▊   | 7491/11074 [1:04:00<29:27,  2.03it/s] 68%|██████▊   | 7492/11074 [1:04:00<29:27,  2.03it/s] 68%|██████▊   | 7493/11074 [1:04:00<29:27,  2.03it/s] 68%|██████▊   | 7494/11074 [1:04:01<29:27,  2.03it/s] 68%|██████▊   | 7495/11074 [1:04:01<29:25,  2.03it/s] 68%|██████▊   | 7496/11074 [1:04:02<29:28,  2.02it/s] 68%|██████▊   | 7497/11074 [1:04:02<29:27,  2.02it/s] 68%|██████▊   | 7498/11074 [1:04:03<29:27,  2.02it/s] 68%|██████▊   | 7499/11074 [1:04:03<29:26,  2.02it/s] 68%|██████▊   | 7500/11074 [1:04:04<29:27,  2.02it/s]{'loss': 3.2901, 'grad_norm': 0.23053638637065887, 'learning_rate': 0.00028514998355528415, 'epoch': 9.48}
-                                                       68%|██████▊   | 7500/11074 [1:04:04<29:27,  2.02it/s] 68%|██████▊   | 7501/11074 [1:04:04<29:29,  2.02it/s] 68%|██████▊   | 7502/11074 [1:04:05<29:27,  2.02it/s] 68%|██████▊   | 7503/11074 [1:04:05<29:25,  2.02it/s] 68%|██████▊   | 7504/11074 [1:04:06<29:25,  2.02it/s] 68%|██████▊   | 7505/11074 [1:04:06<29:21,  2.03it/s] 68%|██████▊   | 7506/11074 [1:04:07<29:21,  2.02it/s] 68%|██████▊   | 7507/11074 [1:04:07<29:21,  2.03it/s] 68%|██████▊   | 7508/11074 [1:04:08<29:22,  2.02it/s] 68%|██████▊   | 7509/11074 [1:04:08<29:20,  2.03it/s] 68%|██████▊   | 7510/11074 [1:04:09<29:21,  2.02it/s] 68%|██████▊   | 7511/11074 [1:04:09<29:21,  2.02it/s] 68%|██████▊   | 7512/11074 [1:04:10<29:20,  2.02it/s] 68%|██████▊   | 7513/11074 [1:04:10<29:18,  2.02it/s] 68%|██████▊   | 7514/11074 [1:04:11<29:16,  2.03it/s] 68%|██████▊   | 7515/11074 [1:04:11<29:16,  2.03it/s] 68%|██████▊   | 7516/11074 [1:04:12<29:16,  2.03it/s] 68%|██████▊   | 7517/11074 [1:04:12<29:17,  2.02it/s] 68%|██████▊   | 7518/11074 [1:04:13<29:16,  2.02it/s] 68%|██████▊   | 7519/11074 [1:04:13<29:14,  2.03it/s] 68%|██████▊   | 7520/11074 [1:04:14<29:15,  2.02it/s] 68%|██████▊   | 7521/11074 [1:04:14<29:13,  2.03it/s] 68%|██████▊   | 7522/11074 [1:04:15<29:14,  2.02it/s] 68%|██████▊   | 7523/11074 [1:04:15<29:12,  2.03it/s] 68%|██████▊   | 7524/11074 [1:04:16<29:13,  2.02it/s] 68%|██████▊   | 7525/11074 [1:04:16<29:14,  2.02it/s]{'loss': 3.2977, 'grad_norm': 0.23594748973846436, 'learning_rate': 0.00028159863320202937, 'epoch': 9.51}
-                                                       68%|██████▊   | 7525/11074 [1:04:16<29:14,  2.02it/s] 68%|██████▊   | 7526/11074 [1:04:17<29:15,  2.02it/s] 68%|██████▊   | 7527/11074 [1:04:17<29:13,  2.02it/s] 68%|██████▊   | 7528/11074 [1:04:18<29:13,  2.02it/s] 68%|██████▊   | 7529/11074 [1:04:18<29:11,  2.02it/s] 68%|██████▊   | 7530/11074 [1:04:19<29:11,  2.02it/s] 68%|██████▊   | 7531/11074 [1:04:19<29:08,  2.03it/s] 68%|██████▊   | 7532/11074 [1:04:20<29:07,  2.03it/s] 68%|██████▊   | 7533/11074 [1:04:20<29:07,  2.03it/s] 68%|██████▊   | 7534/11074 [1:04:21<29:05,  2.03it/s] 68%|██████▊   | 7535/11074 [1:04:21<29:07,  2.03it/s] 68%|██████▊   | 7536/11074 [1:04:22<29:05,  2.03it/s] 68%|██████▊   | 7537/11074 [1:04:22<29:05,  2.03it/s] 68%|██████▊   | 7538/11074 [1:04:23<29:05,  2.03it/s] 68%|██████▊   | 7539/11074 [1:04:23<29:04,  2.03it/s] 68%|██████▊   | 7540/11074 [1:04:24<29:05,  2.02it/s] 68%|██████▊   | 7541/11074 [1:04:24<29:04,  2.03it/s] 68%|██████▊   | 7542/11074 [1:04:25<29:05,  2.02it/s] 68%|██████▊   | 7543/11074 [1:04:25<29:04,  2.02it/s] 68%|██████▊   | 7544/11074 [1:04:26<29:04,  2.02it/s] 68%|██████▊   | 7545/11074 [1:04:26<29:04,  2.02it/s] 68%|██████▊   | 7546/11074 [1:04:27<29:04,  2.02it/s] 68%|██████▊   | 7547/11074 [1:04:27<29:03,  2.02it/s] 68%|██████▊   | 7548/11074 [1:04:28<29:02,  2.02it/s] 68%|██████▊   | 7549/11074 [1:04:28<29:00,  2.03it/s] 68%|██████▊   | 7550/11074 [1:04:29<29:00,  2.02it/s]{'loss': 3.302, 'grad_norm': 0.23429641127586365, 'learning_rate': 0.000278060846952472, 'epoch': 9.54}
-                                                       68%|██████▊   | 7550/11074 [1:04:29<29:00,  2.02it/s] 68%|██████▊   | 7551/11074 [1:04:29<29:00,  2.02it/s] 68%|██████▊   | 7552/11074 [1:04:30<29:01,  2.02it/s] 68%|██████▊   | 7553/11074 [1:04:30<28:59,  2.02it/s] 68%|██████▊   | 7554/11074 [1:04:31<28:58,  2.02it/s] 68%|██████▊   | 7555/11074 [1:04:31<28:58,  2.02it/s] 68%|██████▊   | 7556/11074 [1:04:32<28:58,  2.02it/s] 68%|██████▊   | 7557/11074 [1:04:32<28:57,  2.02it/s] 68%|██████▊   | 7558/11074 [1:04:33<28:56,  2.02it/s] 68%|██████▊   | 7559/11074 [1:04:33<28:58,  2.02it/s] 68%|██████▊   | 7560/11074 [1:04:34<28:57,  2.02it/s] 68%|██████▊   | 7561/11074 [1:04:34<28:56,  2.02it/s] 68%|██████▊   | 7562/11074 [1:04:35<28:55,  2.02it/s] 68%|██████▊   | 7563/11074 [1:04:35<28:55,  2.02it/s] 68%|██████▊   | 7564/11074 [1:04:36<28:55,  2.02it/s] 68%|██████▊   | 7565/11074 [1:04:36<28:54,  2.02it/s] 68%|██████▊   | 7566/11074 [1:04:37<28:53,  2.02it/s] 68%|██████▊   | 7567/11074 [1:04:37<28:53,  2.02it/s] 68%|██████▊   | 7568/11074 [1:04:38<28:52,  2.02it/s] 68%|██████▊   | 7569/11074 [1:04:38<28:53,  2.02it/s] 68%|██████▊   | 7570/11074 [1:04:39<28:52,  2.02it/s] 68%|██████▊   | 7571/11074 [1:04:39<28:51,  2.02it/s] 68%|██████▊   | 7572/11074 [1:04:40<28:49,  2.02it/s] 68%|██████▊   | 7573/11074 [1:04:40<28:50,  2.02it/s] 68%|██████▊   | 7574/11074 [1:04:41<28:47,  2.03it/s] 68%|██████▊   | 7575/11074 [1:04:41<28:46,  2.03it/s]{'loss': 3.2947, 'grad_norm': 0.2263978272676468, 'learning_rate': 0.0002745368445254728, 'epoch': 9.57}                                                      
- 68%|██████▊   | 7575/11074 [1:04:41<28:46,  2.03it/s] 68%|██████▊   | 7576/11074 [1:04:41<28:48,  2.02it/s] 68%|██████▊   | 7577/11074 [1:04:42<28:49,  2.02it/s] 68%|██████▊   | 7578/11074 [1:04:42<28:47,  2.02it/s] 68%|██████▊   | 7579/11074 [1:04:43<28:46,  2.02it/s] 68%|██████▊   | 7580/11074 [1:04:43<28:46,  2.02it/s] 68%|██████▊   | 7581/11074 [1:04:44<28:45,  2.02it/s] 68%|██████▊   | 7582/11074 [1:04:44<28:45,  2.02it/s] 68%|██████▊   | 7583/11074 [1:04:45<28:45,  2.02it/s] 68%|██████▊   | 7584/11074 [1:04:45<28:44,  2.02it/s] 68%|██████▊   | 7585/11074 [1:04:46<28:41,  2.03it/s] 69%|██████▊   | 7586/11074 [1:04:46<28:42,  2.02it/s] 69%|██████▊   | 7587/11074 [1:04:47<28:40,  2.03it/s] 69%|██████▊   | 7588/11074 [1:04:47<28:41,  2.02it/s] 69%|██████▊   | 7589/11074 [1:04:48<28:41,  2.02it/s] 69%|██████▊   | 7590/11074 [1:04:48<28:41,  2.02it/s] 69%|██████▊   | 7591/11074 [1:04:49<28:40,  2.02it/s] 69%|██████▊   | 7592/11074 [1:04:49<28:40,  2.02it/s] 69%|██████▊   | 7593/11074 [1:04:50<28:40,  2.02it/s] 69%|██████▊   | 7594/11074 [1:04:50<28:39,  2.02it/s] 69%|██████▊   | 7595/11074 [1:04:51<28:40,  2.02it/s] 69%|██████▊   | 7596/11074 [1:04:51<28:38,  2.02it/s] 69%|██████▊   | 7597/11074 [1:04:52<28:39,  2.02it/s] 69%|██████▊   | 7598/11074 [1:04:52<28:38,  2.02it/s] 69%|██████▊   | 7599/11074 [1:04:53<28:38,  2.02it/s] 69%|██████▊   | 7600/11074 [1:04:53<28:37,  2.02it/s]{'loss': 3.2955, 'grad_norm': 0.24187149107456207, 'learning_rate': 0.00027102684478383, 'epoch': 9.6}
-                                                       69%|██████▊   | 7600/11074 [1:04:53<28:37,  2.02it/s] 69%|█████��▊   | 7601/11074 [1:04:54<28:41,  2.02it/s] 69%|██████▊   | 7602/11074 [1:04:54<28:36,  2.02it/s] 69%|██████▊   | 7603/11074 [1:04:55<28:36,  2.02it/s] 69%|██████▊   | 7604/11074 [1:04:55<28:35,  2.02it/s] 69%|██████▊   | 7605/11074 [1:04:56<28:35,  2.02it/s] 69%|██████▊   | 7606/11074 [1:04:56<28:34,  2.02it/s] 69%|██████▊   | 7607/11074 [1:04:57<28:33,  2.02it/s] 69%|██████▊   | 7608/11074 [1:04:57<28:34,  2.02it/s] 69%|██████▊   | 7609/11074 [1:04:58<28:32,  2.02it/s] 69%|██████▊   | 7610/11074 [1:04:58<31:06,  1.86it/s] 69%|██████▊   | 7611/11074 [1:04:59<30:18,  1.90it/s] 69%|██████▊   | 7612/11074 [1:04:59<29:45,  1.94it/s] 69%|██████▊   | 7613/11074 [1:05:00<29:22,  1.96it/s] 69%|██████▉   | 7614/11074 [1:05:00<29:05,  1.98it/s] 69%|██████▉   | 7615/11074 [1:05:01<28:54,  1.99it/s] 69%|██████▉   | 7616/11074 [1:05:01<28:46,  2.00it/s] 69%|██████▉   | 7617/11074 [1:05:02<28:39,  2.01it/s] 69%|██████▉   | 7618/11074 [1:05:02<28:33,  2.02it/s] 69%|██████▉   | 7619/11074 [1:05:03<28:30,  2.02it/s] 69%|██████▉   | 7620/11074 [1:05:03<28:27,  2.02it/s] 69%|██████▉   | 7621/11074 [1:05:04<28:28,  2.02it/s] 69%|██████▉   | 7622/11074 [1:05:04<28:25,  2.02it/s] 69%|██████▉   | 7623/11074 [1:05:05<28:24,  2.02it/s] 69%|██████▉   | 7624/11074 [1:05:05<28:24,  2.02it/s] 69%|██████▉   | 7625/11074 [1:05:06<28:21,  2.03it/s]{'loss': 3.2966, 'grad_norm': 0.235133096575737, 'learning_rate': 0.0002675310657206874, 'epoch': 9.63}                                                      
- 69%|██████▉   | 7625/11074 [1:05:06<28:21,  2.03it/s] 69%|██████▉   | 7626/11074 [1:05:06<28:24,  2.02it/s] 69%|██████▉   | 7627/11074 [1:05:07<28:21,  2.03it/s] 69%|██████▉   | 7628/11074 [1:05:07<28:21,  2.02it/s] 69%|██████▉   | 7629/11074 [1:05:08<28:20,  2.03it/s] 69%|██████▉   | 7630/11074 [1:05:08<28:20,  2.03it/s] 69%|██████▉   | 7631/11074 [1:05:09<28:20,  2.03it/s] 69%|██████▉   | 7632/11074 [1:05:09<28:18,  2.03it/s] 69%|██████▉   | 7633/11074 [1:05:10<28:19,  2.02it/s] 69%|██████▉   | 7634/11074 [1:05:10<28:17,  2.03it/s] 69%|██████▉   | 7635/11074 [1:05:11<28:18,  2.02it/s] 69%|██████▉   | 7636/11074 [1:05:11<28:17,  2.03it/s] 69%|██████▉   | 7637/11074 [1:05:12<28:17,  2.02it/s] 69%|██████▉   | 7638/11074 [1:05:12<28:17,  2.02it/s] 69%|██████▉   | 7639/11074 [1:05:13<28:16,  2.03it/s] 69%|██████▉   | 7640/11074 [1:05:13<28:13,  2.03it/s] 69%|██████▉   | 7641/11074 [1:05:14<28:14,  2.03it/s] 69%|██████▉   | 7642/11074 [1:05:14<28:14,  2.03it/s] 69%|██████▉   | 7643/11074 [1:05:15<28:13,  2.03it/s] 69%|██████▉   | 7644/11074 [1:05:15<28:13,  2.02it/s] 69%|██████▉   | 7645/11074 [1:05:16<28:12,  2.03it/s] 69%|██████▉   | 7646/11074 [1:05:16<28:12,  2.02it/s] 69%|██████▉   | 7647/11074 [1:05:17<28:11,  2.03it/s] 69%|██████▉   | 7648/11074 [1:05:17<28:10,  2.03it/s] 69%|██████▉   | 7649/11074 [1:05:18<28:09,  2.03it/s] 69%|██████▉   | 7650/11074 [1:05:18<28:09,  2.03it/s]{'loss': 3.3054, 'grad_norm': 0.23101946711540222, 'learning_rate': 0.0002640497244459946, 'epoch': 9.67}                                                      
- 69%|██████▉   | 7650/11074 [1:05:18<28:09,  2.03it/s] 69%|██████▉   | 7651/11074 [1:05:19<28:13,  2.02it/s] 69%|██████▉   | 7652/11074 [1:05:19<28:13,  2.02it/s] 69%|██████▉   | 7653/11074 [1:05:20<28:10,  2.02it/s] 69%|██████▉   | 7654/11074 [1:05:20<28:08,  2.02it/s] 69%|██████▉   | 7655/11074 [1:05:21<28:08,  2.03it/s] 69%|██████▉   | 7656/11074 [1:05:21<28:08,  2.02it/s] 69%|██████▉   | 7657/11074 [1:05:22<28:09,  2.02it/s] 69%|██████▉   | 7658/11074 [1:05:22<28:07,  2.02it/s] 69%|██████▉   | 7659/11074 [1:05:23<28:07,  2.02it/s] 69%|██████▉   | 7660/11074 [1:05:23<28:06,  2.02it/s] 69%|██████▉   | 7661/11074 [1:05:24<28:06,  2.02it/s] 69%|██████▉   | 7662/11074 [1:05:24<28:05,  2.02it/s] 69%|██████▉   | 7663/11074 [1:05:25<28:04,  2.02it/s] 69%|██████▉   | 7664/11074 [1:05:25<28:04,  2.02it/s] 69%|██████▉   | 7665/11074 [1:05:26<28:04,  2.02it/s] 69%|██████▉   | 7666/11074 [1:05:26<28:02,  2.03it/s] 69%|██████▉   | 7667/11074 [1:05:27<28:02,  2.02it/s] 69%|██████▉   | 7668/11074 [1:05:27<28:02,  2.02it/s] 69%|██████▉   | 7669/11074 [1:05:28<28:03,  2.02it/s] 69%|██████▉   | 7670/11074 [1:05:28<28:01,  2.02it/s] 69%|██████▉   | 7671/11074 [1:05:29<28:01,  2.02it/s] 69%|██████▉   | 7672/11074 [1:05:29<28:01,  2.02it/s] 69%|██████▉   | 7673/11074 [1:05:30<27:59,  2.03it/s] 69%|██████▉   | 7674/11074 [1:05:30<27:58,  2.03it/s] 69%|██████▉   | 7675/11074 [1:05:31<27:57,  2.03it/s]{'loss': 3.305, 'grad_norm': 0.23394663631916046, 'learning_rate': 0.0002605830371730229, 'epoch': 9.7}
-                                                       69%|██████▉   | 7675/11074 [1:05:31<27:57,  2.03it/s] 69%|██████▉   | 7676/11074 [1:05:31<28:01,  2.02it/s] 69%|██████▉   | 7677/11074 [1:05:32<27:58,  2.02it/s] 69%|██████▉   | 7678/11074 [1:05:32<27:57,  2.02it/s] 69%|██████▉   | 7679/11074 [1:05:33<27:56,  2.03it/s] 69%|██████▉   | 7680/11074 [1:05:33<27:55,  2.03it/s] 69%|██████▉   | 7681/11074 [1:05:34<27:54,  2.03it/s] 69%|██████▉   | 7682/11074 [1:05:34<27:54,  2.03it/s] 69%|██████▉   | 7683/11074 [1:05:35<30:19,  1.86it/s] 69%|██████▉   | 7684/11074 [1:05:35<29:36,  1.91it/s] 69%|██████▉   | 7685/11074 [1:05:36<29:05,  1.94it/s] 69%|██████▉   | 7686/11074 [1:05:36<28:43,  1.97it/s] 69%|██████▉   | 7687/11074 [1:05:37<28:26,  1.98it/s] 69%|██████▉   | 7688/11074 [1:05:37<28:16,  2.00it/s] 69%|██████▉   | 7689/11074 [1:05:38<28:09,  2.00it/s] 69%|██████▉   | 7690/11074 [1:05:38<28:04,  2.01it/s] 69%|██████▉   | 7691/11074 [1:05:39<27:58,  2.02it/s] 69%|██████▉   | 7692/11074 [1:05:39<27:56,  2.02it/s] 69%|██████▉   | 7693/11074 [1:05:40<27:51,  2.02it/s] 69%|██████▉   | 7694/11074 [1:05:40<27:50,  2.02it/s] 69%|██████▉   | 7695/11074 [1:05:41<27:49,  2.02it/s] 69%|██████▉   | 7696/11074 [1:05:41<27:49,  2.02it/s] 70%|██████▉   | 7697/11074 [1:05:42<27:48,  2.02it/s] 70%|██████▉   | 7698/11074 [1:05:42<27:46,  2.03it/s] 70%|██████▉   | 7699/11074 [1:05:43<27:46,  2.02it/s] 70%|██████▉   | 7700/11074 [1:05:43<27:44,  2.03it/s]{'loss': 3.2982, 'grad_norm': 0.22738361358642578, 'learning_rate': 0.00025713121920493834, 'epoch': 9.73}
-                                                       70%|██████▉   | 7700/11074 [1:05:43<27:44,  2.03it/s] 70%|██████▉   | 7701/11074 [1:05:44<27:49,  2.02it/s] 70%|██████▉   | 7702/11074 [1:05:44<27:46,  2.02it/s] 70%|██████▉   | 7703/11074 [1:05:45<27:47,  2.02it/s] 70%|██████▉   | 7704/11074 [1:05:45<27:42,  2.03it/s] 70%|██████▉   | 7705/11074 [1:05:46<27:43,  2.03it/s] 70%|██████▉   | 7706/11074 [1:05:46<27:41,  2.03it/s] 70%|██████▉   | 7707/11074 [1:05:46<27:39,  2.03it/s] 70%|██████▉   | 7708/11074 [1:05:47<27:40,  2.03it/s] 70%|██████▉   | 7709/11074 [1:05:47<27:38,  2.03it/s] 70%|██████▉   | 7710/11074 [1:05:48<27:39,  2.03it/s] 70%|██████▉   | 7711/11074 [1:05:48<27:37,  2.03it/s] 70%|██████▉   | 7712/11074 [1:05:49<27:38,  2.03it/s] 70%|██████▉   | 7713/11074 [1:05:49<27:38,  2.03it/s] 70%|██████▉   | 7714/11074 [1:05:50<27:40,  2.02it/s] 70%|██████▉   | 7715/11074 [1:05:50<27:39,  2.02it/s] 70%|██████▉   | 7716/11074 [1:05:51<27:37,  2.03it/s] 70%|██████▉   | 7717/11074 [1:05:51<27:38,  2.02it/s] 70%|██████▉   | 7718/11074 [1:05:52<27:35,  2.03it/s] 70%|██████▉   | 7719/11074 [1:05:52<27:36,  2.03it/s] 70%|██████▉   | 7720/11074 [1:05:53<27:34,  2.03it/s] 70%|██████▉   | 7721/11074 [1:05:53<27:37,  2.02it/s] 70%|██████▉   | 7722/11074 [1:05:54<27:36,  2.02it/s] 70%|██████▉   | 7723/11074 [1:05:54<27:35,  2.02it/s] 70%|██████▉   | 7724/11074 [1:05:55<27:34,  2.03it/s] 70%|██████▉   | 7725/11074 [1:05:55<27:32,  2.03it/s]                                                      {'loss': 3.2983, 'grad_norm': 0.23312132060527802, 'learning_rate': 0.00025369448492142864, 'epoch': 9.76}
- 70%|██████▉   | 7725/11074 [1:05:55<27:32,  2.03it/s] 70%|██████▉   | 7726/11074 [1:05:56<27:34,  2.02it/s] 70%|██████▉   | 7727/11074 [1:05:56<27:35,  2.02it/s] 70%|██████▉   | 7728/11074 [1:05:57<27:34,  2.02it/s] 70%|██████▉   | 7729/11074 [1:05:57<27:32,  2.02it/s] 70%|██████▉   | 7730/11074 [1:05:58<27:31,  2.02it/s] 70%|██████▉   | 7731/11074 [1:05:58<27:29,  2.03it/s] 70%|██████▉   | 7732/11074 [1:05:59<27:30,  2.02it/s] 70%|██████▉   | 7733/11074 [1:05:59<27:28,  2.03it/s] 70%|██████▉   | 7734/11074 [1:06:00<27:30,  2.02it/s] 70%|██████▉   | 7735/11074 [1:06:00<27:28,  2.03it/s] 70%|██████▉   | 7736/11074 [1:06:01<27:26,  2.03it/s] 70%|██████▉   | 7737/11074 [1:06:01<27:27,  2.03it/s] 70%|██████▉   | 7738/11074 [1:06:02<27:25,  2.03it/s] 70%|██████▉   | 7739/11074 [1:06:02<27:24,  2.03it/s] 70%|██████▉   | 7740/11074 [1:06:03<27:23,  2.03it/s] 70%|██████▉   | 7741/11074 [1:06:03<27:21,  2.03it/s] 70%|██████▉   | 7742/11074 [1:06:04<27:24,  2.03it/s] 70%|██████▉   | 7743/11074 [1:06:04<27:23,  2.03it/s] 70%|██████▉   | 7744/11074 [1:06:05<27:23,  2.03it/s] 70%|██████▉   | 7745/11074 [1:06:05<27:22,  2.03it/s] 70%|██████▉   | 7746/11074 [1:06:06<27:22,  2.03it/s] 70%|██████▉   | 7747/11074 [1:06:06<27:21,  2.03it/s] 70%|██████▉   | 7748/11074 [1:06:07<27:22,  2.03it/s] 70%|██████▉   | 7749/11074 [1:06:07<27:21,  2.03it/s] 70%|██████▉   | 7750/11074 [1:06:08<27:19,  2.03it/s]                                                      {'loss': 3.3089, 'grad_norm': 0.2382747232913971, 'learning_rate': 0.0002502730477653896, 'epoch': 9.79}
- 70%|██████▉   | 7750/11074 [1:06:08<27:19,  2.03it/s] 70%|██████▉   | 7751/11074 [1:06:08<27:23,  2.02it/s] 70%|███████   | 7752/11074 [1:06:09<27:23,  2.02it/s] 70%|███████   | 7753/11074 [1:06:09<27:22,  2.02it/s] 70%|███████   | 7754/11074 [1:06:10<27:19,  2.02it/s] 70%|███████   | 7755/11074 [1:06:10<27:18,  2.03it/s] 70%|███████   | 7756/11074 [1:06:11<27:17,  2.03it/s] 70%|███████   | 7757/11074 [1:06:11<27:17,  2.03it/s] 70%|███████   | 7758/11074 [1:06:12<27:17,  2.03it/s] 70%|███████   | 7759/11074 [1:06:12<27:17,  2.02it/s] 70%|███████   | 7760/11074 [1:06:13<27:18,  2.02it/s] 70%|███████   | 7761/11074 [1:06:13<27:18,  2.02it/s] 70%|███████   | 7762/11074 [1:06:14<27:17,  2.02it/s] 70%|███████   | 7763/11074 [1:06:14<27:18,  2.02it/s] 70%|███████   | 7764/11074 [1:06:15<27:16,  2.02it/s] 70%|███████   | 7765/11074 [1:06:15<27:15,  2.02it/s] 70%|███████   | 7766/11074 [1:06:16<27:15,  2.02it/s] 70%|███████   | 7767/11074 [1:06:16<27:13,  2.02it/s] 70%|███████   | 7768/11074 [1:06:17<27:13,  2.02it/s] 70%|███████   | 7769/11074 [1:06:17<27:10,  2.03it/s] 70%|███████   | 7770/11074 [1:06:18<27:10,  2.03it/s] 70%|███████   | 7771/11074 [1:06:18<27:10,  2.03it/s] 70%|███████   | 7772/11074 [1:06:19<27:07,  2.03it/s] 70%|███████   | 7773/11074 [1:06:19<27:10,  2.02it/s] 70%|███████   | 7774/11074 [1:06:20<27:09,  2.03it/s] 70%|███████   | 7775/11074 [1:06:20<27:09,  2.02it/s]{'loss': 3.3003, 'grad_norm': 0.2325059324502945, 'learning_rate': 0.0002468671202296693, 'epoch': 9.82}
-                                                       70%|███████   | 7775/11074 [1:06:20<27:09,  2.02it/s] 70%|███████   | 7776/11074 [1:06:21<27:09,  2.02it/s] 70%|███████   | 7777/11074 [1:06:21<27:09,  2.02it/s] 70%|███████   | 7778/11074 [1:06:22<27:07,  2.03it/s] 70%|███████   | 7779/11074 [1:06:22<27:08,  2.02it/s] 70%|███████   | 7780/11074 [1:06:23<27:08,  2.02it/s] 70%|███████   | 7781/11074 [1:06:23<27:06,  2.02it/s] 70%|███████   | 7782/11074 [1:06:24<27:05,  2.03it/s] 70%|███████   | 7783/11074 [1:06:24<27:04,  2.03it/s] 70%|███████   | 7784/11074 [1:06:25<27:05,  2.02it/s] 70%|███████   | 7785/11074 [1:06:25<27:04,  2.02it/s] 70%|███████   | 7786/11074 [1:06:26<27:05,  2.02it/s] 70%|███████   | 7787/11074 [1:06:26<27:03,  2.02it/s] 70%|███████   | 7788/11074 [1:06:26<27:03,  2.02it/s] 70%|███████   | 7789/11074 [1:06:27<27:02,  2.02it/s] 70%|███████   | 7790/11074 [1:06:27<27:02,  2.02it/s] 70%|███████   | 7791/11074 [1:06:28<27:01,  2.02it/s] 70%|███████   | 7792/11074 [1:06:28<26:58,  2.03it/s] 70%|███████   | 7793/11074 [1:06:29<26:59,  2.03it/s] 70%|███████   | 7794/11074 [1:06:29<26:58,  2.03it/s] 70%|███████   | 7795/11074 [1:06:30<26:58,  2.03it/s] 70%|███████   | 7796/11074 [1:06:30<26:58,  2.03it/s] 70%|███████   | 7797/11074 [1:06:31<26:57,  2.03it/s] 70%|███████   | 7798/11074 [1:06:31<26:58,  2.02it/s] 70%|███████   | 7799/11074 [1:06:32<26:56,  2.03it/s] 70%|███████   | 7800/11074 [1:06:32<26:55,  2.03it/s]{'loss': 3.307, 'grad_norm': 0.23049074411392212, 'learning_rate': 0.00024347691384386978, 'epoch': 9.85}
-                                                       70%|███████   | 7800/11074 [1:06:32<26:55,  2.03it/s] 70%|███████   | 7801/11074 [1:06:33<26:56,  2.02it/s] 70%|███████   | 7802/11074 [1:06:33<26:55,  2.02it/s] 70%|███████   | 7803/11074 [1:06:34<26:57,  2.02it/s] 70%|███████   | 7804/11074 [1:06:34<26:56,  2.02it/s] 70%|███████   | 7805/11074 [1:06:35<26:54,  2.02it/s] 70%|███████   | 7806/11074 [1:06:35<26:55,  2.02it/s] 70%|███████   | 7807/11074 [1:06:36<26:53,  2.02it/s] 71%|███████   | 7808/11074 [1:06:36<26:55,  2.02it/s] 71%|███████   | 7809/11074 [1:06:37<26:51,  2.03it/s] 71%|███████   | 7810/11074 [1:06:37<26:52,  2.02it/s] 71%|███████   | 7811/11074 [1:06:38<26:50,  2.03it/s] 71%|███████   | 7812/11074 [1:06:38<26:50,  2.03it/s] 71%|███████   | 7813/11074 [1:06:39<26:50,  2.03it/s] 71%|███████   | 7814/11074 [1:06:39<26:47,  2.03it/s] 71%|███████   | 7815/11074 [1:06:40<26:47,  2.03it/s] 71%|███████   | 7816/11074 [1:06:40<26:46,  2.03it/s] 71%|███████   | 7817/11074 [1:06:41<26:47,  2.03it/s] 71%|███████   | 7818/11074 [1:06:41<26:45,  2.03it/s] 71%|███████   | 7819/11074 [1:06:42<26:47,  2.03it/s] 71%|███████   | 7820/11074 [1:06:42<26:47,  2.02it/s] 71%|███████   | 7821/11074 [1:06:43<26:47,  2.02it/s] 71%|███████   | 7822/11074 [1:06:43<26:46,  2.02it/s] 71%|███████   | 7823/11074 [1:06:44<26:45,  2.03it/s] 71%|███████   | 7824/11074 [1:06:44<26:45,  2.02it/s] 71%|███████   | 7825/11074 [1:06:45<26:44,  2.02it/s]{'loss': 3.3118, 'grad_norm': 0.23580317199230194, 'learning_rate': 0.0002401026391612111, 'epoch': 9.89}                                                      
- 71%|███████   | 7825/11074 [1:06:45<26:44,  2.02it/s] 71%|███████   | 7826/11074 [1:06:45<26:46,  2.02it/s] 71%|███████   | 7827/11074 [1:06:46<26:44,  2.02it/s] 71%|███████   | 7828/11074 [1:06:46<26:45,  2.02it/s] 71%|███████   | 7829/11074 [1:06:47<26:45,  2.02it/s] 71%|███████   | 7830/11074 [1:06:47<26:44,  2.02it/s] 71%|███████   | 7831/11074 [1:06:48<26:43,  2.02it/s] 71%|███████   | 7832/11074 [1:06:48<26:43,  2.02it/s] 71%|███████   | 7833/11074 [1:06:49<26:42,  2.02it/s] 71%|███████   | 7834/11074 [1:06:49<26:42,  2.02it/s] 71%|███████   | 7835/11074 [1:06:50<26:40,  2.02it/s] 71%|███████   | 7836/11074 [1:06:50<26:39,  2.02it/s] 71%|███████   | 7837/11074 [1:06:51<26:39,  2.02it/s] 71%|███████   | 7838/11074 [1:06:51<26:40,  2.02it/s] 71%|███████   | 7839/11074 [1:06:52<26:40,  2.02it/s] 71%|███████   | 7840/11074 [1:06:52<26:39,  2.02it/s] 71%|███████   | 7841/11074 [1:06:53<26:37,  2.02it/s] 71%|███████   | 7842/11074 [1:06:53<26:38,  2.02it/s] 71%|███████   | 7843/11074 [1:06:54<26:36,  2.02it/s] 71%|███████   | 7844/11074 [1:06:54<26:36,  2.02it/s] 71%|███████   | 7845/11074 [1:06:55<26:35,  2.02it/s] 71%|███████   | 7846/11074 [1:06:55<26:35,  2.02it/s] 71%|███████   | 7847/11074 [1:06:56<26:35,  2.02it/s] 71%|███████   | 7848/11074 [1:06:56<26:33,  2.02it/s] 71%|███████   | 7849/11074 [1:06:57<26:33,  2.02it/s] 71%|███████   | 7850/11074 [1:06:57<26:33,  2.02it/s]                                                      {'loss': 3.3118, 'grad_norm': 0.23138053715229034, 'learning_rate': 0.00023674450574545343, 'epoch': 9.92}
- 71%|███████   | 7850/11074 [1:06:57<26:33,  2.02it/s] 71%|███████   | 7851/11074 [1:06:58<26:34,  2.02it/s] 71%|███████   | 7852/11074 [1:06:58<26:34,  2.02it/s] 71%|███████   | 7853/11074 [1:06:59<26:32,  2.02it/s] 71%|███████   | 7854/11074 [1:06:59<26:32,  2.02it/s] 71%|███████   | 7855/11074 [1:07:00<26:30,  2.02it/s] 71%|███████   | 7856/11074 [1:07:00<26:30,  2.02it/s] 71%|███████   | 7857/11074 [1:07:01<26:28,  2.02it/s] 71%|███████   | 7858/11074 [1:07:01<26:29,  2.02it/s] 71%|███████   | 7859/11074 [1:07:02<26:27,  2.02it/s] 71%|███████   | 7860/11074 [1:07:02<26:27,  2.02it/s] 71%|███████   | 7861/11074 [1:07:03<26:27,  2.02it/s] 71%|███████   | 7862/11074 [1:07:03<26:26,  2.02it/s] 71%|███████   | 7863/11074 [1:07:04<26:26,  2.02it/s] 71%|███████   | 7864/11074 [1:07:04<26:24,  2.03it/s] 71%|███████   | 7865/11074 [1:07:05<26:23,  2.03it/s] 71%|███████   | 7866/11074 [1:07:05<26:23,  2.03it/s] 71%|███████   | 7867/11074 [1:07:06<26:23,  2.02it/s] 71%|███████   | 7868/11074 [1:07:06<26:22,  2.03it/s] 71%|███████   | 7869/11074 [1:07:07<26:21,  2.03it/s] 71%|███████   | 7870/11074 [1:07:07<26:21,  2.03it/s] 71%|███████   | 7871/11074 [1:07:07<26:20,  2.03it/s] 71%|███████   | 7872/11074 [1:07:08<26:20,  2.03it/s] 71%|███████   | 7873/11074 [1:07:08<26:20,  2.03it/s] 71%|███████   | 7874/11074 [1:07:09<26:19,  2.03it/s] 71%|███████   | 7875/11074 [1:07:09<26:19,  2.03it/s]                                                      {'loss': 3.3077, 'grad_norm': 0.23198536038398743, 'learning_rate': 0.0002334027221578824, 'epoch': 9.95}
- 71%|███████   | 7875/11074 [1:07:09<26:19,  2.03it/s] 71%|███████   | 7876/11074 [1:07:10<26:22,  2.02it/s] 71%|███████   | 7877/11074 [1:07:10<26:21,  2.02it/s] 71%|███████   | 7878/11074 [1:07:11<26:21,  2.02it/s] 71%|███████   | 7879/11074 [1:07:11<26:20,  2.02it/s] 71%|███████   | 7880/11074 [1:07:12<26:18,  2.02it/s] 71%|███████   | 7881/11074 [1:07:12<26:18,  2.02it/s] 71%|███████   | 7882/11074 [1:07:13<26:18,  2.02it/s] 71%|███████   | 7883/11074 [1:07:13<26:15,  2.02it/s] 71%|███████   | 7884/11074 [1:07:14<26:15,  2.02it/s] 71%|███████   | 7885/11074 [1:07:14<26:13,  2.03it/s] 71%|███████   | 7886/11074 [1:07:15<26:13,  2.03it/s] 71%|███████   | 7887/11074 [1:07:15<26:13,  2.03it/s] 71%|███████   | 7888/11074 [1:07:16<26:11,  2.03it/s] 71%|███████   | 7889/11074 [1:07:16<26:12,  2.02it/s] 71%|███████   | 7890/11074 [1:07:17<26:10,  2.03it/s] 71%|███████▏  | 7891/11074 [1:07:17<26:11,  2.02it/s] 71%|███████▏  | 7892/11074 [1:07:18<26:08,  2.03it/s] 71%|███████▏  | 7893/11074 [1:07:18<26:10,  2.03it/s] 71%|███████▏  | 7894/11074 [1:07:19<26:10,  2.03it/s] 71%|███████▏  | 7895/11074 [1:07:19<26:09,  2.03it/s] 71%|███████▏  | 7896/11074 [1:07:20<26:09,  2.03it/s] 71%|███████▏  | 7897/11074 [1:07:20<26:09,  2.02it/s] 71%|███████▏  | 7898/11074 [1:07:21<26:08,  2.03it/s] 71%|███████▏  | 7899/11074 [1:07:21<26:06,  2.03it/s] 71%|███████▏  | 7900/11074 [1:07:22<26:06,  2.03it/s]{'loss': 3.3093, 'grad_norm': 0.23056922852993011, 'learning_rate': 0.00023007749594435663, 'epoch': 9.98}
-                                                       71%|███████▏  | 7900/11074 [1:07:22<26:06,  2.03it/s] 71%|███████▏  | 7901/11074 [1:07:22<26:09,  2.02it/s] 71%|███████▏  | 7902/11074 [1:07:23<26:09,  2.02it/s] 71%|███████▏  | 7903/11074 [1:07:23<26:07,  2.02it/s] 71%|███████▏  | 7904/11074 [1:07:24<26:06,  2.02it/s] 71%|███████▏  | 7905/11074 [1:07:24<26:05,  2.02it/s] 71%|███████▏  | 7906/11074 [1:07:25<26:03,  2.03it/s] 71%|███████▏  | 7907/11074 [1:07:25<26:03,  2.03it/s] 71%|███████▏  | 7908/11074 [1:07:26<26:01,  2.03it/s] 71%|███████▏  | 7909/11074 [1:07:26<26:01,  2.03it/s] 71%|███████▏  | 7910/11074 [1:07:27<26:01,  2.03it/s] 71%|███████▏  | 7911/11074 [1:07:27<25:59,  2.03it/s] 71%|███████▏  | 7912/11074 [1:07:28<25:59,  2.03it/s] 71%|███████▏  | 7913/11074 [1:07:28<25:58,  2.03it/s] 71%|███████▏  | 7914/11074 [1:07:29<26:00,  2.03it/s] 71%|███████▏  | 7915/11074 [1:07:29<25:45,  2.04it/s] 71%|███████▏  | 7916/11074 [1:07:41<3:26:15,  3.92s/it] 71%|███████▏  | 7917/11074 [1:07:42<2:32:17,  2.89s/it] 72%|███████▏  | 7918/11074 [1:07:42<1:54:19,  2.17s/it] 72%|███████▏  | 7919/11074 [1:07:43<1:27:47,  1.67s/it] 72%|███████▏  | 7920/11074 [1:07:43<1:09:13,  1.32s/it] 72%|███████▏  | 7921/11074 [1:07:44<56:14,  1.07s/it]   72%|███████▏  | 7922/11074 [1:07:44<47:07,  1.11it/s] 72%|███████▏  | 7923/11074 [1:07:45<40:57,  1.28it/s] 72%|███████▏  | 7924/11074 [1:07:45<36:26,  1.44it/s] 72%|███████▏  | 7925/11074 [1:07:46<33:16,  1.58it/s]                                                      {'loss': 3.2656, 'grad_norm': 0.24008791148662567, 'learning_rate': 0.0002267690336224168, 'epoch': 10.01}
- 72%|███████▏  | 7925/11074 [1:07:46<33:16,  1.58it/s] 72%|███████▏  | 7926/11074 [1:07:46<31:04,  1.69it/s] 72%|██████��▏  | 7927/11074 [1:07:47<29:32,  1.78it/s] 72%|███████▏  | 7928/11074 [1:07:47<28:29,  1.84it/s] 72%|███████▏  | 7929/11074 [1:07:48<27:42,  1.89it/s] 72%|███████▏  | 7930/11074 [1:07:48<27:10,  1.93it/s] 72%|███████▏  | 7931/11074 [1:07:49<26:47,  1.96it/s] 72%|███████▏  | 7932/11074 [1:07:49<26:30,  1.98it/s] 72%|███████▏  | 7933/11074 [1:07:50<26:19,  1.99it/s] 72%|███████▏  | 7934/11074 [1:07:50<26:10,  2.00it/s] 72%|███████▏  | 7935/11074 [1:07:51<26:03,  2.01it/s] 72%|███████▏  | 7936/11074 [1:07:51<25:59,  2.01it/s] 72%|███████▏  | 7937/11074 [1:07:52<25:55,  2.02it/s] 72%|███████▏  | 7938/11074 [1:07:52<25:52,  2.02it/s] 72%|███████▏  | 7939/11074 [1:07:53<25:50,  2.02it/s] 72%|███████▏  | 7940/11074 [1:07:53<25:54,  2.02it/s] 72%|███████▏  | 7941/11074 [1:07:54<25:57,  2.01it/s] 72%|███████▏  | 7942/11074 [1:07:54<25:51,  2.02it/s] 72%|███████▏  | 7943/11074 [1:07:55<25:51,  2.02it/s] 72%|███████▏  | 7944/11074 [1:07:55<25:47,  2.02it/s] 72%|███████▏  | 7945/11074 [1:07:55<25:47,  2.02it/s] 72%|███████▏  | 7946/11074 [1:07:56<25:44,  2.03it/s] 72%|███████▏  | 7947/11074 [1:07:56<25:43,  2.03it/s] 72%|███████▏  | 7948/11074 [1:07:57<25:43,  2.02it/s] 72%|███████▏  | 7949/11074 [1:07:57<25:41,  2.03it/s] 72%|███████▏  | 7950/11074 [1:07:58<25:42,  2.03it/s]{'loss': 3.2027, 'grad_norm': 0.23849323391914368, 'learning_rate': 0.00022347754066845987, 'epoch': 10.04}                                                      
- 72%|███████▏  | 7950/11074 [1:07:58<25:42,  2.03it/s] 72%|███████▏  | 7951/11074 [1:07:58<25:44,  2.02it/s] 72%|███████▏  | 7952/11074 [1:07:59<25:42,  2.02it/s] 72%|███████▏  | 7953/11074 [1:07:59<25:40,  2.03it/s] 72%|███████▏  | 7954/11074 [1:08:00<25:40,  2.03it/s] 72%|███████▏  | 7955/11074 [1:08:00<25:38,  2.03it/s] 72%|███████▏  | 7956/11074 [1:08:01<25:38,  2.03it/s] 72%|███████▏  | 7957/11074 [1:08:01<25:38,  2.03it/s] 72%|███████▏  | 7958/11074 [1:08:02<25:38,  2.02it/s] 72%|███████▏  | 7959/11074 [1:08:02<25:39,  2.02it/s] 72%|███████▏  | 7960/11074 [1:08:03<25:36,  2.03it/s] 72%|███████▏  | 7961/11074 [1:08:03<25:36,  2.03it/s] 72%|███████▏  | 7962/11074 [1:08:04<25:35,  2.03it/s] 72%|███████▏  | 7963/11074 [1:08:04<25:35,  2.03it/s] 72%|███████▏  | 7964/11074 [1:08:05<25:34,  2.03it/s] 72%|███████▏  | 7965/11074 [1:08:05<25:34,  2.03it/s] 72%|███████▏  | 7966/11074 [1:08:06<25:35,  2.02it/s] 72%|███████▏  | 7967/11074 [1:08:06<25:35,  2.02it/s] 72%|███████▏  | 7968/11074 [1:08:07<25:35,  2.02it/s] 72%|███████▏  | 7969/11074 [1:08:07<25:34,  2.02it/s] 72%|███████▏  | 7970/11074 [1:08:08<25:33,  2.02it/s] 72%|███████▏  | 7971/11074 [1:08:08<25:33,  2.02it/s] 72%|███████▏  | 7972/11074 [1:08:09<25:32,  2.02it/s] 72%|███████▏  | 7973/11074 [1:08:09<25:30,  2.03it/s] 72%|███████▏  | 7974/11074 [1:08:10<25:30,  2.03it/s] 72%|███████▏  | 7975/11074 [1:08:10<25:29,  2.03it/s]{'loss': 3.1925, 'grad_norm': 0.2428920567035675, 'learning_rate': 0.00022020322150497878, 'epoch': 10.08}                                                      
- 72%|███████▏  | 7975/11074 [1:08:10<25:29,  2.03it/s] 72%|███████▏  | 7976/11074 [1:08:11<25:30,  2.02it/s] 72%|███████▏  | 7977/11074 [1:08:11<25:29,  2.02it/s] 72%|███████▏  | 7978/11074 [1:08:12<25:30,  2.02it/s] 72%|███████▏  | 7979/11074 [1:08:12<25:29,  2.02it/s] 72%|███████▏  | 7980/11074 [1:08:13<25:29,  2.02it/s] 72%|███████▏  | 7981/11074 [1:08:13<25:28,  2.02it/s] 72%|███████▏  | 7982/11074 [1:08:14<25:26,  2.03it/s] 72%|███████▏  | 7983/11074 [1:08:14<25:27,  2.02it/s] 72%|███████▏  | 7984/11074 [1:08:15<25:24,  2.03it/s] 72%|███████▏  | 7985/11074 [1:08:15<25:25,  2.03it/s] 72%|███████▏  | 7986/11074 [1:08:16<25:23,  2.03it/s] 72%|███████▏  | 7987/11074 [1:08:16<25:24,  2.03it/s] 72%|███████▏  | 7988/11074 [1:08:17<25:23,  2.03it/s] 72%|███████▏  | 7989/11074 [1:08:17<25:20,  2.03it/s] 72%|███████▏  | 7990/11074 [1:08:18<25:22,  2.03it/s] 72%|███████▏  | 7991/11074 [1:08:18<25:21,  2.03it/s] 72%|███████▏  | 7992/11074 [1:08:19<25:22,  2.02it/s] 72%|███████▏  | 7993/11074 [1:08:19<25:20,  2.03it/s] 72%|███████▏  | 7994/11074 [1:08:20<25:21,  2.02it/s] 72%|███████▏  | 7995/11074 [1:08:20<25:20,  2.03it/s] 72%|███████▏  | 7996/11074 [1:08:21<25:19,  2.03it/s] 72%|███████▏  | 7997/11074 [1:08:21<25:19,  2.02it/s] 72%|███████▏  | 7998/11074 [1:08:22<25:17,  2.03it/s] 72%|███████▏  | 7999/11074 [1:08:22<25:18,  2.03it/s] 72%|███████▏  | 8000/11074 [1:08:23<25:15,  2.03it/s]                                                      {'loss': 3.2116, 'grad_norm': 0.23470519483089447, 'learning_rate': 0.00021694627948786466, 'epoch': 10.11}
- 72%|███████▏  | 8000/11074 [1:08:23<25:15,  2.03it/s] 72%|███████▏  | 8001/11074 [1:08:23<25:18,  2.02it/s] 72%|███████▏  | 8002/11074 [1:08:24<25:17,  2.02it/s] 72%|███████▏  | 8003/11074 [1:08:24<25:17,  2.02it/s] 72%|███████▏  | 8004/11074 [1:08:25<25:16,  2.02it/s] 72%|███████▏  | 8005/11074 [1:08:25<25:16,  2.02it/s] 72%|███████▏  | 8006/11074 [1:08:26<25:16,  2.02it/s] 72%|███████▏  | 8007/11074 [1:08:26<25:15,  2.02it/s] 72%|███████▏  | 8008/11074 [1:08:27<25:14,  2.03it/s] 72%|███████▏  | 8009/11074 [1:08:27<25:12,  2.03it/s] 72%|███████▏  | 8010/11074 [1:08:28<25:12,  2.03it/s] 72%|███████▏  | 8011/11074 [1:08:28<25:11,  2.03it/s] 72%|███████▏  | 8012/11074 [1:08:29<25:11,  2.03it/s] 72%|███████▏  | 8013/11074 [1:08:29<25:11,  2.02it/s] 72%|███████▏  | 8014/11074 [1:08:30<25:11,  2.02it/s] 72%|███████▏  | 8015/11074 [1:08:30<25:10,  2.02it/s] 72%|███████▏  | 8016/11074 [1:08:31<25:10,  2.02it/s] 72%|███████▏  | 8017/11074 [1:08:31<25:10,  2.02it/s] 72%|███████▏  | 8018/11074 [1:08:32<25:08,  2.03it/s] 72%|███████▏  | 8019/11074 [1:08:32<25:10,  2.02it/s] 72%|███████▏  | 8020/11074 [1:08:33<25:07,  2.03it/s] 72%|███████▏  | 8021/11074 [1:08:33<25:08,  2.02it/s] 72%|███████▏  | 8022/11074 [1:08:34<25:06,  2.03it/s] 72%|███████▏  | 8023/11074 [1:08:34<25:07,  2.02it/s] 72%|███████▏  | 8024/11074 [1:08:34<25:07,  2.02it/s] 72%|███████▏  | 8025/11074 [1:08:35<25:07,  2.02it/s]                                                      {'loss': 3.2031, 'grad_norm': 0.24160942435264587, 'learning_rate': 0.00021370691689377887, 'epoch': 10.14}
- 72%|███████▏  | 8025/11074 [1:08:35<25:07,  2.02it/s] 72%|███████▏  | 8026/11074 [1:08:35<25:08,  2.02it/s] 72%|███████▏  | 8027/11074 [1:08:36<25:06,  2.02it/s] 72%|███████▏  | 8028/11074 [1:08:36<25:05,  2.02it/s] 73%|███████▎  | 8029/11074 [1:08:37<25:04,  2.02it/s] 73%|███████▎  | 8030/11074 [1:08:37<25:03,  2.02it/s] 73%|███████▎  | 8031/11074 [1:08:38<25:02,  2.03it/s] 73%|███████▎  | 8032/11074 [1:08:38<25:02,  2.02it/s] 73%|███████▎  | 8033/11074 [1:08:39<25:03,  2.02it/s] 73%|███████▎  | 8034/11074 [1:08:39<25:02,  2.02it/s] 73%|███████▎  | 8035/11074 [1:08:40<25:01,  2.02it/s] 73%|███████▎  | 8036/11074 [1:08:40<25:01,  2.02it/s] 73%|███████▎  | 8037/11074 [1:08:41<24:59,  2.03it/s] 73%|███████▎  | 8038/11074 [1:08:41<24:59,  2.02it/s] 73%|███████▎  | 8039/11074 [1:08:42<24:58,  2.03it/s] 73%|███████▎  | 8040/11074 [1:08:42<24:58,  2.02it/s] 73%|███████▎  | 8041/11074 [1:08:43<24:58,  2.02it/s] 73%|███████▎  | 8042/11074 [1:08:43<24:57,  2.03it/s] 73%|███████▎  | 8043/11074 [1:08:44<25:14,  2.00it/s] 73%|███████▎  | 8044/11074 [1:08:44<25:08,  2.01it/s] 73%|███████▎  | 8045/11074 [1:08:45<25:03,  2.01it/s] 73%|███████▎  | 8046/11074 [1:08:45<25:00,  2.02it/s] 73%|███████▎  | 8047/11074 [1:08:46<24:58,  2.02it/s] 73%|███████▎  | 8048/11074 [1:08:46<24:57,  2.02it/s] 73%|███████▎  | 8049/11074 [1:08:47<24:57,  2.02it/s] 73%|███████▎  | 8050/11074 [1:08:47<24:55,  2.02it/s]                                                      {'loss': 3.2103, 'grad_norm': 0.24442946910858154, 'learning_rate': 0.00021048533490758943, 'epoch': 10.17}
- 73%|███████▎  | 8050/11074 [1:08:47<24:55,  2.02it/s] 73%|███████▎  | 8051/11074 [1:08:48<24:56,  2.02it/s] 73%|███████▎  | 8052/11074 [1:08:48<24:55,  2.02it/s] 73%|███████▎  | 8053/11074 [1:08:49<24:55,  2.02it/s] 73%|███████▎  | 8054/11074 [1:08:49<24:53,  2.02it/s] 73%|███████▎  | 8055/11074 [1:08:50<24:52,  2.02it/s] 73%|███████▎  | 8056/11074 [1:08:50<24:52,  2.02it/s] 73%|███████▎  | 8057/11074 [1:08:51<24:49,  2.03it/s] 73%|███████▎  | 8058/11074 [1:08:51<24:49,  2.02it/s] 73%|███████▎  | 8059/11074 [1:08:52<24:48,  2.02it/s] 73%|███████▎  | 8060/11074 [1:08:52<24:48,  2.02it/s] 73%|███████▎  | 8061/11074 [1:08:53<24:47,  2.03it/s] 73%|███████▎  | 8062/11074 [1:08:53<24:47,  2.02it/s] 73%|███████▎  | 8063/11074 [1:08:54<24:47,  2.02it/s] 73%|███████▎  | 8064/11074 [1:08:54<24:44,  2.03it/s] 73%|███████▎  | 8065/11074 [1:08:55<24:45,  2.03it/s] 73%|███████▎  | 8066/11074 [1:08:55<24:43,  2.03it/s] 73%|███████▎  | 8067/11074 [1:08:56<24:44,  2.03it/s] 73%|███████▎  | 8068/11074 [1:08:56<24:43,  2.03it/s] 73%|███████▎  | 8069/11074 [1:08:57<24:43,  2.03it/s] 73%|███████▎  | 8070/11074 [1:08:57<24:42,  2.03it/s] 73%|███████▎  | 8071/11074 [1:08:58<24:42,  2.03it/s] 73%|███████▎  | 8072/11074 [1:08:58<24:44,  2.02it/s] 73%|███████▎  | 8073/11074 [1:08:59<24:44,  2.02it/s] 73%|███████▎  | 8074/11074 [1:08:59<24:43,  2.02it/s] 73%|███████▎  | 8075/11074 [1:09:00<24:43,  2.02it/s]                                                      {'loss': 3.2151, 'grad_norm': 0.23529110848903656, 'learning_rate': 0.00020728173360987613, 'epoch': 10.2}
- 73%|███████▎  | 8075/11074 [1:09:00<24:43,  2.02it/s] 73%|███████▎  | 8076/11074 [1:09:00<24:43,  2.02it/s] 73%|███████▎  | 8077/11074 [1:09:01<24:42,  2.02it/s] 73%|███████▎  | 8078/11074 [1:09:01<24:41,  2.02it/s] 73%|███████▎  | 8079/11074 [1:09:02<24:38,  2.03it/s] 73%|███████▎  | 8080/11074 [1:09:02<24:38,  2.02it/s] 73%|███████▎  | 8081/11074 [1:09:03<24:35,  2.03it/s] 73%|███████▎  | 8082/11074 [1:09:03<24:37,  2.03it/s] 73%|███████▎  | 8083/11074 [1:09:04<24:36,  2.03it/s] 73%|███████▎  | 8084/11074 [1:09:04<24:35,  2.03it/s] 73%|███████▎  | 8085/11074 [1:09:05<24:34,  2.03it/s] 73%|███████▎  | 8086/11074 [1:09:05<24:33,  2.03it/s] 73%|███████▎  | 8087/11074 [1:09:06<24:34,  2.03it/s] 73%|███████▎  | 8088/11074 [1:09:06<24:31,  2.03it/s] 73%|███████▎  | 8089/11074 [1:09:07<24:32,  2.03it/s] 73%|███████▎  | 8090/11074 [1:09:07<24:31,  2.03it/s] 73%|███████▎  | 8091/11074 [1:09:08<24:32,  2.03it/s] 73%|███████▎  | 8092/11074 [1:09:08<24:31,  2.03it/s] 73%|███████▎  | 8093/11074 [1:09:09<24:31,  2.03it/s] 73%|███████▎  | 8094/11074 [1:09:09<24:31,  2.03it/s] 73%|███████▎  | 8095/11074 [1:09:10<24:31,  2.02it/s] 73%|███████▎  | 8096/11074 [1:09:10<24:30,  2.02it/s] 73%|███████▎  | 8097/11074 [1:09:11<24:31,  2.02it/s] 73%|███████▎  | 8098/11074 [1:09:11<24:30,  2.02it/s] 73%|███████▎  | 8099/11074 [1:09:12<24:28,  2.03it/s] 73%|███████▎  | 8100/11074 [1:09:12<24:29,  2.02it/s]{'loss': 3.2194, 'grad_norm': 0.23723545670509338, 'learning_rate': 0.00020409631196450457, 'epoch': 10.23}
-                                                       73%|███████▎  | 8100/11074 [1:09:12<24:29,  2.02it/s] 73%|███████▎  | 8101/11074 [1:09:13<24:28,  2.02it/s] 73%|███████▎  | 8102/11074 [1:09:13<24:28,  2.02it/s] 73%|███████▎  | 8103/11074 [1:09:14<24:26,  2.03it/s] 73%|███████▎  | 8104/11074 [1:09:14<24:26,  2.03it/s] 73%|███████▎  | 8105/11074 [1:09:15<24:24,  2.03it/s] 73%|███████▎  | 8106/11074 [1:09:15<24:25,  2.03it/s] 73%|███████▎  | 8107/11074 [1:09:16<24:25,  2.02it/s] 73%|███████▎  | 8108/11074 [1:09:16<24:24,  2.03it/s] 73%|███████▎  | 8109/11074 [1:09:16<24:24,  2.02it/s] 73%|███████▎  | 8110/11074 [1:09:17<24:22,  2.03it/s] 73%|███████▎  | 8111/11074 [1:09:17<24:23,  2.03it/s] 73%|███████▎  | 8112/11074 [1:09:18<24:21,  2.03it/s] 73%|███████▎  | 8113/11074 [1:09:18<24:22,  2.03it/s] 73%|███████▎  | 8114/11074 [1:09:19<24:20,  2.03it/s] 73%|███████▎  | 8115/11074 [1:09:19<24:19,  2.03it/s] 73%|███████▎  | 8116/11074 [1:09:20<24:20,  2.03it/s] 73%|███████▎  | 8117/11074 [1:09:20<24:17,  2.03it/s] 73%|███████▎  | 8118/11074 [1:09:21<24:19,  2.03it/s] 73%|███████▎  | 8119/11074 [1:09:21<24:17,  2.03it/s] 73%|███████▎  | 8120/11074 [1:09:22<24:17,  2.03it/s] 73%|███████▎  | 8121/11074 [1:09:22<24:17,  2.03it/s] 73%|███████▎  | 8122/11074 [1:09:23<24:17,  2.03it/s] 73%|███████▎  | 8123/11074 [1:09:23<24:17,  2.02it/s] 73%|███████▎  | 8124/11074 [1:09:24<24:15,  2.03it/s] 73%|███████▎  | 8125/11074 [1:09:24<24:16,  2.02it/s]                                                      {'loss': 3.2272, 'grad_norm': 0.238705113530159, 'learning_rate': 0.00020092926780626946, 'epoch': 10.27}
- 73%|███████▎  | 8125/11074 [1:09:24<24:16,  2.02it/s] 73%|███████▎  | 8126/11074 [1:09:25<24:16,  2.02it/s] 73%|███████▎  | 8127/11074 [1:09:25<24:18,  2.02it/s] 73%|███████▎  | 8128/11074 [1:09:26<24:15,  2.02it/s] 73%|███████▎  | 8129/11074 [1:09:26<24:14,  2.02it/s] 73%|███████▎  | 8130/11074 [1:09:27<24:13,  2.03it/s] 73%|███████▎  | 8131/11074 [1:09:27<24:14,  2.02it/s] 73%|███████▎  | 8132/11074 [1:09:28<24:13,  2.02it/s] 73%|███████▎  | 8133/11074 [1:09:28<24:14,  2.02it/s] 73%|███████▎  | 8134/11074 [1:09:29<24:13,  2.02it/s] 73%|███████▎  | 8135/11074 [1:09:29<24:12,  2.02it/s] 73%|███████▎  | 8136/11074 [1:09:30<24:11,  2.02it/s] 73%|███████▎  | 8137/11074 [1:09:30<24:11,  2.02it/s] 73%|███████▎  | 8138/11074 [1:09:31<24:11,  2.02it/s] 73%|███████▎  | 8139/11074 [1:09:31<24:10,  2.02it/s] 74%|███████▎  | 8140/11074 [1:09:32<24:10,  2.02it/s] 74%|███████▎  | 8141/11074 [1:09:32<24:10,  2.02it/s] 74%|███████▎  | 8142/11074 [1:09:33<24:08,  2.02it/s] 74%|███████▎  | 8143/11074 [1:09:33<24:07,  2.02it/s] 74%|███████▎  | 8144/11074 [1:09:34<24:06,  2.03it/s] 74%|███████▎  | 8145/11074 [1:09:34<24:06,  2.03it/s] 74%|███████▎  | 8146/11074 [1:09:35<24:05,  2.03it/s] 74%|███████▎  | 8147/11074 [1:09:35<24:05,  2.03it/s] 74%|███████▎  | 8148/11074 [1:09:36<24:05,  2.02it/s] 74%|███████▎  | 8149/11074 [1:09:36<24:04,  2.02it/s] 74%|███████▎  | 8150/11074 [1:09:37<24:04,  2.02it/s]                                                      {'loss': 3.2225, 'grad_norm': 0.23790352046489716, 'learning_rate': 0.00019778079782860702, 'epoch': 10.3}
- 74%|███████▎  | 8150/11074 [1:09:37<24:04,  2.02it/s] 74%|███████▎  | 8151/11074 [1:09:37<24:05,  2.02it/s] 74%|███████▎  | 8152/11074 [1:09:38<24:05,  2.02it/s] 74%|███████▎  | 8153/11074 [1:09:38<24:04,  2.02it/s] 74%|███████▎  | 8154/11074 [1:09:39<24:04,  2.02it/s] 74%|███████▎  | 8155/11074 [1:09:39<24:03,  2.02it/s] 74%|███████▎  | 8156/11074 [1:09:40<24:01,  2.02it/s] 74%|███████▎  | 8157/11074 [1:09:40<24:00,  2.03it/s] 74%|███████▎  | 8158/11074 [1:09:41<23:59,  2.03it/s] 74%|███████▎  | 8159/11074 [1:09:41<23:58,  2.03it/s] 74%|███████▎  | 8160/11074 [1:09:42<23:58,  2.03it/s] 74%|███████▎  | 8161/11074 [1:09:42<23:56,  2.03it/s] 74%|███████▎  | 8162/11074 [1:09:43<23:56,  2.03it/s] 74%|███████▎  | 8163/11074 [1:09:43<23:55,  2.03it/s] 74%|███████▎  | 8164/11074 [1:09:44<23:55,  2.03it/s] 74%|███████▎  | 8165/11074 [1:09:44<23:55,  2.03it/s] 74%|███████▎  | 8166/11074 [1:09:45<23:54,  2.03it/s] 74%|███████▎  | 8167/11074 [1:09:45<23:55,  2.03it/s] 74%|███████▍  | 8168/11074 [1:09:46<23:53,  2.03it/s] 74%|███████▍  | 8169/11074 [1:09:46<23:53,  2.03it/s] 74%|███████▍  | 8170/11074 [1:09:47<23:51,  2.03it/s] 74%|███████▍  | 8171/11074 [1:09:47<23:49,  2.03it/s] 74%|███████▍  | 8172/11074 [1:09:48<23:51,  2.03it/s] 74%|███████▍  | 8173/11074 [1:09:48<23:49,  2.03it/s] 74%|███████▍  | 8174/11074 [1:09:49<23:49,  2.03it/s] 74%|███████▍  | 8175/11074 [1:09:49<23:49,  2.03it/s]                                                      {'loss': 3.2276, 'grad_norm': 0.2349643111228943, 'learning_rate': 0.00019465109757138034, 'epoch': 10.33}
- 74%|███████▍  | 8175/11074 [1:09:49<23:49,  2.03it/s] 74%|███████▍  | 8176/11074 [1:09:50<23:50,  2.03it/s] 74%|███████▍  | 8177/11074 [1:09:50<23:51,  2.02it/s] 74%|███████▍  | 8178/11074 [1:09:51<23:51,  2.02it/s] 74%|███████▍  | 8179/11074 [1:09:51<23:50,  2.02it/s] 74%|███████▍  | 8180/11074 [1:09:52<23:48,  2.03it/s] 74%|███████▍  | 8181/11074 [1:09:52<23:48,  2.02it/s] 74%|███████▍  | 8182/11074 [1:09:53<23:47,  2.03it/s] 74%|███████▍  | 8183/11074 [1:09:53<23:47,  2.03it/s] 74%|███████▍  | 8184/11074 [1:09:54<23:47,  2.02it/s] 74%|███████▍  | 8185/11074 [1:09:54<23:47,  2.02it/s] 74%|███████▍  | 8186/11074 [1:09:55<23:46,  2.02it/s] 74%|███████▍  | 8187/11074 [1:09:55<23:45,  2.03it/s] 74%|███████▍  | 8188/11074 [1:09:56<23:43,  2.03it/s] 74%|███████▍  | 8189/11074 [1:09:56<23:45,  2.02it/s] 74%|███████▍  | 8190/11074 [1:09:56<23:44,  2.03it/s] 74%|███████▍  | 8191/11074 [1:09:57<23:43,  2.03it/s] 74%|███████▍  | 8192/11074 [1:09:57<23:43,  2.02it/s] 74%|███████▍  | 8193/11074 [1:09:58<23:44,  2.02it/s] 74%|███████▍  | 8194/11074 [1:09:58<23:43,  2.02it/s] 74%|███████▍  | 8195/11074 [1:09:59<23:41,  2.03it/s] 74%|███████▍  | 8196/11074 [1:09:59<23:41,  2.02it/s] 74%|███████▍  | 8197/11074 [1:10:00<23:39,  2.03it/s] 74%|███████▍  | 8198/11074 [1:10:00<23:39,  2.03it/s] 74%|███████▍  | 8199/11074 [1:10:01<23:39,  2.03it/s] 74%|███████▍  | 8200/11074 [1:10:01<23:39,  2.02it/s]                                                      {'loss': 3.2323, 'grad_norm': 0.23992149531841278, 'learning_rate': 0.00019154036140873353, 'epoch': 10.36}
- 74%|███████▍  | 8200/11074 [1:10:01<23:39,  2.02it/s] 74%|███████▍  | 8201/11074 [1:10:02<23:39,  2.02it/s] 74%|███████▍  | 8202/11074 [1:10:02<23:39,  2.02it/s] 74%|███████▍  | 8203/11074 [1:10:03<23:38,  2.02it/s] 74%|███████▍  | 8204/11074 [1:10:03<23:38,  2.02it/s] 74%|███████▍  | 8205/11074 [1:10:04<23:37,  2.02it/s] 74%|███████▍  | 8206/11074 [1:10:04<23:34,  2.03it/s] 74%|███████▍  | 8207/11074 [1:10:05<23:35,  2.03it/s] 74%|███████▍  | 8208/11074 [1:10:05<23:32,  2.03it/s] 74%|███████▍  | 8209/11074 [1:10:06<23:33,  2.03it/s] 74%|███████▍  | 8210/11074 [1:10:06<23:32,  2.03it/s] 74%|███████▍  | 8211/11074 [1:10:07<23:32,  2.03it/s] 74%|███████▍  | 8212/11074 [1:10:07<23:33,  2.03it/s] 74%|███████▍  | 8213/11074 [1:10:08<23:32,  2.03it/s] 74%|███████▍  | 8214/11074 [1:10:08<23:32,  2.02it/s] 74%|███████▍  | 8215/11074 [1:10:09<23:33,  2.02it/s] 74%|███████▍  | 8216/11074 [1:10:09<23:32,  2.02it/s] 74%|███████▍  | 8217/11074 [1:10:10<23:31,  2.02it/s] 74%|███████▍  | 8218/11074 [1:10:10<23:31,  2.02it/s] 74%|███████▍  | 8219/11074 [1:10:11<23:29,  2.03it/s] 74%|███████▍  | 8220/11074 [1:10:11<23:30,  2.02it/s] 74%|███████▍  | 8221/11074 [1:10:12<23:29,  2.02it/s] 74%|███████▍  | 8222/11074 [1:10:12<23:28,  2.02it/s] 74%|███████▍  | 8223/11074 [1:10:13<23:27,  2.03it/s] 74%|███████▍  | 8224/11074 [1:10:13<23:27,  2.02it/s] 74%|███████▍  | 8225/11074 [1:10:14<23:27,  2.02it/s]{'loss': 3.2261, 'grad_norm': 0.24224504828453064, 'learning_rate': 0.00018844878253702113, 'epoch': 10.39}                                                      
- 74%|███████▍  | 8225/11074 [1:10:14<23:27,  2.02it/s] 74%|███████▍  | 8226/11074 [1:10:14<23:29,  2.02it/s] 74%|███████▍  | 8227/11074 [1:10:15<23:26,  2.02it/s] 74%|███████▍  | 8228/11074 [1:10:15<23:27,  2.02it/s] 74%|███████▍  | 8229/11074 [1:10:16<23:24,  2.02it/s] 74%|███████▍  | 8230/11074 [1:10:16<23:25,  2.02it/s] 74%|███████▍  | 8231/11074 [1:10:17<23:25,  2.02it/s] 74%|███████▍  | 8232/11074 [1:10:17<23:24,  2.02it/s] 74%|███████▍  | 8233/11074 [1:10:18<23:23,  2.02it/s] 74%|███████▍  | 8234/11074 [1:10:18<23:23,  2.02it/s] 74%|███████▍  | 8235/11074 [1:10:19<23:22,  2.02it/s] 74%|███████▍  | 8236/11074 [1:10:19<23:21,  2.03it/s] 74%|███████▍  | 8237/11074 [1:10:20<23:21,  2.02it/s] 74%|███████▍  | 8238/11074 [1:10:20<23:19,  2.03it/s] 74%|███████▍  | 8239/11074 [1:10:21<23:20,  2.02it/s] 74%|███████▍  | 8240/11074 [1:10:21<23:18,  2.03it/s] 74%|███████▍  | 8241/11074 [1:10:22<23:20,  2.02it/s] 74%|███████▍  | 8242/11074 [1:10:22<23:18,  2.03it/s] 74%|███████▍  | 8243/11074 [1:10:23<23:18,  2.02it/s] 74%|███████▍  | 8244/11074 [1:10:23<23:16,  2.03it/s] 74%|███████▍  | 8245/11074 [1:10:24<23:15,  2.03it/s] 74%|███████▍  | 8246/11074 [1:10:24<25:18,  1.86it/s] 74%|███████▍  | 8247/11074 [1:10:25<24:41,  1.91it/s] 74%|███████▍  | 8248/11074 [1:10:25<24:15,  1.94it/s] 74%|███████▍  | 8249/11074 [1:10:26<23:56,  1.97it/s] 74%|███████▍  | 8250/11074 [1:10:26<23:44,  1.98it/s]{'loss': 3.2294, 'grad_norm': 0.24246717989444733, 'learning_rate': 0.00018537655296280926, 'epoch': 10.42}
-                                                       74%|███████▍  | 8250/11074 [1:10:26<23:44,  1.98it/s] 75%|███████▍  | 8251/11074 [1:10:27<23:37,  1.99it/s] 75%|███████▍  | 8252/11074 [1:10:27<23:31,  2.00it/s] 75%|███████▍  | 8253/11074 [1:10:28<23:23,  2.01it/s] 75%|███████▍  | 8254/11074 [1:10:28<23:22,  2.01it/s] 75%|███████▍  | 8255/11074 [1:10:29<23:16,  2.02it/s] 75%|███████▍  | 8256/11074 [1:10:29<23:14,  2.02it/s] 75%|███████▍  | 8257/11074 [1:10:30<23:12,  2.02it/s] 75%|███████▍  | 8258/11074 [1:10:30<23:12,  2.02it/s] 75%|███████▍  | 8259/11074 [1:10:31<23:12,  2.02it/s] 75%|███████▍  | 8260/11074 [1:10:31<23:09,  2.02it/s] 75%|███████▍  | 8261/11074 [1:10:32<23:09,  2.02it/s] 75%|███████▍  | 8262/11074 [1:10:32<23:07,  2.03it/s] 75%|███████▍  | 8263/11074 [1:10:33<23:08,  2.02it/s] 75%|███████▍  | 8264/11074 [1:10:33<23:06,  2.03it/s] 75%|███████▍  | 8265/11074 [1:10:34<23:06,  2.03it/s] 75%|███████▍  | 8266/11074 [1:10:34<23:07,  2.02it/s] 75%|███████▍  | 8267/11074 [1:10:35<23:06,  2.03it/s] 75%|███████▍  | 8268/11074 [1:10:35<23:05,  2.03it/s] 75%|███████▍  | 8269/11074 [1:10:36<23:04,  2.03it/s] 75%|███████▍  | 8270/11074 [1:10:36<23:04,  2.03it/s] 75%|███████▍  | 8271/11074 [1:10:37<23:04,  2.03it/s] 75%|███████▍  | 8272/11074 [1:10:37<23:03,  2.02it/s] 75%|███████▍  | 8273/11074 [1:10:38<23:02,  2.03it/s] 75%|███████▍  | 8274/11074 [1:10:38<23:01,  2.03it/s] 75%|███████▍  | 8275/11074 [1:10:39<23:00,  2.03it/s]{'loss': 3.2352, 'grad_norm': 0.23462679982185364, 'learning_rate': 0.00018232386349094988, 'epoch': 10.45}
-                                                       75%|███████▍  | 8275/11074 [1:10:39<23:00,  2.03it/s] 75%|███████▍  | 8276/11074 [1:10:39<23:02,  2.02it/s] 75%|███████▍  | 8277/11074 [1:10:40<23:02,  2.02it/s] 75%|███████▍  | 8278/11074 [1:10:40<23:01,  2.02it/s] 75%|███████▍  | 8279/11074 [1:10:41<23:00,  2.02it/s] 75%|███████▍  | 8280/11074 [1:10:41<22:59,  2.02it/s] 75%|███████▍  | 8281/11074 [1:10:42<22:58,  2.03it/s] 75%|███████▍  | 8282/11074 [1:10:42<22:58,  2.02it/s] 75%|███████▍  | 8283/11074 [1:10:43<22:57,  2.03it/s] 75%|███████▍  | 8284/11074 [1:10:43<22:56,  2.03it/s] 75%|███████▍  | 8285/11074 [1:10:44<22:56,  2.03it/s] 75%|███████▍  | 8286/11074 [1:10:44<22:56,  2.02it/s] 75%|███████▍  | 8287/11074 [1:10:45<22:56,  2.02it/s] 75%|███████▍  | 8288/11074 [1:10:45<22:56,  2.02it/s] 75%|███████▍  | 8289/11074 [1:10:46<22:54,  2.03it/s] 75%|███████▍  | 8290/11074 [1:10:46<22:54,  2.03it/s] 75%|███████▍  | 8291/11074 [1:10:47<22:52,  2.03it/s] 75%|███████▍  | 8292/11074 [1:10:47<22:53,  2.03it/s] 75%|███████▍  | 8293/11074 [1:10:48<22:51,  2.03it/s] 75%|███████▍  | 8294/11074 [1:10:48<22:54,  2.02it/s] 75%|███████▍  | 8295/11074 [1:10:48<22:52,  2.02it/s] 75%|███████▍  | 8296/11074 [1:10:49<22:51,  2.03it/s] 75%|███████▍  | 8297/11074 [1:10:49<22:49,  2.03it/s] 75%|███████▍  | 8298/11074 [1:10:50<22:47,  2.03it/s] 75%|███████▍  | 8299/11074 [1:10:50<22:49,  2.03it/s] 75%|███████▍  | 8300/11074 [1:10:51<22:48,  2.03it/s]                                                      {'loss': 3.2331, 'grad_norm': 0.23991726338863373, 'learning_rate': 0.00017929090371273144, 'epoch': 10.49}
- 75%|███████▍  | 8300/11074 [1:10:51<22:48,  2.03it/s] 75%|███████▍  | 8301/11074 [1:10:51<22:50,  2.02it/s] 75%|███████▍  | 8302/11074 [1:10:52<22:49,  2.02it/s] 75%|███████▍  | 8303/11074 [1:10:52<22:50,  2.02it/s] 75%|███████▍  | 8304/11074 [1:10:53<22:49,  2.02it/s] 75%|███████▍  | 8305/11074 [1:10:53<22:48,  2.02it/s] 75%|███████▌  | 8306/11074 [1:10:54<22:47,  2.02it/s] 75%|███████▌  | 8307/11074 [1:10:54<22:48,  2.02it/s] 75%|███████▌  | 8308/11074 [1:10:55<22:46,  2.02it/s] 75%|███████▌  | 8309/11074 [1:10:55<22:46,  2.02it/s] 75%|████���██▌  | 8310/11074 [1:10:56<22:44,  2.03it/s] 75%|███████▌  | 8311/11074 [1:10:56<22:44,  2.03it/s] 75%|███████▌  | 8312/11074 [1:10:57<22:43,  2.03it/s] 75%|███████▌  | 8313/11074 [1:10:57<22:43,  2.02it/s] 75%|███████▌  | 8314/11074 [1:10:58<22:43,  2.02it/s] 75%|███████▌  | 8315/11074 [1:10:58<22:42,  2.02it/s] 75%|███████▌  | 8316/11074 [1:10:59<22:41,  2.03it/s] 75%|███████▌  | 8317/11074 [1:10:59<22:41,  2.03it/s] 75%|███████▌  | 8318/11074 [1:11:00<22:39,  2.03it/s] 75%|███████▌  | 8319/11074 [1:11:00<22:39,  2.03it/s] 75%|███████▌  | 8320/11074 [1:11:01<22:39,  2.03it/s] 75%|███████▌  | 8321/11074 [1:11:01<22:37,  2.03it/s] 75%|███████▌  | 8322/11074 [1:11:02<22:38,  2.03it/s] 75%|███████▌  | 8323/11074 [1:11:02<22:36,  2.03it/s] 75%|███████▌  | 8324/11074 [1:11:03<22:36,  2.03it/s] 75%|███████▌  | 8325/11074 [1:11:03<22:35,  2.03it/s]                                                      {'loss': 3.244, 'grad_norm': 0.24260075390338898, 'learning_rate': 0.0001762778619941043, 'epoch': 10.52}
- 75%|███████▌  | 8325/11074 [1:11:03<22:35,  2.03it/s] 75%|███████▌  | 8326/11074 [1:11:04<24:35,  1.86it/s] 75%|███████▌  | 8327/11074 [1:11:04<23:58,  1.91it/s] 75%|███████▌  | 8328/11074 [1:11:05<23:32,  1.94it/s] 75%|███████▌  | 8329/11074 [1:11:05<23:14,  1.97it/s] 75%|███████▌  | 8330/11074 [1:11:06<23:02,  1.99it/s] 75%|███████▌  | 8331/11074 [1:11:06<22:53,  2.00it/s] 75%|███████▌  | 8332/11074 [1:11:07<22:47,  2.00it/s] 75%|███████▌  | 8333/11074 [1:11:07<22:42,  2.01it/s] 75%|███████▌  | 8334/11074 [1:11:08<22:37,  2.02it/s] 75%|███████▌  | 8335/11074 [1:11:08<22:36,  2.02it/s] 75%|███████▌  | 8336/11074 [1:11:09<22:35,  2.02it/s] 75%|███████▌  | 8337/11074 [1:11:09<22:34,  2.02it/s] 75%|███████▌  | 8338/11074 [1:11:10<22:32,  2.02it/s] 75%|███████▌  | 8339/11074 [1:11:10<22:32,  2.02it/s] 75%|███████▌  | 8340/11074 [1:11:11<22:31,  2.02it/s] 75%|███████▌  | 8341/11074 [1:11:11<22:31,  2.02it/s] 75%|███████▌  | 8342/11074 [1:11:12<22:29,  2.02it/s] 75%|███████▌  | 8343/11074 [1:11:12<22:29,  2.02it/s] 75%|███████▌  | 8344/11074 [1:11:13<22:27,  2.03it/s] 75%|███████▌  | 8345/11074 [1:11:13<22:26,  2.03it/s] 75%|███████▌  | 8346/11074 [1:11:14<22:27,  2.03it/s] 75%|███████▌  | 8347/11074 [1:11:14<22:24,  2.03it/s] 75%|███████▌  | 8348/11074 [1:11:15<22:25,  2.03it/s] 75%|███████▌  | 8349/11074 [1:11:15<22:24,  2.03it/s] 75%|███████▌  | 8350/11074 [1:11:16<22:24,  2.03it/s]{'loss': 3.2382, 'grad_norm': 0.23930463194847107, 'learning_rate': 0.0001732849254639809, 'epoch': 10.55}                                                      
- 75%|███████▌  | 8350/11074 [1:11:16<22:24,  2.03it/s] 75%|███████▌  | 8351/11074 [1:11:16<22:25,  2.02it/s] 75%|███████▌  | 8352/11074 [1:11:17<22:26,  2.02it/s] 75%|███████▌  | 8353/11074 [1:11:17<22:25,  2.02it/s] 75%|███████▌  | 8354/11074 [1:11:18<22:24,  2.02it/s] 75%|███████▌  | 8355/11074 [1:11:18<22:22,  2.03it/s] 75%|███████▌  | 8356/11074 [1:11:19<22:22,  2.02it/s] 75%|███████▌  | 8357/11074 [1:11:19<22:21,  2.03it/s] 75%|███████▌  | 8358/11074 [1:11:20<22:19,  2.03it/s] 75%|███████▌  | 8359/11074 [1:11:20<22:19,  2.03it/s] 75%|███████▌  | 8360/11074 [1:11:21<22:17,  2.03it/s] 76%|███████▌  | 8361/11074 [1:11:21<22:17,  2.03it/s] 76%|███████▌  | 8362/11074 [1:11:22<22:17,  2.03it/s] 76%|███████▌  | 8363/11074 [1:11:22<22:18,  2.03it/s] 76%|███████▌  | 8364/11074 [1:11:23<22:17,  2.03it/s] 76%|███████▌  | 8365/11074 [1:11:23<22:18,  2.02it/s] 76%|███████▌  | 8366/11074 [1:11:24<22:15,  2.03it/s] 76%|███████▌  | 8367/11074 [1:11:24<22:16,  2.03it/s] 76%|███████▌  | 8368/11074 [1:11:25<22:16,  2.02it/s] 76%|███████▌  | 8369/11074 [1:11:25<22:16,  2.02it/s] 76%|███████▌  | 8370/11074 [1:11:26<22:16,  2.02it/s] 76%|███████▌  | 8371/11074 [1:11:26<22:15,  2.02it/s] 76%|███████▌  | 8372/11074 [1:11:27<22:15,  2.02it/s] 76%|███████▌  | 8373/11074 [1:11:27<22:14,  2.02it/s] 76%|███████▌  | 8374/11074 [1:11:28<22:15,  2.02it/s] 76%|███████▌  | 8375/11074 [1:11:28<22:13,  2.02it/s]{'loss': 3.2304, 'grad_norm': 0.23772986233234406, 'learning_rate': 0.000170312280002615, 'epoch': 10.58}                                                      
- 76%|███████▌  | 8375/11074 [1:11:28<22:13,  2.02it/s] 76%|███████▌  | 8376/11074 [1:11:29<22:15,  2.02it/s] 76%|███████▌  | 8377/11074 [1:11:29<22:13,  2.02it/s] 76%|███████▌  | 8378/11074 [1:11:30<22:13,  2.02it/s] 76%|███████▌  | 8379/11074 [1:11:30<22:11,  2.02it/s] 76%|███████▌  | 8380/11074 [1:11:31<22:12,  2.02it/s] 76%|███████▌  | 8381/11074 [1:11:31<22:11,  2.02it/s] 76%|███████▌  | 8382/11074 [1:11:32<22:11,  2.02it/s] 76%|███████▌  | 8383/11074 [1:11:32<22:09,  2.02it/s] 76%|███████▌  | 8384/11074 [1:11:33<22:09,  2.02it/s] 76%|███████▌  | 8385/11074 [1:11:33<22:07,  2.03it/s] 76%|███████▌  | 8386/11074 [1:11:34<22:07,  2.02it/s] 76%|███████▌  | 8387/11074 [1:11:34<22:07,  2.02it/s] 76%|███████▌  | 8388/11074 [1:11:35<22:06,  2.02it/s] 76%|███████▌  | 8389/11074 [1:11:35<22:06,  2.02it/s] 76%|███████▌  | 8390/11074 [1:11:36<22:04,  2.03it/s] 76%|███████▌  | 8391/11074 [1:11:36<22:05,  2.02it/s] 76%|███████▌  | 8392/11074 [1:11:37<22:03,  2.03it/s] 76%|███████▌  | 8393/11074 [1:11:37<22:04,  2.02it/s] 76%|███████▌  | 8394/11074 [1:11:38<22:02,  2.03it/s] 76%|███████▌  | 8395/11074 [1:11:38<22:02,  2.03it/s] 76%|███████▌  | 8396/11074 [1:11:39<22:01,  2.03it/s] 76%|███████▌  | 8397/11074 [1:11:39<22:00,  2.03it/s] 76%|███████▌  | 8398/11074 [1:11:39<22:01,  2.03it/s] 76%|███████▌  | 8399/11074 [1:11:40<22:00,  2.03it/s] 76%|███████▌  | 8400/11074 [1:11:40<22:00,  2.02it/s]{'loss': 3.2414, 'grad_norm': 0.23746074736118317, 'learning_rate': 0.00016736011023005699, 'epoch': 10.61}
-                                                       76%|███████▌  | 8400/11074 [1:11:40<22:00,  2.02it/s] 76%|███████▌  | 8401/11074 [1:11:41<22:01,  2.02it/s] 76%|███████▌  | 8402/11074 [1:11:41<22:02,  2.02it/s] 76%|███████▌  | 8403/11074 [1:11:42<22:00,  2.02it/s] 76%|███████▌  | 8404/11074 [1:11:42<22:01,  2.02it/s] 76%|███████▌  | 8405/11074 [1:11:43<21:58,  2.02it/s] 76%|███████▌  | 8406/11074 [1:11:43<21:59,  2.02it/s] 76%|███████▌  | 8407/11074 [1:11:44<21:57,  2.02it/s] 76%|███████▌  | 8408/11074 [1:11:44<21:57,  2.02it/s] 76%|███████▌  | 8409/11074 [1:11:45<21:57,  2.02it/s] 76%|███████▌  | 8410/11074 [1:11:45<21:57,  2.02it/s] 76%|███████▌  | 8411/11074 [1:11:46<21:57,  2.02it/s] 76%|███████▌  | 8412/11074 [1:11:46<21:56,  2.02it/s] 76%|███████▌  | 8413/11074 [1:11:47<21:56,  2.02it/s] 76%|███████▌  | 8414/11074 [1:11:47<21:55,  2.02it/s] 76%|███████▌  | 8415/11074 [1:11:48<21:55,  2.02it/s] 76%|███████▌  | 8416/11074 [1:11:48<21:54,  2.02it/s] 76%|███████▌  | 8417/11074 [1:11:49<21:54,  2.02it/s] 76%|███████▌  | 8418/11074 [1:11:49<21:53,  2.02it/s] 76%|███████▌  | 8419/11074 [1:11:50<21:54,  2.02it/s] 76%|███████▌  | 8420/11074 [1:11:50<21:53,  2.02it/s] 76%|███████▌  | 8421/11074 [1:11:51<21:51,  2.02it/s] 76%|███████▌  | 8422/11074 [1:11:51<21:51,  2.02it/s] 76%|███████▌  | 8423/11074 [1:11:52<21:51,  2.02it/s] 76%|███████▌  | 8424/11074 [1:11:52<21:52,  2.02it/s] 76%|███████▌  | 8425/11074 [1:11:53<21:50,  2.02it/s]{'loss': 3.2383, 'grad_norm': 0.23675471544265747, 'learning_rate': 0.0001644285994946871, 'epoch': 10.64}                                                      
- 76%|███████▌  | 8425/11074 [1:11:53<21:50,  2.02it/s] 76%|███████▌  | 8426/11074 [1:11:53<21:56,  2.01it/s] 76%|███████▌  | 8427/11074 [1:11:54<21:52,  2.02it/s] 76%|███████▌  | 8428/11074 [1:11:54<21:50,  2.02it/s] 76%|███████▌  | 8429/11074 [1:11:55<21:47,  2.02it/s] 76%|███████▌  | 8430/11074 [1:11:55<21:48,  2.02it/s] 76%|███████▌  | 8431/11074 [1:11:56<21:46,  2.02it/s] 76%|███████▌  | 8432/11074 [1:11:56<21:46,  2.02it/s] 76%|███████▌  | 8433/11074 [1:11:57<21:45,  2.02it/s] 76%|███████▌  | 8434/11074 [1:11:57<21:43,  2.03it/s] 76%|███████▌  | 8435/11074 [1:11:58<21:43,  2.02it/s] 76%|███████▌  | 8436/11074 [1:11:58<21:41,  2.03it/s] 76%|███████▌  | 8437/11074 [1:11:59<21:41,  2.03it/s] 76%|███████▌  | 8438/11074 [1:11:59<21:41,  2.03it/s] 76%|███████▌  | 8439/11074 [1:12:00<21:40,  2.03it/s] 76%|███████▌  | 8440/11074 [1:12:00<21:40,  2.02it/s] 76%|███████▌  | 8441/11074 [1:12:01<21:38,  2.03it/s] 76%|███████▌  | 8442/11074 [1:12:01<21:39,  2.03it/s] 76%|███████▌  | 8443/11074 [1:12:02<21:37,  2.03it/s] 76%|███████▋  | 8444/11074 [1:12:02<21:37,  2.03it/s] 76%|███████▋  | 8445/11074 [1:12:03<21:37,  2.03it/s] 76%|███████▋  | 8446/11074 [1:12:03<21:38,  2.02it/s] 76%|███████▋  | 8447/11074 [1:12:04<21:38,  2.02it/s] 76%|███████▋  | 8448/11074 [1:12:04<21:38,  2.02it/s] 76%|███████▋  | 8449/11074 [1:12:05<21:36,  2.02it/s] 76%|███████▋  | 8450/11074 [1:12:05<21:34,  2.03it/s]                                                      {'loss': 3.2382, 'grad_norm': 0.23656344413757324, 'learning_rate': 0.00016151792986182962, 'epoch': 10.68}
- 76%|███████▋  | 8450/11074 [1:12:05<21:34,  2.03it/s] 76%|███████▋  | 8451/11074 [1:12:06<21:37,  2.02it/s] 76%|███████▋  | 8452/11074 [1:12:06<21:34,  2.03it/s] 76%|███████▋  | 8453/11074 [1:12:07<21:34,  2.02it/s] 76%|███████▋  | 8454/11074 [1:12:07<21:33,  2.03it/s] 76%|███████▋  | 8455/11074 [1:12:08<21:33,  2.02it/s] 76%|███████▋  | 8456/11074 [1:12:08<21:33,  2.02it/s] 76%|███████▋  | 8457/11074 [1:12:09<21:34,  2.02it/s] 76%|███████▋  | 8458/11074 [1:12:09<21:33,  2.02it/s] 76%|███████▋  | 8459/11074 [1:12:10<21:32,  2.02it/s] 76%|███████▋  | 8460/11074 [1:12:10<21:30,  2.03it/s] 76%|███████▋  | 8461/11074 [1:12:11<21:31,  2.02it/s] 76%|███████▋  | 8462/11074 [1:12:11<21:29,  2.02it/s] 76%|███████▋  | 8463/11074 [1:12:12<21:30,  2.02it/s] 76%|███████▋  | 8464/11074 [1:12:12<21:29,  2.02it/s] 76%|███████▋  | 8465/11074 [1:12:13<21:28,  2.02it/s] 76%|███████▋  | 8466/11074 [1:12:13<21:28,  2.02it/s] 76%|███████▋  | 8467/11074 [1:12:14<21:27,  2.03it/s] 76%|███████▋  | 8468/11074 [1:12:14<21:27,  2.02it/s] 76%|███████▋  | 8469/11074 [1:12:15<21:26,  2.03it/s] 76%|███████▋  | 8470/11074 [1:12:15<21:26,  2.02it/s] 76%|███████▋  | 8471/11074 [1:12:16<21:24,  2.03it/s] 77%|███████▋  | 8472/11074 [1:12:16<21:24,  2.03it/s] 77%|███████▋  | 8473/11074 [1:12:17<21:24,  2.03it/s] 77%|███████▋  | 8474/11074 [1:12:17<21:23,  2.02it/s] 77%|███████▋  | 8475/11074 [1:12:18<21:23,  2.03it/s]{'loss': 3.2461, 'grad_norm': 0.23413671553134918, 'learning_rate': 0.00015862828210244434, 'epoch': 10.71}                                                      
- 77%|███████▋  | 8475/11074 [1:12:18<21:23,  2.03it/s] 77%|███████▋  | 8476/11074 [1:12:18<21:25,  2.02it/s] 77%|███████▋  | 8477/11074 [1:12:19<21:23,  2.02it/s] 77%|███████▋  | 8478/11074 [1:12:19<21:23,  2.02it/s] 77%|███████▋  | 8479/11074 [1:12:20<21:22,  2.02it/s] 77%|███████▋  | 8480/11074 [1:12:20<21:21,  2.02it/s] 77%|███████▋  | 8481/11074 [1:12:21<21:21,  2.02it/s] 77%|███████▋  | 8482/11074 [1:12:21<21:20,  2.02it/s] 77%|███████▋  | 8483/11074 [1:12:22<21:20,  2.02it/s] 77%|███████▋  | 8484/11074 [1:12:22<21:19,  2.02it/s] 77%|███████▋  | 8485/11074 [1:12:22<21:20,  2.02it/s] 77%|███████▋  | 8486/11074 [1:12:23<21:19,  2.02it/s] 77%|███████▋  | 8487/11074 [1:12:23<21:18,  2.02it/s] 77%|███████▋  | 8488/11074 [1:12:24<21:17,  2.03it/s] 77%|███████▋  | 8489/11074 [1:12:24<21:16,  2.02it/s] 77%|███████▋  | 8490/11074 [1:12:25<21:15,  2.03it/s] 77%|███████▋  | 8491/11074 [1:12:25<21:16,  2.02it/s] 77%|███████▋  | 8492/11074 [1:12:26<21:14,  2.03it/s] 77%|███████▋  | 8493/11074 [1:12:26<21:14,  2.02it/s] 77%|███████▋  | 8494/11074 [1:12:27<21:13,  2.03it/s] 77%|███████▋  | 8495/11074 [1:12:27<21:14,  2.02it/s] 77%|███████▋  | 8496/11074 [1:12:28<21:13,  2.02it/s] 77%|███████▋  | 8497/11074 [1:12:28<21:12,  2.03it/s] 77%|███████▋  | 8498/11074 [1:12:29<21:12,  2.02it/s] 77%|███████▋  | 8499/11074 [1:12:29<21:12,  2.02it/s] 77%|███████▋  | 8500/11074 [1:12:30<21:12,  2.02it/s]                                                      {'loss': 3.2367, 'grad_norm': 0.23599669337272644, 'learning_rate': 0.0001557598356819, 'epoch': 10.74}
- 77%|█��█████▋  | 8500/11074 [1:12:30<21:12,  2.02it/s] 77%|███████▋  | 8501/11074 [1:12:30<21:14,  2.02it/s] 77%|███████▋  | 8502/11074 [1:12:31<21:12,  2.02it/s] 77%|███████▋  | 8503/11074 [1:12:31<21:12,  2.02it/s] 77%|███████▋  | 8504/11074 [1:12:32<21:10,  2.02it/s] 77%|███████▋  | 8505/11074 [1:12:32<21:09,  2.02it/s] 77%|███████▋  | 8506/11074 [1:12:33<21:09,  2.02it/s] 77%|███████▋  | 8507/11074 [1:12:33<21:07,  2.02it/s] 77%|███████▋  | 8508/11074 [1:12:34<21:08,  2.02it/s] 77%|███████▋  | 8509/11074 [1:12:34<21:08,  2.02it/s] 77%|███████▋  | 8510/11074 [1:12:35<21:07,  2.02it/s] 77%|███████▋  | 8511/11074 [1:12:35<21:06,  2.02it/s] 77%|███████▋  | 8512/11074 [1:12:36<21:06,  2.02it/s] 77%|███████▋  | 8513/11074 [1:12:36<21:03,  2.03it/s] 77%|███████▋  | 8514/11074 [1:12:37<21:03,  2.03it/s] 77%|███████▋  | 8515/11074 [1:12:37<21:03,  2.03it/s] 77%|███████▋  | 8516/11074 [1:12:38<21:03,  2.02it/s] 77%|███████▋  | 8517/11074 [1:12:38<21:02,  2.03it/s] 77%|███████▋  | 8518/11074 [1:12:39<21:01,  2.03it/s] 77%|███████▋  | 8519/11074 [1:12:39<21:01,  2.03it/s] 77%|███████▋  | 8520/11074 [1:12:40<20:59,  2.03it/s] 77%|███████▋  | 8521/11074 [1:12:40<21:00,  2.03it/s] 77%|███████▋  | 8522/11074 [1:12:41<20:58,  2.03it/s] 77%|███████▋  | 8523/11074 [1:12:41<20:59,  2.03it/s] 77%|███████▋  | 8524/11074 [1:12:42<20:58,  2.03it/s] 77%|███████▋  | 8525/11074 [1:12:42<20:58,  2.03it/s]{'loss': 3.2446, 'grad_norm': 0.2339746206998825, 'learning_rate': 0.00015291276874882887, 'epoch': 10.77}
-                                                       77%|███████▋  | 8525/11074 [1:12:42<20:58,  2.03it/s] 77%|███████▋  | 8526/11074 [1:12:43<20:59,  2.02it/s] 77%|███████▋  | 8527/11074 [1:12:43<20:59,  2.02it/s] 77%|███████▋  | 8528/11074 [1:12:44<20:58,  2.02it/s] 77%|███████▋  | 8529/11074 [1:12:44<20:57,  2.02it/s] 77%|███████▋  | 8530/11074 [1:12:45<20:57,  2.02it/s] 77%|███████▋  | 8531/11074 [1:12:45<20:55,  2.03it/s] 77%|███████▋  | 8532/11074 [1:12:46<20:55,  2.02it/s] 77%|███████▋  | 8533/11074 [1:12:46<20:54,  2.03it/s] 77%|███████▋  | 8534/11074 [1:12:47<20:54,  2.02it/s] 77%|███████▋  | 8535/11074 [1:12:47<20:53,  2.03it/s] 77%|███████▋  | 8536/11074 [1:12:48<20:53,  2.02it/s] 77%|███████▋  | 8537/11074 [1:12:48<20:54,  2.02it/s] 77%|███████▋  | 8538/11074 [1:12:49<20:53,  2.02it/s] 77%|███████▋  | 8539/11074 [1:12:49<20:54,  2.02it/s] 77%|███████▋  | 8540/11074 [1:12:50<20:55,  2.02it/s] 77%|███████▋  | 8541/11074 [1:12:50<20:54,  2.02it/s] 77%|███████▋  | 8542/11074 [1:12:51<20:52,  2.02it/s] 77%|███████▋  | 8543/11074 [1:12:51<20:52,  2.02it/s] 77%|███████▋  | 8544/11074 [1:12:52<20:51,  2.02it/s] 77%|███████▋  | 8545/11074 [1:12:52<20:51,  2.02it/s] 77%|███████▋  | 8546/11074 [1:12:53<20:50,  2.02it/s] 77%|███████▋  | 8547/11074 [1:12:53<20:48,  2.02it/s] 77%|███████▋  | 8548/11074 [1:12:54<20:48,  2.02it/s] 77%|███████▋  | 8549/11074 [1:12:54<20:47,  2.02it/s] 77%|███████▋  | 8550/11074 [1:12:55<20:47,  2.02it/s]{'loss': 3.24, 'grad_norm': 0.24058009684085846, 'learning_rate': 0.00015008725812406143, 'epoch': 10.8}
-                                                       77%|███████▋  | 8550/11074 [1:12:55<20:47,  2.02it/s] 77%|███████▋  | 8551/11074 [1:12:55<20:48,  2.02it/s] 77%|███████▋  | 8552/11074 [1:12:56<20:48,  2.02it/s] 77%|███████▋  | 8553/11074 [1:12:56<20:47,  2.02it/s] 77%|███████▋  | 8554/11074 [1:12:57<20:46,  2.02it/s] 77%|███████▋  | 8555/11074 [1:12:57<20:46,  2.02it/s] 77%|███████▋  | 8556/11074 [1:12:58<20:44,  2.02it/s] 77%|███████▋  | 8557/11074 [1:12:58<20:43,  2.02it/s] 77%|███████▋  | 8558/11074 [1:12:59<20:42,  2.03it/s] 77%|███████▋  | 8559/11074 [1:12:59<20:41,  2.03it/s] 77%|███████▋  | 8560/11074 [1:13:00<20:41,  2.03it/s] 77%|███████▋  | 8561/11074 [1:13:00<20:41,  2.02it/s] 77%|███████▋  | 8562/11074 [1:13:01<20:41,  2.02it/s] 77%|███████▋  | 8563/11074 [1:13:01<20:40,  2.02it/s] 77%|███████▋  | 8564/11074 [1:13:02<20:40,  2.02it/s] 77%|███████▋  | 8565/11074 [1:13:02<20:38,  2.03it/s] 77%|███████▋  | 8566/11074 [1:13:03<20:39,  2.02it/s] 77%|███████▋  | 8567/11074 [1:13:03<20:36,  2.03it/s] 77%|███████▋  | 8568/11074 [1:13:04<20:37,  2.03it/s] 77%|███████▋  | 8569/11074 [1:13:04<20:36,  2.03it/s] 77%|███████▋  | 8570/11074 [1:13:04<20:36,  2.02it/s] 77%|███████▋  | 8571/11074 [1:13:05<20:36,  2.02it/s] 77%|███████▋  | 8572/11074 [1:13:05<20:34,  2.03it/s] 77%|███████▋  | 8573/11074 [1:13:06<20:36,  2.02it/s] 77%|███████▋  | 8574/11074 [1:13:06<20:33,  2.03it/s] 77%|███████▋  | 8575/11074 [1:13:07<20:34,  2.02it/s]{'loss': 3.2475, 'grad_norm': 0.23284657299518585, 'learning_rate': 0.00014728347928964547, 'epoch': 10.83}
-                                                       77%|███████▋  | 8575/11074 [1:13:07<20:34,  2.02it/s] 77%|███████▋  | 8576/11074 [1:13:07<20:34,  2.02it/s] 77%|███████▋  | 8577/11074 [1:13:08<20:33,  2.02it/s] 77%|███████▋  | 8578/11074 [1:13:08<20:33,  2.02it/s] 77%|███████▋  | 8579/11074 [1:13:09<20:33,  2.02it/s] 77%|███████▋  | 8580/11074 [1:13:09<20:32,  2.02it/s] 77%|███████▋  | 8581/11074 [1:13:10<20:31,  2.02it/s] 77%|███████▋  | 8582/11074 [1:13:10<20:31,  2.02it/s] 78%|███████▊  | 8583/11074 [1:13:11<20:29,  2.03it/s] 78%|███████▊  | 8584/11074 [1:13:11<20:29,  2.02it/s] 78%|███████▊  | 8585/11074 [1:13:12<20:29,  2.02it/s] 78%|███████▊  | 8586/11074 [1:13:12<20:30,  2.02it/s] 78%|███████▊  | 8587/11074 [1:13:13<20:28,  2.02it/s] 78%|███████▊  | 8588/11074 [1:13:13<20:30,  2.02it/s] 78%|███████▊  | 8589/11074 [1:13:14<20:37,  2.01it/s] 78%|███████▊  | 8590/11074 [1:13:14<20:33,  2.01it/s] 78%|███████▊  | 8591/11074 [1:13:15<20:30,  2.02it/s] 78%|███████▊  | 8592/11074 [1:13:15<20:29,  2.02it/s] 78%|███████▊  | 8593/11074 [1:13:16<20:28,  2.02it/s] 78%|███████▊  | 8594/11074 [1:13:16<20:27,  2.02it/s] 78%|███████▊  | 8595/11074 [1:13:17<20:26,  2.02it/s] 78%|███████▊  | 8596/11074 [1:13:17<20:26,  2.02it/s] 78%|███████▊  | 8597/11074 [1:13:18<20:25,  2.02it/s] 78%|███████▊  | 8598/11074 [1:13:18<20:25,  2.02it/s] 78%|███████▊  | 8599/11074 [1:13:19<20:24,  2.02it/s] 78%|███████▊  | 8600/11074 [1:13:19<20:23,  2.02it/s]{'loss': 3.2479, 'grad_norm': 0.2400185614824295, 'learning_rate': 0.00014450160637794786, 'epoch': 10.87}
-                                                       78%|███████▊  | 8600/11074 [1:13:19<20:23,  2.02it/s] 78%|███████▊  | 8601/11074 [1:13:20<20:24,  2.02it/s] 78%|███████▊  | 8602/11074 [1:13:20<20:22,  2.02it/s] 78%|███████▊  | 8603/11074 [1:13:21<20:21,  2.02it/s] 78%|███████▊  | 8604/11074 [1:13:21<20:20,  2.02it/s] 78%|███████▊  | 8605/11074 [1:13:22<20:21,  2.02it/s] 78%|███████▊  | 8606/11074 [1:13:22<20:20,  2.02it/s] 78%|███████▊  | 8607/11074 [1:13:23<20:19,  2.02it/s] 78%|███████▊  | 8608/11074 [1:13:23<20:17,  2.02it/s] 78%|███████▊  | 8609/11074 [1:13:24<20:18,  2.02it/s] 78%|███████▊  | 8610/11074 [1:13:24<20:17,  2.02it/s] 78%|███████▊  | 8611/11074 [1:13:25<20:18,  2.02it/s] 78%|███████▊  | 8612/11074 [1:13:25<20:16,  2.02it/s] 78%|███████▊  | 8613/11074 [1:13:26<20:16,  2.02it/s] 78%|███████▊  | 8614/11074 [1:13:26<20:14,  2.02it/s] 78%|███████▊  | 8615/11074 [1:13:27<20:15,  2.02it/s] 78%|███████▊  | 8616/11074 [1:13:27<20:14,  2.02it/s] 78%|███████▊  | 8617/11074 [1:13:28<20:14,  2.02it/s] 78%|███████▊  | 8618/11074 [1:13:28<20:13,  2.02it/s] 78%|███████▊  | 8619/11074 [1:13:29<20:11,  2.03it/s] 78%|███████▊  | 8620/11074 [1:13:29<20:12,  2.02it/s] 78%|███████▊  | 8621/11074 [1:13:30<20:10,  2.03it/s] 78%|███████▊  | 8622/11074 [1:13:30<20:11,  2.02it/s] 78%|███████▊  | 8623/11074 [1:13:31<20:09,  2.03it/s] 78%|███████▊  | 8624/11074 [1:13:31<20:09,  2.03it/s] 78%|███████▊  | 8625/11074 [1:13:32<20:08,  2.03it/s]{'loss': 3.2424, 'grad_norm': 0.24160033464431763, 'learning_rate': 0.00014174181216083863, 'epoch': 10.9}
-                                                       78%|███████▊  | 8625/11074 [1:13:32<20:08,  2.03it/s] 78%|███████▊  | 8626/11074 [1:13:32<20:14,  2.02it/s] 78%|███████▊  | 8627/11074 [1:13:33<20:11,  2.02it/s] 78%|███████▊  | 8628/11074 [1:13:33<20:10,  2.02it/s] 78%|███████▊  | 8629/11074 [1:13:34<20:08,  2.02it/s] 78%|███████▊  | 8630/11074 [1:13:34<20:09,  2.02it/s] 78%|███████▊  | 8631/11074 [1:13:35<20:06,  2.02it/s] 78%|███████▊  | 8632/11074 [1:13:35<20:08,  2.02it/s] 78%|███████▊  | 8633/11074 [1:13:36<20:06,  2.02it/s] 78%|███████▊  | 8634/11074 [1:13:36<20:05,  2.02it/s] 78%|███████▊  | 8635/11074 [1:13:37<20:04,  2.02it/s] 78%|███████▊  | 8636/11074 [1:13:37<20:04,  2.02it/s] 78%|███████▊  | 8637/11074 [1:13:38<20:02,  2.03it/s] 78%|███████▊  | 8638/11074 [1:13:38<20:02,  2.03it/s] 78%|███████▊  | 8639/11074 [1:13:39<20:03,  2.02it/s] 78%|███████▊  | 8640/11074 [1:13:39<20:03,  2.02it/s] 78%|███████▊  | 8641/11074 [1:13:40<20:02,  2.02it/s] 78%|███████▊  | 8642/11074 [1:13:40<20:03,  2.02it/s] 78%|███████▊  | 8643/11074 [1:13:41<20:02,  2.02it/s] 78%|███████▊  | 8644/11074 [1:13:41<20:02,  2.02it/s] 78%|███████▊  | 8645/11074 [1:13:42<20:00,  2.02it/s] 78%|███████▊  | 8646/11074 [1:13:42<20:01,  2.02it/s] 78%|███████▊  | 8647/11074 [1:13:43<20:00,  2.02it/s] 78%|███████▊  | 8648/11074 [1:13:43<20:00,  2.02it/s] 78%|███████▊  | 8649/11074 [1:13:44<19:59,  2.02it/s] 78%|███████▊  | 8650/11074 [1:13:44<19:59,  2.02it/s]                                                      {'loss': 3.2466, 'grad_norm': 0.23945370316505432, 'learning_rate': 0.00013900426803896234, 'epoch': 10.93}
- 78%|███████▊  | 8650/11074 [1:13:44<19:59,  2.02it/s] 78%|███████▊  | 8651/11074 [1:13:45<19:59,  2.02it/s] 78%|███████▊  | 8652/11074 [1:13:45<19:59,  2.02it/s] 78%|███████▊  | 8653/11074 [1:13:46<19:57,  2.02it/s] 78%|███████▊  | 8654/11074 [1:13:46<19:56,  2.02it/s] 78%|███████▊  | 8655/11074 [1:13:47<19:55,  2.02it/s] 78%|███████▊  | 8656/11074 [1:13:47<19:56,  2.02it/s] 78%|███████▊  | 8657/11074 [1:13:48<19:55,  2.02it/s] 78%|███████▊  | 8658/11074 [1:13:48<19:56,  2.02it/s] 78%|███████▊  | 8659/11074 [1:13:49<19:54,  2.02it/s] 78%|███████▊  | 8660/11074 [1:13:49<19:55,  2.02it/s] 78%|███████▊  | 8661/11074 [1:13:49<19:53,  2.02it/s] 78%|███████▊  | 8662/11074 [1:13:50<19:52,  2.02it/s] 78%|███████▊  | 8663/11074 [1:13:50<19:52,  2.02it/s] 78%|███████▊  | 8664/11074 [1:13:51<19:50,  2.02it/s] 78%|███████▊  | 8665/11074 [1:13:51<19:51,  2.02it/s] 78%|███████▊  | 8666/11074 [1:13:52<19:51,  2.02it/s] 78%|███████▊  | 8667/11074 [1:13:52<19:50,  2.02it/s] 78%|███████▊  | 8668/11074 [1:13:53<19:48,  2.02it/s] 78%|███████▊  | 8669/11074 [1:13:53<19:49,  2.02it/s] 78%|███████▊  | 8670/11074 [1:13:54<19:48,  2.02it/s] 78%|███████▊  | 8671/11074 [1:13:54<19:48,  2.02it/s] 78%|███████▊  | 8672/11074 [1:13:55<19:48,  2.02it/s] 78%|███████▊  | 8673/11074 [1:13:55<19:47,  2.02it/s] 78%|███████▊  | 8674/11074 [1:13:56<19:47,  2.02it/s] 78%|███████▊  | 8675/11074 [1:13:56<19:46,  2.02it/s]                                                      {'loss': 3.2442, 'grad_norm': 0.23779277503490448, 'learning_rate': 0.00013628914403109144, 'epoch': 10.96}
- 78%|███████▊  | 8675/11074 [1:13:56<19:46,  2.02it/s] 78%|███████▊  | 8676/11074 [1:13:57<19:46,  2.02it/s] 78%|███████▊  | 8677/11074 [1:13:57<19:45,  2.02it/s] 78%|███████▊  | 8678/11074 [1:13:58<19:45,  2.02it/s] 78%|███████▊  | 8679/11074 [1:13:58<19:43,  2.02it/s] 78%|███████▊  | 8680/11074 [1:13:59<19:44,  2.02it/s] 78%|███████▊  | 8681/11074 [1:13:59<19:43,  2.02it/s] 78%|███████▊  | 8682/11074 [1:14:00<19:42,  2.02it/s] 78%|███████▊  | 8683/11074 [1:14:00<19:42,  2.02it/s] 78%|███████▊  | 8684/11074 [1:14:01<19:41,  2.02it/s] 78%|███████▊  | 8685/11074 [1:14:01<19:41,  2.02it/s] 78%|███████▊  | 8686/11074 [1:14:02<19:42,  2.02it/s] 78%|███████▊  | 8687/11074 [1:14:02<19:41,  2.02it/s] 78%|███████▊  | 8688/11074 [1:14:03<19:40,  2.02it/s] 78%|███████▊  | 8689/11074 [1:14:03<19:39,  2.02it/s] 78%|███████▊  | 8690/11074 [1:14:04<19:40,  2.02it/s] 78%|███████▊  | 8691/11074 [1:14:04<19:40,  2.02it/s] 78%|███████▊  | 8692/11074 [1:14:05<19:38,  2.02it/s] 78%|█████���█▊  | 8693/11074 [1:14:05<19:37,  2.02it/s] 79%|███████▊  | 8694/11074 [1:14:06<19:36,  2.02it/s] 79%|███████▊  | 8695/11074 [1:14:06<19:36,  2.02it/s] 79%|███████▊  | 8696/11074 [1:14:07<19:35,  2.02it/s] 79%|███████▊  | 8697/11074 [1:14:07<19:35,  2.02it/s] 79%|███████▊  | 8698/11074 [1:14:08<19:35,  2.02it/s] 79%|███████▊  | 8699/11074 [1:14:08<19:34,  2.02it/s] 79%|███████▊  | 8700/11074 [1:14:09<19:33,  2.02it/s]{'loss': 3.2503, 'grad_norm': 0.24186570942401886, 'learning_rate': 0.000133596608763568, 'epoch': 10.99}
-                                                       79%|███████▊  | 8700/11074 [1:14:09<19:33,  2.02it/s] 79%|███████▊  | 8701/11074 [1:14:09<19:34,  2.02it/s] 79%|███████▊  | 8702/11074 [1:14:10<19:34,  2.02it/s] 79%|███████▊  | 8703/11074 [1:14:10<19:33,  2.02it/s] 79%|███████▊  | 8704/11074 [1:14:11<19:33,  2.02it/s] 79%|███████▊  | 8705/11074 [1:14:11<19:31,  2.02it/s] 79%|███████▊  | 8706/11074 [1:14:12<20:00,  1.97it/s] 79%|███████▊  | 8707/11074 [1:14:24<2:38:17,  4.01s/it] 79%|███████▊  | 8708/11074 [1:14:24<1:56:41,  2.96s/it] 79%|███████▊  | 8709/11074 [1:14:25<1:27:30,  2.22s/it] 79%|███████▊  | 8710/11074 [1:14:25<1:07:12,  1.71s/it] 79%|███████▊  | 8711/11074 [1:14:26<52:50,  1.34s/it]   79%|███████▊  | 8712/11074 [1:14:26<42:50,  1.09s/it] 79%|███████▊  | 8713/11074 [1:14:27<35:46,  1.10it/s] 79%|███████▊  | 8714/11074 [1:14:27<30:52,  1.27it/s] 79%|███████▊  | 8715/11074 [1:14:28<27:25,  1.43it/s] 79%|███████▊  | 8716/11074 [1:14:28<25:00,  1.57it/s] 79%|███████▊  | 8717/11074 [1:14:29<23:20,  1.68it/s] 79%|███████▊  | 8718/11074 [1:14:29<22:07,  1.77it/s] 79%|███████▊  | 8719/11074 [1:14:30<21:26,  1.83it/s] 79%|███████▊  | 8720/11074 [1:14:30<20:52,  1.88it/s] 79%|███████▉  | 8721/11074 [1:14:31<20:27,  1.92it/s] 79%|███████▉  | 8722/11074 [1:14:31<20:06,  1.95it/s] 79%|███████▉  | 8723/11074 [1:14:32<19:52,  1.97it/s] 79%|███████▉  | 8724/11074 [1:14:32<19:42,  1.99it/s] 79%|███████▉  | 8725/11074 [1:14:33<19:37,  2.00it/s]                                                      {'loss': 3.1825, 'grad_norm': 0.2393781691789627, 'learning_rate': 0.0001309268294598309, 'epoch': 11.02}
- 79%|███████▉  | 8725/11074 [1:14:33<19:37,  2.00it/s] 79%|███████▉  | 8726/11074 [1:14:33<19:32,  2.00it/s] 79%|███████▉  | 8727/11074 [1:14:34<19:28,  2.01it/s] 79%|███████▉  | 8728/11074 [1:14:34<19:27,  2.01it/s] 79%|███████▉  | 8729/11074 [1:14:35<19:24,  2.01it/s] 79%|███████▉  | 8730/11074 [1:14:35<19:22,  2.02it/s] 79%|███████▉  | 8731/11074 [1:14:36<19:23,  2.01it/s] 79%|███████▉  | 8732/11074 [1:14:36<19:22,  2.01it/s] 79%|███████▉  | 8733/11074 [1:14:37<19:21,  2.01it/s] 79%|███████▉  | 8734/11074 [1:14:37<19:20,  2.02it/s] 79%|███████▉  | 8735/11074 [1:14:38<19:17,  2.02it/s] 79%|███████▉  | 8736/11074 [1:14:38<19:15,  2.02it/s] 79%|███████▉  | 8737/11074 [1:14:39<19:15,  2.02it/s] 79%|███████▉  | 8738/11074 [1:14:39<19:14,  2.02it/s] 79%|███████▉  | 8739/11074 [1:14:40<19:13,  2.03it/s] 79%|███████▉  | 8740/11074 [1:14:40<19:12,  2.03it/s] 79%|███████▉  | 8741/11074 [1:14:41<19:12,  2.02it/s] 79%|███████▉  | 8742/11074 [1:14:41<19:11,  2.03it/s] 79%|███████▉  | 8743/11074 [1:14:42<19:10,  2.03it/s] 79%|███████▉  | 8744/11074 [1:14:42<19:10,  2.02it/s] 79%|███████▉  | 8745/11074 [1:14:43<19:10,  2.02it/s] 79%|███████▉  | 8746/11074 [1:14:43<19:10,  2.02it/s] 79%|███████▉  | 8747/11074 [1:14:44<19:08,  2.03it/s] 79%|███████▉  | 8748/11074 [1:14:44<19:08,  2.02it/s] 79%|███████▉  | 8749/11074 [1:14:45<19:07,  2.03it/s] 79%|███████▉  | 8750/11074 [1:14:45<19:07,  2.03it/s]                                                      {'loss': 3.1575, 'grad_norm': 0.23903685808181763, 'learning_rate': 0.00012827997193002967, 'epoch': 11.05}
- 79%|███████▉  | 8750/11074 [1:14:45<19:07,  2.03it/s] 79%|███████▉  | 8751/11074 [1:14:46<19:07,  2.02it/s] 79%|███████▉  | 8752/11074 [1:14:46<19:07,  2.02it/s] 79%|███████▉  | 8753/11074 [1:14:47<19:07,  2.02it/s] 79%|███████▉  | 8754/11074 [1:14:47<19:06,  2.02it/s] 79%|██████��▉  | 8755/11074 [1:14:48<19:05,  2.02it/s] 79%|███████▉  | 8756/11074 [1:14:48<19:04,  2.03it/s] 79%|███████▉  | 8757/11074 [1:14:49<19:05,  2.02it/s] 79%|███████▉  | 8758/11074 [1:14:49<19:04,  2.02it/s] 79%|███████▉  | 8759/11074 [1:14:50<19:05,  2.02it/s] 79%|███████▉  | 8760/11074 [1:14:50<19:03,  2.02it/s] 79%|███████▉  | 8761/11074 [1:14:51<19:04,  2.02it/s] 79%|███████▉  | 8762/11074 [1:14:51<19:04,  2.02it/s] 79%|███████▉  | 8763/11074 [1:14:52<19:03,  2.02it/s] 79%|███████▉  | 8764/11074 [1:14:52<19:01,  2.02it/s] 79%|███████▉  | 8765/11074 [1:14:53<19:01,  2.02it/s] 79%|███████▉  | 8766/11074 [1:14:53<18:59,  2.02it/s] 79%|███████▉  | 8767/11074 [1:14:54<18:59,  2.02it/s] 79%|███████▉  | 8768/11074 [1:14:54<18:59,  2.02it/s] 79%|███████▉  | 8769/11074 [1:14:55<19:00,  2.02it/s] 79%|███████▉  | 8770/11074 [1:14:55<18:58,  2.02it/s] 79%|███████▉  | 8771/11074 [1:14:56<18:58,  2.02it/s] 79%|███████▉  | 8772/11074 [1:14:56<18:56,  2.03it/s] 79%|███████▉  | 8773/11074 [1:14:57<18:55,  2.03it/s] 79%|███████▉  | 8774/11074 [1:14:57<18:55,  2.03it/s] 79%|███████▉  | 8775/11074 [1:14:58<18:53,  2.03it/s]                                                      {'loss': 3.1605, 'grad_norm': 0.24214917421340942, 'learning_rate': 0.00012565620056072718, 'epoch': 11.09}
- 79%|███████▉  | 8775/11074 [1:14:58<18:53,  2.03it/s] 79%|███████▉  | 8776/11074 [1:14:58<18:56,  2.02it/s] 79%|███████▉  | 8777/11074 [1:14:59<18:54,  2.02it/s] 79%|███████▉  | 8778/11074 [1:14:59<18:55,  2.02it/s] 79%|███████▉  | 8779/11074 [1:15:00<18:53,  2.02it/s] 79%|███████▉  | 8780/11074 [1:15:00<18:53,  2.02it/s] 79%|███████▉  | 8781/11074 [1:15:01<18:52,  2.02it/s] 79%|███████▉  | 8782/11074 [1:15:01<18:52,  2.02it/s] 79%|███████▉  | 8783/11074 [1:15:02<18:51,  2.02it/s] 79%|███████▉  | 8784/11074 [1:15:02<18:52,  2.02it/s] 79%|███████▉  | 8785/11074 [1:15:03<18:51,  2.02it/s] 79%|███████▉  | 8786/11074 [1:15:03<18:51,  2.02it/s] 79%|███████▉  | 8787/11074 [1:15:04<18:50,  2.02it/s] 79%|███████▉  | 8788/11074 [1:15:04<18:49,  2.02it/s] 79%|███████▉  | 8789/11074 [1:15:05<18:49,  2.02it/s] 79%|███████▉  | 8790/11074 [1:15:05<18:47,  2.02it/s] 79%|███████▉  | 8791/11074 [1:15:06<18:48,  2.02it/s] 79%|███████▉  | 8792/11074 [1:15:06<18:47,  2.02it/s] 79%|███████▉  | 8793/11074 [1:15:07<18:46,  2.02it/s] 79%|███████▉  | 8794/11074 [1:15:07<18:45,  2.03it/s] 79%|███████▉  | 8795/11074 [1:15:08<18:45,  2.02it/s] 79%|███████▉  | 8796/11074 [1:15:08<18:44,  2.03it/s] 79%|███████▉  | 8797/11074 [1:15:09<18:43,  2.03it/s] 79%|███████▉  | 8798/11074 [1:15:09<18:44,  2.02it/s] 79%|███████▉  | 8799/11074 [1:15:09<18:42,  2.03it/s] 79%|███████▉  | 8800/11074 [1:15:10<18:42,  2.03it/s]                                                      {'loss': 3.1775, 'grad_norm': 0.2367831915616989, 'learning_rate': 0.00012305567830469017, 'epoch': 11.12}
- 79%|███████▉  | 8800/11074 [1:15:10<18:42,  2.03it/s] 79%|███████▉  | 8801/11074 [1:15:10<18:49,  2.01it/s] 79%|███████▉  | 8802/11074 [1:15:11<18:45,  2.02it/s] 79%|███████▉  | 8803/11074 [1:15:11<18:46,  2.02it/s] 80%|███████▉  | 8804/11074 [1:15:12<18:43,  2.02it/s] 80%|███████▉  | 8805/11074 [1:15:12<18:42,  2.02it/s] 80%|███████▉  | 8806/11074 [1:15:13<18:41,  2.02it/s] 80%|███████▉  | 8807/11074 [1:15:13<18:41,  2.02it/s] 80%|███████▉  | 8808/11074 [1:15:14<18:39,  2.02it/s] 80%|███████▉  | 8809/11074 [1:15:14<18:39,  2.02it/s] 80%|███████▉  | 8810/11074 [1:15:15<18:38,  2.02it/s] 80%|███████▉  | 8811/11074 [1:15:15<18:38,  2.02it/s] 80%|███████▉  | 8812/11074 [1:15:16<18:38,  2.02it/s] 80%|███████▉  | 8813/11074 [1:15:16<18:36,  2.02it/s] 80%|███████▉  | 8814/11074 [1:15:17<18:36,  2.02it/s] 80%|███████▉  | 8815/11074 [1:15:17<18:37,  2.02it/s] 80%|███████▉  | 8816/11074 [1:15:18<18:37,  2.02it/s] 80%|███████▉  | 8817/11074 [1:15:18<18:35,  2.02it/s] 80%|███████▉  | 8818/11074 [1:15:19<18:35,  2.02it/s] 80%|███████▉  | 8819/11074 [1:15:19<18:33,  2.02it/s] 80%|███████▉  | 8820/11074 [1:15:20<18:33,  2.02it/s] 80%|███████▉  | 8821/11074 [1:15:20<18:32,  2.02it/s] 80%|███████▉  | 8822/11074 [1:15:21<18:31,  2.03it/s] 80%|███████▉  | 8823/11074 [1:15:21<18:31,  2.02it/s] 80%|███████▉  | 8824/11074 [1:15:22<18:31,  2.02it/s] 80%|███████▉  | 8825/11074 [1:15:22<18:31,  2.02it/s]                                                      {'loss': 3.1689, 'grad_norm': 0.2386203557252884, 'learning_rate': 0.00012047856667076834, 'epoch': 11.15}
- 80%|███████▉  | 8825/11074 [1:15:22<18:31,  2.02it/s] 80%|███████▉  | 8826/11074 [1:15:23<18:32,  2.02it/s] 80%|███████▉  | 8827/11074 [1:15:23<18:32,  2.02it/s] 80%|███████▉  | 8828/11074 [1:15:24<18:32,  2.02it/s] 80%|███████▉  | 8829/11074 [1:15:24<18:31,  2.02it/s] 80%|███████▉  | 8830/11074 [1:15:25<18:30,  2.02it/s] 80%|███████▉  | 8831/11074 [1:15:25<18:29,  2.02it/s] 80%|███████▉  | 8832/11074 [1:15:26<18:28,  2.02it/s] 80%|███████▉  | 8833/11074 [1:15:26<18:28,  2.02it/s] 80%|███████▉  | 8834/11074 [1:15:27<18:27,  2.02it/s] 80%|███████▉  | 8835/11074 [1:15:27<18:28,  2.02it/s] 80%|███████▉  | 8836/11074 [1:15:28<18:26,  2.02it/s] 80%|███████▉  | 8837/11074 [1:15:28<18:26,  2.02it/s] 80%|███████▉  | 8838/11074 [1:15:29<18:25,  2.02it/s] 80%|███████▉  | 8839/11074 [1:15:29<18:23,  2.03it/s] 80%|███████▉  | 8840/11074 [1:15:30<18:24,  2.02it/s] 80%|███████▉  | 8841/11074 [1:15:30<18:22,  2.03it/s] 80%|███████▉  | 8842/11074 [1:15:31<18:23,  2.02it/s] 80%|███████▉  | 8843/11074 [1:15:31<18:22,  2.02it/s] 80%|███████▉  | 8844/11074 [1:15:32<18:21,  2.02it/s] 80%|███████▉  | 8845/11074 [1:15:32<18:22,  2.02it/s] 80%|███████▉  | 8846/11074 [1:15:33<18:20,  2.02it/s] 80%|███████▉  | 8847/11074 [1:15:33<18:20,  2.02it/s] 80%|███████▉  | 8848/11074 [1:15:34<18:20,  2.02it/s] 80%|███████▉  | 8849/11074 [1:15:34<18:19,  2.02it/s] 80%|███████▉  | 8850/11074 [1:15:35<18:19,  2.02it/s]{'loss': 3.173, 'grad_norm': 0.24308112263679504, 'learning_rate': 0.00011792502571386382, 'epoch': 11.18}                                                      
- 80%|███████▉  | 8850/11074 [1:15:35<18:19,  2.02it/s] 80%|███████▉  | 8851/11074 [1:15:35<18:19,  2.02it/s] 80%|███████▉  | 8852/11074 [1:15:36<18:18,  2.02it/s] 80%|███████▉  | 8853/11074 [1:15:36<18:17,  2.02it/s] 80%|███████▉  | 8854/11074 [1:15:37<18:18,  2.02it/s] 80%|███████▉  | 8855/11074 [1:15:37<18:16,  2.02it/s] 80%|███████▉  | 8856/11074 [1:15:38<18:16,  2.02it/s] 80%|███████▉  | 8857/11074 [1:15:38<18:15,  2.02it/s] 80%|███████▉  | 8858/11074 [1:15:39<18:15,  2.02it/s] 80%|███████▉  | 8859/11074 [1:15:39<18:15,  2.02it/s] 80%|████████  | 8860/11074 [1:15:40<18:14,  2.02it/s] 80%|████████  | 8861/11074 [1:15:40<18:13,  2.02it/s] 80%|████████  | 8862/11074 [1:15:41<18:14,  2.02it/s] 80%|████████  | 8863/11074 [1:15:41<18:13,  2.02it/s] 80%|████████  | 8864/11074 [1:15:42<18:13,  2.02it/s] 80%|████████  | 8865/11074 [1:15:42<18:12,  2.02it/s] 80%|████████  | 8866/11074 [1:15:43<18:13,  2.02it/s] 80%|████████  | 8867/11074 [1:15:43<18:11,  2.02it/s] 80%|████████  | 8868/11074 [1:15:44<18:11,  2.02it/s] 80%|████████  | 8869/11074 [1:15:44<18:10,  2.02it/s] 80%|████████  | 8870/11074 [1:15:45<18:09,  2.02it/s] 80%|████████  | 8871/11074 [1:15:45<18:09,  2.02it/s] 80%|████████  | 8872/11074 [1:15:46<18:09,  2.02it/s] 80%|████████  | 8873/11074 [1:15:46<18:08,  2.02it/s] 80%|████████  | 8874/11074 [1:15:47<18:08,  2.02it/s] 80%|████████  | 8875/11074 [1:15:47<18:06,  2.02it/s]                                                      {'loss': 3.1753, 'grad_norm': 0.241014301776886, 'learning_rate': 0.00011539521402499143, 'epoch': 11.21}
- 80%|████████  | 8875/11074 [1:15:47<18:06,  2.02it/s] 80%|████████  | 8876/11074 [1:15:48<18:08,  2.02it/s] 80%|████████  | 8877/11074 [1:15:48<18:06,  2.02it/s] 80%|████████  | 8878/11074 [1:15:49<18:05,  2.02it/s] 80%|████████  | 8879/11074 [1:15:49<18:04,  2.02it/s] 80%|████████  | 8880/11074 [1:15:50<18:03,  2.02it/s] 80%|████████  | 8881/11074 [1:15:50<18:03,  2.02it/s] 80%|████████  | 8882/11074 [1:15:51<19:38,  1.86it/s] 80%|████████  | 8883/11074 [1:15:51<19:08,  1.91it/s] 80%|████████  | 8884/11074 [1:15:52<18:48,  1.94it/s] 80%|████████  | 8885/11074 [1:15:52<18:35,  1.96it/s] 80%|████████  | 8886/11074 [1:15:53<18:25,  1.98it/s] 80%|████████  | 8887/11074 [1:15:53<18:16,  1.99it/s] 80%|████████  | 8888/11074 [1:15:54<18:11,  2.00it/s] 80%|████████  | 8889/11074 [1:15:54<18:07,  2.01it/s] 80%|████████  | 8890/11074 [1:15:55<18:04,  2.01it/s] 80%|████████  | 8891/11074 [1:15:55<18:02,  2.02it/s] 80%|████████  | 8892/11074 [1:15:56<18:01,  2.02it/s] 80%|████████  | 8893/11074 [1:15:56<17:59,  2.02it/s] 80%|████████  | 8894/11074 [1:15:57<17:57,  2.02it/s] 80%|████████  | 8895/11074 [1:15:57<17:56,  2.02it/s] 80%|████████  | 8896/11074 [1:15:58<17:55,  2.02it/s] 80%|████████  | 8897/11074 [1:15:58<17:55,  2.02it/s] 80%|████████  | 8898/11074 [1:15:59<17:54,  2.03it/s] 80%|████████  | 8899/11074 [1:15:59<17:54,  2.02it/s] 80%|████████  | 8900/11074 [1:16:00<17:54,  2.02it/s]{'loss': 3.1751, 'grad_norm': 0.24310094118118286, 'learning_rate': 0.00011288928872142829, 'epoch': 11.24}
-                                                       80%|████████  | 8900/11074 [1:16:00<17:54,  2.02it/s] 80%|████████  | 8901/11074 [1:16:00<17:55,  2.02it/s] 80%|████████  | 8902/11074 [1:16:01<17:54,  2.02it/s] 80%|████████  | 8903/11074 [1:16:01<17:53,  2.02it/s] 80%|████████  | 8904/11074 [1:16:02<17:51,  2.03it/s] 80%|████████  | 8905/11074 [1:16:02<17:51,  2.02it/s] 80%|████████  | 8906/11074 [1:16:03<17:50,  2.03it/s] 80%|████████  | 8907/11074 [1:16:03<17:50,  2.03it/s] 80%|████████  | 8908/11074 [1:16:04<17:49,  2.02it/s] 80%|████████  | 8909/11074 [1:16:04<17:48,  2.03it/s] 80%|████████  | 8910/11074 [1:16:05<17:48,  2.02it/s] 80%|████████  | 8911/11074 [1:16:05<17:47,  2.03it/s] 80%|████████  | 8912/11074 [1:16:05<17:47,  2.03it/s] 80%|████████  | 8913/11074 [1:16:06<17:45,  2.03it/s] 80%|████████  | 8914/11074 [1:16:06<17:45,  2.03it/s] 81%|████████  | 8915/11074 [1:16:07<17:45,  2.03it/s] 81%|████████  | 8916/11074 [1:16:07<17:44,  2.03it/s] 81%|████████  | 8917/11074 [1:16:08<17:45,  2.02it/s] 81%|████████  | 8918/11074 [1:16:08<17:43,  2.03it/s] 81%|████████  | 8919/11074 [1:16:09<17:44,  2.03it/s] 81%|████████  | 8920/11074 [1:16:09<17:42,  2.03it/s] 81%|████████  | 8921/11074 [1:16:10<17:42,  2.03it/s] 81%|████████  | 8922/11074 [1:16:10<17:41,  2.03it/s] 81%|████████  | 8923/11074 [1:16:11<17:41,  2.03it/s] 81%|████████  | 8924/11074 [1:16:11<17:41,  2.03it/s] 81%|████████  | 8925/11074 [1:16:12<17:40,  2.03it/s]                                                      {'loss': 3.1725, 'grad_norm': 0.2414514720439911, 'learning_rate': 0.00011040740543695604, 'epoch': 11.28}
- 81%|████████  | 8925/11074 [1:16:12<17:40,  2.03it/s] 81%|████████  | 8926/11074 [1:16:12<17:42,  2.02it/s] 81%|████████  | 8927/11074 [1:16:13<17:40,  2.02it/s] 81%|████████  | 8928/11074 [1:16:13<17:41,  2.02it/s] 81%|████████  | 8929/11074 [1:16:14<17:39,  2.02it/s] 81%|████████  | 8930/11074 [1:16:14<17:39,  2.02it/s] 81%|████████  | 8931/11074 [1:16:15<17:39,  2.02it/s] 81%|████████  | 8932/11074 [1:16:15<17:38,  2.02it/s] 81%|████████  | 8933/11074 [1:16:16<17:38,  2.02it/s] 81%|████████  | 8934/11074 [1:16:16<17:37,  2.02it/s] 81%|████████  | 8935/11074 [1:16:17<17:36,  2.02it/s] 81%|████████  | 8936/11074 [1:16:17<17:36,  2.02it/s] 81%|████████  | 8937/11074 [1:16:18<17:34,  2.03it/s] 81%|████████  | 8938/11074 [1:16:18<17:34,  2.03it/s] 81%|████████  | 8939/11074 [1:16:19<17:33,  2.03it/s] 81%|████████  | 8940/11074 [1:16:19<17:32,  2.03it/s] 81%|████████  | 8941/11074 [1:16:20<17:32,  2.03it/s] 81%|████████  | 8942/11074 [1:16:20<17:33,  2.02it/s] 81%|████████  | 8943/11074 [1:16:21<17:33,  2.02it/s] 81%|████████  | 8944/11074 [1:16:21<17:34,  2.02it/s] 81%|████████  | 8945/11074 [1:16:22<17:33,  2.02it/s] 81%|████████  | 8946/11074 [1:16:22<17:33,  2.02it/s] 81%|████████  | 8947/11074 [1:16:23<17:31,  2.02it/s] 81%|████████  | 8948/11074 [1:16:23<17:31,  2.02it/s] 81%|████████  | 8949/11074 [1:16:24<17:30,  2.02it/s] 81%|████████  | 8950/11074 [1:16:24<17:29,  2.02it/s]                                                      {'loss': 3.1773, 'grad_norm': 0.246285080909729, 'learning_rate': 0.00010794971831219563, 'epoch': 11.31}
- 81%|████████  | 8950/11074 [1:16:24<17:29,  2.02it/s] 81%|████████  | 8951/11074 [1:16:25<17:29,  2.02it/s] 81%|████████  | 8952/11074 [1:16:25<17:29,  2.02it/s] 81%|████████  | 8953/11074 [1:16:26<17:28,  2.02it/s] 81%|████████  | 8954/11074 [1:16:26<17:28,  2.02it/s] 81%|████████  | 8955/11074 [1:16:27<17:27,  2.02it/s] 81%|████████  | 8956/11074 [1:16:27<17:27,  2.02it/s] 81%|████████  | 8957/11074 [1:16:28<17:25,  2.02it/s] 81%|████████  | 8958/11074 [1:16:28<17:24,  2.03it/s] 81%|████████  | 8959/11074 [1:16:29<17:24,  2.02it/s] 81%|████████  | 8960/11074 [1:16:29<17:25,  2.02it/s] 81%|████████  | 8961/11074 [1:16:30<17:24,  2.02it/s] 81%|████████  | 8962/11074 [1:16:30<17:23,  2.02it/s] 81%|████████  | 8963/11074 [1:16:31<17:22,  2.02it/s] 81%|████████  | 8964/11074 [1:16:31<17:22,  2.02it/s] 81%|████████  | 8965/11074 [1:16:32<17:21,  2.02it/s] 81%|████████  | 8966/11074 [1:16:32<17:20,  2.03it/s] 81%|████████  | 8967/11074 [1:16:33<17:20,  2.02it/s] 81%|████████  | 8968/11074 [1:16:33<18:51,  1.86it/s] 81%|████████  | 8969/11074 [1:16:34<18:23,  1.91it/s] 81%|████████  | 8970/11074 [1:16:34<18:03,  1.94it/s] 81%|████████  | 8971/11074 [1:16:35<17:49,  1.97it/s] 81%|████████  | 8972/11074 [1:16:35<17:39,  1.98it/s] 81%|████████  | 8973/11074 [1:16:36<17:32,  2.00it/s] 81%|████████  | 8974/11074 [1:16:36<17:27,  2.01it/s] 81%|████████  | 8975/11074 [1:16:37<17:23,  2.01it/s]{'loss': 3.1745, 'grad_norm': 0.2431633323431015, 'learning_rate': 0.00010551637998503322, 'epoch': 11.34}
-                                                       81%|████████  | 8975/11074 [1:16:37<17:23,  2.01it/s] 81%|████████  | 8976/11074 [1:16:37<17:24,  2.01it/s] 81%|████████  | 8977/11074 [1:16:38<17:20,  2.02it/s] 81%|████████  | 8978/11074 [1:16:38<17:19,  2.02it/s] 81%|████████  | 8979/11074 [1:16:39<17:16,  2.02it/s] 81%|████████  | 8980/11074 [1:16:39<17:15,  2.02it/s] 81%|████████  | 8981/11074 [1:16:40<17:14,  2.02it/s] 81%|████████  | 8982/11074 [1:16:40<17:11,  2.03it/s] 81%|████████  | 8983/11074 [1:16:41<17:12,  2.03it/s] 81%|████████  | 8984/11074 [1:16:41<17:11,  2.03it/s] 81%|████████  | 8985/11074 [1:16:42<17:11,  2.03it/s] 81%|████████  | 8986/11074 [1:16:42<17:11,  2.02it/s] 81%|████████  | 8987/11074 [1:16:43<17:10,  2.02it/s] 81%|████████  | 8988/11074 [1:16:43<17:10,  2.02it/s] 81%|████████  | 8989/11074 [1:16:44<17:10,  2.02it/s] 81%|████████  | 8990/11074 [1:16:44<17:09,  2.02it/s] 81%|████████  | 8991/11074 [1:16:45<17:08,  2.02it/s] 81%|████████  | 8992/11074 [1:16:45<17:07,  2.03it/s] 81%|████████  | 8993/11074 [1:16:46<17:07,  2.03it/s] 81%|████████  | 8994/11074 [1:16:46<17:06,  2.03it/s] 81%|████████  | 8995/11074 [1:16:47<17:05,  2.03it/s] 81%|████████  | 8996/11074 [1:16:47<17:05,  2.03it/s] 81%|████████  | 8997/11074 [1:16:48<17:05,  2.03it/s] 81%|████████▏ | 8998/11074 [1:16:48<17:04,  2.03it/s] 81%|████████▏ | 8999/11074 [1:16:49<17:03,  2.03it/s] 81%|████████▏ | 9000/11074 [1:16:49<17:03,  2.03it/s]                                                      {'loss': 3.1841, 'grad_norm': 0.23753663897514343, 'learning_rate': 0.00010310754158114144, 'epoch': 11.37}
- 81%|████████▏ | 9000/11074 [1:16:49<17:03,  2.03it/s] 81%|████████▏ | 9001/11074 [1:16:50<17:10,  2.01it/s] 81%|████████▏ | 9002/11074 [1:16:50<17:07,  2.02it/s] 81%|████████▏ | 9003/11074 [1:16:51<17:06,  2.02it/s] 81%|████████▏ | 9004/11074 [1:16:51<17:04,  2.02it/s] 81%|████████▏ | 9005/11074 [1:16:52<17:04,  2.02it/s] 81%|████████▏ | 9006/11074 [1:16:52<17:03,  2.02it/s] 81%|████████▏ | 9007/11074 [1:16:53<17:02,  2.02it/s] 81%|████████▏ | 9008/11074 [1:16:53<17:00,  2.02it/s] 81%|████████▏ | 9009/11074 [1:16:54<17:00,  2.02it/s] 81%|████████▏ | 9010/11074 [1:16:54<17:00,  2.02it/s] 81%|████████▏ | 9011/11074 [1:16:55<17:00,  2.02it/s] 81%|████████▏ | 9012/11074 [1:16:55<16:59,  2.02it/s] 81%|████████▏ | 9013/11074 [1:16:56<16:59,  2.02it/s] 81%|████████▏ | 9014/11074 [1:16:56<16:58,  2.02it/s] 81%|████████▏ | 9015/11074 [1:16:57<16:57,  2.02it/s] 81%|████████▏ | 9016/11074 [1:16:57<16:56,  2.02it/s] 81%|████████▏ | 9017/11074 [1:16:58<16:56,  2.02it/s] 81%|████████▏ | 9018/11074 [1:16:58<16:56,  2.02it/s] 81%|████████▏ | 9019/11074 [1:16:59<16:55,  2.02it/s] 81%|████████▏ | 9020/11074 [1:16:59<16:55,  2.02it/s] 81%|████████▏ | 9021/11074 [1:16:59<16:53,  2.02it/s] 81%|████████▏ | 9022/11074 [1:17:00<16:53,  2.02it/s] 81%|████████▏ | 9023/11074 [1:17:00<16:52,  2.03it/s] 81%|████████▏ | 9024/11074 [1:17:01<16:52,  2.03it/s] 81%|████████▏ | 9025/11074 [1:17:01<16:51,  2.03it/s]                                                      {'loss': 3.1856, 'grad_norm': 0.24234531819820404, 'learning_rate': 0.00010072335270459255, 'epoch': 11.4}
- 81%|████████▏ | 9025/11074 [1:17:01<16:51,  2.03it/s] 82%|████████▏ | 9026/11074 [1:17:02<16:55,  2.02it/s] 82%|████████▏ | 9027/11074 [1:17:02<16:52,  2.02it/s] 82%|████████▏ | 9028/11074 [1:17:03<16:52,  2.02it/s] 82%|████████▏ | 9029/11074 [1:17:03<16:50,  2.02it/s] 82%|████████▏ | 9030/11074 [1:17:04<16:49,  2.02it/s] 82%|████████▏ | 9031/11074 [1:17:04<16:48,  2.02it/s] 82%|████████▏ | 9032/11074 [1:17:05<16:49,  2.02it/s] 82%|████████▏ | 9033/11074 [1:17:05<16:48,  2.02it/s] 82%|████████▏ | 9034/11074 [1:17:06<16:48,  2.02it/s] 82%|████████▏ | 9035/11074 [1:17:06<16:47,  2.02it/s] 82%|████████▏ | 9036/11074 [1:17:07<16:48,  2.02it/s] 82%|████████▏ | 9037/11074 [1:17:07<16:46,  2.02it/s] 82%|████████▏ | 9038/11074 [1:17:08<16:46,  2.02it/s] 82%|████████▏ | 9039/11074 [1:17:08<16:44,  2.02it/s] 82%|████████▏ | 9040/11074 [1:17:09<16:44,  2.03it/s] 82%|████████▏ | 9041/11074 [1:17:09<16:43,  2.03it/s] 82%|████████▏ | 9042/11074 [1:17:10<16:42,  2.03it/s] 82%|████████▏ | 9043/11074 [1:17:10<16:42,  2.03it/s] 82%|████████▏ | 9044/11074 [1:17:11<16:41,  2.03it/s] 82%|████████▏ | 9045/11074 [1:17:11<16:40,  2.03it/s] 82%|████████▏ | 9046/11074 [1:17:12<16:41,  2.03it/s] 82%|████████▏ | 9047/11074 [1:17:12<16:39,  2.03it/s] 82%|████████▏ | 9048/11074 [1:17:13<16:40,  2.02it/s] 82%|████████▏ | 9049/11074 [1:17:13<16:39,  2.03it/s] 82%|████████▏ | 9050/11074 [1:17:14<16:39,  2.03it/s]                                                      {'loss': 3.1763, 'grad_norm': 0.23996089398860931, 'learning_rate': 9.836396142856762e-05, 'epoch': 11.43}
- 82%|████████▏ | 9050/11074 [1:17:14<16:39,  2.03it/s] 82%|████████▏ | 9051/11074 [1:17:14<16:39,  2.02it/s] 82%|████████▏ | 9052/11074 [1:17:15<16:38,  2.02it/s] 82%|████████▏ | 9053/11074 [1:17:15<16:38,  2.02it/s] 82%|████████▏ | 9054/11074 [1:17:16<16:37,  2.03it/s] 82%|████████▏ | 9055/11074 [1:17:16<16:37,  2.02it/s] 82%|████████▏ | 9056/11074 [1:17:17<16:36,  2.03it/s] 82%|████████▏ | 9057/11074 [1:17:17<16:36,  2.02it/s] 82%|████████▏ | 9058/11074 [1:17:18<16:34,  2.03it/s] 82%|████████▏ | 9059/11074 [1:17:18<16:36,  2.02it/s] 82%|████████▏ | 9060/11074 [1:17:19<16:35,  2.02it/s] 82%|████████▏ | 9061/11074 [1:17:19<16:34,  2.02it/s] 82%|████████▏ | 9062/11074 [1:17:20<16:33,  2.03it/s] 82%|████████▏ | 9063/11074 [1:17:20<16:33,  2.02it/s] 82%|████████▏ | 9064/11074 [1:17:21<16:32,  2.02it/s] 82%|████████▏ | 9065/11074 [1:17:21<16:31,  2.03it/s] 82%|████████▏ | 9066/11074 [1:17:22<16:31,  2.03it/s] 82%|████████▏ | 9067/11074 [1:17:22<16:29,  2.03it/s] 82%|████████▏ | 9068/11074 [1:17:23<16:30,  2.03it/s] 82%|████████▏ | 9069/11074 [1:17:23<16:28,  2.03it/s] 82%|████████▏ | 9070/11074 [1:17:24<16:29,  2.03it/s] 82%|████████▏ | 9071/11074 [1:17:24<16:29,  2.03it/s] 82%|████████▏ | 9072/11074 [1:17:25<16:28,  2.03it/s] 82%|████████▏ | 9073/11074 [1:17:25<16:28,  2.02it/s] 82%|████████▏ | 9074/11074 [1:17:26<16:28,  2.02it/s] 82%|████████▏ | 9075/11074 [1:17:26<16:27,  2.02it/s]                                                      {'loss': 3.1841, 'grad_norm': 0.24090521037578583, 'learning_rate': 9.602951428616059e-05, 'epoch': 11.47}
- 82%|████████▏ | 9075/11074 [1:17:26<16:27,  2.02it/s] 82%|████████▏ | 9076/11074 [1:17:27<16:27,  2.02it/s] 82%|████████▏ | 9077/11074 [1:17:27<16:27,  2.02it/s] 82%|████████▏ | 9078/11074 [1:17:28<16:25,  2.03it/s] 82%|████████▏ | 9079/11074 [1:17:28<16:25,  2.02it/s] 82%|████████▏ | 9080/11074 [1:17:29<16:24,  2.03it/s] 82%|████████▏ | 9081/11074 [1:17:29<16:24,  2.03it/s] 82%|████████▏ | 9082/11074 [1:17:30<16:23,  2.02it/s] 82%|████████▏ | 9083/11074 [1:17:30<16:22,  2.03it/s] 82%|████████▏ | 9084/11074 [1:17:31<16:23,  2.02it/s] 82%|████████▏ | 9085/11074 [1:17:31<16:22,  2.03it/s] 82%|████████▏ | 9086/11074 [1:17:32<16:22,  2.02it/s] 82%|████████▏ | 9087/11074 [1:17:32<16:20,  2.03it/s] 82%|████████▏ | 9088/11074 [1:17:33<16:20,  2.03it/s] 82%|████████▏ | 9089/11074 [1:17:33<16:19,  2.03it/s] 82%|████████▏ | 9090/11074 [1:17:34<16:19,  2.03it/s] 82%|████████▏ | 9091/11074 [1:17:34<16:18,  2.03it/s] 82%|████████▏ | 9092/11074 [1:17:35<16:17,  2.03it/s] 82%|████████▏ | 9093/11074 [1:17:35<16:17,  2.03it/s] 82%|████████▏ | 9094/11074 [1:17:36<16:17,  2.03it/s] 82%|████████▏ | 9095/11074 [1:17:36<16:18,  2.02it/s] 82%|████████▏ | 9096/11074 [1:17:37<16:18,  2.02it/s] 82%|████████▏ | 9097/11074 [1:17:37<16:17,  2.02it/s] 82%|████████▏ | 9098/11074 [1:17:38<16:16,  2.02it/s] 82%|████████▏ | 9099/11074 [1:17:38<16:15,  2.02it/s] 82%|████████▏ | 9100/11074 [1:17:39<16:14,  2.03it/s]{'loss': 3.1876, 'grad_norm': 0.24239379167556763, 'learning_rate': 9.372015626127656e-05, 'epoch': 11.5}                                                      
- 82%|████████▏ | 9100/11074 [1:17:39<16:14,  2.03it/s] 82%|████████▏ | 9101/11074 [1:17:39<16:15,  2.02it/s] 82%|████████▏ | 9102/11074 [1:17:39<16:13,  2.03it/s] 82%|████████▏ | 9103/11074 [1:17:40<16:13,  2.02it/s] 82%|████████▏ | 9104/11074 [1:17:40<16:13,  2.02it/s] 82%|████████▏ | 9105/11074 [1:17:41<16:13,  2.02it/s] 82%|████████▏ | 9106/11074 [1:17:41<16:12,  2.02it/s] 82%|████████▏ | 9107/11074 [1:17:42<16:12,  2.02it/s] 82%|████████▏ | 9108/11074 [1:17:42<16:11,  2.02it/s] 82%|████████▏ | 9109/11074 [1:17:43<16:11,  2.02it/s] 82%|████████▏ | 9110/11074 [1:17:43<16:10,  2.02it/s] 82%|████████▏ | 9111/11074 [1:17:44<16:10,  2.02it/s] 82%|████████▏ | 9112/11074 [1:17:44<16:09,  2.02it/s] 82%|████████▏ | 9113/11074 [1:17:45<16:09,  2.02it/s] 82%|████████▏ | 9114/11074 [1:17:45<16:08,  2.02it/s] 82%|████████▏ | 9115/11074 [1:17:46<16:08,  2.02it/s] 82%|████████▏ | 9116/11074 [1:17:46<16:07,  2.02it/s] 82%|████████▏ | 9117/11074 [1:17:47<16:07,  2.02it/s] 82%|████████▏ | 9118/11074 [1:17:47<16:06,  2.02it/s] 82%|████████▏ | 9119/11074 [1:17:48<16:07,  2.02it/s] 82%|████████▏ | 9120/11074 [1:17:48<16:07,  2.02it/s] 82%|████████▏ | 9121/11074 [1:17:49<16:06,  2.02it/s] 82%|████████▏ | 9122/11074 [1:17:49<16:05,  2.02it/s] 82%|████████▏ | 9123/11074 [1:17:50<16:04,  2.02it/s] 82%|████████▏ | 9124/11074 [1:17:50<16:03,  2.02it/s] 82%|████████▏ | 9125/11074 [1:17:51<16:03,  2.02it/s]                                                      {'loss': 3.1881, 'grad_norm': 0.2376471906900406, 'learning_rate': 9.143603077962858e-05, 'epoch': 11.53}
- 82%|████████▏ | 9125/11074 [1:17:51<16:03,  2.02it/s] 82%|████████▏ | 9126/11074 [1:17:51<16:04,  2.02it/s] 82%|████████▏ | 9127/11074 [1:17:52<16:03,  2.02it/s] 82%|████████▏ | 9128/11074 [1:17:52<16:01,  2.02it/s] 82%|████████▏ | 9129/11074 [1:17:53<16:01,  2.02it/s] 82%|████████▏ | 9130/11074 [1:17:53<15:59,  2.03it/s] 82%|████████▏ | 9131/11074 [1:17:54<15:59,  2.02it/s] 82%|████████▏ | 9132/11074 [1:17:54<15:58,  2.03it/s] 82%|████████▏ | 9133/11074 [1:17:55<15:58,  2.02it/s] 82%|███████��▏ | 9134/11074 [1:17:55<15:58,  2.02it/s] 82%|████████▏ | 9135/11074 [1:17:56<15:58,  2.02it/s] 82%|████████▏ | 9136/11074 [1:17:56<15:57,  2.02it/s] 83%|████████▎ | 9137/11074 [1:17:57<15:56,  2.02it/s] 83%|████████▎ | 9138/11074 [1:17:57<15:56,  2.02it/s] 83%|████████▎ | 9139/11074 [1:17:58<15:55,  2.02it/s] 83%|████████▎ | 9140/11074 [1:17:58<15:55,  2.02it/s] 83%|████████▎ | 9141/11074 [1:17:59<15:54,  2.03it/s] 83%|████████▎ | 9142/11074 [1:17:59<15:54,  2.02it/s] 83%|████████▎ | 9143/11074 [1:18:00<15:52,  2.03it/s] 83%|████████▎ | 9144/11074 [1:18:00<15:52,  2.03it/s] 83%|████████▎ | 9145/11074 [1:18:01<15:52,  2.03it/s] 83%|████████▎ | 9146/11074 [1:18:01<15:53,  2.02it/s] 83%|████████▎ | 9147/11074 [1:18:02<15:51,  2.03it/s] 83%|████████▎ | 9148/11074 [1:18:02<15:50,  2.03it/s] 83%|████████▎ | 9149/11074 [1:18:03<15:49,  2.03it/s] 83%|████████▎ | 9150/11074 [1:18:03<15:49,  2.03it/s]                                                      {'loss': 3.1884, 'grad_norm': 0.2383396029472351, 'learning_rate': 8.917727969982942e-05, 'epoch': 11.56}
- 83%|████████▎ | 9150/11074 [1:18:03<15:49,  2.03it/s] 83%|████████▎ | 9151/11074 [1:18:04<15:50,  2.02it/s] 83%|████████▎ | 9152/11074 [1:18:04<15:48,  2.03it/s] 83%|████████▎ | 9153/11074 [1:18:05<15:48,  2.02it/s] 83%|████████▎ | 9154/11074 [1:18:05<15:46,  2.03it/s] 83%|████████▎ | 9155/11074 [1:18:06<15:47,  2.02it/s] 83%|████████▎ | 9156/11074 [1:18:06<15:46,  2.03it/s] 83%|████████▎ | 9157/11074 [1:18:07<15:46,  2.03it/s] 83%|████████▎ | 9158/11074 [1:18:07<15:45,  2.03it/s] 83%|████████▎ | 9159/11074 [1:18:08<15:45,  2.03it/s] 83%|████████▎ | 9160/11074 [1:18:08<15:44,  2.03it/s] 83%|████████▎ | 9161/11074 [1:18:09<15:43,  2.03it/s] 83%|████████▎ | 9162/11074 [1:18:09<15:43,  2.03it/s] 83%|████████▎ | 9163/11074 [1:18:10<15:42,  2.03it/s] 83%|████████▎ | 9164/11074 [1:18:10<15:42,  2.03it/s] 83%|████████▎ | 9165/11074 [1:18:11<15:41,  2.03it/s] 83%|████████▎ | 9166/11074 [1:18:11<15:43,  2.02it/s] 83%|████████▎ | 9167/11074 [1:18:12<15:42,  2.02it/s] 83%|████████▎ | 9168/11074 [1:18:12<15:42,  2.02it/s] 83%|████████▎ | 9169/11074 [1:18:13<15:41,  2.02it/s] 83%|████████▎ | 9170/11074 [1:18:13<15:41,  2.02it/s] 83%|████████▎ | 9171/11074 [1:18:14<15:40,  2.02it/s] 83%|████████▎ | 9172/11074 [1:18:14<15:40,  2.02it/s] 83%|████████▎ | 9173/11074 [1:18:15<15:39,  2.02it/s] 83%|████████▎ | 9174/11074 [1:18:15<15:38,  2.02it/s] 83%|████████▎ | 9175/11074 [1:18:16<15:38,  2.02it/s]                                                      {'loss': 3.1853, 'grad_norm': 0.24211829900741577, 'learning_rate': 8.6944043304581e-05, 'epoch': 11.59}
- 83%|████████▎ | 9175/11074 [1:18:16<15:38,  2.02it/s] 83%|████████▎ | 9176/11074 [1:18:16<15:39,  2.02it/s] 83%|████████▎ | 9177/11074 [1:18:17<15:38,  2.02it/s] 83%|████████▎ | 9178/11074 [1:18:17<15:38,  2.02it/s] 83%|████████▎ | 9179/11074 [1:18:18<15:37,  2.02it/s] 83%|████████▎ | 9180/11074 [1:18:18<15:37,  2.02it/s] 83%|████████▎ | 9181/11074 [1:18:19<15:36,  2.02it/s] 83%|████████▎ | 9182/11074 [1:18:19<15:36,  2.02it/s] 83%|████████▎ | 9183/11074 [1:18:20<15:35,  2.02it/s] 83%|████████▎ | 9184/11074 [1:18:20<15:35,  2.02it/s] 83%|████████▎ | 9185/11074 [1:18:21<15:34,  2.02it/s] 83%|████████▎ | 9186/11074 [1:18:21<15:33,  2.02it/s] 83%|████████▎ | 9187/11074 [1:18:22<15:33,  2.02it/s] 83%|████████▎ | 9188/11074 [1:18:22<15:31,  2.02it/s] 83%|████████▎ | 9189/11074 [1:18:22<15:30,  2.02it/s] 83%|████████▎ | 9190/11074 [1:18:23<15:30,  2.02it/s] 83%|████████▎ | 9191/11074 [1:18:23<15:30,  2.02it/s] 83%|████████▎ | 9192/11074 [1:18:24<15:29,  2.02it/s] 83%|████████▎ | 9193/11074 [1:18:24<15:30,  2.02it/s] 83%|████████▎ | 9194/11074 [1:18:25<15:28,  2.02it/s] 83%|████████▎ | 9195/11074 [1:18:25<15:27,  2.03it/s] 83%|████████▎ | 9196/11074 [1:18:26<15:27,  2.02it/s] 83%|████████▎ | 9197/11074 [1:18:26<15:26,  2.03it/s] 83%|████████▎ | 9198/11074 [1:18:27<15:26,  2.02it/s] 83%|████████▎ | 9199/11074 [1:18:27<15:25,  2.03it/s] 83%|████████▎ | 9200/11074 [1:18:28<15:25,  2.02it/s]                                                      {'loss': 3.1916, 'grad_norm': 0.23818659782409668, 'learning_rate': 8.47364602919623e-05, 'epoch': 11.62}
- 83%|████████▎ | 9200/11074 [1:18:28<15:25,  2.02it/s] 83%|████████▎ | 9201/11074 [1:18:28<15:25,  2.02it/s] 83%|████████▎ | 9202/11074 [1:18:29<15:25,  2.02it/s] 83%|████████▎ | 9203/11074 [1:18:29<15:24,  2.02it/s] 83%|████████▎ | 9204/11074 [1:18:30<15:24,  2.02it/s] 83%|████████▎ | 9205/11074 [1:18:30<15:23,  2.02it/s] 83%|████████▎ | 9206/11074 [1:18:31<15:23,  2.02it/s] 83%|████████▎ | 9207/11074 [1:18:31<15:23,  2.02it/s] 83%|████████▎ | 9208/11074 [1:18:32<15:21,  2.02it/s] 83%|████████▎ | 9209/11074 [1:18:32<15:21,  2.02it/s] 83%|████████▎ | 9210/11074 [1:18:33<15:20,  2.03it/s] 83%|████████▎ | 9211/11074 [1:18:33<15:20,  2.02it/s] 83%|████████▎ | 9212/11074 [1:18:34<15:19,  2.03it/s] 83%|████████▎ | 9213/11074 [1:18:34<15:19,  2.02it/s] 83%|████████▎ | 9214/11074 [1:18:35<15:18,  2.03it/s] 83%|████████▎ | 9215/11074 [1:18:35<15:17,  2.03it/s] 83%|████████▎ | 9216/11074 [1:18:36<15:16,  2.03it/s] 83%|████████▎ | 9217/11074 [1:18:36<15:16,  2.03it/s] 83%|████████▎ | 9218/11074 [1:18:37<15:15,  2.03it/s] 83%|████████▎ | 9219/11074 [1:18:37<15:13,  2.03it/s] 83%|████████▎ | 9220/11074 [1:18:38<15:14,  2.03it/s] 83%|████████▎ | 9221/11074 [1:18:38<15:13,  2.03it/s] 83%|████████▎ | 9222/11074 [1:18:39<15:13,  2.03it/s] 83%|████████▎ | 9223/11074 [1:18:39<15:13,  2.03it/s] 83%|████████▎ | 9224/11074 [1:18:40<15:13,  2.02it/s] 83%|████████▎ | 9225/11074 [1:18:40<15:13,  2.02it/s]{'loss': 3.1904, 'grad_norm': 0.23970608413219452, 'learning_rate': 8.255466776681563e-05, 'epoch': 11.66}                                                      
- 83%|████████▎ | 9225/11074 [1:18:40<15:13,  2.02it/s] 83%|████████▎ | 9226/11074 [1:18:41<15:14,  2.02it/s] 83%|████████▎ | 9227/11074 [1:18:41<15:13,  2.02it/s] 83%|████████▎ | 9228/11074 [1:18:42<15:12,  2.02it/s] 83%|████████▎ | 9229/11074 [1:18:42<15:11,  2.02it/s] 83%|████████▎ | 9230/11074 [1:18:43<15:11,  2.02it/s] 83%|████████▎ | 9231/11074 [1:18:43<15:10,  2.02it/s] 83%|████████▎ | 9232/11074 [1:18:44<15:10,  2.02it/s] 83%|████████▎ | 9233/11074 [1:18:44<15:08,  2.03it/s] 83%|████████▎ | 9234/11074 [1:18:45<15:09,  2.02it/s] 83%|████████▎ | 9235/11074 [1:18:45<15:08,  2.03it/s] 83%|████████▎ | 9236/11074 [1:18:46<15:08,  2.02it/s] 83%|████████▎ | 9237/11074 [1:18:46<15:08,  2.02it/s] 83%|████████▎ | 9238/11074 [1:18:47<15:08,  2.02it/s] 83%|████████▎ | 9239/11074 [1:18:47<15:08,  2.02it/s] 83%|████████▎ | 9240/11074 [1:18:48<15:07,  2.02it/s] 83%|████████▎ | 9241/11074 [1:18:48<15:06,  2.02it/s] 83%|████████▎ | 9242/11074 [1:18:49<15:06,  2.02it/s] 83%|████████▎ | 9243/11074 [1:18:49<15:04,  2.02it/s] 83%|████████▎ | 9244/11074 [1:18:50<15:04,  2.02it/s] 83%|████████▎ | 9245/11074 [1:18:50<15:02,  2.03it/s] 83%|████████▎ | 9246/11074 [1:18:51<15:02,  2.03it/s] 84%|████████▎ | 9247/11074 [1:18:51<15:02,  2.03it/s] 84%|████████▎ | 9248/11074 [1:18:52<15:02,  2.02it/s] 84%|████████▎ | 9249/11074 [1:18:52<15:01,  2.02it/s] 84%|████████▎ | 9250/11074 [1:18:53<15:00,  2.03it/s]{'loss': 3.1955, 'grad_norm': 0.2404358983039856, 'learning_rate': 8.039880123223076e-05, 'epoch': 11.69}                                                      
- 84%|████████▎ | 9250/11074 [1:18:53<15:00,  2.03it/s] 84%|████████▎ | 9251/11074 [1:18:53<15:01,  2.02it/s] 84%|████████▎ | 9252/11074 [1:18:54<15:01,  2.02it/s] 84%|████████▎ | 9253/11074 [1:18:54<15:00,  2.02it/s] 84%|████████▎ | 9254/11074 [1:18:55<15:00,  2.02it/s] 84%|████████▎ | 9255/11074 [1:18:55<14:59,  2.02it/s] 84%|████████▎ | 9256/11074 [1:18:56<14:58,  2.02it/s] 84%|████████▎ | 9257/11074 [1:18:56<14:58,  2.02it/s] 84%|████████▎ | 9258/11074 [1:18:57<14:57,  2.02it/s] 84%|████████▎ | 9259/11074 [1:18:57<14:57,  2.02it/s] 84%|████████▎ | 9260/11074 [1:18:58<14:57,  2.02it/s] 84%|████████▎ | 9261/11074 [1:18:58<14:56,  2.02it/s] 84%|████████▎ | 9262/11074 [1:18:59<14:55,  2.02it/s] 84%|████████▎ | 9263/11074 [1:18:59<14:54,  2.02it/s] 84%|████████▎ | 9264/11074 [1:19:00<14:53,  2.03it/s] 84%|████████▎ | 9265/11074 [1:19:00<14:53,  2.02it/s] 84%|████████▎ | 9266/11074 [1:19:01<14:52,  2.03it/s] 84%|████████▎ | 9267/11074 [1:19:01<14:52,  2.03it/s] 84%|████████▎ | 9268/11074 [1:19:02<14:50,  2.03it/s] 84%|████████▎ | 9269/11074 [1:19:02<14:50,  2.03it/s] 84%|████████▎ | 9270/11074 [1:19:03<14:50,  2.03it/s] 84%|████████▎ | 9271/11074 [1:19:03<14:49,  2.03it/s] 84%|████████▎ | 9272/11074 [1:19:03<14:49,  2.03it/s] 84%|████████▎ | 9273/11074 [1:19:04<14:48,  2.03it/s] 84%|████████▎ | 9274/11074 [1:19:04<14:48,  2.02it/s] 84%|████████▍ | 9275/11074 [1:19:05<14:47,  2.03it/s]{'loss': 3.185, 'grad_norm': 0.23950828611850739, 'learning_rate': 7.826899458113019e-05, 'epoch': 11.72}                                                      
- 84%|████████▍ | 9275/11074 [1:19:05<14:47,  2.03it/s] 84%|████████▍ | 9276/11074 [1:19:05<14:49,  2.02it/s] 84%|████████▍ | 9277/11074 [1:19:06<14:47,  2.02it/s] 84%|████████▍ | 9278/11074 [1:19:06<14:47,  2.02it/s] 84%|████████▍ | 9279/11074 [1:19:07<14:46,  2.03it/s] 84%|████████▍ | 9280/11074 [1:19:07<14:45,  2.03it/s] 84%|████████▍ | 9281/11074 [1:19:08<14:44,  2.03it/s] 84%|████████▍ | 9282/11074 [1:19:08<14:44,  2.03it/s] 84%|████████▍ | 9283/11074 [1:19:09<14:44,  2.02it/s] 84%|████████▍ | 9284/11074 [1:19:09<14:44,  2.02it/s] 84%|████████▍ | 9285/11074 [1:19:10<14:44,  2.02it/s] 84%|████████▍ | 9286/11074 [1:19:10<14:43,  2.02it/s] 84%|████████▍ | 9287/11074 [1:19:11<14:42,  2.02it/s] 84%|████████▍ | 9288/11074 [1:19:11<14:41,  2.03it/s] 84%|████████▍ | 9289/11074 [1:19:12<14:41,  2.02it/s] 84%|████████▍ | 9290/11074 [1:19:12<14:40,  2.03it/s] 84%|████████▍ | 9291/11074 [1:19:13<14:39,  2.03it/s] 84%|████████▍ | 9292/11074 [1:19:13<14:39,  2.03it/s] 84%|████████▍ | 9293/11074 [1:19:14<14:38,  2.03it/s] 84%|████████▍ | 9294/11074 [1:19:14<14:39,  2.02it/s] 84%|████████▍ | 9295/11074 [1:19:15<14:39,  2.02it/s] 84%|████████▍ | 9296/11074 [1:19:15<14:39,  2.02it/s] 84%|████████▍ | 9297/11074 [1:19:16<14:40,  2.02it/s] 84%|████████▍ | 9298/11074 [1:19:16<14:38,  2.02it/s] 84%|████████▍ | 9299/11074 [1:19:17<14:37,  2.02it/s] 84%|████████▍ | 9300/11074 [1:19:17<14:36,  2.02it/s]                                                      {'loss': 3.1879, 'grad_norm': 0.24105164408683777, 'learning_rate': 7.616538008795282e-05, 'epoch': 11.75}
- 84%|████████▍ | 9300/11074 [1:19:17<14:36,  2.02it/s] 84%|████████▍ | 9301/11074 [1:19:18<14:37,  2.02it/s] 84%|████████▍ | 9302/11074 [1:19:18<14:36,  2.02it/s] 84%|████████▍ | 9303/11074 [1:19:19<14:34,  2.02it/s] 84%|████████▍ | 9304/11074 [1:19:19<14:34,  2.02it/s] 84%|████████▍ | 9305/11074 [1:19:20<14:33,  2.02it/s] 84%|████████▍ | 9306/11074 [1:19:20<14:33,  2.02it/s] 84%|████████▍ | 9307/11074 [1:19:21<14:32,  2.03it/s] 84%|████████▍ | 9308/11074 [1:19:21<14:32,  2.02it/s] 84%|████████▍ | 9309/11074 [1:19:22<14:31,  2.03it/s] 84%|████████▍ | 9310/11074 [1:19:22<14:30,  2.03it/s] 84%|████████▍ | 9311/11074 [1:19:23<14:31,  2.02it/s] 84%|████████▍ | 9312/11074 [1:19:23<14:29,  2.03it/s] 84%|████████▍ | 9313/11074 [1:19:24<14:29,  2.02it/s] 84%|████████▍ | 9314/11074 [1:19:24<14:28,  2.03it/s] 84%|████████▍ | 9315/11074 [1:19:25<14:28,  2.02it/s] 84%|████████▍ | 9316/11074 [1:19:25<14:27,  2.03it/s] 84%|████████▍ | 9317/11074 [1:19:26<14:27,  2.03it/s] 84%|████████▍ | 9318/11074 [1:19:26<14:27,  2.02it/s] 84%|████████▍ | 9319/11074 [1:19:27<14:26,  2.03it/s] 84%|████████▍ | 9320/11074 [1:19:27<14:26,  2.03it/s] 84%|████████▍ | 9321/11074 [1:19:28<14:25,  2.03it/s] 84%|████████▍ | 9322/11074 [1:19:28<14:26,  2.02it/s] 84%|████████▍ | 9323/11074 [1:19:29<14:24,  2.03it/s] 84%|████████▍ | 9324/11074 [1:19:29<14:23,  2.03it/s] 84%|████████▍ | 9325/11074 [1:19:30<14:23,  2.03it/s]{'loss': 3.1905, 'grad_norm': 0.2403911054134369, 'learning_rate': 7.408808840043912e-05, 'epoch': 11.78}
-                                                       84%|████████▍ | 9325/11074 [1:19:30<14:23,  2.03it/s] 84%|████████▍ | 9326/11074 [1:19:30<14:24,  2.02it/s] 84%|████████▍ | 9327/11074 [1:19:31<14:23,  2.02it/s] 84%|████████▍ | 9328/11074 [1:19:31<14:23,  2.02it/s] 84%|████████▍ | 9329/11074 [1:19:32<14:23,  2.02it/s] 84%|████████▍ | 9330/11074 [1:19:32<14:22,  2.02it/s] 84%|████████▍ | 9331/11074 [1:19:33<14:22,  2.02it/s] 84%|████████▍ | 9332/11074 [1:19:33<14:21,  2.02it/s] 84%|████████▍ | 9333/11074 [1:19:34<14:20,  2.02it/s] 84%|████████▍ | 9334/11074 [1:19:34<14:19,  2.02it/s] 84%|████████▍ | 9335/11074 [1:19:35<14:19,  2.02it/s] 84%|████████▍ | 9336/11074 [1:19:35<14:18,  2.02it/s] 84%|████████▍ | 9337/11074 [1:19:36<14:17,  2.03it/s] 84%|████████▍ | 9338/11074 [1:19:36<14:17,  2.03it/s] 84%|████████▍ | 9339/11074 [1:19:37<14:16,  2.03it/s] 84%|████████▍ | 9340/11074 [1:19:37<14:16,  2.02it/s] 84%|████████▍ | 9341/11074 [1:19:38<14:16,  2.02it/s] 84%|████████▍ | 9342/11074 [1:19:38<14:16,  2.02it/s] 84%|████████▍ | 9343/11074 [1:19:39<14:15,  2.02it/s] 84%|████████▍ | 9344/11074 [1:19:39<14:16,  2.02it/s] 84%|████████▍ | 9345/11074 [1:19:40<14:15,  2.02it/s] 84%|████████▍ | 9346/11074 [1:19:40<14:14,  2.02it/s] 84%|████████▍ | 9347/11074 [1:19:41<14:14,  2.02it/s] 84%|████████▍ | 9348/11074 [1:19:41<14:14,  2.02it/s] 84%|████████▍ | 9349/11074 [1:19:42<14:13,  2.02it/s] 84%|████████▍ | 9350/11074 [1:19:42<14:13,  2.02it/s]{'loss': 3.1936, 'grad_norm': 0.24034592509269714, 'learning_rate': 7.20372485315176e-05, 'epoch': 11.81}
-                                                       84%|████████▍ | 9350/11074 [1:19:42<14:13,  2.02it/s] 84%|████████▍ | 9351/11074 [1:19:43<14:13,  2.02it/s] 84%|████████▍ | 9352/11074 [1:19:43<14:12,  2.02it/s] 84%|████████▍ | 9353/11074 [1:19:44<14:12,  2.02it/s] 84%|████████▍ | 9354/11074 [1:19:44<14:11,  2.02it/s] 84%|████████▍ | 9355/11074 [1:19:45<14:10,  2.02it/s] 84%|████████▍ | 9356/11074 [1:19:45<14:09,  2.02it/s] 84%|████████▍ | 9357/11074 [1:19:45<14:08,  2.02it/s] 85%|████████▍ | 9358/11074 [1:19:46<14:08,  2.02it/s] 85%|████████▍ | 9359/11074 [1:19:46<14:06,  2.03it/s] 85%|████████▍ | 9360/11074 [1:19:47<14:06,  2.03it/s] 85%|████████▍ | 9361/11074 [1:19:47<14:05,  2.02it/s] 85%|████████▍ | 9362/11074 [1:19:48<14:05,  2.03it/s] 85%|████████▍ | 9363/11074 [1:19:48<14:05,  2.02it/s] 85%|████████▍ | 9364/11074 [1:19:49<14:04,  2.02it/s] 85%|████████▍ | 9365/11074 [1:19:49<14:04,  2.02it/s] 85%|████████▍ | 9366/11074 [1:19:50<14:04,  2.02it/s] 85%|████████▍ | 9367/11074 [1:19:50<14:03,  2.02it/s] 85%|████████▍ | 9368/11074 [1:19:51<14:03,  2.02it/s] 85%|████████▍ | 9369/11074 [1:19:51<14:02,  2.02it/s] 85%|████████▍ | 9370/11074 [1:19:52<14:02,  2.02it/s] 85%|████████▍ | 9371/11074 [1:19:52<14:01,  2.02it/s] 85%|████████▍ | 9372/11074 [1:19:53<14:01,  2.02it/s] 85%|████████▍ | 9373/11074 [1:19:53<14:00,  2.02it/s] 85%|████████▍ | 9374/11074 [1:19:54<13:59,  2.02it/s] 85%|████████▍ | 9375/11074 [1:19:54<13:58,  2.03it/s]{'loss': 3.1969, 'grad_norm': 0.23983672261238098, 'learning_rate': 7.00129878512914e-05, 'epoch': 11.84}                                                      
- 85%|████████▍ | 9375/11074 [1:19:54<13:58,  2.03it/s] 85%|████████▍ | 9376/11074 [1:19:55<14:00,  2.02it/s] 85%|████████▍ | 9377/11074 [1:19:55<14:00,  2.02it/s] 85%|████████▍ | 9378/11074 [1:19:56<13:59,  2.02it/s] 85%|████████▍ | 9379/11074 [1:19:56<13:58,  2.02it/s] 85%|████████▍ | 9380/11074 [1:19:57<13:58,  2.02it/s] 85%|████████▍ | 9381/11074 [1:19:57<13:57,  2.02it/s] 85%|████████▍ | 9382/11074 [1:19:58<13:56,  2.02it/s] 85%|████████▍ | 9383/11074 [1:19:58<13:55,  2.02it/s] 85%|████████▍ | 9384/11074 [1:19:59<13:54,  2.02it/s] 85%|████████▍ | 9385/11074 [1:19:59<13:54,  2.02it/s] 85%|████████▍ | 9386/11074 [1:20:00<13:54,  2.02it/s] 85%|████████▍ | 9387/11074 [1:20:00<13:53,  2.02it/s] 85%|████████▍ | 9388/11074 [1:20:01<13:54,  2.02it/s] 85%|████████▍ | 9389/11074 [1:20:01<13:52,  2.02it/s] 85%|████████▍ | 9390/11074 [1:20:02<13:51,  2.02it/s] 85%|████████▍ | 9391/11074 [1:20:02<13:51,  2.02it/s] 85%|████████▍ | 9392/11074 [1:20:03<13:50,  2.02it/s] 85%|████████▍ | 9393/11074 [1:20:03<13:50,  2.02it/s] 85%|████████▍ | 9394/11074 [1:20:04<13:49,  2.03it/s] 85%|████████▍ | 9395/11074 [1:20:04<13:49,  2.02it/s] 85%|████████▍ | 9396/11074 [1:20:05<13:48,  2.02it/s] 85%|████████▍ | 9397/11074 [1:20:05<13:48,  2.02it/s] 85%|████████▍ | 9398/11074 [1:20:06<13:48,  2.02it/s] 85%|████████▍ | 9399/11074 [1:20:06<13:47,  2.02it/s] 85%|████████▍ | 9400/11074 [1:20:07<13:47,  2.02it/s]                                                      {'loss': 3.1908, 'grad_norm': 0.23928986489772797, 'learning_rate': 6.80154320791283e-05, 'epoch': 11.88}
- 85%|████████▍ | 9400/11074 [1:20:07<13:47,  2.02it/s] 85%|████████▍ | 9401/11074 [1:20:07<13:48,  2.02it/s] 85%|████████▍ | 9402/11074 [1:20:08<13:47,  2.02it/s] 85%|████████▍ | 9403/11074 [1:20:08<13:47,  2.02it/s] 85%|████████▍ | 9404/11074 [1:20:09<13:46,  2.02it/s] 85%|████████▍ | 9405/11074 [1:20:09<13:45,  2.02it/s] 85%|████████▍ | 9406/11074 [1:20:10<13:44,  2.02it/s] 85%|████████▍ | 9407/11074 [1:20:10<13:44,  2.02it/s] 85%|████████▍ | 9408/11074 [1:20:11<13:43,  2.02it/s] 85%|████████▍ | 9409/11074 [1:20:11<13:43,  2.02it/s] 85%|████████▍ | 9410/11074 [1:20:12<13:42,  2.02it/s] 85%|████████▍ | 9411/11074 [1:20:12<13:41,  2.02it/s] 85%|████████▍ | 9412/11074 [1:20:13<13:42,  2.02it/s] 85%|████████▌ | 9413/11074 [1:20:13<13:42,  2.02it/s] 85%|████████▌ | 9414/11074 [1:20:14<13:41,  2.02it/s] 85%|████████▌ | 9415/11074 [1:20:14<13:40,  2.02it/s] 85%|████████▌ | 9416/11074 [1:20:15<13:40,  2.02it/s] 85%|████████▌ | 9417/11074 [1:20:15<13:39,  2.02it/s] 85%|████████▌ | 9418/11074 [1:20:16<13:38,  2.02it/s] 85%|████████▌ | 9419/11074 [1:20:16<13:38,  2.02it/s] 85%|████████▌ | 9420/11074 [1:20:17<13:37,  2.02it/s] 85%|████████▌ | 9421/11074 [1:20:17<13:37,  2.02it/s] 85%|████████▌ | 9422/11074 [1:20:18<13:36,  2.02it/s] 85%|████████▌ | 9423/11074 [1:20:18<13:35,  2.02it/s] 85%|████████▌ | 9424/11074 [1:20:19<13:35,  2.02it/s] 85%|████████▌ | 9425/11074 [1:20:19<13:34,  2.02it/s]{'loss': 3.1896, 'grad_norm': 0.2401139885187149, 'learning_rate': 6.604470527585304e-05, 'epoch': 11.91}                                                      
- 85%|████████▌ | 9425/11074 [1:20:19<13:34,  2.02it/s] 85%|████████▌ | 9426/11074 [1:20:20<13:35,  2.02it/s] 85%|████████▌ | 9427/11074 [1:20:20<13:34,  2.02it/s] 85%|████████▌ | 9428/11074 [1:20:21<13:34,  2.02it/s] 85%|████████▌ | 9429/11074 [1:20:21<13:33,  2.02it/s] 85%|████████▌ | 9430/11074 [1:20:22<13:33,  2.02it/s] 85%|████████▌ | 9431/11074 [1:20:22<13:32,  2.02it/s] 85%|████████▌ | 9432/11074 [1:20:23<13:31,  2.02it/s] 85%|████████▌ | 9433/11074 [1:20:23<13:30,  2.02it/s] 85%|████████▌ | 9434/11074 [1:20:24<13:30,  2.02it/s] 85%|████████▌ | 9435/11074 [1:20:24<13:31,  2.02it/s] 85%|████████▌ | 9436/11074 [1:20:25<13:30,  2.02it/s] 85%|████████▌ | 9437/11074 [1:20:25<13:28,  2.02it/s] 85%|████████▌ | 9438/11074 [1:20:26<13:28,  2.02it/s] 85%|████████▌ | 9439/11074 [1:20:26<13:27,  2.03it/s] 85%|████████▌ | 9440/11074 [1:20:27<13:26,  2.03it/s] 85%|████████▌ | 9441/11074 [1:20:27<13:25,  2.03it/s] 85%|████████▌ | 9442/11074 [1:20:28<13:25,  2.02it/s] 85%|████████▌ | 9443/11074 [1:20:28<13:25,  2.02it/s] 85%|████████▌ | 9444/11074 [1:20:29<13:25,  2.02it/s] 85%|████████▌ | 9445/11074 [1:20:29<13:25,  2.02it/s] 85%|████��███▌ | 9446/11074 [1:20:29<13:24,  2.02it/s] 85%|████████▌ | 9447/11074 [1:20:30<13:24,  2.02it/s] 85%|████████▌ | 9448/11074 [1:20:30<13:23,  2.02it/s] 85%|████████▌ | 9449/11074 [1:20:31<13:23,  2.02it/s] 85%|████████▌ | 9450/11074 [1:20:31<13:21,  2.03it/s]                                                      {'loss': 3.1938, 'grad_norm': 0.24146758019924164, 'learning_rate': 6.410092983604148e-05, 'epoch': 11.94}
- 85%|████████▌ | 9450/11074 [1:20:31<13:21,  2.03it/s] 85%|████████▌ | 9451/11074 [1:20:32<13:23,  2.02it/s] 85%|████████▌ | 9452/11074 [1:20:32<13:21,  2.02it/s] 85%|████████▌ | 9453/11074 [1:20:33<13:21,  2.02it/s] 85%|████████▌ | 9454/11074 [1:20:33<13:19,  2.03it/s] 85%|████████▌ | 9455/11074 [1:20:34<13:19,  2.02it/s] 85%|████████▌ | 9456/11074 [1:20:34<13:18,  2.03it/s] 85%|████████▌ | 9457/11074 [1:20:35<13:18,  2.03it/s] 85%|████████▌ | 9458/11074 [1:20:35<13:19,  2.02it/s] 85%|████████▌ | 9459/11074 [1:20:36<13:17,  2.03it/s] 85%|████████▌ | 9460/11074 [1:20:36<13:17,  2.02it/s] 85%|████████▌ | 9461/11074 [1:20:37<13:15,  2.03it/s] 85%|████████▌ | 9462/11074 [1:20:37<13:15,  2.03it/s] 85%|████████▌ | 9463/11074 [1:20:38<13:15,  2.03it/s] 85%|████████▌ | 9464/11074 [1:20:38<13:14,  2.03it/s] 85%|████████▌ | 9465/11074 [1:20:39<13:14,  2.02it/s] 85%|████████▌ | 9466/11074 [1:20:39<13:13,  2.03it/s] 85%|████████▌ | 9467/11074 [1:20:40<13:13,  2.03it/s] 85%|████████▌ | 9468/11074 [1:20:40<13:12,  2.03it/s] 86%|████████▌ | 9469/11074 [1:20:41<13:12,  2.03it/s] 86%|████████▌ | 9470/11074 [1:20:41<13:12,  2.02it/s] 86%|████████▌ | 9471/11074 [1:20:42<13:12,  2.02it/s] 86%|████████▌ | 9472/11074 [1:20:42<13:12,  2.02it/s] 86%|████████▌ | 9473/11074 [1:20:43<13:11,  2.02it/s] 86%|████████▌ | 9474/11074 [1:20:43<13:12,  2.02it/s] 86%|████████▌ | 9475/11074 [1:20:44<13:10,  2.02it/s]                                                      {'loss': 3.1885, 'grad_norm': 0.23939968645572662, 'learning_rate': 6.218422648042027e-05, 'epoch': 11.97}
- 86%|████████▌ | 9475/11074 [1:20:44<13:10,  2.02it/s] 86%|████████▌ | 9476/11074 [1:20:44<13:11,  2.02it/s] 86%|████████▌ | 9477/11074 [1:20:45<13:10,  2.02it/s] 86%|████████▌ | 9478/11074 [1:20:45<13:09,  2.02it/s] 86%|████████▌ | 9479/11074 [1:20:46<13:08,  2.02it/s] 86%|████████▌ | 9480/11074 [1:20:46<13:07,  2.02it/s] 86%|████████▌ | 9481/11074 [1:20:47<13:07,  2.02it/s] 86%|████████▌ | 9482/11074 [1:20:47<13:06,  2.03it/s] 86%|████████▌ | 9483/11074 [1:20:48<13:05,  2.02it/s] 86%|████████▌ | 9484/11074 [1:20:48<13:04,  2.03it/s] 86%|████████▌ | 9485/11074 [1:20:49<13:04,  2.02it/s] 86%|████████▌ | 9486/11074 [1:20:49<13:03,  2.03it/s] 86%|████████▌ | 9487/11074 [1:20:50<13:03,  2.02it/s] 86%|████████▌ | 9488/11074 [1:20:50<13:03,  2.02it/s] 86%|████████▌ | 9489/11074 [1:20:51<13:03,  2.02it/s] 86%|████████▌ | 9490/11074 [1:20:51<13:02,  2.02it/s] 86%|████████▌ | 9491/11074 [1:20:52<13:02,  2.02it/s] 86%|████████▌ | 9492/11074 [1:20:52<13:02,  2.02it/s] 86%|████████▌ | 9493/11074 [1:20:53<13:01,  2.02it/s] 86%|████████▌ | 9494/11074 [1:20:53<13:01,  2.02it/s] 86%|████████▌ | 9495/11074 [1:20:54<13:01,  2.02it/s] 86%|████████▌ | 9496/11074 [1:20:54<13:00,  2.02it/s] 86%|████████▌ | 9497/11074 [1:20:55<12:59,  2.02it/s] 86%|████████▌ | 9498/11074 [1:20:55<12:51,  2.04it/s] 86%|████████▌ | 9499/11074 [1:21:07<1:45:56,  4.04s/it] 86%|████████▌ | 9500/11074 [1:21:08<1:18:04,  2.98s/it]                                                        {'loss': 3.1825, 'grad_norm': 0.23993708193302155, 'learning_rate': 6.0294714248368074e-05, 'epoch': 12.0}
- 86%|████████▌ | 9500/11074 [1:21:08<1:18:04,  2.98s/it] 86%|████████▌ | 9501/11074 [1:21:08<58:33,  2.23s/it]   86%|████████▌ | 9502/11074 [1:21:09<44:55,  1.71s/it] 86%|████████▌ | 9503/11074 [1:21:09<35:17,  1.35s/it] 86%|████████▌ | 9504/11074 [1:21:10<28:34,  1.09s/it] 86%|████████▌ | 9505/11074 [1:21:10<23:51,  1.10it/s] 86%|████████▌ | 9506/11074 [1:21:11<20:34,  1.27it/s] 86%|████████▌ | 9507/11074 [1:21:11<18:15,  1.43it/s] 86%|████████▌ | 9508/11074 [1:21:12<16:38,  1.57it/s] 86%|████████▌ | 9509/11074 [1:21:12<15:30,  1.68it/s] 86%|████████▌ | 9510/11074 [1:21:13<14:44,  1.77it/s] 86%|████████▌ | 9511/11074 [1:21:13<14:10,  1.84it/s] 86%|████████▌ | 9512/11074 [1:21:14<13:48,  1.89it/s] 86%|████████▌ | 9513/11074 [1:21:14<13:29,  1.93it/s] 86%|████████▌ | 9514/11074 [1:21:15<13:17,  1.96it/s] 86%|████████▌ | 9515/11074 [1:21:15<13:09,  1.97it/s] 86%|████████▌ | 9516/11074 [1:21:16<13:04,  1.99it/s] 86%|████████▌ | 9517/11074 [1:21:16<12:59,  2.00it/s] 86%|████████▌ | 9518/11074 [1:21:17<14:03,  1.85it/s] 86%|████████▌ | 9519/11074 [1:21:18<13:39,  1.90it/s] 86%|████████▌ | 9520/11074 [1:21:18<13:24,  1.93it/s] 86%|████████▌ | 9521/11074 [1:21:19<13:12,  1.96it/s] 86%|████████▌ | 9522/11074 [1:21:19<13:04,  1.98it/s] 86%|████████▌ | 9523/11074 [1:21:20<13:00,  1.99it/s] 86%|████████▌ | 9524/11074 [1:21:20<12:55,  2.00it/s] 86%|████████▌ | 9525/11074 [1:21:21<12:52,  2.00it/s]                                                      {'loss': 3.1309, 'grad_norm': 0.2406255155801773, 'learning_rate': 5.8432510490523564e-05, 'epoch': 12.03}
- 86%|████████▌ | 9525/11074 [1:21:21<12:52,  2.00it/s] 86%|████████▌ | 9526/11074 [1:21:21<12:51,  2.01it/s] 86%|████████▌ | 9527/11074 [1:21:22<12:49,  2.01it/s] 86%|████████▌ | 9528/11074 [1:21:22<12:48,  2.01it/s] 86%|████████▌ | 9529/11074 [1:21:22<12:46,  2.02it/s] 86%|████████▌ | 9530/11074 [1:21:23<12:45,  2.02it/s] 86%|████████▌ | 9531/11074 [1:21:23<12:43,  2.02it/s] 86%|████████▌ | 9532/11074 [1:21:24<12:42,  2.02it/s] 86%|████████▌ | 9533/11074 [1:21:24<12:42,  2.02it/s] 86%|████████▌ | 9534/11074 [1:21:25<12:40,  2.03it/s] 86%|████████▌ | 9535/11074 [1:21:25<12:39,  2.03it/s] 86%|████████▌ | 9536/11074 [1:21:26<12:38,  2.03it/s] 86%|████████▌ | 9537/11074 [1:21:26<12:38,  2.03it/s] 86%|████████▌ | 9538/11074 [1:21:27<12:38,  2.03it/s] 86%|████████▌ | 9539/11074 [1:21:27<12:37,  2.03it/s] 86%|████████▌ | 9540/11074 [1:21:28<12:36,  2.03it/s] 86%|████████▌ | 9541/11074 [1:21:28<12:35,  2.03it/s] 86%|████████▌ | 9542/11074 [1:21:29<12:35,  2.03it/s] 86%|████████▌ | 9543/11074 [1:21:29<12:35,  2.03it/s] 86%|████████▌ | 9544/11074 [1:21:30<12:34,  2.03it/s] 86%|████████▌ | 9545/11074 [1:21:30<12:34,  2.03it/s] 86%|████████▌ | 9546/11074 [1:21:31<12:33,  2.03it/s] 86%|████████▌ | 9547/11074 [1:21:31<12:33,  2.03it/s] 86%|████████▌ | 9548/11074 [1:21:32<12:32,  2.03it/s] 86%|████████▌ | 9549/11074 [1:21:32<12:31,  2.03it/s] 86%|████████▌ | 9550/11074 [1:21:33<12:31,  2.03it/s]                                                      {'loss': 3.1295, 'grad_norm': 0.23934835195541382, 'learning_rate': 5.659773086149672e-05, 'epoch': 12.07}
- 86%|████████▌ | 9550/11074 [1:21:33<12:31,  2.03it/s] 86%|████████▌ | 9551/11074 [1:21:33<12:32,  2.02it/s] 86%|████████▋ | 9552/11074 [1:21:34<12:31,  2.02it/s] 86%|████████▋ | 9553/11074 [1:21:34<12:32,  2.02it/s] 86%|████████▋ | 9554/11074 [1:21:35<12:31,  2.02it/s] 86%|████████▋ | 9555/11074 [1:21:35<12:31,  2.02it/s] 86%|████████▋ | 9556/11074 [1:21:36<12:30,  2.02it/s] 86%|████████▋ | 9557/11074 [1:21:36<12:30,  2.02it/s] 86%|████████▋ | 9558/11074 [1:21:37<12:29,  2.02it/s] 86%|████████▋ | 9559/11074 [1:21:37<12:30,  2.02it/s] 86%|████████▋ | 9560/11074 [1:21:38<12:29,  2.02it/s] 86%|████████▋ | 9561/11074 [1:21:38<12:28,  2.02it/s] 86%|████████▋ | 9562/11074 [1:21:39<12:27,  2.02it/s] 86%|████████▋ | 9563/11074 [1:21:39<12:26,  2.02it/s] 86%|████████▋ | 9564/11074 [1:21:40<12:26,  2.02it/s] 86%|████████▋ | 9565/11074 [1:21:40<12:25,  2.02it/s] 86%|████████▋ | 9566/11074 [1:21:41<12:24,  2.02it/s] 86%|████████▋ | 9567/11074 [1:21:41<12:24,  2.02it/s] 86%|████████▋ | 9568/11074 [1:21:42<12:23,  2.03it/s] 86%|████████▋ | 9569/11074 [1:21:42<12:23,  2.02it/s] 86%|██���█████▋ | 9570/11074 [1:21:43<12:23,  2.02it/s] 86%|████████▋ | 9571/11074 [1:21:43<12:23,  2.02it/s] 86%|████████▋ | 9572/11074 [1:21:44<12:22,  2.02it/s] 86%|████████▋ | 9573/11074 [1:21:44<12:21,  2.02it/s] 86%|████████▋ | 9574/11074 [1:21:45<12:21,  2.02it/s] 86%|████████▋ | 9575/11074 [1:21:45<12:20,  2.02it/s]{'loss': 3.1358, 'grad_norm': 0.24136708676815033, 'learning_rate': 5.479048931268582e-05, 'epoch': 12.1}
-                                                       86%|████████▋ | 9575/11074 [1:21:45<12:20,  2.02it/s] 86%|████████▋ | 9576/11074 [1:21:46<12:23,  2.01it/s] 86%|████████▋ | 9577/11074 [1:21:46<12:21,  2.02it/s] 86%|████████▋ | 9578/11074 [1:21:47<12:20,  2.02it/s] 86%|████████▋ | 9579/11074 [1:21:47<12:19,  2.02it/s] 87%|████████▋ | 9580/11074 [1:21:48<12:18,  2.02it/s] 87%|████████▋ | 9581/11074 [1:21:48<12:17,  2.02it/s] 87%|████████▋ | 9582/11074 [1:21:49<12:16,  2.02it/s] 87%|████████▋ | 9583/11074 [1:21:49<12:16,  2.02it/s] 87%|████████▋ | 9584/11074 [1:21:50<12:15,  2.03it/s] 87%|████████▋ | 9585/11074 [1:21:50<12:15,  2.02it/s] 87%|████████▋ | 9586/11074 [1:21:51<12:14,  2.03it/s] 87%|████████▋ | 9587/11074 [1:21:51<12:14,  2.03it/s] 87%|████████▋ | 9588/11074 [1:21:52<12:12,  2.03it/s] 87%|████████▋ | 9589/11074 [1:21:52<12:12,  2.03it/s] 87%|████████▋ | 9590/11074 [1:21:53<12:12,  2.03it/s] 87%|████████▋ | 9591/11074 [1:21:53<12:11,  2.03it/s] 87%|████████▋ | 9592/11074 [1:21:54<12:11,  2.03it/s] 87%|████████▋ | 9593/11074 [1:21:54<12:10,  2.03it/s] 87%|████████▋ | 9594/11074 [1:21:55<12:11,  2.02it/s] 87%|████████▋ | 9595/11074 [1:21:55<12:09,  2.03it/s] 87%|████████▋ | 9596/11074 [1:21:56<12:09,  2.03it/s] 87%|████████▋ | 9597/11074 [1:21:56<12:08,  2.03it/s] 87%|████████▋ | 9598/11074 [1:21:57<12:08,  2.03it/s] 87%|████████▋ | 9599/11074 [1:21:57<12:08,  2.03it/s] 87%|████████▋ | 9600/11074 [1:21:58<12:06,  2.03it/s]{'loss': 3.1398, 'grad_norm': 0.23873379826545715, 'learning_rate': 5.301089808520049e-05, 'epoch': 12.13}
-                                                       87%|████████▋ | 9600/11074 [1:21:58<12:06,  2.03it/s] 87%|████████▋ | 9601/11074 [1:21:58<12:08,  2.02it/s] 87%|████████▋ | 9602/11074 [1:21:59<12:06,  2.03it/s] 87%|████████▋ | 9603/11074 [1:21:59<12:06,  2.02it/s] 87%|████████▋ | 9604/11074 [1:22:00<12:05,  2.03it/s] 87%|████████▋ | 9605/11074 [1:22:00<12:05,  2.03it/s] 87%|████████▋ | 9606/11074 [1:22:01<12:05,  2.02it/s] 87%|████████▋ | 9607/11074 [1:22:01<12:05,  2.02it/s] 87%|████████▋ | 9608/11074 [1:22:02<12:04,  2.02it/s] 87%|████████▋ | 9609/11074 [1:22:02<12:04,  2.02it/s] 87%|████████▋ | 9610/11074 [1:22:02<12:02,  2.03it/s] 87%|████████▋ | 9611/11074 [1:22:03<13:04,  1.86it/s] 87%|████████▋ | 9612/11074 [1:22:04<12:45,  1.91it/s] 87%|████████▋ | 9613/11074 [1:22:04<12:32,  1.94it/s] 87%|████████▋ | 9614/11074 [1:22:05<12:22,  1.97it/s] 87%|████████▋ | 9615/11074 [1:22:05<12:15,  1.98it/s] 87%|████████▋ | 9616/11074 [1:22:06<12:10,  1.99it/s] 87%|████████▋ | 9617/11074 [1:22:06<12:06,  2.01it/s] 87%|████████▋ | 9618/11074 [1:22:07<12:04,  2.01it/s] 87%|████████▋ | 9619/11074 [1:22:07<12:02,  2.01it/s] 87%|████████▋ | 9620/11074 [1:22:08<12:00,  2.02it/s] 87%|████████▋ | 9621/11074 [1:22:08<11:59,  2.02it/s] 87%|████████▋ | 9622/11074 [1:22:09<12:00,  2.02it/s] 87%|████████▋ | 9623/11074 [1:22:09<11:58,  2.02it/s] 87%|████████▋ | 9624/11074 [1:22:10<11:56,  2.02it/s] 87%|████████▋ | 9625/11074 [1:22:10<11:56,  2.02it/s]{'loss': 3.1425, 'grad_norm': 0.24040587246418, 'learning_rate': 5.125906770289113e-05, 'epoch': 12.16}                                                      
- 87%|████████▋ | 9625/11074 [1:22:10<11:56,  2.02it/s] 87%|████████▋ | 9626/11074 [1:22:11<11:55,  2.02it/s] 87%|████████▋ | 9627/11074 [1:22:11<11:55,  2.02it/s] 87%|████████▋ | 9628/11074 [1:22:12<11:54,  2.02it/s] 87%|████████▋ | 9629/11074 [1:22:12<11:54,  2.02it/s] 87%|████████▋ | 9630/11074 [1:22:13<11:53,  2.02it/s] 87%|████████▋ | 9631/11074 [1:22:13<11:53,  2.02it/s] 87%|████████▋ | 9632/11074 [1:22:14<11:52,  2.02it/s] 87%|████████▋ | 9633/11074 [1:22:14<11:52,  2.02it/s] 87%|████████▋ | 9634/11074 [1:22:15<11:52,  2.02it/s] 87%|████████▋ | 9635/11074 [1:22:15<11:51,  2.02it/s] 87%|████████▋ | 9636/11074 [1:22:15<11:50,  2.02it/s] 87%|████████▋ | 9637/11074 [1:22:16<11:50,  2.02it/s] 87%|████████▋ | 9638/11074 [1:22:16<11:50,  2.02it/s] 87%|████████▋ | 9639/11074 [1:22:17<11:49,  2.02it/s] 87%|████████▋ | 9640/11074 [1:22:17<11:48,  2.02it/s] 87%|████████▋ | 9641/11074 [1:22:18<11:49,  2.02it/s] 87%|████████▋ | 9642/11074 [1:22:18<11:47,  2.02it/s] 87%|████████▋ | 9643/11074 [1:22:19<11:47,  2.02it/s] 87%|████████▋ | 9644/11074 [1:22:19<11:46,  2.02it/s] 87%|████████▋ | 9645/11074 [1:22:20<11:46,  2.02it/s] 87%|████████▋ | 9646/11074 [1:22:20<11:45,  2.02it/s] 87%|████████▋ | 9647/11074 [1:22:21<11:45,  2.02it/s] 87%|████████▋ | 9648/11074 [1:22:21<11:44,  2.02it/s] 87%|████████▋ | 9649/11074 [1:22:22<11:43,  2.02it/s] 87%|████████▋ | 9650/11074 [1:22:22<11:44,  2.02it/s]{'loss': 3.1417, 'grad_norm': 0.24300391972064972, 'learning_rate': 4.953510696548413e-05, 'epoch': 12.19}
-                                                       87%|████████▋ | 9650/11074 [1:22:22<11:44,  2.02it/s] 87%|████████▋ | 9651/11074 [1:22:23<11:43,  2.02it/s] 87%|████████▋ | 9652/11074 [1:22:23<11:43,  2.02it/s] 87%|████████▋ | 9653/11074 [1:22:24<11:41,  2.03it/s] 87%|████████▋ | 9654/11074 [1:22:24<11:41,  2.02it/s] 87%|████████▋ | 9655/11074 [1:22:25<11:40,  2.03it/s] 87%|████████▋ | 9656/11074 [1:22:25<11:40,  2.03it/s] 87%|████████▋ | 9657/11074 [1:22:26<11:39,  2.03it/s] 87%|████████▋ | 9658/11074 [1:22:26<11:39,  2.03it/s] 87%|████████▋ | 9659/11074 [1:22:27<11:38,  2.03it/s] 87%|████████▋ | 9660/11074 [1:22:27<11:38,  2.02it/s] 87%|████████▋ | 9661/11074 [1:22:28<11:38,  2.02it/s] 87%|████████▋ | 9662/11074 [1:22:28<11:37,  2.02it/s] 87%|████████▋ | 9663/11074 [1:22:29<11:37,  2.02it/s] 87%|████████▋ | 9664/11074 [1:22:29<11:36,  2.02it/s] 87%|████████▋ | 9665/11074 [1:22:30<11:36,  2.02it/s] 87%|████████▋ | 9666/11074 [1:22:30<11:35,  2.02it/s] 87%|████████▋ | 9667/11074 [1:22:31<11:35,  2.02it/s] 87%|████████▋ | 9668/11074 [1:22:31<11:34,  2.02it/s] 87%|████████▋ | 9669/11074 [1:22:32<11:34,  2.02it/s] 87%|████████▋ | 9670/11074 [1:22:32<11:33,  2.02it/s] 87%|████████▋ | 9671/11074 [1:22:33<11:33,  2.02it/s] 87%|████████▋ | 9672/11074 [1:22:33<11:32,  2.02it/s] 87%|████████▋ | 9673/11074 [1:22:34<11:32,  2.02it/s] 87%|████████▋ | 9674/11074 [1:22:34<11:31,  2.02it/s] 87%|████████▋ | 9675/11074 [1:22:35<11:31,  2.02it/s]{'loss': 3.1396, 'grad_norm': 0.24217967689037323, 'learning_rate': 4.783912294182485e-05, 'epoch': 12.22}                                                      
- 87%|████████▋ | 9675/11074 [1:22:35<11:31,  2.02it/s] 87%|████████▋ | 9676/11074 [1:22:35<11:35,  2.01it/s] 87%|████████▋ | 9677/11074 [1:22:36<11:33,  2.02it/s] 87%|████████▋ | 9678/11074 [1:22:36<11:32,  2.02it/s] 87%|████████▋ | 9679/11074 [1:22:37<11:30,  2.02it/s] 87%|████████▋ | 9680/11074 [1:22:37<11:29,  2.02it/s] 87%|████████▋ | 9681/11074 [1:22:38<11:28,  2.02it/s] 87%|████████▋ | 9682/11074 [1:22:38<11:27,  2.02it/s] 87%|████████▋ | 9683/11074 [1:22:39<11:27,  2.02it/s] 87%|████████▋ | 9684/11074 [1:22:39<11:26,  2.03it/s] 87%|████████▋ | 9685/11074 [1:22:40<11:26,  2.02it/s] 87%|████████▋ | 9686/11074 [1:22:40<11:25,  2.03it/s] 87%|████████▋ | 9687/11074 [1:22:41<11:25,  2.02it/s] 87%|████████▋ | 9688/11074 [1:22:41<11:24,  2.03it/s] 87%|████████▋ | 9689/11074 [1:22:42<11:24,  2.02it/s] 88%|████████▊ | 9690/11074 [1:22:42<11:23,  2.02it/s] 88%|████████▊ | 9691/11074 [1:22:43<11:23,  2.02it/s] 88%|████████▊ | 9692/11074 [1:22:43<11:22,  2.02it/s] 88%|████████▊ | 9693/11074 [1:22:44<11:21,  2.03it/s] 88%|████��███▊ | 9694/11074 [1:22:44<11:21,  2.02it/s] 88%|████████▊ | 9695/11074 [1:22:45<11:20,  2.03it/s] 88%|████████▊ | 9696/11074 [1:22:45<11:20,  2.02it/s] 88%|████████▊ | 9697/11074 [1:22:46<11:19,  2.03it/s] 88%|████████▊ | 9698/11074 [1:22:46<11:19,  2.02it/s] 88%|████████▊ | 9699/11074 [1:22:47<11:19,  2.02it/s] 88%|████████▊ | 9700/11074 [1:22:47<11:18,  2.02it/s]{'loss': 3.1419, 'grad_norm': 0.2392173707485199, 'learning_rate': 4.617122096322862e-05, 'epoch': 12.26}                                                      
- 88%|████████▊ | 9700/11074 [1:22:47<11:18,  2.02it/s] 88%|████████▊ | 9701/11074 [1:22:48<11:18,  2.02it/s] 88%|████████▊ | 9702/11074 [1:22:48<11:18,  2.02it/s] 88%|████████▊ | 9703/11074 [1:22:49<11:17,  2.02it/s] 88%|████████▊ | 9704/11074 [1:22:49<11:16,  2.02it/s] 88%|████████▊ | 9705/11074 [1:22:50<11:16,  2.02it/s] 88%|████████▊ | 9706/11074 [1:22:50<11:15,  2.03it/s] 88%|████████▊ | 9707/11074 [1:22:51<11:15,  2.02it/s] 88%|████████▊ | 9708/11074 [1:22:51<11:14,  2.03it/s] 88%|████████▊ | 9709/11074 [1:22:52<11:14,  2.02it/s] 88%|████████▊ | 9710/11074 [1:22:52<11:13,  2.02it/s] 88%|████████▊ | 9711/11074 [1:22:53<11:13,  2.02it/s] 88%|████████▊ | 9712/11074 [1:22:53<11:12,  2.02it/s] 88%|████████▊ | 9713/11074 [1:22:54<11:12,  2.02it/s] 88%|████████▊ | 9714/11074 [1:22:54<11:12,  2.02it/s] 88%|████████▊ | 9715/11074 [1:22:55<11:11,  2.02it/s] 88%|████████▊ | 9716/11074 [1:22:55<11:10,  2.02it/s] 88%|████████▊ | 9717/11074 [1:22:56<11:10,  2.02it/s] 88%|████████▊ | 9718/11074 [1:22:56<11:09,  2.02it/s] 88%|████████▊ | 9719/11074 [1:22:57<11:08,  2.03it/s] 88%|████████▊ | 9720/11074 [1:22:57<11:08,  2.02it/s] 88%|████████▊ | 9721/11074 [1:22:57<11:08,  2.02it/s] 88%|████████▊ | 9722/11074 [1:22:58<11:07,  2.02it/s] 88%|████████▊ | 9723/11074 [1:22:58<11:07,  2.02it/s] 88%|████████▊ | 9724/11074 [1:22:59<11:06,  2.02it/s] 88%|████████▊ | 9725/11074 [1:22:59<11:05,  2.03it/s]{'loss': 3.1522, 'grad_norm': 0.24311304092407227, 'learning_rate': 4.453150461693789e-05, 'epoch': 12.29}
-                                                       88%|████████▊ | 9725/11074 [1:22:59<11:05,  2.03it/s] 88%|████████▊ | 9726/11074 [1:23:00<11:08,  2.02it/s] 88%|████████▊ | 9727/11074 [1:23:00<11:07,  2.02it/s] 88%|████████▊ | 9728/11074 [1:23:01<11:06,  2.02it/s] 88%|████████▊ | 9729/11074 [1:23:01<11:05,  2.02it/s] 88%|████████▊ | 9730/11074 [1:23:02<11:04,  2.02it/s] 88%|████████▊ | 9731/11074 [1:23:02<11:04,  2.02it/s] 88%|████████▊ | 9732/11074 [1:23:03<11:03,  2.02it/s] 88%|████████▊ | 9733/11074 [1:23:03<11:02,  2.02it/s] 88%|████████▊ | 9734/11074 [1:23:04<11:02,  2.02it/s] 88%|████████▊ | 9735/11074 [1:23:04<11:02,  2.02it/s] 88%|████████▊ | 9736/11074 [1:23:05<11:01,  2.02it/s] 88%|████████▊ | 9737/11074 [1:23:05<11:01,  2.02it/s] 88%|████████▊ | 9738/11074 [1:23:06<11:00,  2.02it/s] 88%|████████▊ | 9739/11074 [1:23:06<11:00,  2.02it/s] 88%|████████▊ | 9740/11074 [1:23:07<10:59,  2.02it/s] 88%|████████▊ | 9741/11074 [1:23:07<10:58,  2.02it/s] 88%|████████▊ | 9742/11074 [1:23:08<10:57,  2.03it/s] 88%|████████▊ | 9743/11074 [1:23:08<10:57,  2.02it/s] 88%|████████▊ | 9744/11074 [1:23:09<10:56,  2.02it/s] 88%|████████▊ | 9745/11074 [1:23:09<10:56,  2.03it/s] 88%|████████▊ | 9746/11074 [1:23:10<10:56,  2.02it/s] 88%|████████▊ | 9747/11074 [1:23:10<10:54,  2.03it/s] 88%|████████▊ | 9748/11074 [1:23:11<10:55,  2.02it/s] 88%|████████▊ | 9749/11074 [1:23:11<10:54,  2.03it/s] 88%|████████▊ | 9750/11074 [1:23:12<10:53,  2.03it/s]                                                      {'loss': 3.155, 'grad_norm': 0.2436213493347168, 'learning_rate': 4.2920075739689926e-05, 'epoch': 12.32}
- 88%|████████▊ | 9750/11074 [1:23:12<10:53,  2.03it/s] 88%|████████▊ | 9751/11074 [1:23:12<10:53,  2.02it/s] 88%|████████▊ | 9752/11074 [1:23:13<10:53,  2.02it/s] 88%|████████▊ | 9753/11074 [1:23:13<10:53,  2.02it/s] 88%|████████▊ | 9754/11074 [1:23:14<10:52,  2.02it/s] 88%|████████▊ | 9755/11074 [1:23:14<10:52,  2.02it/s] 88%|████████▊ | 9756/11074 [1:23:15<10:51,  2.02it/s] 88%|████████▊ | 9757/11074 [1:23:15<10:50,  2.02it/s] 88%|████████▊ | 9758/11074 [1:23:16<10:51,  2.02it/s] 88%|████████▊ | 9759/11074 [1:23:16<10:50,  2.02it/s] 88%|████████▊ | 9760/11074 [1:23:17<10:50,  2.02it/s] 88%|████████▊ | 9761/11074 [1:23:17<10:49,  2.02it/s] 88%|████████▊ | 9762/11074 [1:23:18<10:48,  2.02it/s] 88%|████████▊ | 9763/11074 [1:23:18<10:47,  2.02it/s] 88%|████████▊ | 9764/11074 [1:23:19<10:46,  2.03it/s] 88%|████████▊ | 9765/11074 [1:23:19<10:46,  2.03it/s] 88%|████████▊ | 9766/11074 [1:23:20<10:45,  2.03it/s] 88%|████████▊ | 9767/11074 [1:23:20<10:45,  2.02it/s] 88%|████████▊ | 9768/11074 [1:23:21<10:45,  2.02it/s] 88%|████████▊ | 9769/11074 [1:23:21<10:45,  2.02it/s] 88%|████████▊ | 9770/11074 [1:23:22<10:44,  2.02it/s] 88%|████████▊ | 9771/11074 [1:23:22<10:43,  2.03it/s] 88%|████████▊ | 9772/11074 [1:23:23<10:43,  2.02it/s] 88%|████████▊ | 9773/11074 [1:23:23<10:41,  2.03it/s] 88%|████████▊ | 9774/11074 [1:23:24<10:41,  2.03it/s] 88%|████████▊ | 9775/11074 [1:23:24<10:40,  2.03it/s]{'loss': 3.1382, 'grad_norm': 0.2395491898059845, 'learning_rate': 4.1337034411391136e-05, 'epoch': 12.35}
-                                                       88%|████████▊ | 9775/11074 [1:23:24<10:40,  2.03it/s] 88%|████████▊ | 9776/11074 [1:23:25<10:41,  2.02it/s] 88%|████████▊ | 9777/11074 [1:23:25<10:40,  2.02it/s] 88%|████████▊ | 9778/11074 [1:23:26<10:39,  2.03it/s] 88%|████████▊ | 9779/11074 [1:23:26<10:39,  2.03it/s] 88%|████████▊ | 9780/11074 [1:23:27<10:39,  2.02it/s] 88%|████████▊ | 9781/11074 [1:23:27<10:38,  2.02it/s] 88%|████████▊ | 9782/11074 [1:23:28<10:38,  2.02it/s] 88%|████████▊ | 9783/11074 [1:23:28<10:38,  2.02it/s] 88%|████████▊ | 9784/11074 [1:23:29<10:37,  2.02it/s] 88%|████████▊ | 9785/11074 [1:23:29<10:37,  2.02it/s] 88%|████████▊ | 9786/11074 [1:23:30<10:36,  2.02it/s] 88%|████████▊ | 9787/11074 [1:23:30<10:36,  2.02it/s] 88%|████████▊ | 9788/11074 [1:23:31<10:35,  2.02it/s] 88%|████████▊ | 9789/11074 [1:23:31<10:35,  2.02it/s] 88%|████████▊ | 9790/11074 [1:23:32<10:34,  2.02it/s] 88%|████████▊ | 9791/11074 [1:23:32<10:33,  2.02it/s] 88%|████████▊ | 9792/11074 [1:23:33<10:33,  2.02it/s] 88%|████████▊ | 9793/11074 [1:23:33<10:33,  2.02it/s] 88%|████████▊ | 9794/11074 [1:23:34<10:32,  2.02it/s] 88%|████████▊ | 9795/11074 [1:23:34<10:32,  2.02it/s] 88%|████████▊ | 9796/11074 [1:23:35<10:31,  2.02it/s] 88%|████████▊ | 9797/11074 [1:23:35<10:30,  2.02it/s] 88%|████████▊ | 9798/11074 [1:23:36<10:30,  2.03it/s] 88%|████████▊ | 9799/11074 [1:23:36<10:29,  2.03it/s] 88%|████████▊ | 9800/11074 [1:23:37<10:28,  2.03it/s]{'loss': 3.1497, 'grad_norm': 0.24011148512363434, 'learning_rate': 3.978247894890219e-05, 'epoch': 12.38}                                                      
- 88%|████████▊ | 9800/11074 [1:23:37<10:28,  2.03it/s] 89%|████████▊ | 9801/11074 [1:23:37<10:29,  2.02it/s] 89%|████████▊ | 9802/11074 [1:23:38<10:28,  2.02it/s] 89%|████████▊ | 9803/11074 [1:23:38<10:28,  2.02it/s] 89%|████████▊ | 9804/11074 [1:23:39<10:28,  2.02it/s] 89%|████████▊ | 9805/11074 [1:23:39<10:27,  2.02it/s] 89%|████████▊ | 9806/11074 [1:23:40<10:26,  2.02it/s] 89%|████████▊ | 9807/11074 [1:23:40<10:26,  2.02it/s] 89%|████████▊ | 9808/11074 [1:23:40<10:25,  2.02it/s] 89%|████████▊ | 9809/11074 [1:23:41<10:25,  2.02it/s] 89%|████████▊ | 9810/11074 [1:23:41<10:24,  2.02it/s] 89%|████████▊ | 9811/11074 [1:23:42<10:24,  2.02it/s] 89%|████████▊ | 9812/11074 [1:23:42<10:24,  2.02it/s] 89%|████████▊ | 9813/11074 [1:23:43<10:22,  2.02it/s] 89%|████████▊ | 9814/11074 [1:23:43<10:22,  2.02it/s] 89%|████████▊ | 9815/11074 [1:23:44<10:21,  2.03it/s] 89%|████████▊ | 9816/11074 [1:23:44<10:21,  2.02it/s] 89%|████████▊ | 9817/11074 [1:23:45<10:20,  2.02it/s] 89%|██████���█▊ | 9818/11074 [1:23:45<10:20,  2.03it/s] 89%|████████▊ | 9819/11074 [1:23:46<10:19,  2.03it/s] 89%|████████▊ | 9820/11074 [1:23:46<10:19,  2.02it/s] 89%|████████▊ | 9821/11074 [1:23:47<10:19,  2.02it/s] 89%|████████▊ | 9822/11074 [1:23:47<10:19,  2.02it/s] 89%|████████▊ | 9823/11074 [1:23:48<10:18,  2.02it/s] 89%|████████▊ | 9824/11074 [1:23:48<10:17,  2.02it/s] 89%|████████▊ | 9825/11074 [1:23:49<10:17,  2.02it/s]{'loss': 3.1444, 'grad_norm': 0.24186104536056519, 'learning_rate': 3.825650589993163e-05, 'epoch': 12.41}                                                      
- 89%|████████▊ | 9825/11074 [1:23:49<10:17,  2.02it/s] 89%|████████▊ | 9826/11074 [1:23:49<10:18,  2.02it/s] 89%|████████▊ | 9827/11074 [1:23:50<10:16,  2.02it/s] 89%|████████▊ | 9828/11074 [1:23:50<10:16,  2.02it/s] 89%|████████▉ | 9829/11074 [1:23:51<10:15,  2.02it/s] 89%|████████▉ | 9830/11074 [1:23:51<10:15,  2.02it/s] 89%|████████▉ | 9831/11074 [1:23:52<10:15,  2.02it/s] 89%|████████▉ | 9832/11074 [1:23:52<10:14,  2.02it/s] 89%|████████▉ | 9833/11074 [1:23:53<10:13,  2.02it/s] 89%|████████▉ | 9834/11074 [1:23:53<10:12,  2.02it/s] 89%|████████▉ | 9835/11074 [1:23:54<10:11,  2.03it/s] 89%|████████▉ | 9836/11074 [1:23:54<10:11,  2.02it/s] 89%|████████▉ | 9837/11074 [1:23:55<10:10,  2.02it/s] 89%|████████▉ | 9838/11074 [1:23:55<10:10,  2.03it/s] 89%|████████▉ | 9839/11074 [1:23:56<10:09,  2.02it/s] 89%|████████▉ | 9840/11074 [1:23:56<10:09,  2.02it/s] 89%|████████▉ | 9841/11074 [1:23:57<10:09,  2.02it/s] 89%|████████▉ | 9842/11074 [1:23:57<10:08,  2.02it/s] 89%|████████▉ | 9843/11074 [1:23:58<10:08,  2.02it/s] 89%|████████▉ | 9844/11074 [1:23:58<10:06,  2.03it/s] 89%|████████▉ | 9845/11074 [1:23:59<10:06,  2.03it/s] 89%|████████▉ | 9846/11074 [1:23:59<10:06,  2.03it/s] 89%|████████▉ | 9847/11074 [1:24:00<10:06,  2.02it/s] 89%|████████▉ | 9848/11074 [1:24:00<10:06,  2.02it/s] 89%|████████▉ | 9849/11074 [1:24:01<10:05,  2.02it/s] 89%|████████▉ | 9850/11074 [1:24:01<10:05,  2.02it/s]                                                      {'loss': 3.148, 'grad_norm': 0.242679163813591, 'learning_rate': 3.675921003703958e-05, 'epoch': 12.44}
- 89%|████████▉ | 9850/11074 [1:24:01<10:05,  2.02it/s] 89%|████████▉ | 9851/11074 [1:24:02<10:04,  2.02it/s] 89%|████████▉ | 9852/11074 [1:24:02<10:03,  2.02it/s] 89%|████████▉ | 9853/11074 [1:24:03<10:03,  2.02it/s] 89%|████████▉ | 9854/11074 [1:24:03<10:02,  2.02it/s] 89%|████████▉ | 9855/11074 [1:24:04<10:02,  2.02it/s] 89%|████████▉ | 9856/11074 [1:24:04<10:01,  2.02it/s] 89%|████████▉ | 9857/11074 [1:24:05<10:01,  2.02it/s] 89%|████████▉ | 9858/11074 [1:24:05<10:00,  2.03it/s] 89%|████████▉ | 9859/11074 [1:24:06<10:00,  2.02it/s] 89%|████████▉ | 9860/11074 [1:24:06<09:59,  2.02it/s] 89%|████████▉ | 9861/11074 [1:24:07<09:59,  2.02it/s] 89%|████████▉ | 9862/11074 [1:24:07<09:58,  2.03it/s] 89%|████████▉ | 9863/11074 [1:24:08<09:58,  2.02it/s] 89%|████████▉ | 9864/11074 [1:24:08<09:57,  2.03it/s] 89%|████████▉ | 9865/11074 [1:24:09<09:56,  2.03it/s] 89%|████████▉ | 9866/11074 [1:24:09<09:56,  2.03it/s] 89%|████████▉ | 9867/11074 [1:24:10<09:55,  2.03it/s] 89%|████████▉ | 9868/11074 [1:24:10<09:55,  2.03it/s] 89%|████████▉ | 9869/11074 [1:24:11<09:54,  2.03it/s] 89%|████████▉ | 9870/11074 [1:24:11<09:54,  2.03it/s] 89%|████████▉ | 9871/11074 [1:24:12<09:53,  2.03it/s] 89%|████████▉ | 9872/11074 [1:24:12<09:53,  2.03it/s] 89%|████████▉ | 9873/11074 [1:24:13<09:52,  2.03it/s] 89%|████████▉ | 9874/11074 [1:24:13<09:52,  2.03it/s] 89%|████████▉ | 9875/11074 [1:24:14<09:52,  2.02it/s]{'loss': 3.148, 'grad_norm': 0.2414790391921997, 'learning_rate': 3.52906843517517e-05, 'epoch': 12.48}
-                                                       89%|████████▉ | 9875/11074 [1:24:14<09:52,  2.02it/s] 89%|████████▉ | 9876/11074 [1:24:14<09:53,  2.02it/s] 89%|████████▉ | 9877/11074 [1:24:15<09:52,  2.02it/s] 89%|████████▉ | 9878/11074 [1:24:15<09:51,  2.02it/s] 89%|████████▉ | 9879/11074 [1:24:16<09:50,  2.02it/s] 89%|████████▉ | 9880/11074 [1:24:16<09:50,  2.02it/s] 89%|████████▉ | 9881/11074 [1:24:17<09:49,  2.02it/s] 89%|████████▉ | 9882/11074 [1:24:17<09:48,  2.02it/s] 89%|████████▉ | 9883/11074 [1:24:18<09:47,  2.03it/s] 89%|████████▉ | 9884/11074 [1:24:18<09:47,  2.03it/s] 89%|████████▉ | 9885/11074 [1:24:19<09:46,  2.03it/s] 89%|████████▉ | 9886/11074 [1:24:19<09:45,  2.03it/s] 89%|████████▉ | 9887/11074 [1:24:20<09:45,  2.03it/s] 89%|████████▉ | 9888/11074 [1:24:20<09:45,  2.03it/s] 89%|████████▉ | 9889/11074 [1:24:21<09:44,  2.03it/s] 89%|████████▉ | 9890/11074 [1:24:21<09:44,  2.03it/s] 89%|████████▉ | 9891/11074 [1:24:21<09:43,  2.03it/s] 89%|████████▉ | 9892/11074 [1:24:22<09:43,  2.03it/s] 89%|████████▉ | 9893/11074 [1:24:22<09:43,  2.02it/s] 89%|████████▉ | 9894/11074 [1:24:23<09:42,  2.02it/s] 89%|████████▉ | 9895/11074 [1:24:23<09:41,  2.03it/s] 89%|████████▉ | 9896/11074 [1:24:24<09:42,  2.02it/s] 89%|████████▉ | 9897/11074 [1:24:24<09:41,  2.03it/s] 89%|████████▉ | 9898/11074 [1:24:25<09:41,  2.02it/s] 89%|████████▉ | 9899/11074 [1:24:25<09:39,  2.03it/s] 89%|████████▉ | 9900/11074 [1:24:26<09:39,  2.02it/s]                                                      {'loss': 3.1459, 'grad_norm': 0.23893502354621887, 'learning_rate': 3.38510200487846e-05, 'epoch': 12.51}
- 89%|████████▉ | 9900/11074 [1:24:26<09:39,  2.02it/s] 89%|████████▉ | 9901/11074 [1:24:26<09:40,  2.02it/s] 89%|████████▉ | 9902/11074 [1:24:27<09:38,  2.02it/s] 89%|████████▉ | 9903/11074 [1:24:27<09:38,  2.02it/s] 89%|████████▉ | 9904/11074 [1:24:28<09:37,  2.03it/s] 89%|████████▉ | 9905/11074 [1:24:28<09:37,  2.03it/s] 89%|████████▉ | 9906/11074 [1:24:29<09:36,  2.03it/s] 89%|████████▉ | 9907/11074 [1:24:29<09:36,  2.03it/s] 89%|████████▉ | 9908/11074 [1:24:30<09:35,  2.03it/s] 89%|████████▉ | 9909/11074 [1:24:30<09:35,  2.02it/s] 89%|████████▉ | 9910/11074 [1:24:31<09:34,  2.03it/s] 89%|████████▉ | 9911/11074 [1:24:31<09:34,  2.02it/s] 90%|████████▉ | 9912/11074 [1:24:32<09:33,  2.03it/s] 90%|████████▉ | 9913/11074 [1:24:32<09:33,  2.03it/s] 90%|████████▉ | 9914/11074 [1:24:33<09:32,  2.03it/s] 90%|████████▉ | 9915/11074 [1:24:33<09:31,  2.03it/s] 90%|████████▉ | 9916/11074 [1:24:34<09:31,  2.02it/s] 90%|████████▉ | 9917/11074 [1:24:34<09:30,  2.03it/s] 90%|████████▉ | 9918/11074 [1:24:35<09:30,  2.03it/s] 90%|████████▉ | 9919/11074 [1:24:35<09:29,  2.03it/s] 90%|████████▉ | 9920/11074 [1:24:36<09:29,  2.03it/s] 90%|████████▉ | 9921/11074 [1:24:36<09:29,  2.03it/s] 90%|████████▉ | 9922/11074 [1:24:37<09:28,  2.03it/s] 90%|████████▉ | 9923/11074 [1:24:37<09:28,  2.02it/s] 90%|████████▉ | 9924/11074 [1:24:38<09:27,  2.03it/s] 90%|████████▉ | 9925/11074 [1:24:38<09:27,  2.03it/s]                                                      {'loss': 3.1475, 'grad_norm': 0.23960614204406738, 'learning_rate': 3.244030654038022e-05, 'epoch': 12.54}
- 90%|████████▉ | 9925/11074 [1:24:38<09:27,  2.03it/s] 90%|████████▉ | 9926/11074 [1:24:39<09:29,  2.02it/s] 90%|████████▉ | 9927/11074 [1:24:39<09:28,  2.02it/s] 90%|████████▉ | 9928/11074 [1:24:40<09:27,  2.02it/s] 90%|████████▉ | 9929/11074 [1:24:40<09:26,  2.02it/s] 90%|████████▉ | 9930/11074 [1:24:41<09:25,  2.02it/s] 90%|████████▉ | 9931/11074 [1:24:41<09:25,  2.02it/s] 90%|████████▉ | 9932/11074 [1:24:42<09:23,  2.03it/s] 90%|████████▉ | 9933/11074 [1:24:42<09:24,  2.02it/s] 90%|████████▉ | 9934/11074 [1:24:43<09:23,  2.02it/s] 90%|████████▉ | 9935/11074 [1:24:43<09:22,  2.02it/s] 90%|████████▉ | 9936/11074 [1:24:44<09:22,  2.02it/s] 90%|████████▉ | 9937/11074 [1:24:44<09:21,  2.02it/s] 90%|████████▉ | 9938/11074 [1:24:45<09:21,  2.02it/s] 90%|████████▉ | 9939/11074 [1:24:45<09:20,  2.02it/s] 90%|████████▉ | 9940/11074 [1:24:46<09:20,  2.02it/s] 90%|████████▉ | 9941/11074 [1:24:46<09:20,  2.02it/s] 90%|████████▉ | 9942/11074 [1:24:47<09:19,  2.02it/s] 90%|████████▉ | 9943/11074 [1:24:47<09:19,  2.02it/s] 90%|████████▉ | 9944/11074 [1:24:48<09:18,  2.02it/s] 90%|████████▉ | 9945/11074 [1:24:48<09:18,  2.02it/s] 90%|████████▉ | 9946/11074 [1:24:49<09:17,  2.02it/s] 90%|████████▉ | 9947/11074 [1:24:49<09:17,  2.02it/s] 90%|████████▉ | 9948/11074 [1:24:50<09:16,  2.02it/s] 90%|████████▉ | 9949/11074 [1:24:50<09:16,  2.02it/s] 90%|████████▉ | 9950/11074 [1:24:51<09:15,  2.02it/s]{'loss': 3.1544, 'grad_norm': 0.23955270648002625, 'learning_rate': 3.1058631440753546e-05, 'epoch': 12.57}
-                                                       90%|████████▉ | 9950/11074 [1:24:51<09:15,  2.02it/s] 90%|████████▉ | 9951/11074 [1:24:51<09:15,  2.02it/s] 90%|████████▉ | 9952/11074 [1:24:52<09:14,  2.02it/s] 90%|████████▉ | 9953/11074 [1:24:52<09:13,  2.02it/s] 90%|████████▉ | 9954/11074 [1:24:53<09:13,  2.02it/s] 90%|████████▉ | 9955/11074 [1:24:53<09:13,  2.02it/s] 90%|████████▉ | 9956/11074 [1:24:54<09:12,  2.02it/s] 90%|████████▉ | 9957/11074 [1:24:54<09:11,  2.02it/s] 90%|████████▉ | 9958/11074 [1:24:55<09:11,  2.02it/s] 90%|████████▉ | 9959/11074 [1:24:55<09:10,  2.03it/s] 90%|████████▉ | 9960/11074 [1:24:56<09:10,  2.02it/s] 90%|████████▉ | 9961/11074 [1:24:56<09:09,  2.03it/s] 90%|████████▉ | 9962/11074 [1:24:57<09:09,  2.02it/s] 90%|████████▉ | 9963/11074 [1:24:57<09:08,  2.03it/s] 90%|████████▉ | 9964/11074 [1:24:58<09:08,  2.02it/s] 90%|████████▉ | 9965/11074 [1:24:58<09:07,  2.02it/s] 90%|████████▉ | 9966/11074 [1:24:59<09:06,  2.03it/s] 90%|█████████ | 9967/11074 [1:24:59<09:06,  2.03it/s] 90%|█████████ | 9968/11074 [1:25:00<09:05,  2.03it/s] 90%|█████████ | 9969/11074 [1:25:00<09:06,  2.02it/s] 90%|█████████ | 9970/11074 [1:25:01<09:05,  2.03it/s] 90%|█████████ | 9971/11074 [1:25:01<09:05,  2.02it/s] 90%|█████████ | 9972/11074 [1:25:02<09:04,  2.02it/s] 90%|█████████ | 9973/11074 [1:25:02<09:03,  2.02it/s] 90%|█████████ | 9974/11074 [1:25:03<09:03,  2.02it/s] 90%|█████████ | 9975/11074 [1:25:03<09:03,  2.02it/s]                                                      {'loss': 3.1471, 'grad_norm': 0.23880618810653687, 'learning_rate': 2.9706080560651215e-05, 'epoch': 12.6}
- 90%|█████████ | 9975/11074 [1:25:03<09:03,  2.02it/s] 90%|█████████ | 9976/11074 [1:25:03<09:03,  2.02it/s] 90%|█████████ | 9977/11074 [1:25:04<09:01,  2.02it/s] 90%|█████████ | 9978/11074 [1:25:04<09:02,  2.02it/s] 90%|█████████ | 9979/11074 [1:25:05<09:00,  2.02it/s] 90%|█████████ | 9980/11074 [1:25:05<09:00,  2.02it/s] 90%|█████████ | 9981/11074 [1:25:06<09:00,  2.02it/s] 90%|█████████ | 9982/11074 [1:25:06<08:59,  2.02it/s] 90%|█████████ | 9983/11074 [1:25:07<08:58,  2.02it/s] 90%|█████████ | 9984/11074 [1:25:07<08:57,  2.03it/s] 90%|█████████ | 9985/11074 [1:25:08<08:57,  2.03it/s] 90%|█████████ | 9986/11074 [1:25:08<08:57,  2.02it/s] 90%|█████████ | 9987/11074 [1:25:09<08:57,  2.02it/s] 90%|█████████ | 9988/11074 [1:25:09<08:56,  2.02it/s] 90%|█████████ | 9989/11074 [1:25:10<08:56,  2.02it/s] 90%|█████████ | 9990/11074 [1:25:10<08:55,  2.02it/s] 90%|█████████ | 9991/11074 [1:25:11<08:55,  2.02it/s] 90%|█████████ | 9992/11074 [1:25:11<08:55,  2.02it/s] 90%|█████████ | 9993/11074 [1:25:12<08:55,  2.02it/s] 90%|█████████ | 9994/11074 [1:25:12<08:55,  2.02it/s] 90%|█████████ | 9995/11074 [1:25:13<08:54,  2.02it/s] 90%|█████████ | 9996/11074 [1:25:13<08:53,  2.02it/s] 90%|█████████ | 9997/11074 [1:25:14<08:53,  2.02it/s] 90%|█████████ | 9998/11074 [1:25:14<08:52,  2.02it/s] 90%|█████████ | 9999/11074 [1:25:15<08:51,  2.02it/s] 90%|█████████ | 10000/11074 [1:25:15<08:51,  2.02it/s]                                                       {'loss': 3.1567, 'grad_norm': 0.24364879727363586, 'learning_rate': 2.8382737902021838e-05, 'epoch': 12.63}
- 90%|█████████ | 10000/11074 [1:25:15<08:51,  2.02it/s] 90%|█████████ | 10001/11074 [1:25:16<08:51,  2.02it/s] 90%|█████████ | 10002/11074 [1:25:16<08:50,  2.02it/s] 90%|█████████ | 10003/11074 [1:25:17<08:49,  2.02it/s] 90%|█████████ | 10004/11074 [1:25:17<08:49,  2.02it/s] 90%|█████████ | 10005/11074 [1:25:18<08:48,  2.02it/s] 90%|█████████ | 10006/11074 [1:25:18<08:48,  2.02it/s] 90%|█████████ | 10007/11074 [1:25:19<08:47,  2.02it/s] 90%|█████████ | 10008/11074 [1:25:19<08:47,  2.02it/s] 90%|█████████ | 10009/11074 [1:25:20<08:46,  2.02it/s] 90%|█████████ | 10010/11074 [1:25:20<08:45,  2.02it/s] 90%|█████████ | 10011/11074 [1:25:21<08:45,  2.02it/s] 90%|█████████ | 10012/11074 [1:25:21<08:45,  2.02it/s] 90%|█████████ | 10013/11074 [1:25:22<08:44,  2.02it/s] 90%|█████████ | 10014/11074 [1:25:22<08:43,  2.02it/s] 90%|█████████ | 10015/11074 [1:25:23<08:43,  2.02it/s] 90%|█████████ | 10016/11074 [1:25:23<08:42,  2.03it/s] 90%|█████████ | 10017/11074 [1:25:24<08:42,  2.02it/s] 90%|█████████ | 10018/11074 [1:25:24<08:41,  2.02it/s] 90%|█████████ | 10019/11074 [1:25:25<08:40,  2.03it/s] 90%|█████████ | 10020/11074 [1:25:25<08:40,  2.02it/s] 90%|█████████ | 10021/11074 [1:25:26<08:39,  2.03it/s] 91%|█████████ | 10022/11074 [1:25:26<08:39,  2.02it/s] 91%|█████████ | 10023/11074 [1:25:27<08:39,  2.02it/s] 91%|█████████ | 10024/11074 [1:25:27<08:39,  2.02it/s] 91%|█████████ | 10025/11074 [1:25:28<08:38,  2.02it/s]                                                       {'loss': 3.1458, 'grad_norm': 0.23872315883636475, 'learning_rate': 2.7088685652798927e-05, 'epoch': 12.67}
- 91%|█████████ | 10025/11074 [1:25:28<08:38,  2.02it/s] 91%|█████████ | 10026/11074 [1:25:28<08:39,  2.02it/s] 91%|█████████ | 10027/11074 [1:25:29<08:38,  2.02it/s] 91%|█████████ | 10028/11074 [1:25:29<08:37,  2.02it/s] 91%|█████████ | 10029/11074 [1:25:30<08:37,  2.02it/s] 91%|█████████ | 10030/11074 [1:25:30<08:36,  2.02it/s] 91%|█████████ | 10031/11074 [1:25:31<08:35,  2.02it/s] 91%|█████████ | 10032/11074 [1:25:31<08:35,  2.02it/s] 91%|█████████ | 10033/11074 [1:25:32<08:34,  2.02it/s] 91%|█████████ | 10034/11074 [1:25:32<08:34,  2.02it/s] 91%|█████████ | 10035/11074 [1:25:33<08:33,  2.02it/s] 91%|█████████ | 10036/11074 [1:25:33<08:33,  2.02it/s] 91%|█████████ | 10037/11074 [1:25:34<08:32,  2.02it/s] 91%|█████████ | 10038/11074 [1:25:34<08:32,  2.02it/s] 91%|█████████ | 10039/11074 [1:25:35<08:32,  2.02it/s] 91%|█████████ | 10040/11074 [1:25:35<08:31,  2.02it/s] 91%|█████████ | 10041/11074 [1:25:36<08:31,  2.02it/s] 91%|█████████ | 10042/11074 [1:25:36<08:30,  2.02it/s] 91%|█████████ | 10043/11074 [1:25:37<08:30,  2.02it/s] 91%|█████████ | 10044/11074 [1:25:37<08:29,  2.02it/s] 91%|█████████ | 10045/11074 [1:25:38<08:29,  2.02it/s] 91%|█████████ | 10046/11074 [1:25:38<08:28,  2.02it/s] 91%|█████████ | 10047/11074 [1:25:39<08:28,  2.02it/s] 91%|█████████ | 10048/11074 [1:25:39<08:26,  2.02it/s] 91%|█████████ | 10049/11074 [1:25:40<08:26,  2.02it/s] 91%|█████████ | 10050/11074 [1:25:40<08:25,  2.02it/s]                                                       {'loss': 3.1483, 'grad_norm': 0.24116002023220062, 'learning_rate': 2.5824004181797035e-05, 'epoch': 12.7}
- 91%|█████████ | 10050/11074 [1:25:40<08:25,  2.02it/s] 91%|█████████ | 10051/11074 [1:25:41<08:26,  2.02it/s] 91%|█████████ | 10052/11074 [1:25:41<08:25,  2.02it/s] 91%|█████████ | 10053/11074 [1:25:42<08:25,  2.02it/s] 91%|█████████ | 10054/11074 [1:25:42<08:24,  2.02it/s] 91%|█████████ | 10055/11074 [1:25:43<08:24,  2.02it/s] 91%|█████████ | 10056/11074 [1:25:43<08:23,  2.02it/s] 91%|█████████ | 10057/11074 [1:25:44<08:22,  2.02it/s] 91%|█████████ | 10058/11074 [1:25:44<08:22,  2.02it/s] 91%|█████████ | 10059/11074 [1:25:45<08:21,  2.02it/s] 91%|█████████ | 10060/11074 [1:25:45<08:21,  2.02it/s] 91%|█████████ | 10061/11074 [1:25:46<08:20,  2.02it/s] 91%|█████████ | 10062/11074 [1:25:46<08:20,  2.02it/s] 91%|█████████ | 10063/11074 [1:25:47<08:19,  2.02it/s] 91%|█████████ | 10064/11074 [1:25:47<08:19,  2.02it/s] 91%|█████████ | 10065/11074 [1:25:48<08:19,  2.02it/s] 91%|█████████ | 10066/11074 [1:25:48<08:18,  2.02it/s] 91%|█████████ | 10067/11074 [1:25:48<08:17,  2.02it/s] 91%|█████████ | 10068/11074 [1:25:49<08:16,  2.03it/s] 91%|█████████ | 10069/11074 [1:25:49<08:16,  2.02it/s] 91%|█████████ | 10070/11074 [1:25:50<08:15,  2.03it/s] 91%|█████████ | 10071/11074 [1:25:50<08:15,  2.02it/s] 91%|█████████ | 10072/11074 [1:25:51<08:14,  2.03it/s] 91%|█████████ | 10073/11074 [1:25:51<08:14,  2.02it/s] 91%|█████████ | 10074/11074 [1:25:52<08:13,  2.02it/s] 91%|█████████ | 10075/11074 [1:25:52<08:13,  2.02it/s]                                                       {'loss': 3.1564, 'grad_norm': 0.2407723069190979, 'learning_rate': 2.4588772033719563e-05, 'epoch': 12.73}
- 91%|█████████ | 10075/11074 [1:25:52<08:13,  2.02it/s] 91%|█████████ | 10076/11074 [1:25:53<08:13,  2.02it/s] 91%|█████████ | 10077/11074 [1:25:53<08:13,  2.02it/s] 91%|█████████ | 10078/11074 [1:25:54<08:12,  2.02it/s] 91%|█████████ | 10079/11074 [1:25:54<08:12,  2.02it/s] 91%|█████████ | 10080/11074 [1:25:55<08:11,  2.02it/s] 91%|█████████ | 10081/11074 [1:25:55<08:10,  2.02it/s] 91%|█████████ | 10082/11074 [1:25:56<08:10,  2.02it/s] 91%|█████████ | 10083/11074 [1:25:56<08:09,  2.02it/s] 91%|█████████ | 10084/11074 [1:25:57<08:08,  2.02it/s] 91%|█████████ | 10085/11074 [1:25:57<08:08,  2.03it/s] 91%|█████████ | 10086/11074 [1:25:58<08:08,  2.02it/s] 91%|█████████ | 10087/11074 [1:25:58<08:06,  2.03it/s] 91%|█████████ | 10088/11074 [1:25:59<08:06,  2.03it/s] 91%|█████████ | 10089/11074 [1:25:59<08:05,  2.03it/s] 91%|█████████ | 10090/11074 [1:26:00<08:05,  2.03it/s] 91%|█████████ | 10091/11074 [1:26:00<08:05,  2.03it/s] 91%|█████████ | 10092/11074 [1:26:01<08:04,  2.03it/s] 91%|█████████ | 10093/11074 [1:26:01<08:04,  2.02it/s] 91%|█████████ | 10094/11074 [1:26:02<08:03,  2.03it/s] 91%|█████████ | 10095/11074 [1:26:02<08:03,  2.02it/s] 91%|█████████ | 10096/11074 [1:26:03<08:02,  2.03it/s] 91%|█████████ | 10097/11074 [1:26:03<08:02,  2.02it/s] 91%|█████████ | 10098/11074 [1:26:04<08:02,  2.02it/s] 91%|█████████ | 10099/11074 [1:26:04<08:01,  2.02it/s] 91%|█████████ | 10100/11074 [1:26:05<08:00,  2.03it/s]{'loss': 3.1479, 'grad_norm': 0.24200809001922607, 'learning_rate': 2.3383065924281353e-05, 'epoch': 12.76}                                                       
- 91%|█████████ | 10100/11074 [1:26:05<08:00,  2.03it/s] 91%|█████████ | 10101/11074 [1:26:05<08:01,  2.02it/s] 91%|█████████ | 10102/11074 [1:26:06<08:00,  2.02it/s] 91%|█████████ | 10103/11074 [1:26:06<08:00,  2.02it/s] 91%|█████████ | 10104/11074 [1:26:07<07:59,  2.02it/s] 91%|█████████ | 10105/11074 [1:26:07<07:58,  2.02it/s] 91%|█████████▏| 10106/11074 [1:26:08<07:58,  2.02it/s] 91%|█████████▏| 10107/11074 [1:26:08<07:57,  2.02it/s] 91%|█████████▏| 10108/11074 [1:26:09<07:57,  2.02it/s] 91%|█████████▏| 10109/11074 [1:26:09<07:56,  2.03it/s] 91%|█████████▏| 10110/11074 [1:26:10<07:56,  2.02it/s] 91%|█████████▏| 10111/11074 [1:26:10<07:56,  2.02it/s] 91%|█████████▏| 10112/11074 [1:26:11<07:55,  2.02it/s] 91%|█████████▏| 10113/11074 [1:26:11<07:54,  2.02it/s] 91%|█████████▏| 10114/11074 [1:26:12<07:54,  2.02it/s] 91%|█████████▏| 10115/11074 [1:26:12<07:53,  2.02it/s] 91%|█████████▏| 10116/11074 [1:26:13<07:53,  2.02it/s] 91%|█████████▏| 10117/11074 [1:26:13<07:52,  2.02it/s] 91%|█████████▏| 10118/11074 [1:26:14<07:51,  2.03it/s] 91%|█████████▏| 10119/11074 [1:26:14<07:51,  2.02it/s] 91%|█████████▏| 10120/11074 [1:26:15<07:51,  2.03it/s] 91%|█████████▏| 10121/11074 [1:26:15<07:50,  2.02it/s] 91%|█████████▏| 10122/11074 [1:26:16<07:49,  2.03it/s] 91%|█████████▏| 10123/11074 [1:26:16<07:49,  2.02it/s] 91%|█████████▏| 10124/11074 [1:26:17<07:48,  2.03it/s] 91%|█████████▏| 10125/11074 [1:26:17<07:48,  2.02it/s]                                                       {'loss': 3.1546, 'grad_norm': 0.23952969908714294, 'learning_rate': 2.2206960735443648e-05, 'epoch': 12.79}
- 91%|█████████▏| 10125/11074 [1:26:17<07:48,  2.02it/s] 91%|█████████▏| 10126/11074 [1:26:18<07:48,  2.02it/s] 91%|█████████▏| 10127/11074 [1:26:18<07:48,  2.02it/s] 91%|█████████▏| 10128/11074 [1:26:19<07:47,  2.02it/s] 91%|█████████▏| 10129/11074 [1:26:19<07:46,  2.02it/s] 91%|█████████▏| 10130/11074 [1:26:20<07:46,  2.02it/s] 91%|█████████▏| 10131/11074 [1:26:20<07:45,  2.02it/s] 91%|█████████▏| 10132/11074 [1:26:21<07:45,  2.02it/s] 92%|█████████▏| 10133/11074 [1:26:21<07:45,  2.02it/s] 92%|█████████▏| 10134/11074 [1:26:22<07:44,  2.02it/s] 92%|█████████▏| 10135/11074 [1:26:22<07:44,  2.02it/s] 92%|█████████▏| 10136/11074 [1:26:23<07:43,  2.02it/s] 92%|█████████▏| 10137/11074 [1:26:23<07:43,  2.02it/s] 92%|█████████▏| 10138/11074 [1:26:24<07:42,  2.02it/s] 92%|█████████▏| 10139/11074 [1:26:24<07:42,  2.02it/s] 92%|█████████▏| 10140/11074 [1:26:25<07:41,  2.02it/s] 92%|█████████▏| 10141/11074 [1:26:25<07:41,  2.02it/s] 92%|█████████▏| 10142/11074 [1:26:26<07:40,  2.02it/s] 92%|█████████▏| 10143/11074 [1:26:26<07:40,  2.02it/s] 92%|█████████▏| 10144/11074 [1:26:27<07:39,  2.02it/s] 92%|█████████▏| 10145/11074 [1:26:27<07:39,  2.02it/s] 92%|█████████▏| 10146/11074 [1:26:28<07:38,  2.02it/s] 92%|█████████▏| 10147/11074 [1:26:28<07:38,  2.02it/s] 92%|█████████▏| 10148/11074 [1:26:29<07:37,  2.02it/s] 92%|█████████▏| 10149/11074 [1:26:29<07:37,  2.02it/s] 92%|█████████▏| 10150/11074 [1:26:30<07:36,  2.02it/s]{'loss': 3.1513, 'grad_norm': 0.237594336271286, 'learning_rate': 2.1060529510763648e-05, 'epoch': 12.82}                                                       
- 92%|█████████▏| 10150/11074 [1:26:30<07:36,  2.02it/s] 92%|█████████▏| 10151/11074 [1:26:30<07:36,  2.02it/s] 92%|█████████▏| 10152/11074 [1:26:30<07:36,  2.02it/s] 92%|█████████▏| 10153/11074 [1:26:31<07:35,  2.02it/s] 92%|█████████▏| 10154/11074 [1:26:31<07:34,  2.02it/s] 92%|█████████▏| 10155/11074 [1:26:32<07:34,  2.02it/s] 92%|█████████▏| 10156/11074 [1:26:32<07:33,  2.02it/s] 92%|█████████▏| 10157/11074 [1:26:33<07:33,  2.02it/s] 92%|█████████▏| 10158/11074 [1:26:33<07:32,  2.02it/s] 92%|█████████▏| 10159/11074 [1:26:34<07:32,  2.02it/s] 92%|█████████▏| 10160/11074 [1:26:34<07:31,  2.03it/s] 92%|█████████▏| 10161/11074 [1:26:35<08:11,  1.86it/s] 92%|█████████▏| 10162/11074 [1:26:36<07:58,  1.91it/s] 92%|█████████▏| 10163/11074 [1:26:36<07:49,  1.94it/s] 92%|█████████▏| 10164/11074 [1:26:37<07:42,  1.97it/s] 92%|█████████▏| 10165/11074 [1:26:37<07:38,  1.98it/s] 92%|█████████▏| 10166/11074 [1:26:38<07:35,  2.00it/s] 92%|█████████▏| 10167/11074 [1:26:38<07:32,  2.00it/s] 92%|█████████▏| 10168/11074 [1:26:39<07:31,  2.01it/s] 92%|█████████▏| 10169/11074 [1:26:39<07:29,  2.01it/s] 92%|█████████▏| 10170/11074 [1:26:40<07:28,  2.02it/s] 92%|█████████▏| 10171/11074 [1:26:40<07:27,  2.02it/s] 92%|█████████▏| 10172/11074 [1:26:41<07:26,  2.02it/s] 92%|█████████▏| 10173/11074 [1:26:41<07:25,  2.02it/s] 92%|█████████▏| 10174/11074 [1:26:42<07:24,  2.02it/s] 92%|█████████▏| 10175/11074 [1:26:42<07:24,  2.02it/s]{'loss': 3.1437, 'grad_norm': 0.240619495511055, 'learning_rate': 1.99438434508582e-05, 'epoch': 12.86}
-                                                        92%|█████████▏| 10175/11074 [1:26:42<07:24,  2.02it/s] 92%|█████████▏| 10176/11074 [1:26:42<07:24,  2.02it/s] 92%|█████████▏| 10177/11074 [1:26:43<07:23,  2.02it/s] 92%|█████████▏| 10178/11074 [1:26:43<07:23,  2.02it/s] 92%|█████████▏| 10179/11074 [1:26:44<07:22,  2.02it/s] 92%|█████████▏| 10180/11074 [1:26:44<07:22,  2.02it/s] 92%|█████████▏| 10181/11074 [1:26:45<07:21,  2.02it/s] 92%|█████████▏| 10182/11074 [1:26:45<07:21,  2.02it/s] 92%|█████████▏| 10183/11074 [1:26:46<07:20,  2.02it/s] 92%|█████████▏| 10184/11074 [1:26:46<07:20,  2.02it/s] 92%|█████████▏| 10185/11074 [1:26:47<07:19,  2.02it/s] 92%|█████████▏| 10186/11074 [1:26:47<07:18,  2.02it/s] 92%|█████████▏| 10187/11074 [1:26:48<07:18,  2.02it/s] 92%|█████████▏| 10188/11074 [1:26:48<07:18,  2.02it/s] 92%|█████████▏| 10189/11074 [1:26:49<07:17,  2.02it/s] 92%|█████████▏| 10190/11074 [1:26:49<07:16,  2.02it/s] 92%|█████████▏| 10191/11074 [1:26:50<07:16,  2.02it/s] 92%|█████████▏| 10192/11074 [1:26:50<07:16,  2.02it/s] 92%|█████████▏| 10193/11074 [1:26:51<07:15,  2.02it/s] 92%|█████████▏| 10194/11074 [1:26:51<07:15,  2.02it/s] 92%|█████████▏| 10195/11074 [1:26:52<07:15,  2.02it/s] 92%|█████████▏| 10196/11074 [1:26:52<07:14,  2.02it/s] 92%|█████████▏| 10197/11074 [1:26:53<07:13,  2.02it/s] 92%|█████████▏| 10198/11074 [1:26:53<07:12,  2.02it/s] 92%|█████████▏| 10199/11074 [1:26:54<07:12,  2.02it/s] 92%|█████████▏| 10200/11074 [1:26:54<07:12,  2.02it/s]{'loss': 3.1512, 'grad_norm': 0.23940086364746094, 'learning_rate': 1.88569719089815e-05, 'epoch': 12.89}
-                                                        92%|█████████▏| 10200/11074 [1:26:54<07:12,  2.02it/s] 92%|█████████▏| 10201/11074 [1:26:55<07:12,  2.02it/s] 92%|█████████▏| 10202/11074 [1:26:55<07:11,  2.02it/s] 92%|█████████▏| 10203/11074 [1:26:56<07:11,  2.02it/s] 92%|█████████▏| 10204/11074 [1:26:56<07:10,  2.02it/s] 92%|█████████▏| 10205/11074 [1:26:57<07:09,  2.02it/s] 92%|█████████▏| 10206/11074 [1:26:57<07:08,  2.02it/s] 92%|█████████▏| 10207/11074 [1:26:58<07:08,  2.02it/s] 92%|█████████▏| 10208/11074 [1:26:58<07:07,  2.02it/s] 92%|█████████▏| 10209/11074 [1:26:59<07:07,  2.02it/s] 92%|█████████▏| 10210/11074 [1:26:59<07:07,  2.02it/s] 92%|█████████▏| 10211/11074 [1:27:00<07:07,  2.02it/s] 92%|█████████▏| 10212/11074 [1:27:00<07:06,  2.02it/s] 92%|█████████▏| 10213/11074 [1:27:01<07:06,  2.02it/s] 92%|█████████▏| 10214/11074 [1:27:01<07:05,  2.02it/s] 92%|█████████▏| 10215/11074 [1:27:02<07:05,  2.02it/s] 92%|█████████▏| 10216/11074 [1:27:02<07:04,  2.02it/s] 92%|█████████▏| 10217/11074 [1:27:03<07:03,  2.02it/s] 92%|█████████▏| 10218/11074 [1:27:03<07:02,  2.02it/s] 92%|█████████▏| 10219/11074 [1:27:04<07:02,  2.02it/s] 92%|█████████▏| 10220/11074 [1:27:04<07:01,  2.02it/s] 92%|█████████▏| 10221/11074 [1:27:05<07:00,  2.03it/s] 92%|█████████▏| 10222/11074 [1:27:05<07:00,  2.03it/s] 92%|█████████▏| 10223/11074 [1:27:06<06:59,  2.03it/s] 92%|█████████▏| 10224/11074 [1:27:06<06:59,  2.03it/s] 92%|█████████▏| 10225/11074 [1:27:07<06:58,  2.03it/s]                                                       {'loss': 3.1548, 'grad_norm': 0.24040085077285767, 'learning_rate': 1.7799982386717872e-05, 'epoch': 12.92}
- 92%|█████████▏| 10225/11074 [1:27:07<06:58,  2.03it/s] 92%|█████████▏| 10226/11074 [1:27:07<06:59,  2.02it/s] 92%|█████████▏| 10227/11074 [1:27:08<06:58,  2.02it/s] 92%|█████████▏| 10228/11074 [1:27:08<06:58,  2.02it/s] 92%|█████████▏| 10229/11074 [1:27:09<06:57,  2.02it/s] 92%|█████████▏| 10230/11074 [1:27:09<06:57,  2.02it/s] 92%|█████████▏| 10231/11074 [1:27:10<06:56,  2.02it/s] 92%|█████████▏| 10232/11074 [1:27:10<06:55,  2.02it/s] 92%|█████████▏| 10233/11074 [1:27:11<06:55,  2.03it/s] 92%|█████████▏| 10234/11074 [1:27:11<06:54,  2.02it/s] 92%|█████████▏| 10235/11074 [1:27:12<06:54,  2.03it/s] 92%|█████████▏| 10236/11074 [1:27:12<06:53,  2.03it/s] 92%|█████████▏| 10237/11074 [1:27:13<06:53,  2.03it/s] 92%|█████████▏| 10238/11074 [1:27:13<06:53,  2.02it/s] 92%|█████████▏| 10239/11074 [1:27:14<06:52,  2.02it/s] 92%|█████████▏| 10240/11074 [1:27:14<06:51,  2.02it/s] 92%|█████████▏| 10241/11074 [1:27:15<06:51,  2.03it/s] 92%|█████████▏| 10242/11074 [1:27:15<06:51,  2.02it/s] 92%|█████████▏| 10243/11074 [1:27:16<06:50,  2.02it/s] 93%|█████████▎| 10244/11074 [1:27:16<06:50,  2.02it/s] 93%|█████████▎| 10245/11074 [1:27:17<06:49,  2.02it/s] 93%|█████████▎| 10246/11074 [1:27:17<06:49,  2.02it/s] 93%|█████████▎| 10247/11074 [1:27:18<06:48,  2.03it/s] 93%|█████████▎| 10248/11074 [1:27:18<06:47,  2.03it/s] 93%|█████████▎| 10249/11074 [1:27:19<06:47,  2.03it/s] 93%|█████████▎| 10250/11074 [1:27:19<06:46,  2.03it/s]{'loss': 3.1554, 'grad_norm': 0.24188894033432007, 'learning_rate': 1.6772940529789784e-05, 'epoch': 12.95}
-                                                        93%|█████████▎| 10250/11074 [1:27:19<06:46,  2.03it/s] 93%|█████████▎| 10251/11074 [1:27:20<06:46,  2.02it/s] 93%|█████████▎| 10252/11074 [1:27:20<06:46,  2.02it/s] 93%|█████████▎| 10253/11074 [1:27:21<07:21,  1.86it/s] 93%|█████████▎| 10254/11074 [1:27:21<07:10,  1.91it/s] 93%|█████████▎| 10255/11074 [1:27:22<07:02,  1.94it/s] 93%|█████████▎| 10256/11074 [1:27:22<06:56,  1.96it/s] 93%|█████████▎| 10257/11074 [1:27:23<06:52,  1.98it/s] 93%|█████████▎| 10258/11074 [1:27:23<06:48,  2.00it/s] 93%|█████████▎| 10259/11074 [1:27:24<06:46,  2.00it/s] 93%|█████████▎| 10260/11074 [1:27:24<06:44,  2.01it/s] 93%|█████████▎| 10261/11074 [1:27:25<06:43,  2.01it/s] 93%|█████████▎| 10262/11074 [1:27:25<06:42,  2.02it/s] 93%|█████████▎| 10263/11074 [1:27:26<06:41,  2.02it/s] 93%|█████████▎| 10264/11074 [1:27:26<06:40,  2.02it/s] 93%|█████████▎| 10265/11074 [1:27:27<06:40,  2.02it/s] 93%|█████████▎| 10266/11074 [1:27:27<06:39,  2.02it/s] 93%|█████████▎| 10267/11074 [1:27:28<06:38,  2.03it/s] 93%|█████████▎| 10268/11074 [1:27:28<06:38,  2.02it/s] 93%|█████████▎| 10269/11074 [1:27:29<06:37,  2.03it/s] 93%|█████████▎| 10270/11074 [1:27:29<06:36,  2.03it/s] 93%|█████████▎| 10271/11074 [1:27:30<06:36,  2.03it/s] 93%|█████████▎| 10272/11074 [1:27:30<06:35,  2.03it/s] 93%|█████████▎| 10273/11074 [1:27:31<06:35,  2.03it/s] 93%|█████████▎| 10274/11074 [1:27:31<06:34,  2.03it/s] 93%|█████████▎| 10275/11074 [1:27:32<06:34,  2.03it/s]                                                       {'loss': 3.1493, 'grad_norm': 0.23945145308971405, 'learning_rate': 1.5775910123980497e-05, 'epoch': 12.98}
- 93%|█████████▎| 10275/11074 [1:27:32<06:34,  2.03it/s] 93%|█████████▎| 10276/11074 [1:27:32<06:34,  2.02it/s] 93%|█████████▎| 10277/11074 [1:27:33<06:34,  2.02it/s] 93%|█████████▎| 10278/11074 [1:27:33<06:33,  2.02it/s] 93%|█████████▎| 10279/11074 [1:27:34<06:32,  2.02it/s] 93%|█████████▎| 10280/11074 [1:27:34<06:32,  2.03it/s] 93%|█████████▎| 10281/11074 [1:27:35<06:31,  2.02it/s] 93%|█████████▎| 10282/11074 [1:27:35<06:31,  2.02it/s] 93%|█████████▎| 10283/11074 [1:27:36<06:30,  2.03it/s] 93%|█████████▎| 10284/11074 [1:27:36<06:30,  2.02it/s] 93%|█████████▎| 10285/11074 [1:27:37<06:29,  2.02it/s] 93%|█████████▎| 10286/11074 [1:27:37<06:29,  2.02it/s] 93%|█████████▎| 10287/11074 [1:27:37<06:28,  2.02it/s] 93%|█████████▎| 10288/11074 [1:27:38<06:28,  2.03it/s] 93%|█████████▎| 10289/11074 [1:27:39<06:37,  1.98it/s] 93%|█████████▎| 10290/11074 [1:27:52<58:22,  4.47s/it] 93%|█████████▎| 10291/11074 [1:27:53<42:44,  3.28s/it] 93%|█████████▎| 10292/11074 [1:27:53<31:50,  2.44s/it] 93%|█████████▎| 10293/11074 [1:27:54<24:11,  1.86s/it] 93%|█████████▎| 10294/11074 [1:27:54<18:50,  1.45s/it] 93%|█████████▎| 10295/11074 [1:27:55<15:08,  1.17s/it] 93%|█████████▎| 10296/11074 [1:27:55<12:29,  1.04it/s] 93%|█████████▎| 10297/11074 [1:27:56<10:39,  1.22it/s] 93%|█████████▎| 10298/11074 [1:27:56<09:21,  1.38it/s] 93%|█████████▎| 10299/11074 [1:27:57<08:27,  1.53it/s] 93%|█████████▎| 10300/11074 [1:27:57<07:49,  1.65it/s]                                                       {'loss': 3.1388, 'grad_norm': 0.24089667201042175, 'learning_rate': 1.4808953091172639e-05, 'epoch': 13.01}
- 93%|█████████▎| 10300/11074 [1:27:57<07:49,  1.65it/s] 93%|█████████▎| 10301/11074 [1:27:58<07:23,  1.74it/s] 93%|█████████▎| 10302/11074 [1:27:58<07:05,  1.82it/s] 93%|█████████▎| 10303/11074 [1:27:59<06:51,  1.87it/s] 93%|███████���█▎| 10304/11074 [1:27:59<06:41,  1.92it/s] 93%|█████████▎| 10305/11074 [1:28:00<06:35,  1.95it/s] 93%|█████████▎| 10306/11074 [1:28:00<06:30,  1.97it/s] 93%|█████████▎| 10307/11074 [1:28:01<06:26,  1.98it/s] 93%|█████████▎| 10308/11074 [1:28:01<06:24,  1.99it/s] 93%|█████████▎| 10309/11074 [1:28:02<06:22,  2.00it/s] 93%|█████████▎| 10310/11074 [1:28:02<06:20,  2.01it/s] 93%|█████████▎| 10311/11074 [1:28:03<06:19,  2.01it/s] 93%|█████████▎| 10312/11074 [1:28:03<06:18,  2.01it/s] 93%|█████████▎| 10313/11074 [1:28:04<06:17,  2.02it/s] 93%|█████████▎| 10314/11074 [1:28:04<06:16,  2.02it/s] 93%|█████████▎| 10315/11074 [1:28:05<06:15,  2.02it/s] 93%|█████████▎| 10316/11074 [1:28:05<06:15,  2.02it/s] 93%|█████████▎| 10317/11074 [1:28:06<06:15,  2.01it/s] 93%|█████████▎| 10318/11074 [1:28:06<06:14,  2.02it/s] 93%|█████████▎| 10319/11074 [1:28:07<06:13,  2.02it/s] 93%|█████████▎| 10320/11074 [1:28:07<06:12,  2.02it/s] 93%|█████████▎| 10321/11074 [1:28:08<06:12,  2.02it/s] 93%|█████████▎| 10322/11074 [1:28:08<06:12,  2.02it/s] 93%|█████████▎| 10323/11074 [1:28:09<06:11,  2.02it/s] 93%|█████████▎| 10324/11074 [1:28:09<06:10,  2.02it/s] 93%|█████████▎| 10325/11074 [1:28:10<06:10,  2.02it/s]{'loss': 3.1259, 'grad_norm': 0.24167923629283905, 'learning_rate': 1.387212948550265e-05, 'epoch': 13.04}                                                       
- 93%|█████████▎| 10325/11074 [1:28:10<06:10,  2.02it/s] 93%|█████████▎| 10326/11074 [1:28:10<06:09,  2.02it/s] 93%|█████████▎| 10327/11074 [1:28:11<06:09,  2.02it/s] 93%|█████████▎| 10328/11074 [1:28:11<06:08,  2.02it/s] 93%|█████████▎| 10329/11074 [1:28:12<06:08,  2.02it/s] 93%|█████████▎| 10330/11074 [1:28:12<06:07,  2.02it/s] 93%|█████████▎| 10331/11074 [1:28:13<06:06,  2.03it/s] 93%|█████████▎| 10332/11074 [1:28:13<06:06,  2.03it/s] 93%|█████████▎| 10333/11074 [1:28:14<06:05,  2.03it/s] 93%|█████████▎| 10334/11074 [1:28:14<06:05,  2.02it/s] 93%|█████████▎| 10335/11074 [1:28:14<06:04,  2.03it/s] 93%|█████████▎| 10336/11074 [1:28:15<06:04,  2.03it/s] 93%|█████████▎| 10337/11074 [1:28:15<06:03,  2.03it/s] 93%|█████████▎| 10338/11074 [1:28:16<06:03,  2.02it/s] 93%|█████████▎| 10339/11074 [1:28:16<06:03,  2.02it/s] 93%|█████████▎| 10340/11074 [1:28:17<06:02,  2.03it/s] 93%|█████████▎| 10341/11074 [1:28:17<06:02,  2.02it/s] 93%|█████████▎| 10342/11074 [1:28:18<06:01,  2.03it/s] 93%|█████████▎| 10343/11074 [1:28:18<06:01,  2.02it/s] 93%|█████████▎| 10344/11074 [1:28:19<06:00,  2.03it/s] 93%|█████████▎| 10345/11074 [1:28:19<06:00,  2.02it/s] 93%|█████████▎| 10346/11074 [1:28:20<05:59,  2.03it/s] 93%|█████████▎| 10347/11074 [1:28:20<05:59,  2.02it/s] 93%|█████████▎| 10348/11074 [1:28:21<05:58,  2.02it/s] 93%|█████████▎| 10349/11074 [1:28:21<05:58,  2.02it/s] 93%|█████████▎| 10350/11074 [1:28:22<05:57,  2.02it/s]                                                       {'loss': 3.1319, 'grad_norm': 0.238393634557724, 'learning_rate': 1.2965497489630717e-05, 'epoch': 13.08}
- 93%|█████████▎| 10350/11074 [1:28:22<05:57,  2.02it/s] 93%|█████████▎| 10351/11074 [1:28:22<05:57,  2.02it/s] 93%|█████████▎| 10352/11074 [1:28:23<05:56,  2.02it/s] 93%|█████████▎| 10353/11074 [1:28:23<05:56,  2.03it/s] 93%|█████████▎| 10354/11074 [1:28:24<05:55,  2.02it/s] 94%|█████████▎| 10355/11074 [1:28:24<05:54,  2.03it/s] 94%|█████████▎| 10356/11074 [1:28:25<05:54,  2.03it/s] 94%|█████████▎| 10357/11074 [1:28:25<05:53,  2.03it/s] 94%|█████████▎| 10358/11074 [1:28:26<05:53,  2.03it/s] 94%|█████████▎| 10359/11074 [1:28:26<05:53,  2.02it/s] 94%|█████████▎| 10360/11074 [1:28:27<05:52,  2.02it/s] 94%|█████████▎| 10361/11074 [1:28:27<05:52,  2.02it/s] 94%|█████████▎| 10362/11074 [1:28:28<05:51,  2.03it/s] 94%|█████████▎| 10363/11074 [1:28:28<05:51,  2.02it/s] 94%|█████████▎| 10364/11074 [1:28:29<05:50,  2.03it/s] 94%|████████���▎| 10365/11074 [1:28:29<05:50,  2.02it/s] 94%|█████████▎| 10366/11074 [1:28:30<05:50,  2.02it/s] 94%|█████████▎| 10367/11074 [1:28:30<05:50,  2.02it/s] 94%|█████████▎| 10368/11074 [1:28:31<05:49,  2.02it/s] 94%|█████████▎| 10369/11074 [1:28:31<05:48,  2.02it/s] 94%|█████████▎| 10370/11074 [1:28:32<05:48,  2.02it/s] 94%|█████████▎| 10371/11074 [1:28:32<05:47,  2.02it/s] 94%|█████████▎| 10372/11074 [1:28:33<05:46,  2.02it/s] 94%|█████████▎| 10373/11074 [1:28:33<05:46,  2.02it/s] 94%|█████████▎| 10374/11074 [1:28:34<05:45,  2.02it/s] 94%|█████████▎| 10375/11074 [1:28:34<05:45,  2.02it/s]                                                       {'loss': 3.1293, 'grad_norm': 0.23897463083267212, 'learning_rate': 1.2089113411127673e-05, 'epoch': 13.11}
- 94%|█████████▎| 10375/11074 [1:28:34<05:45,  2.02it/s] 94%|█████████▎| 10376/11074 [1:28:35<05:45,  2.02it/s] 94%|█████████▎| 10377/11074 [1:28:35<05:45,  2.02it/s] 94%|█████████▎| 10378/11074 [1:28:36<05:44,  2.02it/s] 94%|█████████▎| 10379/11074 [1:28:36<05:43,  2.02it/s] 94%|█████████▎| 10380/11074 [1:28:37<05:42,  2.02it/s] 94%|█████████▎| 10381/11074 [1:28:37<05:42,  2.02it/s] 94%|█████████▍| 10382/11074 [1:28:38<05:42,  2.02it/s] 94%|█████████▍| 10383/11074 [1:28:38<05:41,  2.02it/s] 94%|█████████▍| 10384/11074 [1:28:39<05:41,  2.02it/s] 94%|█████████▍| 10385/11074 [1:28:39<05:40,  2.02it/s] 94%|█████████▍| 10386/11074 [1:28:40<05:39,  2.02it/s] 94%|█████████▍| 10387/11074 [1:28:40<05:39,  2.02it/s] 94%|█████████▍| 10388/11074 [1:28:41<05:38,  2.02it/s] 94%|█████████▍| 10389/11074 [1:28:41<05:38,  2.02it/s] 94%|█████████▍| 10390/11074 [1:28:42<05:37,  2.03it/s] 94%|█████████▍| 10391/11074 [1:28:42<05:37,  2.03it/s] 94%|█████████▍| 10392/11074 [1:28:43<05:36,  2.03it/s] 94%|█████████▍| 10393/11074 [1:28:43<05:36,  2.02it/s] 94%|█████████▍| 10394/11074 [1:28:44<05:35,  2.02it/s] 94%|█████████▍| 10395/11074 [1:28:44<05:35,  2.02it/s] 94%|█████████▍| 10396/11074 [1:28:45<05:35,  2.02it/s] 94%|█████████▍| 10397/11074 [1:28:45<05:34,  2.02it/s] 94%|█████████▍| 10398/11074 [1:28:46<05:34,  2.02it/s] 94%|█████████▍| 10399/11074 [1:28:46<05:33,  2.02it/s] 94%|█████████▍| 10400/11074 [1:28:47<05:32,  2.02it/s]{'loss': 3.1223, 'grad_norm': 0.23806162178516388, 'learning_rate': 1.1243031678977611e-05, 'epoch': 13.14}                                                       
- 94%|█████████▍| 10400/11074 [1:28:47<05:32,  2.02it/s] 94%|█████████▍| 10401/11074 [1:28:47<05:33,  2.02it/s] 94%|█████████▍| 10402/11074 [1:28:48<05:32,  2.02it/s] 94%|█████████▍| 10403/11074 [1:28:48<05:31,  2.02it/s] 94%|█████████▍| 10404/11074 [1:28:49<05:31,  2.02it/s] 94%|█████████▍| 10405/11074 [1:28:49<05:31,  2.02it/s] 94%|█████████▍| 10406/11074 [1:28:50<05:30,  2.02it/s] 94%|█████████▍| 10407/11074 [1:28:50<05:29,  2.02it/s] 94%|█████████▍| 10408/11074 [1:28:51<05:28,  2.02it/s] 94%|█████████▍| 10409/11074 [1:28:51<05:28,  2.02it/s] 94%|█████████▍| 10410/11074 [1:28:52<05:27,  2.03it/s] 94%|█████████▍| 10411/11074 [1:28:52<05:27,  2.03it/s] 94%|█████████▍| 10412/11074 [1:28:53<05:26,  2.02it/s] 94%|█████████▍| 10413/11074 [1:28:53<05:26,  2.03it/s] 94%|█████████▍| 10414/11074 [1:28:54<05:25,  2.03it/s] 94%|█████████▍| 10415/11074 [1:28:54<05:25,  2.02it/s] 94%|█████████▍| 10416/11074 [1:28:55<05:25,  2.02it/s] 94%|█████████▍| 10417/11074 [1:28:55<05:24,  2.03it/s] 94%|█████████▍| 10418/11074 [1:28:56<05:24,  2.02it/s] 94%|█████████▍| 10419/11074 [1:28:56<05:23,  2.03it/s] 94%|█████████▍| 10420/11074 [1:28:57<05:22,  2.03it/s] 94%|█████████▍| 10421/11074 [1:28:57<05:22,  2.03it/s] 94%|█████████▍| 10422/11074 [1:28:57<05:21,  2.03it/s] 94%|█████████▍| 10423/11074 [1:28:58<05:21,  2.03it/s] 94%|█████████▍| 10424/11074 [1:28:58<05:20,  2.03it/s] 94%|█████████▍| 10425/11074 [1:28:59<05:19,  2.03it/s]                                                       {'loss': 3.1214, 'grad_norm': 0.24141210317611694, 'learning_rate': 1.0427304840197493e-05, 'epoch': 13.17}
- 94%|█████████▍| 10425/11074 [1:28:59<05:19,  2.03it/s] 94%|█████████▍| 10426/11074 [1:28:59<05:19,  2.03it/s] 94%|█████████▍| 10427/11074 [1:29:00<05:19,  2.03it/s] 94%|█████████▍| 10428/11074 [1:29:00<05:19,  2.02it/s] 94%|█████████▍| 10429/11074 [1:29:01<05:18,  2.03it/s] 94%|█████████▍| 10430/11074 [1:29:01<05:17,  2.03it/s] 94%|█████████▍| 10431/11074 [1:29:02<05:17,  2.02it/s] 94%|█████████▍| 10432/11074 [1:29:02<05:17,  2.02it/s] 94%|█████████▍| 10433/11074 [1:29:03<05:16,  2.02it/s] 94%|█████████▍| 10434/11074 [1:29:03<05:16,  2.02it/s] 94%|█████████▍| 10435/11074 [1:29:04<05:15,  2.03it/s] 94%|█████████▍| 10436/11074 [1:29:04<05:15,  2.02it/s] 94%|█████████▍| 10437/11074 [1:29:05<05:14,  2.03it/s] 94%|█████████▍| 10438/11074 [1:29:05<05:14,  2.03it/s] 94%|█████████▍| 10439/11074 [1:29:06<05:13,  2.03it/s] 94%|█████████▍| 10440/11074 [1:29:06<05:13,  2.03it/s] 94%|█████████▍| 10441/11074 [1:29:07<05:12,  2.03it/s] 94%|█████████▍| 10442/11074 [1:29:07<05:11,  2.03it/s] 94%|█████████▍| 10443/11074 [1:29:08<05:11,  2.02it/s] 94%|█████████▍| 10444/11074 [1:29:08<05:10,  2.03it/s] 94%|█████████▍| 10445/11074 [1:29:09<05:10,  2.03it/s] 94%|█████████▍| 10446/11074 [1:29:09<05:09,  2.03it/s] 94%|█████████▍| 10447/11074 [1:29:10<05:09,  2.03it/s] 94%|█████████▍| 10448/11074 [1:29:10<05:08,  2.03it/s] 94%|█████████▍| 10449/11074 [1:29:11<05:08,  2.02it/s] 94%|█████████▍| 10450/11074 [1:29:11<05:08,  2.02it/s]                                                       {'loss': 3.1255, 'grad_norm': 0.2402477115392685, 'learning_rate': 9.64198355657403e-06, 'epoch': 13.2}
- 94%|█████████▍| 10450/11074 [1:29:11<05:08,  2.02it/s] 94%|█████████▍| 10451/11074 [1:29:12<05:08,  2.02it/s] 94%|█████████▍| 10452/11074 [1:29:12<05:07,  2.02it/s] 94%|█████████▍| 10453/11074 [1:29:13<05:06,  2.02it/s] 94%|█████████▍| 10454/11074 [1:29:13<05:06,  2.03it/s] 94%|█████████▍| 10455/11074 [1:29:14<05:05,  2.03it/s] 94%|█████████▍| 10456/11074 [1:29:14<05:05,  2.02it/s] 94%|█████████▍| 10457/11074 [1:29:15<05:04,  2.02it/s] 94%|█████████▍| 10458/11074 [1:29:15<05:04,  2.02it/s] 94%|█████████▍| 10459/11074 [1:29:16<05:03,  2.02it/s] 94%|█████████▍| 10460/11074 [1:29:16<05:03,  2.02it/s] 94%|█████████▍| 10461/11074 [1:29:17<05:02,  2.03it/s] 94%|█████████▍| 10462/11074 [1:29:17<05:02,  2.02it/s] 94%|█████████▍| 10463/11074 [1:29:18<05:01,  2.03it/s] 94%|█████████▍| 10464/11074 [1:29:18<05:01,  2.02it/s] 95%|█████████▍| 10465/11074 [1:29:19<05:00,  2.03it/s] 95%|█████████▍| 10466/11074 [1:29:19<05:00,  2.02it/s] 95%|█████████▍| 10467/11074 [1:29:20<04:59,  2.02it/s] 95%|█████████▍| 10468/11074 [1:29:20<04:59,  2.02it/s] 95%|█████████▍| 10469/11074 [1:29:21<04:58,  2.03it/s] 95%|█████████▍| 10470/11074 [1:29:21<04:57,  2.03it/s] 95%|█████████▍| 10471/11074 [1:29:22<04:57,  2.03it/s] 95%|█████████▍| 10472/11074 [1:29:22<04:56,  2.03it/s] 95%|█████████▍| 10473/11074 [1:29:23<04:56,  2.03it/s] 95%|█████████▍| 10474/11074 [1:29:23<04:56,  2.03it/s] 95%|█████████▍| 10475/11074 [1:29:24<04:55,  2.03it/s]                                                       {'loss': 3.1284, 'grad_norm': 0.24028468132019043, 'learning_rate': 8.887116601516753e-06, 'epoch': 13.23}
- 95%|█████████▍| 10475/11074 [1:29:24<04:55,  2.03it/s] 95%|█████████▍| 10476/11074 [1:29:24<04:55,  2.02it/s] 95%|█████████▍| 10477/11074 [1:29:25<04:55,  2.02it/s] 95%|█████████▍| 10478/11074 [1:29:25<04:54,  2.02it/s] 95%|█████████▍| 10479/11074 [1:29:26<04:53,  2.02it/s] 95%|█████████▍| 10480/11074 [1:29:26<04:53,  2.02it/s] 95%|█████████▍| 10481/11074 [1:29:27<04:52,  2.03it/s] 95%|█████████▍| 10482/11074 [1:29:27<04:52,  2.02it/s] 95%|█████████▍| 10483/11074 [1:29:28<04:51,  2.03it/s] 95%|█████���███▍| 10484/11074 [1:29:28<04:51,  2.02it/s] 95%|█████████▍| 10485/11074 [1:29:29<04:50,  2.03it/s] 95%|█████████▍| 10486/11074 [1:29:29<04:50,  2.02it/s] 95%|█████████▍| 10487/11074 [1:29:30<04:49,  2.03it/s] 95%|█████████▍| 10488/11074 [1:29:30<04:49,  2.03it/s] 95%|█████████▍| 10489/11074 [1:29:31<04:48,  2.03it/s] 95%|█████████▍| 10490/11074 [1:29:31<04:48,  2.03it/s] 95%|█████████▍| 10491/11074 [1:29:32<04:48,  2.02it/s] 95%|█████████▍| 10492/11074 [1:29:32<04:47,  2.02it/s] 95%|█████████▍| 10493/11074 [1:29:33<04:47,  2.02it/s] 95%|█████████▍| 10494/11074 [1:29:33<04:46,  2.03it/s] 95%|█████████▍| 10495/11074 [1:29:34<04:46,  2.02it/s] 95%|█████████▍| 10496/11074 [1:29:34<04:45,  2.02it/s] 95%|█████████▍| 10497/11074 [1:29:35<04:45,  2.02it/s] 95%|█████████▍| 10498/11074 [1:29:35<04:44,  2.02it/s] 95%|█████████▍| 10499/11074 [1:29:36<04:43,  2.02it/s] 95%|█████████▍| 10500/11074 [1:29:36<04:43,  2.02it/s]                                                       {'loss': 3.1273, 'grad_norm': 0.24102579057216644, 'learning_rate': 8.162750857029223e-06, 'epoch': 13.27}
- 95%|█████████▍| 10500/11074 [1:29:36<04:43,  2.02it/s] 95%|█████████▍| 10501/11074 [1:29:37<04:43,  2.02it/s] 95%|█████████▍| 10502/11074 [1:29:37<04:43,  2.02it/s] 95%|█████████▍| 10503/11074 [1:29:37<04:42,  2.02it/s] 95%|█████████▍| 10504/11074 [1:29:38<04:42,  2.02it/s] 95%|█████████▍| 10505/11074 [1:29:38<04:41,  2.02it/s] 95%|█████████▍| 10506/11074 [1:29:39<04:40,  2.02it/s] 95%|█████████▍| 10507/11074 [1:29:39<04:39,  2.03it/s] 95%|█████████▍| 10508/11074 [1:29:40<04:39,  2.02it/s] 95%|█████████▍| 10509/11074 [1:29:40<04:39,  2.02it/s] 95%|█████████▍| 10510/11074 [1:29:41<04:38,  2.02it/s] 95%|█████████▍| 10511/11074 [1:29:41<04:38,  2.02it/s] 95%|█████████▍| 10512/11074 [1:29:42<04:37,  2.02it/s] 95%|█████████▍| 10513/11074 [1:29:42<04:37,  2.02it/s] 95%|█████████▍| 10514/11074 [1:29:43<04:37,  2.02it/s] 95%|█████████▍| 10515/11074 [1:29:43<04:36,  2.02it/s] 95%|█████████▍| 10516/11074 [1:29:44<04:36,  2.02it/s] 95%|█████████▍| 10517/11074 [1:29:44<04:35,  2.02it/s] 95%|█████████▍| 10518/11074 [1:29:45<04:34,  2.02it/s] 95%|█████████▍| 10519/11074 [1:29:45<04:34,  2.02it/s] 95%|█████████▍| 10520/11074 [1:29:46<04:33,  2.02it/s] 95%|█████████▌| 10521/11074 [1:29:46<04:33,  2.02it/s] 95%|█████████▌| 10522/11074 [1:29:47<04:32,  2.02it/s] 95%|█████████▌| 10523/11074 [1:29:47<04:32,  2.02it/s] 95%|█████████▌| 10524/11074 [1:29:48<04:31,  2.02it/s] 95%|█████████▌| 10525/11074 [1:29:48<04:31,  2.02it/s]                                                       {'loss': 3.1204, 'grad_norm': 0.23936308920383453, 'learning_rate': 7.468931310797344e-06, 'epoch': 13.3}
- 95%|█████████▌| 10525/11074 [1:29:48<04:31,  2.02it/s] 95%|█████████▌| 10526/11074 [1:29:49<04:31,  2.02it/s] 95%|█████████▌| 10527/11074 [1:29:49<04:30,  2.02it/s] 95%|█████████▌| 10528/11074 [1:29:50<04:30,  2.02it/s] 95%|█████████▌| 10529/11074 [1:29:50<04:29,  2.02it/s] 95%|█████████▌| 10530/11074 [1:29:51<04:28,  2.02it/s] 95%|█████████▌| 10531/11074 [1:29:51<04:28,  2.02it/s] 95%|█████████▌| 10532/11074 [1:29:52<04:28,  2.02it/s] 95%|█████████▌| 10533/11074 [1:29:52<04:27,  2.02it/s] 95%|█████████▌| 10534/11074 [1:29:53<04:26,  2.02it/s] 95%|█████████▌| 10535/11074 [1:29:53<04:26,  2.02it/s] 95%|█████████▌| 10536/11074 [1:29:54<04:25,  2.02it/s] 95%|█████████▌| 10537/11074 [1:29:54<04:25,  2.02it/s] 95%|█████████▌| 10538/11074 [1:29:55<04:24,  2.02it/s] 95%|█████████▌| 10539/11074 [1:29:55<04:24,  2.03it/s] 95%|█████████▌| 10540/11074 [1:29:56<04:23,  2.02it/s] 95%|█████████▌| 10541/11074 [1:29:56<04:23,  2.02it/s] 95%|█████████▌| 10542/11074 [1:29:57<04:22,  2.02it/s] 95%|█████████▌| 10543/11074 [1:29:57<04:21,  2.03it/s] 95%|█████████▌| 10544/11074 [1:29:58<04:21,  2.03it/s] 95%|██████���██▌| 10545/11074 [1:29:58<04:21,  2.02it/s] 95%|█████████▌| 10546/11074 [1:29:59<04:20,  2.02it/s] 95%|█████████▌| 10547/11074 [1:29:59<04:20,  2.02it/s] 95%|█████████▌| 10548/11074 [1:30:00<04:19,  2.03it/s] 95%|█████████▌| 10549/11074 [1:30:00<04:19,  2.02it/s] 95%|█████████▌| 10550/11074 [1:30:01<04:18,  2.02it/s]{'loss': 3.1293, 'grad_norm': 0.24025702476501465, 'learning_rate': 6.805701053395119e-06, 'epoch': 13.33}                                                       
- 95%|█████████▌| 10550/11074 [1:30:01<04:18,  2.02it/s] 95%|█████████▌| 10551/11074 [1:30:01<04:18,  2.02it/s] 95%|█████████▌| 10552/11074 [1:30:02<04:17,  2.02it/s] 95%|█████████▌| 10553/11074 [1:30:02<04:17,  2.02it/s] 95%|█████████▌| 10554/11074 [1:30:03<04:16,  2.02it/s] 95%|█████████▌| 10555/11074 [1:30:03<04:16,  2.02it/s] 95%|█████████▌| 10556/11074 [1:30:04<04:15,  2.02it/s] 95%|█████████▌| 10557/11074 [1:30:04<04:15,  2.02it/s] 95%|█████████▌| 10558/11074 [1:30:05<04:15,  2.02it/s] 95%|█████████▌| 10559/11074 [1:30:05<04:14,  2.02it/s] 95%|█████████▌| 10560/11074 [1:30:06<04:14,  2.02it/s] 95%|█████████▌| 10561/11074 [1:30:06<04:13,  2.02it/s] 95%|█████████▌| 10562/11074 [1:30:07<04:13,  2.02it/s] 95%|█████████▌| 10563/11074 [1:30:07<04:12,  2.02it/s] 95%|█████████▌| 10564/11074 [1:30:08<04:12,  2.02it/s] 95%|█████████▌| 10565/11074 [1:30:08<04:11,  2.02it/s] 95%|█████████▌| 10566/11074 [1:30:09<04:11,  2.02it/s] 95%|█████████▌| 10567/11074 [1:30:09<04:10,  2.02it/s] 95%|█████████▌| 10568/11074 [1:30:10<04:10,  2.02it/s] 95%|█████████▌| 10569/11074 [1:30:10<04:10,  2.02it/s] 95%|█████████▌| 10570/11074 [1:30:11<04:09,  2.02it/s] 95%|█████████▌| 10571/11074 [1:30:11<04:08,  2.02it/s] 95%|█████████▌| 10572/11074 [1:30:12<04:08,  2.02it/s] 95%|█████████▌| 10573/11074 [1:30:12<04:08,  2.02it/s] 95%|█████████▌| 10574/11074 [1:30:13<04:07,  2.02it/s] 95%|█████████▌| 10575/11074 [1:30:13<04:06,  2.02it/s]{'loss': 3.1221, 'grad_norm': 0.24080324172973633, 'learning_rate': 6.173101275608662e-06, 'epoch': 13.36}                                                       
- 95%|█████████▌| 10575/11074 [1:30:13<04:06,  2.02it/s] 96%|█████████▌| 10576/11074 [1:30:14<04:06,  2.02it/s] 96%|█████████▌| 10577/11074 [1:30:14<04:06,  2.02it/s] 96%|█████████▌| 10578/11074 [1:30:15<04:05,  2.02it/s] 96%|█████████▌| 10579/11074 [1:30:15<04:04,  2.02it/s] 96%|█████████▌| 10580/11074 [1:30:16<04:04,  2.02it/s] 96%|█████████▌| 10581/11074 [1:30:16<04:03,  2.02it/s] 96%|█████████▌| 10582/11074 [1:30:17<04:02,  2.02it/s] 96%|█████████▌| 10583/11074 [1:30:17<04:02,  2.02it/s] 96%|█████████▌| 10584/11074 [1:30:18<04:02,  2.02it/s] 96%|█████████▌| 10585/11074 [1:30:18<04:01,  2.02it/s] 96%|█████████▌| 10586/11074 [1:30:19<04:01,  2.02it/s] 96%|█████████▌| 10587/11074 [1:30:19<04:00,  2.02it/s] 96%|█████████▌| 10588/11074 [1:30:20<04:00,  2.02it/s] 96%|█████████▌| 10589/11074 [1:30:20<03:59,  2.02it/s] 96%|█████████▌| 10590/11074 [1:30:21<03:59,  2.02it/s] 96%|█████████▌| 10591/11074 [1:30:21<03:58,  2.02it/s] 96%|█████████▌| 10592/11074 [1:30:21<03:58,  2.02it/s] 96%|█████████▌| 10593/11074 [1:30:22<03:57,  2.02it/s] 96%|█████████▌| 10594/11074 [1:30:22<03:57,  2.02it/s] 96%|█████████▌| 10595/11074 [1:30:23<03:56,  2.02it/s] 96%|█████████▌| 10596/11074 [1:30:23<03:56,  2.02it/s] 96%|█████████▌| 10597/11074 [1:30:24<03:55,  2.02it/s] 96%|█████████▌| 10598/11074 [1:30:24<03:55,  2.02it/s] 96%|█████████▌| 10599/11074 [1:30:25<03:54,  2.02it/s] 96%|█████████▌| 10600/11074 [1:30:25<03:53,  2.03it/s]                                                       {'loss': 3.1263, 'grad_norm': 0.2395830899477005, 'learning_rate': 5.571171265877917e-06, 'epoch': 13.39}
- 96%|█████████▌| 10600/11074 [1:30:25<03:53,  2.03it/s] 96%|█████████▌| 10601/11074 [1:30:26<03:54,  2.02it/s] 96%|█████████▌| 10602/11074 [1:30:26<03:53,  2.02it/s] 96%|█████████▌| 10603/11074 [1:30:27<03:53,  2.02it/s] 96%|█████████▌| 10604/11074 [1:30:27<03:52,  2.02it/s] 96%|█████████▌| 10605/11074 [1:30:28<03:51,  2.02it/s] 96%|█████████▌| 10606/11074 [1:30:28<03:51,  2.02it/s] 96%|█████████▌| 10607/11074 [1:30:29<03:50,  2.02it/s] 96%|█████████▌| 10608/11074 [1:30:29<03:50,  2.02it/s] 96%|█████████▌| 10609/11074 [1:30:30<03:50,  2.02it/s] 96%|█████████▌| 10610/11074 [1:30:30<03:49,  2.02it/s] 96%|█████████▌| 10611/11074 [1:30:31<03:49,  2.02it/s] 96%|█████████▌| 10612/11074 [1:30:31<03:48,  2.02it/s] 96%|█████████▌| 10613/11074 [1:30:32<03:48,  2.02it/s] 96%|█████████▌| 10614/11074 [1:30:32<03:47,  2.02it/s] 96%|█████████▌| 10615/11074 [1:30:33<03:47,  2.02it/s] 96%|█████████▌| 10616/11074 [1:30:33<03:46,  2.02it/s] 96%|█████████▌| 10617/11074 [1:30:34<03:46,  2.02it/s] 96%|█████████▌| 10618/11074 [1:30:34<03:45,  2.02it/s] 96%|█████████▌| 10619/11074 [1:30:35<03:45,  2.02it/s] 96%|█████████▌| 10620/11074 [1:30:35<03:44,  2.02it/s] 96%|█████████▌| 10621/11074 [1:30:36<03:43,  2.02it/s] 96%|█████████▌| 10622/11074 [1:30:36<03:43,  2.02it/s] 96%|█████████▌| 10623/11074 [1:30:37<03:42,  2.02it/s] 96%|█████████▌| 10624/11074 [1:30:37<03:42,  2.02it/s] 96%|█████████▌| 10625/11074 [1:30:38<03:42,  2.02it/s]{'loss': 3.1287, 'grad_norm': 0.2416277527809143, 'learning_rate': 4.999948407856669e-06, 'epoch': 13.42}                                                       
- 96%|█████████▌| 10625/11074 [1:30:38<03:42,  2.02it/s] 96%|█████████▌| 10626/11074 [1:30:38<03:41,  2.02it/s] 96%|█████████▌| 10627/11074 [1:30:39<03:41,  2.02it/s] 96%|█████████▌| 10628/11074 [1:30:39<03:40,  2.02it/s] 96%|█████████▌| 10629/11074 [1:30:40<03:39,  2.02it/s] 96%|█████████▌| 10630/11074 [1:30:40<03:39,  2.02it/s] 96%|█████████▌| 10631/11074 [1:30:41<03:39,  2.02it/s] 96%|█████████▌| 10632/11074 [1:30:41<03:38,  2.02it/s] 96%|█████████▌| 10633/11074 [1:30:42<03:38,  2.02it/s] 96%|█████████▌| 10634/11074 [1:30:42<03:37,  2.02it/s] 96%|█████████▌| 10635/11074 [1:30:43<03:37,  2.02it/s] 96%|█████████▌| 10636/11074 [1:30:43<03:36,  2.02it/s] 96%|█████████▌| 10637/11074 [1:30:44<03:36,  2.02it/s] 96%|█████████▌| 10638/11074 [1:30:44<03:35,  2.02it/s] 96%|█████████▌| 10639/11074 [1:30:45<03:35,  2.02it/s] 96%|█████████▌| 10640/11074 [1:30:45<03:34,  2.02it/s] 96%|█████████▌| 10641/11074 [1:30:46<03:34,  2.02it/s] 96%|█████████▌| 10642/11074 [1:30:46<03:33,  2.02it/s] 96%|█████████▌| 10643/11074 [1:30:47<03:33,  2.02it/s] 96%|█████████▌| 10644/11074 [1:30:47<03:32,  2.02it/s] 96%|█████████▌| 10645/11074 [1:30:48<03:32,  2.02it/s] 96%|█████████▌| 10646/11074 [1:30:48<03:31,  2.02it/s] 96%|█████████▌| 10647/11074 [1:30:49<03:31,  2.02it/s] 96%|█████████▌| 10648/11074 [1:30:49<03:30,  2.02it/s] 96%|█████████▌| 10649/11074 [1:30:50<03:30,  2.02it/s] 96%|█████████▌| 10650/11074 [1:30:50<03:29,  2.02it/s]                                                       {'loss': 3.1299, 'grad_norm': 0.2407858520746231, 'learning_rate': 4.4594681780905646e-06, 'epoch': 13.46}
- 96%|█████████▌| 10650/11074 [1:30:50<03:29,  2.02it/s] 96%|█████████▌| 10651/11074 [1:30:51<03:29,  2.02it/s] 96%|█████████▌| 10652/11074 [1:30:51<03:28,  2.02it/s] 96%|█████████▌| 10653/11074 [1:30:52<03:27,  2.03it/s] 96%|█████████▌| 10654/11074 [1:30:52<03:27,  2.02it/s] 96%|█████████▌| 10655/11074 [1:30:53<03:26,  2.02it/s] 96%|█████████▌| 10656/11074 [1:30:53<03:26,  2.02it/s] 96%|█████████▌| 10657/11074 [1:30:54<03:25,  2.03it/s] 96%|█████████▌| 10658/11074 [1:30:54<03:25,  2.03it/s] 96%|█████████▋| 10659/11074 [1:30:55<03:24,  2.03it/s] 96%|█████████▋| 10660/11074 [1:30:55<03:24,  2.03it/s] 96%|█████████▋| 10661/11074 [1:30:56<03:23,  2.03it/s] 96%|█████████▋| 10662/11074 [1:30:56<03:23,  2.03it/s] 96%|█████████▋| 10663/11074 [1:30:57<03:22,  2.03it/s] 96%|█████████▋| 10664/11074 [1:30:57<03:22,  2.03it/s] 96%|█████████▋| 10665/11074 [1:30:58<03:21,  2.03it/s] 96%|█████████▋| 10666/11074 [1:30:58<03:21,  2.03it/s] 96%|█████████▋| 10667/11074 [1:30:59<03:21,  2.02it/s] 96%|█████████▋| 10668/11074 [1:30:59<03:20,  2.03it/s] 96%|█████████▋| 10669/11074 [1:31:00<03:20,  2.02it/s] 96%|█████████▋| 10670/11074 [1:31:00<03:19,  2.02it/s] 96%|█████████▋| 10671/11074 [1:31:01<03:19,  2.02it/s] 96%|█████████▋| 10672/11074 [1:31:01<03:18,  2.03it/s] 96%|█████████▋| 10673/11074 [1:31:02<03:18,  2.03it/s] 96%|█████████▋| 10674/11074 [1:31:02<03:17,  2.03it/s] 96%|█████████▋| 10675/11074 [1:31:03<03:17,  2.02it/s]                                                       {'loss': 3.1243, 'grad_norm': 0.23897473514080048, 'learning_rate': 3.949764143814149e-06, 'epoch': 13.49}
- 96%|█████████▋| 10675/11074 [1:31:03<03:17,  2.02it/s] 96%|█████████▋| 10676/11074 [1:31:03<03:16,  2.02it/s] 96%|█████████▋| 10677/11074 [1:31:04<03:15,  2.03it/s] 96%|█████████▋| 10678/11074 [1:31:04<03:15,  2.02it/s] 96%|█████████▋| 10679/11074 [1:31:05<03:15,  2.03it/s] 96%|█████████▋| 10680/11074 [1:31:05<03:14,  2.02it/s] 96%|█████████▋| 10681/11074 [1:31:05<03:14,  2.02it/s] 96%|█████████▋| 10682/11074 [1:31:06<03:13,  2.02it/s] 96%|█████████▋| 10683/11074 [1:31:06<03:13,  2.03it/s] 96%|█████████▋| 10684/11074 [1:31:07<03:12,  2.02it/s] 96%|█████████▋| 10685/11074 [1:31:07<03:12,  2.02it/s] 96%|█████████▋| 10686/11074 [1:31:08<03:11,  2.02it/s] 97%|█████████▋| 10687/11074 [1:31:08<03:11,  2.02it/s] 97%|█████████▋| 10688/11074 [1:31:09<03:10,  2.03it/s] 97%|█████████▋| 10689/11074 [1:31:09<03:10,  2.02it/s] 97%|█████████▋| 10690/11074 [1:31:10<03:09,  2.02it/s] 97%|█████████▋| 10691/11074 [1:31:10<03:09,  2.02it/s] 97%|█████████▋| 10692/11074 [1:31:11<03:08,  2.02it/s] 97%|█████████▋| 10693/11074 [1:31:11<03:08,  2.02it/s] 97%|█████████▋| 10694/11074 [1:31:12<03:07,  2.02it/s] 97%|█████████▋| 10695/11074 [1:31:12<03:07,  2.02it/s] 97%|█████████▋| 10696/11074 [1:31:13<03:06,  2.02it/s] 97%|█████████▋| 10697/11074 [1:31:13<03:06,  2.02it/s] 97%|█████████▋| 10698/11074 [1:31:14<03:05,  2.02it/s] 97%|█████████▋| 10699/11074 [1:31:14<03:05,  2.02it/s] 97%|█████████▋| 10700/11074 [1:31:15<03:04,  2.03it/s]                                                       {'loss': 3.1207, 'grad_norm': 0.24008893966674805, 'learning_rate': 3.47086796086582e-06, 'epoch': 13.52}
- 97%|█████████▋| 10700/11074 [1:31:15<03:04,  2.03it/s] 97%|█████████▋| 10701/11074 [1:31:15<03:04,  2.02it/s] 97%|█████████▋| 10702/11074 [1:31:16<03:03,  2.02it/s] 97%|█████████▋| 10703/11074 [1:31:16<03:03,  2.02it/s] 97%|█████████▋| 10704/11074 [1:31:17<03:02,  2.03it/s] 97%|█████████▋| 10705/11074 [1:31:17<03:02,  2.03it/s] 97%|█████████▋| 10706/11074 [1:31:18<03:01,  2.02it/s] 97%|█████████▋| 10707/11074 [1:31:18<03:01,  2.02it/s] 97%|█████████▋| 10708/11074 [1:31:19<03:00,  2.02it/s] 97%|█████████▋| 10709/11074 [1:31:19<03:00,  2.03it/s] 97%|█████████▋| 10710/11074 [1:31:20<02:59,  2.02it/s] 97%|█████████▋| 10711/11074 [1:31:20<02:59,  2.03it/s] 97%|█████████▋| 10712/11074 [1:31:21<02:58,  2.02it/s] 97%|█████████▋| 10713/11074 [1:31:21<02:58,  2.02it/s] 97%|█████████▋| 10714/11074 [1:31:22<02:57,  2.02it/s] 97%|█████████▋| 10715/11074 [1:31:22<02:57,  2.02it/s] 97%|█████████▋| 10716/11074 [1:31:23<02:57,  2.02it/s] 97%|█████████▋| 10717/11074 [1:31:23<02:56,  2.02it/s] 97%|█████████▋| 10718/11074 [1:31:24<02:56,  2.02it/s] 97%|█████████▋| 10719/11074 [1:31:24<02:55,  2.02it/s] 97%|█████████▋| 10720/11074 [1:31:25<02:55,  2.02it/s] 97%|█████████▋| 10721/11074 [1:31:25<02:54,  2.02it/s] 97%|█████████▋| 10722/11074 [1:31:26<02:53,  2.02it/s] 97%|█████████▋| 10723/11074 [1:31:26<02:53,  2.02it/s] 97%|█████████▋| 10724/11074 [1:31:27<02:52,  2.02it/s] 97%|█████████▋| 10725/11074 [1:31:27<02:52,  2.02it/s]                                                       {'loss': 3.1258, 'grad_norm': 0.2390448898077011, 'learning_rate': 3.022809371721891e-06, 'epoch': 13.55}
- 97%|█████████▋| 10725/11074 [1:31:27<02:52,  2.02it/s] 97%|█████████▋| 10726/11074 [1:31:28<02:52,  2.02it/s] 97%|█████████▋| 10727/11074 [1:31:28<02:51,  2.02it/s] 97%|█████████▋| 10728/11074 [1:31:29<02:51,  2.02it/s] 97%|█████████▋| 10729/11074 [1:31:29<02:50,  2.02it/s] 97%|█████████▋| 10730/11074 [1:31:30<02:50,  2.02it/s] 97%|█████████▋| 10731/11074 [1:31:30<02:49,  2.02it/s] 97%|█████████▋| 10732/11074 [1:31:31<02:49,  2.02it/s] 97%|█████████▋| 10733/11074 [1:31:31<02:48,  2.02it/s] 97%|█████████▋| 10734/11074 [1:31:32<02:47,  2.02it/s] 97%|█████████▋| 10735/11074 [1:31:32<02:47,  2.02it/s] 97%|█████████▋| 10736/11074 [1:31:33<02:47,  2.02it/s] 97%|█████████▋| 10737/11074 [1:31:33<02:46,  2.02it/s] 97%|█████████▋| 10738/11074 [1:31:34<02:46,  2.02it/s] 97%|█████████▋| 10739/11074 [1:31:34<02:45,  2.02it/s] 97%|█████████▋| 10740/11074 [1:31:35<02:45,  2.02it/s] 97%|█████████▋| 10741/11074 [1:31:35<02:44,  2.02it/s] 97%|█████████▋| 10742/11074 [1:31:36<02:44,  2.02it/s] 97%|█████████▋| 10743/11074 [1:31:36<02:43,  2.02it/s] 97%|█████████▋| 10744/11074 [1:31:37<02:43,  2.02it/s] 97%|█████████▋| 10745/11074 [1:31:37<02:42,  2.02it/s] 97%|█████████▋| 10746/11074 [1:31:38<02:42,  2.02it/s] 97%|█████████▋| 10747/11074 [1:31:38<02:41,  2.02it/s] 97%|█████████▋| 10748/11074 [1:31:39<02:41,  2.02it/s] 97%|█████████▋| 10749/11074 [1:31:39<02:40,  2.02it/s] 97%|█████████▋| 10750/11074 [1:31:40<02:40,  2.02it/s]                                                       {'loss': 3.1294, 'grad_norm': 0.241078719496727, 'learning_rate': 2.605616203649408e-06, 'epoch': 13.58}
- 97%|█████████▋| 10750/11074 [1:31:40<02:40,  2.02it/s] 97%|█████████▋| 10751/11074 [1:31:40<02:39,  2.02it/s] 97%|█████████▋| 10752/11074 [1:31:41<02:39,  2.02it/s] 97%|█████████▋| 10753/11074 [1:31:41<02:38,  2.02it/s] 97%|█████████▋| 10754/11074 [1:31:42<02:38,  2.02it/s] 97%|█████████▋| 10755/11074 [1:31:42<02:37,  2.02it/s] 97%|█████████▋| 10756/11074 [1:31:43<02:37,  2.02it/s] 97%|█████████▋| 10757/11074 [1:31:43<02:36,  2.02it/s] 97%|█████████▋| 10758/11074 [1:31:44<02:36,  2.03it/s] 97%|█████████▋| 10759/11074 [1:31:44<02:35,  2.02it/s] 97%|█████████▋| 10760/11074 [1:31:45<02:35,  2.03it/s] 97%|█████████▋| 10761/11074 [1:31:45<02:34,  2.02it/s] 97%|█████████▋| 10762/11074 [1:31:46<02:34,  2.03it/s] 97%|█████████▋| 10763/11074 [1:31:46<02:33,  2.02it/s] 97%|█████████▋| 10764/11074 [1:31:47<02:33,  2.02it/s] 97%|█████████▋| 10765/11074 [1:31:47<02:32,  2.02it/s] 97%|█████████▋| 10766/11074 [1:31:48<02:32,  2.02it/s] 97%|█████████▋| 10767/11074 [1:31:48<02:31,  2.02it/s] 97%|█████████▋| 10768/11074 [1:31:48<02:31,  2.02it/s] 97%|█████████▋| 10769/11074 [1:31:49<02:30,  2.02it/s] 97%|█████████▋| 10770/11074 [1:31:49<02:30,  2.02it/s] 97%|█████████▋| 10771/11074 [1:31:50<02:29,  2.02it/s] 97%|█████████▋| 10772/11074 [1:31:50<02:29,  2.02it/s] 97%|█████████▋| 10773/11074 [1:31:51<02:28,  2.02it/s] 97%|█████████▋| 10774/11074 [1:31:51<02:28,  2.02it/s] 97%|█████████▋| 10775/11074 [1:31:52<02:27,  2.02it/s]                                                       {'loss': 3.1297, 'grad_norm': 0.2402792125940323, 'learning_rate': 2.2193143669780316e-06, 'epoch': 13.61}
- 97%|█████████▋| 10775/11074 [1:31:52<02:27,  2.02it/s] 97%|█████████▋| 10776/11074 [1:31:52<02:27,  2.02it/s] 97%|█████████▋| 10777/11074 [1:31:53<02:26,  2.02it/s] 97%|█████████▋| 10778/11074 [1:31:53<02:26,  2.02it/s] 97%|█████████▋| 10779/11074 [1:31:54<02:25,  2.02it/s] 97%|█████████▋| 10780/11074 [1:31:54<02:25,  2.02it/s] 97%|█████████▋| 10781/11074 [1:31:55<02:24,  2.02it/s] 97%|█████████▋| 10782/11074 [1:31:55<02:24,  2.02it/s] 97%|██���██████▋| 10783/11074 [1:31:56<02:23,  2.02it/s] 97%|█████████▋| 10784/11074 [1:31:56<02:23,  2.02it/s] 97%|█████████▋| 10785/11074 [1:31:57<02:22,  2.02it/s] 97%|█████████▋| 10786/11074 [1:31:57<02:22,  2.02it/s] 97%|█████████▋| 10787/11074 [1:31:58<02:21,  2.02it/s] 97%|█████████▋| 10788/11074 [1:31:58<02:21,  2.03it/s] 97%|█████████▋| 10789/11074 [1:31:59<02:20,  2.03it/s] 97%|█████████▋| 10790/11074 [1:31:59<02:20,  2.02it/s] 97%|█████████▋| 10791/11074 [1:32:00<02:19,  2.03it/s] 97%|█████████▋| 10792/11074 [1:32:00<02:19,  2.03it/s] 97%|█████████▋| 10793/11074 [1:32:01<02:18,  2.03it/s] 97%|█████████▋| 10794/11074 [1:32:01<02:18,  2.02it/s] 97%|█████████▋| 10795/11074 [1:32:02<02:17,  2.02it/s] 97%|█████████▋| 10796/11074 [1:32:02<02:17,  2.02it/s] 97%|█████████▋| 10797/11074 [1:32:03<02:29,  1.86it/s] 98%|█████████▊| 10798/11074 [1:32:03<02:24,  1.90it/s] 98%|█████████▊| 10799/11074 [1:32:04<02:21,  1.94it/s] 98%|█████████▊| 10800/11074 [1:32:04<02:19,  1.96it/s]{'loss': 3.1268, 'grad_norm': 0.2377961426973343, 'learning_rate': 1.863927853490599e-06, 'epoch': 13.64}                                                       
- 98%|█████████▊| 10800/11074 [1:32:04<02:19,  1.96it/s] 98%|█████████▊| 10801/11074 [1:32:05<02:17,  1.98it/s] 98%|█████████▊| 10802/11074 [1:32:05<02:16,  1.99it/s] 98%|█████████▊| 10803/11074 [1:32:06<02:15,  2.00it/s] 98%|█████████▊| 10804/11074 [1:32:06<02:14,  2.01it/s] 98%|█████████▊| 10805/11074 [1:32:07<02:13,  2.02it/s] 98%|█████████▊| 10806/11074 [1:32:07<02:12,  2.02it/s] 98%|█████████▊| 10807/11074 [1:32:08<02:12,  2.02it/s] 98%|█████████▊| 10808/11074 [1:32:08<02:11,  2.02it/s] 98%|█████████▊| 10809/11074 [1:32:09<02:11,  2.02it/s] 98%|█████████▊| 10810/11074 [1:32:09<02:10,  2.02it/s] 98%|█████████▊| 10811/11074 [1:32:10<02:10,  2.02it/s] 98%|█████████▊| 10812/11074 [1:32:10<02:09,  2.02it/s] 98%|█████████▊| 10813/11074 [1:32:11<02:08,  2.02it/s] 98%|█████████▊| 10814/11074 [1:32:11<02:08,  2.03it/s] 98%|█████████▊| 10815/11074 [1:32:12<02:07,  2.03it/s] 98%|█████████▊| 10816/11074 [1:32:12<02:07,  2.03it/s] 98%|█████████▊| 10817/11074 [1:32:13<02:06,  2.03it/s] 98%|█████████▊| 10818/11074 [1:32:13<02:06,  2.03it/s] 98%|█████████▊| 10819/11074 [1:32:14<02:05,  2.03it/s] 98%|█████████▊| 10820/11074 [1:32:14<02:05,  2.03it/s] 98%|█████████▊| 10821/11074 [1:32:15<02:04,  2.03it/s] 98%|█████████▊| 10822/11074 [1:32:15<02:04,  2.03it/s] 98%|█████████▊| 10823/11074 [1:32:16<02:03,  2.03it/s] 98%|█████████▊| 10824/11074 [1:32:16<02:03,  2.03it/s] 98%|█████████▊| 10825/11074 [1:32:17<02:02,  2.03it/s]{'loss': 3.125, 'grad_norm': 0.23915834724903107, 'learning_rate': 1.5394787349332084e-06, 'epoch': 13.68}                                                       
- 98%|█████████▊| 10825/11074 [1:32:17<02:02,  2.03it/s] 98%|█████████▊| 10826/11074 [1:32:17<02:02,  2.02it/s] 98%|█████████▊| 10827/11074 [1:32:18<02:01,  2.03it/s] 98%|█████████▊| 10828/11074 [1:32:18<02:01,  2.03it/s] 98%|█████████▊| 10829/11074 [1:32:19<02:00,  2.03it/s] 98%|█████████▊| 10830/11074 [1:32:19<02:00,  2.02it/s] 98%|█████████▊| 10831/11074 [1:32:20<01:59,  2.03it/s] 98%|█████████▊| 10832/11074 [1:32:20<01:59,  2.02it/s] 98%|█████████▊| 10833/11074 [1:32:21<01:59,  2.02it/s] 98%|█████████▊| 10834/11074 [1:32:21<01:58,  2.02it/s] 98%|█████████▊| 10835/11074 [1:32:22<01:58,  2.02it/s] 98%|█████████▊| 10836/11074 [1:32:22<01:57,  2.02it/s] 98%|█████████▊| 10837/11074 [1:32:23<01:57,  2.02it/s] 98%|█████████▊| 10838/11074 [1:32:23<01:56,  2.02it/s] 98%|█████████▊| 10839/11074 [1:32:24<01:56,  2.02it/s] 98%|█████████▊| 10840/11074 [1:32:24<01:55,  2.02it/s] 98%|█████████▊| 10841/11074 [1:32:25<01:55,  2.02it/s] 98%|█████████▊| 10842/11074 [1:32:25<01:54,  2.02it/s] 98%|█████████▊| 10843/11074 [1:32:26<01:54,  2.03it/s] 98%|███���█████▊| 10844/11074 [1:32:26<01:53,  2.02it/s] 98%|█████████▊| 10845/11074 [1:32:27<01:52,  2.03it/s] 98%|█████████▊| 10846/11074 [1:32:27<01:52,  2.03it/s] 98%|█████████▊| 10847/11074 [1:32:28<01:52,  2.03it/s] 98%|█████████▊| 10848/11074 [1:32:28<01:51,  2.03it/s] 98%|█████████▊| 10849/11074 [1:32:29<01:50,  2.03it/s] 98%|█████████▊| 10850/11074 [1:32:29<01:50,  2.03it/s]                                                       {'loss': 3.1288, 'grad_norm': 0.23611889779567719, 'learning_rate': 1.2459871616444796e-06, 'epoch': 13.71}
- 98%|█████████▊| 10850/11074 [1:32:29<01:50,  2.03it/s] 98%|█████████▊| 10851/11074 [1:32:30<01:50,  2.02it/s] 98%|█████████▊| 10852/11074 [1:32:30<01:49,  2.02it/s] 98%|█████████▊| 10853/11074 [1:32:31<01:49,  2.02it/s] 98%|█████████▊| 10854/11074 [1:32:31<01:48,  2.02it/s] 98%|█████████▊| 10855/11074 [1:32:32<01:48,  2.02it/s] 98%|█████████▊| 10856/11074 [1:32:32<01:47,  2.03it/s] 98%|█████████▊| 10857/11074 [1:32:33<01:47,  2.03it/s] 98%|█████████▊| 10858/11074 [1:32:33<01:46,  2.02it/s] 98%|█████████▊| 10859/11074 [1:32:34<01:46,  2.02it/s] 98%|█████████▊| 10860/11074 [1:32:34<01:45,  2.02it/s] 98%|█████████▊| 10861/11074 [1:32:35<01:45,  2.02it/s] 98%|█████████▊| 10862/11074 [1:32:35<01:44,  2.02it/s] 98%|█████████▊| 10863/11074 [1:32:36<01:44,  2.02it/s] 98%|█████████▊| 10864/11074 [1:32:36<01:43,  2.02it/s] 98%|█████████▊| 10865/11074 [1:32:37<01:43,  2.02it/s] 98%|█████████▊| 10866/11074 [1:32:37<01:42,  2.02it/s] 98%|█████████▊| 10867/11074 [1:32:38<01:42,  2.03it/s] 98%|█████████▊| 10868/11074 [1:32:38<01:41,  2.02it/s] 98%|█████████▊| 10869/11074 [1:32:39<01:41,  2.03it/s] 98%|█████████▊| 10870/11074 [1:32:39<01:40,  2.03it/s] 98%|█████████▊| 10871/11074 [1:32:40<01:40,  2.02it/s] 98%|█████████▊| 10872/11074 [1:32:40<01:39,  2.02it/s] 98%|█████████▊| 10873/11074 [1:32:41<01:39,  2.02it/s] 98%|█████████▊| 10874/11074 [1:32:41<01:38,  2.02it/s] 98%|█████████▊| 10875/11074 [1:32:41<01:38,  2.02it/s]{'loss': 3.1334, 'grad_norm': 0.23865821957588196, 'learning_rate': 9.834713613040003e-07, 'epoch': 13.74}
-                                                        98%|█████████▊| 10875/11074 [1:32:41<01:38,  2.02it/s] 98%|█████████▊| 10876/11074 [1:32:42<01:38,  2.02it/s] 98%|█████████▊| 10877/11074 [1:32:42<01:37,  2.02it/s] 98%|█████████▊| 10878/11074 [1:32:43<01:36,  2.02it/s] 98%|█████████▊| 10879/11074 [1:32:43<01:36,  2.02it/s] 98%|█████████▊| 10880/11074 [1:32:44<01:35,  2.02it/s] 98%|█████████▊| 10881/11074 [1:32:44<01:35,  2.02it/s] 98%|█████████▊| 10882/11074 [1:32:45<01:34,  2.02it/s] 98%|█████████▊| 10883/11074 [1:32:45<01:34,  2.02it/s] 98%|█████████▊| 10884/11074 [1:32:46<01:33,  2.02it/s] 98%|█████████▊| 10885/11074 [1:32:46<01:33,  2.02it/s] 98%|█████████▊| 10886/11074 [1:32:47<01:32,  2.03it/s] 98%|█████████▊| 10887/11074 [1:32:47<01:32,  2.02it/s] 98%|█████████▊| 10888/11074 [1:32:48<01:31,  2.03it/s] 98%|█████████▊| 10889/11074 [1:32:48<01:31,  2.02it/s] 98%|█████████▊| 10890/11074 [1:32:49<01:30,  2.03it/s] 98%|█████████▊| 10891/11074 [1:32:49<01:30,  2.03it/s] 98%|█████████▊| 10892/11074 [1:32:50<01:29,  2.03it/s] 98%|█████████▊| 10893/11074 [1:32:50<01:29,  2.03it/s] 98%|█████████▊| 10894/11074 [1:32:51<01:28,  2.03it/s] 98%|█████████▊| 10895/11074 [1:32:51<01:28,  2.03it/s] 98%|█████████▊| 10896/11074 [1:32:52<01:35,  1.86it/s] 98%|█████████▊| 10897/11074 [1:32:53<01:32,  1.91it/s] 98%|█████████▊| 10898/11074 [1:32:53<01:30,  1.94it/s] 98%|█████████▊| 10899/11074 [1:32:53<01:29,  1.97it/s] 98%|█████████▊| 10900/11074 [1:32:54<01:27,  1.98it/s]                                                       {'loss': 3.126, 'grad_norm': 0.23910360038280487, 'learning_rate': 7.519476378002321e-07, 'epoch': 13.77}
- 98%|█████████▊| 10900/11074 [1:32:54<01:27,  1.98it/s] 98%|█████████▊| 10901/11074 [1:32:54<01:26,  1.99it/s] 98%|█████████▊| 10902/11074 [1:32:55<01:25,  2.00it/s] 98%|█████████▊| 10903/11074 [1:32:55<01:25,  2.01it/s] 98%|█████████▊| 10904/11074 [1:32:56<01:24,  2.01it/s] 98%|█████████▊| 10905/11074 [1:32:56<01:23,  2.02it/s] 98%|█████████▊| 10906/11074 [1:32:57<01:23,  2.02it/s] 98%|█████████▊| 10907/11074 [1:32:57<01:22,  2.02it/s] 99%|█████████▊| 10908/11074 [1:32:58<01:22,  2.02it/s] 99%|█████████▊| 10909/11074 [1:32:58<01:21,  2.02it/s] 99%|█████████▊| 10910/11074 [1:32:59<01:20,  2.02it/s] 99%|█████████▊| 10911/11074 [1:32:59<01:20,  2.02it/s] 99%|█████████▊| 10912/11074 [1:33:00<01:20,  2.02it/s] 99%|█████████▊| 10913/11074 [1:33:00<01:19,  2.03it/s] 99%|█████████▊| 10914/11074 [1:33:01<01:19,  2.02it/s] 99%|█████████▊| 10915/11074 [1:33:01<01:18,  2.03it/s] 99%|█████████▊| 10916/11074 [1:33:02<01:18,  2.03it/s] 99%|█████████▊| 10917/11074 [1:33:02<01:17,  2.03it/s] 99%|█████████▊| 10918/11074 [1:33:03<01:17,  2.02it/s] 99%|█████████▊| 10919/11074 [1:33:03<01:16,  2.03it/s] 99%|█████████▊| 10920/11074 [1:33:04<01:16,  2.03it/s] 99%|█████████▊| 10921/11074 [1:33:04<01:15,  2.03it/s] 99%|█████████▊| 10922/11074 [1:33:05<01:15,  2.03it/s] 99%|█████████▊| 10923/11074 [1:33:05<01:14,  2.02it/s] 99%|█████████▊| 10924/11074 [1:33:06<01:14,  2.02it/s] 99%|█████████▊| 10925/11074 [1:33:06<01:13,  2.02it/s]                                                       {'loss': 3.1259, 'grad_norm': 0.23768281936645508, 'learning_rate': 5.514303702181533e-07, 'epoch': 13.8}
- 99%|█████████▊| 10925/11074 [1:33:06<01:13,  2.02it/s] 99%|█████████▊| 10926/11074 [1:33:07<01:13,  2.01it/s] 99%|█████████▊| 10927/11074 [1:33:07<01:12,  2.02it/s] 99%|█████████▊| 10928/11074 [1:33:08<01:12,  2.02it/s] 99%|█████████▊| 10929/11074 [1:33:08<01:11,  2.02it/s] 99%|█████████▊| 10930/11074 [1:33:09<01:11,  2.02it/s] 99%|█████████▊| 10931/11074 [1:33:09<01:10,  2.02it/s] 99%|█████████▊| 10932/11074 [1:33:10<01:10,  2.02it/s] 99%|█████████▊| 10933/11074 [1:33:10<01:09,  2.02it/s] 99%|█████████▊| 10934/11074 [1:33:11<01:09,  2.02it/s] 99%|█████████▊| 10935/11074 [1:33:11<01:08,  2.02it/s] 99%|█████████▉| 10936/11074 [1:33:12<01:08,  2.02it/s] 99%|█████████▉| 10937/11074 [1:33:12<01:07,  2.02it/s] 99%|█████████▉| 10938/11074 [1:33:13<01:07,  2.03it/s] 99%|█████████▉| 10939/11074 [1:33:13<01:06,  2.02it/s] 99%|█████████▉| 10940/11074 [1:33:14<01:06,  2.03it/s] 99%|█████████▉| 10941/11074 [1:33:14<01:05,  2.02it/s] 99%|█████████▉| 10942/11074 [1:33:15<01:05,  2.03it/s] 99%|█████████▉| 10943/11074 [1:33:15<01:04,  2.02it/s] 99%|█████████▉| 10944/11074 [1:33:16<01:04,  2.02it/s] 99%|█████████▉| 10945/11074 [1:33:16<01:03,  2.02it/s] 99%|█████████▉| 10946/11074 [1:33:17<01:03,  2.02it/s] 99%|█████████▉| 10947/11074 [1:33:17<01:02,  2.02it/s] 99%|█████████▉| 10948/11074 [1:33:18<01:02,  2.02it/s] 99%|█████████▉| 10949/11074 [1:33:18<01:01,  2.02it/s] 99%|█████████▉| 10950/11074 [1:33:19<01:01,  2.02it/s]                                                       {'loss': 3.1238, 'grad_norm': 0.24086894094944, 'learning_rate': 3.819320119459735e-07, 'epoch': 13.83}
- 99%|█████████▉| 10950/11074 [1:33:19<01:01,  2.02it/s] 99%|█████████▉| 10951/11074 [1:33:19<01:00,  2.02it/s] 99%|█████████▉| 10952/11074 [1:33:20<01:00,  2.02it/s] 99%|█████████▉| 10953/11074 [1:33:20<00:59,  2.02it/s] 99%|█████████▉| 10954/11074 [1:33:21<00:59,  2.02it/s] 99%|█████████▉| 10955/11074 [1:33:21<00:58,  2.02it/s] 99%|█████████▉| 10956/11074 [1:33:22<00:58,  2.02it/s] 99%|█████████▉| 10957/11074 [1:33:22<00:57,  2.03it/s] 99%|█████████▉| 10958/11074 [1:33:23<00:57,  2.02it/s] 99%|█████████▉| 10959/11074 [1:33:23<00:56,  2.02it/s] 99%|█████████▉| 10960/11074 [1:33:24<00:56,  2.02it/s] 99%|█████████▉| 10961/11074 [1:33:24<00:55,  2.02it/s] 99%|█████████▉| 10962/11074 [1:33:25<00:55,  2.02it/s] 99%|█��███████▉| 10963/11074 [1:33:25<00:54,  2.02it/s] 99%|█████████▉| 10964/11074 [1:33:26<00:54,  2.02it/s] 99%|█████████▉| 10965/11074 [1:33:26<00:53,  2.02it/s] 99%|█████████▉| 10966/11074 [1:33:27<00:53,  2.02it/s] 99%|█████████▉| 10967/11074 [1:33:27<00:52,  2.03it/s] 99%|█████████▉| 10968/11074 [1:33:28<00:52,  2.02it/s] 99%|█████████▉| 10969/11074 [1:33:28<00:51,  2.03it/s] 99%|█████████▉| 10970/11074 [1:33:29<00:51,  2.02it/s] 99%|█████████▉| 10971/11074 [1:33:29<00:50,  2.03it/s] 99%|█████████▉| 10972/11074 [1:33:30<00:50,  2.03it/s] 99%|█████████▉| 10973/11074 [1:33:30<00:49,  2.02it/s] 99%|█████████▉| 10974/11074 [1:33:31<00:49,  2.03it/s] 99%|█████████▉| 10975/11074 [1:33:31<00:48,  2.02it/s]                                                       {'loss': 3.1229, 'grad_norm': 0.23922082781791687, 'learning_rate': 2.4346308990175204e-07, 'epoch': 13.87}
- 99%|█████████▉| 10975/11074 [1:33:31<00:48,  2.02it/s] 99%|█████████▉| 10976/11074 [1:33:32<00:48,  2.02it/s] 99%|█████████▉| 10977/11074 [1:33:32<00:47,  2.02it/s] 99%|█████████▉| 10978/11074 [1:33:33<00:47,  2.02it/s] 99%|█████████▉| 10979/11074 [1:33:33<00:46,  2.02it/s] 99%|█████████▉| 10980/11074 [1:33:34<00:46,  2.02it/s] 99%|█████████▉| 10981/11074 [1:33:34<00:46,  2.02it/s] 99%|█████████▉| 10982/11074 [1:33:35<00:45,  2.02it/s] 99%|█████████▉| 10983/11074 [1:33:35<00:45,  2.02it/s] 99%|█████████▉| 10984/11074 [1:33:35<00:44,  2.02it/s] 99%|█████████▉| 10985/11074 [1:33:36<00:44,  2.02it/s] 99%|█████████▉| 10986/11074 [1:33:36<00:43,  2.02it/s] 99%|█████████▉| 10987/11074 [1:33:37<00:43,  2.02it/s] 99%|█████████▉| 10988/11074 [1:33:37<00:42,  2.02it/s] 99%|█████████▉| 10989/11074 [1:33:38<00:42,  2.02it/s] 99%|█████████▉| 10990/11074 [1:33:38<00:41,  2.02it/s] 99%|█████████▉| 10991/11074 [1:33:39<00:41,  2.02it/s] 99%|█████████▉| 10992/11074 [1:33:39<00:40,  2.02it/s] 99%|█████████▉| 10993/11074 [1:33:40<00:40,  2.02it/s] 99%|█████████▉| 10994/11074 [1:33:40<00:39,  2.02it/s] 99%|█████████▉| 10995/11074 [1:33:41<00:39,  2.02it/s] 99%|█████████▉| 10996/11074 [1:33:41<00:38,  2.02it/s] 99%|█████████▉| 10997/11074 [1:33:42<00:38,  2.02it/s] 99%|█████████▉| 10998/11074 [1:33:42<00:37,  2.02it/s] 99%|█████████▉| 10999/11074 [1:33:43<00:37,  2.02it/s] 99%|█████████▉| 11000/11074 [1:33:43<00:36,  2.02it/s]                                                       {'loss': 3.1286, 'grad_norm': 0.24025793373584747, 'learning_rate': 1.3603220387981008e-07, 'epoch': 13.9}
- 99%|█████████▉| 11000/11074 [1:33:43<00:36,  2.02it/s] 99%|█████████▉| 11001/11074 [1:33:44<00:36,  2.02it/s] 99%|█████████▉| 11002/11074 [1:33:44<00:35,  2.02it/s] 99%|█████████▉| 11003/11074 [1:33:45<00:35,  2.02it/s] 99%|█████████▉| 11004/11074 [1:33:45<00:34,  2.02it/s] 99%|█████████▉| 11005/11074 [1:33:46<00:34,  2.02it/s] 99%|█████████▉| 11006/11074 [1:33:46<00:33,  2.02it/s] 99%|█████████▉| 11007/11074 [1:33:47<00:33,  2.02it/s] 99%|█████████▉| 11008/11074 [1:33:47<00:32,  2.03it/s] 99%|█████████▉| 11009/11074 [1:33:48<00:32,  2.02it/s] 99%|█████████▉| 11010/11074 [1:33:48<00:31,  2.03it/s] 99%|█████████▉| 11011/11074 [1:33:49<00:31,  2.02it/s] 99%|█████████▉| 11012/11074 [1:33:49<00:30,  2.03it/s] 99%|█████████▉| 11013/11074 [1:33:50<00:30,  2.02it/s] 99%|█████████▉| 11014/11074 [1:33:50<00:29,  2.03it/s] 99%|█████████▉| 11015/11074 [1:33:51<00:29,  2.02it/s] 99%|█████████▉| 11016/11074 [1:33:51<00:28,  2.02it/s] 99%|█████████▉| 11017/11074 [1:33:52<00:28,  2.02it/s] 99%|█████████▉| 11018/11074 [1:33:52<00:27,  2.02it/s]100%|█████████▉| 11019/11074 [1:33:53<00:27,  2.03it/s]100%|█████████▉| 11020/11074 [1:33:53<00:26,  2.03it/s]100%|█████████▉| 11021/11074 [1:33:54<00:26,  2.03it/s]100%|█████████▉| 11022/11074 [1:33:54<00:25,  2.02it/s]100%|█████████▉| 11023/11074 [1:33:55<00:25,  2.03it/s]100%|█████████▉| 11024/11074 [1:33:55<00:24,  2.03it/s]100%|█████████▉| 11025/11074 [1:33:56<00:24,  2.03it/s]                                                       {'loss': 3.1304, 'grad_norm': 0.2407616823911667, 'learning_rate': 5.964602601643554e-08, 'epoch': 13.93}
-100%|█████████▉| 11025/11074 [1:33:56<00:24,  2.03it/s]100%|█████████▉| 11026/11074 [1:33:56<00:23,  2.02it/s]100%|█████████▉| 11027/11074 [1:33:57<00:23,  2.02it/s]100%|█████████▉| 11028/11074 [1:33:57<00:22,  2.02it/s]100%|█████████▉| 11029/11074 [1:33:58<00:22,  2.02it/s]100%|█████████▉| 11030/11074 [1:33:58<00:21,  2.02it/s]100%|█████████▉| 11031/11074 [1:33:59<00:21,  2.02it/s]100%|█████████▉| 11032/11074 [1:33:59<00:20,  2.02it/s]100%|█████████▉| 11033/11074 [1:34:00<00:20,  2.02it/s]100%|█████████▉| 11034/11074 [1:34:00<00:19,  2.02it/s]100%|█████████▉| 11035/11074 [1:34:01<00:19,  2.02it/s]100%|█████████▉| 11036/11074 [1:34:01<00:18,  2.02it/s]100%|█████████▉| 11037/11074 [1:34:02<00:18,  2.02it/s]100%|█████████▉| 11038/11074 [1:34:02<00:17,  2.02it/s]100%|█████████▉| 11039/11074 [1:34:03<00:17,  2.02it/s]100%|█████████▉| 11040/11074 [1:34:03<00:16,  2.02it/s]100%|█████████▉| 11041/11074 [1:34:04<00:16,  2.02it/s]100%|█████████▉| 11042/11074 [1:34:04<00:15,  2.02it/s]100%|█████████▉| 11043/11074 [1:34:05<00:15,  2.02it/s]100%|█████████▉| 11044/11074 [1:34:05<00:14,  2.02it/s]100%|█████████▉| 11045/11074 [1:34:06<00:14,  2.02it/s]100%|█████████▉| 11046/11074 [1:34:06<00:13,  2.02it/s]100%|█████████▉| 11047/11074 [1:34:07<00:13,  2.03it/s]100%|█████████▉| 11048/11074 [1:34:07<00:12,  2.02it/s]100%|█████████▉| 11049/11074 [1:34:08<00:12,  2.02it/s]100%|█████████▉| 11050/11074 [1:34:08<00:11,  2.02it/s]{'loss': 3.1269, 'grad_norm': 0.23971088230609894, 'learning_rate': 1.4309300375381362e-08, 'epoch': 13.96}
-                                                       100%|█████████▉| 11050/11074 [1:34:08<00:11,  2.02it/s]100%|█████████▉| 11051/11074 [1:34:09<00:11,  2.02it/s]100%|█████████▉| 11052/11074 [1:34:09<00:10,  2.02it/s]100%|█████████▉| 11053/11074 [1:34:10<00:10,  2.02it/s]100%|█████████▉| 11054/11074 [1:34:10<00:09,  2.02it/s]100%|█████████▉| 11055/11074 [1:34:11<00:09,  2.02it/s]100%|█████████▉| 11056/11074 [1:34:11<00:08,  2.02it/s]100%|█████████▉| 11057/11074 [1:34:12<00:08,  2.02it/s]100%|█████████▉| 11058/11074 [1:34:12<00:07,  2.02it/s]100%|█████████▉| 11059/11074 [1:34:13<00:07,  2.02it/s]100%|█████████▉| 11060/11074 [1:34:13<00:06,  2.02it/s]100%|█████████▉| 11061/11074 [1:34:14<00:06,  2.02it/s]100%|█████████▉| 11062/11074 [1:34:14<00:05,  2.02it/s]100%|█████████▉| 11063/11074 [1:34:15<00:05,  2.02it/s]100%|█████████▉| 11064/11074 [1:34:15<00:04,  2.02it/s]100%|█████████▉| 11065/11074 [1:34:16<00:04,  2.02it/s]100%|█████████▉| 11066/11074 [1:34:16<00:03,  2.03it/s]100%|█████████▉| 11067/11074 [1:34:17<00:03,  2.03it/s]100%|█████████▉| 11068/11074 [1:34:17<00:02,  2.03it/s]100%|█████████▉| 11069/11074 [1:34:18<00:02,  2.03it/s]100%|█████████▉| 11070/11074 [1:34:18<00:01,  2.03it/s]100%|█████████▉| 11071/11074 [1:34:18<00:01,  2.03it/s]100%|█████████▉| 11072/11074 [1:34:19<00:00,  2.03it/s]100%|█████████▉| 11073/11074 [1:34:19<00:00,  2.03it/s]100%|██████████| 11074/11074 [1:34:20<00:00,  2.03it/s]                                                       {'train_runtime': 5672.2282, 'train_samples_per_second': 2000.029, 'train_steps_per_second': 1.952, 'train_loss': 3.67646764955388, 'epoch': 13.99}
-100%|██████████| 11074/11074 [1:34:32<00:00,  2.03it/s]100%|██████████| 11074/11074 [1:34:32<00:00,  1.95it/s]
-Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
+[2024-05-25 04:55:06,922] torch.distributed.run: [WARNING] 
+[2024-05-25 04:55:06,922] torch.distributed.run: [WARNING] *****************************************
+[2024-05-25 04:55:06,922] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+[2024-05-25 04:55:06,922] torch.distributed.run: [WARNING] *****************************************
+05/25/2024 04:55:12 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_diff/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_diff/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=14.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+05/25/2024 04:55:17 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_diff/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained_big_diff/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=14.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+  0%|          | 0/11788 [00:00<?, ?it/s][rank1]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+[rank0]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+  0%|          | 1/11788 [00:05<18:49:07,  5.75s/it]  0%|          | 2/11788 [00:07<11:47:29,  3.60s/it]  0%|          | 3/11788 [00:09<8:39:23,  2.64s/it]   0%|          | 4/11788 [00:10<6:48:15,  2.08s/it]  0%|          | 5/11788 [00:11<5:34:19,  1.70s/it]  0%|          | 6/11788 [00:12<4:45:06,  1.45s/it]  0%|          | 7/11788 [00:13<4:09:48,  1.27s/it]  0%|          | 8/11788 [00:14<3:41:36,  1.13s/it]  0%|          | 9/11788 [00:15<3:19:46,  1.02s/it]  0%|          | 10/11788 [00:15<3:02:25,  1.08it/s]  0%|          | 11/11788 [00:16<2:47:48,  1.17it/s]  0%|          | 12/11788 [00:17<2:36:12,  1.26it/s]  0%|          | 13/11788 [00:17<2:26:16,  1.34it/s]  0%|          | 14/11788 [00:18<2:19:18,  1.41it/s]  0%|          | 15/11788 [00:19<2:13:46,  1.47it/s]  0%|          | 16/11788 [00:19<2:08:28,  1.53it/s]  0%|          | 17/11788 [00:20<2:03:53,  1.58it/s]  0%|          | 18/11788 [00:20<1:59:53,  1.64it/s]  0%|          | 19/11788 [00:21<1:56:58,  1.68it/s]  0%|          | 20/11788 [00:21<1:54:07,  1.72it/s]  0%|          | 21/11788 [00:22<1:51:35,  1.76it/s]  0%|          | 22/11788 [00:22<1:50:02,  1.78it/s]  0%|          | 23/11788 [00:23<1:48:10,  1.81it/s]  0%|          | 24/11788 [00:24<1:47:46,  1.82it/s]  0%|          | 25/11788 [00:24<1:46:51,  1.83it/s]{'loss': 10.6806, 'grad_norm': 1.3700144290924072, 'learning_rate': 2.1204410517387616e-05, 'epoch': 0.03}
+                                                      0%|          | 25/11788 [00:24<1:46:51,  1.83it/s]  0%|          | 26/11788 [00:25<1:45:46,  1.85it/s]  0%|          | 27/11788 [00:25<1:45:10,  1.86it/s]  0%|          | 28/11788 [00:26<1:43:34,  1.89it/s]  0%|          | 29/11788 [00:26<1:43:10,  1.90it/s]  0%|          | 30/11788 [00:27<1:42:20,  1.91it/s]  0%|          | 31/11788 [00:27<1:41:31,  1.93it/s]  0%|          | 32/11788 [00:28<1:41:29,  1.93it/s]  0%|          | 33/11788 [00:28<1:41:01,  1.94it/s]  0%|          | 34/11788 [00:29<1:40:26,  1.95it/s]  0%|          | 35/11788 [00:29<1:40:16,  1.95it/s]  0%|          | 36/11788 [00:30<1:39:46,  1.96it/s]  0%|          | 37/11788 [00:30<1:40:09,  1.96it/s]  0%|          | 38/11788 [00:31<1:39:47,  1.96it/s]  0%|          | 39/11788 [00:31<1:39:09,  1.97it/s]  0%|          | 40/11788 [00:32<1:39:11,  1.97it/s]  0%|          | 41/11788 [00:32<1:38:51,  1.98it/s]  0%|          | 42/11788 [00:33<1:38:23,  1.99it/s]  0%|          | 43/11788 [00:33<1:39:25,  1.97it/s]  0%|          | 44/11788 [00:34<1:39:01,  1.98it/s]  0%|          | 45/11788 [00:34<1:38:28,  1.99it/s]  0%|          | 46/11788 [00:35<1:38:13,  1.99it/s]  0%|          | 47/11788 [00:35<1:38:16,  1.99it/s]  0%|          | 48/11788 [00:36<1:37:59,  2.00it/s]  0%|          | 49/11788 [00:36<1:38:07,  1.99it/s]  0%|          | 50/11788 [00:37<1:38:03,  2.00it/s]{'loss': 9.9893, 'grad_norm': 1.2721635103225708, 'learning_rate': 4.240882103477523e-05, 'epoch': 0.06}
+                                                      0%|          | 50/11788 [00:37<1:38:03,  2.00it/s]  0%|          | 51/11788 [00:37<1:38:04,  1.99it/s]  0%|          | 52/11788 [00:38<1:38:29,  1.99it/s]  0%|          | 53/11788 [00:38<1:38:21,  1.99it/s]  0%|          | 54/11788 [00:39<1:38:25,  1.99it/s]  0%|          | 55/11788 [00:39<1:38:40,  1.98it/s]  0%|          | 56/11788 [00:40<1:38:25,  1.99it/s]  0%|          | 57/11788 [00:40<1:38:13,  1.99it/s]  0%|          | 58/11788 [00:41<1:37:50,  2.00it/s]  1%|          | 59/11788 [00:41<1:37:50,  2.00it/s]  1%|          | 60/11788 [00:42<1:37:37,  2.00it/s]  1%|          | 61/11788 [00:42<1:37:36,  2.00it/s]  1%|          | 62/11788 [00:43<1:37:30,  2.00it/s]  1%|          | 63/11788 [00:43<1:37:27,  2.01it/s]  1%|          | 64/11788 [00:44<1:37:09,  2.01it/s]  1%|          | 65/11788 [00:44<1:37:08,  2.01it/s]  1%|          | 66/11788 [00:45<1:37:05,  2.01it/s]  1%|          | 67/11788 [00:45<1:37:22,  2.01it/s]  1%|          | 68/11788 [00:46<1:37:16,  2.01it/s]  1%|          | 69/11788 [00:46<1:36:56,  2.01it/s]  1%|          | 70/11788 [00:47<1:37:04,  2.01it/s]  1%|          | 71/11788 [00:47<1:37:11,  2.01it/s]  1%|          | 72/11788 [00:48<1:36:56,  2.01it/s]  1%|          | 73/11788 [00:48<1:36:56,  2.01it/s]  1%|          | 74/11788 [00:49<1:36:53,  2.01it/s]  1%|          | 75/11788 [00:49<1:36:52,  2.02it/s]{'loss': 9.3183, 'grad_norm': 1.0619311332702637, 'learning_rate': 6.361323155216285e-05, 'epoch': 0.09}
+                                                      1%|          | 75/11788 [00:49<1:36:52,  2.02it/s]  1%|          | 76/11788 [00:50<1:37:04,  2.01it/s]  1%|          | 77/11788 [00:50<1:36:47,  2.02it/s]  1%|          | 78/11788 [00:51<1:36:52,  2.01it/s]  1%|          | 79/11788 [00:51<1:36:50,  2.02it/s]  1%|          | 80/11788 [00:52<1:36:44,  2.02it/s]  1%|          | 81/11788 [00:52<1:36:48,  2.02it/s]  1%|          | 82/11788 [00:53<1:36:42,  2.02it/s]  1%|          | 83/11788 [00:53<1:36:37,  2.02it/s]  1%|          | 84/11788 [00:54<1:36:31,  2.02it/s]  1%|          | 85/11788 [00:54<1:36:30,  2.02it/s]  1%|          | 86/11788 [00:55<1:36:29,  2.02it/s]  1%|          | 87/11788 [00:55<1:36:23,  2.02it/s]  1%|          | 88/11788 [00:56<1:36:17,  2.02it/s]  1%|          | 89/11788 [00:56<1:36:12,  2.03it/s]  1%|          | 90/11788 [00:57<1:36:13,  2.03it/s]  1%|          | 91/11788 [00:57<1:36:12,  2.03it/s]  1%|          | 92/11788 [00:58<1:36:16,  2.02it/s]  1%|          | 93/11788 [00:58<1:36:13,  2.03it/s]  1%|          | 94/11788 [00:59<1:36:11,  2.03it/s]  1%|          | 95/11788 [00:59<1:36:05,  2.03it/s]  1%|          | 96/11788 [01:00<1:36:11,  2.03it/s]  1%|          | 97/11788 [01:00<1:36:05,  2.03it/s]  1%|          | 98/11788 [01:01<1:36:08,  2.03it/s]  1%|          | 99/11788 [01:01<1:36:02,  2.03it/s]  1%|          | 100/11788 [01:02<1:36:07,  2.03it/s]{'loss': 8.5608, 'grad_norm': 0.8029088377952576, 'learning_rate': 8.481764206955047e-05, 'epoch': 0.12}
+                                                       1%|          | 100/11788 [01:02<1:36:07,  2.03it/s]  1%|          | 101/11788 [01:02<1:36:10,  2.03it/s]  1%|          | 102/11788 [01:03<1:36:05,  2.03it/s]  1%|          | 103/11788 [01:03<1:36:03,  2.03it/s]  1%|          | 104/11788 [01:04<1:36:02,  2.03it/s]  1%|          | 105/11788 [01:04<1:36:04,  2.03it/s]  1%|          | 106/11788 [01:05<1:35:56,  2.03it/s]  1%|          | 107/11788 [01:05<1:36:01,  2.03it/s]  1%|          | 108/11788 [01:06<1:36:00,  2.03it/s]  1%|          | 109/11788 [01:06<1:35:58,  2.03it/s]  1%|          | 110/11788 [01:07<1:35:57,  2.03it/s]  1%|          | 111/11788 [01:07<1:35:51,  2.03it/s]  1%|          | 112/11788 [01:07<1:36:00,  2.03it/s]  1%|          | 113/11788 [01:08<1:35:56,  2.03it/s]  1%|          | 114/11788 [01:08<1:35:57,  2.03it/s]  1%|          | 115/11788 [01:09<1:35:53,  2.03it/s]  1%|          | 116/11788 [01:09<1:35:55,  2.03it/s]  1%|          | 117/11788 [01:10<1:35:52,  2.03it/s]  1%|          | 118/11788 [01:10<1:35:54,  2.03it/s]  1%|          | 119/11788 [01:11<1:35:55,  2.03it/s]  1%|          | 120/11788 [01:11<1:35:54,  2.03it/s]  1%|          | 121/11788 [01:12<1:35:56,  2.03it/s]  1%|          | 122/11788 [01:12<1:35:55,  2.03it/s]  1%|          | 123/11788 [01:13<1:35:56,  2.03it/s]  1%|          | 124/11788 [01:13<1:35:50,  2.03it/s]  1%|          | 125/11788 [01:14<1:35:57,  2.03it/s]                                                     {'loss': 7.9105, 'grad_norm': 0.5431452393531799, 'learning_rate': 0.0001060220525869381, 'epoch': 0.15}
+  1%|          | 125/11788 [01:14<1:35:57,  2.03it/s]  1%|          | 126/11788 [01:14<1:35:58,  2.03it/s]  1%|          | 127/11788 [01:15<1:36:01,  2.02it/s]  1%|          | 128/11788 [01:15<1:35:53,  2.03it/s]  1%|          | 129/11788 [01:16<1:35:51,  2.03it/s]  1%|          | 130/11788 [01:16<1:35:52,  2.03it/s]  1%|          | 131/11788 [01:17<1:35:49,  2.03it/s]  1%|          | 132/11788 [01:17<1:35:51,  2.03it/s]  1%|          | 133/11788 [01:18<1:35:54,  2.03it/s]  1%|          | 134/11788 [01:18<1:35:48,  2.03it/s]  1%|          | 135/11788 [01:19<1:35:46,  2.03it/s]  1%|          | 136/11788 [01:19<1:35:47,  2.03it/s]  1%|          | 137/11788 [01:20<1:35:43,  2.03it/s]  1%|          | 138/11788 [01:20<1:35:40,  2.03it/s]  1%|          | 139/11788 [01:21<1:35:39,  2.03it/s]  1%|          | 140/11788 [01:21<1:35:37,  2.03it/s]  1%|          | 141/11788 [01:22<1:35:37,  2.03it/s]  1%|          | 142/11788 [01:22<1:35:39,  2.03it/s]  1%|          | 143/11788 [01:23<1:35:43,  2.03it/s]  1%|          | 144/11788 [01:23<1:35:44,  2.03it/s]  1%|          | 145/11788 [01:24<1:35:40,  2.03it/s]  1%|          | 146/11788 [01:24<1:35:43,  2.03it/s]  1%|          | 147/11788 [01:25<1:35:49,  2.02it/s]  1%|▏         | 148/11788 [01:25<1:35:46,  2.03it/s]  1%|▏         | 149/11788 [01:26<1:35:50,  2.02it/s]  1%|▏         | 150/11788 [01:26<1:35:48,  2.02it/s]{'loss': 7.4247, 'grad_norm': 0.4856749475002289, 'learning_rate': 0.0001272264631043257, 'epoch': 0.18}
+                                                       1%|▏         | 150/11788 [01:26<1:35:48,  2.02it/s]  1%|▏         | 151/11788 [01:27<1:35:48,  2.02it/s]  1%|▏         | 152/11788 [01:27<1:35:47,  2.02it/s]  1%|▏         | 153/11788 [01:28<1:35:41,  2.03it/s]  1%|▏         | 154/11788 [01:28<1:35:39,  2.03it/s]  1%|▏         | 155/11788 [01:29<1:35:40,  2.03it/s]  1%|▏         | 156/11788 [01:29<1:35:40,  2.03it/s]  1%|▏         | 157/11788 [01:30<1:35:40,  2.03it/s]  1%|▏         | 158/11788 [01:30<1:35:33,  2.03it/s]  1%|▏         | 159/11788 [01:31<1:35:34,  2.03it/s]  1%|▏         | 160/11788 [01:31<1:35:31,  2.03it/s]  1%|▏         | 161/11788 [01:32<1:35:27,  2.03it/s]  1%|▏         | 162/11788 [01:32<1:35:29,  2.03it/s]  1%|▏         | 163/11788 [01:33<1:35:26,  2.03it/s]  1%|▏         | 164/11788 [01:33<1:35:31,  2.03it/s]  1%|▏         | 165/11788 [01:34<1:35:32,  2.03it/s]  1%|▏         | 166/11788 [01:34<1:35:34,  2.03it/s]  1%|▏         | 167/11788 [01:35<1:35:34,  2.03it/s]  1%|▏         | 168/11788 [01:35<1:35:32,  2.03it/s]  1%|▏         | 169/11788 [01:36<1:35:33,  2.03it/s]  1%|▏         | 170/11788 [01:36<1:35:28,  2.03it/s]  1%|▏         | 171/11788 [01:37<1:35:28,  2.03it/s]  1%|▏         | 172/11788 [01:37<1:35:26,  2.03it/s]  1%|▏         | 173/11788 [01:38<1:35:26,  2.03it/s]  1%|▏         | 174/11788 [01:38<1:35:26,  2.03it/s]  1%|▏         | 175/11788 [01:39<1:35:21,  2.03it/s]{'loss': 7.0223, 'grad_norm': 0.5401294231414795, 'learning_rate': 0.00014843087362171331, 'epoch': 0.21}
+                                                       1%|▏         | 175/11788 [01:39<1:35:21,  2.03it/s]  1%|▏         | 176/11788 [01:39<1:35:33,  2.03it/s]  2%|▏         | 177/11788 [01:40<1:35:27,  2.03it/s]  2%|▏         | 178/11788 [01:40<1:35:31,  2.03it/s]  2%|▏         | 179/11788 [01:41<1:35:23,  2.03it/s]  2%|▏         | 180/11788 [01:41<1:35:27,  2.03it/s]  2%|▏         | 181/11788 [01:42<1:35:21,  2.03it/s]  2%|▏         | 182/11788 [01:42<1:35:14,  2.03it/s]  2%|▏         | 183/11788 [01:43<1:35:19,  2.03it/s]  2%|▏         | 184/11788 [01:43<1:35:22,  2.03it/s]  2%|▏         | 185/11788 [01:44<1:35:25,  2.03it/s]  2%|▏         | 186/11788 [01:44<1:35:18,  2.03it/s]  2%|▏         | 187/11788 [01:44<1:35:23,  2.03it/s]  2%|▏         | 188/11788 [01:45<1:35:23,  2.03it/s]  2%|▏         | 189/11788 [01:45<1:35:26,  2.03it/s]  2%|▏         | 190/11788 [01:46<1:35:28,  2.02it/s]  2%|▏         | 191/11788 [01:46<1:35:26,  2.02it/s]  2%|▏         | 192/11788 [01:47<1:35:31,  2.02it/s]  2%|▏         | 193/11788 [01:47<1:35:29,  2.02it/s]  2%|▏         | 194/11788 [01:48<1:35:29,  2.02it/s]  2%|▏         | 195/11788 [01:48<1:35:37,  2.02it/s]  2%|▏         | 196/11788 [01:49<1:35:31,  2.02it/s]  2%|▏         | 197/11788 [01:49<1:35:27,  2.02it/s]  2%|▏         | 198/11788 [01:50<1:35:24,  2.02it/s]  2%|▏         | 199/11788 [01:50<1:35:27,  2.02it/s]  2%|▏         | 200/11788 [01:51<1:35:18,  2.03it/s]{'loss': 6.6636, 'grad_norm': 0.38549456000328064, 'learning_rate': 0.00016963528413910093, 'epoch': 0.24}
+                                                       2%|▏         | 200/11788 [01:51<1:35:18,  2.03it/s]  2%|▏         | 201/11788 [01:51<1:35:27,  2.02it/s]  2%|▏         | 202/11788 [01:52<1:35:25,  2.02it/s]  2%|▏         | 203/11788 [01:52<1:35:21,  2.02it/s]  2%|▏         | 204/11788 [01:53<1:35:22,  2.02it/s]  2%|▏         | 205/11788 [01:53<1:35:15,  2.03it/s]  2%|▏         | 206/11788 [01:54<1:35:15,  2.03it/s]  2%|▏         | 207/11788 [01:54<1:35:15,  2.03it/s]  2%|▏         | 208/11788 [01:55<1:35:34,  2.02it/s]  2%|▏         | 209/11788 [01:55<1:35:37,  2.02it/s]  2%|▏         | 210/11788 [01:56<1:35:41,  2.02it/s]  2%|▏         | 211/11788 [01:56<1:35:37,  2.02it/s]  2%|▏         | 212/11788 [01:57<1:35:31,  2.02it/s]  2%|▏         | 213/11788 [01:57<1:35:25,  2.02it/s]  2%|▏         | 214/11788 [01:58<1:35:18,  2.02it/s]  2%|▏         | 215/11788 [01:58<1:35:17,  2.02it/s]  2%|▏         | 216/11788 [01:59<1:35:12,  2.03it/s]  2%|▏         | 217/11788 [01:59<1:35:05,  2.03it/s]  2%|▏         | 218/11788 [02:00<1:35:10,  2.03it/s]  2%|▏         | 219/11788 [02:00<1:35:04,  2.03it/s]  2%|▏         | 220/11788 [02:01<1:35:11,  2.03it/s]  2%|▏         | 221/11788 [02:01<1:35:02,  2.03it/s]  2%|▏         | 222/11788 [02:02<1:35:00,  2.03it/s]  2%|▏         | 223/11788 [02:02<1:34:59,  2.03it/s]  2%|▏         | 224/11788 [02:03<1:34:54,  2.03it/s]  2%|▏         | 225/11788 [02:03<1:35:02,  2.03it/s]{'loss': 6.3808, 'grad_norm': 0.6071425080299377, 'learning_rate': 0.00019083969465648857, 'epoch': 0.27}
+                                                       2%|▏         | 225/11788 [02:03<1:35:02,  2.03it/s]  2%|▏         | 226/11788 [02:04<1:35:06,  2.03it/s]  2%|▏         | 227/11788 [02:04<1:35:12,  2.02it/s]  2%|▏         | 228/11788 [02:05<1:35:04,  2.03it/s]  2%|▏         | 229/11788 [02:05<1:35:02,  2.03it/s]  2%|▏         | 230/11788 [02:06<1:34:57,  2.03it/s]  2%|▏         | 231/11788 [02:06<1:34:54,  2.03it/s]  2%|▏         | 232/11788 [02:07<1:35:00,  2.03it/s]  2%|▏         | 233/11788 [02:07<1:34:59,  2.03it/s]  2%|▏         | 234/11788 [02:08<1:35:03,  2.03it/s]  2%|▏         | 235/11788 [02:08<1:34:59,  2.03it/s]  2%|▏         | 236/11788 [02:09<1:35:01,  2.03it/s]  2%|▏         | 237/11788 [02:09<1:34:58,  2.03it/s]  2%|▏         | 238/11788 [02:10<1:34:56,  2.03it/s]  2%|▏         | 239/11788 [02:10<1:34:56,  2.03it/s]  2%|▏         | 240/11788 [02:11<1:34:49,  2.03it/s]  2%|▏         | 241/11788 [02:11<1:34:53,  2.03it/s]  2%|▏         | 242/11788 [02:12<1:34:51,  2.03it/s]  2%|▏         | 243/11788 [02:12<1:34:50,  2.03it/s]  2%|▏         | 244/11788 [02:13<1:34:50,  2.03it/s]  2%|▏         | 245/11788 [02:13<1:34:49,  2.03it/s]  2%|▏         | 246/11788 [02:14<1:34:51,  2.03it/s]  2%|▏         | 247/11788 [02:14<1:34:48,  2.03it/s]  2%|▏         | 248/11788 [02:15<1:34:48,  2.03it/s]  2%|▏         | 249/11788 [02:15<1:34:48,  2.03it/s]  2%|▏         | 250/11788 [02:16<1:34:49,  2.03it/s]{'loss': 6.1534, 'grad_norm': 0.6674228310585022, 'learning_rate': 0.0002120441051738762, 'epoch': 0.3}
+                                                       2%|▏         | 250/11788 [02:16<1:34:49,  2.03it/s]  2%|▏         | 251/11788 [02:16<1:34:59,  2.02it/s]  2%|▏         | 252/11788 [02:17<1:34:55,  2.03it/s]  2%|▏         | 253/11788 [02:17<1:34:49,  2.03it/s]  2%|▏         | 254/11788 [02:18<1:34:46,  2.03it/s]  2%|▏         | 255/11788 [02:18<1:34:49,  2.03it/s]  2%|▏         | 256/11788 [02:19<1:34:43,  2.03it/s]  2%|▏         | 257/11788 [02:19<1:34:49,  2.03it/s]  2%|▏         | 258/11788 [02:20<1:34:40,  2.03it/s]  2%|▏         | 259/11788 [02:20<1:34:46,  2.03it/s]  2%|▏         | 260/11788 [02:21<1:34:46,  2.03it/s]  2%|▏         | 261/11788 [02:21<1:34:45,  2.03it/s]  2%|▏         | 262/11788 [02:22<1:34:45,  2.03it/s]  2%|▏         | 263/11788 [02:22<1:34:45,  2.03it/s]  2%|▏         | 264/11788 [02:22<1:34:46,  2.03it/s]  2%|▏         | 265/11788 [02:23<1:34:42,  2.03it/s]  2%|▏         | 266/11788 [02:23<1:34:50,  2.02it/s]  2%|▏         | 267/11788 [02:24<1:34:43,  2.03it/s]  2%|▏         | 268/11788 [02:24<1:34:46,  2.03it/s]  2%|▏         | 269/11788 [02:25<1:34:44,  2.03it/s]  2%|▏         | 270/11788 [02:25<1:34:44,  2.03it/s]  2%|▏         | 271/11788 [02:26<1:34:41,  2.03it/s]  2%|▏         | 272/11788 [02:26<1:34:37,  2.03it/s]  2%|▏         | 273/11788 [02:27<1:34:36,  2.03it/s]  2%|▏         | 274/11788 [02:27<1:34:30,  2.03it/s]  2%|▏         | 275/11788 [02:28<1:34:34,  2.03it/s]{'loss': 5.957, 'grad_norm': 0.5068850517272949, 'learning_rate': 0.00023324851569126378, 'epoch': 0.33}
+                                                       2%|▏         | 275/11788 [02:28<1:34:34,  2.03it/s]  2%|▏         | 276/11788 [02:28<1:34:39,  2.03it/s]  2%|▏         | 277/11788 [02:29<1:34:40,  2.03it/s]  2%|▏         | 278/11788 [02:29<1:34:37,  2.03it/s]  2%|▏         | 279/11788 [02:30<1:34:36,  2.03it/s]  2%|▏         | 280/11788 [02:30<1:34:42,  2.03it/s]  2%|▏         | 281/11788 [02:31<1:34:36,  2.03it/s]  2%|▏         | 282/11788 [02:31<1:34:34,  2.03it/s]  2%|▏         | 283/11788 [02:32<1:34:31,  2.03it/s]  2%|▏         | 284/11788 [02:32<1:34:27,  2.03it/s]  2%|▏         | 285/11788 [02:33<1:34:32,  2.03it/s]  2%|▏         | 286/11788 [02:33<1:34:25,  2.03it/s]  2%|▏         | 287/11788 [02:34<1:34:24,  2.03it/s]  2%|▏         | 288/11788 [02:34<1:34:25,  2.03it/s]  2%|▏         | 289/11788 [02:35<1:34:21,  2.03it/s]  2%|▏         | 290/11788 [02:35<1:34:24,  2.03it/s]  2%|▏         | 291/11788 [02:36<1:34:29,  2.03it/s]  2%|▏         | 292/11788 [02:36<1:34:28,  2.03it/s]  2%|▏         | 293/11788 [02:37<1:34:30,  2.03it/s]  2%|▏         | 294/11788 [02:37<1:34:24,  2.03it/s]  3%|▎         | 295/11788 [02:38<1:34:20,  2.03it/s]  3%|▎         | 296/11788 [02:38<1:34:18,  2.03it/s]  3%|▎         | 297/11788 [02:39<1:34:16,  2.03it/s]  3%|▎         | 298/11788 [02:39<1:34:19,  2.03it/s]  3%|▎         | 299/11788 [02:40<1:34:23,  2.03it/s]  3%|▎         | 300/11788 [02:40<1:34:21,  2.03it/s]{'loss': 5.8146, 'grad_norm': 0.6466884613037109, 'learning_rate': 0.0002544529262086514, 'epoch': 0.36}                                                     
+  3%|▎         | 300/11788 [02:40<1:34:21,  2.03it/s]  3%|▎         | 301/11788 [02:41<1:34:34,  2.02it/s]  3%|▎         | 302/11788 [02:41<1:34:32,  2.02it/s]  3%|▎         | 303/11788 [02:42<1:34:30,  2.03it/s]  3%|▎         | 304/11788 [02:42<1:34:28,  2.03it/s]  3%|▎         | 305/11788 [02:43<1:34:23,  2.03it/s]  3%|▎         | 306/11788 [02:43<1:34:28,  2.03it/s]  3%|▎         | 307/11788 [02:44<1:34:19,  2.03it/s]  3%|▎         | 308/11788 [02:44<1:34:18,  2.03it/s]  3%|▎         | 309/11788 [02:45<1:34:18,  2.03it/s]  3%|▎         | 310/11788 [02:45<1:34:19,  2.03it/s]  3%|▎         | 311/11788 [02:46<1:34:19,  2.03it/s]  3%|▎         | 312/11788 [02:46<1:34:24,  2.03it/s]  3%|▎         | 313/11788 [02:47<1:34:21,  2.03it/s]  3%|▎         | 314/11788 [02:47<1:34:16,  2.03it/s]  3%|▎         | 315/11788 [02:48<1:34:18,  2.03it/s]  3%|▎         | 316/11788 [02:48<1:34:17,  2.03it/s]  3%|▎         | 317/11788 [02:49<1:34:23,  2.03it/s]  3%|▎         | 318/11788 [02:49<1:34:21,  2.03it/s]  3%|▎         | 319/11788 [02:50<1:34:20,  2.03it/s]  3%|▎         | 320/11788 [02:50<1:34:23,  2.02it/s]  3%|▎         | 321/11788 [02:51<1:34:22,  2.02it/s]  3%|▎         | 322/11788 [02:51<1:34:21,  2.03it/s]  3%|▎         | 323/11788 [02:52<1:34:18,  2.03it/s]  3%|▎         | 324/11788 [02:52<1:34:15,  2.03it/s]  3%|▎         | 325/11788 [02:53<1:34:14,  2.03it/s]{'loss': 5.6587, 'grad_norm': 0.8380582332611084, 'learning_rate': 0.00027565733672603904, 'epoch': 0.39}                                                     
+  3%|▎         | 325/11788 [02:53<1:34:14,  2.03it/s]  3%|▎         | 326/11788 [02:53<1:34:21,  2.02it/s]  3%|▎         | 327/11788 [02:54<1:34:20,  2.02it/s]  3%|▎         | 328/11788 [02:54<1:34:15,  2.03it/s]  3%|▎         | 329/11788 [02:55<1:34:09,  2.03it/s]  3%|▎         | 330/11788 [02:55<1:34:14,  2.03it/s]  3%|▎         | 331/11788 [02:56<1:34:11,  2.03it/s]  3%|▎         | 332/11788 [02:56<1:34:14,  2.03it/s]  3%|▎         | 333/11788 [02:57<1:34:14,  2.03it/s]  3%|▎         | 334/11788 [02:57<1:34:24,  2.02it/s]  3%|▎         | 335/11788 [02:58<1:34:20,  2.02it/s]  3%|▎         | 336/11788 [02:58<1:34:22,  2.02it/s]  3%|▎         | 337/11788 [02:59<1:34:20,  2.02it/s]  3%|▎         | 338/11788 [02:59<1:34:17,  2.02it/s]  3%|▎         | 339/11788 [02:59<1:34:12,  2.03it/s]  3%|▎         | 340/11788 [03:00<1:34:07,  2.03it/s]  3%|▎         | 341/11788 [03:00<1:34:05,  2.03it/s]  3%|▎         | 342/11788 [03:01<1:34:05,  2.03it/s]  3%|▎         | 343/11788 [03:01<1:34:09,  2.03it/s]  3%|▎         | 344/11788 [03:02<1:34:06,  2.03it/s]  3%|▎         | 345/11788 [03:02<1:34:08,  2.03it/s]  3%|▎         | 346/11788 [03:03<1:34:03,  2.03it/s]  3%|▎         | 347/11788 [03:03<1:34:04,  2.03it/s]  3%|▎         | 348/11788 [03:04<1:33:57,  2.03it/s]  3%|▎         | 349/11788 [03:04<1:33:57,  2.03it/s]  3%|▎         | 350/11788 [03:05<1:33:56,  2.03it/s]{'loss': 5.5439, 'grad_norm': 0.7836480736732483, 'learning_rate': 0.00029686174724342663, 'epoch': 0.42}                                                     
+  3%|▎         | 350/11788 [03:05<1:33:56,  2.03it/s]  3%|▎         | 351/11788 [03:05<1:34:08,  2.02it/s]  3%|▎         | 352/11788 [03:06<1:34:03,  2.03it/s]  3%|▎         | 353/11788 [03:06<1:33:57,  2.03it/s]  3%|▎         | 354/11788 [03:07<1:33:58,  2.03it/s]  3%|▎         | 355/11788 [03:07<1:33:55,  2.03it/s]  3%|▎         | 356/11788 [03:08<1:33:56,  2.03it/s]  3%|▎         | 357/11788 [03:08<1:33:55,  2.03it/s]  3%|▎         | 358/11788 [03:09<1:33:53,  2.03it/s]  3%|▎         | 359/11788 [03:09<1:33:54,  2.03it/s]  3%|��         | 360/11788 [03:10<1:33:50,  2.03it/s]  3%|▎         | 361/11788 [03:10<1:33:50,  2.03it/s]  3%|▎         | 362/11788 [03:11<1:33:49,  2.03it/s]  3%|▎         | 363/11788 [03:11<1:33:52,  2.03it/s]  3%|▎         | 364/11788 [03:12<1:33:54,  2.03it/s]  3%|▎         | 365/11788 [03:12<1:33:48,  2.03it/s]  3%|▎         | 366/11788 [03:13<1:33:54,  2.03it/s]  3%|▎         | 367/11788 [03:13<1:33:49,  2.03it/s]  3%|▎         | 368/11788 [03:14<1:33:49,  2.03it/s]  3%|▎         | 369/11788 [03:14<1:33:51,  2.03it/s]  3%|▎         | 370/11788 [03:15<1:33:51,  2.03it/s]  3%|▎         | 371/11788 [03:15<1:33:53,  2.03it/s]  3%|▎         | 372/11788 [03:16<1:33:48,  2.03it/s]  3%|▎         | 373/11788 [03:16<1:33:51,  2.03it/s]  3%|▎         | 374/11788 [03:17<1:33:49,  2.03it/s]  3%|▎         | 375/11788 [03:17<1:33:50,  2.03it/s]{'loss': 5.4288, 'grad_norm': 0.8087937235832214, 'learning_rate': 0.0003180661577608143, 'epoch': 0.45}
+                                                       3%|▎         | 375/11788 [03:17<1:33:50,  2.03it/s]  3%|▎         | 376/11788 [03:18<1:33:52,  2.03it/s]  3%|▎         | 377/11788 [03:18<1:33:55,  2.02it/s]  3%|▎         | 378/11788 [03:19<1:33:50,  2.03it/s]  3%|▎         | 379/11788 [03:19<1:33:52,  2.03it/s]  3%|▎         | 380/11788 [03:20<1:33:51,  2.03it/s]  3%|▎         | 381/11788 [03:20<1:33:47,  2.03it/s]  3%|▎         | 382/11788 [03:21<1:33:49,  2.03it/s]  3%|▎         | 383/11788 [03:21<1:33:41,  2.03it/s]  3%|▎         | 384/11788 [03:22<1:33:39,  2.03it/s]  3%|▎         | 385/11788 [03:22<1:33:41,  2.03it/s]  3%|▎         | 386/11788 [03:23<1:33:45,  2.03it/s]  3%|▎         | 387/11788 [03:23<1:33:44,  2.03it/s]  3%|▎         | 388/11788 [03:24<1:33:38,  2.03it/s]  3%|▎         | 389/11788 [03:24<1:33:37,  2.03it/s]  3%|▎         | 390/11788 [03:25<1:33:36,  2.03it/s]  3%|▎         | 391/11788 [03:25<1:33:37,  2.03it/s]  3%|▎         | 392/11788 [03:26<1:33:36,  2.03it/s]  3%|▎         | 393/11788 [03:26<1:33:28,  2.03it/s]  3%|▎         | 394/11788 [03:27<1:33:35,  2.03it/s]  3%|▎         | 395/11788 [03:27<1:33:32,  2.03it/s]  3%|▎         | 396/11788 [03:28<1:33:34,  2.03it/s]  3%|▎         | 397/11788 [03:28<1:33:31,  2.03it/s]  3%|▎         | 398/11788 [03:29<1:33:33,  2.03it/s]  3%|▎         | 399/11788 [03:29<1:33:37,  2.03it/s]  3%|▎         | 400/11788 [03:30<1:33:31,  2.03it/s]{'loss': 5.3226, 'grad_norm': 0.8001272082328796, 'learning_rate': 0.00033927056827820186, 'epoch': 0.48}                                                     
+  3%|▎         | 400/11788 [03:30<1:33:31,  2.03it/s]  3%|▎         | 401/11788 [03:30<1:33:42,  2.03it/s]  3%|▎         | 402/11788 [03:31<1:33:35,  2.03it/s]  3%|▎         | 403/11788 [03:31<1:33:37,  2.03it/s]  3%|▎         | 404/11788 [03:32<1:33:34,  2.03it/s]  3%|▎         | 405/11788 [03:32<1:33:41,  2.02it/s]  3%|▎         | 406/11788 [03:33<1:33:35,  2.03it/s]  3%|▎         | 407/11788 [03:33<1:33:34,  2.03it/s]  3%|▎         | 408/11788 [03:34<1:33:34,  2.03it/s]  3%|▎         | 409/11788 [03:34<1:33:34,  2.03it/s]  3%|▎         | 410/11788 [03:35<1:33:35,  2.03it/s]  3%|▎         | 411/11788 [03:35<1:33:28,  2.03it/s]  3%|▎         | 412/11788 [03:35<1:33:32,  2.03it/s]  4%|▎         | 413/11788 [03:36<1:33:29,  2.03it/s]  4%|▎         | 414/11788 [03:36<1:33:28,  2.03it/s]  4%|▎         | 415/11788 [03:37<1:33:25,  2.03it/s]  4%|▎         | 416/11788 [03:37<1:33:24,  2.03it/s]  4%|▎         | 417/11788 [03:38<1:33:24,  2.03it/s]  4%|▎         | 418/11788 [03:38<1:33:23,  2.03it/s]  4%|▎         | 419/11788 [03:39<1:33:33,  2.03it/s]  4%|▎         | 420/11788 [03:39<1:33:31,  2.03it/s]  4%|▎         | 421/11788 [03:40<1:33:29,  2.03it/s]  4%|▎         | 422/11788 [03:40<1:33:27,  2.03it/s]  4%|▎         | 423/11788 [03:41<1:33:22,  2.03it/s]  4%|▎         | 424/11788 [03:41<1:33:23,  2.03it/s]  4%|▎         | 425/11788 [03:42<1:33:21,  2.03it/s]                                                     {'loss': 5.2315, 'grad_norm': 0.8854663968086243, 'learning_rate': 0.0003604749787955895, 'epoch': 0.5}
+  4%|▎         | 425/11788 [03:42<1:33:21,  2.03it/s]  4%|▎         | 426/11788 [03:42<1:33:34,  2.02it/s]  4%|▎         | 427/11788 [03:43<1:33:27,  2.03it/s]  4%|▎         | 428/11788 [03:43<1:33:21,  2.03it/s]  4%|▎         | 429/11788 [03:44<1:33:24,  2.03it/s]  4%|▎         | 430/11788 [03:44<1:33:27,  2.03it/s]  4%|▎         | 431/11788 [03:45<1:33:26,  2.03it/s]  4%|▎         | 432/11788 [03:45<1:33:23,  2.03it/s]  4%|▎         | 433/11788 [03:46<1:33:17,  2.03it/s]  4%|▎         | 434/11788 [03:46<1:33:20,  2.03it/s]  4%|▎         | 435/11788 [03:47<1:33:15,  2.03it/s]  4%|▎         | 436/11788 [03:47<1:33:16,  2.03it/s]  4%|▎         | 437/11788 [03:48<1:33:14,  2.03it/s]  4%|▎         | 438/11788 [03:48<1:33:05,  2.03it/s]  4%|▎         | 439/11788 [03:49<1:33:14,  2.03it/s]  4%|▎         | 440/11788 [03:49<1:33:13,  2.03it/s]  4%|▎         | 441/11788 [03:50<1:33:15,  2.03it/s]  4%|▎         | 442/11788 [03:50<1:33:16,  2.03it/s]  4%|▍         | 443/11788 [03:51<1:33:11,  2.03it/s]  4%|▍         | 444/11788 [03:51<1:33:16,  2.03it/s]  4%|▍         | 445/11788 [03:52<1:33:08,  2.03it/s]  4%|▍         | 446/11788 [03:52<1:33:05,  2.03it/s]  4%|▍         | 447/11788 [03:53<1:33:02,  2.03it/s]  4%|▍         | 448/11788 [03:53<1:33:01,  2.03it/s]  4%|▍         | 449/11788 [03:54<1:33:03,  2.03it/s]  4%|▍         | 450/11788 [03:54<1:33:04,  2.03it/s]                                                     {'loss': 5.1333, 'grad_norm': 0.8772043585777283, 'learning_rate': 0.00038167938931297715, 'epoch': 0.53}
+  4%|▍         | 450/11788 [03:54<1:33:04,  2.03it/s]  4%|▍         | 451/11788 [03:55<1:33:09,  2.03it/s]  4%|▍         | 452/11788 [03:55<1:33:07,  2.03it/s]  4%|▍         | 453/11788 [03:56<1:33:00,  2.03it/s]  4%|▍         | 454/11788 [03:56<1:33:02,  2.03it/s]  4%|▍         | 455/11788 [03:57<1:32:57,  2.03it/s]  4%|▍         | 456/11788 [03:57<1:33:01,  2.03it/s]  4%|▍         | 457/11788 [03:58<1:33:02,  2.03it/s]  4%|▍         | 458/11788 [03:58<1:33:00,  2.03it/s]  4%|▍         | 459/11788 [03:59<1:33:06,  2.03it/s]  4%|▍         | 460/11788 [03:59<1:33:01,  2.03it/s]  4%|▍         | 461/11788 [04:00<1:33:01,  2.03it/s]  4%|▍         | 462/11788 [04:00<1:33:01,  2.03it/s]  4%|▍         | 463/11788 [04:01<1:32:59,  2.03it/s]  4%|▍         | 464/11788 [04:01<1:33:03,  2.03it/s]  4%|▍         | 465/11788 [04:02<1:33:02,  2.03it/s]  4%|▍         | 466/11788 [04:02<1:33:04,  2.03it/s]  4%|▍         | 467/11788 [04:03<1:33:04,  2.03it/s]  4%|▍         | 468/11788 [04:03<1:33:05,  2.03it/s]  4%|▍         | 469/11788 [04:04<1:32:59,  2.03it/s]  4%|▍         | 470/11788 [04:04<1:33:01,  2.03it/s]  4%|▍         | 471/11788 [04:05<1:32:58,  2.03it/s]  4%|▍         | 472/11788 [04:05<1:32:55,  2.03it/s]  4%|▍         | 473/11788 [04:06<1:33:01,  2.03it/s]  4%|▍         | 474/11788 [04:06<1:32:54,  2.03it/s]  4%|▍         | 475/11788 [04:07<1:32:56,  2.03it/s]{'loss': 5.0491, 'grad_norm': 0.8502684831619263, 'learning_rate': 0.00040288379983036474, 'epoch': 0.56}
+                                                       4%|▍         | 475/11788 [04:07<1:32:56,  2.03it/s]  4%|▍         | 476/11788 [04:07<1:32:57,  2.03it/s]  4%|▍         | 477/11788 [04:08<1:32:58,  2.03it/s]  4%|▍         | 478/11788 [04:08<1:32:56,  2.03it/s]  4%|▍         | 479/11788 [04:09<1:32:53,  2.03it/s]  4%|▍         | 480/11788 [04:09<1:33:00,  2.03it/s]  4%|▍         | 481/11788 [04:10<1:32:59,  2.03it/s]  4%|▍         | 482/11788 [04:10<1:33:06,  2.02it/s]  4%|▍         | 483/11788 [04:11<1:33:02,  2.03it/s]  4%|▍         | 484/11788 [04:11<1:33:03,  2.02it/s]  4%|▍         | 485/11788 [04:11<1:32:55,  2.03it/s]  4%|▍         | 486/11788 [04:12<1:33:00,  2.03it/s]  4%|▍         | 487/11788 [04:12<1:33:01,  2.02it/s]  4%|▍         | 488/11788 [04:13<1:33:03,  2.02it/s]  4%|▍         | 489/11788 [04:13<1:32:57,  2.03it/s]  4%|▍         | 490/11788 [04:14<1:32:59,  2.03it/s]  4%|▍         | 491/11788 [04:14<1:32:55,  2.03it/s]  4%|▍         | 492/11788 [04:15<1:32:51,  2.03it/s]  4%|▍         | 493/11788 [04:15<1:32:57,  2.03it/s]  4%|▍         | 494/11788 [04:16<1:32:57,  2.03it/s]  4%|▍         | 495/11788 [04:16<1:32:54,  2.03it/s]  4%|▍         | 496/11788 [04:17<1:32:52,  2.03it/s]  4%|▍         | 497/11788 [04:17<1:32:45,  2.03it/s]  4%|▍         | 498/11788 [04:18<1:32:48,  2.03it/s]  4%|▍         | 499/11788 [04:18<1:32:43,  2.03it/s]  4%|▍         | 500/11788 [04:19<1:32:42,  2.03it/s]                                                     {'loss': 4.9798, 'grad_norm': 0.6902145147323608, 'learning_rate': 0.0004240882103477524, 'epoch': 0.59}
+  4%|▍         | 500/11788 [04:19<1:32:42,  2.03it/s]  4%|▍         | 501/11788 [04:19<1:32:46,  2.03it/s]  4%|▍         | 502/11788 [04:20<1:32:44,  2.03it/s]  4%|▍         | 503/11788 [04:20<1:32:49,  2.03it/s]  4%|▍         | 504/11788 [04:21<1:32:43,  2.03it/s]  4%|▍         | 505/11788 [04:21<1:32:47,  2.03it/s]  4%|▍         | 506/11788 [04:22<1:32:43,  2.03it/s]  4%|▍         | 507/11788 [04:22<1:32:45,  2.03it/s]  4%|▍         | 508/11788 [04:23<1:32:42,  2.03it/s]  4%|▍         | 509/11788 [04:23<1:32:43,  2.03it/s]  4%|▍         | 510/11788 [04:24<1:32:43,  2.03it/s]  4%|▍         | 511/11788 [04:24<1:32:35,  2.03it/s]  4%|▍         | 512/11788 [04:25<1:32:40,  2.03it/s]  4%|▍         | 513/11788 [04:25<1:32:37,  2.03it/s]  4%|▍         | 514/11788 [04:26<1:32:43,  2.03it/s]  4%|▍         | 515/11788 [04:26<1:32:41,  2.03it/s]  4%|▍         | 516/11788 [04:27<1:32:41,  2.03it/s]  4%|▍         | 517/11788 [04:27<1:32:40,  2.03it/s]  4%|▍         | 518/11788 [04:28<1:32:33,  2.03it/s]  4%|▍         | 519/11788 [04:28<1:32:38,  2.03it/s]  4%|▍         | 520/11788 [04:29<1:32:30,  2.03it/s]  4%|▍         | 521/11788 [04:29<1:32:30,  2.03it/s]  4%|▍         | 522/11788 [04:30<1:32:30,  2.03it/s]  4%|▍         | 523/11788 [04:30<1:32:22,  2.03it/s]  4%|▍         | 524/11788 [04:31<1:32:24,  2.03it/s]  4%|▍         | 525/11788 [04:31<1:32:23,  2.03it/s]{'loss': 4.9114, 'grad_norm': 0.6238113045692444, 'learning_rate': 0.0004452926208651399, 'epoch': 0.62}                                                     
+  4%|▍         | 525/11788 [04:31<1:32:23,  2.03it/s]  4%|▍         | 526/11788 [04:32<1:32:33,  2.03it/s]  4%|▍         | 527/11788 [04:32<1:32:33,  2.03it/s]  4%|▍         | 528/11788 [04:33<1:32:26,  2.03it/s]  4%|▍         | 529/11788 [04:33<1:32:34,  2.03it/s]  4%|▍         | 530/11788 [04:34<1:32:26,  2.03it/s]  5%|▍         | 531/11788 [04:34<1:32:29,  2.03it/s]  5%|▍         | 532/11788 [04:35<1:32:27,  2.03it/s]  5%|▍         | 533/11788 [04:35<1:32:29,  2.03it/s]  5%|▍         | 534/11788 [04:36<1:32:29,  2.03it/s]  5%|▍         | 535/11788 [04:36<1:32:21,  2.03it/s]  5%|▍         | 536/11788 [04:37<1:32:28,  2.03it/s]  5%|▍         | 537/11788 [04:37<1:32:26,  2.03it/s]  5%|▍         | 538/11788 [04:38<1:32:29,  2.03it/s]  5%|▍         | 539/11788 [04:38<1:32:25,  2.03it/s]  5%|▍         | 540/11788 [04:39<1:32:21,  2.03it/s]  5%|▍         | 541/11788 [04:39<1:32:23,  2.03it/s]  5%|▍         | 542/11788 [04:40<1:32:18,  2.03it/s]  5%|▍         | 543/11788 [04:40<1:32:20,  2.03it/s]  5%|▍         | 544/11788 [04:41<1:32:18,  2.03it/s]  5%|▍         | 545/11788 [04:41<1:32:11,  2.03it/s]  5%|▍         | 546/11788 [04:42<1:32:22,  2.03it/s]  5%|▍         | 547/11788 [04:42<1:32:20,  2.03it/s]  5%|▍         | 548/11788 [04:43<1:32:25,  2.03it/s]  5%|▍         | 549/11788 [04:43<1:32:21,  2.03it/s]  5%|▍         | 550/11788 [04:44<1:32:24,  2.03it/s]{'loss': 4.8494, 'grad_norm': 0.5650936365127563, 'learning_rate': 0.00046649703138252756, 'epoch': 0.65}
+                                                       5%|▍         | 550/11788 [04:44<1:32:24,  2.03it/s]  5%|▍         | 551/11788 [04:44<1:32:26,  2.03it/s]  5%|▍         | 552/11788 [04:45<1:32:24,  2.03it/s]  5%|▍         | 553/11788 [04:45<1:32:21,  2.03it/s]  5%|▍         | 554/11788 [04:46<1:32:17,  2.03it/s]  5%|▍         | 555/11788 [04:46<1:32:22,  2.03it/s]  5%|▍         | 556/11788 [04:46<1:32:15,  2.03it/s]  5%|▍         | 557/11788 [04:47<1:32:14,  2.03it/s]  5%|▍         | 558/11788 [04:47<1:32:19,  2.03it/s]  5%|▍         | 559/11788 [04:48<1:32:15,  2.03it/s]  5%|▍         | 560/11788 [04:48<1:32:14,  2.03it/s]  5%|▍         | 561/11788 [04:49<1:32:16,  2.03it/s]  5%|▍         | 562/11788 [04:49<1:32:14,  2.03it/s]  5%|▍         | 563/11788 [04:50<1:32:19,  2.03it/s]  5%|▍         | 564/11788 [04:50<1:32:15,  2.03it/s]  5%|▍         | 565/11788 [04:51<1:32:18,  2.03it/s]  5%|▍         | 566/11788 [04:51<1:32:18,  2.03it/s]  5%|▍         | 567/11788 [04:52<1:32:12,  2.03it/s]  5%|▍         | 568/11788 [04:52<1:32:16,  2.03it/s]  5%|▍         | 569/11788 [04:53<1:32:15,  2.03it/s]  5%|▍         | 570/11788 [04:53<1:32:17,  2.03it/s]  5%|▍         | 571/11788 [04:54<1:32:21,  2.02it/s]  5%|▍         | 572/11788 [04:54<1:32:17,  2.03it/s]  5%|▍         | 573/11788 [04:55<1:32:13,  2.03it/s]  5%|▍         | 574/11788 [04:55<1:32:07,  2.03it/s]  5%|▍         | 575/11788 [04:56<1:32:04,  2.03it/s]                                                     {'loss': 4.784, 'grad_norm': 0.7106149792671204, 'learning_rate': 0.00048770144189991515, 'epoch': 0.68}
+  5%|▍         | 575/11788 [04:56<1:32:04,  2.03it/s]  5%|▍         | 576/11788 [04:56<1:32:11,  2.03it/s]  5%|▍         | 577/11788 [04:57<1:32:11,  2.03it/s]  5%|▍         | 578/11788 [04:57<1:32:11,  2.03it/s]  5%|▍         | 579/11788 [04:58<1:32:09,  2.03it/s]  5%|▍         | 580/11788 [04:58<1:32:07,  2.03it/s]  5%|▍         | 581/11788 [04:59<1:32:07,  2.03it/s]  5%|▍         | 582/11788 [04:59<1:32:05,  2.03it/s]  5%|▍         | 583/11788 [05:00<1:32:07,  2.03it/s]  5%|▍         | 584/11788 [05:00<1:32:07,  2.03it/s]  5%|▍         | 585/11788 [05:01<1:32:07,  2.03it/s]  5%|▍         | 586/11788 [05:01<1:32:07,  2.03it/s]  5%|▍         | 587/11788 [05:02<1:32:10,  2.03it/s]  5%|▍         | 588/11788 [05:02<1:32:07,  2.03it/s]  5%|▍         | 589/11788 [05:03<1:32:09,  2.03it/s]  5%|▌         | 590/11788 [05:03<1:32:12,  2.02it/s]  5%|▌         | 591/11788 [05:04<1:32:09,  2.02it/s]  5%|▌         | 592/11788 [05:04<1:32:08,  2.02it/s]  5%|▌         | 593/11788 [05:05<1:32:12,  2.02it/s]  5%|▌         | 594/11788 [05:05<1:32:12,  2.02it/s]  5%|▌         | 595/11788 [05:06<1:32:11,  2.02it/s]  5%|▌         | 596/11788 [05:06<1:32:14,  2.02it/s]  5%|▌         | 597/11788 [05:07<1:32:13,  2.02it/s]  5%|▌         | 598/11788 [05:07<1:32:07,  2.02it/s]  5%|▌         | 599/11788 [05:08<1:32:06,  2.02it/s]  5%|▌         | 600/11788 [05:08<1:31:58,  2.03it/s]{'loss': 4.7204, 'grad_norm': 0.5446744561195374, 'learning_rate': 0.0005089058524173028, 'epoch': 0.71}
+                                                       5%|▌         | 600/11788 [05:08<1:31:58,  2.03it/s]  5%|▌         | 601/11788 [05:09<1:32:12,  2.02it/s]  5%|▌         | 602/11788 [05:09<1:32:02,  2.03it/s]  5%|▌         | 603/11788 [05:10<1:32:00,  2.03it/s]  5%|▌         | 604/11788 [05:10<1:31:58,  2.03it/s]  5%|▌         | 605/11788 [05:11<1:31:55,  2.03it/s]  5%|▌         | 606/11788 [05:11<1:31:56,  2.03it/s]  5%|▌         | 607/11788 [05:12<1:31:56,  2.03it/s]  5%|▌         | 608/11788 [05:12<1:31:55,  2.03it/s]  5%|▌         | 609/11788 [05:13<1:31:54,  2.03it/s]  5%|▌         | 610/11788 [05:13<1:31:53,  2.03it/s]  5%|▌         | 611/11788 [05:14<1:31:51,  2.03it/s]  5%|▌         | 612/11788 [05:14<1:31:48,  2.03it/s]  5%|▌         | 613/11788 [05:15<1:31:48,  2.03it/s]  5%|▌         | 614/11788 [05:15<1:31:40,  2.03it/s]  5%|▌         | 615/11788 [05:16<1:39:29,  1.87it/s]  5%|▌         | 616/11788 [05:16<1:44:59,  1.77it/s]  5%|▌         | 617/11788 [05:17<1:41:01,  1.84it/s]  5%|▌         | 618/11788 [05:17<1:38:18,  1.89it/s]  5%|▌         | 619/11788 [05:18<1:36:17,  1.93it/s]  5%|▌         | 620/11788 [05:18<1:34:59,  1.96it/s]  5%|▌         | 621/11788 [05:19<1:34:02,  1.98it/s]  5%|▌         | 622/11788 [05:19<1:33:28,  1.99it/s]  5%|▌         | 623/11788 [05:20<1:32:53,  2.00it/s]  5%|▌         | 624/11788 [05:20<1:32:32,  2.01it/s]  5%|▌         | 625/11788 [05:21<1:32:19,  2.02it/s]{'loss': 4.6719, 'grad_norm': 0.6386901140213013, 'learning_rate': 0.0005301102629346905, 'epoch': 0.74}
+                                                       5%|▌         | 625/11788 [05:21<1:32:19,  2.02it/s]  5%|▌         | 626/11788 [05:21<1:32:13,  2.02it/s]  5%|▌         | 627/11788 [05:22<1:32:05,  2.02it/s]  5%|▌         | 628/11788 [05:22<1:31:56,  2.02it/s]  5%|▌         | 629/11788 [05:23<1:31:54,  2.02it/s]  5%|▌         | 630/11788 [05:23<1:31:44,  2.03it/s]  5%|▌         | 631/11788 [05:24<1:31:45,  2.03it/s]  5%|▌         | 632/11788 [05:24<1:31:46,  2.03it/s]  5%|▌         | 633/11788 [05:25<1:31:38,  2.03it/s]  5%|▌         | 634/11788 [05:25<1:31:44,  2.03it/s]  5%|▌         | 635/11788 [05:26<1:31:36,  2.03it/s]  5%|▌         | 636/11788 [05:26<1:31:41,  2.03it/s]  5%|▌         | 637/11788 [05:27<1:31:41,  2.03it/s]  5%|▌         | 638/11788 [05:27<1:31:41,  2.03it/s]  5%|▌         | 639/11788 [05:28<1:31:38,  2.03it/s]  5%|▌         | 640/11788 [05:28<1:31:37,  2.03it/s]  5%|▌         | 641/11788 [05:29<1:31:34,  2.03it/s]  5%|▌         | 642/11788 [05:29<1:31:34,  2.03it/s]  5%|▌         | 643/11788 [05:30<1:31:43,  2.02it/s]  5%|▌         | 644/11788 [05:30<1:31:39,  2.03it/s]  5%|▌         | 645/11788 [05:31<1:31:35,  2.03it/s]  5%|▌         | 646/11788 [05:31<1:31:37,  2.03it/s]  5%|▌         | 647/11788 [05:32<1:31:36,  2.03it/s]  5%|▌         | 648/11788 [05:32<1:31:37,  2.03it/s]  6%|▌         | 649/11788 [05:33<1:31:32,  2.03it/s]  6%|▌         | 650/11788 [05:33<1:31:34,  2.03it/s]{'loss': 4.6171, 'grad_norm': 0.6312897205352783, 'learning_rate': 0.0005513146734520781, 'epoch': 0.77}
+                                                       6%|▌         | 650/11788 [05:33<1:31:34,  2.03it/s]  6%|▌         | 651/11788 [05:34<1:31:33,  2.03it/s]  6%|▌         | 652/11788 [05:34<1:31:35,  2.03it/s]  6%|▌         | 653/11788 [05:35<1:31:32,  2.03it/s]  6%|▌         | 654/11788 [05:35<1:31:36,  2.03it/s]  6%|▌         | 655/11788 [05:36<1:31:29,  2.03it/s]  6%|▌         | 656/11788 [05:36<1:31:27,  2.03it/s]  6%|▌         | 657/11788 [05:37<1:31:28,  2.03it/s]  6%|▌         | 658/11788 [05:37<1:31:26,  2.03it/s]  6%|▌         | 659/11788 [05:38<1:31:29,  2.03it/s]  6%|▌         | 660/11788 [05:38<1:31:26,  2.03it/s]  6%|▌         | 661/11788 [05:39<1:31:29,  2.03it/s]  6%|▌         | 662/11788 [05:39<1:31:27,  2.03it/s]  6%|▌         | 663/11788 [05:40<1:31:33,  2.03it/s]  6%|▌         | 664/11788 [05:40<1:31:30,  2.03it/s]  6%|▌         | 665/11788 [05:41<1:31:29,  2.03it/s]  6%|▌         | 666/11788 [05:41<1:31:28,  2.03it/s]  6%|▌         | 667/11788 [05:42<1:31:22,  2.03it/s]  6%|▌         | 668/11788 [05:42<1:31:24,  2.03it/s]  6%|▌         | 669/11788 [05:43<1:31:23,  2.03it/s]  6%|▌         | 670/11788 [05:43<1:31:27,  2.03it/s]  6%|▌         | 671/11788 [05:44<1:31:20,  2.03it/s]  6%|▌         | 672/11788 [05:44<1:31:19,  2.03it/s]  6%|▌         | 673/11788 [05:44<1:31:21,  2.03it/s]  6%|▌         | 674/11788 [05:45<1:31:13,  2.03it/s]  6%|▌         | 675/11788 [05:45<1:31:20,  2.03it/s]{'loss': 4.5837, 'grad_norm': 0.7919646501541138, 'learning_rate': 0.0005725190839694656, 'epoch': 0.8}
+                                                       6%|▌         | 675/11788 [05:45<1:31:20,  2.03it/s]  6%|▌         | 676/11788 [05:46<1:31:25,  2.03it/s]  6%|▌         | 677/11788 [05:46<1:31:29,  2.02it/s]  6%|▌         | 678/11788 [05:47<1:31:24,  2.03it/s]  6%|▌         | 679/11788 [05:47<1:31:25,  2.03it/s]  6%|▌         | 680/11788 [05:48<1:31:22,  2.03it/s]  6%|▌         | 681/11788 [05:48<1:31:14,  2.03it/s]  6%|▌         | 682/11788 [05:49<1:31:16,  2.03it/s]  6%|▌         | 683/11788 [05:49<1:31:13,  2.03it/s]  6%|▌         | 684/11788 [05:50<1:31:16,  2.03it/s]  6%|▌         | 685/11788 [05:50<1:31:13,  2.03it/s]  6%|▌         | 686/11788 [05:51<1:31:11,  2.03it/s]  6%|▌         | 687/11788 [05:51<1:31:16,  2.03it/s]  6%|▌         | 688/11788 [05:52<1:31:11,  2.03it/s]  6%|▌         | 689/11788 [05:52<1:31:13,  2.03it/s]  6%|▌         | 690/11788 [05:53<1:31:10,  2.03it/s]  6%|▌         | 691/11788 [05:53<1:31:07,  2.03it/s]  6%|▌         | 692/11788 [05:54<1:31:10,  2.03it/s]  6%|▌         | 693/11788 [05:54<1:31:05,  2.03it/s]  6%|▌         | 694/11788 [05:55<1:31:08,  2.03it/s]  6%|▌         | 695/11788 [05:55<1:31:05,  2.03it/s]  6%|▌         | 696/11788 [05:56<1:31:08,  2.03it/s]  6%|▌         | 697/11788 [05:56<1:31:15,  2.03it/s]  6%|▌         | 698/11788 [05:57<1:31:08,  2.03it/s]  6%|▌         | 699/11788 [05:57<1:31:07,  2.03it/s]  6%|▌         | 700/11788 [05:58<1:31:05,  2.03it/s]{'loss': 4.5283, 'grad_norm': 0.6023926734924316, 'learning_rate': 0.0005937234944868533, 'epoch': 0.83}                                                     
+  6%|▌         | 700/11788 [05:58<1:31:05,  2.03it/s]  6%|▌         | 701/11788 [05:58<1:31:13,  2.03it/s]  6%|▌         | 702/11788 [05:59<1:31:13,  2.03it/s]  6%|▌         | 703/11788 [05:59<1:31:12,  2.03it/s]  6%|▌         | 704/11788 [06:00<1:31:10,  2.03it/s]  6%|▌         | 705/11788 [06:00<1:31:12,  2.03it/s]  6%|▌         | 706/11788 [06:01<1:31:08,  2.03it/s]  6%|▌         | 707/11788 [06:01<1:31:08,  2.03it/s]  6%|▌         | 708/11788 [06:02<1:31:11,  2.03it/s]  6%|▌         | 709/11788 [06:02<1:31:04,  2.03it/s]  6%|▌         | 710/11788 [06:03<1:31:12,  2.02it/s]  6%|▌         | 711/11788 [06:03<1:31:04,  2.03it/s]  6%|▌         | 712/11788 [06:04<1:31:06,  2.03it/s]  6%|▌         | 713/11788 [06:04<1:30:59,  2.03it/s]  6%|▌         | 714/11788 [06:05<1:31:02,  2.03it/s]  6%|▌         | 715/11788 [06:05<1:30:59,  2.03it/s]  6%|▌         | 716/11788 [06:06<1:30:53,  2.03it/s]  6%|▌         | 717/11788 [06:06<1:30:57,  2.03it/s]  6%|▌         | 718/11788 [06:07<1:31:01,  2.03it/s]  6%|▌         | 719/11788 [06:07<1:31:02,  2.03it/s]  6%|▌         | 720/11788 [06:08<1:30:54,  2.03it/s]  6%|▌         | 721/11788 [06:08<1:30:58,  2.03it/s]  6%|▌         | 722/11788 [06:09<1:30:58,  2.03it/s]  6%|▌         | 723/11788 [06:09<1:30:52,  2.03it/s]  6%|▌         | 724/11788 [06:10<1:30:56,  2.03it/s]  6%|▌         | 725/11788 [06:10<1:30:50,  2.03it/s]{'loss': 4.4724, 'grad_norm': 0.6503545641899109, 'learning_rate': 0.0006149279050042408, 'epoch': 0.86}                                                     
+  6%|▌         | 725/11788 [06:10<1:30:50,  2.03it/s]  6%|▌         | 726/11788 [06:11<1:31:03,  2.02it/s]  6%|▌         | 727/11788 [06:11<1:30:57,  2.03it/s]  6%|▌         | 728/11788 [06:12<1:30:59,  2.03it/s]  6%|▌         | 729/11788 [06:12<1:31:04,  2.02it/s]  6%|▌         | 730/11788 [06:13<1:31:03,  2.02it/s]  6%|▌         | 731/11788 [06:13<1:30:57,  2.03it/s]  6%|▌         | 732/11788 [06:14<1:30:57,  2.03it/s]  6%|▌         | 733/11788 [06:14<1:30:56,  2.03it/s]  6%|▌         | 734/11788 [06:15<1:30:54,  2.03it/s]  6%|▌         | 735/11788 [06:15<1:30:51,  2.03it/s]  6%|▌         | 736/11788 [06:16<1:30:47,  2.03it/s]  6%|▋         | 737/11788 [06:16<1:30:47,  2.03it/s]  6%|▋         | 738/11788 [06:17<1:30:49,  2.03it/s]  6%|▋         | 739/11788 [06:17<1:30:50,  2.03it/s]  6%|▋         | 740/11788 [06:18<1:30:47,  2.03it/s]  6%|▋         | 741/11788 [06:18<1:30:47,  2.03it/s]  6%|▋         | 742/11788 [06:19<1:30:43,  2.03it/s]  6%|▋         | 743/11788 [06:19<1:30:39,  2.03it/s]  6%|▋         | 744/11788 [06:20<1:30:49,  2.03it/s]  6%|▋         | 745/11788 [06:20<1:30:44,  2.03it/s]  6%|▋         | 746/11788 [06:21<1:30:48,  2.03it/s]  6%|▋         | 747/11788 [06:21<1:30:45,  2.03it/s]  6%|▋         | 748/11788 [06:21<1:30:46,  2.03it/s]  6%|▋         | 749/11788 [06:22<1:30:47,  2.03it/s]  6%|▋         | 750/11788 [06:22<1:30:49,  2.03it/s]{'loss': 4.4458, 'grad_norm': 0.5474122762680054, 'learning_rate': 0.0006361323155216285, 'epoch': 0.89}                                                     
+  6%|▋         | 750/11788 [06:22<1:30:49,  2.03it/s]  6%|▋         | 751/11788 [06:23<1:30:59,  2.02it/s]  6%|▋         | 752/11788 [06:23<1:30:55,  2.02it/s]  6%|▋         | 753/11788 [06:24<1:30:53,  2.02it/s]  6%|▋         | 754/11788 [06:24<1:30:45,  2.03it/s]  6%|▋         | 755/11788 [06:25<1:30:44,  2.03it/s]  6%|▋         | 756/11788 [06:25<1:30:43,  2.03it/s]  6%|▋         | 757/11788 [06:26<1:30:39,  2.03it/s]  6%|▋         | 758/11788 [06:26<1:30:40,  2.03it/s]  6%|▋         | 759/11788 [06:27<1:30:42,  2.03it/s]  6%|▋         | 760/11788 [06:27<1:30:41,  2.03it/s]  6%|▋         | 761/11788 [06:28<1:30:48,  2.02it/s]  6%|▋         | 762/11788 [06:28<1:30:48,  2.02it/s]  6%|▋         | 763/11788 [06:29<1:30:42,  2.03it/s]  6%|▋         | 764/11788 [06:29<1:30:43,  2.03it/s]  6%|▋         | 765/11788 [06:30<1:30:36,  2.03it/s]  6%|▋         | 766/11788 [06:30<1:30:38,  2.03it/s]  7%|▋         | 767/11788 [06:31<1:30:37,  2.03it/s]  7%|▋         | 768/11788 [06:31<1:30:38,  2.03it/s]  7%|▋         | 769/11788 [06:32<1:30:40,  2.03it/s]  7%|▋         | 770/11788 [06:32<1:30:35,  2.03it/s]  7%|▋         | 771/11788 [06:33<1:30:37,  2.03it/s]  7%|▋         | 772/11788 [06:33<1:30:34,  2.03it/s]  7%|▋         | 773/11788 [06:34<1:30:38,  2.03it/s]  7%|▋         | 774/11788 [06:34<1:30:34,  2.03it/s]  7%|▋         | 775/11788 [06:35<1:30:36,  2.03it/s]{'loss': 4.4025, 'grad_norm': 0.6143103241920471, 'learning_rate': 0.0006573367260390161, 'epoch': 0.92}
+                                                       7%|▋         | 775/11788 [06:35<1:30:36,  2.03it/s]  7%|▋         | 776/11788 [06:35<1:30:33,  2.03it/s]  7%|▋         | 777/11788 [06:36<1:30:31,  2.03it/s]  7%|▋         | 778/11788 [06:36<1:30:31,  2.03it/s]  7%|▋         | 779/11788 [06:37<1:30:26,  2.03it/s]  7%|▋         | 780/11788 [06:37<1:30:30,  2.03it/s]  7%|▋         | 781/11788 [06:38<1:30:23,  2.03it/s]  7%|▋         | 782/11788 [06:38<1:30:34,  2.03it/s]  7%|▋         | 783/11788 [06:39<1:30:32,  2.03it/s]  7%|▋         | 784/11788 [06:39<1:30:33,  2.03it/s]  7%|▋         | 785/11788 [06:40<1:30:29,  2.03it/s]  7%|▋         | 786/11788 [06:40<1:30:23,  2.03it/s]  7%|▋         | 787/11788 [06:41<1:30:29,  2.03it/s]  7%|▋         | 788/11788 [06:41<1:30:24,  2.03it/s]  7%|▋         | 789/11788 [06:42<1:30:25,  2.03it/s]  7%|▋         | 790/11788 [06:42<1:30:18,  2.03it/s]  7%|▋         | 791/11788 [06:43<1:30:17,  2.03it/s]  7%|▋         | 792/11788 [06:43<1:30:17,  2.03it/s]  7%|▋         | 793/11788 [06:44<1:30:17,  2.03it/s]  7%|▋         | 794/11788 [06:44<1:30:20,  2.03it/s]  7%|▋         | 795/11788 [06:45<1:30:15,  2.03it/s]  7%|▋         | 796/11788 [06:45<1:30:15,  2.03it/s]  7%|▋         | 797/11788 [06:46<1:30:14,  2.03it/s]  7%|▋         | 798/11788 [06:46<1:30:12,  2.03it/s]  7%|▋         | 799/11788 [06:47<1:30:17,  2.03it/s]  7%|▋         | 800/11788 [06:47<1:30:12,  2.03it/s]{'loss': 4.369, 'grad_norm': 0.45020633935928345, 'learning_rate': 0.0006785411365564037, 'epoch': 0.95}
+                                                       7%|▋         | 800/11788 [06:47<1:30:12,  2.03it/s]  7%|▋         | 801/11788 [06:48<1:30:19,  2.03it/s]  7%|▋         | 802/11788 [06:48<1:30:14,  2.03it/s]  7%|▋         | 803/11788 [06:49<1:30:17,  2.03it/s]  7%|▋         | 804/11788 [06:49<1:30:20,  2.03it/s]  7%|▋         | 805/11788 [06:50<1:30:15,  2.03it/s]  7%|▋         | 806/11788 [06:50<1:30:16,  2.03it/s]  7%|▋         | 807/11788 [06:51<1:30:11,  2.03it/s]  7%|▋         | 808/11788 [06:51<1:30:17,  2.03it/s]  7%|▋         | 809/11788 [06:52<1:30:09,  2.03it/s]  7%|▋         | 810/11788 [06:52<1:30:08,  2.03it/s]  7%|▋         | 811/11788 [06:53<1:30:09,  2.03it/s]  7%|▋         | 812/11788 [06:53<1:30:02,  2.03it/s]  7%|▋         | 813/11788 [06:54<1:30:03,  2.03it/s]  7%|▋         | 814/11788 [06:54<1:30:05,  2.03it/s]  7%|▋         | 815/11788 [06:55<1:30:05,  2.03it/s]  7%|▋         | 816/11788 [06:55<1:30:10,  2.03it/s]  7%|▋         | 817/11788 [06:56<1:30:10,  2.03it/s]  7%|▋         | 818/11788 [06:56<1:30:13,  2.03it/s]  7%|▋         | 819/11788 [06:57<1:30:05,  2.03it/s]  7%|▋         | 820/11788 [06:57<1:30:07,  2.03it/s]  7%|▋         | 821/11788 [06:57<1:30:02,  2.03it/s]  7%|▋         | 822/11788 [06:58<1:30:01,  2.03it/s]  7%|▋         | 823/11788 [06:58<1:30:04,  2.03it/s]  7%|▋         | 824/11788 [06:59<1:30:04,  2.03it/s]  7%|▋         | 825/11788 [06:59<1:30:06,  2.03it/s]{'loss': 4.3353, 'grad_norm': 0.46021631360054016, 'learning_rate': 0.0006997455470737913, 'epoch': 0.98}                                                     
+  7%|▋         | 825/11788 [06:59<1:30:06,  2.03it/s]  7%|▋         | 826/11788 [07:00<1:30:08,  2.03it/s]  7%|▋         | 827/11788 [07:00<1:30:12,  2.03it/s]  7%|▋         | 828/11788 [07:01<1:30:10,  2.03it/s]  7%|▋         | 829/11788 [07:01<1:30:03,  2.03it/s]  7%|▋         | 830/11788 [07:02<1:30:06,  2.03it/s]  7%|▋         | 831/11788 [07:02<1:29:59,  2.03it/s]  7%|▋         | 832/11788 [07:03<1:30:02,  2.03it/s]  7%|▋         | 833/11788 [07:03<1:30:01,  2.03it/s]  7%|▋         | 834/11788 [07:04<1:30:01,  2.03it/s]  7%|▋         | 835/11788 [07:04<1:30:02,  2.03it/s]  7%|▋         | 836/11788 [07:05<1:30:03,  2.03it/s]  7%|▋         | 837/11788 [07:05<1:30:09,  2.02it/s]  7%|▋         | 838/11788 [07:06<1:30:07,  2.02it/s]  7%|▋         | 839/11788 [07:06<1:30:14,  2.02it/s]  7%|▋         | 840/11788 [07:07<1:30:13,  2.02it/s]  7%|▋         | 841/11788 [07:07<1:30:15,  2.02it/s]  7%|▋         | 842/11788 [07:08<1:29:46,  2.03it/s]  7%|▋         | 843/11788 [07:20<12:01:12,  3.95s/it]  7%|▋         | 844/11788 [07:20<8:52:19,  2.92s/it]   7%|▋         | 845/11788 [07:21<6:39:37,  2.19s/it]  7%|▋         | 846/11788 [07:21<5:06:43,  1.68s/it]  7%|▋         | 847/11788 [07:22<4:01:43,  1.33s/it]  7%|▋         | 848/11788 [07:22<3:16:30,  1.08s/it]  7%|▋         | 849/11788 [07:23<2:45:20,  1.10it/s]  7%|▋         | 850/11788 [07:23<2:22:58,  1.28it/s]                                                     {'loss': 4.2742, 'grad_norm': 0.6338014006614685, 'learning_rate': 0.000720949957591179, 'epoch': 1.01}
+  7%|▋         | 850/11788 [07:23<2:22:58,  1.28it/s]  7%|▋         | 851/11788 [07:24<2:07:20,  1.43it/s]  7%|▋         | 852/11788 [07:24<1:56:07,  1.57it/s]  7%|▋         | 853/11788 [07:25<1:48:15,  1.68it/s]  7%|▋         | 854/11788 [07:25<1:42:54,  1.77it/s]  7%|▋         | 855/11788 [07:26<1:38:57,  1.84it/s]  7%|▋         | 856/11788 [07:26<1:36:14,  1.89it/s]  7%|▋         | 857/11788 [07:27<1:34:22,  1.93it/s]  7%|▋         | 858/11788 [07:27<1:32:56,  1.96it/s]  7%|▋         | 859/11788 [07:28<1:31:59,  1.98it/s]  7%|▋         | 860/11788 [07:28<1:31:17,  2.00it/s]  7%|▋         | 861/11788 [07:29<1:30:47,  2.01it/s]  7%|▋         | 862/11788 [07:29<1:30:40,  2.01it/s]  7%|▋         | 863/11788 [07:30<1:30:19,  2.02it/s]  7%|▋         | 864/11788 [07:30<1:30:07,  2.02it/s]  7%|▋         | 865/11788 [07:31<1:30:08,  2.02it/s]  7%|▋         | 866/11788 [07:31<1:30:00,  2.02it/s]  7%|▋         | 867/11788 [07:32<1:29:57,  2.02it/s]  7%|▋         | 868/11788 [07:32<1:29:47,  2.03it/s]
\ No newline at end of file