slurm submission log: 2024-05-19 09:14:41.566584
created following sbatch script: 

###############################

#!/bin/bash

#SBATCH --account=nlp
#SBATCH --cpus-per-task=16
#SBATCH --gres=gpu:1
#SBATCH --job-name=tthrush-job-2782455
#SBATCH --mem=100G
#SBATCH --nodelist=sphinx2
#SBATCH --open-mode=append
#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1/train_job_output.txt
#SBATCH --partition=sphinx
#SBATCH --time=14-0

# activate your desired anaconda environment
. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection

# cd to working directory
cd .

# launch commands
srun --unbuffered run_as_child_processes 'torchrun --master_port 29517 --nproc_per_node=1 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data/piqa --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1 --output_hub_id pythia-14m_piqa --model_id EleutherAI/pythia-14m --learning_rate 6e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 1 --per_device_train_batch_size 1024 --seed 1 --num_train_epochs 0.2'

###############################

submission to slurm complete!


###############################
slurm submission output

Submitted batch job 7631089


###############################

slurm submission log: 2024-05-19 09:16:20.758126
created following sbatch script: 

###############################

#!/bin/bash

#SBATCH --account=nlp
#SBATCH --cpus-per-task=16
#SBATCH --gres=gpu:1
#SBATCH --job-name=tthrush-job-914626
#SBATCH --mem=100G
#SBATCH --nodelist=sphinx2
#SBATCH --open-mode=append
#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1/train_job_output.txt
#SBATCH --partition=sphinx
#SBATCH --time=14-0

# activate your desired anaconda environment
. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection

# cd to working directory
cd .

# launch commands
srun --unbuffered run_as_child_processes 'torchrun --master_port 29517 --nproc_per_node=1 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data/piqa --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1 --output_hub_id pythia-14m_piqa --model_id EleutherAI/pythia-14m --learning_rate 6e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 1 --per_device_train_batch_size 1024 --seed 1 --num_train_epochs 0.2'

###############################

submission to slurm complete!


###############################
slurm submission output

Submitted batch job 7631150


###############################

slurm submission log: 2024-05-19 09:25:08.150536
created following sbatch script: 

###############################

#!/bin/bash

#SBATCH --account=nlp
#SBATCH --cpus-per-task=16
#SBATCH --gres=gpu:1
#SBATCH --job-name=tthrush-job-758301
#SBATCH --mem=100G
#SBATCH --nodelist=sphinx2
#SBATCH --open-mode=append
#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1/train_job_output.txt
#SBATCH --partition=sphinx
#SBATCH --time=14-0

# activate your desired anaconda environment
. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection

# cd to working directory
cd .

# launch commands
srun --unbuffered run_as_child_processes 'torchrun --master_port 29517 --nproc_per_node=1 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data/piqa --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1 --output_hub_id pythia-14m_piqa --model_id EleutherAI/pythia-14m --learning_rate 6e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 1 --per_device_train_batch_size 768 --seed 1 --num_train_epochs 0.2'

###############################

submission to slurm complete!


###############################
slurm submission output

Submitted batch job 7631221


###############################

slurm submission log: 2024-05-19 09:27:21.164411
created following sbatch script: 

###############################

#!/bin/bash

#SBATCH --account=nlp
#SBATCH --cpus-per-task=16
#SBATCH --gres=gpu:1
#SBATCH --job-name=tthrush-job-4168844
#SBATCH --mem=100G
#SBATCH --nodelist=sphinx2
#SBATCH --open-mode=append
#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1/train_job_output.txt
#SBATCH --partition=sphinx
#SBATCH --time=14-0

# activate your desired anaconda environment
. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection

# cd to working directory
cd .

# launch commands
srun --unbuffered run_as_child_processes 'torchrun --master_port 29517 --nproc_per_node=1 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data/piqa --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1 --output_hub_id pythia-14m_piqa --model_id EleutherAI/pythia-14m --learning_rate 6e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 1 --per_device_train_batch_size 640 --seed 1 --num_train_epochs 0.2'

###############################

submission to slurm complete!


###############################
slurm submission output

Submitted batch job 7631284


###############################

slurm submission log: 2024-05-19 09:28:17.764747
created following sbatch script: 

###############################

#!/bin/bash

#SBATCH --account=nlp
#SBATCH --cpus-per-task=16
#SBATCH --gres=gpu:1
#SBATCH --job-name=tthrush-job-3776623
#SBATCH --mem=100G
#SBATCH --nodelist=sphinx2
#SBATCH --open-mode=append
#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1/train_job_output.txt
#SBATCH --partition=sphinx
#SBATCH --time=14-0

# activate your desired anaconda environment
. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection

# cd to working directory
cd .

# launch commands
srun --unbuffered run_as_child_processes 'torchrun --master_port 29517 --nproc_per_node=1 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data/piqa --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1 --output_hub_id pythia-14m_piqa --model_id EleutherAI/pythia-14m --learning_rate 6e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 1 --per_device_train_batch_size 512 --seed 1 --num_train_epochs 0.2'

###############################

submission to slurm complete!


###############################
slurm submission output

Submitted batch job 7631348


###############################

slurm submission log: 2024-05-19 09:29:20.389708
created following sbatch script: 

###############################

#!/bin/bash

#SBATCH --account=nlp
#SBATCH --cpus-per-task=16
#SBATCH --gres=gpu:1
#SBATCH --job-name=tthrush-job-4689387
#SBATCH --mem=100G
#SBATCH --nodelist=sphinx2
#SBATCH --open-mode=append
#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1/train_job_output.txt
#SBATCH --partition=sphinx
#SBATCH --time=14-0

# activate your desired anaconda environment
. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection

# cd to working directory
cd .

# launch commands
srun --unbuffered run_as_child_processes 'torchrun --master_port 29517 --nproc_per_node=1 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data/piqa --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1 --output_hub_id pythia-14m_piqa --model_id EleutherAI/pythia-14m --learning_rate 6e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 1 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 0.2'

###############################

submission to slurm complete!


###############################
slurm submission output

Submitted batch job 7631409


###############################

slurm submission log: 2024-05-19 09:30:33.987595
created following sbatch script: 

###############################

#!/bin/bash

#SBATCH --account=nlp
#SBATCH --cpus-per-task=16
#SBATCH --gres=gpu:1
#SBATCH --job-name=tthrush-job-1409388
#SBATCH --mem=100G
#SBATCH --nodelist=sphinx2
#SBATCH --open-mode=append
#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1/train_job_output.txt
#SBATCH --partition=sphinx
#SBATCH --time=14-0

# activate your desired anaconda environment
. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection

# cd to working directory
cd .

# launch commands
srun --unbuffered run_as_child_processes 'torchrun --master_port 29517 --nproc_per_node=1 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data/piqa --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1 --output_hub_id pythia-14m_piqa --model_id EleutherAI/pythia-14m --learning_rate 6e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 1 --per_device_train_batch_size 340 --seed 1 --num_train_epochs 0.2'

###############################

submission to slurm complete!


###############################
slurm submission output

Submitted batch job 7631469


###############################

slurm submission log: 2024-05-19 09:31:39.572545
created following sbatch script: 

###############################

#!/bin/bash

#SBATCH --account=nlp
#SBATCH --cpus-per-task=16
#SBATCH --gres=gpu:1
#SBATCH --job-name=tthrush-job-1319359
#SBATCH --mem=100G
#SBATCH --nodelist=sphinx2
#SBATCH --open-mode=append
#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1/train_job_output.txt
#SBATCH --partition=sphinx
#SBATCH --time=14-0

# activate your desired anaconda environment
. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection

# cd to working directory
cd .

# launch commands
srun --unbuffered run_as_child_processes 'torchrun --master_port 29517 --nproc_per_node=1 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data/piqa --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1 --output_hub_id pythia-14m_piqa --model_id EleutherAI/pythia-14m --learning_rate 6e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 1 --per_device_train_batch_size 320 --seed 1 --num_train_epochs 0.2'

###############################

submission to slurm complete!


###############################
slurm submission output

Submitted batch job 7631529


###############################

slurm submission log: 2024-05-19 09:34:33.193118
created following sbatch script: 

###############################

#!/bin/bash

#SBATCH --account=nlp
#SBATCH --cpus-per-task=16
#SBATCH --gres=gpu:1
#SBATCH --job-name=tthrush-job-742694
#SBATCH --mem=100G
#SBATCH --nodelist=sphinx2
#SBATCH --open-mode=append
#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1/train_job_output.txt
#SBATCH --partition=sphinx
#SBATCH --time=14-0

# activate your desired anaconda environment
. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection

# cd to working directory
cd .

# launch commands
srun --unbuffered run_as_child_processes 'torchrun --master_port 29517 --nproc_per_node=1 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data/piqa --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1 --output_hub_id pythia-14m_piqa --model_id EleutherAI/pythia-14m --learning_rate 6e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 1 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 0.2'

###############################

submission to slurm complete!


###############################
slurm submission output

Submitted batch job 7631593


###############################

slurm submission log: 2024-05-19 09:45:20.459710
created following sbatch script: 

###############################

#!/bin/bash

#SBATCH --account=nlp
#SBATCH --cpus-per-task=16
#SBATCH --gres=gpu:1
#SBATCH --job-name=tthrush-job-3186286
#SBATCH --mem=100G
#SBATCH --nodelist=sphinx2
#SBATCH --open-mode=append
#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1/train_job_output.txt
#SBATCH --partition=sphinx
#SBATCH --time=14-0

# activate your desired anaconda environment
. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection

# cd to working directory
cd .

# launch commands
srun --unbuffered run_as_child_processes 'torchrun --master_port 29517 --nproc_per_node=1 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data/piqa --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1 --output_hub_id pythia-14m_piqa --model_id EleutherAI/pythia-14m --learning_rate 6e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 1 --per_device_train_batch_size 320 --seed 1 --num_train_epochs 0.2'

###############################

submission to slurm complete!


###############################
slurm submission output

Submitted batch job 7631663


###############################

/var/lib/slurm/slurmd/job7631663/slurm_script: line 15: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory

CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.
To initialize your shell, run

    $ conda init <SHELL_NAME>

Currently supported shells are:
  - bash
  - fish
  - tcsh
  - xonsh
  - zsh
  - powershell

See 'conda init --help' for more information and options.

IMPORTANT: You may need to close and restart your shell after running 'conda init'.


###############################
start time: 2024-05-19 10:14:28.271980
machine: sphinx2
conda env: pretraining-coreset-selection
###############################
running following processes

	torchrun --master_port 29517 --nproc_per_node=1 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data/piqa --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1 --output_hub_id pythia-14m_piqa --model_id EleutherAI/pythia-14m --learning_rate 6e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 1 --per_device_train_batch_size 320 --seed 1 --num_train_epochs 0.2


###############################
command outputs: 


05/19/2024 10:14:33 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data/piqa', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/14m_llm_seeds_more_data/pythia-14m_piqa_1', output_hub_id='pythia-14m_piqa', hf_hub_token=True, model_id='EleutherAI/pythia-14m', per_device_train_batch_size=320, num_train_epochs=0.2, learning_rate=0.006, gradient_accumulation_steps=1, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
  0%|          | 0/6837 [00:00<?, ?it/s][rank0]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
  0%|          | 1/6837 [01:08<129:23:49, 68.14s/it]  0%|          | 2/6837 [01:39<87:46:13, 46.23s/it]   0%|          | 3/6837 [02:06<71:42:52, 37.78s/it]  0%|          | 4/6837 [02:32<62:48:12, 33.09s/it]  0%|          | 5/6837 [02:55<55:57:33, 29.49s/it]  0%|          | 6/6837 [03:17<50:42:29, 26.72s/it]  0%|          | 7/6837 [03:36<46:26:58, 24.48s/it]  0%|          | 8/6837 [03:55<43:03:31, 22.70s/it]  0%|          | 9/6837 [04:12<39:22:21, 20.76s/it]  0%|          | 10/6837 [04:26<35:23:26, 18.66s/it]  0%|          | 11/6837 [04:40<32:38:25, 17.21s/it]  0%|          | 12/6837 [04:50<28:47:03, 15.18s/it]  0%|          | 13/6837 [05:00<25:21:22, 13.38s/it]  0%|          | 14/6837 [05:09<22:59:23, 12.13s/it]  0%|          | 15/6837 [05:18<21:07:35, 11.15s/it]  0%|          | 16/6837 [05:25<18:51:12,  9.95s/it]  0%|          | 17/6837 [05:33<17:59:00,  9.49s/it]  0%|          | 18/6837 [05:41<17:02:25,  9.00s/it]  0%|          | 19/6837 [05:49<16:31:49,  8.73s/it]  0%|          | 20/6837 [05:56<15:40:54,  8.28s/it]  0%|          | 21/6837 [06:03<14:46:10,  7.80s/it]  0%|          | 22/6837 [06:10<14:10:14,  7.49s/it]  0%|          | 23/6837 [06:16<13:27:08,  7.11s/it]  0%|          | 24/6837 [06:22<12:42:35,  6.72s/it]  0%|          | 25/6837 [06:29<12:42:48,  6.72s/it]{'loss': 10.653, 'grad_norm': 0.7899429202079773, 'learning_rate': 0.0002192982456140351, 'epoch': 0.0}                                                    
  0%|          | 25/6837 [06:29<12:42:48,  6.72s/it]  0%|          | 26/6837 [06:35<12:16:43,  6.49s/it]  0%|          | 27/6837 [06:40<11:48:16,  6.24s/it]  0%|          | 28/6837 [06:46<11:29:36,  6.08s/it]  0%|          | 29/6837 [06:51<11:09:11,  5.90s/it]  0%|          | 30/6837 [06:58<11:17:46,  5.97s/it]  0%|          | 31/6837 [07:03<10:44:30,  5.68s/it]  0%|          | 32/6837 [07:08<10:23:08,  5.49s/it]  0%|          | 33/6837 [07:13<10:22:21,  5.49s/it]  0%|          | 34/6837 [07:19<10:29:36,  5.55s/it]  1%|          | 35/6837 [07:24<10:05:12,  5.34s/it]  1%|          | 36/6837 [07:28<9:30:12,  5.03s/it]   1%|          | 37/6837 [07:33<9:15:40,  4.90s/it]  1%|          | 38/6837 [07:37<9:03:14,  4.79s/it]  1%|          | 39/6837 [07:41<8:49:21,  4.67s/it]  1%|          | 40/6837 [07:46<8:44:22,  4.63s/it]  1%|          | 41/6837 [07:50<8:30:34,  4.51s/it]  1%|          | 42/6837 [07:54<8:16:46,  4.39s/it]  1%|          | 43/6837 [07:58<8:06:51,  4.30s/it]  1%|          | 44/6837 [08:03<8:09:20,  4.32s/it]  1%|          | 45/6837 [08:07<7:54:40,  4.19s/it]  1%|          | 46/6837 [08:10<7:38:20,  4.05s/it]  1%|          | 47/6837 [08:15<7:41:16,  4.08s/it]  1%|          | 48/6837 [08:18<7:36:05,  4.03s/it]  1%|          | 49/6837 [08:22<7:24:40,  3.93s/it]  1%|          | 50/6837 [08:26<7:14:32,  3.84s/it]                                                   {'loss': 9.8835, 'grad_norm': 0.8061347603797913, 'learning_rate': 0.0004385964912280702, 'epoch': 0.0}
  1%|          | 50/6837 [08:26<7:14:32,  3.84s/it]  1%|          | 51/6837 [08:30<7:22:57,  3.92s/it]  1%|          | 52/6837 [08:34<7:17:33,  3.87s/it]  1%|          | 53/6837 [08:37<6:53:09,  3.65s/it]  1%|          | 54/6837 [08:40<6:47:14,  3.60s/it]  1%|          | 55/6837 [08:43<6:20:21,  3.37s/it]  1%|          | 56/6837 [08:46<6:19:22,  3.36s/it]  1%|          | 57/6837 [08:50<6:16:07,  3.33s/it]  1%|          | 58/6837 [08:53<6:10:39,  3.28s/it]  1%|          | 59/6837 [08:56<6:05:20,  3.23s/it]  1%|          | 60/6837 [08:59<6:14:56,  3.32s/it]  1%|          | 61/6837 [09:02<6:03:10,  3.22s/it]  1%|          | 62/6837 [09:05<5:52:00,  3.12s/it]  1%|          | 63/6837 [09:08<5:45:40,  3.06s/it]  1%|          | 64/6837 [09:11<5:38:51,  3.00s/it]  1%|          | 65/6837 [09:14<5:28:02,  2.91s/it]  1%|          | 66/6837 [09:17<5:32:27,  2.95s/it]  1%|          | 67/6837 [09:20<5:26:00,  2.89s/it]  1%|          | 68/6837 [09:22<5:20:18,  2.84s/it]  1%|          | 69/6837 [09:25<5:02:51,  2.68s/it]  1%|          | 70/6837 [09:27<4:58:18,  2.64s/it]  1%|          | 71/6837 [09:30<4:50:51,  2.58s/it]  1%|          | 72/6837 [09:32<4:40:16,  2.49s/it]  1%|          | 73/6837 [09:34<4:34:43,  2.44s/it]  1%|          | 74/6837 [09:37<4:38:44,  2.47s/it]  1%|          | 75/6837 [09:39<4:36:38,  2.45s/it]                                                   {'loss': 8.7773, 'grad_norm': 0.7474189400672913, 'learning_rate': 0.0006578947368421052, 'epoch': 0.0}
  1%|          | 75/6837 [09:39<4:36:38,  2.45s/it]  1%|          | 76/6837 [09:42<4:33:24,  2.43s/it]  1%|          | 77/6837 [09:44<4:37:18,  2.46s/it]  1%|          | 78/6837 [09:47<4:35:53,  2.45s/it]  1%|          | 79/6837 [09:49<4:36:54,  2.46s/it]  1%|          | 80/6837 [09:51<4:26:39,  2.37s/it]  1%|          | 81/6837 [09:53<4:12:55,  2.25s/it]  1%|          | 82/6837 [09:55<4:01:50,  2.15s/it]  1%|          | 83/6837 [09:57<4:05:51,  2.18s/it]  1%|          | 84/6837 [10:00<4:06:35,  2.19s/it]  1%|          | 85/6837 [10:02<4:00:04,  2.13s/it]  1%|▏         | 86/6837 [10:03<3:53:27,  2.07s/it]  1%|▏         | 87/6837 [10:05<3:47:15,  2.02s/it]  1%|▏         | 88/6837 [10:07<3:44:00,  1.99s/it]  1%|▏         | 89/6837 [10:09<3:43:06,  1.98s/it]  1%|▏         | 90/6837 [10:11<3:35:40,  1.92s/it]  1%|▏         | 91/6837 [10:13<3:28:25,  1.85s/it]  1%|▏         | 92/6837 [10:15<3:30:41,  1.87s/it]  1%|▏         | 93/6837 [10:16<3:16:15,  1.75s/it]  1%|▏         | 94/6837 [10:18<3:18:00,  1.76s/it]  1%|▏         | 95/6837 [10:20<3:13:51,  1.73s/it]  1%|▏         | 96/6837 [10:21<3:11:36,  1.71s/it]  1%|▏         | 97/6837 [10:23<3:04:06,  1.64s/it]  1%|▏         | 98/6837 [10:24<3:03:14,  1.63s/it]  1%|▏         | 99/6837 [10:26<2:58:25,  1.59s/it]  1%|▏         | 100/6837 [10:27<2:49:30,  1.51s/it]                                                    {'loss': 7.9608, 'grad_norm': 0.5506234169006348, 'learning_rate': 0.0008771929824561404, 'epoch': 0.0}
  1%|▏         | 100/6837 [10:27<2:49:30,  1.51s/it]  1%|▏         | 101/6837 [10:29<2:52:51,  1.54s/it]  1%|▏         | 102/6837 [10:30<2:55:52,  1.57s/it]  2%|▏         | 103/6837 [10:32<2:52:17,  1.54s/it]  2%|▏         | 104/6837 [10:33<2:48:01,  1.50s/it]  2%|▏         | 105/6837 [10:35<2:54:19,  1.55s/it]  2%|▏         | 106/6837 [10:36<2:55:29,  1.56s/it]  2%|▏         | 107/6837 [10:38<2:51:47,  1.53s/it]  2%|▏         | 108/6837 [10:40<2:56:07,  1.57s/it]  2%|▏         | 109/6837 [10:41<3:01:39,  1.62s/it]  2%|▏         | 110/6837 [10:43<2:57:56,  1.59s/it]  2%|▏         | 111/6837 [10:44<2:54:21,  1.56s/it]  2%|▏         | 112/6837 [10:46<2:49:28,  1.51s/it]  2%|▏         | 113/6837 [10:47<2:40:42,  1.43s/it]  2%|▏         | 114/6837 [10:48<2:40:02,  1.43s/it]  2%|▏         | 115/6837 [10:50<2:46:40,  1.49s/it]  2%|▏         | 116/6837 [10:52<2:49:48,  1.52s/it]  2%|▏         | 117/6837 [10:53<2:48:51,  1.51s/it]  2%|▏         | 118/6837 [10:55<2:46:19,  1.49s/it]  2%|▏         | 119/6837 [10:56<2:38:12,  1.41s/it]  2%|▏         | 120/6837 [10:57<2:34:52,  1.38s/it]  2%|▏         | 121/6837 [10:58<2:32:32,  1.36s/it]  2%|▏         | 122/6837 [11:00<2:28:58,  1.33s/it]  2%|▏         | 123/6837 [11:01<2:25:32,  1.30s/it]  2%|▏         | 124/6837 [11:02<2:24:42,  1.29s/it]  2%|▏         | 125/6837 [11:03<2:25:22,  1.30s/it]{'loss': 7.3905, 'grad_norm': 0.2840506434440613, 'learning_rate': 0.0010964912280701754, 'epoch': 0.0}                                                    
  2%|▏         | 125/6837 [11:03<2:25:22,  1.30s/it]  2%|▏         | 126/6837 [11:05<2:31:07,  1.35s/it]  2%|▏         | 127/6837 [11:06<2:32:05,  1.36s/it]  2%|▏         | 128/6837 [11:08<2:26:04,  1.31s/it]  2%|▏         | 129/6837 [11:09<2:28:26,  1.33s/it]  2%|▏         | 130/6837 [11:10<2:27:47,  1.32s/it]  2%|▏         | 131/6837 [11:11<2:23:00,  1.28s/it]  2%|▏         | 132/6837 [11:13<2:18:15,  1.24s/it]  2%|▏         | 133/6837 [11:14<2:19:03,  1.24s/it]  2%|▏         | 134/6837 [11:15<2:21:09,  1.26s/it]  2%|▏         | 135/6837 [11:16<2:19:05,  1.25s/it]  2%|▏         | 136/6837 [11:17<2:11:42,  1.18s/it]  2%|▏         | 137/6837 [11:19<2:16:20,  1.22s/it]  2%|▏         | 138/6837 [11:20<2:14:16,  1.20s/it]  2%|▏         | 139/6837 [11:21<2:11:58,  1.18s/it]  2%|▏         | 140/6837 [11:22<2:08:47,  1.15s/it]  2%|▏         | 141/6837 [11:23<2:04:33,  1.12s/it]  2%|▏         | 142/6837 [11:24<2:08:31,  1.15s/it]  2%|▏         | 143/6837 [11:25<2:00:58,  1.08s/it]  2%|▏         | 144/6837 [11:26<1:57:55,  1.06s/it]  2%|▏         | 145/6837 [11:27<1:56:31,  1.04s/it]  2%|▏         | 146/6837 [11:28<2:01:49,  1.09s/it]  2%|▏         | 147/6837 [11:29<1:58:11,  1.06s/it]  2%|▏         | 148/6837 [11:30<1:52:53,  1.01s/it]  2%|▏         | 149/6837 [11:31<1:54:27,  1.03s/it]  2%|▏         | 150/6837 [11:32<1:54:00,  1.02s/it]                                                    {'loss': 6.9569, 'grad_norm': 0.2873937785625458, 'learning_rate': 0.0013157894736842105, 'epoch': 0.0}
  2%|▏         | 150/6837 [11:32<1:54:00,  1.02s/it]  2%|▏         | 151/6837 [11:34<2:00:47,  1.08s/it]  2%|▏         | 152/6837 [11:35<1:55:35,  1.04s/it]  2%|▏         | 153/6837 [11:35<1:52:03,  1.01s/it]  2%|▏         | 154/6837 [11:37<1:53:44,  1.02s/it]  2%|▏         | 155/6837 [11:38<1:56:37,  1.05s/it]  2%|▏         | 156/6837 [11:39<1:59:14,  1.07s/it]  2%|▏         | 157/6837 [11:40<2:00:44,  1.08s/it]  2%|▏         | 158/6837 [11:41<1:53:12,  1.02s/it]  2%|▏         | 159/6837 [11:42<1:57:05,  1.05s/it]  2%|▏         | 160/6837 [11:43<2:01:09,  1.09s/it]  2%|▏         | 161/6837 [11:44<1:51:13,  1.00it/s]  2%|▏         | 162/6837 [11:45<1:50:57,  1.00it/s]  2%|▏         | 163/6837 [11:46<1:45:48,  1.05it/s]  2%|▏         | 164/6837 [11:47<1:43:01,  1.08it/s]  2%|▏         | 165/6837 [11:47<1:42:40,  1.08it/s]  2%|▏         | 166/6837 [11:49<1:47:54,  1.03it/s]  2%|▏         | 167/6837 [11:50<1:54:07,  1.03s/it]  2%|▏         | 168/6837 [11:51<1:48:52,  1.02it/s]  2%|▏         | 169/6837 [11:52<1:48:12,  1.03it/s]  2%|▏         | 170/6837 [11:52<1:44:56,  1.06it/s]  3%|▎         | 171/6837 [11:54<1:51:04,  1.00it/s]  3%|▎         | 172/6837 [11:54<1:45:23,  1.05it/s]  3%|▎         | 173/6837 [11:55<1:39:35,  1.12it/s]  3%|▎         | 174/6837 [11:56<1:38:34,  1.13it/s]  3%|▎         | 175/6837 [11:57<1:36:38,  1.15it/s]                                                    {'loss': 6.6535, 'grad_norm': 0.2848723530769348, 'learning_rate': 0.0015350877192982456, 'epoch': 0.01}
  3%|▎         | 175/6837 [11:57<1:36:38,  1.15it/s]  3%|▎         | 176/6837 [11:58<1:41:15,  1.10it/s]  3%|▎         | 177/6837 [11:59<1:48:50,  1.02it/s]  3%|▎         | 178/6837 [12:00<1:52:11,  1.01s/it]  3%|▎         | 179/6837 [12:01<1:51:57,  1.01s/it]  3%|▎         | 180/6837 [12:02<1:47:22,  1.03it/s]  3%|▎         | 181/6837 [12:03<1:46:22,  1.04it/s]  3%|▎         | 182/6837 [12:04<1:44:47,  1.06it/s]  3%|▎         | 183/6837 [12:05<1:43:48,  1.07it/s]  3%|▎         | 184/6837 [12:06<1:39:46,  1.11it/s]  3%|▎         | 185/6837 [12:06<1:41:20,  1.09it/s]  3%|▎         | 186/6837 [12:07<1:38:07,  1.13it/s]  3%|▎         | 187/6837 [12:08<1:38:11,  1.13it/s]  3%|▎         | 188/6837 [12:09<1:38:51,  1.12it/s]  3%|▎         | 189/6837 [12:10<1:37:16,  1.14it/s]  3%|▎         | 190/6837 [12:11<1:34:52,  1.17it/s]  3%|▎         | 191/6837 [12:12<1:34:59,  1.17it/s]  3%|▎         | 192/6837 [12:12<1:35:03,  1.17it/s]  3%|▎         | 193/6837 [12:13<1:36:32,  1.15it/s]  3%|▎         | 194/6837 [12:14<1:37:00,  1.14it/s]  3%|▎         | 195/6837 [12:15<1:39:11,  1.12it/s]  3%|▎         | 196/6837 [12:16<1:34:54,  1.17it/s]  3%|▎         | 197/6837 [12:17<1:32:18,  1.20it/s]  3%|▎         | 198/6837 [12:18<1:34:41,  1.17it/s]  3%|▎         | 199/6837 [12:19<1:35:05,  1.16it/s]  3%|▎         | 200/6837 [12:19<1:32:26,  1.20it/s]                                                    {'loss': 6.4353, 'grad_norm': 0.38353198766708374, 'learning_rate': 0.0017543859649122807, 'epoch': 0.01}
  3%|▎         | 200/6837 [12:19<1:32:26,  1.20it/s]  3%|▎         | 201/6837 [12:20<1:31:35,  1.21it/s]  3%|▎         | 202/6837 [12:21<1:32:26,  1.20it/s]  3%|▎         | 203/6837 [12:22<1:28:38,  1.25it/s]  3%|▎         | 204/6837 [12:23<1:30:15,  1.22it/s]  3%|▎         | 205/6837 [12:23<1:30:58,  1.21it/s]  3%|▎         | 206/6837 [12:24<1:41:12,  1.09it/s]  3%|▎         | 207/6837 [12:25<1:35:04,  1.16it/s]  3%|▎         | 208/6837 [12:26<1:32:03,  1.20it/s]  3%|▎         | 209/6837 [12:27<1:25:15,  1.30it/s]  3%|▎         | 210/6837 [12:27<1:22:40,  1.34it/s]  3%|▎         | 211/6837 [12:28<1:23:52,  1.32it/s]  3%|▎         | 212/6837 [12:29<1:23:15,  1.33it/s]  3%|▎         | 213/6837 [12:30<1:22:52,  1.33it/s]  3%|▎         | 214/6837 [12:30<1:25:01,  1.30it/s]  3%|▎         | 215/6837 [12:31<1:26:50,  1.27it/s]  3%|▎         | 216/6837 [12:32<1:23:36,  1.32it/s]  3%|▎         | 217/6837 [12:33<1:26:04,  1.28it/s]  3%|▎         | 218/6837 [12:34<1:30:17,  1.22it/s]  3%|▎         | 219/6837 [12:35<1:31:04,  1.21it/s]  3%|▎         | 220/6837 [12:35<1:28:07,  1.25it/s]  3%|▎         | 221/6837 [12:36<1:29:15,  1.24it/s]  3%|▎         | 222/6837 [12:37<1:25:07,  1.30it/s]  3%|▎         | 223/6837 [12:38<1:25:08,  1.29it/s]  3%|▎         | 224/6837 [12:38<1:29:36,  1.23it/s]  3%|▎         | 225/6837 [12:39<1:33:09,  1.18it/s]                                                    {'loss': 6.2598, 'grad_norm': 0.3620648980140686, 'learning_rate': 0.001973684210526316, 'epoch': 0.01}
  3%|▎         | 225/6837 [12:39<1:33:09,  1.18it/s]  3%|▎         | 226/6837 [12:40<1:34:44,  1.16it/s]  3%|▎         | 227/6837 [12:41<1:29:34,  1.23it/s]  3%|▎         | 228/6837 [12:42<1:25:35,  1.29it/s]  3%|▎         | 229/6837 [12:42<1:25:58,  1.28it/s]  3%|▎         | 230/6837 [12:43<1:25:36,  1.29it/s]  3%|▎         | 231/6837 [12:44<1:25:29,  1.29it/s]  3%|▎         | 232/6837 [12:45<1:19:55,  1.38it/s]  3%|▎         | 233/6837 [12:45<1:20:02,  1.37it/s]  3%|▎         | 234/6837 [12:46<1:20:37,  1.36it/s]  3%|▎         | 235/6837 [12:47<1:21:54,  1.34it/s]  3%|▎         | 236/6837 [12:48<1:24:59,  1.29it/s]  3%|▎         | 237/6837 [12:48<1:24:43,  1.30it/s]  3%|▎         | 238/6837 [12:49<1:28:02,  1.25it/s]  3%|▎         | 239/6837 [12:50<1:25:40,  1.28it/s]  4%|▎         | 240/6837 [12:51<1:27:00,  1.26it/s]  4%|▎         | 241/6837 [12:52<1:25:17,  1.29it/s]  4%|▎         | 242/6837 [12:53<1:29:40,  1.23it/s]  4%|▎         | 243/6837 [12:53<1:27:55,  1.25it/s]  4%|▎         | 244/6837 [12:54<1:29:36,  1.23it/s]  4%|▎         | 245/6837 [12:55<1:31:42,  1.20it/s]  4%|▎         | 246/6837 [12:56<1:29:28,  1.23it/s]  4%|▎         | 247/6837 [12:56<1:25:42,  1.28it/s]  4%|▎         | 248/6837 [12:57<1:24:40,  1.30it/s]  4%|▎         | 249/6837 [12:58<1:23:17,  1.32it/s]  4%|▎         | 250/6837 [12:59<1:20:47,  1.36it/s]                                                    {'loss': 6.1052, 'grad_norm': 0.3460889160633087, 'learning_rate': 0.0021929824561403508, 'epoch': 0.01}
  4%|▎         | 250/6837 [12:59<1:20:47,  1.36it/s]  4%|▎         | 251/6837 [12:59<1:19:09,  1.39it/s]  4%|▎         | 252/6837 [13:00<1:17:31,  1.42it/s]  4%|▎         | 253/6837 [13:01<1:14:37,  1.47it/s]  4%|▎         | 254/6837 [13:01<1:16:09,  1.44it/s]  4%|▎         | 255/6837 [13:02<1:11:16,  1.54it/s]  4%|▎         | 256/6837 [13:03<1:17:55,  1.41it/s]  4%|▍         | 257/6837 [13:04<1:23:00,  1.32it/s]  4%|▍         | 258/6837 [13:04<1:22:36,  1.33it/s]  4%|▍         | 259/6837 [13:05<1:22:30,  1.33it/s]  4%|▍         | 260/6837 [13:06<1:18:59,  1.39it/s]  4%|▍         | 261/6837 [13:06<1:14:47,  1.47it/s]  4%|▍         | 262/6837 [13:07<1:15:12,  1.46it/s]  4%|▍         | 263/6837 [13:08<1:16:33,  1.43it/s]  4%|▍         | 264/6837 [13:08<1:15:06,  1.46it/s]  4%|▍         | 265/6837 [13:09<1:13:50,  1.48it/s]  4%|▍         | 266/6837 [13:10<1:14:28,  1.47it/s]  4%|▍         | 267/6837 [13:10<1:13:34,  1.49it/s]  4%|▍         | 268/6837 [13:11<1:17:13,  1.42it/s]  4%|▍         | 269/6837 [13:12<1:14:17,  1.47it/s]  4%|▍         | 270/6837 [13:12<1:11:27,  1.53it/s]  4%|▍         | 271/6837 [13:13<1:10:32,  1.55it/s]  4%|▍         | 272/6837 [13:14<1:10:30,  1.55it/s]  4%|▍         | 273/6837 [13:14<1:10:09,  1.56it/s]  4%|▍         | 274/6837 [13:15<1:11:25,  1.53it/s]  4%|▍         | 275/6837 [13:16<1:11:01,  1.54it/s]                                                    {'loss': 5.9682, 'grad_norm': 0.3327798843383789, 'learning_rate': 0.002412280701754386, 'epoch': 0.01}
  4%|▍         | 275/6837 [13:16<1:11:01,  1.54it/s]  4%|▍         | 276/6837 [13:16<1:11:30,  1.53it/s]  4%|▍         | 277/6837 [13:17<1:08:39,  1.59it/s]  4%|▍         | 278/6837 [13:18<1:09:54,  1.56it/s]  4%|▍         | 279/6837 [13:18<1:09:17,  1.58it/s]  4%|▍         | 280/6837 [13:19<1:08:04,  1.61it/s]  4%|▍         | 281/6837 [13:19<1:08:59,  1.58it/s]  4%|▍         | 282/6837 [13:20<1:08:13,  1.60it/s]  4%|▍         | 283/6837 [13:21<1:08:35,  1.59it/s]  4%|▍         | 284/6837 [13:21<1:05:05,  1.68it/s]  4%|▍         | 285/6837 [13:22<1:03:44,  1.71it/s]  4%|▍         | 286/6837 [13:22<1:01:00,  1.79it/s]  4%|▍         | 287/6837 [13:23<1:03:49,  1.71it/s]  4%|▍         | 288/6837 [13:23<1:02:23,  1.75it/s]  4%|▍         | 289/6837 [13:24<1:05:05,  1.68it/s]  4%|▍         | 290/6837 [13:25<1:06:00,  1.65it/s]  4%|▍         | 291/6837 [13:25<1:03:32,  1.72it/s]  4%|▍         | 292/6837 [13:26<1:03:20,  1.72it/s]  4%|▍         | 293/6837 [13:26<1:00:53,  1.79it/s]  4%|▍         | 294/6837 [13:27<1:03:13,  1.72it/s]  4%|▍         | 295/6837 [13:27<1:01:43,  1.77it/s]  4%|▍         | 296/6837 [13:28<1:04:20,  1.69it/s]  4%|▍         | 297/6837 [13:29<1:02:45,  1.74it/s]  4%|▍         | 298/6837 [13:29<1:00:10,  1.81it/s]  4%|▍         | 299/6837 [13:30<1:00:46,  1.79it/s]  4%|▍         | 300/6837 [13:30<1:01:33,  1.77it/s]                                                    {'loss': 5.8526, 'grad_norm': 0.4219636619091034, 'learning_rate': 0.002631578947368421, 'epoch': 0.01}
  4%|▍         | 300/6837 [13:30<1:01:33,  1.77it/s]  4%|▍         | 301/6837 [13:31<59:13,  1.84it/s]    4%|▍         | 302/6837 [13:31<55:32,  1.96it/s]  4%|▍         | 303/6837 [13:32<54:24,  2.00it/s]  4%|▍         | 304/6837 [13:32<55:39,  1.96it/s]  4%|▍         | 305/6837 [13:33<55:08,  1.97it/s]  4%|▍         | 306/6837 [13:33<56:21,  1.93it/s]  4%|▍         | 307/6837 [13:34<57:59,  1.88it/s]  5%|▍         | 308/6837 [13:34<54:55,  1.98it/s]  5%|▍         | 309/6837 [13:35<56:52,  1.91it/s]  5%|▍         | 310/6837 [13:35<56:34,  1.92it/s]  5%|▍         | 311/6837 [13:36<56:41,  1.92it/s]  5%|▍         | 312/6837 [13:36<55:48,  1.95it/s]  5%|▍         | 313/6837 [13:37<54:52,  1.98it/s]  5%|▍         | 314/6837 [13:37<54:34,  1.99it/s]  5%|▍         | 315/6837 [13:38<53:45,  2.02it/s]  5%|▍         | 316/6837 [13:38<52:49,  2.06it/s]  5%|▍         | 317/6837 [13:39<53:30,  2.03it/s]  5%|▍         | 318/6837 [13:39<56:10,  1.93it/s]  5%|▍         | 319/6837 [13:40<55:46,  1.95it/s]  5%|▍         | 320/6837 [13:40<53:45,  2.02it/s]  5%|▍         | 321/6837 [13:41<51:40,  2.10it/s]  5%|▍         | 322/6837 [13:41<50:13,  2.16it/s]  5%|▍         | 323/6837 [13:42<50:13,  2.16it/s]  5%|▍         | 324/6837 [13:42<54:05,  2.01it/s]  5%|▍         | 325/6837 [13:43<56:02,  1.94it/s]                                                  {'loss': 5.7558, 'grad_norm': 0.4793476164340973, 'learning_rate': 0.0028508771929824563, 'epoch': 0.01}
  5%|▍         | 325/6837 [13:43<56:02,  1.94it/s]  5%|▍         | 326/6837 [13:43<54:39,  1.99it/s]  5%|▍         | 327/6837 [13:44<57:09,  1.90it/s]  5%|▍         | 328/6837 [13:44<54:19,  2.00it/s]  5%|▍         | 329/6837 [13:45<54:18,  2.00it/s]  5%|▍         | 330/6837 [13:45<53:20,  2.03it/s]  5%|▍         | 331/6837 [13:46<51:31,  2.10it/s]  5%|▍         | 332/6837 [13:46<50:06,  2.16it/s]  5%|▍         | 333/6837 [13:47<52:25,  2.07it/s]  5%|▍         | 334/6837 [13:47<51:03,  2.12it/s]  5%|▍         | 335/6837 [13:48<55:19,  1.96it/s]  5%|▍         | 336/6837 [13:48<55:41,  1.95it/s]  5%|▍         | 337/6837 [13:49<54:26,  1.99it/s]  5%|▍         | 338/6837 [13:49<53:55,  2.01it/s]  5%|▍         | 339/6837 [13:50<55:00,  1.97it/s]  5%|▍         | 340/6837 [13:50<53:12,  2.04it/s]  5%|▍         | 341/6837 [13:51<50:17,  2.15it/s]  5%|▌         | 342/6837 [13:51<48:52,  2.21it/s]  5%|▌         | 343/6837 [13:51<49:20,  2.19it/s]  5%|▌         | 344/6837 [13:52<49:02,  2.21it/s]  5%|▌         | 345/6837 [13:52<48:08,  2.25it/s]  5%|▌         | 346/6837 [13:53<51:59,  2.08it/s]  5%|▌         | 347/6837 [13:53<52:33,  2.06it/s]  5%|▌         | 348/6837 [13:54<55:03,  1.96it/s]  5%|▌         | 349/6837 [13:54<54:50,  1.97it/s]  5%|▌         | 350/6837 [13:55<54:16,  1.99it/s]                                                  {'loss': 5.6523, 'grad_norm': 0.38318943977355957, 'learning_rate': 0.0030701754385964912, 'epoch': 0.01}
  5%|▌         | 350/6837 [13:55<54:16,  1.99it/s]  5%|▌         | 351/6837 [13:55<52:36,  2.05it/s]  5%|▌         | 352/6837 [13:56<51:50,  2.08it/s]  5%|▌         | 353/6837 [13:56<49:40,  2.18it/s]  5%|▌         | 354/6837 [13:57<49:45,  2.17it/s]  5%|▌         | 355/6837 [13:57<54:20,  1.99it/s]  5%|▌         | 356/6837 [13:58<54:23,  1.99it/s]  5%|▌         | 357/6837 [13:58<52:52,  2.04it/s]  5%|▌         | 358/6837 [13:59<57:29,  1.88it/s]  5%|▌         | 359/6837 [14:00<1:00:18,  1.79it/s]  5%|▌         | 360/6837 [14:00<58:43,  1.84it/s]    5%|▌         | 361/6837 [14:01<54:45,  1.97it/s]  5%|▌         | 362/6837 [14:01<54:32,  1.98it/s]  5%|▌         | 363/6837 [14:02<54:16,  1.99it/s]  5%|▌         | 364/6837 [14:02<50:48,  2.12it/s]  5%|▌         | 365/6837 [14:02<49:49,  2.17it/s]  5%|▌         | 366/6837 [14:03<50:14,  2.15it/s]  5%|▌         | 367/6837 [14:03<50:24,  2.14it/s]  5%|▌         | 368/6837 [14:04<52:24,  2.06it/s]  5%|▌         | 369/6837 [14:04<50:18,  2.14it/s]  5%|▌         | 370/6837 [14:05<47:45,  2.26it/s]  5%|▌         | 371/6837 [14:05<45:28,  2.37it/s]  5%|▌         | 372/6837 [14:05<44:52,  2.40it/s]  5%|▌         | 373/6837 [14:06<44:27,  2.42it/s]  5%|▌         | 374/6837 [14:06<42:40,  2.52it/s]  5%|▌         | 375/6837 [14:07<41:40,  2.58it/s]                                                  {'loss': 5.5936, 'grad_norm': 0.3405887484550476, 'learning_rate': 0.0032894736842105266, 'epoch': 0.01}
  5%|▌         | 375/6837 [14:07<41:40,  2.58it/s]  5%|▌         | 376/6837 [14:07<44:04,  2.44it/s]  6%|▌         | 377/6837 [14:07<45:15,  2.38it/s]  6%|▌         | 378/6837 [14:08<44:47,  2.40it/s]  6%|▌         | 379/6837 [14:08<44:53,  2.40it/s]  6%|▌         | 380/6837 [14:09<45:58,  2.34it/s]  6%|▌         | 381/6837 [14:09<50:37,  2.13it/s]  6%|▌         | 382/6837 [14:10<49:01,  2.19it/s]  6%|▌         | 383/6837 [14:10<48:09,  2.23it/s]  6%|▌         | 384/6837 [14:11<48:21,  2.22it/s]  6%|▌         | 385/6837 [14:11<47:09,  2.28it/s]  6%|▌         | 386/6837 [14:11<46:31,  2.31it/s]  6%|▌         | 387/6837 [14:12<46:32,  2.31it/s]  6%|▌         | 388/6837 [14:12<46:24,  2.32it/s]  6%|▌         | 389/6837 [14:13<45:41,  2.35it/s]  6%|▌         | 390/6837 [14:13<45:42,  2.35it/s]  6%|▌         | 391/6837 [14:14<46:46,  2.30it/s]  6%|▌         | 392/6837 [14:14<45:59,  2.34it/s]  6%|▌         | 393/6837 [14:14<45:11,  2.38it/s]  6%|▌         | 394/6837 [14:15<47:16,  2.27it/s]  6%|▌         | 395/6837 [14:15<49:05,  2.19it/s]  6%|▌         | 396/6837 [14:16<48:45,  2.20it/s]  6%|▌         | 397/6837 [14:16<48:01,  2.24it/s]  6%|▌         | 398/6837 [14:17<48:28,  2.21it/s]  6%|▌         | 399/6837 [14:17<48:35,  2.21it/s]  6%|▌         | 400/6837 [14:18<47:59,  2.24it/s]                                                  {'loss': 5.5289, 'grad_norm': 0.41496971249580383, 'learning_rate': 0.0035087719298245615, 'epoch': 0.01}
  6%|▌         | 400/6837 [14:18<47:59,  2.24it/s]  6%|▌         | 401/6837 [14:18<46:50,  2.29it/s]  6%|▌         | 402/6837 [14:18<46:57,  2.28it/s]  6%|▌         | 403/6837 [14:19<44:48,  2.39it/s]  6%|▌         | 404/6837 [14:19<46:58,  2.28it/s]  6%|▌         | 405/6837 [14:20<47:27,  2.26it/s]  6%|▌         | 406/6837 [14:20<46:07,  2.32it/s]  6%|▌         | 407/6837 [14:21<43:53,  2.44it/s]  6%|▌         | 408/6837 [14:21<41:44,  2.57it/s]  6%|▌         | 409/6837 [14:21<41:13,  2.60it/s]  6%|▌         | 410/6837 [14:22<45:08,  2.37it/s]  6%|▌         | 411/6837 [14:22<49:04,  2.18it/s]  6%|▌         | 412/6837 [14:23<48:23,  2.21it/s]  6%|▌         | 413/6837 [14:23<47:46,  2.24it/s]  6%|▌         | 414/6837 [14:24<47:49,  2.24it/s]  6%|▌         | 415/6837 [14:24<47:37,  2.25it/s]  6%|▌         | 416/6837 [14:24<46:39,  2.29it/s]  6%|▌         | 417/6837 [14:25<45:49,  2.33it/s]  6%|▌         | 418/6837 [14:25<45:48,  2.34it/s]  6%|▌         | 419/6837 [14:26<44:26,  2.41it/s]  6%|▌         | 420/6837 [14:26<42:31,  2.52it/s]  6%|▌         | 421/6837 [14:26<41:46,  2.56it/s]  6%|▌         | 422/6837 [14:27<39:57,  2.68it/s]  6%|▌         | 423/6837 [14:27<40:57,  2.61it/s]  6%|▌         | 424/6837 [14:28<41:13,  2.59it/s]  6%|▌         | 425/6837 [14:28<41:48,  2.56it/s]                                                  {'loss': 5.4794, 'grad_norm': 0.3674440383911133, 'learning_rate': 0.003728070175438597, 'epoch': 0.01}
  6%|▌         | 425/6837 [14:28<41:48,  2.56it/s]  6%|▌         | 426/6837 [14:28<41:20,  2.58it/s]  6%|▌         | 427/6837 [14:29<42:43,  2.50it/s]  6%|▋         | 428/6837 [14:29<43:12,  2.47it/s]  6%|▋         | 429/6837 [14:30<44:16,  2.41it/s]  6%|▋         | 430/6837 [14:30<43:27,  2.46it/s]  6%|▋         | 431/6837 [14:30<41:45,  2.56it/s]  6%|▋         | 432/6837 [14:31<42:51,  2.49it/s]  6%|▋         | 433/6837 [14:31<42:55,  2.49it/s]  6%|▋         | 434/6837 [14:32<42:18,  2.52it/s]  6%|▋         | 435/6837 [14:32<43:39,  2.44it/s]  6%|▋         | 436/6837 [14:32<42:18,  2.52it/s]  6%|▋         | 437/6837 [14:33<41:14,  2.59it/s]  6%|▋         | 438/6837 [14:33<42:11,  2.53it/s]  6%|▋         | 439/6837 [14:34<41:58,  2.54it/s]  6%|▋         | 440/6837 [14:34<40:19,  2.64it/s]  6%|▋         | 441/6837 [14:34<43:45,  2.44it/s]  6%|▋         | 442/6837 [14:35<43:27,  2.45it/s]  6%|▋         | 443/6837 [14:35<43:35,  2.44it/s]  6%|▋         | 444/6837 [14:36<42:32,  2.50it/s]  7%|▋         | 445/6837 [14:36<42:24,  2.51it/s]  7%|▋         | 446/6837 [14:36<41:20,  2.58it/s]  7%|▋         | 447/6837 [14:37<40:18,  2.64it/s]  7%|▋         | 448/6837 [14:37<41:36,  2.56it/s]  7%|▋         | 449/6837 [14:37<41:24,  2.57it/s]  7%|▋         | 450/6837 [14:38<40:55,  2.60it/s]                                                  {'loss': 5.4306, 'grad_norm': 0.3237208127975464, 'learning_rate': 0.003947368421052632, 'epoch': 0.01}
  7%|▋         | 450/6837 [14:38<40:55,  2.60it/s]  7%|▋         | 451/6837 [14:38<41:53,  2.54it/s]  7%|▋         | 452/6837 [14:39<42:05,  2.53it/s]  7%|▋         | 453/6837 [14:39<41:49,  2.54it/s]  7%|▋         | 454/6837 [14:39<40:26,  2.63it/s]  7%|▋         | 455/6837 [14:40<40:02,  2.66it/s]  7%|▋         | 456/6837 [14:40<39:40,  2.68it/s]  7%|▋         | 457/6837 [14:41<41:12,  2.58it/s]  7%|▋         | 458/6837 [14:41<42:05,  2.53it/s]  7%|▋         | 459/6837 [14:41<41:00,  2.59it/s]  7%|▋         | 460/6837 [14:42<41:16,  2.58it/s]  7%|▋         | 461/6837 [14:42<42:32,  2.50it/s]  7%|▋         | 462/6837 [14:43<41:49,  2.54it/s]  7%|▋         | 463/6837 [14:43<45:17,  2.35it/s]  7%|▋         | 464/6837 [14:43<44:13,  2.40it/s]  7%|▋         | 465/6837 [14:44<45:05,  2.36it/s]  7%|▋         | 466/6837 [14:44<45:43,  2.32it/s]  7%|▋         | 467/6837 [14:45<42:09,  2.52it/s]  7%|▋         | 468/6837 [14:45<41:20,  2.57it/s]  7%|▋         | 469/6837 [14:45<40:27,  2.62it/s]  7%|▋         | 470/6837 [14:46<40:01,  2.65it/s]  7%|▋         | 471/6837 [14:46<39:10,  2.71it/s]  7%|▋         | 472/6837 [14:46<37:18,  2.84it/s]  7%|▋         | 473/6837 [14:47<38:06,  2.78it/s]  7%|▋         | 474/6837 [14:47<38:20,  2.77it/s]  7%|▋         | 475/6837 [14:48<39:26,  2.69it/s]                                                  {'loss': 5.3872, 'grad_norm': 0.3057781755924225, 'learning_rate': 0.004166666666666667, 'epoch': 0.01}
  7%|▋         | 475/6837 [14:48<39:26,  2.69it/s]  7%|▋         | 476/6837 [14:48<39:03,  2.71it/s]  7%|▋         | 477/6837 [14:48<39:35,  2.68it/s]  7%|▋         | 478/6837 [14:49<39:37,  2.67it/s]  7%|▋         | 479/6837 [14:49<39:39,  2.67it/s]  7%|▋         | 480/6837 [14:49<38:07,  2.78it/s]  7%|▋         | 481/6837 [14:50<40:24,  2.62it/s]  7%|▋         | 482/6837 [14:50<42:54,  2.47it/s]  7%|▋         | 483/6837 [14:51<40:30,  2.61it/s]  7%|▋         | 484/6837 [14:51<40:34,  2.61it/s]  7%|▋         | 485/6837 [14:51<38:28,  2.75it/s]  7%|▋         | 486/6837 [14:52<37:44,  2.80it/s]  7%|▋         | 487/6837 [14:52<38:05,  2.78it/s]  7%|▋         | 488/6837 [14:52<37:08,  2.85it/s]  7%|▋         | 489/6837 [14:53<37:35,  2.81it/s]  7%|▋         | 490/6837 [14:53<38:10,  2.77it/s]  7%|▋         | 491/6837 [14:54<40:12,  2.63it/s]  7%|▋         | 492/6837 [14:54<40:14,  2.63it/s]  7%|▋         | 493/6837 [14:54<38:56,  2.71it/s]  7%|▋         | 494/6837 [14:55<38:46,  2.73it/s]  7%|▋         | 495/6837 [14:55<39:43,  2.66it/s]  7%|▋         | 496/6837 [14:55<37:53,  2.79it/s]  7%|▋         | 497/6837 [14:56<38:37,  2.74it/s]  7%|▋         | 498/6837 [14:56<38:46,  2.72it/s]  7%|▋         | 499/6837 [14:56<38:31,  2.74it/s]  7%|▋         | 500/6837 [14:57<38:04,  2.77it/s]{'loss': 5.3308, 'grad_norm': 0.25192293524742126, 'learning_rate': 0.0043859649122807015, 'epoch': 0.01}                                                  
  7%|▋         | 500/6837 [14:57<38:04,  2.77it/s]  7%|▋         | 501/6837 [14:57<37:34,  2.81it/s]  7%|▋         | 502/6837 [14:57<38:22,  2.75it/s]  7%|▋         | 503/6837 [14:58<36:11,  2.92it/s]  7%|▋         | 504/6837 [14:58<38:07,  2.77it/s]  7%|▋         | 505/6837 [14:59<37:40,  2.80it/s]  7%|▋         | 506/6837 [14:59<38:50,  2.72it/s]  7%|▋         | 507/6837 [14:59<39:42,  2.66it/s]  7%|▋         | 508/6837 [15:00<37:41,  2.80it/s]  7%|▋         | 509/6837 [15:00<36:32,  2.89it/s]  7%|▋         | 510/6837 [15:00<35:48,  2.94it/s]  7%|▋         | 511/6837 [15:01<34:42,  3.04it/s]  7%|▋         | 512/6837 [15:01<35:58,  2.93it/s]  8%|▊         | 513/6837 [15:01<36:08,  2.92it/s]  8%|▊         | 514/6837 [15:02<35:43,  2.95it/s]  8%|▊         | 515/6837 [15:02<36:07,  2.92it/s]  8%|▊         | 516/6837 [15:02<36:29,  2.89it/s]  8%|▊         | 517/6837 [15:03<36:19,  2.90it/s]  8%|▊         | 518/6837 [15:03<36:05,  2.92it/s]  8%|▊         | 519/6837 [15:03<35:43,  2.95it/s]  8%|▊         | 520/6837 [15:04<36:45,  2.86it/s]  8%|▊         | 521/6837 [15:04<35:55,  2.93it/s]  8%|▊         | 522/6837 [15:04<36:57,  2.85it/s]  8%|▊         | 523/6837 [15:05<36:29,  2.88it/s]  8%|▊         | 524/6837 [15:05<35:20,  2.98it/s]  8%|▊         | 525/6837 [15:05<35:19,  2.98it/s]                                                  {'loss': 5.2953, 'grad_norm': 0.26653507351875305, 'learning_rate': 0.004605263157894737, 'epoch': 0.02}
  8%|▊         | 525/6837 [15:05<35:19,  2.98it/s]  8%|▊         | 526/6837 [15:06<36:42,  2.87it/s]  8%|▊         | 527/6837 [15:06<35:59,  2.92it/s]  8%|▊         | 528/6837 [15:06<35:34,  2.96it/s]  8%|▊         | 529/6837 [15:07<34:35,  3.04it/s]  8%|▊         | 530/6837 [15:07<33:07,  3.17it/s]  8%|▊         | 531/6837 [15:07<34:03,  3.09it/s]  8%|▊         | 532/6837 [15:08<35:48,  2.93it/s]  8%|▊         | 533/6837 [15:08<35:59,  2.92it/s]  8%|▊         | 534/6837 [15:08<36:00,  2.92it/s]  8%|▊         | 535/6837 [15:09<34:21,  3.06it/s]  8%|▊         | 536/6837 [15:09<34:49,  3.02it/s]  8%|▊         | 537/6837 [15:09<34:52,  3.01it/s]  8%|▊         | 538/6837 [15:10<34:29,  3.04it/s]  8%|▊         | 539/6837 [15:10<35:01,  3.00it/s]  8%|▊         | 540/6837 [15:10<34:10,  3.07it/s]  8%|▊         | 541/6837 [15:11<34:05,  3.08it/s]  8%|▊         | 542/6837 [15:11<33:28,  3.13it/s]  8%|▊         | 543/6837 [15:11<34:03,  3.08it/s]  8%|▊         | 544/6837 [15:12<34:14,  3.06it/s]  8%|▊         | 545/6837 [15:12<35:13,  2.98it/s]  8%|▊         | 546/6837 [15:12<36:27,  2.88it/s]  8%|▊         | 547/6837 [15:13<36:29,  2.87it/s]  8%|▊         | 548/6837 [15:13<36:46,  2.85it/s]  8%|▊         | 549/6837 [15:14<38:00,  2.76it/s]  8%|▊         | 550/6837 [15:14<37:11,  2.82it/s]                                                  {'loss': 5.2706, 'grad_norm': 0.2730398178100586, 'learning_rate': 0.004824561403508772, 'epoch': 0.02}
  8%|▊         | 550/6837 [15:14<37:11,  2.82it/s]  8%|▊         | 551/6837 [15:14<38:51,  2.70it/s]  8%|▊         | 552/6837 [15:15<37:51,  2.77it/s]  8%|▊         | 553/6837 [15:15<37:50,  2.77it/s]  8%|▊         | 554/6837 [15:15<39:08,  2.67it/s]  8%|▊         | 555/6837 [15:16<37:25,  2.80it/s]  8%|▊         | 556/6837 [15:16<38:26,  2.72it/s]  8%|▊         | 557/6837 [15:17<41:28,  2.52it/s]  8%|▊         | 558/6837 [15:17<40:35,  2.58it/s]  8%|▊         | 559/6837 [15:17<39:58,  2.62it/s]  8%|▊         | 560/6837 [15:18<39:22,  2.66it/s]  8%|▊         | 561/6837 [15:18<39:29,  2.65it/s]  8%|▊         | 562/6837 [15:18<40:19,  2.59it/s]  8%|▊         | 563/6837 [15:19<38:45,  2.70it/s]  8%|▊         | 564/6837 [15:19<38:01,  2.75it/s]  8%|▊         | 565/6837 [15:19<38:05,  2.74it/s]  8%|▊         | 566/6837 [15:20<36:48,  2.84it/s]  8%|▊         | 567/6837 [15:20<35:08,  2.97it/s]  8%|▊         | 568/6837 [15:20<35:27,  2.95it/s]  8%|▊         | 569/6837 [15:21<33:44,  3.10it/s]  8%|▊         | 570/6837 [15:21<33:20,  3.13it/s]  8%|▊         | 571/6837 [15:21<32:49,  3.18it/s]  8%|▊         | 572/6837 [15:22<32:55,  3.17it/s]  8%|▊         | 573/6837 [15:22<32:22,  3.23it/s]  8%|▊         | 574/6837 [15:22<32:28,  3.21it/s]  8%|▊         | 575/6837 [15:23<33:05,  3.15it/s]{'loss': 5.2456, 'grad_norm': 0.26077064871788025, 'learning_rate': 0.005043859649122807, 'epoch': 0.02}                                                  
  8%|▊         | 575/6837 [15:23<33:05,  3.15it/s]  8%|▊         | 576/6837 [15:23<38:03,  2.74it/s]  8%|▊         | 577/6837 [15:23<38:01,  2.74it/s]  8%|▊         | 578/6837 [15:24<35:58,  2.90it/s]  8%|▊         | 579/6837 [15:24<36:17,  2.87it/s]  8%|▊         | 580/6837 [15:24<34:29,  3.02it/s]  8%|▊         | 581/6837 [15:25<34:55,  2.98it/s]  9%|▊         | 582/6837 [15:25<34:17,  3.04it/s]  9%|▊         | 583/6837 [15:25<34:21,  3.03it/s]  9%|▊         | 584/6837 [15:26<34:31,  3.02it/s]  9%|▊         | 585/6837 [15:26<33:24,  3.12it/s]  9%|▊         | 586/6837 [15:26<32:30,  3.21it/s]  9%|▊         | 587/6837 [15:27<32:12,  3.23it/s]  9%|▊         | 588/6837 [15:27<33:34,  3.10it/s]  9%|▊         | 589/6837 [15:27<33:17,  3.13it/s]  9%|▊         | 590/6837 [15:28<32:45,  3.18it/s]  9%|▊         | 591/6837 [15:28<32:25,  3.21it/s]  9%|▊         | 592/6837 [15:28<31:09,  3.34it/s]  9%|▊         | 593/6837 [15:28<32:09,  3.24it/s]  9%|▊         | 594/6837 [15:29<34:41,  3.00it/s]  9%|▊         | 595/6837 [15:29<33:38,  3.09it/s]  9%|▊         | 596/6837 [15:29<33:36,  3.09it/s]  9%|▊         | 597/6837 [15:30<32:26,  3.21it/s]  9%|▊         | 598/6837 [15:30<34:30,  3.01it/s]  9%|▉         | 599/6837 [15:30<34:16,  3.03it/s]  9%|▉         | 600/6837 [15:31<33:04,  3.14it/s]                                                  {'loss': 5.2218, 'grad_norm': 0.2542518675327301, 'learning_rate': 0.005263157894736842, 'epoch': 0.02}
  9%|▉         | 600/6837 [15:31<33:04,  3.14it/s]  9%|▉         | 601/6837 [15:31<33:09,  3.14it/s]  9%|▉         | 602/6837 [15:31<32:11,  3.23it/s]  9%|▉         | 603/6837 [15:32<33:22,  3.11it/s]  9%|▉         | 604/6837 [15:32<33:18,  3.12it/s]  9%|▉         | 605/6837 [15:32<31:56,  3.25it/s]  9%|▉         | 606/6837 [15:33<32:14,  3.22it/s]  9%|▉         | 607/6837 [15:33<32:48,  3.16it/s]  9%|▉         | 608/6837 [15:33<32:11,  3.22it/s]  9%|▉         | 609/6837 [15:34<31:04,  3.34it/s]  9%|▉         | 610/6837 [15:34<30:49,  3.37it/s]  9%|▉         | 611/6837 [15:34<32:41,  3.17it/s]  9%|▉         | 612/6837 [15:34<32:19,  3.21it/s]  9%|▉         | 613/6837 [15:35<31:40,  3.27it/s]  9%|▉         | 614/6837 [15:35<31:54,  3.25it/s]  9%|▉         | 615/6837 [15:35<31:58,  3.24it/s]  9%|▉         | 616/6837 [15:36<31:00,  3.34it/s]  9%|▉         | 617/6837 [15:36<30:44,  3.37it/s]  9%|▉         | 618/6837 [15:36<29:59,  3.46it/s]  9%|▉         | 619/6837 [15:37<30:05,  3.44it/s]  9%|▉         | 620/6837 [15:37<30:09,  3.44it/s]  9%|▉         | 621/6837 [15:37<29:51,  3.47it/s]  9%|▉         | 622/6837 [15:37<30:24,  3.41it/s]  9%|▉         | 623/6837 [15:38<31:17,  3.31it/s]  9%|▉         | 624/6837 [15:38<31:45,  3.26it/s]  9%|▉         | 625/6837 [15:38<31:14,  3.31it/s]                                                  {'loss': 5.2173, 'grad_norm': 0.24375107884407043, 'learning_rate': 0.005482456140350877, 'epoch': 0.02}
  9%|▉         | 625/6837 [15:38<31:14,  3.31it/s]  9%|▉         | 626/6837 [15:39<30:52,  3.35it/s]  9%|▉         | 627/6837 [15:39<30:08,  3.43it/s]  9%|▉         | 628/6837 [15:39<31:57,  3.24it/s]  9%|▉         | 629/6837 [15:40<31:43,  3.26it/s]  9%|▉         | 630/6837 [15:40<31:54,  3.24it/s]  9%|▉         | 631/6837 [15:40<31:55,  3.24it/s]  9%|▉         | 632/6837 [15:40<32:07,  3.22it/s]  9%|▉         | 633/6837 [15:41<31:51,  3.24it/s]  9%|▉         | 634/6837 [15:41<31:35,  3.27it/s]  9%|▉         | 635/6837 [15:41<31:31,  3.28it/s]  9%|▉         | 636/6837 [15:42<31:15,  3.31it/s]  9%|▉         | 637/6837 [15:42<31:29,  3.28it/s]  9%|▉         | 638/6837 [15:42<31:31,  3.28it/s]  9%|▉         | 639/6837 [15:43<32:25,  3.19it/s]  9%|▉         | 640/6837 [15:43<32:49,  3.15it/s]  9%|▉         | 641/6837 [15:43<34:24,  3.00it/s]  9%|▉         | 642/6837 [15:44<34:03,  3.03it/s]  9%|▉         | 643/6837 [15:44<34:03,  3.03it/s]  9%|▉         | 644/6837 [15:44<33:41,  3.06it/s]  9%|▉         | 645/6837 [15:45<34:01,  3.03it/s]  9%|▉         | 646/6837 [15:45<34:39,  2.98it/s]  9%|▉         | 647/6837 [15:45<34:47,  2.97it/s]  9%|▉         | 648/6837 [15:46<34:26,  3.00it/s]  9%|▉         | 649/6837 [15:46<33:43,  3.06it/s] 10%|▉         | 650/6837 [15:46<33:46,  3.05it/s]                                                  {'loss': 5.1708, 'grad_norm': 0.22548918426036835, 'learning_rate': 0.005701754385964913, 'epoch': 0.02}
 10%|▉         | 650/6837 [15:46<33:46,  3.05it/s] 10%|▉         | 651/6837 [15:47<33:17,  3.10it/s] 10%|▉         | 652/6837 [15:47<41:33,  2.48it/s] 10%|▉         | 653/6837 [15:48<38:21,  2.69it/s] 10%|▉         | 654/6837 [15:48<35:21,  2.91it/s] 10%|▉         | 655/6837 [15:48<33:55,  3.04it/s] 10%|▉         | 656/6837 [15:48<33:35,  3.07it/s] 10%|▉         | 657/6837 [15:49<33:02,  3.12it/s] 10%|▉         | 658/6837 [15:49<31:46,  3.24it/s] 10%|▉         | 659/6837 [15:49<30:38,  3.36it/s] 10%|▉         | 660/6837 [15:50<31:04,  3.31it/s] 10%|▉         | 661/6837 [15:50<30:36,  3.36it/s] 10%|▉         | 662/6837 [15:50<30:13,  3.40it/s] 10%|▉         | 663/6837 [15:50<30:21,  3.39it/s] 10%|▉         | 664/6837 [15:51<30:00,  3.43it/s] 10%|▉         | 665/6837 [15:51<29:21,  3.50it/s] 10%|▉         | 666/6837 [15:51<30:09,  3.41it/s] 10%|▉         | 667/6837 [15:52<29:39,  3.47it/s] 10%|▉         | 668/6837 [15:52<30:32,  3.37it/s] 10%|▉         | 669/6837 [15:52<31:18,  3.28it/s] 10%|▉         | 670/6837 [15:53<30:46,  3.34it/s] 10%|▉         | 671/6837 [15:53<30:46,  3.34it/s] 10%|▉         | 672/6837 [15:53<30:05,  3.41it/s] 10%|▉         | 673/6837 [15:53<30:00,  3.42it/s] 10%|▉         | 674/6837 [15:54<30:14,  3.40it/s] 10%|▉         | 675/6837 [15:54<31:47,  3.23it/s]                                                  {'loss': 5.17, 'grad_norm': 0.21462322771549225, 'learning_rate': 0.0059210526315789476, 'epoch': 0.02}
 10%|▉         | 675/6837 [15:54<31:47,  3.23it/s] 10%|▉         | 676/6837 [15:54<30:39,  3.35it/s] 10%|▉         | 677/6837 [15:55<30:03,  3.42it/s] 10%|▉         | 678/6837 [15:55<30:20,  3.38it/s] 10%|▉         | 679/6837 [15:55<29:30,  3.48it/s] 10%|▉         | 680/6837 [15:55<29:03,  3.53it/s] 10%|▉         | 681/6837 [15:56<28:44,  3.57it/s] 10%|▉         | 682/6837 [15:56<29:19,  3.50it/s] 10%|▉         | 683/6837 [15:56<31:06,  3.30it/s] 10%|█         | 684/6837 [15:57<31:17,  3.28it/s] 10%|█         | 685/6837 [15:57<30:27,  3.37it/s] 10%|█         | 686/6837 [15:57<29:55,  3.43it/s] 10%|█         | 687/6837 [15:58<31:05,  3.30it/s] 10%|█         | 688/6837 [15:58<30:59,  3.31it/s] 10%|█         | 689/6837 [15:58<31:15,  3.28it/s] 10%|█         | 690/6837 [15:58<31:38,  3.24it/s] 10%|█         | 691/6837 [15:59<32:11,  3.18it/s] 10%|█         | 692/6837 [15:59<31:01,  3.30it/s] 10%|█         | 693/6837 [15:59<30:54,  3.31it/s] 10%|█         | 694/6837 [16:00<30:11,  3.39it/s] 10%|█         | 695/6837 [16:00<29:53,  3.42it/s] 10%|█         | 696/6837 [16:00<29:57,  3.42it/s] 10%|█         | 697/6837 [16:01<29:40,  3.45it/s] 10%|█         | 698/6837 [16:01<29:37,  3.45it/s] 10%|█         | 699/6837 [16:01<29:11,  3.50it/s] 10%|█         | 700/6837 [16:01<30:32,  3.35it/s]                                                  {'loss': 5.1409, 'grad_norm': 0.21344247460365295, 'learning_rate': 0.005999899895241028, 'epoch': 0.02}
 10%|█         | 700/6837 [16:01<30:32,  3.35it/s] 10%|█         | 701/6837 [16:02<30:00,  3.41it/s] 10%|█         | 702/6837 [16:02<29:39,  3.45it/s] 10%|█         | 703/6837 [16:02<29:17,  3.49it/s] 10%|█         | 704/6837 [16:03<29:09,  3.51it/s] 10%|█         | 705/6837 [16:03<29:18,  3.49it/s] 10%|█         | 706/6837 [16:03<29:20,  3.48it/s] 10%|█         | 707/6837 [16:03<28:39,  3.57it/s] 10%|█         | 708/6837 [16:04<28:30,  3.58it/s] 10%|█         | 709/6837 [16:04<28:08,  3.63it/s] 10%|█         | 710/6837 [16:04<28:34,  3.57it/s] 10%|█         | 711/6837 [16:05<30:40,  3.33it/s] 10%|█         | 712/6837 [16:05<30:14,  3.37it/s] 10%|█         | 713/6837 [16:05<30:27,  3.35it/s] 10%|█         | 714/6837 [16:05<30:48,  3.31it/s] 10%|█         | 715/6837 [16:06<30:03,  3.39it/s] 10%|█         | 716/6837 [16:06<29:05,  3.51it/s] 10%|█         | 717/6837 [16:06<28:30,  3.58it/s] 11%|█         | 718/6837 [16:07<28:20,  3.60it/s] 11%|█         | 719/6837 [16:07<28:43,  3.55it/s] 11%|█         | 720/6837 [16:07<28:23,  3.59it/s] 11%|█         | 721/6837 [16:07<27:52,  3.66it/s] 11%|█         | 722/6837 [16:08<27:54,  3.65it/s] 11%|█         | 723/6837 [16:08<28:11,  3.61it/s] 11%|█         | 724/6837 [16:08<30:09,  3.38it/s] 11%|█         | 725/6837 [16:09<29:32,  3.45it/s]                                                  {'loss': 5.1216, 'grad_norm': 0.18738315999507904, 'learning_rate': 0.005999342691833758, 'epoch': 0.02}
 11%|█         | 725/6837 [16:09<29:32,  3.45it/s] 11%|█         | 726/6837 [16:09<30:03,  3.39it/s] 11%|█         | 727/6837 [16:09<29:29,  3.45it/s] 11%|█         | 728/6837 [16:09<29:28,  3.45it/s] 11%|█         | 729/6837 [16:10<29:20,  3.47it/s] 11%|█         | 730/6837 [16:10<28:32,  3.57it/s] 11%|█         | 731/6837 [16:10<29:10,  3.49it/s] 11%|█         | 732/6837 [16:11<28:53,  3.52it/s] 11%|█         | 733/6837 [16:11<28:22,  3.58it/s] 11%|█         | 734/6837 [16:11<28:20,  3.59it/s] 11%|█         | 735/6837 [16:11<28:10,  3.61it/s] 11%|█         | 736/6837 [16:12<28:58,  3.51it/s] 11%|█         | 737/6837 [16:12<28:30,  3.57it/s] 11%|█         | 738/6837 [16:12<28:07,  3.61it/s] 11%|█         | 739/6837 [16:12<28:31,  3.56it/s] 11%|█         | 740/6837 [16:13<28:53,  3.52it/s] 11%|█         | 741/6837 [16:13<29:14,  3.48it/s] 11%|█         | 742/6837 [16:13<30:34,  3.32it/s] 11%|█         | 743/6837 [16:14<32:11,  3.16it/s] 11%|█         | 744/6837 [16:14<31:06,  3.26it/s] 11%|█         | 745/6837 [16:14<31:12,  3.25it/s] 11%|█         | 746/6837 [16:15<30:38,  3.31it/s] 11%|█         | 747/6837 [16:15<29:44,  3.41it/s] 11%|█         | 748/6837 [16:15<29:49,  3.40it/s] 11%|█         | 749/6837 [16:16<29:54,  3.39it/s] 11%|█         | 750/6837 [16:16<30:47,  3.30it/s]                                                  {'loss': 5.0885, 'grad_norm': 0.20718792080879211, 'learning_rate': 0.005998296806671316, 'epoch': 0.02}
 11%|█         | 750/6837 [16:16<30:47,  3.30it/s] 11%|█         | 751/6837 [16:16<30:15,  3.35it/s] 11%|█         | 752/6837 [16:16<29:10,  3.48it/s] 11%|█         | 753/6837 [16:17<29:15,  3.47it/s] 11%|█         | 754/6837 [16:17<28:30,  3.56it/s] 11%|█         | 755/6837 [16:17<28:08,  3.60it/s] 11%|█         | 756/6837 [16:17<27:22,  3.70it/s] 11%|█         | 757/6837 [16:18<28:29,  3.56it/s] 11%|█         | 758/6837 [16:18<28:12,  3.59it/s] 11%|█         | 759/6837 [16:18<27:59,  3.62it/s] 11%|█         | 760/6837 [16:19<28:00,  3.62it/s] 11%|█         | 761/6837 [16:19<27:50,  3.64it/s] 11%|█         | 762/6837 [16:19<28:23,  3.57it/s] 11%|█         | 763/6837 [16:19<28:41,  3.53it/s] 11%|█         | 764/6837 [16:20<28:20,  3.57it/s] 11%|█         | 765/6837 [16:20<29:23,  3.44it/s] 11%|█         | 766/6837 [16:20<30:01,  3.37it/s] 11%|█         | 767/6837 [16:21<29:23,  3.44it/s] 11%|█         | 768/6837 [16:21<29:52,  3.39it/s] 11%|█         | 769/6837 [16:21<30:01,  3.37it/s] 11%|█▏        | 770/6837 [16:21<29:07,  3.47it/s] 11%|█▏        | 771/6837 [16:22<28:55,  3.50it/s] 11%|█▏        | 772/6837 [16:22<29:39,  3.41it/s] 11%|█▏        | 773/6837 [16:22<28:42,  3.52it/s] 11%|█▏        | 774/6837 [16:23<28:29,  3.55it/s] 11%|█▏        | 775/6837 [16:23<28:08,  3.59it/s]                                                  {'loss': 5.0715, 'grad_norm': 0.2014467865228653, 'learning_rate': 0.005996762410159371, 'epoch': 0.02}
 11%|█▏        | 775/6837 [16:23<28:08,  3.59it/s] 11%|█▏        | 776/6837 [16:23<28:03,  3.60it/s] 11%|█▏        | 777/6837 [16:23<27:31,  3.67it/s] 11%|█▏        | 778/6837 [16:24<27:05,  3.73it/s] 11%|█▏        | 779/6837 [16:24<26:59,  3.74it/s] 11%|█▏        | 780/6837 [16:24<27:41,  3.65it/s] 11%|█▏        | 781/6837 [16:25<27:23,  3.69it/s] 11%|█▏        | 782/6837 [16:25<27:00,  3.74it/s] 11%|█▏        | 783/6837 [16:25<27:45,  3.63it/s] 11%|█▏        | 784/6837 [16:25<27:53,  3.62it/s] 11%|█▏        | 785/6837 [16:26<28:25,  3.55it/s] 11%|█▏        | 786/6837 [16:26<28:11,  3.58it/s] 12%|█▏        | 787/6837 [16:26<27:51,  3.62it/s] 12%|█▏        | 788/6837 [16:26<29:23,  3.43it/s] 12%|█▏        | 789/6837 [16:27<28:48,  3.50it/s] 12%|█▏        | 790/6837 [16:27<28:19,  3.56it/s] 12%|█▏        | 791/6837 [16:27<28:28,  3.54it/s] 12%|█▏        | 792/6837 [16:28<28:01,  3.60it/s] 12%|█▏        | 793/6837 [16:28<27:43,  3.63it/s] 12%|█▏        | 794/6837 [16:28<28:48,  3.50it/s] 12%|█▏        | 795/6837 [16:28<28:23,  3.55it/s] 12%|█▏        | 796/6837 [16:29<28:21,  3.55it/s] 12%|█▏        | 797/6837 [16:29<29:27,  3.42it/s] 12%|█▏        | 798/6837 [16:29<28:57,  3.48it/s] 12%|█▏        | 799/6837 [16:30<28:13,  3.57it/s] 12%|█▏        | 800/6837 [16:30<27:54,  3.60it/s]                                                  {'loss': 5.0601, 'grad_norm': 0.20796576142311096, 'learning_rate': 0.005994739752296558, 'epoch': 0.02}
 12%|█▏        | 800/6837 [16:30<27:54,  3.60it/s] 12%|█▏        | 801/6837 [16:30<27:54,  3.60it/s] 12%|█▏        | 802/6837 [16:30<28:03,  3.58it/s] 12%|█▏        | 803/6837 [16:31<27:38,  3.64it/s] 12%|█▏        | 804/6837 [16:31<27:09,  3.70it/s] 12%|█▏        | 805/6837 [16:31<27:08,  3.70it/s] 12%|█▏        | 806/6837 [16:31<26:53,  3.74it/s] 12%|█▏        | 807/6837 [16:32<26:54,  3.73it/s] 12%|█▏        | 808/6837 [16:32<26:43,  3.76it/s] 12%|█▏        | 809/6837 [16:32<27:12,  3.69it/s] 12%|█▏        | 810/6837 [16:33<28:03,  3.58it/s] 12%|█▏        | 811/6837 [16:33<28:10,  3.56it/s] 12%|█▏        | 812/6837 [16:33<29:56,  3.35it/s] 12%|█▏        | 813/6837 [16:33<29:05,  3.45it/s] 12%|█▏        | 814/6837 [16:34<28:20,  3.54it/s] 12%|█▏        | 815/6837 [16:34<27:52,  3.60it/s] 12%|█▏        | 816/6837 [16:34<27:34,  3.64it/s] 12%|█▏        | 817/6837 [16:35<27:42,  3.62it/s] 12%|█▏        | 818/6837 [16:35<27:57,  3.59it/s] 12%|█▏        | 819/6837 [16:35<28:27,  3.52it/s] 12%|█▏        | 820/6837 [16:35<27:31,  3.64it/s] 12%|█▏        | 821/6837 [16:36<26:55,  3.72it/s] 12%|█▏        | 822/6837 [16:36<26:22,  3.80it/s] 12%|█▏        | 823/6837 [16:36<26:01,  3.85it/s] 12%|█▏        | 824/6837 [16:36<26:46,  3.74it/s] 12%|█▏        | 825/6837 [16:37<26:59,  3.71it/s]                                                  {'loss': 5.0282, 'grad_norm': 0.18012750148773193, 'learning_rate': 0.00599222916263375, 'epoch': 0.02}
 12%|█▏        | 825/6837 [16:37<26:59,  3.71it/s] 12%|█▏        | 826/6837 [16:37<27:32,  3.64it/s] 12%|█▏        | 827/6837 [16:37<28:14,  3.55it/s] 12%|█▏        | 828/6837 [16:38<27:39,  3.62it/s] 12%|█▏        | 829/6837 [16:38<27:17,  3.67it/s] 12%|█▏        | 830/6837 [16:38<26:49,  3.73it/s] 12%|█▏        | 831/6837 [16:38<27:08,  3.69it/s] 12%|█▏        | 832/6837 [16:39<26:46,  3.74it/s] 12%|█▏        | 833/6837 [16:39<27:14,  3.67it/s] 12%|█▏        | 834/6837 [16:39<26:51,  3.72it/s] 12%|█▏        | 835/6837 [16:39<27:32,  3.63it/s] 12%|█▏        | 836/6837 [16:40<27:14,  3.67it/s] 12%|█▏        | 837/6837 [16:40<28:50,  3.47it/s] 12%|█▏        | 838/6837 [16:40<28:45,  3.48it/s] 12%|█▏        | 839/6837 [16:41<29:29,  3.39it/s] 12%|█▏        | 840/6837 [16:41<29:29,  3.39it/s] 12%|█▏        | 841/6837 [16:41<29:58,  3.33it/s] 12%|█▏        | 842/6837 [16:42<30:25,  3.28it/s] 12%|█▏        | 843/6837 [16:42<30:20,  3.29it/s] 12%|█▏        | 844/6837 [16:42<31:22,  3.18it/s] 12%|█▏        | 845/6837 [16:42<29:41,  3.36it/s] 12%|█▏        | 846/6837 [16:43<29:55,  3.34it/s] 12%|█▏        | 847/6837 [16:43<31:12,  3.20it/s] 12%|█▏        | 848/6837 [16:43<30:41,  3.25it/s] 12%|█▏        | 849/6837 [16:44<30:23,  3.28it/s] 12%|█▏        | 850/6837 [16:44<30:24,  3.28it/s]                                                  {'loss': 5.0196, 'grad_norm': 0.1821032166481018, 'learning_rate': 0.005989231050220356, 'epoch': 0.02}
 12%|█▏        | 850/6837 [16:44<30:24,  3.28it/s] 12%|█▏        | 851/6837 [16:44<30:39,  3.25it/s] 12%|█▏        | 852/6837 [16:45<30:26,  3.28it/s] 12%|█▏        | 853/6837 [16:45<30:01,  3.32it/s] 12%|█▏        | 854/6837 [16:45<31:07,  3.20it/s] 13%|█▎        | 855/6837 [16:46<30:56,  3.22it/s] 13%|█▎        | 856/6837 [16:46<29:24,  3.39it/s] 13%|█▎        | 857/6837 [16:46<29:01,  3.43it/s] 13%|█▎        | 858/6837 [16:46<28:06,  3.54it/s] 13%|█▎        | 859/6837 [16:47<27:50,  3.58it/s] 13%|█▎        | 860/6837 [16:47<27:27,  3.63it/s] 13%|█▎        | 861/6837 [16:47<27:34,  3.61it/s] 13%|█▎        | 862/6837 [16:47<27:36,  3.61it/s] 13%|█▎        | 863/6837 [16:48<27:16,  3.65it/s] 13%|█▎        | 864/6837 [16:48<27:35,  3.61it/s] 13%|█▎        | 865/6837 [16:48<27:47,  3.58it/s] 13%|█▎        | 866/6837 [16:49<27:50,  3.57it/s] 13%|█▎        | 867/6837 [16:49<27:55,  3.56it/s] 13%|█▎        | 868/6837 [16:49<28:01,  3.55it/s] 13%|█▎        | 869/6837 [16:49<28:17,  3.52it/s] 13%|█▎        | 870/6837 [16:50<27:58,  3.55it/s] 13%|█▎        | 871/6837 [16:50<28:04,  3.54it/s] 13%|█▎        | 872/6837 [16:50<27:29,  3.62it/s] 13%|█▎        | 873/6837 [16:51<28:01,  3.55it/s] 13%|█▎        | 874/6837 [16:51<27:26,  3.62it/s] 13%|█▎        | 875/6837 [16:51<27:18,  3.64it/s]                                                  {'loss': 4.9863, 'grad_norm': 0.16888366639614105, 'learning_rate': 0.005985745903537683, 'epoch': 0.03}
 13%|█▎        | 875/6837 [16:51<27:18,  3.64it/s] 13%|█▎        | 876/6837 [16:51<26:51,  3.70it/s] 13%|█▎        | 877/6837 [16:52<26:30,  3.75it/s] 13%|█▎        | 878/6837 [16:52<26:44,  3.71it/s] 13%|█▎        | 879/6837 [16:52<26:51,  3.70it/s] 13%|█▎        | 880/6837 [16:52<27:14,  3.65it/s] 13%|█▎        | 881/6837 [16:53<26:59,  3.68it/s] 13%|█▎        | 882/6837 [16:53<26:39,  3.72it/s] 13%|█▎        | 883/6837 [16:53<26:52,  3.69it/s] 13%|█▎        | 884/6837 [16:54<27:45,  3.57it/s] 13%|█▎        | 885/6837 [16:54<27:22,  3.62it/s] 13%|█▎        | 886/6837 [16:54<27:14,  3.64it/s] 13%|█▎        | 887/6837 [16:54<26:50,  3.70it/s] 13%|█▎        | 888/6837 [16:55<27:39,  3.58it/s] 13%|█▎        | 889/6837 [16:55<27:39,  3.58it/s] 13%|█▎        | 890/6837 [16:55<27:42,  3.58it/s] 13%|█▎        | 891/6837 [16:55<27:28,  3.61it/s] 13%|█▎        | 892/6837 [16:56<27:23,  3.62it/s] 13%|█▎        | 893/6837 [16:56<26:50,  3.69it/s] 13%|█▎        | 894/6837 [16:56<27:15,  3.63it/s] 13%|█▎        | 895/6837 [16:57<27:04,  3.66it/s] 13%|█▎        | 896/6837 [16:57<26:40,  3.71it/s] 13%|█▎        | 897/6837 [16:57<26:54,  3.68it/s] 13%|█▎        | 898/6837 [16:57<26:51,  3.69it/s] 13%|█▎        | 899/6837 [16:58<26:48,  3.69it/s] 13%|█▎        | 900/6837 [16:58<26:38,  3.71it/s]                                                  {'loss': 4.9737, 'grad_norm': 0.17831626534461975, 'learning_rate': 0.005981774290419344, 'epoch': 0.03}
 13%|█▎        | 900/6837 [16:58<26:38,  3.71it/s] 13%|█▎        | 901/6837 [16:58<27:10,  3.64it/s] 13%|█▎        | 902/6837 [16:58<26:56,  3.67it/s] 13%|█▎        | 903/6837 [16:59<26:49,  3.69it/s] 13%|█▎        | 904/6837 [16:59<26:53,  3.68it/s] 13%|█▎        | 905/6837 [16:59<26:37,  3.71it/s] 13%|█▎        | 906/6837 [17:00<26:55,  3.67it/s] 13%|█▎        | 907/6837 [17:00<27:05,  3.65it/s] 13%|█▎        | 908/6837 [17:00<27:06,  3.65it/s] 13%|█▎        | 909/6837 [17:00<26:38,  3.71it/s] 13%|█▎        | 910/6837 [17:01<26:58,  3.66it/s] 13%|█▎        | 911/6837 [17:01<27:20,  3.61it/s] 13%|█▎        | 912/6837 [17:01<27:19,  3.61it/s] 13%|█▎        | 913/6837 [17:01<27:09,  3.64it/s] 13%|█▎        | 914/6837 [17:02<26:31,  3.72it/s] 13%|█▎        | 915/6837 [17:02<26:26,  3.73it/s] 13%|█▎        | 916/6837 [17:02<26:20,  3.75it/s] 13%|█▎        | 917/6837 [17:03<26:18,  3.75it/s] 13%|█▎        | 918/6837 [17:03<26:40,  3.70it/s] 13%|█▎        | 919/6837 [17:03<26:46,  3.68it/s] 13%|█▎        | 920/6837 [17:03<26:35,  3.71it/s] 13%|█▎        | 921/6837 [17:04<26:01,  3.79it/s] 13%|█▎        | 922/6837 [17:04<26:45,  3.69it/s] 14%|█▎        | 923/6837 [17:04<26:43,  3.69it/s] 14%|█▎        | 924/6837 [17:04<27:20,  3.60it/s] 14%|█▎        | 925/6837 [17:05<27:19,  3.61it/s]{'loss': 4.9537, 'grad_norm': 0.19819270074367523, 'learning_rate': 0.005977316857958743, 'epoch': 0.03}                                                  
 14%|█▎        | 925/6837 [17:05<27:19,  3.61it/s] 14%|█▎        | 926/6837 [17:05<27:04,  3.64it/s] 14%|█▎        | 927/6837 [17:05<26:41,  3.69it/s] 14%|█▎        | 928/6837 [17:06<27:31,  3.58it/s] 14%|█▎        | 929/6837 [17:06<27:31,  3.58it/s] 14%|█▎        | 930/6837 [17:06<27:10,  3.62it/s] 14%|█▎        | 931/6837 [17:06<27:16,  3.61it/s] 14%|█▎        | 932/6837 [17:07<26:37,  3.70it/s] 14%|█▎        | 933/6837 [17:07<26:09,  3.76it/s] 14%|█▎        | 934/6837 [17:07<26:29,  3.71it/s] 14%|█▎        | 935/6837 [17:07<26:20,  3.73it/s] 14%|█▎        | 936/6837 [17:08<26:56,  3.65it/s] 14%|█▎        | 937/6837 [17:08<26:19,  3.74it/s] 14%|█▎        | 938/6837 [17:08<26:52,  3.66it/s] 14%|█▎        | 939/6837 [17:08<26:20,  3.73it/s] 14%|█▎        | 940/6837 [17:09<26:26,  3.72it/s] 14%|█▍        | 941/6837 [17:09<26:29,  3.71it/s] 14%|█▍        | 942/6837 [17:09<27:15,  3.60it/s] 14%|█▍        | 943/6837 [17:10<26:54,  3.65it/s] 14%|█▍        | 944/6837 [17:10<27:29,  3.57it/s] 14%|█▍        | 945/6837 [17:10<28:24,  3.46it/s] 14%|█▍        | 946/6837 [17:10<28:26,  3.45it/s] 14%|█▍        | 947/6837 [17:11<28:15,  3.47it/s] 14%|█▍        | 948/6837 [17:11<28:29,  3.45it/s] 14%|█▍        | 949/6837 [17:11<27:44,  3.54it/s] 14%|█▍        | 950/6837 [17:12<27:33,  3.56it/s]                                                  {'loss': 4.9608, 'grad_norm': 0.17900893092155457, 'learning_rate': 0.005972374332403642, 'epoch': 0.03}
 14%|█▍        | 950/6837 [17:12<27:33,  3.56it/s] 14%|█▍        | 951/6837 [17:12<27:09,  3.61it/s] 14%|█▍        | 952/6837 [17:12<26:38,  3.68it/s] 14%|█▍        | 953/6837 [17:12<26:27,  3.71it/s] 14%|█▍        | 954/6837 [17:13<26:28,  3.70it/s] 14%|█▍        | 955/6837 [17:13<26:48,  3.66it/s] 14%|█▍        | 956/6837 [17:13<26:09,  3.75it/s] 14%|█▍        | 957/6837 [17:13<25:40,  3.82it/s] 14%|█▍        | 958/6837 [17:14<25:46,  3.80it/s] 14%|█▍        | 959/6837 [17:14<25:49,  3.79it/s] 14%|█▍        | 960/6837 [17:14<25:53,  3.78it/s] 14%|█▍        | 961/6837 [17:15<26:14,  3.73it/s] 14%|█▍        | 962/6837 [17:15<26:16,  3.73it/s] 14%|█▍        | 963/6837 [17:15<26:01,  3.76it/s] 14%|█▍        | 964/6837 [17:15<25:38,  3.82it/s] 14%|█▍        | 965/6837 [17:16<26:49,  3.65it/s] 14%|█▍        | 966/6837 [17:16<26:45,  3.66it/s] 14%|█▍        | 967/6837 [17:16<26:46,  3.65it/s] 14%|█▍        | 968/6837 [17:16<26:51,  3.64it/s] 14%|█▍        | 969/6837 [17:17<26:58,  3.62it/s] 14%|█▍        | 970/6837 [17:17<26:25,  3.70it/s] 14%|█▍        | 971/6837 [17:17<26:01,  3.76it/s] 14%|█▍        | 972/6837 [17:18<26:13,  3.73it/s] 14%|█▍        | 973/6837 [17:18<26:00,  3.76it/s] 14%|█▍        | 974/6837 [17:18<25:36,  3.81it/s] 14%|█▍        | 975/6837 [17:18<25:44,  3.79it/s]                                                  {'loss': 4.9347, 'grad_norm': 0.1771428883075714, 'learning_rate': 0.005966947519037834, 'epoch': 0.03}
 14%|█▍        | 975/6837 [17:18<25:44,  3.79it/s] 14%|█▍        | 976/6837 [17:19<25:47,  3.79it/s] 14%|█▍        | 977/6837 [17:19<25:28,  3.83it/s] 14%|█▍        | 978/6837 [17:19<25:15,  3.87it/s] 14%|█▍        | 979/6837 [17:19<25:22,  3.85it/s] 14%|█▍        | 980/6837 [17:20<25:25,  3.84it/s] 14%|█▍        | 981/6837 [17:20<25:12,  3.87it/s] 14%|█▍        | 982/6837 [17:20<25:13,  3.87it/s] 14%|█▍        | 983/6837 [17:20<26:46,  3.64it/s] 14%|█▍        | 984/6837 [17:21<26:45,  3.64it/s] 14%|█▍        | 985/6837 [17:21<26:01,  3.75it/s] 14%|█▍        | 986/6837 [17:21<25:28,  3.83it/s] 14%|█▍        | 987/6837 [17:21<25:13,  3.87it/s] 14%|█▍        | 988/6837 [17:22<24:52,  3.92it/s] 14%|█▍        | 989/6837 [17:22<24:53,  3.92it/s] 14%|█▍        | 990/6837 [17:22<24:48,  3.93it/s] 14%|█▍        | 991/6837 [17:22<25:23,  3.84it/s] 15%|█▍        | 992/6837 [17:23<25:12,  3.86it/s] 15%|█▍        | 993/6837 [17:23<25:09,  3.87it/s] 15%|█▍        | 994/6837 [17:23<25:09,  3.87it/s] 15%|█▍        | 995/6837 [17:23<25:08,  3.87it/s] 15%|█▍        | 996/6837 [17:24<24:48,  3.92it/s] 15%|█▍        | 997/6837 [17:24<24:46,  3.93it/s] 15%|█▍        | 998/6837 [17:24<24:41,  3.94it/s] 15%|█▍        | 999/6837 [17:25<24:45,  3.93it/s] 15%|█▍        | 1000/6837 [17:25<24:57,  3.90it/s]                                                   {'loss': 4.9352, 'grad_norm': 0.15494541823863983, 'learning_rate': 0.005961037302049941, 'epoch': 0.03}
 15%|█▍        | 1000/6837 [17:25<24:57,  3.90it/s] 15%|█▍        | 1001/6837 [17:25<25:01,  3.89it/s] 15%|█▍        | 1002/6837 [17:25<24:51,  3.91it/s] 15%|█▍        | 1003/6837 [17:26<24:35,  3.95it/s] 15%|█▍        | 1004/6837 [17:26<24:41,  3.94it/s] 15%|█▍        | 1005/6837 [17:26<24:52,  3.91it/s] 15%|█▍        | 1006/6837 [17:26<25:31,  3.81it/s] 15%|█▍        | 1007/6837 [17:27<25:07,  3.87it/s] 15%|█▍        | 1008/6837 [17:27<25:20,  3.83it/s] 15%|█▍        | 1009/6837 [17:27<25:06,  3.87it/s] 15%|█▍        | 1010/6837 [17:27<24:55,  3.90it/s] 15%|█▍        | 1011/6837 [17:28<24:45,  3.92it/s] 15%|█▍        | 1012/6837 [17:28<24:44,  3.92it/s] 15%|█▍        | 1013/6837 [17:28<24:39,  3.94it/s] 15%|█▍        | 1014/6837 [17:28<24:30,  3.96it/s] 15%|█▍        | 1015/6837 [17:29<24:41,  3.93it/s] 15%|█▍        | 1016/6837 [17:29<24:43,  3.92it/s] 15%|█▍        | 1017/6837 [17:29<25:18,  3.83it/s] 15%|█▍        | 1018/6837 [17:29<24:59,  3.88it/s] 15%|█▍        | 1019/6837 [17:30<25:38,  3.78it/s] 15%|█▍        | 1020/6837 [17:30<25:20,  3.83it/s] 15%|█▍        | 1021/6837 [17:30<26:24,  3.67it/s] 15%|█▍        | 1022/6837 [17:30<26:24,  3.67it/s] 15%|█▍        | 1023/6837 [17:31<25:40,  3.77it/s] 15%|█▍        | 1024/6837 [17:31<25:24,  3.81it/s] 15%|█▍        | 1025/6837 [17:31<25:11,  3.84it/s]                                                   {'loss': 4.9, 'grad_norm': 0.15592190623283386, 'learning_rate': 0.005954644644389354, 'epoch': 0.03}
 15%|█▍        | 1025/6837 [17:31<25:11,  3.84it/s] 15%|█▌        | 1026/6837 [17:32<25:02,  3.87it/s] 15%|█▌        | 1027/6837 [17:32<25:11,  3.84it/s] 15%|█▌        | 1028/6837 [17:32<25:13,  3.84it/s] 15%|█▌        | 1029/6837 [17:32<24:52,  3.89it/s] 15%|█▌        | 1030/6837 [17:33<24:55,  3.88it/s] 15%|█▌        | 1031/6837 [17:33<24:48,  3.90it/s] 15%|█▌        | 1032/6837 [17:33<24:42,  3.91it/s] 15%|█▌        | 1033/6837 [17:33<24:28,  3.95it/s] 15%|█▌        | 1034/6837 [17:34<25:05,  3.86it/s] 15%|█▌        | 1035/6837 [17:34<24:45,  3.90it/s] 15%|█▌        | 1036/6837 [17:34<24:37,  3.93it/s] 15%|█▌        | 1037/6837 [17:34<24:29,  3.95it/s] 15%|█▌        | 1038/6837 [17:35<24:35,  3.93it/s] 15%|█▌        | 1039/6837 [17:35<24:47,  3.90it/s] 15%|█▌        | 1040/6837 [17:35<24:45,  3.90it/s] 15%|█▌        | 1041/6837 [17:35<24:45,  3.90it/s] 15%|█▌        | 1042/6837 [17:36<24:43,  3.91it/s] 15%|█▌        | 1043/6837 [17:36<24:42,  3.91it/s] 15%|█▌        | 1044/6837 [17:36<24:53,  3.88it/s] 15%|█▌        | 1045/6837 [17:36<24:54,  3.88it/s] 15%|█▌        | 1046/6837 [17:37<24:39,  3.91it/s] 15%|█▌        | 1047/6837 [17:37<24:48,  3.89it/s] 15%|█▌        | 1048/6837 [17:37<24:44,  3.90it/s] 15%|█▌        | 1049/6837 [17:37<24:35,  3.92it/s] 15%|█▌        | 1050/6837 [17:38<24:32,  3.93it/s]{'loss': 4.8978, 'grad_norm': 0.15409070253372192, 'learning_rate': 0.0059477705876093325, 'epoch': 0.03}
                                                    15%|█▌        | 1050/6837 [17:38<24:32,  3.93it/s] 15%|█▌        | 1051/6837 [17:38<25:27,  3.79it/s] 15%|█▌        | 1052/6837 [17:38<25:24,  3.80it/s] 15%|█▌        | 1053/6837 [17:38<24:55,  3.87it/s] 15%|█▌        | 1054/6837 [17:39<25:12,  3.82it/s] 15%|█▌        | 1055/6837 [17:39<24:53,  3.87it/s] 15%|█▌        | 1056/6837 [17:39<24:38,  3.91it/s] 15%|█▌        | 1057/6837 [17:39<24:28,  3.94it/s] 15%|█▌        | 1058/6837 [17:40<24:35,  3.92it/s] 15%|█▌        | 1059/6837 [17:40<24:30,  3.93it/s] 16%|█▌        | 1060/6837 [17:40<24:19,  3.96it/s] 16%|█▌        | 1061/6837 [17:40<24:14,  3.97it/s] 16%|█▌        | 1062/6837 [17:41<24:08,  3.99it/s] 16%|█▌        | 1063/6837 [17:41<24:06,  3.99it/s] 16%|█▌        | 1064/6837 [17:41<24:07,  3.99it/s] 16%|█▌        | 1065/6837 [17:41<23:59,  4.01it/s] 16%|█▌        | 1066/6837 [17:42<23:54,  4.02it/s] 16%|█▌        | 1067/6837 [17:42<23:48,  4.04it/s] 16%|█▌        | 1068/6837 [17:42<23:52,  4.03it/s] 16%|█▌        | 1069/6837 [17:42<24:11,  3.97it/s] 16%|█▌        | 1070/6837 [17:43<25:07,  3.83it/s] 16%|█▌        | 1071/6837 [17:43<25:26,  3.78it/s] 16%|█▌        | 1072/6837 [17:43<25:52,  3.71it/s] 16%|█▌        | 1073/6837 [17:44<26:10,  3.67it/s] 16%|█▌        | 1074/6837 [17:44<25:45,  3.73it/s] 16%|█▌        | 1075/6837 [17:44<25:08,  3.82it/s]                                                   {'loss': 4.8736, 'grad_norm': 0.160922572016716, 'learning_rate': 0.0059404162516973145, 'epoch': 0.03}
 16%|█▌        | 1075/6837 [17:44<25:08,  3.82it/s] 16%|█▌        | 1076/6837 [17:44<24:56,  3.85it/s] 16%|█▌        | 1077/6837 [17:45<24:43,  3.88it/s] 16%|█▌        | 1078/6837 [17:45<24:35,  3.90it/s] 16%|█▌        | 1079/6837 [17:45<24:14,  3.96it/s] 16%|█▌        | 1080/6837 [17:45<24:03,  3.99it/s] 16%|█▌        | 1081/6837 [17:46<24:29,  3.92it/s] 16%|█▌        | 1082/6837 [17:46<24:30,  3.91it/s] 16%|█▌        | 1083/6837 [17:46<24:18,  3.94it/s] 16%|█▌        | 1084/6837 [17:46<24:13,  3.96it/s] 16%|█▌        | 1085/6837 [17:47<24:17,  3.95it/s] 16%|█▌        | 1086/6837 [17:47<24:21,  3.94it/s] 16%|█▌        | 1087/6837 [17:47<24:02,  3.99it/s] 16%|█▌        | 1088/6837 [17:47<23:58,  4.00it/s] 16%|█▌        | 1089/6837 [17:48<24:04,  3.98it/s] 16%|█▌        | 1090/6837 [17:48<24:41,  3.88it/s] 16%|█▌        | 1091/6837 [17:48<24:19,  3.94it/s] 16%|█▌        | 1092/6837 [17:48<24:26,  3.92it/s] 16%|█▌        | 1093/6837 [17:49<24:25,  3.92it/s] 16%|█▌        | 1094/6837 [17:49<24:12,  3.95it/s] 16%|█▌        | 1095/6837 [17:49<24:06,  3.97it/s] 16%|█▌        | 1096/6837 [17:49<23:54,  4.00it/s] 16%|█▌        | 1097/6837 [17:50<23:51,  4.01it/s] 16%|█▌        | 1098/6837 [17:50<24:17,  3.94it/s] 16%|█▌        | 1099/6837 [17:50<24:19,  3.93it/s] 16%|█▌        | 1100/6837 [17:50<24:11,  3.95it/s]{'loss': 4.8651, 'grad_norm': 0.1596185714006424, 'learning_rate': 0.005932582834892431, 'epoch': 0.03}                                                   
 16%|█▌        | 1100/6837 [17:50<24:11,  3.95it/s] 16%|█▌        | 1101/6837 [17:51<24:04,  3.97it/s] 16%|█▌        | 1102/6837 [17:51<23:50,  4.01it/s] 16%|█▌        | 1103/6837 [17:51<23:46,  4.02it/s] 16%|█▌        | 1104/6837 [17:51<23:54,  4.00it/s] 16%|█▌        | 1105/6837 [17:52<24:00,  3.98it/s] 16%|█▌        | 1106/6837 [17:52<23:50,  4.01it/s] 16%|█▌        | 1107/6837 [17:52<23:59,  3.98it/s] 16%|█▌        | 1108/6837 [17:52<24:09,  3.95it/s] 16%|█▌        | 1109/6837 [17:53<24:00,  3.98it/s] 16%|█▌        | 1110/6837 [17:53<23:57,  3.98it/s] 16%|█▌        | 1111/6837 [17:53<23:52,  4.00it/s] 16%|█▋        | 1112/6837 [17:53<24:30,  3.89it/s] 16%|█▋        | 1113/6837 [17:54<24:22,  3.91it/s] 16%|█▋        | 1114/6837 [17:54<24:02,  3.97it/s] 16%|█▋        | 1115/6837 [17:54<23:53,  3.99it/s] 16%|█▋        | 1116/6837 [17:54<23:52,  3.99it/s] 16%|█▋        | 1117/6837 [17:55<23:49,  4.00it/s] 16%|█▋        | 1118/6837 [17:55<23:50,  4.00it/s] 16%|█▋        | 1119/6837 [17:55<23:59,  3.97it/s] 16%|█▋        | 1120/6837 [17:55<23:54,  3.98it/s] 16%|█▋        | 1121/6837 [17:56<23:44,  4.01it/s] 16%|█▋        | 1122/6837 [17:56<23:49,  4.00it/s] 16%|█▋        | 1123/6837 [17:56<24:03,  3.96it/s] 16%|█▋        | 1124/6837 [17:56<24:10,  3.94it/s] 16%|█▋        | 1125/6837 [17:57<24:02,  3.96it/s]                                                   {'loss': 4.8762, 'grad_norm': 0.15350407361984253, 'learning_rate': 0.0059242716134902795, 'epoch': 0.03}
 16%|█▋        | 1125/6837 [17:57<24:02,  3.96it/s] 16%|█▋        | 1126/6837 [17:57<24:06,  3.95it/s] 16%|█▋        | 1127/6837 [17:57<23:56,  3.98it/s] 16%|█▋        | 1128/6837 [17:57<23:54,  3.98it/s] 17%|█▋        | 1129/6837 [17:58<23:59,  3.96it/s] 17%|█▋        | 1130/6837 [17:58<23:45,  4.00it/s] 17%|█▋        | 1131/6837 [17:58<23:49,  3.99it/s] 17%|█▋        | 1132/6837 [17:58<23:48,  3.99it/s] 17%|█▋        | 1133/6837 [17:59<23:50,  3.99it/s] 17%|█▋        | 1134/6837 [17:59<23:48,  3.99it/s] 17%|█▋        | 1135/6837 [17:59<24:23,  3.90it/s] 17%|█▋        | 1136/6837 [17:59<24:09,  3.93it/s] 17%|█▋        | 1137/6837 [18:00<24:06,  3.94it/s] 17%|█▋        | 1138/6837 [18:00<24:07,  3.94it/s] 17%|█▋        | 1139/6837 [18:00<24:55,  3.81it/s] 17%|█▋        | 1140/6837 [18:01<25:27,  3.73it/s] 17%|█▋        | 1141/6837 [18:01<25:47,  3.68it/s] 17%|█▋        | 1142/6837 [18:01<25:36,  3.71it/s] 17%|█▋        | 1143/6837 [18:01<24:53,  3.81it/s] 17%|█▋        | 1144/6837 [18:02<24:35,  3.86it/s] 17%|█▋        | 1145/6837 [18:02<24:19,  3.90it/s] 17%|█▋        | 1146/6837 [18:02<24:03,  3.94it/s] 17%|█▋        | 1147/6837 [18:02<23:47,  3.99it/s] 17%|█▋        | 1148/6837 [18:03<23:50,  3.98it/s] 17%|█▋        | 1149/6837 [18:03<23:38,  4.01it/s] 17%|█▋        | 1150/6837 [18:03<23:41,  4.00it/s]                                                   {'loss': 4.853, 'grad_norm': 0.14462624490261078, 'learning_rate': 0.0059154839416349775, 'epoch': 0.03}
 17%|█▋        | 1150/6837 [18:03<23:41,  4.00it/s] 17%|█▋        | 1151/6837 [18:03<23:42,  4.00it/s] 17%|█▋        | 1152/6837 [18:04<23:38,  4.01it/s] 17%|█▋        | 1153/6837 [18:04<23:39,  4.00it/s] 17%|█▋        | 1154/6837 [18:04<23:28,  4.04it/s] 17%|█▋        | 1155/6837 [18:04<24:06,  3.93it/s] 17%|█▋        | 1156/6837 [18:05<24:04,  3.93it/s] 17%|█▋        | 1157/6837 [18:05<23:58,  3.95it/s] 17%|█▋        | 1158/6837 [18:05<23:44,  3.99it/s] 17%|█▋        | 1159/6837 [18:05<23:39,  4.00it/s] 17%|█▋        | 1160/6837 [18:06<23:34,  4.01it/s] 17%|█▋        | 1161/6837 [18:06<23:37,  4.00it/s] 17%|█▋        | 1162/6837 [18:06<23:37,  4.00it/s] 17%|█▋        | 1163/6837 [18:06<24:07,  3.92it/s] 17%|█▋        | 1164/6837 [18:07<23:49,  3.97it/s] 17%|█▋        | 1165/6837 [18:07<23:47,  3.97it/s] 17%|█▋        | 1166/6837 [18:07<23:39,  4.00it/s] 17%|█▋        | 1167/6837 [18:07<23:41,  3.99it/s] 17%|█▋        | 1168/6837 [18:08<23:37,  4.00it/s] 17%|█▋        | 1169/6837 [18:08<23:39,  3.99it/s] 17%|█▋        | 1170/6837 [18:08<23:36,  4.00it/s] 17%|█▋        | 1171/6837 [18:08<23:46,  3.97it/s] 17%|█▋        | 1172/6837 [18:09<23:41,  3.99it/s] 17%|█▋        | 1173/6837 [18:09<24:20,  3.88it/s] 17%|█▋        | 1174/6837 [18:09<23:59,  3.93it/s] 17%|█▋        | 1175/6837 [18:09<24:27,  3.86it/s]                                                   {'loss': 4.8587, 'grad_norm': 0.14773821830749512, 'learning_rate': 0.005906221251098531, 'epoch': 0.03}
 17%|█▋        | 1175/6837 [18:09<24:27,  3.86it/s] 17%|█▋        | 1176/6837 [18:10<24:09,  3.90it/s] 17%|█▋        | 1177/6837 [18:10<24:08,  3.91it/s] 17%|█▋        | 1178/6837 [18:10<23:59,  3.93it/s] 17%|█▋        | 1179/6837 [18:10<23:48,  3.96it/s] 17%|█▋        | 1180/6837 [18:11<23:42,  3.98it/s] 17%|█▋        | 1181/6837 [18:11<23:49,  3.96it/s] 17%|█▋        | 1182/6837 [18:11<23:33,  4.00it/s] 17%|█▋        | 1183/6837 [18:11<23:22,  4.03it/s] 17%|█▋        | 1184/6837 [18:12<23:19,  4.04it/s] 17%|█▋        | 1185/6837 [18:12<23:15,  4.05it/s] 17%|█▋        | 1186/6837 [18:12<23:11,  4.06it/s] 17%|█▋        | 1187/6837 [18:12<23:11,  4.06it/s] 17%|█▋        | 1188/6837 [18:13<23:05,  4.08it/s] 17%|█▋        | 1189/6837 [18:13<23:51,  3.95it/s] 17%|█▋        | 1190/6837 [18:13<23:43,  3.97it/s] 17%|█▋        | 1191/6837 [18:13<23:38,  3.98it/s] 17%|█▋        | 1192/6837 [18:14<23:40,  3.97it/s] 17%|█▋        | 1193/6837 [18:14<23:35,  3.99it/s] 17%|█▋        | 1194/6837 [18:14<23:27,  4.01it/s] 17%|█▋        | 1195/6837 [18:14<23:32,  3.99it/s] 17%|█▋        | 1196/6837 [18:15<23:20,  4.03it/s] 18%|█▊        | 1197/6837 [18:15<23:17,  4.04it/s] 18%|█▊        | 1198/6837 [18:15<23:27,  4.01it/s] 18%|█▊        | 1199/6837 [18:15<23:31,  4.00it/s] 18%|█▊        | 1200/6837 [18:16<23:28,  4.00it/s]                                                   {'loss': 4.8266, 'grad_norm': 0.15739105641841888, 'learning_rate': 0.005896485051047562, 'epoch': 0.04}
 18%|█▊        | 1200/6837 [18:16<23:28,  4.00it/s] 18%|█▊        | 1201/6837 [18:16<23:26,  4.01it/s] 18%|█▊        | 1202/6837 [18:16<23:24,  4.01it/s] 18%|█▊        | 1203/6837 [18:16<23:27,  4.00it/s] 18%|█▊        | 1204/6837 [18:17<23:28,  4.00it/s] 18%|█▊        | 1205/6837 [18:17<23:20,  4.02it/s] 18%|█▊        | 1206/6837 [18:17<23:26,  4.00it/s] 18%|█▊        | 1207/6837 [18:17<23:30,  3.99it/s] 18%|█▊        | 1208/6837 [18:18<23:25,  4.00it/s] 18%|█▊        | 1209/6837 [18:18<23:26,  4.00it/s] 18%|█▊        | 1210/6837 [18:18<23:24,  4.01it/s] 18%|█▊        | 1211/6837 [18:18<23:20,  4.02it/s] 18%|█▊        | 1212/6837 [18:19<23:15,  4.03it/s] 18%|█▊        | 1213/6837 [18:19<23:09,  4.05it/s] 18%|█▊        | 1214/6837 [18:19<23:50,  3.93it/s] 18%|█▊        | 1215/6837 [18:19<23:37,  3.97it/s] 18%|█▊        | 1216/6837 [18:20<23:26,  4.00it/s] 18%|█▊        | 1217/6837 [18:20<23:25,  4.00it/s] 18%|█▊        | 1218/6837 [18:20<23:17,  4.02it/s] 18%|█▊        | 1219/6837 [18:20<23:12,  4.03it/s] 18%|█▊        | 1220/6837 [18:21<23:13,  4.03it/s] 18%|█▊        | 1221/6837 [18:21<23:02,  4.06it/s] 18%|█▊        | 1222/6837 [18:21<23:01,  4.07it/s] 18%|█▊        | 1223/6837 [18:21<23:10,  4.04it/s] 18%|█▊        | 1224/6837 [18:22<23:03,  4.06it/s] 18%|█▊        | 1225/6837 [18:22<23:01,  4.06it/s]                                                   {'loss': 4.829, 'grad_norm': 0.14097338914871216, 'learning_rate': 0.0058862769277974085, 'epoch': 0.04}
 18%|█▊        | 1225/6837 [18:22<23:01,  4.06it/s] 18%|█▊        | 1226/6837 [18:22<23:15,  4.02it/s] 18%|█▊        | 1227/6837 [18:22<23:09,  4.04it/s] 18%|█▊        | 1228/6837 [18:23<22:58,  4.07it/s] 18%|█▊        | 1229/6837 [18:23<23:01,  4.06it/s] 18%|█▊        | 1230/6837 [18:23<22:57,  4.07it/s] 18%|█▊        | 1231/6837 [18:23<23:08,  4.04it/s] 18%|█▊        | 1232/6837 [18:24<23:02,  4.05it/s] 18%|█▊        | 1233/6837 [18:24<23:02,  4.05it/s] 18%|█▊        | 1234/6837 [18:24<22:59,  4.06it/s] 18%|█▊        | 1235/6837 [18:24<23:06,  4.04it/s] 18%|█▊        | 1236/6837 [18:25<23:08,  4.04it/s] 18%|█▊        | 1237/6837 [18:25<23:01,  4.05it/s] 18%|█▊        | 1238/6837 [18:25<22:58,  4.06it/s] 18%|█▊        | 1239/6837 [18:25<22:58,  4.06it/s] 18%|█▊        | 1240/6837 [18:26<23:28,  3.97it/s] 18%|█▊        | 1241/6837 [18:26<23:16,  4.01it/s] 18%|█▊        | 1242/6837 [18:26<23:20,  3.99it/s] 18%|█▊        | 1243/6837 [18:26<23:10,  4.02it/s] 18%|█▊        | 1244/6837 [18:27<23:10,  4.02it/s] 18%|█▊        | 1245/6837 [18:27<23:09,  4.02it/s] 18%|█▊        | 1246/6837 [18:27<23:06,  4.03it/s] 18%|█▊        | 1247/6837 [18:27<23:28,  3.97it/s] 18%|█▊        | 1248/6837 [18:28<23:51,  3.90it/s] 18%|█▊        | 1249/6837 [18:28<24:05,  3.87it/s] 18%|█▊        | 1250/6837 [18:28<23:45,  3.92it/s]                                                   {'loss': 4.8191, 'grad_norm': 0.14332738518714905, 'learning_rate': 0.0058755985445536835, 'epoch': 0.04}
 18%|█▊        | 1250/6837 [18:28<23:45,  3.92it/s] 18%|█▊        | 1251/6837 [18:28<23:41,  3.93it/s] 18%|█▊        | 1252/6837 [18:29<23:42,  3.93it/s] 18%|█▊        | 1253/6837 [18:29<23:42,  3.92it/s] 18%|█▊        | 1254/6837 [18:29<24:04,  3.86it/s] 18%|█▊        | 1255/6837 [18:29<24:02,  3.87it/s] 18%|█▊        | 1256/6837 [18:30<24:02,  3.87it/s] 18%|█▊        | 1257/6837 [18:30<24:19,  3.82it/s] 18%|█▊        | 1258/6837 [18:30<24:20,  3.82it/s] 18%|█▊        | 1259/6837 [18:30<24:03,  3.86it/s] 18%|█▊        | 1260/6837 [18:31<23:46,  3.91it/s] 18%|█▊        | 1261/6837 [18:31<23:24,  3.97it/s] 18%|█▊        | 1262/6837 [18:31<24:42,  3.76it/s] 18%|█▊        | 1263/6837 [18:31<24:09,  3.85it/s] 18%|█▊        | 1264/6837 [18:32<23:42,  3.92it/s] 19%|█▊        | 1265/6837 [18:32<24:56,  3.72it/s] 19%|█▊        | 1266/6837 [18:32<24:18,  3.82it/s] 19%|█▊        | 1267/6837 [18:32<23:54,  3.88it/s] 19%|█▊        | 1268/6837 [18:33<24:36,  3.77it/s] 19%|█▊        | 1269/6837 [18:33<24:05,  3.85it/s] 19%|█▊        | 1270/6837 [18:33<23:46,  3.90it/s] 19%|█▊        | 1271/6837 [18:34<23:24,  3.96it/s] 19%|█▊        | 1272/6837 [18:34<23:12,  4.00it/s] 19%|█▊        | 1273/6837 [18:34<23:18,  3.98it/s] 19%|█▊        | 1274/6837 [18:34<23:05,  4.01it/s] 19%|█▊        | 1275/6837 [18:34<22:58,  4.04it/s]                                                   {'loss': 4.8108, 'grad_norm': 0.18900059163570404, 'learning_rate': 0.005864451641141273, 'epoch': 0.04}
 19%|█▊        | 1275/6837 [18:34<22:58,  4.04it/s] 19%|█▊        | 1276/6837 [18:35<23:00,  4.03it/s] 19%|█▊        | 1277/6837 [18:35<22:53,  4.05it/s] 19%|█▊        | 1278/6837 [18:35<22:48,  4.06it/s] 19%|█▊        | 1279/6837 [18:35<22:53,  4.05it/s] 19%|█▊        | 1280/6837 [18:36<23:02,  4.02it/s] 19%|█▊        | 1281/6837 [18:36<23:01,  4.02it/s] 19%|█▉        | 1282/6837 [18:36<23:00,  4.03it/s] 19%|█▉        | 1283/6837 [18:36<22:54,  4.04it/s] 19%|█▉        | 1284/6837 [18:37<22:58,  4.03it/s] 19%|█▉        | 1285/6837 [18:37<22:57,  4.03it/s] 19%|█▉        | 1286/6837 [18:37<23:05,  4.01it/s] 19%|█▉        | 1287/6837 [18:37<22:54,  4.04it/s] 19%|█▉        | 1288/6837 [18:38<23:04,  4.01it/s] 19%|█▉        | 1289/6837 [18:38<22:53,  4.04it/s] 19%|█▉        | 1290/6837 [18:38<22:48,  4.05it/s] 19%|█▉        | 1291/6837 [18:38<22:43,  4.07it/s] 19%|█▉        | 1292/6837 [18:39<22:45,  4.06it/s] 19%|█▉        | 1293/6837 [18:39<22:43,  4.07it/s] 19%|█▉        | 1294/6837 [18:39<22:43,  4.07it/s] 19%|█▉        | 1295/6837 [18:39<22:58,  4.02it/s] 19%|█▉        | 1296/6837 [18:40<22:55,  4.03it/s] 19%|█▉        | 1297/6837 [18:40<22:48,  4.05it/s] 19%|█▉        | 1298/6837 [18:40<22:45,  4.06it/s] 19%|█▉        | 1299/6837 [18:40<22:42,  4.07it/s] 19%|█▉        | 1300/6837 [18:41<22:39,  4.07it/s]                                                   {'loss': 4.7889, 'grad_norm': 0.15760479867458344, 'learning_rate': 0.0058528380337208785, 'epoch': 0.04}
 19%|█▉        | 1300/6837 [18:41<22:39,  4.07it/s] 19%|█▉        | 1301/6837 [18:41<22:49,  4.04it/s] 19%|█▉        | 1302/6837 [18:41<22:41,  4.07it/s] 19%|█▉        | 1303/6837 [18:41<22:39,  4.07it/s] 19%|█▉        | 1304/6837 [18:42<22:39,  4.07it/s] 19%|█▉        | 1305/6837 [18:42<22:39,  4.07it/s] 19%|█▉        | 1306/6837 [18:42<22:34,  4.08it/s] 19%|█▉        | 1307/6837 [18:42<22:38,  4.07it/s] 19%|█▉        | 1308/6837 [18:43<22:36,  4.08it/s] 19%|█▉        | 1309/6837 [18:43<23:15,  3.96it/s] 19%|█▉        | 1310/6837 [18:43<23:42,  3.89it/s] 19%|█▉        | 1311/6837 [18:43<23:17,  3.95it/s] 19%|█▉        | 1312/6837 [18:44<23:04,  3.99it/s] 19%|█▉        | 1313/6837 [18:44<22:54,  4.02it/s] 19%|█▉        | 1314/6837 [18:44<22:45,  4.05it/s] 19%|█▉        | 1315/6837 [18:44<22:38,  4.06it/s] 19%|█▉        | 1316/6837 [18:45<22:32,  4.08it/s] 19%|█▉        | 1317/6837 [18:45<22:27,  4.10it/s] 19%|█▉        | 1318/6837 [18:45<22:29,  4.09it/s] 19%|█▉        | 1319/6837 [18:45<22:35,  4.07it/s] 19%|█▉        | 1320/6837 [18:46<22:50,  4.03it/s] 19%|█▉        | 1321/6837 [18:46<22:43,  4.05it/s] 19%|█▉        | 1322/6837 [18:46<22:32,  4.08it/s] 19%|█▉        | 1323/6837 [18:46<22:27,  4.09it/s] 19%|█▉        | 1324/6837 [18:47<22:33,  4.07it/s] 19%|█▉        | 1325/6837 [18:47<22:34,  4.07it/s]                                                   {'loss': 4.7944, 'grad_norm': 0.1523684561252594, 'learning_rate': 0.005840759614493106, 'epoch': 0.04}
 19%|█▉        | 1325/6837 [18:47<22:34,  4.07it/s] 19%|█▉        | 1326/6837 [18:47<22:35,  4.07it/s] 19%|█▉        | 1327/6837 [18:47<22:41,  4.05it/s] 19%|█▉        | 1328/6837 [18:48<22:33,  4.07it/s] 19%|█▉        | 1329/6837 [18:48<22:27,  4.09it/s] 19%|█▉        | 1330/6837 [18:48<22:21,  4.10it/s] 19%|█▉        | 1331/6837 [18:48<22:18,  4.11it/s] 19%|█▉        | 1332/6837 [18:49<22:38,  4.05it/s] 19%|█▉        | 1333/6837 [18:49<22:36,  4.06it/s] 20%|█▉        | 1334/6837 [18:49<22:26,  4.09it/s] 20%|█▉        | 1335/6837 [18:49<22:23,  4.09it/s] 20%|█▉        | 1336/6837 [18:50<22:26,  4.09it/s] 20%|█▉        | 1337/6837 [18:50<22:25,  4.09it/s] 20%|█▉        | 1338/6837 [18:50<22:18,  4.11it/s] 20%|█▉        | 1339/6837 [18:50<22:28,  4.08it/s] 20%|█▉        | 1340/6837 [18:51<22:29,  4.07it/s] 20%|█▉        | 1341/6837 [18:51<22:23,  4.09it/s] 20%|█▉        | 1342/6837 [18:51<22:32,  4.06it/s] 20%|█▉        | 1343/6837 [18:51<22:39,  4.04it/s] 20%|█▉        | 1344/6837 [18:52<22:33,  4.06it/s] 20%|█▉        | 1345/6837 [18:52<22:30,  4.07it/s] 20%|█▉        | 1346/6837 [18:52<22:53,  4.00it/s] 20%|█▉        | 1347/6837 [18:52<22:42,  4.03it/s] 20%|█▉        | 1348/6837 [18:53<22:36,  4.05it/s] 20%|█▉        | 1349/6837 [18:53<22:40,  4.03it/s] 20%|█▉        | 1350/6837 [18:53<22:35,  4.05it/s]                                                   {'loss': 4.7685, 'grad_norm': 0.15037256479263306, 'learning_rate': 0.005828218351390171, 'epoch': 0.04}
 20%|█▉        | 1350/6837 [18:53<22:35,  4.05it/s] 20%|█▉        | 1351/6837 [18:53<22:41,  4.03it/s] 20%|█▉        | 1352/6837 [18:53<22:33,  4.05it/s] 20%|█▉        | 1353/6837 [18:54<22:28,  4.07it/s] 20%|█▉        | 1354/6837 [18:54<22:20,  4.09it/s] 20%|█▉        | 1355/6837 [18:54<22:15,  4.10it/s] 20%|█▉        | 1356/6837 [18:54<22:18,  4.09it/s] 20%|█▉        | 1357/6837 [18:55<22:18,  4.09it/s] 20%|█▉        | 1358/6837 [18:55<22:18,  4.09it/s] 20%|█▉        | 1359/6837 [18:55<22:14,  4.11it/s] 20%|█▉        | 1360/6837 [18:55<22:11,  4.11it/s] 20%|█▉        | 1361/6837 [18:56<22:13,  4.11it/s] 20%|█▉        | 1362/6837 [18:56<22:09,  4.12it/s] 20%|█▉        | 1363/6837 [18:56<22:06,  4.13it/s] 20%|█▉        | 1364/6837 [18:56<22:09,  4.12it/s] 20%|█▉        | 1365/6837 [18:57<22:09,  4.12it/s] 20%|█▉        | 1366/6837 [18:57<22:12,  4.11it/s] 20%|█▉        | 1367/6837 [18:57<22:24,  4.07it/s] 20%|██        | 1368/6837 [18:57<22:23,  4.07it/s] 20%|██        | 1369/6837 [18:58<22:24,  4.07it/s] 20%|██        | 1370/6837 [18:58<22:20,  4.08it/s] 20%|██        | 1371/6837 [18:58<22:19,  4.08it/s] 20%|██        | 1372/6837 [18:58<22:18,  4.08it/s] 20%|██        | 1373/6837 [18:59<22:12,  4.10it/s] 20%|██        | 1374/6837 [18:59<22:10,  4.11it/s] 20%|██        | 1375/6837 [18:59<22:10,  4.11it/s]{'loss': 4.7698, 'grad_norm': 0.1460862159729004, 'learning_rate': 0.005815216287755262, 'epoch': 0.04}                                                   
 20%|██        | 1375/6837 [18:59<22:10,  4.11it/s] 20%|██        | 1376/6837 [18:59<22:12,  4.10it/s] 20%|██        | 1377/6837 [19:00<22:12,  4.10it/s] 20%|██        | 1378/6837 [19:00<22:44,  4.00it/s] 20%|██        | 1379/6837 [19:00<23:09,  3.93it/s] 20%|██        | 1380/6837 [19:00<22:44,  4.00it/s] 20%|██        | 1381/6837 [19:01<22:27,  4.05it/s] 20%|██        | 1382/6837 [19:01<22:21,  4.07it/s] 20%|██        | 1383/6837 [19:01<22:12,  4.09it/s] 20%|██        | 1384/6837 [19:01<22:10,  4.10it/s] 20%|██        | 1385/6837 [19:02<22:12,  4.09it/s] 20%|██        | 1386/6837 [19:02<22:08,  4.10it/s] 20%|██        | 1387/6837 [19:02<22:08,  4.10it/s] 20%|██        | 1388/6837 [19:02<22:04,  4.11it/s] 20%|██        | 1389/6837 [19:03<22:05,  4.11it/s] 20%|██        | 1390/6837 [19:03<22:08,  4.10it/s] 20%|██        | 1391/6837 [19:03<22:13,  4.08it/s] 20%|██        | 1392/6837 [19:03<22:14,  4.08it/s] 20%|██        | 1393/6837 [19:04<22:13,  4.08it/s] 20%|██        | 1394/6837 [19:04<22:07,  4.10it/s] 20%|██        | 1395/6837 [19:04<22:04,  4.11it/s] 20%|██        | 1396/6837 [19:04<22:06,  4.10it/s] 20%|██        | 1397/6837 [19:05<22:37,  4.01it/s] 20%|██        | 1398/6837 [19:05<22:42,  3.99it/s] 20%|██        | 1399/6837 [19:05<22:30,  4.03it/s] 20%|██        | 1400/6837 [19:05<22:52,  3.96it/s]                                                   {'loss': 4.7646, 'grad_norm': 0.149286687374115, 'learning_rate': 0.005801755542009626, 'epoch': 0.04}
 20%|██        | 1400/6837 [19:05<22:52,  3.96it/s] 20%|██        | 1401/6837 [19:06<23:11,  3.91it/s] 21%|██        | 1402/6837 [19:06<23:04,  3.93it/s] 21%|██        | 1403/6837 [19:06<23:21,  3.88it/s] 21%|██        | 1404/6837 [19:06<23:15,  3.89it/s] 21%|██        | 1405/6837 [19:07<23:02,  3.93it/s] 21%|██        | 1406/6837 [19:07<23:13,  3.90it/s] 21%|██        | 1407/6837 [19:08<39:16,  2.30it/s] 21%|██        | 1408/6837 [19:08<34:19,  2.64it/s] 21%|██        | 1409/6837 [19:08<30:38,  2.95it/s] 21%|██        | 1410/6837 [19:08<28:03,  3.22it/s] 21%|██        | 1411/6837 [19:09<27:01,  3.35it/s] 21%|██        | 1412/6837 [19:09<25:30,  3.54it/s] 21%|██        | 1413/6837 [19:09<25:08,  3.60it/s] 21%|██        | 1414/6837 [19:09<24:42,  3.66it/s] 21%|██        | 1415/6837 [19:10<24:38,  3.67it/s] 21%|██        | 1416/6837 [19:10<23:51,  3.79it/s] 21%|██        | 1417/6837 [19:10<23:17,  3.88it/s] 21%|██        | 1418/6837 [19:10<22:51,  3.95it/s] 21%|██        | 1419/6837 [19:11<22:39,  3.99it/s] 21%|██        | 1420/6837 [19:11<22:28,  4.02it/s] 21%|██        | 1421/6837 [19:11<22:19,  4.04it/s] 21%|██        | 1422/6837 [19:11<22:23,  4.03it/s] 21%|██        | 1423/6837 [19:12<22:13,  4.06it/s] 21%|██        | 1424/6837 [19:12<22:04,  4.09it/s] 21%|██        | 1425/6837 [19:12<22:03,  4.09it/s]                                                   {'loss': 4.7572, 'grad_norm': 0.1465584635734558, 'learning_rate': 0.005787838307307407, 'epoch': 0.04}
 21%|██        | 1425/6837 [19:12<22:03,  4.09it/s] 21%|██        | 1426/6837 [19:12<22:01,  4.09it/s] 21%|██        | 1427/6837 [19:13<22:01,  4.09it/s] 21%|██        | 1428/6837 [19:13<22:41,  3.97it/s] 21%|██        | 1429/6837 [19:13<23:01,  3.91it/s] 21%|██        | 1430/6837 [19:13<23:40,  3.81it/s] 21%|██        | 1431/6837 [19:14<23:52,  3.77it/s] 21%|██        | 1432/6837 [19:14<24:00,  3.75it/s] 21%|██        | 1433/6837 [19:14<24:24,  3.69it/s] 21%|██        | 1434/6837 [19:15<24:24,  3.69it/s] 21%|██        | 1435/6837 [19:15<24:41,  3.65it/s] 21%|██        | 1436/6837 [19:15<24:49,  3.63it/s] 21%|██        | 1437/6837 [19:15<24:44,  3.64it/s] 21%|██        | 1438/6837 [19:16<24:38,  3.65it/s] 21%|██        | 1439/6837 [19:16<24:38,  3.65it/s] 21%|██        | 1440/6837 [19:16<24:35,  3.66it/s] 21%|██        | 1441/6837 [19:16<24:40,  3.64it/s] 21%|██        | 1442/6837 [19:17<24:31,  3.67it/s] 21%|██        | 1443/6837 [19:17<24:37,  3.65it/s] 21%|██        | 1444/6837 [19:17<24:22,  3.69it/s] 21%|██        | 1445/6837 [19:18<24:37,  3.65it/s] 21%|██        | 1446/6837 [19:18<24:44,  3.63it/s] 21%|██        | 1447/6837 [19:18<24:44,  3.63it/s] 21%|██        | 1448/6837 [19:18<24:35,  3.65it/s] 21%|██        | 1449/6837 [19:19<23:57,  3.75it/s] 21%|██        | 1450/6837 [19:19<23:15,  3.86it/s]{'loss': 4.7592, 'grad_norm': 0.1481638252735138, 'learning_rate': 0.00577346685117832, 'epoch': 0.04}
                                                    21%|██        | 1450/6837 [19:19<23:15,  3.86it/s] 21%|██        | 1451/6837 [19:19<23:01,  3.90it/s] 21%|██        | 1452/6837 [19:19<22:41,  3.96it/s] 21%|██▏       | 1453/6837 [19:20<22:29,  3.99it/s] 21%|██▏       | 1454/6837 [19:20<22:21,  4.01it/s] 21%|██▏       | 1455/6837 [19:20<22:12,  4.04it/s] 21%|██▏       | 1456/6837 [19:20<22:27,  3.99it/s] 21%|██▏       | 1457/6837 [19:21<22:13,  4.03it/s] 21%|██▏       | 1458/6837 [19:21<22:02,  4.07it/s] 21%|██▏       | 1459/6837 [19:21<21:57,  4.08it/s] 21%|██▏       | 1460/6837 [19:21<21:54,  4.09it/s] 21%|██▏       | 1461/6837 [19:22<21:52,  4.09it/s] 21%|██▏       | 1462/6837 [19:22<21:54,  4.09it/s] 21%|██▏       | 1463/6837 [19:22<21:59,  4.07it/s] 21%|██▏       | 1464/6837 [19:22<22:05,  4.05it/s] 21%|██▏       | 1465/6837 [19:23<22:02,  4.06it/s] 21%|██▏       | 1466/6837 [19:23<22:46,  3.93it/s] 21%|██▏       | 1467/6837 [19:23<22:32,  3.97it/s] 21%|██▏       | 1468/6837 [19:23<22:19,  4.01it/s] 21%|██▏       | 1469/6837 [19:24<22:04,  4.05it/s] 22%|██▏       | 1470/6837 [19:24<22:00,  4.07it/s] 22%|██▏       | 1471/6837 [19:24<21:50,  4.09it/s] 22%|██▏       | 1472/6837 [19:24<21:45,  4.11it/s] 22%|██▏       | 1473/6837 [19:25<21:45,  4.11it/s] 22%|██▏       | 1474/6837 [19:25<21:41,  4.12it/s] 22%|██▏       | 1475/6837 [19:25<21:41,  4.12it/s]{'loss': 4.7474, 'grad_norm': 0.13737046718597412, 'learning_rate': 0.005758643515158205, 'epoch': 0.04}                                                   
 22%|██▏       | 1475/6837 [19:25<21:41,  4.12it/s] 22%|██▏       | 1476/6837 [19:25<21:39,  4.12it/s] 22%|██▏       | 1477/6837 [19:26<21:38,  4.13it/s] 22%|██▏       | 1478/6837 [19:26<21:36,  4.13it/s] 22%|██▏       | 1479/6837 [19:26<21:35,  4.13it/s] 22%|██▏       | 1480/6837 [19:26<21:34,  4.14it/s] 22%|██▏       | 1481/6837 [19:26<21:40,  4.12it/s] 22%|██▏       | 1482/6837 [19:27<21:43,  4.11it/s] 22%|██▏       | 1483/6837 [19:27<21:43,  4.11it/s] 22%|██▏       | 1484/6837 [19:27<21:43,  4.11it/s] 22%|██▏       | 1485/6837 [19:27<21:41,  4.11it/s] 22%|██▏       | 1486/6837 [19:28<21:42,  4.11it/s] 22%|██▏       | 1487/6837 [19:28<21:47,  4.09it/s] 22%|██▏       | 1488/6837 [19:28<21:48,  4.09it/s] 22%|██▏       | 1489/6837 [19:28<21:41,  4.11it/s] 22%|██▏       | 1490/6837 [19:29<21:40,  4.11it/s] 22%|██▏       | 1491/6837 [19:29<21:39,  4.11it/s] 22%|██▏       | 1492/6837 [19:29<21:36,  4.12it/s] 22%|██▏       | 1493/6837 [19:29<21:37,  4.12it/s] 22%|██▏       | 1494/6837 [19:30<21:34,  4.13it/s] 22%|██▏       | 1495/6837 [19:30<21:35,  4.12it/s] 22%|██▏       | 1496/6837 [19:30<21:31,  4.14it/s] 22%|██▏       | 1497/6837 [19:30<21:29,  4.14it/s] 22%|██▏       | 1498/6837 [19:31<21:26,  4.15it/s] 22%|██▏       | 1499/6837 [19:31<21:39,  4.11it/s] 22%|██▏       | 1500/6837 [19:31<21:39,  4.11it/s]                                                   {'loss': 4.7354, 'grad_norm': 0.13927464187145233, 'learning_rate': 0.005743370714407518, 'epoch': 0.04}
 22%|██▏       | 1500/6837 [19:31<21:39,  4.11it/s] 22%|██▏       | 1501/6837 [19:31<21:41,  4.10it/s] 22%|██▏       | 1502/6837 [19:32<21:58,  4.05it/s] 22%|██▏       | 1503/6837 [19:32<21:46,  4.08it/s] 22%|██▏       | 1504/6837 [19:32<21:36,  4.11it/s] 22%|██▏       | 1505/6837 [19:32<21:37,  4.11it/s] 22%|██▏       | 1506/6837 [19:33<21:35,  4.11it/s] 22%|██▏       | 1507/6837 [19:33<21:33,  4.12it/s] 22%|██▏       | 1508/6837 [19:33<21:28,  4.14it/s] 22%|██▏       | 1509/6837 [19:33<21:23,  4.15it/s] 22%|██▏       | 1510/6837 [19:34<21:24,  4.15it/s] 22%|██▏       | 1511/6837 [19:34<21:21,  4.15it/s] 22%|██▏       | 1512/6837 [19:34<21:20,  4.16it/s] 22%|██▏       | 1513/6837 [19:34<21:20,  4.16it/s] 22%|██▏       | 1514/6837 [19:35<21:18,  4.16it/s] 22%|██▏       | 1515/6837 [19:35<21:25,  4.14it/s] 22%|██▏       | 1516/6837 [19:35<21:24,  4.14it/s] 22%|██▏       | 1517/6837 [19:35<21:24,  4.14it/s] 22%|██▏       | 1518/6837 [19:35<21:24,  4.14it/s] 22%|██▏       | 1519/6837 [19:36<21:21,  4.15it/s] 22%|██▏       | 1520/6837 [19:36<21:21,  4.15it/s] 22%|██▏       | 1521/6837 [19:36<21:22,  4.15it/s] 22%|██▏       | 1522/6837 [19:36<21:19,  4.15it/s] 22%|██▏       | 1523/6837 [19:37<21:20,  4.15it/s] 22%|██▏       | 1524/6837 [19:37<21:20,  4.15it/s] 22%|██▏       | 1525/6837 [19:37<21:21,  4.14it/s]{'loss': 4.7286, 'grad_norm': 0.1442137211561203, 'learning_rate': 0.00572765093731783, 'epoch': 0.04}                                                   
 22%|██▏       | 1525/6837 [19:37<21:21,  4.14it/s] 22%|██▏       | 1526/6837 [19:37<21:30,  4.12it/s] 22%|██▏       | 1527/6837 [19:38<21:34,  4.10it/s] 22%|██▏       | 1528/6837 [19:38<21:29,  4.12it/s] 22%|██▏       | 1529/6837 [19:38<21:29,  4.12it/s] 22%|██▏       | 1530/6837 [19:38<21:27,  4.12it/s] 22%|██▏       | 1531/6837 [19:39<21:25,  4.13it/s] 22%|██▏       | 1532/6837 [19:39<21:23,  4.13it/s] 22%|██▏       | 1533/6837 [19:39<21:24,  4.13it/s] 22%|██▏       | 1534/6837 [19:39<21:22,  4.14it/s] 22%|██▏       | 1535/6837 [19:40<21:21,  4.14it/s] 22%|██▏       | 1536/6837 [19:40<21:23,  4.13it/s] 22%|██▏       | 1537/6837 [19:40<21:21,  4.14it/s] 22%|██▏       | 1538/6837 [19:40<21:22,  4.13it/s] 23%|██▎       | 1539/6837 [19:41<21:20,  4.14it/s] 23%|██▎       | 1540/6837 [19:41<21:24,  4.12it/s] 23%|██▎       | 1541/6837 [19:41<21:20,  4.14it/s] 23%|██▎       | 1542/6837 [19:41<21:18,  4.14it/s] 23%|██▎       | 1543/6837 [19:42<21:16,  4.15it/s] 23%|██▎       | 1544/6837 [19:42<21:18,  4.14it/s] 23%|██▎       | 1545/6837 [19:42<21:19,  4.14it/s] 23%|██▎       | 1546/6837 [19:42<21:20,  4.13it/s] 23%|██▎       | 1547/6837 [19:42<21:13,  4.15it/s] 23%|██▎       | 1548/6837 [19:43<21:55,  4.02it/s] 23%|██▎       | 1549/6837 [19:43<22:24,  3.93it/s] 23%|██▎       | 1550/6837 [19:43<21:59,  4.01it/s]                                                   {'loss': 4.7346, 'grad_norm': 0.1326439082622528, 'learning_rate': 0.005711486745106398, 'epoch': 0.05}
 23%|██▎       | 1550/6837 [19:43<21:59,  4.01it/s] 23%|██▎       | 1551/6837 [19:43<21:48,  4.04it/s] 23%|██▎       | 1552/6837 [19:44<21:35,  4.08it/s] 23%|██▎       | 1553/6837 [19:44<21:25,  4.11it/s] 23%|██▎       | 1554/6837 [19:44<21:18,  4.13it/s] 23%|██▎       | 1555/6837 [19:44<21:11,  4.15it/s] 23%|██▎       | 1556/6837 [19:45<21:13,  4.15it/s] 23%|██▎       | 1557/6837 [19:45<21:15,  4.14it/s] 23%|██▎       | 1558/6837 [19:45<21:15,  4.14it/s] 23%|██▎       | 1559/6837 [19:45<21:15,  4.14it/s] 23%|██▎       | 1560/6837 [19:46<21:13,  4.14it/s] 23%|██▎       | 1561/6837 [19:46<21:11,  4.15it/s] 23%|██▎       | 1562/6837 [19:46<21:08,  4.16it/s] 23%|██▎       | 1563/6837 [19:46<21:08,  4.16it/s] 23%|██▎       | 1564/6837 [19:47<21:08,  4.16it/s] 23%|██▎       | 1565/6837 [19:47<21:05,  4.17it/s] 23%|██▎       | 1566/6837 [19:47<21:03,  4.17it/s] 23%|██▎       | 1567/6837 [19:47<21:10,  4.15it/s] 23%|██▎       | 1568/6837 [19:48<21:08,  4.15it/s] 23%|██▎       | 1569/6837 [19:48<21:13,  4.14it/s] 23%|██▎       | 1570/6837 [19:48<21:13,  4.14it/s] 23%|██▎       | 1571/6837 [19:48<21:09,  4.15it/s] 23%|██▎       | 1572/6837 [19:49<21:10,  4.14it/s] 23%|██▎       | 1573/6837 [19:49<21:07,  4.15it/s] 23%|██▎       | 1574/6837 [19:49<21:05,  4.16it/s] 23%|██▎       | 1575/6837 [19:49<21:05,  4.16it/s]                                                   {'loss': 4.7234, 'grad_norm': 0.1355282962322235, 'learning_rate': 0.0056948807713988634, 'epoch': 0.05}
 23%|██▎       | 1575/6837 [19:49<21:05,  4.16it/s] 23%|██▎       | 1576/6837 [19:50<21:07,  4.15it/s] 23%|██▎       | 1577/6837 [19:50<21:08,  4.15it/s] 23%|██▎       | 1578/6837 [19:50<21:06,  4.15it/s] 23%|██▎       | 1579/6837 [19:50<21:04,  4.16it/s] 23%|██▎       | 1580/6837 [19:50<21:01,  4.17it/s] 23%|██▎       | 1581/6837 [19:51<21:05,  4.15it/s] 23%|██▎       | 1582/6837 [19:51<21:01,  4.17it/s] 23%|██▎       | 1583/6837 [19:51<21:04,  4.16it/s] 23%|██▎       | 1584/6837 [19:51<21:04,  4.15it/s] 23%|██▎       | 1585/6837 [19:52<21:10,  4.13it/s] 23%|██▎       | 1586/6837 [19:52<21:06,  4.15it/s] 23%|██▎       | 1587/6837 [19:52<21:07,  4.14it/s] 23%|██▎       | 1588/6837 [19:52<21:06,  4.14it/s] 23%|██▎       | 1589/6837 [19:53<21:02,  4.16it/s] 23%|██▎       | 1590/6837 [19:53<21:07,  4.14it/s] 23%|██▎       | 1591/6837 [19:53<21:07,  4.14it/s] 23%|██▎       | 1592/6837 [19:53<21:05,  4.15it/s] 23%|██▎       | 1593/6837 [19:54<21:00,  4.16it/s] 23%|██▎       | 1594/6837 [19:54<21:01,  4.16it/s] 23%|██▎       | 1595/6837 [19:54<20:59,  4.16it/s] 23%|██▎       | 1596/6837 [19:54<20:55,  4.18it/s] 23%|██▎       | 1597/6837 [19:55<20:56,  4.17it/s] 23%|██▎       | 1598/6837 [19:55<20:55,  4.17it/s] 23%|██▎       | 1599/6837 [19:55<20:55,  4.17it/s] 23%|██▎       | 1600/6837 [19:55<20:52,  4.18it/s]{'loss': 4.7179, 'grad_norm': 0.13755303621292114, 'learning_rate': 0.005677835721800159, 'epoch': 0.05}                                                   
 23%|██▎       | 1600/6837 [19:55<20:52,  4.18it/s] 23%|██▎       | 1601/6837 [19:56<21:01,  4.15it/s] 23%|██▎       | 1602/6837 [19:56<21:03,  4.14it/s] 23%|██▎       | 1603/6837 [19:56<20:58,  4.16it/s] 23%|██▎       | 1604/6837 [19:56<20:57,  4.16it/s] 23%|██▎       | 1605/6837 [19:56<20:55,  4.17it/s] 23%|██▎       | 1606/6837 [19:57<20:54,  4.17it/s] 24%|██▎       | 1607/6837 [19:57<20:53,  4.17it/s] 24%|██▎       | 1608/6837 [19:57<20:53,  4.17it/s] 24%|██▎       | 1609/6837 [19:57<20:53,  4.17it/s] 24%|██▎       | 1610/6837 [19:58<20:53,  4.17it/s] 24%|██▎       | 1611/6837 [19:58<20:53,  4.17it/s] 24%|██▎       | 1612/6837 [19:58<20:50,  4.18it/s] 24%|██▎       | 1613/6837 [19:58<20:50,  4.18it/s] 24%|██▎       | 1614/6837 [19:59<20:48,  4.18it/s] 24%|██▎       | 1615/6837 [19:59<20:48,  4.18it/s] 24%|██▎       | 1616/6837 [19:59<20:45,  4.19it/s] 24%|██▎       | 1617/6837 [19:59<20:45,  4.19it/s] 24%|██▎       | 1618/6837 [20:00<20:46,  4.19it/s] 24%|██▎       | 1619/6837 [20:00<20:46,  4.19it/s] 24%|██▎       | 1620/6837 [20:00<20:44,  4.19it/s] 24%|██▎       | 1621/6837 [20:00<20:48,  4.18it/s] 24%|██▎       | 1622/6837 [20:01<20:49,  4.17it/s] 24%|██▎       | 1623/6837 [20:01<20:47,  4.18it/s] 24%|██▍       | 1624/6837 [20:01<20:45,  4.19it/s] 24%|██▍       | 1625/6837 [20:01<20:45,  4.19it/s]                                                   {'loss': 4.6983, 'grad_norm': 0.14186429977416992, 'learning_rate': 0.00566035437345368, 'epoch': 0.05}
 24%|██▍       | 1625/6837 [20:01<20:45,  4.19it/s] 24%|██▍       | 1626/6837 [20:02<20:53,  4.16it/s] 24%|██▍       | 1627/6837 [20:02<20:56,  4.14it/s] 24%|██▍       | 1628/6837 [20:02<21:02,  4.13it/s] 24%|██▍       | 1629/6837 [20:02<21:04,  4.12it/s] 24%|██▍       | 1630/6837 [20:02<20:59,  4.13it/s] 24%|██▍       | 1631/6837 [20:03<20:54,  4.15it/s] 24%|██▍       | 1632/6837 [20:03<20:50,  4.16it/s] 24%|██▍       | 1633/6837 [20:03<20:48,  4.17it/s] 24%|██▍       | 1634/6837 [20:03<20:45,  4.18it/s] 24%|██▍       | 1635/6837 [20:04<20:43,  4.18it/s] 24%|██▍       | 1636/6837 [20:04<20:46,  4.17it/s] 24%|██▍       | 1637/6837 [20:04<20:42,  4.19it/s] 24%|██▍       | 1638/6837 [20:04<20:43,  4.18it/s] 24%|██▍       | 1639/6837 [20:05<21:24,  4.05it/s] 24%|██▍       | 1640/6837 [20:05<21:55,  3.95it/s] 24%|██▍       | 1641/6837 [20:05<22:17,  3.89it/s] 24%|██▍       | 1642/6837 [20:05<22:36,  3.83it/s] 24%|██▍       | 1643/6837 [20:06<22:06,  3.92it/s] 24%|██▍       | 1644/6837 [20:06<21:39,  4.00it/s] 24%|██▍       | 1645/6837 [20:06<21:23,  4.05it/s] 24%|██▍       | 1646/6837 [20:06<21:09,  4.09it/s] 24%|██▍       | 1647/6837 [20:07<21:00,  4.12it/s] 24%|██▍       | 1648/6837 [20:07<20:56,  4.13it/s] 24%|██▍       | 1649/6837 [20:07<20:54,  4.14it/s] 24%|██▍       | 1650/6837 [20:07<20:51,  4.14it/s]                                                   {'loss': 4.6805, 'grad_norm': 0.18044713139533997, 'learning_rate': 0.005642439574588813, 'epoch': 0.05}
 24%|██▍       | 1650/6837 [20:07<20:51,  4.14it/s] 24%|██▍       | 1651/6837 [20:08<20:51,  4.14it/s] 24%|██▍       | 1652/6837 [20:08<20:46,  4.16it/s] 24%|██▍       | 1653/6837 [20:08<20:45,  4.16it/s] 24%|██▍       | 1654/6837 [20:08<20:47,  4.15it/s] 24%|██▍       | 1655/6837 [20:09<20:44,  4.16it/s] 24%|██▍       | 1656/6837 [20:09<20:44,  4.16it/s] 24%|██▍       | 1657/6837 [20:09<20:43,  4.17it/s] 24%|██▍       | 1658/6837 [20:09<20:42,  4.17it/s] 24%|██▍       | 1659/6837 [20:10<20:45,  4.16it/s] 24%|██▍       | 1660/6837 [20:10<20:43,  4.16it/s] 24%|██▍       | 1661/6837 [20:10<20:39,  4.18it/s] 24%|██▍       | 1662/6837 [20:10<20:38,  4.18it/s] 24%|██▍       | 1663/6837 [20:11<20:37,  4.18it/s] 24%|██▍       | 1664/6837 [20:11<20:37,  4.18it/s] 24%|██▍       | 1665/6837 [20:11<20:41,  4.17it/s] 24%|██▍       | 1666/6837 [20:11<20:38,  4.17it/s] 24%|██▍       | 1667/6837 [20:11<20:42,  4.16it/s] 24%|██▍       | 1668/6837 [20:12<20:43,  4.16it/s] 24%|██▍       | 1669/6837 [20:12<20:45,  4.15it/s] 24%|██▍       | 1670/6837 [20:12<20:40,  4.16it/s] 24%|██▍       | 1671/6837 [20:12<20:37,  4.17it/s] 24%|██▍       | 1672/6837 [20:13<20:37,  4.17it/s] 24%|██▍       | 1673/6837 [20:13<20:40,  4.16it/s] 24%|██▍       | 1674/6837 [20:13<20:47,  4.14it/s] 24%|██▍       | 1675/6837 [20:13<20:42,  4.16it/s]                                                   {'loss': 4.702, 'grad_norm': 0.13621020317077637, 'learning_rate': 0.005624094244056873, 'epoch': 0.05}
 24%|██▍       | 1675/6837 [20:13<20:42,  4.16it/s] 25%|██▍       | 1676/6837 [20:14<20:46,  4.14it/s] 25%|██▍       | 1677/6837 [20:14<20:46,  4.14it/s] 25%|██▍       | 1678/6837 [20:14<20:43,  4.15it/s] 25%|██▍       | 1679/6837 [20:14<20:43,  4.15it/s] 25%|██▍       | 1680/6837 [20:15<20:40,  4.16it/s] 25%|██▍       | 1681/6837 [20:15<20:38,  4.16it/s] 25%|██▍       | 1682/6837 [20:15<20:38,  4.16it/s] 25%|██▍       | 1683/6837 [20:15<20:34,  4.17it/s] 25%|██▍       | 1684/6837 [20:16<20:35,  4.17it/s] 25%|██▍       | 1685/6837 [20:16<20:33,  4.18it/s] 25%|██▍       | 1686/6837 [20:16<20:33,  4.17it/s] 25%|██▍       | 1687/6837 [20:16<20:33,  4.18it/s] 25%|██▍       | 1688/6837 [20:17<20:35,  4.17it/s] 25%|██▍       | 1689/6837 [20:17<20:36,  4.16it/s] 25%|██▍       | 1690/6837 [20:17<20:35,  4.17it/s] 25%|██▍       | 1691/6837 [20:17<20:37,  4.16it/s] 25%|██▍       | 1692/6837 [20:17<20:33,  4.17it/s] 25%|██▍       | 1693/6837 [20:18<20:33,  4.17it/s] 25%|██▍       | 1694/6837 [20:18<20:32,  4.17it/s] 25%|██▍       | 1695/6837 [20:18<20:29,  4.18it/s] 25%|██▍       | 1696/6837 [20:18<20:28,  4.18it/s] 25%|██▍       | 1697/6837 [20:19<20:28,  4.19it/s] 25%|██▍       | 1698/6837 [20:19<20:28,  4.18it/s] 25%|██▍       | 1699/6837 [20:19<20:27,  4.19it/s] 25%|██▍       | 1700/6837 [20:19<20:29,  4.18it/s]{'loss': 4.6829, 'grad_norm': 0.15837280452251434, 'learning_rate': 0.005605321370855529, 'epoch': 0.05}                                                   
 25%|██▍       | 1700/6837 [20:19<20:29,  4.18it/s] 25%|██▍       | 1701/6837 [20:20<20:35,  4.16it/s] 25%|██▍       | 1702/6837 [20:20<20:31,  4.17it/s] 25%|██▍       | 1703/6837 [20:20<20:26,  4.18it/s] 25%|██▍       | 1704/6837 [20:20<20:24,  4.19it/s] 25%|██▍       | 1705/6837 [20:21<20:26,  4.19it/s] 25%|██▍       | 1706/6837 [20:21<20:27,  4.18it/s] 25%|██▍       | 1707/6837 [20:21<20:36,  4.15it/s] 25%|██▍       | 1708/6837 [20:21<20:39,  4.14it/s] 25%|██▍       | 1709/6837 [20:22<20:39,  4.14it/s] 25%|██▌       | 1710/6837 [20:22<20:34,  4.15it/s] 25%|██▌       | 1711/6837 [20:22<20:30,  4.16it/s] 25%|██▌       | 1712/6837 [20:22<20:30,  4.16it/s] 25%|██▌       | 1713/6837 [20:23<20:31,  4.16it/s] 25%|██▌       | 1714/6837 [20:23<20:29,  4.17it/s] 25%|██▌       | 1715/6837 [20:23<20:27,  4.17it/s] 25%|██▌       | 1716/6837 [20:23<20:31,  4.16it/s] 25%|██▌       | 1717/6837 [20:23<20:29,  4.16it/s] 25%|██▌       | 1718/6837 [20:24<20:28,  4.17it/s] 25%|██▌       | 1719/6837 [20:24<20:27,  4.17it/s] 25%|██▌       | 1720/6837 [20:24<20:27,  4.17it/s] 25%|██▌       | 1721/6837 [20:24<20:27,  4.17it/s] 25%|██▌       | 1722/6837 [20:25<20:25,  4.17it/s] 25%|██▌       | 1723/6837 [20:25<20:23,  4.18it/s] 25%|██▌       | 1724/6837 [20:25<20:27,  4.16it/s] 25%|██▌       | 1725/6837 [20:25<20:25,  4.17it/s]                                                   {'loss': 4.6889, 'grad_norm': 0.16804726421833038, 'learning_rate': 0.005586124013641817, 'epoch': 0.05}
 25%|██▌       | 1725/6837 [20:25<20:25,  4.17it/s] 25%|██▌       | 1726/6837 [20:26<20:29,  4.16it/s] 25%|██▌       | 1727/6837 [20:26<20:25,  4.17it/s] 25%|██▌       | 1728/6837 [20:26<20:26,  4.16it/s] 25%|██▌       | 1729/6837 [20:26<20:24,  4.17it/s] 25%|██▌       | 1730/6837 [20:27<20:24,  4.17it/s] 25%|██▌       | 1731/6837 [20:27<20:24,  4.17it/s] 25%|██▌       | 1732/6837 [20:27<20:24,  4.17it/s] 25%|██▌       | 1733/6837 [20:27<20:22,  4.18it/s] 25%|██▌       | 1734/6837 [20:28<20:16,  4.19it/s] 25%|██▌       | 1735/6837 [20:28<20:17,  4.19it/s] 25%|██▌       | 1736/6837 [20:28<20:18,  4.19it/s] 25%|██▌       | 1737/6837 [20:28<20:21,  4.18it/s] 25%|██▌       | 1738/6837 [20:28<20:18,  4.19it/s] 25%|██▌       | 1739/6837 [20:29<20:18,  4.18it/s] 25%|██▌       | 1740/6837 [20:29<20:18,  4.18it/s] 25%|██▌       | 1741/6837 [20:29<20:14,  4.20it/s] 25%|██▌       | 1742/6837 [20:29<20:14,  4.20it/s] 25%|██▌       | 1743/6837 [20:30<20:15,  4.19it/s] 26%|██▌       | 1744/6837 [20:30<20:20,  4.17it/s] 26%|██▌       | 1745/6837 [20:30<20:20,  4.17it/s] 26%|██▌       | 1746/6837 [20:30<20:20,  4.17it/s] 26%|██▌       | 1747/6837 [20:31<20:19,  4.18it/s] 26%|██▌       | 1748/6837 [20:31<20:16,  4.18it/s] 26%|██▌       | 1749/6837 [20:31<20:19,  4.17it/s] 26%|██▌       | 1750/6837 [20:31<20:18,  4.17it/s]                                                   {'loss': 4.6683, 'grad_norm': 0.14777465164661407, 'learning_rate': 0.005566505300233791, 'epoch': 0.05}
 26%|██▌       | 1750/6837 [20:31<20:18,  4.17it/s] 26%|██▌       | 1751/6837 [20:32<20:20,  4.17it/s] 26%|██▌       | 1752/6837 [20:32<20:16,  4.18it/s] 26%|██▌       | 1753/6837 [20:32<20:15,  4.18it/s] 26%|██▌       | 1754/6837 [20:32<20:15,  4.18it/s] 26%|██▌       | 1755/6837 [20:33<20:16,  4.18it/s] 26%|██▌       | 1756/6837 [20:33<20:15,  4.18it/s] 26%|██▌       | 1757/6837 [20:33<20:16,  4.18it/s] 26%|██▌       | 1758/6837 [20:33<20:20,  4.16it/s] 26%|██▌       | 1759/6837 [20:34<20:23,  4.15it/s] 26%|██▌       | 1760/6837 [20:34<20:18,  4.17it/s] 26%|██▌       | 1761/6837 [20:34<20:16,  4.17it/s] 26%|██▌       | 1762/6837 [20:34<20:15,  4.18it/s] 26%|██▌       | 1763/6837 [20:34<20:09,  4.19it/s] 26%|██▌       | 1764/6837 [20:35<20:11,  4.19it/s] 26%|██▌       | 1765/6837 [20:35<20:10,  4.19it/s] 26%|██▌       | 1766/6837 [20:35<20:10,  4.19it/s] 26%|██▌       | 1767/6837 [20:35<20:10,  4.19it/s] 26%|██▌       | 1768/6837 [20:36<20:09,  4.19it/s] 26%|██▌       | 1769/6837 [20:36<20:07,  4.20it/s] 26%|██▌       | 1770/6837 [20:36<20:08,  4.19it/s] 26%|██▌       | 1771/6837 [20:36<20:06,  4.20it/s] 26%|██▌       | 1772/6837 [20:37<20:07,  4.19it/s] 26%|██▌       | 1773/6837 [20:37<20:08,  4.19it/s] 26%|██▌       | 1774/6837 [20:37<20:14,  4.17it/s] 26%|██▌       | 1775/6837 [20:37<20:12,  4.18it/s]                                                   {'loss': 4.6645, 'grad_norm': 0.13642410933971405, 'learning_rate': 0.0055464684271009064, 'epoch': 0.05}
 26%|██▌       | 1775/6837 [20:37<20:12,  4.18it/s] 26%|██▌       | 1776/6837 [20:38<20:14,  4.17it/s] 26%|██▌       | 1777/6837 [20:38<20:16,  4.16it/s] 26%|██▌       | 1778/6837 [20:38<20:16,  4.16it/s] 26%|██▌       | 1779/6837 [20:38<20:12,  4.17it/s] 26%|██▌       | 1780/6837 [20:39<20:14,  4.16it/s] 26%|██▌       | 1781/6837 [20:39<20:13,  4.17it/s] 26%|██▌       | 1782/6837 [20:39<20:13,  4.17it/s] 26%|██▌       | 1783/6837 [20:39<20:07,  4.19it/s] 26%|██▌       | 1784/6837 [20:40<20:08,  4.18it/s] 26%|██▌       | 1785/6837 [20:40<20:08,  4.18it/s] 26%|██▌       | 1786/6837 [20:40<20:07,  4.18it/s] 26%|██▌       | 1787/6837 [20:40<20:03,  4.20it/s] 26%|██▌       | 1788/6837 [20:40<20:04,  4.19it/s] 26%|██▌       | 1789/6837 [20:41<20:01,  4.20it/s] 26%|██▌       | 1790/6837 [20:41<20:02,  4.20it/s] 26%|██▌       | 1791/6837 [20:41<20:00,  4.20it/s] 26%|██▌       | 1792/6837 [20:41<20:01,  4.20it/s] 26%|██▌       | 1793/6837 [20:42<20:14,  4.15it/s] 26%|██▌       | 1794/6837 [20:42<20:12,  4.16it/s] 26%|██▋       | 1795/6837 [20:42<20:09,  4.17it/s] 26%|██▋       | 1796/6837 [20:42<20:09,  4.17it/s] 26%|██▋       | 1797/6837 [20:43<20:06,  4.18it/s] 26%|██▋       | 1798/6837 [20:43<20:07,  4.17it/s] 26%|██▋       | 1799/6837 [20:43<20:12,  4.15it/s] 26%|██▋       | 1800/6837 [20:43<20:11,  4.16it/s]                                                   {'loss': 4.6599, 'grad_norm': 0.14138217270374298, 'learning_rate': 0.005526016658843222, 'epoch': 0.05}
 26%|██▋       | 1800/6837 [20:43<20:11,  4.16it/s] 26%|██▋       | 1801/6837 [20:44<20:12,  4.15it/s] 26%|██▋       | 1802/6837 [20:44<20:06,  4.17it/s] 26%|██▋       | 1803/6837 [20:44<20:05,  4.18it/s] 26%|██▋       | 1804/6837 [20:44<20:08,  4.17it/s] 26%|██▋       | 1805/6837 [20:45<20:08,  4.16it/s] 26%|██▋       | 1806/6837 [20:45<20:09,  4.16it/s] 26%|██▋       | 1807/6837 [20:45<20:07,  4.17it/s] 26%|██▋       | 1808/6837 [20:45<20:03,  4.18it/s] 26%|██▋       | 1809/6837 [20:45<20:02,  4.18it/s] 26%|██▋       | 1810/6837 [20:46<20:02,  4.18it/s] 26%|██▋       | 1811/6837 [20:46<20:00,  4.19it/s] 27%|██▋       | 1812/6837 [20:46<20:00,  4.19it/s] 27%|██▋       | 1813/6837 [20:46<20:13,  4.14it/s] 27%|██▋       | 1814/6837 [20:47<20:07,  4.16it/s] 27%|██▋       | 1815/6837 [20:47<20:10,  4.15it/s] 27%|██▋       | 1816/6837 [20:47<20:06,  4.16it/s] 27%|██▋       | 1817/6837 [20:47<20:00,  4.18it/s] 27%|██▋       | 1818/6837 [20:48<20:01,  4.18it/s] 27%|██▋       | 1819/6837 [20:48<20:01,  4.18it/s] 27%|██▋       | 1820/6837 [20:48<19:58,  4.19it/s] 27%|██▋       | 1821/6837 [20:48<19:57,  4.19it/s] 27%|██▋       | 1822/6837 [20:49<19:58,  4.18it/s] 27%|██▋       | 1823/6837 [20:49<19:58,  4.18it/s] 27%|██▋       | 1824/6837 [20:49<19:56,  4.19it/s] 27%|██▋       | 1825/6837 [20:49<19:54,  4.20it/s]{'loss': 4.6691, 'grad_norm': 0.13456492125988007, 'learning_rate': 0.0055051533276595024, 'epoch': 0.05}
                                                    27%|██▋       | 1825/6837 [20:49<19:54,  4.20it/s] 27%|██▋       | 1826/6837 [20:50<20:00,  4.17it/s] 27%|██▋       | 1827/6837 [20:50<19:59,  4.18it/s] 27%|██▋       | 1828/6837 [20:50<19:56,  4.19it/s] 27%|██▋       | 1829/6837 [20:50<19:56,  4.19it/s] 27%|██▋       | 1830/6837 [20:51<19:57,  4.18it/s] 27%|██▋       | 1831/6837 [20:51<19:58,  4.18it/s] 27%|██▋       | 1832/6837 [20:51<19:56,  4.18it/s] 27%|██▋       | 1833/6837 [20:51<19:58,  4.18it/s] 27%|██▋       | 1834/6837 [20:51<19:56,  4.18it/s] 27%|██▋       | 1835/6837 [20:52<19:55,  4.19it/s] 27%|██▋       | 1836/6837 [20:52<19:52,  4.19it/s] 27%|██▋       | 1837/6837 [20:52<19:52,  4.19it/s] 27%|██▋       | 1838/6837 [20:52<19:54,  4.18it/s] 27%|██▋       | 1839/6837 [20:53<19:51,  4.19it/s] 27%|██▋       | 1840/6837 [20:53<19:49,  4.20it/s] 27%|██▋       | 1841/6837 [20:53<19:46,  4.21it/s] 27%|██▋       | 1842/6837 [20:53<19:51,  4.19it/s] 27%|██▋       | 1843/6837 [20:54<19:48,  4.20it/s] 27%|██▋       | 1844/6837 [20:54<19:46,  4.21it/s] 27%|██▋       | 1845/6837 [20:54<19:47,  4.20it/s] 27%|██▋       | 1846/6837 [20:54<19:49,  4.19it/s] 27%|██▋       | 1847/6837 [20:55<19:49,  4.20it/s] 27%|██▋       | 1848/6837 [20:55<19:48,  4.20it/s] 27%|██▋       | 1849/6837 [20:55<19:46,  4.20it/s] 27%|██▋       | 1850/6837 [20:55<19:49,  4.19it/s]                                                   {'loss': 4.6531, 'grad_norm': 0.14033429324626923, 'learning_rate': 0.005483881832804299, 'epoch': 0.05}
 27%|██▋       | 1850/6837 [20:55<19:49,  4.19it/s] 27%|██▋       | 1851/6837 [20:56<19:50,  4.19it/s] 27%|██▋       | 1852/6837 [20:56<19:48,  4.19it/s] 27%|██▋       | 1853/6837 [20:56<19:47,  4.20it/s] 27%|██▋       | 1854/6837 [20:56<19:47,  4.20it/s] 27%|██▋       | 1855/6837 [20:56<19:44,  4.21it/s] 27%|██▋       | 1856/6837 [20:57<19:42,  4.21it/s] 27%|██▋       | 1857/6837 [20:57<19:44,  4.20it/s] 27%|██▋       | 1858/6837 [20:57<19:43,  4.21it/s] 27%|██▋       | 1859/6837 [20:57<19:41,  4.21it/s] 27%|██▋       | 1860/6837 [20:58<19:41,  4.21it/s] 27%|██▋       | 1861/6837 [20:58<19:41,  4.21it/s] 27%|██▋       | 1862/6837 [20:58<19:41,  4.21it/s] 27%|██▋       | 1863/6837 [20:58<19:41,  4.21it/s] 27%|██▋       | 1864/6837 [20:59<19:42,  4.21it/s] 27%|██▋       | 1865/6837 [20:59<19:43,  4.20it/s] 27%|██▋       | 1866/6837 [20:59<19:46,  4.19it/s] 27%|██▋       | 1867/6837 [20:59<19:42,  4.20it/s] 27%|██▋       | 1868/6837 [21:00<19:42,  4.20it/s] 27%|██▋       | 1869/6837 [21:00<19:41,  4.21it/s] 27%|██▋       | 1870/6837 [21:00<19:39,  4.21it/s] 27%|██▋       | 1871/6837 [21:00<19:39,  4.21it/s] 27%|██▋       | 1872/6837 [21:01<19:42,  4.20it/s] 27%|██▋       | 1873/6837 [21:01<19:42,  4.20it/s] 27%|██▋       | 1874/6837 [21:01<19:40,  4.20it/s] 27%|██▋       | 1875/6837 [21:01<19:40,  4.20it/s]                                                   {'loss': 4.6486, 'grad_norm': 0.1333823949098587, 'learning_rate': 0.005462205640034116, 'epoch': 0.05}
 27%|██▋       | 1875/6837 [21:01<19:40,  4.20it/s] 27%|██▋       | 1876/6837 [21:01<19:42,  4.20it/s] 27%|██▋       | 1877/6837 [21:02<19:41,  4.20it/s] 27%|██▋       | 1878/6837 [21:02<19:39,  4.20it/s] 27%|██▋       | 1879/6837 [21:02<19:40,  4.20it/s] 27%|██▋       | 1880/6837 [21:02<19:41,  4.19it/s] 28%|██▊       | 1881/6837 [21:03<19:41,  4.20it/s] 28%|██▊       | 1882/6837 [21:03<19:41,  4.19it/s] 28%|██▊       | 1883/6837 [21:03<19:39,  4.20it/s] 28%|██▊       | 1884/6837 [21:03<19:38,  4.20it/s] 28%|██▊       | 1885/6837 [21:04<19:37,  4.21it/s] 28%|██▊       | 1886/6837 [21:04<19:36,  4.21it/s] 28%|██▊       | 1887/6837 [21:04<19:38,  4.20it/s] 28%|██▊       | 1888/6837 [21:04<19:37,  4.20it/s] 28%|██▊       | 1889/6837 [21:05<19:36,  4.20it/s] 28%|██▊       | 1890/6837 [21:05<19:35,  4.21it/s] 28%|██▊       | 1891/6837 [21:05<19:38,  4.20it/s] 28%|██▊       | 1892/6837 [21:05<19:37,  4.20it/s] 28%|██▊       | 1893/6837 [21:06<19:37,  4.20it/s] 28%|██▊       | 1894/6837 [21:06<19:34,  4.21it/s] 28%|██▊       | 1895/6837 [21:06<19:34,  4.21it/s] 28%|██▊       | 1896/6837 [21:06<19:36,  4.20it/s] 28%|██▊       | 1897/6837 [21:06<19:33,  4.21it/s] 28%|██▊       | 1898/6837 [21:07<19:34,  4.21it/s] 28%|██▊       | 1899/6837 [21:07<19:32,  4.21it/s] 28%|██▊       | 1900/6837 [21:07<19:30,  4.22it/s]                                                   {'loss': 4.6442, 'grad_norm': 0.13534818589687347, 'learning_rate': 0.005440128281042736, 'epoch': 0.06}
 28%|██▊       | 1900/6837 [21:07<19:30,  4.22it/s] 28%|██▊       | 1901/6837 [21:07<19:34,  4.20it/s] 28%|██▊       | 1902/6837 [21:08<19:36,  4.20it/s] 28%|██▊       | 1903/6837 [21:08<19:34,  4.20it/s] 28%|██▊       | 1904/6837 [21:08<19:33,  4.20it/s] 28%|██▊       | 1905/6837 [21:08<19:33,  4.20it/s] 28%|██▊       | 1906/6837 [21:09<19:33,  4.20it/s] 28%|██▊       | 1907/6837 [21:09<19:32,  4.20it/s] 28%|██▊       | 1908/6837 [21:09<19:31,  4.21it/s] 28%|██▊       | 1909/6837 [21:09<19:28,  4.22it/s] 28%|██▊       | 1910/6837 [21:10<19:29,  4.21it/s] 28%|██▊       | 1911/6837 [21:10<19:30,  4.21it/s] 28%|██▊       | 1912/6837 [21:10<19:30,  4.21it/s] 28%|██▊       | 1913/6837 [21:10<19:29,  4.21it/s] 28%|██▊       | 1914/6837 [21:11<19:30,  4.21it/s] 28%|██▊       | 1915/6837 [21:11<19:28,  4.21it/s] 28%|██▊       | 1916/6837 [21:11<19:27,  4.21it/s] 28%|██▊       | 1917/6837 [21:11<19:30,  4.20it/s] 28%|██▊       | 1918/6837 [21:11<19:31,  4.20it/s] 28%|██▊       | 1919/6837 [21:12<19:31,  4.20it/s] 28%|██▊       | 1920/6837 [21:12<19:30,  4.20it/s] 28%|██▊       | 1921/6837 [21:12<19:30,  4.20it/s] 28%|██▊       | 1922/6837 [21:12<19:29,  4.20it/s] 28%|██▊       | 1923/6837 [21:13<19:27,  4.21it/s] 28%|██▊       | 1924/6837 [21:13<20:11,  4.06it/s] 28%|██▊       | 1925/6837 [21:13<20:02,  4.08it/s]                                                   {'loss': 4.6472, 'grad_norm': 0.13941456377506256, 'learning_rate': 0.005417653352885793, 'epoch': 0.06}
 28%|██▊       | 1925/6837 [21:13<20:02,  4.08it/s] 28%|██▊       | 1926/6837 [21:13<19:54,  4.11it/s] 28%|██▊       | 1927/6837 [21:14<19:46,  4.14it/s] 28%|██▊       | 1928/6837 [21:14<19:43,  4.15it/s] 28%|██▊       | 1929/6837 [21:14<19:39,  4.16it/s] 28%|██▊       | 1930/6837 [21:14<19:36,  4.17it/s] 28%|██▊       | 1931/6837 [21:15<19:31,  4.19it/s] 28%|██▊       | 1932/6837 [21:15<19:31,  4.19it/s] 28%|██▊       | 1933/6837 [21:15<19:31,  4.19it/s] 28%|██▊       | 1934/6837 [21:15<19:31,  4.19it/s] 28%|██▊       | 1935/6837 [21:16<19:30,  4.19it/s] 28%|██▊       | 1936/6837 [21:16<19:30,  4.19it/s] 28%|██▊       | 1937/6837 [21:16<19:29,  4.19it/s] 28%|██▊       | 1938/6837 [21:16<19:28,  4.19it/s] 28%|██▊       | 1939/6837 [21:16<19:28,  4.19it/s] 28%|██▊       | 1940/6837 [21:17<19:29,  4.19it/s] 28%|██▊       | 1941/6837 [21:17<19:29,  4.19it/s] 28%|██▊       | 1942/6837 [21:17<19:25,  4.20it/s] 28%|██▊       | 1943/6837 [21:17<19:25,  4.20it/s] 28%|██▊       | 1944/6837 [21:18<19:25,  4.20it/s] 28%|██▊       | 1945/6837 [21:18<19:29,  4.18it/s] 28%|██▊       | 1946/6837 [21:18<19:26,  4.19it/s] 28%|██▊       | 1947/6837 [21:18<19:28,  4.19it/s] 28%|██▊       | 1948/6837 [21:19<19:28,  4.19it/s] 29%|██▊       | 1949/6837 [21:19<19:24,  4.20it/s] 29%|██▊       | 1950/6837 [21:19<19:26,  4.19it/s]{'loss': 4.6264, 'grad_norm': 0.14234456419944763, 'learning_rate': 0.0053947845173947205, 'epoch': 0.06}                                                   
 29%|██▊       | 1950/6837 [21:19<19:26,  4.19it/s] 29%|██▊       | 1951/6837 [21:19<19:29,  4.18it/s] 29%|██▊       | 1952/6837 [21:20<19:26,  4.19it/s] 29%|██▊       | 1953/6837 [21:20<19:22,  4.20it/s] 29%|██▊       | 1954/6837 [21:20<19:22,  4.20it/s] 29%|██▊       | 1955/6837 [21:20<19:21,  4.20it/s] 29%|██▊       | 1956/6837 [21:21<19:22,  4.20it/s] 29%|██▊       | 1957/6837 [21:21<19:22,  4.20it/s] 29%|██▊       | 1958/6837 [21:21<19:23,  4.19it/s] 29%|██▊       | 1959/6837 [21:21<19:21,  4.20it/s] 29%|██▊       | 1960/6837 [21:22<19:20,  4.20it/s] 29%|██▊       | 1961/6837 [21:22<19:20,  4.20it/s] 29%|██▊       | 1962/6837 [21:22<19:21,  4.20it/s] 29%|██▊       | 1963/6837 [21:22<19:18,  4.21it/s] 29%|██▊       | 1964/6837 [21:22<19:16,  4.21it/s] 29%|██▊       | 1965/6837 [21:23<19:15,  4.22it/s] 29%|██▉       | 1966/6837 [21:23<19:13,  4.22it/s] 29%|██▉       | 1967/6837 [21:23<19:19,  4.20it/s] 29%|██▉       | 1968/6837 [21:23<19:16,  4.21it/s] 29%|██▉       | 1969/6837 [21:24<19:16,  4.21it/s] 29%|██▉       | 1970/6837 [21:24<19:16,  4.21it/s] 29%|██▉       | 1971/6837 [21:24<19:14,  4.21it/s] 29%|██▉       | 1972/6837 [21:24<19:11,  4.22it/s] 29%|██▉       | 1973/6837 [21:25<19:12,  4.22it/s] 29%|██▉       | 1974/6837 [21:25<19:10,  4.23it/s] 29%|██▉       | 1975/6837 [21:25<19:10,  4.23it/s]{'loss': 4.631, 'grad_norm': 0.13691064715385437, 'learning_rate': 0.005371525500580118, 'epoch': 0.06}                                                   
 29%|██▉       | 1975/6837 [21:25<19:10,  4.23it/s] 29%|██▉       | 1976/6837 [21:25<19:14,  4.21it/s] 29%|██▉       | 1977/6837 [21:26<19:14,  4.21it/s] 29%|██▉       | 1978/6837 [21:26<19:12,  4.22it/s] 29%|██▉       | 1979/6837 [21:26<19:11,  4.22it/s] 29%|██▉       | 1980/6837 [21:26<19:12,  4.21it/s] 29%|██▉       | 1981/6837 [21:26<19:13,  4.21it/s] 29%|██▉       | 1982/6837 [21:27<19:11,  4.22it/s] 29%|██▉       | 1983/6837 [21:27<19:10,  4.22it/s] 29%|██▉       | 1984/6837 [21:27<19:11,  4.22it/s] 29%|██▉       | 1985/6837 [21:27<19:10,  4.22it/s] 29%|██▉       | 1986/6837 [21:28<19:09,  4.22it/s] 29%|██▉       | 1987/6837 [21:28<19:09,  4.22it/s] 29%|██▉       | 1988/6837 [21:28<19:10,  4.22it/s] 29%|██▉       | 1989/6837 [21:28<19:09,  4.22it/s] 29%|██▉       | 1990/6837 [21:29<19:09,  4.21it/s] 29%|██▉       | 1991/6837 [21:29<19:10,  4.21it/s] 29%|██▉       | 1992/6837 [21:29<19:09,  4.22it/s] 29%|██▉       | 1993/6837 [21:29<19:08,  4.22it/s] 29%|██▉       | 1994/6837 [21:30<19:06,  4.22it/s] 29%|██▉       | 1995/6837 [21:30<19:07,  4.22it/s] 29%|██▉       | 1996/6837 [21:30<19:09,  4.21it/s] 29%|██▉       | 1997/6837 [21:30<19:07,  4.22it/s] 29%|██▉       | 1998/6837 [21:31<19:08,  4.21it/s] 29%|██▉       | 1999/6837 [21:31<19:54,  4.05it/s] 29%|██▉       | 2000/6837 [21:31<20:21,  3.96it/s]                                                   {'loss': 4.626, 'grad_norm': 0.14199486374855042, 'learning_rate': 0.0053478800920246814, 'epoch': 0.06}
 29%|██▉       | 2000/6837 [21:31<20:21,  3.96it/s] 29%|██▉       | 2001/6837 [21:31<20:43,  3.89it/s] 29%|██▉       | 2002/6837 [21:32<20:50,  3.87it/s] 29%|██▉       | 2003/6837 [21:32<21:01,  3.83it/s] 29%|██▉       | 2004/6837 [21:32<21:10,  3.80it/s] 29%|██▉       | 2005/6837 [21:32<21:16,  3.79it/s] 29%|██▉       | 2006/6837 [21:33<21:18,  3.78it/s] 29%|██▉       | 2007/6837 [21:33<21:21,  3.77it/s] 29%|██▉       | 2008/6837 [21:33<21:27,  3.75it/s] 29%|██▉       | 2009/6837 [21:33<21:14,  3.79it/s] 29%|██▉       | 2010/6837 [21:34<21:15,  3.78it/s] 29%|██▉       | 2011/6837 [21:34<21:17,  3.78it/s] 29%|██▉       | 2012/6837 [21:34<21:21,  3.77it/s] 29%|██▉       | 2013/6837 [21:35<21:19,  3.77it/s] 29%|██▉       | 2014/6837 [21:35<21:14,  3.78it/s] 29%|██▉       | 2015/6837 [21:35<20:43,  3.88it/s] 29%|██▉       | 2016/6837 [21:35<20:14,  3.97it/s] 30%|██▉       | 2017/6837 [21:35<19:51,  4.04it/s] 30%|██▉       | 2018/6837 [21:36<19:35,  4.10it/s] 30%|██▉       | 2019/6837 [21:36<19:22,  4.14it/s] 30%|██▉       | 2020/6837 [21:36<19:17,  4.16it/s] 30%|██▉       | 2021/6837 [21:36<19:11,  4.18it/s] 30%|██▉       | 2022/6837 [21:37<19:06,  4.20it/s] 30%|██▉       | 2023/6837 [21:37<19:04,  4.21it/s] 30%|██▉       | 2024/6837 [21:37<19:01,  4.22it/s] 30%|██▉       | 2025/6837 [21:37<19:02,  4.21it/s]                                                   {'loss': 4.6118, 'grad_norm': 0.13648205995559692, 'learning_rate': 0.005323852144265764, 'epoch': 0.06}
 30%|██▉       | 2025/6837 [21:37<19:02,  4.21it/s] 30%|██▉       | 2026/6837 [21:38<19:00,  4.22it/s] 30%|██▉       | 2027/6837 [21:38<18:59,  4.22it/s] 30%|██▉       | 2028/6837 [21:38<19:00,  4.22it/s] 30%|██▉       | 2029/6837 [21:38<18:59,  4.22it/s] 30%|██▉       | 2030/6837 [21:39<19:00,  4.21it/s] 30%|██▉       | 2031/6837 [21:39<18:57,  4.23it/s] 30%|██▉       | 2032/6837 [21:39<18:57,  4.22it/s] 30%|██▉       | 2033/6837 [21:39<18:54,  4.24it/s] 30%|██▉       | 2034/6837 [21:40<18:55,  4.23it/s] 30%|██▉       | 2035/6837 [21:40<18:55,  4.23it/s] 30%|██▉       | 2036/6837 [21:40<18:55,  4.23it/s] 30%|██▉       | 2037/6837 [21:40<19:01,  4.21it/s] 30%|██▉       | 2038/6837 [21:40<19:01,  4.20it/s] 30%|██▉       | 2039/6837 [21:41<18:57,  4.22it/s] 30%|██▉       | 2040/6837 [21:41<18:58,  4.21it/s] 30%|██▉       | 2041/6837 [21:41<18:55,  4.22it/s] 30%|██▉       | 2042/6837 [21:41<18:54,  4.23it/s] 30%|██▉       | 2043/6837 [21:42<18:55,  4.22it/s] 30%|██▉       | 2044/6837 [21:42<18:57,  4.22it/s] 30%|██▉       | 2045/6837 [21:42<18:54,  4.22it/s] 30%|██▉       | 2046/6837 [21:42<18:53,  4.23it/s] 30%|██▉       | 2047/6837 [21:43<18:53,  4.22it/s] 30%|██▉       | 2048/6837 [21:43<19:33,  4.08it/s] 30%|██▉       | 2049/6837 [21:43<19:28,  4.10it/s] 30%|██▉       | 2050/6837 [21:43<19:20,  4.13it/s]{'loss': 4.6142, 'grad_norm': 0.12774842977523804, 'learning_rate': 0.005299445572167684, 'epoch': 0.06}                                                   
 30%|██▉       | 2050/6837 [21:43<19:20,  4.13it/s] 30%|██▉       | 2051/6837 [21:44<19:14,  4.14it/s] 30%|███       | 2052/6837 [21:44<19:08,  4.17it/s] 30%|███       | 2053/6837 [21:44<19:03,  4.18it/s] 30%|███       | 2054/6837 [21:44<18:59,  4.20it/s] 30%|███       | 2055/6837 [21:45<18:57,  4.20it/s] 30%|███       | 2056/6837 [21:45<18:56,  4.21it/s] 30%|███       | 2057/6837 [21:45<18:56,  4.21it/s] 30%|███       | 2058/6837 [21:45<18:56,  4.21it/s] 30%|███       | 2059/6837 [21:45<18:54,  4.21it/s] 30%|███       | 2060/6837 [21:46<18:52,  4.22it/s] 30%|███       | 2061/6837 [21:46<18:52,  4.22it/s] 30%|███       | 2062/6837 [21:46<18:50,  4.22it/s] 30%|███       | 2063/6837 [21:46<18:48,  4.23it/s] 30%|███       | 2064/6837 [21:47<18:47,  4.23it/s] 30%|███       | 2065/6837 [21:47<18:47,  4.23it/s] 30%|███       | 2066/6837 [21:47<18:50,  4.22it/s] 30%|███       | 2067/6837 [21:47<18:51,  4.21it/s] 30%|███       | 2068/6837 [21:48<18:51,  4.22it/s] 30%|███       | 2069/6837 [21:48<18:51,  4.21it/s] 30%|███       | 2070/6837 [21:48<18:49,  4.22it/s] 30%|███       | 2071/6837 [21:48<18:48,  4.22it/s] 30%|███       | 2072/6837 [21:49<18:46,  4.23it/s] 30%|███       | 2073/6837 [21:49<18:46,  4.23it/s] 30%|███       | 2074/6837 [21:49<18:45,  4.23it/s] 30%|███       | 2075/6837 [21:49<18:44,  4.23it/s]                                                   {'loss': 4.6038, 'grad_norm': 0.13706155121326447, 'learning_rate': 0.005274664352283877, 'epoch': 0.06}
 30%|███       | 2075/6837 [21:49<18:44,  4.23it/s] 30%|███       | 2076/6837 [21:49<18:48,  4.22it/s] 30%|███       | 2077/6837 [21:50<18:49,  4.22it/s] 30%|███       | 2078/6837 [21:50<18:47,  4.22it/s] 30%|███       | 2079/6837 [21:50<18:46,  4.22it/s] 30%|███       | 2080/6837 [21:50<18:49,  4.21it/s] 30%|███       | 2081/6837 [21:51<25:31,  3.10it/s] 30%|███       | 2082/6837 [21:51<23:30,  3.37it/s] 30%|███       | 2083/6837 [21:51<22:07,  3.58it/s] 30%|███       | 2084/6837 [21:52<21:05,  3.76it/s] 30%|███       | 2085/6837 [21:52<20:24,  3.88it/s] 31%|███       | 2086/6837 [21:52<19:59,  3.96it/s] 31%|███       | 2087/6837 [21:52<19:35,  4.04it/s] 31%|███       | 2088/6837 [21:53<19:18,  4.10it/s] 31%|███       | 2089/6837 [21:53<19:08,  4.13it/s] 31%|███       | 2090/6837 [21:53<19:02,  4.16it/s] 31%|███       | 2091/6837 [21:53<18:56,  4.17it/s] 31%|███       | 2092/6837 [21:54<18:52,  4.19it/s] 31%|███       | 2093/6837 [21:54<18:51,  4.19it/s] 31%|███       | 2094/6837 [21:54<18:48,  4.20it/s] 31%|███       | 2095/6837 [21:54<18:48,  4.20it/s] 31%|███       | 2096/6837 [21:55<18:46,  4.21it/s] 31%|███       | 2097/6837 [21:55<18:44,  4.21it/s] 31%|███       | 2098/6837 [21:55<18:49,  4.20it/s] 31%|███       | 2099/6837 [21:55<18:46,  4.20it/s] 31%|███       | 2100/6837 [21:55<18:46,  4.21it/s]                                                   {'loss': 4.6014, 'grad_norm': 0.13223719596862793, 'learning_rate': 0.005249512522209001, 'epoch': 0.06}
 31%|███       | 2100/6837 [21:55<18:46,  4.21it/s] 31%|███       | 2101/6837 [21:56<18:46,  4.21it/s] 31%|███       | 2102/6837 [21:56<18:43,  4.22it/s] 31%|███       | 2103/6837 [21:56<18:40,  4.22it/s] 31%|███       | 2104/6837 [21:56<18:39,  4.23it/s] 31%|███       | 2105/6837 [21:57<18:38,  4.23it/s] 31%|███       | 2106/6837 [21:57<18:39,  4.23it/s] 31%|███       | 2107/6837 [21:57<18:38,  4.23it/s] 31%|███       | 2108/6837 [21:57<18:37,  4.23it/s] 31%|███       | 2109/6837 [21:58<18:38,  4.23it/s] 31%|███       | 2110/6837 [21:58<18:36,  4.23it/s] 31%|███       | 2111/6837 [21:58<18:36,  4.23it/s] 31%|███       | 2112/6837 [21:58<18:34,  4.24it/s] 31%|███       | 2113/6837 [21:59<18:36,  4.23it/s] 31%|███       | 2114/6837 [21:59<18:35,  4.23it/s] 31%|███       | 2115/6837 [21:59<18:34,  4.24it/s] 31%|███       | 2116/6837 [21:59<18:36,  4.23it/s] 31%|███       | 2117/6837 [21:59<18:37,  4.23it/s] 31%|███       | 2118/6837 [22:00<18:34,  4.23it/s] 31%|███       | 2119/6837 [22:00<18:35,  4.23it/s] 31%|███       | 2120/6837 [22:00<18:37,  4.22it/s] 31%|███       | 2121/6837 [22:00<18:39,  4.21it/s] 31%|███       | 2122/6837 [22:01<18:36,  4.22it/s] 31%|███       | 2123/6837 [22:01<18:36,  4.22it/s] 31%|███       | 2124/6837 [22:01<18:37,  4.22it/s] 31%|███       | 2125/6837 [22:01<18:37,  4.22it/s]                                                   {'loss': 4.6248, 'grad_norm': 0.13747967779636383, 'learning_rate': 0.005223994179921092, 'epoch': 0.06}
 31%|███       | 2125/6837 [22:01<18:37,  4.22it/s] 31%|███       | 2126/6837 [22:02<18:37,  4.22it/s] 31%|███       | 2127/6837 [22:02<18:35,  4.22it/s] 31%|███       | 2128/6837 [22:02<18:37,  4.22it/s] 31%|███       | 2129/6837 [22:02<18:35,  4.22it/s] 31%|███       | 2130/6837 [22:03<18:36,  4.21it/s] 31%|███       | 2131/6837 [22:03<18:33,  4.23it/s] 31%|███       | 2132/6837 [22:03<18:32,  4.23it/s] 31%|███       | 2133/6837 [22:03<19:37,  4.00it/s] 31%|███       | 2134/6837 [22:04<20:07,  3.89it/s] 31%|███       | 2135/6837 [22:04<20:22,  3.85it/s] 31%|███       | 2136/6837 [22:04<20:26,  3.83it/s] 31%|███▏      | 2137/6837 [22:04<20:08,  3.89it/s] 31%|███▏      | 2138/6837 [22:05<19:39,  3.99it/s] 31%|███▏      | 2139/6837 [22:05<19:15,  4.07it/s] 31%|███▏      | 2140/6837 [22:05<19:01,  4.11it/s] 31%|███▏      | 2141/6837 [22:05<18:52,  4.15it/s] 31%|███▏      | 2142/6837 [22:06<18:45,  4.17it/s] 31%|███▏      | 2143/6837 [22:06<19:19,  4.05it/s] 31%|███▏      | 2144/6837 [22:06<19:43,  3.97it/s] 31%|███▏      | 2145/6837 [22:06<19:19,  4.05it/s] 31%|███▏      | 2146/6837 [22:07<19:04,  4.10it/s] 31%|███▏      | 2147/6837 [22:07<18:53,  4.14it/s] 31%|███▏      | 2148/6837 [22:07<18:46,  4.16it/s] 31%|███▏      | 2149/6837 [22:07<18:42,  4.18it/s] 31%|███▏      | 2150/6837 [22:08<18:37,  4.19it/s]                                                   {'loss': 4.6057, 'grad_norm': 0.16631564497947693, 'learning_rate': 0.005198113483113877, 'epoch': 0.06}
 31%|███▏      | 2150/6837 [22:08<18:37,  4.19it/s] 31%|███▏      | 2151/6837 [22:08<18:36,  4.20it/s] 31%|███▏      | 2152/6837 [22:08<18:33,  4.21it/s] 31%|███▏      | 2153/6837 [22:08<18:31,  4.21it/s] 32%|███▏      | 2154/6837 [22:08<18:29,  4.22it/s] 32%|███▏      | 2155/6837 [22:09<18:29,  4.22it/s] 32%|███▏      | 2156/6837 [22:09<18:27,  4.23it/s] 32%|███▏      | 2157/6837 [22:09<18:25,  4.23it/s] 32%|███▏      | 2158/6837 [22:09<18:23,  4.24it/s] 32%|███▏      | 2159/6837 [22:10<18:25,  4.23it/s] 32%|███▏      | 2160/6837 [22:10<18:28,  4.22it/s] 32%|███▏      | 2161/6837 [22:10<18:28,  4.22it/s] 32%|███▏      | 2162/6837 [22:10<18:26,  4.22it/s] 32%|███▏      | 2163/6837 [22:11<18:25,  4.23it/s] 32%|███▏      | 2164/6837 [22:11<18:23,  4.23it/s] 32%|███▏      | 2165/6837 [22:11<18:24,  4.23it/s] 32%|███▏      | 2166/6837 [22:11<18:23,  4.23it/s] 32%|███▏      | 2167/6837 [22:12<18:22,  4.24it/s] 32%|███▏      | 2168/6837 [22:12<18:21,  4.24it/s] 32%|███▏      | 2169/6837 [22:12<18:20,  4.24it/s] 32%|███▏      | 2170/6837 [22:12<18:21,  4.24it/s] 32%|███▏      | 2171/6837 [22:12<18:23,  4.23it/s] 32%|███▏      | 2172/6837 [22:13<19:02,  4.08it/s] 32%|███▏      | 2173/6837 [22:13<19:38,  3.96it/s] 32%|███▏      | 2174/6837 [22:13<20:04,  3.87it/s] 32%|███▏      | 2175/6837 [22:14<20:09,  3.86it/s]                                                   {'loss': 4.6092, 'grad_norm': 0.14016544818878174, 'learning_rate': 0.005171874648519365, 'epoch': 0.06}
 32%|███▏      | 2175/6837 [22:14<20:09,  3.86it/s] 32%|███▏      | 2176/6837 [22:14<20:15,  3.83it/s] 32%|███▏      | 2177/6837 [22:14<20:22,  3.81it/s] 32%|███▏      | 2178/6837 [22:14<20:27,  3.80it/s] 32%|███▏      | 2179/6837 [22:15<20:27,  3.79it/s] 32%|███▏      | 2180/6837 [22:15<20:28,  3.79it/s] 32%|███▏      | 2181/6837 [22:15<20:24,  3.80it/s] 32%|███▏      | 2182/6837 [22:15<19:47,  3.92it/s] 32%|███▏      | 2183/6837 [22:16<19:19,  4.02it/s] 32%|███▏      | 2184/6837 [22:16<19:00,  4.08it/s] 32%|███▏      | 2185/6837 [22:16<18:50,  4.11it/s] 32%|███▏      | 2186/6837 [22:16<18:43,  4.14it/s] 32%|███▏      | 2187/6837 [22:17<18:35,  4.17it/s] 32%|███▏      | 2188/6837 [22:17<18:29,  4.19it/s] 32%|███▏      | 2189/6837 [22:17<18:25,  4.21it/s] 32%|███▏      | 2190/6837 [22:17<18:24,  4.21it/s] 32%|███▏      | 2191/6837 [22:17<18:24,  4.21it/s] 32%|███▏      | 2192/6837 [22:18<18:25,  4.20it/s] 32%|███▏      | 2193/6837 [22:18<18:23,  4.21it/s] 32%|███▏      | 2194/6837 [22:18<18:22,  4.21it/s] 32%|███▏      | 2195/6837 [22:18<18:20,  4.22it/s] 32%|███▏      | 2196/6837 [22:19<18:23,  4.21it/s] 32%|███▏      | 2197/6837 [22:19<18:21,  4.21it/s] 32%|███▏      | 2198/6837 [22:19<18:21,  4.21it/s] 32%|███▏      | 2199/6837 [22:19<18:19,  4.22it/s] 32%|███▏      | 2200/6837 [22:20<18:20,  4.21it/s]                                                   {'loss': 4.5938, 'grad_norm': 0.14113828539848328, 'learning_rate': 0.005145281951220822, 'epoch': 0.06}
 32%|███▏      | 2200/6837 [22:20<18:20,  4.21it/s] 32%|███▏      | 2201/6837 [22:20<18:22,  4.21it/s] 32%|███▏      | 2202/6837 [22:20<18:21,  4.21it/s] 32%|███▏      | 2203/6837 [22:20<18:22,  4.20it/s] 32%|███▏      | 2204/6837 [22:21<18:21,  4.21it/s] 32%|███▏      | 2205/6837 [22:21<18:20,  4.21it/s] 32%|███▏      | 2206/6837 [22:21<18:19,  4.21it/s] 32%|███▏      | 2207/6837 [22:21<18:20,  4.21it/s] 32%|███▏      | 2208/6837 [22:22<18:18,  4.21it/s] 32%|███▏      | 2209/6837 [22:22<18:18,  4.21it/s] 32%|███▏      | 2210/6837 [22:22<18:17,  4.22it/s] 32%|███▏      | 2211/6837 [22:22<18:17,  4.21it/s] 32%|███▏      | 2212/6837 [22:22<18:15,  4.22it/s] 32%|███▏      | 2213/6837 [22:23<18:13,  4.23it/s] 32%|███▏      | 2214/6837 [22:23<18:13,  4.23it/s] 32%|███▏      | 2215/6837 [22:23<18:13,  4.23it/s] 32%|███▏      | 2216/6837 [22:23<18:12,  4.23it/s] 32%|███▏      | 2217/6837 [22:24<18:10,  4.24it/s] 32%|███▏      | 2218/6837 [22:24<18:10,  4.23it/s] 32%|███▏      | 2219/6837 [22:24<18:10,  4.24it/s] 32%|███▏      | 2220/6837 [22:24<18:07,  4.25it/s] 32%|███▏      | 2221/6837 [22:25<18:06,  4.25it/s] 32%|███▏      | 2222/6837 [22:25<18:07,  4.24it/s] 33%|███▎      | 2223/6837 [22:25<18:05,  4.25it/s] 33%|███▎      | 2224/6837 [22:25<18:05,  4.25it/s] 33%|███▎      | 2225/6837 [22:26<18:08,  4.24it/s]                                                   {'loss': 4.6016, 'grad_norm': 0.13770692050457, 'learning_rate': 0.005118339723956226, 'epoch': 0.07}
 33%|███▎      | 2225/6837 [22:26<18:08,  4.24it/s] 33%|███▎      | 2226/6837 [22:26<18:11,  4.23it/s] 33%|███▎      | 2227/6837 [22:26<18:11,  4.22it/s] 33%|███▎      | 2228/6837 [22:26<18:11,  4.22it/s] 33%|███▎      | 2229/6837 [22:26<18:12,  4.22it/s] 33%|███▎      | 2230/6837 [22:27<18:13,  4.21it/s] 33%|███▎      | 2231/6837 [22:27<18:11,  4.22it/s] 33%|███▎      | 2232/6837 [22:27<18:09,  4.23it/s] 33%|███▎      | 2233/6837 [22:27<18:08,  4.23it/s] 33%|███▎      | 2234/6837 [22:28<18:06,  4.24it/s] 33%|███▎      | 2235/6837 [22:28<18:06,  4.24it/s] 33%|███▎      | 2236/6837 [22:28<18:05,  4.24it/s] 33%|███▎      | 2237/6837 [22:28<18:04,  4.24it/s] 33%|███▎      | 2238/6837 [22:29<18:02,  4.25it/s] 33%|███▎      | 2239/6837 [22:29<18:02,  4.25it/s] 33%|███▎      | 2240/6837 [22:29<18:01,  4.25it/s] 33%|███▎      | 2241/6837 [22:29<18:02,  4.25it/s] 33%|███▎      | 2242/6837 [22:30<18:00,  4.25it/s] 33%|███▎      | 2243/6837 [22:30<18:01,  4.25it/s] 33%|███▎      | 2244/6837 [22:30<18:02,  4.24it/s] 33%|███▎      | 2245/6837 [22:30<17:59,  4.25it/s] 33%|███▎      | 2246/6837 [22:30<18:01,  4.25it/s] 33%|███▎      | 2247/6837 [22:31<18:01,  4.25it/s] 33%|███▎      | 2248/6837 [22:31<18:01,  4.24it/s] 33%|███▎      | 2249/6837 [22:31<18:00,  4.25it/s] 33%|███▎      | 2250/6837 [22:31<18:01,  4.24it/s]                                                   {'loss': 4.5901, 'grad_norm': 0.13336360454559326, 'learning_rate': 0.005091052356412338, 'epoch': 0.07}
 33%|███▎      | 2250/6837 [22:31<18:01,  4.24it/s] 33%|███▎      | 2251/6837 [22:32<18:08,  4.21it/s] 33%|███▎      | 2252/6837 [22:32<18:04,  4.23it/s] 33%|███▎      | 2253/6837 [22:32<18:04,  4.23it/s] 33%|███▎      | 2254/6837 [22:32<18:04,  4.23it/s] 33%|███▎      | 2255/6837 [22:33<18:03,  4.23it/s] 33%|███▎      | 2256/6837 [22:33<18:01,  4.24it/s] 33%|███▎      | 2257/6837 [22:33<18:00,  4.24it/s] 33%|███▎      | 2258/6837 [22:33<17:59,  4.24it/s] 33%|███▎      | 2259/6837 [22:34<17:59,  4.24it/s] 33%|███▎      | 2260/6837 [22:34<18:01,  4.23it/s] 33%|███▎      | 2261/6837 [22:34<18:00,  4.23it/s] 33%|███▎      | 2262/6837 [22:34<18:02,  4.23it/s] 33%|███▎      | 2263/6837 [22:35<18:01,  4.23it/s] 33%|███▎      | 2264/6837 [22:35<18:01,  4.23it/s] 33%|███▎      | 2265/6837 [22:35<18:01,  4.23it/s] 33%|███▎      | 2266/6837 [22:35<18:01,  4.23it/s] 33%|███▎      | 2267/6837 [22:35<18:00,  4.23it/s] 33%|███▎      | 2268/6837 [22:36<18:00,  4.23it/s] 33%|███▎      | 2269/6837 [22:36<17:59,  4.23it/s] 33%|███▎      | 2270/6837 [22:36<18:00,  4.23it/s] 33%|███▎      | 2271/6837 [22:36<17:59,  4.23it/s] 33%|███▎      | 2272/6837 [22:37<18:01,  4.22it/s] 33%|███▎      | 2273/6837 [22:37<18:07,  4.20it/s] 33%|███▎      | 2274/6837 [22:37<18:10,  4.18it/s] 33%|███▎      | 2275/6837 [22:37<18:11,  4.18it/s]                                                   {'loss': 4.5819, 'grad_norm': 0.14527961611747742, 'learning_rate': 0.005063424294509492, 'epoch': 0.07}
 33%|███▎      | 2275/6837 [22:37<18:11,  4.18it/s] 33%|███▎      | 2276/6837 [22:38<18:10,  4.18it/s] 33%|███▎      | 2277/6837 [22:38<18:07,  4.19it/s] 33%|███▎      | 2278/6837 [22:38<18:04,  4.20it/s] 33%|███▎      | 2279/6837 [22:38<18:02,  4.21it/s] 33%|███▎      | 2280/6837 [22:39<18:01,  4.22it/s] 33%|███▎      | 2281/6837 [22:39<17:59,  4.22it/s] 33%|███▎      | 2282/6837 [22:39<17:58,  4.22it/s] 33%|███▎      | 2283/6837 [22:39<17:56,  4.23it/s] 33%|███▎      | 2284/6837 [22:39<17:56,  4.23it/s] 33%|███▎      | 2285/6837 [22:40<17:56,  4.23it/s] 33%|███▎      | 2286/6837 [22:40<17:54,  4.23it/s] 33%|███▎      | 2287/6837 [22:40<17:54,  4.23it/s] 33%|███▎      | 2288/6837 [22:40<17:57,  4.22it/s] 33%|███▎      | 2289/6837 [22:41<17:56,  4.23it/s] 33%|███▎      | 2290/6837 [22:41<17:56,  4.22it/s] 34%|███▎      | 2291/6837 [22:41<17:57,  4.22it/s] 34%|███▎      | 2292/6837 [22:41<17:56,  4.22it/s] 34%|███▎      | 2293/6837 [22:42<17:55,  4.23it/s] 34%|███▎      | 2294/6837 [22:42<17:55,  4.23it/s] 34%|███▎      | 2295/6837 [22:42<17:57,  4.21it/s] 34%|███▎      | 2296/6837 [22:42<17:55,  4.22it/s] 34%|███▎      | 2297/6837 [22:43<17:54,  4.22it/s] 34%|███▎      | 2298/6837 [22:43<17:53,  4.23it/s] 34%|███▎      | 2299/6837 [22:43<18:30,  4.09it/s] 34%|███▎      | 2300/6837 [22:43<18:18,  4.13it/s]                                                   {'loss': 4.5948, 'grad_norm': 0.1316913664340973, 'learning_rate': 0.005035460039677225, 'epoch': 0.07}
 34%|███▎      | 2300/6837 [22:43<18:18,  4.13it/s] 34%|███▎      | 2301/6837 [22:44<18:14,  4.15it/s] 34%|███▎      | 2302/6837 [22:44<18:06,  4.17it/s] 34%|███▎      | 2303/6837 [22:44<18:02,  4.19it/s] 34%|███▎      | 2304/6837 [22:44<17:59,  4.20it/s] 34%|███▎      | 2305/6837 [22:44<17:55,  4.21it/s] 34%|███▎      | 2306/6837 [22:45<17:55,  4.21it/s] 34%|███▎      | 2307/6837 [22:45<17:55,  4.21it/s] 34%|███▍      | 2308/6837 [22:45<17:55,  4.21it/s] 34%|███▍      | 2309/6837 [22:45<17:55,  4.21it/s] 34%|███▍      | 2310/6837 [22:46<17:54,  4.21it/s] 34%|███▍      | 2311/6837 [22:46<17:52,  4.22it/s] 34%|███▍      | 2312/6837 [22:46<17:51,  4.22it/s] 34%|███▍      | 2313/6837 [22:46<17:51,  4.22it/s] 34%|███▍      | 2314/6837 [22:47<18:16,  4.12it/s] 34%|███▍      | 2315/6837 [22:47<18:08,  4.15it/s] 34%|███▍      | 2316/6837 [22:47<18:03,  4.17it/s] 34%|███▍      | 2317/6837 [22:47<18:02,  4.18it/s] 34%|███▍      | 2318/6837 [22:48<17:59,  4.19it/s] 34%|███▍      | 2319/6837 [22:48<17:56,  4.20it/s] 34%|███▍      | 2320/6837 [22:48<17:55,  4.20it/s] 34%|███▍      | 2321/6837 [22:48<17:54,  4.20it/s] 34%|███▍      | 2322/6837 [22:49<17:52,  4.21it/s] 34%|███▍      | 2323/6837 [22:49<17:51,  4.21it/s] 34%|███▍      | 2324/6837 [22:49<17:54,  4.20it/s] 34%|███▍      | 2325/6837 [22:49<17:58,  4.18it/s]                                                   {'loss': 4.5796, 'grad_norm': 0.14166171848773956, 'learning_rate': 0.00500716414812086, 'epoch': 0.07}
 34%|███▍      | 2325/6837 [22:49<17:58,  4.18it/s] 34%|███▍      | 2326/6837 [22:49<17:57,  4.18it/s] 34%|███▍      | 2327/6837 [22:50<17:54,  4.20it/s] 34%|███▍      | 2328/6837 [22:50<17:51,  4.21it/s] 34%|███▍      | 2329/6837 [22:50<17:49,  4.22it/s] 34%|███▍      | 2330/6837 [22:50<17:46,  4.23it/s] 34%|███▍      | 2331/6837 [22:51<17:47,  4.22it/s] 34%|███▍      | 2332/6837 [22:51<18:26,  4.07it/s] 34%|███▍      | 2333/6837 [22:51<18:53,  3.97it/s] 34%|███▍      | 2334/6837 [22:51<19:13,  3.90it/s] 34%|███▍      | 2335/6837 [22:52<18:46,  4.00it/s] 34%|███▍      | 2336/6837 [22:52<18:26,  4.07it/s] 34%|███▍      | 2337/6837 [22:52<18:11,  4.12it/s] 34%|███▍      | 2338/6837 [22:52<18:01,  4.16it/s] 34%|███▍      | 2339/6837 [22:53<17:54,  4.18it/s] 34%|███▍      | 2340/6837 [22:53<17:51,  4.20it/s] 34%|███▍      | 2341/6837 [22:53<17:48,  4.21it/s] 34%|███▍      | 2342/6837 [22:53<17:47,  4.21it/s] 34%|███▍      | 2343/6837 [22:54<17:45,  4.22it/s] 34%|███▍      | 2344/6837 [22:54<17:44,  4.22it/s] 34%|███▍      | 2345/6837 [22:54<17:42,  4.23it/s] 34%|███▍      | 2346/6837 [22:54<17:42,  4.23it/s] 34%|███▍      | 2347/6837 [22:55<17:42,  4.23it/s] 34%|███▍      | 2348/6837 [22:55<17:40,  4.23it/s] 34%|███▍      | 2349/6837 [22:55<17:41,  4.23it/s] 34%|███▍      | 2350/6837 [22:55<17:42,  4.22it/s]                                                   {'loss': 4.5792, 'grad_norm': 0.12408694624900818, 'learning_rate': 0.004978541230079161, 'epoch': 0.07}
 34%|███▍      | 2350/6837 [22:55<17:42,  4.22it/s] 34%|███▍      | 2351/6837 [22:55<17:46,  4.20it/s] 34%|███▍      | 2352/6837 [22:56<17:42,  4.22it/s] 34%|███▍      | 2353/6837 [22:56<17:46,  4.20it/s] 34%|███▍      | 2354/6837 [22:56<17:42,  4.22it/s] 34%|███▍      | 2355/6837 [22:56<17:41,  4.22it/s] 34%|███▍      | 2356/6837 [22:57<17:40,  4.23it/s] 34%|███▍      | 2357/6837 [22:57<17:41,  4.22it/s] 34%|███▍      | 2358/6837 [22:57<17:39,  4.23it/s] 35%|███▍      | 2359/6837 [22:57<17:38,  4.23it/s] 35%|███▍      | 2360/6837 [22:58<17:39,  4.23it/s] 35%|███▍      | 2361/6837 [22:58<17:40,  4.22it/s] 35%|███▍      | 2362/6837 [22:58<17:38,  4.23it/s] 35%|███▍      | 2363/6837 [22:58<17:36,  4.23it/s] 35%|███▍      | 2364/6837 [22:59<17:37,  4.23it/s] 35%|███▍      | 2365/6837 [22:59<17:36,  4.23it/s] 35%|███▍      | 2366/6837 [22:59<17:35,  4.23it/s] 35%|███▍      | 2367/6837 [22:59<17:35,  4.24it/s] 35%|███▍      | 2368/6837 [23:00<17:35,  4.23it/s] 35%|███▍      | 2369/6837 [23:00<17:35,  4.23it/s] 35%|███▍      | 2370/6837 [23:00<17:35,  4.23it/s] 35%|███▍      | 2371/6837 [23:00<17:34,  4.23it/s] 35%|███▍      | 2372/6837 [23:00<17:35,  4.23it/s] 35%|███▍      | 2373/6837 [23:01<17:34,  4.23it/s] 35%|███▍      | 2374/6837 [23:01<17:33,  4.24it/s] 35%|███▍      | 2375/6837 [23:01<17:34,  4.23it/s]                                                   {'loss': 4.5897, 'grad_norm': 0.16600622236728668, 'learning_rate': 0.004949595949073194, 'epoch': 0.07}
 35%|███▍      | 2375/6837 [23:01<17:34,  4.23it/s] 35%|███▍      | 2376/6837 [23:01<18:19,  4.06it/s] 35%|███▍      | 2377/6837 [23:02<18:35,  4.00it/s] 35%|███▍      | 2378/6837 [23:02<18:56,  3.92it/s] 35%|███▍      | 2379/6837 [23:02<19:12,  3.87it/s] 35%|███▍      | 2380/6837 [23:02<19:17,  3.85it/s] 35%|███▍      | 2381/6837 [23:03<19:20,  3.84it/s] 35%|███▍      | 2382/6837 [23:03<19:21,  3.83it/s] 35%|███▍      | 2383/6837 [23:03<18:48,  3.95it/s] 35%|███▍      | 2384/6837 [23:03<18:27,  4.02it/s] 35%|███▍      | 2385/6837 [23:04<18:08,  4.09it/s] 35%|███▍      | 2386/6837 [23:04<17:55,  4.14it/s] 35%|███▍      | 2387/6837 [23:04<17:49,  4.16it/s] 35%|███▍      | 2388/6837 [23:04<17:42,  4.19it/s] 35%|███▍      | 2389/6837 [23:05<17:38,  4.20it/s] 35%|███▍      | 2390/6837 [23:05<17:36,  4.21it/s] 35%|███▍      | 2391/6837 [23:05<17:33,  4.22it/s] 35%|███▍      | 2392/6837 [23:05<17:31,  4.23it/s] 35%|███▌      | 2393/6837 [23:06<17:31,  4.22it/s] 35%|███▌      | 2394/6837 [23:06<17:29,  4.23it/s] 35%|███▌      | 2395/6837 [23:06<18:06,  4.09it/s] 35%|███▌      | 2396/6837 [23:06<18:26,  4.01it/s] 35%|███▌      | 2397/6837 [23:07<18:48,  3.93it/s] 35%|███▌      | 2398/6837 [23:07<18:58,  3.90it/s] 35%|███▌      | 2399/6837 [23:07<19:06,  3.87it/s] 35%|███▌      | 2400/6837 [23:07<19:13,  3.85it/s]                                                   {'loss': 4.5745, 'grad_norm': 0.16214387118816376, 'learning_rate': 0.004920333021146501, 'epoch': 0.07}
 35%|███▌      | 2400/6837 [23:07<19:13,  3.85it/s] 35%|███▌      | 2401/6837 [23:08<19:15,  3.84it/s] 35%|███▌      | 2402/6837 [23:08<19:19,  3.82it/s] 35%|███▌      | 2403/6837 [23:08<19:20,  3.82it/s] 35%|███▌      | 2404/6837 [23:08<19:22,  3.81it/s] 35%|███▌      | 2405/6837 [23:09<19:16,  3.83it/s] 35%|███▌      | 2406/6837 [23:09<19:21,  3.82it/s] 35%|███▌      | 2407/6837 [23:09<19:23,  3.81it/s] 35%|███▌      | 2408/6837 [23:10<19:25,  3.80it/s] 35%|███▌      | 2409/6837 [23:10<19:21,  3.81it/s] 35%|███▌      | 2410/6837 [23:10<19:20,  3.82it/s] 35%|███▌      | 2411/6837 [23:10<19:19,  3.82it/s] 35%|███▌      | 2412/6837 [23:11<19:23,  3.80it/s] 35%|███▌      | 2413/6837 [23:11<19:28,  3.79it/s] 35%|███▌      | 2414/6837 [23:11<19:27,  3.79it/s] 35%|███▌      | 2415/6837 [23:11<19:28,  3.78it/s] 35%|███▌      | 2416/6837 [23:12<19:37,  3.75it/s] 35%|███▌      | 2417/6837 [23:12<19:34,  3.76it/s] 35%|███▌      | 2418/6837 [23:12<19:26,  3.79it/s] 35%|███▌      | 2419/6837 [23:12<19:24,  3.79it/s] 35%|███▌      | 2420/6837 [23:13<19:28,  3.78it/s] 35%|███▌      | 2421/6837 [23:13<19:28,  3.78it/s] 35%|███▌      | 2422/6837 [23:13<19:22,  3.80it/s] 35%|███▌      | 2423/6837 [23:13<19:25,  3.79it/s] 35%|███▌      | 2424/6837 [23:14<19:27,  3.78it/s] 35%|███▌      | 2425/6837 [23:14<19:29,  3.77it/s]                                                   {'loss': 4.5609, 'grad_norm': 0.1423948109149933, 'learning_rate': 0.00489075721409671, 'epoch': 0.07}
 35%|███▌      | 2425/6837 [23:14<19:29,  3.77it/s] 35%|███▌      | 2426/6837 [23:14<19:43,  3.73it/s] 35%|███▌      | 2427/6837 [23:15<19:43,  3.73it/s] 36%|███▌      | 2428/6837 [23:15<19:42,  3.73it/s] 36%|███▌      | 2429/6837 [23:15<19:38,  3.74it/s] 36%|███▌      | 2430/6837 [23:15<19:36,  3.75it/s] 36%|███▌      | 2431/6837 [23:16<19:09,  3.83it/s] 36%|███▌      | 2432/6837 [23:16<18:36,  3.95it/s] 36%|███▌      | 2433/6837 [23:16<18:13,  4.03it/s] 36%|███▌      | 2434/6837 [23:16<17:56,  4.09it/s] 36%|███▌      | 2435/6837 [23:17<17:44,  4.14it/s] 36%|███▌      | 2436/6837 [23:17<17:36,  4.17it/s] 36%|███▌      | 2437/6837 [23:17<17:31,  4.18it/s] 36%|███▌      | 2438/6837 [23:17<17:25,  4.21it/s] 36%|███▌      | 2439/6837 [23:18<17:23,  4.21it/s] 36%|███▌      | 2440/6837 [23:18<17:23,  4.22it/s] 36%|███▌      | 2441/6837 [23:18<17:19,  4.23it/s] 36%|███▌      | 2442/6837 [23:18<17:17,  4.23it/s] 36%|███▌      | 2443/6837 [23:18<17:17,  4.23it/s] 36%|███▌      | 2444/6837 [23:19<17:17,  4.24it/s] 36%|███▌      | 2445/6837 [23:19<17:17,  4.23it/s] 36%|███▌      | 2446/6837 [23:19<17:16,  4.24it/s] 36%|███▌      | 2447/6837 [23:19<17:16,  4.23it/s] 36%|███▌      | 2448/6837 [23:20<17:15,  4.24it/s] 36%|███▌      | 2449/6837 [23:20<17:16,  4.23it/s] 36%|███▌      | 2450/6837 [23:20<17:16,  4.23it/s]                                                   {'loss': 4.571, 'grad_norm': 0.1584578901529312, 'learning_rate': 0.004860873346698729, 'epoch': 0.07}
 36%|███▌      | 2450/6837 [23:20<17:16,  4.23it/s] 36%|███▌      | 2451/6837 [23:20<17:20,  4.22it/s] 36%|███▌      | 2452/6837 [23:21<17:17,  4.23it/s] 36%|███▌      | 2453/6837 [23:21<17:15,  4.23it/s] 36%|███▌      | 2454/6837 [23:21<17:16,  4.23it/s] 36%|███▌      | 2455/6837 [23:21<17:14,  4.23it/s] 36%|███▌      | 2456/6837 [23:22<17:14,  4.23it/s] 36%|███▌      | 2457/6837 [23:22<17:15,  4.23it/s] 36%|███▌      | 2458/6837 [23:22<17:15,  4.23it/s] 36%|███▌      | 2459/6837 [23:22<17:15,  4.23it/s] 36%|███▌      | 2460/6837 [23:22<17:13,  4.24it/s] 36%|███▌      | 2461/6837 [23:23<17:12,  4.24it/s] 36%|███▌      | 2462/6837 [23:23<17:13,  4.23it/s] 36%|███▌      | 2463/6837 [23:23<17:13,  4.23it/s] 36%|███▌      | 2464/6837 [23:23<17:13,  4.23it/s] 36%|███▌      | 2465/6837 [23:24<17:16,  4.22it/s] 36%|███▌      | 2466/6837 [23:24<17:14,  4.22it/s] 36%|███▌      | 2467/6837 [23:24<17:14,  4.22it/s] 36%|███▌      | 2468/6837 [23:24<17:13,  4.23it/s] 36%|███▌      | 2469/6837 [23:25<17:48,  4.09it/s] 36%|███▌      | 2470/6837 [23:25<18:12,  4.00it/s] 36%|███▌      | 2471/6837 [23:25<18:31,  3.93it/s] 36%|███▌      | 2472/6837 [23:25<18:40,  3.90it/s] 36%|███▌      | 2473/6837 [23:26<18:46,  3.87it/s] 36%|███▌      | 2474/6837 [23:26<18:54,  3.85it/s] 36%|███▌      | 2475/6837 [23:26<19:02,  3.82it/s]                                                   {'loss': 4.5662, 'grad_norm': 0.1679723709821701, 'learning_rate': 0.004830686287919619, 'epoch': 0.07}
 36%|███▌      | 2475/6837 [23:26<19:02,  3.82it/s] 36%|███▌      | 2476/6837 [23:26<19:09,  3.79it/s] 36%|███▌      | 2477/6837 [23:27<19:12,  3.78it/s] 36%|███▌      | 2478/6837 [23:27<19:19,  3.76it/s] 36%|███▋      | 2479/6837 [23:27<19:24,  3.74it/s] 36%|███▋      | 2480/6837 [23:28<19:30,  3.72it/s] 36%|███▋      | 2481/6837 [23:28<19:37,  3.70it/s] 36%|███▋      | 2482/6837 [23:28<19:31,  3.72it/s] 36%|███▋      | 2483/6837 [23:28<19:27,  3.73it/s] 36%|███▋      | 2484/6837 [23:29<19:30,  3.72it/s] 36%|███▋      | 2485/6837 [23:29<19:28,  3.72it/s] 36%|███▋      | 2486/6837 [23:29<19:24,  3.74it/s] 36%|███▋      | 2487/6837 [23:29<19:21,  3.74it/s] 36%|███▋      | 2488/6837 [23:30<18:50,  3.85it/s] 36%|███▋      | 2489/6837 [23:30<18:18,  3.96it/s] 36%|███▋      | 2490/6837 [23:30<17:56,  4.04it/s] 36%|███▋      | 2491/6837 [23:30<17:40,  4.10it/s] 36%|███▋      | 2492/6837 [23:31<18:06,  4.00it/s] 36%|███▋      | 2493/6837 [23:31<18:27,  3.92it/s] 36%|███▋      | 2494/6837 [23:31<18:40,  3.87it/s] 36%|███▋      | 2495/6837 [23:31<18:52,  3.83it/s] 37%|███▋      | 2496/6837 [23:32<18:55,  3.82it/s] 37%|███▋      | 2497/6837 [23:32<19:03,  3.79it/s] 37%|███▋      | 2498/6837 [23:32<19:07,  3.78it/s] 37%|███▋      | 2499/6837 [23:33<19:12,  3.77it/s] 37%|███▋      | 2500/6837 [23:33<19:07,  3.78it/s]{'loss': 4.5668, 'grad_norm': 0.14782841503620148, 'learning_rate': 0.004800200956125296, 'epoch': 0.07}
                                                    37%|███▋      | 2500/6837 [23:33<19:07,  3.78it/s] 37%|███▋      | 2501/6837 [23:33<19:15,  3.75it/s] 37%|███▋      | 2502/6837 [23:33<19:14,  3.76it/s] 37%|███▋      | 2503/6837 [23:34<19:13,  3.76it/s] 37%|███▋      | 2504/6837 [23:34<19:14,  3.75it/s] 37%|███▋      | 2505/6837 [23:34<19:11,  3.76it/s] 37%|███▋      | 2506/6837 [23:34<19:11,  3.76it/s] 37%|███▋      | 2507/6837 [23:35<19:11,  3.76it/s] 37%|███▋      | 2508/6837 [23:35<19:14,  3.75it/s] 37%|███▋      | 2509/6837 [23:35<19:13,  3.75it/s] 37%|███▋      | 2510/6837 [23:35<19:11,  3.76it/s] 37%|███▋      | 2511/6837 [23:36<19:11,  3.76it/s] 37%|███▋      | 2512/6837 [23:36<19:10,  3.76it/s] 37%|███▋      | 2513/6837 [23:36<19:10,  3.76it/s] 37%|███▋      | 2514/6837 [23:36<19:16,  3.74it/s] 37%|███▋      | 2515/6837 [23:37<19:10,  3.76it/s] 37%|███▋      | 2516/6837 [23:37<19:09,  3.76it/s] 37%|███▋      | 2517/6837 [23:37<19:09,  3.76it/s] 37%|███▋      | 2518/6837 [23:38<19:10,  3.75it/s] 37%|███▋      | 2519/6837 [23:38<19:03,  3.78it/s] 37%|███▋      | 2520/6837 [23:38<19:08,  3.76it/s] 37%|███▋      | 2521/6837 [23:38<19:09,  3.75it/s] 37%|███▋      | 2522/6837 [23:39<19:09,  3.75it/s] 37%|███▋      | 2523/6837 [23:39<19:12,  3.74it/s] 37%|███▋      | 2524/6837 [23:39<19:11,  3.74it/s] 37%|███▋      | 2525/6837 [23:39<19:04,  3.77it/s]                                                   {'loss': 4.5425, 'grad_norm': 0.14905227720737457, 'learning_rate': 0.0047694223182791875, 'epoch': 0.07}
 37%|███▋      | 2525/6837 [23:39<19:04,  3.77it/s] 37%|███▋      | 2526/6837 [23:40<19:07,  3.76it/s] 37%|███▋      | 2527/6837 [23:40<19:02,  3.77it/s] 37%|███▋      | 2528/6837 [23:40<19:06,  3.76it/s] 37%|███▋      | 2529/6837 [23:40<19:06,  3.76it/s] 37%|███▋      | 2530/6837 [23:41<19:09,  3.75it/s] 37%|███▋      | 2531/6837 [23:41<19:08,  3.75it/s] 37%|███▋      | 2532/6837 [23:41<19:09,  3.75it/s] 37%|███▋      | 2533/6837 [23:42<19:10,  3.74it/s] 37%|███▋      | 2534/6837 [23:42<19:09,  3.74it/s] 37%|███▋      | 2535/6837 [23:42<19:05,  3.76it/s] 37%|███▋      | 2536/6837 [23:42<19:07,  3.75it/s] 37%|███▋      | 2537/6837 [23:43<19:11,  3.74it/s] 37%|███▋      | 2538/6837 [23:43<19:12,  3.73it/s] 37%|███▋      | 2539/6837 [23:43<19:13,  3.73it/s] 37%|███▋      | 2540/6837 [23:43<19:12,  3.73it/s] 37%|███▋      | 2541/6837 [23:44<19:03,  3.76it/s] 37%|███▋      | 2542/6837 [23:44<19:05,  3.75it/s] 37%|███▋      | 2543/6837 [23:44<19:04,  3.75it/s] 37%|███▋      | 2544/6837 [23:44<19:09,  3.73it/s] 37%|███▋      | 2545/6837 [23:45<19:08,  3.74it/s] 37%|███▋      | 2546/6837 [23:45<18:54,  3.78it/s] 37%|███▋      | 2547/6837 [23:45<18:57,  3.77it/s] 37%|███▋      | 2548/6837 [23:46<18:55,  3.78it/s] 37%|███▋      | 2549/6837 [23:46<18:54,  3.78it/s] 37%|███▋      | 2550/6837 [23:46<19:01,  3.76it/s]                                                   {'loss': 4.5424, 'grad_norm': 0.143193319439888, 'learning_rate': 0.004738355389132956, 'epoch': 0.07}
 37%|███▋      | 2550/6837 [23:46<19:01,  3.76it/s] 37%|███▋      | 2551/6837 [23:46<19:08,  3.73it/s] 37%|███▋      | 2552/6837 [23:47<19:00,  3.76it/s] 37%|███▋      | 2553/6837 [23:47<18:54,  3.78it/s] 37%|███▋      | 2554/6837 [23:47<18:53,  3.78it/s] 37%|███▋      | 2555/6837 [23:47<18:42,  3.82it/s] 37%|███▋      | 2556/6837 [23:48<18:09,  3.93it/s] 37%|███▋      | 2557/6837 [23:48<17:46,  4.01it/s] 37%|███▋      | 2558/6837 [23:48<17:29,  4.08it/s] 37%|███▋      | 2559/6837 [23:48<17:18,  4.12it/s] 37%|███▋      | 2560/6837 [23:49<17:11,  4.15it/s] 37%|███▋      | 2561/6837 [23:49<17:06,  4.17it/s] 37%|███▋      | 2562/6837 [23:49<17:03,  4.18it/s] 37%|███▋      | 2563/6837 [23:49<16:59,  4.19it/s] 38%|███▊      | 2564/6837 [23:50<17:00,  4.19it/s] 38%|███▊      | 2565/6837 [23:50<16:58,  4.19it/s] 38%|███▊      | 2566/6837 [23:50<16:55,  4.20it/s] 38%|███▊      | 2567/6837 [23:50<16:54,  4.21it/s] 38%|███▊      | 2568/6837 [23:50<16:53,  4.21it/s] 38%|███▊      | 2569/6837 [23:51<16:52,  4.22it/s] 38%|███▊      | 2570/6837 [23:51<16:52,  4.22it/s] 38%|███▊      | 2571/6837 [23:51<16:50,  4.22it/s] 38%|███▊      | 2572/6837 [23:51<16:47,  4.23it/s] 38%|███▊      | 2573/6837 [23:52<16:46,  4.24it/s] 38%|███▊      | 2574/6837 [23:52<16:46,  4.24it/s] 38%|███▊      | 2575/6837 [23:52<16:47,  4.23it/s]                                                   {'loss': 4.5479, 'grad_norm': 0.15022441744804382, 'learning_rate': 0.004707005230409463, 'epoch': 0.08}
 38%|███▊      | 2575/6837 [23:52<16:47,  4.23it/s] 38%|███▊      | 2576/6837 [23:52<16:50,  4.22it/s] 38%|███▊      | 2577/6837 [23:53<16:47,  4.23it/s] 38%|███▊      | 2578/6837 [23:53<16:47,  4.23it/s] 38%|███▊      | 2579/6837 [23:53<16:46,  4.23it/s] 38%|███▊      | 2580/6837 [23:53<16:44,  4.24it/s] 38%|███▊      | 2581/6837 [23:54<16:45,  4.23it/s] 38%|███▊      | 2582/6837 [23:54<16:53,  4.20it/s] 38%|███▊      | 2583/6837 [23:54<17:29,  4.05it/s] 38%|███▊      | 2584/6837 [23:54<17:53,  3.96it/s] 38%|███▊      | 2585/6837 [23:55<18:11,  3.90it/s] 38%|███▊      | 2586/6837 [23:55<18:30,  3.83it/s] 38%|███▊      | 2587/6837 [23:55<18:36,  3.81it/s] 38%|███▊      | 2588/6837 [23:55<18:35,  3.81it/s] 38%|███▊      | 2589/6837 [23:56<18:39,  3.79it/s] 38%|███▊      | 2590/6837 [23:56<18:39,  3.79it/s] 38%|███▊      | 2591/6837 [23:56<18:50,  3.76it/s] 38%|███▊      | 2592/6837 [23:56<18:55,  3.74it/s] 38%|███▊      | 2593/6837 [23:57<18:57,  3.73it/s] 38%|███▊      | 2594/6837 [23:57<18:54,  3.74it/s] 38%|███▊      | 2595/6837 [23:57<18:52,  3.75it/s] 38%|███▊      | 2596/6837 [23:58<18:51,  3.75it/s] 38%|███▊      | 2597/6837 [23:58<18:45,  3.77it/s] 38%|███▊      | 2598/6837 [23:58<18:21,  3.85it/s] 38%|███▊      | 2599/6837 [23:58<17:50,  3.96it/s] 38%|███▊      | 2600/6837 [23:59<17:27,  4.04it/s]                                                   {'loss': 4.5438, 'grad_norm': 0.14342527091503143, 'learning_rate': 0.004675376949978053, 'epoch': 0.08}
 38%|███▊      | 2600/6837 [23:59<17:27,  4.04it/s] 38%|███▊      | 2601/6837 [23:59<17:23,  4.06it/s] 38%|███▊      | 2602/6837 [23:59<17:09,  4.11it/s] 38%|███▊      | 2603/6837 [23:59<17:07,  4.12it/s] 38%|███▊      | 2604/6837 [23:59<16:59,  4.15it/s] 38%|███▊      | 2605/6837 [24:00<16:53,  4.17it/s] 38%|███▊      | 2606/6837 [24:00<16:51,  4.18it/s] 38%|███▊      | 2607/6837 [24:00<16:47,  4.20it/s] 38%|███▊      | 2608/6837 [24:00<16:44,  4.21it/s] 38%|███▊      | 2609/6837 [24:01<16:41,  4.22it/s] 38%|███▊      | 2610/6837 [24:01<16:40,  4.22it/s] 38%|███▊      | 2611/6837 [24:01<16:38,  4.23it/s] 38%|███▊      | 2612/6837 [24:01<16:37,  4.24it/s] 38%|███▊      | 2613/6837 [24:02<16:37,  4.23it/s] 38%|███▊      | 2614/6837 [24:02<16:37,  4.24it/s] 38%|███▊      | 2615/6837 [24:02<16:37,  4.23it/s] 38%|███▊      | 2616/6837 [24:02<16:37,  4.23it/s] 38%|███▊      | 2617/6837 [24:03<16:36,  4.23it/s] 38%|███▊      | 2618/6837 [24:03<16:35,  4.24it/s] 38%|███▊      | 2619/6837 [24:03<16:36,  4.23it/s] 38%|███▊      | 2620/6837 [24:03<16:36,  4.23it/s] 38%|███▊      | 2621/6837 [24:03<16:36,  4.23it/s] 38%|███▊      | 2622/6837 [24:04<16:35,  4.24it/s] 38%|███▊      | 2623/6837 [24:04<16:35,  4.23it/s] 38%|███▊      | 2624/6837 [24:04<16:37,  4.22it/s] 38%|███▊      | 2625/6837 [24:04<16:36,  4.23it/s]                                                   {'loss': 4.5556, 'grad_norm': 0.18744206428527832, 'learning_rate': 0.004643475701022332, 'epoch': 0.08}
 38%|███▊      | 2625/6837 [24:04<16:36,  4.23it/s] 38%|███▊      | 2626/6837 [24:05<16:37,  4.22it/s] 38%|███▊      | 2627/6837 [24:05<16:35,  4.23it/s] 38%|███▊      | 2628/6837 [24:05<16:36,  4.22it/s] 38%|███▊      | 2629/6837 [24:05<17:19,  4.05it/s] 38%|███▊      | 2630/6837 [24:06<17:37,  3.98it/s] 38%|███▊      | 2631/6837 [24:06<17:55,  3.91it/s] 38%|███▊      | 2632/6837 [24:06<18:03,  3.88it/s] 39%|███▊      | 2633/6837 [24:06<18:11,  3.85it/s] 39%|███▊      | 2634/6837 [24:07<18:16,  3.83it/s] 39%|███▊      | 2635/6837 [24:07<18:17,  3.83it/s] 39%|███▊      | 2636/6837 [24:07<18:18,  3.83it/s] 39%|███▊      | 2637/6837 [24:08<18:21,  3.81it/s] 39%|███▊      | 2638/6837 [24:08<18:23,  3.81it/s] 39%|███▊      | 2639/6837 [24:08<18:24,  3.80it/s] 39%|███▊      | 2640/6837 [24:08<18:25,  3.80it/s] 39%|███▊      | 2641/6837 [24:09<18:20,  3.81it/s] 39%|███▊      | 2642/6837 [24:09<18:24,  3.80it/s] 39%|███▊      | 2643/6837 [24:09<18:28,  3.79it/s] 39%|███▊      | 2644/6837 [24:09<18:28,  3.78it/s] 39%|███▊      | 2645/6837 [24:10<18:26,  3.79it/s] 39%|███▊      | 2646/6837 [24:10<18:23,  3.80it/s] 39%|███▊      | 2647/6837 [24:10<18:23,  3.80it/s] 39%|███▊      | 2648/6837 [24:10<18:27,  3.78it/s] 39%|███▊      | 2649/6837 [24:11<18:29,  3.78it/s] 39%|███▉      | 2650/6837 [24:11<18:25,  3.79it/s]                                                   {'loss': 4.5428, 'grad_norm': 0.13695579767227173, 'learning_rate': 0.004611306681200567, 'epoch': 0.08}
 39%|███▉      | 2650/6837 [24:11<18:25,  3.79it/s] 39%|███▉      | 2651/6837 [24:11<18:25,  3.79it/s] 39%|███▉      | 2652/6837 [24:11<18:24,  3.79it/s] 39%|███▉      | 2653/6837 [24:12<18:25,  3.79it/s] 39%|███▉      | 2654/6837 [24:12<18:26,  3.78it/s] 39%|███▉      | 2655/6837 [24:12<18:23,  3.79it/s] 39%|███▉      | 2656/6837 [24:13<18:23,  3.79it/s] 39%|███▉      | 2657/6837 [24:13<18:20,  3.80it/s] 39%|███▉      | 2658/6837 [24:13<18:18,  3.80it/s] 39%|███▉      | 2659/6837 [24:13<18:14,  3.82it/s] 39%|███▉      | 2660/6837 [24:14<18:17,  3.81it/s] 39%|███▉      | 2661/6837 [24:14<18:20,  3.79it/s] 39%|███▉      | 2662/6837 [24:14<18:23,  3.78it/s] 39%|███▉      | 2663/6837 [24:14<18:25,  3.77it/s] 39%|███▉      | 2664/6837 [24:15<18:19,  3.80it/s] 39%|███▉      | 2665/6837 [24:15<18:16,  3.80it/s] 39%|███▉      | 2666/6837 [24:15<18:15,  3.81it/s] 39%|███▉      | 2667/6837 [24:15<18:11,  3.82it/s] 39%|███▉      | 2668/6837 [24:16<18:17,  3.80it/s] 39%|███▉      | 2669/6837 [24:16<18:19,  3.79it/s] 39%|███▉      | 2670/6837 [24:16<18:23,  3.78it/s] 39%|███▉      | 2671/6837 [24:17<18:33,  3.74it/s] 39%|███▉      | 2672/6837 [24:17<18:33,  3.74it/s] 39%|███▉      | 2673/6837 [24:17<18:29,  3.75it/s] 39%|███▉      | 2674/6837 [24:17<18:23,  3.77it/s] 39%|███▉      | 2675/6837 [24:18<18:21,  3.78it/s]                                                   {'loss': 4.5324, 'grad_norm': 0.1539468914270401, 'learning_rate': 0.004578875131798827, 'epoch': 0.08}
 39%|███▉      | 2675/6837 [24:18<18:21,  3.78it/s] 39%|███▉      | 2676/6837 [24:18<18:28,  3.75it/s] 39%|███▉      | 2677/6837 [24:18<18:27,  3.76it/s] 39%|███▉      | 2678/6837 [24:18<18:16,  3.79it/s] 39%|███▉      | 2679/6837 [24:19<18:14,  3.80it/s] 39%|███▉      | 2680/6837 [24:19<18:15,  3.79it/s] 39%|███▉      | 2681/6837 [24:19<17:48,  3.89it/s] 39%|███▉      | 2682/6837 [24:19<17:21,  3.99it/s] 39%|███▉      | 2683/6837 [24:20<17:03,  4.06it/s] 39%|███▉      | 2684/6837 [24:20<16:50,  4.11it/s] 39%|███▉      | 2685/6837 [24:20<16:41,  4.15it/s] 39%|███▉      | 2686/6837 [24:20<16:34,  4.18it/s] 39%|███▉      | 2687/6837 [24:21<16:30,  4.19it/s] 39%|███▉      | 2688/6837 [24:21<16:26,  4.20it/s] 39%|███▉      | 2689/6837 [24:21<16:24,  4.21it/s] 39%|███▉      | 2690/6837 [24:21<16:22,  4.22it/s] 39%|███▉      | 2691/6837 [24:21<16:20,  4.23it/s] 39%|███▉      | 2692/6837 [24:22<16:19,  4.23it/s] 39%|███▉      | 2693/6837 [24:22<16:17,  4.24it/s] 39%|███▉      | 2694/6837 [24:22<16:16,  4.24it/s] 39%|███▉      | 2695/6837 [24:22<16:16,  4.24it/s] 39%|███▉      | 2696/6837 [24:23<16:18,  4.23it/s] 39%|███▉      | 2697/6837 [24:23<16:17,  4.23it/s] 39%|███▉      | 2698/6837 [24:23<16:19,  4.23it/s] 39%|███▉      | 2699/6837 [24:23<16:18,  4.23it/s] 39%|███▉      | 2700/6837 [24:24<16:16,  4.24it/s]                                                   {'loss': 4.5364, 'grad_norm': 0.13192936778068542, 'learning_rate': 0.004546186336877026, 'epoch': 0.08}
 39%|███▉      | 2700/6837 [24:24<16:16,  4.24it/s] 40%|███▉      | 2701/6837 [24:24<16:17,  4.23it/s] 40%|███▉      | 2702/6837 [24:24<16:16,  4.23it/s] 40%|███▉      | 2703/6837 [24:24<16:15,  4.24it/s] 40%|███▉      | 2704/6837 [24:25<16:14,  4.24it/s] 40%|███▉      | 2705/6837 [24:25<16:13,  4.24it/s] 40%|███▉      | 2706/6837 [24:25<16:14,  4.24it/s] 40%|███▉      | 2707/6837 [24:25<16:13,  4.24it/s] 40%|███▉      | 2708/6837 [24:25<16:14,  4.24it/s] 40%|███▉      | 2709/6837 [24:26<16:16,  4.23it/s] 40%|███▉      | 2710/6837 [24:26<16:14,  4.23it/s] 40%|███▉      | 2711/6837 [24:26<16:13,  4.24it/s] 40%|███▉      | 2712/6837 [24:26<16:13,  4.24it/s] 40%|███▉      | 2713/6837 [24:27<16:13,  4.24it/s] 40%|███▉      | 2714/6837 [24:27<16:13,  4.24it/s] 40%|███▉      | 2715/6837 [24:27<16:12,  4.24it/s] 40%|███▉      | 2716/6837 [24:27<16:13,  4.24it/s] 40%|███▉      | 2717/6837 [24:28<16:12,  4.24it/s] 40%|███▉      | 2718/6837 [24:28<16:12,  4.23it/s] 40%|███▉      | 2719/6837 [24:28<16:13,  4.23it/s] 40%|███▉      | 2720/6837 [24:28<16:12,  4.23it/s] 40%|███▉      | 2721/6837 [24:29<16:11,  4.24it/s] 40%|███▉      | 2722/6837 [24:29<16:10,  4.24it/s] 40%|███▉      | 2723/6837 [24:29<16:11,  4.23it/s] 40%|███▉      | 2724/6837 [24:29<16:12,  4.23it/s] 40%|███▉      | 2725/6837 [24:30<16:12,  4.23it/s]                                                   {'loss': 4.524, 'grad_norm': 0.13700827956199646, 'learning_rate': 0.00451324562240799, 'epoch': 0.08}
 40%|███▉      | 2725/6837 [24:30<16:12,  4.23it/s] 40%|███▉      | 2726/6837 [24:30<16:15,  4.21it/s] 40%|███▉      | 2727/6837 [24:30<16:15,  4.21it/s] 40%|███▉      | 2728/6837 [24:30<16:13,  4.22it/s] 40%|███▉      | 2729/6837 [24:30<16:11,  4.23it/s] 40%|███▉      | 2730/6837 [24:31<16:11,  4.23it/s] 40%|███▉      | 2731/6837 [24:31<16:11,  4.23it/s] 40%|███▉      | 2732/6837 [24:31<16:09,  4.23it/s] 40%|███▉      | 2733/6837 [24:31<16:08,  4.24it/s] 40%|███▉      | 2734/6837 [24:32<16:08,  4.23it/s] 40%|████      | 2735/6837 [24:32<16:08,  4.24it/s] 40%|████      | 2736/6837 [24:32<16:07,  4.24it/s] 40%|████      | 2737/6837 [24:32<16:07,  4.24it/s] 40%|████      | 2738/6837 [24:33<16:08,  4.23it/s] 40%|████      | 2739/6837 [24:33<16:08,  4.23it/s] 40%|████      | 2740/6837 [24:33<16:07,  4.24it/s] 40%|████      | 2741/6837 [24:33<16:05,  4.24it/s] 40%|████      | 2742/6837 [24:34<16:07,  4.23it/s] 40%|████      | 2743/6837 [24:34<16:06,  4.24it/s] 40%|████      | 2744/6837 [24:34<16:06,  4.23it/s] 40%|████      | 2745/6837 [24:34<16:06,  4.24it/s] 40%|████      | 2746/6837 [24:34<16:05,  4.24it/s] 40%|████      | 2747/6837 [24:35<16:05,  4.24it/s] 40%|████      | 2748/6837 [24:35<16:04,  4.24it/s] 40%|████      | 2749/6837 [24:35<16:08,  4.22it/s] 40%|████      | 2750/6837 [24:35<16:07,  4.22it/s]                                                   {'loss': 4.5337, 'grad_norm': 0.14694513380527496, 'learning_rate': 0.004480058355409703, 'epoch': 0.08}
 40%|████      | 2750/6837 [24:35<16:07,  4.22it/s] 40%|████      | 2751/6837 [24:36<16:08,  4.22it/s] 40%|████      | 2752/6837 [24:36<16:06,  4.22it/s] 40%|████      | 2753/6837 [24:36<16:07,  4.22it/s] 40%|████      | 2754/6837 [24:36<16:05,  4.23it/s] 40%|████      | 2755/6837 [24:37<16:06,  4.23it/s] 40%|████      | 2756/6837 [24:37<16:05,  4.23it/s] 40%|████      | 2757/6837 [24:37<16:05,  4.23it/s] 40%|████      | 2758/6837 [24:37<16:03,  4.23it/s] 40%|████      | 2759/6837 [24:38<16:03,  4.23it/s] 40%|████      | 2760/6837 [24:38<16:03,  4.23it/s] 40%|████      | 2761/6837 [24:38<16:03,  4.23it/s] 40%|████      | 2762/6837 [24:38<16:04,  4.23it/s] 40%|████      | 2763/6837 [24:38<16:02,  4.23it/s] 40%|████      | 2764/6837 [24:39<16:01,  4.24it/s] 40%|████      | 2765/6837 [24:39<16:01,  4.24it/s] 40%|████      | 2766/6837 [24:39<16:01,  4.24it/s] 40%|████      | 2767/6837 [24:39<16:01,  4.23it/s] 40%|████      | 2768/6837 [24:40<16:01,  4.23it/s] 41%|████      | 2769/6837 [24:40<16:02,  4.23it/s] 41%|████      | 2770/6837 [24:40<16:00,  4.23it/s] 41%|████      | 2771/6837 [24:40<16:04,  4.22it/s] 41%|████      | 2772/6837 [24:41<16:02,  4.22it/s] 41%|████      | 2773/6837 [24:41<16:03,  4.22it/s] 41%|████      | 2774/6837 [24:41<16:03,  4.22it/s] 41%|████      | 2775/6837 [24:41<16:02,  4.22it/s]                                                   {'loss': 4.5223, 'grad_norm': 0.13326427340507507, 'learning_rate': 0.0044466299430708555, 'epoch': 0.08}
 41%|████      | 2775/6837 [24:41<16:02,  4.22it/s] 41%|████      | 2776/6837 [24:42<16:03,  4.21it/s] 41%|████      | 2777/6837 [24:42<16:02,  4.22it/s] 41%|████      | 2778/6837 [24:42<16:00,  4.23it/s] 41%|████      | 2779/6837 [24:42<15:59,  4.23it/s] 41%|████      | 2780/6837 [24:43<15:59,  4.23it/s] 41%|████      | 2781/6837 [24:43<16:31,  4.09it/s] 41%|████      | 2782/6837 [24:43<16:49,  4.02it/s] 41%|████      | 2783/6837 [24:43<16:34,  4.08it/s] 41%|████      | 2784/6837 [24:44<16:22,  4.13it/s] 41%|████      | 2785/6837 [24:44<16:13,  4.16it/s] 41%|████      | 2786/6837 [24:44<16:06,  4.19it/s] 41%|████      | 2787/6837 [24:44<16:01,  4.21it/s] 41%|████      | 2788/6837 [24:44<15:59,  4.22it/s] 41%|████      | 2789/6837 [24:45<15:58,  4.22it/s] 41%|████      | 2790/6837 [24:45<15:57,  4.23it/s] 41%|████      | 2791/6837 [24:45<15:55,  4.23it/s] 41%|████      | 2792/6837 [24:45<15:56,  4.23it/s] 41%|████      | 2793/6837 [24:46<15:54,  4.24it/s] 41%|████      | 2794/6837 [24:46<15:53,  4.24it/s] 41%|████      | 2795/6837 [24:46<15:51,  4.25it/s] 41%|████      | 2796/6837 [24:46<15:51,  4.25it/s] 41%|████      | 2797/6837 [24:47<15:51,  4.25it/s] 41%|████      | 2798/6837 [24:47<15:51,  4.24it/s] 41%|████      | 2799/6837 [24:47<15:51,  4.24it/s] 41%|████      | 2800/6837 [24:47<15:52,  4.24it/s]                                                   {'loss': 4.5217, 'grad_norm': 0.14217203855514526, 'learning_rate': 0.004412965831869858, 'epoch': 0.08}
 41%|████      | 2800/6837 [24:47<15:52,  4.24it/s] 41%|████      | 2801/6837 [24:48<15:54,  4.23it/s] 41%|████      | 2802/6837 [24:48<15:54,  4.23it/s] 41%|████      | 2803/6837 [24:48<15:54,  4.23it/s] 41%|████      | 2804/6837 [24:48<15:53,  4.23it/s] 41%|████      | 2805/6837 [24:48<15:51,  4.24it/s] 41%|████      | 2806/6837 [24:49<15:51,  4.24it/s] 41%|████      | 2807/6837 [24:49<15:50,  4.24it/s] 41%|████      | 2808/6837 [24:49<15:50,  4.24it/s] 41%|████      | 2809/6837 [24:49<15:49,  4.24it/s] 41%|████      | 2810/6837 [24:50<15:49,  4.24it/s] 41%|████      | 2811/6837 [24:50<15:50,  4.24it/s] 41%|████      | 2812/6837 [24:50<15:51,  4.23it/s] 41%|████      | 2813/6837 [24:50<15:50,  4.23it/s] 41%|████      | 2814/6837 [24:51<15:50,  4.23it/s] 41%|████      | 2815/6837 [24:51<15:50,  4.23it/s] 41%|████      | 2816/6837 [24:51<15:51,  4.23it/s] 41%|████      | 2817/6837 [24:51<15:49,  4.24it/s] 41%|████      | 2818/6837 [24:52<15:49,  4.23it/s] 41%|████      | 2819/6837 [24:52<15:50,  4.23it/s] 41%|████      | 2820/6837 [24:52<15:51,  4.22it/s] 41%|████▏     | 2821/6837 [24:52<15:49,  4.23it/s] 41%|████▏     | 2822/6837 [24:52<15:49,  4.23it/s] 41%|████▏     | 2823/6837 [24:53<15:49,  4.23it/s] 41%|████▏     | 2824/6837 [24:53<15:49,  4.23it/s] 41%|████▏     | 2825/6837 [24:53<15:48,  4.23it/s]                                                   {'loss': 4.5218, 'grad_norm': 0.13789354264736176, 'learning_rate': 0.004379071506687446, 'epoch': 0.08}
 41%|████▏     | 2825/6837 [24:53<15:48,  4.23it/s] 41%|████▏     | 2826/6837 [24:53<15:49,  4.22it/s] 41%|████▏     | 2827/6837 [24:54<15:48,  4.23it/s] 41%|████▏     | 2828/6837 [24:54<15:48,  4.23it/s] 41%|████▏     | 2829/6837 [24:54<15:48,  4.23it/s] 41%|████▏     | 2830/6837 [24:54<15:48,  4.23it/s] 41%|████▏     | 2831/6837 [24:55<15:47,  4.23it/s] 41%|████▏     | 2832/6837 [24:55<15:46,  4.23it/s] 41%|████▏     | 2833/6837 [24:55<15:45,  4.23it/s] 41%|████▏     | 2834/6837 [24:55<15:44,  4.24it/s] 41%|████▏     | 2835/6837 [24:56<15:44,  4.24it/s] 41%|████▏     | 2836/6837 [24:56<15:45,  4.23it/s] 41%|████▏     | 2837/6837 [24:56<15:44,  4.24it/s] 42%|████▏     | 2838/6837 [24:56<15:42,  4.24it/s] 42%|████▏     | 2839/6837 [24:56<15:42,  4.24it/s] 42%|████▏     | 2840/6837 [24:57<15:42,  4.24it/s] 42%|████▏     | 2841/6837 [24:57<15:42,  4.24it/s] 42%|████▏     | 2842/6837 [24:57<15:42,  4.24it/s] 42%|████▏     | 2843/6837 [24:57<15:40,  4.24it/s] 42%|████▏     | 2844/6837 [24:58<15:40,  4.24it/s] 42%|████▏     | 2845/6837 [24:58<15:39,  4.25it/s] 42%|████▏     | 2846/6837 [24:58<15:40,  4.24it/s] 42%|████▏     | 2847/6837 [24:58<15:40,  4.24it/s] 42%|████▏     | 2848/6837 [24:59<15:40,  4.24it/s] 42%|████▏     | 2849/6837 [24:59<15:39,  4.25it/s] 42%|████▏     | 2850/6837 [24:59<15:38,  4.25it/s]                                                   {'loss': 4.521, 'grad_norm': 0.14034835994243622, 'learning_rate': 0.00434495248991303, 'epoch': 0.08}
 42%|████▏     | 2850/6837 [24:59<15:38,  4.25it/s] 42%|████▏     | 2851/6837 [24:59<15:40,  4.24it/s] 42%|████▏     | 2852/6837 [25:00<15:39,  4.24it/s] 42%|████▏     | 2853/6837 [25:00<16:11,  4.10it/s] 42%|████▏     | 2854/6837 [25:00<16:36,  4.00it/s] 42%|████▏     | 2855/6837 [25:00<16:54,  3.92it/s] 42%|████▏     | 2856/6837 [25:01<17:06,  3.88it/s] 42%|████▏     | 2857/6837 [25:01<16:56,  3.92it/s] 42%|████▏     | 2858/6837 [25:01<16:37,  3.99it/s] 42%|████▏     | 2859/6837 [25:01<16:22,  4.05it/s] 42%|████▏     | 2860/6837 [25:02<16:44,  3.96it/s] 42%|████▏     | 2861/6837 [25:02<17:02,  3.89it/s] 42%|████▏     | 2862/6837 [25:02<17:12,  3.85it/s] 42%|████▏     | 2863/6837 [25:02<17:17,  3.83it/s] 42%|████▏     | 2864/6837 [25:03<17:20,  3.82it/s] 42%|████▏     | 2865/6837 [25:03<17:25,  3.80it/s] 42%|████▏     | 2866/6837 [25:03<17:25,  3.80it/s] 42%|████▏     | 2867/6837 [25:03<17:31,  3.78it/s] 42%|████▏     | 2868/6837 [25:04<17:42,  3.74it/s] 42%|████▏     | 2869/6837 [25:04<17:40,  3.74it/s] 42%|████▏     | 2870/6837 [25:04<17:37,  3.75it/s] 42%|████▏     | 2871/6837 [25:05<17:29,  3.78it/s] 42%|████▏     | 2872/6837 [25:05<17:26,  3.79it/s] 42%|████▏     | 2873/6837 [25:05<17:35,  3.76it/s] 42%|████▏     | 2874/6837 [25:05<17:37,  3.75it/s] 42%|████▏     | 2875/6837 [25:06<17:31,  3.77it/s]                                                   {'loss': 4.4993, 'grad_norm': 0.13763543963432312, 'learning_rate': 0.004310614340544934, 'epoch': 0.08}
 42%|████▏     | 2875/6837 [25:06<17:31,  3.77it/s] 42%|████▏     | 2876/6837 [25:06<17:01,  3.88it/s] 42%|████▏     | 2877/6837 [25:06<16:36,  3.98it/s] 42%|████▏     | 2878/6837 [25:06<16:27,  4.01it/s] 42%|████▏     | 2879/6837 [25:07<16:12,  4.07it/s] 42%|████▏     | 2880/6837 [25:07<16:02,  4.11it/s] 42%|████▏     | 2881/6837 [25:07<15:56,  4.14it/s] 42%|████▏     | 2882/6837 [25:07<15:52,  4.15it/s] 42%|████▏     | 2883/6837 [25:08<15:48,  4.17it/s] 42%|████▏     | 2884/6837 [25:08<15:45,  4.18it/s] 42%|████▏     | 2885/6837 [25:08<15:43,  4.19it/s] 42%|████▏     | 2886/6837 [25:08<15:41,  4.20it/s] 42%|████▏     | 2887/6837 [25:08<15:40,  4.20it/s] 42%|████▏     | 2888/6837 [25:09<15:39,  4.21it/s] 42%|████▏     | 2889/6837 [25:09<15:39,  4.20it/s] 42%|████▏     | 2890/6837 [25:09<15:38,  4.20it/s] 42%|████▏     | 2891/6837 [25:09<15:37,  4.21it/s] 42%|████▏     | 2892/6837 [25:10<15:36,  4.21it/s] 42%|████▏     | 2893/6837 [25:10<15:37,  4.21it/s] 42%|████▏     | 2894/6837 [25:10<15:36,  4.21it/s] 42%|████▏     | 2895/6837 [25:10<15:36,  4.21it/s] 42%|████▏     | 2896/6837 [25:11<15:36,  4.21it/s] 42%|████▏     | 2897/6837 [25:11<15:35,  4.21it/s] 42%|████▏     | 2898/6837 [25:11<15:34,  4.21it/s] 42%|████▏     | 2899/6837 [25:11<15:35,  4.21it/s] 42%|████▏     | 2900/6837 [25:12<15:35,  4.21it/s]{'loss': 4.5119, 'grad_norm': 0.13792113959789276, 'learning_rate': 0.004276062653284676, 'epoch': 0.08}
                                                    42%|████▏     | 2900/6837 [25:12<15:35,  4.21it/s] 42%|████▏     | 2901/6837 [25:12<15:36,  4.21it/s] 42%|████▏     | 2902/6837 [25:12<15:34,  4.21it/s] 42%|████▏     | 2903/6837 [25:12<15:34,  4.21it/s] 42%|████▏     | 2904/6837 [25:13<15:33,  4.21it/s] 42%|████▏     | 2905/6837 [25:13<16:07,  4.06it/s] 43%|████▎     | 2906/6837 [25:13<16:29,  3.97it/s] 43%|████▎     | 2907/6837 [25:13<16:11,  4.05it/s] 43%|████▎     | 2908/6837 [25:14<15:57,  4.10it/s] 43%|████▎     | 2909/6837 [25:14<15:47,  4.15it/s] 43%|████▎     | 2910/6837 [25:14<15:40,  4.18it/s] 43%|████▎     | 2911/6837 [25:14<15:36,  4.19it/s] 43%|████▎     | 2912/6837 [25:14<15:35,  4.20it/s] 43%|████▎     | 2913/6837 [25:15<15:33,  4.21it/s] 43%|████▎     | 2914/6837 [25:15<15:31,  4.21it/s] 43%|████▎     | 2915/6837 [25:15<15:29,  4.22it/s] 43%|████▎     | 2916/6837 [25:15<15:28,  4.22it/s] 43%|████▎     | 2917/6837 [25:16<15:27,  4.23it/s] 43%|████▎     | 2918/6837 [25:16<15:27,  4.23it/s] 43%|████▎     | 2919/6837 [25:16<15:27,  4.23it/s] 43%|████▎     | 2920/6837 [25:16<15:26,  4.23it/s] 43%|████▎     | 2921/6837 [25:17<15:27,  4.22it/s] 43%|████▎     | 2922/6837 [25:17<15:27,  4.22it/s] 43%|████▎     | 2923/6837 [25:17<15:26,  4.23it/s] 43%|████▎     | 2924/6837 [25:17<15:25,  4.23it/s] 43%|████▎     | 2925/6837 [25:18<15:26,  4.22it/s]                                                   {'loss': 4.516, 'grad_norm': 0.16946350038051605, 'learning_rate': 0.004241303057625416, 'epoch': 0.09}
 43%|████▎     | 2925/6837 [25:18<15:26,  4.22it/s] 43%|████▎     | 2926/6837 [25:18<15:34,  4.19it/s] 43%|████▎     | 2927/6837 [25:18<16:07,  4.04it/s] 43%|████▎     | 2928/6837 [25:18<16:26,  3.96it/s] 43%|████▎     | 2929/6837 [25:19<16:39,  3.91it/s] 43%|████▎     | 2930/6837 [25:19<16:55,  3.85it/s] 43%|████▎     | 2931/6837 [25:19<16:58,  3.83it/s] 43%|████▎     | 2932/6837 [25:19<17:11,  3.79it/s] 43%|████▎     | 2933/6837 [25:20<17:10,  3.79it/s] 43%|████▎     | 2934/6837 [25:20<17:10,  3.79it/s] 43%|████▎     | 2935/6837 [25:20<17:05,  3.81it/s] 43%|████▎     | 2936/6837 [25:20<17:04,  3.81it/s] 43%|████▎     | 2937/6837 [25:21<17:08,  3.79it/s] 43%|████▎     | 2938/6837 [25:21<17:13,  3.77it/s] 43%|████▎     | 2939/6837 [25:21<17:13,  3.77it/s] 43%|████▎     | 2940/6837 [25:21<17:12,  3.78it/s] 43%|████▎     | 2941/6837 [25:22<17:18,  3.75it/s] 43%|████▎     | 2942/6837 [25:22<17:14,  3.77it/s] 43%|████▎     | 2943/6837 [25:22<17:14,  3.76it/s] 43%|████▎     | 2944/6837 [25:23<17:11,  3.78it/s] 43%|████▎     | 2945/6837 [25:23<17:13,  3.77it/s] 43%|████▎     | 2946/6837 [25:23<17:14,  3.76it/s] 43%|████▎     | 2947/6837 [25:23<17:11,  3.77it/s] 43%|████▎     | 2948/6837 [25:24<17:13,  3.76it/s] 43%|████▎     | 2949/6837 [25:24<17:12,  3.76it/s] 43%|████▎     | 2950/6837 [25:24<17:05,  3.79it/s]                                                   {'loss': 4.5024, 'grad_norm': 0.1543588638305664, 'learning_rate': 0.004206341216934752, 'epoch': 0.09}
 43%|████▎     | 2950/6837 [25:24<17:05,  3.79it/s] 43%|████▎     | 2951/6837 [25:24<17:07,  3.78it/s] 43%|████▎     | 2952/6837 [25:25<17:06,  3.78it/s] 43%|████▎     | 2953/6837 [25:25<17:04,  3.79it/s] 43%|████▎     | 2954/6837 [25:25<17:01,  3.80it/s] 43%|████▎     | 2955/6837 [25:25<17:07,  3.78it/s] 43%|████▎     | 2956/6837 [25:26<16:42,  3.87it/s] 43%|████▎     | 2957/6837 [25:26<16:17,  3.97it/s] 43%|████▎     | 2958/6837 [25:26<16:00,  4.04it/s] 43%|████▎     | 2959/6837 [25:26<15:48,  4.09it/s] 43%|████▎     | 2960/6837 [25:27<15:38,  4.13it/s] 43%|████▎     | 2961/6837 [25:27<15:35,  4.14it/s] 43%|████▎     | 2962/6837 [25:27<15:28,  4.17it/s] 43%|████▎     | 2963/6837 [25:27<15:25,  4.18it/s] 43%|████▎     | 2964/6837 [25:28<15:23,  4.19it/s] 43%|████▎     | 2965/6837 [25:28<15:23,  4.19it/s] 43%|████▎     | 2966/6837 [25:28<15:21,  4.20it/s] 43%|████▎     | 2967/6837 [25:28<15:20,  4.21it/s] 43%|████▎     | 2968/6837 [25:29<15:18,  4.21it/s] 43%|████▎     | 2969/6837 [25:29<15:28,  4.17it/s] 43%|████▎     | 2970/6837 [25:29<15:24,  4.18it/s] 43%|████▎     | 2971/6837 [25:29<15:21,  4.20it/s] 43%|████▎     | 2972/6837 [25:30<15:19,  4.20it/s] 43%|████▎     | 2973/6837 [25:30<15:17,  4.21it/s] 43%|████▎     | 2974/6837 [25:30<15:15,  4.22it/s] 44%|████▎     | 2975/6837 [25:30<15:14,  4.22it/s]                                                   {'loss': 4.4904, 'grad_norm': 0.170481875538826, 'learning_rate': 0.004171182827531988, 'epoch': 0.09}
 44%|████▎     | 2975/6837 [25:30<15:14,  4.22it/s] 44%|████▎     | 2976/6837 [25:30<15:17,  4.21it/s] 44%|████▎     | 2977/6837 [25:31<15:15,  4.22it/s] 44%|████▎     | 2978/6837 [25:31<15:13,  4.22it/s] 44%|████▎     | 2979/6837 [25:31<15:14,  4.22it/s] 44%|████▎     | 2980/6837 [25:31<15:14,  4.22it/s] 44%|████▎     | 2981/6837 [25:32<15:12,  4.23it/s] 44%|████▎     | 2982/6837 [25:32<15:11,  4.23it/s] 44%|████▎     | 2983/6837 [25:32<15:11,  4.23it/s] 44%|████▎     | 2984/6837 [25:32<15:11,  4.23it/s] 44%|████▎     | 2985/6837 [25:33<15:12,  4.22it/s] 44%|████▎     | 2986/6837 [25:33<15:11,  4.22it/s] 44%|████▎     | 2987/6837 [25:33<15:12,  4.22it/s] 44%|████▎     | 2988/6837 [25:33<15:12,  4.22it/s] 44%|████▎     | 2989/6837 [25:34<15:11,  4.22it/s] 44%|████▎     | 2990/6837 [25:34<15:11,  4.22it/s] 44%|████▎     | 2991/6837 [25:34<15:11,  4.22it/s] 44%|████▍     | 2992/6837 [25:34<15:11,  4.22it/s] 44%|████▍     | 2993/6837 [25:34<15:11,  4.22it/s] 44%|████▍     | 2994/6837 [25:35<15:11,  4.22it/s] 44%|████▍     | 2995/6837 [25:35<15:09,  4.22it/s] 44%|████▍     | 2996/6837 [25:35<15:08,  4.23it/s] 44%|████▍     | 2997/6837 [25:35<15:10,  4.22it/s] 44%|████▍     | 2998/6837 [25:36<15:08,  4.22it/s] 44%|████▍     | 2999/6837 [25:36<15:12,  4.20it/s] 44%|████▍     | 3000/6837 [25:36<15:11,  4.21it/s]                                                   {'loss': 4.4967, 'grad_norm': 0.14753445982933044, 'learning_rate': 0.0041358336177600334, 'epoch': 0.09}
 44%|████▍     | 3000/6837 [25:36<15:11,  4.21it/s] 44%|████▍     | 3001/6837 [25:36<15:13,  4.20it/s] 44%|████▍     | 3002/6837 [25:37<15:09,  4.22it/s] 44%|████▍     | 3003/6837 [25:37<15:07,  4.22it/s] 44%|████▍     | 3004/6837 [25:37<15:06,  4.23it/s] 44%|████▍     | 3005/6837 [25:37<15:05,  4.23it/s] 44%|████▍     | 3006/6837 [25:38<15:04,  4.23it/s] 44%|████▍     | 3007/6837 [25:38<15:03,  4.24it/s] 44%|████▍     | 3008/6837 [25:38<15:06,  4.23it/s] 44%|████▍     | 3009/6837 [25:38<15:05,  4.23it/s] 44%|████▍     | 3010/6837 [25:39<15:03,  4.23it/s] 44%|████▍     | 3011/6837 [25:39<15:02,  4.24it/s] 44%|████▍     | 3012/6837 [25:39<15:02,  4.24it/s] 44%|████▍     | 3013/6837 [25:39<15:02,  4.24it/s] 44%|████▍     | 3014/6837 [25:39<15:01,  4.24it/s] 44%|████▍     | 3015/6837 [25:40<15:02,  4.24it/s] 44%|████▍     | 3016/6837 [25:40<15:02,  4.23it/s] 44%|████▍     | 3017/6837 [25:40<15:02,  4.23it/s] 44%|████▍     | 3018/6837 [25:40<15:01,  4.24it/s] 44%|████▍     | 3019/6837 [25:41<15:00,  4.24it/s] 44%|████▍     | 3020/6837 [25:41<15:00,  4.24it/s] 44%|████▍     | 3021/6837 [25:41<15:00,  4.24it/s] 44%|████▍     | 3022/6837 [25:41<14:59,  4.24it/s] 44%|████▍     | 3023/6837 [25:42<14:59,  4.24it/s] 44%|████▍     | 3024/6837 [25:42<14:58,  4.24it/s] 44%|████▍     | 3025/6837 [25:42<14:57,  4.25it/s]                                                   {'loss': 4.5004, 'grad_norm': 0.12795390188694, 'learning_rate': 0.0041002993470520875, 'epoch': 0.09}
 44%|████▍     | 3025/6837 [25:42<14:57,  4.25it/s] 44%|████▍     | 3026/6837 [25:42<15:03,  4.22it/s] 44%|████▍     | 3027/6837 [25:43<15:08,  4.19it/s] 44%|████▍     | 3028/6837 [25:43<15:39,  4.05it/s] 44%|████▍     | 3029/6837 [25:43<15:59,  3.97it/s] 44%|████▍     | 3030/6837 [25:43<15:41,  4.05it/s] 44%|████▍     | 3031/6837 [25:44<15:28,  4.10it/s] 44%|████▍     | 3032/6837 [25:44<15:19,  4.14it/s] 44%|████▍     | 3033/6837 [25:44<15:12,  4.17it/s] 44%|████▍     | 3034/6837 [25:44<15:07,  4.19it/s] 44%|████▍     | 3035/6837 [25:44<15:04,  4.20it/s] 44%|████▍     | 3036/6837 [25:45<15:03,  4.21it/s] 44%|████▍     | 3037/6837 [25:45<15:00,  4.22it/s] 44%|████▍     | 3038/6837 [25:45<14:59,  4.23it/s] 44%|████▍     | 3039/6837 [25:45<14:57,  4.23it/s] 44%|████▍     | 3040/6837 [25:46<14:56,  4.23it/s] 44%|████▍     | 3041/6837 [25:46<14:55,  4.24it/s] 44%|████▍     | 3042/6837 [25:46<14:57,  4.23it/s] 45%|████▍     | 3043/6837 [25:46<15:33,  4.06it/s] 45%|████▍     | 3044/6837 [25:47<15:25,  4.10it/s] 45%|████▍     | 3045/6837 [25:47<15:16,  4.14it/s] 45%|████▍     | 3046/6837 [25:47<15:10,  4.16it/s] 45%|████▍     | 3047/6837 [25:47<15:08,  4.17it/s] 45%|████▍     | 3048/6837 [25:48<15:05,  4.18it/s] 45%|████▍     | 3049/6837 [25:48<15:04,  4.19it/s] 45%|████▍     | 3050/6837 [25:48<15:01,  4.20it/s]                                                   {'loss': 4.4861, 'grad_norm': 0.1477264165878296, 'learning_rate': 0.004064585804993258, 'epoch': 0.09}
 45%|████▍     | 3050/6837 [25:48<15:01,  4.20it/s] 45%|████▍     | 3051/6837 [25:48<15:03,  4.19it/s] 45%|████▍     | 3052/6837 [25:49<15:01,  4.20it/s] 45%|████▍     | 3053/6837 [25:49<14:59,  4.21it/s] 45%|████▍     | 3054/6837 [25:49<14:58,  4.21it/s] 45%|████▍     | 3055/6837 [25:49<14:57,  4.22it/s] 45%|████▍     | 3056/6837 [25:49<14:55,  4.22it/s] 45%|████▍     | 3057/6837 [25:50<14:54,  4.22it/s] 45%|████▍     | 3058/6837 [25:50<14:55,  4.22it/s] 45%|████▍     | 3059/6837 [25:50<14:54,  4.22it/s] 45%|████▍     | 3060/6837 [25:50<14:53,  4.23it/s] 45%|████▍     | 3061/6837 [25:51<14:52,  4.23it/s] 45%|████▍     | 3062/6837 [25:51<14:53,  4.23it/s] 45%|████▍     | 3063/6837 [25:51<14:51,  4.23it/s] 45%|████▍     | 3064/6837 [25:51<14:51,  4.23it/s] 45%|████▍     | 3065/6837 [25:52<14:51,  4.23it/s] 45%|████▍     | 3066/6837 [25:52<14:51,  4.23it/s] 45%|████▍     | 3067/6837 [25:52<14:51,  4.23it/s] 45%|████▍     | 3068/6837 [25:52<14:51,  4.23it/s] 45%|████▍     | 3069/6837 [25:53<14:50,  4.23it/s] 45%|████▍     | 3070/6837 [25:53<14:49,  4.23it/s] 45%|████▍     | 3071/6837 [25:53<14:50,  4.23it/s] 45%|████▍     | 3072/6837 [25:53<14:50,  4.23it/s] 45%|████▍     | 3073/6837 [25:53<14:49,  4.23it/s] 45%|████▍     | 3074/6837 [25:54<14:49,  4.23it/s] 45%|████▍     | 3075/6837 [25:54<14:50,  4.23it/s]                                                   {'loss': 4.4949, 'grad_norm': 0.17127594351768494, 'learning_rate': 0.004028698810377262, 'epoch': 0.09}
 45%|████▍     | 3075/6837 [25:54<14:50,  4.23it/s] 45%|████▍     | 3076/6837 [25:54<14:52,  4.21it/s] 45%|████▌     | 3077/6837 [25:54<14:51,  4.22it/s] 45%|████▌     | 3078/6837 [25:55<14:49,  4.23it/s] 45%|████▌     | 3079/6837 [25:55<14:48,  4.23it/s] 45%|████▌     | 3080/6837 [25:55<14:48,  4.23it/s] 45%|████▌     | 3081/6837 [25:55<14:48,  4.23it/s] 45%|████▌     | 3082/6837 [25:56<14:48,  4.23it/s] 45%|████▌     | 3083/6837 [25:56<14:47,  4.23it/s] 45%|████▌     | 3084/6837 [25:56<14:47,  4.23it/s] 45%|████▌     | 3085/6837 [25:56<14:47,  4.23it/s] 45%|████▌     | 3086/6837 [25:57<14:47,  4.23it/s] 45%|████▌     | 3087/6837 [25:57<14:48,  4.22it/s] 45%|████▌     | 3088/6837 [25:57<14:47,  4.22it/s] 45%|████▌     | 3089/6837 [25:57<14:46,  4.23it/s] 45%|████▌     | 3090/6837 [25:58<14:46,  4.23it/s] 45%|████▌     | 3091/6837 [25:58<14:46,  4.23it/s] 45%|████▌     | 3092/6837 [25:58<14:44,  4.24it/s] 45%|████▌     | 3093/6837 [25:58<14:43,  4.24it/s] 45%|████▌     | 3094/6837 [25:58<14:43,  4.24it/s] 45%|████▌     | 3095/6837 [25:59<14:42,  4.24it/s] 45%|████▌     | 3096/6837 [25:59<14:41,  4.24it/s] 45%|████▌     | 3097/6837 [25:59<14:42,  4.24it/s] 45%|████▌     | 3098/6837 [25:59<14:43,  4.23it/s] 45%|████▌     | 3099/6837 [26:00<14:41,  4.24it/s] 45%|████▌     | 3100/6837 [26:00<14:41,  4.24it/s]                                                   {'loss': 4.4896, 'grad_norm': 0.17606590688228607, 'learning_rate': 0.003992644210258377, 'epoch': 0.09}
 45%|████▌     | 3100/6837 [26:00<14:41,  4.24it/s] 45%|████▌     | 3101/6837 [26:00<14:43,  4.23it/s] 45%|████▌     | 3102/6837 [26:00<14:43,  4.23it/s] 45%|████▌     | 3103/6837 [26:01<14:42,  4.23it/s] 45%|████▌     | 3104/6837 [26:01<14:43,  4.23it/s] 45%|████▌     | 3105/6837 [26:01<14:44,  4.22it/s] 45%|████▌     | 3106/6837 [26:01<14:43,  4.22it/s] 45%|████▌     | 3107/6837 [26:02<14:41,  4.23it/s] 45%|████▌     | 3108/6837 [26:02<14:42,  4.23it/s] 45%|████▌     | 3109/6837 [26:02<14:42,  4.23it/s] 45%|████▌     | 3110/6837 [26:02<14:41,  4.23it/s] 46%|████▌     | 3111/6837 [26:02<14:39,  4.24it/s] 46%|████▌     | 3112/6837 [26:03<14:41,  4.23it/s] 46%|████▌     | 3113/6837 [26:03<14:41,  4.22it/s] 46%|████▌     | 3114/6837 [26:03<14:40,  4.23it/s] 46%|████▌     | 3115/6837 [26:03<14:41,  4.22it/s] 46%|████▌     | 3116/6837 [26:04<14:41,  4.22it/s] 46%|████▌     | 3117/6837 [26:04<14:39,  4.23it/s] 46%|████▌     | 3118/6837 [26:04<14:41,  4.22it/s] 46%|████▌     | 3119/6837 [26:04<14:38,  4.23it/s] 46%|████▌     | 3120/6837 [26:05<14:38,  4.23it/s] 46%|████▌     | 3121/6837 [26:05<14:36,  4.24it/s] 46%|████▌     | 3122/6837 [26:05<14:37,  4.23it/s] 46%|████▌     | 3123/6837 [26:05<14:37,  4.23it/s] 46%|████▌     | 3124/6837 [26:06<14:37,  4.23it/s] 46%|████▌     | 3125/6837 [26:06<14:37,  4.23it/s]                                                   {'loss': 4.4878, 'grad_norm': 0.15565237402915955, 'learning_rate': 0.003956427878998784, 'epoch': 0.09}
 46%|████▌     | 3125/6837 [26:06<14:37,  4.23it/s] 46%|████▌     | 3126/6837 [26:06<14:39,  4.22it/s] 46%|████▌     | 3127/6837 [26:06<14:39,  4.22it/s] 46%|████▌     | 3128/6837 [26:07<14:41,  4.21it/s] 46%|████▌     | 3129/6837 [26:07<14:38,  4.22it/s] 46%|████▌     | 3130/6837 [26:07<14:39,  4.22it/s] 46%|████▌     | 3131/6837 [26:07<14:38,  4.22it/s] 46%|████▌     | 3132/6837 [26:07<14:36,  4.23it/s] 46%|████▌     | 3133/6837 [26:08<14:36,  4.23it/s] 46%|████▌     | 3134/6837 [26:08<14:35,  4.23it/s] 46%|████▌     | 3135/6837 [26:08<14:35,  4.23it/s] 46%|████▌     | 3136/6837 [26:08<14:35,  4.23it/s] 46%|████▌     | 3137/6837 [26:09<14:36,  4.22it/s] 46%|████▌     | 3138/6837 [26:09<14:37,  4.22it/s] 46%|████▌     | 3139/6837 [26:09<14:36,  4.22it/s] 46%|████▌     | 3140/6837 [26:09<14:36,  4.22it/s] 46%|████▌     | 3141/6837 [26:10<14:35,  4.22it/s] 46%|████▌     | 3142/6837 [26:10<14:33,  4.23it/s] 46%|████▌     | 3143/6837 [26:10<14:35,  4.22it/s] 46%|████▌     | 3144/6837 [26:10<14:34,  4.22it/s] 46%|████▌     | 3145/6837 [26:11<14:35,  4.22it/s] 46%|████▌     | 3146/6837 [26:11<14:34,  4.22it/s] 46%|████▌     | 3147/6837 [26:11<14:34,  4.22it/s] 46%|████▌     | 3148/6837 [26:11<14:34,  4.22it/s] 46%|████▌     | 3149/6837 [26:11<14:35,  4.21it/s] 46%|████▌     | 3150/6837 [26:12<14:34,  4.22it/s]                                                   {'loss': 4.4914, 'grad_norm': 0.1586657464504242, 'learning_rate': 0.003920055717311451, 'epoch': 0.09}
 46%|████▌     | 3150/6837 [26:12<14:34,  4.22it/s] 46%|████▌     | 3151/6837 [26:12<14:36,  4.21it/s] 46%|████▌     | 3152/6837 [26:12<14:36,  4.20it/s] 46%|████▌     | 3153/6837 [26:12<14:35,  4.21it/s] 46%|████▌     | 3154/6837 [26:13<14:33,  4.22it/s] 46%|████▌     | 3155/6837 [26:13<15:01,  4.09it/s] 46%|████▌     | 3156/6837 [26:13<14:53,  4.12it/s] 46%|████▌     | 3157/6837 [26:13<14:46,  4.15it/s] 46%|████▌     | 3158/6837 [26:14<14:40,  4.18it/s] 46%|████▌     | 3159/6837 [26:14<14:38,  4.18it/s] 46%|████▌     | 3160/6837 [26:14<14:37,  4.19it/s] 46%|████▌     | 3161/6837 [26:14<14:34,  4.20it/s] 46%|████▌     | 3162/6837 [26:15<14:32,  4.21it/s] 46%|████▋     | 3163/6837 [26:15<14:31,  4.22it/s] 46%|████▋     | 3164/6837 [26:15<14:29,  4.22it/s] 46%|████▋     | 3165/6837 [26:15<14:28,  4.23it/s] 46%|████▋     | 3166/6837 [26:16<14:29,  4.22it/s] 46%|████▋     | 3167/6837 [26:16<14:27,  4.23it/s] 46%|████▋     | 3168/6837 [26:16<14:27,  4.23it/s] 46%|████▋     | 3169/6837 [26:16<14:27,  4.23it/s] 46%|████▋     | 3170/6837 [26:16<14:27,  4.23it/s] 46%|████▋     | 3171/6837 [26:17<14:26,  4.23it/s] 46%|████▋     | 3172/6837 [26:17<14:25,  4.24it/s] 46%|████▋     | 3173/6837 [26:17<14:25,  4.23it/s] 46%|████▋     | 3174/6837 [26:17<14:25,  4.23it/s] 46%|████▋     | 3175/6837 [26:18<14:24,  4.24it/s]                                                   {'loss': 4.4865, 'grad_norm': 0.14921404421329498, 'learning_rate': 0.0038835336512987417, 'epoch': 0.09}
 46%|████▋     | 3175/6837 [26:18<14:24,  4.24it/s] 46%|████▋     | 3176/6837 [26:18<14:26,  4.23it/s] 46%|████▋     | 3177/6837 [26:18<14:25,  4.23it/s] 46%|████▋     | 3178/6837 [26:18<14:24,  4.23it/s] 46%|████▋     | 3179/6837 [26:19<14:24,  4.23it/s] 47%|████▋     | 3180/6837 [26:19<14:24,  4.23it/s] 47%|████▋     | 3181/6837 [26:19<14:25,  4.23it/s] 47%|████▋     | 3182/6837 [26:19<14:23,  4.23it/s] 47%|████▋     | 3183/6837 [26:20<14:22,  4.24it/s] 47%|████▋     | 3184/6837 [26:20<14:23,  4.23it/s] 47%|████▋     | 3185/6837 [26:20<14:21,  4.24it/s] 47%|████▋     | 3186/6837 [26:20<14:22,  4.24it/s] 47%|████▋     | 3187/6837 [26:20<14:23,  4.23it/s] 47%|████▋     | 3188/6837 [26:21<14:23,  4.23it/s] 47%|████▋     | 3189/6837 [26:21<14:23,  4.22it/s] 47%|████▋     | 3190/6837 [26:21<14:22,  4.23it/s] 47%|████▋     | 3191/6837 [26:21<14:23,  4.22it/s] 47%|████▋     | 3192/6837 [26:22<14:22,  4.22it/s] 47%|████▋     | 3193/6837 [26:22<14:21,  4.23it/s] 47%|████▋     | 3194/6837 [26:22<14:20,  4.23it/s] 47%|████▋     | 3195/6837 [26:22<14:21,  4.23it/s] 47%|████▋     | 3196/6837 [26:23<14:22,  4.22it/s] 47%|████▋     | 3197/6837 [26:23<14:20,  4.23it/s] 47%|████▋     | 3198/6837 [26:23<14:20,  4.23it/s] 47%|████▋     | 3199/6837 [26:23<14:20,  4.23it/s] 47%|████▋     | 3200/6837 [26:24<14:20,  4.23it/s]                                                   {'loss': 4.4808, 'grad_norm': 0.14431630074977875, 'learning_rate': 0.0038468676314868736, 'epoch': 0.09}
 47%|████▋     | 3200/6837 [26:24<14:20,  4.23it/s] 47%|████▋     | 3201/6837 [26:24<14:22,  4.22it/s] 47%|████▋     | 3202/6837 [26:24<14:23,  4.21it/s] 47%|████▋     | 3203/6837 [26:24<14:21,  4.22it/s] 47%|████▋     | 3204/6837 [26:25<14:21,  4.22it/s] 47%|████▋     | 3205/6837 [26:25<14:20,  4.22it/s] 47%|████▋     | 3206/6837 [26:25<14:20,  4.22it/s] 47%|████▋     | 3207/6837 [26:25<14:20,  4.22it/s] 47%|████▋     | 3208/6837 [26:25<14:19,  4.22it/s] 47%|████▋     | 3209/6837 [26:26<14:18,  4.23it/s] 47%|████▋     | 3210/6837 [26:26<14:18,  4.22it/s] 47%|████▋     | 3211/6837 [26:26<14:17,  4.23it/s] 47%|████▋     | 3212/6837 [26:26<14:16,  4.23it/s] 47%|████▋     | 3213/6837 [26:27<14:17,  4.23it/s] 47%|████▋     | 3214/6837 [26:27<14:17,  4.22it/s] 47%|████▋     | 3215/6837 [26:27<14:16,  4.23it/s] 47%|████▋     | 3216/6837 [26:27<14:15,  4.23it/s] 47%|████▋     | 3217/6837 [26:28<14:15,  4.23it/s] 47%|████▋     | 3218/6837 [26:28<14:14,  4.23it/s] 47%|████▋     | 3219/6837 [26:28<14:14,  4.23it/s] 47%|████▋     | 3220/6837 [26:28<14:16,  4.22it/s] 47%|████▋     | 3221/6837 [26:29<14:16,  4.22it/s] 47%|████▋     | 3222/6837 [26:29<14:14,  4.23it/s] 47%|████▋     | 3223/6837 [26:29<14:13,  4.24it/s] 47%|████▋     | 3224/6837 [26:29<14:13,  4.23it/s] 47%|████▋     | 3225/6837 [26:29<14:14,  4.23it/s]                                                   {'loss': 4.484, 'grad_norm': 0.14424818754196167, 'learning_rate': 0.003810063631856402, 'epoch': 0.09}
 47%|████▋     | 3225/6837 [26:29<14:14,  4.23it/s] 47%|████▋     | 3226/6837 [26:30<14:14,  4.22it/s] 47%|████▋     | 3227/6837 [26:30<14:13,  4.23it/s] 47%|████▋     | 3228/6837 [26:30<14:12,  4.23it/s] 47%|████▋     | 3229/6837 [26:30<14:11,  4.24it/s] 47%|████▋     | 3230/6837 [26:31<14:08,  4.25it/s] 47%|████▋     | 3231/6837 [26:31<14:10,  4.24it/s] 47%|████▋     | 3232/6837 [26:31<14:10,  4.24it/s] 47%|████▋     | 3233/6837 [26:31<14:11,  4.23it/s] 47%|████▋     | 3234/6837 [26:32<14:10,  4.23it/s] 47%|████▋     | 3235/6837 [26:32<14:09,  4.24it/s] 47%|████▋     | 3236/6837 [26:32<14:09,  4.24it/s] 47%|████▋     | 3237/6837 [26:32<14:08,  4.24it/s] 47%|████▋     | 3238/6837 [26:33<14:08,  4.24it/s] 47%|████▋     | 3239/6837 [26:33<14:09,  4.24it/s] 47%|████▋     | 3240/6837 [26:33<14:09,  4.23it/s] 47%|████▋     | 3241/6837 [26:33<14:08,  4.24it/s] 47%|████▋     | 3242/6837 [26:34<14:10,  4.23it/s] 47%|████▋     | 3243/6837 [26:34<14:09,  4.23it/s] 47%|████▋     | 3244/6837 [26:34<14:09,  4.23it/s] 47%|████▋     | 3245/6837 [26:34<14:09,  4.23it/s] 47%|████▋     | 3246/6837 [26:34<14:10,  4.22it/s] 47%|████▋     | 3247/6837 [26:35<14:10,  4.22it/s] 48%|████▊     | 3248/6837 [26:35<14:09,  4.22it/s] 48%|████▊     | 3249/6837 [26:35<14:09,  4.22it/s] 48%|████▊     | 3250/6837 [26:35<14:08,  4.23it/s]                                                   {'loss': 4.4903, 'grad_norm': 0.13489964604377747, 'learning_rate': 0.0037731276488688773, 'epoch': 0.1}
 48%|████▊     | 3250/6837 [26:35<14:08,  4.23it/s] 48%|████▊     | 3251/6837 [26:36<14:11,  4.21it/s] 48%|████▊     | 3252/6837 [26:36<14:09,  4.22it/s] 48%|████▊     | 3253/6837 [26:36<14:09,  4.22it/s] 48%|████▊     | 3254/6837 [26:36<14:08,  4.22it/s] 48%|████▊     | 3255/6837 [26:37<14:08,  4.22it/s] 48%|████▊     | 3256/6837 [26:37<14:09,  4.21it/s] 48%|████▊     | 3257/6837 [26:37<14:09,  4.21it/s] 48%|████▊     | 3258/6837 [26:37<14:06,  4.23it/s] 48%|████▊     | 3259/6837 [26:38<14:05,  4.23it/s] 48%|████▊     | 3260/6837 [26:38<14:06,  4.22it/s] 48%|████▊     | 3261/6837 [26:38<14:04,  4.23it/s] 48%|████▊     | 3262/6837 [26:38<14:03,  4.24it/s] 48%|████▊     | 3263/6837 [26:38<14:03,  4.24it/s] 48%|████▊     | 3264/6837 [26:39<14:04,  4.23it/s] 48%|████▊     | 3265/6837 [26:39<14:04,  4.23it/s] 48%|████▊     | 3266/6837 [26:39<14:04,  4.23it/s] 48%|████▊     | 3267/6837 [26:39<14:03,  4.23it/s] 48%|████▊     | 3268/6837 [26:40<14:04,  4.23it/s] 48%|████▊     | 3269/6837 [26:40<14:04,  4.23it/s] 48%|████▊     | 3270/6837 [26:40<14:04,  4.22it/s] 48%|████▊     | 3271/6837 [26:40<14:04,  4.22it/s] 48%|████▊     | 3272/6837 [26:41<14:03,  4.22it/s] 48%|████▊     | 3273/6837 [26:41<14:03,  4.23it/s] 48%|████▊     | 3274/6837 [26:41<14:03,  4.22it/s] 48%|████▊     | 3275/6837 [26:41<14:02,  4.23it/s]                                                   {'loss': 4.4782, 'grad_norm': 0.17107246816158295, 'learning_rate': 0.003736065700489853, 'epoch': 0.1}
 48%|████▊     | 3275/6837 [26:41<14:02,  4.23it/s] 48%|████▊     | 3276/6837 [26:42<14:02,  4.22it/s] 48%|████▊     | 3277/6837 [26:42<14:00,  4.23it/s] 48%|████▊     | 3278/6837 [26:42<14:01,  4.23it/s] 48%|████▊     | 3279/6837 [26:42<13:59,  4.24it/s] 48%|████▊     | 3280/6837 [26:42<13:58,  4.24it/s] 48%|████▊     | 3281/6837 [26:43<13:58,  4.24it/s] 48%|████▊     | 3282/6837 [26:43<14:31,  4.08it/s] 48%|████▊     | 3283/6837 [26:43<14:50,  3.99it/s] 48%|████▊     | 3284/6837 [26:44<15:02,  3.94it/s] 48%|████▊     | 3285/6837 [26:44<15:14,  3.88it/s] 48%|████▊     | 3286/6837 [26:44<14:54,  3.97it/s] 48%|████▊     | 3287/6837 [26:44<14:39,  4.03it/s] 48%|████▊     | 3288/6837 [26:45<15:00,  3.94it/s] 48%|████▊     | 3289/6837 [26:45<15:15,  3.87it/s] 48%|████▊     | 3290/6837 [26:45<15:22,  3.84it/s] 48%|████▊     | 3291/6837 [26:45<15:29,  3.82it/s] 48%|████▊     | 3292/6837 [26:46<15:30,  3.81it/s] 48%|████▊     | 3293/6837 [26:46<15:27,  3.82it/s] 48%|████▊     | 3294/6837 [26:46<15:30,  3.81it/s] 48%|████▊     | 3295/6837 [26:46<15:38,  3.78it/s] 48%|████▊     | 3296/6837 [26:47<15:42,  3.76it/s] 48%|████▊     | 3297/6837 [26:47<15:38,  3.77it/s] 48%|████▊     | 3298/6837 [26:47<15:39,  3.77it/s] 48%|████▊     | 3299/6837 [26:47<15:07,  3.90it/s] 48%|████▊     | 3300/6837 [26:48<14:44,  4.00it/s]                                                   {'loss': 4.4687, 'grad_norm': 0.1348651647567749, 'learning_rate': 0.003698883825208372, 'epoch': 0.1}
 48%|████▊     | 3300/6837 [26:48<14:44,  4.00it/s] 48%|████▊     | 3301/6837 [26:48<14:33,  4.05it/s] 48%|████▊     | 3302/6837 [26:48<14:23,  4.10it/s] 48%|████▊     | 3303/6837 [26:48<14:14,  4.13it/s] 48%|████▊     | 3304/6837 [26:49<14:08,  4.16it/s] 48%|████▊     | 3305/6837 [26:49<14:05,  4.18it/s] 48%|████▊     | 3306/6837 [26:49<14:02,  4.19it/s] 48%|████▊     | 3307/6837 [26:49<13:58,  4.21it/s] 48%|████▊     | 3308/6837 [26:50<13:57,  4.22it/s] 48%|████▊     | 3309/6837 [26:50<13:57,  4.21it/s] 48%|████▊     | 3310/6837 [26:50<13:55,  4.22it/s] 48%|████▊     | 3311/6837 [26:50<13:54,  4.22it/s] 48%|████▊     | 3312/6837 [26:51<13:54,  4.22it/s] 48%|████▊     | 3313/6837 [26:51<13:53,  4.23it/s] 48%|████▊     | 3314/6837 [26:51<13:53,  4.23it/s] 48%|████▊     | 3315/6837 [26:51<13:51,  4.24it/s] 49%|████▊     | 3316/6837 [26:51<13:52,  4.23it/s] 49%|████▊     | 3317/6837 [26:52<13:52,  4.23it/s] 49%|████▊     | 3318/6837 [26:52<13:50,  4.24it/s] 49%|████▊     | 3319/6837 [26:52<13:51,  4.23it/s] 49%|████▊     | 3320/6837 [26:52<13:51,  4.23it/s] 49%|████▊     | 3321/6837 [26:53<13:50,  4.23it/s] 49%|████▊     | 3322/6837 [26:53<13:50,  4.23it/s] 49%|████▊     | 3323/6837 [26:53<13:51,  4.23it/s] 49%|████▊     | 3324/6837 [26:53<13:50,  4.23it/s] 49%|████▊     | 3325/6837 [26:54<13:50,  4.23it/s]                                                   {'loss': 4.4671, 'grad_norm': 0.13594302535057068, 'learning_rate': 0.003661588081053123, 'epoch': 0.1}
 49%|████▊     | 3325/6837 [26:54<13:50,  4.23it/s] 49%|████▊     | 3326/6837 [26:54<13:52,  4.22it/s] 49%|████▊     | 3327/6837 [26:54<13:51,  4.22it/s] 49%|████▊     | 3328/6837 [26:54<13:50,  4.23it/s] 49%|████▊     | 3329/6837 [26:55<13:49,  4.23it/s] 49%|████▊     | 3330/6837 [26:55<13:49,  4.23it/s] 49%|████▊     | 3331/6837 [26:55<13:50,  4.22it/s] 49%|████▊     | 3332/6837 [26:55<13:49,  4.23it/s] 49%|████▊     | 3333/6837 [26:55<13:48,  4.23it/s] 49%|████▉     | 3334/6837 [26:56<13:48,  4.23it/s] 49%|████▉     | 3335/6837 [26:56<13:48,  4.23it/s] 49%|████▉     | 3336/6837 [26:56<13:47,  4.23it/s] 49%|████▉     | 3337/6837 [26:56<13:49,  4.22it/s] 49%|████▉     | 3338/6837 [26:57<13:49,  4.22it/s] 49%|████▉     | 3339/6837 [26:57<13:48,  4.22it/s] 49%|████▉     | 3340/6837 [26:57<13:48,  4.22it/s] 49%|████▉     | 3341/6837 [26:57<13:48,  4.22it/s] 49%|████▉     | 3342/6837 [26:58<13:48,  4.22it/s] 49%|████▉     | 3343/6837 [26:58<13:47,  4.22it/s] 49%|████▉     | 3344/6837 [26:58<13:47,  4.22it/s] 49%|████▉     | 3345/6837 [26:58<13:47,  4.22it/s] 49%|████▉     | 3346/6837 [26:59<13:47,  4.22it/s] 49%|████▉     | 3347/6837 [26:59<13:47,  4.22it/s] 49%|████▉     | 3348/6837 [26:59<13:47,  4.22it/s] 49%|████▉     | 3349/6837 [26:59<13:46,  4.22it/s] 49%|████▉     | 3350/6837 [26:59<13:45,  4.22it/s]                                                   {'loss': 4.4844, 'grad_norm': 0.14646238088607788, 'learning_rate': 0.003624184544605406, 'epoch': 0.1}
 49%|████▉     | 3350/6837 [26:59<13:45,  4.22it/s] 49%|████▉     | 3351/6837 [27:00<13:47,  4.21it/s] 49%|████▉     | 3352/6837 [27:00<13:47,  4.21it/s] 49%|████▉     | 3353/6837 [27:00<13:45,  4.22it/s] 49%|████▉     | 3354/6837 [27:00<13:44,  4.22it/s] 49%|████▉     | 3355/6837 [27:01<13:42,  4.23it/s] 49%|████▉     | 3356/6837 [27:01<13:42,  4.23it/s] 49%|████▉     | 3357/6837 [27:01<13:41,  4.24it/s] 49%|████▉     | 3358/6837 [27:01<13:41,  4.24it/s] 49%|████▉     | 3359/6837 [27:02<13:42,  4.23it/s] 49%|████▉     | 3360/6837 [27:02<13:42,  4.22it/s] 49%|████▉     | 3361/6837 [27:02<13:42,  4.23it/s] 49%|████▉     | 3362/6837 [27:02<13:41,  4.23it/s] 49%|████▉     | 3363/6837 [27:03<13:41,  4.23it/s] 49%|████▉     | 3364/6837 [27:03<13:40,  4.23it/s] 49%|████▉     | 3365/6837 [27:03<13:40,  4.23it/s] 49%|████▉     | 3366/6837 [27:03<13:39,  4.23it/s] 49%|████▉     | 3367/6837 [27:04<13:41,  4.23it/s] 49%|████▉     | 3368/6837 [27:04<13:39,  4.23it/s] 49%|████▉     | 3369/6837 [27:04<13:39,  4.23it/s] 49%|████▉     | 3370/6837 [27:04<13:41,  4.22it/s] 49%|████▉     | 3371/6837 [27:04<14:15,  4.05it/s] 49%|████▉     | 3372/6837 [27:05<14:30,  3.98it/s] 49%|████▉     | 3373/6837 [27:05<14:44,  3.92it/s] 49%|████▉     | 3374/6837 [27:05<14:52,  3.88it/s] 49%|████▉     | 3375/6837 [27:06<15:02,  3.83it/s]                                                   {'loss': 4.4763, 'grad_norm': 0.16114091873168945, 'learning_rate': 0.003586679310009079, 'epoch': 0.1}
 49%|████▉     | 3375/6837 [27:06<15:02,  3.83it/s] 49%|████▉     | 3376/6837 [27:06<15:10,  3.80it/s] 49%|████▉     | 3377/6837 [27:06<15:15,  3.78it/s] 49%|████▉     | 3378/6837 [27:06<14:49,  3.89it/s] 49%|████▉     | 3379/6837 [27:07<14:31,  3.97it/s] 49%|████▉     | 3380/6837 [27:07<14:19,  4.02it/s] 49%|████▉     | 3381/6837 [27:07<14:06,  4.08it/s] 49%|████▉     | 3382/6837 [27:07<13:56,  4.13it/s] 49%|████▉     | 3383/6837 [27:08<13:49,  4.16it/s] 49%|████▉     | 3384/6837 [27:08<13:45,  4.18it/s] 50%|████▉     | 3385/6837 [27:08<13:43,  4.19it/s] 50%|████▉     | 3386/6837 [27:08<13:40,  4.20it/s] 50%|████▉     | 3387/6837 [27:08<13:43,  4.19it/s] 50%|████▉     | 3388/6837 [27:09<13:41,  4.20it/s] 50%|████▉     | 3389/6837 [27:09<13:39,  4.21it/s] 50%|████▉     | 3390/6837 [27:09<13:37,  4.21it/s] 50%|████▉     | 3391/6837 [27:09<13:37,  4.22it/s] 50%|████▉     | 3392/6837 [27:10<13:35,  4.22it/s] 50%|████▉     | 3393/6837 [27:10<13:34,  4.23it/s] 50%|████▉     | 3394/6837 [27:10<13:34,  4.23it/s] 50%|████▉     | 3395/6837 [27:10<13:35,  4.22it/s] 50%|████▉     | 3396/6837 [27:11<13:34,  4.22it/s] 50%|████▉     | 3397/6837 [27:11<13:34,  4.22it/s] 50%|████▉     | 3398/6837 [27:11<13:34,  4.22it/s] 50%|████▉     | 3399/6837 [27:11<13:33,  4.23it/s] 50%|████▉     | 3400/6837 [27:12<13:33,  4.23it/s]                                                   {'loss': 4.465, 'grad_norm': 0.15125402808189392, 'learning_rate': 0.003549078487977638, 'epoch': 0.1}
 50%|████▉     | 3400/6837 [27:12<13:33,  4.23it/s] 50%|████▉     | 3401/6837 [27:12<13:34,  4.22it/s] 50%|████▉     | 3402/6837 [27:12<13:34,  4.22it/s] 50%|████▉     | 3403/6837 [27:12<13:33,  4.22it/s] 50%|████▉     | 3404/6837 [27:12<13:31,  4.23it/s] 50%|████▉     | 3405/6837 [27:13<14:03,  4.07it/s] 50%|████▉     | 3406/6837 [27:13<14:22,  3.98it/s] 50%|████▉     | 3407/6837 [27:13<14:05,  4.06it/s] 50%|████▉     | 3408/6837 [27:13<13:53,  4.11it/s] 50%|████▉     | 3409/6837 [27:14<13:46,  4.15it/s] 50%|████▉     | 3410/6837 [27:14<13:40,  4.18it/s] 50%|████▉     | 3411/6837 [27:14<13:36,  4.20it/s] 50%|████▉     | 3412/6837 [27:14<13:36,  4.20it/s] 50%|████▉     | 3413/6837 [27:15<13:34,  4.20it/s] 50%|████▉     | 3414/6837 [27:15<13:31,  4.22it/s] 50%|████▉     | 3415/6837 [27:15<13:31,  4.22it/s] 50%|████▉     | 3416/6837 [27:15<13:31,  4.22it/s] 50%|████▉     | 3417/6837 [27:16<13:30,  4.22it/s] 50%|████▉     | 3418/6837 [27:16<13:29,  4.22it/s] 50%|█████     | 3419/6837 [27:16<13:29,  4.22it/s] 50%|█████     | 3420/6837 [27:16<13:28,  4.23it/s] 50%|█████     | 3421/6837 [27:17<13:27,  4.23it/s] 50%|█████     | 3422/6837 [27:17<13:26,  4.24it/s] 50%|█████     | 3423/6837 [27:17<13:26,  4.23it/s] 50%|█████     | 3424/6837 [27:17<13:26,  4.23it/s] 50%|█████     | 3425/6837 [27:18<13:26,  4.23it/s]                                                   {'loss': 4.4552, 'grad_norm': 0.14624564349651337, 'learning_rate': 0.0035113882047986054, 'epoch': 0.1}
 50%|█████     | 3425/6837 [27:18<13:26,  4.23it/s] 50%|█████     | 3426/6837 [27:18<13:26,  4.23it/s] 50%|█████     | 3427/6837 [27:18<13:26,  4.23it/s] 50%|█████     | 3428/6837 [27:18<13:25,  4.23it/s] 50%|█████     | 3429/6837 [27:18<13:23,  4.24it/s] 50%|█████     | 3430/6837 [27:19<13:25,  4.23it/s] 50%|█████     | 3431/6837 [27:19<13:25,  4.23it/s] 50%|█████     | 3432/6837 [27:19<13:24,  4.23it/s] 50%|█████     | 3433/6837 [27:19<13:23,  4.24it/s] 50%|█████     | 3434/6837 [27:20<13:23,  4.24it/s] 50%|█████     | 3435/6837 [27:20<13:24,  4.23it/s] 50%|█████     | 3436/6837 [27:20<13:24,  4.23it/s] 50%|█████     | 3437/6837 [27:20<13:24,  4.23it/s] 50%|█████     | 3438/6837 [27:21<13:25,  4.22it/s] 50%|█████     | 3439/6837 [27:21<13:25,  4.22it/s] 50%|█████     | 3440/6837 [27:21<13:25,  4.22it/s] 50%|█████     | 3441/6837 [27:21<13:25,  4.22it/s] 50%|█████     | 3442/6837 [27:22<13:23,  4.22it/s] 50%|█████     | 3443/6837 [27:22<13:22,  4.23it/s] 50%|█████     | 3444/6837 [27:22<13:22,  4.23it/s] 50%|█████     | 3445/6837 [27:22<13:21,  4.23it/s] 50%|█████     | 3446/6837 [27:22<13:20,  4.24it/s] 50%|█████     | 3447/6837 [27:23<13:20,  4.23it/s] 50%|█████     | 3448/6837 [27:23<13:22,  4.22it/s] 50%|█████     | 3449/6837 [27:23<13:22,  4.22it/s] 50%|█████     | 3450/6837 [27:23<13:21,  4.23it/s]                                                   {'loss': 4.4562, 'grad_norm': 0.15270282328128815, 'learning_rate': 0.003473614601335374, 'epoch': 0.1}
 50%|█████     | 3450/6837 [27:23<13:21,  4.23it/s] 50%|█████     | 3451/6837 [27:24<13:23,  4.21it/s] 50%|█████     | 3452/6837 [27:24<13:23,  4.21it/s] 51%|█████     | 3453/6837 [27:24<13:23,  4.21it/s] 51%|█████     | 3454/6837 [27:24<13:23,  4.21it/s] 51%|█████     | 3455/6837 [27:25<13:21,  4.22it/s] 51%|█████     | 3456/6837 [27:25<13:20,  4.22it/s] 51%|█████     | 3457/6837 [27:25<13:19,  4.23it/s] 51%|█████     | 3458/6837 [27:25<13:18,  4.23it/s] 51%|█████     | 3459/6837 [27:26<13:21,  4.22it/s] 51%|█████     | 3460/6837 [27:26<13:20,  4.22it/s] 51%|█████     | 3461/6837 [27:26<13:19,  4.22it/s] 51%|█████     | 3462/6837 [27:26<13:19,  4.22it/s] 51%|█████     | 3463/6837 [27:27<13:18,  4.22it/s] 51%|█████     | 3464/6837 [27:27<13:18,  4.23it/s] 51%|█████     | 3465/6837 [27:27<13:17,  4.23it/s] 51%|█████     | 3466/6837 [27:27<13:17,  4.23it/s] 51%|█████     | 3467/6837 [27:27<13:18,  4.22it/s] 51%|█████     | 3468/6837 [27:28<13:18,  4.22it/s] 51%|█████     | 3469/6837 [27:28<13:17,  4.22it/s] 51%|█████     | 3470/6837 [27:28<13:16,  4.23it/s] 51%|█████     | 3471/6837 [27:28<13:16,  4.23it/s] 51%|█████     | 3472/6837 [27:29<13:15,  4.23it/s] 51%|█████     | 3473/6837 [27:29<13:16,  4.23it/s] 51%|█████     | 3474/6837 [27:29<13:16,  4.22it/s] 51%|█████     | 3475/6837 [27:29<13:16,  4.22it/s]                                                   {'loss': 4.4428, 'grad_norm': 0.14836426079273224, 'learning_rate': 0.0034357638320266773, 'epoch': 0.1}
 51%|█████     | 3475/6837 [27:29<13:16,  4.22it/s] 51%|█████     | 3476/6837 [27:30<13:18,  4.21it/s] 51%|█████     | 3477/6837 [27:30<13:18,  4.21it/s] 51%|█████     | 3478/6837 [27:30<13:16,  4.22it/s] 51%|█████     | 3479/6837 [27:30<13:15,  4.22it/s] 51%|█████     | 3480/6837 [27:31<13:14,  4.22it/s] 51%|█████     | 3481/6837 [27:31<13:15,  4.22it/s] 51%|█████     | 3482/6837 [27:31<13:14,  4.22it/s] 51%|█████     | 3483/6837 [27:31<13:13,  4.23it/s] 51%|█████     | 3484/6837 [27:31<13:13,  4.23it/s] 51%|█████     | 3485/6837 [27:32<13:13,  4.23it/s] 51%|█████     | 3486/6837 [27:32<13:13,  4.22it/s] 51%|█████     | 3487/6837 [27:32<13:12,  4.22it/s] 51%|█████     | 3488/6837 [27:32<13:14,  4.22it/s] 51%|█████     | 3489/6837 [27:33<13:12,  4.22it/s] 51%|█████     | 3490/6837 [27:33<13:12,  4.22it/s] 51%|█████     | 3491/6837 [27:33<13:11,  4.23it/s] 51%|█████     | 3492/6837 [27:33<13:11,  4.23it/s] 51%|█████     | 3493/6837 [27:34<13:11,  4.22it/s] 51%|█████     | 3494/6837 [27:34<13:11,  4.22it/s] 51%|█████     | 3495/6837 [27:34<13:13,  4.21it/s] 51%|█████     | 3496/6837 [27:34<13:13,  4.21it/s] 51%|█████     | 3497/6837 [27:35<13:12,  4.21it/s] 51%|█████     | 3498/6837 [27:35<13:11,  4.22it/s] 51%|█████     | 3499/6837 [27:35<13:09,  4.23it/s] 51%|█████     | 3500/6837 [27:35<13:09,  4.23it/s]                                                   {'loss': 4.453, 'grad_norm': 0.1503460854291916, 'learning_rate': 0.0033978420638838503, 'epoch': 0.1}
 51%|█████     | 3500/6837 [27:35<13:09,  4.23it/s] 51%|█████     | 3501/6837 [27:36<13:11,  4.22it/s] 51%|█████     | 3502/6837 [27:36<13:13,  4.20it/s] 51%|█████     | 3503/6837 [27:36<13:13,  4.20it/s] 51%|█████▏    | 3504/6837 [27:36<13:11,  4.21it/s] 51%|█████▏    | 3505/6837 [27:36<13:10,  4.21it/s] 51%|█████▏    | 3506/6837 [27:37<13:09,  4.22it/s] 51%|█████▏    | 3507/6837 [27:37<13:07,  4.23it/s] 51%|█████▏    | 3508/6837 [27:37<13:06,  4.23it/s] 51%|█████▏    | 3509/6837 [27:37<13:07,  4.23it/s] 51%|█████▏    | 3510/6837 [27:38<17:44,  3.12it/s] 51%|█████▏    | 3511/6837 [27:38<16:20,  3.39it/s] 51%|█████▏    | 3512/6837 [27:38<15:25,  3.59it/s] 51%|█████▏    | 3513/6837 [27:39<14:42,  3.77it/s] 51%|█████▏    | 3514/6837 [27:39<14:13,  3.89it/s] 51%|█████▏    | 3515/6837 [27:39<13:53,  3.99it/s] 51%|█████▏    | 3516/6837 [27:39<13:37,  4.06it/s] 51%|█████▏    | 3517/6837 [27:40<13:27,  4.11it/s] 51%|█████▏    | 3518/6837 [27:40<13:19,  4.15it/s] 51%|█████▏    | 3519/6837 [27:40<13:16,  4.16it/s] 51%|█████▏    | 3520/6837 [27:40<13:13,  4.18it/s] 51%|█████▏    | 3521/6837 [27:41<13:09,  4.20it/s] 52%|█████▏    | 3522/6837 [27:41<13:07,  4.21it/s] 52%|█████▏    | 3523/6837 [27:41<13:07,  4.21it/s] 52%|█████▏    | 3524/6837 [27:41<13:05,  4.22it/s] 52%|█████▏    | 3525/6837 [27:41<13:02,  4.23it/s]                                                   {'loss': 4.4278, 'grad_norm': 0.14883722364902496, 'learning_rate': 0.0033598554754860435, 'epoch': 0.1}
 52%|█████▏    | 3525/6837 [27:41<13:02,  4.23it/s] 52%|█████▏    | 3526/6837 [27:42<13:04,  4.22it/s] 52%|█████▏    | 3527/6837 [27:42<13:03,  4.23it/s] 52%|█████▏    | 3528/6837 [27:42<13:01,  4.23it/s] 52%|█████▏    | 3529/6837 [27:42<13:01,  4.23it/s] 52%|█████▏    | 3530/6837 [27:43<13:00,  4.24it/s] 52%|█████▏    | 3531/6837 [27:43<13:29,  4.08it/s] 52%|█████▏    | 3532/6837 [27:43<13:50,  3.98it/s] 52%|█████▏    | 3533/6837 [27:43<14:08,  3.89it/s] 52%|█████▏    | 3534/6837 [27:44<14:15,  3.86it/s] 52%|█████▏    | 3535/6837 [27:44<14:16,  3.86it/s] 52%|█████▏    | 3536/6837 [27:44<13:53,  3.96it/s] 52%|█████▏    | 3537/6837 [27:44<13:37,  4.04it/s] 52%|█████▏    | 3538/6837 [27:45<13:25,  4.09it/s] 52%|█████▏    | 3539/6837 [27:45<13:17,  4.13it/s] 52%|█████▏    | 3540/6837 [27:45<13:13,  4.16it/s] 52%|█████▏    | 3541/6837 [27:45<13:09,  4.17it/s] 52%|█████▏    | 3542/6837 [27:46<13:06,  4.19it/s] 52%|█████▏    | 3543/6837 [27:46<13:04,  4.20it/s] 52%|█████▏    | 3544/6837 [27:46<13:04,  4.20it/s] 52%|█████▏    | 3545/6837 [27:46<13:03,  4.20it/s] 52%|█████▏    | 3546/6837 [27:47<13:01,  4.21it/s] 52%|█████▏    | 3547/6837 [27:47<13:00,  4.22it/s] 52%|█████▏    | 3548/6837 [27:47<13:02,  4.21it/s] 52%|█████▏    | 3549/6837 [27:47<13:01,  4.21it/s] 52%|█████▏    | 3550/6837 [27:48<13:00,  4.21it/s]{'loss': 4.4452, 'grad_norm': 0.1521454006433487, 'learning_rate': 0.003321810255973543, 'epoch': 0.1}                                                   
 52%|█████▏    | 3550/6837 [27:48<13:00,  4.21it/s] 52%|█████▏    | 3551/6837 [27:48<13:01,  4.20it/s] 52%|█████▏    | 3552/6837 [27:48<13:01,  4.21it/s] 52%|█████▏    | 3553/6837 [27:48<12:59,  4.21it/s] 52%|█████▏    | 3554/6837 [27:48<12:58,  4.22it/s] 52%|█████▏    | 3555/6837 [27:49<12:57,  4.22it/s] 52%|█████▏    | 3556/6837 [27:49<12:58,  4.22it/s] 52%|█████▏    | 3557/6837 [27:49<12:56,  4.23it/s] 52%|█████▏    | 3558/6837 [27:49<12:54,  4.23it/s] 52%|█████▏    | 3559/6837 [27:50<12:55,  4.23it/s] 52%|█████▏    | 3560/6837 [27:50<12:55,  4.23it/s] 52%|█████▏    | 3561/6837 [27:50<12:54,  4.23it/s] 52%|█████▏    | 3562/6837 [27:50<12:54,  4.23it/s] 52%|█████▏    | 3563/6837 [27:51<12:54,  4.23it/s] 52%|█████▏    | 3564/6837 [27:51<12:54,  4.23it/s] 52%|█████▏    | 3565/6837 [27:51<12:53,  4.23it/s] 52%|█████▏    | 3566/6837 [27:51<12:56,  4.22it/s] 52%|█████▏    | 3567/6837 [27:52<12:54,  4.22it/s] 52%|█████▏    | 3568/6837 [27:52<12:53,  4.22it/s] 52%|█████▏    | 3569/6837 [27:52<12:52,  4.23it/s] 52%|█████▏    | 3570/6837 [27:52<12:52,  4.23it/s] 52%|█████▏    | 3571/6837 [27:53<12:52,  4.23it/s] 52%|█████▏    | 3572/6837 [27:53<12:51,  4.23it/s] 52%|█████▏    | 3573/6837 [27:53<12:51,  4.23it/s] 52%|█████▏    | 3574/6837 [27:53<12:50,  4.23it/s] 52%|█████▏    | 3575/6837 [27:53<12:50,  4.23it/s]                                                   {'loss': 4.4529, 'grad_norm': 0.1537385731935501, 'learning_rate': 0.003283712604039382, 'epoch': 0.1}
 52%|█████▏    | 3575/6837 [27:53<12:50,  4.23it/s] 52%|█████▏    | 3576/6837 [27:54<12:52,  4.22it/s] 52%|█████▏    | 3577/6837 [27:54<12:51,  4.23it/s] 52%|█████▏    | 3578/6837 [27:54<12:50,  4.23it/s] 52%|█████▏    | 3579/6837 [27:54<12:49,  4.24it/s] 52%|█████▏    | 3580/6837 [27:55<12:48,  4.24it/s] 52%|█████▏    | 3581/6837 [27:55<12:48,  4.23it/s] 52%|█████▏    | 3582/6837 [27:55<12:48,  4.24it/s] 52%|█████▏    | 3583/6837 [27:55<12:47,  4.24it/s] 52%|█████▏    | 3584/6837 [27:56<12:49,  4.23it/s] 52%|█████▏    | 3585/6837 [27:56<12:49,  4.22it/s] 52%|█████▏    | 3586/6837 [27:56<12:48,  4.23it/s] 52%|█████▏    | 3587/6837 [27:56<12:48,  4.23it/s] 52%|█████▏    | 3588/6837 [27:57<12:48,  4.23it/s] 52%|█████▏    | 3589/6837 [27:57<12:48,  4.22it/s] 53%|█████▎    | 3590/6837 [27:57<12:47,  4.23it/s] 53%|█████▎    | 3591/6837 [27:57<12:47,  4.23it/s] 53%|█████▎    | 3592/6837 [27:57<12:47,  4.23it/s] 53%|█████▎    | 3593/6837 [27:58<12:46,  4.23it/s] 53%|█████▎    | 3594/6837 [27:58<12:47,  4.23it/s] 53%|█████▎    | 3595/6837 [27:58<12:47,  4.22it/s] 53%|█████▎    | 3596/6837 [27:58<12:46,  4.23it/s] 53%|█████▎    | 3597/6837 [27:59<12:46,  4.23it/s] 53%|█████▎    | 3598/6837 [27:59<12:45,  4.23it/s] 53%|█████▎    | 3599/6837 [27:59<12:45,  4.23it/s] 53%|█████▎    | 3600/6837 [27:59<12:45,  4.23it/s]                                                   {'loss': 4.4419, 'grad_norm': 0.14868900179862976, 'learning_rate': 0.00324556872691939, 'epoch': 0.11}
 53%|█████▎    | 3600/6837 [27:59<12:45,  4.23it/s] 53%|█████▎    | 3601/6837 [28:00<12:47,  4.22it/s] 53%|█████▎    | 3602/6837 [28:00<12:46,  4.22it/s] 53%|█████▎    | 3603/6837 [28:00<12:45,  4.22it/s] 53%|█████▎    | 3604/6837 [28:00<12:44,  4.23it/s] 53%|█████▎    | 3605/6837 [28:01<12:46,  4.22it/s] 53%|█████▎    | 3606/6837 [28:01<12:45,  4.22it/s] 53%|█████▎    | 3607/6837 [28:01<12:45,  4.22it/s] 53%|█████▎    | 3608/6837 [28:01<12:44,  4.23it/s] 53%|█████▎    | 3609/6837 [28:01<12:43,  4.23it/s] 53%|█████▎    | 3610/6837 [28:02<12:44,  4.22it/s] 53%|█████▎    | 3611/6837 [28:02<12:42,  4.23it/s] 53%|█████▎    | 3612/6837 [28:02<12:42,  4.23it/s] 53%|█████▎    | 3613/6837 [28:02<12:44,  4.22it/s] 53%|█████▎    | 3614/6837 [28:03<12:43,  4.22it/s] 53%|█████▎    | 3615/6837 [28:03<12:42,  4.23it/s] 53%|█████▎    | 3616/6837 [28:03<12:42,  4.22it/s] 53%|█████▎    | 3617/6837 [28:03<12:41,  4.23it/s] 53%|█████▎    | 3618/6837 [28:04<12:41,  4.23it/s] 53%|█████▎    | 3619/6837 [28:04<12:40,  4.23it/s] 53%|█████▎    | 3620/6837 [28:04<12:40,  4.23it/s] 53%|█████▎    | 3621/6837 [28:04<12:40,  4.23it/s] 53%|█████▎    | 3622/6837 [28:05<12:40,  4.23it/s] 53%|█████▎    | 3623/6837 [28:05<12:40,  4.23it/s] 53%|█████▎    | 3624/6837 [28:05<12:42,  4.22it/s] 53%|█████▎    | 3625/6837 [28:05<12:40,  4.22it/s]{'loss': 4.4441, 'grad_norm': 0.15140162408351898, 'learning_rate': 0.0032073848393808424, 'epoch': 0.11}
                                                    53%|█████▎    | 3625/6837 [28:05<12:40,  4.22it/s] 53%|█████▎    | 3626/6837 [28:06<12:43,  4.20it/s] 53%|█████▎    | 3627/6837 [28:06<12:45,  4.19it/s] 53%|█████▎    | 3628/6837 [28:06<12:47,  4.18it/s] 53%|█████▎    | 3629/6837 [28:06<12:46,  4.18it/s] 53%|█████▎    | 3630/6837 [28:06<12:43,  4.20it/s] 53%|█████▎    | 3631/6837 [28:07<12:42,  4.20it/s] 53%|█████▎    | 3632/6837 [28:07<12:40,  4.22it/s] 53%|█████▎    | 3633/6837 [28:07<12:38,  4.23it/s] 53%|█████▎    | 3634/6837 [28:07<12:37,  4.23it/s] 53%|█████▎    | 3635/6837 [28:08<12:38,  4.22it/s] 53%|█████▎    | 3636/6837 [28:08<12:38,  4.22it/s] 53%|█████▎    | 3637/6837 [28:08<12:41,  4.20it/s] 53%|█████▎    | 3638/6837 [28:08<12:43,  4.19it/s] 53%|█████▎    | 3639/6837 [28:09<12:43,  4.19it/s] 53%|█████▎    | 3640/6837 [28:09<12:40,  4.21it/s] 53%|█████▎    | 3641/6837 [28:09<12:38,  4.22it/s] 53%|█████▎    | 3642/6837 [28:09<12:37,  4.22it/s] 53%|█████▎    | 3643/6837 [28:10<12:36,  4.22it/s] 53%|█████▎    | 3644/6837 [28:10<12:36,  4.22it/s] 53%|█████▎    | 3645/6837 [28:10<12:37,  4.21it/s] 53%|█████▎    | 3646/6837 [28:10<12:38,  4.21it/s] 53%|█████▎    | 3647/6837 [28:11<12:40,  4.20it/s] 53%|█████▎    | 3648/6837 [28:11<12:42,  4.18it/s] 53%|█████▎    | 3649/6837 [28:11<12:43,  4.18it/s] 53%|█████▎    | 3650/6837 [28:11<12:40,  4.19it/s]                                                   {'loss': 4.439, 'grad_norm': 0.13878877460956573, 'learning_rate': 0.003169167162709903, 'epoch': 0.11}
 53%|█████▎    | 3650/6837 [28:11<12:40,  4.19it/s] 53%|█████▎    | 3651/6837 [28:11<12:39,  4.19it/s] 53%|█████▎    | 3652/6837 [28:12<12:38,  4.20it/s] 53%|█████▎    | 3653/6837 [28:12<12:36,  4.21it/s] 53%|█████▎    | 3654/6837 [28:12<12:35,  4.21it/s] 53%|█████▎    | 3655/6837 [28:12<12:35,  4.21it/s] 53%|█████▎    | 3656/6837 [28:13<12:35,  4.21it/s] 53%|█████▎    | 3657/6837 [28:13<12:56,  4.09it/s] 54%|█████▎    | 3658/6837 [28:13<13:13,  4.01it/s] 54%|█████▎    | 3659/6837 [28:13<13:28,  3.93it/s] 54%|█████▎    | 3660/6837 [28:14<13:39,  3.88it/s] 54%|█████▎    | 3661/6837 [28:14<13:50,  3.82it/s] 54%|█████▎    | 3662/6837 [28:14<13:52,  3.81it/s] 54%|█████▎    | 3663/6837 [28:15<13:56,  3.80it/s] 54%|█████▎    | 3664/6837 [28:15<13:58,  3.79it/s] 54%|█████▎    | 3665/6837 [28:15<14:00,  3.77it/s] 54%|█████▎    | 3666/6837 [28:15<13:58,  3.78it/s] 54%|█████▎    | 3667/6837 [28:16<13:55,  3.79it/s] 54%|█████▎    | 3668/6837 [28:16<13:55,  3.79it/s] 54%|█████▎    | 3669/6837 [28:16<13:58,  3.78it/s] 54%|█████▎    | 3670/6837 [28:16<13:36,  3.88it/s] 54%|█████▎    | 3671/6837 [28:17<13:15,  3.98it/s] 54%|█████▎    | 3672/6837 [28:17<13:03,  4.04it/s] 54%|█████▎    | 3673/6837 [28:17<12:51,  4.10it/s] 54%|█████▎    | 3674/6837 [28:17<12:44,  4.14it/s] 54%|█████▍    | 3675/6837 [28:18<12:39,  4.16it/s]                                                   {'loss': 4.4463, 'grad_norm': 0.15668663382530212, 'learning_rate': 0.003130921923697983, 'epoch': 0.11}
 54%|█████▍    | 3675/6837 [28:18<12:39,  4.16it/s] 54%|█████▍    | 3676/6837 [28:18<12:39,  4.16it/s] 54%|█████▍    | 3677/6837 [28:18<12:34,  4.19it/s] 54%|█████▍    | 3678/6837 [28:18<12:32,  4.20it/s] 54%|█████▍    | 3679/6837 [28:18<12:29,  4.22it/s] 54%|█████▍    | 3680/6837 [28:19<12:26,  4.23it/s] 54%|█████▍    | 3681/6837 [28:19<12:25,  4.23it/s] 54%|█████▍    | 3682/6837 [28:19<12:25,  4.23it/s] 54%|█████▍    | 3683/6837 [28:19<12:24,  4.24it/s] 54%|█████▍    | 3684/6837 [28:20<12:23,  4.24it/s] 54%|█████▍    | 3685/6837 [28:20<12:22,  4.24it/s] 54%|█████▍    | 3686/6837 [28:20<12:21,  4.25it/s] 54%|█████▍    | 3687/6837 [28:20<12:21,  4.25it/s] 54%|█████▍    | 3688/6837 [28:21<12:22,  4.24it/s] 54%|█████▍    | 3689/6837 [28:21<12:21,  4.25it/s] 54%|█████▍    | 3690/6837 [28:21<12:21,  4.24it/s] 54%|█████▍    | 3691/6837 [28:21<12:22,  4.24it/s] 54%|█████▍    | 3692/6837 [28:22<12:22,  4.24it/s] 54%|█████▍    | 3693/6837 [28:22<12:21,  4.24it/s] 54%|█████▍    | 3694/6837 [28:22<12:21,  4.24it/s] 54%|█████▍    | 3695/6837 [28:22<12:20,  4.24it/s] 54%|█████▍    | 3696/6837 [28:22<12:19,  4.25it/s] 54%|█████▍    | 3697/6837 [28:23<12:18,  4.25it/s] 54%|█████▍    | 3698/6837 [28:23<12:49,  4.08it/s] 54%|█████▍    | 3699/6837 [28:23<13:06,  3.99it/s] 54%|█████▍    | 3700/6837 [28:24<13:20,  3.92it/s]                                                   {'loss': 4.4368, 'grad_norm': 0.1446448713541031, 'learning_rate': 0.003092655353627216, 'epoch': 0.11}
 54%|█████▍    | 3700/6837 [28:24<13:20,  3.92it/s] 54%|█████▍    | 3701/6837 [28:24<13:32,  3.86it/s] 54%|█████▍    | 3702/6837 [28:24<13:10,  3.97it/s] 54%|█████▍    | 3703/6837 [28:24<12:55,  4.04it/s] 54%|█████▍    | 3704/6837 [28:24<12:46,  4.09it/s] 54%|█████▍    | 3705/6837 [28:25<12:38,  4.13it/s] 54%|█████▍    | 3706/6837 [28:25<12:34,  4.15it/s] 54%|█████▍    | 3707/6837 [28:25<12:29,  4.18it/s] 54%|█████▍    | 3708/6837 [28:25<12:26,  4.19it/s] 54%|█████▍    | 3709/6837 [28:26<12:25,  4.19it/s] 54%|█████▍    | 3710/6837 [28:26<12:25,  4.20it/s] 54%|█████▍    | 3711/6837 [28:26<12:24,  4.20it/s] 54%|█████▍    | 3712/6837 [28:26<12:22,  4.21it/s] 54%|█████▍    | 3713/6837 [28:27<12:21,  4.21it/s] 54%|█████▍    | 3714/6837 [28:27<12:20,  4.22it/s] 54%|█████▍    | 3715/6837 [28:27<12:19,  4.22it/s] 54%|█████▍    | 3716/6837 [28:27<12:19,  4.22it/s] 54%|█████▍    | 3717/6837 [28:28<12:17,  4.23it/s] 54%|█████▍    | 3718/6837 [28:28<12:17,  4.23it/s] 54%|█████▍    | 3719/6837 [28:28<12:18,  4.22it/s] 54%|█████▍    | 3720/6837 [28:28<12:18,  4.22it/s] 54%|█████▍    | 3721/6837 [28:29<12:17,  4.23it/s] 54%|█████▍    | 3722/6837 [28:29<12:16,  4.23it/s] 54%|█████▍    | 3723/6837 [28:29<12:16,  4.23it/s] 54%|█████▍    | 3724/6837 [28:29<12:14,  4.24it/s] 54%|█████▍    | 3725/6837 [28:29<12:14,  4.23it/s]                                                   {'loss': 4.4277, 'grad_norm': 0.15262754261493683, 'learning_rate': 0.003054373687255196, 'epoch': 0.11}
 54%|█████▍    | 3725/6837 [28:29<12:14,  4.23it/s] 54%|█████▍    | 3726/6837 [28:30<12:17,  4.22it/s] 55%|█████▍    | 3727/6837 [28:30<12:17,  4.22it/s] 55%|█████▍    | 3728/6837 [28:30<12:15,  4.23it/s] 55%|█████▍    | 3729/6837 [28:30<12:15,  4.23it/s] 55%|█████▍    | 3730/6837 [28:31<12:16,  4.22it/s] 55%|█████▍    | 3731/6837 [28:31<12:14,  4.23it/s] 55%|█████▍    | 3732/6837 [28:31<12:13,  4.23it/s] 55%|█████▍    | 3733/6837 [28:31<12:14,  4.23it/s] 55%|█████▍    | 3734/6837 [28:32<12:13,  4.23it/s] 55%|█████▍    | 3735/6837 [28:32<12:12,  4.23it/s] 55%|█████▍    | 3736/6837 [28:32<12:12,  4.23it/s] 55%|█████▍    | 3737/6837 [28:32<12:12,  4.23it/s] 55%|█████▍    | 3738/6837 [28:33<12:11,  4.24it/s] 55%|█████▍    | 3739/6837 [28:33<12:11,  4.23it/s] 55%|█████▍    | 3740/6837 [28:33<12:12,  4.23it/s] 55%|█████▍    | 3741/6837 [28:33<12:12,  4.23it/s] 55%|█████▍    | 3742/6837 [28:33<12:11,  4.23it/s] 55%|█████▍    | 3743/6837 [28:34<12:11,  4.23it/s] 55%|█████▍    | 3744/6837 [28:34<12:11,  4.23it/s] 55%|█████▍    | 3745/6837 [28:34<12:11,  4.23it/s] 55%|█████▍    | 3746/6837 [28:34<12:11,  4.23it/s] 55%|█████▍    | 3747/6837 [28:35<12:11,  4.22it/s] 55%|█████▍    | 3748/6837 [28:35<12:11,  4.22it/s] 55%|█████▍    | 3749/6837 [28:35<12:11,  4.22it/s] 55%|█████▍    | 3750/6837 [28:35<12:11,  4.22it/s]                                                   {'loss': 4.4425, 'grad_norm': 0.15154211223125458, 'learning_rate': 0.003016083161799152, 'epoch': 0.11}
 55%|█████▍    | 3750/6837 [28:35<12:11,  4.22it/s] 55%|█████▍    | 3751/6837 [28:36<12:13,  4.21it/s] 55%|█████▍    | 3752/6837 [28:36<12:11,  4.22it/s] 55%|█████▍    | 3753/6837 [28:36<12:09,  4.23it/s] 55%|█████▍    | 3754/6837 [28:36<12:09,  4.23it/s] 55%|█████▍    | 3755/6837 [28:37<12:08,  4.23it/s] 55%|█████▍    | 3756/6837 [28:37<12:07,  4.23it/s] 55%|█████▍    | 3757/6837 [28:37<12:08,  4.23it/s] 55%|█████▍    | 3758/6837 [28:37<12:14,  4.19it/s] 55%|█████▍    | 3759/6837 [28:38<12:12,  4.20it/s] 55%|█████▍    | 3760/6837 [28:38<12:10,  4.21it/s] 55%|█████▌    | 3761/6837 [28:38<12:09,  4.22it/s] 55%|█████▌    | 3762/6837 [28:38<12:09,  4.22it/s] 55%|█████▌    | 3763/6837 [28:38<12:07,  4.22it/s] 55%|█████▌    | 3764/6837 [28:39<12:06,  4.23it/s] 55%|█████▌    | 3765/6837 [28:39<12:06,  4.23it/s] 55%|█████▌    | 3766/6837 [28:39<12:05,  4.23it/s] 55%|█████▌    | 3767/6837 [28:39<12:05,  4.23it/s] 55%|█████▌    | 3768/6837 [28:40<12:05,  4.23it/s] 55%|█████▌    | 3769/6837 [28:40<12:06,  4.22it/s] 55%|█████▌    | 3770/6837 [28:40<12:04,  4.23it/s] 55%|█████▌    | 3771/6837 [28:40<12:05,  4.23it/s] 55%|█████▌    | 3772/6837 [28:41<12:04,  4.23it/s] 55%|█████▌    | 3773/6837 [28:41<12:04,  4.23it/s] 55%|█████▌    | 3774/6837 [28:41<12:04,  4.22it/s] 55%|█████▌    | 3775/6837 [28:41<12:03,  4.23it/s]                                                   {'loss': 4.4304, 'grad_norm': 0.17801694571971893, 'learning_rate': 0.0029777900159197205, 'epoch': 0.11}
 55%|█████▌    | 3775/6837 [28:41<12:03,  4.23it/s] 55%|█████▌    | 3776/6837 [28:42<12:05,  4.22it/s] 55%|█████▌    | 3777/6837 [28:42<12:05,  4.22it/s] 55%|█████▌    | 3778/6837 [28:42<12:04,  4.22it/s] 55%|█████▌    | 3779/6837 [28:42<12:04,  4.22it/s] 55%|█████▌    | 3780/6837 [28:42<12:05,  4.21it/s] 55%|█████▌    | 3781/6837 [28:43<12:29,  4.08it/s] 55%|█████▌    | 3782/6837 [28:43<12:45,  3.99it/s] 55%|█████▌    | 3783/6837 [28:43<12:34,  4.05it/s] 55%|█████▌    | 3784/6837 [28:44<12:52,  3.95it/s] 55%|█████▌    | 3785/6837 [28:44<12:58,  3.92it/s] 55%|█████▌    | 3786/6837 [28:44<12:56,  3.93it/s] 55%|█████▌    | 3787/6837 [28:44<12:40,  4.01it/s] 55%|█████▌    | 3788/6837 [28:44<12:29,  4.07it/s] 55%|█████▌    | 3789/6837 [28:45<12:20,  4.12it/s] 55%|█████▌    | 3790/6837 [28:45<12:15,  4.14it/s] 55%|█████▌    | 3791/6837 [28:45<12:11,  4.16it/s] 55%|█████▌    | 3792/6837 [28:45<12:08,  4.18it/s] 55%|█████▌    | 3793/6837 [28:46<12:06,  4.19it/s] 55%|█████▌    | 3794/6837 [28:46<12:04,  4.20it/s] 56%|█████▌    | 3795/6837 [28:46<12:02,  4.21it/s] 56%|█████▌    | 3796/6837 [28:46<12:00,  4.22it/s] 56%|█████▌    | 3797/6837 [28:47<12:01,  4.21it/s] 56%|█████▌    | 3798/6837 [28:47<12:00,  4.22it/s] 56%|█████▌    | 3799/6837 [28:47<11:59,  4.22it/s] 56%|█████▌    | 3800/6837 [28:47<11:59,  4.22it/s]                                                   {'loss': 4.4191, 'grad_norm': 0.15948429703712463, 'learning_rate': 0.002939500488704482, 'epoch': 0.11}
 56%|█████▌    | 3800/6837 [28:47<11:59,  4.22it/s] 56%|█████▌    | 3801/6837 [28:48<12:00,  4.22it/s] 56%|█████▌    | 3802/6837 [28:48<11:59,  4.22it/s] 56%|█████▌    | 3803/6837 [28:48<11:58,  4.22it/s] 56%|█████▌    | 3804/6837 [28:48<11:58,  4.22it/s] 56%|█████▌    | 3805/6837 [28:49<11:59,  4.22it/s] 56%|█████▌    | 3806/6837 [28:49<11:58,  4.22it/s] 56%|█████▌    | 3807/6837 [28:49<11:58,  4.21it/s] 56%|█████▌    | 3808/6837 [28:49<11:58,  4.21it/s] 56%|█████▌    | 3809/6837 [28:49<11:58,  4.21it/s] 56%|█████▌    | 3810/6837 [28:50<11:57,  4.22it/s] 56%|█████▌    | 3811/6837 [28:50<11:56,  4.22it/s] 56%|█████▌    | 3812/6837 [28:50<11:56,  4.22it/s] 56%|█████▌    | 3813/6837 [28:50<11:55,  4.22it/s] 56%|█████▌    | 3814/6837 [28:51<11:54,  4.23it/s] 56%|█████▌    | 3815/6837 [28:51<11:54,  4.23it/s] 56%|█████▌    | 3816/6837 [28:51<11:54,  4.23it/s] 56%|█████▌    | 3817/6837 [28:51<11:53,  4.23it/s] 56%|█████▌    | 3818/6837 [28:52<11:53,  4.23it/s] 56%|█████▌    | 3819/6837 [28:52<11:53,  4.23it/s] 56%|█████▌    | 3820/6837 [28:52<11:52,  4.23it/s] 56%|█████▌    | 3821/6837 [28:52<11:52,  4.23it/s] 56%|█████▌    | 3822/6837 [28:53<11:53,  4.22it/s] 56%|█████▌    | 3823/6837 [28:53<11:52,  4.23it/s] 56%|█████▌    | 3824/6837 [28:53<11:52,  4.23it/s] 56%|█████▌    | 3825/6837 [28:53<11:52,  4.23it/s]                                                   {'loss': 4.4127, 'grad_norm': 0.14102542400360107, 'learning_rate': 0.00290122081865143, 'epoch': 0.11}
 56%|█████▌    | 3825/6837 [28:53<11:52,  4.23it/s] 56%|█████▌    | 3826/6837 [28:53<11:54,  4.21it/s] 56%|█████▌    | 3827/6837 [28:54<11:53,  4.22it/s] 56%|█████▌    | 3828/6837 [28:54<11:53,  4.22it/s] 56%|█████▌    | 3829/6837 [28:54<11:53,  4.22it/s] 56%|█████▌    | 3830/6837 [28:54<11:53,  4.22it/s] 56%|█████▌    | 3831/6837 [28:55<11:52,  4.22it/s] 56%|█████▌    | 3832/6837 [28:55<11:51,  4.22it/s] 56%|█████▌    | 3833/6837 [28:55<11:52,  4.22it/s] 56%|█████▌    | 3834/6837 [28:55<11:50,  4.22it/s] 56%|█████▌    | 3835/6837 [28:56<11:49,  4.23it/s] 56%|█████▌    | 3836/6837 [28:56<11:49,  4.23it/s] 56%|█████▌    | 3837/6837 [28:56<11:50,  4.22it/s] 56%|█████▌    | 3838/6837 [28:56<11:50,  4.22it/s] 56%|█████▌    | 3839/6837 [28:57<11:51,  4.21it/s] 56%|█████▌    | 3840/6837 [28:57<11:50,  4.22it/s] 56%|█████▌    | 3841/6837 [28:57<11:50,  4.22it/s] 56%|█████▌    | 3842/6837 [28:57<11:50,  4.22it/s] 56%|█████▌    | 3843/6837 [28:58<11:49,  4.22it/s] 56%|█████▌    | 3844/6837 [28:58<11:50,  4.21it/s] 56%|█████▌    | 3845/6837 [28:58<11:50,  4.21it/s] 56%|█████▋    | 3846/6837 [28:58<11:48,  4.22it/s] 56%|█████▋    | 3847/6837 [28:58<11:50,  4.21it/s] 56%|█████▋    | 3848/6837 [28:59<11:49,  4.21it/s] 56%|█████▋    | 3849/6837 [28:59<11:48,  4.22it/s] 56%|█████▋    | 3850/6837 [28:59<11:48,  4.22it/s]                                                   {'loss': 4.4236, 'grad_norm': 0.1711367964744568, 'learning_rate': 0.0028629572426525354, 'epoch': 0.11}
 56%|█████▋    | 3850/6837 [28:59<11:48,  4.22it/s] 56%|█████▋    | 3851/6837 [28:59<12:16,  4.06it/s] 56%|█████▋    | 3852/6837 [29:00<12:17,  4.05it/s] 56%|█████▋    | 3853/6837 [29:00<12:07,  4.10it/s] 56%|█████▋    | 3854/6837 [29:00<12:00,  4.14it/s] 56%|█████▋    | 3855/6837 [29:00<11:55,  4.17it/s] 56%|█████▋    | 3856/6837 [29:01<11:51,  4.19it/s] 56%|█████▋    | 3857/6837 [29:01<11:49,  4.20it/s] 56%|█████▋    | 3858/6837 [29:01<11:48,  4.21it/s] 56%|█████▋    | 3859/6837 [29:01<11:46,  4.21it/s] 56%|█████▋    | 3860/6837 [29:02<11:44,  4.22it/s] 56%|█████▋    | 3861/6837 [29:02<11:44,  4.22it/s] 56%|█████▋    | 3862/6837 [29:02<11:44,  4.23it/s] 57%|█████▋    | 3863/6837 [29:02<11:42,  4.23it/s] 57%|█████▋    | 3864/6837 [29:03<11:42,  4.23it/s] 57%|█████▋    | 3865/6837 [29:03<11:41,  4.24it/s] 57%|█████▋    | 3866/6837 [29:03<11:40,  4.24it/s] 57%|█████▋    | 3867/6837 [29:03<11:39,  4.24it/s] 57%|█████▋    | 3868/6837 [29:03<11:39,  4.24it/s] 57%|█████▋    | 3869/6837 [29:04<11:40,  4.24it/s] 57%|█████▋    | 3870/6837 [29:04<11:40,  4.23it/s] 57%|█████▋    | 3871/6837 [29:04<11:39,  4.24it/s] 57%|█████▋    | 3872/6837 [29:04<11:39,  4.24it/s] 57%|█████▋    | 3873/6837 [29:05<11:39,  4.24it/s] 57%|█████▋    | 3874/6837 [29:05<11:39,  4.24it/s] 57%|█████▋    | 3875/6837 [29:05<11:38,  4.24it/s]                                                   {'loss': 4.4324, 'grad_norm': 0.1498245745897293, 'learning_rate': 0.0028247159949775684, 'epoch': 0.11}
 57%|█████▋    | 3875/6837 [29:05<11:38,  4.24it/s] 57%|█████▋    | 3876/6837 [29:05<11:39,  4.23it/s] 57%|█████▋    | 3877/6837 [29:06<11:38,  4.24it/s] 57%|█████▋    | 3878/6837 [29:06<11:39,  4.23it/s] 57%|█████▋    | 3879/6837 [29:06<11:40,  4.22it/s] 57%|█████▋    | 3880/6837 [29:06<11:39,  4.23it/s] 57%|█████▋    | 3881/6837 [29:07<11:38,  4.23it/s] 57%|█████▋    | 3882/6837 [29:07<11:37,  4.24it/s] 57%|█████▋    | 3883/6837 [29:07<11:38,  4.23it/s] 57%|█████▋    | 3884/6837 [29:07<11:38,  4.23it/s] 57%|█████▋    | 3885/6837 [29:07<11:37,  4.23it/s] 57%|█████▋    | 3886/6837 [29:08<11:39,  4.22it/s] 57%|█████▋    | 3887/6837 [29:08<11:37,  4.23it/s] 57%|█████▋    | 3888/6837 [29:08<11:37,  4.23it/s] 57%|█████▋    | 3889/6837 [29:08<11:35,  4.24it/s] 57%|█████▋    | 3890/6837 [29:09<11:36,  4.23it/s] 57%|█████▋    | 3891/6837 [29:09<11:34,  4.24it/s] 57%|█████▋    | 3892/6837 [29:09<11:35,  4.24it/s] 57%|█████▋    | 3893/6837 [29:09<11:34,  4.24it/s] 57%|█████▋    | 3894/6837 [29:10<11:34,  4.24it/s] 57%|█████▋    | 3895/6837 [29:10<11:34,  4.24it/s] 57%|█████▋    | 3896/6837 [29:10<11:34,  4.24it/s] 57%|█████▋    | 3897/6837 [29:10<11:34,  4.23it/s] 57%|█████▋    | 3898/6837 [29:11<11:33,  4.24it/s] 57%|█████▋    | 3899/6837 [29:11<11:34,  4.23it/s] 57%|█████▋    | 3900/6837 [29:11<11:33,  4.23it/s]                                                   {'loss': 4.4087, 'grad_norm': 0.15671294927597046, 'learning_rate': 0.0027865033062583556, 'epoch': 0.11}
 57%|█████▋    | 3900/6837 [29:11<11:33,  4.23it/s] 57%|█████▋    | 3901/6837 [29:11<11:35,  4.22it/s] 57%|█████▋    | 3902/6837 [29:12<11:34,  4.23it/s] 57%|█████▋    | 3903/6837 [29:12<11:33,  4.23it/s] 57%|█████▋    | 3904/6837 [29:12<11:34,  4.22it/s] 57%|█████▋    | 3905/6837 [29:12<11:33,  4.23it/s] 57%|█████▋    | 3906/6837 [29:12<11:32,  4.23it/s] 57%|█████▋    | 3907/6837 [29:13<11:30,  4.24it/s] 57%|█████▋    | 3908/6837 [29:13<11:55,  4.09it/s] 57%|█████▋    | 3909/6837 [29:13<11:47,  4.14it/s] 57%|█████▋    | 3910/6837 [29:13<11:41,  4.17it/s] 57%|█████▋    | 3911/6837 [29:14<11:39,  4.19it/s] 57%|█████▋    | 3912/6837 [29:14<11:36,  4.20it/s] 57%|█████▋    | 3913/6837 [29:14<11:35,  4.21it/s] 57%|█████▋    | 3914/6837 [29:14<11:33,  4.22it/s] 57%|█████▋    | 3915/6837 [29:15<11:31,  4.23it/s] 57%|█████▋    | 3916/6837 [29:15<11:30,  4.23it/s] 57%|█████▋    | 3917/6837 [29:15<11:29,  4.23it/s] 57%|█████▋    | 3918/6837 [29:15<11:29,  4.23it/s] 57%|█████▋    | 3919/6837 [29:16<11:27,  4.24it/s] 57%|█████▋    | 3920/6837 [29:16<11:27,  4.25it/s] 57%|█████▋    | 3921/6837 [29:16<11:27,  4.24it/s] 57%|█████▋    | 3922/6837 [29:16<11:27,  4.24it/s] 57%|█████▋    | 3923/6837 [29:16<11:26,  4.24it/s] 57%|█████▋    | 3924/6837 [29:17<11:26,  4.24it/s] 57%|█████▋    | 3925/6837 [29:17<11:26,  4.24it/s]                                                   {'loss': 4.4142, 'grad_norm': 0.14212249219417572, 'learning_rate': 0.0027483254024736233, 'epoch': 0.11}
 57%|█████▋    | 3925/6837 [29:17<11:26,  4.24it/s] 57%|█████▋    | 3926/6837 [29:17<11:28,  4.23it/s] 57%|█████▋    | 3927/6837 [29:17<11:27,  4.23it/s] 57%|█████▋    | 3928/6837 [29:18<11:26,  4.24it/s] 57%|█████▋    | 3929/6837 [29:18<11:27,  4.23it/s] 57%|█████▋    | 3930/6837 [29:18<11:26,  4.24it/s] 57%|█████▋    | 3931/6837 [29:18<11:25,  4.24it/s] 58%|█████▊    | 3932/6837 [29:19<11:24,  4.24it/s] 58%|█████▊    | 3933/6837 [29:19<11:24,  4.24it/s] 58%|█████▊    | 3934/6837 [29:19<11:25,  4.24it/s] 58%|█████▊    | 3935/6837 [29:19<11:24,  4.24it/s] 58%|█████▊    | 3936/6837 [29:20<11:24,  4.24it/s] 58%|█████▊    | 3937/6837 [29:20<11:24,  4.24it/s] 58%|█████▊    | 3938/6837 [29:20<11:25,  4.23it/s] 58%|█████▊    | 3939/6837 [29:20<11:24,  4.23it/s] 58%|█████▊    | 3940/6837 [29:21<11:23,  4.24it/s] 58%|█████▊    | 3941/6837 [29:21<11:23,  4.24it/s] 58%|█████▊    | 3942/6837 [29:21<11:21,  4.25it/s] 58%|█████▊    | 3943/6837 [29:21<11:21,  4.25it/s] 58%|█████▊    | 3944/6837 [29:21<11:21,  4.25it/s] 58%|█████▊    | 3945/6837 [29:22<11:21,  4.24it/s] 58%|█████▊    | 3946/6837 [29:22<11:21,  4.24it/s] 58%|█████▊    | 3947/6837 [29:22<11:21,  4.24it/s] 58%|█████▊    | 3948/6837 [29:22<11:19,  4.25it/s] 58%|█████▊    | 3949/6837 [29:23<11:19,  4.25it/s] 58%|█████▊    | 3950/6837 [29:23<11:19,  4.25it/s]                                                   {'loss': 4.4155, 'grad_norm': 0.17642661929130554, 'learning_rate': 0.002710188503934603, 'epoch': 0.12}
 58%|█████▊    | 3950/6837 [29:23<11:19,  4.25it/s] 58%|█████▊    | 3951/6837 [29:23<11:22,  4.23it/s] 58%|█████▊    | 3952/6837 [29:23<11:21,  4.23it/s] 58%|█████▊    | 3953/6837 [29:24<11:21,  4.23it/s] 58%|█████▊    | 3954/6837 [29:24<11:23,  4.22it/s] 58%|█████▊    | 3955/6837 [29:24<11:23,  4.22it/s] 58%|█████▊    | 3956/6837 [29:24<11:21,  4.22it/s] 58%|█████▊    | 3957/6837 [29:25<11:21,  4.23it/s] 58%|█████▊    | 3958/6837 [29:25<11:21,  4.23it/s] 58%|█████▊    | 3959/6837 [29:25<11:20,  4.23it/s] 58%|█████▊    | 3960/6837 [29:25<11:20,  4.23it/s] 58%|█████▊    | 3961/6837 [29:25<11:20,  4.23it/s] 58%|█████▊    | 3962/6837 [29:26<11:20,  4.23it/s] 58%|█████▊    | 3963/6837 [29:26<11:19,  4.23it/s] 58%|█████▊    | 3964/6837 [29:26<11:19,  4.23it/s] 58%|█████▊    | 3965/6837 [29:26<11:19,  4.23it/s] 58%|█████▊    | 3966/6837 [29:27<11:18,  4.23it/s] 58%|█████▊    | 3967/6837 [29:27<11:17,  4.23it/s] 58%|█████▊    | 3968/6837 [29:27<11:17,  4.23it/s] 58%|█████▊    | 3969/6837 [29:27<11:18,  4.23it/s] 58%|█████▊    | 3970/6837 [29:28<11:18,  4.23it/s] 58%|█████▊    | 3971/6837 [29:28<11:17,  4.23it/s] 58%|█████▊    | 3972/6837 [29:28<11:18,  4.22it/s] 58%|█████▊    | 3973/6837 [29:28<11:17,  4.23it/s] 58%|█████▊    | 3974/6837 [29:29<11:17,  4.23it/s] 58%|█████▊    | 3975/6837 [29:29<11:16,  4.23it/s]                                                   {'loss': 4.4186, 'grad_norm': 0.16185303032398224, 'learning_rate': 0.002672098824271554, 'epoch': 0.12}
 58%|█████▊    | 3975/6837 [29:29<11:16,  4.23it/s] 58%|█████▊    | 3976/6837 [29:29<11:18,  4.22it/s] 58%|█████▊    | 3977/6837 [29:29<11:16,  4.23it/s] 58%|█████▊    | 3978/6837 [29:29<11:15,  4.23it/s] 58%|█████▊    | 3979/6837 [29:30<11:15,  4.23it/s] 58%|█████▊    | 3980/6837 [29:30<11:15,  4.23it/s] 58%|█████▊    | 3981/6837 [29:30<11:14,  4.23it/s] 58%|█████▊    | 3982/6837 [29:30<11:15,  4.23it/s] 58%|█████▊    | 3983/6837 [29:31<11:16,  4.22it/s] 58%|█████▊    | 3984/6837 [29:31<11:15,  4.23it/s] 58%|█████▊    | 3985/6837 [29:31<11:15,  4.23it/s] 58%|█████▊    | 3986/6837 [29:31<11:14,  4.23it/s] 58%|█████▊    | 3987/6837 [29:32<11:14,  4.23it/s] 58%|█████▊    | 3988/6837 [29:32<11:13,  4.23it/s] 58%|█████▊    | 3989/6837 [29:32<11:13,  4.23it/s] 58%|█████▊    | 3990/6837 [29:32<11:12,  4.23it/s] 58%|█████▊    | 3991/6837 [29:33<11:12,  4.23it/s] 58%|█████▊    | 3992/6837 [29:33<11:11,  4.23it/s] 58%|█████▊    | 3993/6837 [29:33<11:13,  4.23it/s] 58%|█████▊    | 3994/6837 [29:33<11:12,  4.23it/s] 58%|█████▊    | 3995/6837 [29:34<11:11,  4.23it/s] 58%|█████▊    | 3996/6837 [29:34<11:24,  4.15it/s] 58%|█████▊    | 3997/6837 [29:34<11:20,  4.17it/s] 58%|█████▊    | 3998/6837 [29:34<11:17,  4.19it/s] 58%|█████▊    | 3999/6837 [29:34<11:14,  4.21it/s] 59%|█████▊    | 4000/6837 [29:35<11:11,  4.22it/s]                                                   {'loss': 4.4102, 'grad_norm': 0.15099814534187317, 'learning_rate': 0.0026340625694213876, 'epoch': 0.12}
 59%|█████▊    | 4000/6837 [29:35<11:11,  4.22it/s] 59%|█████▊    | 4001/6837 [29:35<11:12,  4.22it/s] 59%|█████▊    | 4002/6837 [29:35<11:11,  4.22it/s] 59%|█████▊    | 4003/6837 [29:35<11:10,  4.23it/s] 59%|█████▊    | 4004/6837 [29:36<11:10,  4.22it/s] 59%|█████▊    | 4005/6837 [29:36<11:09,  4.23it/s] 59%|█████▊    | 4006/6837 [29:36<11:08,  4.23it/s] 59%|█████▊    | 4007/6837 [29:36<11:08,  4.24it/s] 59%|█████▊    | 4008/6837 [29:37<11:07,  4.24it/s] 59%|█████▊    | 4009/6837 [29:37<11:07,  4.24it/s] 59%|█████▊    | 4010/6837 [29:37<11:07,  4.23it/s] 59%|█████▊    | 4011/6837 [29:37<11:08,  4.23it/s] 59%|█████▊    | 4012/6837 [29:38<11:07,  4.23it/s] 59%|█████▊    | 4013/6837 [29:38<11:05,  4.24it/s] 59%|█████▊    | 4014/6837 [29:38<11:06,  4.24it/s] 59%|█████▊    | 4015/6837 [29:38<11:06,  4.24it/s] 59%|█████▊    | 4016/6837 [29:38<11:05,  4.24it/s] 59%|█████▉    | 4017/6837 [29:39<11:04,  4.24it/s] 59%|█████▉    | 4018/6837 [29:39<11:06,  4.23it/s] 59%|█████▉    | 4019/6837 [29:39<11:05,  4.23it/s] 59%|█████▉    | 4020/6837 [29:39<11:05,  4.23it/s] 59%|█████▉    | 4021/6837 [29:40<11:05,  4.23it/s] 59%|█████▉    | 4022/6837 [29:40<11:04,  4.24it/s] 59%|█████▉    | 4023/6837 [29:40<11:04,  4.24it/s] 59%|█████▉    | 4024/6837 [29:40<11:29,  4.08it/s] 59%|█████▉    | 4025/6837 [29:41<11:47,  3.98it/s]                                                   {'loss': 4.4071, 'grad_norm': 0.15153741836547852, 'learning_rate': 0.0025960859366165275, 'epoch': 0.12}
 59%|█████▉    | 4025/6837 [29:41<11:47,  3.98it/s] 59%|█████▉    | 4026/6837 [29:41<11:57,  3.92it/s] 59%|█████▉    | 4027/6837 [29:41<12:04,  3.88it/s] 59%|█████▉    | 4028/6837 [29:41<12:07,  3.86it/s] 59%|█████▉    | 4029/6837 [29:42<11:53,  3.94it/s] 59%|█████▉    | 4030/6837 [29:42<11:38,  4.02it/s] 59%|█████▉    | 4031/6837 [29:42<11:28,  4.07it/s] 59%|█████▉    | 4032/6837 [29:42<11:22,  4.11it/s] 59%|█████▉    | 4033/6837 [29:43<11:16,  4.15it/s] 59%|█████▉    | 4034/6837 [29:43<11:32,  4.05it/s] 59%|█████▉    | 4035/6837 [29:43<11:49,  3.95it/s] 59%|█████▉    | 4036/6837 [29:43<12:00,  3.89it/s] 59%|█████▉    | 4037/6837 [29:44<12:03,  3.87it/s] 59%|█████▉    | 4038/6837 [29:44<12:07,  3.85it/s] 59%|█████▉    | 4039/6837 [29:44<12:10,  3.83it/s] 59%|█████▉    | 4040/6837 [29:44<11:49,  3.94it/s] 59%|█████▉    | 4041/6837 [29:45<11:33,  4.03it/s] 59%|█████▉    | 4042/6837 [29:45<11:23,  4.09it/s] 59%|█████▉    | 4043/6837 [29:45<11:15,  4.13it/s] 59%|█████▉    | 4044/6837 [29:45<11:10,  4.17it/s] 59%|█████▉    | 4045/6837 [29:46<11:07,  4.18it/s] 59%|█████▉    | 4046/6837 [29:46<11:04,  4.20it/s] 59%|█████▉    | 4047/6837 [29:46<11:02,  4.21it/s] 59%|█████▉    | 4048/6837 [29:46<11:01,  4.21it/s] 59%|█████▉    | 4049/6837 [29:47<11:02,  4.21it/s] 59%|█████▉    | 4050/6837 [29:47<11:00,  4.22it/s]                                                   {'loss': 4.4103, 'grad_norm': 0.1720927506685257, 'learning_rate': 0.002558175113375197, 'epoch': 0.12}
 59%|█████▉    | 4050/6837 [29:47<11:00,  4.22it/s] 59%|█████▉    | 4051/6837 [29:47<11:02,  4.21it/s] 59%|█████▉    | 4052/6837 [29:47<11:01,  4.21it/s] 59%|█████▉    | 4053/6837 [29:48<11:00,  4.21it/s] 59%|█████▉    | 4054/6837 [29:48<10:59,  4.22it/s] 59%|█████▉    | 4055/6837 [29:48<10:59,  4.22it/s] 59%|█████▉    | 4056/6837 [29:48<10:59,  4.21it/s] 59%|█████▉    | 4057/6837 [29:48<10:59,  4.21it/s] 59%|█████▉    | 4058/6837 [29:49<10:57,  4.22it/s] 59%|█████▉    | 4059/6837 [29:49<10:58,  4.22it/s] 59%|█████▉    | 4060/6837 [29:49<10:58,  4.22it/s] 59%|█████▉    | 4061/6837 [29:49<10:58,  4.22it/s] 59%|█████▉    | 4062/6837 [29:50<10:56,  4.22it/s] 59%|█████▉    | 4063/6837 [29:50<10:55,  4.23it/s] 59%|█████▉    | 4064/6837 [29:50<10:54,  4.23it/s] 59%|█████▉    | 4065/6837 [29:50<10:54,  4.24it/s] 59%|█████▉    | 4066/6837 [29:51<10:54,  4.24it/s] 59%|█████▉    | 4067/6837 [29:51<10:53,  4.24it/s] 59%|█████▉    | 4068/6837 [29:51<10:52,  4.24it/s] 60%|█████▉    | 4069/6837 [29:51<10:51,  4.25it/s] 60%|█████▉    | 4070/6837 [29:52<10:52,  4.24it/s] 60%|█████▉    | 4071/6837 [29:52<10:52,  4.24it/s] 60%|█████▉    | 4072/6837 [29:52<10:52,  4.24it/s] 60%|█████▉    | 4073/6837 [29:52<10:52,  4.24it/s] 60%|█████▉    | 4074/6837 [29:53<10:52,  4.23it/s] 60%|█████▉    | 4075/6837 [29:53<10:51,  4.24it/s]                                                   {'loss': 4.403, 'grad_norm': 0.1552221029996872, 'learning_rate': 0.0025203362764932994, 'epoch': 0.12}
 60%|█████▉    | 4075/6837 [29:53<10:51,  4.24it/s] 60%|█████▉    | 4076/6837 [29:53<10:53,  4.22it/s] 60%|█████▉    | 4077/6837 [29:53<10:52,  4.23it/s] 60%|█████▉    | 4078/6837 [29:53<10:52,  4.23it/s] 60%|█████▉    | 4079/6837 [29:54<10:51,  4.23it/s] 60%|█████▉    | 4080/6837 [29:54<10:50,  4.24it/s] 60%|█████▉    | 4081/6837 [29:54<10:51,  4.23it/s] 60%|█████▉    | 4082/6837 [29:54<10:51,  4.23it/s] 60%|█████▉    | 4083/6837 [29:55<10:50,  4.24it/s] 60%|█████▉    | 4084/6837 [29:55<10:49,  4.24it/s] 60%|█████▉    | 4085/6837 [29:55<10:49,  4.24it/s] 60%|█████▉    | 4086/6837 [29:55<10:48,  4.24it/s] 60%|█████▉    | 4087/6837 [29:56<10:47,  4.25it/s] 60%|█████▉    | 4088/6837 [29:56<10:48,  4.24it/s] 60%|█████▉    | 4089/6837 [29:56<10:47,  4.24it/s] 60%|█████▉    | 4090/6837 [29:56<10:47,  4.24it/s] 60%|█████▉    | 4091/6837 [29:57<10:47,  4.24it/s] 60%|█████▉    | 4092/6837 [29:57<10:48,  4.24it/s] 60%|█████▉    | 4093/6837 [29:57<10:47,  4.24it/s] 60%|█████▉    | 4094/6837 [29:57<10:47,  4.24it/s] 60%|█████▉    | 4095/6837 [29:57<10:46,  4.24it/s] 60%|█████▉    | 4096/6837 [29:58<10:46,  4.24it/s] 60%|█████▉    | 4097/6837 [29:58<10:46,  4.24it/s] 60%|█████▉    | 4098/6837 [29:58<10:46,  4.24it/s] 60%|█████▉    | 4099/6837 [29:58<10:47,  4.23it/s] 60%|█████▉    | 4100/6837 [29:59<10:47,  4.23it/s]                                                   {'loss': 4.4132, 'grad_norm': 0.14017847180366516, 'learning_rate': 0.002482575591038024, 'epoch': 0.12}
 60%|█████▉    | 4100/6837 [29:59<10:47,  4.23it/s] 60%|█████▉    | 4101/6837 [29:59<10:48,  4.22it/s] 60%|█████▉    | 4102/6837 [29:59<10:48,  4.22it/s] 60%|██████    | 4103/6837 [29:59<10:47,  4.22it/s] 60%|██████    | 4104/6837 [30:00<10:47,  4.22it/s] 60%|██████    | 4105/6837 [30:00<10:47,  4.22it/s] 60%|██████    | 4106/6837 [30:00<10:46,  4.23it/s] 60%|██████    | 4107/6837 [30:00<10:46,  4.23it/s] 60%|██████    | 4108/6837 [30:01<10:46,  4.22it/s] 60%|██████    | 4109/6837 [30:01<10:46,  4.22it/s] 60%|██████    | 4110/6837 [30:01<10:46,  4.22it/s] 60%|██████    | 4111/6837 [30:01<10:43,  4.23it/s] 60%|██████    | 4112/6837 [30:01<10:43,  4.23it/s] 60%|██████    | 4113/6837 [30:02<10:42,  4.24it/s] 60%|██████    | 4114/6837 [30:02<10:42,  4.24it/s] 60%|██████    | 4115/6837 [30:02<10:41,  4.24it/s] 60%|██████    | 4116/6837 [30:02<10:41,  4.24it/s] 60%|██████    | 4117/6837 [30:03<10:42,  4.24it/s] 60%|██████    | 4118/6837 [30:03<10:42,  4.23it/s] 60%|██████    | 4119/6837 [30:03<10:41,  4.24it/s] 60%|██████    | 4120/6837 [30:03<10:41,  4.23it/s] 60%|██████    | 4121/6837 [30:04<10:40,  4.24it/s] 60%|██████    | 4122/6837 [30:04<11:03,  4.09it/s] 60%|██████    | 4123/6837 [30:04<11:19,  3.99it/s] 60%|██████    | 4124/6837 [30:04<11:27,  3.95it/s] 60%|██████    | 4125/6837 [30:05<11:22,  3.97it/s]                                                   {'loss': 4.3988, 'grad_norm': 0.15832413733005524, 'learning_rate': 0.002444899209343379, 'epoch': 0.12}
 60%|██████    | 4125/6837 [30:05<11:22,  3.97it/s] 60%|██████    | 4126/6837 [30:05<11:11,  4.04it/s] 60%|██████    | 4127/6837 [30:05<11:01,  4.10it/s] 60%|██████    | 4128/6837 [30:05<10:55,  4.13it/s] 60%|██████    | 4129/6837 [30:06<10:50,  4.16it/s] 60%|██████    | 4130/6837 [30:06<10:48,  4.17it/s] 60%|██████    | 4131/6837 [30:06<10:45,  4.19it/s] 60%|██████    | 4132/6837 [30:06<10:42,  4.21it/s] 60%|██████    | 4133/6837 [30:07<10:40,  4.22it/s] 60%|██████    | 4134/6837 [30:07<10:39,  4.23it/s] 60%|██████    | 4135/6837 [30:07<10:39,  4.23it/s] 60%|██████    | 4136/6837 [30:07<10:38,  4.23it/s] 61%|██████    | 4137/6837 [30:07<10:37,  4.23it/s] 61%|██████    | 4138/6837 [30:08<10:38,  4.23it/s] 61%|██████    | 4139/6837 [30:08<10:37,  4.23it/s] 61%|██████    | 4140/6837 [30:08<10:36,  4.24it/s] 61%|██████    | 4141/6837 [30:08<10:36,  4.24it/s] 61%|██████    | 4142/6837 [30:09<10:35,  4.24it/s] 61%|██████    | 4143/6837 [30:09<10:35,  4.24it/s] 61%|██████    | 4144/6837 [30:09<10:35,  4.24it/s] 61%|██████    | 4145/6837 [30:09<10:35,  4.23it/s] 61%|██████    | 4146/6837 [30:10<10:35,  4.23it/s] 61%|██████    | 4147/6837 [30:10<10:35,  4.23it/s] 61%|██████    | 4148/6837 [30:10<10:35,  4.23it/s] 61%|██████    | 4149/6837 [30:10<10:34,  4.24it/s] 61%|██████    | 4150/6837 [30:11<10:33,  4.24it/s]                                                   {'loss': 4.3935, 'grad_norm': 0.1576928049325943, 'learning_rate': 0.0024073132700077916, 'epoch': 0.12}
 61%|██████    | 4150/6837 [30:11<10:33,  4.24it/s] 61%|██████    | 4151/6837 [30:11<10:34,  4.23it/s] 61%|██████    | 4152/6837 [30:11<10:33,  4.24it/s] 61%|██████    | 4153/6837 [30:11<10:33,  4.24it/s] 61%|██████    | 4154/6837 [30:11<10:33,  4.24it/s] 61%|██████    | 4155/6837 [30:12<10:32,  4.24it/s] 61%|██████    | 4156/6837 [30:12<10:33,  4.23it/s] 61%|██████    | 4157/6837 [30:12<10:34,  4.23it/s] 61%|██████    | 4158/6837 [30:12<10:34,  4.22it/s] 61%|██████    | 4159/6837 [30:13<10:33,  4.23it/s] 61%|██████    | 4160/6837 [30:13<10:55,  4.08it/s] 61%|██████    | 4161/6837 [30:13<10:48,  4.12it/s] 61%|██████    | 4162/6837 [30:13<10:43,  4.16it/s] 61%|██████    | 4163/6837 [30:14<10:40,  4.18it/s] 61%|██████    | 4164/6837 [30:14<10:36,  4.20it/s] 61%|██████    | 4165/6837 [30:14<10:34,  4.21it/s] 61%|██████    | 4166/6837 [30:14<10:32,  4.22it/s] 61%|██████    | 4167/6837 [30:15<10:32,  4.22it/s] 61%|██████    | 4168/6837 [30:15<10:31,  4.23it/s] 61%|██████    | 4169/6837 [30:15<10:30,  4.23it/s] 61%|██████    | 4170/6837 [30:15<10:29,  4.23it/s] 61%|██████    | 4171/6837 [30:16<10:29,  4.24it/s] 61%|██████    | 4172/6837 [30:16<10:29,  4.24it/s] 61%|██████    | 4173/6837 [30:16<10:28,  4.24it/s] 61%|██████    | 4174/6837 [30:16<10:29,  4.23it/s] 61%|██████    | 4175/6837 [30:16<10:29,  4.23it/s]                                                   {'loss': 4.4187, 'grad_norm': 0.18703840672969818, 'learning_rate': 0.002369823896893955, 'epoch': 0.12}
 61%|██████    | 4175/6837 [30:16<10:29,  4.23it/s] 61%|██████    | 4176/6837 [30:17<10:30,  4.22it/s] 61%|██████    | 4177/6837 [30:17<10:29,  4.23it/s] 61%|██████    | 4178/6837 [30:17<10:28,  4.23it/s] 61%|██████    | 4179/6837 [30:17<10:27,  4.23it/s] 61%|██████    | 4180/6837 [30:18<10:28,  4.23it/s] 61%|██████    | 4181/6837 [30:18<10:27,  4.23it/s] 61%|██████    | 4182/6837 [30:18<10:27,  4.23it/s] 61%|██████    | 4183/6837 [30:18<10:27,  4.23it/s] 61%|██████    | 4184/6837 [30:19<10:28,  4.22it/s] 61%|██████    | 4185/6837 [30:19<10:27,  4.23it/s] 61%|██████    | 4186/6837 [30:19<10:26,  4.23it/s] 61%|██████    | 4187/6837 [30:19<10:26,  4.23it/s] 61%|██████▏   | 4188/6837 [30:20<10:26,  4.23it/s] 61%|██████▏   | 4189/6837 [30:20<10:24,  4.24it/s] 61%|██████▏   | 4190/6837 [30:20<10:24,  4.24it/s] 61%|██████▏   | 4191/6837 [30:20<10:24,  4.24it/s] 61%|██████▏   | 4192/6837 [30:20<10:25,  4.23it/s] 61%|██████▏   | 4193/6837 [30:21<10:24,  4.23it/s] 61%|██████▏   | 4194/6837 [30:21<10:24,  4.23it/s] 61%|██████▏   | 4195/6837 [30:21<10:24,  4.23it/s] 61%|██████▏   | 4196/6837 [30:21<10:24,  4.23it/s] 61%|██████▏   | 4197/6837 [30:22<10:24,  4.23it/s] 61%|██████▏   | 4198/6837 [30:22<10:24,  4.23it/s] 61%|██████▏   | 4199/6837 [30:22<10:24,  4.22it/s] 61%|██████▏   | 4200/6837 [30:22<10:24,  4.22it/s]                                                   {'loss': 4.4002, 'grad_norm': 0.15781816840171814, 'learning_rate': 0.002332437198131057, 'epoch': 0.12}
 61%|██████▏   | 4200/6837 [30:22<10:24,  4.22it/s] 61%|██████▏   | 4201/6837 [30:23<10:25,  4.22it/s] 61%|██████▏   | 4202/6837 [30:23<10:25,  4.21it/s] 61%|██████▏   | 4203/6837 [30:23<10:24,  4.22it/s] 61%|██████▏   | 4204/6837 [30:23<10:24,  4.22it/s] 62%|██████▏   | 4205/6837 [30:24<10:24,  4.22it/s] 62%|██████▏   | 4206/6837 [30:24<10:24,  4.21it/s] 62%|██████▏   | 4207/6837 [30:24<10:23,  4.22it/s] 62%|██████▏   | 4208/6837 [30:24<10:23,  4.22it/s] 62%|██████▏   | 4209/6837 [30:25<10:23,  4.21it/s] 62%|██████▏   | 4210/6837 [30:25<10:22,  4.22it/s] 62%|██████▏   | 4211/6837 [30:25<10:21,  4.22it/s] 62%|██████▏   | 4212/6837 [30:25<10:21,  4.23it/s] 62%|██████▏   | 4213/6837 [30:25<10:20,  4.23it/s] 62%|██████▏   | 4214/6837 [30:26<10:19,  4.24it/s] 62%|██████▏   | 4215/6837 [30:26<10:18,  4.24it/s] 62%|██████▏   | 4216/6837 [30:26<10:18,  4.24it/s] 62%|██████▏   | 4217/6837 [30:26<10:19,  4.23it/s] 62%|██████▏   | 4218/6837 [30:27<10:19,  4.23it/s] 62%|██████▏   | 4219/6837 [30:27<10:18,  4.23it/s] 62%|██████▏   | 4220/6837 [30:27<10:18,  4.23it/s] 62%|██████▏   | 4221/6837 [30:27<10:17,  4.23it/s] 62%|██████▏   | 4222/6837 [30:28<10:17,  4.23it/s] 62%|██████▏   | 4223/6837 [30:28<10:17,  4.23it/s] 62%|██████▏   | 4224/6837 [30:28<10:17,  4.23it/s] 62%|██████▏   | 4225/6837 [30:28<10:16,  4.23it/s]                                                   {'loss': 4.3962, 'grad_norm': 0.15633727610111237, 'learning_rate': 0.0022951592651196, 'epoch': 0.12}
 62%|██████▏   | 4225/6837 [30:28<10:16,  4.23it/s] 62%|██████▏   | 4226/6837 [30:29<10:19,  4.22it/s] 62%|██████▏   | 4227/6837 [30:29<10:18,  4.22it/s] 62%|██████▏   | 4228/6837 [30:29<10:17,  4.23it/s] 62%|██████▏   | 4229/6837 [30:29<10:16,  4.23it/s] 62%|██████▏   | 4230/6837 [30:29<10:16,  4.23it/s] 62%|██████▏   | 4231/6837 [30:30<10:16,  4.23it/s] 62%|██████▏   | 4232/6837 [30:30<10:14,  4.24it/s] 62%|██████▏   | 4233/6837 [30:30<10:14,  4.24it/s] 62%|██████▏   | 4234/6837 [30:30<10:14,  4.23it/s] 62%|██████▏   | 4235/6837 [30:31<10:14,  4.23it/s] 62%|██████▏   | 4236/6837 [30:31<10:14,  4.24it/s] 62%|██████▏   | 4237/6837 [30:31<10:13,  4.23it/s] 62%|██████▏   | 4238/6837 [30:31<10:13,  4.23it/s] 62%|██████▏   | 4239/6837 [30:32<10:13,  4.23it/s] 62%|██████▏   | 4240/6837 [30:32<10:13,  4.23it/s] 62%|██████▏   | 4241/6837 [30:32<10:13,  4.23it/s] 62%|██████▏   | 4242/6837 [30:32<10:12,  4.24it/s] 62%|██████▏   | 4243/6837 [30:33<10:11,  4.24it/s] 62%|██████▏   | 4244/6837 [30:33<10:11,  4.24it/s] 62%|██████▏   | 4245/6837 [30:33<10:12,  4.23it/s] 62%|██████▏   | 4246/6837 [30:33<10:11,  4.23it/s] 62%|██████▏   | 4247/6837 [30:34<10:11,  4.24it/s] 62%|██████▏   | 4248/6837 [30:34<10:12,  4.23it/s] 62%|██████▏   | 4249/6837 [30:34<10:11,  4.23it/s] 62%|██████▏   | 4250/6837 [30:34<10:11,  4.23it/s]                                                   {'loss': 4.3871, 'grad_norm': 0.1562398374080658, 'learning_rate': 0.002257996171538921, 'epoch': 0.12}
 62%|██████▏   | 4250/6837 [30:34<10:11,  4.23it/s] 62%|██████▏   | 4251/6837 [30:34<10:13,  4.22it/s] 62%|██████▏   | 4252/6837 [30:35<10:12,  4.22it/s] 62%|██████▏   | 4253/6837 [30:35<10:11,  4.22it/s] 62%|██████▏   | 4254/6837 [30:35<10:11,  4.23it/s] 62%|██████▏   | 4255/6837 [30:35<10:10,  4.23it/s] 62%|██████▏   | 4256/6837 [30:36<10:09,  4.24it/s] 62%|██████▏   | 4257/6837 [30:36<10:08,  4.24it/s] 62%|██████▏   | 4258/6837 [30:36<10:10,  4.22it/s] 62%|██████▏   | 4259/6837 [30:36<10:13,  4.20it/s] 62%|██████▏   | 4260/6837 [30:37<10:14,  4.19it/s] 62%|██████▏   | 4261/6837 [30:37<10:13,  4.20it/s] 62%|██████▏   | 4262/6837 [30:37<10:11,  4.21it/s] 62%|██████▏   | 4263/6837 [30:37<10:10,  4.22it/s] 62%|██████▏   | 4264/6837 [30:38<10:08,  4.23it/s] 62%|██████▏   | 4265/6837 [30:38<10:08,  4.23it/s] 62%|██████▏   | 4266/6837 [30:38<10:07,  4.23it/s] 62%|██████▏   | 4267/6837 [30:38<10:07,  4.23it/s] 62%|██████▏   | 4268/6837 [30:38<10:06,  4.24it/s] 62%|██████▏   | 4269/6837 [30:39<10:06,  4.24it/s] 62%|██████▏   | 4270/6837 [30:39<10:05,  4.24it/s] 62%|██████▏   | 4271/6837 [30:39<10:05,  4.24it/s] 62%|██████▏   | 4272/6837 [30:39<10:04,  4.24it/s] 62%|██████▏   | 4273/6837 [30:40<10:05,  4.23it/s] 63%|██████▎   | 4274/6837 [30:40<10:04,  4.24it/s] 63%|██████▎   | 4275/6837 [30:40<10:04,  4.24it/s]                                                   {'loss': 4.393, 'grad_norm': 0.14862550795078278, 'learning_rate': 0.0022209539723576123, 'epoch': 0.13}
 63%|██████▎   | 4275/6837 [30:40<10:04,  4.24it/s] 63%|██████▎   | 4276/6837 [30:40<10:05,  4.23it/s] 63%|██████▎   | 4277/6837 [30:41<10:04,  4.23it/s] 63%|██████▎   | 4278/6837 [30:41<10:04,  4.24it/s] 63%|██████▎   | 4279/6837 [30:41<10:03,  4.24it/s] 63%|██████▎   | 4280/6837 [30:41<10:03,  4.24it/s] 63%|██████▎   | 4281/6837 [30:42<10:02,  4.24it/s] 63%|██████▎   | 4282/6837 [30:42<10:01,  4.24it/s] 63%|██████▎   | 4283/6837 [30:42<10:01,  4.25it/s] 63%|██████▎   | 4284/6837 [30:42<10:02,  4.24it/s] 63%|██████▎   | 4285/6837 [30:43<10:26,  4.07it/s] 63%|██████▎   | 4286/6837 [30:43<10:41,  3.98it/s] 63%|██████▎   | 4287/6837 [30:43<10:53,  3.90it/s] 63%|██████▎   | 4288/6837 [30:43<10:56,  3.88it/s] 63%|██████▎   | 4289/6837 [30:44<10:49,  3.92it/s] 63%|██████▎   | 4290/6837 [30:44<10:37,  4.00it/s] 63%|██████▎   | 4291/6837 [30:44<10:27,  4.06it/s] 63%|██████▎   | 4292/6837 [30:44<10:25,  4.07it/s] 63%|██████▎   | 4293/6837 [30:45<10:18,  4.11it/s] 63%|██████▎   | 4294/6837 [30:45<10:14,  4.14it/s] 63%|██████▎   | 4295/6837 [30:45<10:10,  4.16it/s] 63%|██████▎   | 4296/6837 [30:45<10:07,  4.18it/s] 63%|██████▎   | 4297/6837 [30:45<10:05,  4.19it/s] 63%|██████▎   | 4298/6837 [30:46<10:04,  4.20it/s] 63%|██████▎   | 4299/6837 [30:46<10:03,  4.20it/s] 63%|██████▎   | 4300/6837 [30:46<10:02,  4.21it/s]{'loss': 4.3904, 'grad_norm': 0.14203400909900665, 'learning_rate': 0.0021840387028469886, 'epoch': 0.13}                                                   
 63%|██████▎   | 4300/6837 [30:46<10:02,  4.21it/s] 63%|██████▎   | 4301/6837 [30:46<10:04,  4.20it/s] 63%|██████▎   | 4302/6837 [30:47<10:03,  4.20it/s] 63%|██████▎   | 4303/6837 [30:47<10:02,  4.21it/s] 63%|██████▎   | 4304/6837 [30:47<10:01,  4.21it/s] 63%|██████▎   | 4305/6837 [30:47<10:00,  4.22it/s] 63%|██████▎   | 4306/6837 [30:48<09:58,  4.23it/s] 63%|██████▎   | 4307/6837 [30:48<09:58,  4.23it/s] 63%|██████▎   | 4308/6837 [30:48<09:59,  4.22it/s] 63%|██████▎   | 4309/6837 [30:48<09:58,  4.23it/s] 63%|██████▎   | 4310/6837 [30:49<09:57,  4.23it/s] 63%|██████▎   | 4311/6837 [30:49<09:57,  4.23it/s] 63%|██████▎   | 4312/6837 [30:49<09:57,  4.22it/s] 63%|██████▎   | 4313/6837 [30:49<09:57,  4.23it/s] 63%|██████▎   | 4314/6837 [30:49<09:56,  4.23it/s] 63%|██████▎   | 4315/6837 [30:50<09:56,  4.23it/s] 63%|██████▎   | 4316/6837 [30:50<09:55,  4.23it/s] 63%|██████▎   | 4317/6837 [30:50<09:56,  4.23it/s] 63%|██████▎   | 4318/6837 [30:50<09:55,  4.23it/s] 63%|██████▎   | 4319/6837 [30:51<09:55,  4.23it/s] 63%|██████▎   | 4320/6837 [30:51<09:54,  4.23it/s] 63%|██████▎   | 4321/6837 [30:51<09:54,  4.23it/s] 63%|██████▎   | 4322/6837 [30:51<09:54,  4.23it/s] 63%|██████▎   | 4323/6837 [30:52<09:54,  4.23it/s] 63%|██████▎   | 4324/6837 [30:52<09:54,  4.23it/s] 63%|██████▎   | 4325/6837 [30:52<09:54,  4.23it/s]                                                   {'loss': 4.3732, 'grad_norm': 0.1431817263364792, 'learning_rate': 0.002147256377597765, 'epoch': 0.13}
 63%|██████▎   | 4325/6837 [30:52<09:54,  4.23it/s] 63%|██████▎   | 4326/6837 [30:52<09:56,  4.21it/s] 63%|██████▎   | 4327/6837 [30:53<09:55,  4.21it/s] 63%|██████▎   | 4328/6837 [30:53<09:55,  4.21it/s] 63%|██████▎   | 4329/6837 [30:53<09:54,  4.22it/s] 63%|██████▎   | 4330/6837 [30:53<09:54,  4.22it/s] 63%|██████▎   | 4331/6837 [30:54<09:53,  4.22it/s] 63%|██████▎   | 4332/6837 [30:54<09:53,  4.22it/s] 63%|██████▎   | 4333/6837 [30:54<09:55,  4.21it/s] 63%|██████▎   | 4334/6837 [30:54<09:54,  4.21it/s] 63%|██████▎   | 4335/6837 [30:54<09:53,  4.22it/s] 63%|██████▎   | 4336/6837 [30:55<09:53,  4.22it/s] 63%|██████▎   | 4337/6837 [30:55<09:52,  4.22it/s] 63%|██████▎   | 4338/6837 [30:55<09:52,  4.22it/s] 63%|██████▎   | 4339/6837 [30:55<09:51,  4.23it/s] 63%|██████▎   | 4340/6837 [30:56<09:50,  4.23it/s] 63%|██████▎   | 4341/6837 [30:56<09:49,  4.23it/s] 64%|██████▎   | 4342/6837 [30:56<09:54,  4.19it/s] 64%|██████▎   | 4343/6837 [30:56<09:53,  4.20it/s] 64%|██████▎   | 4344/6837 [30:57<09:52,  4.21it/s] 64%|██████▎   | 4345/6837 [30:57<09:51,  4.21it/s] 64%|██████▎   | 4346/6837 [30:57<09:50,  4.22it/s] 64%|██████▎   | 4347/6837 [30:57<09:49,  4.23it/s] 64%|██████▎   | 4348/6837 [30:58<09:48,  4.23it/s] 64%|██████▎   | 4349/6837 [30:58<09:48,  4.23it/s] 64%|██████▎   | 4350/6837 [30:58<09:48,  4.22it/s]                                                   {'loss': 4.3774, 'grad_norm': 0.14435188472270966, 'learning_rate': 0.002110612989540092, 'epoch': 0.13}
 64%|██████▎   | 4350/6837 [30:58<09:48,  4.22it/s] 64%|██████▎   | 4351/6837 [30:58<09:52,  4.19it/s] 64%|██████▎   | 4352/6837 [30:59<09:52,  4.19it/s] 64%|██████▎   | 4353/6837 [30:59<09:51,  4.20it/s] 64%|██████▎   | 4354/6837 [30:59<09:50,  4.20it/s] 64%|██████▎   | 4355/6837 [30:59<09:49,  4.21it/s] 64%|██████▎   | 4356/6837 [30:59<09:48,  4.22it/s] 64%|██████▎   | 4357/6837 [31:00<09:47,  4.22it/s] 64%|██████▎   | 4358/6837 [31:00<09:47,  4.22it/s] 64%|██████▍   | 4359/6837 [31:00<09:47,  4.22it/s] 64%|██████▍   | 4360/6837 [31:00<09:46,  4.22it/s] 64%|██████▍   | 4361/6837 [31:01<10:05,  4.09it/s] 64%|██████▍   | 4362/6837 [31:01<10:19,  3.99it/s] 64%|██████▍   | 4363/6837 [31:01<10:30,  3.92it/s] 64%|██████▍   | 4364/6837 [31:01<10:38,  3.88it/s] 64%|██████▍   | 4365/6837 [31:02<10:26,  3.95it/s] 64%|██████▍   | 4366/6837 [31:02<10:12,  4.03it/s] 64%|██████▍   | 4367/6837 [31:02<10:03,  4.09it/s] 64%|██████▍   | 4368/6837 [31:02<09:57,  4.14it/s] 64%|██████▍   | 4369/6837 [31:03<09:52,  4.17it/s] 64%|██████▍   | 4370/6837 [31:03<09:48,  4.19it/s] 64%|██████▍   | 4371/6837 [31:03<09:46,  4.20it/s] 64%|██████▍   | 4372/6837 [31:03<09:45,  4.21it/s] 64%|██████▍   | 4373/6837 [31:04<09:44,  4.21it/s] 64%|██████▍   | 4374/6837 [31:04<09:43,  4.22it/s] 64%|██████▍   | 4375/6837 [31:04<09:45,  4.21it/s]                                                   {'loss': 4.3858, 'grad_norm': 0.1456858515739441, 'learning_rate': 0.002074114508967142, 'epoch': 0.13}
 64%|██████▍   | 4375/6837 [31:04<09:45,  4.21it/s] 64%|██████▍   | 4376/6837 [31:04<09:45,  4.20it/s] 64%|██████▍   | 4377/6837 [31:05<09:44,  4.21it/s] 64%|██████▍   | 4378/6837 [31:05<09:44,  4.21it/s] 64%|██████▍   | 4379/6837 [31:05<09:43,  4.21it/s] 64%|██████▍   | 4380/6837 [31:05<09:42,  4.22it/s] 64%|██████▍   | 4381/6837 [31:05<09:42,  4.21it/s] 64%|██████▍   | 4382/6837 [31:06<09:44,  4.20it/s] 64%|██████▍   | 4383/6837 [31:06<09:43,  4.20it/s] 64%|██████▍   | 4384/6837 [31:06<09:42,  4.21it/s] 64%|██████▍   | 4385/6837 [31:06<09:42,  4.21it/s] 64%|██████▍   | 4386/6837 [31:07<09:42,  4.21it/s] 64%|██████▍   | 4387/6837 [31:07<09:41,  4.22it/s] 64%|██████▍   | 4388/6837 [31:07<09:40,  4.22it/s] 64%|██████▍   | 4389/6837 [31:07<09:40,  4.21it/s] 64%|██████▍   | 4390/6837 [31:08<09:40,  4.21it/s] 64%|██████▍   | 4391/6837 [31:08<09:39,  4.22it/s] 64%|██████▍   | 4392/6837 [31:08<09:39,  4.22it/s] 64%|██████▍   | 4393/6837 [31:08<09:38,  4.22it/s] 64%|██████▍   | 4394/6837 [31:09<09:37,  4.23it/s] 64%|██████▍   | 4395/6837 [31:09<09:36,  4.23it/s] 64%|██████▍   | 4396/6837 [31:09<09:37,  4.23it/s] 64%|██████▍   | 4397/6837 [31:09<09:36,  4.23it/s] 64%|██████▍   | 4398/6837 [31:10<09:36,  4.23it/s] 64%|██████▍   | 4399/6837 [31:10<09:35,  4.24it/s] 64%|██████▍   | 4400/6837 [31:10<09:35,  4.24it/s]                                                   {'loss': 4.3873, 'grad_norm': 0.21040885150432587, 'learning_rate': 0.0020377668825623673, 'epoch': 0.13}
 64%|██████▍   | 4400/6837 [31:10<09:35,  4.24it/s] 64%|██████▍   | 4401/6837 [31:10<09:36,  4.23it/s] 64%|██████▍   | 4402/6837 [31:10<09:35,  4.23it/s] 64%|██████▍   | 4403/6837 [31:11<09:34,  4.24it/s] 64%|██████▍   | 4404/6837 [31:11<09:34,  4.24it/s] 64%|██████▍   | 4405/6837 [31:11<09:33,  4.24it/s] 64%|██████▍   | 4406/6837 [31:11<09:33,  4.24it/s] 64%|██████▍   | 4407/6837 [31:12<09:33,  4.23it/s] 64%|██████▍   | 4408/6837 [31:12<09:33,  4.24it/s] 64%|██████▍   | 4409/6837 [31:12<09:32,  4.24it/s] 65%|██████▍   | 4410/6837 [31:12<09:31,  4.24it/s] 65%|██████▍   | 4411/6837 [31:13<09:31,  4.24it/s] 65%|██████▍   | 4412/6837 [31:13<09:52,  4.10it/s] 65%|██████▍   | 4413/6837 [31:13<10:06,  4.00it/s] 65%|██████▍   | 4414/6837 [31:13<10:22,  3.90it/s] 65%|██████▍   | 4415/6837 [31:14<10:25,  3.87it/s] 65%|██████▍   | 4416/6837 [31:14<10:29,  3.85it/s] 65%|██████▍   | 4417/6837 [31:14<10:33,  3.82it/s] 65%|██████▍   | 4418/6837 [31:14<10:36,  3.80it/s] 65%|██████▍   | 4419/6837 [31:15<10:35,  3.81it/s] 65%|██████▍   | 4420/6837 [31:15<10:35,  3.81it/s] 65%|██████▍   | 4421/6837 [31:15<10:39,  3.78it/s] 65%|██████▍   | 4422/6837 [31:15<10:37,  3.79it/s] 65%|██████▍   | 4423/6837 [31:16<10:37,  3.79it/s] 65%|██████▍   | 4424/6837 [31:16<10:27,  3.85it/s] 65%|██████▍   | 4425/6837 [31:16<10:10,  3.95it/s]                                                   {'loss': 4.3753, 'grad_norm': 0.15731613337993622, 'learning_rate': 0.0020015760324306048, 'epoch': 0.13}
 65%|██████▍   | 4425/6837 [31:16<10:10,  3.95it/s] 65%|██████▍   | 4426/6837 [31:16<10:00,  4.02it/s] 65%|██████▍   | 4427/6837 [31:17<09:51,  4.07it/s] 65%|██████▍   | 4428/6837 [31:17<09:44,  4.12it/s] 65%|██████▍   | 4429/6837 [31:17<09:39,  4.16it/s] 65%|██████▍   | 4430/6837 [31:17<09:35,  4.18it/s] 65%|██████▍   | 4431/6837 [31:18<09:32,  4.20it/s] 65%|██████▍   | 4432/6837 [31:18<09:30,  4.21it/s] 65%|██████▍   | 4433/6837 [31:18<09:28,  4.23it/s] 65%|██████▍   | 4434/6837 [31:18<09:28,  4.23it/s] 65%|██████▍   | 4435/6837 [31:19<09:27,  4.23it/s] 65%|██████▍   | 4436/6837 [31:19<09:26,  4.24it/s] 65%|██████▍   | 4437/6837 [31:19<09:26,  4.24it/s] 65%|██████▍   | 4438/6837 [31:19<09:26,  4.24it/s] 65%|██████▍   | 4439/6837 [31:20<09:25,  4.24it/s] 65%|██████▍   | 4440/6837 [31:20<09:25,  4.24it/s] 65%|██████▍   | 4441/6837 [31:20<09:24,  4.24it/s] 65%|██████▍   | 4442/6837 [31:20<09:24,  4.24it/s] 65%|██████▍   | 4443/6837 [31:20<09:24,  4.24it/s] 65%|██████▍   | 4444/6837 [31:21<09:24,  4.24it/s] 65%|██████▌   | 4445/6837 [31:21<09:23,  4.24it/s] 65%|██████▌   | 4446/6837 [31:21<09:23,  4.24it/s] 65%|██████▌   | 4447/6837 [31:21<09:22,  4.25it/s] 65%|██████▌   | 4448/6837 [31:22<09:22,  4.25it/s] 65%|██████▌   | 4449/6837 [31:22<09:22,  4.24it/s] 65%|██████▌   | 4450/6837 [31:22<09:22,  4.24it/s]                                                   {'loss': 4.3839, 'grad_norm': 0.15175366401672363, 'learning_rate': 0.0019655478551331954, 'epoch': 0.13}
 65%|██████▌   | 4450/6837 [31:22<09:22,  4.24it/s] 65%|██████▌   | 4451/6837 [31:22<09:24,  4.23it/s] 65%|██████▌   | 4452/6837 [31:23<09:24,  4.23it/s] 65%|██████▌   | 4453/6837 [31:23<09:23,  4.23it/s] 65%|██████▌   | 4454/6837 [31:23<09:22,  4.24it/s] 65%|██████▌   | 4455/6837 [31:23<09:21,  4.24it/s] 65%|██████▌   | 4456/6837 [31:24<09:21,  4.24it/s] 65%|██████▌   | 4457/6837 [31:24<09:21,  4.24it/s] 65%|██████▌   | 4458/6837 [31:24<09:20,  4.24it/s] 65%|██████▌   | 4459/6837 [31:24<09:21,  4.23it/s] 65%|██████▌   | 4460/6837 [31:25<09:20,  4.24it/s] 65%|██████▌   | 4461/6837 [31:25<09:19,  4.24it/s] 65%|██████▌   | 4462/6837 [31:25<09:19,  4.24it/s] 65%|██████▌   | 4463/6837 [31:25<09:19,  4.24it/s] 65%|██████▌   | 4464/6837 [31:25<09:19,  4.24it/s] 65%|██████▌   | 4465/6837 [31:26<09:19,  4.24it/s] 65%|██████▌   | 4466/6837 [31:26<09:19,  4.24it/s] 65%|██████▌   | 4467/6837 [31:26<09:18,  4.24it/s] 65%|██████▌   | 4468/6837 [31:26<09:18,  4.24it/s] 65%|██████▌   | 4469/6837 [31:27<09:18,  4.24it/s] 65%|██████▌   | 4470/6837 [31:27<09:17,  4.24it/s] 65%|██████▌   | 4471/6837 [31:27<09:16,  4.25it/s] 65%|██████▌   | 4472/6837 [31:27<09:16,  4.25it/s] 65%|██████▌   | 4473/6837 [31:28<09:15,  4.26it/s] 65%|██████▌   | 4474/6837 [31:28<09:15,  4.25it/s] 65%|██████▌   | 4475/6837 [31:28<09:14,  4.26it/s]                                                   {'loss': 4.3856, 'grad_norm': 0.15692757070064545, 'learning_rate': 0.0019296882207272582, 'epoch': 0.13}
 65%|██████▌   | 4475/6837 [31:28<09:14,  4.26it/s] 65%|██████▌   | 4476/6837 [31:28<09:15,  4.25it/s] 65%|██████▌   | 4477/6837 [31:29<09:15,  4.25it/s] 65%|██████▌   | 4478/6837 [31:29<09:14,  4.25it/s] 66%|██████▌   | 4479/6837 [31:29<09:13,  4.26it/s] 66%|██████▌   | 4480/6837 [31:29<09:14,  4.25it/s] 66%|██████▌   | 4481/6837 [31:29<09:14,  4.25it/s] 66%|██████▌   | 4482/6837 [31:30<09:13,  4.25it/s] 66%|██████▌   | 4483/6837 [31:30<09:13,  4.25it/s] 66%|██████▌   | 4484/6837 [31:30<09:14,  4.25it/s] 66%|██████▌   | 4485/6837 [31:30<09:13,  4.25it/s] 66%|██████▌   | 4486/6837 [31:31<09:14,  4.24it/s] 66%|██████▌   | 4487/6837 [31:31<09:14,  4.24it/s] 66%|██████▌   | 4488/6837 [31:31<09:13,  4.24it/s] 66%|██████▌   | 4489/6837 [31:31<09:12,  4.25it/s] 66%|██████▌   | 4490/6837 [31:32<09:12,  4.25it/s] 66%|██████▌   | 4491/6837 [31:32<09:13,  4.24it/s] 66%|██████▌   | 4492/6837 [31:32<09:13,  4.24it/s] 66%|██████▌   | 4493/6837 [31:32<09:13,  4.24it/s] 66%|██████▌   | 4494/6837 [31:33<09:13,  4.24it/s] 66%|██████▌   | 4495/6837 [31:33<09:13,  4.23it/s] 66%|██████▌   | 4496/6837 [31:33<09:13,  4.23it/s] 66%|██████▌   | 4497/6837 [31:33<09:12,  4.24it/s] 66%|██████▌   | 4498/6837 [31:33<09:12,  4.23it/s] 66%|██████▌   | 4499/6837 [31:34<09:11,  4.24it/s] 66%|██████▌   | 4500/6837 [31:34<09:11,  4.24it/s]                                                   {'loss': 4.363, 'grad_norm': 0.14754816889762878, 'learning_rate': 0.0018940029718092798, 'epoch': 0.13}
 66%|██████▌   | 4500/6837 [31:34<09:11,  4.24it/s] 66%|██████▌   | 4501/6837 [31:34<09:13,  4.22it/s] 66%|██████▌   | 4502/6837 [31:34<09:12,  4.22it/s] 66%|██████▌   | 4503/6837 [31:35<09:12,  4.23it/s] 66%|██████▌   | 4504/6837 [31:35<09:11,  4.23it/s] 66%|██████▌   | 4505/6837 [31:35<09:10,  4.24it/s] 66%|██████▌   | 4506/6837 [31:35<09:10,  4.24it/s] 66%|██████▌   | 4507/6837 [31:36<09:10,  4.23it/s] 66%|██████▌   | 4508/6837 [31:36<09:13,  4.20it/s] 66%|██████▌   | 4509/6837 [31:36<09:13,  4.20it/s] 66%|██████▌   | 4510/6837 [31:36<09:11,  4.22it/s] 66%|██████▌   | 4511/6837 [31:37<09:10,  4.22it/s] 66%|██████▌   | 4512/6837 [31:37<09:10,  4.22it/s] 66%|██████▌   | 4513/6837 [31:37<09:09,  4.23it/s] 66%|██████▌   | 4514/6837 [31:37<09:08,  4.23it/s] 66%|██████▌   | 4515/6837 [31:37<09:08,  4.24it/s] 66%|██████▌   | 4516/6837 [31:38<09:07,  4.24it/s] 66%|██████▌   | 4517/6837 [31:38<09:06,  4.25it/s] 66%|██████▌   | 4518/6837 [31:38<09:05,  4.25it/s] 66%|██████▌   | 4519/6837 [31:38<09:05,  4.25it/s] 66%|██████▌   | 4520/6837 [31:39<09:05,  4.25it/s] 66%|██████▌   | 4521/6837 [31:39<09:05,  4.25it/s] 66%|██████▌   | 4522/6837 [31:39<09:05,  4.24it/s] 66%|██████▌   | 4523/6837 [31:39<09:06,  4.23it/s] 66%|██████▌   | 4524/6837 [31:40<09:06,  4.23it/s] 66%|██████▌   | 4525/6837 [31:40<09:05,  4.24it/s]                                                   {'loss': 4.3624, 'grad_norm': 0.14798496663570404, 'learning_rate': 0.0018584979225631905, 'epoch': 0.13}
 66%|██████▌   | 4525/6837 [31:40<09:05,  4.24it/s] 66%|██████▌   | 4526/6837 [31:40<09:05,  4.24it/s] 66%|██████▌   | 4527/6837 [31:40<09:05,  4.24it/s] 66%|██████▌   | 4528/6837 [31:41<09:04,  4.24it/s] 66%|██████▌   | 4529/6837 [31:41<09:03,  4.25it/s] 66%|██████▋   | 4530/6837 [31:41<09:03,  4.25it/s] 66%|██████▋   | 4531/6837 [31:41<09:03,  4.24it/s] 66%|██████▋   | 4532/6837 [31:41<09:02,  4.25it/s] 66%|██████▋   | 4533/6837 [31:42<09:01,  4.25it/s] 66%|██████▋   | 4534/6837 [31:42<09:02,  4.25it/s] 66%|██████▋   | 4535/6837 [31:42<09:01,  4.25it/s] 66%|██████▋   | 4536/6837 [31:42<09:00,  4.25it/s] 66%|██████▋   | 4537/6837 [31:43<09:00,  4.26it/s] 66%|██████▋   | 4538/6837 [31:43<09:21,  4.10it/s] 66%|██████▋   | 4539/6837 [31:43<09:39,  3.97it/s] 66%|██████▋   | 4540/6837 [31:43<09:46,  3.91it/s] 66%|██████▋   | 4541/6837 [31:44<09:53,  3.87it/s] 66%|██████▋   | 4542/6837 [31:44<09:57,  3.84it/s] 66%|██████▋   | 4543/6837 [31:44<10:01,  3.81it/s] 66%|██████▋   | 4544/6837 [31:45<10:06,  3.78it/s] 66%|██████▋   | 4545/6837 [31:45<10:06,  3.78it/s] 66%|██████▋   | 4546/6837 [31:45<10:08,  3.76it/s] 67%|██████▋   | 4547/6837 [31:45<10:03,  3.79it/s] 67%|██████▋   | 4548/6837 [31:46<10:03,  3.79it/s] 67%|██████▋   | 4549/6837 [31:46<10:03,  3.79it/s] 67%|██████▋   | 4550/6837 [31:46<10:06,  3.77it/s]                                                   {'loss': 4.357, 'grad_norm': 0.14812426269054413, 'learning_rate': 0.0018231788578130553, 'epoch': 0.13}
 67%|██████▋   | 4550/6837 [31:46<10:06,  3.77it/s] 67%|██████▋   | 4551/6837 [31:46<09:54,  3.85it/s] 67%|██████▋   | 4552/6837 [31:47<09:39,  3.94it/s] 67%|██████▋   | 4553/6837 [31:47<09:28,  4.02it/s] 67%|██████▋   | 4554/6837 [31:47<09:19,  4.08it/s] 67%|██████▋   | 4555/6837 [31:47<09:13,  4.12it/s] 67%|██████▋   | 4556/6837 [31:48<09:09,  4.15it/s] 67%|██████▋   | 4557/6837 [31:48<09:06,  4.17it/s] 67%|██████▋   | 4558/6837 [31:48<09:04,  4.19it/s] 67%|██████▋   | 4559/6837 [31:48<09:03,  4.19it/s] 67%|██████▋   | 4560/6837 [31:48<09:01,  4.20it/s] 67%|██████▋   | 4561/6837 [31:49<09:01,  4.20it/s] 67%|██████▋   | 4562/6837 [31:49<09:00,  4.21it/s] 67%|██████▋   | 4563/6837 [31:49<09:00,  4.21it/s] 67%|██████▋   | 4564/6837 [31:49<09:19,  4.07it/s] 67%|██████▋   | 4565/6837 [31:50<09:31,  3.97it/s] 67%|██████▋   | 4566/6837 [31:50<09:40,  3.92it/s] 67%|██████▋   | 4567/6837 [31:50<09:39,  3.92it/s] 67%|██████▋   | 4568/6837 [31:50<09:26,  4.01it/s] 67%|██████▋   | 4569/6837 [31:51<09:16,  4.07it/s] 67%|██████▋   | 4570/6837 [31:51<09:11,  4.11it/s] 67%|██████▋   | 4571/6837 [31:51<09:06,  4.15it/s] 67%|██████▋   | 4572/6837 [31:51<09:02,  4.17it/s] 67%|██████▋   | 4573/6837 [31:52<09:00,  4.19it/s] 67%|██████▋   | 4574/6837 [31:52<08:58,  4.20it/s] 67%|██████▋   | 4575/6837 [31:52<08:57,  4.21it/s]                                                   {'loss': 4.3635, 'grad_norm': 0.16064761579036713, 'learning_rate': 0.0017880515320805564, 'epoch': 0.13}
 67%|██████▋   | 4575/6837 [31:52<08:57,  4.21it/s] 67%|██████▋   | 4576/6837 [31:52<08:58,  4.20it/s] 67%|██████▋   | 4577/6837 [31:53<08:56,  4.21it/s] 67%|██████▋   | 4578/6837 [31:53<08:55,  4.22it/s] 67%|██████▋   | 4579/6837 [31:53<08:55,  4.22it/s] 67%|██████▋   | 4580/6837 [31:53<08:53,  4.23it/s] 67%|██████▋   | 4581/6837 [31:54<08:52,  4.23it/s] 67%|██████▋   | 4582/6837 [31:54<08:53,  4.23it/s] 67%|██████▋   | 4583/6837 [31:54<08:52,  4.23it/s] 67%|██████▋   | 4584/6837 [31:54<08:52,  4.23it/s] 67%|██████▋   | 4585/6837 [31:55<08:52,  4.23it/s] 67%|██████▋   | 4586/6837 [31:55<08:52,  4.23it/s] 67%|██████▋   | 4587/6837 [31:55<08:51,  4.23it/s] 67%|██████▋   | 4588/6837 [31:55<08:51,  4.23it/s] 67%|██████▋   | 4589/6837 [31:55<08:52,  4.22it/s] 67%|██████▋   | 4590/6837 [31:56<08:52,  4.22it/s] 67%|██████▋   | 4591/6837 [31:56<08:52,  4.22it/s] 67%|██████▋   | 4592/6837 [31:56<09:10,  4.08it/s] 67%|██████▋   | 4593/6837 [31:56<09:25,  3.97it/s] 67%|██████▋   | 4594/6837 [31:57<09:31,  3.92it/s] 67%|██████▋   | 4595/6837 [31:57<09:37,  3.88it/s] 67%|██████▋   | 4596/6837 [31:57<09:42,  3.84it/s] 67%|██████▋   | 4597/6837 [31:58<09:46,  3.82it/s] 67%|██████▋   | 4598/6837 [31:58<09:51,  3.78it/s] 67%|██████▋   | 4599/6837 [31:58<09:47,  3.81it/s] 67%|██████▋   | 4600/6837 [31:58<09:49,  3.80it/s]                                                   {'loss': 4.3666, 'grad_norm': 0.15804423391819, 'learning_rate': 0.0017531216686474112, 'epoch': 0.13}
 67%|██████▋   | 4600/6837 [31:58<09:49,  3.80it/s] 67%|██████▋   | 4601/6837 [31:59<09:51,  3.78it/s] 67%|██████▋   | 4602/6837 [31:59<09:51,  3.78it/s] 67%|██████▋   | 4603/6837 [31:59<09:49,  3.79it/s] 67%|██████▋   | 4604/6837 [31:59<09:49,  3.79it/s] 67%|██████▋   | 4605/6837 [32:00<09:35,  3.88it/s] 67%|██████▋   | 4606/6837 [32:00<09:21,  3.97it/s] 67%|██████▋   | 4607/6837 [32:00<09:10,  4.05it/s] 67%|██████▋   | 4608/6837 [32:00<09:03,  4.10it/s] 67%|██████▋   | 4609/6837 [32:01<08:58,  4.14it/s] 67%|██████▋   | 4610/6837 [32:01<08:54,  4.16it/s] 67%|██████▋   | 4611/6837 [32:01<08:51,  4.19it/s] 67%|██████▋   | 4612/6837 [32:01<08:49,  4.20it/s] 67%|██████▋   | 4613/6837 [32:02<08:47,  4.22it/s] 67%|██████▋   | 4614/6837 [32:02<08:47,  4.22it/s] 68%|██████▊   | 4615/6837 [32:02<08:46,  4.22it/s] 68%|██████▊   | 4616/6837 [32:02<08:45,  4.23it/s] 68%|██████▊   | 4617/6837 [32:02<08:44,  4.23it/s] 68%|██████▊   | 4618/6837 [32:03<09:03,  4.08it/s] 68%|██████▊   | 4619/6837 [32:03<09:17,  3.98it/s] 68%|██████▊   | 4620/6837 [32:03<09:24,  3.93it/s] 68%|██████▊   | 4621/6837 [32:04<09:31,  3.88it/s] 68%|██████▊   | 4622/6837 [32:04<09:36,  3.84it/s] 68%|██████▊   | 4623/6837 [32:04<09:37,  3.83it/s] 68%|██████▊   | 4624/6837 [32:04<09:36,  3.84it/s] 68%|██████▊   | 4625/6837 [32:05<09:33,  3.86it/s]                                                   {'loss': 4.3635, 'grad_norm': 0.16471876204013824, 'learning_rate': 0.0017183949586228808, 'epoch': 0.14}
 68%|██████▊   | 4625/6837 [32:05<09:33,  3.86it/s] 68%|██████▊   | 4626/6837 [32:05<09:37,  3.83it/s] 68%|██████▊   | 4627/6837 [32:05<09:19,  3.95it/s] 68%|██████▊   | 4628/6837 [32:05<09:07,  4.03it/s] 68%|██████▊   | 4629/6837 [32:06<08:59,  4.09it/s] 68%|██████▊   | 4630/6837 [32:06<08:53,  4.14it/s] 68%|██████▊   | 4631/6837 [32:06<08:48,  4.17it/s] 68%|██████▊   | 4632/6837 [32:06<08:45,  4.19it/s] 68%|██████▊   | 4633/6837 [32:06<08:43,  4.21it/s] 68%|██████▊   | 4634/6837 [32:07<08:41,  4.22it/s] 68%|██████▊   | 4635/6837 [32:07<08:40,  4.23it/s] 68%|██████▊   | 4636/6837 [32:07<08:39,  4.24it/s] 68%|██████▊   | 4637/6837 [32:07<08:38,  4.25it/s] 68%|██████▊   | 4638/6837 [32:08<08:36,  4.26it/s] 68%|██████▊   | 4639/6837 [32:08<08:36,  4.25it/s] 68%|██████▊   | 4640/6837 [32:08<08:36,  4.25it/s] 68%|██████▊   | 4641/6837 [32:08<08:36,  4.25it/s] 68%|██████▊   | 4642/6837 [32:09<08:35,  4.26it/s] 68%|██████▊   | 4643/6837 [32:09<08:35,  4.26it/s] 68%|██████▊   | 4644/6837 [32:09<08:35,  4.26it/s] 68%|██████▊   | 4645/6837 [32:09<08:34,  4.26it/s] 68%|██████▊   | 4646/6837 [32:10<08:34,  4.26it/s] 68%|██████▊   | 4647/6837 [32:10<08:34,  4.26it/s] 68%|██████▊   | 4648/6837 [32:10<08:33,  4.26it/s] 68%|██████▊   | 4649/6837 [32:10<08:33,  4.26it/s] 68%|██████▊   | 4650/6837 [32:10<08:33,  4.26it/s]                                                   {'loss': 4.367, 'grad_norm': 0.15519706904888153, 'learning_rate': 0.00168387706001652, 'epoch': 0.14}
 68%|██████▊   | 4650/6837 [32:10<08:33,  4.26it/s] 68%|██████▊   | 4651/6837 [32:11<08:35,  4.24it/s] 68%|██████▊   | 4652/6837 [32:11<08:34,  4.24it/s] 68%|██████▊   | 4653/6837 [32:11<08:58,  4.05it/s] 68%|██████▊   | 4654/6837 [32:11<09:11,  3.96it/s] 68%|██████▊   | 4655/6837 [32:12<09:19,  3.90it/s] 68%|██████▊   | 4656/6837 [32:12<09:22,  3.87it/s] 68%|██████▊   | 4657/6837 [32:12<09:28,  3.84it/s] 68%|██████▊   | 4658/6837 [32:13<09:35,  3.79it/s] 68%|██████▊   | 4659/6837 [32:13<09:34,  3.79it/s] 68%|██████▊   | 4660/6837 [32:13<09:33,  3.80it/s] 68%|██████▊   | 4661/6837 [32:13<09:25,  3.85it/s] 68%|██████▊   | 4662/6837 [32:14<09:09,  3.96it/s] 68%|██████▊   | 4663/6837 [32:14<08:58,  4.04it/s] 68%|██████▊   | 4664/6837 [32:14<08:50,  4.09it/s] 68%|██████▊   | 4665/6837 [32:14<08:44,  4.14it/s] 68%|██████▊   | 4666/6837 [32:15<08:40,  4.17it/s] 68%|██████▊   | 4667/6837 [32:15<08:38,  4.19it/s] 68%|██████▊   | 4668/6837 [32:15<08:36,  4.20it/s] 68%|██████▊   | 4669/6837 [32:15<08:34,  4.21it/s] 68%|██████▊   | 4670/6837 [32:15<08:33,  4.22it/s] 68%|██████▊   | 4671/6837 [32:16<08:32,  4.22it/s] 68%|██████▊   | 4672/6837 [32:16<08:31,  4.23it/s] 68%|██████▊   | 4673/6837 [32:16<08:29,  4.24it/s] 68%|██████▊   | 4674/6837 [32:16<08:29,  4.24it/s] 68%|██████▊   | 4675/6837 [32:17<08:29,  4.25it/s]                                                   {'loss': 4.3535, 'grad_norm': 0.20246660709381104, 'learning_rate': 0.0016495735968163174, 'epoch': 0.14}
 68%|██████▊   | 4675/6837 [32:17<08:29,  4.25it/s] 68%|██████▊   | 4676/6837 [32:17<08:29,  4.24it/s] 68%|██████▊   | 4677/6837 [32:17<08:28,  4.24it/s] 68%|██████▊   | 4678/6837 [32:17<08:29,  4.24it/s] 68%|██████▊   | 4679/6837 [32:18<08:29,  4.23it/s] 68%|██████▊   | 4680/6837 [32:18<08:28,  4.24it/s] 68%|██████▊   | 4681/6837 [32:18<08:28,  4.24it/s] 68%|██████▊   | 4682/6837 [32:18<08:28,  4.24it/s] 68%|██████▊   | 4683/6837 [32:19<08:27,  4.24it/s] 69%|██████▊   | 4684/6837 [32:19<08:27,  4.25it/s] 69%|██████▊   | 4685/6837 [32:19<08:27,  4.24it/s] 69%|██████▊   | 4686/6837 [32:19<08:27,  4.24it/s] 69%|██████▊   | 4687/6837 [32:19<08:27,  4.24it/s] 69%|██████▊   | 4688/6837 [32:20<08:27,  4.23it/s] 69%|██████▊   | 4689/6837 [32:20<08:27,  4.24it/s] 69%|██████▊   | 4690/6837 [32:20<08:26,  4.24it/s] 69%|██████▊   | 4691/6837 [32:20<08:26,  4.23it/s] 69%|██████▊   | 4692/6837 [32:21<08:27,  4.23it/s] 69%|██████▊   | 4693/6837 [32:21<08:28,  4.22it/s] 69%|██████▊   | 4694/6837 [32:21<08:27,  4.22it/s] 69%|██████▊   | 4695/6837 [32:21<08:26,  4.23it/s] 69%|██████▊   | 4696/6837 [32:22<08:26,  4.23it/s] 69%|██████▊   | 4697/6837 [32:22<08:26,  4.23it/s] 69%|██████▊   | 4698/6837 [32:22<08:25,  4.23it/s] 69%|██████▊   | 4699/6837 [32:22<08:24,  4.24it/s] 69%|██████▊   | 4700/6837 [32:23<08:24,  4.24it/s]                                                   {'loss': 4.372, 'grad_norm': 0.15515254437923431, 'learning_rate': 0.001615490158072385, 'epoch': 0.14}
 69%|██████▊   | 4700/6837 [32:23<08:24,  4.24it/s] 69%|██████▉   | 4701/6837 [32:23<08:25,  4.22it/s] 69%|██████▉   | 4702/6837 [32:23<08:25,  4.23it/s] 69%|██████▉   | 4703/6837 [32:23<08:24,  4.23it/s] 69%|██████▉   | 4704/6837 [32:23<08:24,  4.23it/s] 69%|██████▉   | 4705/6837 [32:24<08:23,  4.23it/s] 69%|██████▉   | 4706/6837 [32:24<08:23,  4.23it/s] 69%|██████▉   | 4707/6837 [32:24<08:24,  4.22it/s] 69%|██████▉   | 4708/6837 [32:24<08:23,  4.23it/s] 69%|██████▉   | 4709/6837 [32:25<08:23,  4.23it/s] 69%|██████▉   | 4710/6837 [32:25<08:24,  4.22it/s] 69%|██████▉   | 4711/6837 [32:25<08:22,  4.23it/s] 69%|██████▉   | 4712/6837 [32:25<08:22,  4.23it/s] 69%|██████▉   | 4713/6837 [32:26<08:22,  4.23it/s] 69%|██████▉   | 4714/6837 [32:26<08:21,  4.23it/s] 69%|██████▉   | 4715/6837 [32:26<08:21,  4.23it/s] 69%|██████▉   | 4716/6837 [32:26<08:21,  4.23it/s] 69%|██████▉   | 4717/6837 [32:27<08:20,  4.23it/s] 69%|██████▉   | 4718/6837 [32:27<08:20,  4.23it/s] 69%|██████▉   | 4719/6837 [32:27<08:20,  4.24it/s] 69%|██████▉   | 4720/6837 [32:27<08:19,  4.24it/s] 69%|██████▉   | 4721/6837 [32:27<08:19,  4.24it/s] 69%|██████▉   | 4722/6837 [32:28<08:19,  4.24it/s] 69%|██████▉   | 4723/6837 [32:28<08:18,  4.24it/s] 69%|██████▉   | 4724/6837 [32:28<08:18,  4.24it/s] 69%|██████▉   | 4725/6837 [32:28<08:18,  4.23it/s]                                                   {'loss': 4.3559, 'grad_norm': 0.161404550075531, 'learning_rate': 0.001581632296986333, 'epoch': 0.14}
 69%|██████▉   | 4725/6837 [32:28<08:18,  4.23it/s] 69%|██████▉   | 4726/6837 [32:29<08:20,  4.22it/s] 69%|██████▉   | 4727/6837 [32:29<08:19,  4.22it/s] 69%|██████▉   | 4728/6837 [32:29<08:19,  4.22it/s] 69%|██████▉   | 4729/6837 [32:29<08:18,  4.23it/s] 69%|██████▉   | 4730/6837 [32:30<08:18,  4.23it/s] 69%|██████▉   | 4731/6837 [32:30<08:17,  4.23it/s] 69%|██████▉   | 4732/6837 [32:30<08:17,  4.23it/s] 69%|██████▉   | 4733/6837 [32:30<08:16,  4.23it/s] 69%|██████▉   | 4734/6837 [32:31<08:15,  4.24it/s] 69%|██████▉   | 4735/6837 [32:31<08:17,  4.23it/s] 69%|██████▉   | 4736/6837 [32:31<08:17,  4.23it/s] 69%|██████▉   | 4737/6837 [32:31<08:16,  4.23it/s] 69%|██████▉   | 4738/6837 [32:32<08:15,  4.23it/s] 69%|██████▉   | 4739/6837 [32:32<08:15,  4.23it/s] 69%|██████▉   | 4740/6837 [32:32<08:14,  4.24it/s] 69%|██████▉   | 4741/6837 [32:32<08:13,  4.25it/s] 69%|██████▉   | 4742/6837 [32:32<08:13,  4.24it/s] 69%|██████▉   | 4743/6837 [32:33<08:13,  4.24it/s] 69%|██████▉   | 4744/6837 [32:33<08:13,  4.25it/s] 69%|██████▉   | 4745/6837 [32:33<08:12,  4.25it/s] 69%|██████▉   | 4746/6837 [32:33<08:13,  4.24it/s] 69%|██████▉   | 4747/6837 [32:34<08:11,  4.25it/s] 69%|██████▉   | 4748/6837 [32:34<08:11,  4.25it/s] 69%|██████▉   | 4749/6837 [32:34<08:29,  4.10it/s] 69%|██████▉   | 4750/6837 [32:34<08:41,  4.00it/s]                                                   {'loss': 4.3545, 'grad_norm': 0.1516709327697754, 'learning_rate': 0.0015480055300064908, 'epoch': 0.14}
 69%|██████▉   | 4750/6837 [32:34<08:41,  4.00it/s] 69%|██████▉   | 4751/6837 [32:35<08:50,  3.94it/s] 70%|██████▉   | 4752/6837 [32:35<08:56,  3.89it/s] 70%|██████▉   | 4753/6837 [32:35<08:44,  3.97it/s] 70%|██████▉   | 4754/6837 [32:35<08:34,  4.05it/s] 70%|██████▉   | 4755/6837 [32:36<08:27,  4.10it/s] 70%|██████▉   | 4756/6837 [32:36<08:23,  4.14it/s] 70%|██████▉   | 4757/6837 [32:36<08:19,  4.17it/s] 70%|██████▉   | 4758/6837 [32:36<08:16,  4.19it/s] 70%|██████▉   | 4759/6837 [32:37<08:14,  4.20it/s] 70%|██████▉   | 4760/6837 [32:37<08:12,  4.21it/s] 70%|██████▉   | 4761/6837 [32:37<08:11,  4.23it/s] 70%|██████▉   | 4762/6837 [32:37<08:10,  4.23it/s] 70%|██████▉   | 4763/6837 [32:38<08:10,  4.23it/s] 70%|██████▉   | 4764/6837 [32:38<08:23,  4.11it/s] 70%|██████▉   | 4765/6837 [32:38<08:18,  4.16it/s] 70%|██████▉   | 4766/6837 [32:38<08:14,  4.19it/s] 70%|██████▉   | 4767/6837 [32:38<08:12,  4.20it/s] 70%|██████▉   | 4768/6837 [32:39<08:12,  4.20it/s] 70%|██████▉   | 4769/6837 [32:39<08:10,  4.22it/s] 70%|██████▉   | 4770/6837 [32:39<08:09,  4.22it/s] 70%|██████▉   | 4771/6837 [32:39<08:09,  4.22it/s] 70%|██████▉   | 4772/6837 [32:40<08:08,  4.23it/s] 70%|██████▉   | 4773/6837 [32:40<08:07,  4.23it/s] 70%|██████▉   | 4774/6837 [32:40<08:06,  4.24it/s] 70%|██████▉   | 4775/6837 [32:40<08:06,  4.24it/s]{'loss': 4.3464, 'grad_norm': 0.17767181992530823, 'learning_rate': 0.0015146153359291144, 'epoch': 0.14}                                                   
 70%|██████▉   | 4775/6837 [32:40<08:06,  4.24it/s] 70%|██████▉   | 4776/6837 [32:41<08:07,  4.23it/s] 70%|██████▉   | 4777/6837 [32:41<08:05,  4.24it/s] 70%|██████▉   | 4778/6837 [32:41<08:05,  4.24it/s] 70%|██████▉   | 4779/6837 [32:41<08:04,  4.24it/s] 70%|██████▉   | 4780/6837 [32:42<08:04,  4.24it/s] 70%|██████▉   | 4781/6837 [32:42<08:04,  4.25it/s] 70%|██████▉   | 4782/6837 [32:42<08:03,  4.25it/s] 70%|██████▉   | 4783/6837 [32:42<08:03,  4.25it/s] 70%|██████▉   | 4784/6837 [32:42<08:03,  4.25it/s] 70%|██████▉   | 4785/6837 [32:43<08:21,  4.09it/s] 70%|███████   | 4786/6837 [32:43<08:33,  3.99it/s] 70%|███████   | 4787/6837 [32:43<08:43,  3.92it/s] 70%|███████   | 4788/6837 [32:44<08:48,  3.88it/s] 70%|███████   | 4789/6837 [32:44<08:50,  3.86it/s] 70%|███████   | 4790/6837 [32:44<08:35,  3.97it/s] 70%|███████   | 4791/6837 [32:44<08:25,  4.05it/s] 70%|███████   | 4792/6837 [32:45<08:18,  4.10it/s] 70%|███████   | 4793/6837 [32:45<08:13,  4.14it/s] 70%|███████   | 4794/6837 [32:45<08:10,  4.17it/s] 70%|███████   | 4795/6837 [32:45<08:07,  4.19it/s] 70%|███████   | 4796/6837 [32:45<08:05,  4.20it/s] 70%|███████   | 4797/6837 [32:46<08:03,  4.22it/s] 70%|███████   | 4798/6837 [32:46<08:02,  4.23it/s] 70%|███████   | 4799/6837 [32:46<08:02,  4.22it/s] 70%|███████   | 4800/6837 [32:46<08:02,  4.22it/s]                                                   {'loss': 4.3384, 'grad_norm': 0.1568547934293747, 'learning_rate': 0.0014814671550057261, 'epoch': 0.14}
 70%|███████   | 4800/6837 [32:46<08:02,  4.22it/s] 70%|███████   | 4801/6837 [32:47<08:03,  4.21it/s] 70%|███████   | 4802/6837 [32:47<08:01,  4.22it/s] 70%|███████   | 4803/6837 [32:47<08:02,  4.22it/s] 70%|███████   | 4804/6837 [32:47<08:01,  4.23it/s] 70%|███████   | 4805/6837 [32:48<08:00,  4.23it/s] 70%|███████   | 4806/6837 [32:48<07:59,  4.24it/s] 70%|███████   | 4807/6837 [32:48<07:58,  4.24it/s] 70%|███████   | 4808/6837 [32:48<07:57,  4.25it/s] 70%|███████   | 4809/6837 [32:49<07:58,  4.24it/s] 70%|███████   | 4810/6837 [32:49<07:57,  4.24it/s] 70%|███████   | 4811/6837 [32:49<07:56,  4.25it/s] 70%|███████   | 4812/6837 [32:49<07:56,  4.25it/s] 70%|███████   | 4813/6837 [32:49<07:56,  4.25it/s] 70%|███████   | 4814/6837 [32:50<07:55,  4.25it/s] 70%|███████   | 4815/6837 [32:50<07:55,  4.26it/s] 70%|███████   | 4816/6837 [32:50<07:57,  4.24it/s] 70%|███████   | 4817/6837 [32:50<08:10,  4.12it/s] 70%|███████   | 4818/6837 [32:51<08:25,  3.99it/s] 70%|███████   | 4819/6837 [32:51<08:33,  3.93it/s] 70%|███████   | 4820/6837 [32:51<08:38,  3.89it/s] 71%|███████   | 4821/6837 [32:52<08:43,  3.85it/s] 71%|███████   | 4822/6837 [32:52<08:33,  3.92it/s] 71%|███████   | 4823/6837 [32:52<08:22,  4.01it/s] 71%|███████   | 4824/6837 [32:52<08:14,  4.07it/s] 71%|███████   | 4825/6837 [32:52<08:08,  4.12it/s]                                                   {'loss': 4.3436, 'grad_norm': 0.1425759494304657, 'learning_rate': 0.0014485663880567387, 'epoch': 0.14}
 71%|███████   | 4825/6837 [32:52<08:08,  4.12it/s] 71%|███████   | 4826/6837 [32:53<08:05,  4.14it/s] 71%|███████   | 4827/6837 [32:53<08:01,  4.17it/s] 71%|███████   | 4828/6837 [32:53<07:59,  4.19it/s] 71%|███████   | 4829/6837 [32:53<07:57,  4.21it/s] 71%|███████   | 4830/6837 [32:54<07:58,  4.19it/s] 71%|███████   | 4831/6837 [32:54<07:58,  4.19it/s] 71%|███████   | 4832/6837 [32:54<07:56,  4.21it/s] 71%|███████   | 4833/6837 [32:54<07:54,  4.22it/s] 71%|███████   | 4834/6837 [32:55<07:53,  4.23it/s] 71%|███████   | 4835/6837 [32:55<07:53,  4.23it/s] 71%|███████   | 4836/6837 [32:55<07:53,  4.23it/s] 71%|███████   | 4837/6837 [32:55<07:54,  4.21it/s] 71%|███████   | 4838/6837 [32:56<08:11,  4.07it/s] 71%|███████   | 4839/6837 [32:56<08:21,  3.98it/s] 71%|███████   | 4840/6837 [32:56<08:29,  3.92it/s] 71%|███████   | 4841/6837 [32:56<08:34,  3.88it/s] 71%|███████   | 4842/6837 [32:57<08:38,  3.84it/s] 71%|███████   | 4843/6837 [32:57<08:41,  3.83it/s] 71%|███████   | 4844/6837 [32:57<08:43,  3.81it/s] 71%|███████   | 4845/6837 [32:57<08:45,  3.79it/s] 71%|███████   | 4846/6837 [32:58<08:46,  3.78it/s] 71%|███████   | 4847/6837 [32:58<08:44,  3.79it/s] 71%|███████   | 4848/6837 [32:58<08:45,  3.78it/s] 71%|███████   | 4849/6837 [32:58<08:46,  3.78it/s] 71%|███████   | 4850/6837 [32:59<08:44,  3.79it/s]                                                   {'loss': 4.3434, 'grad_norm': 0.16639594733715057, 'learning_rate': 0.0014159183955915011, 'epoch': 0.14}
 71%|███████   | 4850/6837 [32:59<08:44,  3.79it/s] 71%|███████   | 4851/6837 [32:59<08:46,  3.77it/s] 71%|███████   | 4852/6837 [32:59<08:46,  3.77it/s] 71%|███████   | 4853/6837 [33:00<08:46,  3.77it/s] 71%|███████   | 4854/6837 [33:00<08:46,  3.77it/s] 71%|███████   | 4855/6837 [33:00<08:44,  3.78it/s] 71%|███████   | 4856/6837 [33:00<08:44,  3.78it/s] 71%|███████   | 4857/6837 [33:01<08:30,  3.88it/s] 71%|███████   | 4858/6837 [33:01<08:17,  3.98it/s] 71%|███████   | 4859/6837 [33:01<08:08,  4.05it/s] 71%|███████   | 4860/6837 [33:01<08:02,  4.09it/s] 71%|███████   | 4861/6837 [33:02<07:58,  4.13it/s] 71%|███████   | 4862/6837 [33:02<07:54,  4.16it/s] 71%|███████   | 4863/6837 [33:02<07:52,  4.18it/s] 71%|███████   | 4864/6837 [33:02<07:50,  4.20it/s] 71%|███████   | 4865/6837 [33:02<07:48,  4.21it/s] 71%|███████   | 4866/6837 [33:03<07:47,  4.22it/s] 71%|███████   | 4867/6837 [33:03<07:47,  4.22it/s] 71%|███████   | 4868/6837 [33:03<07:46,  4.22it/s] 71%|███████   | 4869/6837 [33:03<07:46,  4.22it/s] 71%|███████   | 4870/6837 [33:04<07:45,  4.23it/s] 71%|███████   | 4871/6837 [33:04<07:44,  4.23it/s] 71%|███████▏  | 4872/6837 [33:04<07:44,  4.23it/s] 71%|███████▏  | 4873/6837 [33:04<07:43,  4.23it/s] 71%|███████▏  | 4874/6837 [33:05<07:43,  4.24it/s] 71%|███████▏  | 4875/6837 [33:05<07:43,  4.23it/s]                                                   {'loss': 4.3468, 'grad_norm': 0.15968827903270721, 'learning_rate': 0.0013835284969349116, 'epoch': 0.14}
 71%|███████▏  | 4875/6837 [33:05<07:43,  4.23it/s] 71%|███████▏  | 4876/6837 [33:05<07:49,  4.18it/s] 71%|███████▏  | 4877/6837 [33:05<07:47,  4.19it/s] 71%|███████▏  | 4878/6837 [33:06<07:45,  4.21it/s] 71%|███████▏  | 4879/6837 [33:06<07:44,  4.22it/s] 71%|███████▏  | 4880/6837 [33:06<07:44,  4.22it/s] 71%|███████▏  | 4881/6837 [33:06<07:42,  4.23it/s] 71%|███████▏  | 4882/6837 [33:06<07:43,  4.22it/s] 71%|███████▏  | 4883/6837 [33:07<07:44,  4.20it/s] 71%|███████▏  | 4884/6837 [33:07<07:43,  4.21it/s] 71%|███████▏  | 4885/6837 [33:07<07:42,  4.22it/s] 71%|███████▏  | 4886/6837 [33:07<07:43,  4.21it/s] 71%|███████▏  | 4887/6837 [33:08<07:42,  4.21it/s] 71%|███████▏  | 4888/6837 [33:08<07:41,  4.22it/s] 72%|███████▏  | 4889/6837 [33:08<07:40,  4.23it/s] 72%|███████▏  | 4890/6837 [33:08<07:40,  4.23it/s] 72%|███████▏  | 4891/6837 [33:09<07:39,  4.24it/s] 72%|███████▏  | 4892/6837 [33:09<07:38,  4.24it/s] 72%|███████▏  | 4893/6837 [33:09<07:38,  4.24it/s] 72%|███████▏  | 4894/6837 [33:09<07:38,  4.23it/s] 72%|███████▏  | 4895/6837 [33:10<07:38,  4.24it/s] 72%|███████▏  | 4896/6837 [33:10<07:38,  4.23it/s] 72%|███████▏  | 4897/6837 [33:10<07:38,  4.23it/s] 72%|███████▏  | 4898/6837 [33:10<07:38,  4.23it/s] 72%|███████▏  | 4899/6837 [33:11<07:41,  4.20it/s] 72%|███████▏  | 4900/6837 [33:11<07:40,  4.21it/s]                                                   {'loss': 4.3507, 'grad_norm': 0.1706847995519638, 'learning_rate': 0.0013514019693607441, 'epoch': 0.14}
 72%|███████▏  | 4900/6837 [33:11<07:40,  4.21it/s] 72%|███████▏  | 4901/6837 [33:11<07:41,  4.19it/s] 72%|███████▏  | 4902/6837 [33:11<07:40,  4.20it/s] 72%|███████▏  | 4903/6837 [33:11<07:39,  4.21it/s] 72%|███████▏  | 4904/6837 [33:12<07:37,  4.22it/s] 72%|███████▏  | 4905/6837 [33:12<07:37,  4.22it/s] 72%|███████▏  | 4906/6837 [33:12<07:37,  4.22it/s] 72%|███████▏  | 4907/6837 [33:12<07:36,  4.23it/s] 72%|███████▏  | 4908/6837 [33:13<07:36,  4.23it/s] 72%|███████▏  | 4909/6837 [33:13<07:37,  4.22it/s] 72%|███████▏  | 4910/6837 [33:13<07:36,  4.22it/s] 72%|███████▏  | 4911/6837 [33:13<07:35,  4.23it/s] 72%|███████▏  | 4912/6837 [33:14<07:35,  4.23it/s] 72%|███████▏  | 4913/6837 [33:14<07:34,  4.24it/s] 72%|███████▏  | 4914/6837 [33:14<07:33,  4.24it/s] 72%|███████▏  | 4915/6837 [33:14<07:34,  4.23it/s] 72%|███████▏  | 4916/6837 [33:15<07:34,  4.23it/s] 72%|███████▏  | 4917/6837 [33:15<07:33,  4.23it/s] 72%|███████▏  | 4918/6837 [33:15<07:33,  4.24it/s] 72%|███████▏  | 4919/6837 [33:15<07:32,  4.23it/s] 72%|███████▏  | 4920/6837 [33:15<07:31,  4.25it/s] 72%|███████▏  | 4921/6837 [33:16<07:30,  4.25it/s] 72%|███████▏  | 4922/6837 [33:16<07:32,  4.24it/s] 72%|███████▏  | 4923/6837 [33:16<07:32,  4.23it/s] 72%|███████▏  | 4924/6837 [33:16<07:31,  4.23it/s] 72%|███████▏  | 4925/6837 [33:17<07:31,  4.23it/s]                                                   {'loss': 4.3296, 'grad_norm': 0.14632856845855713, 'learning_rate': 0.0013195440472318226, 'epoch': 0.14}
 72%|███████▏  | 4925/6837 [33:17<07:31,  4.23it/s] 72%|███████▏  | 4926/6837 [33:17<07:32,  4.22it/s] 72%|███████▏  | 4927/6837 [33:17<07:31,  4.23it/s] 72%|███████▏  | 4928/6837 [33:17<07:30,  4.23it/s] 72%|███████▏  | 4929/6837 [33:18<07:31,  4.23it/s] 72%|███████▏  | 4930/6837 [33:18<07:30,  4.23it/s] 72%|███████▏  | 4931/6837 [33:18<07:30,  4.23it/s] 72%|███████▏  | 4932/6837 [33:18<07:30,  4.23it/s] 72%|███████▏  | 4933/6837 [33:19<07:29,  4.23it/s] 72%|███████▏  | 4934/6837 [33:19<07:29,  4.24it/s] 72%|███████▏  | 4935/6837 [33:19<07:28,  4.24it/s] 72%|███████▏  | 4936/6837 [33:19<07:29,  4.23it/s] 72%|███████▏  | 4937/6837 [33:20<07:28,  4.24it/s] 72%|███████▏  | 4938/6837 [33:20<07:27,  4.24it/s] 72%|███████▏  | 4939/6837 [33:20<10:18,  3.07it/s] 72%|███████▏  | 4940/6837 [33:21<09:26,  3.35it/s] 72%|███████▏  | 4941/6837 [33:21<08:50,  3.57it/s] 72%|███████▏  | 4942/6837 [33:21<08:26,  3.74it/s] 72%|███████▏  | 4943/6837 [33:21<08:08,  3.88it/s] 72%|███████▏  | 4944/6837 [33:21<07:55,  3.98it/s] 72%|███████▏  | 4945/6837 [33:22<07:46,  4.05it/s] 72%|███████▏  | 4946/6837 [33:22<07:40,  4.11it/s] 72%|███████▏  | 4947/6837 [33:22<07:35,  4.15it/s] 72%|███████▏  | 4948/6837 [33:22<07:32,  4.18it/s] 72%|███████▏  | 4949/6837 [33:23<07:29,  4.20it/s] 72%|███████▏  | 4950/6837 [33:23<07:28,  4.21it/s]                                                   {'loss': 4.3515, 'grad_norm': 0.1598782241344452, 'learning_rate': 0.0012879599211471895, 'epoch': 0.14}
 72%|███████▏  | 4950/6837 [33:23<07:28,  4.21it/s] 72%|███████▏  | 4951/6837 [33:23<07:28,  4.21it/s] 72%|███████▏  | 4952/6837 [33:23<07:26,  4.22it/s] 72%|███████▏  | 4953/6837 [33:24<07:26,  4.22it/s] 72%|███████▏  | 4954/6837 [33:24<07:25,  4.23it/s] 72%|███████▏  | 4955/6837 [33:24<07:24,  4.24it/s] 72%|███████▏  | 4956/6837 [33:24<07:24,  4.23it/s] 73%|███████▎  | 4957/6837 [33:25<07:24,  4.23it/s] 73%|███████▎  | 4958/6837 [33:25<07:23,  4.23it/s] 73%|███████▎  | 4959/6837 [33:25<07:23,  4.24it/s] 73%|███████▎  | 4960/6837 [33:25<07:22,  4.24it/s] 73%|███████▎  | 4961/6837 [33:25<07:22,  4.24it/s] 73%|███████▎  | 4962/6837 [33:26<07:21,  4.24it/s] 73%|███████▎  | 4963/6837 [33:26<07:24,  4.21it/s] 73%|███████▎  | 4964/6837 [33:26<07:23,  4.22it/s] 73%|███████▎  | 4965/6837 [33:26<07:22,  4.23it/s] 73%|███████▎  | 4966/6837 [33:27<07:22,  4.23it/s] 73%|███████▎  | 4967/6837 [33:27<07:22,  4.23it/s] 73%|███████▎  | 4968/6837 [33:27<07:21,  4.23it/s] 73%|███████▎  | 4969/6837 [33:27<07:20,  4.24it/s] 73%|███████▎  | 4970/6837 [33:28<07:20,  4.24it/s] 73%|███████▎  | 4971/6837 [33:28<07:20,  4.24it/s] 73%|███████▎  | 4972/6837 [33:28<07:19,  4.24it/s] 73%|███████▎  | 4973/6837 [33:28<07:19,  4.24it/s] 73%|███████▎  | 4974/6837 [33:29<07:19,  4.24it/s] 73%|███████▎  | 4975/6837 [33:29<07:19,  4.24it/s]                                                   {'loss': 4.3423, 'grad_norm': 0.167702779173851, 'learning_rate': 0.001256654737096399, 'epoch': 0.15}
 73%|███████▎  | 4975/6837 [33:29<07:19,  4.24it/s] 73%|███████▎  | 4976/6837 [33:29<07:21,  4.22it/s] 73%|███████▎  | 4977/6837 [33:29<07:21,  4.21it/s] 73%|███████▎  | 4978/6837 [33:29<07:22,  4.20it/s] 73%|███████▎  | 4979/6837 [33:30<07:21,  4.21it/s] 73%|███████▎  | 4980/6837 [33:30<07:20,  4.22it/s] 73%|███████▎  | 4981/6837 [33:30<07:20,  4.22it/s] 73%|███████▎  | 4982/6837 [33:30<07:19,  4.22it/s] 73%|███████▎  | 4983/6837 [33:31<07:19,  4.22it/s] 73%|███████▎  | 4984/6837 [33:31<07:18,  4.22it/s] 73%|███████▎  | 4985/6837 [33:31<07:18,  4.23it/s] 73%|███████▎  | 4986/6837 [33:31<07:18,  4.22it/s] 73%|███████▎  | 4987/6837 [33:32<07:17,  4.23it/s] 73%|███████▎  | 4988/6837 [33:32<07:16,  4.23it/s] 73%|███████▎  | 4989/6837 [33:32<07:16,  4.23it/s] 73%|███████▎  | 4990/6837 [33:32<07:16,  4.23it/s] 73%|███████▎  | 4991/6837 [33:33<07:16,  4.23it/s] 73%|███████▎  | 4992/6837 [33:33<07:16,  4.23it/s] 73%|███████▎  | 4993/6837 [33:33<07:15,  4.24it/s] 73%|███████▎  | 4994/6837 [33:33<07:13,  4.25it/s] 73%|███████▎  | 4995/6837 [33:34<07:13,  4.25it/s] 73%|███████▎  | 4996/6837 [33:34<07:13,  4.25it/s] 73%|███████▎  | 4997/6837 [33:34<07:13,  4.24it/s] 73%|███████▎  | 4998/6837 [33:34<07:13,  4.24it/s] 73%|███████▎  | 4999/6837 [33:34<07:14,  4.23it/s] 73%|███████▎  | 5000/6837 [33:35<07:13,  4.24it/s]                                                   {'loss': 4.3393, 'grad_norm': 0.1614031344652176, 'learning_rate': 0.0012256335956210927, 'epoch': 0.15}
 73%|███████▎  | 5000/6837 [33:35<07:13,  4.24it/s] 73%|███████▎  | 5001/6837 [33:35<07:14,  4.22it/s] 73%|███████▎  | 5002/6837 [33:35<07:13,  4.23it/s] 73%|███████▎  | 5003/6837 [33:35<07:29,  4.08it/s] 73%|███████▎  | 5004/6837 [33:36<07:38,  4.00it/s] 73%|███████▎  | 5005/6837 [33:36<07:30,  4.06it/s] 73%|███████▎  | 5006/6837 [33:36<07:25,  4.11it/s] 73%|███████▎  | 5007/6837 [33:36<07:21,  4.14it/s] 73%|███████▎  | 5008/6837 [33:37<07:19,  4.17it/s] 73%|███████▎  | 5009/6837 [33:37<07:17,  4.18it/s] 73%|███████▎  | 5010/6837 [33:37<07:15,  4.19it/s] 73%|███████▎  | 5011/6837 [33:37<07:14,  4.20it/s] 73%|███████▎  | 5012/6837 [33:38<07:12,  4.21it/s] 73%|███████▎  | 5013/6837 [33:38<07:12,  4.22it/s] 73%|███████▎  | 5014/6837 [33:38<07:11,  4.22it/s] 73%|███████▎  | 5015/6837 [33:38<07:10,  4.23it/s] 73%|███████▎  | 5016/6837 [33:39<07:11,  4.22it/s] 73%|███████▎  | 5017/6837 [33:39<07:10,  4.23it/s] 73%|███████▎  | 5018/6837 [33:39<07:09,  4.23it/s] 73%|███████▎  | 5019/6837 [33:39<07:09,  4.23it/s] 73%|███████▎  | 5020/6837 [33:39<07:23,  4.10it/s] 73%|███████▎  | 5021/6837 [33:40<07:23,  4.10it/s] 73%|███████▎  | 5022/6837 [33:40<07:18,  4.14it/s] 73%|███████▎  | 5023/6837 [33:40<07:15,  4.16it/s] 73%|███████▎  | 5024/6837 [33:40<07:13,  4.18it/s] 73%|███████▎  | 5025/6837 [33:41<07:10,  4.21it/s]                                                   {'loss': 4.3302, 'grad_norm': 0.15441203117370605, 'learning_rate': 0.0011949015509839602, 'epoch': 0.15}
 73%|███████▎  | 5025/6837 [33:41<07:10,  4.21it/s] 74%|███████▎  | 5026/6837 [33:41<07:10,  4.20it/s] 74%|███████▎  | 5027/6837 [33:41<07:09,  4.21it/s] 74%|███████▎  | 5028/6837 [33:41<07:08,  4.22it/s] 74%|███████▎  | 5029/6837 [33:42<07:07,  4.23it/s] 74%|███████▎  | 5030/6837 [33:42<07:07,  4.23it/s] 74%|███████▎  | 5031/6837 [33:42<07:07,  4.23it/s] 74%|███████▎  | 5032/6837 [33:42<07:06,  4.23it/s] 74%|███████▎  | 5033/6837 [33:43<07:06,  4.23it/s] 74%|███████▎  | 5034/6837 [33:43<07:06,  4.22it/s] 74%|███████▎  | 5035/6837 [33:43<07:23,  4.06it/s] 74%|███████▎  | 5036/6837 [33:43<07:33,  3.97it/s] 74%|███████▎  | 5037/6837 [33:44<07:38,  3.92it/s] 74%|███████▎  | 5038/6837 [33:44<07:42,  3.89it/s] 74%|███████▎  | 5039/6837 [33:44<07:46,  3.85it/s] 74%|███████▎  | 5040/6837 [33:44<07:35,  3.94it/s] 74%|███████▎  | 5041/6837 [33:45<07:25,  4.03it/s] 74%|███████▎  | 5042/6837 [33:45<07:19,  4.09it/s] 74%|███████▍  | 5043/6837 [33:45<07:13,  4.14it/s] 74%|███████▍  | 5044/6837 [33:45<07:10,  4.16it/s] 74%|███████▍  | 5045/6837 [33:46<07:08,  4.18it/s] 74%|███████▍  | 5046/6837 [33:46<07:06,  4.20it/s] 74%|███████▍  | 5047/6837 [33:46<07:06,  4.20it/s] 74%|███████▍  | 5048/6837 [33:46<07:05,  4.21it/s] 74%|███████▍  | 5049/6837 [33:47<07:04,  4.22it/s] 74%|███████▍  | 5050/6837 [33:47<07:06,  4.19it/s]                                                   {'loss': 4.3347, 'grad_norm': 0.14135445654392242, 'learning_rate': 0.0011644636103452552, 'epoch': 0.15}
 74%|███████▍  | 5050/6837 [33:47<07:06,  4.19it/s] 74%|███████▍  | 5051/6837 [33:47<07:05,  4.20it/s] 74%|███████▍  | 5052/6837 [33:47<07:03,  4.21it/s] 74%|███████▍  | 5053/6837 [33:47<07:03,  4.22it/s] 74%|███████▍  | 5054/6837 [33:48<07:02,  4.22it/s] 74%|███████▍  | 5055/6837 [33:48<07:01,  4.22it/s] 74%|███████▍  | 5056/6837 [33:48<07:01,  4.23it/s] 74%|███████▍  | 5057/6837 [33:48<07:01,  4.23it/s] 74%|███████▍  | 5058/6837 [33:49<07:01,  4.22it/s] 74%|███████▍  | 5059/6837 [33:49<07:02,  4.21it/s] 74%|███████▍  | 5060/6837 [33:49<07:01,  4.21it/s] 74%|███████▍  | 5061/6837 [33:49<07:01,  4.21it/s] 74%|███████▍  | 5062/6837 [33:50<07:20,  4.03it/s] 74%|███████▍  | 5063/6837 [33:50<07:32,  3.92it/s] 74%|███████▍  | 5064/6837 [33:50<07:38,  3.87it/s] 74%|███████▍  | 5065/6837 [33:50<07:42,  3.83it/s] 74%|███████▍  | 5066/6837 [33:51<07:45,  3.81it/s] 74%|███████▍  | 5067/6837 [33:51<07:46,  3.79it/s] 74%|███████▍  | 5068/6837 [33:51<07:45,  3.80it/s] 74%|███████▍  | 5069/6837 [33:51<07:44,  3.81it/s] 74%|███████▍  | 5070/6837 [33:52<07:41,  3.83it/s] 74%|███████▍  | 5071/6837 [33:52<07:47,  3.78it/s] 74%|███████▍  | 5072/6837 [33:52<07:34,  3.88it/s] 74%|███████▍  | 5073/6837 [33:52<07:23,  3.98it/s] 74%|███████▍  | 5074/6837 [33:53<07:18,  4.02it/s] 74%|███████▍  | 5075/6837 [33:53<07:12,  4.08it/s]                                                   {'loss': 4.3182, 'grad_norm': 0.1706584244966507, 'learning_rate': 0.0011343247329469795, 'epoch': 0.15}
 74%|███████▍  | 5075/6837 [33:53<07:12,  4.08it/s] 74%|███████▍  | 5076/6837 [33:53<07:09,  4.10it/s] 74%|███████▍  | 5077/6837 [33:53<07:07,  4.11it/s] 74%|███████▍  | 5078/6837 [33:54<07:04,  4.15it/s] 74%|███████▍  | 5079/6837 [33:54<07:01,  4.17it/s] 74%|███████▍  | 5080/6837 [33:54<06:59,  4.19it/s] 74%|███████▍  | 5081/6837 [33:54<06:58,  4.19it/s] 74%|███████▍  | 5082/6837 [33:55<06:56,  4.21it/s] 74%|███████▍  | 5083/6837 [33:55<06:55,  4.22it/s] 74%|███████▍  | 5084/6837 [33:55<06:55,  4.22it/s] 74%|███████▍  | 5085/6837 [33:55<06:55,  4.22it/s] 74%|███████▍  | 5086/6837 [33:56<06:55,  4.22it/s] 74%|███████▍  | 5087/6837 [33:56<06:55,  4.21it/s] 74%|███████▍  | 5088/6837 [33:56<06:54,  4.22it/s] 74%|███████▍  | 5089/6837 [33:56<06:54,  4.22it/s] 74%|███████▍  | 5090/6837 [33:57<06:53,  4.23it/s] 74%|███████▍  | 5091/6837 [33:57<06:53,  4.23it/s] 74%|███████▍  | 5092/6837 [33:57<06:53,  4.22it/s] 74%|███████▍  | 5093/6837 [33:57<06:52,  4.23it/s] 75%|███████▍  | 5094/6837 [33:57<06:52,  4.23it/s] 75%|███████▍  | 5095/6837 [33:58<06:52,  4.23it/s] 75%|███████▍  | 5096/6837 [33:58<06:51,  4.23it/s] 75%|███████▍  | 5097/6837 [33:58<06:51,  4.23it/s] 75%|███████▍  | 5098/6837 [33:58<06:50,  4.23it/s] 75%|███████▍  | 5099/6837 [33:59<06:51,  4.22it/s] 75%|███████▍  | 5100/6837 [33:59<06:50,  4.23it/s]                                                   {'loss': 4.3179, 'grad_norm': 0.17500291764736176, 'learning_rate': 0.0011044898293048765, 'epoch': 0.15}
 75%|███████▍  | 5100/6837 [33:59<06:50,  4.23it/s] 75%|███████▍  | 5101/6837 [33:59<06:52,  4.21it/s] 75%|███████▍  | 5102/6837 [33:59<06:51,  4.21it/s] 75%|███████▍  | 5103/6837 [34:00<06:51,  4.21it/s] 75%|███████▍  | 5104/6837 [34:00<06:50,  4.22it/s] 75%|███████▍  | 5105/6837 [34:00<06:50,  4.22it/s] 75%|███████▍  | 5106/6837 [34:00<06:50,  4.22it/s] 75%|███████▍  | 5107/6837 [34:01<06:50,  4.22it/s] 75%|███████▍  | 5108/6837 [34:01<06:49,  4.23it/s] 75%|███████▍  | 5109/6837 [34:01<06:48,  4.23it/s] 75%|███████▍  | 5110/6837 [34:01<06:48,  4.23it/s] 75%|███████▍  | 5111/6837 [34:02<06:47,  4.23it/s] 75%|███████▍  | 5112/6837 [34:02<06:47,  4.24it/s] 75%|███████▍  | 5113/6837 [34:02<06:48,  4.22it/s] 75%|███████▍  | 5114/6837 [34:02<06:48,  4.22it/s] 75%|███████▍  | 5115/6837 [34:02<06:48,  4.22it/s] 75%|███████▍  | 5116/6837 [34:03<06:47,  4.22it/s] 75%|███████▍  | 5117/6837 [34:03<06:47,  4.22it/s] 75%|███████▍  | 5118/6837 [34:03<06:46,  4.23it/s] 75%|███████▍  | 5119/6837 [34:03<06:46,  4.23it/s] 75%|███████▍  | 5120/6837 [34:04<06:46,  4.22it/s] 75%|███████▍  | 5121/6837 [34:04<06:46,  4.22it/s] 75%|███████▍  | 5122/6837 [34:04<06:46,  4.22it/s] 75%|███████▍  | 5123/6837 [34:04<06:46,  4.22it/s] 75%|███████▍  | 5124/6837 [34:05<06:46,  4.22it/s] 75%|███████▍  | 5125/6837 [34:05<06:45,  4.22it/s]                                                   {'loss': 4.3352, 'grad_norm': 0.14886602759361267, 'learning_rate': 0.0010749637604083582, 'epoch': 0.15}
 75%|███████▍  | 5125/6837 [34:05<06:45,  4.22it/s] 75%|███████▍  | 5126/6837 [34:05<06:47,  4.20it/s] 75%|███████▍  | 5127/6837 [34:05<06:46,  4.20it/s] 75%|███████▌  | 5128/6837 [34:06<06:46,  4.20it/s] 75%|███████▌  | 5129/6837 [34:06<06:46,  4.20it/s] 75%|███████▌  | 5130/6837 [34:06<06:47,  4.19it/s] 75%|███████▌  | 5131/6837 [34:06<06:46,  4.19it/s] 75%|███████▌  | 5132/6837 [34:06<06:45,  4.20it/s] 75%|███████▌  | 5133/6837 [34:07<06:45,  4.20it/s] 75%|███████▌  | 5134/6837 [34:07<06:45,  4.20it/s] 75%|███████▌  | 5135/6837 [34:07<06:57,  4.07it/s] 75%|███████▌  | 5136/6837 [34:07<07:08,  3.97it/s] 75%|███████▌  | 5137/6837 [34:08<07:16,  3.89it/s] 75%|███████▌  | 5138/6837 [34:08<07:19,  3.87it/s] 75%|███████▌  | 5139/6837 [34:08<07:22,  3.84it/s] 75%|███████▌  | 5140/6837 [34:09<07:23,  3.83it/s] 75%|███████▌  | 5141/6837 [34:09<07:25,  3.81it/s] 75%|███████▌  | 5142/6837 [34:09<07:25,  3.80it/s] 75%|███████▌  | 5143/6837 [34:09<07:26,  3.79it/s] 75%|███████▌  | 5144/6837 [34:10<07:21,  3.84it/s] 75%|███████▌  | 5145/6837 [34:10<07:09,  3.94it/s] 75%|███████▌  | 5146/6837 [34:10<06:59,  4.03it/s] 75%|███████▌  | 5147/6837 [34:10<06:53,  4.08it/s] 75%|███████▌  | 5148/6837 [34:11<07:06,  3.96it/s] 75%|███████▌  | 5149/6837 [34:11<07:12,  3.90it/s] 75%|███████▌  | 5150/6837 [34:11<07:18,  3.85it/s]                                                   {'loss': 4.3402, 'grad_norm': 0.16718977689743042, 'learning_rate': 0.0010457513369285163, 'epoch': 0.15}
 75%|███████▌  | 5150/6837 [34:11<07:18,  3.85it/s] 75%|███████▌  | 5151/6837 [34:11<07:22,  3.81it/s] 75%|███████▌  | 5152/6837 [34:12<07:24,  3.79it/s] 75%|███████▌  | 5153/6837 [34:12<07:27,  3.76it/s] 75%|███████▌  | 5154/6837 [34:12<07:27,  3.76it/s] 75%|███████▌  | 5155/6837 [34:12<07:20,  3.82it/s] 75%|███████▌  | 5156/6837 [34:13<07:07,  3.93it/s] 75%|███████▌  | 5157/6837 [34:13<07:12,  3.89it/s] 75%|███████▌  | 5158/6837 [34:13<07:01,  3.98it/s] 75%|███████▌  | 5159/6837 [34:13<06:53,  4.06it/s] 75%|███████▌  | 5160/6837 [34:14<06:48,  4.11it/s] 75%|███████▌  | 5161/6837 [34:14<06:44,  4.14it/s] 76%|███████▌  | 5162/6837 [34:14<06:41,  4.17it/s] 76%|███████▌  | 5163/6837 [34:14<06:39,  4.19it/s] 76%|███████▌  | 5164/6837 [34:15<06:38,  4.20it/s] 76%|███████▌  | 5165/6837 [34:15<06:36,  4.22it/s] 76%|███████▌  | 5166/6837 [34:15<06:35,  4.22it/s] 76%|███████▌  | 5167/6837 [34:15<06:34,  4.23it/s] 76%|███████▌  | 5168/6837 [34:16<06:34,  4.23it/s] 76%|███████▌  | 5169/6837 [34:16<06:33,  4.23it/s] 76%|███████▌  | 5170/6837 [34:16<06:33,  4.23it/s] 76%|███████▌  | 5171/6837 [34:16<06:34,  4.23it/s] 76%|███████▌  | 5172/6837 [34:16<06:34,  4.22it/s] 76%|███████▌  | 5173/6837 [34:17<06:33,  4.22it/s] 76%|███████▌  | 5174/6837 [34:17<06:33,  4.23it/s] 76%|███████▌  | 5175/6837 [34:17<06:33,  4.22it/s]                                                   {'loss': 4.3259, 'grad_norm': 0.17196804285049438, 'learning_rate': 0.0010168573184343105, 'epoch': 0.15}
 76%|███████▌  | 5175/6837 [34:17<06:33,  4.22it/s] 76%|███████▌  | 5176/6837 [34:17<06:34,  4.21it/s] 76%|███████▌  | 5177/6837 [34:18<06:33,  4.21it/s] 76%|███████▌  | 5178/6837 [34:18<06:33,  4.22it/s] 76%|███████▌  | 5179/6837 [34:18<06:32,  4.22it/s] 76%|███████▌  | 5180/6837 [34:18<06:32,  4.22it/s] 76%|███████▌  | 5181/6837 [34:19<06:32,  4.22it/s] 76%|███████▌  | 5182/6837 [34:19<06:32,  4.21it/s] 76%|███████▌  | 5183/6837 [34:19<06:32,  4.21it/s] 76%|███████▌  | 5184/6837 [34:19<06:32,  4.21it/s] 76%|███████▌  | 5185/6837 [34:20<06:31,  4.22it/s] 76%|███████▌  | 5186/6837 [34:20<06:30,  4.22it/s] 76%|███████▌  | 5187/6837 [34:20<06:30,  4.22it/s] 76%|███████▌  | 5188/6837 [34:20<06:30,  4.22it/s] 76%|███████▌  | 5189/6837 [34:21<06:30,  4.21it/s] 76%|███████▌  | 5190/6837 [34:21<06:30,  4.22it/s] 76%|███████▌  | 5191/6837 [34:21<06:30,  4.22it/s] 76%|███████▌  | 5192/6837 [34:21<06:29,  4.22it/s] 76%|███████▌  | 5193/6837 [34:21<06:29,  4.22it/s] 76%|███████▌  | 5194/6837 [34:22<06:28,  4.23it/s] 76%|███████▌  | 5195/6837 [34:22<06:27,  4.23it/s] 76%|███████▌  | 5196/6837 [34:22<06:28,  4.22it/s] 76%|███████▌  | 5197/6837 [34:22<06:28,  4.22it/s] 76%|███████▌  | 5198/6837 [34:23<06:28,  4.22it/s] 76%|███████▌  | 5199/6837 [34:23<06:28,  4.22it/s] 76%|███████▌  | 5200/6837 [34:23<06:28,  4.22it/s]                                                   {'loss': 4.3245, 'grad_norm': 0.1394873857498169, 'learning_rate': 0.0009882864126170992, 'epoch': 0.15}
 76%|███████▌  | 5200/6837 [34:23<06:28,  4.22it/s] 76%|███████▌  | 5201/6837 [34:23<06:29,  4.20it/s] 76%|███████▌  | 5202/6837 [34:24<06:28,  4.21it/s] 76%|███████▌  | 5203/6837 [34:24<06:28,  4.21it/s] 76%|███████▌  | 5204/6837 [34:24<06:27,  4.21it/s] 76%|███████▌  | 5205/6837 [34:24<06:27,  4.21it/s] 76%|███████▌  | 5206/6837 [34:25<06:27,  4.21it/s] 76%|███████▌  | 5207/6837 [34:25<06:26,  4.22it/s] 76%|███████▌  | 5208/6837 [34:25<06:26,  4.21it/s] 76%|███████▌  | 5209/6837 [34:25<06:26,  4.21it/s] 76%|███████▌  | 5210/6837 [34:26<06:26,  4.21it/s] 76%|███████▌  | 5211/6837 [34:26<06:26,  4.21it/s] 76%|███████▌  | 5212/6837 [34:26<06:25,  4.21it/s] 76%|███████▌  | 5213/6837 [34:26<06:37,  4.09it/s] 76%|███████▋  | 5214/6837 [34:27<06:49,  3.97it/s] 76%|███████▋  | 5215/6837 [34:27<06:58,  3.88it/s] 76%|███████▋  | 5216/6837 [34:27<07:02,  3.84it/s] 76%|███████▋  | 5217/6837 [34:27<07:08,  3.78it/s] 76%|███████▋  | 5218/6837 [34:28<07:08,  3.77it/s] 76%|███████▋  | 5219/6837 [34:28<07:08,  3.78it/s] 76%|███████▋  | 5220/6837 [34:28<07:07,  3.78it/s] 76%|███████▋  | 5221/6837 [34:28<07:07,  3.78it/s] 76%|███████▋  | 5222/6837 [34:29<07:07,  3.78it/s] 76%|███████▋  | 5223/6837 [34:29<07:06,  3.79it/s] 76%|███████▋  | 5224/6837 [34:29<07:07,  3.77it/s] 76%|███████▋  | 5225/6837 [34:29<07:08,  3.76it/s]                                                   {'loss': 4.3233, 'grad_norm': 0.14485645294189453, 'learning_rate': 0.0009600432745236163, 'epoch': 0.15}
 76%|███████▋  | 5225/6837 [34:29<07:08,  3.76it/s] 76%|███████▋  | 5226/6837 [34:30<07:08,  3.76it/s] 76%|███████▋  | 5227/6837 [34:30<07:07,  3.77it/s] 76%|███████▋  | 5228/6837 [34:30<07:10,  3.74it/s] 76%|███████▋  | 5229/6837 [34:31<07:08,  3.75it/s] 76%|███████▋  | 5230/6837 [34:31<07:01,  3.81it/s] 77%|███████▋  | 5231/6837 [34:31<06:48,  3.93it/s] 77%|███████▋  | 5232/6837 [34:31<06:39,  4.01it/s] 77%|███████▋  | 5233/6837 [34:31<06:34,  4.07it/s] 77%|███████▋  | 5234/6837 [34:32<06:29,  4.11it/s] 77%|███████▋  | 5235/6837 [34:32<06:26,  4.14it/s] 77%|███████▋  | 5236/6837 [34:32<06:24,  4.17it/s] 77%|███████▋  | 5237/6837 [34:32<06:22,  4.18it/s] 77%|███████▋  | 5238/6837 [34:33<06:21,  4.19it/s] 77%|███████▋  | 5239/6837 [34:33<06:20,  4.20it/s] 77%|███████▋  | 5240/6837 [34:33<06:18,  4.21it/s] 77%|███████▋  | 5241/6837 [34:33<06:17,  4.22it/s] 77%|███████▋  | 5242/6837 [34:34<06:17,  4.23it/s] 77%|███████▋  | 5243/6837 [34:34<06:16,  4.23it/s] 77%|███████▋  | 5244/6837 [34:34<06:16,  4.23it/s] 77%|███████▋  | 5245/6837 [34:34<06:16,  4.23it/s] 77%|███████▋  | 5246/6837 [34:35<06:15,  4.24it/s] 77%|███████▋  | 5247/6837 [34:35<06:29,  4.09it/s] 77%|███████▋  | 5248/6837 [34:35<06:38,  3.99it/s] 77%|███████▋  | 5249/6837 [34:35<06:46,  3.91it/s] 77%|███████▋  | 5250/6837 [34:36<06:49,  3.87it/s]                                                   {'loss': 4.319, 'grad_norm': 0.16479887068271637, 'learning_rate': 0.0009321325057975276, 'epoch': 0.15}
 77%|███████▋  | 5250/6837 [34:36<06:49,  3.87it/s] 77%|███████▋  | 5251/6837 [34:36<06:41,  3.95it/s] 77%|███████▋  | 5252/6837 [34:36<06:48,  3.88it/s] 77%|███████▋  | 5253/6837 [34:36<06:37,  3.98it/s] 77%|███████▋  | 5254/6837 [34:37<06:30,  4.05it/s] 77%|███████▋  | 5255/6837 [34:37<06:25,  4.10it/s] 77%|███████▋  | 5256/6837 [34:37<06:21,  4.14it/s] 77%|███████▋  | 5257/6837 [34:37<06:18,  4.17it/s] 77%|███████▋  | 5258/6837 [34:38<06:16,  4.19it/s] 77%|███████▋  | 5259/6837 [34:38<06:15,  4.20it/s] 77%|███████▋  | 5260/6837 [34:38<06:14,  4.22it/s] 77%|███████▋  | 5261/6837 [34:38<06:13,  4.22it/s] 77%|███████▋  | 5262/6837 [34:38<06:12,  4.23it/s] 77%|███████▋  | 5263/6837 [34:39<06:12,  4.23it/s] 77%|███████▋  | 5264/6837 [34:39<06:11,  4.23it/s] 77%|███████▋  | 5265/6837 [34:39<06:12,  4.22it/s] 77%|███████▋  | 5266/6837 [34:39<06:13,  4.21it/s] 77%|███████▋  | 5267/6837 [34:40<06:13,  4.20it/s] 77%|███████▋  | 5268/6837 [34:40<06:12,  4.21it/s] 77%|███████▋  | 5269/6837 [34:40<06:12,  4.21it/s] 77%|███████▋  | 5270/6837 [34:40<06:11,  4.22it/s] 77%|███████▋  | 5271/6837 [34:41<06:10,  4.22it/s] 77%|███████▋  | 5272/6837 [34:41<06:11,  4.22it/s] 77%|███████▋  | 5273/6837 [34:41<06:10,  4.22it/s] 77%|███████▋  | 5274/6837 [34:41<06:10,  4.22it/s] 77%|███████▋  | 5275/6837 [34:42<06:10,  4.22it/s]                                                   {'loss': 4.3029, 'grad_norm': 0.15019620954990387, 'learning_rate': 0.0009045586539296815, 'epoch': 0.15}
 77%|███████▋  | 5275/6837 [34:42<06:10,  4.22it/s] 77%|███████▋  | 5276/6837 [34:42<06:16,  4.14it/s] 77%|███████▋  | 5277/6837 [34:42<06:14,  4.17it/s] 77%|███████▋  | 5278/6837 [34:42<06:12,  4.19it/s] 77%|███████▋  | 5279/6837 [34:43<06:12,  4.18it/s] 77%|███████▋  | 5280/6837 [34:43<06:25,  4.04it/s] 77%|███████▋  | 5281/6837 [34:43<06:34,  3.95it/s] 77%|███████▋  | 5282/6837 [34:43<06:25,  4.03it/s] 77%|███████▋  | 5283/6837 [34:44<06:19,  4.10it/s] 77%|███████▋  | 5284/6837 [34:44<06:15,  4.14it/s] 77%|███████▋  | 5285/6837 [34:44<06:12,  4.17it/s] 77%|███████▋  | 5286/6837 [34:44<06:11,  4.18it/s] 77%|███████▋  | 5287/6837 [34:44<06:09,  4.19it/s] 77%|███████▋  | 5288/6837 [34:45<06:09,  4.19it/s] 77%|███████▋  | 5289/6837 [34:45<06:08,  4.20it/s] 77%|███████▋  | 5290/6837 [34:45<06:08,  4.20it/s] 77%|███████▋  | 5291/6837 [34:45<06:07,  4.21it/s] 77%|███████▋  | 5292/6837 [34:46<06:07,  4.21it/s] 77%|███████▋  | 5293/6837 [34:46<06:06,  4.21it/s] 77%|███████▋  | 5294/6837 [34:46<06:06,  4.21it/s] 77%|███████▋  | 5295/6837 [34:46<06:05,  4.22it/s] 77%|███████▋  | 5296/6837 [34:47<06:05,  4.21it/s] 77%|███████▋  | 5297/6837 [34:47<06:06,  4.21it/s] 77%|███████▋  | 5298/6837 [34:47<06:05,  4.21it/s] 78%|███████▊  | 5299/6837 [34:47<06:05,  4.21it/s] 78%|███████▊  | 5300/6837 [34:48<06:05,  4.20it/s]                                                   {'loss': 4.3355, 'grad_norm': 0.15404148399829865, 'learning_rate': 0.0008773262115171941, 'epoch': 0.16}
 78%|███████▊  | 5300/6837 [34:48<06:05,  4.20it/s] 78%|███████▊  | 5301/6837 [34:48<06:06,  4.19it/s] 78%|███████▊  | 5302/6837 [34:48<06:05,  4.20it/s] 78%|███████▊  | 5303/6837 [34:48<06:04,  4.21it/s] 78%|███████▊  | 5304/6837 [34:49<06:03,  4.22it/s] 78%|███████▊  | 5305/6837 [34:49<06:03,  4.22it/s] 78%|███████▊  | 5306/6837 [34:49<06:02,  4.22it/s] 78%|███████▊  | 5307/6837 [34:49<06:03,  4.21it/s] 78%|███████▊  | 5308/6837 [34:49<06:02,  4.21it/s] 78%|███████▊  | 5309/6837 [34:50<06:02,  4.22it/s] 78%|███████▊  | 5310/6837 [34:50<06:01,  4.22it/s] 78%|███████▊  | 5311/6837 [34:50<06:01,  4.22it/s] 78%|███████▊  | 5312/6837 [34:50<06:01,  4.22it/s] 78%|███████▊  | 5313/6837 [34:51<06:01,  4.22it/s] 78%|███████▊  | 5314/6837 [34:51<06:01,  4.22it/s] 78%|███████▊  | 5315/6837 [34:51<06:00,  4.22it/s] 78%|███████▊  | 5316/6837 [34:51<06:00,  4.22it/s] 78%|███████▊  | 5317/6837 [34:52<06:00,  4.22it/s] 78%|███████▊  | 5318/6837 [34:52<06:00,  4.22it/s] 78%|███████▊  | 5319/6837 [34:52<05:59,  4.22it/s] 78%|███████▊  | 5320/6837 [34:52<05:59,  4.22it/s] 78%|███████▊  | 5321/6837 [34:53<05:59,  4.21it/s] 78%|███████▊  | 5322/6837 [34:53<06:00,  4.21it/s] 78%|███████▊  | 5323/6837 [34:53<05:59,  4.21it/s] 78%|███████▊  | 5324/6837 [34:53<05:59,  4.21it/s] 78%|███████▊  | 5325/6837 [34:53<05:58,  4.21it/s]{'loss': 4.3336, 'grad_norm': 0.15235549211502075, 'learning_rate': 0.0008504396155314719, 'epoch': 0.16}
                                                    78%|███████▊  | 5325/6837 [34:53<05:58,  4.21it/s] 78%|███████▊  | 5326/6837 [34:54<05:59,  4.20it/s] 78%|███████▊  | 5327/6837 [34:54<05:58,  4.21it/s] 78%|███████▊  | 5328/6837 [34:54<05:58,  4.21it/s] 78%|███████▊  | 5329/6837 [34:54<06:14,  4.02it/s] 78%|███████▊  | 5330/6837 [34:55<06:23,  3.93it/s] 78%|███████▊  | 5331/6837 [34:55<06:21,  3.95it/s] 78%|███████▊  | 5332/6837 [34:55<06:13,  4.03it/s] 78%|███████▊  | 5333/6837 [34:55<06:07,  4.09it/s] 78%|███████▊  | 5334/6837 [34:56<06:03,  4.14it/s] 78%|███████▊  | 5335/6837 [34:56<06:00,  4.17it/s] 78%|███████▊  | 5336/6837 [34:56<05:58,  4.19it/s] 78%|███████▊  | 5337/6837 [34:56<05:56,  4.21it/s] 78%|███████▊  | 5338/6837 [34:57<05:55,  4.22it/s] 78%|███████▊  | 5339/6837 [34:57<05:54,  4.23it/s] 78%|███████▊  | 5340/6837 [34:57<05:53,  4.24it/s] 78%|███████▊  | 5341/6837 [34:57<05:52,  4.24it/s] 78%|███████▊  | 5342/6837 [34:58<05:52,  4.24it/s] 78%|███████▊  | 5343/6837 [34:58<05:52,  4.24it/s] 78%|███████▊  | 5344/6837 [34:58<05:52,  4.24it/s] 78%|███████▊  | 5345/6837 [34:58<05:52,  4.23it/s] 78%|███████▊  | 5346/6837 [34:59<05:52,  4.23it/s] 78%|███████▊  | 5347/6837 [34:59<05:52,  4.23it/s] 78%|███████▊  | 5348/6837 [34:59<05:51,  4.23it/s] 78%|███████▊  | 5349/6837 [34:59<05:52,  4.22it/s] 78%|███████▊  | 5350/6837 [34:59<05:51,  4.23it/s]                                                   {'loss': 4.3149, 'grad_norm': 0.1456640362739563, 'learning_rate': 0.0008239032465952924, 'epoch': 0.16}
 78%|███████▊  | 5350/6837 [34:59<05:51,  4.23it/s] 78%|███████▊  | 5351/6837 [35:00<05:52,  4.22it/s] 78%|███████▊  | 5352/6837 [35:00<05:52,  4.22it/s] 78%|███████▊  | 5353/6837 [35:00<05:51,  4.22it/s] 78%|███████▊  | 5354/6837 [35:00<05:51,  4.22it/s] 78%|███████▊  | 5355/6837 [35:01<05:51,  4.22it/s] 78%|███████▊  | 5356/6837 [35:01<05:50,  4.22it/s] 78%|███████▊  | 5357/6837 [35:01<05:51,  4.21it/s] 78%|███████▊  | 5358/6837 [35:01<05:50,  4.22it/s] 78%|███████▊  | 5359/6837 [35:02<05:49,  4.22it/s] 78%|███████▊  | 5360/6837 [35:02<05:50,  4.22it/s] 78%|███████▊  | 5361/6837 [35:02<05:49,  4.22it/s] 78%|███████▊  | 5362/6837 [35:02<05:49,  4.23it/s] 78%|███████▊  | 5363/6837 [35:03<05:48,  4.22it/s] 78%|███████▊  | 5364/6837 [35:03<05:49,  4.22it/s] 78%|███████▊  | 5365/6837 [35:03<05:48,  4.22it/s] 78%|███████▊  | 5366/6837 [35:03<05:48,  4.22it/s] 78%|███████▊  | 5367/6837 [35:04<05:48,  4.22it/s] 79%|███████▊  | 5368/6837 [35:04<05:47,  4.22it/s] 79%|███████▊  | 5369/6837 [35:04<05:47,  4.23it/s] 79%|███████▊  | 5370/6837 [35:04<05:47,  4.22it/s] 79%|███████▊  | 5371/6837 [35:04<05:47,  4.22it/s] 79%|███████▊  | 5372/6837 [35:05<05:47,  4.22it/s] 79%|███████▊  | 5373/6837 [35:05<05:47,  4.22it/s] 79%|███████▊  | 5374/6837 [35:05<05:47,  4.21it/s] 79%|███████▊  | 5375/6837 [35:05<05:47,  4.21it/s]                                                   {'loss': 4.312, 'grad_norm': 0.14772243797779083, 'learning_rate': 0.0007977214282690755, 'epoch': 0.16}
 79%|███████▊  | 5375/6837 [35:05<05:47,  4.21it/s] 79%|███████▊  | 5376/6837 [35:06<05:47,  4.20it/s] 79%|███████▊  | 5377/6837 [35:06<05:46,  4.21it/s] 79%|███████▊  | 5378/6837 [35:06<05:46,  4.21it/s] 79%|███████▊  | 5379/6837 [35:06<05:46,  4.21it/s] 79%|███████▊  | 5380/6837 [35:07<05:45,  4.22it/s] 79%|███████▊  | 5381/6837 [35:07<05:45,  4.22it/s] 79%|███████▊  | 5382/6837 [35:07<05:44,  4.22it/s] 79%|███████▊  | 5383/6837 [35:07<05:44,  4.22it/s] 79%|███████▊  | 5384/6837 [35:08<05:43,  4.23it/s] 79%|███████▉  | 5385/6837 [35:08<05:44,  4.22it/s] 79%|███████▉  | 5386/6837 [35:08<05:43,  4.22it/s] 79%|███████▉  | 5387/6837 [35:08<05:43,  4.22it/s] 79%|███████▉  | 5388/6837 [35:08<05:43,  4.21it/s] 79%|███████▉  | 5389/6837 [35:09<05:43,  4.22it/s] 79%|███████▉  | 5390/6837 [35:09<05:43,  4.22it/s] 79%|███████▉  | 5391/6837 [35:09<05:42,  4.22it/s] 79%|███████▉  | 5392/6837 [35:09<05:43,  4.21it/s] 79%|███████▉  | 5393/6837 [35:10<05:42,  4.21it/s] 79%|███████▉  | 5394/6837 [35:10<05:42,  4.21it/s] 79%|███████▉  | 5395/6837 [35:10<05:41,  4.22it/s] 79%|███████▉  | 5396/6837 [35:10<05:41,  4.22it/s] 79%|███████▉  | 5397/6837 [35:11<05:40,  4.23it/s] 79%|███████▉  | 5398/6837 [35:11<05:40,  4.23it/s] 79%|███████▉  | 5399/6837 [35:11<05:39,  4.23it/s] 79%|███████▉  | 5400/6837 [35:11<05:40,  4.22it/s]                                                   {'loss': 4.3111, 'grad_norm': 0.14781531691551208, 'learning_rate': 0.0007718984263464471, 'epoch': 0.16}
 79%|███████▉  | 5400/6837 [35:11<05:40,  4.22it/s] 79%|███████▉  | 5401/6837 [35:12<05:41,  4.21it/s] 79%|███████▉  | 5402/6837 [35:12<05:40,  4.21it/s] 79%|███████▉  | 5403/6837 [35:12<05:40,  4.21it/s] 79%|███████▉  | 5404/6837 [35:12<05:39,  4.22it/s] 79%|███████▉  | 5405/6837 [35:13<05:38,  4.22it/s] 79%|███████▉  | 5406/6837 [35:13<05:51,  4.07it/s] 79%|███████▉  | 5407/6837 [35:13<05:59,  3.97it/s] 79%|███████▉  | 5408/6837 [35:13<05:53,  4.05it/s] 79%|███████▉  | 5409/6837 [35:14<05:48,  4.10it/s] 79%|███████▉  | 5410/6837 [35:14<05:45,  4.13it/s] 79%|███████▉  | 5411/6837 [35:14<05:42,  4.16it/s] 79%|███████▉  | 5412/6837 [35:14<05:40,  4.18it/s] 79%|███████▉  | 5413/6837 [35:14<05:39,  4.19it/s] 79%|███████▉  | 5414/6837 [35:15<05:38,  4.21it/s] 79%|███████▉  | 5415/6837 [35:15<05:37,  4.21it/s] 79%|███████▉  | 5416/6837 [35:15<05:36,  4.22it/s] 79%|███████▉  | 5417/6837 [35:15<05:36,  4.22it/s] 79%|███████▉  | 5418/6837 [35:16<05:35,  4.23it/s] 79%|███████▉  | 5419/6837 [35:16<05:35,  4.23it/s] 79%|███████▉  | 5420/6837 [35:16<05:35,  4.23it/s] 79%|███████▉  | 5421/6837 [35:16<05:35,  4.23it/s] 79%|███████▉  | 5422/6837 [35:17<05:34,  4.23it/s] 79%|███████▉  | 5423/6837 [35:17<05:34,  4.23it/s] 79%|███████▉  | 5424/6837 [35:17<05:35,  4.22it/s] 79%|███████▉  | 5425/6837 [35:17<05:34,  4.22it/s]                                                   {'loss': 4.299, 'grad_norm': 0.15480075776576996, 'learning_rate': 0.0007464384481592105, 'epoch': 0.16}
 79%|███████▉  | 5425/6837 [35:17<05:34,  4.22it/s] 79%|███████▉  | 5426/6837 [35:18<05:34,  4.21it/s] 79%|███████▉  | 5427/6837 [35:18<05:34,  4.22it/s] 79%|███████▉  | 5428/6837 [35:18<05:34,  4.21it/s] 79%|███████▉  | 5429/6837 [35:18<05:34,  4.21it/s] 79%|███████▉  | 5430/6837 [35:18<05:33,  4.22it/s] 79%|███████▉  | 5431/6837 [35:19<05:33,  4.22it/s] 79%|███████▉  | 5432/6837 [35:19<05:32,  4.22it/s] 79%|███████▉  | 5433/6837 [35:19<05:44,  4.07it/s] 79%|███████▉  | 5434/6837 [35:20<05:52,  3.98it/s] 79%|███████▉  | 5435/6837 [35:20<05:57,  3.92it/s] 80%|███████▉  | 5436/6837 [35:20<06:18,  3.71it/s] 80%|███████▉  | 5437/6837 [35:20<06:13,  3.75it/s] 80%|███████▉  | 5438/6837 [35:21<06:13,  3.75it/s] 80%|███████▉  | 5439/6837 [35:21<06:01,  3.87it/s] 80%|███████▉  | 5440/6837 [35:21<05:51,  3.98it/s] 80%|███████▉  | 5441/6837 [35:21<05:44,  4.05it/s] 80%|███████▉  | 5442/6837 [35:22<05:39,  4.11it/s] 80%|███████▉  | 5443/6837 [35:22<05:36,  4.15it/s] 80%|███████▉  | 5444/6837 [35:22<05:33,  4.17it/s] 80%|███████▉  | 5445/6837 [35:22<05:31,  4.20it/s] 80%|███████▉  | 5446/6837 [35:22<05:30,  4.21it/s] 80%|███████▉  | 5447/6837 [35:23<05:29,  4.22it/s] 80%|███████▉  | 5448/6837 [35:23<05:29,  4.22it/s] 80%|███████▉  | 5449/6837 [35:23<05:28,  4.23it/s] 80%|███████▉  | 5450/6837 [35:23<05:27,  4.23it/s]                                                   {'loss': 4.3252, 'grad_norm': 0.14403195679187775, 'learning_rate': 0.0007213456418918534, 'epoch': 0.16}
 80%|███████▉  | 5450/6837 [35:23<05:27,  4.23it/s] 80%|███████▉  | 5451/6837 [35:24<05:30,  4.19it/s] 80%|███████▉  | 5452/6837 [35:24<05:29,  4.20it/s] 80%|███████▉  | 5453/6837 [35:24<05:28,  4.21it/s] 80%|███████▉  | 5454/6837 [35:24<05:40,  4.06it/s] 80%|███████▉  | 5455/6837 [35:25<05:42,  4.04it/s] 80%|███████▉  | 5456/6837 [35:25<05:36,  4.10it/s] 80%|███████▉  | 5457/6837 [35:25<05:33,  4.14it/s] 80%|███████▉  | 5458/6837 [35:25<05:30,  4.17it/s] 80%|███████▉  | 5459/6837 [35:26<05:28,  4.20it/s] 80%|███████▉  | 5460/6837 [35:26<05:27,  4.21it/s] 80%|███████▉  | 5461/6837 [35:26<05:26,  4.22it/s] 80%|███████▉  | 5462/6837 [35:26<05:25,  4.23it/s] 80%|███████▉  | 5463/6837 [35:27<05:25,  4.22it/s] 80%|███████▉  | 5464/6837 [35:27<05:39,  4.05it/s] 80%|███████▉  | 5465/6837 [35:27<05:44,  3.98it/s] 80%|███████▉  | 5466/6837 [35:27<05:51,  3.90it/s] 80%|███████▉  | 5467/6837 [35:28<05:55,  3.86it/s] 80%|███████▉  | 5468/6837 [35:28<05:59,  3.81it/s] 80%|███████▉  | 5469/6837 [35:28<06:01,  3.78it/s] 80%|████████  | 5470/6837 [35:28<05:51,  3.89it/s] 80%|████████  | 5471/6837 [35:29<05:42,  3.99it/s] 80%|████████  | 5472/6837 [35:29<05:35,  4.07it/s] 80%|████████  | 5473/6837 [35:29<05:31,  4.12it/s] 80%|████████  | 5474/6837 [35:29<05:27,  4.16it/s] 80%|████████  | 5475/6837 [35:30<05:25,  4.18it/s]{'loss': 4.3246, 'grad_norm': 0.15620769560337067, 'learning_rate': 0.0006966240959056853, 'epoch': 0.16}
                                                    80%|████████  | 5475/6837 [35:30<05:25,  4.18it/s] 80%|████████  | 5476/6837 [35:30<05:24,  4.19it/s] 80%|████████  | 5477/6837 [35:30<05:23,  4.20it/s] 80%|████████  | 5478/6837 [35:30<05:22,  4.21it/s] 80%|████████  | 5479/6837 [35:31<05:21,  4.22it/s] 80%|████████  | 5480/6837 [35:31<05:20,  4.23it/s] 80%|████████  | 5481/6837 [35:31<05:20,  4.24it/s] 80%|████████  | 5482/6837 [35:31<05:20,  4.23it/s] 80%|████████  | 5483/6837 [35:31<05:19,  4.23it/s] 80%|████████  | 5484/6837 [35:32<05:19,  4.24it/s] 80%|████████  | 5485/6837 [35:32<05:18,  4.24it/s] 80%|████████  | 5486/6837 [35:32<05:18,  4.24it/s] 80%|████████  | 5487/6837 [35:32<05:18,  4.24it/s] 80%|████████  | 5488/6837 [35:33<05:17,  4.24it/s] 80%|████████  | 5489/6837 [35:33<05:16,  4.25it/s] 80%|████████  | 5490/6837 [35:33<05:17,  4.24it/s] 80%|████████  | 5491/6837 [35:33<05:17,  4.24it/s] 80%|████████  | 5492/6837 [35:34<05:16,  4.25it/s] 80%|████████  | 5493/6837 [35:34<05:16,  4.25it/s] 80%|████████  | 5494/6837 [35:34<05:16,  4.25it/s] 80%|████████  | 5495/6837 [35:34<05:16,  4.25it/s] 80%|████████  | 5496/6837 [35:35<05:16,  4.24it/s] 80%|████████  | 5497/6837 [35:35<05:27,  4.09it/s] 80%|████████  | 5498/6837 [35:35<05:35,  3.99it/s] 80%|████████  | 5499/6837 [35:35<05:39,  3.94it/s] 80%|████████  | 5500/6837 [35:36<05:44,  3.88it/s]                                                   {'loss': 4.3129, 'grad_norm': 0.14926698803901672, 'learning_rate': 0.0006722778380727169, 'epoch': 0.16}
 80%|████████  | 5500/6837 [35:36<05:44,  3.88it/s] 80%|████████  | 5501/6837 [35:36<05:48,  3.83it/s] 80%|████████  | 5502/6837 [35:36<05:49,  3.82it/s] 80%|████████  | 5503/6837 [35:36<05:41,  3.91it/s] 81%|████████  | 5504/6837 [35:37<05:33,  4.00it/s] 81%|████████  | 5505/6837 [35:37<05:27,  4.07it/s] 81%|████████  | 5506/6837 [35:37<05:22,  4.12it/s] 81%|████████  | 5507/6837 [35:37<05:20,  4.15it/s] 81%|████████  | 5508/6837 [35:38<05:17,  4.18it/s] 81%|████████  | 5509/6837 [35:38<05:15,  4.20it/s] 81%|████████  | 5510/6837 [35:38<05:14,  4.22it/s] 81%|████████  | 5511/6837 [35:38<05:13,  4.22it/s] 81%|████████  | 5512/6837 [35:38<05:13,  4.23it/s] 81%|████████  | 5513/6837 [35:39<05:12,  4.23it/s] 81%|████████  | 5514/6837 [35:39<05:12,  4.23it/s] 81%|████████  | 5515/6837 [35:39<05:12,  4.23it/s] 81%|████████  | 5516/6837 [35:39<05:13,  4.22it/s] 81%|████████  | 5517/6837 [35:40<05:14,  4.20it/s] 81%|████████  | 5518/6837 [35:40<05:13,  4.21it/s] 81%|████████  | 5519/6837 [35:40<05:12,  4.22it/s] 81%|████████  | 5520/6837 [35:40<05:11,  4.23it/s] 81%|████████  | 5521/6837 [35:41<05:10,  4.23it/s] 81%|████████  | 5522/6837 [35:41<05:10,  4.23it/s] 81%|████████  | 5523/6837 [35:41<05:09,  4.24it/s] 81%|████████  | 5524/6837 [35:41<05:09,  4.24it/s] 81%|████████  | 5525/6837 [35:42<05:09,  4.24it/s]                                                   {'loss': 4.3128, 'grad_norm': 0.15168799459934235, 'learning_rate': 0.000648310835119406, 'epoch': 0.16}
 81%|████████  | 5525/6837 [35:42<05:09,  4.24it/s] 81%|████████  | 5526/6837 [35:42<05:10,  4.22it/s] 81%|████████  | 5527/6837 [35:42<05:09,  4.23it/s] 81%|████████  | 5528/6837 [35:42<05:08,  4.24it/s] 81%|████████  | 5529/6837 [35:42<05:08,  4.24it/s] 81%|████████  | 5530/6837 [35:43<05:19,  4.09it/s] 81%|████████  | 5531/6837 [35:43<05:24,  4.02it/s] 81%|████████  | 5532/6837 [35:43<05:25,  4.00it/s] 81%|████████  | 5533/6837 [35:44<05:19,  4.08it/s] 81%|████████  | 5534/6837 [35:44<05:15,  4.13it/s] 81%|████████  | 5535/6837 [35:44<05:12,  4.17it/s] 81%|████████  | 5536/6837 [35:44<05:10,  4.20it/s] 81%|████████  | 5537/6837 [35:44<05:08,  4.21it/s] 81%|████████  | 5538/6837 [35:45<05:07,  4.23it/s] 81%|████████  | 5539/6837 [35:45<05:06,  4.23it/s] 81%|████████  | 5540/6837 [35:45<05:06,  4.23it/s] 81%|████████  | 5541/6837 [35:45<05:05,  4.24it/s] 81%|████████  | 5542/6837 [35:46<05:05,  4.24it/s] 81%|████████  | 5543/6837 [35:46<05:05,  4.23it/s] 81%|████████  | 5544/6837 [35:46<05:05,  4.24it/s] 81%|████████  | 5545/6837 [35:46<05:04,  4.24it/s] 81%|████████  | 5546/6837 [35:47<05:04,  4.24it/s] 81%|████████  | 5547/6837 [35:47<05:04,  4.23it/s] 81%|████████  | 5548/6837 [35:47<05:04,  4.24it/s] 81%|████████  | 5549/6837 [35:47<05:04,  4.24it/s] 81%|████████  | 5550/6837 [35:48<05:04,  4.23it/s]                                                   {'loss': 4.3123, 'grad_norm': 0.14819887280464172, 'learning_rate': 0.0006247269919803577, 'epoch': 0.16}
 81%|████████  | 5550/6837 [35:48<05:04,  4.23it/s] 81%|████████  | 5551/6837 [35:48<05:04,  4.22it/s] 81%|████████  | 5552/6837 [35:48<05:03,  4.23it/s] 81%|████████  | 5553/6837 [35:48<05:03,  4.23it/s] 81%|████████  | 5554/6837 [35:48<05:03,  4.23it/s] 81%|████████  | 5555/6837 [35:49<05:02,  4.23it/s] 81%|████████▏ | 5556/6837 [35:49<05:02,  4.24it/s] 81%|████████▏ | 5557/6837 [35:49<05:02,  4.24it/s] 81%|████████▏ | 5558/6837 [35:49<05:02,  4.23it/s] 81%|████████▏ | 5559/6837 [35:50<05:01,  4.24it/s] 81%|████████▏ | 5560/6837 [35:50<05:01,  4.24it/s] 81%|████████▏ | 5561/6837 [35:50<05:01,  4.23it/s] 81%|████████▏ | 5562/6837 [35:50<05:01,  4.23it/s] 81%|████████▏ | 5563/6837 [35:51<05:01,  4.23it/s] 81%|████████▏ | 5564/6837 [35:51<05:00,  4.23it/s] 81%|████████▏ | 5565/6837 [35:51<05:00,  4.24it/s] 81%|████████▏ | 5566/6837 [35:51<04:59,  4.24it/s] 81%|████████▏ | 5567/6837 [35:52<04:59,  4.24it/s] 81%|████████▏ | 5568/6837 [35:52<04:59,  4.24it/s] 81%|████████▏ | 5569/6837 [35:52<04:59,  4.24it/s] 81%|████████▏ | 5570/6837 [35:52<04:58,  4.24it/s] 81%|████████▏ | 5571/6837 [35:52<04:59,  4.23it/s] 81%|████████▏ | 5572/6837 [35:53<04:58,  4.23it/s] 82%|████████▏ | 5573/6837 [35:53<04:58,  4.24it/s] 82%|████████▏ | 5574/6837 [35:53<04:57,  4.24it/s] 82%|████████▏ | 5575/6837 [35:53<04:58,  4.23it/s]                                                   {'loss': 4.3167, 'grad_norm': 0.14942596852779388, 'learning_rate': 0.0006015301511620938, 'epoch': 0.16}
 82%|████████▏ | 5575/6837 [35:53<04:58,  4.23it/s] 82%|████████▏ | 5576/6837 [35:54<04:58,  4.23it/s] 82%|████████▏ | 5577/6837 [35:54<04:58,  4.22it/s] 82%|████████▏ | 5578/6837 [35:54<04:58,  4.22it/s] 82%|████████▏ | 5579/6837 [35:54<04:57,  4.23it/s] 82%|████████▏ | 5580/6837 [35:55<04:56,  4.23it/s] 82%|████████▏ | 5581/6837 [35:55<04:56,  4.23it/s] 82%|████████▏ | 5582/6837 [35:55<04:56,  4.23it/s] 82%|████████▏ | 5583/6837 [35:55<04:56,  4.24it/s] 82%|████████▏ | 5584/6837 [35:56<04:56,  4.23it/s] 82%|████████▏ | 5585/6837 [35:56<04:55,  4.24it/s] 82%|████████▏ | 5586/6837 [35:56<04:55,  4.24it/s] 82%|████████▏ | 5587/6837 [35:56<04:54,  4.24it/s] 82%|████████▏ | 5588/6837 [35:56<04:54,  4.24it/s] 82%|████████▏ | 5589/6837 [35:57<04:54,  4.24it/s] 82%|████████▏ | 5590/6837 [35:57<04:54,  4.24it/s] 82%|████████▏ | 5591/6837 [35:57<04:53,  4.24it/s] 82%|████████▏ | 5592/6837 [35:57<04:54,  4.23it/s] 82%|████████▏ | 5593/6837 [35:58<04:54,  4.23it/s] 82%|████████▏ | 5594/6837 [35:58<04:53,  4.23it/s] 82%|████████▏ | 5595/6837 [35:58<04:53,  4.23it/s] 82%|████████▏ | 5596/6837 [35:58<04:53,  4.22it/s] 82%|████████▏ | 5597/6837 [35:59<04:53,  4.23it/s] 82%|████████▏ | 5598/6837 [35:59<04:52,  4.23it/s] 82%|████████▏ | 5599/6837 [35:59<04:52,  4.24it/s] 82%|████████▏ | 5600/6837 [35:59<04:52,  4.24it/s]                                                   {'loss': 4.2944, 'grad_norm': 0.14451776444911957, 'learning_rate': 0.0005787240921169986, 'epoch': 0.16}
 82%|████████▏ | 5600/6837 [35:59<04:52,  4.24it/s] 82%|████████▏ | 5601/6837 [36:00<05:03,  4.07it/s] 82%|████████▏ | 5602/6837 [36:00<05:09,  3.99it/s] 82%|████████▏ | 5603/6837 [36:00<05:14,  3.93it/s] 82%|████████▏ | 5604/6837 [36:00<05:17,  3.89it/s] 82%|████████▏ | 5605/6837 [36:01<05:21,  3.83it/s] 82%|████████▏ | 5606/6837 [36:01<05:18,  3.87it/s] 82%|████████▏ | 5607/6837 [36:01<05:10,  3.97it/s] 82%|████████▏ | 5608/6837 [36:01<05:04,  4.04it/s] 82%|████████▏ | 5609/6837 [36:02<05:00,  4.09it/s] 82%|████████▏ | 5610/6837 [36:02<04:56,  4.13it/s] 82%|████████▏ | 5611/6837 [36:02<04:54,  4.16it/s] 82%|████████▏ | 5612/6837 [36:02<04:52,  4.19it/s] 82%|████████▏ | 5613/6837 [36:03<04:52,  4.19it/s] 82%|████████▏ | 5614/6837 [36:03<04:51,  4.20it/s] 82%|████████▏ | 5615/6837 [36:03<04:49,  4.21it/s] 82%|████████▏ | 5616/6837 [36:03<04:49,  4.22it/s] 82%|████████▏ | 5617/6837 [36:04<04:49,  4.21it/s] 82%|████████▏ | 5618/6837 [36:04<04:58,  4.08it/s] 82%|████████▏ | 5619/6837 [36:04<04:55,  4.13it/s] 82%|████████▏ | 5620/6837 [36:04<04:52,  4.16it/s] 82%|████████▏ | 5621/6837 [36:04<04:51,  4.18it/s] 82%|████████▏ | 5622/6837 [36:05<04:49,  4.20it/s] 82%|████████▏ | 5623/6837 [36:05<04:48,  4.21it/s] 82%|████████▏ | 5624/6837 [36:05<04:48,  4.21it/s] 82%|████████▏ | 5625/6837 [36:05<04:47,  4.21it/s]                                                   {'loss': 4.3041, 'grad_norm': 0.14448697865009308, 'learning_rate': 0.0005563125306275306, 'epoch': 0.16}
 82%|████████▏ | 5625/6837 [36:05<04:47,  4.21it/s] 82%|████████▏ | 5626/6837 [36:06<04:47,  4.21it/s] 82%|████████▏ | 5627/6837 [36:06<04:47,  4.22it/s] 82%|████████▏ | 5628/6837 [36:06<04:46,  4.21it/s] 82%|████████▏ | 5629/6837 [36:06<04:46,  4.22it/s] 82%|████████▏ | 5630/6837 [36:07<04:46,  4.22it/s] 82%|████████▏ | 5631/6837 [36:07<04:46,  4.22it/s] 82%|████████▏ | 5632/6837 [36:07<04:45,  4.22it/s] 82%|████████▏ | 5633/6837 [36:07<04:45,  4.22it/s] 82%|████████▏ | 5634/6837 [36:08<04:44,  4.22it/s] 82%|████████▏ | 5635/6837 [36:08<04:44,  4.22it/s] 82%|████████▏ | 5636/6837 [36:08<04:44,  4.22it/s] 82%|████████▏ | 5637/6837 [36:08<04:43,  4.23it/s] 82%|████████▏ | 5638/6837 [36:09<04:44,  4.21it/s] 82%|████████▏ | 5639/6837 [36:09<04:44,  4.21it/s] 82%|████████▏ | 5640/6837 [36:09<04:43,  4.22it/s] 83%|████████▎ | 5641/6837 [36:09<04:43,  4.22it/s] 83%|████████▎ | 5642/6837 [36:09<04:44,  4.20it/s] 83%|████████▎ | 5643/6837 [36:10<04:42,  4.22it/s] 83%|████████▎ | 5644/6837 [36:10<04:42,  4.23it/s] 83%|████████▎ | 5645/6837 [36:10<04:41,  4.23it/s] 83%|████████▎ | 5646/6837 [36:10<04:40,  4.24it/s] 83%|████████▎ | 5647/6837 [36:11<04:40,  4.24it/s] 83%|████████▎ | 5648/6837 [36:11<04:39,  4.25it/s] 83%|████████▎ | 5649/6837 [36:11<04:39,  4.25it/s] 83%|████████▎ | 5650/6837 [36:11<04:39,  4.25it/s]                                                   {'loss': 4.3027, 'grad_norm': 0.15426599979400635, 'learning_rate': 0.0005342991182008145, 'epoch': 0.17}
 83%|████████▎ | 5650/6837 [36:11<04:39,  4.25it/s] 83%|████████▎ | 5651/6837 [36:12<04:39,  4.24it/s] 83%|████████▎ | 5652/6837 [36:12<04:38,  4.25it/s] 83%|████████▎ | 5653/6837 [36:12<04:38,  4.25it/s] 83%|████████▎ | 5654/6837 [36:12<04:38,  4.25it/s] 83%|████████▎ | 5655/6837 [36:13<04:37,  4.25it/s] 83%|████████▎ | 5656/6837 [36:13<04:37,  4.25it/s] 83%|████████▎ | 5657/6837 [36:13<04:47,  4.11it/s] 83%|████████▎ | 5658/6837 [36:13<04:43,  4.15it/s] 83%|████████▎ | 5659/6837 [36:13<04:41,  4.19it/s] 83%|████████▎ | 5660/6837 [36:14<04:39,  4.20it/s] 83%|████████▎ | 5661/6837 [36:14<04:38,  4.22it/s] 83%|████████▎ | 5662/6837 [36:14<04:38,  4.22it/s] 83%|████████▎ | 5663/6837 [36:14<04:37,  4.23it/s] 83%|████████▎ | 5664/6837 [36:15<04:37,  4.23it/s] 83%|████████▎ | 5665/6837 [36:15<04:36,  4.24it/s] 83%|████████▎ | 5666/6837 [36:15<04:36,  4.24it/s] 83%|████████▎ | 5667/6837 [36:15<04:35,  4.24it/s] 83%|████████▎ | 5668/6837 [36:16<04:35,  4.25it/s] 83%|████████▎ | 5669/6837 [36:16<04:35,  4.24it/s] 83%|████████▎ | 5670/6837 [36:16<04:34,  4.24it/s] 83%|████████▎ | 5671/6837 [36:16<04:34,  4.25it/s] 83%|████████▎ | 5672/6837 [36:17<04:34,  4.24it/s] 83%|████████▎ | 5673/6837 [36:17<04:34,  4.25it/s] 83%|████████▎ | 5674/6837 [36:17<04:33,  4.25it/s] 83%|████████▎ | 5675/6837 [36:17<04:33,  4.25it/s]                                                   {'loss': 4.295, 'grad_norm': 0.15341651439666748, 'learning_rate': 0.0005126874414736986, 'epoch': 0.17}
 83%|████████▎ | 5675/6837 [36:17<04:33,  4.25it/s] 83%|████████▎ | 5676/6837 [36:17<04:34,  4.24it/s] 83%|████████▎ | 5677/6837 [36:18<04:34,  4.23it/s] 83%|████████▎ | 5678/6837 [36:18<04:33,  4.24it/s] 83%|████████▎ | 5679/6837 [36:18<04:33,  4.23it/s] 83%|████████▎ | 5680/6837 [36:18<04:33,  4.23it/s] 83%|████████▎ | 5681/6837 [36:19<04:33,  4.23it/s] 83%|████████▎ | 5682/6837 [36:19<04:32,  4.23it/s] 83%|████████▎ | 5683/6837 [36:19<04:32,  4.23it/s] 83%|████████▎ | 5684/6837 [36:19<04:32,  4.23it/s] 83%|████████▎ | 5685/6837 [36:20<04:32,  4.23it/s] 83%|████████▎ | 5686/6837 [36:20<04:32,  4.23it/s] 83%|████████▎ | 5687/6837 [36:20<04:31,  4.23it/s] 83%|████████▎ | 5688/6837 [36:20<04:31,  4.23it/s] 83%|████████▎ | 5689/6837 [36:21<04:31,  4.23it/s] 83%|████████▎ | 5690/6837 [36:21<04:30,  4.23it/s] 83%|████████▎ | 5691/6837 [36:21<04:30,  4.24it/s] 83%|████████▎ | 5692/6837 [36:21<04:29,  4.24it/s] 83%|████████▎ | 5693/6837 [36:22<04:29,  4.24it/s] 83%|████████▎ | 5694/6837 [36:22<04:29,  4.24it/s] 83%|████████▎ | 5695/6837 [36:22<04:29,  4.23it/s] 83%|████████▎ | 5696/6837 [36:22<04:29,  4.23it/s] 83%|████████▎ | 5697/6837 [36:22<04:29,  4.23it/s] 83%|████████▎ | 5698/6837 [36:23<04:29,  4.23it/s] 83%|████████▎ | 5699/6837 [36:23<04:28,  4.23it/s] 83%|████████▎ | 5700/6837 [36:23<04:28,  4.24it/s]                                                   {'loss': 4.2785, 'grad_norm': 0.15265800058841705, 'learning_rate': 0.0004914810216283896, 'epoch': 0.17}
 83%|████████▎ | 5700/6837 [36:23<04:28,  4.24it/s] 83%|████████▎ | 5701/6837 [36:23<04:28,  4.23it/s] 83%|████████▎ | 5702/6837 [36:24<04:28,  4.22it/s] 83%|████████▎ | 5703/6837 [36:24<04:28,  4.23it/s] 83%|████████▎ | 5704/6837 [36:24<04:27,  4.23it/s] 83%|████████▎ | 5705/6837 [36:24<04:27,  4.23it/s] 83%|████████▎ | 5706/6837 [36:25<04:27,  4.23it/s] 83%|████████▎ | 5707/6837 [36:25<04:26,  4.23it/s] 83%|████████▎ | 5708/6837 [36:25<04:26,  4.23it/s] 84%|████████▎ | 5709/6837 [36:25<04:26,  4.23it/s] 84%|████████▎ | 5710/6837 [36:26<04:25,  4.24it/s] 84%|████████▎ | 5711/6837 [36:26<04:25,  4.24it/s] 84%|████████▎ | 5712/6837 [36:26<04:25,  4.24it/s] 84%|████████▎ | 5713/6837 [36:26<04:24,  4.24it/s] 84%|████████▎ | 5714/6837 [36:26<04:24,  4.24it/s] 84%|████████▎ | 5715/6837 [36:27<04:24,  4.25it/s] 84%|████████▎ | 5716/6837 [36:27<04:24,  4.24it/s] 84%|████████▎ | 5717/6837 [36:27<04:24,  4.23it/s] 84%|████████▎ | 5718/6837 [36:27<04:24,  4.23it/s] 84%|████████▎ | 5719/6837 [36:28<04:24,  4.23it/s] 84%|████████▎ | 5720/6837 [36:28<04:24,  4.22it/s] 84%|████████▎ | 5721/6837 [36:28<04:24,  4.23it/s] 84%|████████▎ | 5722/6837 [36:28<04:23,  4.23it/s] 84%|████████▎ | 5723/6837 [36:29<04:23,  4.23it/s] 84%|████████▎ | 5724/6837 [36:29<04:23,  4.23it/s] 84%|████████▎ | 5725/6837 [36:29<04:23,  4.22it/s]                                                   {'loss': 4.306, 'grad_norm': 0.1513630896806717, 'learning_rate': 0.0004706833138187431, 'epoch': 0.17}
 84%|████████▎ | 5725/6837 [36:29<04:23,  4.22it/s] 84%|████████▍ | 5726/6837 [36:29<04:23,  4.21it/s] 84%|████████▍ | 5727/6837 [36:30<04:23,  4.22it/s] 84%|████████▍ | 5728/6837 [36:30<04:22,  4.23it/s] 84%|████████▍ | 5729/6837 [36:30<04:21,  4.23it/s] 84%|████████▍ | 5730/6837 [36:30<04:21,  4.24it/s] 84%|████████▍ | 5731/6837 [36:30<04:20,  4.24it/s] 84%|████████▍ | 5732/6837 [36:31<04:20,  4.24it/s] 84%|████████▍ | 5733/6837 [36:31<04:21,  4.22it/s] 84%|████████▍ | 5734/6837 [36:31<04:22,  4.20it/s] 84%|████████▍ | 5735/6837 [36:31<04:21,  4.22it/s] 84%|████████▍ | 5736/6837 [36:32<04:20,  4.23it/s] 84%|████████▍ | 5737/6837 [36:32<04:19,  4.24it/s] 84%|████████▍ | 5738/6837 [36:32<04:19,  4.24it/s] 84%|████████▍ | 5739/6837 [36:32<04:18,  4.24it/s] 84%|████████▍ | 5740/6837 [36:33<04:18,  4.24it/s] 84%|████████▍ | 5741/6837 [36:33<04:18,  4.23it/s] 84%|████████▍ | 5742/6837 [36:33<04:18,  4.23it/s] 84%|████████▍ | 5743/6837 [36:33<04:18,  4.24it/s] 84%|████████▍ | 5744/6837 [36:34<04:17,  4.24it/s] 84%|████████▍ | 5745/6837 [36:34<04:17,  4.24it/s] 84%|████████▍ | 5746/6837 [36:34<04:17,  4.24it/s] 84%|████████▍ | 5747/6837 [36:34<04:17,  4.24it/s] 84%|████████▍ | 5748/6837 [36:34<04:16,  4.24it/s] 84%|████████▍ | 5749/6837 [36:35<04:16,  4.24it/s] 84%|████████▍ | 5750/6837 [36:35<04:16,  4.24it/s]                                                   {'loss': 4.3013, 'grad_norm': 0.16069135069847107, 'learning_rate': 0.0004502977066073216, 'epoch': 0.17}
 84%|████████▍ | 5750/6837 [36:35<04:16,  4.24it/s] 84%|████████▍ | 5751/6837 [36:35<04:16,  4.23it/s] 84%|████████▍ | 5752/6837 [36:35<04:16,  4.23it/s] 84%|████████▍ | 5753/6837 [36:36<04:15,  4.24it/s] 84%|████████▍ | 5754/6837 [36:36<04:15,  4.24it/s] 84%|████████▍ | 5755/6837 [36:36<04:15,  4.24it/s] 84%|████████▍ | 5756/6837 [36:36<04:15,  4.24it/s] 84%|████████▍ | 5757/6837 [36:37<04:14,  4.24it/s] 84%|████████▍ | 5758/6837 [36:37<04:14,  4.24it/s] 84%|████████▍ | 5759/6837 [36:37<04:14,  4.24it/s] 84%|████████▍ | 5760/6837 [36:37<04:13,  4.24it/s] 84%|████████▍ | 5761/6837 [36:38<04:13,  4.24it/s] 84%|████████▍ | 5762/6837 [36:38<04:13,  4.24it/s] 84%|████████▍ | 5763/6837 [36:38<04:13,  4.24it/s] 84%|████████▍ | 5764/6837 [36:38<04:12,  4.24it/s] 84%|████████▍ | 5765/6837 [36:39<04:12,  4.24it/s] 84%|████████▍ | 5766/6837 [36:39<04:12,  4.23it/s] 84%|████████▍ | 5767/6837 [36:39<04:12,  4.24it/s] 84%|████████▍ | 5768/6837 [36:39<04:12,  4.23it/s] 84%|████████▍ | 5769/6837 [36:39<04:13,  4.22it/s] 84%|████████▍ | 5770/6837 [36:40<04:13,  4.21it/s] 84%|████████▍ | 5771/6837 [36:40<04:13,  4.21it/s] 84%|████████▍ | 5772/6837 [36:40<04:12,  4.22it/s] 84%|████████▍ | 5773/6837 [36:40<04:12,  4.22it/s] 84%|████████▍ | 5774/6837 [36:41<04:11,  4.22it/s] 84%|████████▍ | 5775/6837 [36:41<04:11,  4.23it/s]{'loss': 4.3016, 'grad_norm': 0.1558927446603775, 'learning_rate': 0.00043032752141329426, 'epoch': 0.17}                                                   
 84%|████████▍ | 5775/6837 [36:41<04:11,  4.23it/s] 84%|████████▍ | 5776/6837 [36:41<04:11,  4.21it/s] 84%|████████▍ | 5777/6837 [36:41<04:11,  4.21it/s] 85%|████████▍ | 5778/6837 [36:42<04:10,  4.22it/s] 85%|████████▍ | 5779/6837 [36:42<04:10,  4.23it/s] 85%|████████▍ | 5780/6837 [36:42<04:10,  4.22it/s] 85%|████████▍ | 5781/6837 [36:42<04:10,  4.22it/s] 85%|████████▍ | 5782/6837 [36:43<04:09,  4.22it/s] 85%|████████▍ | 5783/6837 [36:43<04:16,  4.11it/s] 85%|████████▍ | 5784/6837 [36:43<04:22,  4.01it/s] 85%|████████▍ | 5785/6837 [36:43<04:25,  3.96it/s] 85%|████████▍ | 5786/6837 [36:44<04:29,  3.90it/s] 85%|████████▍ | 5787/6837 [36:44<04:31,  3.87it/s] 85%|████████▍ | 5788/6837 [36:44<04:33,  3.84it/s] 85%|████████▍ | 5789/6837 [36:44<04:34,  3.82it/s] 85%|████████▍ | 5790/6837 [36:45<04:34,  3.81it/s] 85%|████████▍ | 5791/6837 [36:45<04:33,  3.83it/s] 85%|████████▍ | 5792/6837 [36:45<04:34,  3.81it/s] 85%|████████▍ | 5793/6837 [36:45<04:35,  3.79it/s] 85%|████████▍ | 5794/6837 [36:46<04:36,  3.78it/s] 85%|████████▍ | 5795/6837 [36:46<04:34,  3.80it/s] 85%|████████▍ | 5796/6837 [36:46<04:34,  3.79it/s] 85%|████████▍ | 5797/6837 [36:46<04:33,  3.80it/s] 85%|████████▍ | 5798/6837 [36:47<04:32,  3.81it/s] 85%|████████▍ | 5799/6837 [36:47<04:35,  3.76it/s] 85%|████████▍ | 5800/6837 [36:47<04:35,  3.76it/s]                                                   {'loss': 4.282, 'grad_norm': 0.14679650962352753, 'learning_rate': 0.00041077601197128167, 'epoch': 0.17}
 85%|████████▍ | 5800/6837 [36:47<04:35,  3.76it/s] 85%|████████▍ | 5801/6837 [36:48<04:35,  3.75it/s] 85%|████████▍ | 5802/6837 [36:48<04:34,  3.76it/s] 85%|████████▍ | 5803/6837 [36:48<04:33,  3.78it/s] 85%|████████▍ | 5804/6837 [36:48<04:24,  3.91it/s] 85%|████████▍ | 5805/6837 [36:49<04:18,  4.00it/s] 85%|████████▍ | 5806/6837 [36:49<04:13,  4.06it/s] 85%|████████▍ | 5807/6837 [36:49<04:10,  4.11it/s] 85%|████████▍ | 5808/6837 [36:49<04:08,  4.14it/s] 85%|████████▍ | 5809/6837 [36:49<04:06,  4.17it/s] 85%|████████▍ | 5810/6837 [36:50<04:05,  4.18it/s] 85%|████████▍ | 5811/6837 [36:50<04:04,  4.20it/s] 85%|████████▌ | 5812/6837 [36:50<04:03,  4.21it/s] 85%|████████▌ | 5813/6837 [36:50<04:03,  4.21it/s] 85%|████████▌ | 5814/6837 [36:51<04:02,  4.21it/s] 85%|████████▌ | 5815/6837 [36:51<04:02,  4.22it/s] 85%|████████▌ | 5816/6837 [36:51<04:01,  4.22it/s] 85%|████████▌ | 5817/6837 [36:51<04:01,  4.22it/s] 85%|████████▌ | 5818/6837 [36:52<04:01,  4.22it/s] 85%|████████▌ | 5819/6837 [36:52<04:00,  4.23it/s] 85%|████████▌ | 5820/6837 [36:52<04:00,  4.23it/s] 85%|████████▌ | 5821/6837 [36:52<04:00,  4.23it/s] 85%|████████▌ | 5822/6837 [36:53<04:00,  4.22it/s] 85%|████████▌ | 5823/6837 [36:53<04:00,  4.22it/s] 85%|████████▌ | 5824/6837 [36:53<04:00,  4.21it/s] 85%|████████▌ | 5825/6837 [36:53<04:00,  4.22it/s]                                                   {'loss': 4.3036, 'grad_norm': 0.18000821769237518, 'learning_rate': 0.00039164636380122276, 'epoch': 0.17}
 85%|████████▌ | 5825/6837 [36:53<04:00,  4.22it/s] 85%|████████▌ | 5826/6837 [36:54<04:00,  4.21it/s] 85%|████████▌ | 5827/6837 [36:54<04:00,  4.21it/s] 85%|████████▌ | 5828/6837 [36:54<03:59,  4.21it/s] 85%|████████▌ | 5829/6837 [36:54<03:58,  4.22it/s] 85%|████████▌ | 5830/6837 [36:54<03:58,  4.22it/s] 85%|████████▌ | 5831/6837 [36:55<03:58,  4.22it/s] 85%|████████▌ | 5832/6837 [36:55<03:58,  4.22it/s] 85%|████████▌ | 5833/6837 [36:55<03:57,  4.22it/s] 85%|████████▌ | 5834/6837 [36:55<03:57,  4.22it/s] 85%|████████▌ | 5835/6837 [36:56<03:57,  4.22it/s] 85%|████████▌ | 5836/6837 [36:56<03:57,  4.22it/s] 85%|████████▌ | 5837/6837 [36:56<03:57,  4.22it/s] 85%|████████▌ | 5838/6837 [36:56<03:56,  4.22it/s] 85%|████████▌ | 5839/6837 [36:57<03:56,  4.22it/s] 85%|████████▌ | 5840/6837 [36:57<03:55,  4.23it/s] 85%|████████▌ | 5841/6837 [36:57<03:55,  4.23it/s] 85%|████████▌ | 5842/6837 [36:57<03:55,  4.23it/s] 85%|████████▌ | 5843/6837 [36:58<03:55,  4.23it/s] 85%|████████▌ | 5844/6837 [36:58<03:54,  4.23it/s] 85%|████████▌ | 5845/6837 [36:58<03:54,  4.23it/s] 86%|████████▌ | 5846/6837 [36:58<03:54,  4.23it/s] 86%|████████▌ | 5847/6837 [36:58<03:53,  4.23it/s] 86%|████████▌ | 5848/6837 [36:59<03:54,  4.23it/s] 86%|████████▌ | 5849/6837 [36:59<03:53,  4.23it/s] 86%|████████▌ | 5850/6837 [36:59<03:53,  4.23it/s]                                                   {'loss': 4.2954, 'grad_norm': 0.14284411072731018, 'learning_rate': 0.0003729416936893619, 'epoch': 0.17}
 86%|████████▌ | 5850/6837 [36:59<03:53,  4.23it/s] 86%|████████▌ | 5851/6837 [36:59<03:53,  4.22it/s] 86%|████████▌ | 5852/6837 [37:00<03:53,  4.23it/s] 86%|████████▌ | 5853/6837 [37:00<03:52,  4.23it/s] 86%|████████▌ | 5854/6837 [37:00<03:52,  4.23it/s] 86%|████████▌ | 5855/6837 [37:00<03:51,  4.23it/s] 86%|████████▌ | 5856/6837 [37:01<03:51,  4.23it/s] 86%|████████▌ | 5857/6837 [37:01<03:51,  4.24it/s] 86%|████████▌ | 5858/6837 [37:01<03:51,  4.24it/s] 86%|████████▌ | 5859/6837 [37:01<03:50,  4.23it/s] 86%|████████▌ | 5860/6837 [37:02<03:50,  4.24it/s] 86%|████████▌ | 5861/6837 [37:02<03:50,  4.24it/s] 86%|████████▌ | 5862/6837 [37:02<03:49,  4.24it/s] 86%|████████▌ | 5863/6837 [37:02<03:49,  4.24it/s] 86%|████████▌ | 5864/6837 [37:03<03:49,  4.23it/s] 86%|████████▌ | 5865/6837 [37:03<03:49,  4.24it/s] 86%|████████▌ | 5866/6837 [37:03<03:49,  4.24it/s] 86%|████████▌ | 5867/6837 [37:03<03:48,  4.24it/s] 86%|████████▌ | 5868/6837 [37:03<03:48,  4.24it/s] 86%|████████▌ | 5869/6837 [37:04<03:48,  4.24it/s] 86%|████████▌ | 5870/6837 [37:04<03:48,  4.24it/s] 86%|████████▌ | 5871/6837 [37:04<03:48,  4.23it/s] 86%|████████▌ | 5872/6837 [37:04<03:48,  4.23it/s] 86%|████████▌ | 5873/6837 [37:05<03:47,  4.24it/s] 86%|████████▌ | 5874/6837 [37:05<03:47,  4.24it/s] 86%|████████▌ | 5875/6837 [37:05<03:46,  4.24it/s]                                                   {'loss': 4.2906, 'grad_norm': 0.1507183313369751, 'learning_rate': 0.0003546650491804304, 'epoch': 0.17}
 86%|████████▌ | 5875/6837 [37:05<03:46,  4.24it/s] 86%|████████▌ | 5876/6837 [37:05<03:46,  4.24it/s] 86%|████████▌ | 5877/6837 [37:06<03:46,  4.24it/s] 86%|████████▌ | 5878/6837 [37:06<03:46,  4.24it/s] 86%|████████▌ | 5879/6837 [37:06<03:46,  4.23it/s] 86%|████████▌ | 5880/6837 [37:06<03:45,  4.23it/s] 86%|████████▌ | 5881/6837 [37:07<03:45,  4.23it/s] 86%|████████▌ | 5882/6837 [37:07<03:45,  4.23it/s] 86%|████████▌ | 5883/6837 [37:07<03:44,  4.24it/s] 86%|████████▌ | 5884/6837 [37:07<03:44,  4.24it/s] 86%|████████▌ | 5885/6837 [37:07<03:44,  4.24it/s] 86%|████████▌ | 5886/6837 [37:08<03:44,  4.24it/s] 86%|████████▌ | 5887/6837 [37:08<03:44,  4.24it/s] 86%|████████▌ | 5888/6837 [37:08<03:44,  4.22it/s] 86%|████████▌ | 5889/6837 [37:08<03:44,  4.23it/s] 86%|████████▌ | 5890/6837 [37:09<03:44,  4.23it/s] 86%|████████▌ | 5891/6837 [37:09<03:43,  4.23it/s] 86%|████████▌ | 5892/6837 [37:09<03:43,  4.23it/s] 86%|████████▌ | 5893/6837 [37:09<03:43,  4.23it/s] 86%|████████▌ | 5894/6837 [37:10<03:43,  4.22it/s] 86%|████████▌ | 5895/6837 [37:10<03:44,  4.19it/s] 86%|████████▌ | 5896/6837 [37:10<03:45,  4.16it/s] 86%|████████▋ | 5897/6837 [37:10<03:44,  4.18it/s] 86%|████████▋ | 5898/6837 [37:11<03:43,  4.20it/s] 86%|████████▋ | 5899/6837 [37:11<03:42,  4.21it/s] 86%|████████▋ | 5900/6837 [37:11<03:42,  4.21it/s]                                                   {'loss': 4.2864, 'grad_norm': 0.1474820375442505, 'learning_rate': 0.0003368194080811134, 'epoch': 0.17}
 86%|████████▋ | 5900/6837 [37:11<03:42,  4.21it/s] 86%|████████▋ | 5901/6837 [37:11<03:42,  4.21it/s] 86%|████████▋ | 5902/6837 [37:12<03:41,  4.21it/s] 86%|████████▋ | 5903/6837 [37:12<03:41,  4.22it/s] 86%|████████▋ | 5904/6837 [37:12<03:41,  4.21it/s] 86%|████████▋ | 5905/6837 [37:12<03:41,  4.20it/s] 86%|████████▋ | 5906/6837 [37:12<03:42,  4.19it/s] 86%|████████▋ | 5907/6837 [37:13<03:50,  4.04it/s] 86%|████████▋ | 5908/6837 [37:13<03:56,  3.93it/s] 86%|████████▋ | 5909/6837 [37:13<04:02,  3.82it/s] 86%|████████▋ | 5910/6837 [37:14<03:56,  3.93it/s] 86%|████████▋ | 5911/6837 [37:14<03:51,  4.01it/s] 86%|████████▋ | 5912/6837 [37:14<03:47,  4.06it/s] 86%|████████▋ | 5913/6837 [37:14<03:45,  4.10it/s] 86%|████████▋ | 5914/6837 [37:14<03:43,  4.13it/s] 87%|████████▋ | 5915/6837 [37:15<03:42,  4.15it/s] 87%|████████▋ | 5916/6837 [37:15<03:41,  4.16it/s] 87%|████████▋ | 5917/6837 [37:15<03:40,  4.18it/s] 87%|████████▋ | 5918/6837 [37:15<03:39,  4.19it/s] 87%|████████▋ | 5919/6837 [37:16<03:39,  4.19it/s] 87%|████████▋ | 5920/6837 [37:16<03:38,  4.20it/s] 87%|████████▋ | 5921/6837 [37:16<03:37,  4.20it/s] 87%|████████▋ | 5922/6837 [37:16<03:37,  4.21it/s] 87%|████████▋ | 5923/6837 [37:17<03:36,  4.22it/s] 87%|████████▋ | 5924/6837 [37:17<03:36,  4.22it/s] 87%|████████▋ | 5925/6837 [37:17<03:35,  4.22it/s]                                                   {'loss': 4.2767, 'grad_norm': 0.1477581262588501, 'learning_rate': 0.00031940767797487504, 'epoch': 0.17}
 87%|████████▋ | 5925/6837 [37:17<03:35,  4.22it/s] 87%|████████▋ | 5926/6837 [37:17<03:36,  4.21it/s] 87%|████████▋ | 5927/6837 [37:18<03:36,  4.21it/s] 87%|████████▋ | 5928/6837 [37:18<03:35,  4.22it/s] 87%|████████▋ | 5929/6837 [37:18<03:35,  4.22it/s] 87%|████████▋ | 5930/6837 [37:18<03:34,  4.22it/s] 87%|████████▋ | 5931/6837 [37:19<03:34,  4.22it/s] 87%|████████▋ | 5932/6837 [37:19<03:34,  4.22it/s] 87%|████████▋ | 5933/6837 [37:19<03:34,  4.21it/s] 87%|████████▋ | 5934/6837 [37:19<03:34,  4.21it/s] 87%|████████▋ | 5935/6837 [37:19<03:34,  4.21it/s] 87%|████████▋ | 5936/6837 [37:20<03:33,  4.21it/s] 87%|████████▋ | 5937/6837 [37:20<03:33,  4.21it/s] 87%|████████▋ | 5938/6837 [37:20<03:33,  4.21it/s] 87%|████████▋ | 5939/6837 [37:20<03:33,  4.22it/s] 87%|████████▋ | 5940/6837 [37:21<03:32,  4.22it/s] 87%|████████▋ | 5941/6837 [37:21<03:32,  4.22it/s] 87%|████████▋ | 5942/6837 [37:21<03:32,  4.22it/s] 87%|████████▋ | 5943/6837 [37:21<03:31,  4.22it/s] 87%|████████▋ | 5944/6837 [37:22<03:32,  4.21it/s] 87%|████████▋ | 5945/6837 [37:22<03:32,  4.19it/s] 87%|████████▋ | 5946/6837 [37:22<03:32,  4.19it/s] 87%|████████▋ | 5947/6837 [37:22<03:31,  4.20it/s] 87%|████████▋ | 5948/6837 [37:23<03:31,  4.20it/s] 87%|████████▋ | 5949/6837 [37:23<03:30,  4.21it/s] 87%|████████▋ | 5950/6837 [37:23<03:30,  4.21it/s]{'loss': 4.2901, 'grad_norm': 0.15054039657115936, 'learning_rate': 0.0003024326957482272, 'epoch': 0.17}
                                                    87%|████████▋ | 5950/6837 [37:23<03:30,  4.21it/s] 87%|████████▋ | 5951/6837 [37:23<03:31,  4.19it/s] 87%|████████▋ | 5952/6837 [37:23<03:30,  4.20it/s] 87%|████████▋ | 5953/6837 [37:24<03:30,  4.20it/s] 87%|████████▋ | 5954/6837 [37:24<03:30,  4.20it/s] 87%|████████▋ | 5955/6837 [37:24<03:29,  4.20it/s] 87%|████████▋ | 5956/6837 [37:24<03:29,  4.21it/s] 87%|████████▋ | 5957/6837 [37:25<03:29,  4.21it/s] 87%|████████▋ | 5958/6837 [37:25<03:28,  4.21it/s] 87%|████████▋ | 5959/6837 [37:25<03:28,  4.21it/s] 87%|████████▋ | 5960/6837 [37:25<03:27,  4.22it/s] 87%|████████▋ | 5961/6837 [37:26<03:27,  4.22it/s] 87%|████████▋ | 5962/6837 [37:26<03:27,  4.21it/s] 87%|████████▋ | 5963/6837 [37:26<03:27,  4.22it/s] 87%|████████▋ | 5964/6837 [37:26<03:26,  4.22it/s] 87%|████████▋ | 5965/6837 [37:27<03:27,  4.21it/s] 87%|████████▋ | 5966/6837 [37:27<03:26,  4.22it/s] 87%|████████▋ | 5967/6837 [37:27<03:26,  4.22it/s] 87%|████████▋ | 5968/6837 [37:27<03:26,  4.22it/s] 87%|████████▋ | 5969/6837 [37:28<03:25,  4.22it/s] 87%|████████▋ | 5970/6837 [37:28<03:25,  4.22it/s] 87%|████████▋ | 5971/6837 [37:28<03:25,  4.22it/s] 87%|████████▋ | 5972/6837 [37:28<03:25,  4.21it/s] 87%|████████▋ | 5973/6837 [37:28<03:25,  4.21it/s] 87%|████████▋ | 5974/6837 [37:29<03:24,  4.22it/s] 87%|████████▋ | 5975/6837 [37:29<03:24,  4.22it/s]                                                   {'loss': 4.2801, 'grad_norm': 0.15281051397323608, 'learning_rate': 0.0002858972271285194, 'epoch': 0.17}
 87%|████████▋ | 5975/6837 [37:29<03:24,  4.22it/s] 87%|████████▋ | 5976/6837 [37:29<03:30,  4.09it/s] 87%|████████▋ | 5977/6837 [37:29<03:35,  3.99it/s] 87%|████████▋ | 5978/6837 [37:30<03:38,  3.93it/s] 87%|████████▋ | 5979/6837 [37:30<03:40,  3.89it/s] 87%|████████▋ | 5980/6837 [37:30<03:41,  3.87it/s] 87%|████████▋ | 5981/6837 [37:31<03:42,  3.85it/s] 87%|████████▋ | 5982/6837 [37:31<03:41,  3.86it/s] 88%|████████▊ | 5983/6837 [37:31<03:42,  3.84it/s] 88%|████████▊ | 5984/6837 [37:31<03:43,  3.81it/s] 88%|████████▊ | 5985/6837 [37:32<03:43,  3.80it/s] 88%|████████▊ | 5986/6837 [37:32<03:43,  3.80it/s] 88%|████████▊ | 5987/6837 [37:32<03:43,  3.80it/s] 88%|████████▊ | 5988/6837 [37:32<03:43,  3.79it/s] 88%|████████▊ | 5989/6837 [37:33<03:44,  3.78it/s] 88%|████████▊ | 5990/6837 [37:33<03:43,  3.79it/s] 88%|████████▊ | 5991/6837 [37:33<03:43,  3.79it/s] 88%|████████▊ | 5992/6837 [37:33<03:42,  3.79it/s] 88%|████████▊ | 5993/6837 [37:34<03:40,  3.82it/s] 88%|████████▊ | 5994/6837 [37:34<03:41,  3.80it/s] 88%|████████▊ | 5995/6837 [37:34<03:42,  3.78it/s] 88%|████████▊ | 5996/6837 [37:34<03:42,  3.78it/s] 88%|████████▊ | 5997/6837 [37:35<03:41,  3.79it/s] 88%|████████▊ | 5998/6837 [37:35<03:37,  3.85it/s] 88%|████████▊ | 5999/6837 [37:35<03:31,  3.96it/s] 88%|████████▊ | 6000/6837 [37:35<03:27,  4.04it/s]                                                   {'loss': 4.3079, 'grad_norm': 0.14913491904735565, 'learning_rate': 0.00026980396623331503, 'epoch': 0.18}
 88%|████████▊ | 6000/6837 [37:35<03:27,  4.04it/s] 88%|████████▊ | 6001/6837 [37:36<03:24,  4.08it/s] 88%|████████▊ | 6002/6837 [37:36<03:22,  4.12it/s] 88%|████████▊ | 6003/6837 [37:36<03:20,  4.16it/s] 88%|████████▊ | 6004/6837 [37:36<03:18,  4.19it/s] 88%|████████▊ | 6005/6837 [37:37<03:17,  4.20it/s] 88%|████████▊ | 6006/6837 [37:37<03:17,  4.21it/s] 88%|████████▊ | 6007/6837 [37:37<03:16,  4.22it/s] 88%|████████▊ | 6008/6837 [37:37<03:16,  4.22it/s] 88%|████████▊ | 6009/6837 [37:38<03:16,  4.22it/s] 88%|████████▊ | 6010/6837 [37:38<03:15,  4.23it/s] 88%|████████▊ | 6011/6837 [37:38<03:15,  4.23it/s] 88%|████████▊ | 6012/6837 [37:38<03:15,  4.23it/s] 88%|████████▊ | 6013/6837 [37:39<03:14,  4.23it/s] 88%|████████▊ | 6014/6837 [37:39<03:14,  4.24it/s] 88%|████████▊ | 6015/6837 [37:39<03:14,  4.23it/s] 88%|████████▊ | 6016/6837 [37:39<03:14,  4.23it/s] 88%|████████▊ | 6017/6837 [37:39<03:13,  4.23it/s] 88%|████████▊ | 6018/6837 [37:40<03:13,  4.23it/s] 88%|████████▊ | 6019/6837 [37:40<03:14,  4.21it/s] 88%|████████▊ | 6020/6837 [37:40<03:14,  4.20it/s] 88%|████████▊ | 6021/6837 [37:40<03:14,  4.20it/s] 88%|████████▊ | 6022/6837 [37:41<03:13,  4.21it/s] 88%|████████▊ | 6023/6837 [37:41<03:13,  4.22it/s] 88%|████████▊ | 6024/6837 [37:41<03:12,  4.22it/s] 88%|████████▊ | 6025/6837 [37:41<03:11,  4.23it/s]                                                   {'loss': 4.2881, 'grad_norm': 0.15348763763904572, 'learning_rate': 0.0002541555351314442, 'epoch': 0.18}
 88%|████████▊ | 6025/6837 [37:41<03:11,  4.23it/s] 88%|████████▊ | 6026/6837 [37:42<03:11,  4.23it/s] 88%|████████▊ | 6027/6837 [37:42<03:11,  4.23it/s] 88%|████████▊ | 6028/6837 [37:42<03:11,  4.23it/s] 88%|████████▊ | 6029/6837 [37:42<03:12,  4.21it/s] 88%|████████▊ | 6030/6837 [37:43<03:12,  4.20it/s] 88%|████████▊ | 6031/6837 [37:43<03:19,  4.05it/s] 88%|████████▊ | 6032/6837 [37:43<03:24,  3.94it/s] 88%|████████▊ | 6033/6837 [37:43<03:21,  3.99it/s] 88%|████████▊ | 6034/6837 [37:44<03:18,  4.06it/s] 88%|████████▊ | 6035/6837 [37:44<03:15,  4.11it/s] 88%|████████▊ | 6036/6837 [37:44<03:13,  4.14it/s] 88%|████████▊ | 6037/6837 [37:44<03:11,  4.17it/s] 88%|████████▊ | 6038/6837 [37:45<03:10,  4.19it/s] 88%|████████▊ | 6039/6837 [37:45<03:09,  4.20it/s] 88%|████████▊ | 6040/6837 [37:45<03:09,  4.21it/s] 88%|████████▊ | 6041/6837 [37:45<03:09,  4.21it/s] 88%|████████▊ | 6042/6837 [37:45<03:09,  4.20it/s] 88%|████████▊ | 6043/6837 [37:46<03:09,  4.19it/s] 88%|████████▊ | 6044/6837 [37:46<03:08,  4.20it/s] 88%|████████▊ | 6045/6837 [37:46<03:07,  4.21it/s] 88%|████████▊ | 6046/6837 [37:46<03:07,  4.22it/s] 88%|████████▊ | 6047/6837 [37:47<03:06,  4.23it/s] 88%|████████▊ | 6048/6837 [37:47<03:06,  4.23it/s] 88%|████████▊ | 6049/6837 [37:47<03:06,  4.23it/s] 88%|████████▊ | 6050/6837 [37:47<03:05,  4.24it/s]                                                   {'loss': 4.2975, 'grad_norm': 0.14375270903110504, 'learning_rate': 0.0002389544834157873, 'epoch': 0.18}
 88%|████████▊ | 6050/6837 [37:47<03:05,  4.24it/s] 89%|████████▊ | 6051/6837 [37:48<03:06,  4.22it/s] 89%|████████▊ | 6052/6837 [37:48<03:05,  4.23it/s] 89%|████████▊ | 6053/6837 [37:48<03:05,  4.22it/s] 89%|████████▊ | 6054/6837 [37:48<03:05,  4.23it/s] 89%|████████▊ | 6055/6837 [37:49<03:11,  4.08it/s] 89%|████████▊ | 6056/6837 [37:49<03:15,  4.00it/s] 89%|████████▊ | 6057/6837 [37:49<03:17,  3.94it/s] 89%|████████▊ | 6058/6837 [37:49<03:18,  3.91it/s] 89%|████████▊ | 6059/6837 [37:50<03:20,  3.88it/s] 89%|████████▊ | 6060/6837 [37:50<03:20,  3.87it/s] 89%|████████▊ | 6061/6837 [37:50<03:22,  3.83it/s] 89%|████████▊ | 6062/6837 [37:50<03:22,  3.82it/s] 89%|████████▊ | 6063/6837 [37:51<03:24,  3.78it/s] 89%|████████▊ | 6064/6837 [37:51<03:24,  3.78it/s] 89%|████████▊ | 6065/6837 [37:51<03:17,  3.90it/s] 89%|████████▊ | 6066/6837 [37:51<03:12,  4.00it/s] 89%|████████▊ | 6067/6837 [37:52<03:09,  4.07it/s] 89%|████████▉ | 6068/6837 [37:52<03:06,  4.12it/s] 89%|████████▉ | 6069/6837 [37:52<03:04,  4.15it/s] 89%|████████▉ | 6070/6837 [37:52<03:03,  4.18it/s] 89%|████████▉ | 6071/6837 [37:53<03:02,  4.20it/s] 89%|████████▉ | 6072/6837 [37:53<03:01,  4.22it/s] 89%|████████▉ | 6073/6837 [37:53<03:01,  4.22it/s] 89%|████████▉ | 6074/6837 [37:53<03:00,  4.23it/s] 89%|████████▉ | 6075/6837 [37:54<02:59,  4.24it/s]                                                   {'loss': 4.2935, 'grad_norm': 0.14443939924240112, 'learning_rate': 0.00022420328778787426, 'epoch': 0.18}
 89%|████████▉ | 6075/6837 [37:54<02:59,  4.24it/s] 89%|████████▉ | 6076/6837 [37:54<02:59,  4.23it/s] 89%|████████▉ | 6077/6837 [37:54<02:59,  4.23it/s] 89%|████████▉ | 6078/6837 [37:54<02:58,  4.24it/s] 89%|████████▉ | 6079/6837 [37:54<02:58,  4.25it/s] 89%|████████▉ | 6080/6837 [37:55<02:57,  4.25it/s] 89%|████████▉ | 6081/6837 [37:55<02:57,  4.25it/s] 89%|████████▉ | 6082/6837 [37:55<02:57,  4.25it/s] 89%|████████▉ | 6083/6837 [37:55<02:57,  4.25it/s] 89%|████████▉ | 6084/6837 [37:56<02:57,  4.25it/s] 89%|████████▉ | 6085/6837 [37:56<02:56,  4.25it/s] 89%|████████▉ | 6086/6837 [37:56<02:56,  4.26it/s] 89%|████████▉ | 6087/6837 [37:56<02:56,  4.25it/s] 89%|████████▉ | 6088/6837 [37:57<02:56,  4.25it/s] 89%|████████▉ | 6089/6837 [37:57<02:55,  4.26it/s] 89%|████████▉ | 6090/6837 [37:57<02:55,  4.26it/s] 89%|████████▉ | 6091/6837 [37:57<02:55,  4.26it/s] 89%|████████▉ | 6092/6837 [37:58<02:54,  4.26it/s] 89%|████████▉ | 6093/6837 [37:58<02:54,  4.26it/s] 89%|████████▉ | 6094/6837 [37:58<02:54,  4.25it/s] 89%|████████▉ | 6095/6837 [37:58<02:54,  4.25it/s] 89%|████████▉ | 6096/6837 [37:58<02:54,  4.25it/s] 89%|████████▉ | 6097/6837 [37:59<02:54,  4.25it/s] 89%|████████▉ | 6098/6837 [37:59<02:54,  4.25it/s] 89%|████████▉ | 6099/6837 [37:59<02:53,  4.25it/s] 89%|████████▉ | 6100/6837 [37:59<02:53,  4.24it/s]                                                   {'loss': 4.2807, 'grad_norm': 0.14695385098457336, 'learning_rate': 0.00020990435165435474, 'epoch': 0.18}
 89%|████████▉ | 6100/6837 [37:59<02:53,  4.24it/s] 89%|████████▉ | 6101/6837 [38:00<02:53,  4.23it/s] 89%|████████▉ | 6102/6837 [38:00<02:53,  4.23it/s] 89%|████████▉ | 6103/6837 [38:00<02:53,  4.24it/s] 89%|████████▉ | 6104/6837 [38:00<02:52,  4.24it/s] 89%|████████▉ | 6105/6837 [38:01<02:52,  4.24it/s] 89%|████████▉ | 6106/6837 [38:01<02:52,  4.25it/s] 89%|████████▉ | 6107/6837 [38:01<02:52,  4.24it/s] 89%|████████▉ | 6108/6837 [38:01<02:52,  4.24it/s] 89%|████████▉ | 6109/6837 [38:02<02:52,  4.23it/s] 89%|████████▉ | 6110/6837 [38:02<02:51,  4.23it/s] 89%|████████▉ | 6111/6837 [38:02<02:51,  4.23it/s] 89%|████████▉ | 6112/6837 [38:02<02:51,  4.22it/s] 89%|████████▉ | 6113/6837 [38:03<02:51,  4.23it/s] 89%|████████▉ | 6114/6837 [38:03<02:50,  4.23it/s] 89%|████████▉ | 6115/6837 [38:03<02:50,  4.23it/s] 89%|████████▉ | 6116/6837 [38:03<02:50,  4.23it/s] 89%|████████▉ | 6117/6837 [38:03<02:50,  4.23it/s] 89%|████████▉ | 6118/6837 [38:04<02:49,  4.24it/s] 89%|████████▉ | 6119/6837 [38:04<02:49,  4.23it/s] 90%|████████▉ | 6120/6837 [38:04<02:49,  4.23it/s] 90%|████████▉ | 6121/6837 [38:04<02:48,  4.24it/s] 90%|████████▉ | 6122/6837 [38:05<02:48,  4.24it/s] 90%|████████▉ | 6123/6837 [38:05<02:48,  4.24it/s] 90%|████████▉ | 6124/6837 [38:05<02:48,  4.24it/s] 90%|████████▉ | 6125/6837 [38:05<02:47,  4.25it/s]                                                   {'loss': 4.3013, 'grad_norm': 0.14527039229869843, 'learning_rate': 0.0001960600047354132, 'epoch': 0.18}
 90%|████████▉ | 6125/6837 [38:05<02:47,  4.25it/s] 90%|████████▉ | 6126/6837 [38:06<02:48,  4.23it/s] 90%|████████▉ | 6127/6837 [38:06<02:47,  4.23it/s] 90%|████████▉ | 6128/6837 [38:06<02:47,  4.24it/s] 90%|████████▉ | 6129/6837 [38:06<02:53,  4.09it/s] 90%|████████▉ | 6130/6837 [38:07<02:57,  3.98it/s] 90%|████████▉ | 6131/6837 [38:07<03:00,  3.91it/s] 90%|████████▉ | 6132/6837 [38:07<03:02,  3.87it/s] 90%|████████▉ | 6133/6837 [38:07<03:04,  3.82it/s] 90%|████████▉ | 6134/6837 [38:08<03:04,  3.80it/s] 90%|████████▉ | 6135/6837 [38:08<03:04,  3.80it/s] 90%|████████▉ | 6136/6837 [38:08<03:06,  3.77it/s] 90%|████████▉ | 6137/6837 [38:08<03:04,  3.79it/s] 90%|████████▉ | 6138/6837 [38:09<03:04,  3.79it/s] 90%|████████▉ | 6139/6837 [38:09<03:04,  3.78it/s] 90%|████████▉ | 6140/6837 [38:09<03:04,  3.78it/s] 90%|████████▉ | 6141/6837 [38:09<02:59,  3.87it/s] 90%|████████▉ | 6142/6837 [38:10<02:55,  3.95it/s] 90%|████████▉ | 6143/6837 [38:10<02:52,  4.03it/s] 90%|████████▉ | 6144/6837 [38:10<02:49,  4.09it/s] 90%|████████▉ | 6145/6837 [38:10<02:47,  4.12it/s] 90%|████████▉ | 6146/6837 [38:11<02:46,  4.15it/s] 90%|████████▉ | 6147/6837 [38:11<02:45,  4.18it/s] 90%|████████▉ | 6148/6837 [38:11<02:44,  4.19it/s] 90%|████████▉ | 6149/6837 [38:11<02:43,  4.20it/s] 90%|████████▉ | 6150/6837 [38:12<02:43,  4.21it/s]                                                   {'loss': 4.2981, 'grad_norm': 0.14275389909744263, 'learning_rate': 0.00018267250268518643, 'epoch': 0.18}
 90%|████████▉ | 6150/6837 [38:12<02:43,  4.21it/s] 90%|████████▉ | 6151/6837 [38:12<02:43,  4.21it/s] 90%|████████▉ | 6152/6837 [38:12<02:42,  4.21it/s] 90%|████████▉ | 6153/6837 [38:12<02:42,  4.22it/s] 90%|█████████ | 6154/6837 [38:13<02:41,  4.22it/s] 90%|█████████ | 6155/6837 [38:13<02:46,  4.09it/s] 90%|█████████ | 6156/6837 [38:13<02:51,  3.97it/s] 90%|█████████ | 6157/6837 [38:13<02:52,  3.94it/s] 90%|█████████ | 6158/6837 [38:14<02:54,  3.89it/s] 90%|█████████ | 6159/6837 [38:14<02:56,  3.85it/s] 90%|█████████ | 6160/6837 [38:14<02:55,  3.85it/s] 90%|█████████ | 6161/6837 [38:14<02:56,  3.82it/s] 90%|█████████ | 6162/6837 [38:15<02:57,  3.81it/s] 90%|█████████ | 6163/6837 [38:15<02:58,  3.78it/s] 90%|█████████ | 6164/6837 [38:15<02:57,  3.79it/s] 90%|█████████ | 6165/6837 [38:15<02:59,  3.75it/s] 90%|█████████ | 6166/6837 [38:16<03:00,  3.72it/s] 90%|█████████ | 6167/6837 [38:16<02:58,  3.76it/s] 90%|█████████ | 6168/6837 [38:16<02:56,  3.78it/s] 90%|█████████ | 6169/6837 [38:17<02:57,  3.76it/s] 90%|█████████ | 6170/6837 [38:17<02:58,  3.74it/s] 90%|█████████ | 6171/6837 [38:17<02:53,  3.84it/s] 90%|█████████ | 6172/6837 [38:17<02:48,  3.95it/s] 90%|█████████ | 6173/6837 [38:18<02:44,  4.03it/s] 90%|█████████ | 6174/6837 [38:18<02:42,  4.09it/s] 90%|█████████ | 6175/6837 [38:18<02:40,  4.13it/s]                                                   {'loss': 4.2863, 'grad_norm': 0.15762583911418915, 'learning_rate': 0.00016974402672425225, 'epoch': 0.18}
 90%|█████████ | 6175/6837 [38:18<02:40,  4.13it/s] 90%|█████████ | 6176/6837 [38:18<02:39,  4.15it/s] 90%|█████████ | 6177/6837 [38:18<02:38,  4.18it/s] 90%|█████████ | 6178/6837 [38:19<02:37,  4.19it/s] 90%|█████████ | 6179/6837 [38:19<02:36,  4.19it/s] 90%|█████████ | 6180/6837 [38:19<02:36,  4.20it/s] 90%|█████████ | 6181/6837 [38:19<02:35,  4.21it/s] 90%|█████████ | 6182/6837 [38:20<02:35,  4.22it/s] 90%|█████████ | 6183/6837 [38:20<02:34,  4.22it/s] 90%|█████████ | 6184/6837 [38:20<02:34,  4.23it/s] 90%|█████████ | 6185/6837 [38:20<02:34,  4.23it/s] 90%|█████████ | 6186/6837 [38:21<02:34,  4.23it/s] 90%|█████████ | 6187/6837 [38:21<02:33,  4.23it/s] 91%|█████████ | 6188/6837 [38:21<02:33,  4.23it/s] 91%|█████████ | 6189/6837 [38:21<02:32,  4.24it/s] 91%|█████████ | 6190/6837 [38:22<02:32,  4.24it/s] 91%|█████████ | 6191/6837 [38:22<02:32,  4.24it/s] 91%|█████████ | 6192/6837 [38:22<02:32,  4.24it/s] 91%|█████████ | 6193/6837 [38:22<02:32,  4.23it/s] 91%|█████████ | 6194/6837 [38:22<02:31,  4.23it/s] 91%|█████████ | 6195/6837 [38:23<02:31,  4.24it/s] 91%|█████████ | 6196/6837 [38:23<02:31,  4.24it/s] 91%|█████████ | 6197/6837 [38:23<02:31,  4.24it/s] 91%|█████████ | 6198/6837 [38:23<02:30,  4.24it/s] 91%|█████████ | 6199/6837 [38:24<02:30,  4.24it/s] 91%|█████████ | 6200/6837 [38:24<02:30,  4.23it/s]                                                   {'loss': 4.2882, 'grad_norm': 0.15112021565437317, 'learning_rate': 0.00015727668328424315, 'epoch': 0.18}
 91%|█████████ | 6200/6837 [38:24<02:30,  4.23it/s] 91%|█████████ | 6201/6837 [38:24<02:30,  4.21it/s] 91%|█████████ | 6202/6837 [38:24<02:30,  4.22it/s] 91%|█████████ | 6203/6837 [38:25<02:30,  4.22it/s] 91%|█████████ | 6204/6837 [38:25<02:29,  4.23it/s] 91%|█████████ | 6205/6837 [38:25<02:29,  4.23it/s] 91%|█████████ | 6206/6837 [38:25<02:28,  4.24it/s] 91%|█████████ | 6207/6837 [38:26<02:28,  4.23it/s] 91%|█████████ | 6208/6837 [38:26<02:28,  4.23it/s] 91%|█████████ | 6209/6837 [38:26<02:28,  4.23it/s] 91%|█████████ | 6210/6837 [38:26<02:28,  4.24it/s] 91%|█████████ | 6211/6837 [38:27<02:27,  4.24it/s] 91%|█████████ | 6212/6837 [38:27<02:27,  4.23it/s] 91%|█████████ | 6213/6837 [38:27<02:27,  4.23it/s] 91%|█████████ | 6214/6837 [38:27<02:27,  4.23it/s] 91%|█████████ | 6215/6837 [38:27<02:27,  4.23it/s] 91%|█████████ | 6216/6837 [38:28<02:26,  4.23it/s] 91%|█████████ | 6217/6837 [38:28<02:26,  4.23it/s] 91%|█████████ | 6218/6837 [38:28<02:26,  4.23it/s] 91%|█████████ | 6219/6837 [38:28<02:26,  4.23it/s] 91%|█████████ | 6220/6837 [38:29<02:26,  4.23it/s] 91%|█████████ | 6221/6837 [38:29<02:26,  4.20it/s] 91%|█████████ | 6222/6837 [38:29<02:26,  4.20it/s] 91%|█████████ | 6223/6837 [38:29<02:25,  4.21it/s] 91%|█████████ | 6224/6837 [38:30<02:25,  4.21it/s] 91%|█████████ | 6225/6837 [38:30<02:24,  4.22it/s]                                                   {'loss': 4.2794, 'grad_norm': 0.14710699021816254, 'learning_rate': 0.0001452725036646474, 'epoch': 0.18}
 91%|█████████ | 6225/6837 [38:30<02:24,  4.22it/s] 91%|█████████ | 6226/6837 [38:30<02:25,  4.21it/s] 91%|█████████ | 6227/6837 [38:30<02:24,  4.22it/s] 91%|█████████ | 6228/6837 [38:31<02:24,  4.21it/s] 91%|█████████ | 6229/6837 [38:31<02:24,  4.22it/s] 91%|█████████ | 6230/6837 [38:31<02:23,  4.23it/s] 91%|█████████ | 6231/6837 [38:31<02:23,  4.23it/s] 91%|█████████ | 6232/6837 [38:31<02:23,  4.23it/s] 91%|█████████ | 6233/6837 [38:32<02:22,  4.23it/s] 91%|█████████ | 6234/6837 [38:32<02:22,  4.23it/s] 91%|█████████ | 6235/6837 [38:32<02:22,  4.23it/s] 91%|█████████ | 6236/6837 [38:32<02:22,  4.23it/s] 91%|█████████ | 6237/6837 [38:33<02:21,  4.23it/s] 91%|█████████ | 6238/6837 [38:33<02:21,  4.23it/s] 91%|█████████▏| 6239/6837 [38:33<02:21,  4.23it/s] 91%|█████████▏| 6240/6837 [38:33<02:21,  4.23it/s] 91%|█████████▏| 6241/6837 [38:34<02:20,  4.24it/s] 91%|█████████▏| 6242/6837 [38:34<02:20,  4.24it/s] 91%|█████████▏| 6243/6837 [38:34<02:20,  4.24it/s] 91%|█████████▏| 6244/6837 [38:34<02:19,  4.24it/s] 91%|█████████▏| 6245/6837 [38:35<02:19,  4.24it/s] 91%|█████████▏| 6246/6837 [38:35<02:19,  4.24it/s] 91%|█████████▏| 6247/6837 [38:35<02:19,  4.24it/s] 91%|█████████▏| 6248/6837 [38:35<02:18,  4.24it/s] 91%|█████████▏| 6249/6837 [38:35<02:18,  4.24it/s] 91%|█████████▏| 6250/6837 [38:36<02:18,  4.24it/s]                                                   {'loss': 4.2744, 'grad_norm': 0.14244778454303741, 'learning_rate': 0.0001337334437018498, 'epoch': 0.18}
 91%|█████████▏| 6250/6837 [38:36<02:18,  4.24it/s] 91%|█████████▏| 6251/6837 [38:36<02:18,  4.23it/s] 91%|█████████▏| 6252/6837 [38:36<02:18,  4.23it/s] 91%|█████████▏| 6253/6837 [38:36<02:18,  4.23it/s] 91%|█████████▏| 6254/6837 [38:37<02:17,  4.23it/s] 91%|█████████▏| 6255/6837 [38:37<02:17,  4.24it/s] 92%|█████████▏| 6256/6837 [38:37<02:17,  4.24it/s] 92%|█████████▏| 6257/6837 [38:37<02:16,  4.24it/s] 92%|█████████▏| 6258/6837 [38:38<02:16,  4.24it/s] 92%|█████████▏| 6259/6837 [38:38<02:16,  4.24it/s] 92%|█████████▏| 6260/6837 [38:38<02:16,  4.24it/s] 92%|█████████▏| 6261/6837 [38:38<02:15,  4.24it/s] 92%|█████████▏| 6262/6837 [38:39<02:15,  4.24it/s] 92%|█████████▏| 6263/6837 [38:39<02:15,  4.24it/s] 92%|█████████▏| 6264/6837 [38:39<02:20,  4.09it/s] 92%|█████████▏| 6265/6837 [38:39<02:22,  4.01it/s] 92%|█████████▏| 6266/6837 [38:40<02:24,  3.96it/s] 92%|█████████▏| 6267/6837 [38:40<02:21,  4.04it/s] 92%|█████████▏| 6268/6837 [38:40<02:18,  4.10it/s] 92%|█████████▏| 6269/6837 [38:40<02:16,  4.15it/s] 92%|█████████▏| 6270/6837 [38:41<02:15,  4.18it/s] 92%|█████████▏| 6271/6837 [38:41<02:15,  4.19it/s] 92%|█████████▏| 6272/6837 [38:41<02:14,  4.20it/s] 92%|█████████▏| 6273/6837 [38:41<02:13,  4.21it/s] 92%|█████████▏| 6274/6837 [38:41<02:13,  4.22it/s] 92%|█████████▏| 6275/6837 [38:42<02:12,  4.23it/s]                                                   {'loss': 4.2938, 'grad_norm': 0.15002533793449402, 'learning_rate': 0.0001226613834504664, 'epoch': 0.18}
 92%|█████████▏| 6275/6837 [38:42<02:12,  4.23it/s] 92%|█████████▏| 6276/6837 [38:42<02:13,  4.21it/s] 92%|█████████▏| 6277/6837 [38:42<02:12,  4.21it/s] 92%|█████████▏| 6278/6837 [38:42<02:12,  4.22it/s] 92%|█████████▏| 6279/6837 [38:43<02:12,  4.22it/s] 92%|█████████▏| 6280/6837 [38:43<02:16,  4.07it/s] 92%|█████████▏| 6281/6837 [38:43<02:15,  4.11it/s] 92%|█████████▏| 6282/6837 [38:43<02:13,  4.15it/s] 92%|█████████▏| 6283/6837 [38:44<02:12,  4.17it/s] 92%|█████████▏| 6284/6837 [38:44<02:12,  4.18it/s] 92%|█████████▏| 6285/6837 [38:44<02:11,  4.20it/s] 92%|█████████▏| 6286/6837 [38:44<02:10,  4.21it/s] 92%|█████████▏| 6287/6837 [38:45<02:10,  4.22it/s] 92%|█████████▏| 6288/6837 [38:45<02:09,  4.23it/s] 92%|█████████▏| 6289/6837 [38:45<02:09,  4.22it/s] 92%|█████████▏| 6290/6837 [38:45<02:09,  4.23it/s] 92%|█████████▏| 6291/6837 [38:46<02:08,  4.23it/s] 92%|█████████▏| 6292/6837 [38:46<02:08,  4.24it/s] 92%|█████████▏| 6293/6837 [38:46<02:08,  4.24it/s] 92%|█████████▏| 6294/6837 [38:46<02:07,  4.25it/s] 92%|█████████▏| 6295/6837 [38:46<02:07,  4.25it/s] 92%|█████████▏| 6296/6837 [38:47<02:07,  4.25it/s] 92%|█████████▏| 6297/6837 [38:47<02:07,  4.25it/s] 92%|█████████▏| 6298/6837 [38:47<02:07,  4.24it/s] 92%|█████████▏| 6299/6837 [38:47<02:06,  4.24it/s] 92%|█████████▏| 6300/6837 [38:48<02:06,  4.25it/s]                                                   {'loss': 4.2938, 'grad_norm': 0.14287318289279938, 'learning_rate': 0.00011205812687703132, 'epoch': 0.18}
 92%|█████████▏| 6300/6837 [38:48<02:06,  4.25it/s] 92%|█████████▏| 6301/6837 [38:48<02:06,  4.23it/s] 92%|█████████▏| 6302/6837 [38:48<02:06,  4.24it/s] 92%|█████████▏| 6303/6837 [38:48<02:05,  4.25it/s] 92%|█████████▏| 6304/6837 [38:49<02:05,  4.25it/s] 92%|█████████▏| 6305/6837 [38:49<02:05,  4.24it/s] 92%|█████████▏| 6306/6837 [38:49<02:05,  4.24it/s] 92%|█████████▏| 6307/6837 [38:49<02:05,  4.24it/s] 92%|█████████▏| 6308/6837 [38:50<02:04,  4.25it/s] 92%|█████████▏| 6309/6837 [38:50<02:04,  4.25it/s] 92%|█████████▏| 6310/6837 [38:50<02:03,  4.25it/s] 92%|█████████▏| 6311/6837 [38:50<02:03,  4.26it/s] 92%|█████████▏| 6312/6837 [38:50<02:03,  4.26it/s] 92%|█████████▏| 6313/6837 [38:51<02:03,  4.26it/s] 92%|█████████▏| 6314/6837 [38:51<02:02,  4.26it/s] 92%|█████████▏| 6315/6837 [38:51<02:02,  4.26it/s] 92%|█████████▏| 6316/6837 [38:51<02:02,  4.26it/s] 92%|█████████▏| 6317/6837 [38:52<02:02,  4.26it/s] 92%|█████████▏| 6318/6837 [38:52<02:01,  4.25it/s] 92%|█████████▏| 6319/6837 [38:52<02:01,  4.25it/s] 92%|█████████▏| 6320/6837 [38:52<02:01,  4.24it/s] 92%|█████████▏| 6321/6837 [38:53<02:01,  4.25it/s] 92%|█████████▏| 6322/6837 [38:53<02:01,  4.24it/s] 92%|█████████▏| 6323/6837 [38:53<02:01,  4.23it/s] 92%|█████████▏| 6324/6837 [38:53<02:01,  4.23it/s] 93%|█████████▎| 6325/6837 [38:54<02:00,  4.23it/s]                                                   {'loss': 4.2871, 'grad_norm': 0.146336629986763, 'learning_rate': 0.000101925401566074, 'epoch': 0.19}
 93%|█████████▎| 6325/6837 [38:54<02:00,  4.23it/s] 93%|█████████▎| 6326/6837 [38:54<02:01,  4.22it/s] 93%|█████████▎| 6327/6837 [38:54<02:00,  4.22it/s] 93%|█████████▎| 6328/6837 [38:54<02:00,  4.23it/s] 93%|█████████▎| 6329/6837 [38:54<02:00,  4.23it/s] 93%|█████████▎| 6330/6837 [38:55<01:59,  4.23it/s] 93%|█████████▎| 6331/6837 [38:55<01:59,  4.23it/s] 93%|█████████▎| 6332/6837 [38:55<01:59,  4.23it/s] 93%|█████████▎| 6333/6837 [38:55<01:59,  4.23it/s] 93%|█████████▎| 6334/6837 [38:56<01:58,  4.23it/s] 93%|█████████▎| 6335/6837 [38:56<01:58,  4.23it/s] 93%|█████████▎| 6336/6837 [38:56<01:58,  4.23it/s] 93%|█████████▎| 6337/6837 [38:56<01:58,  4.23it/s] 93%|█████████▎| 6338/6837 [38:57<01:57,  4.23it/s] 93%|█████████▎| 6339/6837 [38:57<01:57,  4.23it/s] 93%|█████████▎| 6340/6837 [38:57<01:57,  4.22it/s] 93%|█████████▎| 6341/6837 [38:57<01:57,  4.23it/s] 93%|█████████▎| 6342/6837 [38:58<01:56,  4.23it/s] 93%|█████████▎| 6343/6837 [38:58<01:56,  4.23it/s] 93%|█████████▎| 6344/6837 [38:58<01:56,  4.22it/s] 93%|█████████▎| 6345/6837 [38:58<01:56,  4.23it/s] 93%|█████████▎| 6346/6837 [38:58<01:55,  4.23it/s] 93%|█████████▎| 6347/6837 [38:59<02:00,  4.08it/s] 93%|█████████▎| 6348/6837 [38:59<02:02,  4.00it/s] 93%|█████████▎| 6349/6837 [38:59<02:04,  3.94it/s] 93%|█████████▎| 6350/6837 [39:00<02:01,  3.99it/s]                                                   {'loss': 4.2968, 'grad_norm': 0.14501486718654633, 'learning_rate': 9.226485843864463e-05, 'epoch': 0.19}
 93%|█████████▎| 6350/6837 [39:00<02:01,  3.99it/s] 93%|█████████▎| 6351/6837 [39:00<01:59,  4.05it/s] 93%|█████████▎| 6352/6837 [39:00<01:57,  4.11it/s] 93%|█████████▎| 6353/6837 [39:00<02:00,  4.01it/s] 93%|█████████▎| 6354/6837 [39:01<02:03,  3.91it/s] 93%|█████████▎| 6355/6837 [39:01<02:05,  3.85it/s] 93%|█████████▎| 6356/6837 [39:01<02:04,  3.85it/s] 93%|█████████▎| 6357/6837 [39:01<02:05,  3.83it/s] 93%|█████████▎| 6358/6837 [39:02<02:05,  3.81it/s] 93%|█████████▎| 6359/6837 [39:02<02:05,  3.82it/s] 93%|█████████▎| 6360/6837 [39:02<02:01,  3.92it/s] 93%|█████████▎| 6361/6837 [39:02<01:58,  4.02it/s] 93%|█████████▎| 6362/6837 [39:03<01:56,  4.09it/s] 93%|█████████▎| 6363/6837 [39:03<01:54,  4.14it/s] 93%|█████████▎| 6364/6837 [39:03<01:53,  4.17it/s] 93%|█████████▎| 6365/6837 [39:03<01:52,  4.20it/s] 93%|█████████▎| 6366/6837 [39:04<01:51,  4.21it/s] 93%|█████████▎| 6367/6837 [39:04<01:51,  4.22it/s] 93%|█████████▎| 6368/6837 [39:04<02:30,  3.12it/s] 93%|█████████▎| 6369/6837 [39:04<02:18,  3.39it/s] 93%|█████████▎| 6370/6837 [39:05<02:09,  3.61it/s] 93%|█████████▎| 6371/6837 [39:05<02:03,  3.78it/s] 93%|█████████▎| 6372/6837 [39:05<01:59,  3.91it/s] 93%|█████████▎| 6373/6837 [39:05<02:00,  3.87it/s] 93%|█████████▎| 6374/6837 [39:06<02:00,  3.85it/s] 93%|█████████▎| 6375/6837 [39:06<02:00,  3.84it/s]                                                   {'loss': 4.2869, 'grad_norm': 0.1443915218114853, 'learning_rate': 8.307807148333269e-05, 'epoch': 0.19}
 93%|█████████▎| 6375/6837 [39:06<02:00,  3.84it/s] 93%|█████████▎| 6376/6837 [39:06<02:00,  3.83it/s] 93%|█████████▎| 6377/6837 [39:07<02:00,  3.83it/s] 93%|█████████▎| 6378/6837 [39:07<02:00,  3.82it/s] 93%|█████████▎| 6379/6837 [39:07<02:00,  3.82it/s] 93%|█████████▎| 6380/6837 [39:07<01:59,  3.81it/s] 93%|█████████▎| 6381/6837 [39:08<02:00,  3.80it/s] 93%|█████████▎| 6382/6837 [39:08<01:59,  3.80it/s] 93%|█████████▎| 6383/6837 [39:08<01:59,  3.79it/s] 93%|█████████▎| 6384/6837 [39:08<01:58,  3.81it/s] 93%|█████████▎| 6385/6837 [39:09<01:59,  3.79it/s] 93%|█████████▎| 6386/6837 [39:09<01:59,  3.79it/s] 93%|█████████▎| 6387/6837 [39:09<01:59,  3.78it/s] 93%|█████████▎| 6388/6837 [39:09<01:58,  3.78it/s] 93%|█████████▎| 6389/6837 [39:10<01:58,  3.77it/s] 93%|█████████▎| 6390/6837 [39:10<01:58,  3.78it/s] 93%|█████████▎| 6391/6837 [39:10<01:58,  3.76it/s] 93%|█████████▎| 6392/6837 [39:10<01:57,  3.77it/s] 94%|█████████▎| 6393/6837 [39:11<01:56,  3.80it/s] 94%|█████████▎| 6394/6837 [39:11<01:55,  3.83it/s] 94%|█████████▎| 6395/6837 [39:11<01:55,  3.81it/s] 94%|█████████▎| 6396/6837 [39:12<01:55,  3.81it/s] 94%|█████████▎| 6397/6837 [39:12<01:55,  3.81it/s] 94%|█████████▎| 6398/6837 [39:12<01:55,  3.80it/s] 94%|█████████▎| 6399/6837 [39:12<01:55,  3.78it/s] 94%|█████████▎| 6400/6837 [39:13<01:55,  3.79it/s]                                                   {'loss': 4.2862, 'grad_norm': 0.14435304701328278, 'learning_rate': 7.43665374998157e-05, 'epoch': 0.19}
 94%|█████████▎| 6400/6837 [39:13<01:55,  3.79it/s] 94%|█████████▎| 6401/6837 [39:13<01:55,  3.78it/s] 94%|█████████▎| 6402/6837 [39:13<01:55,  3.78it/s] 94%|█████████▎| 6403/6837 [39:13<01:54,  3.79it/s] 94%|█████████▎| 6404/6837 [39:14<01:54,  3.79it/s] 94%|█████████▎| 6405/6837 [39:14<01:52,  3.84it/s] 94%|█████████▎| 6406/6837 [39:14<01:49,  3.95it/s] 94%|█████████▎| 6407/6837 [39:14<01:46,  4.03it/s] 94%|█████████▎| 6408/6837 [39:15<01:45,  4.08it/s] 94%|█████████▎| 6409/6837 [39:15<01:43,  4.13it/s] 94%|█████████▍| 6410/6837 [39:15<01:42,  4.16it/s] 94%|█████████▍| 6411/6837 [39:15<01:41,  4.18it/s] 94%|█████████▍| 6412/6837 [39:16<01:41,  4.20it/s] 94%|█████████▍| 6413/6837 [39:16<01:40,  4.21it/s] 94%|█████████▍| 6414/6837 [39:16<01:40,  4.21it/s] 94%|█████████▍| 6415/6837 [39:16<01:40,  4.21it/s] 94%|█████████▍| 6416/6837 [39:16<01:39,  4.22it/s] 94%|█████████▍| 6417/6837 [39:17<01:39,  4.23it/s] 94%|█████████▍| 6418/6837 [39:17<01:39,  4.23it/s] 94%|█████████▍| 6419/6837 [39:17<01:38,  4.23it/s] 94%|█████████▍| 6420/6837 [39:17<01:38,  4.23it/s] 94%|█████████▍| 6421/6837 [39:18<01:38,  4.24it/s] 94%|█████████▍| 6422/6837 [39:18<01:38,  4.23it/s] 94%|█████████▍| 6423/6837 [39:18<01:37,  4.23it/s] 94%|█████████▍| 6424/6837 [39:18<01:37,  4.23it/s] 94%|█████████▍| 6425/6837 [39:19<01:37,  4.23it/s]                                                   {'loss': 4.2897, 'grad_norm': 0.14084896445274353, 'learning_rate': 6.613167585498636e-05, 'epoch': 0.19}
 94%|█████████▍| 6425/6837 [39:19<01:37,  4.23it/s] 94%|█████████▍| 6426/6837 [39:19<01:37,  4.22it/s] 94%|█████████▍| 6427/6837 [39:19<01:36,  4.23it/s] 94%|█████████▍| 6428/6837 [39:19<01:36,  4.23it/s] 94%|█████████▍| 6429/6837 [39:20<01:36,  4.23it/s] 94%|█████████▍| 6430/6837 [39:20<01:36,  4.23it/s] 94%|█████████▍| 6431/6837 [39:20<01:35,  4.23it/s] 94%|█████████▍| 6432/6837 [39:20<01:35,  4.23it/s] 94%|█████████▍| 6433/6837 [39:21<01:35,  4.23it/s] 94%|█████████▍| 6434/6837 [39:21<01:36,  4.17it/s] 94%|█████████▍| 6435/6837 [39:21<01:35,  4.19it/s] 94%|█████████▍| 6436/6837 [39:21<01:35,  4.20it/s] 94%|█████████▍| 6437/6837 [39:21<01:34,  4.22it/s] 94%|█████████▍| 6438/6837 [39:22<01:34,  4.23it/s] 94%|█████████▍| 6439/6837 [39:22<01:34,  4.23it/s] 94%|█████████▍| 6440/6837 [39:22<01:33,  4.23it/s] 94%|█████████▍| 6441/6837 [39:22<01:33,  4.24it/s] 94%|█████████▍| 6442/6837 [39:23<01:33,  4.24it/s] 94%|█████████▍| 6443/6837 [39:23<01:32,  4.24it/s] 94%|█████████▍| 6444/6837 [39:23<01:32,  4.24it/s] 94%|█████████▍| 6445/6837 [39:23<01:32,  4.24it/s] 94%|█████████▍| 6446/6837 [39:24<01:32,  4.24it/s] 94%|█████████▍| 6447/6837 [39:24<01:32,  4.24it/s] 94%|█████████▍| 6448/6837 [39:24<01:31,  4.24it/s] 94%|█████████▍| 6449/6837 [39:24<01:31,  4.24it/s] 94%|█████████▍| 6450/6837 [39:25<01:31,  4.23it/s]                                                   {'loss': 4.287, 'grad_norm': 0.14081266522407532, 'learning_rate': 5.837482825169616e-05, 'epoch': 0.19}
 94%|█████████▍| 6450/6837 [39:25<01:31,  4.23it/s] 94%|█████████▍| 6451/6837 [39:25<01:31,  4.22it/s] 94%|█████████▍| 6452/6837 [39:25<01:31,  4.22it/s] 94%|█████████▍| 6453/6837 [39:25<01:30,  4.23it/s] 94%|█████████▍| 6454/6837 [39:25<01:30,  4.23it/s] 94%|█████████▍| 6455/6837 [39:26<01:30,  4.23it/s] 94%|█████████▍| 6456/6837 [39:26<01:29,  4.24it/s] 94%|█████████▍| 6457/6837 [39:26<01:29,  4.23it/s] 94%|█████████▍| 6458/6837 [39:26<01:29,  4.24it/s] 94%|█████████▍| 6459/6837 [39:27<01:29,  4.24it/s] 94%|█████████▍| 6460/6837 [39:27<01:28,  4.24it/s] 95%|█████████▍| 6461/6837 [39:27<01:28,  4.24it/s] 95%|█████████▍| 6462/6837 [39:27<01:28,  4.25it/s] 95%|█████████▍| 6463/6837 [39:28<01:31,  4.10it/s] 95%|█████████▍| 6464/6837 [39:28<01:33,  3.99it/s] 95%|█████████▍| 6465/6837 [39:28<01:34,  3.92it/s] 95%|█████████▍| 6466/6837 [39:28<01:32,  4.01it/s] 95%|█████████▍| 6467/6837 [39:29<01:31,  4.06it/s] 95%|█████████▍| 6468/6837 [39:29<01:29,  4.10it/s] 95%|█████████▍| 6469/6837 [39:29<01:29,  4.13it/s] 95%|█████████▍| 6470/6837 [39:29<01:28,  4.16it/s] 95%|█████████▍| 6471/6837 [39:30<01:27,  4.18it/s] 95%|█████████▍| 6472/6837 [39:30<01:26,  4.20it/s] 95%|█████████▍| 6473/6837 [39:30<01:26,  4.21it/s] 95%|█████████▍| 6474/6837 [39:30<01:26,  4.22it/s] 95%|█████████▍| 6475/6837 [39:31<01:25,  4.23it/s]                                                   {'loss': 4.2769, 'grad_norm': 0.14077018201351166, 'learning_rate': 5.109725851015256e-05, 'epoch': 0.19}
 95%|█████████▍| 6475/6837 [39:31<01:25,  4.23it/s] 95%|█████████▍| 6476/6837 [39:31<01:25,  4.22it/s] 95%|█████████▍| 6477/6837 [39:31<01:25,  4.23it/s] 95%|█████████▍| 6478/6837 [39:31<01:24,  4.23it/s] 95%|█████████▍| 6479/6837 [39:31<01:24,  4.24it/s] 95%|█████████▍| 6480/6837 [39:32<01:24,  4.24it/s] 95%|█████████▍| 6481/6837 [39:32<01:23,  4.25it/s] 95%|█████████▍| 6482/6837 [39:32<01:23,  4.25it/s] 95%|█████████▍| 6483/6837 [39:32<01:23,  4.23it/s] 95%|█████████▍| 6484/6837 [39:33<01:23,  4.23it/s] 95%|█████████▍| 6485/6837 [39:33<01:23,  4.23it/s] 95%|█████████▍| 6486/6837 [39:33<01:22,  4.24it/s] 95%|█████████▍| 6487/6837 [39:33<01:22,  4.24it/s] 95%|█████████▍| 6488/6837 [39:34<01:22,  4.24it/s] 95%|█████████▍| 6489/6837 [39:34<01:22,  4.24it/s] 95%|█████████▍| 6490/6837 [39:34<01:21,  4.24it/s] 95%|█████████▍| 6491/6837 [39:34<01:21,  4.24it/s] 95%|█████████▍| 6492/6837 [39:35<01:21,  4.24it/s] 95%|█████████▍| 6493/6837 [39:35<01:21,  4.24it/s] 95%|█████████▍| 6494/6837 [39:35<01:20,  4.24it/s] 95%|█████████▍| 6495/6837 [39:35<01:20,  4.25it/s] 95%|█████████▌| 6496/6837 [39:35<01:20,  4.25it/s] 95%|█████████▌| 6497/6837 [39:36<01:20,  4.25it/s] 95%|█████████▌| 6498/6837 [39:36<01:19,  4.25it/s] 95%|█████████▌| 6499/6837 [39:36<01:19,  4.25it/s] 95%|█████████▌| 6500/6837 [39:36<01:19,  4.24it/s]                                                   {'loss': 4.2817, 'grad_norm': 0.14405563473701477, 'learning_rate': 4.4300152362003466e-05, 'epoch': 0.19}
 95%|█████████▌| 6500/6837 [39:36<01:19,  4.24it/s] 95%|█████████▌| 6501/6837 [39:37<01:19,  4.23it/s] 95%|█████████▌| 6502/6837 [39:37<01:19,  4.23it/s] 95%|█████████▌| 6503/6837 [39:37<01:18,  4.23it/s] 95%|█████████▌| 6504/6837 [39:37<01:18,  4.23it/s] 95%|█████████▌| 6505/6837 [39:38<01:18,  4.23it/s] 95%|█████████▌| 6506/6837 [39:38<01:18,  4.22it/s] 95%|█████████▌| 6507/6837 [39:38<01:18,  4.22it/s] 95%|█████████▌| 6508/6837 [39:38<01:17,  4.23it/s] 95%|█████████▌| 6509/6837 [39:39<01:17,  4.23it/s] 95%|█████████▌| 6510/6837 [39:39<01:17,  4.22it/s] 95%|█████████▌| 6511/6837 [39:39<01:17,  4.23it/s] 95%|█████████▌| 6512/6837 [39:39<01:16,  4.23it/s] 95%|█████████▌| 6513/6837 [39:39<01:16,  4.23it/s] 95%|█████████▌| 6514/6837 [39:40<01:16,  4.24it/s] 95%|█████████▌| 6515/6837 [39:40<01:15,  4.24it/s] 95%|█████████▌| 6516/6837 [39:40<01:15,  4.24it/s] 95%|█████████▌| 6517/6837 [39:40<01:15,  4.24it/s] 95%|█████████▌| 6518/6837 [39:41<01:15,  4.24it/s] 95%|█████████▌| 6519/6837 [39:41<01:14,  4.24it/s] 95%|█████████▌| 6520/6837 [39:41<01:14,  4.24it/s] 95%|█████████▌| 6521/6837 [39:41<01:14,  4.24it/s] 95%|█████████▌| 6522/6837 [39:42<01:14,  4.24it/s] 95%|█████████▌| 6523/6837 [39:42<01:14,  4.24it/s] 95%|█████████▌| 6524/6837 [39:42<01:13,  4.24it/s] 95%|█████████▌| 6525/6837 [39:42<01:13,  4.24it/s]                                                   {'loss': 4.2885, 'grad_norm': 0.14118966460227966, 'learning_rate': 3.7984617257148634e-05, 'epoch': 0.19}
 95%|█████████▌| 6525/6837 [39:42<01:13,  4.24it/s] 95%|█████████▌| 6526/6837 [39:43<01:13,  4.23it/s] 95%|█████████▌| 6527/6837 [39:43<01:16,  4.06it/s] 95%|█████████▌| 6528/6837 [39:43<01:18,  3.95it/s] 95%|█████████▌| 6529/6837 [39:43<01:18,  3.93it/s] 96%|█████████▌| 6530/6837 [39:44<01:17,  3.98it/s] 96%|█████████▌| 6531/6837 [39:44<01:15,  4.06it/s] 96%|█████████▌| 6532/6837 [39:44<01:14,  4.11it/s] 96%|█████████▌| 6533/6837 [39:44<01:13,  4.14it/s] 96%|█████████▌| 6534/6837 [39:45<01:12,  4.16it/s] 96%|█████████▌| 6535/6837 [39:45<01:12,  4.18it/s] 96%|█████████▌| 6536/6837 [39:45<01:11,  4.19it/s] 96%|█████████▌| 6537/6837 [39:45<01:11,  4.20it/s] 96%|█████████▌| 6538/6837 [39:45<01:11,  4.20it/s] 96%|█████████▌| 6539/6837 [39:46<01:10,  4.21it/s] 96%|█████████▌| 6540/6837 [39:46<01:10,  4.21it/s] 96%|█████████▌| 6541/6837 [39:46<01:10,  4.21it/s] 96%|█████████▌| 6542/6837 [39:46<01:10,  4.21it/s] 96%|█████████▌| 6543/6837 [39:47<01:09,  4.22it/s] 96%|█████████▌| 6544/6837 [39:47<01:09,  4.22it/s] 96%|█████████▌| 6545/6837 [39:47<01:09,  4.22it/s] 96%|█████████▌| 6546/6837 [39:47<01:08,  4.22it/s] 96%|█████████▌| 6547/6837 [39:48<01:08,  4.22it/s] 96%|█████████▌| 6548/6837 [39:48<01:08,  4.22it/s] 96%|█████████▌| 6549/6837 [39:48<01:08,  4.22it/s] 96%|█████████▌| 6550/6837 [39:48<01:07,  4.23it/s]                                                   {'loss': 4.2816, 'grad_norm': 0.1524515599012375, 'learning_rate': 3.2151682183301775e-05, 'epoch': 0.19}
 96%|█████████▌| 6550/6837 [39:48<01:07,  4.23it/s] 96%|█████████▌| 6551/6837 [39:49<01:07,  4.22it/s] 96%|█████████▌| 6552/6837 [39:49<01:07,  4.22it/s] 96%|█████████▌| 6553/6837 [39:49<01:07,  4.22it/s] 96%|█████████▌| 6554/6837 [39:49<01:07,  4.22it/s] 96%|█████████▌| 6555/6837 [39:50<01:06,  4.22it/s] 96%|█████████▌| 6556/6837 [39:50<01:06,  4.22it/s] 96%|█████████▌| 6557/6837 [39:50<01:06,  4.23it/s] 96%|█████████▌| 6558/6837 [39:50<01:06,  4.23it/s] 96%|█████████▌| 6559/6837 [39:50<01:05,  4.23it/s] 96%|█████████▌| 6560/6837 [39:51<01:05,  4.23it/s] 96%|█████████▌| 6561/6837 [39:51<01:05,  4.24it/s] 96%|█████████▌| 6562/6837 [39:51<01:04,  4.23it/s] 96%|█████████▌| 6563/6837 [39:51<01:04,  4.23it/s] 96%|█████████▌| 6564/6837 [39:52<01:04,  4.23it/s] 96%|█████████▌| 6565/6837 [39:52<01:04,  4.24it/s] 96%|█████████▌| 6566/6837 [39:52<01:04,  4.23it/s] 96%|█████████▌| 6567/6837 [39:52<01:03,  4.24it/s] 96%|█████████▌| 6568/6837 [39:53<01:03,  4.25it/s] 96%|█████████▌| 6569/6837 [39:53<01:03,  4.25it/s] 96%|█████████▌| 6570/6837 [39:53<01:02,  4.25it/s] 96%|█████████▌| 6571/6837 [39:53<01:02,  4.25it/s] 96%|█████████▌| 6572/6837 [39:54<01:02,  4.25it/s] 96%|█████████▌| 6573/6837 [39:54<01:02,  4.25it/s] 96%|█████████▌| 6574/6837 [39:54<01:01,  4.25it/s] 96%|█████████▌| 6575/6837 [39:54<01:01,  4.25it/s]                                                   {'loss': 4.2794, 'grad_norm': 0.14205096662044525, 'learning_rate': 2.680229749833929e-05, 'epoch': 0.19}
 96%|█████████▌| 6575/6837 [39:54<01:01,  4.25it/s] 96%|█████████▌| 6576/6837 [39:54<01:01,  4.23it/s] 96%|█████████▌| 6577/6837 [39:55<01:01,  4.24it/s] 96%|█████████▌| 6578/6837 [39:55<01:01,  4.24it/s] 96%|█████████▌| 6579/6837 [39:55<01:00,  4.24it/s] 96%|█████████▌| 6580/6837 [39:55<01:02,  4.08it/s] 96%|█████████▋| 6581/6837 [39:56<01:04,  3.98it/s] 96%|█████████▋| 6582/6837 [39:56<01:04,  3.93it/s] 96%|█████████▋| 6583/6837 [39:56<01:03,  3.99it/s] 96%|█████████▋| 6584/6837 [39:56<01:02,  4.05it/s] 96%|█████████▋| 6585/6837 [39:57<01:01,  4.11it/s] 96%|█████████▋| 6586/6837 [39:57<01:00,  4.14it/s] 96%|█████████▋| 6587/6837 [39:57<01:00,  4.16it/s] 96%|█████████▋| 6588/6837 [39:57<00:59,  4.18it/s] 96%|█████████▋| 6589/6837 [39:58<00:59,  4.20it/s] 96%|█████████▋| 6590/6837 [39:58<00:58,  4.21it/s] 96%|█████████▋| 6591/6837 [39:58<00:58,  4.22it/s] 96%|█████████▋| 6592/6837 [39:58<00:57,  4.23it/s] 96%|█████████▋| 6593/6837 [39:59<00:57,  4.21it/s] 96%|█████████▋| 6594/6837 [39:59<00:57,  4.20it/s] 96%|█████████▋| 6595/6837 [39:59<00:57,  4.20it/s] 96%|█████████▋| 6596/6837 [39:59<00:57,  4.20it/s] 96%|█████████▋| 6597/6837 [40:00<00:57,  4.21it/s] 97%|█████████▋| 6598/6837 [40:00<00:56,  4.22it/s] 97%|█████████▋| 6599/6837 [40:00<00:56,  4.22it/s] 97%|█████████▋| 6600/6837 [40:00<00:56,  4.22it/s]                                                   {'loss': 4.2741, 'grad_norm': 0.14347386360168457, 'learning_rate': 2.193733477545712e-05, 'epoch': 0.19}
 97%|█████████▋| 6600/6837 [40:00<00:56,  4.22it/s] 97%|█████████▋| 6601/6837 [40:00<00:56,  4.21it/s] 97%|█████████▋| 6602/6837 [40:01<00:55,  4.22it/s] 97%|█████████▋| 6603/6837 [40:01<00:55,  4.22it/s] 97%|█████████▋| 6604/6837 [40:01<00:55,  4.21it/s] 97%|█████████▋| 6605/6837 [40:01<00:55,  4.22it/s] 97%|█████████▋| 6606/6837 [40:02<00:54,  4.22it/s] 97%|█████████▋| 6607/6837 [40:02<00:54,  4.22it/s] 97%|█████████▋| 6608/6837 [40:02<00:54,  4.22it/s] 97%|█████████▋| 6609/6837 [40:02<00:53,  4.23it/s] 97%|█████████▋| 6610/6837 [40:03<00:53,  4.23it/s] 97%|█████████▋| 6611/6837 [40:03<00:53,  4.23it/s] 97%|█████████▋| 6612/6837 [40:03<00:53,  4.23it/s] 97%|█████████▋| 6613/6837 [40:03<00:52,  4.23it/s] 97%|█████████▋| 6614/6837 [40:04<00:52,  4.21it/s] 97%|█████████▋| 6615/6837 [40:04<00:52,  4.22it/s] 97%|█████████▋| 6616/6837 [40:04<00:52,  4.22it/s] 97%|█████████▋| 6617/6837 [40:04<00:52,  4.22it/s] 97%|█████████▋| 6618/6837 [40:05<00:51,  4.22it/s] 97%|█████████▋| 6619/6837 [40:05<00:51,  4.22it/s] 97%|█████████▋| 6620/6837 [40:05<00:51,  4.23it/s] 97%|█████████▋| 6621/6837 [40:05<00:51,  4.23it/s] 97%|█████████▋| 6622/6837 [40:05<00:50,  4.23it/s] 97%|█████████▋| 6623/6837 [40:06<00:50,  4.23it/s] 97%|█████████▋| 6624/6837 [40:06<00:50,  4.23it/s] 97%|█████████▋| 6625/6837 [40:06<00:50,  4.23it/s]                                                   {'loss': 4.2872, 'grad_norm': 0.1419345885515213, 'learning_rate': 1.7557586661167357e-05, 'epoch': 0.19}
 97%|█████████▋| 6625/6837 [40:06<00:50,  4.23it/s] 97%|█████████▋| 6626/6837 [40:06<00:49,  4.22it/s] 97%|█████████▋| 6627/6837 [40:07<00:49,  4.23it/s] 97%|█████████▋| 6628/6837 [40:07<00:49,  4.22it/s] 97%|█████████▋| 6629/6837 [40:07<00:49,  4.23it/s] 97%|█████████▋| 6630/6837 [40:07<00:48,  4.23it/s] 97%|█████████▋| 6631/6837 [40:08<00:48,  4.23it/s] 97%|█████████▋| 6632/6837 [40:08<00:48,  4.23it/s] 97%|█████████▋| 6633/6837 [40:08<00:48,  4.24it/s] 97%|█████████▋| 6634/6837 [40:08<00:47,  4.24it/s] 97%|█████████▋| 6635/6837 [40:09<00:47,  4.23it/s] 97%|█████████▋| 6636/6837 [40:09<00:47,  4.24it/s] 97%|█████████▋| 6637/6837 [40:09<00:47,  4.24it/s] 97%|█████████▋| 6638/6837 [40:09<00:46,  4.24it/s] 97%|█████████▋| 6639/6837 [40:09<00:46,  4.24it/s] 97%|█████████▋| 6640/6837 [40:10<00:46,  4.24it/s] 97%|█████████▋| 6641/6837 [40:10<00:46,  4.24it/s] 97%|█████████▋| 6642/6837 [40:10<00:45,  4.25it/s] 97%|█████████▋| 6643/6837 [40:10<00:45,  4.25it/s] 97%|█████████▋| 6644/6837 [40:11<00:45,  4.25it/s] 97%|█████████▋| 6645/6837 [40:11<00:45,  4.25it/s] 97%|█████████▋| 6646/6837 [40:11<00:44,  4.25it/s] 97%|█████████▋| 6647/6837 [40:11<00:44,  4.24it/s] 97%|█████████▋| 6648/6837 [40:12<00:44,  4.25it/s] 97%|█████████▋| 6649/6837 [40:12<00:44,  4.25it/s] 97%|█████████▋| 6650/6837 [40:12<00:44,  4.25it/s]                                                   {'loss': 4.2689, 'grad_norm': 0.14699147641658783, 'learning_rate': 1.3663766746151218e-05, 'epoch': 0.19}
 97%|█████████▋| 6650/6837 [40:12<00:44,  4.25it/s] 97%|█████████▋| 6651/6837 [40:12<00:43,  4.24it/s] 97%|█████████▋| 6652/6837 [40:13<00:43,  4.24it/s] 97%|█████████▋| 6653/6837 [40:13<00:45,  4.06it/s] 97%|█████████▋| 6654/6837 [40:13<00:46,  3.95it/s] 97%|█████████▋| 6655/6837 [40:13<00:45,  4.03it/s] 97%|█████████▋| 6656/6837 [40:14<00:44,  4.08it/s] 97%|█████████▋| 6657/6837 [40:14<00:43,  4.13it/s] 97%|█████████▋| 6658/6837 [40:14<00:42,  4.16it/s] 97%|█████████▋| 6659/6837 [40:14<00:42,  4.19it/s] 97%|█████████▋| 6660/6837 [40:14<00:42,  4.20it/s] 97%|█████████▋| 6661/6837 [40:15<00:41,  4.21it/s] 97%|█████████▋| 6662/6837 [40:15<00:41,  4.22it/s] 97%|█████████▋| 6663/6837 [40:15<00:41,  4.22it/s] 97%|█████████▋| 6664/6837 [40:15<00:40,  4.23it/s] 97%|█████████▋| 6665/6837 [40:16<00:40,  4.23it/s] 97%|█████████▋| 6666/6837 [40:16<00:40,  4.23it/s] 98%|█████████▊| 6667/6837 [40:16<00:40,  4.23it/s] 98%|█████████▊| 6668/6837 [40:16<00:39,  4.23it/s] 98%|█████████▊| 6669/6837 [40:17<00:39,  4.23it/s] 98%|█████████▊| 6670/6837 [40:17<00:39,  4.24it/s] 98%|█████████▊| 6671/6837 [40:17<00:39,  4.24it/s] 98%|█████████▊| 6672/6837 [40:17<00:38,  4.24it/s] 98%|█████████▊| 6673/6837 [40:18<00:38,  4.24it/s] 98%|█████████▊| 6674/6837 [40:18<00:38,  4.24it/s] 98%|█████████▊| 6675/6837 [40:18<00:38,  4.25it/s]{'loss': 4.2927, 'grad_norm': 0.145946204662323, 'learning_rate': 1.0256509448995366e-05, 'epoch': 0.2}                                                   
 98%|█████████▊| 6675/6837 [40:18<00:38,  4.25it/s] 98%|█████████▊| 6676/6837 [40:18<00:38,  4.23it/s] 98%|█████████▊| 6677/6837 [40:19<00:37,  4.22it/s] 98%|█████████▊| 6678/6837 [40:19<00:37,  4.22it/s] 98%|█████████▊| 6679/6837 [40:19<00:37,  4.23it/s] 98%|█████████▊| 6680/6837 [40:19<00:37,  4.23it/s] 98%|█████████▊| 6681/6837 [40:19<00:36,  4.23it/s] 98%|█████████▊| 6682/6837 [40:20<00:36,  4.23it/s] 98%|█████████▊| 6683/6837 [40:20<00:36,  4.23it/s] 98%|█████████▊| 6684/6837 [40:20<00:36,  4.23it/s] 98%|█████████▊| 6685/6837 [40:20<00:35,  4.23it/s] 98%|█████████▊| 6686/6837 [40:21<00:35,  4.23it/s] 98%|█████████▊| 6687/6837 [40:21<00:35,  4.23it/s] 98%|█████████▊| 6688/6837 [40:21<00:35,  4.23it/s] 98%|█████████▊| 6689/6837 [40:21<00:34,  4.23it/s] 98%|█████████▊| 6690/6837 [40:22<00:34,  4.24it/s] 98%|█████████▊| 6691/6837 [40:22<00:34,  4.23it/s] 98%|█████████▊| 6692/6837 [40:22<00:34,  4.24it/s] 98%|█████████▊| 6693/6837 [40:22<00:33,  4.24it/s] 98%|█████████▊| 6694/6837 [40:23<00:33,  4.24it/s] 98%|█████████▊| 6695/6837 [40:23<00:33,  4.24it/s] 98%|█████████▊| 6696/6837 [40:23<00:33,  4.24it/s] 98%|█████████▊| 6697/6837 [40:23<00:33,  4.24it/s] 98%|█████████▊| 6698/6837 [40:23<00:32,  4.23it/s] 98%|█████████▊| 6699/6837 [40:24<00:32,  4.23it/s] 98%|█████████▊| 6700/6837 [40:24<00:32,  4.23it/s]                                                   {'loss': 4.2651, 'grad_norm': 0.14143434166908264, 'learning_rate': 7.336369912824936e-06, 'epoch': 0.2}
 98%|█████████▊| 6700/6837 [40:24<00:32,  4.23it/s] 98%|█████████▊| 6701/6837 [40:24<00:32,  4.22it/s] 98%|█████████▊| 6702/6837 [40:24<00:32,  4.22it/s] 98%|█████████▊| 6703/6837 [40:25<00:31,  4.22it/s] 98%|█████████▊| 6704/6837 [40:25<00:31,  4.23it/s] 98%|█████████▊| 6705/6837 [40:25<00:31,  4.23it/s] 98%|█████████▊| 6706/6837 [40:25<00:30,  4.23it/s] 98%|█████████▊| 6707/6837 [40:26<00:30,  4.23it/s] 98%|█████████▊| 6708/6837 [40:26<00:30,  4.23it/s] 98%|█████████▊| 6709/6837 [40:26<00:30,  4.23it/s] 98%|█████████▊| 6710/6837 [40:26<00:30,  4.23it/s] 98%|█████████▊| 6711/6837 [40:27<00:29,  4.24it/s] 98%|█████████▊| 6712/6837 [40:27<00:29,  4.23it/s] 98%|█████████▊| 6713/6837 [40:27<00:29,  4.23it/s] 98%|█████████▊| 6714/6837 [40:27<00:29,  4.23it/s] 98%|█████████▊| 6715/6837 [40:27<00:28,  4.24it/s] 98%|█████████▊| 6716/6837 [40:28<00:28,  4.24it/s] 98%|█████████▊| 6717/6837 [40:28<00:28,  4.23it/s] 98%|█████████▊| 6718/6837 [40:28<00:28,  4.24it/s] 98%|█████████▊| 6719/6837 [40:28<00:27,  4.23it/s] 98%|█████████▊| 6720/6837 [40:29<00:27,  4.22it/s] 98%|█████████▊| 6721/6837 [40:29<00:27,  4.21it/s] 98%|█████████▊| 6722/6837 [40:29<00:27,  4.22it/s] 98%|█████████▊| 6723/6837 [40:29<00:27,  4.22it/s] 98%|█████████▊| 6724/6837 [40:30<00:26,  4.23it/s] 98%|█████████▊| 6725/6837 [40:30<00:26,  4.23it/s]                                                   {'loss': 4.2814, 'grad_norm': 0.14146795868873596, 'learning_rate': 4.903823914855554e-06, 'epoch': 0.2}
 98%|█████████▊| 6725/6837 [40:30<00:26,  4.23it/s] 98%|█████████▊| 6726/6837 [40:30<00:26,  4.22it/s] 98%|█████████▊| 6727/6837 [40:30<00:26,  4.23it/s] 98%|█████████▊| 6728/6837 [40:31<00:25,  4.23it/s] 98%|█████████▊| 6729/6837 [40:31<00:25,  4.23it/s] 98%|█████████▊| 6730/6837 [40:31<00:25,  4.23it/s] 98%|█████████▊| 6731/6837 [40:31<00:25,  4.24it/s] 98%|█████████▊| 6732/6837 [40:32<00:24,  4.25it/s] 98%|█████████▊| 6733/6837 [40:32<00:24,  4.25it/s] 98%|█████████▊| 6734/6837 [40:32<00:24,  4.25it/s] 99%|█████████▊| 6735/6837 [40:32<00:23,  4.25it/s] 99%|█████████▊| 6736/6837 [40:32<00:23,  4.25it/s] 99%|█████████▊| 6737/6837 [40:33<00:23,  4.24it/s] 99%|█████████▊| 6738/6837 [40:33<00:23,  4.25it/s] 99%|█████████▊| 6739/6837 [40:33<00:23,  4.25it/s] 99%|█████████▊| 6740/6837 [40:33<00:22,  4.24it/s] 99%|█████████▊| 6741/6837 [40:34<00:22,  4.25it/s] 99%|█████████▊| 6742/6837 [40:34<00:22,  4.24it/s] 99%|█████████▊| 6743/6837 [40:34<00:22,  4.24it/s] 99%|█████████▊| 6744/6837 [40:34<00:21,  4.24it/s] 99%|█████████▊| 6745/6837 [40:35<00:21,  4.23it/s] 99%|█████████▊| 6746/6837 [40:35<00:21,  4.24it/s] 99%|█████████▊| 6747/6837 [40:35<00:21,  4.24it/s] 99%|█████████▊| 6748/6837 [40:35<00:20,  4.24it/s] 99%|█████████▊| 6749/6837 [40:36<00:20,  4.25it/s] 99%|█████████▊| 6750/6837 [40:36<00:20,  4.24it/s]                                                   {'loss': 4.2669, 'grad_norm': 0.14176252484321594, 'learning_rate': 2.9592677888740095e-06, 'epoch': 0.2}
 99%|█████████▊| 6750/6837 [40:36<00:20,  4.24it/s] 99%|█████████▊| 6751/6837 [40:36<00:20,  4.22it/s] 99%|█████████▉| 6752/6837 [40:36<00:20,  4.22it/s] 99%|█████████▉| 6753/6837 [40:36<00:19,  4.23it/s] 99%|█████████▉| 6754/6837 [40:37<00:19,  4.23it/s] 99%|█████████▉| 6755/6837 [40:37<00:19,  4.23it/s] 99%|█████████▉| 6756/6837 [40:37<00:19,  4.24it/s] 99%|█████████▉| 6757/6837 [40:37<00:18,  4.24it/s] 99%|█████████▉| 6758/6837 [40:38<00:18,  4.24it/s] 99%|█████████▉| 6759/6837 [40:38<00:18,  4.24it/s] 99%|█████████▉| 6760/6837 [40:38<00:18,  4.24it/s] 99%|█████████▉| 6761/6837 [40:38<00:17,  4.24it/s] 99%|█████████▉| 6762/6837 [40:39<00:18,  4.05it/s] 99%|█████████▉| 6763/6837 [40:39<00:18,  3.96it/s] 99%|█████████▉| 6764/6837 [40:39<00:18,  3.89it/s] 99%|█████████▉| 6765/6837 [40:39<00:18,  3.82it/s] 99%|█████████▉| 6766/6837 [40:40<00:18,  3.80it/s] 99%|█████████▉| 6767/6837 [40:40<00:18,  3.80it/s] 99%|█████████▉| 6768/6837 [40:40<00:18,  3.80it/s] 99%|█████████▉| 6769/6837 [40:40<00:17,  3.92it/s] 99%|█████████▉| 6770/6837 [40:41<00:16,  4.01it/s] 99%|█████████▉| 6771/6837 [40:41<00:16,  4.08it/s] 99%|█████████▉| 6772/6837 [40:41<00:15,  4.12it/s] 99%|█████████▉| 6773/6837 [40:41<00:15,  4.16it/s] 99%|█████████▉| 6774/6837 [40:42<00:15,  4.18it/s] 99%|█████████▉| 6775/6837 [40:42<00:14,  4.20it/s]                                                   {'loss': 4.2874, 'grad_norm': 0.1411001980304718, 'learning_rate': 1.5030183606649096e-06, 'epoch': 0.2}
 99%|█████████▉| 6775/6837 [40:42<00:14,  4.20it/s] 99%|█████████▉| 6776/6837 [40:42<00:14,  4.20it/s] 99%|█████████▉| 6777/6837 [40:42<00:14,  4.21it/s] 99%|█████████▉| 6778/6837 [40:43<00:14,  4.21it/s] 99%|█████████▉| 6779/6837 [40:43<00:14,  4.05it/s] 99%|█████████▉| 6780/6837 [40:43<00:14,  3.96it/s] 99%|█████████▉| 6781/6837 [40:43<00:14,  3.89it/s] 99%|█████████▉| 6782/6837 [40:44<00:14,  3.87it/s] 99%|█████████▉| 6783/6837 [40:44<00:14,  3.83it/s] 99%|█████████▉| 6784/6837 [40:44<00:13,  3.81it/s] 99%|█████████▉| 6785/6837 [40:44<00:13,  3.80it/s] 99%|█████████▉| 6786/6837 [40:45<00:13,  3.79it/s] 99%|█████████▉| 6787/6837 [40:45<00:13,  3.81it/s] 99%|█████████▉| 6788/6837 [40:45<00:12,  3.80it/s] 99%|█████████▉| 6789/6837 [40:45<00:12,  3.80it/s] 99%|█████████▉| 6790/6837 [40:46<00:12,  3.79it/s] 99%|█████████▉| 6791/6837 [40:46<00:12,  3.82it/s] 99%|█████████▉| 6792/6837 [40:46<00:11,  3.81it/s] 99%|█████████▉| 6793/6837 [40:47<00:11,  3.79it/s] 99%|█████████▉| 6794/6837 [40:47<00:11,  3.80it/s] 99%|█████████▉| 6795/6837 [40:47<00:11,  3.80it/s] 99%|█████████▉| 6796/6837 [40:47<00:10,  3.79it/s] 99%|█████████▉| 6797/6837 [40:48<00:10,  3.80it/s] 99%|█████████▉| 6798/6837 [40:48<00:10,  3.80it/s] 99%|█████████▉| 6799/6837 [40:48<00:10,  3.79it/s] 99%|█████████▉| 6800/6837 [40:48<00:09,  3.78it/s]                                                   {'loss': 4.2792, 'grad_norm': 0.14825549721717834, 'learning_rate': 5.353128963893062e-07, 'epoch': 0.2}
 99%|█████████▉| 6800/6837 [40:48<00:09,  3.78it/s] 99%|█████████▉| 6801/6837 [40:49<00:09,  3.88it/s] 99%|█████████▉| 6802/6837 [40:49<00:08,  3.98it/s]100%|█████████▉| 6803/6837 [40:49<00:08,  4.05it/s]100%|█████████▉| 6804/6837 [40:49<00:08,  4.10it/s]100%|█████████▉| 6805/6837 [40:50<00:07,  4.14it/s]100%|█████████▉| 6806/6837 [40:50<00:07,  4.16it/s]100%|█████████▉| 6807/6837 [40:50<00:07,  4.18it/s]100%|█████████▉| 6808/6837 [40:50<00:06,  4.19it/s]100%|█████████▉| 6809/6837 [40:51<00:06,  4.21it/s]100%|█████████▉| 6810/6837 [40:51<00:06,  4.22it/s]100%|█████████▉| 6811/6837 [40:51<00:06,  4.22it/s]100%|█████████▉| 6812/6837 [40:51<00:05,  4.22it/s]100%|█████████▉| 6813/6837 [40:51<00:05,  4.23it/s]100%|█████████▉| 6814/6837 [40:52<00:05,  4.23it/s]100%|█████████▉| 6815/6837 [40:52<00:05,  4.23it/s]100%|█████████▉| 6816/6837 [40:52<00:04,  4.23it/s]100%|█████████▉| 6817/6837 [40:52<00:04,  4.24it/s]100%|█████████▉| 6818/6837 [40:53<00:04,  4.23it/s]100%|█████████▉| 6819/6837 [40:53<00:04,  4.24it/s]100%|█████████▉| 6820/6837 [40:53<00:04,  4.24it/s]100%|█████████▉| 6821/6837 [40:53<00:03,  4.23it/s]100%|█████████▉| 6822/6837 [40:54<00:03,  4.23it/s]100%|█████████▉| 6823/6837 [40:54<00:03,  4.23it/s]100%|█████████▉| 6824/6837 [40:54<00:03,  4.24it/s]100%|█████████▉| 6825/6837 [40:54<00:02,  4.23it/s]                                                   {'loss': 4.289, 'grad_norm': 0.14030522108078003, 'learning_rate': 5.6309063927617586e-08, 'epoch': 0.2}
100%|█████████▉| 6825/6837 [40:54<00:02,  4.23it/s]100%|█████████▉| 6826/6837 [40:55<00:02,  4.22it/s]100%|█████████▉| 6827/6837 [40:55<00:02,  4.23it/s]100%|█████████▉| 6828/6837 [40:55<00:02,  4.23it/s]100%|█████████▉| 6829/6837 [40:55<00:01,  4.23it/s]100%|█████████▉| 6830/6837 [40:55<00:01,  4.24it/s]100%|█████████▉| 6831/6837 [40:56<00:01,  4.24it/s]100%|█████████▉| 6832/6837 [40:56<00:01,  4.24it/s]100%|█████████▉| 6833/6837 [40:56<00:00,  4.24it/s]100%|█████████▉| 6834/6837 [40:56<00:00,  4.24it/s]100%|█████████▉| 6835/6837 [40:57<00:00,  4.23it/s]100%|█████████▉| 6836/6837 [40:57<00:00,  4.24it/s]100%|██████████| 6837/6837 [40:57<00:00,  4.24it/s]                                                   {'train_runtime': 2489.6388, 'train_samples_per_second': 878.703, 'train_steps_per_second': 2.746, 'train_loss': 4.665441373295301, 'epoch': 0.2}
100%|██████████| 6837/6837 [41:29<00:00,  4.24it/s]100%|██████████| 6837/6837 [41:29<00:00,  2.75it/s]