diff --git "a/train_job_output.txt" "b/train_job_output.txt"
--- "a/train_job_output.txt"
+++ "b/train_job_output.txt"
@@ -1,4 +1,4 @@
-slurm submission log: 2024-05-20 23:23:25.400328
+slurm submission log: 2024-05-22 17:07:24.872646
 created following sbatch script: 
 
 ###############################
@@ -7,13 +7,419 @@ created following sbatch script:
 
 #SBATCH --account=nlp
 #SBATCH --cpus-per-task=16
-#SBATCH --dependency=afterok:7637741
+#SBATCH --dependency=afterok:7642739
 #SBATCH --gres=gpu:2
-#SBATCH --job-name=tthrush-job-390299
+#SBATCH --job-name=tthrush-job-2024328
 #SBATCH --mem=100G
 #SBATCH --nodelist=sphinx2
 #SBATCH --open-mode=append
-#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/llms/pythia-70m_sciq_1/train_job_output.txt
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1/train_job_output.txt
+#SBATCH --partition=sphinx
+#SBATCH --time=14-0
+
+# activate your desired anaconda environment
+. /nlp/scr/tthrush/miniconda3/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
+
+# cd to working directory
+cd .
+
+# launch commands
+srun --unbuffered run_as_child_processes 'torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1'
+
+###############################
+
+submission to slurm complete!
+
+
+###############################
+slurm submission output
+
+Submitted batch job 7642740
+
+
+
+###############################
+
+###############################
+start time: 2024-05-22 17:09:56.300014
+machine: sphinx2
+conda env: pretraining-coreset-selection
+###############################
+running following processes
+
+	torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1
+
+
+###############################
+command outputs: 
+
+
+[2024-05-22 17:09:58,221] torch.distributed.run: [WARNING] 
+[2024-05-22 17:09:58,221] torch.distributed.run: [WARNING] *****************************************
+[2024-05-22 17:09:58,221] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+[2024-05-22 17:09:58,221] torch.distributed.run: [WARNING] *****************************************
+05/22/2024 17:10:15 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+Traceback (most recent call last):
+  File "/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_llm.py", line 204, in <module>
+    train_model()
+  File "/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_llm.py", line 164, in train_model
+    train_dataset = load_from_disk(script_args.dataset_id)
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/datasets/load.py", line 2638, in load_from_disk
+    raise FileNotFoundError(
+FileNotFoundError: Directory /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq is neither a `Dataset` directory nor a `DatasetDict` directory.
+[2024-05-22 17:10:18,250] torch.distributed.elastic.multiprocessing.api: [WARNING] Sending process 1904395 closing signal SIGTERM
+[2024-05-22 17:10:18,314] torch.distributed.elastic.multiprocessing.api: [ERROR] failed (exitcode: 1) local_rank: 1 (pid: 1904396) of binary: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/bin/python
+Traceback (most recent call last):
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/bin/torchrun", line 8, in <module>
+    sys.exit(main())
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/elastic/multiprocessing/errors/__init__.py", line 347, in wrapper
+    return f(*args, **kwargs)
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/run.py", line 812, in main
+    run(args)
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/run.py", line 803, in run
+    elastic_launch(
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 135, in __call__
+    return launch_agent(self._config, self._entrypoint, list(args))
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 268, in launch_agent
+    raise ChildFailedError(
+torch.distributed.elastic.multiprocessing.errors.ChildFailedError: 
+============================================================
+train_llm.py FAILED
+------------------------------------------------------------
+Failures:
+  <NO_OTHER_FAILURES>
+------------------------------------------------------------
+Root Cause (first observed failure):
+[0]:
+  time      : 2024-05-22_17:10:18
+  host      : sphinx2.stanford.edu
+  rank      : 1 (local_rank: 1)
+  exitcode  : 1 (pid: 1904396)
+  error_file: <N/A>
+  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
+============================================================
+###############################
+end time: 2024-05-22 17:10:26.333875
+elapsed time: 0:00:30.033861
+slurm submission log: 2024-05-22 17:23:51.305056
+created following sbatch script: 
+
+###############################
+
+#!/bin/bash
+
+#SBATCH --account=nlp
+#SBATCH --cpus-per-task=16
+#SBATCH --dependency=afterok:7642779
+#SBATCH --gres=gpu:2
+#SBATCH --job-name=tthrush-job-3697265
+#SBATCH --mem=100G
+#SBATCH --nodelist=sphinx2
+#SBATCH --open-mode=append
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1/train_job_output.txt
+#SBATCH --partition=sphinx
+#SBATCH --time=14-0
+
+# activate your desired anaconda environment
+. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
+
+# cd to working directory
+cd .
+
+# launch commands
+srun --unbuffered run_as_child_processes 'torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1'
+
+###############################
+
+submission to slurm complete!
+
+
+###############################
+slurm submission output
+
+Submitted batch job 7642780
+
+
+
+###############################
+
+/var/lib/slurm/slurmd/job7642780/slurm_script: line 16: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory
+
+CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.
+To initialize your shell, run
+
+    $ conda init <SHELL_NAME>
+
+Currently supported shells are:
+  - bash
+  - fish
+  - tcsh
+  - xonsh
+  - zsh
+  - powershell
+
+See 'conda init --help' for more information and options.
+
+IMPORTANT: You may need to close and restart your shell after running 'conda init'.
+
+
+###############################
+start time: 2024-05-22 17:25:17.800550
+machine: sphinx2
+conda env: pretraining-coreset-selection
+###############################
+running following processes
+
+	torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1
+
+
+###############################
+command outputs: 
+
+
+[2024-05-22 17:25:19,448] torch.distributed.run: [WARNING] 
+[2024-05-22 17:25:19,448] torch.distributed.run: [WARNING] *****************************************
+[2024-05-22 17:25:19,448] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+[2024-05-22 17:25:19,448] torch.distributed.run: [WARNING] *****************************************
+05/22/2024 17:25:24 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+Traceback (most recent call last):
+  File "/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_llm.py", line 204, in <module>
+    train_model()
+  File "/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_llm.py", line 164, in train_model
+    train_dataset = load_from_disk(script_args.dataset_id)
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/datasets/load.py", line 2638, in load_from_disk
+    raise FileNotFoundError(
+FileNotFoundError: Directory /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq is neither a `Dataset` directory nor a `DatasetDict` directory.
+05/22/2024 17:25:29 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+[2024-05-22 17:25:29,465] torch.distributed.elastic.multiprocessing.api: [WARNING] Sending process 1908605 closing signal SIGTERM
+[2024-05-22 17:25:29,879] torch.distributed.elastic.multiprocessing.api: [ERROR] failed (exitcode: 1) local_rank: 0 (pid: 1908604) of binary: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/bin/python
+Traceback (most recent call last):
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/bin/torchrun", line 8, in <module>
+    sys.exit(main())
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/elastic/multiprocessing/errors/__init__.py", line 347, in wrapper
+    return f(*args, **kwargs)
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/run.py", line 812, in main
+    run(args)
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/run.py", line 803, in run
+    elastic_launch(
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 135, in __call__
+    return launch_agent(self._config, self._entrypoint, list(args))
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 268, in launch_agent
+    raise ChildFailedError(
+torch.distributed.elastic.multiprocessing.errors.ChildFailedError: 
+============================================================
+train_llm.py FAILED
+------------------------------------------------------------
+Failures:
+  <NO_OTHER_FAILURES>
+------------------------------------------------------------
+Root Cause (first observed failure):
+[0]:
+  time      : 2024-05-22_17:25:29
+  host      : sphinx2.stanford.edu
+  rank      : 0 (local_rank: 0)
+  exitcode  : 1 (pid: 1908604)
+  error_file: <N/A>
+  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
+============================================================
+###############################
+end time: 2024-05-22 17:25:37.829790
+elapsed time: 0:00:20.029240
+slurm submission log: 2024-05-22 17:29:15.690545
+created following sbatch script: 
+
+###############################
+
+#!/bin/bash
+
+#SBATCH --account=nlp
+#SBATCH --cpus-per-task=16
+#SBATCH --dependency=afterok:7642804
+#SBATCH --gres=gpu:2
+#SBATCH --job-name=tthrush-job-957751
+#SBATCH --mem=100G
+#SBATCH --nodelist=sphinx2
+#SBATCH --open-mode=append
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1/train_job_output.txt
+#SBATCH --partition=sphinx
+#SBATCH --time=14-0
+
+# activate your desired anaconda environment
+. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
+
+# cd to working directory
+cd .
+
+# launch commands
+srun --unbuffered run_as_child_processes 'torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1'
+
+###############################
+
+submission to slurm complete!
+
+
+###############################
+slurm submission output
+
+Submitted batch job 7642805
+
+
+
+###############################
+
+/var/lib/slurm/slurmd/job7642805/slurm_script: line 16: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory
+
+CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.
+To initialize your shell, run
+
+    $ conda init <SHELL_NAME>
+
+Currently supported shells are:
+  - bash
+  - fish
+  - tcsh
+  - xonsh
+  - zsh
+  - powershell
+
+See 'conda init --help' for more information and options.
+
+IMPORTANT: You may need to close and restart your shell after running 'conda init'.
+
+
+###############################
+start time: 2024-05-22 17:31:31.464665
+machine: sphinx2
+conda env: pretraining-coreset-selection
+###############################
+running following processes
+
+	torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1
+
+
+###############################
+command outputs: 
+
+
+[2024-05-22 17:31:33,359] torch.distributed.run: [WARNING] 
+[2024-05-22 17:31:33,359] torch.distributed.run: [WARNING] *****************************************
+[2024-05-22 17:31:33,359] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+[2024-05-22 17:31:33,359] torch.distributed.run: [WARNING] *****************************************
+05/22/2024 17:31:38 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+05/22/2024 17:31:38 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+Traceback (most recent call last):
+  File "/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_llm.py", line 204, in <module>
+    train_model()
+  File "/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_llm.py", line 164, in train_model
+    train_dataset = load_from_disk(script_args.dataset_id)
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/datasets/load.py", line 2638, in load_from_disk
+    raise FileNotFoundError(
+FileNotFoundError: Directory /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq is neither a `Dataset` directory nor a `DatasetDict` directory.
+Traceback (most recent call last):
+  File "/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_llm.py", line 204, in <module>
+    train_model()
+  File "/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_llm.py", line 164, in train_model
+    train_dataset = load_from_disk(script_args.dataset_id)
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/datasets/load.py", line 2638, in load_from_disk
+    raise FileNotFoundError(
+FileNotFoundError: Directory /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq is neither a `Dataset` directory nor a `DatasetDict` directory.
+[2024-05-22 17:31:43,376] torch.distributed.elastic.multiprocessing.api: [ERROR] failed (exitcode: 1) local_rank: 0 (pid: 1910118) of binary: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/bin/python
+Traceback (most recent call last):
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/bin/torchrun", line 8, in <module>
+    sys.exit(main())
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/elastic/multiprocessing/errors/__init__.py", line 347, in wrapper
+    return f(*args, **kwargs)
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/run.py", line 812, in main
+    run(args)
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/run.py", line 803, in run
+    elastic_launch(
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 135, in __call__
+    return launch_agent(self._config, self._entrypoint, list(args))
+  File "/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 268, in launch_agent
+    raise ChildFailedError(
+torch.distributed.elastic.multiprocessing.errors.ChildFailedError: 
+============================================================
+train_llm.py FAILED
+------------------------------------------------------------
+Failures:
+[1]:
+  time      : 2024-05-22_17:31:43
+  host      : sphinx2.stanford.edu
+  rank      : 1 (local_rank: 1)
+  exitcode  : 1 (pid: 1910119)
+  error_file: <N/A>
+  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
+------------------------------------------------------------
+Root Cause (first observed failure):
+[0]:
+  time      : 2024-05-22_17:31:43
+  host      : sphinx2.stanford.edu
+  rank      : 0 (local_rank: 0)
+  exitcode  : 1 (pid: 1910118)
+  error_file: <N/A>
+  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
+============================================================
+###############################
+end time: 2024-05-22 17:31:51.493076
+elapsed time: 0:00:20.028411
+slurm submission log: 2024-05-22 17:41:39.178541
+created following sbatch script: 
+
+###############################
+
+#!/bin/bash
+
+#SBATCH --account=nlp
+#SBATCH --cpus-per-task=16
+#SBATCH --dependency=afterok:7642833
+#SBATCH --gres=gpu:2
+#SBATCH --job-name=tthrush-job-300489
+#SBATCH --mem=100G
+#SBATCH --nodelist=sphinx2
+#SBATCH --open-mode=append
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1/train_job_output.txt
+#SBATCH --partition=sphinx
+#SBATCH --time=14-0
+
+# activate your desired anaconda environment
+. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
+
+# cd to working directory
+cd .
+
+# launch commands
+srun --unbuffered run_as_child_processes 'torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1'
+
+###############################
+
+submission to slurm complete!
+
+
+###############################
+slurm submission output
+
+Submitted batch job 7642834
+
+
+
+###############################
+
+slurm submission log: 2024-05-22 19:52:22.772491
+created following sbatch script: 
+
+###############################
+
+#!/bin/bash
+
+#SBATCH --account=nlp
+#SBATCH --cpus-per-task=16
+#SBATCH --dependency=afterok:7643056
+#SBATCH --gres=gpu:2
+#SBATCH --job-name=tthrush-job-3981807
+#SBATCH --mem=100G
+#SBATCH --nodelist=sphinx2
+#SBATCH --open-mode=append
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1/train_job_output.txt
 #SBATCH --partition=sphinx
 #SBATCH --time=14-0
 
@@ -24,7 +430,7 @@ created following sbatch script:
 cd .
 
 # launch commands
-srun --unbuffered run_as_child_processes 'torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1'
+srun --unbuffered run_as_child_processes 'torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1'
 
 ###############################
 
@@ -34,13 +440,13 @@ submission to slurm complete!
 ###############################
 slurm submission output
 
-Submitted batch job 7637742
+Submitted batch job 7643057
 
 
 
 ###############################
 
-/var/lib/slurm/slurmd/job7637742/slurm_script: line 16: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory
+/var/lib/slurm/slurmd/job7643057/slurm_script: line 16: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory
 
 CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.
 To initialize your shell, run
@@ -61,455 +467,454 @@ IMPORTANT: You may need to close and restart your shell after running 'conda ini
 
 
 ###############################
-start time: 2024-05-21 07:32:04.674137
+start time: 2024-05-23 04:03:11.850965
 machine: sphinx2
 conda env: pretraining-coreset-selection
 ###############################
 running following processes
 
-	torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1
+	torchrun --master_port 29524 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1 --output_hub_id pythia-70m_sciq --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1
 
 
 ###############################
 command outputs: 
 
 
-[2024-05-21 07:32:08,656] torch.distributed.run: [WARNING] 
-[2024-05-21 07:32:08,656] torch.distributed.run: [WARNING] *****************************************
-[2024-05-21 07:32:08,656] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
-[2024-05-21 07:32:08,656] torch.distributed.run: [WARNING] *****************************************
-05/21/2024 07:32:18 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
-05/21/2024 07:32:18 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
-  0%|          | 0/10719 [00:00<?, ?it/s][rank1]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+[2024-05-23 04:03:14,809] torch.distributed.run: [WARNING] 
+[2024-05-23 04:03:14,809] torch.distributed.run: [WARNING] *****************************************
+[2024-05-23 04:03:14,809] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+[2024-05-23 04:03:14,809] torch.distributed.run: [WARNING] *****************************************
+05/23/2024 04:03:25 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+05/23/2024 04:03:28 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/data/sciq', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_constrained/llms/pythia-70m_sciq_1', output_hub_id='pythia-70m_sciq', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+  0%|          | 0/10692 [00:00<?, ?it/s][rank1]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
 [rank0]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
-  0%|          | 1/10719 [00:47<142:20:18, 47.81s/it]  0%|          | 2/10719 [01:17<110:29:00, 37.11s/it]  0%|          | 3/10719 [01:45<98:49:21, 33.20s/it]   0%|          | 4/10719 [02:11<89:17:01, 30.00s/it]  0%|          | 5/10719 [02:35<83:42:17, 28.13s/it]  0%|          | 6/10719 [02:58<78:08:42, 26.26s/it]  0%|          | 7/10719 [03:19<73:25:18, 24.67s/it]  0%|          | 8/10719 [03:39<68:37:57, 23.07s/it]  0%|          | 9/10719 [03:57<63:25:50, 21.32s/it]  0%|          | 10/10719 [04:14<59:27:56, 19.99s/it]  0%|          | 11/10719 [04:29<55:41:48, 18.73s/it]  0%|          | 12/10719 [04:45<52:48:52, 17.76s/it]  0%|          | 13/10719 [04:59<49:23:01, 16.61s/it]  0%|          | 14/10719 [05:12<45:55:53, 15.45s/it]  0%|          | 15/10719 [05:24<42:41:35, 14.36s/it]  0%|          | 16/10719 [05:36<41:10:16, 13.85s/it]  0%|          | 17/10719 [05:49<40:04:37, 13.48s/it]  0%|          | 18/10719 [06:00<38:20:49, 12.90s/it]  0%|          | 19/10719 [06:12<37:34:06, 12.64s/it]  0%|          | 20/10719 [06:23<35:39:09, 12.00s/it]  0%|          | 21/10719 [06:33<33:37:59, 11.32s/it]  0%|          | 22/10719 [06:43<32:24:53, 10.91s/it]  0%|          | 23/10719 [06:52<30:49:57, 10.38s/it]  0%|          | 24/10719 [07:00<28:58:20,  9.75s/it]  0%|          | 25/10719 [07:09<28:08:54,  9.48s/it]                                                     {'loss': 10.678, 'grad_norm': 1.3264248371124268, 'learning_rate': 2.332089552238806e-05, 'epoch': 0.0}
-  0%|          | 25/10719 [07:09<28:08:54,  9.48s/it]  0%|          | 26/10719 [07:18<27:27:01,  9.24s/it]  0%|          | 27/10719 [07:25<26:03:05,  8.77s/it]  0%|          | 28/10719 [07:32<24:24:36,  8.22s/it]  0%|          | 29/10719 [07:39<23:22:00,  7.87s/it]  0%|          | 30/10719 [07:46<22:30:48,  7.58s/it]  0%|          | 31/10719 [07:53<21:42:33,  7.31s/it]  0%|          | 32/10719 [07:59<20:32:37,  6.92s/it]  0%|          | 33/10719 [08:05<19:41:32,  6.63s/it]  0%|          | 34/10719 [08:10<18:04:24,  6.09s/it]  0%|          | 35/10719 [08:15<17:04:08,  5.75s/it]  0%|          | 36/10719 [08:20<16:35:18,  5.59s/it]  0%|          | 37/10719 [08:25<15:53:55,  5.36s/it]  0%|          | 38/10719 [08:30<15:38:06,  5.27s/it]  0%|          | 39/10719 [08:35<15:27:25,  5.21s/it]  0%|          | 40/10719 [08:40<15:37:11,  5.27s/it]  0%|          | 41/10719 [08:46<15:45:11,  5.31s/it]  0%|          | 42/10719 [08:50<15:09:39,  5.11s/it]  0%|          | 43/10719 [08:54<14:15:42,  4.81s/it]  0%|          | 44/10719 [08:58<13:40:31,  4.61s/it]  0%|          | 45/10719 [09:02<12:59:00,  4.38s/it]  0%|          | 46/10719 [09:07<13:00:26,  4.39s/it]  0%|          | 47/10719 [09:10<12:20:09,  4.16s/it]  0%|          | 48/10719 [09:14<11:49:40,  3.99s/it]  0%|          | 49/10719 [09:17<11:15:39,  3.80s/it]  0%|          | 50/10719 [09:20<10:22:38,  3.50s/it]                                                     {'loss': 9.9788, 'grad_norm': 1.2273255586624146, 'learning_rate': 4.664179104477612e-05, 'epoch': 0.0}
-  0%|          | 50/10719 [09:20<10:22:38,  3.50s/it]  0%|          | 51/10719 [09:24<10:30:17,  3.54s/it]  0%|          | 52/10719 [09:27<10:19:38,  3.49s/it]  0%|          | 53/10719 [09:31<10:37:08,  3.58s/it]  1%|          | 54/10719 [09:34<10:24:12,  3.51s/it]  1%|          | 55/10719 [09:37<9:54:15,  3.34s/it]   1%|          | 56/10719 [09:40<9:36:41,  3.24s/it]  1%|          | 57/10719 [09:43<9:24:49,  3.18s/it]  1%|          | 58/10719 [09:46<8:56:07,  3.02s/it]  1%|          | 59/10719 [09:49<9:01:17,  3.05s/it]  1%|          | 60/10719 [09:52<8:57:45,  3.03s/it]  1%|          | 61/10719 [09:55<9:11:32,  3.10s/it]  1%|          | 62/10719 [09:58<8:31:54,  2.88s/it]  1%|          | 63/10719 [10:00<8:03:29,  2.72s/it]  1%|          | 64/10719 [10:03<8:02:05,  2.71s/it]  1%|          | 65/10719 [10:05<7:41:45,  2.60s/it]  1%|          | 66/10719 [10:08<7:47:12,  2.63s/it]  1%|          | 67/10719 [10:10<7:37:43,  2.58s/it]  1%|          | 68/10719 [10:13<7:34:59,  2.56s/it]  1%|          | 69/10719 [10:15<7:11:46,  2.43s/it]  1%|          | 70/10719 [10:17<7:17:04,  2.46s/it]  1%|          | 71/10719 [10:19<7:01:13,  2.37s/it]  1%|          | 72/10719 [10:22<6:59:03,  2.36s/it]  1%|          | 73/10719 [10:24<6:35:49,  2.23s/it]  1%|          | 74/10719 [10:26<6:38:46,  2.25s/it]  1%|          | 75/10719 [10:28<6:21:20,  2.15s/it]                                                    {'loss': 9.2656, 'grad_norm': 1.0180671215057373, 'learning_rate': 6.996268656716417e-05, 'epoch': 0.01}
-  1%|          | 75/10719 [10:28<6:21:20,  2.15s/it]  1%|          | 76/10719 [10:30<6:06:47,  2.07s/it]  1%|          | 77/10719 [10:32<6:09:49,  2.09s/it]  1%|          | 78/10719 [10:34<6:03:31,  2.05s/it]  1%|          | 79/10719 [10:36<6:00:42,  2.03s/it]  1%|          | 80/10719 [10:38<5:58:49,  2.02s/it]  1%|          | 81/10719 [10:40<5:44:29,  1.94s/it]  1%|          | 82/10719 [10:42<6:03:21,  2.05s/it]  1%|          | 83/10719 [10:43<5:36:30,  1.90s/it]  1%|          | 84/10719 [10:45<5:16:16,  1.78s/it]  1%|          | 85/10719 [10:47<5:36:03,  1.90s/it]  1%|          | 86/10719 [10:49<5:10:48,  1.75s/it]  1%|          | 87/10719 [10:50<5:02:09,  1.71s/it]  1%|          | 88/10719 [10:52<5:11:29,  1.76s/it]  1%|          | 89/10719 [10:54<4:59:19,  1.69s/it]  1%|          | 90/10719 [10:55<4:51:05,  1.64s/it]  1%|          | 91/10719 [10:57<5:17:56,  1.79s/it]  1%|          | 92/10719 [10:59<5:01:28,  1.70s/it]  1%|          | 93/10719 [11:00<4:46:00,  1.61s/it]  1%|          | 94/10719 [11:02<5:01:17,  1.70s/it]  1%|          | 95/10719 [11:04<4:54:36,  1.66s/it]  1%|          | 96/10719 [11:05<4:39:01,  1.58s/it]  1%|          | 97/10719 [11:07<4:57:24,  1.68s/it]  1%|          | 98/10719 [11:08<4:38:25,  1.57s/it]  1%|          | 99/10719 [11:10<4:36:52,  1.56s/it]  1%|          | 100/10719 [11:11<4:22:10,  1.48s/it]                                                     {'loss': 8.4938, 'grad_norm': 0.7320610284805298, 'learning_rate': 9.328358208955224e-05, 'epoch': 0.01}
-  1%|          | 100/10719 [11:11<4:22:10,  1.48s/it]  1%|          | 101/10719 [11:13<4:51:53,  1.65s/it]  1%|          | 102/10719 [11:14<4:31:24,  1.53s/it]  1%|          | 103/10719 [11:16<4:14:44,  1.44s/it]  1%|          | 104/10719 [11:17<4:15:22,  1.44s/it]  1%|          | 105/10719 [11:19<4:29:59,  1.53s/it]  1%|          | 106/10719 [11:20<4:14:58,  1.44s/it]  1%|          | 107/10719 [11:21<3:53:54,  1.32s/it]  1%|          | 108/10719 [11:23<4:28:54,  1.52s/it]  1%|          | 109/10719 [11:24<4:13:45,  1.44s/it]  1%|          | 110/10719 [11:25<3:55:35,  1.33s/it]  1%|          | 111/10719 [11:27<3:50:19,  1.30s/it]  1%|          | 112/10719 [11:29<4:22:08,  1.48s/it]  1%|          | 113/10719 [11:30<4:07:01,  1.40s/it]  1%|          | 114/10719 [11:31<3:56:05,  1.34s/it]  1%|          | 115/10719 [11:33<4:25:57,  1.50s/it]  1%|          | 116/10719 [11:34<4:08:09,  1.40s/it]  1%|          | 117/10719 [11:35<3:53:19,  1.32s/it]  1%|          | 118/10719 [11:36<3:31:54,  1.20s/it]  1%|          | 119/10719 [11:37<3:42:59,  1.26s/it]  1%|          | 120/10719 [11:39<3:58:36,  1.35s/it]  1%|          | 121/10719 [11:40<3:48:43,  1.29s/it]  1%|          | 122/10719 [11:41<3:33:52,  1.21s/it]  1%|          | 123/10719 [11:43<3:59:22,  1.36s/it]  1%|          | 124/10719 [11:44<3:50:57,  1.31s/it]  1%|          | 125/10719 [11:45<3:30:19,  1.19s/it]                                                     {'loss': 7.8627, 'grad_norm': 0.4380747079849243, 'learning_rate': 0.00011660447761194031, 'epoch': 0.01}
-  1%|          | 125/10719 [11:45<3:30:19,  1.19s/it]  1%|          | 126/10719 [11:46<3:23:59,  1.16s/it]  1%|          | 127/10719 [11:47<3:22:17,  1.15s/it]  1%|          | 128/10719 [11:49<3:46:51,  1.29s/it]  1%|          | 129/10719 [11:50<3:31:54,  1.20s/it]  1%|          | 130/10719 [11:51<3:15:54,  1.11s/it]  1%|          | 131/10719 [11:52<3:09:41,  1.07s/it]  1%|          | 132/10719 [11:53<3:32:53,  1.21s/it]  1%|          | 133/10719 [11:54<3:19:08,  1.13s/it]  1%|▏         | 134/10719 [11:55<3:08:31,  1.07s/it]  1%|▏         | 135/10719 [11:56<3:03:06,  1.04s/it]  1%|▏         | 136/10719 [11:57<3:00:17,  1.02s/it]  1%|▏         | 137/10719 [11:58<3:15:07,  1.11s/it]  1%|▏         | 138/10719 [11:59<3:01:50,  1.03s/it]  1%|▏         | 139/10719 [12:00<2:55:44,  1.00it/s]  1%|▏         | 140/10719 [12:01<2:49:24,  1.04it/s]  1%|▏         | 141/10719 [12:02<2:52:42,  1.02it/s]  1%|▏         | 142/10719 [12:04<3:23:49,  1.16s/it]  1%|▏         | 143/10719 [12:05<3:21:45,  1.14s/it]  1%|▏         | 144/10719 [12:06<3:12:57,  1.09s/it]  1%|▏         | 145/10719 [12:07<3:03:00,  1.04s/it]  1%|▏         | 146/10719 [12:08<2:57:51,  1.01s/it]  1%|▏         | 147/10719 [12:09<3:16:57,  1.12s/it]  1%|▏         | 148/10719 [12:10<3:07:03,  1.06s/it]  1%|▏         | 149/10719 [12:11<2:57:31,  1.01s/it]  1%|▏         | 150/10719 [12:12<2:47:23,  1.05it/s]                                                     {'loss': 7.3753, 'grad_norm': 0.37883996963500977, 'learning_rate': 0.00013992537313432834, 'epoch': 0.01}
-  1%|▏         | 150/10719 [12:12<2:47:23,  1.05it/s]  1%|▏         | 151/10719 [12:12<2:44:11,  1.07it/s]  1%|▏         | 152/10719 [12:14<3:05:09,  1.05s/it]  1%|▏         | 153/10719 [12:15<3:01:40,  1.03s/it]  1%|▏         | 154/10719 [12:16<2:55:46,  1.00it/s]  1%|▏         | 155/10719 [12:17<2:50:12,  1.03it/s]  1%|▏         | 156/10719 [12:17<2:41:26,  1.09it/s]  1%|▏         | 157/10719 [12:19<3:23:16,  1.15s/it]  1%|▏         | 158/10719 [12:20<3:08:22,  1.07s/it]  1%|▏         | 159/10719 [12:21<2:59:24,  1.02s/it]  1%|▏         | 160/10719 [12:22<2:49:42,  1.04it/s]  2%|▏         | 161/10719 [12:23<2:44:09,  1.07it/s]  2%|▏         | 162/10719 [12:24<2:54:55,  1.01it/s]  2%|▏         | 163/10719 [12:25<2:49:35,  1.04it/s]  2%|▏         | 164/10719 [12:25<2:36:38,  1.12it/s]  2%|▏         | 165/10719 [12:26<2:31:29,  1.16it/s]  2%|▏         | 166/10719 [12:27<2:29:06,  1.18it/s]  2%|▏         | 167/10719 [12:28<2:27:39,  1.19it/s]  2%|▏         | 168/10719 [12:29<2:50:49,  1.03it/s]  2%|▏         | 169/10719 [12:30<2:38:16,  1.11it/s]  2%|▏         | 170/10719 [12:31<2:33:49,  1.14it/s]  2%|▏         | 171/10719 [12:31<2:23:50,  1.22it/s]  2%|▏         | 172/10719 [12:32<2:20:59,  1.25it/s]  2%|▏         | 173/10719 [12:33<2:21:05,  1.25it/s]  2%|▏         | 174/10719 [12:34<2:35:12,  1.13it/s]  2%|▏         | 175/10719 [12:35<2:33:56,  1.14it/s]                                                     {'loss': 6.9776, 'grad_norm': 0.45229431986808777, 'learning_rate': 0.00016324626865671642, 'epoch': 0.02}
-  2%|▏         | 175/10719 [12:35<2:33:56,  1.14it/s]  2%|▏         | 176/10719 [12:35<2:27:37,  1.19it/s]  2%|▏         | 177/10719 [12:36<2:20:47,  1.25it/s]  2%|▏         | 178/10719 [12:37<2:19:12,  1.26it/s]  2%|▏         | 179/10719 [12:38<2:13:06,  1.32it/s]  2%|▏         | 180/10719 [12:38<2:18:29,  1.27it/s]  2%|▏         | 181/10719 [12:40<2:46:29,  1.05it/s]  2%|▏         | 182/10719 [12:41<2:33:31,  1.14it/s]  2%|▏         | 183/10719 [12:41<2:27:31,  1.19it/s]  2%|▏         | 184/10719 [12:42<2:23:20,  1.22it/s]  2%|▏         | 185/10719 [12:43<2:14:35,  1.30it/s]  2%|▏         | 186/10719 [12:43<2:12:06,  1.33it/s]  2%|▏         | 187/10719 [12:44<2:21:11,  1.24it/s]  2%|▏         | 188/10719 [12:45<2:19:31,  1.26it/s]  2%|▏         | 189/10719 [12:46<2:14:05,  1.31it/s]  2%|▏         | 190/10719 [12:46<2:08:24,  1.37it/s]  2%|▏         | 191/10719 [12:47<2:07:09,  1.38it/s]  2%|▏         | 192/10719 [12:48<2:06:55,  1.38it/s]  2%|▏         | 193/10719 [12:49<2:07:19,  1.38it/s]  2%|▏         | 194/10719 [12:49<2:15:21,  1.30it/s]  2%|▏         | 195/10719 [12:50<2:07:37,  1.37it/s]  2%|▏         | 196/10719 [12:51<2:03:02,  1.43it/s]  2%|▏         | 197/10719 [12:51<2:01:51,  1.44it/s]  2%|▏         | 198/10719 [12:52<2:02:11,  1.43it/s]  2%|▏         | 199/10719 [12:53<2:00:07,  1.46it/s]  2%|▏         | 200/10719 [12:53<1:59:22,  1.47it/s]                                                     {'loss': 6.6295, 'grad_norm': 0.43862345814704895, 'learning_rate': 0.00018656716417910448, 'epoch': 0.02}
-  2%|▏         | 200/10719 [12:53<1:59:22,  1.47it/s]  2%|▏         | 201/10719 [12:54<2:10:05,  1.35it/s]  2%|▏         | 202/10719 [12:55<2:02:44,  1.43it/s]  2%|▏         | 203/10719 [12:56<2:04:08,  1.41it/s]  2%|▏         | 204/10719 [12:56<2:00:24,  1.46it/s]  2%|▏         | 205/10719 [12:57<1:58:56,  1.47it/s]  2%|▏         | 206/10719 [12:58<2:05:18,  1.40it/s]  2%|▏         | 207/10719 [12:59<2:06:40,  1.38it/s]  2%|▏         | 208/10719 [13:00<2:25:54,  1.20it/s]  2%|▏         | 209/10719 [13:00<2:20:15,  1.25it/s]  2%|▏         | 210/10719 [13:01<2:13:14,  1.31it/s]  2%|▏         | 211/10719 [13:02<2:08:55,  1.36it/s]  2%|▏         | 212/10719 [13:02<2:03:05,  1.42it/s]  2%|▏         | 213/10719 [13:03<1:58:03,  1.48it/s]  2%|▏         | 214/10719 [13:04<1:56:00,  1.51it/s]  2%|▏         | 215/10719 [13:05<2:37:23,  1.11it/s]  2%|▏         | 216/10719 [13:06<2:23:32,  1.22it/s]  2%|▏         | 217/10719 [13:06<2:12:22,  1.32it/s]  2%|▏         | 218/10719 [13:07<2:08:00,  1.37it/s]  2%|▏         | 219/10719 [13:08<2:02:21,  1.43it/s]  2%|▏         | 220/10719 [13:08<1:59:52,  1.46it/s]  2%|▏         | 221/10719 [13:09<1:58:02,  1.48it/s]  2%|▏         | 222/10719 [13:10<2:28:41,  1.18it/s]  2%|▏         | 223/10719 [13:11<2:30:07,  1.17it/s]  2%|▏         | 224/10719 [13:12<2:17:27,  1.27it/s]  2%|▏         | 225/10719 [13:12<2:10:43,  1.34it/s]                                                     {'loss': 6.3673, 'grad_norm': 0.6393064856529236, 'learning_rate': 0.00020988805970149256, 'epoch': 0.02}
-  2%|▏         | 225/10719 [13:12<2:10:43,  1.34it/s]  2%|▏         | 226/10719 [13:13<2:07:57,  1.37it/s]  2%|▏         | 227/10719 [13:14<2:04:29,  1.40it/s]  2%|▏         | 228/10719 [13:14<2:06:14,  1.39it/s]  2%|▏         | 229/10719 [13:15<2:22:50,  1.22it/s]  2%|▏         | 230/10719 [13:16<2:18:41,  1.26it/s]  2%|▏         | 231/10719 [13:17<2:11:22,  1.33it/s]  2%|▏         | 232/10719 [13:17<2:04:59,  1.40it/s]  2%|▏         | 233/10719 [13:18<2:01:08,  1.44it/s]  2%|▏         | 234/10719 [13:19<1:57:00,  1.49it/s]  2%|▏         | 235/10719 [13:19<1:54:47,  1.52it/s]  2%|▏         | 236/10719 [13:20<1:53:15,  1.54it/s]  2%|▏         | 237/10719 [13:20<1:49:17,  1.60it/s]  2%|▏         | 238/10719 [13:21<1:49:45,  1.59it/s]  2%|▏         | 239/10719 [13:22<1:50:41,  1.58it/s]  2%|▏         | 240/10719 [13:22<1:49:13,  1.60it/s]  2%|▏         | 241/10719 [13:23<1:55:05,  1.52it/s]  2%|▏         | 242/10719 [13:24<1:53:07,  1.54it/s]  2%|▏         | 243/10719 [13:24<1:57:22,  1.49it/s]  2%|▏         | 244/10719 [13:25<1:53:30,  1.54it/s]  2%|▏         | 245/10719 [13:26<1:50:06,  1.59it/s]  2%|▏         | 246/10719 [13:26<1:48:18,  1.61it/s]  2%|▏         | 247/10719 [13:27<1:45:57,  1.65it/s]  2%|▏         | 248/10719 [13:27<1:43:35,  1.68it/s]  2%|▏         | 249/10719 [13:28<1:45:47,  1.65it/s]  2%|▏         | 250/10719 [13:29<1:47:49,  1.62it/s]                                                     {'loss': 6.1501, 'grad_norm': 0.5837147831916809, 'learning_rate': 0.00023320895522388062, 'epoch': 0.02}
-  2%|▏         | 250/10719 [13:29<1:47:49,  1.62it/s]  2%|▏         | 251/10719 [13:29<1:45:55,  1.65it/s]  2%|▏         | 252/10719 [13:30<1:43:24,  1.69it/s]  2%|▏         | 253/10719 [13:30<1:46:45,  1.63it/s]  2%|▏         | 254/10719 [13:31<1:44:51,  1.66it/s]  2%|▏         | 255/10719 [13:32<1:44:21,  1.67it/s]  2%|▏         | 256/10719 [13:32<1:42:56,  1.69it/s]  2%|▏         | 257/10719 [13:33<1:42:29,  1.70it/s]  2%|▏         | 258/10719 [13:33<1:42:04,  1.71it/s]  2%|▏         | 259/10719 [13:34<1:42:06,  1.71it/s]  2%|▏         | 260/10719 [13:35<1:42:09,  1.71it/s]  2%|▏         | 261/10719 [13:35<1:57:09,  1.49it/s]  2%|▏         | 262/10719 [13:36<1:55:52,  1.50it/s]  2%|▏         | 263/10719 [13:37<1:49:40,  1.59it/s]  2%|▏         | 264/10719 [13:37<1:46:12,  1.64it/s]  2%|▏         | 265/10719 [13:38<1:43:35,  1.68it/s]  2%|▏         | 266/10719 [13:38<1:43:09,  1.69it/s]  2%|▏         | 267/10719 [13:39<1:43:20,  1.69it/s]  3%|▎         | 268/10719 [13:39<1:40:35,  1.73it/s]  3%|▎         | 269/10719 [13:40<1:46:57,  1.63it/s]  3%|▎         | 270/10719 [13:41<2:17:56,  1.26it/s]  3%|▎         | 271/10719 [13:42<2:21:09,  1.23it/s]  3%|▎         | 272/10719 [13:43<2:21:13,  1.23it/s]  3%|▎         | 273/10719 [13:44<2:30:54,  1.15it/s]  3%|▎         | 274/10719 [13:45<2:22:56,  1.22it/s]  3%|▎         | 275/10719 [13:45<2:08:34,  1.35it/s]                                                     {'loss': 5.9868, 'grad_norm': 0.5570038557052612, 'learning_rate': 0.00025652985074626865, 'epoch': 0.03}
-  3%|▎         | 275/10719 [13:45<2:08:34,  1.35it/s]  3%|▎         | 276/10719 [13:46<2:01:38,  1.43it/s]  3%|▎         | 277/10719 [13:46<1:54:40,  1.52it/s]  3%|▎         | 278/10719 [13:47<1:50:18,  1.58it/s]  3%|▎         | 279/10719 [13:48<1:46:34,  1.63it/s]  3%|▎         | 280/10719 [13:48<1:44:19,  1.67it/s]  3%|▎         | 281/10719 [13:49<1:42:19,  1.70it/s]  3%|▎         | 282/10719 [13:49<1:41:37,  1.71it/s]  3%|▎         | 283/10719 [13:50<1:41:42,  1.71it/s]  3%|▎         | 284/10719 [13:50<1:42:28,  1.70it/s]  3%|▎         | 285/10719 [13:52<2:14:33,  1.29it/s]  3%|▎         | 286/10719 [13:52<2:14:12,  1.30it/s]  3%|▎         | 287/10719 [13:53<2:03:42,  1.41it/s]  3%|▎         | 288/10719 [13:54<1:55:52,  1.50it/s]  3%|▎         | 289/10719 [13:54<1:52:54,  1.54it/s]  3%|▎         | 290/10719 [13:55<1:48:21,  1.60it/s]  3%|▎         | 291/10719 [13:55<1:43:53,  1.67it/s]  3%|▎         | 292/10719 [13:56<1:54:51,  1.51it/s]  3%|▎         | 293/10719 [13:57<1:55:16,  1.51it/s]  3%|▎         | 294/10719 [13:57<1:49:39,  1.58it/s]  3%|▎         | 295/10719 [13:58<1:46:55,  1.62it/s]  3%|▎         | 296/10719 [13:58<1:45:23,  1.65it/s]  3%|▎         | 297/10719 [13:59<1:41:20,  1.71it/s]  3%|▎         | 298/10719 [14:00<1:43:27,  1.68it/s]  3%|▎         | 299/10719 [14:00<1:42:43,  1.69it/s]  3%|▎         | 300/10719 [14:01<1:41:19,  1.71it/s]                                                     {'loss': 5.8308, 'grad_norm': 0.6839753985404968, 'learning_rate': 0.0002798507462686567, 'epoch': 0.03}
-  3%|▎         | 300/10719 [14:01<1:41:19,  1.71it/s]  3%|▎         | 301/10719 [14:01<1:46:35,  1.63it/s]  3%|▎         | 302/10719 [14:02<1:52:01,  1.55it/s]  3%|▎         | 303/10719 [14:03<1:46:28,  1.63it/s]  3%|▎         | 304/10719 [14:03<1:43:32,  1.68it/s]  3%|▎         | 305/10719 [14:04<1:41:46,  1.71it/s]  3%|▎         | 306/10719 [14:04<1:39:23,  1.75it/s]  3%|▎         | 307/10719 [14:05<1:37:37,  1.78it/s]  3%|▎         | 308/10719 [14:05<1:35:57,  1.81it/s]  3%|▎         | 309/10719 [14:06<1:38:00,  1.77it/s]  3%|▎         | 310/10719 [14:07<1:41:50,  1.70it/s]  3%|▎         | 311/10719 [14:08<1:57:07,  1.48it/s]  3%|▎         | 312/10719 [14:08<1:49:31,  1.58it/s]  3%|▎         | 313/10719 [14:09<1:45:02,  1.65it/s]  3%|▎         | 314/10719 [14:09<1:41:26,  1.71it/s]  3%|▎         | 315/10719 [14:10<1:40:05,  1.73it/s]  3%|▎         | 316/10719 [14:10<1:39:21,  1.75it/s]  3%|▎         | 317/10719 [14:11<1:37:07,  1.78it/s]  3%|▎         | 318/10719 [14:12<1:44:44,  1.66it/s]  3%|▎         | 319/10719 [14:12<1:48:41,  1.59it/s]  3%|▎         | 320/10719 [14:13<1:46:03,  1.63it/s]  3%|▎         | 321/10719 [14:13<1:42:41,  1.69it/s]  3%|▎         | 322/10719 [14:14<1:39:41,  1.74it/s]  3%|▎         | 323/10719 [14:14<1:39:35,  1.74it/s]  3%|▎         | 324/10719 [14:15<1:38:51,  1.75it/s]  3%|▎         | 325/10719 [14:16<1:36:40,  1.79it/s]                                                     {'loss': 5.6999, 'grad_norm': 0.6321275234222412, 'learning_rate': 0.00030317164179104476, 'epoch': 0.03}
-  3%|▎         | 325/10719 [14:16<1:36:40,  1.79it/s]  3%|▎         | 326/10719 [14:16<1:35:12,  1.82it/s]  3%|▎         | 327/10719 [14:17<1:57:22,  1.48it/s]  3%|▎         | 328/10719 [14:18<2:12:51,  1.30it/s]  3%|▎         | 329/10719 [14:19<2:02:13,  1.42it/s]  3%|▎         | 330/10719 [14:19<1:53:28,  1.53it/s]  3%|▎         | 331/10719 [14:20<1:48:52,  1.59it/s]  3%|▎         | 332/10719 [14:20<1:44:04,  1.66it/s]  3%|▎         | 333/10719 [14:21<1:40:35,  1.72it/s]  3%|▎         | 334/10719 [14:21<1:39:51,  1.73it/s]  3%|▎         | 335/10719 [14:22<1:42:41,  1.69it/s]  3%|▎         | 336/10719 [14:23<1:56:04,  1.49it/s]  3%|▎         | 337/10719 [14:23<1:48:36,  1.59it/s]  3%|▎         | 338/10719 [14:24<1:43:51,  1.67it/s]  3%|▎         | 339/10719 [14:24<1:43:01,  1.68it/s]  3%|▎         | 340/10719 [14:25<1:43:17,  1.67it/s]  3%|▎         | 341/10719 [14:26<1:39:46,  1.73it/s]  3%|▎         | 342/10719 [14:26<1:37:17,  1.78it/s]  3%|▎         | 343/10719 [14:27<1:42:07,  1.69it/s]  3%|▎         | 344/10719 [14:27<1:47:16,  1.61it/s]  3%|▎         | 345/10719 [14:28<1:42:54,  1.68it/s]  3%|▎         | 346/10719 [14:29<1:39:08,  1.74it/s]  3%|▎         | 347/10719 [14:29<1:36:59,  1.78it/s]  3%|▎         | 348/10719 [14:30<1:35:29,  1.81it/s]  3%|▎         | 349/10719 [14:30<1:34:32,  1.83it/s]  3%|▎         | 350/10719 [14:31<1:35:33,  1.81it/s]                                                     {'loss': 5.5918, 'grad_norm': 0.571912407875061, 'learning_rate': 0.00032649253731343285, 'epoch': 0.03}
-  3%|▎         | 350/10719 [14:31<1:35:33,  1.81it/s]  3%|▎         | 351/10719 [14:31<1:34:27,  1.83it/s]  3%|▎         | 352/10719 [14:32<1:36:48,  1.78it/s]  3%|▎         | 353/10719 [14:33<1:54:21,  1.51it/s]  3%|▎         | 354/10719 [14:33<1:47:46,  1.60it/s]  3%|▎         | 355/10719 [14:34<1:44:08,  1.66it/s]  3%|▎         | 356/10719 [14:34<1:41:19,  1.70it/s]  3%|▎         | 357/10719 [14:35<1:39:18,  1.74it/s]  3%|▎         | 358/10719 [14:35<1:36:30,  1.79it/s]  3%|▎         | 359/10719 [14:36<1:34:32,  1.83it/s]  3%|▎         | 360/10719 [14:36<1:32:55,  1.86it/s]  3%|▎         | 361/10719 [14:37<1:37:05,  1.78it/s]  3%|▎         | 362/10719 [14:38<1:39:46,  1.73it/s]  3%|▎         | 363/10719 [14:38<1:37:58,  1.76it/s]  3%|▎         | 364/10719 [14:39<1:35:32,  1.81it/s]  3%|▎         | 365/10719 [14:39<1:33:59,  1.84it/s]  3%|▎         | 366/10719 [14:40<1:32:41,  1.86it/s]  3%|▎         | 367/10719 [14:40<1:31:58,  1.88it/s]  3%|▎         | 368/10719 [14:41<1:33:41,  1.84it/s]  3%|▎         | 369/10719 [14:41<1:32:09,  1.87it/s]  3%|▎         | 370/10719 [14:42<1:35:25,  1.81it/s]  3%|▎         | 371/10719 [14:43<1:38:05,  1.76it/s]  3%|▎         | 372/10719 [14:43<1:35:32,  1.80it/s]  3%|▎         | 373/10719 [14:44<1:34:52,  1.82it/s]  3%|▎         | 374/10719 [14:44<1:33:42,  1.84it/s]  3%|▎         | 375/10719 [14:45<1:32:30,  1.86it/s]                                                     {'loss': 5.49, 'grad_norm': 0.7011427283287048, 'learning_rate': 0.0003498134328358209, 'epoch': 0.03}
-  3%|▎         | 375/10719 [14:45<1:32:30,  1.86it/s]  4%|▎         | 376/10719 [14:45<1:33:13,  1.85it/s]  4%|▎         | 377/10719 [14:46<1:33:22,  1.85it/s]  4%|▎         | 378/10719 [14:46<1:32:32,  1.86it/s]  4%|▎         | 379/10719 [14:47<1:31:29,  1.88it/s]  4%|▎         | 380/10719 [14:48<1:37:07,  1.77it/s]  4%|▎         | 381/10719 [14:48<1:34:59,  1.81it/s]  4%|▎         | 382/10719 [14:49<1:33:19,  1.85it/s]  4%|▎         | 383/10719 [14:49<1:31:53,  1.87it/s]  4%|▎         | 384/10719 [14:50<1:31:21,  1.89it/s]  4%|▎         | 385/10719 [14:50<1:30:42,  1.90it/s]  4%|▎         | 386/10719 [14:51<1:31:54,  1.87it/s]  4%|▎         | 387/10719 [14:51<1:31:06,  1.89it/s]  4%|▎         | 388/10719 [14:52<1:31:59,  1.87it/s]  4%|▎         | 389/10719 [14:52<1:32:35,  1.86it/s]  4%|▎         | 390/10719 [14:53<1:34:35,  1.82it/s]  4%|▎         | 391/10719 [14:53<1:32:59,  1.85it/s]  4%|▎         | 392/10719 [14:54<1:31:59,  1.87it/s]  4%|▎         | 393/10719 [14:55<1:38:15,  1.75it/s]  4%|▎         | 394/10719 [14:55<1:35:55,  1.79it/s]  4%|▎         | 395/10719 [14:56<1:34:06,  1.83it/s]  4%|▎         | 396/10719 [14:56<1:32:48,  1.85it/s]  4%|▎         | 397/10719 [14:57<1:31:52,  1.87it/s]  4%|▎         | 398/10719 [14:57<1:32:58,  1.85it/s]  4%|▎         | 399/10719 [14:58<1:37:19,  1.77it/s]  4%|▎         | 400/10719 [14:58<1:35:11,  1.81it/s]                                                     {'loss': 5.4047, 'grad_norm': 0.8187339901924133, 'learning_rate': 0.00037313432835820896, 'epoch': 0.04}
-  4%|▎         | 400/10719 [14:58<1:35:11,  1.81it/s]  4%|▎         | 401/10719 [14:59<1:33:29,  1.84it/s]  4%|▍         | 402/10719 [14:59<1:32:14,  1.86it/s]  4%|▍         | 403/10719 [15:00<1:31:29,  1.88it/s]  4%|▍         | 404/10719 [15:00<1:30:38,  1.90it/s]  4%|▍         | 405/10719 [15:01<1:30:00,  1.91it/s]  4%|▍         | 406/10719 [15:01<1:31:07,  1.89it/s]  4%|▍         | 407/10719 [15:02<1:30:01,  1.91it/s]  4%|▍         | 408/10719 [15:03<1:31:46,  1.87it/s]  4%|▍         | 409/10719 [15:03<1:33:51,  1.83it/s]  4%|▍         | 410/10719 [15:04<1:32:24,  1.86it/s]  4%|▍         | 411/10719 [15:04<1:33:29,  1.84it/s]  4%|▍         | 412/10719 [15:05<1:31:56,  1.87it/s]  4%|▍         | 413/10719 [15:05<1:30:46,  1.89it/s]  4%|▍         | 414/10719 [15:06<1:30:32,  1.90it/s]  4%|▍         | 415/10719 [15:06<1:32:24,  1.86it/s]  4%|▍         | 416/10719 [15:07<1:33:33,  1.84it/s]  4%|▍         | 417/10719 [15:07<1:34:10,  1.82it/s]  4%|▍         | 418/10719 [15:08<1:36:20,  1.78it/s]  4%|▍         | 419/10719 [15:09<1:36:19,  1.78it/s]  4%|▍         | 420/10719 [15:09<1:33:53,  1.83it/s]  4%|▍         | 421/10719 [15:10<1:32:12,  1.86it/s]  4%|▍         | 422/10719 [15:10<1:30:59,  1.89it/s]  4%|▍         | 423/10719 [15:11<1:30:25,  1.90it/s]  4%|▍         | 424/10719 [15:11<1:29:36,  1.91it/s]  4%|���         | 425/10719 [15:12<1:29:08,  1.92it/s]                                                     {'loss': 5.319, 'grad_norm': 0.6882644891738892, 'learning_rate': 0.00039645522388059704, 'epoch': 0.04}
-  4%|▍         | 425/10719 [15:12<1:29:08,  1.92it/s]  4%|▍         | 426/10719 [15:12<1:28:43,  1.93it/s]  4%|▍         | 427/10719 [15:13<1:30:03,  1.90it/s]  4%|▍         | 428/10719 [15:13<1:34:52,  1.81it/s]  4%|▍         | 429/10719 [15:14<1:35:22,  1.80it/s]  4%|▍         | 430/10719 [15:14<1:33:22,  1.84it/s]  4%|▍         | 431/10719 [15:15<1:31:39,  1.87it/s]  4%|▍         | 432/10719 [15:15<1:30:42,  1.89it/s]  4%|▍         | 433/10719 [15:16<1:30:44,  1.89it/s]  4%|▍         | 434/10719 [15:16<1:29:49,  1.91it/s]  4%|▍         | 435/10719 [15:17<1:29:53,  1.91it/s]  4%|▍         | 436/10719 [15:18<1:29:12,  1.92it/s]  4%|▍         | 437/10719 [15:18<1:31:38,  1.87it/s]  4%|▍         | 438/10719 [15:19<1:44:36,  1.64it/s]  4%|▍         | 439/10719 [15:19<1:39:34,  1.72it/s]  4%|▍         | 440/10719 [15:20<1:36:05,  1.78it/s]  4%|▍         | 441/10719 [15:20<1:33:33,  1.83it/s]  4%|▍         | 442/10719 [15:21<1:31:51,  1.86it/s]  4%|▍         | 443/10719 [15:21<1:30:35,  1.89it/s]  4%|▍         | 444/10719 [15:22<1:30:54,  1.88it/s]  4%|▍         | 445/10719 [15:22<1:29:53,  1.90it/s]  4%|▍         | 446/10719 [15:23<1:31:36,  1.87it/s]  4%|▍         | 447/10719 [15:24<1:34:21,  1.81it/s]  4%|▍         | 448/10719 [15:24<1:33:52,  1.82it/s]  4%|▍         | 449/10719 [15:25<1:34:36,  1.81it/s]  4%|▍         | 450/10719 [15:25<1:32:30,  1.85it/s]                                                     {'loss': 5.2401, 'grad_norm': 0.6146237850189209, 'learning_rate': 0.0004197761194029851, 'epoch': 0.04}
-  4%|▍         | 450/10719 [15:25<1:32:30,  1.85it/s]  4%|▍         | 451/10719 [15:26<1:30:53,  1.88it/s]  4%|▍         | 452/10719 [15:26<1:29:39,  1.91it/s]  4%|▍         | 453/10719 [15:27<1:29:13,  1.92it/s]  4%|▍         | 454/10719 [15:27<1:28:52,  1.92it/s]  4%|▍         | 455/10719 [15:28<1:28:19,  1.94it/s]  4%|▍         | 456/10719 [15:28<1:32:45,  1.84it/s]  4%|▍         | 457/10719 [15:29<1:34:44,  1.81it/s]  4%|▍         | 458/10719 [15:30<1:33:16,  1.83it/s]  4%|▍         | 459/10719 [15:30<1:31:39,  1.87it/s]  4%|▍         | 460/10719 [15:31<1:30:20,  1.89it/s]  4%|▍         | 461/10719 [15:31<1:29:16,  1.92it/s]  4%|▍         | 462/10719 [15:32<1:28:28,  1.93it/s]  4%|▍         | 463/10719 [15:32<1:28:10,  1.94it/s]  4%|▍         | 464/10719 [15:33<1:27:51,  1.95it/s]  4%|▍         | 465/10719 [15:33<1:28:21,  1.93it/s]  4%|▍         | 466/10719 [15:34<1:31:31,  1.87it/s]  4%|▍         | 467/10719 [15:34<1:32:02,  1.86it/s]  4%|▍         | 468/10719 [15:35<1:30:40,  1.88it/s]  4%|▍         | 469/10719 [15:35<1:29:51,  1.90it/s]  4%|▍         | 470/10719 [15:36<1:29:07,  1.92it/s]  4%|▍         | 471/10719 [15:36<1:28:22,  1.93it/s]  4%|▍         | 472/10719 [15:37<1:28:09,  1.94it/s]  4%|▍         | 473/10719 [15:37<1:27:42,  1.95it/s]  4%|▍         | 474/10719 [15:38<1:27:27,  1.95it/s]  4%|▍         | 475/10719 [15:38<1:28:08,  1.94it/s]                                                     {'loss': 5.168, 'grad_norm': 0.6651278138160706, 'learning_rate': 0.00044309701492537316, 'epoch': 0.04}
-  4%|▍         | 475/10719 [15:38<1:28:08,  1.94it/s]  4%|▍         | 476/10719 [15:39<1:39:47,  1.71it/s]  4%|▍         | 477/10719 [15:40<1:36:49,  1.76it/s]  4%|▍         | 478/10719 [15:40<1:33:47,  1.82it/s]  4%|▍         | 479/10719 [15:41<1:31:50,  1.86it/s]  4%|▍         | 480/10719 [15:41<1:30:10,  1.89it/s]  4%|▍         | 481/10719 [15:42<1:29:30,  1.91it/s]  4%|▍         | 482/10719 [15:42<1:28:37,  1.93it/s]  5%|▍         | 483/10719 [15:43<1:27:51,  1.94it/s]  5%|▍         | 484/10719 [15:43<1:27:33,  1.95it/s]  5%|▍         | 485/10719 [15:44<1:41:04,  1.69it/s]  5%|▍         | 486/10719 [15:44<1:38:23,  1.73it/s]  5%|▍         | 487/10719 [15:45<1:35:09,  1.79it/s]  5%|▍         | 488/10719 [15:46<1:32:39,  1.84it/s]  5%|▍         | 489/10719 [15:46<1:31:17,  1.87it/s]  5%|▍         | 490/10719 [15:47<1:29:55,  1.90it/s]  5%|▍         | 491/10719 [15:47<1:29:01,  1.91it/s]  5%|▍         | 492/10719 [15:48<1:28:28,  1.93it/s]  5%|▍         | 493/10719 [15:48<1:28:07,  1.93it/s]  5%|▍         | 494/10719 [15:49<1:28:59,  1.91it/s]  5%|▍         | 495/10719 [15:49<1:30:50,  1.88it/s]  5%|▍         | 496/10719 [15:50<1:29:57,  1.89it/s]  5%|▍         | 497/10719 [15:50<1:28:50,  1.92it/s]  5%|▍         | 498/10719 [15:51<1:28:03,  1.93it/s]  5%|▍         | 499/10719 [15:51<1:27:35,  1.94it/s]  5%|▍         | 500/10719 [15:52<1:28:16,  1.93it/s]                                                     {'loss': 5.1033, 'grad_norm': 0.6424667239189148, 'learning_rate': 0.00046641791044776124, 'epoch': 0.05}
-  5%|▍         | 500/10719 [15:52<1:28:16,  1.93it/s]  5%|▍         | 501/10719 [15:52<1:27:49,  1.94it/s]  5%|▍         | 502/10719 [15:53<1:27:28,  1.95it/s]  5%|▍         | 503/10719 [15:53<1:27:18,  1.95it/s]  5%|▍         | 504/10719 [15:54<1:29:08,  1.91it/s]  5%|▍         | 505/10719 [15:54<1:34:32,  1.80it/s]  5%|▍         | 506/10719 [15:55<1:33:00,  1.83it/s]  5%|▍         | 507/10719 [15:55<1:30:59,  1.87it/s]  5%|▍         | 508/10719 [15:56<1:29:38,  1.90it/s]  5%|▍         | 509/10719 [15:56<1:28:38,  1.92it/s]  5%|▍         | 510/10719 [15:57<1:28:10,  1.93it/s]  5%|▍         | 511/10719 [15:58<1:28:00,  1.93it/s]  5%|▍         | 512/10719 [15:58<1:27:18,  1.95it/s]  5%|▍         | 513/10719 [15:59<1:26:56,  1.96it/s]  5%|▍         | 514/10719 [15:59<1:28:47,  1.92it/s]  5%|▍         | 515/10719 [16:00<1:28:59,  1.91it/s]  5%|▍         | 516/10719 [16:00<1:28:04,  1.93it/s]  5%|▍         | 517/10719 [16:01<1:27:25,  1.94it/s]  5%|▍         | 518/10719 [16:01<1:26:57,  1.96it/s]  5%|▍         | 519/10719 [16:02<1:26:42,  1.96it/s]  5%|▍         | 520/10719 [16:02<1:26:22,  1.97it/s]  5%|▍         | 521/10719 [16:03<1:26:20,  1.97it/s]  5%|▍         | 522/10719 [16:03<1:26:05,  1.97it/s]  5%|▍         | 523/10719 [16:04<1:25:52,  1.98it/s]  5%|▍         | 524/10719 [16:04<1:27:13,  1.95it/s]  5%|▍         | 525/10719 [16:05<1:28:06,  1.93it/s]                                                     {'loss': 5.0464, 'grad_norm': 0.5731310248374939, 'learning_rate': 0.0004897388059701492, 'epoch': 0.05}
-  5%|▍         | 525/10719 [16:05<1:28:06,  1.93it/s]  5%|▍         | 526/10719 [16:05<1:27:29,  1.94it/s]  5%|▍         | 527/10719 [16:06<1:26:54,  1.95it/s]  5%|▍         | 528/10719 [16:06<1:26:32,  1.96it/s]  5%|▍         | 529/10719 [16:07<1:26:02,  1.97it/s]  5%|▍         | 530/10719 [16:07<1:25:43,  1.98it/s]  5%|▍         | 531/10719 [16:08<1:25:35,  1.98it/s]  5%|▍         | 532/10719 [16:08<1:25:32,  1.98it/s]  5%|▍         | 533/10719 [16:09<1:25:36,  1.98it/s]  5%|▍         | 534/10719 [16:09<1:26:50,  1.95it/s]  5%|▍         | 535/10719 [16:10<1:30:49,  1.87it/s]  5%|▌         | 536/10719 [16:10<1:30:18,  1.88it/s]  5%|▌         | 537/10719 [16:11<1:29:37,  1.89it/s]  5%|▌         | 538/10719 [16:11<1:28:44,  1.91it/s]  5%|▌         | 539/10719 [16:12<1:28:21,  1.92it/s]  5%|▌         | 540/10719 [16:12<1:27:36,  1.94it/s]  5%|▌         | 541/10719 [16:13<1:27:08,  1.95it/s]  5%|▌         | 542/10719 [16:13<1:26:58,  1.95it/s]  5%|▌         | 543/10719 [16:14<1:26:39,  1.96it/s]  5%|▌         | 544/10719 [16:14<1:27:41,  1.93it/s]  5%|▌         | 545/10719 [16:15<1:28:13,  1.92it/s]  5%|▌         | 546/10719 [16:16<1:28:57,  1.91it/s]  5%|▌         | 547/10719 [16:16<1:28:44,  1.91it/s]  5%|▌         | 548/10719 [16:17<1:28:10,  1.92it/s]  5%|▌         | 549/10719 [16:17<1:27:35,  1.94it/s]  5%|▌         | 550/10719 [16:18<1:27:09,  1.94it/s]                                                     {'loss': 4.9929, 'grad_norm': 0.5249645709991455, 'learning_rate': 0.0005130597014925373, 'epoch': 0.05}
-  5%|▌         | 550/10719 [16:18<1:27:09,  1.94it/s]  5%|▌         | 551/10719 [16:18<1:26:45,  1.95it/s]  5%|▌         | 552/10719 [16:19<1:26:47,  1.95it/s]  5%|▌         | 553/10719 [16:19<1:26:18,  1.96it/s]  5%|▌         | 554/10719 [16:20<1:26:06,  1.97it/s]  5%|▌         | 555/10719 [16:20<1:25:51,  1.97it/s]  5%|▌         | 556/10719 [16:21<1:25:43,  1.98it/s]  5%|▌         | 557/10719 [16:21<1:25:53,  1.97it/s]  5%|▌         | 558/10719 [16:22<1:25:49,  1.97it/s]  5%|▌         | 559/10719 [16:22<1:25:55,  1.97it/s]  5%|▌         | 560/10719 [16:23<1:26:05,  1.97it/s]  5%|▌         | 561/10719 [16:23<1:27:43,  1.93it/s]  5%|▌         | 562/10719 [16:24<1:27:24,  1.94it/s]  5%|▌         | 563/10719 [16:24<1:26:53,  1.95it/s]  5%|▌         | 564/10719 [16:25<1:26:31,  1.96it/s]  5%|▌         | 565/10719 [16:25<1:26:21,  1.96it/s]  5%|▌         | 566/10719 [16:26<1:26:01,  1.97it/s]  5%|▌         | 567/10719 [16:26<1:25:43,  1.97it/s]  5%|▌         | 568/10719 [16:27<1:25:43,  1.97it/s]  5%|▌         | 569/10719 [16:27<1:25:30,  1.98it/s]  5%|▌         | 570/10719 [16:28<1:25:28,  1.98it/s]  5%|▌         | 571/10719 [16:28<1:25:23,  1.98it/s]  5%|▌         | 572/10719 [16:29<1:25:34,  1.98it/s]  5%|▌         | 573/10719 [16:29<1:25:22,  1.98it/s]  5%|▌         | 574/10719 [16:30<1:25:28,  1.98it/s]  5%|▌         | 575/10719 [16:30<1:25:17,  1.98it/s]                                                     {'loss': 4.9354, 'grad_norm': 0.4900354743003845, 'learning_rate': 0.0005363805970149254, 'epoch': 0.05}
-  5%|▌         | 575/10719 [16:30<1:25:17,  1.98it/s]  5%|▌         | 576/10719 [16:31<1:25:28,  1.98it/s]  5%|▌         | 577/10719 [16:31<1:25:28,  1.98it/s]  5%|▌         | 578/10719 [16:32<1:25:29,  1.98it/s]  5%|▌         | 579/10719 [16:32<1:25:33,  1.98it/s]  5%|▌         | 580/10719 [16:33<1:25:39,  1.97it/s]  5%|▌         | 581/10719 [16:33<1:25:36,  1.97it/s]  5%|▌         | 582/10719 [16:34<1:25:33,  1.97it/s]  5%|▌         | 583/10719 [16:34<1:25:38,  1.97it/s]  5%|▌         | 584/10719 [16:35<1:26:39,  1.95it/s]  5%|▌         | 585/10719 [16:35<1:27:24,  1.93it/s]  5%|▌         | 586/10719 [16:36<1:26:56,  1.94it/s]  5%|▌         | 587/10719 [16:36<1:26:27,  1.95it/s]  5%|▌         | 588/10719 [16:37<1:26:10,  1.96it/s]  5%|▌         | 589/10719 [16:37<1:26:04,  1.96it/s]  6%|▌         | 590/10719 [16:38<1:25:50,  1.97it/s]  6%|▌         | 591/10719 [16:38<1:25:46,  1.97it/s]  6%|▌         | 592/10719 [16:39<1:25:50,  1.97it/s]  6%|▌         | 593/10719 [16:39<1:25:47,  1.97it/s]  6%|▌         | 594/10719 [16:40<1:27:07,  1.94it/s]  6%|▌         | 595/10719 [16:41<1:39:27,  1.70it/s]  6%|▌         | 596/10719 [16:41<1:39:34,  1.69it/s]  6%|▌         | 597/10719 [16:42<1:37:00,  1.74it/s]  6%|▌         | 598/10719 [16:42<1:34:59,  1.78it/s]  6%|▌         | 599/10719 [16:43<1:33:11,  1.81it/s]  6%|▌         | 600/10719 [16:43<1:30:47,  1.86it/s]                                                     {'loss': 4.8951, 'grad_norm': 0.46516183018684387, 'learning_rate': 0.0005597014925373134, 'epoch': 0.06}
-  6%|▌         | 600/10719 [16:43<1:30:47,  1.86it/s]  6%|▌         | 601/10719 [16:44<1:29:14,  1.89it/s]  6%|▌         | 602/10719 [16:44<1:28:02,  1.92it/s]  6%|▌         | 603/10719 [16:45<1:27:06,  1.94it/s]  6%|▌         | 604/10719 [16:45<1:26:27,  1.95it/s]  6%|▌         | 605/10719 [16:46<1:26:03,  1.96it/s]  6%|▌         | 606/10719 [16:46<1:25:39,  1.97it/s]  6%|▌         | 607/10719 [16:47<1:25:14,  1.98it/s]  6%|▌         | 608/10719 [16:47<1:25:10,  1.98it/s]  6%|▌         | 609/10719 [16:48<1:24:56,  1.98it/s]  6%|▌         | 610/10719 [16:48<1:24:56,  1.98it/s]  6%|▌         | 611/10719 [16:49<1:24:42,  1.99it/s]  6%|▌         | 612/10719 [16:49<1:24:46,  1.99it/s]  6%|▌         | 613/10719 [16:50<1:24:41,  1.99it/s]  6%|▌         | 614/10719 [16:51<1:26:11,  1.95it/s]  6%|▌         | 615/10719 [16:51<1:26:47,  1.94it/s]  6%|▌         | 616/10719 [16:52<1:28:09,  1.91it/s]  6%|▌         | 617/10719 [16:52<1:28:21,  1.91it/s]  6%|▌         | 618/10719 [16:53<1:28:05,  1.91it/s]  6%|▌         | 619/10719 [16:53<1:27:00,  1.93it/s]  6%|▌         | 620/10719 [16:54<1:26:26,  1.95it/s]  6%|▌         | 621/10719 [16:54<1:31:03,  1.85it/s]  6%|▌         | 622/10719 [16:55<1:29:03,  1.89it/s]  6%|▌         | 623/10719 [16:55<1:27:45,  1.92it/s]  6%|▌         | 624/10719 [16:56<1:28:22,  1.90it/s]  6%|▌         | 625/10719 [16:56<1:29:01,  1.89it/s]                                                     {'loss': 4.8461, 'grad_norm': 0.4954153299331665, 'learning_rate': 0.0005830223880597015, 'epoch': 0.06}
-  6%|▌         | 625/10719 [16:56<1:29:01,  1.89it/s]  6%|▌         | 626/10719 [16:57<1:27:51,  1.91it/s]  6%|▌         | 627/10719 [16:57<1:27:00,  1.93it/s]  6%|▌         | 628/10719 [16:58<1:26:37,  1.94it/s]  6%|▌         | 629/10719 [16:58<1:26:03,  1.95it/s]  6%|▌         | 630/10719 [16:59<1:25:52,  1.96it/s]  6%|▌         | 631/10719 [16:59<1:25:37,  1.96it/s]  6%|▌         | 632/10719 [17:00<1:25:20,  1.97it/s]  6%|▌         | 633/10719 [17:00<1:25:07,  1.97it/s]  6%|▌         | 634/10719 [17:01<1:25:32,  1.96it/s]  6%|▌         | 635/10719 [17:01<1:26:33,  1.94it/s]  6%|▌         | 636/10719 [17:02<1:26:03,  1.95it/s]  6%|▌         | 637/10719 [17:02<1:25:36,  1.96it/s]  6%|▌         | 638/10719 [17:03<1:25:25,  1.97it/s]  6%|▌         | 639/10719 [17:03<1:25:07,  1.97it/s]  6%|▌         | 640/10719 [17:04<1:24:56,  1.98it/s]  6%|▌         | 641/10719 [17:04<1:24:38,  1.98it/s]  6%|▌         | 642/10719 [17:05<1:24:32,  1.99it/s]  6%|▌         | 643/10719 [17:05<1:24:37,  1.98it/s]  6%|▌         | 644/10719 [17:06<1:25:27,  1.96it/s]  6%|▌         | 645/10719 [17:06<1:25:28,  1.96it/s]  6%|▌         | 646/10719 [17:07<1:25:01,  1.97it/s]  6%|▌         | 647/10719 [17:07<1:24:40,  1.98it/s]  6%|▌         | 648/10719 [17:08<1:24:33,  1.98it/s]  6%|▌         | 649/10719 [17:08<1:24:22,  1.99it/s]  6%|▌         | 650/10719 [17:09<1:24:17,  1.99it/s]                                                     {'loss': 4.8149, 'grad_norm': 0.43849536776542664, 'learning_rate': 0.0006063432835820895, 'epoch': 0.06}
-  6%|▌         | 650/10719 [17:09<1:24:17,  1.99it/s]  6%|▌         | 651/10719 [17:09<1:24:20,  1.99it/s]  6%|▌         | 652/10719 [17:10<1:24:14,  1.99it/s]  6%|▌         | 653/10719 [17:10<1:24:04,  2.00it/s]  6%|▌         | 654/10719 [17:11<1:24:21,  1.99it/s]  6%|▌         | 655/10719 [17:12<1:25:24,  1.96it/s]  6%|▌         | 656/10719 [17:12<1:24:55,  1.97it/s]  6%|▌         | 657/10719 [17:13<1:24:46,  1.98it/s]  6%|▌         | 658/10719 [17:13<1:24:48,  1.98it/s]  6%|▌         | 659/10719 [17:14<1:24:40,  1.98it/s]  6%|▌         | 660/10719 [17:14<1:24:31,  1.98it/s]  6%|▌         | 661/10719 [17:15<1:24:29,  1.98it/s]  6%|▌         | 662/10719 [17:15<1:24:29,  1.98it/s]  6%|▌         | 663/10719 [17:16<1:24:21,  1.99it/s]  6%|▌         | 664/10719 [17:16<1:24:45,  1.98it/s]  6%|▌         | 665/10719 [17:17<1:25:16,  1.97it/s]  6%|▌         | 666/10719 [17:17<1:24:57,  1.97it/s]  6%|▌         | 667/10719 [17:18<1:24:49,  1.97it/s]  6%|▌         | 668/10719 [17:18<1:24:30,  1.98it/s]  6%|▌         | 669/10719 [17:19<1:24:12,  1.99it/s]  6%|▋         | 670/10719 [17:19<1:24:19,  1.99it/s]  6%|▋         | 671/10719 [17:20<1:24:13,  1.99it/s]  6%|▋         | 672/10719 [17:20<1:24:15,  1.99it/s]  6%|▋         | 673/10719 [17:21<1:24:07,  1.99it/s]  6%|▋         | 674/10719 [17:21<1:24:44,  1.98it/s]  6%|▋         | 675/10719 [17:22<1:25:21,  1.96it/s]                                                     {'loss': 4.767, 'grad_norm': 0.5180901288986206, 'learning_rate': 0.0006296641791044776, 'epoch': 0.06}
-  6%|▋         | 675/10719 [17:22<1:25:21,  1.96it/s]  6%|▋         | 676/10719 [17:22<1:26:02,  1.95it/s]  6%|▋         | 677/10719 [17:23<1:25:31,  1.96it/s]  6%|▋         | 678/10719 [17:23<1:25:11,  1.96it/s]  6%|▋         | 679/10719 [17:24<1:24:50,  1.97it/s]  6%|▋         | 680/10719 [17:24<1:25:04,  1.97it/s]  6%|▋         | 681/10719 [17:25<1:27:40,  1.91it/s]  6%|▋         | 682/10719 [17:25<1:26:34,  1.93it/s]  6%|▋         | 683/10719 [17:26<1:25:48,  1.95it/s]  6%|▋         | 684/10719 [17:26<1:25:50,  1.95it/s]  6%|▋         | 685/10719 [17:27<1:26:22,  1.94it/s]  6%|▋         | 686/10719 [17:27<1:25:51,  1.95it/s]  6%|▋         | 687/10719 [17:28<1:25:16,  1.96it/s]  6%|▋         | 688/10719 [17:28<1:24:55,  1.97it/s]  6%|▋         | 689/10719 [17:29<1:24:49,  1.97it/s]  6%|▋         | 690/10719 [17:29<1:24:35,  1.98it/s]  6%|▋         | 691/10719 [17:30<1:24:23,  1.98it/s]  6%|▋         | 692/10719 [17:30<1:24:15,  1.98it/s]  6%|▋         | 693/10719 [17:31<1:23:58,  1.99it/s]  6%|▋         | 694/10719 [17:31<1:24:21,  1.98it/s]  6%|▋         | 695/10719 [17:32<1:25:34,  1.95it/s]  6%|▋         | 696/10719 [17:32<1:25:42,  1.95it/s]  7%|▋         | 697/10719 [17:33<1:25:13,  1.96it/s]  7%|▋         | 698/10719 [17:33<1:24:59,  1.96it/s]  7%|▋         | 699/10719 [17:34<1:24:36,  1.97it/s]  7%|▋         | 700/10719 [17:34<1:24:16,  1.98it/s]                                                     {'loss': 4.7227, 'grad_norm': 0.4652511775493622, 'learning_rate': 0.0006529850746268657, 'epoch': 0.07}
-  7%|▋         | 700/10719 [17:34<1:24:16,  1.98it/s]  7%|▋         | 701/10719 [17:35<1:24:09,  1.98it/s]  7%|▋         | 702/10719 [17:35<1:24:03,  1.99it/s]  7%|▋         | 703/10719 [17:36<1:24:01,  1.99it/s]  7%|▋         | 704/10719 [17:36<1:23:59,  1.99it/s]  7%|▋         | 705/10719 [17:37<1:24:05,  1.98it/s]  7%|▋         | 706/10719 [17:37<1:24:25,  1.98it/s]  7%|▋         | 707/10719 [17:38<1:24:09,  1.98it/s]  7%|▋         | 708/10719 [17:38<1:23:53,  1.99it/s]  7%|▋         | 709/10719 [17:39<1:23:49,  1.99it/s]  7%|▋         | 710/10719 [17:39<1:23:47,  1.99it/s]  7%|▋         | 711/10719 [17:40<1:23:48,  1.99it/s]  7%|▋         | 712/10719 [17:40<1:23:51,  1.99it/s]  7%|▋         | 713/10719 [17:41<1:23:50,  1.99it/s]  7%|▋         | 714/10719 [17:41<1:23:55,  1.99it/s]  7%|▋         | 715/10719 [17:42<1:24:41,  1.97it/s]  7%|▋         | 716/10719 [17:42<1:24:26,  1.97it/s]  7%|▋         | 717/10719 [17:43<1:24:09,  1.98it/s]  7%|▋         | 718/10719 [17:43<1:23:56,  1.99it/s]  7%|▋         | 719/10719 [17:44<1:23:46,  1.99it/s]  7%|▋         | 720/10719 [17:44<1:23:41,  1.99it/s]  7%|▋         | 721/10719 [17:45<1:23:30,  2.00it/s]  7%|▋         | 722/10719 [17:45<1:23:43,  1.99it/s]  7%|▋         | 723/10719 [17:46<1:23:37,  1.99it/s]  7%|▋         | 724/10719 [17:46<1:23:32,  1.99it/s]  7%|▋         | 725/10719 [17:47<1:25:15,  1.95it/s]                                                     {'loss': 4.6912, 'grad_norm': 0.47030743956565857, 'learning_rate': 0.0006763059701492538, 'epoch': 0.07}
-  7%|▋         | 725/10719 [17:47<1:25:15,  1.95it/s]  7%|▋         | 726/10719 [17:47<1:25:38,  1.94it/s]  7%|▋         | 727/10719 [17:48<1:25:03,  1.96it/s]  7%|▋         | 728/10719 [17:48<1:25:00,  1.96it/s]  7%|▋         | 729/10719 [17:49<1:24:40,  1.97it/s]  7%|▋         | 730/10719 [17:49<1:24:23,  1.97it/s]  7%|▋         | 731/10719 [17:50<1:24:11,  1.98it/s]  7%|▋         | 732/10719 [17:50<1:23:52,  1.98it/s]  7%|▋         | 733/10719 [17:51<1:23:49,  1.99it/s]  7%|▋         | 734/10719 [17:52<1:23:38,  1.99it/s]  7%|▋         | 735/10719 [17:52<1:24:26,  1.97it/s]  7%|▋         | 736/10719 [17:53<1:24:22,  1.97it/s]  7%|▋         | 737/10719 [17:53<1:24:01,  1.98it/s]  7%|▋         | 738/10719 [17:54<1:23:57,  1.98it/s]  7%|▋         | 739/10719 [17:54<1:23:41,  1.99it/s]  7%|▋         | 740/10719 [17:55<1:33:00,  1.79it/s]  7%|▋         | 741/10719 [17:55<1:30:37,  1.84it/s]  7%|▋         | 742/10719 [17:56<1:28:31,  1.88it/s]  7%|▋         | 743/10719 [17:56<1:27:07,  1.91it/s]  7%|▋         | 744/10719 [17:57<1:26:03,  1.93it/s]  7%|▋         | 745/10719 [17:57<1:25:58,  1.93it/s]  7%|▋         | 746/10719 [17:58<1:25:54,  1.93it/s]  7%|▋         | 747/10719 [17:58<1:25:07,  1.95it/s]  7%|▋         | 748/10719 [17:59<1:24:36,  1.96it/s]  7%|▋         | 749/10719 [17:59<1:24:07,  1.98it/s]  7%|▋         | 750/10719 [18:00<1:23:52,  1.98it/s]                                                     {'loss': 4.6692, 'grad_norm': 0.506851315498352, 'learning_rate': 0.0006996268656716418, 'epoch': 0.07}
-  7%|▋         | 750/10719 [18:00<1:23:52,  1.98it/s]  7%|▋         | 751/10719 [18:00<1:23:44,  1.98it/s]  7%|▋         | 752/10719 [18:01<1:23:39,  1.99it/s]  7%|▋         | 753/10719 [18:01<1:23:29,  1.99it/s]  7%|▋         | 754/10719 [18:02<1:23:29,  1.99it/s]  7%|▋         | 755/10719 [18:02<1:24:19,  1.97it/s]  7%|▋         | 756/10719 [18:03<1:25:29,  1.94it/s]  7%|▋         | 757/10719 [18:03<1:25:09,  1.95it/s]  7%|▋         | 758/10719 [18:04<1:24:30,  1.96it/s]  7%|▋         | 759/10719 [18:04<1:23:59,  1.98it/s]  7%|▋         | 760/10719 [18:05<1:23:57,  1.98it/s]  7%|▋         | 761/10719 [18:05<1:23:30,  1.99it/s]  7%|▋         | 762/10719 [18:06<1:23:16,  1.99it/s]  7%|▋         | 763/10719 [18:06<1:23:13,  1.99it/s]  7%|▋         | 764/10719 [18:07<1:23:09,  2.00it/s]  7%|▋         | 765/10719 [18:07<1:23:07,  2.00it/s]  7%|▋         | 766/10719 [18:08<1:23:54,  1.98it/s]  7%|▋         | 767/10719 [18:08<1:23:34,  1.98it/s]  7%|▋         | 768/10719 [18:09<1:23:19,  1.99it/s]  7%|▋         | 769/10719 [18:09<1:23:03,  2.00it/s]  7%|▋         | 770/10719 [18:10<1:23:00,  2.00it/s]  7%|▋         | 771/10719 [18:10<1:22:58,  2.00it/s]  7%|▋         | 772/10719 [18:11<1:22:57,  2.00it/s]  7%|▋         | 773/10719 [18:11<1:22:58,  2.00it/s]  7%|▋         | 774/10719 [18:12<1:23:01,  2.00it/s]  7%|▋         | 775/10719 [18:12<1:23:35,  1.98it/s]                                                     {'loss': 4.6313, 'grad_norm': 0.48246055841445923, 'learning_rate': 0.0007229477611940298, 'epoch': 0.07}
-  7%|▋         | 775/10719 [18:12<1:23:35,  1.98it/s]  7%|▋         | 776/10719 [18:13<1:24:26,  1.96it/s]  7%|▋         | 777/10719 [18:13<1:24:01,  1.97it/s]  7%|▋         | 778/10719 [18:14<1:23:36,  1.98it/s]  7%|▋         | 779/10719 [18:14<1:23:12,  1.99it/s]  7%|▋         | 780/10719 [18:15<1:22:59,  2.00it/s]  7%|▋         | 781/10719 [18:15<1:22:58,  2.00it/s]  7%|▋         | 782/10719 [18:16<1:22:50,  2.00it/s]  7%|▋         | 783/10719 [18:16<1:22:40,  2.00it/s]  7%|▋         | 784/10719 [18:17<1:22:44,  2.00it/s]  7%|▋         | 785/10719 [18:17<1:22:43,  2.00it/s]  7%|▋         | 786/10719 [18:18<1:22:55,  2.00it/s]  7%|▋         | 787/10719 [18:18<1:22:41,  2.00it/s]  7%|▋         | 788/10719 [18:19<1:22:35,  2.00it/s]  7%|▋         | 789/10719 [18:19<1:22:34,  2.00it/s]  7%|▋         | 790/10719 [18:20<1:22:30,  2.01it/s]  7%|▋         | 791/10719 [18:20<1:22:27,  2.01it/s]  7%|▋         | 792/10719 [18:21<1:22:25,  2.01it/s]  7%|▋         | 793/10719 [18:21<1:22:21,  2.01it/s]  7%|▋         | 794/10719 [18:22<1:22:47,  2.00it/s]  7%|▋         | 795/10719 [18:22<1:22:44,  2.00it/s]  7%|▋         | 796/10719 [18:23<1:22:43,  2.00it/s]  7%|▋         | 797/10719 [18:23<1:22:39,  2.00it/s]  7%|▋         | 798/10719 [18:24<1:22:34,  2.00it/s]  7%|▋         | 799/10719 [18:24<1:26:17,  1.92it/s]  7%|▋         | 800/10719 [18:25<1:25:08,  1.94it/s]                                                     {'loss': 4.6013, 'grad_norm': 0.40963014960289, 'learning_rate': 0.0007462686567164179, 'epoch': 0.07}
-  7%|▋         | 800/10719 [18:25<1:25:08,  1.94it/s]  7%|▋         | 801/10719 [18:25<1:24:22,  1.96it/s]  7%|▋         | 802/10719 [18:26<1:23:47,  1.97it/s]  7%|▋         | 803/10719 [18:26<1:23:26,  1.98it/s]  8%|▊         | 804/10719 [18:27<1:23:00,  1.99it/s]  8%|▊         | 805/10719 [18:27<1:24:14,  1.96it/s]  8%|▊         | 806/10719 [18:28<1:26:38,  1.91it/s]  8%|▊         | 807/10719 [18:29<1:25:36,  1.93it/s]  8%|▊         | 808/10719 [18:29<1:25:56,  1.92it/s]  8%|▊         | 809/10719 [18:30<1:25:29,  1.93it/s]  8%|▊         | 810/10719 [18:30<1:24:36,  1.95it/s]  8%|▊         | 811/10719 [18:31<1:24:05,  1.96it/s]  8%|▊         | 812/10719 [18:31<1:23:37,  1.97it/s]  8%|▊         | 813/10719 [18:32<1:23:18,  1.98it/s]  8%|▊         | 814/10719 [18:32<1:23:01,  1.99it/s]  8%|▊         | 815/10719 [18:33<1:22:46,  1.99it/s]  8%|▊         | 816/10719 [18:33<1:23:12,  1.98it/s]  8%|▊         | 817/10719 [18:34<1:23:16,  1.98it/s]  8%|▊         | 818/10719 [18:34<1:23:03,  1.99it/s]  8%|▊         | 819/10719 [18:35<1:22:57,  1.99it/s]  8%|▊         | 820/10719 [18:35<1:22:44,  1.99it/s]  8%|▊         | 821/10719 [18:36<1:22:39,  2.00it/s]  8%|▊         | 822/10719 [18:36<1:22:26,  2.00it/s]  8%|▊         | 823/10719 [18:37<1:22:35,  2.00it/s]  8%|▊         | 824/10719 [18:37<1:22:30,  2.00it/s]  8%|▊         | 825/10719 [18:38<1:22:24,  2.00it/s]                                                     {'loss': 4.5819, 'grad_norm': 0.37409189343452454, 'learning_rate': 0.000769589552238806, 'epoch': 0.08}
-  8%|▊         | 825/10719 [18:38<1:22:24,  2.00it/s]  8%|▊         | 826/10719 [18:38<1:22:39,  1.99it/s]  8%|▊         | 827/10719 [18:39<1:22:29,  2.00it/s]  8%|▊         | 828/10719 [18:39<1:22:55,  1.99it/s]  8%|▊         | 829/10719 [18:40<1:22:45,  1.99it/s]  8%|▊         | 830/10719 [18:40<1:22:35,  2.00it/s]  8%|▊         | 831/10719 [18:41<1:22:28,  2.00it/s]  8%|▊         | 832/10719 [18:41<1:22:19,  2.00it/s]  8%|▊         | 833/10719 [18:42<1:22:23,  2.00it/s]  8%|▊         | 834/10719 [18:42<1:23:32,  1.97it/s]  8%|▊         | 835/10719 [18:43<1:23:20,  1.98it/s]  8%|▊         | 836/10719 [18:43<1:23:36,  1.97it/s]  8%|▊         | 837/10719 [18:44<1:23:36,  1.97it/s]  8%|▊         | 838/10719 [18:44<1:23:53,  1.96it/s]  8%|▊         | 839/10719 [18:45<1:23:35,  1.97it/s]  8%|▊         | 840/10719 [18:45<1:23:23,  1.97it/s]  8%|▊         | 841/10719 [18:46<1:23:15,  1.98it/s]  8%|▊         | 842/10719 [18:46<1:23:01,  1.98it/s]  8%|▊         | 843/10719 [18:47<1:22:49,  1.99it/s]  8%|▊         | 844/10719 [18:47<1:22:48,  1.99it/s]  8%|▊         | 845/10719 [18:48<1:22:40,  1.99it/s]  8%|▊         | 846/10719 [18:48<1:22:33,  1.99it/s]  8%|▊         | 847/10719 [18:49<1:22:45,  1.99it/s]  8%|▊         | 848/10719 [18:49<1:23:38,  1.97it/s]  8%|▊         | 849/10719 [18:50<1:23:18,  1.97it/s]  8%|▊         | 850/10719 [18:50<1:22:59,  1.98it/s]                                                     {'loss': 4.5531, 'grad_norm': 0.388943612575531, 'learning_rate': 0.0007929104477611941, 'epoch': 0.08}
-  8%|▊         | 850/10719 [18:50<1:22:59,  1.98it/s]  8%|▊         | 851/10719 [18:51<1:22:51,  1.98it/s]  8%|▊         | 852/10719 [18:51<1:22:49,  1.99it/s]  8%|▊         | 853/10719 [18:52<1:22:40,  1.99it/s]  8%|▊         | 854/10719 [18:52<1:22:42,  1.99it/s]  8%|▊         | 855/10719 [18:53<1:22:43,  1.99it/s]  8%|▊         | 856/10719 [18:53<1:22:54,  1.98it/s]  8%|▊         | 857/10719 [18:54<1:22:42,  1.99it/s]  8%|▊         | 858/10719 [18:54<1:23:12,  1.98it/s]  8%|▊         | 859/10719 [18:55<1:26:54,  1.89it/s]  8%|▊         | 860/10719 [18:55<1:25:27,  1.92it/s]  8%|▊         | 861/10719 [18:56<1:24:23,  1.95it/s]  8%|▊         | 862/10719 [18:56<1:23:38,  1.96it/s]  8%|▊         | 863/10719 [18:57<1:23:10,  1.98it/s]  8%|▊         | 864/10719 [18:57<1:22:46,  1.98it/s]  8%|▊         | 865/10719 [18:58<1:22:30,  1.99it/s]  8%|▊         | 866/10719 [18:58<1:22:43,  1.99it/s]  8%|▊         | 867/10719 [18:59<1:23:05,  1.98it/s]  8%|▊         | 868/10719 [19:00<1:33:47,  1.75it/s]  8%|▊         | 869/10719 [19:00<1:30:17,  1.82it/s]  8%|▊         | 870/10719 [19:01<1:27:45,  1.87it/s]  8%|▊         | 871/10719 [19:01<1:25:55,  1.91it/s]  8%|▊         | 872/10719 [19:02<1:24:36,  1.94it/s]  8%|▊         | 873/10719 [19:02<1:23:41,  1.96it/s]  8%|▊         | 874/10719 [19:03<1:23:11,  1.97it/s]  8%|▊         | 875/10719 [19:03<1:22:43,  1.98it/s]                                                     {'loss': 4.5222, 'grad_norm': 0.3811877369880676, 'learning_rate': 0.0008162313432835821, 'epoch': 0.08}
-  8%|▊         | 875/10719 [19:03<1:22:43,  1.98it/s]  8%|▊         | 876/10719 [19:04<1:22:31,  1.99it/s]  8%|▊         | 877/10719 [19:04<1:22:26,  1.99it/s]  8%|▊         | 878/10719 [19:05<1:22:28,  1.99it/s]  8%|▊         | 879/10719 [19:05<1:22:24,  1.99it/s]  8%|▊         | 880/10719 [19:06<1:22:20,  1.99it/s]  8%|▊         | 881/10719 [19:06<1:22:22,  1.99it/s]  8%|▊         | 882/10719 [19:07<1:22:14,  1.99it/s]  8%|▊         | 883/10719 [19:07<1:22:10,  1.99it/s]  8%|▊         | 884/10719 [19:08<1:22:12,  1.99it/s]  8%|▊         | 885/10719 [19:08<1:22:03,  2.00it/s]  8%|▊         | 886/10719 [19:09<1:22:15,  1.99it/s]  8%|▊         | 887/10719 [19:09<1:22:11,  1.99it/s]  8%|▊         | 888/10719 [19:10<1:22:12,  1.99it/s]  8%|▊         | 889/10719 [19:10<1:22:11,  1.99it/s]  8%|▊         | 890/10719 [19:11<1:22:11,  1.99it/s]  8%|▊         | 891/10719 [19:11<1:21:58,  2.00it/s]  8%|▊         | 892/10719 [19:12<1:21:55,  2.00it/s]  8%|▊         | 893/10719 [19:12<1:21:59,  2.00it/s]  8%|▊         | 894/10719 [19:13<1:21:53,  2.00it/s]  8%|▊         | 895/10719 [19:13<1:21:50,  2.00it/s]  8%|▊         | 896/10719 [19:14<1:21:42,  2.00it/s]  8%|▊         | 897/10719 [19:14<1:23:18,  1.97it/s]  8%|▊         | 898/10719 [19:15<1:22:50,  1.98it/s]  8%|▊         | 899/10719 [19:15<1:22:28,  1.98it/s]  8%|▊         | 900/10719 [19:16<1:22:15,  1.99it/s]                                                     {'loss': 4.4999, 'grad_norm': 0.38187918066978455, 'learning_rate': 0.0008395522388059703, 'epoch': 0.08}
-  8%|▊         | 900/10719 [19:16<1:22:15,  1.99it/s]  8%|▊         | 901/10719 [19:16<1:22:18,  1.99it/s]  8%|▊         | 902/10719 [19:17<1:22:17,  1.99it/s]  8%|▊         | 903/10719 [19:17<1:22:06,  1.99it/s]  8%|▊         | 904/10719 [19:18<1:21:58,  2.00it/s]  8%|▊         | 905/10719 [19:18<1:21:55,  2.00it/s]  8%|▊         | 906/10719 [19:19<1:21:51,  2.00it/s]  8%|▊         | 907/10719 [19:19<1:22:30,  1.98it/s]  8%|▊         | 908/10719 [19:20<1:22:16,  1.99it/s]  8%|▊         | 909/10719 [19:20<1:21:58,  1.99it/s]  8%|▊         | 910/10719 [19:21<1:21:59,  1.99it/s]  8%|▊         | 911/10719 [19:21<1:22:00,  1.99it/s]  9%|▊         | 912/10719 [19:22<1:22:07,  1.99it/s]  9%|▊         | 913/10719 [19:22<1:22:04,  1.99it/s]  9%|▊         | 914/10719 [19:23<1:22:04,  1.99it/s]  9%|▊         | 915/10719 [19:23<1:21:54,  1.99it/s]  9%|▊         | 916/10719 [19:24<1:21:52,  2.00it/s]  9%|▊         | 917/10719 [19:24<1:25:33,  1.91it/s]  9%|▊         | 918/10719 [19:25<1:24:58,  1.92it/s]  9%|▊         | 919/10719 [19:25<1:25:59,  1.90it/s]  9%|▊         | 920/10719 [19:26<1:24:48,  1.93it/s]  9%|▊         | 921/10719 [19:26<1:23:55,  1.95it/s]  9%|▊         | 922/10719 [19:27<1:23:18,  1.96it/s]  9%|▊         | 923/10719 [19:27<1:22:43,  1.97it/s]  9%|▊         | 924/10719 [19:28<1:22:21,  1.98it/s]  9%|▊         | 925/10719 [19:28<1:22:06,  1.99it/s]                                                     {'loss': 4.4676, 'grad_norm': 0.3665560781955719, 'learning_rate': 0.0008628731343283582, 'epoch': 0.09}
-  9%|▊         | 925/10719 [19:28<1:22:06,  1.99it/s]  9%|▊         | 926/10719 [19:29<1:22:13,  1.99it/s]  9%|▊         | 927/10719 [19:29<1:24:10,  1.94it/s]  9%|▊         | 928/10719 [19:30<1:23:36,  1.95it/s]  9%|▊         | 929/10719 [19:30<1:23:08,  1.96it/s]  9%|▊         | 930/10719 [19:31<1:22:44,  1.97it/s]  9%|▊         | 931/10719 [19:31<1:22:34,  1.98it/s]  9%|▊         | 932/10719 [19:32<1:22:20,  1.98it/s]  9%|▊         | 933/10719 [19:32<1:22:09,  1.99it/s]  9%|▊         | 934/10719 [19:33<1:21:57,  1.99it/s]  9%|▊         | 935/10719 [19:33<1:21:55,  1.99it/s]  9%|▊         | 936/10719 [19:34<1:21:46,  1.99it/s]  9%|▊         | 937/10719 [19:34<1:21:47,  1.99it/s]  9%|▉         | 938/10719 [19:35<1:22:09,  1.98it/s]  9%|▉         | 939/10719 [19:35<1:21:56,  1.99it/s]  9%|▉         | 940/10719 [19:36<1:21:44,  1.99it/s]  9%|▉         | 941/10719 [19:36<1:21:33,  2.00it/s]  9%|▉         | 942/10719 [19:37<1:21:28,  2.00it/s]  9%|▉         | 943/10719 [19:37<1:21:22,  2.00it/s]  9%|▉         | 944/10719 [19:38<1:21:15,  2.01it/s]  9%|▉         | 945/10719 [19:38<1:21:13,  2.01it/s]  9%|▉         | 946/10719 [19:39<1:21:13,  2.01it/s]  9%|▉         | 947/10719 [19:39<1:21:15,  2.00it/s]  9%|▉         | 948/10719 [19:40<1:21:13,  2.00it/s]  9%|▉         | 949/10719 [19:40<1:21:12,  2.01it/s]  9%|▉         | 950/10719 [19:41<1:21:07,  2.01it/s]                                                     {'loss': 4.4535, 'grad_norm': 0.3279632329940796, 'learning_rate': 0.0008861940298507463, 'epoch': 0.09}
-  9%|▉         | 950/10719 [19:41<1:21:07,  2.01it/s]  9%|▉         | 951/10719 [19:41<1:21:05,  2.01it/s]  9%|▉         | 952/10719 [19:42<1:21:07,  2.01it/s]  9%|▉         | 953/10719 [19:42<1:21:08,  2.01it/s]  9%|▉         | 954/10719 [19:43<1:21:12,  2.00it/s]  9%|▉         | 955/10719 [19:43<1:21:08,  2.01it/s]  9%|▉         | 956/10719 [19:44<1:21:14,  2.00it/s]  9%|▉         | 957/10719 [19:44<1:21:15,  2.00it/s]  9%|▉         | 958/10719 [19:45<1:21:27,  2.00it/s]  9%|▉         | 959/10719 [19:45<1:21:28,  2.00it/s]  9%|▉         | 960/10719 [19:46<1:21:20,  2.00it/s]  9%|▉         | 961/10719 [19:46<1:21:13,  2.00it/s]  9%|▉         | 962/10719 [19:47<1:21:08,  2.00it/s]  9%|▉         | 963/10719 [19:47<1:20:59,  2.01it/s]  9%|▉         | 964/10719 [19:48<1:21:08,  2.00it/s]  9%|▉         | 965/10719 [19:48<1:21:16,  2.00it/s]  9%|▉         | 966/10719 [19:49<1:21:18,  2.00it/s]  9%|▉         | 967/10719 [19:49<1:21:22,  2.00it/s]  9%|▉         | 968/10719 [19:50<1:21:36,  1.99it/s]  9%|▉         | 969/10719 [19:50<1:21:34,  1.99it/s]  9%|▉         | 970/10719 [19:51<1:21:25,  2.00it/s]  9%|▉         | 971/10719 [19:51<1:21:16,  2.00it/s]  9%|▉         | 972/10719 [19:52<1:21:13,  2.00it/s]  9%|▉         | 973/10719 [19:52<1:21:09,  2.00it/s]  9%|▉         | 974/10719 [19:53<1:21:14,  2.00it/s]  9%|▉         | 975/10719 [19:53<1:21:12,  2.00it/s]                                                     {'loss': 4.435, 'grad_norm': 0.33537498116493225, 'learning_rate': 0.0009095149253731343, 'epoch': 0.09}
-  9%|▉         | 975/10719 [19:53<1:21:12,  2.00it/s]  9%|▉         | 976/10719 [19:54<1:21:21,  2.00it/s]  9%|▉         | 977/10719 [19:54<1:22:22,  1.97it/s]  9%|▉         | 978/10719 [19:55<1:22:13,  1.97it/s]  9%|▉         | 979/10719 [19:55<1:22:01,  1.98it/s]  9%|▉         | 980/10719 [19:56<1:21:43,  1.99it/s]  9%|▉         | 981/10719 [19:56<1:21:34,  1.99it/s]  9%|▉         | 982/10719 [19:57<1:21:22,  1.99it/s]  9%|▉         | 983/10719 [19:57<1:21:14,  2.00it/s]  9%|▉         | 984/10719 [19:58<1:21:42,  1.99it/s]  9%|▉         | 985/10719 [19:58<1:21:31,  1.99it/s]  9%|▉         | 986/10719 [19:59<1:21:14,  2.00it/s]  9%|▉         | 987/10719 [19:59<1:21:04,  2.00it/s]  9%|▉         | 988/10719 [20:00<1:21:04,  2.00it/s]  9%|▉         | 989/10719 [20:00<1:20:58,  2.00it/s]  9%|▉         | 990/10719 [20:01<1:20:54,  2.00it/s]  9%|▉         | 991/10719 [20:01<1:20:58,  2.00it/s]  9%|▉         | 992/10719 [20:02<1:20:58,  2.00it/s]  9%|▉         | 993/10719 [20:02<1:20:50,  2.01it/s]  9%|▉         | 994/10719 [20:03<1:20:46,  2.01it/s]  9%|▉         | 995/10719 [20:03<1:20:43,  2.01it/s]  9%|▉         | 996/10719 [20:04<1:20:52,  2.00it/s]  9%|▉         | 997/10719 [20:04<1:20:53,  2.00it/s]  9%|▉         | 998/10719 [20:05<1:20:59,  2.00it/s]  9%|▉         | 999/10719 [20:05<1:21:01,  2.00it/s]  9%|▉         | 1000/10719 [20:06<1:21:03,  2.00it/s]                                                      {'loss': 4.405, 'grad_norm': 0.3285227119922638, 'learning_rate': 0.0009328358208955225, 'epoch': 0.09}
-  9%|▉         | 1000/10719 [20:06<1:21:03,  2.00it/s]  9%|▉         | 1001/10719 [20:06<1:21:13,  1.99it/s]  9%|▉         | 1002/10719 [20:07<1:21:06,  2.00it/s]  9%|▉         | 1003/10719 [20:07<1:21:07,  2.00it/s]  9%|▉         | 1004/10719 [20:08<1:20:58,  2.00it/s]  9%|▉         | 1005/10719 [20:08<1:20:53,  2.00it/s]  9%|▉         | 1006/10719 [20:09<1:20:51,  2.00it/s]  9%|▉         | 1007/10719 [20:09<1:20:45,  2.00it/s]  9%|▉         | 1008/10719 [20:10<1:20:45,  2.00it/s]  9%|▉         | 1009/10719 [20:10<1:20:41,  2.01it/s]  9%|▉         | 1010/10719 [20:11<1:20:37,  2.01it/s]  9%|▉         | 1011/10719 [20:11<1:20:36,  2.01it/s]  9%|▉         | 1012/10719 [20:12<1:20:34,  2.01it/s]  9%|▉         | 1013/10719 [20:12<1:20:35,  2.01it/s]  9%|▉         | 1014/10719 [20:13<1:20:32,  2.01it/s]  9%|▉         | 1015/10719 [20:13<1:20:35,  2.01it/s]  9%|▉         | 1016/10719 [20:14<1:20:25,  2.01it/s]  9%|▉         | 1017/10719 [20:14<1:20:25,  2.01it/s]  9%|▉         | 1018/10719 [20:15<1:20:24,  2.01it/s] 10%|▉         | 1019/10719 [20:15<1:20:46,  2.00it/s] 10%|▉         | 1020/10719 [20:16<1:20:36,  2.01it/s] 10%|▉         | 1021/10719 [20:16<1:20:36,  2.01it/s] 10%|▉         | 1022/10719 [20:17<1:21:20,  1.99it/s] 10%|▉         | 1023/10719 [20:17<1:21:16,  1.99it/s] 10%|▉         | 1024/10719 [20:18<1:21:12,  1.99it/s] 10%|▉         | 1025/10719 [20:18<1:21:09,  1.99it/s]                                                      {'loss': 4.3815, 'grad_norm': 0.38119903206825256, 'learning_rate': 0.0009561567164179105, 'epoch': 0.1}
- 10%|▉         | 1025/10719 [20:18<1:21:09,  1.99it/s] 10%|▉         | 1026/10719 [20:19<1:21:15,  1.99it/s] 10%|▉         | 1027/10719 [20:19<1:21:10,  1.99it/s] 10%|▉         | 1028/10719 [20:20<1:20:56,  2.00it/s] 10%|▉         | 1029/10719 [20:20<1:20:59,  1.99it/s] 10%|▉         | 1030/10719 [20:21<1:21:03,  1.99it/s] 10%|▉         | 1031/10719 [20:21<1:21:04,  1.99it/s] 10%|▉         | 1032/10719 [20:22<1:20:53,  2.00it/s] 10%|▉         | 1033/10719 [20:22<1:21:11,  1.99it/s] 10%|▉         | 1034/10719 [20:23<1:21:07,  1.99it/s] 10%|▉         | 1035/10719 [20:23<1:21:26,  1.98it/s] 10%|▉         | 1036/10719 [20:24<1:21:13,  1.99it/s] 10%|▉         | 1037/10719 [20:24<1:22:54,  1.95it/s] 10%|▉         | 1038/10719 [20:25<1:29:56,  1.79it/s] 10%|▉         | 1039/10719 [20:26<1:27:04,  1.85it/s] 10%|▉         | 1040/10719 [20:26<1:25:14,  1.89it/s] 10%|▉         | 1041/10719 [20:27<1:23:43,  1.93it/s] 10%|▉         | 1042/10719 [20:27<1:37:14,  1.66it/s] 10%|▉         | 1043/10719 [20:28<1:32:21,  1.75it/s] 10%|▉         | 1044/10719 [20:28<1:28:50,  1.82it/s] 10%|▉         | 1045/10719 [20:29<1:26:12,  1.87it/s] 10%|▉         | 1046/10719 [20:29<1:24:22,  1.91it/s] 10%|▉         | 1047/10719 [20:30<1:23:14,  1.94it/s] 10%|▉         | 1048/10719 [20:31<1:36:32,  1.67it/s] 10%|▉         | 1049/10719 [20:31<1:31:38,  1.76it/s] 10%|▉         | 1050/10719 [20:32<1:28:34,  1.82it/s]                                                      {'loss': 4.3642, 'grad_norm': 0.3103213310241699, 'learning_rate': 0.0009794776119402984, 'epoch': 0.1}
- 10%|▉         | 1050/10719 [20:32<1:28:34,  1.82it/s] 10%|▉         | 1051/10719 [20:32<1:26:29,  1.86it/s] 10%|▉         | 1052/10719 [20:33<1:24:35,  1.90it/s] 10%|▉         | 1053/10719 [20:33<1:23:16,  1.93it/s] 10%|▉         | 1054/10719 [20:34<1:22:22,  1.96it/s] 10%|▉         | 1055/10719 [20:34<1:21:47,  1.97it/s] 10%|▉         | 1056/10719 [20:35<1:21:12,  1.98it/s] 10%|▉         | 1057/10719 [20:35<1:20:54,  1.99it/s] 10%|▉         | 1058/10719 [20:36<1:20:43,  1.99it/s] 10%|▉         | 1059/10719 [20:36<1:20:24,  2.00it/s] 10%|▉         | 1060/10719 [20:37<1:20:29,  2.00it/s] 10%|▉         | 1061/10719 [20:37<1:20:24,  2.00it/s] 10%|▉         | 1062/10719 [20:38<1:20:22,  2.00it/s] 10%|▉         | 1063/10719 [20:38<1:20:25,  2.00it/s] 10%|▉         | 1064/10719 [20:39<1:20:30,  2.00it/s] 10%|▉         | 1065/10719 [20:39<1:20:27,  2.00it/s] 10%|▉         | 1066/10719 [20:40<1:20:34,  2.00it/s] 10%|▉         | 1067/10719 [20:40<1:20:24,  2.00it/s] 10%|▉         | 1068/10719 [20:41<1:20:23,  2.00it/s] 10%|▉         | 1069/10719 [20:41<1:20:19,  2.00it/s] 10%|▉         | 1070/10719 [20:42<1:20:29,  2.00it/s] 10%|▉         | 1071/10719 [20:42<1:20:30,  2.00it/s] 10%|█         | 1072/10719 [20:43<1:20:19,  2.00it/s] 10%|█         | 1073/10719 [20:43<1:20:16,  2.00it/s] 10%|█         | 1074/10719 [20:44<1:20:18,  2.00it/s] 10%|█         | 1075/10719 [20:44<1:20:24,  2.00it/s]                                                      {'loss': 4.3441, 'grad_norm': 0.3550467789173126, 'learning_rate': 0.000999999761385038, 'epoch': 0.1}
- 10%|█         | 1075/10719 [20:44<1:20:24,  2.00it/s] 10%|█         | 1076/10719 [20:45<1:20:33,  1.99it/s] 10%|█         | 1077/10719 [20:45<1:20:26,  2.00it/s] 10%|█         | 1078/10719 [20:46<1:20:30,  2.00it/s] 10%|█         | 1079/10719 [20:46<1:20:26,  2.00it/s] 10%|█         | 1080/10719 [20:47<1:31:00,  1.77it/s] 10%|█         | 1081/10719 [20:47<1:27:49,  1.83it/s] 10%|█         | 1082/10719 [20:48<1:25:27,  1.88it/s] 10%|█         | 1083/10719 [20:48<1:23:51,  1.92it/s] 10%|█         | 1084/10719 [20:49<1:22:48,  1.94it/s] 10%|█         | 1085/10719 [20:49<1:21:57,  1.96it/s] 10%|█         | 1086/10719 [20:50<1:21:20,  1.97it/s] 10%|█         | 1087/10719 [20:50<1:20:58,  1.98it/s] 10%|█         | 1088/10719 [20:51<1:20:41,  1.99it/s] 10%|█         | 1089/10719 [20:51<1:20:39,  1.99it/s] 10%|█         | 1090/10719 [20:52<1:20:38,  1.99it/s] 10%|█         | 1091/10719 [20:52<1:20:28,  1.99it/s] 10%|█         | 1092/10719 [20:53<1:20:25,  2.00it/s] 10%|█         | 1093/10719 [20:53<1:20:16,  2.00it/s] 10%|█         | 1094/10719 [20:54<1:20:17,  2.00it/s] 10%|█         | 1095/10719 [20:54<1:23:19,  1.92it/s] 10%|█         | 1096/10719 [20:55<1:22:20,  1.95it/s] 10%|█         | 1097/10719 [20:55<1:21:39,  1.96it/s] 10%|█         | 1098/10719 [20:56<1:21:09,  1.98it/s] 10%|█         | 1099/10719 [20:56<1:20:43,  1.99it/s] 10%|█         | 1100/10719 [20:57<1:20:39,  1.99it/s]                                                      {'loss': 4.3284, 'grad_norm': 0.33923348784446716, 'learning_rate': 0.0009999792141279018, 'epoch': 0.1}
- 10%|█         | 1100/10719 [20:57<1:20:39,  1.99it/s] 10%|█         | 1101/10719 [20:57<1:20:30,  1.99it/s] 10%|█         | 1102/10719 [20:58<1:20:23,  1.99it/s] 10%|█         | 1103/10719 [20:58<1:20:10,  2.00it/s] 10%|█         | 1104/10719 [20:59<1:20:00,  2.00it/s] 10%|█         | 1105/10719 [20:59<1:19:59,  2.00it/s] 10%|█         | 1106/10719 [21:00<1:20:03,  2.00it/s] 10%|█         | 1107/10719 [21:00<1:19:56,  2.00it/s] 10%|█         | 1108/10719 [21:01<1:19:53,  2.00it/s] 10%|█         | 1109/10719 [21:01<1:20:01,  2.00it/s] 10%|█         | 1110/10719 [21:02<1:19:59,  2.00it/s] 10%|█         | 1111/10719 [21:02<1:19:49,  2.01it/s] 10%|█         | 1112/10719 [21:03<1:19:45,  2.01it/s] 10%|█         | 1113/10719 [21:03<1:19:41,  2.01it/s] 10%|█         | 1114/10719 [21:04<1:19:35,  2.01it/s] 10%|█         | 1115/10719 [21:04<1:19:33,  2.01it/s] 10%|█         | 1116/10719 [21:05<1:19:32,  2.01it/s] 10%|█         | 1117/10719 [21:05<1:19:30,  2.01it/s] 10%|█         | 1118/10719 [21:06<1:19:24,  2.02it/s] 10%|█         | 1119/10719 [21:06<1:19:25,  2.01it/s] 10%|█         | 1120/10719 [21:07<1:19:50,  2.00it/s] 10%|█         | 1121/10719 [21:07<1:20:00,  2.00it/s] 10%|█         | 1122/10719 [21:08<1:20:04,  2.00it/s] 10%|█         | 1123/10719 [21:08<1:19:54,  2.00it/s] 10%|█         | 1124/10719 [21:09<1:19:53,  2.00it/s] 10%|█         | 1125/10719 [21:09<1:19:52,  2.00it/s]                                                      {'loss': 4.3079, 'grad_norm': 0.292766273021698, 'learning_rate': 0.000999925527461965, 'epoch': 0.1}
- 10%|█         | 1125/10719 [21:09<1:19:52,  2.00it/s] 11%|█         | 1126/10719 [21:10<1:19:59,  2.00it/s] 11%|█         | 1127/10719 [21:10<1:19:54,  2.00it/s] 11%|█         | 1128/10719 [21:11<1:19:47,  2.00it/s] 11%|█         | 1129/10719 [21:11<1:19:50,  2.00it/s] 11%|█         | 1130/10719 [21:12<1:19:51,  2.00it/s] 11%|█         | 1131/10719 [21:12<1:19:47,  2.00it/s] 11%|█         | 1132/10719 [21:13<1:19:50,  2.00it/s] 11%|���         | 1133/10719 [21:13<1:19:45,  2.00it/s] 11%|█         | 1134/10719 [21:14<1:19:48,  2.00it/s] 11%|█         | 1135/10719 [21:14<1:20:11,  1.99it/s] 11%|█         | 1136/10719 [21:15<1:22:02,  1.95it/s] 11%|█         | 1137/10719 [21:15<1:21:23,  1.96it/s] 11%|█         | 1138/10719 [21:16<1:20:50,  1.98it/s] 11%|█         | 1139/10719 [21:16<1:20:32,  1.98it/s] 11%|█         | 1140/10719 [21:17<1:20:39,  1.98it/s] 11%|█         | 1141/10719 [21:17<1:20:25,  1.98it/s] 11%|█         | 1142/10719 [21:18<1:20:14,  1.99it/s] 11%|█         | 1143/10719 [21:18<1:20:06,  1.99it/s] 11%|█         | 1144/10719 [21:19<1:19:55,  2.00it/s] 11%|█         | 1145/10719 [21:19<1:19:50,  2.00it/s] 11%|█         | 1146/10719 [21:20<1:19:46,  2.00it/s] 11%|█         | 1147/10719 [21:20<1:19:37,  2.00it/s] 11%|█         | 1148/10719 [21:21<1:19:43,  2.00it/s] 11%|█         | 1149/10719 [21:21<1:19:37,  2.00it/s] 11%|█         | 1150/10719 [21:22<1:19:42,  2.00it/s]                                                      {'loss': 4.2818, 'grad_norm': 0.29041847586631775, 'learning_rate': 0.0009998387049456642, 'epoch': 0.11}
- 11%|█         | 1150/10719 [21:22<1:19:42,  2.00it/s] 11%|█         | 1151/10719 [21:22<1:19:52,  2.00it/s] 11%|█         | 1152/10719 [21:23<1:19:54,  2.00it/s] 11%|█         | 1153/10719 [21:23<1:19:50,  2.00it/s] 11%|█         | 1154/10719 [21:24<1:19:54,  2.00it/s] 11%|█         | 1155/10719 [21:25<1:26:24,  1.84it/s] 11%|█         | 1156/10719 [21:25<1:27:56,  1.81it/s] 11%|█         | 1157/10719 [21:26<1:25:30,  1.86it/s] 11%|█         | 1158/10719 [21:26<1:23:40,  1.90it/s] 11%|█         | 1159/10719 [21:27<1:22:30,  1.93it/s] 11%|█         | 1160/10719 [21:27<1:21:41,  1.95it/s] 11%|█         | 1161/10719 [21:28<1:21:08,  1.96it/s] 11%|█         | 1162/10719 [21:28<1:20:33,  1.98it/s] 11%|█         | 1163/10719 [21:29<1:20:15,  1.98it/s] 11%|█         | 1164/10719 [21:29<1:19:56,  1.99it/s] 11%|█         | 1165/10719 [21:30<1:19:50,  1.99it/s] 11%|█         | 1166/10719 [21:30<1:19:39,  2.00it/s] 11%|█         | 1167/10719 [21:31<1:19:30,  2.00it/s] 11%|█         | 1168/10719 [21:31<1:20:20,  1.98it/s] 11%|█         | 1169/10719 [21:32<1:20:08,  1.99it/s] 11%|█         | 1170/10719 [21:32<1:20:08,  1.99it/s] 11%|█         | 1171/10719 [21:33<1:20:19,  1.98it/s] 11%|█         | 1172/10719 [21:33<1:20:12,  1.98it/s] 11%|█         | 1173/10719 [21:34<1:20:08,  1.99it/s] 11%|█         | 1174/10719 [21:34<1:21:22,  1.96it/s] 11%|█         | 1175/10719 [21:35<1:21:21,  1.96it/s]{'loss': 4.2736, 'grad_norm': 0.29648491740226746, 'learning_rate': 0.0009997187523337321, 'epoch': 0.11}
-                                                       11%|█         | 1175/10719 [21:35<1:21:21,  1.96it/s] 11%|█         | 1176/10719 [21:35<1:22:22,  1.93it/s] 11%|█         | 1177/10719 [21:36<1:21:26,  1.95it/s] 11%|█         | 1178/10719 [21:36<1:20:51,  1.97it/s] 11%|█         | 1179/10719 [21:37<1:20:25,  1.98it/s] 11%|█         | 1180/10719 [21:37<1:20:00,  1.99it/s] 11%|█         | 1181/10719 [21:38<1:19:53,  1.99it/s] 11%|█         | 1182/10719 [21:38<1:19:47,  1.99it/s] 11%|█         | 1183/10719 [21:39<1:19:44,  1.99it/s] 11%|█         | 1184/10719 [21:39<1:19:43,  1.99it/s] 11%|█         | 1185/10719 [21:40<1:19:37,  2.00it/s] 11%|█         | 1186/10719 [21:40<1:19:34,  2.00it/s] 11%|█         | 1187/10719 [21:41<1:19:38,  1.99it/s] 11%|█         | 1188/10719 [21:41<1:19:34,  2.00it/s] 11%|█         | 1189/10719 [21:42<1:19:34,  2.00it/s] 11%|█         | 1190/10719 [21:42<1:19:39,  1.99it/s] 11%|█         | 1191/10719 [21:43<1:19:36,  1.99it/s] 11%|█         | 1192/10719 [21:43<1:19:25,  2.00it/s] 11%|█         | 1193/10719 [21:44<1:19:26,  2.00it/s] 11%|█         | 1194/10719 [21:44<1:19:21,  2.00it/s] 11%|█         | 1195/10719 [21:45<1:19:24,  2.00it/s] 11%|█         | 1196/10719 [21:45<1:19:18,  2.00it/s] 11%|█         | 1197/10719 [21:46<1:19:19,  2.00it/s] 11%|█         | 1198/10719 [21:46<1:19:23,  2.00it/s] 11%|█         | 1199/10719 [21:47<1:19:21,  2.00it/s] 11%|█         | 1200/10719 [21:47<1:19:16,  2.00it/s]                                                      {'loss': 4.2547, 'grad_norm': 0.2781659960746765, 'learning_rate': 0.000999565677576817, 'epoch': 0.11}
- 11%|█         | 1200/10719 [21:47<1:19:16,  2.00it/s] 11%|█         | 1201/10719 [21:48<1:19:26,  2.00it/s] 11%|█         | 1202/10719 [21:48<1:19:22,  2.00it/s] 11%|█         | 1203/10719 [21:49<1:19:24,  2.00it/s] 11%|█         | 1204/10719 [21:49<1:19:20,  2.00it/s] 11%|█         | 1205/10719 [21:50<1:19:18,  2.00it/s] 11%|█▏        | 1206/10719 [21:50<1:19:10,  2.00it/s] 11%|█▏        | 1207/10719 [21:51<1:19:13,  2.00it/s] 11%|█▏        | 1208/10719 [21:51<1:19:10,  2.00it/s] 11%|█▏        | 1209/10719 [21:52<1:19:07,  2.00it/s] 11%|█▏        | 1210/10719 [21:52<1:18:59,  2.01it/s] 11%|█▏        | 1211/10719 [21:53<1:19:00,  2.01it/s] 11%|█▏        | 1212/10719 [21:53<1:19:03,  2.00it/s] 11%|█▏        | 1213/10719 [21:54<1:19:12,  2.00it/s] 11%|█▏        | 1214/10719 [21:54<1:22:38,  1.92it/s] 11%|█▏        | 1215/10719 [21:55<1:25:15,  1.86it/s] 11%|█▏        | 1216/10719 [21:55<1:23:24,  1.90it/s] 11%|█▏        | 1217/10719 [21:56<1:22:04,  1.93it/s] 11%|█▏        | 1218/10719 [21:56<1:21:12,  1.95it/s] 11%|█▏        | 1219/10719 [21:57<1:20:28,  1.97it/s] 11%|█▏        | 1220/10719 [21:57<1:19:58,  1.98it/s] 11%|█▏        | 1221/10719 [21:58<1:19:54,  1.98it/s] 11%|█▏        | 1222/10719 [21:58<1:20:21,  1.97it/s] 11%|█▏        | 1223/10719 [21:59<1:19:54,  1.98it/s] 11%|█▏        | 1224/10719 [21:59<1:19:39,  1.99it/s] 11%|█▏        | 1225/10719 [22:00<1:19:29,  1.99it/s]                                                      {'loss': 4.231, 'grad_norm': 0.293155312538147, 'learning_rate': 0.0009993794908209539, 'epoch': 0.11}
- 11%|█▏        | 1225/10719 [22:00<1:19:29,  1.99it/s] 11%|█▏        | 1226/10719 [22:00<1:19:31,  1.99it/s] 11%|█▏        | 1227/10719 [22:01<1:19:16,  2.00it/s] 11%|█▏        | 1228/10719 [22:01<1:19:10,  2.00it/s] 11%|█▏        | 1229/10719 [22:02<1:19:13,  2.00it/s] 11%|█▏        | 1230/10719 [22:02<1:19:06,  2.00it/s] 11%|█▏        | 1231/10719 [22:03<1:19:09,  2.00it/s] 11%|█▏        | 1232/10719 [22:03<1:19:03,  2.00it/s] 12%|█▏        | 1233/10719 [22:04<1:19:07,  2.00it/s] 12%|█▏        | 1234/10719 [22:04<1:19:05,  2.00it/s] 12%|█▏        | 1235/10719 [22:05<1:19:06,  2.00it/s] 12%|█▏        | 1236/10719 [22:05<1:19:02,  2.00it/s] 12%|█▏        | 1237/10719 [22:06<1:18:57,  2.00it/s] 12%|█▏        | 1238/10719 [22:06<1:18:50,  2.00it/s] 12%|█▏        | 1239/10719 [22:07<1:18:46,  2.01it/s] 12%|█▏        | 1240/10719 [22:07<1:18:44,  2.01it/s] 12%|█▏        | 1241/10719 [22:08<1:19:00,  2.00it/s] 12%|█▏        | 1242/10719 [22:08<1:18:55,  2.00it/s] 12%|█▏        | 1243/10719 [22:09<1:18:53,  2.00it/s] 12%|█▏        | 1244/10719 [22:09<1:18:54,  2.00it/s] 12%|█▏        | 1245/10719 [22:10<1:18:51,  2.00it/s] 12%|█▏        | 1246/10719 [22:10<1:18:51,  2.00it/s] 12%|█▏        | 1247/10719 [22:11<1:18:56,  2.00it/s] 12%|█▏        | 1248/10719 [22:11<1:18:51,  2.00it/s] 12%|█▏        | 1249/10719 [22:12<1:18:46,  2.00it/s] 12%|█▏        | 1250/10719 [22:12<1:18:45,  2.00it/s]                                                      {'loss': 4.2177, 'grad_norm': 0.3029451072216034, 'learning_rate': 0.0009991602044068946, 'epoch': 0.12}
- 12%|█▏        | 1250/10719 [22:12<1:18:45,  2.00it/s] 12%|█▏        | 1251/10719 [22:13<1:18:47,  2.00it/s] 12%|█▏        | 1252/10719 [22:13<1:18:56,  2.00it/s] 12%|█▏        | 1253/10719 [22:14<1:18:54,  2.00it/s] 12%|█▏        | 1254/10719 [22:14<1:18:47,  2.00it/s] 12%|█▏        | 1255/10719 [22:15<1:18:45,  2.00it/s] 12%|█▏        | 1256/10719 [22:15<1:18:34,  2.01it/s] 12%|█▏        | 1257/10719 [22:16<1:18:34,  2.01it/s] 12%|█▏        | 1258/10719 [22:16<1:18:36,  2.01it/s] 12%|█▏        | 1259/10719 [22:17<1:18:38,  2.00it/s] 12%|█▏        | 1260/10719 [22:17<1:18:46,  2.00it/s] 12%|█▏        | 1261/10719 [22:18<1:18:52,  2.00it/s] 12%|█▏        | 1262/10719 [22:18<1:18:54,  2.00it/s] 12%|█▏        | 1263/10719 [22:19<1:19:02,  1.99it/s] 12%|█▏        | 1264/10719 [22:19<1:18:58,  2.00it/s] 12%|█▏        | 1265/10719 [22:20<1:18:52,  2.00it/s] 12%|█▏        | 1266/10719 [22:20<1:18:53,  2.00it/s] 12%|█▏        | 1267/10719 [22:21<1:18:51,  2.00it/s] 12%|█▏        | 1268/10719 [22:21<1:18:49,  2.00it/s] 12%|█▏        | 1269/10719 [22:22<1:18:39,  2.00it/s] 12%|█▏        | 1270/10719 [22:22<1:18:41,  2.00it/s] 12%|█▏        | 1271/10719 [22:23<1:18:46,  2.00it/s] 12%|█▏        | 1272/10719 [22:23<1:18:48,  2.00it/s] 12%|█▏        | 1273/10719 [22:24<1:18:48,  2.00it/s] 12%|█▏        | 1274/10719 [22:24<1:23:17,  1.89it/s] 12%|█▏        | 1275/10719 [22:25<1:21:59,  1.92it/s]                                                      {'loss': 4.1965, 'grad_norm': 0.31328916549682617, 'learning_rate': 0.000998907832869287, 'epoch': 0.12}
- 12%|█▏        | 1275/10719 [22:25<1:21:59,  1.92it/s] 12%|█▏        | 1276/10719 [22:25<1:20:56,  1.94it/s] 12%|█▏        | 1277/10719 [22:26<1:20:17,  1.96it/s] 12%|█▏        | 1278/10719 [22:26<1:19:47,  1.97it/s] 12%|█▏        | 1279/10719 [22:27<1:19:28,  1.98it/s] 12%|█▏        | 1280/10719 [22:27<1:19:16,  1.98it/s] 12%|█▏        | 1281/10719 [22:28<1:19:05,  1.99it/s] 12%|█▏        | 1282/10719 [22:29<1:19:07,  1.99it/s] 12%|█▏        | 1283/10719 [22:29<1:19:03,  1.99it/s] 12%|█▏        | 1284/10719 [22:30<1:18:51,  1.99it/s] 12%|█▏        | 1285/10719 [22:30<1:18:41,  2.00it/s] 12%|█▏        | 1286/10719 [22:30<1:18:34,  2.00it/s] 12%|█▏        | 1287/10719 [22:31<1:18:27,  2.00it/s] 12%|█▏        | 1288/10719 [22:31<1:18:22,  2.01it/s] 12%|█▏        | 1289/10719 [22:32<1:18:28,  2.00it/s] 12%|█▏        | 1290/10719 [22:33<1:18:51,  1.99it/s] 12%|█▏        | 1291/10719 [22:33<1:18:48,  1.99it/s] 12%|█▏        | 1292/10719 [22:34<1:18:51,  1.99it/s] 12%|█▏        | 1293/10719 [22:34<1:18:44,  2.00it/s] 12%|█▏        | 1294/10719 [22:35<1:18:44,  1.99it/s] 12%|█▏        | 1295/10719 [22:35<1:18:39,  2.00it/s] 12%|█▏        | 1296/10719 [22:36<1:18:40,  2.00it/s] 12%|█▏        | 1297/10719 [22:36<1:18:32,  2.00it/s] 12%|█▏        | 1298/10719 [22:37<1:18:25,  2.00it/s] 12%|█▏        | 1299/10719 [22:37<1:18:29,  2.00it/s] 12%|█▏        | 1300/10719 [22:38<1:18:30,  2.00it/s]                                                      {'loss': 4.1819, 'grad_norm': 0.24589453637599945, 'learning_rate': 0.000998622392935714, 'epoch': 0.12}
- 12%|█▏        | 1300/10719 [22:38<1:18:30,  2.00it/s] 12%|█▏        | 1301/10719 [22:38<1:18:42,  1.99it/s] 12%|█▏        | 1302/10719 [22:39<1:18:32,  2.00it/s] 12%|█▏        | 1303/10719 [22:39<1:18:39,  1.99it/s] 12%|█▏        | 1304/10719 [22:40<1:18:39,  2.00it/s] 12%|█▏        | 1305/10719 [22:40<1:18:35,  2.00it/s] 12%|█▏        | 1306/10719 [22:41<1:18:37,  2.00it/s] 12%|█▏        | 1307/10719 [22:41<1:18:35,  2.00it/s] 12%|█▏        | 1308/10719 [22:42<1:18:30,  2.00it/s] 12%|█▏        | 1309/10719 [22:42<1:18:28,  2.00it/s] 12%|█▏        | 1310/10719 [22:43<1:18:27,  2.00it/s] 12%|█▏        | 1311/10719 [22:43<1:18:19,  2.00it/s] 12%|█▏        | 1312/10719 [22:44<1:18:14,  2.00it/s] 12%|█▏        | 1313/10719 [22:44<1:18:20,  2.00it/s] 12%|█▏        | 1314/10719 [22:45<1:19:09,  1.98it/s] 12%|█▏        | 1315/10719 [22:45<1:18:56,  1.99it/s] 12%|█▏        | 1316/10719 [22:46<1:18:49,  1.99it/s] 12%|█▏        | 1317/10719 [22:46<1:18:39,  1.99it/s] 12%|█▏        | 1318/10719 [22:47<1:18:30,  2.00it/s] 12%|█▏        | 1319/10719 [22:47<1:18:23,  2.00it/s] 12%|█▏        | 1320/10719 [22:48<1:18:22,  2.00it/s] 12%|█▏        | 1321/10719 [22:48<1:18:18,  2.00it/s] 12%|█▏        | 1322/10719 [22:49<1:18:11,  2.00it/s] 12%|█▏        | 1323/10719 [22:49<1:18:18,  2.00it/s] 12%|█▏        | 1324/10719 [22:50<1:18:09,  2.00it/s] 12%|█▏        | 1325/10719 [22:50<1:18:05,  2.01it/s]                                                      {'loss': 4.1793, 'grad_norm': 0.2605811357498169, 'learning_rate': 0.000998303903525583, 'epoch': 0.12}
- 12%|█▏        | 1325/10719 [22:50<1:18:05,  2.01it/s] 12%|█▏        | 1326/10719 [22:51<1:18:07,  2.00it/s] 12%|█▏        | 1327/10719 [22:51<1:18:10,  2.00it/s] 12%|█▏        | 1328/10719 [22:52<1:18:04,  2.00it/s] 12%|█▏        | 1329/10719 [22:52<1:17:56,  2.01it/s] 12%|█▏        | 1330/10719 [22:53<1:18:05,  2.00it/s] 12%|█▏        | 1331/10719 [22:53<1:20:40,  1.94it/s] 12%|█▏        | 1332/10719 [22:54<1:20:15,  1.95it/s] 12%|█▏        | 1333/10719 [22:54<1:19:35,  1.97it/s] 12%|█▏        | 1334/10719 [22:55<1:19:34,  1.97it/s] 12%|█▏        | 1335/10719 [22:55<1:19:06,  1.98it/s] 12%|█▏        | 1336/10719 [22:56<1:18:46,  1.99it/s] 12%|█▏        | 1337/10719 [22:56<1:18:27,  1.99it/s] 12%|█▏        | 1338/10719 [22:57<1:18:18,  2.00it/s] 12%|█▏        | 1339/10719 [22:57<1:18:08,  2.00it/s] 13%|█▎        | 1340/10719 [22:58<1:18:00,  2.00it/s] 13%|█▎        | 1341/10719 [22:58<1:17:51,  2.01it/s] 13%|█▎        | 1342/10719 [22:59<1:17:55,  2.01it/s] 13%|█▎        | 1343/10719 [22:59<1:17:49,  2.01it/s] 13%|█▎        | 1344/10719 [23:00<1:17:47,  2.01it/s] 13%|█▎        | 1345/10719 [23:00<1:17:43,  2.01it/s] 13%|█▎        | 1346/10719 [23:01<1:17:46,  2.01it/s] 13%|█▎        | 1347/10719 [23:01<1:17:42,  2.01it/s] 13%|█▎        | 1348/10719 [23:02<1:17:40,  2.01it/s] 13%|█▎        | 1349/10719 [23:02<1:17:49,  2.01it/s] 13%|█▎        | 1350/10719 [23:03<1:17:56,  2.00it/s]                                                      {'loss': 4.1615, 'grad_norm': 0.2951281666755676, 'learning_rate': 0.0009979523857488735, 'epoch': 0.13}
- 13%|█▎        | 1350/10719 [23:03<1:17:56,  2.00it/s] 13%|█▎        | 1351/10719 [23:03<1:18:05,  2.00it/s] 13%|█▎        | 1352/10719 [23:04<1:18:02,  2.00it/s] 13%|█▎        | 1353/10719 [23:04<1:18:02,  2.00it/s] 13%|█▎        | 1354/10719 [23:05<1:18:01,  2.00it/s] 13%|█▎        | 1355/10719 [23:05<1:18:05,  2.00it/s] 13%|█▎        | 1356/10719 [23:06<1:18:06,  2.00it/s] 13%|█▎        | 1357/10719 [23:06<1:17:57,  2.00it/s] 13%|█▎        | 1358/10719 [23:07<1:18:03,  2.00it/s] 13%|█▎        | 1359/10719 [23:07<1:17:58,  2.00it/s] 13%|█▎        | 1360/10719 [23:08<1:17:57,  2.00it/s] 13%|█▎        | 1361/10719 [23:08<1:17:55,  2.00it/s] 13%|█▎        | 1362/10719 [23:09<1:17:57,  2.00it/s] 13%|█▎        | 1363/10719 [23:09<1:17:58,  2.00it/s] 13%|█▎        | 1364/10719 [23:10<1:18:23,  1.99it/s] 13%|█▎        | 1365/10719 [23:10<1:18:12,  1.99it/s] 13%|█▎        | 1366/10719 [23:11<1:18:05,  2.00it/s] 13%|█▎        | 1367/10719 [23:11<1:17:58,  2.00it/s] 13%|█▎        | 1368/10719 [23:12<1:17:53,  2.00it/s] 13%|█▎        | 1369/10719 [23:12<1:17:45,  2.00it/s] 13%|█▎        | 1370/10719 [23:13<1:17:45,  2.00it/s] 13%|█▎        | 1371/10719 [23:13<1:17:38,  2.01it/s] 13%|█▎        | 1372/10719 [23:14<1:17:47,  2.00it/s] 13%|█▎        | 1373/10719 [23:14<1:17:45,  2.00it/s] 13%|█▎        | 1374/10719 [23:15<1:17:57,  2.00it/s] 13%|█▎        | 1375/10719 [23:15<1:17:48,  2.00it/s]                                                      {'loss': 4.1518, 'grad_norm': 0.2594072222709656, 'learning_rate': 0.0009975678629047366, 'epoch': 0.13}
- 13%|█▎        | 1375/10719 [23:15<1:17:48,  2.00it/s] 13%|█▎        | 1376/10719 [23:16<1:17:52,  2.00it/s] 13%|█▎        | 1377/10719 [23:16<1:17:51,  2.00it/s] 13%|█▎        | 1378/10719 [23:17<1:17:48,  2.00it/s] 13%|█▎        | 1379/10719 [23:17<1:17:44,  2.00it/s] 13%|█▎        | 1380/10719 [23:18<1:17:42,  2.00it/s] 13%|█▎        | 1381/10719 [23:18<1:17:45,  2.00it/s] 13%|█▎        | 1382/10719 [23:19<1:17:56,  2.00it/s] 13%|█▎        | 1383/10719 [23:19<1:17:48,  2.00it/s] 13%|█▎        | 1384/10719 [23:20<1:17:52,  2.00it/s] 13%|█▎        | 1385/10719 [23:20<1:17:47,  2.00it/s] 13%|█▎        | 1386/10719 [23:21<1:17:51,  2.00it/s] 13%|█▎        | 1387/10719 [23:21<1:17:49,  2.00it/s] 13%|█▎        | 1388/10719 [23:22<1:17:38,  2.00it/s] 13%|█▎        | 1389/10719 [23:22<1:17:35,  2.00it/s] 13%|█▎        | 1390/10719 [23:23<1:17:41,  2.00it/s] 13%|█▎        | 1391/10719 [23:23<1:17:43,  2.00it/s] 13%|█▎        | 1392/10719 [23:24<1:17:46,  2.00it/s] 13%|█▎        | 1393/10719 [23:24<1:18:21,  1.98it/s] 13%|█▎        | 1394/10719 [23:25<1:18:52,  1.97it/s] 13%|█▎        | 1395/10719 [23:25<1:20:10,  1.94it/s] 13%|█▎        | 1396/10719 [23:26<1:19:39,  1.95it/s] 13%|█▎        | 1397/10719 [23:26<1:19:03,  1.97it/s] 13%|█▎        | 1398/10719 [23:27<1:20:27,  1.93it/s] 13%|█▎        | 1399/10719 [23:27<1:19:32,  1.95it/s] 13%|█▎        | 1400/10719 [23:28<1:18:56,  1.97it/s]                                                      {'loss': 4.1314, 'grad_norm': 0.25074049830436707, 'learning_rate': 0.000997150360479951, 'epoch': 0.13}
- 13%|█▎        | 1400/10719 [23:28<1:18:56,  1.97it/s] 13%|█▎        | 1401/10719 [23:28<1:18:31,  1.98it/s] 13%|█▎        | 1402/10719 [23:29<1:18:17,  1.98it/s] 13%|█▎        | 1403/10719 [23:29<1:17:57,  1.99it/s] 13%|█▎        | 1404/10719 [23:30<1:17:52,  1.99it/s] 13%|█▎        | 1405/10719 [23:30<1:17:51,  1.99it/s] 13%|█▎        | 1406/10719 [23:31<1:17:34,  2.00it/s] 13%|█▎        | 1407/10719 [23:31<1:17:30,  2.00it/s] 13%|█▎        | 1408/10719 [23:32<1:17:26,  2.00it/s] 13%|█▎        | 1409/10719 [23:32<1:17:15,  2.01it/s] 13%|█▎        | 1410/10719 [23:33<1:17:17,  2.01it/s] 13%|█▎        | 1411/10719 [23:33<1:17:16,  2.01it/s] 13%|█▎        | 1412/10719 [23:34<1:17:08,  2.01it/s] 13%|█▎        | 1413/10719 [23:34<1:17:06,  2.01it/s] 13%|█▎        | 1414/10719 [23:35<1:17:11,  2.01it/s] 13%|█▎        | 1415/10719 [23:35<1:17:08,  2.01it/s] 13%|█▎        | 1416/10719 [23:36<1:17:14,  2.01it/s] 13%|█▎        | 1417/10719 [23:36<1:17:15,  2.01it/s] 13%|█▎        | 1418/10719 [23:37<1:17:12,  2.01it/s] 13%|█▎        | 1419/10719 [23:37<1:17:13,  2.01it/s] 13%|█▎        | 1420/10719 [23:38<1:17:16,  2.01it/s] 13%|█▎        | 1421/10719 [23:38<1:17:22,  2.00it/s] 13%|█▎        | 1422/10719 [23:39<1:17:24,  2.00it/s] 13%|█▎        | 1423/10719 [23:39<1:17:19,  2.00it/s] 13%|█▎        | 1424/10719 [23:40<1:17:27,  2.00it/s] 13%|█▎        | 1425/10719 [23:40<1:17:22,  2.00it/s]                                                      {'loss': 4.1269, 'grad_norm': 0.24939388036727905, 'learning_rate': 0.0009966999061472347, 'epoch': 0.13}
- 13%|█▎        | 1425/10719 [23:40<1:17:22,  2.00it/s] 13%|█▎        | 1426/10719 [23:41<1:17:23,  2.00it/s] 13%|█▎        | 1427/10719 [23:41<1:17:19,  2.00it/s] 13%|█▎        | 1428/10719 [23:42<1:17:13,  2.01it/s] 13%|█▎        | 1429/10719 [23:42<1:17:12,  2.01it/s] 13%|█▎        | 1430/10719 [23:43<1:17:08,  2.01it/s] 13%|█▎        | 1431/10719 [23:43<1:17:01,  2.01it/s] 13%|█▎        | 1432/10719 [23:44<1:16:56,  2.01it/s] 13%|█▎        | 1433/10719 [23:44<1:17:01,  2.01it/s] 13%|█▎        | 1434/10719 [23:45<1:17:01,  2.01it/s] 13%|█▎        | 1435/10719 [23:45<1:16:57,  2.01it/s] 13%|█▎        | 1436/10719 [23:46<1:17:14,  2.00it/s] 13%|█▎        | 1437/10719 [23:46<1:17:09,  2.01it/s] 13%|█▎        | 1438/10719 [23:47<1:17:00,  2.01it/s] 13%|█▎        | 1439/10719 [23:47<1:16:56,  2.01it/s] 13%|█▎        | 1440/10719 [23:48<1:16:54,  2.01it/s] 13%|█▎        | 1441/10719 [23:48<1:18:13,  1.98it/s] 13%|█▎        | 1442/10719 [23:49<1:18:32,  1.97it/s] 13%|█▎        | 1443/10719 [23:49<1:19:42,  1.94it/s] 13%|█▎        | 1444/10719 [23:50<1:18:55,  1.96it/s] 13%|█▎        | 1445/10719 [23:50<1:18:23,  1.97it/s] 13%|█▎        | 1446/10719 [23:51<1:18:25,  1.97it/s] 13%|█▎        | 1447/10719 [23:51<1:18:01,  1.98it/s] 14%|█▎        | 1448/10719 [23:52<1:17:43,  1.99it/s] 14%|█▎        | 1449/10719 [23:52<1:17:28,  1.99it/s] 14%|█▎        | 1450/10719 [23:53<1:17:17,  2.00it/s]                                                      {'loss': 4.111, 'grad_norm': 0.24952079355716705, 'learning_rate': 0.0009962165297634088, 'epoch': 0.14}
- 14%|█▎        | 1450/10719 [23:53<1:17:17,  2.00it/s] 14%|█▎        | 1451/10719 [23:53<1:17:28,  1.99it/s] 14%|█▎        | 1452/10719 [23:54<1:17:20,  2.00it/s] 14%|█▎        | 1453/10719 [23:54<1:21:10,  1.90it/s] 14%|█▎        | 1454/10719 [23:55<1:24:01,  1.84it/s] 14%|█▎        | 1455/10719 [23:55<1:21:54,  1.89it/s] 14%|█▎        | 1456/10719 [23:56<1:21:12,  1.90it/s] 14%|█▎        | 1457/10719 [23:56<1:20:02,  1.93it/s] 14%|█▎        | 1458/10719 [23:57<1:19:04,  1.95it/s] 14%|█▎        | 1459/10719 [23:57<1:18:25,  1.97it/s] 14%|█▎        | 1460/10719 [23:58<1:18:01,  1.98it/s] 14%|█▎        | 1461/10719 [23:58<1:17:37,  1.99it/s] 14%|█▎        | 1462/10719 [23:59<1:17:24,  1.99it/s] 14%|█▎        | 1463/10719 [23:59<1:17:12,  2.00it/s] 14%|█▎        | 1464/10719 [24:00<1:17:06,  2.00it/s] 14%|█▎        | 1465/10719 [24:00<1:16:53,  2.01it/s] 14%|█▎        | 1466/10719 [24:01<1:16:57,  2.00it/s] 14%|█▎        | 1467/10719 [24:01<1:17:02,  2.00it/s] 14%|█▎        | 1468/10719 [24:02<1:16:51,  2.01it/s] 14%|█▎        | 1469/10719 [24:02<1:16:49,  2.01it/s] 14%|█▎        | 1470/10719 [24:03<1:16:41,  2.01it/s] 14%|█▎        | 1471/10719 [24:03<1:16:40,  2.01it/s] 14%|█▎        | 1472/10719 [24:04<1:16:41,  2.01it/s] 14%|█▎        | 1473/10719 [24:04<1:16:37,  2.01it/s] 14%|█▍        | 1474/10719 [24:05<1:16:32,  2.01it/s] 14%|█▍        | 1475/10719 [24:05<1:16:35,  2.01it/s]                                                      {'loss': 4.1037, 'grad_norm': 0.26111268997192383, 'learning_rate': 0.0009957002633674207, 'epoch': 0.14}
- 14%|█▍        | 1475/10719 [24:05<1:16:35,  2.01it/s] 14%|█▍        | 1476/10719 [24:06<1:16:55,  2.00it/s] 14%|█▍        | 1477/10719 [24:06<1:16:52,  2.00it/s] 14%|█▍        | 1478/10719 [24:07<1:17:19,  1.99it/s] 14%|█▍        | 1479/10719 [24:07<1:17:05,  2.00it/s] 14%|█▍        | 1480/10719 [24:08<1:16:57,  2.00it/s] 14%|█▍        | 1481/10719 [24:08<1:16:58,  2.00it/s] 14%|█▍        | 1482/10719 [24:09<1:16:57,  2.00it/s] 14%|█▍        | 1483/10719 [24:09<1:16:46,  2.01it/s] 14%|█▍        | 1484/10719 [24:10<1:16:45,  2.01it/s] 14%|█▍        | 1485/10719 [24:10<1:16:50,  2.00it/s] 14%|█▍        | 1486/10719 [24:11<1:16:54,  2.00it/s] 14%|█▍        | 1487/10719 [24:11<1:19:19,  1.94it/s] 14%|█▍        | 1488/10719 [24:12<1:18:39,  1.96it/s] 14%|█▍        | 1489/10719 [24:12<1:18:18,  1.96it/s] 14%|█▍        | 1490/10719 [24:13<1:17:55,  1.97it/s] 14%|█▍        | 1491/10719 [24:13<1:17:30,  1.98it/s] 14%|█▍        | 1492/10719 [24:14<1:17:15,  1.99it/s] 14%|█▍        | 1493/10719 [24:14<1:17:27,  1.99it/s] 14%|█▍        | 1494/10719 [24:15<1:17:14,  1.99it/s] 14%|█▍        | 1495/10719 [24:15<1:17:00,  2.00it/s] 14%|█▍        | 1496/10719 [24:16<1:16:59,  2.00it/s] 14%|█▍        | 1497/10719 [24:16<1:16:54,  2.00it/s] 14%|█▍        | 1498/10719 [24:17<1:16:49,  2.00it/s] 14%|█▍        | 1499/10719 [24:17<1:16:48,  2.00it/s] 14%|█▍        | 1500/10719 [24:18<1:16:45,  2.00it/s]                                                      {'loss': 4.08, 'grad_norm': 0.2654663622379303, 'learning_rate': 0.0009951511411782194, 'epoch': 0.14}
- 14%|█▍        | 1500/10719 [24:18<1:16:45,  2.00it/s] 14%|█▍        | 1501/10719 [24:18<1:17:19,  1.99it/s] 14%|█▍        | 1502/10719 [24:19<1:17:15,  1.99it/s] 14%|█▍        | 1503/10719 [24:19<1:17:05,  1.99it/s] 14%|█▍        | 1504/10719 [24:20<1:16:55,  2.00it/s] 14%|█▍        | 1505/10719 [24:20<1:16:56,  2.00it/s] 14%|█▍        | 1506/10719 [24:21<1:16:49,  2.00it/s] 14%|█▍        | 1507/10719 [24:21<1:16:43,  2.00it/s] 14%|█▍        | 1508/10719 [24:22<1:16:36,  2.00it/s] 14%|█▍        | 1509/10719 [24:22<1:16:49,  2.00it/s] 14%|█▍        | 1510/10719 [24:23<1:16:59,  1.99it/s] 14%|█▍        | 1511/10719 [24:23<1:19:30,  1.93it/s] 14%|█▍        | 1512/10719 [24:24<1:18:39,  1.95it/s] 14%|█▍        | 1513/10719 [24:24<1:18:08,  1.96it/s] 14%|█▍        | 1514/10719 [24:25<1:17:42,  1.97it/s] 14%|█▍        | 1515/10719 [24:25<1:17:22,  1.98it/s] 14%|█▍        | 1516/10719 [24:26<1:16:59,  1.99it/s] 14%|█▍        | 1517/10719 [24:26<1:16:47,  2.00it/s] 14%|█▍        | 1518/10719 [24:27<1:16:41,  2.00it/s] 14%|█▍        | 1519/10719 [24:27<1:16:31,  2.00it/s] 14%|█▍        | 1520/10719 [24:28<1:16:29,  2.00it/s] 14%|█▍        | 1521/10719 [24:28<1:16:26,  2.01it/s] 14%|█▍        | 1522/10719 [24:29<1:16:17,  2.01it/s] 14%|█▍        | 1523/10719 [24:29<1:16:15,  2.01it/s] 14%|█▍        | 1524/10719 [24:30<1:16:11,  2.01it/s] 14%|█▍        | 1525/10719 [24:30<1:16:11,  2.01it/s]                                                      {'loss': 4.0781, 'grad_norm': 0.24601386487483978, 'learning_rate': 0.0009945691995924873, 'epoch': 0.14}
- 14%|█▍        | 1525/10719 [24:30<1:16:11,  2.01it/s] 14%|█▍        | 1526/10719 [24:31<1:16:17,  2.01it/s] 14%|█▍        | 1527/10719 [24:31<1:16:13,  2.01it/s] 14%|█▍        | 1528/10719 [24:32<1:16:12,  2.01it/s] 14%|█▍        | 1529/10719 [24:32<1:16:15,  2.01it/s] 14%|█▍        | 1530/10719 [24:33<1:16:07,  2.01it/s] 14%|█▍        | 1531/10719 [24:33<1:16:05,  2.01it/s] 14%|█▍        | 1532/10719 [24:34<1:16:02,  2.01it/s] 14%|█▍        | 1533/10719 [24:34<1:16:01,  2.01it/s] 14%|█▍        | 1534/10719 [24:35<1:15:59,  2.01it/s] 14%|█▍        | 1535/10719 [24:35<1:15:57,  2.02it/s] 14%|█▍        | 1536/10719 [24:36<1:15:57,  2.01it/s] 14%|█▍        | 1537/10719 [24:36<1:15:55,  2.02it/s] 14%|█▍        | 1538/10719 [24:37<1:15:59,  2.01it/s] 14%|█▍        | 1539/10719 [24:37<1:16:17,  2.01it/s] 14%|█▍        | 1540/10719 [24:38<1:17:32,  1.97it/s] 14%|█▍        | 1541/10719 [24:38<1:17:20,  1.98it/s] 14%|█▍        | 1542/10719 [24:39<1:17:12,  1.98it/s] 14%|█▍        | 1543/10719 [24:39<1:17:04,  1.98it/s] 14%|█▍        | 1544/10719 [24:40<1:16:53,  1.99it/s] 14%|█▍        | 1545/10719 [24:40<1:16:41,  1.99it/s] 14%|█▍        | 1546/10719 [24:41<1:16:34,  2.00it/s] 14%|█▍        | 1547/10719 [24:41<1:16:31,  2.00it/s] 14%|█▍        | 1548/10719 [24:42<1:16:36,  2.00it/s] 14%|█▍        | 1549/10719 [24:42<1:16:26,  2.00it/s] 14%|█▍        | 1550/10719 [24:43<1:16:22,  2.00it/s]                                                      {'loss': 4.0812, 'grad_norm': 0.28158870339393616, 'learning_rate': 0.000993954477182228, 'epoch': 0.14}
- 14%|█▍        | 1550/10719 [24:43<1:16:22,  2.00it/s] 14%|█▍        | 1551/10719 [24:43<1:16:22,  2.00it/s] 14%|█▍        | 1552/10719 [24:44<1:16:30,  2.00it/s] 14%|█▍        | 1553/10719 [24:44<1:16:23,  2.00it/s] 14%|█▍        | 1554/10719 [24:45<1:16:35,  1.99it/s] 15%|█▍        | 1555/10719 [24:45<1:16:20,  2.00it/s] 15%|█▍        | 1556/10719 [24:46<1:16:09,  2.01it/s] 15%|█▍        | 1557/10719 [24:46<1:16:00,  2.01it/s] 15%|█▍        | 1558/10719 [24:47<1:15:57,  2.01it/s] 15%|█▍        | 1559/10719 [24:47<1:16:03,  2.01it/s] 15%|█▍        | 1560/10719 [24:48<1:15:54,  2.01it/s] 15%|█▍        | 1561/10719 [24:48<1:15:54,  2.01it/s] 15%|█▍        | 1562/10719 [24:49<1:15:47,  2.01it/s] 15%|█▍        | 1563/10719 [24:49<1:15:46,  2.01it/s] 15%|█▍        | 1564/10719 [24:50<1:15:48,  2.01it/s] 15%|█▍        | 1565/10719 [24:50<1:15:43,  2.01it/s] 15%|█▍        | 1566/10719 [24:51<1:15:45,  2.01it/s] 15%|█▍        | 1567/10719 [24:51<1:15:40,  2.02it/s] 15%|█▍        | 1568/10719 [24:52<1:15:43,  2.01it/s] 15%|█▍        | 1569/10719 [24:52<1:15:56,  2.01it/s] 15%|█▍        | 1570/10719 [24:53<1:15:56,  2.01it/s] 15%|█▍        | 1571/10719 [24:53<1:15:52,  2.01it/s] 15%|█▍        | 1572/10719 [24:54<1:15:47,  2.01it/s] 15%|█▍        | 1573/10719 [24:54<1:18:44,  1.94it/s] 15%|█▍        | 1574/10719 [24:55<1:17:48,  1.96it/s] 15%|█▍        | 1575/10719 [24:55<1:17:04,  1.98it/s]                                                      {'loss': 4.0644, 'grad_norm': 0.23703689873218536, 'learning_rate': 0.00099330701469221, 'epoch': 0.15}
- 15%|█▍        | 1575/10719 [24:55<1:17:04,  1.98it/s] 15%|█▍        | 1576/10719 [24:56<1:16:41,  1.99it/s] 15%|█▍        | 1577/10719 [24:56<1:16:24,  1.99it/s] 15%|█▍        | 1578/10719 [24:57<1:16:04,  2.00it/s] 15%|█▍        | 1579/10719 [24:57<1:15:58,  2.01it/s] 15%|█▍        | 1580/10719 [24:58<1:15:55,  2.01it/s] 15%|█▍        | 1581/10719 [24:58<1:15:45,  2.01it/s] 15%|█▍        | 1582/10719 [24:59<1:15:41,  2.01it/s] 15%|█▍        | 1583/10719 [24:59<1:15:31,  2.02it/s] 15%|█▍        | 1584/10719 [25:00<1:15:33,  2.01it/s] 15%|█▍        | 1585/10719 [25:00<1:15:30,  2.02it/s] 15%|█▍        | 1586/10719 [25:01<1:15:32,  2.02it/s] 15%|█▍        | 1587/10719 [25:01<1:16:07,  2.00it/s] 15%|█▍        | 1588/10719 [25:02<1:16:12,  2.00it/s] 15%|█▍        | 1589/10719 [25:02<1:16:11,  2.00it/s] 15%|█▍        | 1590/10719 [25:03<1:16:09,  2.00it/s] 15%|█▍        | 1591/10719 [25:03<1:16:04,  2.00it/s] 15%|█▍        | 1592/10719 [25:04<1:16:13,  2.00it/s] 15%|█▍        | 1593/10719 [25:04<1:16:03,  2.00it/s] 15%|█▍        | 1594/10719 [25:05<1:16:03,  2.00it/s] 15%|█▍        | 1595/10719 [25:05<1:15:55,  2.00it/s] 15%|█▍        | 1596/10719 [25:06<1:15:48,  2.01it/s] 15%|█▍        | 1597/10719 [25:06<1:15:47,  2.01it/s] 15%|█▍        | 1598/10719 [25:07<1:15:47,  2.01it/s] 15%|█▍        | 1599/10719 [25:07<1:15:39,  2.01it/s] 15%|█▍        | 1600/10719 [25:08<1:15:50,  2.00it/s]                                                      {'loss': 4.0501, 'grad_norm': 0.2623271048069, 'learning_rate': 0.0009926268550372653, 'epoch': 0.15}
- 15%|█▍        | 1600/10719 [25:08<1:15:50,  2.00it/s] 15%|█▍        | 1601/10719 [25:08<1:16:14,  1.99it/s] 15%|█▍        | 1602/10719 [25:09<1:16:06,  2.00it/s] 15%|█▍        | 1603/10719 [25:09<1:16:04,  2.00it/s] 15%|█▍        | 1604/10719 [25:10<1:16:03,  2.00it/s] 15%|█▍        | 1605/10719 [25:10<1:15:55,  2.00it/s] 15%|█▍        | 1606/10719 [25:11<1:15:56,  2.00it/s] 15%|█▍        | 1607/10719 [25:11<1:15:52,  2.00it/s] 15%|█▌        | 1608/10719 [25:12<1:15:55,  2.00it/s] 15%|█▌        | 1609/10719 [25:12<1:15:58,  2.00it/s] 15%|█▌        | 1610/10719 [25:13<1:15:57,  2.00it/s] 15%|█▌        | 1611/10719 [25:13<1:15:54,  2.00it/s] 15%|█▌        | 1612/10719 [25:14<1:16:29,  1.98it/s] 15%|█▌        | 1613/10719 [25:14<1:16:20,  1.99it/s] 15%|█▌        | 1614/10719 [25:15<1:16:07,  1.99it/s] 15%|█▌        | 1615/10719 [25:15<1:16:06,  1.99it/s] 15%|█▌        | 1616/10719 [25:16<1:15:55,  2.00it/s] 15%|█▌        | 1617/10719 [25:16<1:15:54,  2.00it/s] 15%|█▌        | 1618/10719 [25:17<1:15:47,  2.00it/s] 15%|█▌        | 1619/10719 [25:17<1:15:47,  2.00it/s] 15%|█▌        | 1620/10719 [25:18<1:15:51,  2.00it/s] 15%|█▌        | 1621/10719 [25:18<1:15:42,  2.00it/s] 15%|█▌        | 1622/10719 [25:19<1:15:38,  2.00it/s] 15%|█▌        | 1623/10719 [25:19<1:15:38,  2.00it/s] 15%|█▌        | 1624/10719 [25:20<1:15:35,  2.01it/s] 15%|█▌        | 1625/10719 [25:20<1:15:31,  2.01it/s]                                                      {'loss': 4.0465, 'grad_norm': 0.24140852689743042, 'learning_rate': 0.0009919140432994463, 'epoch': 0.15}
- 15%|█▌        | 1625/10719 [25:20<1:15:31,  2.01it/s] 15%|█▌        | 1626/10719 [25:21<1:15:37,  2.00it/s] 15%|█▌        | 1627/10719 [25:21<1:15:30,  2.01it/s] 15%|█▌        | 1628/10719 [25:22<1:15:26,  2.01it/s] 15%|█▌        | 1629/10719 [25:22<1:15:23,  2.01it/s] 15%|█▌        | 1630/10719 [25:23<1:15:43,  2.00it/s] 15%|█▌        | 1631/10719 [25:23<1:15:37,  2.00it/s] 15%|█▌        | 1632/10719 [25:24<1:15:46,  2.00it/s] 15%|█▌        | 1633/10719 [25:25<1:22:49,  1.83it/s] 15%|█▌        | 1634/10719 [25:25<1:20:38,  1.88it/s] 15%|█▌        | 1635/10719 [25:26<1:19:15,  1.91it/s] 15%|█▌        | 1636/10719 [25:26<1:18:10,  1.94it/s] 15%|█▌        | 1637/10719 [25:27<1:17:23,  1.96it/s] 15%|█▌        | 1638/10719 [25:27<1:16:50,  1.97it/s] 15%|█▌        | 1639/10719 [25:28<1:16:30,  1.98it/s] 15%|█▌        | 1640/10719 [25:28<1:16:25,  1.98it/s] 15%|█▌        | 1641/10719 [25:29<1:16:19,  1.98it/s] 15%|█▌        | 1642/10719 [25:29<1:16:13,  1.98it/s] 15%|█▌        | 1643/10719 [25:30<1:15:59,  1.99it/s] 15%|█▌        | 1644/10719 [25:30<1:15:55,  1.99it/s] 15%|█▌        | 1645/10719 [25:31<1:15:53,  1.99it/s] 15%|█▌        | 1646/10719 [25:31<1:15:46,  2.00it/s] 15%|█▌        | 1647/10719 [25:32<1:15:41,  2.00it/s] 15%|█▌        | 1648/10719 [25:32<1:15:31,  2.00it/s] 15%|█▌        | 1649/10719 [25:33<1:15:29,  2.00it/s] 15%|█▌        | 1650/10719 [25:33<1:15:28,  2.00it/s]                                                      {'loss': 4.0386, 'grad_norm': 0.24814943969249725, 'learning_rate': 0.0009911686267250355, 'epoch': 0.15}
- 15%|█▌        | 1650/10719 [25:33<1:15:28,  2.00it/s] 15%|█▌        | 1651/10719 [25:34<1:15:27,  2.00it/s] 15%|█▌        | 1652/10719 [25:34<1:15:21,  2.01it/s] 15%|█▌        | 1653/10719 [25:35<1:15:21,  2.01it/s] 15%|█▌        | 1654/10719 [25:35<1:15:10,  2.01it/s] 15%|█▌        | 1655/10719 [25:36<1:15:24,  2.00it/s] 15%|█▌        | 1656/10719 [25:36<1:15:25,  2.00it/s] 15%|█▌        | 1657/10719 [25:37<1:15:30,  2.00it/s] 15%|█▌        | 1658/10719 [25:37<1:15:30,  2.00it/s] 15%|█▌        | 1659/10719 [25:38<1:15:36,  2.00it/s] 15%|█▌        | 1660/10719 [25:38<1:15:27,  2.00it/s] 15%|█▌        | 1661/10719 [25:39<1:15:48,  1.99it/s] 16%|█▌        | 1662/10719 [25:39<1:15:35,  2.00it/s] 16%|█▌        | 1663/10719 [25:40<1:15:26,  2.00it/s] 16%|█▌        | 1664/10719 [25:40<1:15:17,  2.00it/s] 16%|█▌        | 1665/10719 [25:41<1:15:12,  2.01it/s] 16%|█▌        | 1666/10719 [25:41<1:15:10,  2.01it/s] 16%|█▌        | 1667/10719 [25:42<1:15:07,  2.01it/s] 16%|█▌        | 1668/10719 [25:42<1:15:07,  2.01it/s] 16%|█▌        | 1669/10719 [25:43<1:15:05,  2.01it/s] 16%|█▌        | 1670/10719 [25:43<1:15:00,  2.01it/s] 16%|█▌        | 1671/10719 [25:44<1:15:06,  2.01it/s] 16%|█▌        | 1672/10719 [25:44<1:15:11,  2.01it/s] 16%|█▌        | 1673/10719 [25:45<1:15:21,  2.00it/s] 16%|█▌        | 1674/10719 [25:45<1:15:18,  2.00it/s] 16%|█▌        | 1675/10719 [25:46<1:15:15,  2.00it/s]                                                      {'loss': 4.0359, 'grad_norm': 0.2415301501750946, 'learning_rate': 0.0009903906547214167, 'epoch': 0.16}
- 16%|█▌        | 1675/10719 [25:46<1:15:15,  2.00it/s] 16%|█▌        | 1676/10719 [25:46<1:15:25,  2.00it/s] 16%|█▌        | 1677/10719 [25:47<1:15:20,  2.00it/s] 16%|█▌        | 1678/10719 [25:47<1:15:17,  2.00it/s] 16%|█▌        | 1679/10719 [25:48<1:15:08,  2.01it/s] 16%|█▌        | 1680/10719 [25:48<1:15:09,  2.00it/s] 16%|█▌        | 1681/10719 [25:49<1:15:11,  2.00it/s] 16%|█▌        | 1682/10719 [25:49<1:15:14,  2.00it/s] 16%|█▌        | 1683/10719 [25:50<1:15:08,  2.00it/s] 16%|█▌        | 1684/10719 [25:50<1:15:10,  2.00it/s] 16%|█▌        | 1685/10719 [25:51<1:15:05,  2.00it/s] 16%|█▌        | 1686/10719 [25:51<1:15:00,  2.01it/s] 16%|█▌        | 1687/10719 [25:52<1:15:07,  2.00it/s] 16%|█▌        | 1688/10719 [25:52<1:15:05,  2.00it/s] 16%|█▌        | 1689/10719 [25:53<1:15:19,  2.00it/s] 16%|█▌        | 1690/10719 [25:53<1:15:12,  2.00it/s] 16%|█▌        | 1691/10719 [25:54<1:15:15,  2.00it/s] 16%|█▌        | 1692/10719 [25:54<1:15:32,  1.99it/s] 16%|█▌        | 1693/10719 [25:55<1:20:55,  1.86it/s] 16%|█▌        | 1694/10719 [25:55<1:20:24,  1.87it/s] 16%|█▌        | 1695/10719 [25:56<1:18:47,  1.91it/s] 16%|█▌        | 1696/10719 [25:56<1:17:36,  1.94it/s] 16%|█▌        | 1697/10719 [25:57<1:16:43,  1.96it/s] 16%|█▌        | 1698/10719 [25:57<1:16:09,  1.97it/s] 16%|█▌        | 1699/10719 [25:58<1:15:57,  1.98it/s] 16%|█▌        | 1700/10719 [25:58<1:15:47,  1.98it/s]                                                      {'loss': 4.021, 'grad_norm': 0.22897972166538239, 'learning_rate': 0.000989580178853798, 'epoch': 0.16}
- 16%|█▌        | 1700/10719 [25:58<1:15:47,  1.98it/s] 16%|█▌        | 1701/10719 [25:59<1:15:40,  1.99it/s] 16%|█▌        | 1702/10719 [25:59<1:15:29,  1.99it/s] 16%|█▌        | 1703/10719 [26:00<1:15:17,  2.00it/s] 16%|█▌        | 1704/10719 [26:00<1:15:11,  2.00it/s] 16%|█▌        | 1705/10719 [26:01<1:15:05,  2.00it/s] 16%|█▌        | 1706/10719 [26:01<1:14:55,  2.00it/s] 16%|█▌        | 1707/10719 [26:02<1:14:52,  2.01it/s] 16%|█▌        | 1708/10719 [26:02<1:14:44,  2.01it/s] 16%|█▌        | 1709/10719 [26:03<1:14:51,  2.01it/s] 16%|█▌        | 1710/10719 [26:03<1:14:50,  2.01it/s] 16%|█▌        | 1711/10719 [26:04<1:14:41,  2.01it/s] 16%|█▌        | 1712/10719 [26:04<1:14:46,  2.01it/s] 16%|█▌        | 1713/10719 [26:05<1:14:44,  2.01it/s] 16%|█▌        | 1714/10719 [26:05<1:14:39,  2.01it/s] 16%|█▌        | 1715/10719 [26:06<1:14:35,  2.01it/s] 16%|█▌        | 1716/10719 [26:06<1:14:31,  2.01it/s] 16%|█▌        | 1717/10719 [26:07<1:14:29,  2.01it/s] 16%|█▌        | 1718/10719 [26:07<1:14:33,  2.01it/s] 16%|█▌        | 1719/10719 [26:08<1:14:37,  2.01it/s] 16%|█▌        | 1720/10719 [26:08<1:14:33,  2.01it/s] 16%|█▌        | 1721/10719 [26:09<1:14:34,  2.01it/s] 16%|█▌        | 1722/10719 [26:09<1:14:28,  2.01it/s] 16%|█▌        | 1723/10719 [26:10<1:14:29,  2.01it/s] 16%|█▌        | 1724/10719 [26:10<1:14:35,  2.01it/s] 16%|█▌        | 1725/10719 [26:11<1:14:38,  2.01it/s]                                                      {'loss': 4.021, 'grad_norm': 0.22585679590702057, 'learning_rate': 0.0009887372528417945, 'epoch': 0.16}
- 16%|█▌        | 1725/10719 [26:11<1:14:38,  2.01it/s] 16%|█▌        | 1726/10719 [26:11<1:14:44,  2.01it/s] 16%|█▌        | 1727/10719 [26:12<1:14:48,  2.00it/s] 16%|█▌        | 1728/10719 [26:12<1:14:53,  2.00it/s] 16%|█▌        | 1729/10719 [26:13<1:14:52,  2.00it/s] 16%|█▌        | 1730/10719 [26:13<1:14:46,  2.00it/s] 16%|█▌        | 1731/10719 [26:14<1:14:40,  2.01it/s] 16%|█▌        | 1732/10719 [26:14<1:14:45,  2.00it/s] 16%|█▌        | 1733/10719 [26:15<1:14:56,  2.00it/s] 16%|█▌        | 1734/10719 [26:15<1:14:55,  2.00it/s] 16%|█▌        | 1735/10719 [26:16<1:14:43,  2.00it/s] 16%|█▌        | 1736/10719 [26:16<1:14:39,  2.01it/s] 16%|█▌        | 1737/10719 [26:17<1:14:38,  2.01it/s] 16%|█▌        | 1738/10719 [26:17<1:14:35,  2.01it/s] 16%|█▌        | 1739/10719 [26:18<1:14:33,  2.01it/s] 16%|█▌        | 1740/10719 [26:18<1:14:27,  2.01it/s] 16%|█▌        | 1741/10719 [26:19<1:14:26,  2.01it/s] 16%|█▋        | 1742/10719 [26:19<1:14:29,  2.01it/s] 16%|█▋        | 1743/10719 [26:20<1:14:30,  2.01it/s] 16%|█▋        | 1744/10719 [26:20<1:14:27,  2.01it/s] 16%|█▋        | 1745/10719 [26:21<1:14:22,  2.01it/s] 16%|█▋        | 1746/10719 [26:21<1:14:14,  2.01it/s] 16%|█▋        | 1747/10719 [26:22<1:14:19,  2.01it/s] 16%|█▋        | 1748/10719 [26:22<1:14:15,  2.01it/s] 16%|█▋        | 1749/10719 [26:23<1:14:12,  2.01it/s] 16%|█▋        | 1750/10719 [26:23<1:14:12,  2.01it/s]                                                      {'loss': 4.0108, 'grad_norm': 0.24387326836585999, 'learning_rate': 0.0009878619325558685, 'epoch': 0.16}
- 16%|█▋        | 1750/10719 [26:23<1:14:12,  2.01it/s] 16%|█▋        | 1751/10719 [26:24<1:14:11,  2.01it/s] 16%|█▋        | 1752/10719 [26:24<1:14:14,  2.01it/s] 16%|█▋        | 1753/10719 [26:25<1:19:11,  1.89it/s] 16%|█▋        | 1754/10719 [26:25<1:19:08,  1.89it/s] 16%|█▋        | 1755/10719 [26:26<1:17:54,  1.92it/s] 16%|█▋        | 1756/10719 [26:26<1:16:59,  1.94it/s] 16%|█▋        | 1757/10719 [26:27<1:16:19,  1.96it/s] 16%|█▋        | 1758/10719 [26:27<1:15:46,  1.97it/s] 16%|█▋        | 1759/10719 [26:28<1:15:23,  1.98it/s] 16%|█▋        | 1760/10719 [26:28<1:15:10,  1.99it/s] 16%|█▋        | 1761/10719 [26:29<1:14:56,  1.99it/s] 16%|█▋        | 1762/10719 [26:29<1:28:22,  1.69it/s] 16%|█▋        | 1763/10719 [26:30<1:24:10,  1.77it/s] 16%|█▋        | 1764/10719 [26:30<1:21:21,  1.83it/s] 16%|█▋        | 1765/10719 [26:31<1:19:23,  1.88it/s] 16%|█▋        | 1766/10719 [26:31<1:17:47,  1.92it/s] 16%|█▋        | 1767/10719 [26:32<1:16:41,  1.95it/s] 16%|█▋        | 1768/10719 [26:32<1:16:12,  1.96it/s] 17%|█▋        | 1769/10719 [26:33<1:29:50,  1.66it/s] 17%|█▋        | 1770/10719 [26:34<1:25:08,  1.75it/s] 17%|█▋        | 1771/10719 [26:34<1:21:51,  1.82it/s] 17%|█▋        | 1772/10719 [26:35<1:19:26,  1.88it/s] 17%|█▋        | 1773/10719 [26:35<1:17:48,  1.92it/s] 17%|█▋        | 1774/10719 [26:36<1:16:47,  1.94it/s] 17%|█▋        | 1775/10719 [26:36<1:16:03,  1.96it/s]                                                      {'loss': 4.0017, 'grad_norm': 0.2522927522659302, 'learning_rate': 0.000986954276013625, 'epoch': 0.17}
- 17%|█▋        | 1775/10719 [26:36<1:16:03,  1.96it/s] 17%|█▋        | 1776/10719 [26:37<1:15:39,  1.97it/s] 17%|█▋        | 1777/10719 [26:37<1:15:16,  1.98it/s] 17%|█▋        | 1778/10719 [26:38<1:15:03,  1.99it/s] 17%|█▋        | 1779/10719 [26:38<1:14:48,  1.99it/s] 17%|█▋        | 1780/10719 [26:39<1:14:37,  2.00it/s] 17%|█▋        | 1781/10719 [26:39<1:14:27,  2.00it/s] 17%|█▋        | 1782/10719 [26:40<1:14:22,  2.00it/s] 17%|█▋        | 1783/10719 [26:40<1:14:13,  2.01it/s] 17%|█▋        | 1784/10719 [26:41<1:14:12,  2.01it/s] 17%|█▋        | 1785/10719 [26:41<1:14:12,  2.01it/s] 17%|█▋        | 1786/10719 [26:42<1:14:08,  2.01it/s] 17%|█▋        | 1787/10719 [26:42<1:14:03,  2.01it/s] 17%|█▋        | 1788/10719 [26:43<1:13:56,  2.01it/s] 17%|█▋        | 1789/10719 [26:43<1:13:57,  2.01it/s] 17%|█▋        | 1790/10719 [26:44<1:13:54,  2.01it/s] 17%|█▋        | 1791/10719 [26:44<1:13:54,  2.01it/s] 17%|█▋        | 1792/10719 [26:45<1:14:09,  2.01it/s] 17%|█▋        | 1793/10719 [26:45<1:14:07,  2.01it/s] 17%|█▋        | 1794/10719 [26:46<1:14:10,  2.01it/s] 17%|█▋        | 1795/10719 [26:46<1:14:11,  2.00it/s] 17%|█▋        | 1796/10719 [26:47<1:14:12,  2.00it/s] 17%|█▋        | 1797/10719 [26:47<1:14:05,  2.01it/s] 17%|█▋        | 1798/10719 [26:48<1:14:08,  2.01it/s] 17%|█▋        | 1799/10719 [26:48<1:14:10,  2.00it/s] 17%|█▋        | 1800/10719 [26:49<1:14:09,  2.00it/s]                                                      {'loss': 3.9962, 'grad_norm': 0.23056566715240479, 'learning_rate': 0.0009860143433759682, 'epoch': 0.17}
- 17%|█▋        | 1800/10719 [26:49<1:14:09,  2.00it/s] 17%|█▋        | 1801/10719 [26:49<1:14:11,  2.00it/s] 17%|█▋        | 1802/10719 [26:50<1:14:13,  2.00it/s] 17%|█▋        | 1803/10719 [26:50<1:14:15,  2.00it/s] 17%|█▋        | 1804/10719 [26:51<1:14:17,  2.00it/s] 17%|█▋        | 1805/10719 [26:51<1:14:11,  2.00it/s] 17%|█▋        | 1806/10719 [26:52<1:14:12,  2.00it/s] 17%|█▋        | 1807/10719 [26:52<1:14:14,  2.00it/s] 17%|█▋        | 1808/10719 [26:53<1:14:14,  2.00it/s] 17%|█▋        | 1809/10719 [26:53<1:14:14,  2.00it/s] 17%|█▋        | 1810/10719 [26:54<1:14:11,  2.00it/s] 17%|█▋        | 1811/10719 [26:54<1:18:14,  1.90it/s] 17%|█▋        | 1812/10719 [26:55<1:21:02,  1.83it/s] 17%|█▋        | 1813/10719 [26:56<1:22:21,  1.80it/s] 17%|█▋        | 1814/10719 [26:56<1:19:53,  1.86it/s] 17%|█▋        | 1815/10719 [26:57<1:18:14,  1.90it/s] 17%|█▋        | 1816/10719 [26:57<1:19:19,  1.87it/s] 17%|█▋        | 1817/10719 [26:58<1:20:06,  1.85it/s] 17%|█▋        | 1818/10719 [26:58<1:18:18,  1.89it/s] 17%|█▋        | 1819/10719 [26:59<1:16:57,  1.93it/s] 17%|█▋        | 1820/10719 [26:59<1:16:04,  1.95it/s] 17%|█▋        | 1821/10719 [27:00<1:15:22,  1.97it/s] 17%|█▋        | 1822/10719 [27:00<1:14:51,  1.98it/s] 17%|█▋        | 1823/10719 [27:01<1:14:33,  1.99it/s] 17%|█▋        | 1824/10719 [27:01<1:14:18,  2.00it/s] 17%|█▋        | 1825/10719 [27:02<1:14:10,  2.00it/s]                                                      {'loss': 3.9898, 'grad_norm': 0.2329532355070114, 'learning_rate': 0.0009850421969431113, 'epoch': 0.17}
- 17%|█▋        | 1825/10719 [27:02<1:14:10,  2.00it/s] 17%|█▋        | 1826/10719 [27:02<1:14:10,  2.00it/s] 17%|█▋        | 1827/10719 [27:03<1:13:59,  2.00it/s] 17%|█▋        | 1828/10719 [27:03<1:13:54,  2.01it/s] 17%|█▋        | 1829/10719 [27:04<1:13:51,  2.01it/s] 17%|█▋        | 1830/10719 [27:04<1:13:45,  2.01it/s] 17%|█▋        | 1831/10719 [27:05<1:13:39,  2.01it/s] 17%|█▋        | 1832/10719 [27:05<1:13:42,  2.01it/s] 17%|█▋        | 1833/10719 [27:06<1:13:40,  2.01it/s] 17%|█▋        | 1834/10719 [27:06<1:13:37,  2.01it/s] 17%|█▋        | 1835/10719 [27:07<1:13:30,  2.01it/s] 17%|█▋        | 1836/10719 [27:07<1:13:29,  2.01it/s] 17%|█▋        | 1837/10719 [27:08<1:14:24,  1.99it/s] 17%|█▋        | 1838/10719 [27:08<1:14:10,  2.00it/s] 17%|█▋        | 1839/10719 [27:09<1:14:08,  2.00it/s] 17%|█▋        | 1840/10719 [27:09<1:14:07,  2.00it/s] 17%|█▋        | 1841/10719 [27:10<1:13:58,  2.00it/s] 17%|█▋        | 1842/10719 [27:10<1:13:52,  2.00it/s] 17%|█▋        | 1843/10719 [27:11<1:13:44,  2.01it/s] 17%|█▋        | 1844/10719 [27:11<1:13:42,  2.01it/s] 17%|█▋        | 1845/10719 [27:12<1:13:47,  2.00it/s] 17%|█▋        | 1846/10719 [27:12<1:13:49,  2.00it/s] 17%|█▋        | 1847/10719 [27:13<1:13:52,  2.00it/s] 17%|█▋        | 1848/10719 [27:13<1:13:51,  2.00it/s] 17%|█▋        | 1849/10719 [27:14<1:13:55,  2.00it/s] 17%|█▋        | 1850/10719 [27:14<1:13:55,  2.00it/s]                                                      {'loss': 3.9821, 'grad_norm': 0.23839470744132996, 'learning_rate': 0.0009840379011504495, 'epoch': 0.17}
- 17%|█▋        | 1850/10719 [27:14<1:13:55,  2.00it/s] 17%|█▋        | 1851/10719 [27:15<1:13:58,  2.00it/s] 17%|█▋        | 1852/10719 [27:15<1:13:54,  2.00it/s] 17%|█▋        | 1853/10719 [27:16<1:13:53,  2.00it/s] 17%|█▋        | 1854/10719 [27:16<1:13:54,  2.00it/s] 17%|█▋        | 1855/10719 [27:17<1:13:48,  2.00it/s] 17%|█▋        | 1856/10719 [27:17<1:17:20,  1.91it/s] 17%|█▋        | 1857/10719 [27:18<1:16:15,  1.94it/s] 17%|█▋        | 1858/10719 [27:18<1:15:32,  1.95it/s] 17%|█▋        | 1859/10719 [27:19<1:14:55,  1.97it/s] 17%|█▋        | 1860/10719 [27:19<1:14:34,  1.98it/s] 17%|█▋        | 1861/10719 [27:20<1:14:22,  1.99it/s] 17%|█▋        | 1862/10719 [27:20<1:14:03,  1.99it/s] 17%|█▋        | 1863/10719 [27:21<1:13:54,  2.00it/s] 17%|█▋        | 1864/10719 [27:21<1:13:50,  2.00it/s] 17%|█▋        | 1865/10719 [27:22<1:13:42,  2.00it/s] 17%|█▋        | 1866/10719 [27:22<1:13:36,  2.00it/s] 17%|█▋        | 1867/10719 [27:23<1:13:34,  2.01it/s] 17%|█▋        | 1868/10719 [27:23<1:13:35,  2.00it/s] 17%|█▋        | 1869/10719 [27:24<1:13:33,  2.01it/s] 17%|█▋        | 1870/10719 [27:24<1:18:15,  1.88it/s] 17%|█▋        | 1871/10719 [27:25<1:16:49,  1.92it/s] 17%|█▋        | 1872/10719 [27:25<1:15:51,  1.94it/s] 17%|█▋        | 1873/10719 [27:26<1:15:07,  1.96it/s] 17%|█▋        | 1874/10719 [27:26<1:14:33,  1.98it/s] 17%|█▋        | 1875/10719 [27:27<1:14:13,  1.99it/s]                                                      {'loss': 3.9829, 'grad_norm': 0.23375390470027924, 'learning_rate': 0.0009830015225642873, 'epoch': 0.17}
- 17%|█▋        | 1875/10719 [27:27<1:14:13,  1.99it/s] 18%|█▊        | 1876/10719 [27:27<1:14:00,  1.99it/s] 18%|█▊        | 1877/10719 [27:28<1:13:49,  2.00it/s] 18%|█▊        | 1878/10719 [27:28<1:13:35,  2.00it/s] 18%|█▊        | 1879/10719 [27:29<1:13:22,  2.01it/s] 18%|█▊        | 1880/10719 [27:29<1:13:19,  2.01it/s] 18%|█▊        | 1881/10719 [27:30<1:13:16,  2.01it/s] 18%|█▊        | 1882/10719 [27:30<1:13:11,  2.01it/s] 18%|█▊        | 1883/10719 [27:31<1:13:17,  2.01it/s] 18%|█▊        | 1884/10719 [27:31<1:13:12,  2.01it/s] 18%|█▊        | 1885/10719 [27:32<1:13:15,  2.01it/s] 18%|█▊        | 1886/10719 [27:32<1:13:12,  2.01it/s] 18%|█▊        | 1887/10719 [27:33<1:13:10,  2.01it/s] 18%|█▊        | 1888/10719 [27:33<1:13:08,  2.01it/s] 18%|█▊        | 1889/10719 [27:34<1:13:01,  2.02it/s] 18%|█▊        | 1890/10719 [27:34<1:13:01,  2.02it/s] 18%|��▊        | 1891/10719 [27:35<1:13:00,  2.02it/s] 18%|█▊        | 1892/10719 [27:35<1:12:56,  2.02it/s] 18%|█▊        | 1893/10719 [27:36<1:12:58,  2.02it/s] 18%|█▊        | 1894/10719 [27:36<1:12:56,  2.02it/s] 18%|█▊        | 1895/10719 [27:37<1:13:03,  2.01it/s] 18%|█▊        | 1896/10719 [27:37<1:13:01,  2.01it/s] 18%|█▊        | 1897/10719 [27:38<1:13:03,  2.01it/s] 18%|█▊        | 1898/10719 [27:38<1:12:58,  2.01it/s] 18%|█▊        | 1899/10719 [27:39<1:12:58,  2.01it/s] 18%|█▊        | 1900/10719 [27:39<1:12:52,  2.02it/s]                                                      {'loss': 3.9651, 'grad_norm': 0.2263621836900711, 'learning_rate': 0.0009819331298774278, 'epoch': 0.18}
- 18%|█▊        | 1900/10719 [27:39<1:12:52,  2.02it/s] 18%|█▊        | 1901/10719 [27:40<1:12:55,  2.02it/s] 18%|█▊        | 1902/10719 [27:40<1:12:53,  2.02it/s] 18%|█▊        | 1903/10719 [27:41<1:13:04,  2.01it/s] 18%|█▊        | 1904/10719 [27:41<1:12:56,  2.01it/s] 18%|█▊        | 1905/10719 [27:42<1:13:04,  2.01it/s] 18%|█▊        | 1906/10719 [27:42<1:13:10,  2.01it/s] 18%|█▊        | 1907/10719 [27:43<1:13:13,  2.01it/s] 18%|█▊        | 1908/10719 [27:43<1:13:14,  2.00it/s] 18%|█▊        | 1909/10719 [27:44<1:13:05,  2.01it/s] 18%|█▊        | 1910/10719 [27:44<1:13:08,  2.01it/s] 18%|█▊        | 1911/10719 [27:45<1:12:58,  2.01it/s] 18%|█▊        | 1912/10719 [27:45<1:13:04,  2.01it/s] 18%|█▊        | 1913/10719 [27:46<1:12:58,  2.01it/s] 18%|█▊        | 1914/10719 [27:46<1:12:51,  2.01it/s] 18%|█▊        | 1915/10719 [27:47<1:12:53,  2.01it/s] 18%|█▊        | 1916/10719 [27:47<1:13:00,  2.01it/s] 18%|█▊        | 1917/10719 [27:48<1:13:01,  2.01it/s] 18%|█▊        | 1918/10719 [27:48<1:13:04,  2.01it/s] 18%|█▊        | 1919/10719 [27:49<1:13:05,  2.01it/s] 18%|█▊        | 1920/10719 [27:49<1:13:07,  2.01it/s] 18%|█▊        | 1921/10719 [27:50<1:13:05,  2.01it/s] 18%|█▊        | 1922/10719 [27:50<1:13:07,  2.01it/s] 18%|█▊        | 1923/10719 [27:51<1:13:06,  2.01it/s] 18%|█▊        | 1924/10719 [27:51<1:13:04,  2.01it/s] 18%|█▊        | 1925/10719 [27:52<1:13:11,  2.00it/s]                                                      {'loss': 3.9685, 'grad_norm': 0.23649048805236816, 'learning_rate': 0.0009808327939046188, 'epoch': 0.18}
- 18%|█▊        | 1925/10719 [27:52<1:13:11,  2.00it/s] 18%|█▊        | 1926/10719 [27:52<1:13:08,  2.00it/s] 18%|█▊        | 1927/10719 [27:53<1:13:13,  2.00it/s] 18%|█▊        | 1928/10719 [27:53<1:13:10,  2.00it/s] 18%|█▊        | 1929/10719 [27:54<1:13:11,  2.00it/s] 18%|█▊        | 1930/10719 [27:54<1:15:43,  1.93it/s] 18%|█▊        | 1931/10719 [27:55<1:21:17,  1.80it/s] 18%|█▊        | 1932/10719 [27:55<1:18:46,  1.86it/s] 18%|█▊        | 1933/10719 [27:56<1:17:02,  1.90it/s] 18%|█▊        | 1934/10719 [27:56<1:15:47,  1.93it/s] 18%|█▊        | 1935/10719 [27:57<1:15:05,  1.95it/s] 18%|█▊        | 1936/10719 [27:57<1:14:30,  1.96it/s] 18%|█▊        | 1937/10719 [27:58<1:13:56,  1.98it/s] 18%|█▊        | 1938/10719 [27:58<1:13:29,  1.99it/s] 18%|█▊        | 1939/10719 [27:59<1:13:16,  2.00it/s] 18%|█▊        | 1940/10719 [27:59<1:13:07,  2.00it/s] 18%|█▊        | 1941/10719 [28:00<1:13:01,  2.00it/s] 18%|█▊        | 1942/10719 [28:00<1:12:54,  2.01it/s] 18%|█▊        | 1943/10719 [28:01<1:12:57,  2.00it/s] 18%|█▊        | 1944/10719 [28:01<1:12:55,  2.01it/s] 18%|█▊        | 1945/10719 [28:02<1:12:56,  2.00it/s] 18%|█▊        | 1946/10719 [28:02<1:12:53,  2.01it/s] 18%|█▊        | 1947/10719 [28:03<1:12:51,  2.01it/s] 18%|█▊        | 1948/10719 [28:03<1:12:48,  2.01it/s] 18%|█▊        | 1949/10719 [28:04<1:12:43,  2.01it/s] 18%|█▊        | 1950/10719 [28:04<1:12:42,  2.01it/s]                                                      {'loss': 3.96, 'grad_norm': 0.22688594460487366, 'learning_rate': 0.0009797005875778596, 'epoch': 0.18}
- 18%|█▊        | 1950/10719 [28:04<1:12:42,  2.01it/s] 18%|█▊        | 1951/10719 [28:05<1:12:54,  2.00it/s] 18%|█▊        | 1952/10719 [28:05<1:13:03,  2.00it/s] 18%|█▊        | 1953/10719 [28:06<1:13:05,  2.00it/s] 18%|█▊        | 1954/10719 [28:06<1:12:56,  2.00it/s] 18%|█▊        | 1955/10719 [28:07<1:12:55,  2.00it/s] 18%|█▊        | 1956/10719 [28:07<1:12:54,  2.00it/s] 18%|█▊        | 1957/10719 [28:08<1:12:52,  2.00it/s] 18%|█▊        | 1958/10719 [28:08<1:12:50,  2.00it/s] 18%|█▊        | 1959/10719 [28:09<1:12:55,  2.00it/s] 18%|█▊        | 1960/10719 [28:09<1:12:51,  2.00it/s] 18%|█▊        | 1961/10719 [28:10<1:12:53,  2.00it/s] 18%|█▊        | 1962/10719 [28:10<1:12:47,  2.01it/s] 18%|█▊        | 1963/10719 [28:11<1:12:50,  2.00it/s] 18%|█▊        | 1964/10719 [28:11<1:12:42,  2.01it/s] 18%|█▊        | 1965/10719 [28:12<1:12:44,  2.01it/s] 18%|█▊        | 1966/10719 [28:12<1:12:53,  2.00it/s] 18%|█▊        | 1967/10719 [28:13<1:12:48,  2.00it/s] 18%|█▊        | 1968/10719 [28:13<1:12:46,  2.00it/s] 18%|█▊        | 1969/10719 [28:14<1:12:47,  2.00it/s] 18%|█▊        | 1970/10719 [28:14<1:12:41,  2.01it/s] 18%|█▊        | 1971/10719 [28:15<1:12:43,  2.00it/s] 18%|█▊        | 1972/10719 [28:15<1:12:36,  2.01it/s] 18%|█▊        | 1973/10719 [28:16<1:12:36,  2.01it/s] 18%|█▊        | 1974/10719 [28:16<1:12:28,  2.01it/s] 18%|█▊        | 1975/10719 [28:17<1:12:32,  2.01it/s]                                                      {'loss': 3.956, 'grad_norm': 0.22669881582260132, 'learning_rate': 0.0009785365859415667, 'epoch': 0.18}
- 18%|█▊        | 1975/10719 [28:17<1:12:32,  2.01it/s] 18%|█▊        | 1976/10719 [28:17<1:12:41,  2.00it/s] 18%|█▊        | 1977/10719 [28:18<1:12:42,  2.00it/s] 18%|█▊        | 1978/10719 [28:18<1:12:35,  2.01it/s] 18%|█▊        | 1979/10719 [28:19<1:12:37,  2.01it/s] 18%|█▊        | 1980/10719 [28:19<1:12:34,  2.01it/s] 18%|█▊        | 1981/10719 [28:20<1:12:28,  2.01it/s] 18%|█▊        | 1982/10719 [28:20<1:12:23,  2.01it/s] 18%|█▊        | 1983/10719 [28:21<1:12:20,  2.01it/s] 19%|█▊        | 1984/10719 [28:21<1:12:26,  2.01it/s] 19%|█▊        | 1985/10719 [28:22<1:12:21,  2.01it/s] 19%|█▊        | 1986/10719 [28:22<1:12:18,  2.01it/s] 19%|█▊        | 1987/10719 [28:23<1:12:20,  2.01it/s] 19%|█▊        | 1988/10719 [28:23<1:12:19,  2.01it/s] 19%|█▊        | 1989/10719 [28:24<1:12:16,  2.01it/s] 19%|█▊        | 1990/10719 [28:24<1:12:10,  2.02it/s] 19%|█▊        | 1991/10719 [28:25<1:18:33,  1.85it/s] 19%|█▊        | 1992/10719 [28:25<1:16:57,  1.89it/s] 19%|█▊        | 1993/10719 [28:26<1:15:39,  1.92it/s] 19%|█▊        | 1994/10719 [28:26<1:14:48,  1.94it/s] 19%|█▊        | 1995/10719 [28:27<1:14:03,  1.96it/s] 19%|█▊        | 1996/10719 [28:27<1:13:32,  1.98it/s] 19%|█▊        | 1997/10719 [28:28<1:13:12,  1.99it/s] 19%|█▊        | 1998/10719 [28:28<1:13:10,  1.99it/s] 19%|█▊        | 1999/10719 [28:29<1:12:57,  1.99it/s] 19%|█▊        | 2000/10719 [28:29<1:12:42,  2.00it/s]                                                      {'loss': 3.9419, 'grad_norm': 0.23346835374832153, 'learning_rate': 0.0009773408661475993, 'epoch': 0.19}
- 19%|█▊        | 2000/10719 [28:29<1:12:42,  2.00it/s] 19%|█▊        | 2001/10719 [28:30<1:12:46,  2.00it/s] 19%|█▊        | 2002/10719 [28:30<1:12:47,  2.00it/s] 19%|█▊        | 2003/10719 [28:31<1:12:45,  2.00it/s] 19%|█▊        | 2004/10719 [28:31<1:12:47,  2.00it/s] 19%|█▊        | 2005/10719 [28:32<1:14:06,  1.96it/s] 19%|█▊        | 2006/10719 [28:32<1:13:35,  1.97it/s] 19%|█▊        | 2007/10719 [28:33<1:13:21,  1.98it/s] 19%|█▊        | 2008/10719 [28:33<1:13:14,  1.98it/s] 19%|█▊        | 2009/10719 [28:34<1:13:18,  1.98it/s] 19%|█▉        | 2010/10719 [28:34<1:13:04,  1.99it/s] 19%|█▉        | 2011/10719 [28:35<1:13:08,  1.98it/s] 19%|█▉        | 2012/10719 [28:35<1:12:57,  1.99it/s] 19%|█▉        | 2013/10719 [28:36<1:14:18,  1.95it/s] 19%|█▉        | 2014/10719 [28:36<1:13:55,  1.96it/s] 19%|█▉        | 2015/10719 [28:37<1:13:35,  1.97it/s] 19%|█▉        | 2016/10719 [28:37<1:13:13,  1.98it/s] 19%|█▉        | 2017/10719 [28:38<1:17:17,  1.88it/s] 19%|█▉        | 2018/10719 [28:39<1:15:51,  1.91it/s] 19%|█▉        | 2019/10719 [28:39<1:14:50,  1.94it/s] 19%|█▉        | 2020/10719 [28:40<1:15:08,  1.93it/s] 19%|█▉        | 2021/10719 [28:40<1:14:22,  1.95it/s] 19%|█▉        | 2022/10719 [28:41<1:13:48,  1.96it/s] 19%|█▉        | 2023/10719 [28:41<1:13:25,  1.97it/s] 19%|█▉        | 2024/10719 [28:42<1:13:03,  1.98it/s] 19%|█▉        | 2025/10719 [28:42<1:12:55,  1.99it/s]                                                      {'loss': 3.9484, 'grad_norm': 0.22847095131874084, 'learning_rate': 0.0009761135074501466, 'epoch': 0.19}
- 19%|█▉        | 2025/10719 [28:42<1:12:55,  1.99it/s] 19%|█▉        | 2026/10719 [28:43<1:13:57,  1.96it/s] 19%|█▉        | 2027/10719 [28:43<1:13:30,  1.97it/s] 19%|█▉        | 2028/10719 [28:44<1:13:14,  1.98it/s] 19%|█▉        | 2029/10719 [28:44<1:14:09,  1.95it/s] 19%|█▉        | 2030/10719 [28:45<1:13:36,  1.97it/s] 19%|█▉        | 2031/10719 [28:45<1:13:14,  1.98it/s] 19%|█▉        | 2032/10719 [28:46<1:13:05,  1.98it/s] 19%|█▉        | 2033/10719 [28:46<1:13:53,  1.96it/s] 19%|█▉        | 2034/10719 [28:47<1:13:21,  1.97it/s] 19%|█▉        | 2035/10719 [28:47<1:13:02,  1.98it/s] 19%|█▉        | 2036/10719 [28:48<1:12:44,  1.99it/s] 19%|█▉        | 2037/10719 [28:48<1:13:05,  1.98it/s] 19%|█▉        | 2038/10719 [28:49<1:13:01,  1.98it/s] 19%|█▉        | 2039/10719 [28:49<1:16:46,  1.88it/s] 19%|█▉        | 2040/10719 [28:50<1:16:31,  1.89it/s] 19%|█▉        | 2041/10719 [28:50<1:15:23,  1.92it/s] 19%|█��        | 2042/10719 [28:51<1:14:22,  1.94it/s] 19%|█▉        | 2043/10719 [28:51<1:13:43,  1.96it/s] 19%|█▉        | 2044/10719 [28:52<1:13:11,  1.98it/s] 19%|█▉        | 2045/10719 [28:52<1:13:02,  1.98it/s] 19%|█▉        | 2046/10719 [28:53<1:12:54,  1.98it/s] 19%|█▉        | 2047/10719 [28:53<1:14:14,  1.95it/s] 19%|█▉        | 2048/10719 [28:54<1:13:35,  1.96it/s] 19%|█▉        | 2049/10719 [28:54<1:16:21,  1.89it/s] 19%|█▉        | 2050/10719 [28:55<1:15:04,  1.92it/s]                                                      {'loss': 3.9407, 'grad_norm': 0.22490406036376953, 'learning_rate': 0.0009748545912004734, 'epoch': 0.19}
- 19%|█▉        | 2050/10719 [28:55<1:15:04,  1.92it/s] 19%|█▉        | 2051/10719 [28:55<1:14:16,  1.95it/s] 19%|█▉        | 2052/10719 [28:56<1:13:53,  1.95it/s] 19%|█▉        | 2053/10719 [28:56<1:13:28,  1.97it/s] 19%|█▉        | 2054/10719 [28:57<1:13:19,  1.97it/s] 19%|█▉        | 2055/10719 [28:57<1:14:10,  1.95it/s] 19%|█▉        | 2056/10719 [28:58<1:16:57,  1.88it/s] 19%|█▉        | 2057/10719 [28:58<1:16:24,  1.89it/s] 19%|█▉        | 2058/10719 [28:59<1:15:51,  1.90it/s] 19%|█▉        | 2059/10719 [29:00<1:14:52,  1.93it/s] 19%|█▉        | 2060/10719 [29:00<1:14:06,  1.95it/s] 19%|█▉        | 2061/10719 [29:01<1:13:39,  1.96it/s] 19%|█▉        | 2062/10719 [29:01<1:13:51,  1.95it/s] 19%|█▉        | 2063/10719 [29:02<1:16:03,  1.90it/s] 19%|█▉        | 2064/10719 [29:02<1:14:54,  1.93it/s] 19%|█▉        | 2065/10719 [29:03<1:14:14,  1.94it/s] 19%|█▉        | 2066/10719 [29:03<1:13:37,  1.96it/s] 19%|█▉        | 2067/10719 [29:04<1:13:06,  1.97it/s] 19%|█▉        | 2068/10719 [29:04<1:14:50,  1.93it/s] 19%|█▉        | 2069/10719 [29:05<1:14:00,  1.95it/s] 19%|█▉        | 2070/10719 [29:05<1:13:18,  1.97it/s] 19%|█▉        | 2071/10719 [29:06<1:12:59,  1.97it/s] 19%|█▉        | 2072/10719 [29:06<1:13:23,  1.96it/s] 19%|█▉        | 2073/10719 [29:07<1:17:12,  1.87it/s] 19%|█▉        | 2074/10719 [29:07<1:15:42,  1.90it/s] 19%|█▉        | 2075/10719 [29:08<1:15:27,  1.91it/s]                                                      {'loss': 3.9349, 'grad_norm': 0.21646031737327576, 'learning_rate': 0.0009735642008415293, 'epoch': 0.19}
- 19%|█▉        | 2075/10719 [29:08<1:15:27,  1.91it/s] 19%|█▉        | 2076/10719 [29:08<1:14:29,  1.93it/s] 19%|█▉        | 2077/10719 [29:09<1:15:15,  1.91it/s] 19%|█▉        | 2078/10719 [29:09<1:14:20,  1.94it/s] 19%|█▉        | 2079/10719 [29:10<1:13:46,  1.95it/s] 19%|█▉        | 2080/10719 [29:10<1:13:18,  1.96it/s] 19%|█▉        | 2081/10719 [29:11<1:14:17,  1.94it/s] 19%|█▉        | 2082/10719 [29:11<1:13:43,  1.95it/s] 19%|█▉        | 2083/10719 [29:12<1:13:12,  1.97it/s] 19%|█▉        | 2084/10719 [29:12<1:12:55,  1.97it/s] 19%|█▉        | 2085/10719 [29:13<1:12:30,  1.98it/s] 19%|█▉        | 2086/10719 [29:13<1:12:18,  1.99it/s] 19%|█▉        | 2087/10719 [29:14<1:14:05,  1.94it/s] 19%|█▉        | 2088/10719 [29:14<1:13:21,  1.96it/s] 19%|█▉        | 2089/10719 [29:15<1:16:20,  1.88it/s] 19%|█▉        | 2090/10719 [29:16<1:23:16,  1.73it/s] 20%|█▉        | 2091/10719 [29:16<1:19:52,  1.80it/s] 20%|█▉        | 2092/10719 [29:17<1:17:24,  1.86it/s] 20%|█▉        | 2093/10719 [29:17<1:16:43,  1.87it/s] 20%|█▉        | 2094/10719 [29:18<1:15:15,  1.91it/s] 20%|█▉        | 2095/10719 [29:18<1:15:44,  1.90it/s] 20%|█▉        | 2096/10719 [29:19<1:15:25,  1.91it/s] 20%|█▉        | 2097/10719 [29:19<1:14:43,  1.92it/s] 20%|█▉        | 2098/10719 [29:20<1:13:51,  1.95it/s] 20%|█▉        | 2099/10719 [29:20<1:13:15,  1.96it/s] 20%|█▉        | 2100/10719 [29:21<1:13:15,  1.96it/s]                                                      {'loss': 3.9266, 'grad_norm': 0.21791410446166992, 'learning_rate': 0.0009722424219024169, 'epoch': 0.2}
- 20%|█▉        | 2100/10719 [29:21<1:13:15,  1.96it/s] 20%|█▉        | 2101/10719 [29:21<1:15:40,  1.90it/s] 20%|█▉        | 2102/10719 [29:22<1:15:36,  1.90it/s] 20%|█▉        | 2103/10719 [29:22<1:14:31,  1.93it/s] 20%|█▉        | 2104/10719 [29:23<1:13:38,  1.95it/s] 20%|█▉        | 2105/10719 [29:23<1:13:09,  1.96it/s] 20%|█▉        | 2106/10719 [29:24<1:12:44,  1.97it/s] 20%|█▉        | 2107/10719 [29:25<1:19:30,  1.81it/s] 20%|█▉        | 2108/10719 [29:25<1:17:11,  1.86it/s] 20%|█▉        | 2109/10719 [29:26<1:15:31,  1.90it/s] 20%|█▉        | 2110/10719 [29:26<1:14:23,  1.93it/s] 20%|█▉        | 2111/10719 [29:27<1:14:08,  1.93it/s] 20%|█▉        | 2112/10719 [29:27<1:13:21,  1.96it/s] 20%|█▉        | 2113/10719 [29:28<1:12:52,  1.97it/s] 20%|█▉        | 2114/10719 [29:28<1:12:23,  1.98it/s] 20%|█▉        | 2115/10719 [29:29<1:12:04,  1.99it/s] 20%|█▉        | 2116/10719 [29:29<1:12:50,  1.97it/s] 20%|█▉        | 2117/10719 [29:30<1:12:25,  1.98it/s] 20%|█▉        | 2118/10719 [29:30<1:12:10,  1.99it/s] 20%|█▉        | 2119/10719 [29:31<1:11:57,  1.99it/s] 20%|█▉        | 2120/10719 [29:31<1:11:51,  1.99it/s] 20%|█▉        | 2121/10719 [29:32<1:11:37,  2.00it/s] 20%|█▉        | 2122/10719 [29:32<1:11:30,  2.00it/s] 20%|█▉        | 2123/10719 [29:33<1:11:39,  2.00it/s] 20%|█▉        | 2124/10719 [29:33<1:11:40,  2.00it/s] 20%|█▉        | 2125/10719 [29:34<1:11:39,  2.00it/s]                                                      {'loss': 3.9209, 'grad_norm': 0.22104576230049133, 'learning_rate': 0.0009708893419927237, 'epoch': 0.2}
- 20%|█▉        | 2125/10719 [29:34<1:11:39,  2.00it/s] 20%|█▉        | 2126/10719 [29:34<1:11:37,  2.00it/s] 20%|█▉        | 2127/10719 [29:35<1:11:43,  2.00it/s] 20%|█▉        | 2128/10719 [29:35<1:11:32,  2.00it/s] 20%|█▉        | 2129/10719 [29:36<1:11:31,  2.00it/s] 20%|█▉        | 2130/10719 [29:36<1:11:24,  2.00it/s] 20%|█▉        | 2131/10719 [29:37<1:11:18,  2.01it/s] 20%|█▉        | 2132/10719 [29:37<1:11:15,  2.01it/s] 20%|█▉        | 2133/10719 [29:38<1:11:40,  2.00it/s] 20%|█▉        | 2134/10719 [29:38<1:11:34,  2.00it/s] 20%|█▉        | 2135/10719 [29:39<1:11:36,  2.00it/s] 20%|█▉        | 2136/10719 [29:39<1:12:21,  1.98it/s] 20%|█▉        | 2137/10719 [29:40<1:12:13,  1.98it/s] 20%|█▉        | 2138/10719 [29:40<1:12:00,  1.99it/s] 20%|█▉        | 2139/10719 [29:41<1:11:58,  1.99it/s] 20%|█▉        | 2140/10719 [29:41<1:11:47,  1.99it/s] 20%|█▉        | 2141/10719 [29:42<1:11:40,  1.99it/s] 20%|█▉        | 2142/10719 [29:42<1:11:37,  2.00it/s] 20%|█▉        | 2143/10719 [29:43<1:11:40,  1.99it/s] 20%|██        | 2144/10719 [29:43<1:11:41,  1.99it/s] 20%|██        | 2145/10719 [29:44<1:12:11,  1.98it/s] 20%|██        | 2146/10719 [29:44<1:11:55,  1.99it/s] 20%|██        | 2147/10719 [29:45<1:11:50,  1.99it/s] 20%|██        | 2148/10719 [29:45<1:12:20,  1.97it/s] 20%|██        | 2149/10719 [29:46<1:12:03,  1.98it/s] 20%|██        | 2150/10719 [29:46<1:11:50,  1.99it/s]                                                      {'loss': 3.9142, 'grad_norm': 0.21597890555858612, 'learning_rate': 0.0009695050507967144, 'epoch': 0.2}
- 20%|██        | 2150/10719 [29:46<1:11:50,  1.99it/s] 20%|██        | 2151/10719 [29:47<1:11:37,  1.99it/s] 20%|██        | 2152/10719 [29:47<1:17:46,  1.84it/s] 20%|██        | 2153/10719 [29:48<1:15:47,  1.88it/s] 20%|██        | 2154/10719 [29:48<1:14:27,  1.92it/s] 20%|██        | 2155/10719 [29:49<1:15:02,  1.90it/s] 20%|██        | 2156/10719 [29:49<1:14:15,  1.92it/s] 20%|██        | 2157/10719 [29:50<1:13:17,  1.95it/s] 20%|██        | 2158/10719 [29:50<1:12:38,  1.96it/s] 20%|██        | 2159/10719 [29:51<1:13:41,  1.94it/s] 20%|██        | 2160/10719 [29:51<1:12:54,  1.96it/s] 20%|██        | 2161/10719 [29:52<1:12:23,  1.97it/s] 20%|██        | 2162/10719 [29:52<1:13:06,  1.95it/s] 20%|██        | 2163/10719 [29:53<1:12:35,  1.96it/s] 20%|██        | 2164/10719 [29:53<1:12:10,  1.98it/s] 20%|██        | 2165/10719 [29:54<1:11:45,  1.99it/s] 20%|██        | 2166/10719 [29:54<1:13:28,  1.94it/s] 20%|██        | 2167/10719 [29:55<1:17:53,  1.83it/s] 20%|██        | 2168/10719 [29:56<1:17:48,  1.83it/s] 20%|██        | 2169/10719 [29:56<1:15:54,  1.88it/s] 20%|██        | 2170/10719 [29:57<1:14:35,  1.91it/s] 20%|██        | 2171/10719 [29:57<1:13:36,  1.94it/s] 20%|██        | 2172/10719 [29:58<1:12:52,  1.95it/s] 20%|██        | 2173/10719 [29:58<1:12:21,  1.97it/s] 20%|██        | 2174/10719 [29:59<1:12:07,  1.97it/s] 20%|██        | 2175/10719 [29:59<1:11:51,  1.98it/s]                                                      {'loss': 3.9114, 'grad_norm': 0.2174241840839386, 'learning_rate': 0.0009680896400673873, 'epoch': 0.2}
- 20%|██        | 2175/10719 [29:59<1:11:51,  1.98it/s] 20%|██        | 2176/10719 [30:00<1:11:40,  1.99it/s] 20%|██        | 2177/10719 [30:00<1:11:25,  1.99it/s] 20%|██        | 2178/10719 [30:01<1:11:44,  1.98it/s] 20%|██        | 2179/10719 [30:01<1:11:27,  1.99it/s] 20%|██        | 2180/10719 [30:02<1:11:21,  1.99it/s] 20%|██        | 2181/10719 [30:02<1:11:21,  1.99it/s] 20%|██        | 2182/10719 [30:03<1:11:52,  1.98it/s] 20%|██        | 2183/10719 [30:03<1:11:42,  1.98it/s] 20%|██        | 2184/10719 [30:04<1:11:41,  1.98it/s] 20%|██        | 2185/10719 [30:04<1:12:32,  1.96it/s] 20%|██        | 2186/10719 [30:05<1:12:08,  1.97it/s] 20%|██        | 2187/10719 [30:05<1:15:05,  1.89it/s] 20%|██        | 2188/10719 [30:06<1:13:52,  1.92it/s] 20%|██        | 2189/10719 [30:06<1:12:57,  1.95it/s] 20%|██        | 2190/10719 [30:07<1:12:24,  1.96it/s] 20%|██        | 2191/10719 [30:07<1:17:13,  1.84it/s] 20%|██        | 2192/10719 [30:08<1:15:22,  1.89it/s] 20%|██        | 2193/10719 [30:08<1:14:06,  1.92it/s] 20%|██        | 2194/10719 [30:09<1:13:04,  1.94it/s] 20%|██        | 2195/10719 [30:09<1:12:27,  1.96it/s] 20%|██        | 2196/10719 [30:10<1:11:58,  1.97it/s] 20%|██        | 2197/10719 [30:10<1:11:31,  1.99it/s] 21%|██        | 2198/10719 [30:11<1:11:16,  1.99it/s] 21%|██        | 2199/10719 [30:11<1:11:17,  1.99it/s] 21%|██        | 2200/10719 [30:12<1:11:15,  1.99it/s]                                                      {'loss': 3.9022, 'grad_norm': 0.20921196043491364, 'learning_rate': 0.0009666432036203916, 'epoch': 0.21}
- 21%|██        | 2200/10719 [30:12<1:11:15,  1.99it/s] 21%|██        | 2201/10719 [30:12<1:11:13,  1.99it/s] 21%|██        | 2202/10719 [30:13<1:11:08,  2.00it/s] 21%|██        | 2203/10719 [30:13<1:11:03,  2.00it/s] 21%|██        | 2204/10719 [30:14<1:11:02,  2.00it/s] 21%|██        | 2205/10719 [30:14<1:10:52,  2.00it/s] 21%|██        | 2206/10719 [30:15<1:12:15,  1.96it/s] 21%|██        | 2207/10719 [30:15<1:11:50,  1.97it/s] 21%|██        | 2208/10719 [30:16<1:11:29,  1.98it/s] 21%|██        | 2209/10719 [30:16<1:11:17,  1.99it/s] 21%|██        | 2210/10719 [30:17<1:11:11,  1.99it/s] 21%|██        | 2211/10719 [30:17<1:11:17,  1.99it/s] 21%|██        | 2212/10719 [30:18<1:11:10,  1.99it/s] 21%|██        | 2213/10719 [30:18<1:11:00,  2.00it/s] 21%|██        | 2214/10719 [30:19<1:10:56,  2.00it/s] 21%|██        | 2215/10719 [30:19<1:12:35,  1.95it/s] 21%|██        | 2216/10719 [30:20<1:12:01,  1.97it/s] 21%|██        | 2217/10719 [30:20<1:12:12,  1.96it/s] 21%|██        | 2218/10719 [30:21<1:13:39,  1.92it/s] 21%|██        | 2219/10719 [30:21<1:12:55,  1.94it/s] 21%|██        | 2220/10719 [30:22<1:12:28,  1.95it/s] 21%|██        | 2221/10719 [30:22<1:12:00,  1.97it/s] 21%|██        | 2222/10719 [30:23<1:11:40,  1.98it/s] 21%|██        | 2223/10719 [30:23<1:11:23,  1.98it/s] 21%|██        | 2224/10719 [30:24<1:11:15,  1.99it/s] 21%|██        | 2225/10719 [30:25<1:15:42,  1.87it/s]                                                      {'loss': 3.9107, 'grad_norm': 0.2128310352563858, 'learning_rate': 0.0009651658373278107, 'epoch': 0.21}
- 21%|██        | 2225/10719 [30:25<1:15:42,  1.87it/s] 21%|██        | 2226/10719 [30:25<1:14:21,  1.90it/s] 21%|██        | 2227/10719 [30:26<1:13:22,  1.93it/s] 21%|██        | 2228/10719 [30:26<1:13:51,  1.92it/s] 21%|██        | 2229/10719 [30:27<1:12:53,  1.94it/s] 21%|██        | 2230/10719 [30:27<1:12:14,  1.96it/s] 21%|██        | 2231/10719 [30:28<1:11:48,  1.97it/s] 21%|██        | 2232/10719 [30:28<1:11:33,  1.98it/s] 21%|██        | 2233/10719 [30:29<1:12:33,  1.95it/s] 21%|██        | 2234/10719 [30:29<1:12:02,  1.96it/s] 21%|██        | 2235/10719 [30:30<1:11:35,  1.98it/s] 21%|██        | 2236/10719 [30:30<1:11:16,  1.98it/s] 21%|██        | 2237/10719 [30:31<1:11:06,  1.99it/s] 21%|██        | 2238/10719 [30:31<1:11:04,  1.99it/s] 21%|██        | 2239/10719 [30:32<1:10:57,  1.99it/s] 21%|██        | 2240/10719 [30:32<1:10:50,  1.99it/s] 21%|██        | 2241/10719 [30:33<1:10:44,  2.00it/s] 21%|██        | 2242/10719 [30:33<1:11:39,  1.97it/s] 21%|██        | 2243/10719 [30:34<1:11:42,  1.97it/s] 21%|██        | 2244/10719 [30:34<1:12:17,  1.95it/s] 21%|██        | 2245/10719 [30:35<1:11:50,  1.97it/s] 21%|██        | 2246/10719 [30:35<1:11:34,  1.97it/s] 21%|██        | 2247/10719 [30:36<1:11:20,  1.98it/s] 21%|██        | 2248/10719 [30:36<1:11:08,  1.98it/s] 21%|██        | 2249/10719 [30:37<1:10:58,  1.99it/s] 21%|██        | 2250/10719 [30:37<1:12:03,  1.96it/s]                                                      {'loss': 3.9122, 'grad_norm': 0.2130550593137741, 'learning_rate': 0.0009636576391118064, 'epoch': 0.21}
- 21%|██        | 2250/10719 [30:37<1:12:03,  1.96it/s] 21%|██        | 2251/10719 [30:38<1:11:36,  1.97it/s] 21%|██        | 2252/10719 [30:38<1:11:17,  1.98it/s] 21%|██        | 2253/10719 [30:39<1:11:18,  1.98it/s] 21%|██        | 2254/10719 [30:39<1:11:00,  1.99it/s] 21%|██        | 2255/10719 [30:40<1:10:49,  1.99it/s] 21%|██        | 2256/10719 [30:40<1:10:38,  2.00it/s] 21%|██        | 2257/10719 [30:41<1:10:29,  2.00it/s] 21%|██        | 2258/10719 [30:41<1:10:30,  2.00it/s] 21%|██        | 2259/10719 [30:42<1:10:23,  2.00it/s] 21%|██        | 2260/10719 [30:42<1:10:18,  2.01it/s] 21%|██        | 2261/10719 [30:43<1:10:11,  2.01it/s] 21%|██        | 2262/10719 [30:43<1:10:10,  2.01it/s] 21%|██        | 2263/10719 [30:44<1:10:13,  2.01it/s] 21%|██        | 2264/10719 [30:44<1:10:08,  2.01it/s] 21%|██        | 2265/10719 [30:45<1:10:07,  2.01it/s] 21%|██        | 2266/10719 [30:45<1:10:06,  2.01it/s] 21%|██        | 2267/10719 [30:46<1:10:04,  2.01it/s] 21%|██        | 2268/10719 [30:46<1:10:02,  2.01it/s] 21%|██        | 2269/10719 [30:47<1:10:00,  2.01it/s] 21%|██        | 2270/10719 [30:47<1:09:59,  2.01it/s] 21%|██        | 2271/10719 [30:48<1:09:57,  2.01it/s] 21%|██        | 2272/10719 [30:48<1:10:00,  2.01it/s] 21%|██        | 2273/10719 [30:49<1:10:13,  2.00it/s] 21%|██        | 2274/10719 [30:49<1:10:09,  2.01it/s] 21%|██        | 2275/10719 [30:50<1:10:02,  2.01it/s]                                                      {'loss': 3.89, 'grad_norm': 0.2257138192653656, 'learning_rate': 0.0009621187089381287, 'epoch': 0.21}
- 21%|██        | 2275/10719 [30:50<1:10:02,  2.01it/s] 21%|██        | 2276/10719 [30:50<1:10:13,  2.00it/s] 21%|██        | 2277/10719 [30:51<1:10:39,  1.99it/s] 21%|██▏       | 2278/10719 [30:51<1:11:57,  1.95it/s] 21%|██▏       | 2279/10719 [30:52<1:11:27,  1.97it/s] 21%|██▏       | 2280/10719 [30:52<1:11:06,  1.98it/s] 21%|██▏       | 2281/10719 [30:53<1:11:00,  1.98it/s] 21%|██▏       | 2282/10719 [30:53<1:10:59,  1.98it/s] 21%|██▏       | 2283/10719 [30:54<1:10:43,  1.99it/s] 21%|██▏       | 2284/10719 [30:54<1:14:21,  1.89it/s] 21%|██▏       | 2285/10719 [30:55<1:13:17,  1.92it/s] 21%|██▏       | 2286/10719 [30:55<1:12:37,  1.94it/s] 21%|██▏       | 2287/10719 [30:56<1:12:01,  1.95it/s] 21%|██▏       | 2288/10719 [30:56<1:11:33,  1.96it/s] 21%|██▏       | 2289/10719 [30:57<1:11:16,  1.97it/s] 21%|██▏       | 2290/10719 [30:57<1:11:06,  1.98it/s] 21%|██▏       | 2291/10719 [30:58<1:10:54,  1.98it/s] 21%|██▏       | 2292/10719 [30:58<1:10:45,  1.99it/s] 21%|██▏       | 2293/10719 [30:59<1:10:38,  1.99it/s] 21%|██▏       | 2294/10719 [30:59<1:10:39,  1.99it/s] 21%|██▏       | 2295/10719 [31:00<1:10:33,  1.99it/s] 21%|██▏       | 2296/10719 [31:00<1:10:29,  1.99it/s] 21%|██▏       | 2297/10719 [31:01<1:10:21,  1.99it/s] 21%|██▏       | 2298/10719 [31:01<1:10:17,  2.00it/s] 21%|██▏       | 2299/10719 [31:02<1:10:44,  1.98it/s] 21%|██▏       | 2300/10719 [31:02<1:10:35,  1.99it/s]                                                      {'loss': 3.8892, 'grad_norm': 0.20926770567893982, 'learning_rate': 0.0009605491488094904, 'epoch': 0.21}
- 21%|██▏       | 2300/10719 [31:02<1:10:35,  1.99it/s] 21%|██▏       | 2301/10719 [31:03<1:10:32,  1.99it/s] 21%|██▏       | 2302/10719 [31:03<1:10:20,  1.99it/s] 21%|██▏       | 2303/10719 [31:04<1:10:46,  1.98it/s] 21%|██▏       | 2304/10719 [31:04<1:10:36,  1.99it/s] 22%|██▏       | 2305/10719 [31:05<1:10:27,  1.99it/s] 22%|██▏       | 2306/10719 [31:05<1:12:12,  1.94it/s] 22%|██▏       | 2307/10719 [31:06<1:11:37,  1.96it/s] 22%|██▏       | 2308/10719 [31:06<1:11:06,  1.97it/s] 22%|██▏       | 2309/10719 [31:07<1:10:45,  1.98it/s] 22%|██▏       | 2310/10719 [31:07<1:10:27,  1.99it/s] 22%|██▏       | 2311/10719 [31:08<1:10:18,  1.99it/s] 22%|██▏       | 2312/10719 [31:08<1:10:12,  2.00it/s] 22%|██▏       | 2313/10719 [31:09<1:10:24,  1.99it/s] 22%|██▏       | 2314/10719 [31:09<1:10:15,  1.99it/s] 22%|██▏       | 2315/10719 [31:10<1:10:03,  2.00it/s] 22%|██▏       | 2316/10719 [31:10<1:09:57,  2.00it/s] 22%|██▏       | 2317/10719 [31:11<1:09:49,  2.01it/s] 22%|██▏       | 2318/10719 [31:11<1:09:44,  2.01it/s] 22%|██▏       | 2319/10719 [31:12<1:09:44,  2.01it/s] 22%|██▏       | 2320/10719 [31:12<1:10:36,  1.98it/s] 22%|██▏       | 2321/10719 [31:13<1:11:19,  1.96it/s] 22%|██▏       | 2322/10719 [31:13<1:10:46,  1.98it/s] 22%|██▏       | 2323/10719 [31:14<1:10:28,  1.99it/s] 22%|██▏       | 2324/10719 [31:14<1:12:15,  1.94it/s] 22%|██▏       | 2325/10719 [31:15<1:11:36,  1.95it/s]                                                      {'loss': 3.8933, 'grad_norm': 0.2162093222141266, 'learning_rate': 0.0009589490627588058, 'epoch': 0.22}
- 22%|██▏       | 2325/10719 [31:15<1:11:36,  1.95it/s] 22%|██▏       | 2326/10719 [31:15<1:11:03,  1.97it/s] 22%|██▏       | 2327/10719 [31:16<1:10:45,  1.98it/s] 22%|██▏       | 2328/10719 [31:16<1:10:31,  1.98it/s] 22%|██▏       | 2329/10719 [31:17<1:10:16,  1.99it/s] 22%|██▏       | 2330/10719 [31:17<1:10:56,  1.97it/s] 22%|██▏       | 2331/10719 [31:18<1:10:37,  1.98it/s] 22%|██▏       | 2332/10719 [31:18<1:10:22,  1.99it/s] 22%|██▏       | 2333/10719 [31:19<1:10:05,  1.99it/s] 22%|██▏       | 2334/10719 [31:19<1:09:58,  2.00it/s] 22%|██▏       | 2335/10719 [31:20<1:09:51,  2.00it/s] 22%|██▏       | 2336/10719 [31:20<1:09:45,  2.00it/s] 22%|██▏       | 2337/10719 [31:21<1:10:37,  1.98it/s] 22%|██▏       | 2338/10719 [31:21<1:10:20,  1.99it/s] 22%|██▏       | 2339/10719 [31:22<1:10:13,  1.99it/s] 22%|██▏       | 2340/10719 [31:22<1:10:05,  1.99it/s] 22%|██▏       | 2341/10719 [31:23<1:10:00,  1.99it/s] 22%|██▏       | 2342/10719 [31:23<1:09:58,  2.00it/s] 22%|██▏       | 2343/10719 [31:24<1:11:12,  1.96it/s] 22%|██▏       | 2344/10719 [31:25<1:12:44,  1.92it/s] 22%|██▏       | 2345/10719 [31:25<1:11:53,  1.94it/s] 22%|██▏       | 2346/10719 [31:26<1:11:24,  1.95it/s] 22%|██▏       | 2347/10719 [31:26<1:14:58,  1.86it/s] 22%|██▏       | 2348/10719 [31:27<1:13:22,  1.90it/s] 22%|██▏       | 2349/10719 [31:27<1:12:13,  1.93it/s] 22%|██▏       | 2350/10719 [31:28<1:11:22,  1.95it/s]                                                      {'loss': 3.8799, 'grad_norm': 0.2312052994966507, 'learning_rate': 0.0009573185568422956, 'epoch': 0.22}
- 22%|██▏       | 2350/10719 [31:28<1:11:22,  1.95it/s] 22%|██▏       | 2351/10719 [31:28<1:10:57,  1.97it/s] 22%|██▏       | 2352/10719 [31:29<1:10:36,  1.97it/s] 22%|██▏       | 2353/10719 [31:29<1:10:18,  1.98it/s] 22%|██▏       | 2354/10719 [31:30<1:11:24,  1.95it/s] 22%|██▏       | 2355/10719 [31:30<1:12:03,  1.93it/s] 22%|██▏       | 2356/10719 [31:31<1:11:16,  1.96it/s] 22%|██▏       | 2357/10719 [31:31<1:10:40,  1.97it/s] 22%|██▏       | 2358/10719 [31:32<1:10:14,  1.98it/s] 22%|██▏       | 2359/10719 [31:32<1:09:53,  1.99it/s] 22%|██▏       | 2360/10719 [31:33<1:09:38,  2.00it/s] 22%|██▏       | 2361/10719 [31:33<1:09:33,  2.00it/s] 22%|██▏       | 2362/10719 [31:34<1:09:25,  2.01it/s] 22%|██▏       | 2363/10719 [31:34<1:09:22,  2.01it/s] 22%|██▏       | 2364/10719 [31:35<1:09:22,  2.01it/s] 22%|██▏       | 2365/10719 [31:35<1:09:18,  2.01it/s] 22%|██▏       | 2366/10719 [31:36<1:09:17,  2.01it/s] 22%|██▏       | 2367/10719 [31:36<1:09:17,  2.01it/s] 22%|██▏       | 2368/10719 [31:37<1:09:12,  2.01it/s] 22%|██▏       | 2369/10719 [31:37<1:10:41,  1.97it/s] 22%|██▏       | 2370/10719 [31:38<1:10:15,  1.98it/s] 22%|██▏       | 2371/10719 [31:38<1:09:53,  1.99it/s] 22%|██▏       | 2372/10719 [31:39<1:09:39,  2.00it/s] 22%|██▏       | 2373/10719 [31:39<1:09:27,  2.00it/s] 22%|██▏       | 2374/10719 [31:40<1:09:22,  2.00it/s] 22%|██▏       | 2375/10719 [31:40<1:09:16,  2.01it/s]                                                      {'loss': 3.8779, 'grad_norm': 0.21534186601638794, 'learning_rate': 0.0009556577391324564, 'epoch': 0.22}
- 22%|██▏       | 2375/10719 [31:40<1:09:16,  2.01it/s] 22%|██▏       | 2376/10719 [31:41<1:09:19,  2.01it/s] 22%|██▏       | 2377/10719 [31:41<1:09:21,  2.00it/s] 22%|██▏       | 2378/10719 [31:42<1:09:10,  2.01it/s] 22%|██▏       | 2379/10719 [31:42<1:09:08,  2.01it/s] 22%|██▏       | 2380/10719 [31:43<1:11:00,  1.96it/s] 22%|██▏       | 2381/10719 [31:43<1:10:22,  1.97it/s] 22%|██▏       | 2382/10719 [31:44<1:09:53,  1.99it/s] 22%|██▏       | 2383/10719 [31:44<1:10:47,  1.96it/s] 22%|██▏       | 2384/10719 [31:45<1:12:15,  1.92it/s] 22%|██▏       | 2385/10719 [31:45<1:11:24,  1.95it/s] 22%|██▏       | 2386/10719 [31:46<1:13:00,  1.90it/s] 22%|██▏       | 2387/10719 [31:46<1:11:56,  1.93it/s] 22%|██▏       | 2388/10719 [31:47<1:11:14,  1.95it/s] 22%|██▏       | 2389/10719 [31:47<1:10:33,  1.97it/s] 22%|██▏       | 2390/10719 [31:48<1:10:07,  1.98it/s] 22%|██▏       | 2391/10719 [31:48<1:09:46,  1.99it/s] 22%|██▏       | 2392/10719 [31:49<1:09:33,  2.00it/s] 22%|██▏       | 2393/10719 [31:49<1:09:29,  2.00it/s] 22%|██▏       | 2394/10719 [31:50<1:09:23,  2.00it/s] 22%|██▏       | 2395/10719 [31:50<1:09:17,  2.00it/s] 22%|██▏       | 2396/10719 [31:51<1:09:13,  2.00it/s] 22%|██▏       | 2397/10719 [31:51<1:09:06,  2.01it/s] 22%|██▏       | 2398/10719 [31:52<1:09:08,  2.01it/s] 22%|██▏       | 2399/10719 [31:52<1:09:08,  2.01it/s] 22%|██▏       | 2400/10719 [31:53<1:09:17,  2.00it/s]                                                      {'loss': 3.8735, 'grad_norm': 0.21478231251239777, 'learning_rate': 0.0009539667197108985, 'epoch': 0.22}
- 22%|██▏       | 2400/10719 [31:53<1:09:17,  2.00it/s] 22%|██▏       | 2401/10719 [31:53<1:09:30,  1.99it/s] 22%|██▏       | 2402/10719 [31:54<1:09:22,  2.00it/s] 22%|██▏       | 2403/10719 [31:54<1:14:28,  1.86it/s] 22%|██▏       | 2404/10719 [31:55<1:12:59,  1.90it/s] 22%|██▏       | 2405/10719 [31:55<1:11:52,  1.93it/s] 22%|██▏       | 2406/10719 [31:56<1:11:07,  1.95it/s] 22%|██▏       | 2407/10719 [31:56<1:10:23,  1.97it/s] 22%|██▏       | 2408/10719 [31:57<1:10:00,  1.98it/s] 22%|██▏       | 2409/10719 [31:57<1:09:43,  1.99it/s] 22%|██▏       | 2410/10719 [31:58<1:09:32,  1.99it/s] 22%|██▏       | 2411/10719 [31:58<1:09:15,  2.00it/s] 23%|██▎       | 2412/10719 [31:59<1:09:09,  2.00it/s] 23%|██▎       | 2413/10719 [31:59<1:08:58,  2.01it/s] 23%|██▎       | 2414/10719 [32:00<1:09:35,  1.99it/s] 23%|██▎       | 2415/10719 [32:00<1:09:26,  1.99it/s] 23%|██▎       | 2416/10719 [32:01<1:09:20,  2.00it/s] 23%|██▎       | 2417/10719 [32:01<1:09:20,  2.00it/s] 23%|██▎       | 2418/10719 [32:02<1:09:20,  2.00it/s] 23%|██▎       | 2419/10719 [32:02<1:09:22,  1.99it/s] 23%|██▎       | 2420/10719 [32:03<1:09:18,  2.00it/s] 23%|██▎       | 2421/10719 [32:03<1:09:12,  2.00it/s] 23%|██▎       | 2422/10719 [32:04<1:09:08,  2.00it/s] 23%|██▎       | 2423/10719 [32:04<1:09:12,  2.00it/s] 23%|██▎       | 2424/10719 [32:05<1:09:06,  2.00it/s] 23%|██▎       | 2425/10719 [32:05<1:09:05,  2.00it/s]                                                      {'loss': 3.8626, 'grad_norm': 0.22587862610816956, 'learning_rate': 0.0009522456106610497, 'epoch': 0.23}
- 23%|██▎       | 2425/10719 [32:05<1:09:05,  2.00it/s] 23%|██▎       | 2426/10719 [32:06<1:09:03,  2.00it/s] 23%|██▎       | 2427/10719 [32:06<1:09:02,  2.00it/s] 23%|██▎       | 2428/10719 [32:07<1:08:57,  2.00it/s] 23%|██▎       | 2429/10719 [32:07<1:08:57,  2.00it/s] 23%|██▎       | 2430/10719 [32:08<1:08:53,  2.01it/s] 23%|██▎       | 2431/10719 [32:08<1:08:57,  2.00it/s] 23%|██▎       | 2432/10719 [32:09<1:08:55,  2.00it/s] 23%|██▎       | 2433/10719 [32:09<1:08:53,  2.00it/s] 23%|██▎       | 2434/10719 [32:10<1:08:52,  2.00it/s] 23%|██▎       | 2435/10719 [32:10<1:08:54,  2.00it/s] 23%|██▎       | 2436/10719 [32:11<1:08:47,  2.01it/s] 23%|██▎       | 2437/10719 [32:11<1:08:53,  2.00it/s] 23%|██▎       | 2438/10719 [32:12<1:09:00,  2.00it/s] 23%|██▎       | 2439/10719 [32:12<1:09:00,  2.00it/s] 23%|██▎       | 2440/10719 [32:13<1:08:54,  2.00it/s] 23%|██▎       | 2441/10719 [32:13<1:08:50,  2.00it/s] 23%|██▎       | 2442/10719 [32:14<1:08:46,  2.01it/s] 23%|██▎       | 2443/10719 [32:14<1:08:44,  2.01it/s] 23%|██▎       | 2444/10719 [32:15<1:08:43,  2.01it/s] 23%|██▎       | 2445/10719 [32:15<1:08:45,  2.01it/s] 23%|██▎       | 2446/10719 [32:16<1:09:11,  1.99it/s] 23%|██▎       | 2447/10719 [32:16<1:08:56,  2.00it/s] 23%|██▎       | 2448/10719 [32:17<1:08:51,  2.00it/s] 23%|██▎       | 2449/10719 [32:17<1:08:51,  2.00it/s] 23%|██▎       | 2450/10719 [32:18<1:08:43,  2.01it/s]                                                      {'loss': 3.8547, 'grad_norm': 0.23455436527729034, 'learning_rate': 0.0009504945260607249, 'epoch': 0.23}
- 23%|██▎       | 2450/10719 [32:18<1:08:43,  2.01it/s] 23%|██▎       | 2451/10719 [32:18<1:08:40,  2.01it/s] 23%|██▎       | 2452/10719 [32:19<1:08:43,  2.00it/s] 23%|██▎       | 2453/10719 [32:19<1:08:38,  2.01it/s] 23%|██▎       | 2454/10719 [32:20<1:08:33,  2.01it/s] 23%|██▎       | 2455/10719 [32:20<1:08:36,  2.01it/s] 23%|██▎       | 2456/10719 [32:21<1:08:35,  2.01it/s] 23%|██▎       | 2457/10719 [32:21<1:08:29,  2.01it/s] 23%|██▎       | 2458/10719 [32:22<1:08:33,  2.01it/s] 23%|██▎       | 2459/10719 [32:22<1:08:28,  2.01it/s] 23%|██▎       | 2460/10719 [32:23<1:08:25,  2.01it/s] 23%|██▎       | 2461/10719 [32:23<1:09:20,  1.98it/s] 23%|██▎       | 2462/10719 [32:24<1:09:14,  1.99it/s] 23%|██▎       | 2463/10719 [32:24<1:09:05,  1.99it/s] 23%|██▎       | 2464/10719 [32:25<1:09:00,  1.99it/s] 23%|██▎       | 2465/10719 [32:25<1:08:58,  1.99it/s] 23%|██▎       | 2466/10719 [32:26<1:08:53,  2.00it/s] 23%|██▎       | 2467/10719 [32:26<1:08:43,  2.00it/s] 23%|██▎       | 2468/10719 [32:27<1:08:46,  2.00it/s] 23%|██▎       | 2469/10719 [32:27<1:08:46,  2.00it/s] 23%|██▎       | 2470/10719 [32:28<1:08:41,  2.00it/s] 23%|██▎       | 2471/10719 [32:28<1:08:38,  2.00it/s] 23%|██▎       | 2472/10719 [32:29<1:08:36,  2.00it/s] 23%|██▎       | 2473/10719 [32:29<1:08:33,  2.00it/s] 23%|██▎       | 2474/10719 [32:30<1:08:31,  2.01it/s] 23%|██▎       | 2475/10719 [32:30<1:08:27,  2.01it/s]                                                      {'loss': 3.8671, 'grad_norm': 0.2139013707637787, 'learning_rate': 0.000948713581974566, 'epoch': 0.23}
- 23%|██▎       | 2475/10719 [32:30<1:08:27,  2.01it/s] 23%|██▎       | 2476/10719 [32:31<1:08:32,  2.00it/s] 23%|██▎       | 2477/10719 [32:32<1:20:15,  1.71it/s] 23%|██▎       | 2478/10719 [32:32<1:16:41,  1.79it/s] 23%|██▎       | 2479/10719 [32:33<1:14:15,  1.85it/s] 23%|██▎       | 2480/10719 [32:33<1:12:23,  1.90it/s] 23%|██▎       | 2481/10719 [32:34<1:11:08,  1.93it/s] 23%|██▎       | 2482/10719 [32:34<1:10:15,  1.95it/s] 23%|██▎       | 2483/10719 [32:35<1:09:37,  1.97it/s] 23%|██▎       | 2484/10719 [32:35<1:09:17,  1.98it/s] 23%|██▎       | 2485/10719 [32:36<1:08:55,  1.99it/s] 23%|██▎       | 2486/10719 [32:36<1:08:40,  2.00it/s] 23%|██▎       | 2487/10719 [32:37<1:08:30,  2.00it/s] 23%|██▎       | 2488/10719 [32:37<1:08:18,  2.01it/s] 23%|██▎       | 2489/10719 [32:38<1:20:37,  1.70it/s] 23%|██▎       | 2490/10719 [32:38<1:16:48,  1.79it/s] 23%|██▎       | 2491/10719 [32:39<1:14:15,  1.85it/s] 23%|██▎       | 2492/10719 [32:39<1:12:20,  1.90it/s] 23%|██▎       | 2493/10719 [32:40<1:11:07,  1.93it/s] 23%|██▎       | 2494/10719 [32:40<1:10:10,  1.95it/s] 23%|██▎       | 2495/10719 [32:41<1:09:27,  1.97it/s] 23%|██▎       | 2496/10719 [32:41<1:09:06,  1.98it/s] 23%|██▎       | 2497/10719 [32:42<1:08:40,  2.00it/s] 23%|██▎       | 2498/10719 [32:43<1:12:04,  1.90it/s] 23%|██▎       | 2499/10719 [32:43<1:10:50,  1.93it/s] 23%|██▎       | 2500/10719 [32:44<1:13:07,  1.87it/s]                                                      {'loss': 3.8658, 'grad_norm': 0.21743661165237427, 'learning_rate': 0.0009469028964463484, 'epoch': 0.23}
- 23%|██▎       | 2500/10719 [32:44<1:13:07,  1.87it/s] 23%|██▎       | 2501/10719 [32:44<1:11:42,  1.91it/s] 23%|██▎       | 2502/10719 [32:45<1:10:31,  1.94it/s] 23%|██▎       | 2503/10719 [32:45<1:09:44,  1.96it/s] 23%|██▎       | 2504/10719 [32:46<1:09:13,  1.98it/s] 23%|██▎       | 2505/10719 [32:46<1:08:47,  1.99it/s] 23%|██▎       | 2506/10719 [32:47<1:08:36,  2.00it/s] 23%|██▎       | 2507/10719 [32:47<1:11:32,  1.91it/s] 23%|██▎       | 2508/10719 [32:48<1:10:41,  1.94it/s] 23%|██▎       | 2509/10719 [32:48<1:10:08,  1.95it/s] 23%|██▎       | 2510/10719 [32:49<1:10:33,  1.94it/s] 23%|██▎       | 2511/10719 [32:49<1:09:52,  1.96it/s] 23%|██▎       | 2512/10719 [32:50<1:09:22,  1.97it/s] 23%|██▎       | 2513/10719 [32:50<1:09:06,  1.98it/s] 23%|██▎       | 2514/10719 [32:51<1:08:51,  1.99it/s] 23%|██▎       | 2515/10719 [32:51<1:08:38,  1.99it/s] 23%|██▎       | 2516/10719 [32:52<1:08:27,  2.00it/s] 23%|██▎       | 2517/10719 [32:52<1:08:21,  2.00it/s] 23%|██▎       | 2518/10719 [32:53<1:08:18,  2.00it/s] 24%|██▎       | 2519/10719 [32:53<1:08:17,  2.00it/s] 24%|██▎       | 2520/10719 [32:54<1:08:12,  2.00it/s] 24%|██▎       | 2521/10719 [32:54<1:09:31,  1.97it/s] 24%|██▎       | 2522/10719 [32:55<1:09:04,  1.98it/s] 24%|██▎       | 2523/10719 [32:55<1:08:52,  1.98it/s] 24%|██▎       | 2524/10719 [32:56<1:08:34,  1.99it/s] 24%|██▎       | 2525/10719 [32:56<1:08:26,  2.00it/s]                                                      {'loss': 3.8509, 'grad_norm': 0.22212427854537964, 'learning_rate': 0.0009450625894911573, 'epoch': 0.24}
- 24%|██▎       | 2525/10719 [32:56<1:08:26,  2.00it/s] 24%|██▎       | 2526/10719 [32:57<1:08:22,  2.00it/s] 24%|██▎       | 2527/10719 [32:57<1:08:16,  2.00it/s] 24%|██▎       | 2528/10719 [32:58<1:08:03,  2.01it/s] 24%|██▎       | 2529/10719 [32:58<1:08:02,  2.01it/s] 24%|██▎       | 2530/10719 [32:59<1:07:59,  2.01it/s] 24%|██▎       | 2531/10719 [32:59<1:07:51,  2.01it/s] 24%|██▎       | 2532/10719 [33:00<1:07:55,  2.01it/s] 24%|██▎       | 2533/10719 [33:00<1:07:50,  2.01it/s] 24%|██▎       | 2534/10719 [33:01<1:07:51,  2.01it/s] 24%|██▎       | 2535/10719 [33:01<1:07:46,  2.01it/s] 24%|██▎       | 2536/10719 [33:02<1:07:49,  2.01it/s] 24%|██▎       | 2537/10719 [33:02<1:07:52,  2.01it/s] 24%|██▎       | 2538/10719 [33:03<1:07:47,  2.01it/s] 24%|██▎       | 2539/10719 [33:03<1:07:45,  2.01it/s] 24%|██▎       | 2540/10719 [33:04<1:07:57,  2.01it/s] 24%|██▎       | 2541/10719 [33:04<1:07:52,  2.01it/s] 24%|██▎       | 2542/10719 [33:05<1:07:52,  2.01it/s] 24%|██▎       | 2543/10719 [33:05<1:10:11,  1.94it/s] 24%|██▎       | 2544/10719 [33:06<1:09:48,  1.95it/s] 24%|██▎       | 2545/10719 [33:06<1:09:18,  1.97it/s] 24%|██▍       | 2546/10719 [33:07<1:09:02,  1.97it/s] 24%|██▍       | 2547/10719 [33:07<1:08:42,  1.98it/s] 24%|██▍       | 2548/10719 [33:08<1:08:32,  1.99it/s] 24%|██▍       | 2549/10719 [33:08<1:08:25,  1.99it/s] 24%|██▍       | 2550/10719 [33:09<1:08:18,  1.99it/s]                                                      {'loss': 3.8573, 'grad_norm': 0.23474843800067902, 'learning_rate': 0.0009431927830874327, 'epoch': 0.24}
- 24%|██▍       | 2550/10719 [33:09<1:08:18,  1.99it/s] 24%|██▍       | 2551/10719 [33:09<1:08:44,  1.98it/s] 24%|██▍       | 2552/10719 [33:10<1:08:44,  1.98it/s] 24%|██▍       | 2553/10719 [33:10<1:08:32,  1.99it/s] 24%|██▍       | 2554/10719 [33:11<1:08:30,  1.99it/s] 24%|██▍       | 2555/10719 [33:11<1:08:17,  1.99it/s] 24%|██▍       | 2556/10719 [33:12<1:08:10,  2.00it/s] 24%|██▍       | 2557/10719 [33:12<1:08:10,  2.00it/s] 24%|██▍       | 2558/10719 [33:13<1:08:21,  1.99it/s] 24%|██▍       | 2559/10719 [33:13<1:08:16,  1.99it/s] 24%|██▍       | 2560/10719 [33:14<1:08:11,  1.99it/s] 24%|██▍       | 2561/10719 [33:14<1:08:05,  2.00it/s] 24%|██▍       | 2562/10719 [33:15<1:08:02,  2.00it/s] 24%|██▍       | 2563/10719 [33:15<1:08:01,  2.00it/s] 24%|██▍       | 2564/10719 [33:16<1:08:00,  2.00it/s] 24%|██▍       | 2565/10719 [33:16<1:07:57,  2.00it/s] 24%|██▍       | 2566/10719 [33:17<1:07:57,  2.00it/s] 24%|██▍       | 2567/10719 [33:17<1:07:57,  2.00it/s] 24%|██▍       | 2568/10719 [33:18<1:07:59,  2.00it/s] 24%|██▍       | 2569/10719 [33:18<1:08:01,  2.00it/s] 24%|██▍       | 2570/10719 [33:19<1:08:03,  2.00it/s] 24%|██▍       | 2571/10719 [33:19<1:07:54,  2.00it/s] 24%|██▍       | 2572/10719 [33:20<1:07:49,  2.00it/s] 24%|██▍       | 2573/10719 [33:20<1:07:46,  2.00it/s] 24%|██▍       | 2574/10719 [33:21<1:08:03,  1.99it/s] 24%|██▍       | 2575/10719 [33:21<1:08:02,  1.99it/s]                                                      {'loss': 3.8498, 'grad_norm': 0.22847042977809906, 'learning_rate': 0.000941293601168884, 'epoch': 0.24}
- 24%|██▍       | 2575/10719 [33:21<1:08:02,  1.99it/s] 24%|██▍       | 2576/10719 [33:22<1:08:36,  1.98it/s] 24%|██▍       | 2577/10719 [33:22<1:08:23,  1.98it/s] 24%|██▍       | 2578/10719 [33:23<1:08:14,  1.99it/s] 24%|██▍       | 2579/10719 [33:23<1:08:05,  1.99it/s] 24%|██▍       | 2580/10719 [33:24<1:08:00,  1.99it/s] 24%|██▍       | 2581/10719 [33:24<1:07:54,  2.00it/s] 24%|██▍       | 2582/10719 [33:25<1:08:03,  1.99it/s] 24%|██▍       | 2583/10719 [33:25<1:08:00,  1.99it/s] 24%|██▍       | 2584/10719 [33:26<1:08:01,  1.99it/s] 24%|██▍       | 2585/10719 [33:26<1:07:53,  2.00it/s] 24%|██▍       | 2586/10719 [33:27<1:07:46,  2.00it/s] 24%|██▍       | 2587/10719 [33:27<1:07:57,  1.99it/s] 24%|██▍       | 2588/10719 [33:28<1:08:08,  1.99it/s] 24%|██▍       | 2589/10719 [33:28<1:08:26,  1.98it/s] 24%|██▍       | 2590/10719 [33:29<1:08:15,  1.98it/s] 24%|██▍       | 2591/10719 [33:29<1:08:09,  1.99it/s] 24%|██▍       | 2592/10719 [33:30<1:08:01,  1.99it/s] 24%|██▍       | 2593/10719 [33:30<1:07:59,  1.99it/s] 24%|██▍       | 2594/10719 [33:31<1:07:55,  1.99it/s] 24%|██▍       | 2595/10719 [33:31<1:07:53,  1.99it/s] 24%|██▍       | 2596/10719 [33:32<1:07:54,  1.99it/s] 24%|██▍       | 2597/10719 [33:32<1:07:53,  1.99it/s] 24%|██▍       | 2598/10719 [33:33<1:07:48,  2.00it/s] 24%|██▍       | 2599/10719 [33:33<1:07:46,  2.00it/s] 24%|██▍       | 2600/10719 [33:34<1:07:43,  2.00it/s]                                                      {'loss': 3.8499, 'grad_norm': 0.21945449709892273, 'learning_rate': 0.0009393651696162766, 'epoch': 0.24}
- 24%|██▍       | 2600/10719 [33:34<1:07:43,  2.00it/s] 24%|██▍       | 2601/10719 [33:34<1:07:41,  2.00it/s] 24%|██▍       | 2602/10719 [33:35<1:08:07,  1.99it/s] 24%|██▍       | 2603/10719 [33:35<1:08:52,  1.96it/s] 24%|██▍       | 2604/10719 [33:36<1:08:31,  1.97it/s] 24%|██▍       | 2605/10719 [33:36<1:08:14,  1.98it/s] 24%|██▍       | 2606/10719 [33:37<1:08:04,  1.99it/s] 24%|██▍       | 2607/10719 [33:37<1:07:53,  1.99it/s] 24%|██▍       | 2608/10719 [33:38<1:07:47,  1.99it/s] 24%|██▍       | 2609/10719 [33:38<1:07:45,  2.00it/s] 24%|██▍       | 2610/10719 [33:39<1:07:43,  2.00it/s] 24%|██▍       | 2611/10719 [33:39<1:07:40,  2.00it/s] 24%|██▍       | 2612/10719 [33:40<1:07:49,  1.99it/s] 24%|██▍       | 2613/10719 [33:40<1:07:45,  1.99it/s] 24%|██▍       | 2614/10719 [33:41<1:07:34,  2.00it/s] 24%|██▍       | 2615/10719 [33:41<1:07:29,  2.00it/s] 24%|██▍       | 2616/10719 [33:42<1:07:29,  2.00it/s] 24%|██▍       | 2617/10719 [33:42<1:07:27,  2.00it/s] 24%|██▍       | 2618/10719 [33:43<1:07:30,  2.00it/s] 24%|██▍       | 2619/10719 [33:43<1:07:34,  2.00it/s] 24%|██▍       | 2620/10719 [33:44<1:07:37,  2.00it/s] 24%|██▍       | 2621/10719 [33:44<1:07:32,  2.00it/s] 24%|██▍       | 2622/10719 [33:45<1:07:32,  2.00it/s] 24%|██▍       | 2623/10719 [33:45<1:07:57,  1.99it/s] 24%|██▍       | 2624/10719 [33:46<1:07:52,  1.99it/s] 24%|██▍       | 2625/10719 [33:46<1:07:44,  1.99it/s]                                                      {'loss': 3.8381, 'grad_norm': 0.1988411843776703, 'learning_rate': 0.000937407616249087, 'epoch': 0.24}
- 24%|██▍       | 2625/10719 [33:46<1:07:44,  1.99it/s] 24%|██▍       | 2626/10719 [33:47<1:07:42,  1.99it/s] 25%|██▍       | 2627/10719 [33:47<1:07:35,  2.00it/s] 25%|██▍       | 2628/10719 [33:48<1:07:31,  2.00it/s] 25%|██▍       | 2629/10719 [33:48<1:07:36,  1.99it/s] 25%|██▍       | 2630/10719 [33:49<1:07:31,  2.00it/s] 25%|██▍       | 2631/10719 [33:49<1:08:09,  1.98it/s] 25%|██▍       | 2632/10719 [33:50<1:07:59,  1.98it/s] 25%|██▍       | 2633/10719 [33:50<1:07:52,  1.99it/s] 25%|██▍       | 2634/10719 [33:51<1:07:46,  1.99it/s] 25%|██▍       | 2635/10719 [33:51<1:07:35,  1.99it/s] 25%|██▍       | 2636/10719 [33:52<1:07:26,  2.00it/s] 25%|██▍       | 2637/10719 [33:52<1:07:20,  2.00it/s] 25%|██▍       | 2638/10719 [33:53<1:07:15,  2.00it/s] 25%|██▍       | 2639/10719 [33:53<1:07:13,  2.00it/s] 25%|██▍       | 2640/10719 [33:54<1:08:20,  1.97it/s] 25%|██▍       | 2641/10719 [33:54<1:09:42,  1.93it/s] 25%|██▍       | 2642/10719 [33:55<1:09:12,  1.94it/s] 25%|██▍       | 2643/10719 [33:55<1:08:45,  1.96it/s] 25%|██▍       | 2644/10719 [33:56<1:08:19,  1.97it/s] 25%|██▍       | 2645/10719 [33:56<1:08:06,  1.98it/s] 25%|██▍       | 2646/10719 [33:57<1:07:48,  1.98it/s] 25%|██▍       | 2647/10719 [33:57<1:07:44,  1.99it/s] 25%|██▍       | 2648/10719 [33:58<1:07:32,  1.99it/s] 25%|██▍       | 2649/10719 [33:58<1:07:29,  1.99it/s] 25%|██▍       | 2650/10719 [33:59<1:07:23,  2.00it/s]                                                      {'loss': 3.8363, 'grad_norm': 0.2117810845375061, 'learning_rate': 0.0009354210708170319, 'epoch': 0.25}
- 25%|██▍       | 2650/10719 [33:59<1:07:23,  2.00it/s] 25%|██▍       | 2651/10719 [33:59<1:07:24,  1.99it/s] 25%|██▍       | 2652/10719 [34:00<1:07:20,  2.00it/s] 25%|██▍       | 2653/10719 [34:00<1:07:16,  2.00it/s] 25%|██▍       | 2654/10719 [34:01<1:07:14,  2.00it/s] 25%|██▍       | 2655/10719 [34:01<1:07:08,  2.00it/s] 25%|██▍       | 2656/10719 [34:02<1:07:07,  2.00it/s] 25%|██▍       | 2657/10719 [34:02<1:07:04,  2.00it/s] 25%|██▍       | 2658/10719 [34:03<1:07:11,  2.00it/s] 25%|██▍       | 2659/10719 [34:03<1:07:07,  2.00it/s] 25%|██▍       | 2660/10719 [34:04<1:07:01,  2.00it/s] 25%|██▍       | 2661/10719 [34:04<1:07:18,  2.00it/s] 25%|██▍       | 2662/10719 [34:05<1:07:45,  1.98it/s] 25%|██▍       | 2663/10719 [34:06<1:09:57,  1.92it/s] 25%|██▍       | 2664/10719 [34:06<1:09:04,  1.94it/s] 25%|██▍       | 2665/10719 [34:07<1:08:34,  1.96it/s] 25%|██▍       | 2666/10719 [34:07<1:08:06,  1.97it/s] 25%|██▍       | 2667/10719 [34:08<1:07:46,  1.98it/s] 25%|██▍       | 2668/10719 [34:08<1:07:33,  1.99it/s] 25%|██▍       | 2669/10719 [34:09<1:07:26,  1.99it/s] 25%|██▍       | 2670/10719 [34:09<1:07:16,  1.99it/s] 25%|██▍       | 2671/10719 [34:10<1:07:12,  2.00it/s] 25%|██▍       | 2672/10719 [34:10<1:07:09,  2.00it/s] 25%|██▍       | 2673/10719 [34:11<1:07:01,  2.00it/s] 25%|██▍       | 2674/10719 [34:11<1:06:51,  2.01it/s] 25%|██▍       | 2675/10719 [34:12<1:06:49,  2.01it/s]                                                      {'loss': 3.8318, 'grad_norm': 0.21053531765937805, 'learning_rate': 0.0009334056649914675, 'epoch': 0.25}
- 25%|██▍       | 2675/10719 [34:12<1:06:49,  2.01it/s] 25%|██▍       | 2676/10719 [34:12<1:06:54,  2.00it/s] 25%|██▍       | 2677/10719 [34:13<1:07:29,  1.99it/s] 25%|██▍       | 2678/10719 [34:13<1:07:23,  1.99it/s] 25%|██▍       | 2679/10719 [34:14<1:07:22,  1.99it/s] 25%|██▌       | 2680/10719 [34:14<1:07:11,  1.99it/s] 25%|██▌       | 2681/10719 [34:15<1:07:03,  2.00it/s] 25%|██▌       | 2682/10719 [34:15<1:06:58,  2.00it/s] 25%|██▌       | 2683/10719 [34:16<1:06:54,  2.00it/s] 25%|██▌       | 2684/10719 [34:16<1:06:51,  2.00it/s] 25%|██▌       | 2685/10719 [34:17<1:06:48,  2.00it/s] 25%|██▌       | 2686/10719 [34:17<1:06:45,  2.01it/s] 25%|██▌       | 2687/10719 [34:18<1:06:43,  2.01it/s] 25%|██▌       | 2688/10719 [34:18<1:06:51,  2.00it/s] 25%|██▌       | 2689/10719 [34:19<1:06:45,  2.00it/s] 25%|██▌       | 2690/10719 [34:19<1:06:45,  2.00it/s] 25%|██▌       | 2691/10719 [34:20<1:06:40,  2.01it/s] 25%|██▌       | 2692/10719 [34:20<1:06:35,  2.01it/s] 25%|██▌       | 2693/10719 [34:21<1:07:19,  1.99it/s] 25%|██▌       | 2694/10719 [34:21<1:07:13,  1.99it/s] 25%|██▌       | 2695/10719 [34:22<1:07:37,  1.98it/s] 25%|██▌       | 2696/10719 [34:22<1:07:24,  1.98it/s] 25%|██▌       | 2697/10719 [34:23<1:07:10,  1.99it/s] 25%|██▌       | 2698/10719 [34:23<1:07:00,  2.00it/s] 25%|██▌       | 2699/10719 [34:24<1:07:03,  1.99it/s] 25%|██▌       | 2700/10719 [34:24<1:07:07,  1.99it/s]                                                      {'loss': 3.837, 'grad_norm': 0.23007185757160187, 'learning_rate': 0.000931361532356662, 'epoch': 0.25}
- 25%|██▌       | 2700/10719 [34:24<1:07:07,  1.99it/s] 25%|██▌       | 2701/10719 [34:25<1:07:10,  1.99it/s] 25%|██▌       | 2702/10719 [34:25<1:07:17,  1.99it/s] 25%|██▌       | 2703/10719 [34:26<1:07:08,  1.99it/s] 25%|██▌       | 2704/10719 [34:26<1:06:56,  2.00it/s] 25%|██▌       | 2705/10719 [34:27<1:06:54,  2.00it/s] 25%|██▌       | 2706/10719 [34:27<1:06:53,  2.00it/s] 25%|██▌       | 2707/10719 [34:28<1:06:54,  2.00it/s] 25%|██▌       | 2708/10719 [34:28<1:06:48,  2.00it/s] 25%|██▌       | 2709/10719 [34:29<1:06:58,  1.99it/s] 25%|██▌       | 2710/10719 [34:29<1:06:50,  2.00it/s] 25%|██▌       | 2711/10719 [34:30<1:06:49,  2.00it/s] 25%|██▌       | 2712/10719 [34:30<1:06:44,  2.00it/s] 25%|██▌       | 2713/10719 [34:31<1:06:32,  2.01it/s] 25%|██▌       | 2714/10719 [34:31<1:06:38,  2.00it/s] 25%|██▌       | 2715/10719 [34:32<1:06:41,  2.00it/s] 25%|██▌       | 2716/10719 [34:32<1:06:33,  2.00it/s] 25%|██▌       | 2717/10719 [34:33<1:06:38,  2.00it/s] 25%|██▌       | 2718/10719 [34:33<1:06:33,  2.00it/s] 25%|██▌       | 2719/10719 [34:34<1:07:03,  1.99it/s] 25%|██▌       | 2720/10719 [34:34<1:06:51,  1.99it/s] 25%|██▌       | 2721/10719 [34:35<1:06:44,  2.00it/s] 25%|██▌       | 2722/10719 [34:35<1:06:32,  2.00it/s] 25%|██▌       | 2723/10719 [34:36<1:06:29,  2.00it/s] 25%|██▌       | 2724/10719 [34:36<1:06:24,  2.01it/s] 25%|██▌       | 2725/10719 [34:37<1:06:22,  2.01it/s]                                                      {'loss': 3.8302, 'grad_norm': 0.204090878367424, 'learning_rate': 0.0009292888084009421, 'epoch': 0.25}
- 25%|██▌       | 2725/10719 [34:37<1:06:22,  2.01it/s] 25%|██▌       | 2726/10719 [34:37<1:06:23,  2.01it/s] 25%|██▌       | 2727/10719 [34:38<1:06:21,  2.01it/s] 25%|██▌       | 2728/10719 [34:38<1:06:15,  2.01it/s] 25%|██▌       | 2729/10719 [34:39<1:06:09,  2.01it/s] 25%|██▌       | 2730/10719 [34:39<1:06:04,  2.02it/s] 25%|██▌       | 2731/10719 [34:40<1:06:08,  2.01it/s] 25%|██▌       | 2732/10719 [34:40<1:06:07,  2.01it/s] 25%|██▌       | 2733/10719 [34:41<1:06:14,  2.01it/s] 26%|██▌       | 2734/10719 [34:41<1:06:14,  2.01it/s] 26%|██▌       | 2735/10719 [34:42<1:06:27,  2.00it/s] 26%|██▌       | 2736/10719 [34:42<1:06:30,  2.00it/s] 26%|██▌       | 2737/10719 [34:43<1:06:30,  2.00it/s] 26%|██▌       | 2738/10719 [34:43<1:06:50,  1.99it/s] 26%|██▌       | 2739/10719 [34:44<1:06:45,  1.99it/s] 26%|██▌       | 2740/10719 [34:44<1:06:54,  1.99it/s] 26%|██▌       | 2741/10719 [34:45<1:06:47,  1.99it/s] 26%|██▌       | 2742/10719 [34:45<1:06:48,  1.99it/s] 26%|██▌       | 2743/10719 [34:46<1:06:48,  1.99it/s] 26%|██▌       | 2744/10719 [34:46<1:06:43,  1.99it/s] 26%|██▌       | 2745/10719 [34:47<1:06:38,  1.99it/s] 26%|██▌       | 2746/10719 [34:47<1:06:29,  2.00it/s] 26%|██▌       | 2747/10719 [34:48<1:06:28,  2.00it/s] 26%|██▌       | 2748/10719 [34:48<1:06:57,  1.98it/s] 26%|██▌       | 2749/10719 [34:49<1:07:03,  1.98it/s] 26%|██▌       | 2750/10719 [34:49<1:06:51,  1.99it/s]                                                      {'loss': 3.8275, 'grad_norm': 0.2156575620174408, 'learning_rate': 0.000927187630507712, 'epoch': 0.26}
- 26%|██▌       | 2750/10719 [34:49<1:06:51,  1.99it/s] 26%|██▌       | 2751/10719 [34:50<1:06:48,  1.99it/s] 26%|██▌       | 2752/10719 [34:50<1:06:43,  1.99it/s] 26%|██▌       | 2753/10719 [34:51<1:06:43,  1.99it/s] 26%|██▌       | 2754/10719 [34:51<1:06:34,  1.99it/s] 26%|██▌       | 2755/10719 [34:52<1:06:28,  2.00it/s] 26%|██▌       | 2756/10719 [34:52<1:06:22,  2.00it/s] 26%|██▌       | 2757/10719 [34:53<1:06:21,  2.00it/s] 26%|██▌       | 2758/10719 [34:53<1:06:15,  2.00it/s] 26%|██▌       | 2759/10719 [34:54<1:06:13,  2.00it/s] 26%|██▌       | 2760/10719 [34:54<1:06:14,  2.00it/s] 26%|██▌       | 2761/10719 [34:55<1:06:10,  2.00it/s] 26%|██▌       | 2762/10719 [34:55<1:06:47,  1.99it/s] 26%|██▌       | 2763/10719 [34:56<1:06:44,  1.99it/s] 26%|██▌       | 2764/10719 [34:56<1:06:35,  1.99it/s] 26%|██▌       | 2765/10719 [34:57<1:06:29,  1.99it/s] 26%|██▌       | 2766/10719 [34:57<1:07:20,  1.97it/s] 26%|██▌       | 2767/10719 [34:58<1:07:02,  1.98it/s] 26%|██▌       | 2768/10719 [34:58<1:06:55,  1.98it/s] 26%|██▌       | 2769/10719 [34:59<1:06:41,  1.99it/s] 26%|██▌       | 2770/10719 [34:59<1:06:33,  1.99it/s] 26%|██▌       | 2771/10719 [35:00<1:06:33,  1.99it/s] 26%|██▌       | 2772/10719 [35:00<1:06:24,  1.99it/s] 26%|██▌       | 2773/10719 [35:01<1:06:18,  2.00it/s] 26%|██▌       | 2774/10719 [35:01<1:06:21,  2.00it/s] 26%|██▌       | 2775/10719 [35:02<1:06:17,  2.00it/s]                                                      {'loss': 3.8231, 'grad_norm': 0.20849372446537018, 'learning_rate': 0.000925058137946348, 'epoch': 0.26}
- 26%|██▌       | 2775/10719 [35:02<1:06:17,  2.00it/s] 26%|██▌       | 2776/10719 [35:02<1:06:27,  1.99it/s] 26%|██▌       | 2777/10719 [35:03<1:06:20,  2.00it/s] 26%|██▌       | 2778/10719 [35:03<1:06:21,  1.99it/s] 26%|██▌       | 2779/10719 [35:04<1:06:13,  2.00it/s] 26%|██▌       | 2780/10719 [35:04<1:06:08,  2.00it/s] 26%|██▌       | 2781/10719 [35:05<1:06:07,  2.00it/s] 26%|██▌       | 2782/10719 [35:05<1:06:10,  2.00it/s] 26%|██▌       | 2783/10719 [35:06<1:06:06,  2.00it/s] 26%|██▌       | 2784/10719 [35:06<1:06:08,  2.00it/s] 26%|██▌       | 2785/10719 [35:07<1:06:07,  2.00it/s] 26%|██▌       | 2786/10719 [35:07<1:06:07,  2.00it/s] 26%|██▌       | 2787/10719 [35:08<1:06:07,  2.00it/s] 26%|██▌       | 2788/10719 [35:08<1:06:06,  2.00it/s] 26%|██▌       | 2789/10719 [35:09<1:06:09,  2.00it/s] 26%|██▌       | 2790/10719 [35:09<1:06:05,  2.00it/s] 26%|██▌       | 2791/10719 [35:10<1:06:04,  2.00it/s] 26%|██▌       | 2792/10719 [35:10<1:06:03,  2.00it/s] 26%|██▌       | 2793/10719 [35:11<1:06:10,  2.00it/s] 26%|██▌       | 2794/10719 [35:11<1:06:16,  1.99it/s] 26%|██▌       | 2795/10719 [35:12<1:06:36,  1.98it/s] 26%|██▌       | 2796/10719 [35:12<1:06:29,  1.99it/s] 26%|██▌       | 2797/10719 [35:13<1:06:23,  1.99it/s] 26%|██▌       | 2798/10719 [35:13<1:06:21,  1.99it/s] 26%|██▌       | 2799/10719 [35:14<1:06:19,  1.99it/s] 26%|██▌       | 2800/10719 [35:14<1:06:12,  1.99it/s]                                                      {'loss': 3.823, 'grad_norm': 0.2034180462360382, 'learning_rate': 0.0009229004718629663, 'epoch': 0.26}
- 26%|██▌       | 2800/10719 [35:14<1:06:12,  1.99it/s] 26%|██▌       | 2801/10719 [35:15<1:06:09,  1.99it/s] 26%|██▌       | 2802/10719 [35:15<1:06:11,  1.99it/s] 26%|██▌       | 2803/10719 [35:16<1:06:17,  1.99it/s] 26%|██▌       | 2804/10719 [35:16<1:06:07,  1.99it/s] 26%|██▌       | 2805/10719 [35:17<1:06:16,  1.99it/s] 26%|██▌       | 2806/10719 [35:17<1:06:13,  1.99it/s] 26%|██▌       | 2807/10719 [35:18<1:06:06,  1.99it/s] 26%|██▌       | 2808/10719 [35:18<1:06:00,  2.00it/s] 26%|██▌       | 2809/10719 [35:19<1:05:57,  2.00it/s] 26%|██▌       | 2810/10719 [35:19<1:05:50,  2.00it/s] 26%|██▌       | 2811/10719 [35:20<1:05:42,  2.01it/s] 26%|██▌       | 2812/10719 [35:20<1:05:37,  2.01it/s] 26%|██▌       | 2813/10719 [35:21<1:05:36,  2.01it/s] 26%|██▋       | 2814/10719 [35:21<1:05:58,  2.00it/s] 26%|██▋       | 2815/10719 [35:22<1:05:47,  2.00it/s] 26%|██▋       | 2816/10719 [35:22<1:05:44,  2.00it/s] 26%|██▋       | 2817/10719 [35:23<1:05:47,  2.00it/s] 26%|██▋       | 2818/10719 [35:23<1:05:52,  2.00it/s] 26%|██▋       | 2819/10719 [35:24<1:05:48,  2.00it/s] 26%|██▋       | 2820/10719 [35:24<1:05:44,  2.00it/s] 26%|██▋       | 2821/10719 [35:25<1:05:48,  2.00it/s] 26%|██▋       | 2822/10719 [35:25<1:05:45,  2.00it/s] 26%|██▋       | 2823/10719 [35:26<1:05:38,  2.00it/s] 26%|██▋       | 2824/10719 [35:26<1:05:38,  2.00it/s] 26%|██▋       | 2825/10719 [35:27<1:05:35,  2.01it/s]                                                      {'loss': 3.8131, 'grad_norm': 0.2170455902814865, 'learning_rate': 0.0009207147752710693, 'epoch': 0.26}
- 26%|██▋       | 2825/10719 [35:27<1:05:35,  2.01it/s] 26%|██▋       | 2826/10719 [35:27<1:06:05,  1.99it/s] 26%|██▋       | 2827/10719 [35:28<1:05:58,  1.99it/s] 26%|██▋       | 2828/10719 [35:28<1:06:12,  1.99it/s] 26%|██▋       | 2829/10719 [35:29<1:05:57,  1.99it/s] 26%|██▋       | 2830/10719 [35:29<1:05:46,  2.00it/s] 26%|██▋       | 2831/10719 [35:30<1:05:43,  2.00it/s] 26%|██▋       | 2832/10719 [35:30<1:05:31,  2.01it/s] 26%|██▋       | 2833/10719 [35:31<1:05:29,  2.01it/s] 26%|██▋       | 2834/10719 [35:31<1:05:29,  2.01it/s] 26%|██▋       | 2835/10719 [35:32<1:05:37,  2.00it/s] 26%|██▋       | 2836/10719 [35:32<1:05:38,  2.00it/s] 26%|██▋       | 2837/10719 [35:33<1:05:35,  2.00it/s] 26%|██▋       | 2838/10719 [35:33<1:05:34,  2.00it/s] 26%|██▋       | 2839/10719 [35:34<1:05:53,  1.99it/s] 26%|██▋       | 2840/10719 [35:34<1:05:44,  2.00it/s] 27%|██▋       | 2841/10719 [35:35<1:05:37,  2.00it/s] 27%|██▋       | 2842/10719 [35:35<1:05:30,  2.00it/s] 27%|██▋       | 2843/10719 [35:36<1:05:28,  2.01it/s] 27%|██▋       | 2844/10719 [35:36<1:05:26,  2.01it/s] 27%|██▋       | 2845/10719 [35:37<1:05:22,  2.01it/s] 27%|██▋       | 2846/10719 [35:37<1:05:22,  2.01it/s] 27%|██▋       | 2847/10719 [35:38<1:05:28,  2.00it/s] 27%|██▋       | 2848/10719 [35:38<1:05:24,  2.01it/s] 27%|██▋       | 2849/10719 [35:39<1:05:20,  2.01it/s] 27%|██▋       | 2850/10719 [35:39<1:05:23,  2.01it/s]                                                      {'loss': 3.8143, 'grad_norm': 0.22335997223854065, 'learning_rate': 0.0009185011930420656, 'epoch': 0.27}
- 27%|██▋       | 2850/10719 [35:39<1:05:23,  2.01it/s] 27%|██▋       | 2851/10719 [35:40<1:05:28,  2.00it/s] 27%|██▋       | 2852/10719 [35:40<1:05:27,  2.00it/s] 27%|██▋       | 2853/10719 [35:41<1:05:28,  2.00it/s] 27%|██▋       | 2854/10719 [35:41<1:05:32,  2.00it/s] 27%|██▋       | 2855/10719 [35:42<1:05:33,  2.00it/s] 27%|██▋       | 2856/10719 [35:42<1:05:29,  2.00it/s] 27%|██▋       | 2857/10719 [35:43<1:06:38,  1.97it/s] 27%|██▋       | 2858/10719 [35:43<1:06:15,  1.98it/s] 27%|██▋       | 2859/10719 [35:44<1:05:58,  1.99it/s] 27%|██▋       | 2860/10719 [35:44<1:05:48,  1.99it/s] 27%|██▋       | 2861/10719 [35:45<1:05:40,  1.99it/s] 27%|██▋       | 2862/10719 [35:45<1:05:35,  2.00it/s] 27%|██▋       | 2863/10719 [35:46<1:05:28,  2.00it/s] 27%|██▋       | 2864/10719 [35:46<1:05:31,  2.00it/s] 27%|██▋       | 2865/10719 [35:47<1:05:28,  2.00it/s] 27%|██▋       | 2866/10719 [35:47<1:05:21,  2.00it/s] 27%|██▋       | 2867/10719 [35:48<1:05:22,  2.00it/s] 27%|██▋       | 2868/10719 [35:48<1:05:18,  2.00it/s] 27%|██▋       | 2869/10719 [35:49<1:05:31,  2.00it/s] 27%|██▋       | 2870/10719 [35:49<1:05:22,  2.00it/s] 27%|██▋       | 2871/10719 [35:50<1:05:22,  2.00it/s] 27%|██▋       | 2872/10719 [35:50<1:05:31,  2.00it/s] 27%|██▋       | 2873/10719 [35:51<1:05:27,  2.00it/s] 27%|██▋       | 2874/10719 [35:51<1:05:24,  2.00it/s] 27%|██▋       | 2875/10719 [35:52<1:05:19,  2.00it/s]                                                      {'loss': 3.8106, 'grad_norm': 0.22258825600147247, 'learning_rate': 0.000916259871895667, 'epoch': 0.27}
- 27%|██▋       | 2875/10719 [35:52<1:05:19,  2.00it/s] 27%|██▋       | 2876/10719 [35:52<1:05:26,  2.00it/s] 27%|██▋       | 2877/10719 [35:53<1:05:18,  2.00it/s] 27%|██▋       | 2878/10719 [35:53<1:05:21,  2.00it/s] 27%|██▋       | 2879/10719 [35:54<1:05:18,  2.00it/s] 27%|██▋       | 2880/10719 [35:54<1:05:22,  2.00it/s] 27%|██▋       | 2881/10719 [35:55<1:05:17,  2.00it/s] 27%|██▋       | 2882/10719 [35:55<1:05:15,  2.00it/s] 27%|██▋       | 2883/10719 [35:56<1:05:19,  2.00it/s] 27%|██▋       | 2884/10719 [35:56<1:05:21,  2.00it/s] 27%|██▋       | 2885/10719 [35:57<1:05:20,  2.00it/s] 27%|██▋       | 2886/10719 [35:57<1:05:24,  2.00it/s] 27%|██▋       | 2887/10719 [35:58<1:05:20,  2.00it/s] 27%|██▋       | 2888/10719 [35:58<1:05:20,  2.00it/s] 27%|██▋       | 2889/10719 [35:59<1:05:26,  1.99it/s] 27%|██▋       | 2890/10719 [35:59<1:05:26,  1.99it/s] 27%|██▋       | 2891/10719 [36:00<1:05:30,  1.99it/s] 27%|██▋       | 2892/10719 [36:00<1:05:28,  1.99it/s] 27%|██▋       | 2893/10719 [36:01<1:05:22,  2.00it/s] 27%|██▋       | 2894/10719 [36:01<1:05:18,  2.00it/s] 27%|██▋       | 2895/10719 [36:02<1:05:16,  2.00it/s] 27%|██▋       | 2896/10719 [36:02<1:05:30,  1.99it/s] 27%|██▋       | 2897/10719 [36:03<1:06:10,  1.97it/s] 27%|██▋       | 2898/10719 [36:03<1:06:40,  1.96it/s] 27%|██▋       | 2899/10719 [36:04<1:06:11,  1.97it/s] 27%|██▋       | 2900/10719 [36:04<1:05:48,  1.98it/s]                                                      {'loss': 3.8153, 'grad_norm': 0.23890860378742218, 'learning_rate': 0.0009139909603901646, 'epoch': 0.27}
- 27%|██▋       | 2900/10719 [36:04<1:05:48,  1.98it/s] 27%|██▋       | 2901/10719 [36:05<1:05:45,  1.98it/s] 27%|██▋       | 2902/10719 [36:05<1:05:36,  1.99it/s] 27%|██▋       | 2903/10719 [36:06<1:05:31,  1.99it/s] 27%|██▋       | 2904/10719 [36:06<1:05:25,  1.99it/s] 27%|██▋       | 2905/10719 [36:07<1:05:19,  1.99it/s] 27%|██▋       | 2906/10719 [36:07<1:05:22,  1.99it/s] 27%|██▋       | 2907/10719 [36:08<1:05:49,  1.98it/s] 27%|██▋       | 2908/10719 [36:08<1:08:28,  1.90it/s] 27%|██▋       | 2909/10719 [36:09<1:07:31,  1.93it/s] 27%|██▋       | 2910/10719 [36:09<1:10:12,  1.85it/s] 27%|██▋       | 2911/10719 [36:10<1:08:45,  1.89it/s] 27%|██▋       | 2912/10719 [36:10<1:07:36,  1.92it/s] 27%|██▋       | 2913/10719 [36:11<1:06:51,  1.95it/s] 27%|██▋       | 2914/10719 [36:11<1:06:13,  1.96it/s] 27%|██▋       | 2915/10719 [36:12<1:05:52,  1.97it/s] 27%|██▋       | 2916/10719 [36:12<1:05:30,  1.99it/s] 27%|██▋       | 2917/10719 [36:13<1:05:18,  1.99it/s] 27%|██▋       | 2918/10719 [36:13<1:05:10,  1.99it/s] 27%|██▋       | 2919/10719 [36:14<1:05:05,  2.00it/s] 27%|██▋       | 2920/10719 [36:14<1:04:57,  2.00it/s] 27%|██▋       | 2921/10719 [36:15<1:04:54,  2.00it/s] 27%|██▋       | 2922/10719 [36:15<1:04:49,  2.00it/s] 27%|██▋       | 2923/10719 [36:16<1:04:50,  2.00it/s] 27%|██▋       | 2924/10719 [36:16<1:04:43,  2.01it/s] 27%|██▋       | 2925/10719 [36:17<1:04:47,  2.00it/s]                                                      {'loss': 3.8085, 'grad_norm': 0.2074945569038391, 'learning_rate': 0.0009116946089125826, 'epoch': 0.27}
- 27%|██▋       | 2925/10719 [36:17<1:04:47,  2.00it/s] 27%|██▋       | 2926/10719 [36:17<1:04:46,  2.01it/s] 27%|██▋       | 2927/10719 [36:18<1:04:44,  2.01it/s] 27%|██▋       | 2928/10719 [36:18<1:04:40,  2.01it/s] 27%|██▋       | 2929/10719 [36:19<1:04:38,  2.01it/s] 27%|██▋       | 2930/10719 [36:19<1:04:36,  2.01it/s] 27%|██▋       | 2931/10719 [36:20<1:04:43,  2.01it/s] 27%|██▋       | 2932/10719 [36:20<1:04:53,  2.00it/s] 27%|██▋       | 2933/10719 [36:21<1:05:02,  2.00it/s] 27%|██▋       | 2934/10719 [36:21<1:05:05,  1.99it/s] 27%|██▋       | 2935/10719 [36:22<1:05:06,  1.99it/s] 27%|██▋       | 2936/10719 [36:22<1:07:58,  1.91it/s] 27%|██▋       | 2937/10719 [36:23<1:07:02,  1.93it/s] 27%|██▋       | 2938/10719 [36:23<1:06:19,  1.96it/s] 27%|██▋       | 2939/10719 [36:24<1:05:54,  1.97it/s] 27%|██▋       | 2940/10719 [36:24<1:05:36,  1.98it/s] 27%|██▋       | 2941/10719 [36:25<1:05:18,  1.98it/s] 27%|██▋       | 2942/10719 [36:25<1:05:08,  1.99it/s] 27%|██▋       | 2943/10719 [36:26<1:04:59,  1.99it/s] 27%|██▋       | 2944/10719 [36:26<1:04:55,  2.00it/s] 27%|██▋       | 2945/10719 [36:27<1:04:45,  2.00it/s] 27%|██▋       | 2946/10719 [36:27<1:04:39,  2.00it/s] 27%|██▋       | 2947/10719 [36:28<1:04:37,  2.00it/s] 28%|██▊       | 2948/10719 [36:28<1:04:32,  2.01it/s] 28%|██▊       | 2949/10719 [36:29<1:05:07,  1.99it/s] 28%|██▊       | 2950/10719 [36:29<1:05:00,  1.99it/s]                                                      {'loss': 3.8062, 'grad_norm': 0.23657357692718506, 'learning_rate': 0.0009093709696687089, 'epoch': 0.28}
- 28%|██▊       | 2950/10719 [36:29<1:05:00,  1.99it/s] 28%|██▊       | 2951/10719 [36:30<1:04:52,  2.00it/s] 28%|██▊       | 2952/10719 [36:30<1:04:45,  2.00it/s] 28%|██▊       | 2953/10719 [36:31<1:04:38,  2.00it/s] 28%|██▊       | 2954/10719 [36:31<1:04:52,  1.99it/s] 28%|██▊       | 2955/10719 [36:32<1:04:42,  2.00it/s] 28%|██▊       | 2956/10719 [36:32<1:04:40,  2.00it/s] 28%|██▊       | 2957/10719 [36:33<1:04:39,  2.00it/s] 28%|██▊       | 2958/10719 [36:33<1:04:38,  2.00it/s] 28%|██▊       | 2959/10719 [36:34<1:04:33,  2.00it/s] 28%|██▊       | 2960/10719 [36:34<1:04:28,  2.01it/s] 28%|██▊       | 2961/10719 [36:35<1:04:27,  2.01it/s] 28%|██▊       | 2962/10719 [36:35<1:04:28,  2.01it/s] 28%|██▊       | 2963/10719 [36:36<1:04:25,  2.01it/s] 28%|██▊       | 2964/10719 [36:36<1:04:26,  2.01it/s] 28%|██▊       | 2965/10719 [36:37<1:04:27,  2.01it/s] 28%|██▊       | 2966/10719 [36:37<1:04:29,  2.00it/s] 28%|██▊       | 2967/10719 [36:38<1:04:27,  2.00it/s] 28%|██▊       | 2968/10719 [36:38<1:04:40,  2.00it/s] 28%|██▊       | 2969/10719 [36:39<1:04:40,  2.00it/s] 28%|██▊       | 2970/10719 [36:39<1:04:42,  2.00it/s] 28%|██▊       | 2971/10719 [36:40<1:04:37,  2.00it/s] 28%|██▊       | 2972/10719 [36:40<1:04:32,  2.00it/s] 28%|██▊       | 2973/10719 [36:41<1:04:27,  2.00it/s] 28%|██▊       | 2974/10719 [36:41<1:04:30,  2.00it/s] 28%|██▊       | 2975/10719 [36:42<1:04:22,  2.00it/s]                                                      {'loss': 3.8, 'grad_norm': 0.20847098529338837, 'learning_rate': 0.0009070201966730079, 'epoch': 0.28}
- 28%|██▊       | 2975/10719 [36:42<1:04:22,  2.00it/s] 28%|██▊       | 2976/10719 [36:42<1:04:24,  2.00it/s] 28%|██▊       | 2977/10719 [36:43<1:04:31,  2.00it/s] 28%|██▊       | 2978/10719 [36:43<1:04:31,  2.00it/s] 28%|██▊       | 2979/10719 [36:44<1:04:28,  2.00it/s] 28%|██▊       | 2980/10719 [36:44<1:04:26,  2.00it/s] 28%|██▊       | 2981/10719 [36:45<1:04:25,  2.00it/s] 28%|██▊       | 2982/10719 [36:45<1:04:57,  1.99it/s] 28%|██▊       | 2983/10719 [36:46<1:08:16,  1.89it/s] 28%|██▊       | 2984/10719 [36:47<1:07:56,  1.90it/s] 28%|██▊       | 2985/10719 [36:47<1:06:52,  1.93it/s] 28%|██▊       | 2986/10719 [36:48<1:06:07,  1.95it/s] 28%|██▊       | 2987/10719 [36:48<1:05:31,  1.97it/s] 28%|██▊       | 2988/10719 [36:49<1:05:04,  1.98it/s] 28%|██▊       | 2989/10719 [36:49<1:04:49,  1.99it/s] 28%|██▊       | 2990/10719 [36:50<1:04:36,  1.99it/s] 28%|██▊       | 2991/10719 [36:50<1:04:23,  2.00it/s] 28%|██▊       | 2992/10719 [36:51<1:04:20,  2.00it/s] 28%|██▊       | 2993/10719 [36:51<1:04:12,  2.01it/s] 28%|██▊       | 2994/10719 [36:52<1:04:08,  2.01it/s] 28%|██▊       | 2995/10719 [36:52<1:04:07,  2.01it/s] 28%|██▊       | 2996/10719 [36:53<1:04:07,  2.01it/s] 28%|██▊       | 2997/10719 [36:53<1:04:07,  2.01it/s] 28%|██▊       | 2998/10719 [36:54<1:04:18,  2.00it/s] 28%|██▊       | 2999/10719 [36:54<1:04:22,  2.00it/s] 28%|██▊       | 3000/10719 [36:55<1:04:17,  2.00it/s]                                                      {'loss': 3.7972, 'grad_norm': 0.21157535910606384, 'learning_rate': 0.0009046424457384113, 'epoch': 0.28}
- 28%|██▊       | 3000/10719 [36:55<1:04:17,  2.00it/s] 28%|██▊       | 3001/10719 [36:55<1:04:21,  2.00it/s] 28%|██▊       | 3002/10719 [36:56<1:04:22,  2.00it/s] 28%|██▊       | 3003/10719 [36:56<1:04:17,  2.00it/s] 28%|██▊       | 3004/10719 [36:57<1:04:12,  2.00it/s] 28%|██▊       | 3005/10719 [36:57<1:04:10,  2.00it/s] 28%|██▊       | 3006/10719 [36:58<1:04:05,  2.01it/s] 28%|██▊       | 3007/10719 [36:58<1:04:05,  2.01it/s] 28%|██▊       | 3008/10719 [36:59<1:04:05,  2.01it/s] 28%|██▊       | 3009/10719 [36:59<1:03:58,  2.01it/s] 28%|██▊       | 3010/10719 [37:00<1:04:05,  2.00it/s] 28%|██▊       | 3011/10719 [37:00<1:04:04,  2.00it/s] 28%|██▊       | 3012/10719 [37:01<1:04:05,  2.00it/s] 28%|██▊       | 3013/10719 [37:01<1:03:59,  2.01it/s] 28%|██▊       | 3014/10719 [37:02<1:04:01,  2.01it/s] 28%|██▊       | 3015/10719 [37:02<1:04:00,  2.01it/s] 28%|██▊       | 3016/10719 [37:03<1:03:55,  2.01it/s] 28%|██▊       | 3017/10719 [37:03<1:03:52,  2.01it/s] 28%|██▊       | 3018/10719 [37:04<1:03:54,  2.01it/s] 28%|██▊       | 3019/10719 [37:04<1:03:53,  2.01it/s] 28%|██▊       | 3020/10719 [37:05<1:03:57,  2.01it/s] 28%|██▊       | 3021/10719 [37:05<1:04:01,  2.00it/s] 28%|██▊       | 3022/10719 [37:06<1:04:06,  2.00it/s] 28%|██▊       | 3023/10719 [37:06<1:04:02,  2.00it/s] 28%|██▊       | 3024/10719 [37:07<1:04:03,  2.00it/s] 28%|██▊       | 3025/10719 [37:07<1:04:03,  2.00it/s]                                                      {'loss': 3.7952, 'grad_norm': 0.20585472881793976, 'learning_rate': 0.0009022378744659918, 'epoch': 0.28}
- 28%|██▊       | 3025/10719 [37:07<1:04:03,  2.00it/s] 28%|██▊       | 3026/10719 [37:08<1:04:22,  1.99it/s] 28%|██▊       | 3027/10719 [37:08<1:04:15,  2.00it/s] 28%|██▊       | 3028/10719 [37:09<1:04:09,  2.00it/s] 28%|██▊       | 3029/10719 [37:09<1:04:12,  2.00it/s] 28%|██▊       | 3030/10719 [37:10<1:04:04,  2.00it/s] 28%|██▊       | 3031/10719 [37:10<1:04:05,  2.00it/s] 28%|██▊       | 3032/10719 [37:11<1:04:04,  2.00it/s] 28%|██▊       | 3033/10719 [37:11<1:04:02,  2.00it/s] 28%|██▊       | 3034/10719 [37:12<1:03:57,  2.00it/s] 28%|██▊       | 3035/10719 [37:12<1:03:59,  2.00it/s] 28%|██▊       | 3036/10719 [37:13<1:04:05,  2.00it/s] 28%|██▊       | 3037/10719 [37:13<1:04:04,  2.00it/s] 28%|██▊       | 3038/10719 [37:14<1:04:01,  2.00it/s] 28%|██▊       | 3039/10719 [37:14<1:04:01,  2.00it/s] 28%|██▊       | 3040/10719 [37:15<1:04:39,  1.98it/s] 28%|██▊       | 3041/10719 [37:15<1:04:36,  1.98it/s] 28%|██▊       | 3042/10719 [37:16<1:04:43,  1.98it/s] 28%|██▊       | 3043/10719 [37:16<1:07:33,  1.89it/s] 28%|██▊       | 3044/10719 [37:17<1:06:24,  1.93it/s] 28%|██▊       | 3045/10719 [37:17<1:05:39,  1.95it/s] 28%|██▊       | 3046/10719 [37:18<1:05:17,  1.96it/s] 28%|██▊       | 3047/10719 [37:18<1:06:01,  1.94it/s] 28%|██▊       | 3048/10719 [37:19<1:05:28,  1.95it/s] 28%|██▊       | 3049/10719 [37:19<1:05:07,  1.96it/s] 28%|██▊       | 3050/10719 [37:20<1:04:46,  1.97it/s]                                                      {'loss': 3.7962, 'grad_norm': 0.20977270603179932, 'learning_rate': 0.0008998066422345155, 'epoch': 0.28}
- 28%|██▊       | 3050/10719 [37:20<1:04:46,  1.97it/s] 28%|██▊       | 3051/10719 [37:20<1:04:37,  1.98it/s] 28%|██▊       | 3052/10719 [37:21<1:04:32,  1.98it/s] 28%|██▊       | 3053/10719 [37:21<1:04:21,  1.99it/s] 28%|██▊       | 3054/10719 [37:22<1:04:15,  1.99it/s] 29%|██▊       | 3055/10719 [37:22<1:04:05,  1.99it/s] 29%|██▊       | 3056/10719 [37:23<1:04:02,  1.99it/s] 29%|██▊       | 3057/10719 [37:23<1:04:02,  1.99it/s] 29%|██▊       | 3058/10719 [37:24<1:04:19,  1.99it/s] 29%|██▊       | 3059/10719 [37:24<1:07:08,  1.90it/s] 29%|██▊       | 3060/10719 [37:25<1:06:07,  1.93it/s] 29%|██▊       | 3061/10719 [37:25<1:05:25,  1.95it/s] 29%|██▊       | 3062/10719 [37:26<1:04:58,  1.96it/s] 29%|██▊       | 3063/10719 [37:26<1:05:36,  1.94it/s] 29%|██▊       | 3064/10719 [37:27<1:05:01,  1.96it/s] 29%|██▊       | 3065/10719 [37:27<1:04:46,  1.97it/s] 29%|██▊       | 3066/10719 [37:28<1:04:36,  1.97it/s] 29%|██▊       | 3067/10719 [37:28<1:04:17,  1.98it/s] 29%|██▊       | 3068/10719 [37:29<1:04:08,  1.99it/s] 29%|██▊       | 3069/10719 [37:29<1:04:06,  1.99it/s] 29%|██▊       | 3070/10719 [37:30<1:04:07,  1.99it/s] 29%|██▊       | 3071/10719 [37:30<1:07:45,  1.88it/s] 29%|██▊       | 3072/10719 [37:31<1:06:39,  1.91it/s] 29%|██▊       | 3073/10719 [37:31<1:05:42,  1.94it/s] 29%|██▊       | 3074/10719 [37:32<1:05:08,  1.96it/s] 29%|██▊       | 3075/10719 [37:32<1:04:39,  1.97it/s]                                                      {'loss': 3.7804, 'grad_norm': 0.2023279368877411, 'learning_rate': 0.0008973489101898793, 'epoch': 0.29}
- 29%|██▊       | 3075/10719 [37:32<1:04:39,  1.97it/s] 29%|██▊       | 3076/10719 [37:33<1:04:30,  1.97it/s] 29%|██▊       | 3077/10719 [37:33<1:04:18,  1.98it/s] 29%|██▊       | 3078/10719 [37:34<1:04:02,  1.99it/s] 29%|██▊       | 3079/10719 [37:34<1:03:51,  1.99it/s] 29%|██▊       | 3080/10719 [37:35<1:03:51,  1.99it/s] 29%|██▊       | 3081/10719 [37:35<1:03:55,  1.99it/s] 29%|██▉       | 3082/10719 [37:36<1:03:56,  1.99it/s] 29%|██▉       | 3083/10719 [37:36<1:03:48,  1.99it/s] 29%|██▉       | 3084/10719 [37:37<1:03:44,  2.00it/s] 29%|██▉       | 3085/10719 [37:37<1:03:39,  2.00it/s] 29%|██▉       | 3086/10719 [37:38<1:03:46,  1.99it/s] 29%|██▉       | 3087/10719 [37:38<1:03:49,  1.99it/s] 29%|██▉       | 3088/10719 [37:39<1:03:50,  1.99it/s] 29%|██▉       | 3089/10719 [37:39<1:03:46,  1.99it/s] 29%|██▉       | 3090/10719 [37:40<1:03:39,  2.00it/s] 29%|██▉       | 3091/10719 [37:40<1:03:37,  2.00it/s] 29%|██▉       | 3092/10719 [37:41<1:03:40,  2.00it/s] 29%|██▉       | 3093/10719 [37:41<1:03:41,  2.00it/s] 29%|██▉       | 3094/10719 [37:42<1:03:38,  2.00it/s] 29%|██▉       | 3095/10719 [37:42<1:03:36,  2.00it/s] 29%|██▉       | 3096/10719 [37:43<1:03:31,  2.00it/s] 29%|██▉       | 3097/10719 [37:43<1:03:30,  2.00it/s] 29%|██▉       | 3098/10719 [37:44<1:03:32,  2.00it/s] 29%|██▉       | 3099/10719 [37:44<1:03:42,  1.99it/s] 29%|██▉       | 3100/10719 [37:45<1:03:44,  1.99it/s]                                                      {'loss': 3.7889, 'grad_norm': 0.20101884007453918, 'learning_rate': 0.0008948648412344291, 'epoch': 0.29}
- 29%|██▉       | 3100/10719 [37:45<1:03:44,  1.99it/s] 29%|██▉       | 3101/10719 [37:45<1:03:48,  1.99it/s] 29%|██▉       | 3102/10719 [37:46<1:03:48,  1.99it/s] 29%|██▉       | 3103/10719 [37:46<1:03:36,  2.00it/s] 29%|██▉       | 3104/10719 [37:47<1:03:31,  2.00it/s] 29%|██▉       | 3105/10719 [37:47<1:03:22,  2.00it/s] 29%|██▉       | 3106/10719 [37:48<1:03:14,  2.01it/s] 29%|██▉       | 3107/10719 [37:48<1:03:15,  2.01it/s] 29%|██▉       | 3108/10719 [37:49<1:03:13,  2.01it/s] 29%|██▉       | 3109/10719 [37:49<1:03:13,  2.01it/s] 29%|██▉       | 3110/10719 [37:50<1:03:13,  2.01it/s] 29%|██▉       | 3111/10719 [37:50<1:03:09,  2.01it/s] 29%|██▉       | 3112/10719 [37:51<1:03:03,  2.01it/s] 29%|██▉       | 3113/10719 [37:51<1:03:06,  2.01it/s] 29%|██▉       | 3114/10719 [37:52<1:03:02,  2.01it/s] 29%|██▉       | 3115/10719 [37:52<1:03:01,  2.01it/s] 29%|██▉       | 3116/10719 [37:53<1:03:09,  2.01it/s] 29%|██▉       | 3117/10719 [37:53<1:03:14,  2.00it/s] 29%|██▉       | 3118/10719 [37:54<1:03:16,  2.00it/s] 29%|██▉       | 3119/10719 [37:54<1:03:16,  2.00it/s] 29%|██▉       | 3120/10719 [37:55<1:03:13,  2.00it/s] 29%|██▉       | 3121/10719 [37:55<1:03:12,  2.00it/s] 29%|██▉       | 3122/10719 [37:56<1:03:12,  2.00it/s] 29%|██▉       | 3123/10719 [37:56<1:03:06,  2.01it/s] 29%|██▉       | 3124/10719 [37:57<1:03:13,  2.00it/s] 29%|██▉       | 3125/10719 [37:57<1:03:11,  2.00it/s]                                                      {'loss': 3.7951, 'grad_norm': 0.20852629840373993, 'learning_rate': 0.0008923546000161629, 'epoch': 0.29}
- 29%|██▉       | 3125/10719 [37:57<1:03:11,  2.00it/s] 29%|██▉       | 3126/10719 [37:58<1:03:10,  2.00it/s] 29%|██▉       | 3127/10719 [37:58<1:03:05,  2.01it/s] 29%|██▉       | 3128/10719 [37:59<1:03:04,  2.01it/s] 29%|██▉       | 3129/10719 [37:59<1:02:57,  2.01it/s] 29%|██▉       | 3130/10719 [38:00<1:02:57,  2.01it/s] 29%|██▉       | 3131/10719 [38:00<1:02:55,  2.01it/s] 29%|██▉       | 3132/10719 [38:01<1:02:52,  2.01it/s] 29%|██▉       | 3133/10719 [38:01<1:02:55,  2.01it/s] 29%|██▉       | 3134/10719 [38:02<1:02:51,  2.01it/s] 29%|██▉       | 3135/10719 [38:02<1:02:49,  2.01it/s] 29%|██▉       | 3136/10719 [38:03<1:02:53,  2.01it/s] 29%|██▉       | 3137/10719 [38:03<1:02:43,  2.01it/s] 29%|██▉       | 3138/10719 [38:04<1:02:45,  2.01it/s] 29%|██▉       | 3139/10719 [38:04<1:02:48,  2.01it/s] 29%|██▉       | 3140/10719 [38:05<1:02:50,  2.01it/s] 29%|██▉       | 3141/10719 [38:05<1:02:54,  2.01it/s] 29%|██▉       | 3142/10719 [38:06<1:03:01,  2.00it/s] 29%|██▉       | 3143/10719 [38:06<1:03:06,  2.00it/s] 29%|██▉       | 3144/10719 [38:07<1:03:02,  2.00it/s] 29%|██▉       | 3145/10719 [38:07<1:02:58,  2.00it/s] 29%|██▉       | 3146/10719 [38:08<1:02:54,  2.01it/s] 29%|██▉       | 3147/10719 [38:08<1:02:51,  2.01it/s] 29%|██▉       | 3148/10719 [38:09<1:02:52,  2.01it/s] 29%|██▉       | 3149/10719 [38:09<1:02:52,  2.01it/s] 29%|██▉       | 3150/10719 [38:10<1:02:47,  2.01it/s]                                                      {'loss': 3.7881, 'grad_norm': 0.20671774446964264, 'learning_rate': 0.0008898183529178174, 'epoch': 0.29}
- 29%|██▉       | 3150/10719 [38:10<1:02:47,  2.01it/s] 29%|██▉       | 3151/10719 [38:10<1:02:54,  2.00it/s] 29%|██▉       | 3152/10719 [38:11<1:02:55,  2.00it/s] 29%|██▉       | 3153/10719 [38:11<1:03:02,  2.00it/s] 29%|██▉       | 3154/10719 [38:12<1:03:00,  2.00it/s] 29%|██▉       | 3155/10719 [38:12<1:03:00,  2.00it/s] 29%|██▉       | 3156/10719 [38:13<1:02:57,  2.00it/s] 29%|██▉       | 3157/10719 [38:13<1:02:56,  2.00it/s] 29%|██▉       | 3158/10719 [38:14<1:02:53,  2.00it/s] 29%|██▉       | 3159/10719 [38:14<1:02:48,  2.01it/s] 29%|██▉       | 3160/10719 [38:15<1:02:52,  2.00it/s] 29%|██▉       | 3161/10719 [38:15<1:02:55,  2.00it/s] 29%|██▉       | 3162/10719 [38:16<1:02:58,  2.00it/s] 30%|██▉       | 3163/10719 [38:16<1:02:52,  2.00it/s] 30%|██▉       | 3164/10719 [38:17<1:02:55,  2.00it/s] 30%|██▉       | 3165/10719 [38:17<1:02:59,  2.00it/s] 30%|██▉       | 3166/10719 [38:18<1:03:01,  2.00it/s] 30%|██▉       | 3167/10719 [38:18<1:03:09,  1.99it/s] 30%|██▉       | 3168/10719 [38:19<1:03:02,  2.00it/s] 30%|██▉       | 3169/10719 [38:19<1:03:04,  1.99it/s] 30%|██▉       | 3170/10719 [38:20<1:03:05,  1.99it/s] 30%|██▉       | 3171/10719 [38:20<1:03:12,  1.99it/s] 30%|██▉       | 3172/10719 [38:21<1:03:08,  1.99it/s] 30%|██▉       | 3173/10719 [38:21<1:03:05,  1.99it/s] 30%|██▉       | 3174/10719 [38:22<1:03:02,  1.99it/s] 30%|██▉       | 3175/10719 [38:22<1:02:56,  2.00it/s]                                                      {'loss': 3.7731, 'grad_norm': 0.23116770386695862, 'learning_rate': 0.0008872562680458398, 'epoch': 0.3}
- 30%|██▉       | 3175/10719 [38:22<1:02:56,  2.00it/s] 30%|██▉       | 3176/10719 [38:23<1:03:01,  1.99it/s] 30%|██▉       | 3177/10719 [38:23<1:02:58,  2.00it/s] 30%|██▉       | 3178/10719 [38:24<1:02:51,  2.00it/s] 30%|██▉       | 3179/10719 [38:24<1:02:52,  2.00it/s] 30%|██▉       | 3180/10719 [38:25<1:02:49,  2.00it/s] 30%|██▉       | 3181/10719 [38:25<1:02:48,  2.00it/s] 30%|██▉       | 3182/10719 [38:26<1:02:50,  2.00it/s] 30%|██▉       | 3183/10719 [38:26<1:02:45,  2.00it/s] 30%|██▉       | 3184/10719 [38:27<1:02:47,  2.00it/s] 30%|██▉       | 3185/10719 [38:27<1:02:45,  2.00it/s] 30%|██▉       | 3186/10719 [38:28<1:03:16,  1.98it/s] 30%|██▉       | 3187/10719 [38:28<1:04:39,  1.94it/s] 30%|██▉       | 3188/10719 [38:29<1:04:08,  1.96it/s] 30%|██▉       | 3189/10719 [38:29<1:03:44,  1.97it/s] 30%|██▉       | 3190/10719 [38:30<1:03:24,  1.98it/s] 30%|██▉       | 3191/10719 [38:30<1:03:13,  1.98it/s] 30%|██▉       | 3192/10719 [38:31<1:03:07,  1.99it/s] 30%|██▉       | 3193/10719 [38:31<1:03:03,  1.99it/s] 30%|██▉       | 3194/10719 [38:32<1:02:54,  1.99it/s] 30%|██▉       | 3195/10719 [38:32<1:02:49,  2.00it/s] 30%|██▉       | 3196/10719 [38:33<1:02:42,  2.00it/s] 30%|██▉       | 3197/10719 [38:34<1:13:58,  1.69it/s] 30%|██▉       | 3198/10719 [38:34<1:10:32,  1.78it/s] 30%|██▉       | 3199/10719 [38:35<1:08:04,  1.84it/s] 30%|██▉       | 3200/10719 [38:35<1:06:28,  1.89it/s]                                                      {'loss': 3.7717, 'grad_norm': 0.21617841720581055, 'learning_rate': 0.0008846685152192458, 'epoch': 0.3}
- 30%|██▉       | 3200/10719 [38:35<1:06:28,  1.89it/s] 30%|██▉       | 3201/10719 [38:36<1:05:23,  1.92it/s] 30%|██▉       | 3202/10719 [38:36<1:04:32,  1.94it/s] 30%|██▉       | 3203/10719 [38:37<1:03:52,  1.96it/s] 30%|██▉       | 3204/10719 [38:37<1:03:30,  1.97it/s] 30%|██▉       | 3205/10719 [38:38<1:03:37,  1.97it/s] 30%|██▉       | 3206/10719 [38:38<1:07:51,  1.85it/s] 30%|██▉       | 3207/10719 [38:39<1:06:11,  1.89it/s] 30%|██▉       | 3208/10719 [38:39<1:05:01,  1.93it/s] 30%|██▉       | 3209/10719 [38:40<1:04:17,  1.95it/s] 30%|██▉       | 3210/10719 [38:41<1:16:43,  1.63it/s] 30%|██▉       | 3211/10719 [38:41<1:12:38,  1.72it/s] 30%|██▉       | 3212/10719 [38:42<1:09:34,  1.80it/s] 30%|██▉       | 3213/10719 [38:42<1:07:22,  1.86it/s] 30%|██▉       | 3214/10719 [38:43<1:05:54,  1.90it/s] 30%|██▉       | 3215/10719 [38:43<1:04:52,  1.93it/s] 30%|███       | 3216/10719 [38:44<1:04:03,  1.95it/s] 30%|███       | 3217/10719 [38:44<1:03:30,  1.97it/s] 30%|███       | 3218/10719 [38:45<1:03:08,  1.98it/s] 30%|███       | 3219/10719 [38:45<1:02:48,  1.99it/s] 30%|███       | 3220/10719 [38:46<1:02:36,  2.00it/s] 30%|███       | 3221/10719 [38:46<1:02:29,  2.00it/s] 30%|███       | 3222/10719 [38:47<1:02:19,  2.00it/s] 30%|███       | 3223/10719 [38:47<1:02:14,  2.01it/s] 30%|███       | 3224/10719 [38:48<1:02:12,  2.01it/s] 30%|███       | 3225/10719 [38:48<1:02:07,  2.01it/s]                                                      {'loss': 3.7779, 'grad_norm': 0.21094843745231628, 'learning_rate': 0.0008820552659583632, 'epoch': 0.3}
- 30%|███       | 3225/10719 [38:48<1:02:07,  2.01it/s] 30%|███       | 3226/10719 [38:49<1:02:14,  2.01it/s] 30%|███       | 3227/10719 [38:49<1:02:49,  1.99it/s] 30%|███       | 3228/10719 [38:50<1:02:46,  1.99it/s] 30%|███       | 3229/10719 [38:50<1:02:35,  1.99it/s] 30%|███       | 3230/10719 [38:51<1:02:27,  2.00it/s] 30%|███       | 3231/10719 [38:51<1:02:24,  2.00it/s] 30%|███       | 3232/10719 [38:52<1:02:20,  2.00it/s] 30%|███       | 3233/10719 [38:52<1:02:14,  2.00it/s] 30%|███       | 3234/10719 [38:53<1:02:18,  2.00it/s] 30%|███       | 3235/10719 [38:53<1:02:14,  2.00it/s] 30%|███       | 3236/10719 [38:54<1:02:14,  2.00it/s] 30%|███       | 3237/10719 [38:54<1:02:18,  2.00it/s] 30%|███       | 3238/10719 [38:55<1:02:16,  2.00it/s] 30%|███       | 3239/10719 [38:55<1:02:10,  2.01it/s] 30%|███       | 3240/10719 [38:56<1:02:07,  2.01it/s] 30%|███       | 3241/10719 [38:56<1:02:05,  2.01it/s] 30%|███       | 3242/10719 [38:57<1:01:58,  2.01it/s] 30%|███       | 3243/10719 [38:57<1:02:04,  2.01it/s] 30%|███       | 3244/10719 [38:58<1:03:59,  1.95it/s] 30%|███       | 3245/10719 [38:58<1:05:06,  1.91it/s] 30%|███       | 3246/10719 [38:59<1:04:11,  1.94it/s] 30%|███       | 3247/10719 [38:59<1:03:37,  1.96it/s] 30%|███       | 3248/10719 [39:00<1:03:11,  1.97it/s] 30%|███       | 3249/10719 [39:00<1:02:51,  1.98it/s] 30%|███       | 3250/10719 [39:01<1:02:44,  1.98it/s]                                                      {'loss': 3.7701, 'grad_norm': 0.20471686124801636, 'learning_rate': 0.0008794166934734639, 'epoch': 0.3}
- 30%|███       | 3250/10719 [39:01<1:02:44,  1.98it/s] 30%|███       | 3251/10719 [39:01<1:02:39,  1.99it/s] 30%|███       | 3252/10719 [39:02<1:02:29,  1.99it/s] 30%|███       | 3253/10719 [39:02<1:02:22,  1.99it/s] 30%|███       | 3254/10719 [39:03<1:02:16,  2.00it/s] 30%|███       | 3255/10719 [39:03<1:02:09,  2.00it/s] 30%|███       | 3256/10719 [39:04<1:02:05,  2.00it/s] 30%|███       | 3257/10719 [39:04<1:02:04,  2.00it/s] 30%|███       | 3258/10719 [39:05<1:02:06,  2.00it/s] 30%|███       | 3259/10719 [39:05<1:02:06,  2.00it/s] 30%|███       | 3260/10719 [39:06<1:02:02,  2.00it/s] 30%|███       | 3261/10719 [39:06<1:02:00,  2.00it/s] 30%|███       | 3262/10719 [39:07<1:02:02,  2.00it/s] 30%|███       | 3263/10719 [39:07<1:01:59,  2.00it/s] 30%|███       | 3264/10719 [39:08<1:01:57,  2.01it/s] 30%|███       | 3265/10719 [39:08<1:02:00,  2.00it/s] 30%|███       | 3266/10719 [39:09<1:01:58,  2.00it/s] 30%|███       | 3267/10719 [39:09<1:01:59,  2.00it/s] 30%|███       | 3268/10719 [39:10<1:01:56,  2.01it/s] 30%|███       | 3269/10719 [39:10<1:01:57,  2.00it/s] 31%|███       | 3270/10719 [39:11<1:01:51,  2.01it/s] 31%|███       | 3271/10719 [39:11<1:01:50,  2.01it/s] 31%|███       | 3272/10719 [39:12<1:01:53,  2.01it/s] 31%|███       | 3273/10719 [39:12<1:01:46,  2.01it/s] 31%|███       | 3274/10719 [39:13<1:01:48,  2.01it/s] 31%|███       | 3275/10719 [39:13<1:01:57,  2.00it/s]                                                      {'loss': 3.7801, 'grad_norm': 0.19982314109802246, 'learning_rate': 0.000876752972653283, 'epoch': 0.31}
- 31%|███       | 3275/10719 [39:13<1:01:57,  2.00it/s] 31%|███       | 3276/10719 [39:14<1:02:08,  2.00it/s] 31%|███       | 3277/10719 [39:14<1:02:07,  2.00it/s] 31%|███       | 3278/10719 [39:15<1:02:01,  2.00it/s] 31%|███       | 3279/10719 [39:15<1:01:59,  2.00it/s] 31%|███       | 3280/10719 [39:16<1:01:58,  2.00it/s] 31%|███       | 3281/10719 [39:16<1:02:11,  1.99it/s] 31%|███       | 3282/10719 [39:17<1:02:09,  1.99it/s] 31%|███       | 3283/10719 [39:17<1:02:03,  2.00it/s] 31%|███       | 3284/10719 [39:18<1:01:57,  2.00it/s] 31%|███       | 3285/10719 [39:18<1:02:03,  2.00it/s] 31%|███       | 3286/10719 [39:19<1:02:05,  2.00it/s] 31%|███       | 3287/10719 [39:19<1:01:59,  2.00it/s] 31%|███       | 3288/10719 [39:20<1:01:57,  2.00it/s] 31%|███       | 3289/10719 [39:20<1:01:52,  2.00it/s] 31%|███       | 3290/10719 [39:21<1:01:54,  2.00it/s] 31%|███       | 3291/10719 [39:21<1:01:51,  2.00it/s] 31%|███       | 3292/10719 [39:22<1:01:44,  2.01it/s] 31%|███       | 3293/10719 [39:22<1:01:47,  2.00it/s] 31%|█���█       | 3294/10719 [39:23<1:01:53,  2.00it/s] 31%|███       | 3295/10719 [39:23<1:01:48,  2.00it/s] 31%|███       | 3296/10719 [39:24<1:01:42,  2.00it/s] 31%|███       | 3297/10719 [39:24<1:01:48,  2.00it/s] 31%|███       | 3298/10719 [39:25<1:01:49,  2.00it/s] 31%|███       | 3299/10719 [39:25<1:01:49,  2.00it/s] 31%|███       | 3300/10719 [39:26<1:01:43,  2.00it/s]                                                      {'loss': 3.7709, 'grad_norm': 0.20784808695316315, 'learning_rate': 0.0008740642800534262, 'epoch': 0.31}
- 31%|███       | 3300/10719 [39:26<1:01:43,  2.00it/s] 31%|███       | 3301/10719 [39:26<1:01:44,  2.00it/s] 31%|███       | 3302/10719 [39:27<1:01:42,  2.00it/s] 31%|███       | 3303/10719 [39:27<1:01:34,  2.01it/s] 31%|███       | 3304/10719 [39:28<1:01:50,  2.00it/s] 31%|███       | 3305/10719 [39:28<1:01:53,  2.00it/s] 31%|███       | 3306/10719 [39:29<1:01:51,  2.00it/s] 31%|███       | 3307/10719 [39:29<1:01:41,  2.00it/s] 31%|███       | 3308/10719 [39:30<1:01:36,  2.00it/s] 31%|███       | 3309/10719 [39:30<1:01:33,  2.01it/s] 31%|███       | 3310/10719 [39:31<1:01:33,  2.01it/s] 31%|███       | 3311/10719 [39:31<1:01:34,  2.01it/s] 31%|███       | 3312/10719 [39:32<1:01:41,  2.00it/s] 31%|███       | 3313/10719 [39:32<1:01:47,  2.00it/s] 31%|███       | 3314/10719 [39:33<1:01:48,  2.00it/s] 31%|███       | 3315/10719 [39:33<1:01:43,  2.00it/s] 31%|███       | 3316/10719 [39:34<1:01:42,  2.00it/s] 31%|███       | 3317/10719 [39:34<1:01:39,  2.00it/s] 31%|███       | 3318/10719 [39:35<1:01:38,  2.00it/s] 31%|███       | 3319/10719 [39:35<1:01:32,  2.00it/s] 31%|███       | 3320/10719 [39:36<1:01:35,  2.00it/s] 31%|███       | 3321/10719 [39:36<1:01:34,  2.00it/s] 31%|███       | 3322/10719 [39:37<1:01:32,  2.00it/s] 31%|███       | 3323/10719 [39:37<1:01:43,  2.00it/s] 31%|███       | 3324/10719 [39:38<1:01:37,  2.00it/s] 31%|███       | 3325/10719 [39:38<1:01:32,  2.00it/s]                                                      {'loss': 3.7754, 'grad_norm': 0.21312862634658813, 'learning_rate': 0.0008713507938846685, 'epoch': 0.31}
- 31%|███       | 3325/10719 [39:38<1:01:32,  2.00it/s] 31%|███       | 3326/10719 [39:39<1:01:32,  2.00it/s] 31%|███       | 3327/10719 [39:39<1:01:27,  2.00it/s] 31%|███       | 3328/10719 [39:40<1:01:22,  2.01it/s] 31%|███       | 3329/10719 [39:40<1:01:19,  2.01it/s] 31%|███       | 3330/10719 [39:41<1:01:15,  2.01it/s] 31%|███       | 3331/10719 [39:41<1:01:20,  2.01it/s] 31%|███       | 3332/10719 [39:42<1:01:22,  2.01it/s] 31%|███       | 3333/10719 [39:42<1:01:25,  2.00it/s] 31%|███       | 3334/10719 [39:43<1:01:19,  2.01it/s] 31%|███       | 3335/10719 [39:43<1:01:22,  2.00it/s] 31%|███       | 3336/10719 [39:44<1:01:20,  2.01it/s] 31%|███       | 3337/10719 [39:44<1:01:17,  2.01it/s] 31%|███       | 3338/10719 [39:45<1:01:17,  2.01it/s] 31%|███       | 3339/10719 [39:45<1:01:19,  2.01it/s] 31%|███       | 3340/10719 [39:46<1:01:14,  2.01it/s] 31%|███       | 3341/10719 [39:46<1:01:10,  2.01it/s] 31%|███       | 3342/10719 [39:47<1:01:08,  2.01it/s] 31%|███       | 3343/10719 [39:47<1:01:39,  1.99it/s] 31%|███       | 3344/10719 [39:48<1:01:27,  2.00it/s] 31%|███       | 3345/10719 [39:48<1:01:18,  2.00it/s] 31%|███       | 3346/10719 [39:49<1:01:12,  2.01it/s] 31%|███       | 3347/10719 [39:49<1:01:08,  2.01it/s] 31%|███       | 3348/10719 [39:50<1:01:06,  2.01it/s] 31%|███       | 3349/10719 [39:50<1:01:04,  2.01it/s] 31%|███▏      | 3350/10719 [39:51<1:01:00,  2.01it/s]                                                      {'loss': 3.7564, 'grad_norm': 0.21122294664382935, 'learning_rate': 0.0008686126940011419, 'epoch': 0.31}
- 31%|███▏      | 3350/10719 [39:51<1:01:00,  2.01it/s] 31%|███▏      | 3351/10719 [39:51<1:01:17,  2.00it/s] 31%|███▏      | 3352/10719 [39:52<1:01:52,  1.98it/s] 31%|███▏      | 3353/10719 [39:52<1:01:48,  1.99it/s] 31%|███▏      | 3354/10719 [39:53<1:01:41,  1.99it/s] 31%|███▏      | 3355/10719 [39:53<1:01:32,  1.99it/s] 31%|███▏      | 3356/10719 [39:54<1:01:30,  2.00it/s] 31%|███▏      | 3357/10719 [39:54<1:01:20,  2.00it/s] 31%|███▏      | 3358/10719 [39:55<1:01:15,  2.00it/s] 31%|███▏      | 3359/10719 [39:55<1:01:15,  2.00it/s] 31%|███▏      | 3360/10719 [39:56<1:01:09,  2.01it/s] 31%|███▏      | 3361/10719 [39:56<1:01:04,  2.01it/s] 31%|███▏      | 3362/10719 [39:57<1:01:02,  2.01it/s] 31%|███▏      | 3363/10719 [39:57<1:01:05,  2.01it/s] 31%|███▏      | 3364/10719 [39:58<1:01:04,  2.01it/s] 31%|███▏      | 3365/10719 [39:58<1:01:05,  2.01it/s] 31%|███▏      | 3366/10719 [39:59<1:00:59,  2.01it/s] 31%|███▏      | 3367/10719 [39:59<1:01:01,  2.01it/s] 31%|███▏      | 3368/10719 [40:00<1:01:10,  2.00it/s] 31%|███▏      | 3369/10719 [40:00<1:01:13,  2.00it/s] 31%|███▏      | 3370/10719 [40:01<1:01:09,  2.00it/s] 31%|███▏      | 3371/10719 [40:01<1:01:14,  2.00it/s] 31%|███▏      | 3372/10719 [40:02<1:01:13,  2.00it/s] 31%|███▏      | 3373/10719 [40:02<1:01:11,  2.00it/s] 31%|███▏      | 3374/10719 [40:03<1:01:12,  2.00it/s] 31%|███▏      | 3375/10719 [40:03<1:01:10,  2.00it/s]                                                      {'loss': 3.7638, 'grad_norm': 0.22550912201404572, 'learning_rate': 0.0008658501618884136, 'epoch': 0.31}
- 31%|███▏      | 3375/10719 [40:03<1:01:10,  2.00it/s] 31%|███▏      | 3376/10719 [40:04<1:01:10,  2.00it/s] 32%|███▏      | 3377/10719 [40:04<1:01:05,  2.00it/s] 32%|███▏      | 3378/10719 [40:05<1:01:02,  2.00it/s] 32%|███▏      | 3379/10719 [40:05<1:01:04,  2.00it/s] 32%|███▏      | 3380/10719 [40:06<1:01:14,  2.00it/s] 32%|███▏      | 3381/10719 [40:06<1:01:04,  2.00it/s] 32%|███▏      | 3382/10719 [40:07<1:01:02,  2.00it/s] 32%|███▏      | 3383/10719 [40:07<1:01:11,  2.00it/s] 32%|███▏      | 3384/10719 [40:08<1:01:11,  2.00it/s] 32%|███▏      | 3385/10719 [40:08<1:01:07,  2.00it/s] 32%|███▏      | 3386/10719 [40:09<1:01:00,  2.00it/s] 32%|███▏      | 3387/10719 [40:09<1:00:59,  2.00it/s] 32%|███▏      | 3388/10719 [40:10<1:00:55,  2.01it/s] 32%|███▏      | 3389/10719 [40:10<1:00:54,  2.01it/s] 32%|███▏      | 3390/10719 [40:11<1:00:51,  2.01it/s] 32%|███▏      | 3391/10719 [40:11<1:00:47,  2.01it/s] 32%|███▏      | 3392/10719 [40:12<1:00:49,  2.01it/s] 32%|███▏      | 3393/10719 [40:12<1:00:48,  2.01it/s] 32%|███▏      | 3394/10719 [40:13<1:00:45,  2.01it/s] 32%|███▏      | 3395/10719 [40:13<1:00:52,  2.01it/s] 32%|███▏      | 3396/10719 [40:14<1:00:49,  2.01it/s] 32%|███▏      | 3397/10719 [40:14<1:00:45,  2.01it/s] 32%|███▏      | 3398/10719 [40:15<1:00:41,  2.01it/s] 32%|███▏      | 3399/10719 [40:15<1:00:40,  2.01it/s] 32%|███▏      | 3400/10719 [40:16<1:00:48,  2.01it/s]                                                      {'loss': 3.7581, 'grad_norm': 0.2077936977148056, 'learning_rate': 0.0008630633806514576, 'epoch': 0.32}
- 32%|███▏      | 3400/10719 [40:16<1:00:48,  2.01it/s] 32%|███▏      | 3401/10719 [40:16<1:00:52,  2.00it/s] 32%|███▏      | 3402/10719 [40:17<1:01:00,  2.00it/s] 32%|███▏      | 3403/10719 [40:17<1:00:53,  2.00it/s] 32%|███▏      | 3404/10719 [40:18<1:00:53,  2.00it/s] 32%|███▏      | 3405/10719 [40:18<1:00:56,  2.00it/s] 32%|███▏      | 3406/10719 [40:19<1:00:59,  2.00it/s] 32%|███▏      | 3407/10719 [40:19<1:00:55,  2.00it/s] 32%|███▏      | 3408/10719 [40:20<1:00:51,  2.00it/s] 32%|███▏      | 3409/10719 [40:20<1:00:50,  2.00it/s] 32%|███▏      | 3410/10719 [40:21<1:00:50,  2.00it/s] 32%|███▏      | 3411/10719 [40:21<1:00:46,  2.00it/s] 32%|███▏      | 3412/10719 [40:22<1:00:43,  2.01it/s] 32%|███▏      | 3413/10719 [40:22<1:00:50,  2.00it/s] 32%|███▏      | 3414/10719 [40:23<1:00:41,  2.01it/s] 32%|███▏      | 3415/10719 [40:23<1:00:39,  2.01it/s] 32%|███▏      | 3416/10719 [40:24<1:00:40,  2.01it/s] 32%|███▏      | 3417/10719 [40:24<1:00:45,  2.00it/s] 32%|███▏      | 3418/10719 [40:25<1:00:44,  2.00it/s] 32%|███▏      | 3419/10719 [40:25<1:00:49,  2.00it/s] 32%|███▏      | 3420/10719 [40:26<1:00:54,  2.00it/s] 32%|███▏      | 3421/10719 [40:26<1:00:57,  2.00it/s] 32%|███▏      | 3422/10719 [40:27<1:00:55,  2.00it/s] 32%|███▏      | 3423/10719 [40:27<1:01:01,  1.99it/s] 32%|███▏      | 3424/10719 [40:28<1:00:53,  2.00it/s] 32%|███▏      | 3425/10719 [40:28<1:00:50,  2.00it/s]                                                      {'loss': 3.7535, 'grad_norm': 0.1978304088115692, 'learning_rate': 0.0008602525350025181, 'epoch': 0.32}
- 32%|███▏      | 3425/10719 [40:28<1:00:50,  2.00it/s] 32%|███▏      | 3426/10719 [40:29<1:00:56,  1.99it/s] 32%|███▏      | 3427/10719 [40:29<1:00:50,  2.00it/s] 32%|███▏      | 3428/10719 [40:30<1:00:44,  2.00it/s] 32%|███▏      | 3429/10719 [40:30<1:00:38,  2.00it/s] 32%|███▏      | 3430/10719 [40:31<1:00:40,  2.00it/s] 32%|███▏      | 3431/10719 [40:31<1:00:35,  2.00it/s] 32%|███▏      | 3432/10719 [40:32<1:00:33,  2.01it/s] 32%|███▏      | 3433/10719 [40:32<1:00:31,  2.01it/s] 32%|███▏      | 3434/10719 [40:33<1:00:32,  2.01it/s] 32%|███▏      | 3435/10719 [40:33<1:00:32,  2.01it/s] 32%|███▏      | 3436/10719 [40:34<1:00:36,  2.00it/s] 32%|███▏      | 3437/10719 [40:34<1:00:41,  2.00it/s] 32%|███▏      | 3438/10719 [40:35<1:00:41,  2.00it/s] 32%|███▏      | 3439/10719 [40:35<1:00:33,  2.00it/s] 32%|███▏      | 3440/10719 [40:36<1:00:35,  2.00it/s] 32%|███▏      | 3441/10719 [40:36<1:00:39,  2.00it/s] 32%|███▏      | 3442/10719 [40:37<1:00:43,  2.00it/s] 32%|███▏      | 3443/10719 [40:37<1:00:42,  2.00it/s] 32%|███▏      | 3444/10719 [40:38<1:00:55,  1.99it/s] 32%|███▏      | 3445/10719 [40:38<1:00:49,  1.99it/s] 32%|███▏      | 3446/10719 [40:39<1:00:41,  2.00it/s] 32%|███▏      | 3447/10719 [40:39<1:00:43,  2.00it/s] 32%|███▏      | 3448/10719 [40:40<1:01:36,  1.97it/s] 32%|███▏      | 3449/10719 [40:40<1:01:20,  1.98it/s] 32%|███▏      | 3450/10719 [40:41<1:01:05,  1.98it/s]                                                      {'loss': 3.7611, 'grad_norm': 0.2122505158185959, 'learning_rate': 0.0008574178112488662, 'epoch': 0.32}
- 32%|███▏      | 3450/10719 [40:41<1:01:05,  1.98it/s] 32%|███▏      | 3451/10719 [40:41<1:00:55,  1.99it/s] 32%|███▏      | 3452/10719 [40:42<1:00:48,  1.99it/s] 32%|███▏      | 3453/10719 [40:42<1:00:38,  2.00it/s] 32%|███▏      | 3454/10719 [40:43<1:00:36,  2.00it/s] 32%|███▏      | 3455/10719 [40:43<1:00:30,  2.00it/s] 32%|███▏      | 3456/10719 [40:44<1:00:24,  2.00it/s] 32%|███▏      | 3457/10719 [40:44<1:01:57,  1.95it/s] 32%|███▏      | 3458/10719 [40:45<1:01:31,  1.97it/s] 32%|███▏      | 3459/10719 [40:45<1:01:13,  1.98it/s] 32%|███▏      | 3460/10719 [40:46<1:00:57,  1.98it/s] 32%|███▏      | 3461/10719 [40:46<1:00:45,  1.99it/s] 32%|███▏      | 3462/10719 [40:47<1:00:39,  1.99it/s] 32%|███▏      | 3463/10719 [40:47<1:00:26,  2.00it/s] 32%|███▏      | 3464/10719 [40:48<1:00:22,  2.00it/s] 32%|███▏      | 3465/10719 [40:48<1:00:22,  2.00it/s] 32%|███▏      | 3466/10719 [40:49<1:00:17,  2.01it/s] 32%|███▏      | 3467/10719 [40:49<1:00:11,  2.01it/s] 32%|███▏      | 3468/10719 [40:50<1:00:08,  2.01it/s] 32%|███▏      | 3469/10719 [40:50<1:00:04,  2.01it/s] 32%|███▏      | 3470/10719 [40:51<1:00:06,  2.01it/s] 32%|███▏      | 3471/10719 [40:51<1:00:03,  2.01it/s] 32%|███▏      | 3472/10719 [40:52<1:00:04,  2.01it/s] 32%|███▏      | 3473/10719 [40:52<1:00:05,  2.01it/s] 32%|███▏      | 3474/10719 [40:53<1:00:03,  2.01it/s] 32%|███▏      | 3475/10719 [40:53<59:59,  2.01it/s]                                                      {'loss': 3.7498, 'grad_norm': 0.2060326188802719, 'learning_rate': 0.0008545593972804516, 'epoch': 0.32}
- 32%|███▏      | 3475/10719 [40:53<59:59,  2.01it/s] 32%|███▏      | 3476/10719 [40:54<1:00:04,  2.01it/s] 32%|███▏      | 3477/10719 [40:54<1:00:02,  2.01it/s] 32%|███▏      | 3478/10719 [40:55<59:59,  2.01it/s]   32%|███▏      | 3479/10719 [40:55<59:58,  2.01it/s] 32%|███▏      | 3480/10719 [40:56<59:57,  2.01it/s] 32%|███▏      | 3481/10719 [40:56<59:56,  2.01it/s] 32%|███▏      | 3482/10719 [40:57<59:49,  2.02it/s] 32%|███▏      | 3483/10719 [40:57<59:50,  2.02it/s] 33%|███▎      | 3484/10719 [40:58<59:51,  2.01it/s] 33%|███▎      | 3485/10719 [40:58<59:44,  2.02it/s] 33%|███▎      | 3486/10719 [40:59<59:48,  2.02it/s] 33%|███▎      | 3487/10719 [40:59<59:46,  2.02it/s] 33%|███▎      | 3488/10719 [41:00<59:46,  2.02it/s] 33%|███▎      | 3489/10719 [41:00<59:42,  2.02it/s] 33%|███▎      | 3490/10719 [41:01<59:45,  2.02it/s] 33%|███▎      | 3491/10719 [41:01<59:44,  2.02it/s] 33%|███▎      | 3492/10719 [41:02<1:00:49,  1.98it/s] 33%|███▎      | 3493/10719 [41:02<1:03:48,  1.89it/s] 33%|███▎      | 3494/10719 [41:03<1:02:49,  1.92it/s] 33%|███▎      | 3495/10719 [41:03<1:02:03,  1.94it/s] 33%|███▎      | 3496/10719 [41:04<1:01:29,  1.96it/s] 33%|███▎      | 3497/10719 [41:04<1:01:03,  1.97it/s] 33%|███▎      | 3498/10719 [41:05<1:00:52,  1.98it/s] 33%|███▎      | 3499/10719 [41:05<1:00:43,  1.98it/s] 33%|███▎      | 3500/10719 [41:06<1:00:27,  1.99it/s]                                                      {'loss': 3.7489, 'grad_norm': 0.22299140691757202, 'learning_rate': 0.0008516774825574482, 'epoch': 0.33}
- 33%|███▎      | 3500/10719 [41:06<1:00:27,  1.99it/s] 33%|███▎      | 3501/10719 [41:06<1:00:26,  1.99it/s] 33%|███▎      | 3502/10719 [41:07<1:00:15,  2.00it/s] 33%|███▎      | 3503/10719 [41:07<1:00:10,  2.00it/s] 33%|███▎      | 3504/10719 [41:08<59:59,  2.00it/s]   33%|███▎      | 3505/10719 [41:08<1:00:00,  2.00it/s] 33%|███▎      | 3506/10719 [41:09<59:57,  2.00it/s]   33%|███▎      | 3507/10719 [41:09<59:48,  2.01it/s] 33%|███▎      | 3508/10719 [41:10<59:47,  2.01it/s] 33%|███▎      | 3509/10719 [41:10<59:45,  2.01it/s] 33%|███▎      | 3510/10719 [41:11<59:46,  2.01it/s] 33%|███▎      | 3511/10719 [41:11<59:52,  2.01it/s] 33%|███▎      | 3512/10719 [41:12<1:00:01,  2.00it/s] 33%|███▎      | 3513/10719 [41:12<1:00:01,  2.00it/s] 33%|███▎      | 3514/10719 [41:13<59:58,  2.00it/s]   33%|███▎      | 3515/10719 [41:13<1:00:00,  2.00it/s] 33%|███▎      | 3516/10719 [41:14<1:00:03,  2.00it/s] 33%|███▎      | 3517/10719 [41:14<1:00:07,  2.00it/s] 33%|███▎      | 3518/10719 [41:15<1:00:03,  2.00it/s] 33%|███▎      | 3519/10719 [41:15<59:59,  2.00it/s]   33%|███▎      | 3520/10719 [41:16<59:55,  2.00it/s] 33%|███▎      | 3521/10719 [41:16<59:58,  2.00it/s] 33%|███▎      | 3522/10719 [41:17<59:59,  2.00it/s] 33%|███▎      | 3523/10719 [41:17<59:51,  2.00it/s] 33%|███▎      | 3524/10719 [41:18<59:53,  2.00it/s] 33%|███▎      | 3525/10719 [41:18<59:50,  2.00it/s]                                                    {'loss': 3.75, 'grad_norm': 0.20487548410892487, 'learning_rate': 0.0008487722580976976, 'epoch': 0.33}
- 33%|███▎      | 3525/10719 [41:18<59:50,  2.00it/s] 33%|███▎      | 3526/10719 [41:19<59:54,  2.00it/s] 33%|███▎      | 3527/10719 [41:19<59:48,  2.00it/s] 33%|███▎      | 3528/10719 [41:20<59:45,  2.01it/s] 33%|███▎      | 3529/10719 [41:20<59:46,  2.00it/s] 33%|███▎      | 3530/10719 [41:21<59:51,  2.00it/s] 33%|███▎      | 3531/10719 [41:21<1:02:52,  1.91it/s] 33%|███▎      | 3532/10719 [41:22<1:02:01,  1.93it/s] 33%|███▎      | 3533/10719 [41:22<1:01:21,  1.95it/s] 33%|███▎      | 3534/10719 [41:23<1:00:58,  1.96it/s] 33%|███▎      | 3535/10719 [41:23<1:00:37,  1.98it/s] 33%|███▎      | 3536/10719 [41:24<1:00:19,  1.98it/s] 33%|███▎      | 3537/10719 [41:24<1:00:06,  1.99it/s] 33%|███▎      | 3538/10719 [41:25<59:59,  2.00it/s]   33%|███▎      | 3539/10719 [41:25<59:59,  1.99it/s] 33%|███▎      | 3540/10719 [41:26<59:47,  2.00it/s] 33%|███▎      | 3541/10719 [41:26<59:47,  2.00it/s] 33%|███▎      | 3542/10719 [41:27<59:41,  2.00it/s] 33%|███▎      | 3543/10719 [41:27<59:33,  2.01it/s] 33%|███▎      | 3544/10719 [41:28<59:38,  2.00it/s] 33%|███▎      | 3545/10719 [41:28<59:35,  2.01it/s] 33%|███▎      | 3546/10719 [41:29<59:41,  2.00it/s] 33%|███▎      | 3547/10719 [41:29<59:40,  2.00it/s] 33%|███▎      | 3548/10719 [41:30<59:40,  2.00it/s] 33%|███▎      | 3549/10719 [41:30<59:33,  2.01it/s] 33%|███▎      | 3550/10719 [41:31<59:37,  2.00it/s]                                                    {'loss': 3.7383, 'grad_norm': 0.21795889735221863, 'learning_rate': 0.0008458439164640468, 'epoch': 0.33}
- 33%|███▎      | 3550/10719 [41:31<59:37,  2.00it/s] 33%|███▎      | 3551/10719 [41:31<59:36,  2.00it/s] 33%|███▎      | 3552/10719 [41:32<59:40,  2.00it/s] 33%|███▎      | 3553/10719 [41:32<59:42,  2.00it/s] 33%|███▎      | 3554/10719 [41:33<1:00:01,  1.99it/s] 33%|███▎      | 3555/10719 [41:33<1:02:34,  1.91it/s] 33%|███▎      | 3556/10719 [41:34<1:01:39,  1.94it/s] 33%|███▎      | 3557/10719 [41:34<1:00:59,  1.96it/s] 33%|███▎      | 3558/10719 [41:35<1:00:31,  1.97it/s] 33%|███▎      | 3559/10719 [41:35<1:00:14,  1.98it/s] 33%|███▎      | 3560/10719 [41:36<1:00:03,  1.99it/s] 33%|███▎      | 3561/10719 [41:36<59:51,  1.99it/s]   33%|███▎      | 3562/10719 [41:37<59:43,  2.00it/s] 33%|███▎      | 3563/10719 [41:37<59:46,  2.00it/s] 33%|███▎      | 3564/10719 [41:38<59:40,  2.00it/s] 33%|███▎      | 3565/10719 [41:38<59:32,  2.00it/s] 33%|███▎      | 3566/10719 [41:39<59:30,  2.00it/s] 33%|███▎      | 3567/10719 [41:39<1:00:07,  1.98it/s] 33%|███▎      | 3568/10719 [41:40<1:01:45,  1.93it/s] 33%|███▎      | 3569/10719 [41:40<1:03:00,  1.89it/s] 33%|███▎      | 3570/10719 [41:41<1:02:19,  1.91it/s] 33%|███▎      | 3571/10719 [41:41<1:02:17,  1.91it/s] 33%|███▎      | 3572/10719 [41:42<1:01:29,  1.94it/s] 33%|███▎      | 3573/10719 [41:42<1:00:50,  1.96it/s] 33%|███▎      | 3574/10719 [41:43<1:00:30,  1.97it/s] 33%|███▎      | 3575/10719 [41:43<1:00:12,  1.98it/s]                                                      {'loss': 3.7419, 'grad_norm': 0.20020700991153717, 'learning_rate': 0.0008428926517515858, 'epoch': 0.33}
- 33%|███▎      | 3575/10719 [41:43<1:00:12,  1.98it/s] 33%|███▎      | 3576/10719 [41:44<1:00:00,  1.98it/s] 33%|███▎      | 3577/10719 [41:44<59:51,  1.99it/s]   33%|███▎      | 3578/10719 [41:45<59:43,  1.99it/s] 33%|███▎      | 3579/10719 [41:45<59:37,  2.00it/s] 33%|███▎      | 3580/10719 [41:46<59:40,  1.99it/s] 33%|███▎      | 3581/10719 [41:46<59:35,  2.00it/s] 33%|███▎      | 3582/10719 [41:47<59:33,  2.00it/s] 33%|███▎      | 3583/10719 [41:47<59:34,  2.00it/s] 33%|███▎      | 3584/10719 [41:48<59:26,  2.00it/s] 33%|███▎      | 3585/10719 [41:48<59:27,  2.00it/s] 33%|███▎      | 3586/10719 [41:49<59:26,  2.00it/s] 33%|███▎      | 3587/10719 [41:49<59:25,  2.00it/s] 33%|███▎      | 3588/10719 [41:50<59:24,  2.00it/s] 33%|███▎      | 3589/10719 [41:50<59:26,  2.00it/s] 33%|███▎      | 3590/10719 [41:51<59:22,  2.00it/s] 34%|███▎      | 3591/10719 [41:51<59:19,  2.00it/s] 34%|███▎      | 3592/10719 [41:52<59:16,  2.00it/s] 34%|███▎      | 3593/10719 [41:52<59:24,  2.00it/s] 34%|███▎      | 3594/10719 [41:53<59:24,  2.00it/s] 34%|███▎      | 3595/10719 [41:53<59:19,  2.00it/s] 34%|███▎      | 3596/10719 [41:54<59:19,  2.00it/s] 34%|███▎      | 3597/10719 [41:54<59:12,  2.00it/s] 34%|███▎      | 3598/10719 [41:55<59:20,  2.00it/s] 34%|███▎      | 3599/10719 [41:55<59:21,  2.00it/s] 34%|███▎      | 3600/10719 [41:56<59:21,  2.00it/s]                                                    {'loss': 3.742, 'grad_norm': 0.2008528709411621, 'learning_rate': 0.0008399186595747821, 'epoch': 0.34}
- 34%|███▎      | 3600/10719 [41:56<59:21,  2.00it/s] 34%|███▎      | 3601/10719 [41:56<59:27,  2.00it/s] 34%|███▎      | 3602/10719 [41:57<59:20,  2.00it/s] 34%|███▎      | 3603/10719 [41:57<59:29,  1.99it/s] 34%|███▎      | 3604/10719 [41:58<1:02:22,  1.90it/s] 34%|███▎      | 3605/10719 [41:59<1:03:33,  1.87it/s] 34%|███▎      | 3606/10719 [41:59<1:02:16,  1.90it/s] 34%|███▎      | 3607/10719 [42:00<1:01:21,  1.93it/s] 34%|███▎      | 3608/10719 [42:00<1:00:36,  1.96it/s] 34%|███▎      | 3609/10719 [42:01<1:00:11,  1.97it/s] 34%|███▎      | 3610/10719 [42:01<59:50,  1.98it/s]   34%|███▎      | 3611/10719 [42:02<59:39,  1.99it/s] 34%|███▎      | 3612/10719 [42:02<59:28,  1.99it/s] 34%|███▎      | 3613/10719 [42:03<59:19,  2.00it/s] 34%|███▎      | 3614/10719 [42:03<59:13,  2.00it/s] 34%|███▎      | 3615/10719 [42:04<59:09,  2.00it/s] 34%|███▎      | 3616/10719 [42:04<59:06,  2.00it/s] 34%|███▎      | 3617/10719 [42:05<59:03,  2.00it/s] 34%|███▍      | 3618/10719 [42:05<59:01,  2.01it/s] 34%|███▍      | 3619/10719 [42:06<59:02,  2.00it/s] 34%|███▍      | 3620/10719 [42:06<59:05,  2.00it/s] 34%|███▍      | 3621/10719 [42:07<59:09,  2.00it/s] 34%|███▍      | 3622/10719 [42:07<59:09,  2.00it/s] 34%|███▍      | 3623/10719 [42:08<59:03,  2.00it/s] 34%|███▍      | 3624/10719 [42:08<59:02,  2.00it/s] 34%|███▍      | 3625/10719 [42:09<58:58,  2.00it/s]                                                    {'loss': 3.7369, 'grad_norm': 0.20856145024299622, 'learning_rate': 0.0008369221370545154, 'epoch': 0.34}
- 34%|███▍      | 3625/10719 [42:09<58:58,  2.00it/s] 34%|███▍      | 3626/10719 [42:09<59:31,  1.99it/s] 34%|███▍      | 3627/10719 [42:10<59:28,  1.99it/s] 34%|███▍      | 3628/10719 [42:10<1:02:13,  1.90it/s] 34%|███▍      | 3629/10719 [42:11<1:01:13,  1.93it/s] 34%|███▍      | 3630/10719 [42:11<1:00:34,  1.95it/s] 34%|███▍      | 3631/10719 [42:12<1:00:03,  1.97it/s] 34%|███▍      | 3632/10719 [42:12<59:43,  1.98it/s]   34%|███▍      | 3633/10719 [42:13<59:22,  1.99it/s] 34%|███▍      | 3634/10719 [42:13<59:12,  1.99it/s] 34%|███▍      | 3635/10719 [42:14<59:11,  1.99it/s] 34%|███▍      | 3636/10719 [42:14<59:06,  2.00it/s] 34%|███▍      | 3637/10719 [42:15<59:06,  2.00it/s] 34%|███▍      | 3638/10719 [42:15<59:05,  2.00it/s] 34%|███▍      | 3639/10719 [42:16<59:15,  1.99it/s] 34%|███▍      | 3640/10719 [42:16<59:10,  1.99it/s] 34%|███▍      | 3641/10719 [42:17<59:10,  1.99it/s] 34%|███▍      | 3642/10719 [42:17<59:11,  1.99it/s] 34%|███▍      | 3643/10719 [42:18<59:13,  1.99it/s] 34%|███▍      | 3644/10719 [42:18<59:18,  1.99it/s] 34%|███▍      | 3645/10719 [42:19<59:08,  1.99it/s] 34%|███▍      | 3646/10719 [42:19<59:04,  2.00it/s] 34%|███▍      | 3647/10719 [42:20<59:07,  1.99it/s] 34%|███▍      | 3648/10719 [42:20<59:05,  1.99it/s] 34%|███▍      | 3649/10719 [42:21<59:11,  1.99it/s] 34%|███▍      | 3650/10719 [42:21<1:01:57,  1.90it/s]                                                      {'loss': 3.7378, 'grad_norm': 0.23083503544330597, 'learning_rate': 0.0008339032828050121, 'epoch': 0.34}
- 34%|███▍      | 3650/10719 [42:21<1:01:57,  1.90it/s] 34%|███▍      | 3651/10719 [42:22<1:03:55,  1.84it/s] 34%|███▍      | 3652/10719 [42:22<1:02:25,  1.89it/s] 34%|███▍      | 3653/10719 [42:23<1:01:17,  1.92it/s] 34%|███▍      | 3654/10719 [42:23<1:00:35,  1.94it/s] 34%|███▍      | 3655/10719 [42:24<1:00:00,  1.96it/s] 34%|███▍      | 3656/10719 [42:24<59:32,  1.98it/s]   34%|███▍      | 3657/10719 [42:25<59:19,  1.98it/s] 34%|███▍      | 3658/10719 [42:25<59:19,  1.98it/s] 34%|███▍      | 3659/10719 [42:26<59:12,  1.99it/s] 34%|███▍      | 3660/10719 [42:26<59:06,  1.99it/s] 34%|███▍      | 3661/10719 [42:27<58:57,  2.00it/s] 34%|███▍      | 3662/10719 [42:27<58:54,  2.00it/s] 34%|███▍      | 3663/10719 [42:28<58:54,  2.00it/s] 34%|███▍      | 3664/10719 [42:28<58:52,  2.00it/s] 34%|███▍      | 3665/10719 [42:29<58:49,  2.00it/s] 34%|███▍      | 3666/10719 [42:29<58:43,  2.00it/s] 34%|███▍      | 3667/10719 [42:30<58:44,  2.00it/s] 34%|███▍      | 3668/10719 [42:30<58:42,  2.00it/s] 34%|███▍      | 3669/10719 [42:31<58:43,  2.00it/s] 34%|███▍      | 3670/10719 [42:31<58:41,  2.00it/s] 34%|███▍      | 3671/10719 [42:32<58:44,  2.00it/s] 34%|███▍      | 3672/10719 [42:32<58:41,  2.00it/s] 34%|███▍      | 3673/10719 [42:33<59:00,  1.99it/s] 34%|███▍      | 3674/10719 [42:33<1:00:07,  1.95it/s] 34%|███▍      | 3675/10719 [42:34<59:44,  1.96it/s]                                                      {'loss': 3.7373, 'grad_norm': 0.22206230461597443, 'learning_rate': 0.0008308622969206806, 'epoch': 0.34}
- 34%|███▍      | 3675/10719 [42:34<59:44,  1.96it/s] 34%|███▍      | 3676/10719 [42:34<59:33,  1.97it/s] 34%|███▍      | 3677/10719 [42:35<59:18,  1.98it/s] 34%|███▍      | 3678/10719 [42:35<59:11,  1.98it/s] 34%|███▍      | 3679/10719 [42:36<58:58,  1.99it/s] 34%|███▍      | 3680/10719 [42:36<58:53,  1.99it/s] 34%|███▍      | 3681/10719 [42:37<59:28,  1.97it/s] 34%|███▍      | 3682/10719 [42:37<59:23,  1.97it/s] 34%|███▍      | 3683/10719 [42:38<59:10,  1.98it/s] 34%|███▍      | 3684/10719 [42:38<59:03,  1.99it/s] 34%|███▍      | 3685/10719 [42:39<58:58,  1.99it/s] 34%|███▍      | 3686/10719 [42:39<58:55,  1.99it/s] 34%|███▍      | 3687/10719 [42:40<58:54,  1.99it/s] 34%|███▍      | 3688/10719 [42:40<58:59,  1.99it/s] 34%|███▍      | 3689/10719 [42:41<58:57,  1.99it/s] 34%|███▍      | 3690/10719 [42:41<58:52,  1.99it/s] 34%|███▍      | 3691/10719 [42:42<59:04,  1.98it/s] 34%|███▍      | 3692/10719 [42:42<58:57,  1.99it/s] 34%|███▍      | 3693/10719 [42:43<58:46,  1.99it/s] 34%|███▍      | 3694/10719 [42:43<58:46,  1.99it/s] 34%|███▍      | 3695/10719 [42:44<58:50,  1.99it/s] 34%|███▍      | 3696/10719 [42:44<58:46,  1.99it/s] 34%|███▍      | 3697/10719 [42:45<58:49,  1.99it/s] 34%|███▍      | 3698/10719 [42:45<58:48,  1.99it/s] 35%|███▍      | 3699/10719 [42:46<58:45,  1.99it/s] 35%|███▍      | 3700/10719 [42:46<58:49,  1.99it/s]                                                    {'loss': 3.7303, 'grad_norm': 0.2039659172296524, 'learning_rate': 0.0008277993809628489, 'epoch': 0.35}
- 35%|███▍      | 3700/10719 [42:47<58:49,  1.99it/s] 35%|███▍      | 3701/10719 [42:47<58:55,  1.98it/s] 35%|███▍      | 3702/10719 [42:48<58:46,  1.99it/s] 35%|███▍      | 3703/10719 [42:48<58:36,  2.00it/s] 35%|███▍      | 3704/10719 [42:49<58:34,  2.00it/s] 35%|███▍      | 3705/10719 [42:49<59:47,  1.95it/s] 35%|███▍      | 3706/10719 [42:50<59:30,  1.96it/s] 35%|███▍      | 3707/10719 [42:50<59:08,  1.98it/s] 35%|███▍      | 3708/10719 [42:51<58:50,  1.99it/s] 35%|███▍      | 3709/10719 [42:51<58:49,  1.99it/s] 35%|███▍      | 3710/10719 [42:52<58:45,  1.99it/s] 35%|███▍      | 3711/10719 [42:52<58:40,  1.99it/s] 35%|███▍      | 3712/10719 [42:53<58:39,  1.99it/s] 35%|███▍      | 3713/10719 [42:53<58:34,  1.99it/s] 35%|███▍      | 3714/10719 [42:54<58:31,  2.00it/s] 35%|███▍      | 3715/10719 [42:54<58:35,  1.99it/s] 35%|███▍      | 3716/10719 [42:55<58:39,  1.99it/s] 35%|███▍      | 3717/10719 [42:55<58:34,  1.99it/s] 35%|███▍      | 3718/10719 [42:56<58:30,  1.99it/s] 35%|███▍      | 3719/10719 [42:56<58:27,  2.00it/s] 35%|███▍      | 3720/10719 [42:57<58:26,  2.00it/s] 35%|███▍      | 3721/10719 [42:57<58:23,  2.00it/s] 35%|███▍      | 3722/10719 [42:58<58:25,  2.00it/s] 35%|███▍      | 3723/10719 [42:58<58:20,  2.00it/s] 35%|███▍      | 3724/10719 [42:59<58:27,  1.99it/s] 35%|███▍      | 3725/10719 [42:59<58:24,  2.00it/s]                                                    {'loss': 3.7334, 'grad_norm': 0.21510401368141174, 'learning_rate': 0.0008247147379464049, 'epoch': 0.35}
- 35%|███���      | 3725/10719 [42:59<58:24,  2.00it/s] 35%|███▍      | 3726/10719 [43:00<58:24,  2.00it/s] 35%|███▍      | 3727/10719 [43:00<58:22,  2.00it/s] 35%|███▍      | 3728/10719 [43:01<58:26,  1.99it/s] 35%|███▍      | 3729/10719 [43:01<58:30,  1.99it/s] 35%|███▍      | 3730/10719 [43:02<58:35,  1.99it/s] 35%|███▍      | 3731/10719 [43:02<58:42,  1.98it/s] 35%|███▍      | 3732/10719 [43:03<58:34,  1.99it/s] 35%|███▍      | 3733/10719 [43:03<58:19,  2.00it/s] 35%|███▍      | 3734/10719 [43:04<58:14,  2.00it/s] 35%|███▍      | 3735/10719 [43:04<58:15,  2.00it/s] 35%|███▍      | 3736/10719 [43:05<58:10,  2.00it/s] 35%|███▍      | 3737/10719 [43:05<58:12,  2.00it/s] 35%|███▍      | 3738/10719 [43:06<58:07,  2.00it/s] 35%|███▍      | 3739/10719 [43:06<58:08,  2.00it/s] 35%|███▍      | 3740/10719 [43:07<58:05,  2.00it/s] 35%|███▍      | 3741/10719 [43:07<58:21,  1.99it/s] 35%|███▍      | 3742/10719 [43:08<58:15,  2.00it/s] 35%|███▍      | 3743/10719 [43:08<58:10,  2.00it/s] 35%|███▍      | 3744/10719 [43:09<58:10,  2.00it/s] 35%|███▍      | 3745/10719 [43:09<58:10,  2.00it/s] 35%|███▍      | 3746/10719 [43:10<58:08,  2.00it/s] 35%|███▍      | 3747/10719 [43:10<58:03,  2.00it/s] 35%|███▍      | 3748/10719 [43:11<57:57,  2.00it/s] 35%|███▍      | 3749/10719 [43:11<57:58,  2.00it/s] 35%|███▍      | 3750/10719 [43:12<57:53,  2.01it/s]                                                    {'loss': 3.7269, 'grad_norm': 0.19496333599090576, 'learning_rate': 0.0008216085723263396, 'epoch': 0.35}
- 35%|███▍      | 3750/10719 [43:12<57:53,  2.01it/s] 35%|███▍      | 3751/10719 [43:12<57:52,  2.01it/s] 35%|███▌      | 3752/10719 [43:13<57:59,  2.00it/s] 35%|███▌      | 3753/10719 [43:13<57:53,  2.01it/s] 35%|███▌      | 3754/10719 [43:14<57:51,  2.01it/s] 35%|███▌      | 3755/10719 [43:14<58:03,  2.00it/s] 35%|███▌      | 3756/10719 [43:15<58:00,  2.00it/s] 35%|███▌      | 3757/10719 [43:15<57:51,  2.01it/s] 35%|███▌      | 3758/10719 [43:16<57:48,  2.01it/s] 35%|███▌      | 3759/10719 [43:16<57:54,  2.00it/s] 35%|███▌      | 3760/10719 [43:17<57:59,  2.00it/s] 35%|███▌      | 3761/10719 [43:17<58:15,  1.99it/s] 35%|███▌      | 3762/10719 [43:18<59:53,  1.94it/s] 35%|███▌      | 3763/10719 [43:18<59:23,  1.95it/s] 35%|███▌      | 3764/10719 [43:19<58:58,  1.97it/s] 35%|███▌      | 3765/10719 [43:19<58:36,  1.98it/s] 35%|███▌      | 3766/10719 [43:20<58:23,  1.98it/s] 35%|███▌      | 3767/10719 [43:20<58:09,  1.99it/s] 35%|███▌      | 3768/10719 [43:21<58:01,  2.00it/s] 35%|███▌      | 3769/10719 [43:21<57:55,  2.00it/s] 35%|███▌      | 3770/10719 [43:22<57:49,  2.00it/s] 35%|███▌      | 3771/10719 [43:22<57:43,  2.01it/s] 35%|███▌      | 3772/10719 [43:23<57:41,  2.01it/s] 35%|███▌      | 3773/10719 [43:23<57:39,  2.01it/s] 35%|███▌      | 3774/10719 [43:24<57:39,  2.01it/s] 35%|███▌      | 3775/10719 [43:24<57:32,  2.01it/s]                                                    {'loss': 3.7249, 'grad_norm': 0.20252840220928192, 'learning_rate': 0.0008184810899841968, 'epoch': 0.35}
- 35%|███▌      | 3775/10719 [43:24<57:32,  2.01it/s] 35%|███▌      | 3776/10719 [43:25<57:44,  2.00it/s] 35%|███▌      | 3777/10719 [43:25<1:00:29,  1.91it/s] 35%|███▌      | 3778/10719 [43:26<59:52,  1.93it/s]   35%|███▌      | 3779/10719 [43:26<1:01:52,  1.87it/s] 35%|███▌      | 3780/10719 [43:27<1:00:39,  1.91it/s] 35%|███▌      | 3781/10719 [43:27<59:47,  1.93it/s]   35%|███▌      | 3782/10719 [43:28<59:11,  1.95it/s] 35%|███▌      | 3783/10719 [43:28<58:48,  1.97it/s] 35%|███▌      | 3784/10719 [43:29<58:33,  1.97it/s] 35%|███▌      | 3785/10719 [43:29<58:17,  1.98it/s] 35%|███▌      | 3786/10719 [43:30<58:09,  1.99it/s] 35%|███▌      | 3787/10719 [43:30<57:56,  1.99it/s] 35%|███▌      | 3788/10719 [43:31<57:52,  2.00it/s] 35%|███▌      | 3789/10719 [43:31<57:47,  2.00it/s] 35%|███▌      | 3790/10719 [43:32<57:44,  2.00it/s] 35%|███▌      | 3791/10719 [43:32<57:41,  2.00it/s] 35%|███▌      | 3792/10719 [43:33<57:38,  2.00it/s] 35%|███▌      | 3793/10719 [43:33<57:38,  2.00it/s] 35%|███▌      | 3794/10719 [43:34<57:45,  2.00it/s] 35%|███▌      | 3795/10719 [43:34<57:39,  2.00it/s] 35%|███▌      | 3796/10719 [43:35<57:41,  2.00it/s] 35%|███▌      | 3797/10719 [43:35<57:36,  2.00it/s] 35%|███▌      | 3798/10719 [43:36<57:32,  2.00it/s] 35%|███▌      | 3799/10719 [43:36<57:31,  2.00it/s] 35%|███▌      | 3800/10719 [43:37<57:35,  2.00it/s]                                                    {'loss': 3.7207, 'grad_norm': 0.2225109040737152, 'learning_rate': 0.0008153324982144258, 'epoch': 0.35}
- 35%|███▌      | 3800/10719 [43:37<57:35,  2.00it/s] 35%|███▌      | 3801/10719 [43:37<57:41,  2.00it/s] 35%|███▌      | 3802/10719 [43:38<57:35,  2.00it/s] 35%|███▌      | 3803/10719 [43:38<57:35,  2.00it/s] 35%|███▌      | 3804/10719 [43:39<57:35,  2.00it/s] 35%|███▌      | 3805/10719 [43:39<57:34,  2.00it/s] 36%|███▌      | 3806/10719 [43:40<57:31,  2.00it/s] 36%|███▌      | 3807/10719 [43:40<57:26,  2.01it/s] 36%|███▌      | 3808/10719 [43:41<57:28,  2.00it/s] 36%|███▌      | 3809/10719 [43:41<57:30,  2.00it/s] 36%|███▌      | 3810/10719 [43:42<57:31,  2.00it/s] 36%|███▌      | 3811/10719 [43:42<57:29,  2.00it/s] 36%|███▌      | 3812/10719 [43:43<57:30,  2.00it/s] 36%|███▌      | 3813/10719 [43:43<57:21,  2.01it/s] 36%|███▌      | 3814/10719 [43:44<57:19,  2.01it/s] 36%|███▌      | 3815/10719 [43:44<57:22,  2.01it/s] 36%|███▌      | 3816/10719 [43:45<57:24,  2.00it/s] 36%|███▌      | 3817/10719 [43:45<57:25,  2.00it/s] 36%|███▌      | 3818/10719 [43:46<57:25,  2.00it/s] 36%|███▌      | 3819/10719 [43:46<57:27,  2.00it/s] 36%|███▌      | 3820/10719 [43:47<57:26,  2.00it/s] 36%|███▌      | 3821/10719 [43:47<57:19,  2.01it/s] 36%|███▌      | 3822/10719 [43:48<57:17,  2.01it/s] 36%|███▌      | 3823/10719 [43:48<57:18,  2.01it/s] 36%|███▌      | 3824/10719 [43:49<57:30,  2.00it/s] 36%|███▌      | 3825/10719 [43:49<57:29,  2.00it/s]                                                    {'loss': 3.718, 'grad_norm': 0.22372904419898987, 'learning_rate': 0.0008121630057106417, 'epoch': 0.36}
- 36%|███▌      | 3825/10719 [43:49<57:29,  2.00it/s] 36%|███▌      | 3826/10719 [43:50<57:31,  2.00it/s] 36%|███▌      | 3827/10719 [43:50<57:26,  2.00it/s] 36%|███▌      | 3828/10719 [43:51<57:29,  2.00it/s] 36%|███▌      | 3829/10719 [43:51<57:21,  2.00it/s] 36%|███▌      | 3830/10719 [43:52<57:13,  2.01it/s] 36%|███▌      | 3831/10719 [43:52<57:16,  2.00it/s] 36%|███▌      | 3832/10719 [43:53<57:17,  2.00it/s] 36%|███▌      | 3833/10719 [43:53<57:11,  2.01it/s] 36%|███▌      | 3834/10719 [43:54<57:11,  2.01it/s] 36%|███▌      | 3835/10719 [43:54<57:16,  2.00it/s] 36%|███▌      | 3836/10719 [43:55<57:15,  2.00it/s] 36%|███▌      | 3837/10719 [43:55<57:10,  2.01it/s] 36%|███▌      | 3838/10719 [43:56<57:11,  2.00it/s] 36%|███▌      | 3839/10719 [43:56<57:14,  2.00it/s] 36%|███▌      | 3840/10719 [43:57<57:08,  2.01it/s] 36%|███▌      | 3841/10719 [43:57<57:07,  2.01it/s] 36%|███▌      | 3842/10719 [43:58<57:05,  2.01it/s] 36%|███▌      | 3843/10719 [43:58<57:00,  2.01it/s] 36%|███▌      | 3844/10719 [43:59<57:03,  2.01it/s] 36%|███▌      | 3845/10719 [43:59<56:57,  2.01it/s] 36%|███▌      | 3846/10719 [44:00<56:57,  2.01it/s] 36%|███▌      | 3847/10719 [44:00<56:56,  2.01it/s] 36%|███▌      | 3848/10719 [44:01<56:52,  2.01it/s] 36%|███▌      | 3849/10719 [44:01<56:53,  2.01it/s] 36%|███▌      | 3850/10719 [44:02<56:55,  2.01it/s]                                                    {'loss': 3.7157, 'grad_norm': 0.1974065601825714, 'learning_rate': 0.0008089728225517937, 'epoch': 0.36}
- 36%|███▌      | 3850/10719 [44:02<56:55,  2.01it/s] 36%|███▌      | 3851/10719 [44:02<56:59,  2.01it/s] 36%|███▌      | 3852/10719 [44:03<57:05,  2.00it/s] 36%|███▌      | 3853/10719 [44:03<57:06,  2.00it/s] 36%|███▌      | 3854/10719 [44:04<57:03,  2.01it/s] 36%|███▌      | 3855/10719 [44:04<57:07,  2.00it/s] 36%|███▌      | 3856/10719 [44:05<57:04,  2.00it/s] 36%|███▌      | 3857/10719 [44:05<57:26,  1.99it/s] 36%|███▌      | 3858/10719 [44:06<57:20,  1.99it/s] 36%|███▌      | 3859/10719 [44:06<57:17,  2.00it/s] 36%|███▌      | 3860/10719 [44:07<57:18,  1.99it/s] 36%|███▌      | 3861/10719 [44:07<57:11,  2.00it/s] 36%|███▌      | 3862/10719 [44:08<57:09,  2.00it/s] 36%|███▌      | 3863/10719 [44:08<57:07,  2.00it/s] 36%|███▌      | 3864/10719 [44:09<57:42,  1.98it/s] 36%|███▌      | 3865/10719 [44:09<57:30,  1.99it/s] 36%|███▌      | 3866/10719 [44:10<57:18,  1.99it/s] 36%|███▌      | 3867/10719 [44:10<57:14,  2.00it/s] 36%|███▌      | 3868/10719 [44:11<57:05,  2.00it/s] 36%|███▌      | 3869/10719 [44:11<57:04,  2.00it/s] 36%|███▌      | 3870/10719 [44:12<57:06,  2.00it/s] 36%|███▌      | 3871/10719 [44:12<57:05,  2.00it/s] 36%|███▌      | 3872/10719 [44:13<57:06,  2.00it/s] 36%|███▌      | 3873/10719 [44:13<57:04,  2.00it/s] 36%|███▌      | 3874/10719 [44:14<57:02,  2.00it/s] 36%|███▌      | 3875/10719 [44:14<57:01,  2.00it/s]                                                    {'loss': 3.7149, 'grad_norm': 0.2125350683927536, 'learning_rate': 0.0008057621601882396, 'epoch': 0.36}
- 36%|███▌      | 3875/10719 [44:14<57:01,  2.00it/s] 36%|███▌      | 3876/10719 [44:15<56:57,  2.00it/s] 36%|███▌      | 3877/10719 [44:15<56:57,  2.00it/s] 36%|███▌      | 3878/10719 [44:16<56:57,  2.00it/s] 36%|███▌      | 3879/10719 [44:16<57:01,  2.00it/s] 36%|███▌      | 3880/10719 [44:17<56:55,  2.00it/s] 36%|███▌      | 3881/10719 [44:17<56:56,  2.00it/s] 36%|███▌      | 3882/10719 [44:18<56:59,  2.00it/s] 36%|███▌      | 3883/10719 [44:18<56:56,  2.00it/s] 36%|███▌      | 3884/10719 [44:19<57:04,  2.00it/s] 36%|███▌      | 3885/10719 [44:19<57:01,  2.00it/s] 36%|███▋      | 3886/10719 [44:20<56:55,  2.00it/s] 36%|███▋      | 3887/10719 [44:20<56:56,  2.00it/s] 36%|███▋      | 3888/10719 [44:21<56:55,  2.00it/s] 36%|███▋      | 3889/10719 [44:21<56:59,  2.00it/s] 36%|███▋      | 3890/10719 [44:22<57:01,  2.00it/s] 36%|███▋      | 3891/10719 [44:22<57:00,  2.00it/s] 36%|███▋      | 3892/10719 [44:23<56:55,  2.00it/s] 36%|███▋      | 3893/10719 [44:23<56:58,  2.00it/s] 36%|███▋      | 3894/10719 [44:24<57:00,  2.00it/s] 36%|███▋      | 3895/10719 [44:24<56:56,  2.00it/s] 36%|███▋      | 3896/10719 [44:25<56:50,  2.00it/s] 36%|███▋      | 3897/10719 [44:25<56:53,  2.00it/s] 36%|███▋      | 3898/10719 [44:26<56:50,  2.00it/s] 36%|███▋      | 3899/10719 [44:26<56:42,  2.00it/s] 36%|███▋      | 3900/10719 [44:27<56:42,  2.00it/s]                                                    {'loss': 3.719, 'grad_norm': 0.19060342013835907, 'learning_rate': 0.0008025312314277318, 'epoch': 0.36}
- 36%|███▋      | 3900/10719 [44:27<56:42,  2.00it/s] 36%|███▋      | 3901/10719 [44:27<56:44,  2.00it/s] 36%|███▋      | 3902/10719 [44:28<56:41,  2.00it/s] 36%|███▋      | 3903/10719 [44:28<56:42,  2.00it/s] 36%|███▋      | 3904/10719 [44:29<56:39,  2.00it/s] 36%|███▋      | 3905/10719 [44:29<56:41,  2.00it/s] 36%|███▋      | 3906/10719 [44:30<56:37,  2.01it/s] 36%|███▋      | 3907/10719 [44:30<56:32,  2.01it/s] 36%|███▋      | 3908/10719 [44:31<56:30,  2.01it/s] 36%|███▋      | 3909/10719 [44:31<56:34,  2.01it/s] 36%|███▋      | 3910/10719 [44:32<56:36,  2.00it/s] 36%|███▋      | 3911/10719 [44:32<56:34,  2.01it/s] 36%|███▋      | 3912/10719 [44:33<1:06:19,  1.71it/s] 37%|███▋      | 3913/10719 [44:33<1:03:22,  1.79it/s] 37%|███▋      | 3914/10719 [44:34<1:01:13,  1.85it/s] 37%|███▋      | 3915/10719 [44:34<59:50,  1.90it/s]   37%|███▋      | 3916/10719 [44:35<58:47,  1.93it/s] 37%|███▋      | 3917/10719 [44:35<58:00,  1.95it/s] 37%|███▋      | 3918/10719 [44:36<57:30,  1.97it/s] 37%|███▋      | 3919/10719 [44:36<57:06,  1.98it/s] 37%|███▋      | 3920/10719 [44:37<56:50,  1.99it/s] 37%|███▋      | 3921/10719 [44:37<56:39,  2.00it/s] 37%|███▋      | 3922/10719 [44:38<56:29,  2.01it/s] 37%|███▋      | 3923/10719 [44:38<56:23,  2.01it/s] 37%|███▋      | 3924/10719 [44:39<56:18,  2.01it/s] 37%|███▋      | 3925/10719 [44:39<56:15,  2.01it/s]                                                    {'loss': 3.703, 'grad_norm': 0.2079637348651886, 'learning_rate': 0.0007992802504213104, 'epoch': 0.37}
- 37%|███▋      | 3925/10719 [44:39<56:15,  2.01it/s] 37%|███▋      | 3926/10719 [44:40<56:23,  2.01it/s] 37%|███▋      | 3927/10719 [44:40<56:17,  2.01it/s] 37%|███▋      | 3928/10719 [44:41<56:14,  2.01it/s] 37%|███▋      | 3929/10719 [44:41<56:11,  2.01it/s] 37%|███▋      | 3930/10719 [44:42<1:06:17,  1.71it/s] 37%|███▋      | 3931/10719 [44:43<1:03:11,  1.79it/s] 37%|███▋      | 3932/10719 [44:43<1:01:03,  1.85it/s] 37%|███▋      | 3933/10719 [44:44<59:30,  1.90it/s]   37%|███▋      | 3934/10719 [44:44<58:38,  1.93it/s] 37%|███▋      | 3935/10719 [44:45<57:50,  1.95it/s] 37%|███▋      | 3936/10719 [44:45<57:18,  1.97it/s] 37%|███▋      | 3937/10719 [44:46<56:53,  1.99it/s] 37%|███▋      | 3938/10719 [44:46<56:38,  2.00it/s] 37%|███▋      | 3939/10719 [44:47<56:25,  2.00it/s] 37%|███▋      | 3940/10719 [44:47<56:17,  2.01it/s] 37%|███▋      | 3941/10719 [44:48<56:08,  2.01it/s] 37%|███▋      | 3942/10719 [44:48<56:05,  2.01it/s] 37%|███▋      | 3943/10719 [44:49<55:59,  2.02it/s] 37%|███▋      | 3944/10719 [44:49<56:00,  2.02it/s] 37%|███▋      | 3945/10719 [44:50<55:53,  2.02it/s] 37%|███▋      | 3946/10719 [44:50<55:56,  2.02it/s] 37%|███▋      | 3947/10719 [44:51<55:53,  2.02it/s] 37%|███▋      | 3948/10719 [44:51<55:50,  2.02it/s] 37%|███▋      | 3949/10719 [44:52<55:52,  2.02it/s] 37%|███▋      | 3950/10719 [44:52<55:51,  2.02it/s]                                                    {'loss': 3.7018, 'grad_norm': 0.2081095278263092, 'learning_rate': 0.0007960094326491106, 'epoch': 0.37}
- 37%|███▋      | 3950/10719 [44:52<55:51,  2.02it/s] 37%|███▋      | 3951/10719 [44:53<56:04,  2.01it/s] 37%|███▋      | 3952/10719 [44:53<56:06,  2.01it/s] 37%|███▋      | 3953/10719 [44:54<56:09,  2.01it/s] 37%|███▋      | 3954/10719 [44:54<56:12,  2.01it/s] 37%|███▋      | 3955/10719 [44:55<56:15,  2.00it/s] 37%|███▋      | 3956/10719 [44:55<56:15,  2.00it/s] 37%|███▋      | 3957/10719 [44:56<56:13,  2.00it/s] 37%|███▋      | 3958/10719 [44:56<56:10,  2.01it/s] 37%|███▋      | 3959/10719 [44:57<56:14,  2.00it/s] 37%|███▋      | 3960/10719 [44:57<56:12,  2.00it/s] 37%|███▋      | 3961/10719 [44:58<56:15,  2.00it/s] 37%|███▋      | 3962/10719 [44:58<56:11,  2.00it/s] 37%|███▋      | 3963/10719 [44:59<56:11,  2.00it/s] 37%|███▋      | 3964/10719 [44:59<56:12,  2.00it/s] 37%|███▋      | 3965/10719 [45:00<56:09,  2.00it/s] 37%|███▋      | 3966/10719 [45:00<56:14,  2.00it/s] 37%|███▋      | 3967/10719 [45:01<56:16,  2.00it/s] 37%|███▋      | 3968/10719 [45:01<56:20,  2.00it/s] 37%|███▋      | 3969/10719 [45:02<56:13,  2.00it/s] 37%|███▋      | 3970/10719 [45:02<56:12,  2.00it/s] 37%|███▋      | 3971/10719 [45:03<56:14,  2.00it/s] 37%|███▋      | 3972/10719 [45:03<56:12,  2.00it/s] 37%|███▋      | 3973/10719 [45:04<56:10,  2.00it/s] 37%|███▋      | 3974/10719 [45:04<56:11,  2.00it/s] 37%|███▋      | 3975/10719 [45:05<56:08,  2.00it/s]                                                    {'loss': 3.7086, 'grad_norm': 0.20742852985858917, 'learning_rate': 0.0007927189949060796, 'epoch': 0.37}
- 37%|███▋      | 3975/10719 [45:05<56:08,  2.00it/s] 37%|███▋      | 3976/10719 [45:05<56:11,  2.00it/s] 37%|███▋      | 3977/10719 [45:06<56:13,  2.00it/s] 37%|███▋      | 3978/10719 [45:06<59:56,  1.87it/s] 37%|███▋      | 3979/10719 [45:07<58:45,  1.91it/s] 37%|███▋      | 3980/10719 [45:07<57:54,  1.94it/s] 37%|███▋      | 3981/10719 [45:08<57:18,  1.96it/s] 37%|███▋      | 3982/10719 [45:08<56:56,  1.97it/s] 37%|███▋      | 3983/10719 [45:09<56:37,  1.98it/s] 37%|███▋      | 3984/10719 [45:09<56:23,  1.99it/s] 37%|███▋      | 3985/10719 [45:10<56:14,  2.00it/s] 37%|███▋      | 3986/10719 [45:10<56:05,  2.00it/s] 37%|███▋      | 3987/10719 [45:11<56:03,  2.00it/s] 37%|███▋      | 3988/10719 [45:11<55:59,  2.00it/s] 37%|███▋      | 3989/10719 [45:12<55:53,  2.01it/s] 37%|███▋      | 3990/10719 [45:12<55:51,  2.01it/s] 37%|███▋      | 3991/10719 [45:13<55:48,  2.01it/s] 37%|███▋      | 3992/10719 [45:13<55:46,  2.01it/s] 37%|███▋      | 3993/10719 [45:14<55:47,  2.01it/s] 37%|███▋      | 3994/10719 [45:14<55:53,  2.01it/s] 37%|███▋      | 3995/10719 [45:15<55:54,  2.00it/s] 37%|███▋      | 3996/10719 [45:15<55:53,  2.01it/s] 37%|███▋      | 3997/10719 [45:16<55:54,  2.00it/s] 37%|███▋      | 3998/10719 [45:16<55:56,  2.00it/s] 37%|███▋      | 3999/10719 [45:17<55:55,  2.00it/s] 37%|███▋      | 4000/10719 [45:17<57:47,  1.94it/s]                                                    {'loss': 3.7085, 'grad_norm': 0.21259601414203644, 'learning_rate': 0.000789409155287607, 'epoch': 0.37}
- 37%|███▋      | 4000/10719 [45:17<57:47,  1.94it/s] 37%|███▋      | 4001/10719 [45:18<57:21,  1.95it/s] 37%|███▋      | 4002/10719 [45:18<56:57,  1.97it/s] 37%|███▋      | 4003/10719 [45:19<56:34,  1.98it/s] 37%|███▋      | 4004/10719 [45:19<56:21,  1.99it/s] 37%|███▋      | 4005/10719 [45:20<56:10,  1.99it/s] 37%|███▋      | 4006/10719 [45:20<56:03,  2.00it/s] 37%|███▋      | 4007/10719 [45:21<55:55,  2.00it/s] 37%|███▋      | 4008/10719 [45:21<55:49,  2.00it/s] 37%|███▋      | 4009/10719 [45:22<55:46,  2.00it/s] 37%|███▋      | 4010/10719 [45:22<55:41,  2.01it/s] 37%|███▋      | 4011/10719 [45:23<55:41,  2.01it/s] 37%|███▋      | 4012/10719 [45:23<55:43,  2.01it/s] 37%|███▋      | 4013/10719 [45:24<55:39,  2.01it/s] 37%|███▋      | 4014/10719 [45:24<55:39,  2.01it/s] 37%|███▋      | 4015/10719 [45:25<55:43,  2.01it/s] 37%|███▋      | 4016/10719 [45:25<55:40,  2.01it/s] 37%|███▋      | 4017/10719 [45:26<55:41,  2.01it/s] 37%|███▋      | 4018/10719 [45:26<55:43,  2.00it/s] 37%|███▋      | 4019/10719 [45:27<55:45,  2.00it/s] 38%|███▊      | 4020/10719 [45:27<55:41,  2.01it/s] 38%|███▊      | 4021/10719 [45:28<55:39,  2.01it/s] 38%|███▊      | 4022/10719 [45:28<55:45,  2.00it/s] 38%|███▊      | 4023/10719 [45:29<55:48,  2.00it/s] 38%|███▊      | 4024/10719 [45:29<55:46,  2.00it/s] 38%|███▊      | 4025/10719 [45:30<55:42,  2.00it/s]                                                    {'loss': 3.7113, 'grad_norm': 0.2001599222421646, 'learning_rate': 0.0007860801331750692, 'epoch': 0.38}
- 38%|███▊      | 4025/10719 [45:30<55:42,  2.00it/s] 38%|███▊      | 4026/10719 [45:30<55:48,  2.00it/s] 38%|███▊      | 4027/10719 [45:31<55:47,  2.00it/s] 38%|███▊      | 4028/10719 [45:31<55:44,  2.00it/s] 38%|███▊      | 4029/10719 [45:32<55:37,  2.00it/s] 38%|███▊      | 4030/10719 [45:32<55:36,  2.00it/s] 38%|███▊      | 4031/10719 [45:33<55:38,  2.00it/s] 38%|███▊      | 4032/10719 [45:33<55:35,  2.00it/s] 38%|███▊      | 4033/10719 [45:34<55:35,  2.00it/s] 38%|███▊      | 4034/10719 [45:34<55:39,  2.00it/s] 38%|███▊      | 4035/10719 [45:35<55:48,  2.00it/s] 38%|███▊      | 4036/10719 [45:35<58:25,  1.91it/s] 38%|███▊      | 4037/10719 [45:36<57:32,  1.94it/s] 38%|███▊      | 4038/10719 [45:36<56:56,  1.96it/s] 38%|███▊      | 4039/10719 [45:37<56:35,  1.97it/s] 38%|███▊      | 4040/10719 [45:37<56:16,  1.98it/s] 38%|███▊      | 4041/10719 [45:38<55:58,  1.99it/s] 38%|███▊      | 4042/10719 [45:38<55:47,  1.99it/s] 38%|███▊      | 4043/10719 [45:39<55:39,  2.00it/s] 38%|███▊      | 4044/10719 [45:39<55:35,  2.00it/s] 38%|███▊      | 4045/10719 [45:40<55:30,  2.00it/s] 38%|███▊      | 4046/10719 [45:40<55:31,  2.00it/s] 38%|███▊      | 4047/10719 [45:41<55:37,  2.00it/s] 38%|███▊      | 4048/10719 [45:41<55:30,  2.00it/s] 38%|███▊      | 4049/10719 [45:42<55:32,  2.00it/s] 38%|███▊      | 4050/10719 [45:42<55:31,  2.00it/s]                                                    {'loss': 3.7005, 'grad_norm': 0.1937139332294464, 'learning_rate': 0.0007827321492212882, 'epoch': 0.38}
- 38%|███▊      | 4050/10719 [45:42<55:31,  2.00it/s] 38%|███▊      | 4051/10719 [45:43<55:39,  2.00it/s] 38%|███▊      | 4052/10719 [45:43<55:34,  2.00it/s] 38%|███▊      | 4053/10719 [45:44<55:27,  2.00it/s] 38%|███▊      | 4054/10719 [45:44<55:27,  2.00it/s] 38%|███▊      | 4055/10719 [45:45<55:23,  2.01it/s] 38%|███▊      | 4056/10719 [45:45<55:18,  2.01it/s] 38%|███▊      | 4057/10719 [45:46<55:18,  2.01it/s] 38%|███▊      | 4058/10719 [45:46<55:13,  2.01it/s] 38%|███▊      | 4059/10719 [45:47<55:15,  2.01it/s] 38%|███▊      | 4060/10719 [45:47<55:13,  2.01it/s] 38%|███▊      | 4061/10719 [45:48<55:07,  2.01it/s] 38%|███▊      | 4062/10719 [45:48<55:10,  2.01it/s] 38%|███▊      | 4063/10719 [45:49<55:12,  2.01it/s] 38%|███▊      | 4064/10719 [45:49<55:15,  2.01it/s] 38%|███▊      | 4065/10719 [45:50<55:14,  2.01it/s] 38%|███▊      | 4066/10719 [45:50<55:19,  2.00it/s] 38%|███▊      | 4067/10719 [45:51<55:16,  2.01it/s] 38%|███▊      | 4068/10719 [45:51<55:11,  2.01it/s] 38%|███▊      | 4069/10719 [45:52<55:11,  2.01it/s] 38%|███▊      | 4070/10719 [45:52<55:12,  2.01it/s] 38%|███▊      | 4071/10719 [45:53<55:13,  2.01it/s] 38%|███▊      | 4072/10719 [45:53<55:12,  2.01it/s] 38%|███▊      | 4073/10719 [45:54<55:08,  2.01it/s] 38%|███▊      | 4074/10719 [45:54<55:15,  2.00it/s] 38%|███▊      | 4075/10719 [45:55<55:15,  2.00it/s]                                                    {'loss': 3.7057, 'grad_norm': 0.20892147719860077, 'learning_rate': 0.0007793654253359075, 'epoch': 0.38}
- 38%|███▊      | 4075/10719 [45:55<55:15,  2.00it/s] 38%|███▊      | 4076/10719 [45:55<55:19,  2.00it/s] 38%|███▊      | 4077/10719 [45:56<55:16,  2.00it/s] 38%|███▊      | 4078/10719 [45:56<55:20,  2.00it/s] 38%|███▊      | 4079/10719 [45:57<55:24,  2.00it/s] 38%|███▊      | 4080/10719 [45:57<55:24,  2.00it/s] 38%|███▊      | 4081/10719 [45:58<55:24,  2.00it/s] 38%|███▊      | 4082/10719 [45:58<55:24,  2.00it/s] 38%|███▊      | 4083/10719 [45:59<55:20,  2.00it/s] 38%|███▊      | 4084/10719 [45:59<55:20,  2.00it/s] 38%|███▊      | 4085/10719 [46:00<55:13,  2.00it/s] 38%|███▊      | 4086/10719 [46:00<55:15,  2.00it/s] 38%|███▊      | 4087/10719 [46:01<55:50,  1.98it/s] 38%|███▊      | 4088/10719 [46:01<57:22,  1.93it/s] 38%|███▊      | 4089/10719 [46:02<56:43,  1.95it/s] 38%|███▊      | 4090/10719 [46:02<56:24,  1.96it/s] 38%|███▊      | 4091/10719 [46:03<56:01,  1.97it/s] 38%|███▊      | 4092/10719 [46:03<55:42,  1.98it/s] 38%|███▊      | 4093/10719 [46:04<55:31,  1.99it/s] 38%|███▊      | 4094/10719 [46:04<55:24,  1.99it/s] 38%|███▊      | 4095/10719 [46:05<55:23,  1.99it/s] 38%|███▊      | 4096/10719 [46:05<55:14,  2.00it/s] 38%|███▊      | 4097/10719 [46:06<55:09,  2.00it/s] 38%|███▊      | 4098/10719 [46:06<55:06,  2.00it/s] 38%|███▊      | 4099/10719 [46:07<54:57,  2.01it/s] 38%|███▊      | 4100/10719 [46:07<55:02,  2.00it/s]                                                    {'loss': 3.7079, 'grad_norm': 0.19782772660255432, 'learning_rate': 0.000775980184670682, 'epoch': 0.38}
- 38%|███▊      | 4100/10719 [46:07<55:02,  2.00it/s] 38%|███▊      | 4101/10719 [46:08<55:04,  2.00it/s] 38%|███▊      | 4102/10719 [46:08<54:59,  2.01it/s] 38%|███▊      | 4103/10719 [46:09<54:57,  2.01it/s] 38%|███▊      | 4104/10719 [46:09<54:54,  2.01it/s] 38%|███▊      | 4105/10719 [46:10<54:52,  2.01it/s] 38%|███▊      | 4106/10719 [46:10<54:52,  2.01it/s] 38%|███▊      | 4107/10719 [46:11<54:50,  2.01it/s] 38%|███▊      | 4108/10719 [46:11<54:45,  2.01it/s] 38%|███▊      | 4109/10719 [46:12<54:47,  2.01it/s] 38%|███▊      | 4110/10719 [46:12<54:40,  2.01it/s] 38%|███▊      | 4111/10719 [46:13<54:44,  2.01it/s] 38%|███▊      | 4112/10719 [46:13<54:40,  2.01it/s] 38%|███▊      | 4113/10719 [46:14<54:39,  2.01it/s] 38%|███▊      | 4114/10719 [46:14<54:43,  2.01it/s] 38%|███▊      | 4115/10719 [46:15<54:36,  2.02it/s] 38%|███▊      | 4116/10719 [46:15<54:44,  2.01it/s] 38%|███▊      | 4117/10719 [46:16<54:51,  2.01it/s] 38%|███▊      | 4118/10719 [46:16<54:55,  2.00it/s] 38%|███▊      | 4119/10719 [46:17<54:54,  2.00it/s] 38%|███▊      | 4120/10719 [46:17<54:57,  2.00it/s] 38%|███▊      | 4121/10719 [46:18<54:59,  2.00it/s] 38%|███▊      | 4122/10719 [46:18<54:54,  2.00it/s] 38%|███▊      | 4123/10719 [46:19<54:51,  2.00it/s] 38%|███▊      | 4124/10719 [46:19<54:54,  2.00it/s] 38%|███▊      | 4125/10719 [46:20<54:56,  2.00it/s]                                                    {'loss': 3.6955, 'grad_norm': 0.19781669974327087, 'learning_rate': 0.000772576651604688, 'epoch': 0.38}
- 38%|███▊      | 4125/10719 [46:20<54:56,  2.00it/s] 38%|███▊      | 4126/10719 [46:20<54:59,  2.00it/s] 39%|███▊      | 4127/10719 [46:21<55:02,  2.00it/s] 39%|███▊      | 4128/10719 [46:21<55:12,  1.99it/s] 39%|███▊      | 4129/10719 [46:22<55:08,  1.99it/s] 39%|███▊      | 4130/10719 [46:22<55:06,  1.99it/s] 39%|███▊      | 4131/10719 [46:23<55:04,  1.99it/s] 39%|███▊      | 4132/10719 [46:23<55:00,  2.00it/s] 39%|███▊      | 4133/10719 [46:24<55:02,  1.99it/s] 39%|███▊      | 4134/10719 [46:24<55:02,  1.99it/s] 39%|███▊      | 4135/10719 [46:25<54:56,  2.00it/s] 39%|███▊      | 4136/10719 [46:25<54:46,  2.00it/s] 39%|███▊      | 4137/10719 [46:26<54:49,  2.00it/s] 39%|███▊      | 4138/10719 [46:26<54:58,  2.00it/s] 39%|███▊      | 4139/10719 [46:27<54:57,  2.00it/s] 39%|███▊      | 4140/10719 [46:27<54:56,  2.00it/s] 39%|███▊      | 4141/10719 [46:28<54:53,  2.00it/s] 39%|███▊      | 4142/10719 [46:28<54:52,  2.00it/s] 39%|███▊      | 4143/10719 [46:29<54:50,  2.00it/s] 39%|███▊      | 4144/10719 [46:29<54:51,  2.00it/s] 39%|███▊      | 4145/10719 [46:30<54:51,  2.00it/s] 39%|███▊      | 4146/10719 [46:30<54:48,  2.00it/s] 39%|███▊      | 4147/10719 [46:31<54:42,  2.00it/s] 39%|███▊      | 4148/10719 [46:31<54:46,  2.00it/s] 39%|███▊      | 4149/10719 [46:32<54:43,  2.00it/s] 39%|███▊      | 4150/10719 [46:32<54:40,  2.00it/s]                                                    {'loss': 3.7037, 'grad_norm': 0.20436520874500275, 'learning_rate': 0.0007691550517294511, 'epoch': 0.39}
- 39%|███▊      | 4150/10719 [46:32<54:40,  2.00it/s] 39%|███▊      | 4151/10719 [46:33<54:47,  2.00it/s] 39%|███▊      | 4152/10719 [46:33<54:46,  2.00it/s] 39%|███▊      | 4153/10719 [46:34<54:43,  2.00it/s] 39%|███▉      | 4154/10719 [46:34<54:45,  2.00it/s] 39%|███▉      | 4155/10719 [46:35<54:44,  2.00it/s] 39%|███▉      | 4156/10719 [46:35<55:02,  1.99it/s] 39%|███▉      | 4157/10719 [46:36<54:54,  1.99it/s] 39%|███▉      | 4158/10719 [46:36<54:49,  1.99it/s] 39%|███▉      | 4159/10719 [46:37<54:43,  2.00it/s] 39%|███▉      | 4160/10719 [46:37<54:40,  2.00it/s] 39%|███▉      | 4161/10719 [46:38<54:39,  2.00it/s] 39%|███▉      | 4162/10719 [46:38<54:38,  2.00it/s] 39%|███▉      | 4163/10719 [46:39<54:36,  2.00it/s] 39%|███▉      | 4164/10719 [46:39<54:39,  2.00it/s] 39%|███▉      | 4165/10719 [46:40<54:36,  2.00it/s] 39%|███▉      | 4166/10719 [46:40<54:38,  2.00it/s] 39%|███▉      | 4167/10719 [46:41<54:38,  2.00it/s] 39%|███▉      | 4168/10719 [46:41<54:36,  2.00it/s] 39%|███▉      | 4169/10719 [46:42<54:32,  2.00it/s] 39%|███▉      | 4170/10719 [46:42<54:37,  2.00it/s] 39%|███▉      | 4171/10719 [46:43<54:35,  2.00it/s] 39%|███▉      | 4172/10719 [46:43<54:31,  2.00it/s] 39%|███▉      | 4173/10719 [46:44<54:48,  1.99it/s] 39%|███▉      | 4174/10719 [46:44<57:39,  1.89it/s] 39%|███▉      | 4175/10719 [46:45<56:36,  1.93it/s]                                                    {'loss': 3.6903, 'grad_norm': 0.20707789063453674, 'learning_rate': 0.0007657156118339934, 'epoch': 0.39}
- 39%|███▉      | 4175/10719 [46:45<56:36,  1.93it/s] 39%|███▉      | 4176/10719 [46:45<55:58,  1.95it/s] 39%|███▉      | 4177/10719 [46:46<55:35,  1.96it/s] 39%|███▉      | 4178/10719 [46:46<55:13,  1.97it/s] 39%|███▉      | 4179/10719 [46:47<55:00,  1.98it/s] 39%|███▉      | 4180/10719 [46:47<54:46,  1.99it/s] 39%|███▉      | 4181/10719 [46:48<54:35,  2.00it/s] 39%|███▉      | 4182/10719 [46:48<54:31,  2.00it/s] 39%|███▉      | 4183/10719 [46:49<54:21,  2.00it/s] 39%|███▉      | 4184/10719 [46:49<54:17,  2.01it/s] 39%|███▉      | 4185/10719 [46:50<54:18,  2.01it/s] 39%|███▉      | 4186/10719 [46:50<54:13,  2.01it/s] 39%|███▉      | 4187/10719 [46:51<54:10,  2.01it/s] 39%|███▉      | 4188/10719 [46:51<54:10,  2.01it/s] 39%|███▉      | 4189/10719 [46:52<54:33,  2.00it/s] 39%|███▉      | 4190/10719 [46:52<55:03,  1.98it/s] 39%|███▉      | 4191/10719 [46:53<54:59,  1.98it/s] 39%|███▉      | 4192/10719 [46:53<54:49,  1.98it/s] 39%|███▉      | 4193/10719 [46:54<54:43,  1.99it/s] 39%|███▉      | 4194/10719 [46:54<54:39,  1.99it/s] 39%|███▉      | 4195/10719 [46:55<54:33,  1.99it/s] 39%|███▉      | 4196/10719 [46:55<54:25,  2.00it/s] 39%|███▉      | 4197/10719 [46:56<54:22,  2.00it/s] 39%|███▉      | 4198/10719 [46:56<54:18,  2.00it/s] 39%|███▉      | 4199/10719 [46:57<54:13,  2.00it/s] 39%|███▉      | 4200/10719 [46:57<54:13,  2.00it/s]                                                    {'loss': 3.7061, 'grad_norm': 0.1976398080587387, 'learning_rate': 0.0007622585598898015, 'epoch': 0.39}
- 39%|███▉      | 4200/10719 [46:57<54:13,  2.00it/s] 39%|███▉      | 4201/10719 [46:58<54:15,  2.00it/s] 39%|███▉      | 4202/10719 [46:58<54:16,  2.00it/s] 39%|███▉      | 4203/10719 [46:59<54:12,  2.00it/s] 39%|███▉      | 4204/10719 [46:59<54:07,  2.01it/s] 39%|███▉      | 4205/10719 [47:00<54:06,  2.01it/s] 39%|███▉      | 4206/10719 [47:00<54:00,  2.01it/s] 39%|███▉      | 4207/10719 [47:01<54:02,  2.01it/s] 39%|███▉      | 4208/10719 [47:01<54:05,  2.01it/s] 39%|███▉      | 4209/10719 [47:02<53:59,  2.01it/s] 39%|███▉      | 4210/10719 [47:02<54:03,  2.01it/s] 39%|███▉      | 4211/10719 [47:03<54:05,  2.01it/s] 39%|███▉      | 4212/10719 [47:03<54:10,  2.00it/s] 39%|███▉      | 4213/10719 [47:04<54:02,  2.01it/s] 39%|███▉      | 4214/10719 [47:04<54:05,  2.00it/s] 39%|███▉      | 4215/10719 [47:05<54:04,  2.00it/s] 39%|███▉      | 4216/10719 [47:05<54:02,  2.01it/s] 39%|███▉      | 4217/10719 [47:06<54:04,  2.00it/s] 39%|███▉      | 4218/10719 [47:06<54:06,  2.00it/s] 39%|███▉      | 4219/10719 [47:07<54:15,  2.00it/s] 39%|███▉      | 4220/10719 [47:07<54:15,  2.00it/s] 39%|███▉      | 4221/10719 [47:08<54:19,  1.99it/s] 39%|███▉      | 4222/10719 [47:08<54:18,  1.99it/s] 39%|███▉      | 4223/10719 [47:09<54:09,  2.00it/s] 39%|███▉      | 4224/10719 [47:09<54:10,  2.00it/s] 39%|███▉      | 4225/10719 [47:10<54:05,  2.00it/s]                                                    {'loss': 3.6891, 'grad_norm': 0.2020719051361084, 'learning_rate': 0.0007587841250357164, 'epoch': 0.39}
- 39%|███▉      | 4225/10719 [47:10<54:05,  2.00it/s] 39%|███▉      | 4226/10719 [47:10<54:14,  1.99it/s] 39%|███▉      | 4227/10719 [47:11<54:09,  2.00it/s] 39%|███▉      | 4228/10719 [47:11<54:06,  2.00it/s] 39%|███▉      | 4229/10719 [47:12<54:04,  2.00it/s] 39%|███▉      | 4230/10719 [47:12<54:06,  2.00it/s] 39%|███▉      | 4231/10719 [47:13<54:08,  2.00it/s] 39%|███▉      | 4232/10719 [47:13<54:08,  2.00it/s] 39%|███▉      | 4233/10719 [47:14<54:01,  2.00it/s] 39%|███▉      | 4234/10719 [47:14<53:58,  2.00it/s] 40%|███▉      | 4235/10719 [47:15<53:59,  2.00it/s] 40%|███▉      | 4236/10719 [47:15<53:57,  2.00it/s] 40%|███▉      | 4237/10719 [47:16<53:55,  2.00it/s] 40%|███▉      | 4238/10719 [47:16<53:54,  2.00it/s] 40%|███▉      | 4239/10719 [47:17<53:55,  2.00it/s] 40%|███▉      | 4240/10719 [47:17<53:49,  2.01it/s] 40%|███▉      | 4241/10719 [47:18<53:54,  2.00it/s] 40%|███▉      | 4242/10719 [47:18<53:52,  2.00it/s] 40%|███▉      | 4243/10719 [47:19<53:53,  2.00it/s] 40%|███▉      | 4244/10719 [47:19<53:50,  2.00it/s] 40%|███▉      | 4245/10719 [47:20<53:55,  2.00it/s] 40%|███▉      | 4246/10719 [47:20<53:56,  2.00it/s] 40%|███▉      | 4247/10719 [47:21<53:58,  2.00it/s] 40%|███▉      | 4248/10719 [47:21<53:56,  2.00it/s] 40%|███▉      | 4249/10719 [47:22<53:54,  2.00it/s] 40%|███▉      | 4250/10719 [47:22<53:54,  2.00it/s]                                                    {'loss': 3.69, 'grad_norm': 0.2014545500278473, 'learning_rate': 0.0007552925375627456, 'epoch': 0.4}
- 40%|███▉      | 4250/10719 [47:22<53:54,  2.00it/s] 40%|███▉      | 4251/10719 [47:23<54:00,  2.00it/s] 40%|███▉      | 4252/10719 [47:23<54:03,  1.99it/s] 40%|███▉      | 4253/10719 [47:24<53:59,  2.00it/s] 40%|███▉      | 4254/10719 [47:24<53:52,  2.00it/s] 40%|███▉      | 4255/10719 [47:25<53:52,  2.00it/s] 40%|███▉      | 4256/10719 [47:25<53:45,  2.00it/s] 40%|███▉      | 4257/10719 [47:26<53:50,  2.00it/s] 40%|███▉      | 4258/10719 [47:26<53:46,  2.00it/s] 40%|███▉      | 4259/10719 [47:27<53:47,  2.00it/s] 40%|███▉      | 4260/10719 [47:27<53:48,  2.00it/s] 40%|███▉      | 4261/10719 [47:28<53:48,  2.00it/s] 40%|███▉      | 4262/10719 [47:28<53:46,  2.00it/s] 40%|███▉      | 4263/10719 [47:29<53:47,  2.00it/s] 40%|███▉      | 4264/10719 [47:29<53:41,  2.00it/s] 40%|███▉      | 4265/10719 [47:30<53:50,  2.00it/s] 40%|███▉      | 4266/10719 [47:30<56:25,  1.91it/s] 40%|███▉      | 4267/10719 [47:31<55:38,  1.93it/s] 40%|███▉      | 4268/10719 [47:31<55:03,  1.95it/s] 40%|███▉      | 4269/10719 [47:32<54:40,  1.97it/s] 40%|███▉      | 4270/10719 [47:32<54:23,  1.98it/s] 40%|███▉      | 4271/10719 [47:33<54:05,  1.99it/s] 40%|███▉      | 4272/10719 [47:33<53:55,  1.99it/s] 40%|███▉      | 4273/10719 [47:34<53:47,  2.00it/s] 40%|███▉      | 4274/10719 [47:34<53:43,  2.00it/s] 40%|███▉      | 4275/10719 [47:35<53:39,  2.00it/s]                                                    {'loss': 3.6839, 'grad_norm': 0.2069316953420639, 'learning_rate': 0.0007517840288987992, 'epoch': 0.4}
- 40%|███▉      | 4275/10719 [47:35<53:39,  2.00it/s] 40%|███▉      | 4276/10719 [47:35<53:41,  2.00it/s] 40%|███▉      | 4277/10719 [47:36<53:38,  2.00it/s] 40%|███▉      | 4278/10719 [47:36<53:30,  2.01it/s] 40%|███▉      | 4279/10719 [47:37<53:28,  2.01it/s] 40%|███▉      | 4280/10719 [47:37<53:24,  2.01it/s] 40%|███▉      | 4281/10719 [47:38<53:23,  2.01it/s] 40%|███▉      | 4282/10719 [47:38<53:23,  2.01it/s] 40%|███▉      | 4283/10719 [47:39<53:23,  2.01it/s] 40%|███▉      | 4284/10719 [47:39<53:21,  2.01it/s] 40%|███▉      | 4285/10719 [47:40<53:20,  2.01it/s] 40%|███▉      | 4286/10719 [47:40<53:27,  2.01it/s] 40%|███▉      | 4287/10719 [47:41<53:31,  2.00it/s] 40%|████      | 4288/10719 [47:41<53:30,  2.00it/s] 40%|████      | 4289/10719 [47:42<53:33,  2.00it/s] 40%|████      | 4290/10719 [47:42<53:31,  2.00it/s] 40%|████      | 4291/10719 [47:43<53:26,  2.00it/s] 40%|████      | 4292/10719 [47:43<53:26,  2.00it/s] 40%|████      | 4293/10719 [47:44<53:29,  2.00it/s] 40%|████      | 4294/10719 [47:44<53:25,  2.00it/s] 40%|████      | 4295/10719 [47:45<53:24,  2.00it/s] 40%|████      | 4296/10719 [47:45<53:25,  2.00it/s] 40%|████      | 4297/10719 [47:46<53:21,  2.01it/s] 40%|████      | 4298/10719 [47:46<53:21,  2.01it/s] 40%|████      | 4299/10719 [47:47<53:21,  2.01it/s] 40%|████      | 4300/10719 [47:47<53:17,  2.01it/s]                                                    {'loss': 3.6823, 'grad_norm': 0.20629414916038513, 'learning_rate': 0.0007482588315933506, 'epoch': 0.4}
- 40%|████      | 4300/10719 [47:47<53:17,  2.01it/s] 40%|████      | 4301/10719 [47:48<53:25,  2.00it/s] 40%|████      | 4302/10719 [47:48<53:23,  2.00it/s] 40%|████      | 4303/10719 [47:49<53:19,  2.01it/s] 40%|████      | 4304/10719 [47:49<53:19,  2.00it/s] 40%|████      | 4305/10719 [47:50<53:19,  2.00it/s] 40%|████      | 4306/10719 [47:50<53:19,  2.00it/s] 40%|████      | 4307/10719 [47:51<53:18,  2.00it/s] 40%|████      | 4308/10719 [47:51<53:13,  2.01it/s] 40%|████      | 4309/10719 [47:52<53:13,  2.01it/s] 40%|████      | 4310/10719 [47:52<53:12,  2.01it/s] 40%|████      | 4311/10719 [47:53<53:13,  2.01it/s] 40%|████      | 4312/10719 [47:53<53:16,  2.00it/s] 40%|████      | 4313/10719 [47:54<53:17,  2.00it/s] 40%|████      | 4314/10719 [47:54<53:16,  2.00it/s] 40%|████      | 4315/10719 [47:55<53:17,  2.00it/s] 40%|████      | 4316/10719 [47:55<53:16,  2.00it/s] 40%|████      | 4317/10719 [47:56<53:18,  2.00it/s] 40%|████      | 4318/10719 [47:56<53:12,  2.01it/s] 40%|████      | 4319/10719 [47:57<53:08,  2.01it/s] 40%|████      | 4320/10719 [47:57<53:03,  2.01it/s] 40%|████      | 4321/10719 [47:58<53:01,  2.01it/s] 40%|████      | 4322/10719 [47:58<53:01,  2.01it/s] 40%|████      | 4323/10719 [47:59<53:40,  1.99it/s] 40%|████      | 4324/10719 [47:59<53:32,  1.99it/s] 40%|████      | 4325/10719 [48:00<53:27,  1.99it/s]                                                    {'loss': 3.6877, 'grad_norm': 0.20696039497852325, 'learning_rate': 0.0007447171793020224, 'epoch': 0.4}
- 40%|████      | 4325/10719 [48:00<53:27,  1.99it/s] 40%|████      | 4326/10719 [48:00<53:25,  1.99it/s] 40%|████      | 4327/10719 [48:01<53:15,  2.00it/s] 40%|████      | 4328/10719 [48:01<53:12,  2.00it/s] 40%|████      | 4329/10719 [48:02<53:13,  2.00it/s] 40%|████      | 4330/10719 [48:02<53:11,  2.00it/s] 40%|████      | 4331/10719 [48:03<53:05,  2.01it/s] 40%|████      | 4332/10719 [48:03<53:06,  2.00it/s] 40%|████      | 4333/10719 [48:04<53:05,  2.00it/s] 40%|████      | 4334/10719 [48:04<53:02,  2.01it/s] 40%|████      | 4335/10719 [48:05<53:08,  2.00it/s] 40%|████      | 4336/10719 [48:05<53:12,  2.00it/s] 40%|████      | 4337/10719 [48:06<53:15,  2.00it/s] 40%|████      | 4338/10719 [48:06<53:15,  2.00it/s] 40%|████      | 4339/10719 [48:07<53:10,  2.00it/s] 40%|████      | 4340/10719 [48:07<53:12,  2.00it/s] 40%|████      | 4341/10719 [48:08<53:06,  2.00it/s] 41%|████      | 4342/10719 [48:08<53:08,  2.00it/s] 41%|████      | 4343/10719 [48:09<53:02,  2.00it/s] 41%|████      | 4344/10719 [48:09<52:59,  2.00it/s] 41%|████      | 4345/10719 [48:10<52:58,  2.01it/s] 41%|████      | 4346/10719 [48:10<52:54,  2.01it/s] 41%|████      | 4347/10719 [48:11<52:57,  2.01it/s] 41%|████      | 4348/10719 [48:11<52:59,  2.00it/s] 41%|████      | 4349/10719 [48:12<52:59,  2.00it/s] 41%|████      | 4350/10719 [48:12<52:51,  2.01it/s]                                                    {'loss': 3.6719, 'grad_norm': 0.209650456905365, 'learning_rate': 0.0007411593067710996, 'epoch': 0.41}
- 41%|████      | 4350/10719 [48:12<52:51,  2.01it/s] 41%|████      | 4351/10719 [48:13<52:56,  2.00it/s] 41%|████      | 4352/10719 [48:13<52:58,  2.00it/s] 41%|████      | 4353/10719 [48:14<53:02,  2.00it/s] 41%|████      | 4354/10719 [48:14<53:04,  2.00it/s] 41%|████      | 4355/10719 [48:15<53:03,  2.00it/s] 41%|████      | 4356/10719 [48:15<53:00,  2.00it/s] 41%|████      | 4357/10719 [48:16<52:58,  2.00it/s] 41%|████      | 4358/10719 [48:16<52:59,  2.00it/s] 41%|████      | 4359/10719 [48:17<53:03,  2.00it/s] 41%|████      | 4360/10719 [48:17<53:00,  2.00it/s] 41%|████      | 4361/10719 [48:18<52:58,  2.00it/s] 41%|████      | 4362/10719 [48:18<52:54,  2.00it/s] 41%|████      | 4363/10719 [48:19<52:59,  2.00it/s] 41%|████      | 4364/10719 [48:19<53:01,  2.00it/s] 41%|████      | 4365/10719 [48:20<52:56,  2.00it/s] 41%|████      | 4366/10719 [48:20<52:52,  2.00it/s] 41%|████      | 4367/10719 [48:21<52:47,  2.01it/s] 41%|████      | 4368/10719 [48:21<52:47,  2.00it/s] 41%|████      | 4369/10719 [48:22<55:22,  1.91it/s] 41%|████      | 4370/10719 [48:22<54:42,  1.93it/s] 41%|████      | 4371/10719 [48:23<54:11,  1.95it/s] 41%|████      | 4372/10719 [48:23<53:42,  1.97it/s] 41%|████      | 4373/10719 [48:24<53:26,  1.98it/s] 41%|████      | 4374/10719 [48:24<53:10,  1.99it/s] 41%|████      | 4375/10719 [48:25<52:57,  2.00it/s]                                                    {'loss': 3.6767, 'grad_norm': 0.2114172875881195, 'learning_rate': 0.0007375854498219704, 'epoch': 0.41}
- 41%|████      | 4375/10719 [48:25<52:57,  2.00it/s] 41%|████      | 4376/10719 [48:25<52:49,  2.00it/s] 41%|████      | 4377/10719 [48:26<52:46,  2.00it/s] 41%|████      | 4378/10719 [48:26<52:38,  2.01it/s] 41%|████      | 4379/10719 [48:27<52:38,  2.01it/s] 41%|████      | 4380/10719 [48:27<52:35,  2.01it/s] 41%|████      | 4381/10719 [48:28<52:32,  2.01it/s] 41%|████      | 4382/10719 [48:28<52:35,  2.01it/s] 41%|████      | 4383/10719 [48:29<52:30,  2.01it/s] 41%|████      | 4384/10719 [48:29<52:25,  2.01it/s] 41%|████      | 4385/10719 [48:30<52:27,  2.01it/s] 41%|████      | 4386/10719 [48:30<52:31,  2.01it/s] 41%|████      | 4387/10719 [48:31<52:59,  1.99it/s] 41%|████      | 4388/10719 [48:32<55:32,  1.90it/s] 41%|████      | 4389/10719 [48:32<54:40,  1.93it/s] 41%|████      | 4390/10719 [48:33<54:05,  1.95it/s] 41%|████      | 4391/10719 [48:33<54:01,  1.95it/s] 41%|████      | 4392/10719 [48:34<53:36,  1.97it/s] 41%|████      | 4393/10719 [48:34<53:18,  1.98it/s] 41%|████      | 4394/10719 [48:35<53:06,  1.99it/s] 41%|████      | 4395/10719 [48:35<52:54,  1.99it/s] 41%|████      | 4396/10719 [48:36<52:42,  2.00it/s] 41%|████      | 4397/10719 [48:36<52:41,  2.00it/s] 41%|████      | 4398/10719 [48:37<53:03,  1.99it/s] 41%|████      | 4399/10719 [48:37<52:57,  1.99it/s] 41%|████      | 4400/10719 [48:38<52:51,  1.99it/s]                                                    {'loss': 3.6744, 'grad_norm': 0.21417869627475739, 'learning_rate': 0.000733995845335495, 'epoch': 0.41}
- 41%|████      | 4400/10719 [48:38<52:51,  1.99it/s] 41%|████      | 4401/10719 [48:38<52:50,  1.99it/s] 41%|████      | 4402/10719 [48:39<52:47,  1.99it/s] 41%|████      | 4403/10719 [48:39<52:41,  2.00it/s] 41%|████      | 4404/10719 [48:40<52:40,  2.00it/s] 41%|████      | 4405/10719 [48:40<52:33,  2.00it/s] 41%|████      | 4406/10719 [48:41<52:29,  2.00it/s] 41%|████      | 4407/10719 [48:41<52:28,  2.00it/s] 41%|████      | 4408/10719 [48:42<52:27,  2.00it/s] 41%|████      | 4409/10719 [48:42<52:21,  2.01it/s] 41%|████      | 4410/10719 [48:43<52:23,  2.01it/s] 41%|████      | 4411/10719 [48:43<52:22,  2.01it/s] 41%|████      | 4412/10719 [48:44<52:15,  2.01it/s] 41%|████      | 4413/10719 [48:44<52:15,  2.01it/s] 41%|████      | 4414/10719 [48:45<52:50,  1.99it/s] 41%|████      | 4415/10719 [48:45<52:40,  1.99it/s] 41%|████      | 4416/10719 [48:46<52:42,  1.99it/s] 41%|████      | 4417/10719 [48:46<52:39,  1.99it/s] 41%|████      | 4418/10719 [48:47<52:37,  2.00it/s] 41%|████      | 4419/10719 [48:47<52:30,  2.00it/s] 41%|████      | 4420/10719 [48:48<52:29,  2.00it/s] 41%|████      | 4421/10719 [48:48<52:29,  2.00it/s] 41%|████▏     | 4422/10719 [48:49<52:32,  2.00it/s] 41%|████▏     | 4423/10719 [48:49<52:27,  2.00it/s] 41%|████▏     | 4424/10719 [48:50<52:26,  2.00it/s] 41%|████▏     | 4425/10719 [48:50<52:23,  2.00it/s]                                                    {'loss': 3.6771, 'grad_norm': 0.19957585632801056, 'learning_rate': 0.0007303907312363055, 'epoch': 0.41}
- 41%|████▏     | 4425/10719 [48:50<52:23,  2.00it/s] 41%|████▏     | 4426/10719 [48:51<52:33,  2.00it/s] 41%|████▏     | 4427/10719 [48:51<52:26,  2.00it/s] 41%|████▏     | 4428/10719 [48:52<52:19,  2.00it/s] 41%|████▏     | 4429/10719 [48:52<52:19,  2.00it/s] 41%|████▏     | 4430/10719 [48:53<52:20,  2.00it/s] 41%|████▏     | 4431/10719 [48:53<52:15,  2.01it/s] 41%|████▏     | 4432/10719 [48:54<52:17,  2.00it/s] 41%|████▏     | 4433/10719 [48:54<52:12,  2.01it/s] 41%|████▏     | 4434/10719 [48:55<52:16,  2.00it/s] 41%|████▏     | 4435/10719 [48:55<52:14,  2.00it/s] 41%|████▏     | 4436/10719 [48:56<52:15,  2.00it/s] 41%|████▏     | 4437/10719 [48:56<52:08,  2.01it/s] 41%|████▏     | 4438/10719 [48:57<52:09,  2.01it/s] 41%|████▏     | 4439/10719 [48:57<52:11,  2.01it/s] 41%|████▏     | 4440/10719 [48:58<52:12,  2.00it/s] 41%|████▏     | 4441/10719 [48:58<52:09,  2.01it/s] 41%|████▏     | 4442/10719 [48:58<52:07,  2.01it/s] 41%|████▏     | 4443/10719 [48:59<52:04,  2.01it/s] 41%|████▏     | 4444/10719 [49:00<52:27,  1.99it/s] 41%|████▏     | 4445/10719 [49:00<53:37,  1.95it/s] 41%|████▏     | 4446/10719 [49:01<54:02,  1.93it/s] 41%|████▏     | 4447/10719 [49:01<53:30,  1.95it/s] 41%|████▏     | 4448/10719 [49:02<53:06,  1.97it/s] 42%|████▏     | 4449/10719 [49:02<52:49,  1.98it/s] 42%|████▏     | 4450/10719 [49:03<52:39,  1.98it/s]                                                    {'loss': 3.6649, 'grad_norm': 0.19631795585155487, 'learning_rate': 0.0007267703464770353, 'epoch': 0.42}
- 42%|████▏     | 4450/10719 [49:03<52:39,  1.98it/s] 42%|████▏     | 4451/10719 [49:03<52:36,  1.99it/s] 42%|████▏     | 4452/10719 [49:04<52:27,  1.99it/s] 42%|████▏     | 4453/10719 [49:04<52:19,  2.00it/s] 42%|████▏     | 4454/10719 [49:05<52:18,  2.00it/s] 42%|████▏     | 4455/10719 [49:05<52:20,  1.99it/s] 42%|████▏     | 4456/10719 [49:06<52:14,  2.00it/s] 42%|████▏     | 4457/10719 [49:06<52:11,  2.00it/s] 42%|████▏     | 4458/10719 [49:07<52:10,  2.00it/s] 42%|████▏     | 4459/10719 [49:07<52:11,  2.00it/s] 42%|████▏     | 4460/10719 [49:08<52:06,  2.00it/s] 42%|████▏     | 4461/10719 [49:08<52:04,  2.00it/s] 42%|████▏     | 4462/10719 [49:09<52:04,  2.00it/s] 42%|████▏     | 4463/10719 [49:09<52:03,  2.00it/s] 42%|████▏     | 4464/10719 [49:10<51:59,  2.01it/s] 42%|████▏     | 4465/10719 [49:10<51:57,  2.01it/s] 42%|████▏     | 4466/10719 [49:11<51:59,  2.00it/s] 42%|████▏     | 4467/10719 [49:11<51:55,  2.01it/s] 42%|████▏     | 4468/10719 [49:12<51:49,  2.01it/s] 42%|████▏     | 4469/10719 [49:12<51:51,  2.01it/s] 42%|████▏     | 4470/10719 [49:13<51:47,  2.01it/s] 42%|████▏     | 4471/10719 [49:13<51:46,  2.01it/s] 42%|████▏     | 4472/10719 [49:14<51:46,  2.01it/s] 42%|████▏     | 4473/10719 [49:14<51:41,  2.01it/s] 42%|████▏     | 4474/10719 [49:15<51:45,  2.01it/s] 42%|████▏     | 4475/10719 [49:15<51:45,  2.01it/s]                                                    {'loss': 3.6719, 'grad_norm': 0.19285471737384796, 'learning_rate': 0.0007231349310224814, 'epoch': 0.42}
- 42%|████▏     | 4475/10719 [49:15<51:45,  2.01it/s] 42%|████▏     | 4476/10719 [49:16<51:46,  2.01it/s] 42%|████▏     | 4477/10719 [49:16<51:45,  2.01it/s] 42%|████▏     | 4478/10719 [49:17<51:42,  2.01it/s] 42%|████▏     | 4479/10719 [49:17<51:40,  2.01it/s] 42%|████▏     | 4480/10719 [49:18<51:44,  2.01it/s] 42%|████▏     | 4481/10719 [49:18<51:44,  2.01it/s] 42%|████▏     | 4482/10719 [49:19<51:41,  2.01it/s] 42%|████▏     | 4483/10719 [49:19<51:39,  2.01it/s] 42%|████▏     | 4484/10719 [49:20<51:36,  2.01it/s] 42%|████▏     | 4485/10719 [49:20<51:35,  2.01it/s] 42%|████▏     | 4486/10719 [49:21<51:40,  2.01it/s] 42%|████▏     | 4487/10719 [49:21<51:44,  2.01it/s] 42%|████▏     | 4488/10719 [49:22<51:48,  2.00it/s] 42%|████▏     | 4489/10719 [49:22<51:48,  2.00it/s] 42%|████▏     | 4490/10719 [49:23<51:56,  2.00it/s] 42%|████▏     | 4491/10719 [49:23<51:56,  2.00it/s] 42%|████▏     | 4492/10719 [49:24<51:50,  2.00it/s] 42%|████▏     | 4493/10719 [49:24<51:54,  2.00it/s] 42%|████▏     | 4494/10719 [49:25<51:54,  2.00it/s] 42%|████▏     | 4495/10719 [49:25<51:55,  2.00it/s] 42%|████▏     | 4496/10719 [49:26<51:59,  1.99it/s] 42%|████▏     | 4497/10719 [49:26<51:56,  2.00it/s] 42%|████▏     | 4498/10719 [49:27<51:52,  2.00it/s] 42%|████▏     | 4499/10719 [49:27<51:51,  2.00it/s] 42%|████▏     | 4500/10719 [49:28<51:51,  2.00it/s]                                                    {'loss': 3.6721, 'grad_norm': 0.20615023374557495, 'learning_rate': 0.0007194847258336986, 'epoch': 0.42}
- 42%|████▏     | 4500/10719 [49:28<51:51,  2.00it/s] 42%|████▏     | 4501/10719 [49:28<51:53,  2.00it/s] 42%|████▏     | 4502/10719 [49:29<51:54,  2.00it/s] 42%|████▏     | 4503/10719 [49:29<51:49,  2.00it/s] 42%|████▏     | 4504/10719 [49:30<51:52,  2.00it/s] 42%|████▏     | 4505/10719 [49:30<51:46,  2.00it/s] 42%|████▏     | 4506/10719 [49:31<51:47,  2.00it/s] 42%|████▏     | 4507/10719 [49:31<51:40,  2.00it/s] 42%|████▏     | 4508/10719 [49:32<51:38,  2.00it/s] 42%|████▏     | 4509/10719 [49:32<51:38,  2.00it/s] 42%|████▏     | 4510/10719 [49:33<51:46,  2.00it/s] 42%|████▏     | 4511/10719 [49:33<51:39,  2.00it/s] 42%|████▏     | 4512/10719 [49:34<51:42,  2.00it/s] 42%|████▏     | 4513/10719 [49:34<51:41,  2.00it/s] 42%|████▏     | 4514/10719 [49:35<51:40,  2.00it/s] 42%|████▏     | 4515/10719 [49:35<51:35,  2.00it/s] 42%|████▏     | 4516/10719 [49:36<51:36,  2.00it/s] 42%|████▏     | 4517/10719 [49:36<51:30,  2.01it/s] 42%|████▏     | 4518/10719 [49:37<51:33,  2.00it/s] 42%|████▏     | 4519/10719 [49:37<51:36,  2.00it/s] 42%|████▏     | 4520/10719 [49:38<51:35,  2.00it/s] 42%|████▏     | 4521/10719 [49:38<51:32,  2.00it/s] 42%|████▏     | 4522/10719 [49:38<51:33,  2.00it/s] 42%|████▏     | 4523/10719 [49:39<51:31,  2.00it/s] 42%|████▏     | 4524/10719 [49:39<51:29,  2.01it/s] 42%|████▏     | 4525/10719 [49:40<51:28,  2.01it/s]                                                    {'loss': 3.6629, 'grad_norm': 0.20343956351280212, 'learning_rate': 0.0007158199728520289, 'epoch': 0.42}
- 42%|████▏     | 4525/10719 [49:40<51:28,  2.01it/s] 42%|████▏     | 4526/10719 [49:40<51:36,  2.00it/s] 42%|████▏     | 4527/10719 [49:41<51:38,  2.00it/s] 42%|████▏     | 4528/10719 [49:42<51:39,  2.00it/s] 42%|████▏     | 4529/10719 [49:42<51:37,  2.00it/s] 42%|████▏     | 4530/10719 [49:43<51:37,  2.00it/s] 42%|████▏     | 4531/10719 [49:43<51:35,  2.00it/s] 42%|████▏     | 4532/10719 [49:43<51:30,  2.00it/s] 42%|████▏     | 4533/10719 [49:44<51:35,  2.00it/s] 42%|████▏     | 4534/10719 [49:45<51:34,  2.00it/s] 42%|████▏     | 4535/10719 [49:45<51:30,  2.00it/s] 42%|████▏     | 4536/10719 [49:45<51:28,  2.00it/s] 42%|████▏     | 4537/10719 [49:46<51:27,  2.00it/s] 42%|████▏     | 4538/10719 [49:46<51:26,  2.00it/s] 42%|████▏     | 4539/10719 [49:47<51:21,  2.01it/s] 42%|████▏     | 4540/10719 [49:47<51:21,  2.00it/s] 42%|████▏     | 4541/10719 [49:48<51:24,  2.00it/s] 42%|████▏     | 4542/10719 [49:48<51:21,  2.00it/s] 42%|████▏     | 4543/10719 [49:49<51:22,  2.00it/s] 42%|████▏     | 4544/10719 [49:49<51:21,  2.00it/s] 42%|████▏     | 4545/10719 [49:50<51:17,  2.01it/s] 42%|████▏     | 4546/10719 [49:50<51:14,  2.01it/s] 42%|████▏     | 4547/10719 [49:51<51:17,  2.01it/s] 42%|████▏     | 4548/10719 [49:51<51:12,  2.01it/s] 42%|████▏     | 4549/10719 [49:52<51:08,  2.01it/s] 42%|████▏     | 4550/10719 [49:52<51:10,  2.01it/s]                                                    {'loss': 3.6704, 'grad_norm': 0.21199721097946167, 'learning_rate': 0.0007121409149830647, 'epoch': 0.42}
- 42%|████▏     | 4550/10719 [49:52<51:10,  2.01it/s] 42%|████▏     | 4551/10719 [49:53<51:09,  2.01it/s] 42%|████▏     | 4552/10719 [49:53<51:06,  2.01it/s] 42%|████▏     | 4553/10719 [49:54<51:06,  2.01it/s] 42%|████▏     | 4554/10719 [49:54<51:04,  2.01it/s] 42%|████▏     | 4555/10719 [49:55<51:03,  2.01it/s] 43%|████▎     | 4556/10719 [49:55<51:02,  2.01it/s] 43%|████▎     | 4557/10719 [49:56<51:01,  2.01it/s] 43%|████▎     | 4558/10719 [49:56<51:01,  2.01it/s] 43%|████▎     | 4559/10719 [49:57<51:02,  2.01it/s] 43%|████▎     | 4560/10719 [49:57<50:59,  2.01it/s] 43%|████▎     | 4561/10719 [49:58<51:01,  2.01it/s] 43%|████▎     | 4562/10719 [49:58<51:03,  2.01it/s] 43%|████▎     | 4563/10719 [49:59<51:00,  2.01it/s] 43%|████▎     | 4564/10719 [49:59<51:03,  2.01it/s] 43%|████▎     | 4565/10719 [50:00<51:01,  2.01it/s] 43%|████▎     | 4566/10719 [50:00<51:00,  2.01it/s] 43%|████▎     | 4567/10719 [50:01<50:57,  2.01it/s] 43%|████▎     | 4568/10719 [50:01<50:57,  2.01it/s] 43%|████▎     | 4569/10719 [50:02<50:56,  2.01it/s] 43%|████▎     | 4570/10719 [50:02<50:56,  2.01it/s] 43%|████▎     | 4571/10719 [50:03<50:56,  2.01it/s] 43%|████▎     | 4572/10719 [50:03<50:53,  2.01it/s] 43%|████▎     | 4573/10719 [50:04<50:53,  2.01it/s] 43%|████▎     | 4574/10719 [50:04<50:48,  2.02it/s] 43%|████▎     | 4575/10719 [50:05<50:51,  2.01it/s]                                                    {'loss': 3.6612, 'grad_norm': 0.20080159604549408, 'learning_rate': 0.0007084477960805489, 'epoch': 0.43}
- 43%|████▎     | 4575/10719 [50:05<50:51,  2.01it/s] 43%|████▎     | 4576/10719 [50:05<50:54,  2.01it/s] 43%|████▎     | 4577/10719 [50:06<50:51,  2.01it/s] 43%|████▎     | 4578/10719 [50:06<50:45,  2.02it/s] 43%|████▎     | 4579/10719 [50:07<50:46,  2.02it/s] 43%|████▎     | 4580/10719 [50:07<50:52,  2.01it/s] 43%|████▎     | 4581/10719 [50:08<52:27,  1.95it/s] 43%|████▎     | 4582/10719 [50:08<52:10,  1.96it/s] 43%|████▎     | 4583/10719 [50:09<51:52,  1.97it/s] 43%|████▎     | 4584/10719 [50:09<51:35,  1.98it/s] 43%|████▎     | 4585/10719 [50:10<51:25,  1.99it/s] 43%|████▎     | 4586/10719 [50:10<51:18,  1.99it/s] 43%|████▎     | 4587/10719 [50:11<51:11,  2.00it/s] 43%|████▎     | 4588/10719 [50:11<51:10,  2.00it/s] 43%|████▎     | 4589/10719 [50:12<51:05,  2.00it/s] 43%|████▎     | 4590/10719 [50:12<51:05,  2.00it/s] 43%|████▎     | 4591/10719 [50:13<50:58,  2.00it/s] 43%|████▎     | 4592/10719 [50:13<50:54,  2.01it/s] 43%|████▎     | 4593/10719 [50:14<50:57,  2.00it/s] 43%|████▎     | 4594/10719 [50:14<50:58,  2.00it/s] 43%|████▎     | 4595/10719 [50:15<50:51,  2.01it/s] 43%|████▎     | 4596/10719 [50:15<50:49,  2.01it/s] 43%|████▎     | 4597/10719 [50:16<50:46,  2.01it/s] 43%|████▎     | 4598/10719 [50:16<50:47,  2.01it/s] 43%|████▎     | 4599/10719 [50:17<50:44,  2.01it/s] 43%|████▎     | 4600/10719 [50:17<50:51,  2.00it/s]                                                    {'loss': 3.6638, 'grad_norm': 0.1940096765756607, 'learning_rate': 0.0007047408609302115, 'epoch': 0.43}
- 43%|████▎     | 4600/10719 [50:17<50:51,  2.00it/s] 43%|████▎     | 4601/10719 [50:18<50:47,  2.01it/s] 43%|████▎     | 4602/10719 [50:18<50:50,  2.01it/s] 43%|████▎     | 4603/10719 [50:19<50:50,  2.00it/s] 43%|████▎     | 4604/10719 [50:19<50:47,  2.01it/s] 43%|████▎     | 4605/10719 [50:20<50:45,  2.01it/s] 43%|████▎     | 4606/10719 [50:20<50:44,  2.01it/s] 43%|████▎     | 4607/10719 [50:21<50:41,  2.01it/s] 43%|████▎     | 4608/10719 [50:21<50:40,  2.01it/s] 43%|████▎     | 4609/10719 [50:22<50:44,  2.01it/s] 43%|████▎     | 4610/10719 [50:22<50:40,  2.01it/s] 43%|████▎     | 4611/10719 [50:23<50:39,  2.01it/s] 43%|████▎     | 4612/10719 [50:23<50:42,  2.01it/s] 43%|████▎     | 4613/10719 [50:24<50:43,  2.01it/s] 43%|████▎     | 4614/10719 [50:24<50:44,  2.01it/s] 43%|████▎     | 4615/10719 [50:25<50:47,  2.00it/s] 43%|████▎     | 4616/10719 [50:25<50:45,  2.00it/s] 43%|████▎     | 4617/10719 [50:26<53:10,  1.91it/s] 43%|████▎     | 4618/10719 [50:26<52:24,  1.94it/s] 43%|████▎     | 4619/10719 [50:27<51:51,  1.96it/s] 43%|████▎     | 4620/10719 [50:27<51:32,  1.97it/s] 43%|████▎     | 4621/10719 [50:28<51:16,  1.98it/s] 43%|████▎     | 4622/10719 [50:28<51:06,  1.99it/s] 43%|████▎     | 4623/10719 [50:29<50:55,  2.00it/s] 43%|████▎     | 4624/10719 [50:29<50:44,  2.00it/s] 43%|████▎     | 4625/10719 [50:30<50:40,  2.00it/s]                                                    {'loss': 3.6585, 'grad_norm': 0.20510698854923248, 'learning_rate': 0.0007010203552335458, 'epoch': 0.43}
- 43%|████▎     | 4625/10719 [50:30<50:40,  2.00it/s] 43%|████▎     | 4626/10719 [50:30<50:42,  2.00it/s] 43%|████▎     | 4627/10719 [50:31<50:35,  2.01it/s] 43%|████▎     | 4628/10719 [50:31<50:35,  2.01it/s] 43%|████▎     | 4629/10719 [50:32<50:33,  2.01it/s] 43%|████▎     | 4630/10719 [50:32<50:30,  2.01it/s] 43%|████▎     | 4631/10719 [50:33<50:28,  2.01it/s] 43%|████▎     | 4632/10719 [50:34<59:18,  1.71it/s] 43%|████▎     | 4633/10719 [50:34<56:42,  1.79it/s] 43%|████▎     | 4634/10719 [50:35<54:43,  1.85it/s] 43%|████▎     | 4635/10719 [50:35<53:27,  1.90it/s] 43%|████▎     | 4636/10719 [50:36<52:29,  1.93it/s] 43%|████▎     | 4637/10719 [50:36<51:49,  1.96it/s] 43%|████▎     | 4638/10719 [50:37<51:20,  1.97it/s] 43%|████▎     | 4639/10719 [50:37<50:57,  1.99it/s] 43%|████▎     | 4640/10719 [50:38<50:47,  1.99it/s] 43%|████▎     | 4641/10719 [50:38<50:33,  2.00it/s] 43%|████▎     | 4642/10719 [50:39<50:30,  2.01it/s] 43%|████▎     | 4643/10719 [50:39<50:21,  2.01it/s] 43%|████▎     | 4644/10719 [50:40<50:21,  2.01it/s] 43%|████▎     | 4645/10719 [50:40<50:15,  2.01it/s] 43%|████▎     | 4646/10719 [50:41<50:13,  2.02it/s] 43%|████▎     | 4647/10719 [50:41<50:10,  2.02it/s] 43%|████▎     | 4648/10719 [50:42<50:08,  2.02it/s] 43%|████▎     | 4649/10719 [50:42<50:08,  2.02it/s] 43%|████▎     | 4650/10719 [50:43<50:06,  2.02it/s]                                                    {'loss': 3.6616, 'grad_norm': 0.20031380653381348, 'learning_rate': 0.0006972865255915217, 'epoch': 0.43}
- 43%|████▎     | 4650/10719 [50:43<50:06,  2.02it/s] 43%|████▎     | 4651/10719 [50:43<59:32,  1.70it/s] 43%|████▎     | 4652/10719 [50:44<56:45,  1.78it/s] 43%|████▎     | 4653/10719 [50:44<54:42,  1.85it/s] 43%|████▎     | 4654/10719 [50:45<53:18,  1.90it/s] 43%|████▎     | 4655/10719 [50:45<52:19,  1.93it/s] 43%|████▎     | 4656/10719 [50:46<51:40,  1.96it/s] 43%|████▎     | 4657/10719 [50:46<51:08,  1.98it/s] 43%|████▎     | 4658/10719 [50:47<50:52,  1.99it/s] 43%|████▎     | 4659/10719 [50:47<50:36,  2.00it/s] 43%|████▎     | 4660/10719 [50:48<50:25,  2.00it/s] 43%|████▎     | 4661/10719 [50:48<50:13,  2.01it/s] 43%|████▎     | 4662/10719 [50:49<50:09,  2.01it/s] 44%|████▎     | 4663/10719 [50:49<50:02,  2.02it/s] 44%|████▎     | 4664/10719 [50:50<49:58,  2.02it/s] 44%|████▎     | 4665/10719 [50:50<49:59,  2.02it/s] 44%|████▎     | 4666/10719 [50:51<52:31,  1.92it/s] 44%|████▎     | 4667/10719 [50:51<51:52,  1.94it/s] 44%|████▎     | 4668/10719 [50:52<51:23,  1.96it/s] 44%|████▎     | 4669/10719 [50:52<51:05,  1.97it/s] 44%|████▎     | 4670/10719 [50:53<50:44,  1.99it/s] 44%|████▎     | 4671/10719 [50:53<50:35,  1.99it/s] 44%|████▎     | 4672/10719 [50:54<50:28,  2.00it/s] 44%|██��█▎     | 4673/10719 [50:54<50:18,  2.00it/s] 44%|████▎     | 4674/10719 [50:55<50:14,  2.01it/s] 44%|████▎     | 4675/10719 [50:55<50:11,  2.01it/s]                                                    {'loss': 3.6565, 'grad_norm': 0.2099200040102005, 'learning_rate': 0.0006935396194882415, 'epoch': 0.44}
- 44%|████▎     | 4675/10719 [50:55<50:11,  2.01it/s] 44%|████▎     | 4676/10719 [50:56<50:09,  2.01it/s] 44%|████▎     | 4677/10719 [50:56<50:05,  2.01it/s] 44%|████▎     | 4678/10719 [50:57<50:05,  2.01it/s] 44%|████▎     | 4679/10719 [50:57<50:01,  2.01it/s] 44%|████▎     | 4680/10719 [50:58<50:09,  2.01it/s] 44%|████▎     | 4681/10719 [50:58<50:07,  2.01it/s] 44%|████▎     | 4682/10719 [50:59<50:07,  2.01it/s] 44%|████▎     | 4683/10719 [50:59<50:04,  2.01it/s] 44%|████▎     | 4684/10719 [51:00<50:03,  2.01it/s] 44%|████▎     | 4685/10719 [51:00<50:00,  2.01it/s] 44%|████▎     | 4686/10719 [51:01<50:00,  2.01it/s] 44%|████▎     | 4687/10719 [51:01<49:57,  2.01it/s] 44%|████▎     | 4688/10719 [51:02<49:55,  2.01it/s] 44%|████▎     | 4689/10719 [51:02<50:00,  2.01it/s] 44%|████▍     | 4690/10719 [51:03<49:58,  2.01it/s] 44%|████▍     | 4691/10719 [51:03<49:56,  2.01it/s] 44%|████▍     | 4692/10719 [51:04<49:57,  2.01it/s] 44%|████▍     | 4693/10719 [51:04<49:51,  2.01it/s] 44%|████▍     | 4694/10719 [51:05<49:54,  2.01it/s] 44%|████▍     | 4695/10719 [51:05<49:48,  2.02it/s] 44%|████▍     | 4696/10719 [51:06<49:51,  2.01it/s] 44%|████▍     | 4697/10719 [51:06<49:52,  2.01it/s] 44%|████▍     | 4698/10719 [51:07<49:51,  2.01it/s] 44%|████▍     | 4699/10719 [51:07<49:56,  2.01it/s] 44%|████▍     | 4700/10719 [51:08<49:56,  2.01it/s]                                                    {'loss': 3.6567, 'grad_norm': 0.19598530232906342, 'learning_rate': 0.0006897798852745356, 'epoch': 0.44}
- 44%|████▍     | 4700/10719 [51:08<49:56,  2.01it/s] 44%|████▍     | 4701/10719 [51:08<50:00,  2.01it/s] 44%|████▍     | 4702/10719 [51:09<50:00,  2.01it/s] 44%|████▍     | 4703/10719 [51:09<49:59,  2.01it/s] 44%|████▍     | 4704/10719 [51:10<49:57,  2.01it/s] 44%|████▍     | 4705/10719 [51:10<49:55,  2.01it/s] 44%|████▍     | 4706/10719 [51:11<49:55,  2.01it/s] 44%|████▍     | 4707/10719 [51:11<49:55,  2.01it/s] 44%|████▍     | 4708/10719 [51:12<49:53,  2.01it/s] 44%|████▍     | 4709/10719 [51:12<49:49,  2.01it/s] 44%|████▍     | 4710/10719 [51:13<49:52,  2.01it/s] 44%|████▍     | 4711/10719 [51:13<49:50,  2.01it/s] 44%|████▍     | 4712/10719 [51:14<49:49,  2.01it/s] 44%|████▍     | 4713/10719 [51:14<49:49,  2.01it/s] 44%|████▍     | 4714/10719 [51:15<49:54,  2.01it/s] 44%|████▍     | 4715/10719 [51:15<49:50,  2.01it/s] 44%|████▍     | 4716/10719 [51:16<49:57,  2.00it/s] 44%|████▍     | 4717/10719 [51:16<50:14,  1.99it/s] 44%|████▍     | 4718/10719 [51:17<51:56,  1.93it/s] 44%|████▍     | 4719/10719 [51:17<51:20,  1.95it/s] 44%|████▍     | 4720/10719 [51:18<50:56,  1.96it/s] 44%|████▍     | 4721/10719 [51:18<50:32,  1.98it/s] 44%|████▍     | 4722/10719 [51:19<50:20,  1.99it/s] 44%|████▍     | 4723/10719 [51:19<50:11,  1.99it/s] 44%|████▍     | 4724/10719 [51:20<50:00,  2.00it/s] 44%|████▍     | 4725/10719 [51:20<50:00,  2.00it/s]                                                    {'loss': 3.664, 'grad_norm': 0.19493602216243744, 'learning_rate': 0.000686007572151502, 'epoch': 0.44}
- 44%|████▍     | 4725/10719 [51:20<50:00,  2.00it/s] 44%|████▍     | 4726/10719 [51:21<49:56,  2.00it/s] 44%|████▍     | 4727/10719 [51:21<49:48,  2.00it/s] 44%|████▍     | 4728/10719 [51:22<49:45,  2.01it/s] 44%|████▍     | 4729/10719 [51:22<49:41,  2.01it/s] 44%|████▍     | 4730/10719 [51:23<50:22,  1.98it/s] 44%|████▍     | 4731/10719 [51:23<51:16,  1.95it/s] 44%|████▍     | 4732/10719 [51:24<50:50,  1.96it/s] 44%|████▍     | 4733/10719 [51:24<50:30,  1.97it/s] 44%|████▍     | 4734/10719 [51:25<50:15,  1.98it/s] 44%|████▍     | 4735/10719 [51:25<50:05,  1.99it/s] 44%|████▍     | 4736/10719 [51:26<49:57,  2.00it/s] 44%|████▍     | 4737/10719 [51:26<49:48,  2.00it/s] 44%|████▍     | 4738/10719 [51:27<49:47,  2.00it/s] 44%|████▍     | 4739/10719 [51:27<49:39,  2.01it/s] 44%|████▍     | 4740/10719 [51:28<49:36,  2.01it/s] 44%|████▍     | 4741/10719 [51:28<49:33,  2.01it/s] 44%|████▍     | 4742/10719 [51:29<49:32,  2.01it/s] 44%|████▍     | 4743/10719 [51:29<49:32,  2.01it/s] 44%|████▍     | 4744/10719 [51:30<49:34,  2.01it/s] 44%|████▍     | 4745/10719 [51:30<49:29,  2.01it/s] 44%|████▍     | 4746/10719 [51:31<49:31,  2.01it/s] 44%|████▍     | 4747/10719 [51:31<49:28,  2.01it/s] 44%|████▍     | 4748/10719 [51:32<49:28,  2.01it/s] 44%|████▍     | 4749/10719 [51:32<49:33,  2.01it/s] 44%|████▍     | 4750/10719 [51:33<49:30,  2.01it/s]                                                    {'loss': 3.6595, 'grad_norm': 0.2018851935863495, 'learning_rate': 0.0006822229301539885, 'epoch': 0.44}
- 44%|████▍     | 4750/10719 [51:33<49:30,  2.01it/s] 44%|████▍     | 4751/10719 [51:33<49:28,  2.01it/s] 44%|████▍     | 4752/10719 [51:34<49:26,  2.01it/s] 44%|████▍     | 4753/10719 [51:34<49:21,  2.01it/s] 44%|████▍     | 4754/10719 [51:35<49:25,  2.01it/s] 44%|████▍     | 4755/10719 [51:35<49:21,  2.01it/s] 44%|████▍     | 4756/10719 [51:36<49:21,  2.01it/s] 44%|████▍     | 4757/10719 [51:36<49:23,  2.01it/s] 44%|████▍     | 4758/10719 [51:37<49:23,  2.01it/s] 44%|████▍     | 4759/10719 [51:37<49:25,  2.01it/s] 44%|████▍     | 4760/10719 [51:38<49:33,  2.00it/s] 44%|████▍     | 4761/10719 [51:38<49:33,  2.00it/s] 44%|████▍     | 4762/10719 [51:39<49:30,  2.01it/s] 44%|████▍     | 4763/10719 [51:39<49:33,  2.00it/s] 44%|████▍     | 4764/10719 [51:40<49:37,  2.00it/s] 44%|████▍     | 4765/10719 [51:40<49:41,  2.00it/s] 44%|████▍     | 4766/10719 [51:41<49:37,  2.00it/s] 44%|████▍     | 4767/10719 [51:41<49:34,  2.00it/s] 44%|████▍     | 4768/10719 [51:42<49:33,  2.00it/s] 44%|████▍     | 4769/10719 [51:42<49:35,  2.00it/s] 45%|████▍     | 4770/10719 [51:43<49:28,  2.00it/s] 45%|████▍     | 4771/10719 [51:43<49:26,  2.01it/s] 45%|████▍     | 4772/10719 [51:44<49:31,  2.00it/s] 45%|████▍     | 4773/10719 [51:44<49:34,  2.00it/s] 45%|████▍     | 4774/10719 [51:45<49:31,  2.00it/s] 45%|████▍     | 4775/10719 [51:45<49:26,  2.00it/s]                                                    {'loss': 3.6595, 'grad_norm': 0.21080096065998077, 'learning_rate': 0.0006784262101340201, 'epoch': 0.45}
- 45%|████▍     | 4775/10719 [51:45<49:26,  2.00it/s] 45%|████▍     | 4776/10719 [51:46<49:32,  2.00it/s] 45%|████▍     | 4777/10719 [51:46<49:32,  2.00it/s] 45%|████▍     | 4778/10719 [51:47<49:30,  2.00it/s] 45%|████▍     | 4779/10719 [51:47<49:25,  2.00it/s] 45%|████▍     | 4780/10719 [51:48<49:27,  2.00it/s] 45%|████▍     | 4781/10719 [51:48<49:29,  2.00it/s] 45%|████▍     | 4782/10719 [51:49<51:15,  1.93it/s] 45%|████▍     | 4783/10719 [51:49<50:43,  1.95it/s] 45%|████▍     | 4784/10719 [51:50<50:17,  1.97it/s] 45%|████▍     | 4785/10719 [51:50<50:03,  1.98it/s] 45%|████▍     | 4786/10719 [51:51<49:46,  1.99it/s] 45%|████▍     | 4787/10719 [51:51<49:39,  1.99it/s] 45%|████▍     | 4788/10719 [51:52<49:30,  2.00it/s] 45%|████▍     | 4789/10719 [51:52<49:23,  2.00it/s] 45%|████▍     | 4790/10719 [51:53<49:19,  2.00it/s] 45%|████▍     | 4791/10719 [51:53<50:19,  1.96it/s] 45%|████▍     | 4792/10719 [51:54<50:01,  1.97it/s] 45%|████▍     | 4793/10719 [51:54<49:51,  1.98it/s] 45%|████▍     | 4794/10719 [51:55<49:42,  1.99it/s] 45%|████▍     | 4795/10719 [51:55<49:35,  1.99it/s] 45%|████▍     | 4796/10719 [51:56<49:32,  1.99it/s] 45%|████▍     | 4797/10719 [51:56<49:30,  1.99it/s] 45%|████▍     | 4798/10719 [51:57<49:25,  2.00it/s] 45%|████▍     | 4799/10719 [51:57<49:24,  2.00it/s] 45%|████▍     | 4800/10719 [51:58<49:20,  2.00it/s]                                                    {'loss': 3.6511, 'grad_norm': 0.20587646961212158, 'learning_rate': 0.000674617663744172, 'epoch': 0.45}
- 45%|████▍     | 4800/10719 [51:58<49:20,  2.00it/s] 45%|████▍     | 4801/10719 [51:58<49:22,  2.00it/s] 45%|████▍     | 4802/10719 [51:59<49:14,  2.00it/s] 45%|████▍     | 4803/10719 [51:59<49:12,  2.00it/s] 45%|████▍     | 4804/10719 [52:00<49:11,  2.00it/s] 45%|████▍     | 4805/10719 [52:00<49:08,  2.01it/s] 45%|████▍     | 4806/10719 [52:01<49:07,  2.01it/s] 45%|████▍     | 4807/10719 [52:01<49:05,  2.01it/s] 45%|████▍     | 4808/10719 [52:02<49:03,  2.01it/s] 45%|████▍     | 4809/10719 [52:02<49:03,  2.01it/s] 45%|████▍     | 4810/10719 [52:03<49:00,  2.01it/s] 45%|████▍     | 4811/10719 [52:03<48:58,  2.01it/s] 45%|████▍     | 4812/10719 [52:04<49:00,  2.01it/s] 45%|████▍     | 4813/10719 [52:04<49:03,  2.01it/s] 45%|████▍     | 4814/10719 [52:05<48:57,  2.01it/s] 45%|████▍     | 4815/10719 [52:05<48:58,  2.01it/s] 45%|████▍     | 4816/10719 [52:06<48:54,  2.01it/s] 45%|████▍     | 4817/10719 [52:06<48:50,  2.01it/s] 45%|████▍     | 4818/10719 [52:07<48:54,  2.01it/s] 45%|████▍     | 4819/10719 [52:07<49:12,  2.00it/s] 45%|████▍     | 4820/10719 [52:08<51:39,  1.90it/s] 45%|████▍     | 4821/10719 [52:09<50:57,  1.93it/s] 45%|████▍     | 4822/10719 [52:09<50:18,  1.95it/s] 45%|████▍     | 4823/10719 [52:10<49:52,  1.97it/s] 45%|████▌     | 4824/10719 [52:10<49:38,  1.98it/s] 45%|████▌     | 4825/10719 [52:11<49:24,  1.99it/s]                                                    {'loss': 3.657, 'grad_norm': 0.20983542501926422, 'learning_rate': 0.00067079754342089, 'epoch': 0.45}
- 45%|████▌     | 4825/10719 [52:11<49:24,  1.99it/s] 45%|████▌     | 4826/10719 [52:11<49:20,  1.99it/s] 45%|████▌     | 4827/10719 [52:12<49:15,  1.99it/s] 45%|████▌     | 4828/10719 [52:12<49:13,  1.99it/s] 45%|████▌     | 4829/10719 [52:13<49:11,  2.00it/s] 45%|████▌     | 4830/10719 [52:13<49:06,  2.00it/s] 45%|████▌     | 4831/10719 [52:14<49:05,  2.00it/s] 45%|████▌     | 4832/10719 [52:14<49:06,  2.00it/s] 45%|████▌     | 4833/10719 [52:15<49:08,  2.00it/s] 45%|████▌     | 4834/10719 [52:15<49:00,  2.00it/s] 45%|████▌     | 4835/10719 [52:16<48:58,  2.00it/s] 45%|████▌     | 4836/10719 [52:16<48:57,  2.00it/s] 45%|████▌     | 4837/10719 [52:17<48:56,  2.00it/s] 45%|████▌     | 4838/10719 [52:17<48:53,  2.00it/s] 45%|████▌     | 4839/10719 [52:18<48:52,  2.01it/s] 45%|████▌     | 4840/10719 [52:18<48:53,  2.00it/s] 45%|████▌     | 4841/10719 [52:19<48:55,  2.00it/s] 45%|████▌     | 4842/10719 [52:19<48:53,  2.00it/s] 45%|████▌     | 4843/10719 [52:20<48:52,  2.00it/s] 45%|████▌     | 4844/10719 [52:20<48:51,  2.00it/s] 45%|████▌     | 4845/10719 [52:21<48:50,  2.00it/s] 45%|████▌     | 4846/10719 [52:21<48:51,  2.00it/s] 45%|████▌     | 4847/10719 [52:22<48:51,  2.00it/s] 45%|████▌     | 4848/10719 [52:22<48:55,  2.00it/s] 45%|████▌     | 4849/10719 [52:23<48:59,  2.00it/s] 45%|████▌     | 4850/10719 [52:23<48:57,  2.00it/s]                                                    {'loss': 3.6501, 'grad_norm': 0.20539097487926483, 'learning_rate': 0.0006669661023677583, 'epoch': 0.45}
- 45%|████▌     | 4850/10719 [52:23<48:57,  2.00it/s] 45%|████▌     | 4851/10719 [52:24<48:58,  2.00it/s] 45%|████▌     | 4852/10719 [52:24<48:53,  2.00it/s] 45%|████▌     | 4853/10719 [52:25<48:57,  2.00it/s] 45%|████▌     | 4854/10719 [52:25<48:59,  2.00it/s] 45%|████▌     | 4855/10719 [52:26<48:50,  2.00it/s] 45%|████▌     | 4856/10719 [52:26<48:44,  2.00it/s] 45%|████▌     | 4857/10719 [52:27<48:46,  2.00it/s] 45%|████▌     | 4858/10719 [52:27<48:46,  2.00it/s] 45%|████▌     | 4859/10719 [52:27<48:40,  2.01it/s] 45%|████▌     | 4860/10719 [52:28<48:39,  2.01it/s] 45%|████▌     | 4861/10719 [52:28<48:39,  2.01it/s] 45%|████▌     | 4862/10719 [52:29<48:39,  2.01it/s] 45%|████▌     | 4863/10719 [52:29<48:37,  2.01it/s] 45%|████▌     | 4864/10719 [52:30<48:35,  2.01it/s] 45%|████▌     | 4865/10719 [52:30<48:36,  2.01it/s] 45%|████▌     | 4866/10719 [52:31<48:32,  2.01it/s] 45%|████▌     | 4867/10719 [52:31<48:29,  2.01it/s] 45%|████▌     | 4868/10719 [52:32<48:27,  2.01it/s] 45%|████▌     | 4869/10719 [52:32<48:34,  2.01it/s] 45%|████▌     | 4870/10719 [52:33<48:34,  2.01it/s] 45%|████▌     | 4871/10719 [52:33<48:31,  2.01it/s] 45%|████▌     | 4872/10719 [52:34<48:28,  2.01it/s] 45%|████▌     | 4873/10719 [52:34<48:26,  2.01it/s] 45%|████▌     | 4874/10719 [52:35<48:25,  2.01it/s] 45%|████▌     | 4875/10719 [52:35<48:25,  2.01it/s]                                                    {'loss': 3.6514, 'grad_norm': 0.1914128065109253, 'learning_rate': 0.000663123594538717, 'epoch': 0.45}
- 45%|████▌     | 4875/10719 [52:35<48:25,  2.01it/s] 45%|████▌     | 4876/10719 [52:36<48:27,  2.01it/s] 45%|████▌     | 4877/10719 [52:36<48:24,  2.01it/s] 46%|████▌     | 4878/10719 [52:37<48:24,  2.01it/s] 46%|████▌     | 4879/10719 [52:37<48:20,  2.01it/s] 46%|████▌     | 4880/10719 [52:38<48:23,  2.01it/s] 46%|████▌     | 4881/10719 [52:38<48:20,  2.01it/s] 46%|████▌     | 4882/10719 [52:39<48:20,  2.01it/s] 46%|████▌     | 4883/10719 [52:39<48:20,  2.01it/s] 46%|████▌     | 4884/10719 [52:40<48:17,  2.01it/s] 46%|████▌     | 4885/10719 [52:40<48:20,  2.01it/s] 46%|████▌     | 4886/10719 [52:41<48:18,  2.01it/s] 46%|████▌     | 4887/10719 [52:41<48:18,  2.01it/s] 46%|████▌     | 4888/10719 [52:42<48:18,  2.01it/s] 46%|████▌     | 4889/10719 [52:42<48:13,  2.02it/s] 46%|████▌     | 4890/10719 [52:43<48:16,  2.01it/s] 46%|████▌     | 4891/10719 [52:43<48:12,  2.01it/s] 46%|████▌     | 4892/10719 [52:44<48:09,  2.02it/s] 46%|████▌     | 4893/10719 [52:44<48:08,  2.02it/s] 46%|████▌     | 4894/10719 [52:45<48:09,  2.02it/s] 46%|████▌     | 4895/10719 [52:45<48:08,  2.02it/s] 46%|████▌     | 4896/10719 [52:46<48:11,  2.01it/s] 46%|████▌     | 4897/10719 [52:46<48:15,  2.01it/s] 46%|████▌     | 4898/10719 [52:47<48:17,  2.01it/s] 46%|████▌     | 4899/10719 [52:47<48:20,  2.01it/s] 46%|████▌     | 4900/10719 [52:48<48:21,  2.01it/s]                                                    {'loss': 3.6454, 'grad_norm': 0.20851309597492218, 'learning_rate': 0.0006592702746212295, 'epoch': 0.46}
- 46%|████▌     | 4900/10719 [52:48<48:21,  2.01it/s] 46%|████▌     | 4901/10719 [52:48<48:27,  2.00it/s] 46%|████▌     | 4902/10719 [52:49<48:27,  2.00it/s] 46%|████▌     | 4903/10719 [52:49<48:25,  2.00it/s] 46%|████▌     | 4904/10719 [52:50<48:24,  2.00it/s] 46%|████▌     | 4905/10719 [52:50<48:21,  2.00it/s] 46%|████▌     | 4906/10719 [52:51<48:40,  1.99it/s] 46%|████▌     | 4907/10719 [52:51<50:54,  1.90it/s] 46%|████▌     | 4908/10719 [52:52<50:09,  1.93it/s] 46%|████▌     | 4909/10719 [52:52<49:35,  1.95it/s] 46%|████▌     | 4910/10719 [52:53<49:12,  1.97it/s] 46%|████▌     | 4911/10719 [52:53<48:50,  1.98it/s] 46%|████▌     | 4912/10719 [52:54<48:41,  1.99it/s] 46%|████▌     | 4913/10719 [52:54<48:33,  1.99it/s] 46%|████▌     | 4914/10719 [52:55<48:29,  2.00it/s] 46%|████▌     | 4915/10719 [52:55<48:24,  2.00it/s] 46%|████▌     | 4916/10719 [52:56<48:22,  2.00it/s] 46%|████▌     | 4917/10719 [52:56<48:20,  2.00it/s] 46%|████▌     | 4918/10719 [52:57<48:16,  2.00it/s] 46%|████▌     | 4919/10719 [52:57<48:14,  2.00it/s] 46%|████▌     | 4920/10719 [52:58<48:17,  2.00it/s] 46%|████▌     | 4921/10719 [52:58<48:14,  2.00it/s] 46%|████▌     | 4922/10719 [52:59<48:13,  2.00it/s] 46%|████▌     | 4923/10719 [52:59<48:12,  2.00it/s] 46%|████▌     | 4924/10719 [53:00<48:06,  2.01it/s] 46%|████▌     | 4925/10719 [53:00<48:06,  2.01it/s]                                                    {'loss': 3.6362, 'grad_norm': 0.20514905452728271, 'learning_rate': 0.0006554063980194012, 'epoch': 0.46}
- 46%|████▌     | 4925/10719 [53:00<48:06,  2.01it/s] 46%|████▌     | 4926/10719 [53:01<48:08,  2.01it/s] 46%|████▌     | 4927/10719 [53:01<48:02,  2.01it/s] 46%|████▌     | 4928/10719 [53:02<48:02,  2.01it/s] 46%|████▌     | 4929/10719 [53:02<48:04,  2.01it/s] 46%|████▌     | 4930/10719 [53:03<48:04,  2.01it/s] 46%|████▌     | 4931/10719 [53:03<47:58,  2.01it/s] 46%|████▌     | 4932/10719 [53:04<47:55,  2.01it/s] 46%|████▌     | 4933/10719 [53:04<47:53,  2.01it/s] 46%|████▌     | 4934/10719 [53:05<47:54,  2.01it/s] 46%|████▌     | 4935/10719 [53:05<47:55,  2.01it/s] 46%|████▌     | 4936/10719 [53:06<47:50,  2.01it/s] 46%|████▌     | 4937/10719 [53:06<47:53,  2.01it/s] 46%|████▌     | 4938/10719 [53:07<47:50,  2.01it/s] 46%|████▌     | 4939/10719 [53:07<47:51,  2.01it/s] 46%|████▌     | 4940/10719 [53:08<47:52,  2.01it/s] 46%|████▌     | 4941/10719 [53:08<47:47,  2.01it/s] 46%|████▌     | 4942/10719 [53:09<47:48,  2.01it/s] 46%|████▌     | 4943/10719 [53:09<47:43,  2.02it/s] 46%|████▌     | 4944/10719 [53:10<47:45,  2.02it/s] 46%|████▌     | 4945/10719 [53:10<47:44,  2.02it/s] 46%|████▌     | 4946/10719 [53:11<47:46,  2.01it/s] 46%|████▌     | 4947/10719 [53:11<47:54,  2.01it/s] 46%|████▌     | 4948/10719 [53:12<47:59,  2.00it/s] 46%|████▌     | 4949/10719 [53:12<47:58,  2.00it/s] 46%|████▌     | 4950/10719 [53:13<48:14,  1.99it/s]                                                    {'loss': 3.6528, 'grad_norm': 0.19848233461380005, 'learning_rate': 0.0006515322208370514, 'epoch': 0.46}
- 46%|████▌     | 4950/10719 [53:13<48:14,  1.99it/s] 46%|████▌     | 4951/10719 [53:13<48:26,  1.98it/s] 46%|████▌     | 4952/10719 [53:14<48:18,  1.99it/s] 46%|████▌     | 4953/10719 [53:14<48:08,  2.00it/s] 46%|████▌     | 4954/10719 [53:15<48:04,  2.00it/s] 46%|████▌     | 4955/10719 [53:15<48:01,  2.00it/s] 46%|████▌     | 4956/10719 [53:16<47:55,  2.00it/s] 46%|████▌     | 4957/10719 [53:16<47:49,  2.01it/s] 46%|████▋     | 4958/10719 [53:17<47:52,  2.01it/s] 46%|████▋     | 4959/10719 [53:17<47:57,  2.00it/s] 46%|████▋     | 4960/10719 [53:18<47:53,  2.00it/s] 46%|████▋     | 4961/10719 [53:18<47:50,  2.01it/s] 46%|████▋     | 4962/10719 [53:19<47:55,  2.00it/s] 46%|████▋     | 4963/10719 [53:19<47:54,  2.00it/s] 46%|████▋     | 4964/10719 [53:20<50:22,  1.90it/s] 46%|████▋     | 4965/10719 [53:20<49:34,  1.93it/s] 46%|████▋     | 4966/10719 [53:21<50:05,  1.91it/s] 46%|████▋     | 4967/10719 [53:22<51:01,  1.88it/s] 46%|████▋     | 4968/10719 [53:22<52:34,  1.82it/s] 46%|████▋     | 4969/10719 [53:23<51:09,  1.87it/s] 46%|████▋     | 4970/10719 [53:23<50:13,  1.91it/s] 46%|████▋     | 4971/10719 [53:24<49:32,  1.93it/s] 46%|████▋     | 4972/10719 [53:24<49:05,  1.95it/s] 46%|████▋     | 4973/10719 [53:25<48:43,  1.97it/s] 46%|████▋     | 4974/10719 [53:25<48:26,  1.98it/s] 46%|████▋     | 4975/10719 [53:26<48:13,  1.99it/s]                                                    {'loss': 3.6425, 'grad_norm': 0.21419310569763184, 'learning_rate': 0.0006476479998607378, 'epoch': 0.46}
- 46%|████▋     | 4975/10719 [53:26<48:13,  1.99it/s] 46%|████▋     | 4976/10719 [53:26<48:07,  1.99it/s] 46%|████▋     | 4977/10719 [53:27<48:01,  1.99it/s] 46%|████▋     | 4978/10719 [53:27<47:56,  2.00it/s] 46%|████▋     | 4979/10719 [53:28<47:51,  2.00it/s] 46%|████▋     | 4980/10719 [53:28<47:49,  2.00it/s] 46%|████▋     | 4981/10719 [53:29<47:45,  2.00it/s] 46%|████▋     | 4982/10719 [53:29<47:41,  2.01it/s] 46%|████▋     | 4983/10719 [53:30<47:42,  2.00it/s] 46%|████▋     | 4984/10719 [53:30<47:40,  2.00it/s] 47%|████▋     | 4985/10719 [53:31<47:35,  2.01it/s] 47%|████▋     | 4986/10719 [53:31<47:35,  2.01it/s] 47%|████▋     | 4987/10719 [53:32<47:37,  2.01it/s] 47%|████▋     | 4988/10719 [53:32<47:41,  2.00it/s] 47%|████▋     | 4989/10719 [53:33<47:40,  2.00it/s] 47%|████▋     | 4990/10719 [53:33<49:42,  1.92it/s] 47%|████▋     | 4991/10719 [53:34<49:13,  1.94it/s] 47%|████▋     | 4992/10719 [53:34<48:41,  1.96it/s] 47%|████▋     | 4993/10719 [53:35<48:27,  1.97it/s] 47%|████▋     | 4994/10719 [53:35<48:10,  1.98it/s] 47%|████▋     | 4995/10719 [53:36<47:59,  1.99it/s] 47%|████▋     | 4996/10719 [53:36<47:47,  2.00it/s] 47%|████▋     | 4997/10719 [53:37<47:46,  2.00it/s] 47%|████▋     | 4998/10719 [53:37<47:44,  2.00it/s] 47%|████▋     | 4999/10719 [53:38<47:37,  2.00it/s] 47%|████▋     | 5000/10719 [53:38<47:33,  2.00it/s]                                                    {'loss': 3.6389, 'grad_norm': 0.1962156891822815, 'learning_rate': 0.0006437539925427372, 'epoch': 0.47}
- 47%|████▋     | 5000/10719 [53:38<47:33,  2.00it/s] 47%|████▋     | 5001/10719 [53:39<47:35,  2.00it/s] 47%|████▋     | 5002/10719 [53:39<47:32,  2.00it/s] 47%|████▋     | 5003/10719 [53:40<47:30,  2.01it/s] 47%|████▋     | 5004/10719 [53:40<47:29,  2.01it/s] 47%|████▋     | 5005/10719 [53:41<47:24,  2.01it/s] 47%|████▋     | 5006/10719 [53:41<47:23,  2.01it/s] 47%|████▋     | 5007/10719 [53:42<47:24,  2.01it/s] 47%|████▋     | 5008/10719 [53:42<47:18,  2.01it/s] 47%|████▋     | 5009/10719 [53:43<47:17,  2.01it/s] 47%|████▋     | 5010/10719 [53:43<47:16,  2.01it/s] 47%|████▋     | 5011/10719 [53:44<47:16,  2.01it/s] 47%|████▋     | 5012/10719 [53:44<47:14,  2.01it/s] 47%|████▋     | 5013/10719 [53:45<47:13,  2.01it/s] 47%|████▋     | 5014/10719 [53:45<47:14,  2.01it/s] 47%|████▋     | 5015/10719 [53:46<47:17,  2.01it/s] 47%|████▋     | 5016/10719 [53:46<47:16,  2.01it/s] 47%|████▋     | 5017/10719 [53:47<47:20,  2.01it/s] 47%|████▋     | 5018/10719 [53:47<47:19,  2.01it/s] 47%|████▋     | 5019/10719 [53:48<47:17,  2.01it/s] 47%|████▋     | 5020/10719 [53:48<47:15,  2.01it/s] 47%|████▋     | 5021/10719 [53:49<47:07,  2.01it/s] 47%|████▋     | 5022/10719 [53:49<47:47,  1.99it/s] 47%|████▋     | 5023/10719 [53:50<47:40,  1.99it/s] 47%|████▋     | 5024/10719 [53:50<47:36,  1.99it/s] 47%|████▋     | 5025/10719 [53:51<47:26,  2.00it/s]                                                    {'loss': 3.6381, 'grad_norm': 0.20437946915626526, 'learning_rate': 0.0006398504569839796, 'epoch': 0.47}
- 47%|████▋     | 5025/10719 [53:51<47:26,  2.00it/s] 47%|████▋     | 5026/10719 [53:51<47:26,  2.00it/s] 47%|████▋     | 5027/10719 [53:52<47:23,  2.00it/s] 47%|████▋     | 5028/10719 [53:52<47:19,  2.00it/s] 47%|████▋     | 5029/10719 [53:53<47:49,  1.98it/s] 47%|████▋     | 5030/10719 [53:53<47:40,  1.99it/s] 47%|████▋     | 5031/10719 [53:54<47:33,  1.99it/s] 47%|████▋     | 5032/10719 [53:54<47:27,  2.00it/s] 47%|████▋     | 5033/10719 [53:55<47:26,  2.00it/s] 47%|████▋     | 5034/10719 [53:55<47:21,  2.00it/s] 47%|████▋     | 5035/10719 [53:56<47:16,  2.00it/s] 47%|████▋     | 5036/10719 [53:56<47:14,  2.01it/s] 47%|████▋     | 5037/10719 [53:57<47:10,  2.01it/s] 47%|████▋     | 5038/10719 [53:57<47:05,  2.01it/s] 47%|████▋     | 5039/10719 [53:58<47:09,  2.01it/s] 47%|████▋     | 5040/10719 [53:58<47:03,  2.01it/s] 47%|████▋     | 5041/10719 [53:59<47:02,  2.01it/s] 47%|████▋     | 5042/10719 [53:59<47:02,  2.01it/s] 47%|████▋     | 5043/10719 [54:00<47:03,  2.01it/s] 47%|████▋     | 5044/10719 [54:00<47:43,  1.98it/s] 47%|████▋     | 5045/10719 [54:01<47:34,  1.99it/s] 47%|████▋     | 5046/10719 [54:01<47:23,  2.00it/s] 47%|████▋     | 5047/10719 [54:02<47:16,  2.00it/s] 47%|████▋     | 5048/10719 [54:02<47:17,  2.00it/s] 47%|████▋     | 5049/10719 [54:03<47:16,  2.00it/s] 47%|████▋     | 5050/10719 [54:03<47:12,  2.00it/s]                                                    {'loss': 3.6351, 'grad_norm': 0.19685350358486176, 'learning_rate': 0.0006359376519169426, 'epoch': 0.47}
- 47%|████▋     | 5050/10719 [54:03<47:12,  2.00it/s] 47%|████▋     | 5051/10719 [54:04<47:11,  2.00it/s] 47%|████▋     | 5052/10719 [54:04<47:09,  2.00it/s] 47%|████▋     | 5053/10719 [54:05<47:06,  2.00it/s] 47%|████▋     | 5054/10719 [54:05<47:03,  2.01it/s] 47%|████▋     | 5055/10719 [54:06<47:04,  2.00it/s] 47%|████▋     | 5056/10719 [54:06<47:04,  2.01it/s] 47%|████▋     | 5057/10719 [54:07<47:00,  2.01it/s] 47%|████▋     | 5058/10719 [54:07<46:58,  2.01it/s] 47%|████▋     | 5059/10719 [54:08<47:01,  2.01it/s] 47%|████▋     | 5060/10719 [54:08<47:02,  2.01it/s] 47%|████▋     | 5061/10719 [54:09<47:07,  2.00it/s] 47%|████▋     | 5062/10719 [54:09<47:07,  2.00it/s] 47%|████▋     | 5063/10719 [54:10<47:06,  2.00it/s] 47%|████▋     | 5064/10719 [54:10<47:07,  2.00it/s] 47%|████▋     | 5065/10719 [54:11<47:08,  2.00it/s] 47%|████▋     | 5066/10719 [54:11<47:04,  2.00it/s] 47%|████▋     | 5067/10719 [54:12<47:05,  2.00it/s] 47%|████▋     | 5068/10719 [54:12<47:06,  2.00it/s] 47%|████▋     | 5069/10719 [54:13<47:08,  2.00it/s] 47%|████▋     | 5070/10719 [54:13<47:04,  2.00it/s] 47%|████▋     | 5071/10719 [54:14<47:02,  2.00it/s] 47%|████▋     | 5072/10719 [54:14<47:00,  2.00it/s] 47%|████▋     | 5073/10719 [54:15<47:04,  2.00it/s] 47%|████▋     | 5074/10719 [54:15<47:10,  1.99it/s] 47%|████▋     | 5075/10719 [54:16<47:00,  2.00it/s]                                                    {'loss': 3.6309, 'grad_norm': 0.21070265769958496, 'learning_rate': 0.0006320158366885007, 'epoch': 0.47}
- 47%|████▋     | 5075/10719 [54:16<47:00,  2.00it/s] 47%|████▋     | 5076/10719 [54:16<47:03,  2.00it/s] 47%|████▋     | 5077/10719 [54:17<47:01,  2.00it/s] 47%|████▋     | 5078/10719 [54:17<47:03,  2.00it/s] 47%|████▋     | 5079/10719 [54:18<46:57,  2.00it/s] 47%|████▋     | 5080/10719 [54:18<46:56,  2.00it/s] 47%|████▋     | 5081/10719 [54:19<46:58,  2.00it/s] 47%|████▋     | 5082/10719 [54:19<47:03,  2.00it/s] 47%|████▋     | 5083/10719 [54:20<47:02,  2.00it/s] 47%|████▋     | 5084/10719 [54:20<46:56,  2.00it/s] 47%|████▋     | 5085/10719 [54:21<46:54,  2.00it/s] 47%|████▋     | 5086/10719 [54:21<46:54,  2.00it/s] 47%|████▋     | 5087/10719 [54:22<46:54,  2.00it/s] 47%|████▋     | 5088/10719 [54:22<46:52,  2.00it/s] 47%|████▋     | 5089/10719 [54:23<46:56,  2.00it/s] 47%|████▋     | 5090/10719 [54:23<46:54,  2.00it/s] 47%|████▋     | 5091/10719 [54:24<46:53,  2.00it/s] 48%|████▊     | 5092/10719 [54:24<46:52,  2.00it/s] 48%|████▊     | 5093/10719 [54:25<46:47,  2.00it/s] 48%|████▊     | 5094/10719 [54:25<46:49,  2.00it/s] 48%|████▊     | 5095/10719 [54:26<46:52,  2.00it/s] 48%|████▊     | 5096/10719 [54:26<46:50,  2.00it/s] 48%|████▊     | 5097/10719 [54:27<46:48,  2.00it/s] 48%|████▊     | 5098/10719 [54:27<47:19,  1.98it/s] 48%|████▊     | 5099/10719 [54:28<47:08,  1.99it/s] 48%|████▊     | 5100/10719 [54:28<46:56,  2.00it/s]                                                    {'loss': 3.6258, 'grad_norm': 0.1922067105770111, 'learning_rate': 0.0006280852712427367, 'epoch': 0.48}
- 48%|████▊     | 5100/10719 [54:28<46:56,  2.00it/s] 48%|████▊     | 5101/10719 [54:29<46:55,  2.00it/s] 48%|████▊     | 5102/10719 [54:29<46:50,  2.00it/s] 48%|████▊     | 5103/10719 [54:30<46:51,  2.00it/s] 48%|████▊     | 5104/10719 [54:30<46:44,  2.00it/s] 48%|████▊     | 5105/10719 [54:31<46:42,  2.00it/s] 48%|████▊     | 5106/10719 [54:31<46:37,  2.01it/s] 48%|████▊     | 5107/10719 [54:32<46:33,  2.01it/s] 48%|████▊     | 5108/10719 [54:32<46:31,  2.01it/s] 48%|████▊     | 5109/10719 [54:33<46:29,  2.01it/s] 48%|████▊     | 5110/10719 [54:33<46:28,  2.01it/s] 48%|████▊     | 5111/10719 [54:34<46:32,  2.01it/s] 48%|████▊     | 5112/10719 [54:34<46:34,  2.01it/s] 48%|████▊     | 5113/10719 [54:35<46:33,  2.01it/s] 48%|████▊     | 5114/10719 [54:35<46:31,  2.01it/s] 48%|████▊     | 5115/10719 [54:36<46:30,  2.01it/s] 48%|████▊     | 5116/10719 [54:36<46:29,  2.01it/s] 48%|████▊     | 5117/10719 [54:37<46:28,  2.01it/s] 48%|████▊     | 5118/10719 [54:37<46:30,  2.01it/s] 48%|████▊     | 5119/10719 [54:38<46:28,  2.01it/s] 48%|████▊     | 5120/10719 [54:38<46:26,  2.01it/s] 48%|████▊     | 5121/10719 [54:39<46:25,  2.01it/s] 48%|████▊     | 5122/10719 [54:39<46:25,  2.01it/s] 48%|████▊     | 5123/10719 [54:40<46:24,  2.01it/s] 48%|████▊     | 5124/10719 [54:40<46:25,  2.01it/s] 48%|████▊     | 5125/10719 [54:41<46:18,  2.01it/s]                                                    {'loss': 3.6305, 'grad_norm': 0.20167513191699982, 'learning_rate': 0.0006241462161037112, 'epoch': 0.48}
- 48%|████▊     | 5125/10719 [54:41<46:18,  2.01it/s] 48%|████▊     | 5126/10719 [54:41<46:21,  2.01it/s] 48%|████▊     | 5127/10719 [54:42<46:16,  2.01it/s] 48%|████▊     | 5128/10719 [54:42<46:17,  2.01it/s] 48%|████▊     | 5129/10719 [54:43<46:27,  2.01it/s] 48%|████▊     | 5130/10719 [54:43<46:28,  2.00it/s] 48%|████▊     | 5131/10719 [54:44<46:31,  2.00it/s] 48%|████▊     | 5132/10719 [54:44<46:28,  2.00it/s] 48%|████▊     | 5133/10719 [54:45<46:27,  2.00it/s] 48%|████▊     | 5134/10719 [54:45<46:28,  2.00it/s] 48%|████▊     | 5135/10719 [54:46<46:26,  2.00it/s] 48%|████▊     | 5136/10719 [54:46<46:24,  2.01it/s] 48%|████▊     | 5137/10719 [54:47<46:25,  2.00it/s] 48%|████▊     | 5138/10719 [54:47<46:21,  2.01it/s] 48%|████▊     | 5139/10719 [54:48<46:21,  2.01it/s] 48%|████▊     | 5140/10719 [54:48<46:21,  2.01it/s] 48%|████▊     | 5141/10719 [54:49<46:19,  2.01it/s] 48%|████▊     | 5142/10719 [54:49<46:17,  2.01it/s] 48%|████▊     | 5143/10719 [54:50<46:18,  2.01it/s] 48%|████▊     | 5144/10719 [54:50<46:15,  2.01it/s] 48%|████▊     | 5145/10719 [54:51<46:11,  2.01it/s] 48%|████▊     | 5146/10719 [54:51<46:11,  2.01it/s] 48%|████▊     | 5147/10719 [54:52<46:10,  2.01it/s] 48%|████▊     | 5148/10719 [54:52<46:09,  2.01it/s] 48%|████▊     | 5149/10719 [54:53<46:08,  2.01it/s] 48%|████▊     | 5150/10719 [54:53<46:05,  2.01it/s]                                                    {'loss': 3.6351, 'grad_norm': 0.20849038660526276, 'learning_rate': 0.0006201989323581953, 'epoch': 0.48}
- 48%|████▊     | 5150/10719 [54:53<46:05,  2.01it/s] 48%|████▊     | 5151/10719 [54:54<46:10,  2.01it/s] 48%|████▊     | 5152/10719 [54:54<46:12,  2.01it/s] 48%|████▊     | 5153/10719 [54:55<46:05,  2.01it/s] 48%|████▊     | 5154/10719 [54:55<46:08,  2.01it/s] 48%|████▊     | 5155/10719 [54:56<46:03,  2.01it/s] 48%|████▊     | 5156/10719 [54:56<46:02,  2.01it/s] 48%|████▊     | 5157/10719 [54:57<46:04,  2.01it/s] 48%|████▊     | 5158/10719 [54:57<46:00,  2.01it/s] 48%|████▊     | 5159/10719 [54:58<46:03,  2.01it/s] 48%|████▊     | 5160/10719 [54:58<46:01,  2.01it/s] 48%|████▊     | 5161/10719 [54:59<45:58,  2.01it/s] 48%|████▊     | 5162/10719 [54:59<45:58,  2.01it/s] 48%|████▊     | 5163/10719 [55:00<45:56,  2.02it/s] 48%|████▊     | 5164/10719 [55:00<45:57,  2.01it/s] 48%|████▊     | 5165/10719 [55:01<46:01,  2.01it/s] 48%|████▊     | 5166/10719 [55:01<46:05,  2.01it/s] 48%|████▊     | 5167/10719 [55:02<46:05,  2.01it/s] 48%|████▊     | 5168/10719 [55:02<46:05,  2.01it/s] 48%|████▊     | 5169/10719 [55:02<46:01,  2.01it/s] 48%|████▊     | 5170/10719 [55:03<46:02,  2.01it/s] 48%|████▊     | 5171/10719 [55:03<46:05,  2.01it/s] 48%|████▊     | 5172/10719 [55:04<46:04,  2.01it/s] 48%|████▊     | 5173/10719 [55:04<46:06,  2.01it/s] 48%|████▊     | 5174/10719 [55:05<46:08,  2.00it/s] 48%|████▊     | 5175/10719 [55:05<46:06,  2.00it/s]                                                    {'loss': 3.6259, 'grad_norm': 0.2244044691324234, 'learning_rate': 0.0006162436816383645, 'epoch': 0.48}
- 48%|████▊     | 5175/10719 [55:05<46:06,  2.00it/s] 48%|████▊     | 5176/10719 [55:06<46:09,  2.00it/s] 48%|████▊     | 5177/10719 [55:06<46:04,  2.00it/s] 48%|████▊     | 5178/10719 [55:07<46:04,  2.00it/s] 48%|████▊     | 5179/10719 [55:07<46:03,  2.00it/s] 48%|████▊     | 5180/10719 [55:08<46:11,  2.00it/s] 48%|████▊     | 5181/10719 [55:08<46:08,  2.00it/s] 48%|████▊     | 5182/10719 [55:09<46:07,  2.00it/s] 48%|████▊     | 5183/10719 [55:09<46:09,  2.00it/s] 48%|████▊     | 5184/10719 [55:10<46:01,  2.00it/s] 48%|████▊     | 5185/10719 [55:10<45:59,  2.01it/s] 48%|████▊     | 5186/10719 [55:11<45:57,  2.01it/s] 48%|████▊     | 5187/10719 [55:11<45:53,  2.01it/s] 48%|████▊     | 5188/10719 [55:12<45:53,  2.01it/s] 48%|████▊     | 5189/10719 [55:12<45:56,  2.01it/s] 48%|████▊     | 5190/10719 [55:13<45:50,  2.01it/s] 48%|████▊     | 5191/10719 [55:13<45:51,  2.01it/s] 48%|████▊     | 5192/10719 [55:14<45:49,  2.01it/s] 48%|████▊     | 5193/10719 [55:14<45:51,  2.01it/s] 48%|████▊     | 5194/10719 [55:15<45:48,  2.01it/s] 48%|████▊     | 5195/10719 [55:15<45:44,  2.01it/s] 48%|████▊     | 5196/10719 [55:16<45:43,  2.01it/s] 48%|████▊     | 5197/10719 [55:16<45:43,  2.01it/s] 48%|████▊     | 5198/10719 [55:17<45:44,  2.01it/s] 49%|████▊     | 5199/10719 [55:17<45:42,  2.01it/s] 49%|████▊     | 5200/10719 [55:18<45:40,  2.01it/s]                                                    {'loss': 3.6242, 'grad_norm': 0.2108057290315628, 'learning_rate': 0.0006122807261044587, 'epoch': 0.49}
- 49%|████▊     | 5200/10719 [55:18<45:40,  2.01it/s] 49%|████▊     | 5201/10719 [55:18<45:40,  2.01it/s] 49%|████▊     | 5202/10719 [55:19<45:40,  2.01it/s] 49%|████▊     | 5203/10719 [55:19<45:36,  2.02it/s] 49%|████▊     | 5204/10719 [55:20<45:36,  2.02it/s] 49%|████▊     | 5205/10719 [55:20<45:36,  2.02it/s] 49%|████▊     | 5206/10719 [55:21<45:35,  2.02it/s] 49%|████▊     | 5207/10719 [55:21<45:39,  2.01it/s] 49%|████▊     | 5208/10719 [55:22<45:33,  2.02it/s] 49%|████▊     | 5209/10719 [55:22<45:35,  2.01it/s] 49%|████▊     | 5210/10719 [55:23<45:33,  2.02it/s] 49%|████▊     | 5211/10719 [55:23<45:36,  2.01it/s] 49%|████▊     | 5212/10719 [55:24<45:40,  2.01it/s] 49%|████▊     | 5213/10719 [55:24<45:41,  2.01it/s] 49%|████▊     | 5214/10719 [55:25<45:39,  2.01it/s] 49%|████▊     | 5215/10719 [55:25<45:37,  2.01it/s] 49%|████▊     | 5216/10719 [55:26<46:32,  1.97it/s] 49%|████▊     | 5217/10719 [55:26<46:21,  1.98it/s] 49%|████▊     | 5218/10719 [55:27<46:09,  1.99it/s] 49%|████▊     | 5219/10719 [55:27<45:57,  1.99it/s] 49%|████▊     | 5220/10719 [55:28<45:54,  2.00it/s] 49%|████▊     | 5221/10719 [55:28<45:45,  2.00it/s] 49%|████▊     | 5222/10719 [55:29<45:46,  2.00it/s] 49%|████▊     | 5223/10719 [55:29<45:40,  2.01it/s] 49%|████▊     | 5224/10719 [55:30<45:36,  2.01it/s] 49%|████▊     | 5225/10719 [55:30<45:34,  2.01it/s]                                                    {'loss': 3.6187, 'grad_norm': 0.19970345497131348, 'learning_rate': 0.0006083103284274043, 'epoch': 0.49}
- 49%|████▊     | 5225/10719 [55:30<45:34,  2.01it/s] 49%|████▉     | 5226/10719 [55:31<45:38,  2.01it/s] 49%|████▉     | 5227/10719 [55:31<45:34,  2.01it/s] 49%|████▉     | 5228/10719 [55:32<45:35,  2.01it/s] 49%|████▉     | 5229/10719 [55:32<45:34,  2.01it/s] 49%|████▉     | 5230/10719 [55:33<45:31,  2.01it/s] 49%|████▉     | 5231/10719 [55:33<45:32,  2.01it/s] 49%|████▉     | 5232/10719 [55:34<47:50,  1.91it/s] 49%|████▉     | 5233/10719 [55:34<47:13,  1.94it/s] 49%|████▉     | 5234/10719 [55:35<46:43,  1.96it/s] 49%|████▉     | 5235/10719 [55:35<46:21,  1.97it/s] 49%|████▉     | 5236/10719 [55:36<46:05,  1.98it/s] 49%|████▉     | 5237/10719 [55:36<45:54,  1.99it/s] 49%|████▉     | 5238/10719 [55:37<45:47,  2.00it/s] 49%|████▉     | 5239/10719 [55:37<45:40,  2.00it/s] 49%|████▉     | 5240/10719 [55:38<45:35,  2.00it/s] 49%|████▉     | 5241/10719 [55:38<45:30,  2.01it/s] 49%|████▉     | 5242/10719 [55:39<45:29,  2.01it/s] 49%|████▉     | 5243/10719 [55:39<45:27,  2.01it/s] 49%|████▉     | 5244/10719 [55:40<45:26,  2.01it/s] 49%|████▉     | 5245/10719 [55:40<45:23,  2.01it/s] 49%|████▉     | 5246/10719 [55:41<45:23,  2.01it/s] 49%|████▉     | 5247/10719 [55:41<45:21,  2.01it/s] 49%|████▉     | 5248/10719 [55:42<45:18,  2.01it/s] 49%|████▉     | 5249/10719 [55:42<45:17,  2.01it/s] 49%|████▉     | 5250/10719 [55:43<45:12,  2.02it/s]                                                    {'loss': 3.6249, 'grad_norm': 0.21415482461452484, 'learning_rate': 0.000604332751771405, 'epoch': 0.49}
- 49%|████▉     | 5250/10719 [55:43<45:12,  2.02it/s] 49%|████▉     | 5251/10719 [55:43<45:15,  2.01it/s] 49%|████▉     | 5252/10719 [55:44<45:13,  2.01it/s] 49%|████▉     | 5253/10719 [55:44<45:15,  2.01it/s] 49%|████▉     | 5254/10719 [55:45<45:22,  2.01it/s] 49%|████▉     | 5255/10719 [55:45<45:22,  2.01it/s] 49%|████▉     | 5256/10719 [55:46<45:21,  2.01it/s] 49%|████▉     | 5257/10719 [55:46<45:23,  2.01it/s] 49%|████▉     | 5258/10719 [55:47<45:27,  2.00it/s] 49%|████▉     | 5259/10719 [55:47<45:23,  2.00it/s] 49%|████▉     | 5260/10719 [55:48<45:22,  2.01it/s] 49%|████▉     | 5261/10719 [55:48<45:22,  2.00it/s] 49%|████▉     | 5262/10719 [55:49<45:17,  2.01it/s] 49%|████▉     | 5263/10719 [55:49<45:17,  2.01it/s] 49%|████▉     | 5264/10719 [55:50<45:14,  2.01it/s] 49%|████▉     | 5265/10719 [55:50<45:13,  2.01it/s] 49%|████▉     | 5266/10719 [55:51<45:14,  2.01it/s] 49%|████▉     | 5267/10719 [55:51<45:16,  2.01it/s] 49%|████▉     | 5268/10719 [55:52<45:17,  2.01it/s] 49%|████▉     | 5269/10719 [55:52<45:18,  2.01it/s] 49%|████▉     | 5270/10719 [55:53<45:20,  2.00it/s] 49%|████▉     | 5271/10719 [55:53<45:23,  2.00it/s] 49%|████▉     | 5272/10719 [55:54<45:24,  2.00it/s] 49%|████▉     | 5273/10719 [55:54<45:19,  2.00it/s] 49%|████▉     | 5274/10719 [55:55<45:17,  2.00it/s] 49%|████▉     | 5275/10719 [55:55<45:19,  2.00it/s]                                                    {'loss': 3.6188, 'grad_norm': 0.20600973069667816, 'learning_rate': 0.0006003482597764985, 'epoch': 0.49}
- 49%|████▉     | 5275/10719 [55:55<45:19,  2.00it/s] 49%|████▉     | 5276/10719 [55:56<45:22,  2.00it/s] 49%|████▉     | 5277/10719 [55:56<45:17,  2.00it/s] 49%|████▉     | 5278/10719 [55:57<45:21,  2.00it/s] 49%|████▉     | 5279/10719 [55:57<45:20,  2.00it/s] 49%|████▉     | 5280/10719 [55:58<45:17,  2.00it/s] 49%|████▉     | 5281/10719 [55:58<45:17,  2.00it/s] 49%|████▉     | 5282/10719 [55:59<45:17,  2.00it/s] 49%|████▉     | 5283/10719 [55:59<45:14,  2.00it/s] 49%|████▉     | 5284/10719 [56:00<45:17,  2.00it/s] 49%|████▉     | 5285/10719 [56:00<45:20,  2.00it/s] 49%|████▉     | 5286/10719 [56:01<45:17,  2.00it/s] 49%|████▉     | 5287/10719 [56:01<45:16,  2.00it/s] 49%|████▉     | 5288/10719 [56:02<45:20,  2.00it/s] 49%|████▉     | 5289/10719 [56:02<45:54,  1.97it/s] 49%|████▉     | 5290/10719 [56:03<45:43,  1.98it/s] 49%|████▉     | 5291/10719 [56:03<45:36,  1.98it/s] 49%|████▉     | 5292/10719 [56:04<45:28,  1.99it/s] 49%|████▉     | 5293/10719 [56:04<45:20,  1.99it/s] 49%|████▉     | 5294/10719 [56:05<45:17,  2.00it/s] 49%|████▉     | 5295/10719 [56:05<45:12,  2.00it/s] 49%|████▉     | 5296/10719 [56:06<45:08,  2.00it/s] 49%|████▉     | 5297/10719 [56:06<46:41,  1.94it/s] 49%|████▉     | 5298/10719 [56:07<46:17,  1.95it/s] 49%|████▉     | 5299/10719 [56:07<45:57,  1.97it/s] 49%|████▉     | 5300/10719 [56:08<45:39,  1.98it/s]                                                    {'loss': 3.6203, 'grad_norm': 0.2186470627784729, 'learning_rate': 0.0005963571165410821, 'epoch': 0.49}
- 49%|████▉     | 5300/10719 [56:08<45:39,  1.98it/s] 49%|████▉     | 5301/10719 [56:08<45:34,  1.98it/s] 49%|████▉     | 5302/10719 [56:09<45:26,  1.99it/s] 49%|████▉     | 5303/10719 [56:09<45:21,  1.99it/s] 49%|████▉     | 5304/10719 [56:10<45:16,  1.99it/s] 49%|████▉     | 5305/10719 [56:10<45:12,  2.00it/s] 50%|████▉     | 5306/10719 [56:11<45:07,  2.00it/s] 50%|████▉     | 5307/10719 [56:11<45:03,  2.00it/s] 50%|████▉     | 5308/10719 [56:12<45:00,  2.00it/s] 50%|████▉     | 5309/10719 [56:12<45:01,  2.00it/s] 50%|████▉     | 5310/10719 [56:13<45:01,  2.00it/s] 50%|████▉     | 5311/10719 [56:13<44:55,  2.01it/s] 50%|████▉     | 5312/10719 [56:14<44:52,  2.01it/s] 50%|████▉     | 5313/10719 [56:14<44:52,  2.01it/s] 50%|████▉     | 5314/10719 [56:15<44:49,  2.01it/s] 50%|████▉     | 5315/10719 [56:15<44:50,  2.01it/s] 50%|████▉     | 5316/10719 [56:16<44:49,  2.01it/s] 50%|████▉     | 5317/10719 [56:16<44:46,  2.01it/s] 50%|████▉     | 5318/10719 [56:17<44:45,  2.01it/s] 50%|████▉     | 5319/10719 [56:17<44:43,  2.01it/s] 50%|████▉     | 5320/10719 [56:18<44:47,  2.01it/s] 50%|████▉     | 5321/10719 [56:18<44:51,  2.01it/s] 50%|████▉     | 5322/10719 [56:19<44:55,  2.00it/s] 50%|████▉     | 5323/10719 [56:19<44:52,  2.00it/s] 50%|████▉     | 5324/10719 [56:20<44:51,  2.00it/s] 50%|████▉     | 5325/10719 [56:20<44:50,  2.00it/s]                                                    {'loss': 3.6185, 'grad_norm': 0.20441347360610962, 'learning_rate': 0.0005923595866044074, 'epoch': 0.5}
- 50%|████▉     | 5325/10719 [56:20<44:50,  2.00it/s] 50%|████▉     | 5326/10719 [56:21<44:51,  2.00it/s] 50%|████▉     | 5327/10719 [56:21<44:44,  2.01it/s] 50%|████▉     | 5328/10719 [56:22<44:49,  2.00it/s] 50%|████▉     | 5329/10719 [56:22<44:51,  2.00it/s] 50%|████▉     | 5330/10719 [56:23<44:49,  2.00it/s] 50%|████▉     | 5331/10719 [56:23<44:52,  2.00it/s] 50%|████▉     | 5332/10719 [56:24<44:49,  2.00it/s] 50%|████▉     | 5333/10719 [56:24<44:51,  2.00it/s] 50%|████▉     | 5334/10719 [56:25<44:50,  2.00it/s] 50%|████▉     | 5335/10719 [56:25<44:51,  2.00it/s] 50%|████▉     | 5336/10719 [56:26<44:48,  2.00it/s] 50%|████▉     | 5337/10719 [56:26<44:53,  2.00it/s] 50%|████▉     | 5338/10719 [56:27<44:55,  2.00it/s] 50%|████▉     | 5339/10719 [56:27<44:55,  2.00it/s] 50%|████▉     | 5340/10719 [56:28<44:59,  1.99it/s] 50%|████▉     | 5341/10719 [56:28<45:00,  1.99it/s] 50%|████▉     | 5342/10719 [56:29<44:51,  2.00it/s] 50%|████▉     | 5343/10719 [56:29<44:53,  2.00it/s] 50%|████▉     | 5344/10719 [56:30<44:53,  2.00it/s] 50%|████▉     | 5345/10719 [56:30<44:54,  1.99it/s] 50%|████▉     | 5346/10719 [56:31<44:52,  2.00it/s] 50%|████▉     | 5347/10719 [56:32<54:03,  1.66it/s] 50%|████▉     | 5348/10719 [56:32<53:22,  1.68it/s] 50%|████▉     | 5349/10719 [56:33<50:46,  1.76it/s] 50%|████▉     | 5350/10719 [56:33<48:59,  1.83it/s]                                                    {'loss': 3.6158, 'grad_norm': 0.1992892324924469, 'learning_rate': 0.0005883559349290471, 'epoch': 0.5}
- 50%|████▉     | 5350/10719 [56:33<48:59,  1.83it/s] 50%|████▉     | 5351/10719 [56:34<47:45,  1.87it/s] 50%|████▉     | 5352/10719 [56:34<46:47,  1.91it/s] 50%|████▉     | 5353/10719 [56:35<46:05,  1.94it/s] 50%|████▉     | 5354/10719 [56:35<45:36,  1.96it/s] 50%|████▉     | 5355/10719 [56:36<45:16,  1.97it/s] 50%|████▉     | 5356/10719 [56:36<45:02,  1.98it/s] 50%|████▉     | 5357/10719 [56:37<44:56,  1.99it/s] 50%|████▉     | 5358/10719 [56:37<44:54,  1.99it/s] 50%|████▉     | 5359/10719 [56:38<44:47,  1.99it/s] 50%|█████     | 5360/10719 [56:38<44:41,  2.00it/s] 50%|█████     | 5361/10719 [56:39<44:39,  2.00it/s] 50%|█████     | 5362/10719 [56:39<44:38,  2.00it/s] 50%|█████     | 5363/10719 [56:40<44:33,  2.00it/s] 50%|█████     | 5364/10719 [56:40<44:32,  2.00it/s] 50%|█████     | 5365/10719 [56:41<44:30,  2.01it/s] 50%|█████     | 5366/10719 [56:41<44:27,  2.01it/s] 50%|█████     | 5367/10719 [56:42<44:26,  2.01it/s] 50%|█████     | 5368/10719 [56:42<44:26,  2.01it/s] 50%|█████     | 5369/10719 [56:43<44:24,  2.01it/s] 50%|█████     | 5370/10719 [56:43<44:24,  2.01it/s] 50%|█████     | 5371/10719 [56:44<52:27,  1.70it/s] 50%|█████     | 5372/10719 [56:45<49:59,  1.78it/s] 50%|█████     | 5373/10719 [56:45<48:23,  1.84it/s] 50%|█████     | 5374/10719 [56:46<47:13,  1.89it/s] 50%|█████     | 5375/10719 [56:46<46:25,  1.92it/s]                                                    {'loss': 3.6207, 'grad_norm': 0.1977541297674179, 'learning_rate': 0.0005843464268833321, 'epoch': 0.5}
- 50%|█████     | 5375/10719 [56:46<46:25,  1.92it/s] 50%|█████     | 5376/10719 [56:47<45:52,  1.94it/s] 50%|█████     | 5377/10719 [56:47<45:22,  1.96it/s] 50%|█████     | 5378/10719 [56:48<45:26,  1.96it/s] 50%|█████     | 5379/10719 [56:48<47:26,  1.88it/s] 50%|█████     | 5380/10719 [56:49<46:31,  1.91it/s] 50%|█████     | 5381/10719 [56:49<45:54,  1.94it/s] 50%|█████     | 5382/10719 [56:50<45:25,  1.96it/s] 50%|█████     | 5383/10719 [56:50<45:02,  1.97it/s] 50%|█████     | 5384/10719 [56:51<44:47,  1.98it/s] 50%|█████     | 5385/10719 [56:51<44:37,  1.99it/s] 50%|█████     | 5386/10719 [56:52<44:29,  2.00it/s] 50%|█████     | 5387/10719 [56:52<44:28,  2.00it/s] 50%|█████     | 5388/10719 [56:53<44:32,  1.99it/s] 50%|█████     | 5389/10719 [56:53<44:31,  2.00it/s] 50%|█████     | 5390/10719 [56:54<44:29,  2.00it/s] 50%|█████     | 5391/10719 [56:54<44:22,  2.00it/s] 50%|█████     | 5392/10719 [56:55<44:21,  2.00it/s] 50%|█████     | 5393/10719 [56:55<44:19,  2.00it/s] 50%|█████     | 5394/10719 [56:56<44:22,  2.00it/s] 50%|█████     | 5395/10719 [56:56<44:18,  2.00it/s] 50%|█████     | 5396/10719 [56:57<44:19,  2.00it/s] 50%|█████     | 5397/10719 [56:57<44:21,  2.00it/s] 50%|█████     | 5398/10719 [56:58<44:21,  2.00it/s] 50%|█████     | 5399/10719 [56:58<44:18,  2.00it/s] 50%|█████     | 5400/10719 [56:59<46:09,  1.92it/s]                                                    {'loss': 3.6155, 'grad_norm': 0.21369925141334534, 'learning_rate': 0.0005803313282237627, 'epoch': 0.5}
- 50%|█████     | 5400/10719 [56:59<46:09,  1.92it/s] 50%|█████     | 5401/10719 [56:59<45:33,  1.95it/s] 50%|█████     | 5402/10719 [57:00<45:06,  1.96it/s] 50%|█████     | 5403/10719 [57:00<44:50,  1.98it/s] 50%|█████     | 5404/10719 [57:01<44:35,  1.99it/s] 50%|█████     | 5405/10719 [57:01<44:25,  1.99it/s] 50%|█████     | 5406/10719 [57:02<44:16,  2.00it/s] 50%|█████     | 5407/10719 [57:02<44:09,  2.01it/s] 50%|█████     | 5408/10719 [57:03<44:08,  2.01it/s] 50%|█████     | 5409/10719 [57:03<44:05,  2.01it/s] 50%|█████     | 5410/10719 [57:04<44:01,  2.01it/s] 50%|█████     | 5411/10719 [57:04<44:00,  2.01it/s] 50%|█████     | 5412/10719 [57:05<44:00,  2.01it/s] 50%|█████     | 5413/10719 [57:05<43:59,  2.01it/s] 51%|█████     | 5414/10719 [57:06<44:00,  2.01it/s] 51%|█████     | 5415/10719 [57:06<43:58,  2.01it/s] 51%|█████     | 5416/10719 [57:07<44:00,  2.01it/s] 51%|█████     | 5417/10719 [57:07<44:00,  2.01it/s] 51%|█████     | 5418/10719 [57:08<44:00,  2.01it/s] 51%|█████     | 5419/10719 [57:08<43:57,  2.01it/s] 51%|█████     | 5420/10719 [57:09<44:03,  2.00it/s] 51%|█████     | 5421/10719 [57:09<44:05,  2.00it/s] 51%|█████     | 5422/10719 [57:10<44:03,  2.00it/s] 51%|█████     | 5423/10719 [57:10<44:01,  2.00it/s] 51%|█████     | 5424/10719 [57:11<44:11,  2.00it/s] 51%|█████     | 5425/10719 [57:11<46:29,  1.90it/s]                                                    {'loss': 3.6105, 'grad_norm': 0.2019633650779724, 'learning_rate': 0.0005763109050773942, 'epoch': 0.51}
- 51%|█████     | 5425/10719 [57:11<46:29,  1.90it/s] 51%|█████     | 5426/10719 [57:12<45:45,  1.93it/s] 51%|█████     | 5427/10719 [57:12<45:14,  1.95it/s] 51%|█████     | 5428/10719 [57:13<44:50,  1.97it/s] 51%|█████     | 5429/10719 [57:13<44:34,  1.98it/s] 51%|█████     | 5430/10719 [57:14<44:21,  1.99it/s] 51%|█████     | 5431/10719 [57:14<44:14,  1.99it/s] 51%|█████     | 5432/10719 [57:15<44:10,  2.00it/s] 51%|█████     | 5433/10719 [57:15<44:03,  2.00it/s] 51%|█████     | 5434/10719 [57:16<44:01,  2.00it/s] 51%|█████     | 5435/10719 [57:16<43:58,  2.00it/s] 51%|█████     | 5436/10719 [57:17<43:53,  2.01it/s] 51%|█████     | 5437/10719 [57:17<43:49,  2.01it/s] 51%|█████     | 5438/10719 [57:18<44:09,  1.99it/s] 51%|█████     | 5439/10719 [57:18<44:29,  1.98it/s] 51%|█████     | 5440/10719 [57:19<44:19,  1.98it/s] 51%|█████     | 5441/10719 [57:19<44:13,  1.99it/s] 51%|█████     | 5442/10719 [57:20<44:04,  2.00it/s] 51%|█████     | 5443/10719 [57:20<44:01,  2.00it/s] 51%|█████     | 5444/10719 [57:21<43:57,  2.00it/s] 51%|█████     | 5445/10719 [57:21<43:54,  2.00it/s] 51%|█████     | 5446/10719 [57:22<43:53,  2.00it/s] 51%|█████     | 5447/10719 [57:22<43:47,  2.01it/s] 51%|█████     | 5448/10719 [57:23<43:50,  2.00it/s] 51%|█████     | 5449/10719 [57:23<43:50,  2.00it/s] 51%|█████     | 5450/10719 [57:24<43:45,  2.01it/s]                                                    {'loss': 3.6083, 'grad_norm': 0.21103598177433014, 'learning_rate': 0.000572285423924197, 'epoch': 0.51}
- 51%|█████     | 5450/10719 [57:24<43:45,  2.01it/s] 51%|█████     | 5451/10719 [57:24<43:45,  2.01it/s] 51%|█████     | 5452/10719 [57:25<43:44,  2.01it/s] 51%|█████     | 5453/10719 [57:25<43:42,  2.01it/s] 51%|█████     | 5454/10719 [57:26<43:41,  2.01it/s] 51%|█████     | 5455/10719 [57:26<43:40,  2.01it/s] 51%|█████     | 5456/10719 [57:27<43:36,  2.01it/s] 51%|█████     | 5457/10719 [57:27<43:37,  2.01it/s] 51%|█████     | 5458/10719 [57:28<43:36,  2.01it/s] 51%|█████     | 5459/10719 [57:28<43:35,  2.01it/s] 51%|█████     | 5460/10719 [57:29<43:34,  2.01it/s] 51%|█████     | 5461/10719 [57:29<43:32,  2.01it/s] 51%|█████     | 5462/10719 [57:30<43:32,  2.01it/s] 51%|█████     | 5463/10719 [57:30<43:29,  2.01it/s] 51%|█████     | 5464/10719 [57:31<43:28,  2.01it/s] 51%|█████     | 5465/10719 [57:31<43:28,  2.01it/s] 51%|█████     | 5466/10719 [57:32<43:30,  2.01it/s] 51%|█████     | 5467/10719 [57:32<43:27,  2.01it/s] 51%|█████     | 5468/10719 [57:33<43:28,  2.01it/s] 51%|█████     | 5469/10719 [57:33<43:27,  2.01it/s] 51%|█████     | 5470/10719 [57:34<43:25,  2.01it/s] 51%|█████     | 5471/10719 [57:34<43:22,  2.02it/s] 51%|█████     | 5472/10719 [57:35<43:23,  2.02it/s] 51%|█████     | 5473/10719 [57:35<43:23,  2.01it/s] 51%|█████     | 5474/10719 [57:36<43:20,  2.02it/s] 51%|█████     | 5475/10719 [57:36<43:22,  2.02it/s]                                                    {'loss': 3.6091, 'grad_norm': 0.21596413850784302, 'learning_rate': 0.000568255151579394, 'epoch': 0.51}
- 51%|█████     | 5475/10719 [57:36<43:22,  2.02it/s] 51%|█████     | 5476/10719 [57:37<43:39,  2.00it/s] 51%|█████     | 5477/10719 [57:37<43:45,  2.00it/s] 51%|█████     | 5478/10719 [57:38<43:43,  2.00it/s] 51%|█████     | 5479/10719 [57:38<43:37,  2.00it/s] 51%|█████     | 5480/10719 [57:39<43:37,  2.00it/s] 51%|█████     | 5481/10719 [57:39<43:35,  2.00it/s] 51%|█████     | 5482/10719 [57:40<43:31,  2.01it/s] 51%|█████     | 5483/10719 [57:40<43:30,  2.01it/s] 51%|█████     | 5484/10719 [57:41<43:32,  2.00it/s] 51%|█████     | 5485/10719 [57:41<43:35,  2.00it/s] 51%|█████     | 5486/10719 [57:42<43:34,  2.00it/s] 51%|█████     | 5487/10719 [57:42<43:29,  2.00it/s] 51%|█████     | 5488/10719 [57:43<43:30,  2.00it/s] 51%|█████     | 5489/10719 [57:43<43:26,  2.01it/s] 51%|█████     | 5490/10719 [57:44<43:26,  2.01it/s] 51%|█████     | 5491/10719 [57:44<43:27,  2.01it/s] 51%|█████     | 5492/10719 [57:45<43:29,  2.00it/s] 51%|█████     | 5493/10719 [57:45<43:27,  2.00it/s] 51%|█████▏    | 5494/10719 [57:46<43:27,  2.00it/s] 51%|█████▏    | 5495/10719 [57:46<43:27,  2.00it/s] 51%|█████▏    | 5496/10719 [57:47<43:23,  2.01it/s] 51%|█████▏    | 5497/10719 [57:47<43:19,  2.01it/s] 51%|█████▏    | 5498/10719 [57:48<43:22,  2.01it/s] 51%|█████▏    | 5499/10719 [57:48<43:21,  2.01it/s] 51%|█████▏    | 5500/10719 [57:49<43:23,  2.00it/s]                                                    {'loss': 3.6084, 'grad_norm': 0.19768619537353516, 'learning_rate': 0.0005642203551757761, 'epoch': 0.51}
- 51%|█████▏    | 5500/10719 [57:49<43:23,  2.00it/s] 51%|█████▏    | 5501/10719 [57:49<43:25,  2.00it/s] 51%|█████▏    | 5502/10719 [57:50<43:27,  2.00it/s] 51%|█████▏    | 5503/10719 [57:50<43:24,  2.00it/s] 51%|█████▏    | 5504/10719 [57:51<43:25,  2.00it/s] 51%|█████▏    | 5505/10719 [57:51<43:19,  2.01it/s] 51%|█████▏    | 5506/10719 [57:52<43:19,  2.01it/s] 51%|█████▏    | 5507/10719 [57:52<43:16,  2.01it/s] 51%|█████▏    | 5508/10719 [57:53<43:24,  2.00it/s] 51%|█████▏    | 5509/10719 [57:53<43:23,  2.00it/s] 51%|█████▏    | 5510/10719 [57:54<43:20,  2.00it/s] 51%|█████▏    | 5511/10719 [57:54<43:16,  2.01it/s] 51%|█████▏    | 5512/10719 [57:55<43:15,  2.01it/s] 51%|█████▏    | 5513/10719 [57:55<43:11,  2.01it/s] 51%|█████▏    | 5514/10719 [57:56<43:11,  2.01it/s] 51%|█████▏    | 5515/10719 [57:56<43:10,  2.01it/s] 51%|█████▏    | 5516/10719 [57:57<43:13,  2.01it/s] 51%|█████▏    | 5517/10719 [57:57<43:15,  2.00it/s] 51%|█████▏    | 5518/10719 [57:58<43:13,  2.01it/s] 51%|█████▏    | 5519/10719 [57:58<43:10,  2.01it/s] 51%|█████▏    | 5520/10719 [57:59<43:10,  2.01it/s] 52%|█████▏    | 5521/10719 [57:59<43:07,  2.01it/s] 52%|█████▏    | 5522/10719 [58:00<43:08,  2.01it/s] 52%|█████▏    | 5523/10719 [58:00<43:08,  2.01it/s] 52%|█████▏    | 5524/10719 [58:01<43:06,  2.01it/s] 52%|█████▏    | 5525/10719 [58:01<43:03,  2.01it/s]                                                    {'loss': 3.6053, 'grad_norm': 0.20968039333820343, 'learning_rate': 0.0005601813021459958, 'epoch': 0.52}
- 52%|█████▏    | 5525/10719 [58:01<43:03,  2.01it/s] 52%|█████▏    | 5526/10719 [58:02<43:06,  2.01it/s] 52%|█████▏    | 5527/10719 [58:02<43:01,  2.01it/s] 52%|█████▏    | 5528/10719 [58:03<43:00,  2.01it/s] 52%|█████▏    | 5529/10719 [58:03<42:57,  2.01it/s] 52%|█████▏    | 5530/10719 [58:04<42:55,  2.02it/s] 52%|█████▏    | 5531/10719 [58:04<42:57,  2.01it/s] 52%|█████▏    | 5532/10719 [58:05<42:55,  2.01it/s] 52%|█████▏    | 5533/10719 [58:05<42:54,  2.01it/s] 52%|█████▏    | 5534/10719 [58:06<42:56,  2.01it/s] 52%|█████▏    | 5535/10719 [58:06<43:21,  1.99it/s] 52%|█████▏    | 5536/10719 [58:07<43:57,  1.96it/s] 52%|█████▏    | 5537/10719 [58:07<43:47,  1.97it/s] 52%|█████▏    | 5538/10719 [58:08<43:33,  1.98it/s] 52%|█████▏    | 5539/10719 [58:08<43:21,  1.99it/s] 52%|█████▏    | 5540/10719 [58:09<43:17,  1.99it/s] 52%|█████▏    | 5541/10719 [58:09<43:11,  2.00it/s] 52%|█████▏    | 5542/10719 [58:10<43:04,  2.00it/s] 52%|█████▏    | 5543/10719 [58:10<43:01,  2.00it/s] 52%|█████▏    | 5544/10719 [58:11<43:00,  2.01it/s] 52%|█████▏    | 5545/10719 [58:11<42:56,  2.01it/s] 52%|█████▏    | 5546/10719 [58:12<42:55,  2.01it/s] 52%|█████▏    | 5547/10719 [58:12<42:55,  2.01it/s] 52%|█████▏    | 5548/10719 [58:13<42:49,  2.01it/s] 52%|█████▏    | 5549/10719 [58:13<42:52,  2.01it/s] 52%|█████▏    | 5550/10719 [58:14<42:52,  2.01it/s]                                                    {'loss': 3.6144, 'grad_norm': 0.20693615078926086, 'learning_rate': 0.0005561382602048415, 'epoch': 0.52}
- 52%|█████▏    | 5550/10719 [58:14<42:52,  2.01it/s] 52%|█████▏    | 5551/10719 [58:14<42:50,  2.01it/s] 52%|█████▏    | 5552/10719 [58:15<42:49,  2.01it/s] 52%|█████▏    | 5553/10719 [58:15<42:46,  2.01it/s] 52%|█████▏    | 5554/10719 [58:16<42:45,  2.01it/s] 52%|█████▏    | 5555/10719 [58:16<42:42,  2.02it/s] 52%|█████▏    | 5556/10719 [58:17<42:42,  2.01it/s] 52%|█████▏    | 5557/10719 [58:17<42:45,  2.01it/s] 52%|█████▏    | 5558/10719 [58:18<42:41,  2.01it/s] 52%|█████▏    | 5559/10719 [58:18<42:42,  2.01it/s] 52%|█████▏    | 5560/10719 [58:19<42:44,  2.01it/s] 52%|█████▏    | 5561/10719 [58:19<42:46,  2.01it/s] 52%|█████▏    | 5562/10719 [58:20<42:50,  2.01it/s] 52%|█████▏    | 5563/10719 [58:20<42:52,  2.00it/s] 52%|█████▏    | 5564/10719 [58:21<43:11,  1.99it/s] 52%|█████▏    | 5565/10719 [58:21<44:27,  1.93it/s] 52%|█████▏    | 5566/10719 [58:22<43:59,  1.95it/s] 52%|█████▏    | 5567/10719 [58:22<43:38,  1.97it/s] 52%|█████▏    | 5568/10719 [58:23<43:26,  1.98it/s] 52%|█████▏    | 5569/10719 [58:23<43:10,  1.99it/s] 52%|█████▏    | 5570/10719 [58:24<43:02,  1.99it/s] 52%|█████▏    | 5571/10719 [58:24<42:56,  2.00it/s] 52%|█████▏    | 5572/10719 [58:25<42:53,  2.00it/s] 52%|█████▏    | 5573/10719 [58:25<42:46,  2.01it/s] 52%|█████▏    | 5574/10719 [58:26<42:44,  2.01it/s] 52%|█████▏    | 5575/10719 [58:26<42:39,  2.01it/s]                                                    {'loss': 3.609, 'grad_norm': 0.20112857222557068, 'learning_rate': 0.000552091497331493, 'epoch': 0.52}
- 52%|█████▏    | 5575/10719 [58:26<42:39,  2.01it/s] 52%|█████▏    | 5576/10719 [58:27<42:42,  2.01it/s] 52%|█████▏    | 5577/10719 [58:27<42:39,  2.01it/s] 52%|█████▏    | 5578/10719 [58:28<42:36,  2.01it/s] 52%|█████▏    | 5579/10719 [58:28<42:35,  2.01it/s] 52%|█████▏    | 5580/10719 [58:29<42:34,  2.01it/s] 52%|█████▏    | 5581/10719 [58:29<42:31,  2.01it/s] 52%|█████▏    | 5582/10719 [58:30<42:28,  2.02it/s] 52%|█████▏    | 5583/10719 [58:30<42:26,  2.02it/s] 52%|█████▏    | 5584/10719 [58:31<42:29,  2.01it/s] 52%|█████▏    | 5585/10719 [58:31<42:28,  2.01it/s] 52%|█████▏    | 5586/10719 [58:32<42:30,  2.01it/s] 52%|█████▏    | 5587/10719 [58:32<42:35,  2.01it/s] 52%|█████▏    | 5588/10719 [58:33<42:55,  1.99it/s] 52%|█████▏    | 5589/10719 [58:33<42:56,  1.99it/s] 52%|█████▏    | 5590/10719 [58:34<42:52,  1.99it/s] 52%|█████▏    | 5591/10719 [58:34<42:46,  2.00it/s] 52%|█████▏    | 5592/10719 [58:35<42:42,  2.00it/s] 52%|█████▏    | 5593/10719 [58:35<42:43,  2.00it/s] 52%|█████▏    | 5594/10719 [58:36<42:42,  2.00it/s] 52%|███��█▏    | 5595/10719 [58:36<42:42,  2.00it/s] 52%|█████▏    | 5596/10719 [58:37<42:40,  2.00it/s] 52%|█████▏    | 5597/10719 [58:37<42:41,  2.00it/s] 52%|█████▏    | 5598/10719 [58:38<42:37,  2.00it/s] 52%|█████▏    | 5599/10719 [58:38<42:35,  2.00it/s] 52%|█████▏    | 5600/10719 [58:39<42:36,  2.00it/s]                                                    {'loss': 3.6015, 'grad_norm': 0.20903989672660828, 'learning_rate': 0.0005480412817517594, 'epoch': 0.52}
- 52%|█████▏    | 5600/10719 [58:39<42:36,  2.00it/s] 52%|█████▏    | 5601/10719 [58:39<42:36,  2.00it/s] 52%|█████▏    | 5602/10719 [58:40<42:35,  2.00it/s] 52%|█████▏    | 5603/10719 [58:40<42:33,  2.00it/s] 52%|█████▏    | 5604/10719 [58:41<42:32,  2.00it/s] 52%|█████▏    | 5605/10719 [58:41<42:29,  2.01it/s] 52%|█████▏    | 5606/10719 [58:42<42:52,  1.99it/s] 52%|█████▏    | 5607/10719 [58:42<42:46,  1.99it/s] 52%|█████▏    | 5608/10719 [58:43<42:43,  1.99it/s] 52%|█████▏    | 5609/10719 [58:43<42:38,  2.00it/s] 52%|█████▏    | 5610/10719 [58:44<42:33,  2.00it/s] 52%|█████▏    | 5611/10719 [58:44<42:30,  2.00it/s] 52%|█████▏    | 5612/10719 [58:45<42:27,  2.00it/s] 52%|█████▏    | 5613/10719 [58:45<42:29,  2.00it/s] 52%|█████▏    | 5614/10719 [58:46<42:24,  2.01it/s] 52%|█████▏    | 5615/10719 [58:46<42:25,  2.00it/s] 52%|█████▏    | 5616/10719 [58:47<42:19,  2.01it/s] 52%|█████▏    | 5617/10719 [58:47<42:20,  2.01it/s] 52%|█████▏    | 5618/10719 [58:48<42:22,  2.01it/s] 52%|█████▏    | 5619/10719 [58:48<42:24,  2.00it/s] 52%|█████▏    | 5620/10719 [58:49<42:27,  2.00it/s] 52%|█████▏    | 5621/10719 [58:49<42:26,  2.00it/s] 52%|█████▏    | 5622/10719 [58:50<42:28,  2.00it/s] 52%|█████▏    | 5623/10719 [58:50<42:29,  2.00it/s] 52%|█████▏    | 5624/10719 [58:51<42:27,  2.00it/s] 52%|█████▏    | 5625/10719 [58:51<42:28,  2.00it/s]                                                    {'loss': 3.6043, 'grad_norm': 0.200910285115242, 'learning_rate': 0.0005439878819203003, 'epoch': 0.52}
- 52%|█████▏    | 5625/10719 [58:51<42:28,  2.00it/s] 52%|█████▏    | 5626/10719 [58:52<42:27,  2.00it/s] 52%|█████▏    | 5627/10719 [58:52<42:24,  2.00it/s] 53%|█████▎    | 5628/10719 [58:53<42:28,  2.00it/s] 53%|█████▎    | 5629/10719 [58:53<42:28,  2.00it/s] 53%|█████▎    | 5630/10719 [58:54<42:25,  2.00it/s] 53%|█████▎    | 5631/10719 [58:54<42:27,  2.00it/s] 53%|█████▎    | 5632/10719 [58:55<42:24,  2.00it/s] 53%|█████▎    | 5633/10719 [58:55<42:21,  2.00it/s] 53%|█████▎    | 5634/10719 [58:56<42:22,  2.00it/s] 53%|█████▎    | 5635/10719 [58:56<42:18,  2.00it/s] 53%|█████▎    | 5636/10719 [58:57<42:19,  2.00it/s] 53%|█████▎    | 5637/10719 [58:57<42:19,  2.00it/s] 53%|█████▎    | 5638/10719 [58:58<42:25,  2.00it/s] 53%|█████▎    | 5639/10719 [58:58<44:24,  1.91it/s] 53%|█████▎    | 5640/10719 [58:59<43:43,  1.94it/s] 53%|█████▎    | 5641/10719 [58:59<43:16,  1.96it/s] 53%|█████▎    | 5642/10719 [59:00<42:55,  1.97it/s] 53%|█████▎    | 5643/10719 [59:00<42:38,  1.98it/s] 53%|█████▎    | 5644/10719 [59:01<42:30,  1.99it/s] 53%|█████▎    | 5645/10719 [59:01<42:23,  1.99it/s] 53%|█████▎    | 5646/10719 [59:02<42:15,  2.00it/s] 53%|█████▎    | 5647/10719 [59:02<42:14,  2.00it/s] 53%|█████▎    | 5648/10719 [59:03<42:08,  2.01it/s] 53%|█████▎    | 5649/10719 [59:03<42:05,  2.01it/s] 53%|█████▎    | 5650/10719 [59:04<42:05,  2.01it/s]                                                    {'loss': 3.6015, 'grad_norm': 0.20238704979419708, 'learning_rate': 0.0005399315665028326, 'epoch': 0.53}
- 53%|█████▎    | 5650/10719 [59:04<42:05,  2.01it/s] 53%|█████▎    | 5651/10719 [59:04<42:06,  2.01it/s] 53%|█████▎    | 5652/10719 [59:05<42:04,  2.01it/s] 53%|█████▎    | 5653/10719 [59:05<42:01,  2.01it/s] 53%|█████▎    | 5654/10719 [59:06<42:01,  2.01it/s] 53%|█████▎    | 5655/10719 [59:06<41:56,  2.01it/s] 53%|█████▎    | 5656/10719 [59:07<41:57,  2.01it/s] 53%|█████▎    | 5657/10719 [59:07<41:52,  2.01it/s] 53%|█████▎    | 5658/10719 [59:08<41:53,  2.01it/s] 53%|█████▎    | 5659/10719 [59:08<41:50,  2.02it/s] 53%|█████▎    | 5660/10719 [59:09<41:49,  2.02it/s] 53%|█████▎    | 5661/10719 [59:09<41:48,  2.02it/s] 53%|█████▎    | 5662/10719 [59:10<41:46,  2.02it/s] 53%|█████▎    | 5663/10719 [59:10<41:47,  2.02it/s] 53%|█████▎    | 5664/10719 [59:11<41:48,  2.02it/s] 53%|█████▎    | 5665/10719 [59:11<41:46,  2.02it/s] 53%|█████▎    | 5666/10719 [59:12<41:46,  2.02it/s] 53%|█████▎    | 5667/10719 [59:12<41:44,  2.02it/s] 53%|█████▎    | 5668/10719 [59:13<41:56,  2.01it/s] 53%|█████▎    | 5669/10719 [59:13<41:55,  2.01it/s] 53%|█████▎    | 5670/10719 [59:14<41:56,  2.01it/s] 53%|█████▎    | 5671/10719 [59:14<41:56,  2.01it/s] 53%|█████▎    | 5672/10719 [59:15<42:03,  2.00it/s] 53%|█████▎    | 5673/10719 [59:15<43:57,  1.91it/s] 53%|█████▎    | 5674/10719 [59:16<43:18,  1.94it/s] 53%|█████▎    | 5675/10719 [59:16<42:55,  1.96it/s]                                                    {'loss': 3.5998, 'grad_norm': 0.21172575652599335, 'learning_rate': 0.0005358726043583231, 'epoch': 0.53}
- 53%|█████▎    | 5675/10719 [59:16<42:55,  1.96it/s] 53%|█████▎    | 5676/10719 [59:17<42:41,  1.97it/s] 53%|█████▎    | 5677/10719 [59:17<42:26,  1.98it/s] 53%|█████▎    | 5678/10719 [59:18<42:13,  1.99it/s] 53%|█████▎    | 5679/10719 [59:18<42:05,  2.00it/s] 53%|█████▎    | 5680/10719 [59:19<41:59,  2.00it/s] 53%|█████▎    | 5681/10719 [59:19<41:55,  2.00it/s] 53%|█████▎    | 5682/10719 [59:20<41:52,  2.00it/s] 53%|█████▎    | 5683/10719 [59:20<41:49,  2.01it/s] 53%|█████▎    | 5684/10719 [59:21<41:51,  2.00it/s] 53%|█████▎    | 5685/10719 [59:21<41:47,  2.01it/s] 53%|█████▎    | 5686/10719 [59:22<41:42,  2.01it/s] 53%|█████▎    | 5687/10719 [59:22<41:43,  2.01it/s] 53%|█████▎    | 5688/10719 [59:23<41:41,  2.01it/s] 53%|█████▎    | 5689/10719 [59:23<41:40,  2.01it/s] 53%|█████▎    | 5690/10719 [59:24<41:37,  2.01it/s] 53%|█████▎    | 5691/10719 [59:24<41:36,  2.01it/s] 53%|█████▎    | 5692/10719 [59:25<41:41,  2.01it/s] 53%|█████▎    | 5693/10719 [59:25<41:39,  2.01it/s] 53%|█████▎    | 5694/10719 [59:26<41:43,  2.01it/s] 53%|█████▎    | 5695/10719 [59:26<41:43,  2.01it/s] 53%|█████▎    | 5696/10719 [59:27<41:42,  2.01it/s] 53%|█████▎    | 5697/10719 [59:27<41:43,  2.01it/s] 53%|█████▎    | 5698/10719 [59:28<41:44,  2.00it/s] 53%|█████▎    | 5699/10719 [59:28<41:45,  2.00it/s] 53%|█████▎    | 5700/10719 [59:29<41:43,  2.00it/s]                                                    {'loss': 3.6049, 'grad_norm': 0.20279990136623383, 'learning_rate': 0.0005318112645211676, 'epoch': 0.53}
- 53%|█████▎    | 5700/10719 [59:29<41:43,  2.00it/s] 53%|█████▎    | 5701/10719 [59:29<41:45,  2.00it/s] 53%|█████▎    | 5702/10719 [59:30<41:45,  2.00it/s] 53%|█████▎    | 5703/10719 [59:30<41:41,  2.01it/s] 53%|█████▎    | 5704/10719 [59:31<41:39,  2.01it/s] 53%|█████▎    | 5705/10719 [59:31<41:37,  2.01it/s] 53%|█████▎    | 5706/10719 [59:32<41:34,  2.01it/s] 53%|█████▎    | 5707/10719 [59:32<41:32,  2.01it/s] 53%|█████▎    | 5708/10719 [59:33<41:32,  2.01it/s] 53%|█████▎    | 5709/10719 [59:33<41:28,  2.01it/s] 53%|█████▎    | 5710/10719 [59:34<42:08,  1.98it/s] 53%|█████▎    | 5711/10719 [59:34<42:16,  1.97it/s] 53%|█████▎    | 5712/10719 [59:35<42:06,  1.98it/s] 53%|█████▎    | 5713/10719 [59:35<41:57,  1.99it/s] 53%|█████▎    | 5714/10719 [59:36<41:52,  1.99it/s] 53%|█████▎    | 5715/10719 [59:36<41:49,  1.99it/s] 53%|█████▎    | 5716/10719 [59:37<41:45,  2.00it/s] 53%|█████▎    | 5717/10719 [59:37<41:39,  2.00it/s] 53%|█████▎    | 5718/10719 [59:38<41:34,  2.01it/s] 53%|█████▎    | 5719/10719 [59:38<41:33,  2.01it/s] 53%|█████▎    | 5720/10719 [59:39<41:32,  2.01it/s] 53%|█████▎    | 5721/10719 [59:39<41:31,  2.01it/s] 53%|█████▎    | 5722/10719 [59:40<41:30,  2.01it/s] 53%|█████▎    | 5723/10719 [59:40<41:27,  2.01it/s] 53%|█████▎    | 5724/10719 [59:41<41:25,  2.01it/s] 53%|█████▎    | 5725/10719 [59:41<41:25,  2.01it/s]                                                    {'loss': 3.5968, 'grad_norm': 0.2076532393693924, 'learning_rate': 0.0005277478161833594, 'epoch': 0.53}
- 53%|█████▎    | 5725/10719 [59:41<41:25,  2.01it/s] 53%|█████▎    | 5726/10719 [59:42<41:27,  2.01it/s] 53%|█████▎    | 5727/10719 [59:42<41:29,  2.01it/s] 53%|█████▎    | 5728/10719 [59:43<41:38,  2.00it/s] 53%|█████▎    | 5729/10719 [59:43<42:51,  1.94it/s] 53%|█████▎    | 5730/10719 [59:44<42:42,  1.95it/s] 53%|█████▎    | 5731/10719 [59:44<42:22,  1.96it/s] 53%|█████▎    | 5732/10719 [59:45<42:04,  1.98it/s] 53%|█████▎    | 5733/10719 [59:45<41:55,  1.98it/s] 53%|█████▎    | 5734/10719 [59:46<41:46,  1.99it/s] 54%|█████▎    | 5735/10719 [59:46<41:38,  1.99it/s] 54%|█████▎    | 5736/10719 [59:47<41:32,  2.00it/s] 54%|█████▎    | 5737/10719 [59:47<41:29,  2.00it/s] 54%|█████▎    | 5738/10719 [59:48<41:26,  2.00it/s] 54%|█████▎    | 5739/10719 [59:48<41:21,  2.01it/s] 54%|█████▎    | 5740/10719 [59:49<41:18,  2.01it/s] 54%|█████▎    | 5741/10719 [59:49<41:16,  2.01it/s] 54%|█████▎    | 5742/10719 [59:50<41:12,  2.01it/s] 54%|█████▎    | 5743/10719 [59:50<41:15,  2.01it/s] 54%|█████▎    | 5744/10719 [59:51<41:13,  2.01it/s] 54%|█████▎    | 5745/10719 [59:51<41:13,  2.01it/s] 54%|█████▎    | 5746/10719 [59:52<41:14,  2.01it/s] 54%|█████▎    | 5747/10719 [59:52<41:13,  2.01it/s] 54%|█████▎    | 5748/10719 [59:53<41:10,  2.01it/s] 54%|█████▎    | 5749/10719 [59:53<41:10,  2.01it/s] 54%|█████▎    | 5750/10719 [59:54<41:08,  2.01it/s]                                                    {'loss': 3.585, 'grad_norm': 0.2062055766582489, 'learning_rate': 0.0005236825286766457, 'epoch': 0.54}
- 54%|█████▎    | 5750/10719 [59:54<41:08,  2.01it/s] 54%|█████▎    | 5751/10719 [59:54<41:11,  2.01it/s] 54%|█████▎    | 5752/10719 [59:55<41:32,  1.99it/s] 54%|█████▎    | 5753/10719 [59:55<41:36,  1.99it/s] 54%|█████▎    | 5754/10719 [59:56<41:26,  2.00it/s] 54%|█████▎    | 5755/10719 [59:56<41:26,  2.00it/s] 54%|█████▎    | 5756/10719 [59:57<41:20,  2.00it/s] 54%|█████▎    | 5757/10719 [59:57<41:20,  2.00it/s] 54%|█████▎    | 5758/10719 [59:58<41:15,  2.00it/s] 54%|█████▎    | 5759/10719 [59:58<41:15,  2.00it/s] 54%|█████▎    | 5760/10719 [59:59<41:12,  2.01it/s] 54%|█████▎    | 5761/10719 [59:59<41:07,  2.01it/s] 54%|█████▍    | 5762/10719 [1:00:00<41:12,  2.00it/s] 54%|█████▍    | 5763/10719 [1:00:00<42:18,  1.95it/s] 54%|█████▍    | 5764/10719 [1:00:01<42:05,  1.96it/s] 54%|█████▍    | 5765/10719 [1:00:01<41:50,  1.97it/s] 54%|█████▍    | 5766/10719 [1:00:02<41:34,  1.99it/s] 54%|█████▍    | 5767/10719 [1:00:02<41:30,  1.99it/s] 54%|█████▍    | 5768/10719 [1:00:03<41:26,  1.99it/s] 54%|█████▍    | 5769/10719 [1:00:03<41:22,  1.99it/s] 54%|█████▍    | 5770/10719 [1:00:04<41:20,  2.00it/s] 54%|█████▍    | 5771/10719 [1:00:04<41:19,  2.00it/s] 54%|█████▍    | 5772/10719 [1:00:05<41:19,  2.00it/s] 54%|█████▍    | 5773/10719 [1:00:05<41:21,  1.99it/s] 54%|█████▍    | 5774/10719 [1:00:06<41:16,  2.00it/s] 54%|█████▍    | 5775/10719 [1:00:06<41:12,  2.00it/s]                                                      {'loss': 3.586, 'grad_norm': 0.22393926978111267, 'learning_rate': 0.000519615671454678, 'epoch': 0.54}
- 54%|█████▍    | 5775/10719 [1:00:06<41:12,  2.00it/s] 54%|█████▍    | 5776/10719 [1:00:07<41:15,  2.00it/s] 54%|█████▍    | 5777/10719 [1:00:07<41:15,  2.00it/s] 54%|█████▍    | 5778/10719 [1:00:08<41:09,  2.00it/s] 54%|█████▍    | 5779/10719 [1:00:08<41:09,  2.00it/s] 54%|█████▍    | 5780/10719 [1:00:09<41:06,  2.00it/s] 54%|█████▍    | 5781/10719 [1:00:09<41:04,  2.00it/s] 54%|█████▍    | 5782/10719 [1:00:10<41:02,  2.00it/s] 54%|█████▍    | 5783/10719 [1:00:10<41:02,  2.00it/s] 54%|█████▍    | 5784/10719 [1:00:11<41:02,  2.00it/s] 54%|█████▍    | 5785/10719 [1:00:11<41:01,  2.00it/s] 54%|█████▍    | 5786/10719 [1:00:12<41:00,  2.01it/s] 54%|█████▍    | 5787/10719 [1:00:12<40:57,  2.01it/s] 54%|█████▍    | 5788/10719 [1:00:13<40:59,  2.01it/s] 54%|█████▍    | 5789/10719 [1:00:13<40:55,  2.01it/s] 54%|█████▍    | 5790/10719 [1:00:14<40:55,  2.01it/s] 54%|█████▍    | 5791/10719 [1:00:14<40:53,  2.01it/s] 54%|█████▍    | 5792/10719 [1:00:15<40:50,  2.01it/s] 54%|█████▍    | 5793/10719 [1:00:15<40:49,  2.01it/s] 54%|█████▍    | 5794/10719 [1:00:16<40:51,  2.01it/s] 54%|█████▍    | 5795/10719 [1:00:16<40:54,  2.01it/s] 54%|█████▍    | 5796/10719 [1:00:17<40:56,  2.00it/s] 54%|█████▍    | 5797/10719 [1:00:17<40:58,  2.00it/s] 54%|█████▍    | 5798/10719 [1:00:18<40:57,  2.00it/s] 54%|█████▍    | 5799/10719 [1:00:18<40:56,  2.00it/s] 54%|█████▍    | 5800/10719 [1:00:19<40:58,  2.00it/s]                                                      {'loss': 3.6027, 'grad_norm': 0.19426114857196808, 'learning_rate': 0.0005155475140751498, 'epoch': 0.54}
- 54%|█████▍    | 5800/10719 [1:00:19<40:58,  2.00it/s] 54%|█████▍    | 5801/10719 [1:00:19<41:02,  2.00it/s] 54%|█████▍    | 5802/10719 [1:00:20<40:58,  2.00it/s] 54%|█████▍    | 5803/10719 [1:00:20<40:57,  2.00it/s] 54%|█████▍    | 5804/10719 [1:00:21<40:52,  2.00it/s] 54%|█████▍    | 5805/10719 [1:00:21<40:51,  2.00it/s] 54%|█████▍    | 5806/10719 [1:00:22<40:50,  2.01it/s] 54%|█████▍    | 5807/10719 [1:00:22<40:49,  2.01it/s] 54%|█████▍    | 5808/10719 [1:00:23<40:49,  2.01it/s] 54%|█████▍    | 5809/10719 [1:00:23<40:45,  2.01it/s] 54%|█████▍    | 5810/10719 [1:00:24<40:48,  2.00it/s] 54%|█████▍    | 5811/10719 [1:00:24<42:36,  1.92it/s] 54%|█████▍    | 5812/10719 [1:00:25<42:05,  1.94it/s] 54%|█████▍    | 5813/10719 [1:00:25<41:41,  1.96it/s] 54%|█████▍    | 5814/10719 [1:00:26<41:22,  1.98it/s] 54%|█████▍    | 5815/10719 [1:00:26<41:11,  1.98it/s] 54%|█████▍    | 5816/10719 [1:00:27<41:02,  1.99it/s] 54%|█████▍    | 5817/10719 [1:00:27<40:55,  2.00it/s] 54%|█████▍    | 5818/10719 [1:00:28<40:48,  2.00it/s] 54%|█████▍    | 5819/10719 [1:00:28<40:48,  2.00it/s] 54%|█████▍    | 5820/10719 [1:00:29<40:47,  2.00it/s] 54%|█████▍    | 5821/10719 [1:00:29<41:34,  1.96it/s] 54%|█████▍    | 5822/10719 [1:00:30<41:22,  1.97it/s] 54%|█████▍    | 5823/10719 [1:00:30<41:07,  1.98it/s] 54%|█████▍    | 5824/10719 [1:00:31<41:00,  1.99it/s] 54%|█████▍    | 5825/10719 [1:00:31<40:55,  1.99it/s]                                                      {'loss': 3.6004, 'grad_norm': 0.20311690866947174, 'learning_rate': 0.000511478326181932, 'epoch': 0.54}
- 54%|█████▍    | 5825/10719 [1:00:31<40:55,  1.99it/s] 54%|█████▍    | 5826/10719 [1:00:32<40:51,  2.00it/s] 54%|█████▍    | 5827/10719 [1:00:32<40:44,  2.00it/s] 54%|█████▍    | 5828/10719 [1:00:33<40:41,  2.00it/s] 54%|█████▍    | 5829/10719 [1:00:33<40:40,  2.00it/s] 54%|█████▍    | 5830/10719 [1:00:34<40:37,  2.01it/s] 54%|█████▍    | 5831/10719 [1:00:34<40:35,  2.01it/s] 54%|█████▍    | 5832/10719 [1:00:35<40:32,  2.01it/s] 54%|█████▍    | 5833/10719 [1:00:35<40:30,  2.01it/s] 54%|█████▍    | 5834/10719 [1:00:36<40:30,  2.01it/s] 54%|█████▍    | 5835/10719 [1:00:36<40:30,  2.01it/s] 54%|█████▍    | 5836/10719 [1:00:37<40:49,  1.99it/s] 54%|█████▍    | 5837/10719 [1:00:37<42:30,  1.91it/s] 54%|█████▍    | 5838/10719 [1:00:38<41:56,  1.94it/s] 54%|█████▍    | 5839/10719 [1:00:38<41:33,  1.96it/s] 54%|█████▍    | 5840/10719 [1:00:39<41:16,  1.97it/s] 54%|█████▍    | 5841/10719 [1:00:39<41:01,  1.98it/s] 55%|█████▍    | 5842/10719 [1:00:40<40:50,  1.99it/s] 55%|█████▍    | 5843/10719 [1:00:40<40:41,  2.00it/s] 55%|█████▍    | 5844/10719 [1:00:41<40:37,  2.00it/s] 55%|█████▍    | 5845/10719 [1:00:41<40:38,  2.00it/s] 55%|█████▍    | 5846/10719 [1:00:42<40:31,  2.00it/s] 55%|█████▍    | 5847/10719 [1:00:42<40:26,  2.01it/s] 55%|█████▍    | 5848/10719 [1:00:43<40:27,  2.01it/s] 55%|█████▍    | 5849/10719 [1:00:43<40:22,  2.01it/s] 55%|█████▍    | 5850/10719 [1:00:44<40:23,  2.01it/s]                                                      {'loss': 3.5942, 'grad_norm': 0.20298515260219574, 'learning_rate': 0.0005074083774871989, 'epoch': 0.55}
- 55%|█████▍    | 5850/10719 [1:00:44<40:23,  2.01it/s] 55%|█████▍    | 5851/10719 [1:00:44<40:28,  2.00it/s] 55%|█████▍    | 5852/10719 [1:00:45<40:21,  2.01it/s] 55%|█████▍    | 5853/10719 [1:00:45<40:23,  2.01it/s] 55%|█████▍    | 5854/10719 [1:00:46<40:21,  2.01it/s] 55%|█████▍    | 5855/10719 [1:00:46<40:17,  2.01it/s] 55%|█████▍    | 5856/10719 [1:00:47<40:19,  2.01it/s] 55%|█████▍    | 5857/10719 [1:00:47<40:16,  2.01it/s] 55%|█████▍    | 5858/10719 [1:00:48<40:15,  2.01it/s] 55%|█████▍    | 5859/10719 [1:00:48<40:19,  2.01it/s] 55%|█████▍    | 5860/10719 [1:00:49<40:15,  2.01it/s] 55%|█████▍    | 5861/10719 [1:00:49<40:12,  2.01it/s] 55%|█████▍    | 5862/10719 [1:00:50<40:11,  2.01it/s] 55%|█████▍    | 5863/10719 [1:00:50<40:10,  2.01it/s] 55%|█████▍    | 5864/10719 [1:00:51<40:11,  2.01it/s] 55%|█████▍    | 5865/10719 [1:00:51<40:08,  2.02it/s] 55%|█████▍    | 5866/10719 [1:00:52<40:07,  2.02it/s] 55%|█████▍    | 5867/10719 [1:00:52<40:07,  2.02it/s] 55%|█████▍    | 5868/10719 [1:00:53<40:22,  2.00it/s] 55%|█████▍    | 5869/10719 [1:00:53<43:16,  1.87it/s] 55%|█████▍    | 5870/10719 [1:00:54<42:24,  1.91it/s] 55%|█████▍    | 5871/10719 [1:00:54<43:15,  1.87it/s] 55%|█████▍    | 5872/10719 [1:00:55<42:25,  1.90it/s] 55%|█████▍    | 5873/10719 [1:00:55<41:48,  1.93it/s] 55%|█████▍    | 5874/10719 [1:00:56<41:19,  1.95it/s] 55%|█████▍    | 5875/10719 [1:00:56<41:00,  1.97it/s]                                                      {'loss': 3.5892, 'grad_norm': 0.20700493454933167, 'learning_rate': 0.0005033379377535522, 'epoch': 0.55}
- 55%|█████▍    | 5875/10719 [1:00:56<41:00,  1.97it/s] 55%|█████▍    | 5876/10719 [1:00:57<40:50,  1.98it/s] 55%|█████▍    | 5877/10719 [1:00:57<40:35,  1.99it/s] 55%|█████▍    | 5878/10719 [1:00:58<40:26,  2.00it/s] 55%|█████▍    | 5879/10719 [1:00:58<40:20,  2.00it/s] 55%|█████▍    | 5880/10719 [1:00:59<40:16,  2.00it/s] 55%|█████▍    | 5881/10719 [1:00:59<40:13,  2.00it/s] 55%|█████▍    | 5882/10719 [1:01:00<40:11,  2.01it/s] 55%|█████▍    | 5883/10719 [1:01:00<40:05,  2.01it/s] 55%|█████▍    | 5884/10719 [1:01:01<40:07,  2.01it/s] 55%|█████▍    | 5885/10719 [1:01:01<40:05,  2.01it/s] 55%|█████▍    | 5886/10719 [1:01:02<40:01,  2.01it/s] 55%|█████▍    | 5887/10719 [1:01:02<40:04,  2.01it/s] 55%|█████▍    | 5888/10719 [1:01:03<40:12,  2.00it/s] 55%|█████▍    | 5889/10719 [1:01:03<40:10,  2.00it/s] 55%|█████▍    | 5890/10719 [1:01:04<40:07,  2.01it/s] 55%|█████▍    | 5891/10719 [1:01:04<40:09,  2.00it/s] 55%|█████▍    | 5892/10719 [1:01:05<42:06,  1.91it/s] 55%|█████▍    | 5893/10719 [1:01:05<41:30,  1.94it/s] 55%|█████▍    | 5894/10719 [1:01:06<41:03,  1.96it/s] 55%|█████▍    | 5895/10719 [1:01:06<40:44,  1.97it/s] 55%|█████▌    | 5896/10719 [1:01:07<40:31,  1.98it/s] 55%|█████▌    | 5897/10719 [1:01:07<40:23,  1.99it/s] 55%|█████▌    | 5898/10719 [1:01:08<40:17,  1.99it/s] 55%|█████▌    | 5899/10719 [1:01:08<40:16,  1.99it/s] 55%|█████▌    | 5900/10719 [1:01:09<40:12,  2.00it/s]                                                      {'loss': 3.5871, 'grad_norm': 0.21071474254131317, 'learning_rate': 0.0004992672767761405, 'epoch': 0.55}
- 55%|█████▌    | 5900/10719 [1:01:09<40:12,  2.00it/s] 55%|█████▌    | 5901/10719 [1:01:09<40:15,  1.99it/s] 55%|█████▌    | 5902/10719 [1:01:10<40:09,  2.00it/s] 55%|█████▌    | 5903/10719 [1:01:10<40:09,  2.00it/s] 55%|█████▌    | 5904/10719 [1:01:11<40:05,  2.00it/s] 55%|█████▌    | 5905/10719 [1:01:11<40:01,  2.00it/s] 55%|█████▌    | 5906/10719 [1:01:12<40:00,  2.01it/s] 55%|█████▌    | 5907/10719 [1:01:12<40:21,  1.99it/s] 55%|█████▌    | 5908/10719 [1:01:13<40:15,  1.99it/s] 55%|█████▌    | 5909/10719 [1:01:13<40:12,  1.99it/s] 55%|█████▌    | 5910/10719 [1:01:14<40:07,  2.00it/s] 55%|█████▌    | 5911/10719 [1:01:14<40:03,  2.00it/s] 55%|█████▌    | 5912/10719 [1:01:15<40:03,  2.00it/s] 55%|█████▌    | 5913/10719 [1:01:15<40:03,  2.00it/s] 55%|█████▌    | 5914/10719 [1:01:16<40:00,  2.00it/s] 55%|█████▌    | 5915/10719 [1:01:17<40:24,  1.98it/s] 55%|█████▌    | 5916/10719 [1:01:17<40:16,  1.99it/s] 55%|█████▌    | 5917/10719 [1:01:18<40:12,  1.99it/s] 55%|█████▌    | 5918/10719 [1:01:18<40:06,  1.99it/s] 55%|█████▌    | 5919/10719 [1:01:19<40:03,  2.00it/s] 55%|█████▌    | 5920/10719 [1:01:19<39:59,  2.00it/s] 55%|█████▌    | 5921/10719 [1:01:20<40:00,  2.00it/s] 55%|█████▌    | 5922/10719 [1:01:20<39:58,  2.00it/s] 55%|█████▌    | 5923/10719 [1:01:21<39:58,  2.00it/s] 55%|█████▌    | 5924/10719 [1:01:21<39:57,  2.00it/s] 55%|█████▌    | 5925/10719 [1:01:22<39:58,  2.00it/s]                                                      {'loss': 3.5922, 'grad_norm': 0.18762622773647308, 'learning_rate': 0.0004951966643647768, 'epoch': 0.55}
- 55%|█████▌    | 5925/10719 [1:01:22<39:58,  2.00it/s] 55%|█████▌    | 5926/10719 [1:01:22<39:58,  2.00it/s] 55%|█████▌    | 5927/10719 [1:01:23<39:59,  2.00it/s] 55%|█████▌    | 5928/10719 [1:01:23<39:53,  2.00it/s] 55%|█████▌    | 5929/10719 [1:01:24<39:51,  2.00it/s] 55%|█████▌    | 5930/10719 [1:01:24<39:57,  2.00it/s] 55%|█████▌    | 5931/10719 [1:01:25<42:36,  1.87it/s] 55%|█████▌    | 5932/10719 [1:01:25<41:48,  1.91it/s] 55%|█████▌    | 5933/10719 [1:01:26<41:13,  1.93it/s] 55%|█████▌    | 5934/10719 [1:01:26<40:44,  1.96it/s] 55%|█████▌    | 5935/10719 [1:01:27<40:27,  1.97it/s] 55%|█████▌    | 5936/10719 [1:01:27<40:13,  1.98it/s] 55%|█████▌    | 5937/10719 [1:01:28<40:07,  1.99it/s] 55%|█████▌    | 5938/10719 [1:01:28<39:58,  1.99it/s] 55%|█████▌    | 5939/10719 [1:01:29<39:53,  2.00it/s] 55%|█████▌    | 5940/10719 [1:01:29<39:48,  2.00it/s] 55%|█████▌    | 5941/10719 [1:01:30<39:40,  2.01it/s] 55%|█████▌    | 5942/10719 [1:01:30<39:39,  2.01it/s] 55%|█████▌    | 5943/10719 [1:01:31<39:40,  2.01it/s] 55%|█████▌    | 5944/10719 [1:01:31<39:38,  2.01it/s] 55%|█████▌    | 5945/10719 [1:01:32<39:37,  2.01it/s] 55%|█████▌    | 5946/10719 [1:01:32<39:33,  2.01it/s] 55%|█████▌    | 5947/10719 [1:01:33<39:33,  2.01it/s] 55%|█████▌    | 5948/10719 [1:01:33<39:30,  2.01it/s] 55%|█████▌    | 5949/10719 [1:01:34<39:30,  2.01it/s] 56%|█████▌    | 5950/10719 [1:01:34<39:31,  2.01it/s]                                                      {'loss': 3.5839, 'grad_norm': 0.2095813751220703, 'learning_rate': 0.0004911263703260547, 'epoch': 0.56}
- 56%|█████▌    | 5950/10719 [1:01:34<39:31,  2.01it/s] 56%|█████▌    | 5951/10719 [1:01:35<39:35,  2.01it/s] 56%|█████▌    | 5952/10719 [1:01:35<39:32,  2.01it/s] 56%|█████▌    | 5953/10719 [1:01:36<39:32,  2.01it/s] 56%|█████▌    | 5954/10719 [1:01:36<39:30,  2.01it/s] 56%|█████▌    | 5955/10719 [1:01:37<39:26,  2.01it/s] 56%|█████▌    | 5956/10719 [1:01:37<39:26,  2.01it/s] 56%|█████▌    | 5957/10719 [1:01:38<39:28,  2.01it/s] 56%|█████▌    | 5958/10719 [1:01:38<39:24,  2.01it/s] 56%|█████▌    | 5959/10719 [1:01:39<39:24,  2.01it/s] 56%|█████▌    | 5960/10719 [1:01:39<39:22,  2.01it/s] 56%|█████▌    | 5961/10719 [1:01:40<39:26,  2.01it/s] 56%|█████▌    | 5962/10719 [1:01:40<39:29,  2.01it/s] 56%|█████▌    | 5963/10719 [1:01:41<39:42,  2.00it/s] 56%|█████▌    | 5964/10719 [1:01:41<39:41,  2.00it/s] 56%|█████▌    | 5965/10719 [1:01:42<39:40,  2.00it/s] 56%|█████▌    | 5966/10719 [1:01:42<39:40,  2.00it/s] 56%|█████▌    | 5967/10719 [1:01:43<39:37,  2.00it/s] 56%|█████▌    | 5968/10719 [1:01:43<39:40,  2.00it/s] 56%|█████▌    | 5969/10719 [1:01:44<39:39,  2.00it/s] 56%|█████▌    | 5970/10719 [1:01:44<39:34,  2.00it/s] 56%|█████▌    | 5971/10719 [1:01:45<39:35,  2.00it/s] 56%|█████▌    | 5972/10719 [1:01:45<39:31,  2.00it/s] 56%|█████▌    | 5973/10719 [1:01:46<39:31,  2.00it/s] 56%|█████▌    | 5974/10719 [1:01:46<39:27,  2.00it/s] 56%|█████▌    | 5975/10719 [1:01:47<39:25,  2.01it/s]                                                      {'loss': 3.5857, 'grad_norm': 0.20302674174308777, 'learning_rate': 0.00048705666444546613, 'epoch': 0.56}
- 56%|█████▌    | 5975/10719 [1:01:47<39:25,  2.01it/s] 56%|█████▌    | 5976/10719 [1:01:47<39:27,  2.00it/s] 56%|█████▌    | 5977/10719 [1:01:48<39:28,  2.00it/s] 56%|█████▌    | 5978/10719 [1:01:48<39:30,  2.00it/s] 56%|█████▌    | 5979/10719 [1:01:49<39:27,  2.00it/s] 56%|█████▌    | 5980/10719 [1:01:49<39:28,  2.00it/s] 56%|█████▌    | 5981/10719 [1:01:50<39:27,  2.00it/s] 56%|█████▌    | 5982/10719 [1:01:50<39:27,  2.00it/s] 56%|█████▌    | 5983/10719 [1:01:51<39:25,  2.00it/s] 56%|█████▌    | 5984/10719 [1:01:51<39:22,  2.00it/s] 56%|█████▌    | 5985/10719 [1:01:52<39:15,  2.01it/s] 56%|█████▌    | 5986/10719 [1:01:52<39:14,  2.01it/s] 56%|█████▌    | 5987/10719 [1:01:53<39:17,  2.01it/s] 56%|█████▌    | 5988/10719 [1:01:53<39:21,  2.00it/s] 56%|█████▌    | 5989/10719 [1:01:54<39:22,  2.00it/s] 56%|█████▌    | 5990/10719 [1:01:54<39:17,  2.01it/s] 56%|█████▌    | 5991/10719 [1:01:55<39:19,  2.00it/s] 56%|█████▌    | 5992/10719 [1:01:55<39:19,  2.00it/s] 56%|█████▌    | 5993/10719 [1:01:56<39:15,  2.01it/s] 56%|█████▌    | 5994/10719 [1:01:56<39:14,  2.01it/s] 56%|█████▌    | 5995/10719 [1:01:57<39:13,  2.01it/s] 56%|█████▌    | 5996/10719 [1:01:57<39:09,  2.01it/s] 56%|█████▌    | 5997/10719 [1:01:58<39:09,  2.01it/s] 56%|█████▌    | 5998/10719 [1:01:58<39:13,  2.01it/s] 56%|█████▌    | 5999/10719 [1:01:59<39:14,  2.01it/s] 56%|█████▌    | 6000/10719 [1:01:59<39:16,  2.00it/s]                                                      {'loss': 3.5884, 'grad_norm': 0.2054373025894165, 'learning_rate': 0.00048298781646951834, 'epoch': 0.56}
- 56%|█████▌    | 6000/10719 [1:01:59<39:16,  2.00it/s] 56%|█████▌    | 6001/10719 [1:02:00<39:17,  2.00it/s] 56%|█████▌    | 6002/10719 [1:02:00<39:24,  1.99it/s] 56%|█████▌    | 6003/10719 [1:02:01<39:17,  2.00it/s] 56%|█████▌    | 6004/10719 [1:02:01<39:17,  2.00it/s] 56%|█████▌    | 6005/10719 [1:02:02<39:14,  2.00it/s] 56%|█████▌    | 6006/10719 [1:02:02<39:10,  2.01it/s] 56%|█████▌    | 6007/10719 [1:02:03<39:11,  2.00it/s] 56%|█████▌    | 6008/10719 [1:02:03<39:06,  2.01it/s] 56%|█████▌    | 6009/10719 [1:02:04<39:04,  2.01it/s] 56%|█████▌    | 6010/10719 [1:02:04<39:02,  2.01it/s] 56%|█████▌    | 6011/10719 [1:02:05<39:03,  2.01it/s] 56%|█████▌    | 6012/10719 [1:02:05<39:07,  2.01it/s] 56%|█████▌    | 6013/10719 [1:02:06<39:05,  2.01it/s] 56%|█████▌    | 6014/10719 [1:02:06<39:03,  2.01it/s] 56%|█████▌    | 6015/10719 [1:02:07<39:04,  2.01it/s] 56%|█████▌    | 6016/10719 [1:02:07<39:07,  2.00it/s] 56%|█████▌    | 6017/10719 [1:02:08<39:03,  2.01it/s] 56%|█████▌    | 6018/10719 [1:02:08<39:06,  2.00it/s] 56%|█████▌    | 6019/10719 [1:02:09<39:11,  2.00it/s] 56%|█████▌    | 6020/10719 [1:02:09<39:12,  2.00it/s] 56%|█████▌    | 6021/10719 [1:02:10<39:10,  2.00it/s] 56%|█████▌    | 6022/10719 [1:02:10<39:03,  2.00it/s] 56%|█████▌    | 6023/10719 [1:02:11<39:05,  2.00it/s] 56%|█████▌    | 6024/10719 [1:02:11<39:02,  2.00it/s] 56%|█████▌    | 6025/10719 [1:02:11<38:59,  2.01it/s]                                                      {'loss': 3.5799, 'grad_norm': 0.20002664625644684, 'learning_rate': 0.000478920096087856, 'epoch': 0.56}
- 56%|█████▌    | 6025/10719 [1:02:12<38:59,  2.01it/s] 56%|█████▌    | 6026/10719 [1:02:12<38:58,  2.01it/s] 56%|█████▌    | 6027/10719 [1:02:12<38:57,  2.01it/s] 56%|█████▌    | 6028/10719 [1:02:13<38:57,  2.01it/s] 56%|█████▌    | 6029/10719 [1:02:13<38:57,  2.01it/s] 56%|█████▋    | 6030/10719 [1:02:14<38:58,  2.01it/s] 56%|█████▋    | 6031/10719 [1:02:14<39:00,  2.00it/s] 56%|█████▋    | 6032/10719 [1:02:15<38:54,  2.01it/s] 56%|█████▋    | 6033/10719 [1:02:15<38:53,  2.01it/s] 56%|█████▋    | 6034/10719 [1:02:16<38:52,  2.01it/s] 56%|█████▋    | 6035/10719 [1:02:16<38:53,  2.01it/s] 56%|█████▋    | 6036/10719 [1:02:17<38:53,  2.01it/s] 56%|█████▋    | 6037/10719 [1:02:17<38:56,  2.00it/s] 56%|█████▋    | 6038/10719 [1:02:18<38:57,  2.00it/s] 56%|█████▋    | 6039/10719 [1:02:18<38:56,  2.00it/s] 56%|█████▋    | 6040/10719 [1:02:19<38:51,  2.01it/s] 56%|█████▋    | 6041/10719 [1:02:19<38:52,  2.01it/s] 56%|█████▋    | 6042/10719 [1:02:20<38:48,  2.01it/s] 56%|█████▋    | 6043/10719 [1:02:20<38:46,  2.01it/s] 56%|█████▋    | 6044/10719 [1:02:21<38:48,  2.01it/s] 56%|█████▋    | 6045/10719 [1:02:21<38:45,  2.01it/s] 56%|█████▋    | 6046/10719 [1:02:22<38:46,  2.01it/s] 56%|█████▋    | 6047/10719 [1:02:22<38:45,  2.01it/s] 56%|█████▋    | 6048/10719 [1:02:23<38:43,  2.01it/s] 56%|█████▋    | 6049/10719 [1:02:23<38:43,  2.01it/s] 56%|█████▋    | 6050/10719 [1:02:24<38:38,  2.01it/s]                                                      {'loss': 3.5811, 'grad_norm': 0.20964576303958893, 'learning_rate': 0.0004748537729153844, 'epoch': 0.56}
- 56%|█████▋    | 6050/10719 [1:02:24<38:38,  2.01it/s] 56%|█████▋    | 6051/10719 [1:02:25<40:42,  1.91it/s] 56%|█████▋    | 6052/10719 [1:02:25<40:57,  1.90it/s] 56%|█████▋    | 6053/10719 [1:02:26<40:21,  1.93it/s] 56%|█████▋    | 6054/10719 [1:02:26<39:51,  1.95it/s] 56%|█████▋    | 6055/10719 [1:02:27<39:34,  1.96it/s] 56%|█████▋    | 6056/10719 [1:02:27<39:16,  1.98it/s] 57%|█████▋    | 6057/10719 [1:02:28<39:04,  1.99it/s] 57%|█████▋    | 6058/10719 [1:02:28<38:52,  2.00it/s] 57%|█████▋    | 6059/10719 [1:02:29<38:47,  2.00it/s] 57%|█████▋    | 6060/10719 [1:02:29<38:45,  2.00it/s] 57%|█████▋    | 6061/10719 [1:02:30<38:41,  2.01it/s] 57%|█████▋    | 6062/10719 [1:02:30<38:40,  2.01it/s] 57%|█████▋    | 6063/10719 [1:02:31<38:37,  2.01it/s] 57%|█████▋    | 6064/10719 [1:02:31<38:33,  2.01it/s] 57%|█████▋    | 6065/10719 [1:02:32<38:31,  2.01it/s] 57%|█████▋    | 6066/10719 [1:02:32<38:28,  2.02it/s] 57%|█████▋    | 6067/10719 [1:02:33<45:39,  1.70it/s] 57%|█████▋    | 6068/10719 [1:02:33<43:30,  1.78it/s] 57%|█████▋    | 6069/10719 [1:02:34<41:56,  1.85it/s] 57%|█████▋    | 6070/10719 [1:02:34<40:52,  1.90it/s] 57%|█████▋    | 6071/10719 [1:02:35<40:09,  1.93it/s] 57%|█████▋    | 6072/10719 [1:02:35<39:37,  1.95it/s] 57%|█████▋    | 6073/10719 [1:02:36<39:16,  1.97it/s] 57%|█████▋    | 6074/10719 [1:02:36<38:59,  1.99it/s] 57%|█████▋    | 6075/10719 [1:02:37<38:47,  2.00it/s]                                                      {'loss': 3.5817, 'grad_norm': 0.21160347759723663, 'learning_rate': 0.00047078911647440005, 'epoch': 0.57}
- 57%|█████▋    | 6075/10719 [1:02:37<38:47,  2.00it/s] 57%|█████▋    | 6076/10719 [1:02:37<38:39,  2.00it/s] 57%|█████▋    | 6077/10719 [1:02:38<38:36,  2.00it/s] 57%|█████▋    | 6078/10719 [1:02:38<38:32,  2.01it/s] 57%|█████▋    | 6079/10719 [1:02:39<38:28,  2.01it/s] 57%|█████▋    | 6080/10719 [1:02:39<38:26,  2.01it/s] 57%|█████▋    | 6081/10719 [1:02:40<38:22,  2.01it/s] 57%|█████▋    | 6082/10719 [1:02:40<38:26,  2.01it/s] 57%|█████▋    | 6083/10719 [1:02:41<38:35,  2.00it/s] 57%|█████▋    | 6084/10719 [1:02:41<38:30,  2.01it/s] 57%|█████▋    | 6085/10719 [1:02:42<38:28,  2.01it/s] 57%|█████▋    | 6086/10719 [1:02:42<38:28,  2.01it/s] 57%|█████▋    | 6087/10719 [1:02:43<38:27,  2.01it/s] 57%|█████▋    | 6088/10719 [1:02:43<38:24,  2.01it/s] 57%|█████▋    | 6089/10719 [1:02:44<38:23,  2.01it/s] 57%|█████▋    | 6090/10719 [1:02:44<38:18,  2.01it/s] 57%|█████▋    | 6091/10719 [1:02:45<38:22,  2.01it/s] 57%|█████▋    | 6092/10719 [1:02:46<46:24,  1.66it/s] 57%|█████▋    | 6093/10719 [1:02:46<44:01,  1.75it/s] 57%|█████▋    | 6094/10719 [1:02:47<42:18,  1.82it/s] 57%|█████▋    | 6095/10719 [1:02:47<41:07,  1.87it/s] 57%|█████▋    | 6096/10719 [1:02:48<40:16,  1.91it/s] 57%|█████▋    | 6097/10719 [1:02:48<39:40,  1.94it/s] 57%|█████▋    | 6098/10719 [1:02:49<39:18,  1.96it/s] 57%|█████▋    | 6099/10719 [1:02:49<38:58,  1.98it/s] 57%|█████▋    | 6100/10719 [1:02:50<38:45,  1.99it/s]                                                      {'loss': 3.5732, 'grad_norm': 0.198072612285614, 'learning_rate': 0.00046672639617672586, 'epoch': 0.57}
- 57%|█████▋    | 6100/10719 [1:02:50<38:45,  1.99it/s] 57%|█████▋    | 6101/10719 [1:02:50<38:40,  1.99it/s] 57%|█████▋    | 6102/10719 [1:02:51<38:31,  2.00it/s] 57%|█████▋    | 6103/10719 [1:02:51<38:24,  2.00it/s] 57%|█████▋    | 6104/10719 [1:02:52<38:17,  2.01it/s] 57%|█████▋    | 6105/10719 [1:02:52<38:16,  2.01it/s] 57%|█████▋    | 6106/10719 [1:02:53<38:15,  2.01it/s] 57%|█████▋    | 6107/10719 [1:02:53<38:12,  2.01it/s] 57%|█████▋    | 6108/10719 [1:02:54<38:09,  2.01it/s] 57%|█████▋    | 6109/10719 [1:02:54<38:25,  2.00it/s] 57%|█████▋    | 6110/10719 [1:02:55<38:21,  2.00it/s] 57%|█████▋    | 6111/10719 [1:02:55<40:13,  1.91it/s] 57%|█████▋    | 6112/10719 [1:02:56<39:32,  1.94it/s] 57%|█████▋    | 6113/10719 [1:02:56<39:07,  1.96it/s] 57%|█████▋    | 6114/10719 [1:02:57<38:49,  1.98it/s] 57%|█████▋    | 6115/10719 [1:02:57<38:36,  1.99it/s] 57%|█████▋    | 6116/10719 [1:02:58<38:28,  1.99it/s] 57%|█████▋    | 6117/10719 [1:02:58<38:20,  2.00it/s] 57%|█████▋    | 6118/10719 [1:02:59<38:16,  2.00it/s] 57%|█████▋    | 6119/10719 [1:02:59<38:09,  2.01it/s] 57%|█████▋    | 6120/10719 [1:03:00<38:08,  2.01it/s] 57%|█████▋    | 6121/10719 [1:03:00<38:08,  2.01it/s] 57%|█████▋    | 6122/10719 [1:03:01<38:02,  2.01it/s] 57%|█████▋    | 6123/10719 [1:03:01<38:00,  2.02it/s] 57%|█████▋    | 6124/10719 [1:03:02<37:57,  2.02it/s] 57%|█████▋    | 6125/10719 [1:03:02<37:58,  2.02it/s]                                                      {'loss': 3.5764, 'grad_norm': 0.19780892133712769, 'learning_rate': 0.00046266588130585367, 'epoch': 0.57}
- 57%|█████▋    | 6125/10719 [1:03:02<37:58,  2.02it/s] 57%|█████▋    | 6126/10719 [1:03:03<38:01,  2.01it/s] 57%|█████▋    | 6127/10719 [1:03:03<37:58,  2.02it/s] 57%|█████▋    | 6128/10719 [1:03:04<37:58,  2.01it/s] 57%|█████▋    | 6129/10719 [1:03:04<37:54,  2.02it/s] 57%|█████▋    | 6130/10719 [1:03:05<37:54,  2.02it/s] 57%|█████▋    | 6131/10719 [1:03:05<37:52,  2.02it/s] 57%|█████▋    | 6132/10719 [1:03:06<37:52,  2.02it/s] 57%|█████▋    | 6133/10719 [1:03:06<37:52,  2.02it/s] 57%|█████▋    | 6134/10719 [1:03:07<37:52,  2.02it/s] 57%|█████▋    | 6135/10719 [1:03:07<37:49,  2.02it/s] 57%|█████▋    | 6136/10719 [1:03:08<37:48,  2.02it/s] 57%|█████▋    | 6137/10719 [1:03:08<37:47,  2.02it/s] 57%|█████▋    | 6138/10719 [1:03:09<37:46,  2.02it/s] 57%|█████▋    | 6139/10719 [1:03:09<37:44,  2.02it/s] 57%|█████▋    | 6140/10719 [1:03:10<37:45,  2.02it/s] 57%|█████▋    | 6141/10719 [1:03:10<37:44,  2.02it/s] 57%|█████▋    | 6142/10719 [1:03:11<37:43,  2.02it/s] 57%|█████▋    | 6143/10719 [1:03:11<37:44,  2.02it/s] 57%|█████▋    | 6144/10719 [1:03:12<37:45,  2.02it/s] 57%|█████▋    | 6145/10719 [1:03:12<37:45,  2.02it/s] 57%|█████▋    | 6146/10719 [1:03:12<37:46,  2.02it/s] 57%|█████▋    | 6147/10719 [1:03:13<37:47,  2.02it/s] 57%|█████▋    | 6148/10719 [1:03:13<37:50,  2.01it/s] 57%|█████▋    | 6149/10719 [1:03:14<37:52,  2.01it/s] 57%|█████▋    | 6150/10719 [1:03:14<37:53,  2.01it/s]                                                      {'loss': 3.5822, 'grad_norm': 0.20977039635181427, 'learning_rate': 0.0004586078409990969, 'epoch': 0.57}
- 57%|█████▋    | 6150/10719 [1:03:14<37:53,  2.01it/s] 57%|█████▋    | 6151/10719 [1:03:15<37:55,  2.01it/s] 57%|█████▋    | 6152/10719 [1:03:15<37:54,  2.01it/s] 57%|█████▋    | 6153/10719 [1:03:16<37:51,  2.01it/s] 57%|█████▋    | 6154/10719 [1:03:16<37:54,  2.01it/s] 57%|█████▋    | 6155/10719 [1:03:17<37:52,  2.01it/s] 57%|█████▋    | 6156/10719 [1:03:17<37:50,  2.01it/s] 57%|█████▋    | 6157/10719 [1:03:18<37:52,  2.01it/s] 57%|█████▋    | 6158/10719 [1:03:18<37:52,  2.01it/s] 57%|█████▋    | 6159/10719 [1:03:19<37:49,  2.01it/s] 57%|█████▋    | 6160/10719 [1:03:19<37:49,  2.01it/s] 57%|█████▋    | 6161/10719 [1:03:20<37:49,  2.01it/s] 57%|█████▋    | 6162/10719 [1:03:20<37:45,  2.01it/s] 57%|█████▋    | 6163/10719 [1:03:21<37:45,  2.01it/s] 58%|█████▊    | 6164/10719 [1:03:21<37:45,  2.01it/s] 58%|█████▊    | 6165/10719 [1:03:22<37:42,  2.01it/s] 58%|█████▊    | 6166/10719 [1:03:22<37:43,  2.01it/s] 58%|█████▊    | 6167/10719 [1:03:23<37:40,  2.01it/s] 58%|█████▊    | 6168/10719 [1:03:23<37:41,  2.01it/s] 58%|█████▊    | 6169/10719 [1:03:24<37:57,  2.00it/s] 58%|█████▊    | 6170/10719 [1:03:24<38:21,  1.98it/s] 58%|█████▊    | 6171/10719 [1:03:25<38:07,  1.99it/s] 58%|█████▊    | 6172/10719 [1:03:25<37:58,  2.00it/s] 58%|█████▊    | 6173/10719 [1:03:26<37:48,  2.00it/s] 58%|█████▊    | 6174/10719 [1:03:26<37:43,  2.01it/s] 58%|█████▊    | 6175/10719 [1:03:27<37:37,  2.01it/s]                                                      {'loss': 3.5751, 'grad_norm': 0.20639324188232422, 'learning_rate': 0.0004545525442297501, 'epoch': 0.58}
- 58%|█████▊    | 6175/10719 [1:03:27<37:37,  2.01it/s] 58%|█████▊    | 6176/10719 [1:03:27<37:38,  2.01it/s] 58%|█████▊    | 6177/10719 [1:03:28<37:37,  2.01it/s] 58%|█████▊    | 6178/10719 [1:03:28<37:35,  2.01it/s] 58%|█████▊    | 6179/10719 [1:03:29<37:35,  2.01it/s] 58%|█████▊    | 6180/10719 [1:03:29<37:34,  2.01it/s] 58%|█████▊    | 6181/10719 [1:03:30<37:34,  2.01it/s] 58%|█████▊    | 6182/10719 [1:03:30<37:35,  2.01it/s] 58%|█████▊    | 6183/10719 [1:03:31<37:38,  2.01it/s] 58%|█████▊    | 6184/10719 [1:03:31<37:39,  2.01it/s] 58%|█████▊    | 6185/10719 [1:03:32<37:44,  2.00it/s] 58%|█████▊    | 6186/10719 [1:03:32<37:40,  2.01it/s] 58%|█████▊    | 6187/10719 [1:03:33<37:45,  2.00it/s] 58%|█████▊    | 6188/10719 [1:03:33<38:48,  1.95it/s] 58%|█████▊    | 6189/10719 [1:03:34<38:30,  1.96it/s] 58%|█████▊    | 6190/10719 [1:03:34<38:12,  1.98it/s] 58%|█████▊    | 6191/10719 [1:03:35<37:59,  1.99it/s] 58%|█████▊    | 6192/10719 [1:03:35<37:54,  1.99it/s] 58%|█████▊    | 6193/10719 [1:03:36<37:45,  2.00it/s] 58%|█████▊    | 6194/10719 [1:03:36<37:45,  2.00it/s] 58%|█████▊    | 6195/10719 [1:03:37<37:42,  2.00it/s] 58%|█████▊    | 6196/10719 [1:03:37<37:41,  2.00it/s] 58%|█████▊    | 6197/10719 [1:03:38<37:36,  2.00it/s] 58%|█████▊    | 6198/10719 [1:03:38<37:33,  2.01it/s] 58%|█████▊    | 6199/10719 [1:03:39<37:34,  2.00it/s] 58%|█████▊    | 6200/10719 [1:03:39<37:33,  2.01it/s]                                                      {'loss': 3.572, 'grad_norm': 0.2083420306444168, 'learning_rate': 0.0004505002597892627, 'epoch': 0.58}
- 58%|█████▊    | 6200/10719 [1:03:39<37:33,  2.01it/s] 58%|█████▊    | 6201/10719 [1:03:40<37:31,  2.01it/s] 58%|█████▊    | 6202/10719 [1:03:40<37:33,  2.00it/s] 58%|█████▊    | 6203/10719 [1:03:41<37:32,  2.01it/s] 58%|█████▊    | 6204/10719 [1:03:41<37:29,  2.01it/s] 58%|█████▊    | 6205/10719 [1:03:42<37:26,  2.01it/s] 58%|█████▊    | 6206/10719 [1:03:42<37:24,  2.01it/s] 58%|█████▊    | 6207/10719 [1:03:43<37:21,  2.01it/s] 58%|█████▊    | 6208/10719 [1:03:43<37:26,  2.01it/s] 58%|█████▊    | 6209/10719 [1:03:44<37:27,  2.01it/s] 58%|█████▊    | 6210/10719 [1:03:44<37:28,  2.01it/s] 58%|█████▊    | 6211/10719 [1:03:45<37:25,  2.01it/s] 58%|█████▊    | 6212/10719 [1:03:45<37:27,  2.00it/s] 58%|█████▊    | 6213/10719 [1:03:46<37:26,  2.01it/s] 58%|█████▊    | 6214/10719 [1:03:46<37:22,  2.01it/s] 58%|█████▊    | 6215/10719 [1:03:47<37:47,  1.99it/s] 58%|█████▊    | 6216/10719 [1:03:47<37:43,  1.99it/s] 58%|█████▊    | 6217/10719 [1:03:48<37:38,  1.99it/s] 58%|█████▊    | 6218/10719 [1:03:48<37:34,  2.00it/s] 58%|█████▊    | 6219/10719 [1:03:49<37:32,  2.00it/s] 58%|█████▊    | 6220/10719 [1:03:49<37:27,  2.00it/s] 58%|█████▊    | 6221/10719 [1:03:50<37:19,  2.01it/s] 58%|█████▊    | 6222/10719 [1:03:50<37:22,  2.01it/s] 58%|█████▊    | 6223/10719 [1:03:51<37:21,  2.01it/s] 58%|█████▊    | 6224/10719 [1:03:51<37:16,  2.01it/s] 58%|█████▊    | 6225/10719 [1:03:52<37:18,  2.01it/s]                                                      {'loss': 3.5714, 'grad_norm': 0.19496510922908783, 'learning_rate': 0.0004464512562694214, 'epoch': 0.58}
- 58%|█████▊    | 6225/10719 [1:03:52<37:18,  2.01it/s] 58%|█████▊    | 6226/10719 [1:03:52<37:18,  2.01it/s] 58%|█████▊    | 6227/10719 [1:03:53<37:24,  2.00it/s] 58%|█████▊    | 6228/10719 [1:03:53<37:21,  2.00it/s] 58%|█████▊    | 6229/10719 [1:03:54<37:22,  2.00it/s] 58%|█████▊    | 6230/10719 [1:03:55<39:20,  1.90it/s] 58%|█████▊    | 6231/10719 [1:03:55<41:00,  1.82it/s] 58%|█████▊    | 6232/10719 [1:03:56<39:52,  1.88it/s] 58%|█████▊    | 6233/10719 [1:03:56<39:06,  1.91it/s] 58%|█████▊    | 6234/10719 [1:03:57<38:34,  1.94it/s] 58%|█████▊    | 6235/10719 [1:03:57<38:14,  1.95it/s] 58%|█████▊    | 6236/10719 [1:03:58<37:59,  1.97it/s] 58%|█████▊    | 6237/10719 [1:03:58<37:46,  1.98it/s] 58%|█████▊    | 6238/10719 [1:03:59<37:35,  1.99it/s] 58%|█████▊    | 6239/10719 [1:03:59<37:31,  1.99it/s] 58%|█████▊    | 6240/10719 [1:04:00<37:25,  1.99it/s] 58%|█████▊    | 6241/10719 [1:04:00<37:21,  2.00it/s] 58%|█████▊    | 6242/10719 [1:04:01<37:21,  2.00it/s] 58%|█████▊    | 6243/10719 [1:04:01<37:19,  2.00it/s] 58%|█████▊    | 6244/10719 [1:04:02<37:14,  2.00it/s] 58%|█████▊    | 6245/10719 [1:04:02<37:09,  2.01it/s] 58%|█████▊    | 6246/10719 [1:04:03<37:11,  2.00it/s] 58%|█████▊    | 6247/10719 [1:04:03<37:07,  2.01it/s] 58%|█████▊    | 6248/10719 [1:04:04<37:04,  2.01it/s] 58%|█████▊    | 6249/10719 [1:04:04<37:02,  2.01it/s] 58%|█████▊    | 6250/10719 [1:04:05<37:02,  2.01it/s]                                                      {'loss': 3.5699, 'grad_norm': 0.21148529648780823, 'learning_rate': 0.00044240580204454925, 'epoch': 0.58}
- 58%|█████▊    | 6250/10719 [1:04:05<37:02,  2.01it/s] 58%|█████▊    | 6251/10719 [1:04:05<37:01,  2.01it/s] 58%|█████▊    | 6252/10719 [1:04:06<37:01,  2.01it/s] 58%|█████▊    | 6253/10719 [1:04:06<36:58,  2.01it/s] 58%|█████▊    | 6254/10719 [1:04:07<36:57,  2.01it/s] 58%|█████▊    | 6255/10719 [1:04:07<36:53,  2.02it/s] 58%|█████▊    | 6256/10719 [1:04:08<36:53,  2.02it/s] 58%|█████▊    | 6257/10719 [1:04:08<36:50,  2.02it/s] 58%|█████▊    | 6258/10719 [1:04:09<36:51,  2.02it/s] 58%|█████▊    | 6259/10719 [1:04:09<36:50,  2.02it/s] 58%|█████▊    | 6260/10719 [1:04:10<36:51,  2.02it/s] 58%|█████▊    | 6261/10719 [1:04:10<36:48,  2.02it/s] 58%|█████▊    | 6262/10719 [1:04:11<36:50,  2.02it/s] 58%|█████▊    | 6263/10719 [1:04:11<36:51,  2.01it/s] 58%|█████▊    | 6264/10719 [1:04:12<36:50,  2.02it/s] 58%|█████▊    | 6265/10719 [1:04:12<36:49,  2.02it/s] 58%|█████▊    | 6266/10719 [1:04:13<36:47,  2.02it/s] 58%|█████▊    | 6267/10719 [1:04:13<36:47,  2.02it/s] 58%|█████▊    | 6268/10719 [1:04:14<36:44,  2.02it/s] 58%|█████▊    | 6269/10719 [1:04:14<36:45,  2.02it/s] 58%|█████▊    | 6270/10719 [1:04:15<36:45,  2.02it/s] 59%|█████▊    | 6271/10719 [1:04:15<36:44,  2.02it/s] 59%|████���▊    | 6272/10719 [1:04:15<36:44,  2.02it/s] 59%|█████▊    | 6273/10719 [1:04:16<36:41,  2.02it/s] 59%|█████▊    | 6274/10719 [1:04:16<36:56,  2.01it/s] 59%|█████▊    | 6275/10719 [1:04:17<36:56,  2.00it/s]                                                      {'loss': 3.5735, 'grad_norm': 0.2081180363893509, 'learning_rate': 0.00043836416525371545, 'epoch': 0.59}
- 59%|█████▊    | 6275/10719 [1:04:17<36:56,  2.00it/s] 59%|█████▊    | 6276/10719 [1:04:18<37:01,  2.00it/s] 59%|█████▊    | 6277/10719 [1:04:18<36:58,  2.00it/s] 59%|█████▊    | 6278/10719 [1:04:18<36:56,  2.00it/s] 59%|█████▊    | 6279/10719 [1:04:19<36:52,  2.01it/s] 59%|█████▊    | 6280/10719 [1:04:19<36:54,  2.00it/s] 59%|█████▊    | 6281/10719 [1:04:20<36:53,  2.01it/s] 59%|█████▊    | 6282/10719 [1:04:20<36:53,  2.00it/s] 59%|█████▊    | 6283/10719 [1:04:21<36:51,  2.01it/s] 59%|█████▊    | 6284/10719 [1:04:21<36:52,  2.00it/s] 59%|█████▊    | 6285/10719 [1:04:22<36:50,  2.01it/s] 59%|█████▊    | 6286/10719 [1:04:22<36:51,  2.00it/s] 59%|█████▊    | 6287/10719 [1:04:23<36:49,  2.01it/s] 59%|█████▊    | 6288/10719 [1:04:23<36:47,  2.01it/s] 59%|█████▊    | 6289/10719 [1:04:24<37:03,  1.99it/s] 59%|█████▊    | 6290/10719 [1:04:25<38:06,  1.94it/s] 59%|█████▊    | 6291/10719 [1:04:25<38:10,  1.93it/s] 59%|█████▊    | 6292/10719 [1:04:26<37:44,  1.96it/s] 59%|█████▊    | 6293/10719 [1:04:26<37:23,  1.97it/s] 59%|█████▊    | 6294/10719 [1:04:27<37:10,  1.98it/s] 59%|█████▊    | 6295/10719 [1:04:27<37:01,  1.99it/s] 59%|█████▊    | 6296/10719 [1:04:28<36:54,  2.00it/s] 59%|█████▊    | 6297/10719 [1:04:28<36:52,  2.00it/s] 59%|█████▉    | 6298/10719 [1:04:29<36:46,  2.00it/s] 59%|█████▉    | 6299/10719 [1:04:29<36:41,  2.01it/s] 59%|█████▉    | 6300/10719 [1:04:30<36:39,  2.01it/s]                                                      {'loss': 3.5644, 'grad_norm': 0.19963505864143372, 'learning_rate': 0.00043432661378296446, 'epoch': 0.59}
- 59%|█████▉    | 6300/10719 [1:04:30<36:39,  2.01it/s] 59%|█████▉    | 6301/10719 [1:04:30<36:41,  2.01it/s] 59%|█████▉    | 6302/10719 [1:04:31<36:37,  2.01it/s] 59%|█████▉    | 6303/10719 [1:04:31<36:36,  2.01it/s] 59%|█████▉    | 6304/10719 [1:04:32<36:34,  2.01it/s] 59%|█████▉    | 6305/10719 [1:04:32<36:31,  2.01it/s] 59%|█████▉    | 6306/10719 [1:04:33<36:33,  2.01it/s] 59%|█████▉    | 6307/10719 [1:04:33<36:29,  2.02it/s] 59%|█████▉    | 6308/10719 [1:04:34<36:31,  2.01it/s] 59%|█████▉    | 6309/10719 [1:04:34<36:27,  2.02it/s] 59%|█████▉    | 6310/10719 [1:04:35<36:30,  2.01it/s] 59%|█████▉    | 6311/10719 [1:04:35<36:27,  2.01it/s] 59%|█████▉    | 6312/10719 [1:04:35<36:25,  2.02it/s] 59%|█████▉    | 6313/10719 [1:04:36<36:24,  2.02it/s] 59%|█████▉    | 6314/10719 [1:04:36<36:35,  2.01it/s] 59%|█████▉    | 6315/10719 [1:04:37<36:34,  2.01it/s] 59%|█████▉    | 6316/10719 [1:04:37<36:32,  2.01it/s] 59%|█████▉    | 6317/10719 [1:04:38<36:33,  2.01it/s] 59%|█████▉    | 6318/10719 [1:04:38<36:32,  2.01it/s] 59%|█████▉    | 6319/10719 [1:04:39<36:33,  2.01it/s] 59%|█████▉    | 6320/10719 [1:04:39<36:34,  2.00it/s] 59%|█████▉    | 6321/10719 [1:04:40<36:34,  2.00it/s] 59%|█████▉    | 6322/10719 [1:04:40<36:32,  2.01it/s] 59%|█████▉    | 6323/10719 [1:04:41<36:30,  2.01it/s] 59%|█████▉    | 6324/10719 [1:04:41<36:35,  2.00it/s] 59%|█████▉    | 6325/10719 [1:04:42<36:32,  2.00it/s]                                                      {'loss': 3.5642, 'grad_norm': 0.19993524253368378, 'learning_rate': 0.00043029341524755904, 'epoch': 0.59}
- 59%|█████▉    | 6325/10719 [1:04:42<36:32,  2.00it/s] 59%|█████▉    | 6326/10719 [1:04:42<36:33,  2.00it/s] 59%|█████▉    | 6327/10719 [1:04:43<36:31,  2.00it/s] 59%|█████▉    | 6328/10719 [1:04:43<36:30,  2.00it/s] 59%|█████▉    | 6329/10719 [1:04:44<36:26,  2.01it/s] 59%|█████▉    | 6330/10719 [1:04:44<36:24,  2.01it/s] 59%|█████▉    | 6331/10719 [1:04:45<36:23,  2.01it/s] 59%|█████▉    | 6332/10719 [1:04:45<36:21,  2.01it/s] 59%|█████▉    | 6333/10719 [1:04:46<36:23,  2.01it/s] 59%|█████▉    | 6334/10719 [1:04:46<36:22,  2.01it/s] 59%|█████▉    | 6335/10719 [1:04:47<36:18,  2.01it/s] 59%|█████▉    | 6336/10719 [1:04:47<36:16,  2.01it/s] 59%|█████▉    | 6337/10719 [1:04:48<36:16,  2.01it/s] 59%|█████▉    | 6338/10719 [1:04:48<36:20,  2.01it/s] 59%|█████▉    | 6339/10719 [1:04:49<36:21,  2.01it/s] 59%|█████▉    | 6340/10719 [1:04:49<36:24,  2.00it/s] 59%|█████▉    | 6341/10719 [1:04:50<36:23,  2.01it/s] 59%|█████▉    | 6342/10719 [1:04:50<36:21,  2.01it/s] 59%|█████▉    | 6343/10719 [1:04:51<36:20,  2.01it/s] 59%|█████▉    | 6344/10719 [1:04:51<36:18,  2.01it/s] 59%|█████▉    | 6345/10719 [1:04:52<36:18,  2.01it/s] 59%|█████▉    | 6346/10719 [1:04:52<36:20,  2.01it/s] 59%|█████▉    | 6347/10719 [1:04:53<36:22,  2.00it/s] 59%|█████▉    | 6348/10719 [1:04:53<36:20,  2.00it/s] 59%|█████▉    | 6349/10719 [1:04:54<36:38,  1.99it/s] 59%|█████▉    | 6350/10719 [1:04:55<38:13,  1.91it/s]                                                      {'loss': 3.5648, 'grad_norm': 0.2023121863603592, 'learning_rate': 0.00042626483697424223, 'epoch': 0.59}
- 59%|█████▉    | 6350/10719 [1:04:55<38:13,  1.91it/s] 59%|█████▉    | 6351/10719 [1:04:55<37:40,  1.93it/s] 59%|█████▉    | 6352/10719 [1:04:56<37:16,  1.95it/s] 59%|█████▉    | 6353/10719 [1:04:56<36:56,  1.97it/s] 59%|█████▉    | 6354/10719 [1:04:57<36:43,  1.98it/s] 59%|█████▉    | 6355/10719 [1:04:57<36:32,  1.99it/s] 59%|█████▉    | 6356/10719 [1:04:58<36:30,  1.99it/s] 59%|█████▉    | 6357/10719 [1:04:58<36:24,  2.00it/s] 59%|█████▉    | 6358/10719 [1:04:59<36:22,  2.00it/s] 59%|█████▉    | 6359/10719 [1:04:59<36:22,  2.00it/s] 59%|█████▉    | 6360/10719 [1:05:00<36:24,  1.99it/s] 59%|█████▉    | 6361/10719 [1:05:00<36:18,  2.00it/s] 59%|█████▉    | 6362/10719 [1:05:01<36:17,  2.00it/s] 59%|█████▉    | 6363/10719 [1:05:01<36:15,  2.00it/s] 59%|█████▉    | 6364/10719 [1:05:02<36:18,  2.00it/s] 59%|█████▉    | 6365/10719 [1:05:02<36:13,  2.00it/s] 59%|█████▉    | 6366/10719 [1:05:03<36:13,  2.00it/s] 59%|█████▉    | 6367/10719 [1:05:03<36:11,  2.00it/s] 59%|█████▉    | 6368/10719 [1:05:04<36:10,  2.01it/s] 59%|█████▉    | 6369/10719 [1:05:04<36:08,  2.01it/s] 59%|█████▉    | 6370/10719 [1:05:05<36:20,  1.99it/s] 59%|█████▉    | 6371/10719 [1:05:05<36:21,  1.99it/s] 59%|█████▉    | 6372/10719 [1:05:06<36:17,  2.00it/s] 59%|█████▉    | 6373/10719 [1:05:06<36:15,  2.00it/s] 59%|█████▉    | 6374/10719 [1:05:07<36:18,  1.99it/s] 59%|█████▉    | 6375/10719 [1:05:07<36:14,  2.00it/s]                                                      {'loss': 3.5605, 'grad_norm': 0.20326411724090576, 'learning_rate': 0.00042224114598351956, 'epoch': 0.59}
- 59%|█████▉    | 6375/10719 [1:05:07<36:14,  2.00it/s] 59%|█████▉    | 6376/10719 [1:05:08<36:14,  2.00it/s] 59%|█████▉    | 6377/10719 [1:05:08<36:14,  2.00it/s] 60%|█████▉    | 6378/10719 [1:05:09<36:09,  2.00it/s] 60%|█████▉    | 6379/10719 [1:05:09<36:11,  2.00it/s] 60%|█████▉    | 6380/10719 [1:05:10<36:09,  2.00it/s] 60%|█████▉    | 6381/10719 [1:05:10<36:05,  2.00it/s] 60%|█████▉    | 6382/10719 [1:05:11<36:04,  2.00it/s] 60%|█████▉    | 6383/10719 [1:05:11<36:04,  2.00it/s] 60%|█████▉    | 6384/10719 [1:05:12<36:01,  2.01it/s] 60%|█████▉    | 6385/10719 [1:05:12<36:00,  2.01it/s] 60%|█████▉    | 6386/10719 [1:05:13<36:11,  2.00it/s] 60%|█████▉    | 6387/10719 [1:05:13<36:09,  2.00it/s] 60%|█████▉    | 6388/10719 [1:05:14<36:05,  2.00it/s] 60%|█████▉    | 6389/10719 [1:05:14<36:03,  2.00it/s] 60%|█████▉    | 6390/10719 [1:05:15<36:01,  2.00it/s] 60%|█████▉    | 6391/10719 [1:05:15<35:56,  2.01it/s] 60%|█████▉    | 6392/10719 [1:05:16<35:55,  2.01it/s] 60%|█████▉    | 6393/10719 [1:05:16<35:56,  2.01it/s] 60%|█████▉    | 6394/10719 [1:05:17<36:06,  2.00it/s] 60%|█████▉    | 6395/10719 [1:05:17<36:06,  2.00it/s] 60%|█████▉    | 6396/10719 [1:05:18<36:03,  2.00it/s] 60%|█████▉    | 6397/10719 [1:05:18<35:57,  2.00it/s] 60%|█████▉    | 6398/10719 [1:05:19<35:56,  2.00it/s] 60%|█████▉    | 6399/10719 [1:05:19<35:52,  2.01it/s] 60%|█████▉    | 6400/10719 [1:05:20<35:50,  2.01it/s]                                                      {'loss': 3.5686, 'grad_norm': 0.22028741240501404, 'learning_rate': 0.00041822260897195874, 'epoch': 0.6}
- 60%|█████▉    | 6400/10719 [1:05:20<35:50,  2.01it/s] 60%|█████▉    | 6401/10719 [1:05:20<35:58,  2.00it/s] 60%|█████▉    | 6402/10719 [1:05:21<35:54,  2.00it/s] 60%|█████▉    | 6403/10719 [1:05:21<35:54,  2.00it/s] 60%|█████▉    | 6404/10719 [1:05:22<35:54,  2.00it/s] 60%|█████▉    | 6405/10719 [1:05:22<35:56,  2.00it/s] 60%|█████▉    | 6406/10719 [1:05:23<35:54,  2.00it/s] 60%|█████▉    | 6407/10719 [1:05:23<35:51,  2.00it/s] 60%|█████▉    | 6408/10719 [1:05:23<35:50,  2.00it/s] 60%|█████▉    | 6409/10719 [1:05:24<35:46,  2.01it/s] 60%|█████▉    | 6410/10719 [1:05:25<35:57,  2.00it/s] 60%|█████▉    | 6411/10719 [1:05:25<35:58,  2.00it/s] 60%|█████▉    | 6412/10719 [1:05:26<35:58,  2.00it/s] 60%|█████▉    | 6413/10719 [1:05:26<35:54,  2.00it/s] 60%|█████▉    | 6414/10719 [1:05:27<35:52,  2.00it/s] 60%|█████▉    | 6415/10719 [1:05:27<35:50,  2.00it/s] 60%|█████▉    | 6416/10719 [1:05:27<35:47,  2.00it/s] 60%|█████▉    | 6417/10719 [1:05:28<35:44,  2.01it/s] 60%|█████▉    | 6418/10719 [1:05:28<35:41,  2.01it/s] 60%|█████▉    | 6419/10719 [1:05:29<35:41,  2.01it/s] 60%|█████▉    | 6420/10719 [1:05:29<35:41,  2.01it/s] 60%|█████▉    | 6421/10719 [1:05:30<35:38,  2.01it/s] 60%|█████▉    | 6422/10719 [1:05:30<35:35,  2.01it/s] 60%|█████▉    | 6423/10719 [1:05:31<35:35,  2.01it/s] 60%|█████▉    | 6424/10719 [1:05:31<35:35,  2.01it/s] 60%|█████▉    | 6425/10719 [1:05:32<35:31,  2.01it/s]                                                      {'loss': 3.5612, 'grad_norm': 0.19854451715946198, 'learning_rate': 0.00041420949229451474, 'epoch': 0.6}
- 60%|█████▉    | 6425/10719 [1:05:32<35:31,  2.01it/s] 60%|█████▉    | 6426/10719 [1:05:32<35:35,  2.01it/s] 60%|█████▉    | 6427/10719 [1:05:33<35:34,  2.01it/s] 60%|█████▉    | 6428/10719 [1:05:33<35:31,  2.01it/s] 60%|█████▉    | 6429/10719 [1:05:34<35:31,  2.01it/s] 60%|█████▉    | 6430/10719 [1:05:34<35:29,  2.01it/s] 60%|█████▉    | 6431/10719 [1:05:35<35:31,  2.01it/s] 60%|██████    | 6432/10719 [1:05:35<35:31,  2.01it/s] 60%|██████    | 6433/10719 [1:05:36<35:27,  2.01it/s] 60%|██████    | 6434/10719 [1:05:36<35:29,  2.01it/s] 60%|██████    | 6435/10719 [1:05:37<35:24,  2.02it/s] 60%|██████    | 6436/10719 [1:05:37<35:25,  2.01it/s] 60%|██████    | 6437/10719 [1:05:38<35:24,  2.02it/s] 60%|██████    | 6438/10719 [1:05:38<35:24,  2.01it/s] 60%|██████    | 6439/10719 [1:05:39<35:42,  2.00it/s] 60%|██████    | 6440/10719 [1:05:39<35:39,  2.00it/s] 60%|██████    | 6441/10719 [1:05:40<35:35,  2.00it/s] 60%|██████    | 6442/10719 [1:05:40<35:35,  2.00it/s] 60%|██████    | 6443/10719 [1:05:41<35:36,  2.00it/s] 60%|██████    | 6444/10719 [1:05:41<35:36,  2.00it/s] 60%|██████    | 6445/10719 [1:05:42<35:34,  2.00it/s] 60%|██████    | 6446/10719 [1:05:42<35:33,  2.00it/s] 60%|██████    | 6447/10719 [1:05:43<35:45,  1.99it/s] 60%|██████    | 6448/10719 [1:05:43<35:40,  1.99it/s] 60%|██████    | 6449/10719 [1:05:44<35:56,  1.98it/s] 60%|██████    | 6450/10719 [1:05:44<35:47,  1.99it/s]                                                      {'loss': 3.5603, 'grad_norm': 0.21180011332035065, 'learning_rate': 0.0004102020619468734, 'epoch': 0.6}
- 60%|██████    | 6450/10719 [1:05:44<35:47,  1.99it/s] 60%|██████    | 6451/10719 [1:05:45<35:46,  1.99it/s] 60%|██████    | 6452/10719 [1:05:45<35:40,  1.99it/s] 60%|██████    | 6453/10719 [1:05:46<35:32,  2.00it/s] 60%|██████    | 6454/10719 [1:05:46<35:31,  2.00it/s] 60%|██████    | 6455/10719 [1:05:47<35:24,  2.01it/s] 60%|██████    | 6456/10719 [1:05:47<35:27,  2.00it/s] 60%|██████    | 6457/10719 [1:05:48<35:23,  2.01it/s] 60%|██████    | 6458/10719 [1:05:48<35:19,  2.01it/s] 60%|██████    | 6459/10719 [1:05:49<35:19,  2.01it/s] 60%|██████    | 6460/10719 [1:05:49<35:15,  2.01it/s] 60%|██████    | 6461/10719 [1:05:50<35:17,  2.01it/s] 60%|██████    | 6462/10719 [1:05:50<35:19,  2.01it/s] 60%|██████    | 6463/10719 [1:05:51<37:05,  1.91it/s] 60%|██████    | 6464/10719 [1:05:52<36:32,  1.94it/s] 60%|██████    | 6465/10719 [1:05:52<36:11,  1.96it/s] 60%|██████    | 6466/10719 [1:05:53<35:55,  1.97it/s] 60%|██████    | 6467/10719 [1:05:53<35:45,  1.98it/s] 60%|██████    | 6468/10719 [1:05:53<35:36,  1.99it/s] 60%|██████    | 6469/10719 [1:05:54<35:29,  2.00it/s] 60%|██████    | 6470/10719 [1:05:55<39:07,  1.81it/s] 60%|██████    | 6471/10719 [1:05:55<39:48,  1.78it/s] 60%|██████    | 6472/10719 [1:05:56<38:29,  1.84it/s] 60%|██████    | 6473/10719 [1:05:56<37:35,  1.88it/s] 60%|██████    | 6474/10719 [1:05:57<36:57,  1.91it/s] 60%|██████    | 6475/10719 [1:05:57<36:27,  1.94it/s]                                                      {'loss': 3.5674, 'grad_norm': 0.22037716209888458, 'learning_rate': 0.0004062005835478223, 'epoch': 0.6}
- 60%|██████    | 6475/10719 [1:05:57<36:27,  1.94it/s] 60%|██████    | 6476/10719 [1:05:58<36:10,  1.95it/s] 60%|██████    | 6477/10719 [1:05:58<35:52,  1.97it/s] 60%|██████    | 6478/10719 [1:05:59<35:39,  1.98it/s] 60%|██████    | 6479/10719 [1:05:59<35:32,  1.99it/s] 60%|██████    | 6480/10719 [1:06:00<35:24,  2.00it/s] 60%|██████    | 6481/10719 [1:06:00<35:18,  2.00it/s] 60%|██████    | 6482/10719 [1:06:01<35:19,  2.00it/s] 60%|██████    | 6483/10719 [1:06:01<35:16,  2.00it/s] 60%|██████    | 6484/10719 [1:06:02<35:15,  2.00it/s] 61%|██████    | 6485/10719 [1:06:02<35:15,  2.00it/s] 61%|██████    | 6486/10719 [1:06:03<35:11,  2.00it/s] 61%|██████    | 6487/10719 [1:06:03<35:09,  2.01it/s] 61%|██████    | 6488/10719 [1:06:04<35:11,  2.00it/s] 61%|██████    | 6489/10719 [1:06:04<35:11,  2.00it/s] 61%|██████    | 6490/10719 [1:06:05<35:10,  2.00it/s] 61%|██████    | 6491/10719 [1:06:05<35:11,  2.00it/s] 61%|██████    | 6492/10719 [1:06:06<35:11,  2.00it/s] 61%|██████    | 6493/10719 [1:06:06<35:07,  2.00it/s] 61%|██████    | 6494/10719 [1:06:07<35:08,  2.00it/s] 61%|██████    | 6495/10719 [1:06:07<35:06,  2.01it/s] 61%|██████    | 6496/10719 [1:06:08<35:03,  2.01it/s] 61%|██████    | 6497/10719 [1:06:08<35:02,  2.01it/s] 61%|██████    | 6498/10719 [1:06:09<35:00,  2.01it/s] 61%|██████    | 6499/10719 [1:06:09<34:59,  2.01it/s] 61%|██████    | 6500/10719 [1:06:10<35:01,  2.01it/s]                                                      {'loss': 3.5619, 'grad_norm': 0.1984420269727707, 'learning_rate': 0.0004022053223216439, 'epoch': 0.61}
- 61%|██████    | 6500/10719 [1:06:10<35:01,  2.01it/s] 61%|██████    | 6501/10719 [1:06:10<35:02,  2.01it/s] 61%|██████    | 6502/10719 [1:06:11<35:01,  2.01it/s] 61%|██████    | 6503/10719 [1:06:11<34:59,  2.01it/s] 61%|██████    | 6504/10719 [1:06:12<34:59,  2.01it/s] 61%|██████    | 6505/10719 [1:06:12<34:56,  2.01it/s] 61%|██████    | 6506/10719 [1:06:13<34:55,  2.01it/s] 61%|██████    | 6507/10719 [1:06:13<34:54,  2.01it/s] 61%|██████    | 6508/10719 [1:06:14<34:50,  2.01it/s] 61%|██████    | 6509/10719 [1:06:14<34:54,  2.01it/s] 61%|██████    | 6510/10719 [1:06:15<34:54,  2.01it/s] 61%|██████    | 6511/10719 [1:06:15<34:50,  2.01it/s] 61%|██████    | 6512/10719 [1:06:16<35:02,  2.00it/s] 61%|██████    | 6513/10719 [1:06:16<35:07,  2.00it/s] 61%|██████    | 6514/10719 [1:06:17<35:20,  1.98it/s] 61%|██████    | 6515/10719 [1:06:17<36:43,  1.91it/s] 61%|██████    | 6516/10719 [1:06:18<36:09,  1.94it/s] 61%|██████    | 6517/10719 [1:06:18<35:45,  1.96it/s] 61%|██████    | 6518/10719 [1:06:19<35:31,  1.97it/s] 61%|██████    | 6519/10719 [1:06:19<35:21,  1.98it/s] 61%|██████    | 6520/10719 [1:06:20<35:14,  1.99it/s] 61%|██████    | 6521/10719 [1:06:20<35:06,  1.99it/s] 61%|██████    | 6522/10719 [1:06:21<35:04,  1.99it/s] 61%|██████    | 6523/10719 [1:06:21<35:00,  2.00it/s] 61%|██████    | 6524/10719 [1:06:22<34:56,  2.00it/s] 61%|██████    | 6525/10719 [1:06:22<34:56,  2.00it/s]                                                      {'loss': 3.5557, 'grad_norm': 0.21030746400356293, 'learning_rate': 0.0003982165430805371, 'epoch': 0.61}
- 61%|██████    | 6525/10719 [1:06:22<34:56,  2.00it/s] 61%|██████    | 6526/10719 [1:06:23<34:55,  2.00it/s] 61%|██████    | 6527/10719 [1:06:23<34:52,  2.00it/s] 61%|██████    | 6528/10719 [1:06:24<34:50,  2.01it/s] 61%|██████    | 6529/10719 [1:06:24<35:58,  1.94it/s] 61%|██████    | 6530/10719 [1:06:25<37:18,  1.87it/s] 61%|██████    | 6531/10719 [1:06:25<38:13,  1.83it/s] 61%|██████    | 6532/10719 [1:06:26<37:12,  1.88it/s] 61%|██████    | 6533/10719 [1:06:26<36:25,  1.92it/s] 61%|██████    | 6534/10719 [1:06:27<35:56,  1.94it/s] 61%|██████    | 6535/10719 [1:06:27<35:31,  1.96it/s] 61%|██████    | 6536/10719 [1:06:28<35:16,  1.98it/s] 61%|██████    | 6537/10719 [1:06:28<35:03,  1.99it/s] 61%|██████    | 6538/10719 [1:06:29<34:55,  1.99it/s] 61%|██████    | 6539/10719 [1:06:29<34:50,  2.00it/s] 61%|██���███    | 6540/10719 [1:06:30<34:45,  2.00it/s] 61%|██████    | 6541/10719 [1:06:30<34:41,  2.01it/s] 61%|██████    | 6542/10719 [1:06:31<34:36,  2.01it/s] 61%|██████    | 6543/10719 [1:06:31<34:35,  2.01it/s] 61%|██████    | 6544/10719 [1:06:32<34:31,  2.02it/s] 61%|██████    | 6545/10719 [1:06:32<34:31,  2.01it/s] 61%|██████    | 6546/10719 [1:06:33<34:31,  2.01it/s] 61%|██████    | 6547/10719 [1:06:33<34:38,  2.01it/s] 61%|██████    | 6548/10719 [1:06:34<34:35,  2.01it/s] 61%|██████    | 6549/10719 [1:06:34<34:38,  2.01it/s] 61%|██████    | 6550/10719 [1:06:35<34:37,  2.01it/s]                                                      {'loss': 3.5625, 'grad_norm': 0.2028682380914688, 'learning_rate': 0.0003942345102070649, 'epoch': 0.61}
- 61%|██████    | 6550/10719 [1:06:35<34:37,  2.01it/s] 61%|██████    | 6551/10719 [1:06:35<34:41,  2.00it/s] 61%|██████    | 6552/10719 [1:06:36<34:43,  2.00it/s] 61%|██████    | 6553/10719 [1:06:36<34:44,  2.00it/s] 61%|██████    | 6554/10719 [1:06:37<34:44,  2.00it/s] 61%|██████    | 6555/10719 [1:06:37<34:43,  2.00it/s] 61%|██████    | 6556/10719 [1:06:38<34:40,  2.00it/s] 61%|██████    | 6557/10719 [1:06:38<34:39,  2.00it/s] 61%|██████    | 6558/10719 [1:06:39<34:37,  2.00it/s] 61%|██████    | 6559/10719 [1:06:39<34:36,  2.00it/s] 61%|██████    | 6560/10719 [1:06:40<34:36,  2.00it/s] 61%|██████    | 6561/10719 [1:06:40<34:34,  2.00it/s] 61%|██████    | 6562/10719 [1:06:41<34:33,  2.01it/s] 61%|██████    | 6563/10719 [1:06:41<34:35,  2.00it/s] 61%|██████    | 6564/10719 [1:06:42<34:34,  2.00it/s] 61%|██████    | 6565/10719 [1:06:42<34:34,  2.00it/s] 61%|██████▏   | 6566/10719 [1:06:43<36:17,  1.91it/s] 61%|██████▏   | 6567/10719 [1:06:44<35:48,  1.93it/s] 61%|██████▏   | 6568/10719 [1:06:44<35:24,  1.95it/s] 61%|██████▏   | 6569/10719 [1:06:45<35:09,  1.97it/s] 61%|██████▏   | 6570/10719 [1:06:45<34:54,  1.98it/s] 61%|██████▏   | 6571/10719 [1:06:46<34:46,  1.99it/s] 61%|██████▏   | 6572/10719 [1:06:46<34:41,  1.99it/s] 61%|██████▏   | 6573/10719 [1:06:47<34:38,  1.99it/s] 61%|██████▏   | 6574/10719 [1:06:47<34:32,  2.00it/s] 61%|██████▏   | 6575/10719 [1:06:47<34:29,  2.00it/s]                                                      {'loss': 3.5515, 'grad_norm': 0.204464390873909, 'learning_rate': 0.00039025948763662943, 'epoch': 0.61}
- 61%|██████▏   | 6575/10719 [1:06:48<34:29,  2.00it/s] 61%|██████▏   | 6576/10719 [1:06:48<34:27,  2.00it/s] 61%|██████▏   | 6577/10719 [1:06:48<34:24,  2.01it/s] 61%|██████▏   | 6578/10719 [1:06:49<34:28,  2.00it/s] 61%|██████▏   | 6579/10719 [1:06:49<34:26,  2.00it/s] 61%|██████▏   | 6580/10719 [1:06:50<34:22,  2.01it/s] 61%|██████▏   | 6581/10719 [1:06:50<34:25,  2.00it/s] 61%|██████▏   | 6582/10719 [1:06:51<34:22,  2.01it/s] 61%|██████▏   | 6583/10719 [1:06:51<34:22,  2.01it/s] 61%|██████▏   | 6584/10719 [1:06:52<34:21,  2.01it/s] 61%|██████▏   | 6585/10719 [1:06:52<34:20,  2.01it/s] 61%|██████▏   | 6586/10719 [1:06:53<34:19,  2.01it/s] 61%|██████▏   | 6587/10719 [1:06:53<34:19,  2.01it/s] 61%|██████▏   | 6588/10719 [1:06:54<34:28,  2.00it/s] 61%|██████▏   | 6589/10719 [1:06:55<38:01,  1.81it/s] 61%|██████▏   | 6590/10719 [1:06:55<38:36,  1.78it/s] 61%|██████▏   | 6591/10719 [1:06:56<37:18,  1.84it/s] 61%|██████▏   | 6592/10719 [1:06:56<36:25,  1.89it/s] 62%|██████▏   | 6593/10719 [1:06:57<35:45,  1.92it/s] 62%|██████▏   | 6594/10719 [1:06:57<35:17,  1.95it/s] 62%|██████▏   | 6595/10719 [1:06:58<34:59,  1.96it/s] 62%|██████▏   | 6596/10719 [1:06:58<34:45,  1.98it/s] 62%|██████▏   | 6597/10719 [1:06:59<34:33,  1.99it/s] 62%|██████▏   | 6598/10719 [1:06:59<34:27,  1.99it/s] 62%|██████▏   | 6599/10719 [1:07:00<34:26,  1.99it/s] 62%|██████▏   | 6600/10719 [1:07:00<34:21,  2.00it/s]                                                      {'loss': 3.5583, 'grad_norm': 0.2043965458869934, 'learning_rate': 0.00038629173883998017, 'epoch': 0.62}
- 62%|██████▏   | 6600/10719 [1:07:00<34:21,  2.00it/s] 62%|██████▏   | 6601/10719 [1:07:01<34:18,  2.00it/s] 62%|██████▏   | 6602/10719 [1:07:01<34:19,  2.00it/s] 62%|██████▏   | 6603/10719 [1:07:02<34:15,  2.00it/s] 62%|██████▏   | 6604/10719 [1:07:02<34:12,  2.00it/s] 62%|��█████▏   | 6605/10719 [1:07:03<34:10,  2.01it/s] 62%|██████▏   | 6606/10719 [1:07:03<34:08,  2.01it/s] 62%|██████▏   | 6607/10719 [1:07:04<34:06,  2.01it/s] 62%|██████▏   | 6608/10719 [1:07:04<34:05,  2.01it/s] 62%|██████▏   | 6609/10719 [1:07:05<34:01,  2.01it/s] 62%|██████▏   | 6610/10719 [1:07:05<34:01,  2.01it/s] 62%|██████▏   | 6611/10719 [1:07:06<33:59,  2.01it/s] 62%|██████▏   | 6612/10719 [1:07:06<33:59,  2.01it/s] 62%|██████▏   | 6613/10719 [1:07:07<33:59,  2.01it/s] 62%|██████▏   | 6614/10719 [1:07:07<33:57,  2.01it/s] 62%|██████▏   | 6615/10719 [1:07:08<33:56,  2.02it/s] 62%|██████▏   | 6616/10719 [1:07:08<34:00,  2.01it/s] 62%|██████▏   | 6617/10719 [1:07:09<33:56,  2.01it/s] 62%|██████▏   | 6618/10719 [1:07:09<33:56,  2.01it/s] 62%|██████▏   | 6619/10719 [1:07:10<33:59,  2.01it/s] 62%|██████▏   | 6620/10719 [1:07:10<34:01,  2.01it/s] 62%|██████▏   | 6621/10719 [1:07:11<34:03,  2.01it/s] 62%|██████▏   | 6622/10719 [1:07:11<34:05,  2.00it/s] 62%|██████▏   | 6623/10719 [1:07:12<34:22,  1.99it/s] 62%|██████▏   | 6624/10719 [1:07:12<35:09,  1.94it/s] 62%|██████▏   | 6625/10719 [1:07:13<34:50,  1.96it/s]                                                      {'loss': 3.5502, 'grad_norm': 0.1983550786972046, 'learning_rate': 0.00038233152680574814, 'epoch': 0.62}
- 62%|██████▏   | 6625/10719 [1:07:13<34:50,  1.96it/s] 62%|██████▏   | 6626/10719 [1:07:13<34:38,  1.97it/s] 62%|██████▏   | 6627/10719 [1:07:14<34:25,  1.98it/s] 62%|██████▏   | 6628/10719 [1:07:14<34:17,  1.99it/s] 62%|██████▏   | 6629/10719 [1:07:15<34:10,  1.99it/s] 62%|██████▏   | 6630/10719 [1:07:15<34:07,  2.00it/s] 62%|██████▏   | 6631/10719 [1:07:16<34:02,  2.00it/s] 62%|██████▏   | 6632/10719 [1:07:16<33:59,  2.00it/s] 62%|██████▏   | 6633/10719 [1:07:17<33:59,  2.00it/s] 62%|██████▏   | 6634/10719 [1:07:17<33:59,  2.00it/s] 62%|██████▏   | 6635/10719 [1:07:18<33:56,  2.01it/s] 62%|██████▏   | 6636/10719 [1:07:18<33:53,  2.01it/s] 62%|██████▏   | 6637/10719 [1:07:19<33:52,  2.01it/s] 62%|██████▏   | 6638/10719 [1:07:19<33:53,  2.01it/s] 62%|██████▏   | 6639/10719 [1:07:20<33:51,  2.01it/s] 62%|██████▏   | 6640/10719 [1:07:20<33:49,  2.01it/s] 62%|██████▏   | 6641/10719 [1:07:21<33:49,  2.01it/s] 62%|██████▏   | 6642/10719 [1:07:21<33:49,  2.01it/s] 62%|██████▏   | 6643/10719 [1:07:22<33:46,  2.01it/s] 62%|██████▏   | 6644/10719 [1:07:22<33:44,  2.01it/s] 62%|██████▏   | 6645/10719 [1:07:23<33:48,  2.01it/s] 62%|██████▏   | 6646/10719 [1:07:23<33:48,  2.01it/s] 62%|██████▏   | 6647/10719 [1:07:24<33:51,  2.00it/s] 62%|██████▏   | 6648/10719 [1:07:24<35:41,  1.90it/s] 62%|██████▏   | 6649/10719 [1:07:25<35:19,  1.92it/s] 62%|██████▏   | 6650/10719 [1:07:25<34:51,  1.95it/s]                                                      {'loss': 3.551, 'grad_norm': 0.19568763673305511, 'learning_rate': 0.00037837911402301713, 'epoch': 0.62}
- 62%|██████▏   | 6650/10719 [1:07:25<34:51,  1.95it/s] 62%|██████▏   | 6651/10719 [1:07:26<34:34,  1.96it/s] 62%|██████▏   | 6652/10719 [1:07:26<34:20,  1.97it/s] 62%|██████▏   | 6653/10719 [1:07:27<34:07,  1.99it/s] 62%|██████▏   | 6654/10719 [1:07:27<33:58,  1.99it/s] 62%|██████▏   | 6655/10719 [1:07:28<33:53,  2.00it/s] 62%|██████▏   | 6656/10719 [1:07:28<33:55,  2.00it/s] 62%|██████▏   | 6657/10719 [1:07:29<33:55,  2.00it/s] 62%|██████▏   | 6658/10719 [1:07:29<33:51,  2.00it/s] 62%|██████▏   | 6659/10719 [1:07:30<33:47,  2.00it/s] 62%|██████▏   | 6660/10719 [1:07:30<33:46,  2.00it/s] 62%|██████▏   | 6661/10719 [1:07:31<33:45,  2.00it/s] 62%|██████▏   | 6662/10719 [1:07:31<33:43,  2.00it/s] 62%|██████▏   | 6663/10719 [1:07:32<33:41,  2.01it/s] 62%|██████▏   | 6664/10719 [1:07:32<33:42,  2.01it/s] 62%|██████▏   | 6665/10719 [1:07:33<33:42,  2.00it/s] 62%|██████▏   | 6666/10719 [1:07:33<33:43,  2.00it/s] 62%|██████▏   | 6667/10719 [1:07:34<33:56,  1.99it/s] 62%|██████▏   | 6668/10719 [1:07:34<35:20,  1.91it/s] 62%|██████▏   | 6669/10719 [1:07:35<34:53,  1.93it/s] 62%|██████▏   | 6670/10719 [1:07:35<34:29,  1.96it/s] 62%|██████▏   | 6671/10719 [1:07:36<34:14,  1.97it/s] 62%|██████▏   | 6672/10719 [1:07:36<34:02,  1.98it/s] 62%|██████▏   | 6673/10719 [1:07:37<33:52,  1.99it/s] 62%|██████▏   | 6674/10719 [1:07:37<33:47,  2.00it/s] 62%|██████▏   | 6675/10719 [1:07:38<33:43,  2.00it/s]                                                      {'loss': 3.5534, 'grad_norm': 0.20779664814472198, 'learning_rate': 0.0003744347624639232, 'epoch': 0.62}
- 62%|██████▏   | 6675/10719 [1:07:38<33:43,  2.00it/s] 62%|██████▏   | 6676/10719 [1:07:38<33:39,  2.00it/s] 62%|██████▏   | 6677/10719 [1:07:39<33:37,  2.00it/s] 62%|██████▏   | 6678/10719 [1:07:39<33:31,  2.01it/s] 62%|██████▏   | 6679/10719 [1:07:40<33:29,  2.01it/s] 62%|██████▏   | 6680/10719 [1:07:40<33:30,  2.01it/s] 62%|██████▏   | 6681/10719 [1:07:41<33:27,  2.01it/s] 62%|██████▏   | 6682/10719 [1:07:41<33:26,  2.01it/s] 62%|██████▏   | 6683/10719 [1:07:42<33:24,  2.01it/s] 62%|██████▏   | 6684/10719 [1:07:42<33:24,  2.01it/s] 62%|██████▏   | 6685/10719 [1:07:43<33:24,  2.01it/s] 62%|██████▏   | 6686/10719 [1:07:43<33:22,  2.01it/s] 62%|██████▏   | 6687/10719 [1:07:44<33:19,  2.02it/s] 62%|██████▏   | 6688/10719 [1:07:44<33:42,  1.99it/s] 62%|██████▏   | 6689/10719 [1:07:45<33:41,  1.99it/s] 62%|██████▏   | 6690/10719 [1:07:45<33:50,  1.98it/s] 62%|██████▏   | 6691/10719 [1:07:46<34:08,  1.97it/s] 62%|██████▏   | 6692/10719 [1:07:46<33:53,  1.98it/s] 62%|██████▏   | 6693/10719 [1:07:47<33:43,  1.99it/s] 62%|██████▏   | 6694/10719 [1:07:47<33:39,  1.99it/s] 62%|██████▏   | 6695/10719 [1:07:48<33:34,  2.00it/s] 62%|██████▏   | 6696/10719 [1:07:48<33:29,  2.00it/s] 62%|██████▏   | 6697/10719 [1:07:49<33:25,  2.01it/s] 62%|██████▏   | 6698/10719 [1:07:49<33:22,  2.01it/s] 62%|██████▏   | 6699/10719 [1:07:50<33:18,  2.01it/s] 63%|██████▎   | 6700/10719 [1:07:50<33:18,  2.01it/s]                                                      {'loss': 3.547, 'grad_norm': 0.20262481272220612, 'learning_rate': 0.0003704987335662927, 'epoch': 0.63}
- 63%|██████▎   | 6700/10719 [1:07:50<33:18,  2.01it/s] 63%|██████▎   | 6701/10719 [1:07:51<33:22,  2.01it/s] 63%|██████▎   | 6702/10719 [1:07:51<33:19,  2.01it/s] 63%|██████▎   | 6703/10719 [1:07:52<33:16,  2.01it/s] 63%|██████▎   | 6704/10719 [1:07:52<33:13,  2.01it/s] 63%|██████▎   | 6705/10719 [1:07:53<33:12,  2.01it/s] 63%|██████▎   | 6706/10719 [1:07:53<33:09,  2.02it/s] 63%|██████▎   | 6707/10719 [1:07:54<33:07,  2.02it/s] 63%|██████▎   | 6708/10719 [1:07:54<35:00,  1.91it/s] 63%|██████▎   | 6709/10719 [1:07:55<35:48,  1.87it/s] 63%|██████▎   | 6710/10719 [1:07:55<35:04,  1.91it/s] 63%|██████▎   | 6711/10719 [1:07:56<34:36,  1.93it/s] 63%|██████▎   | 6712/10719 [1:07:56<34:10,  1.95it/s] 63%|██████▎   | 6713/10719 [1:07:57<33:54,  1.97it/s] 63%|██████▎   | 6714/10719 [1:07:57<33:43,  1.98it/s] 63%|██████▎   | 6715/10719 [1:07:58<33:35,  1.99it/s] 63%|██████▎   | 6716/10719 [1:07:58<33:26,  2.00it/s] 63%|██████▎   | 6717/10719 [1:07:59<33:21,  2.00it/s] 63%|██████▎   | 6718/10719 [1:07:59<33:20,  2.00it/s] 63%|██████▎   | 6719/10719 [1:08:00<33:18,  2.00it/s] 63%|██████▎   | 6720/10719 [1:08:00<33:21,  2.00it/s] 63%|██████▎   | 6721/10719 [1:08:01<33:20,  2.00it/s] 63%|██████▎   | 6722/10719 [1:08:01<33:18,  2.00it/s] 63%|██████▎   | 6723/10719 [1:08:02<33:20,  2.00it/s] 63%|██████▎   | 6724/10719 [1:08:02<33:19,  2.00it/s] 63%|██████▎   | 6725/10719 [1:08:03<33:14,  2.00it/s]                                                      {'loss': 3.5444, 'grad_norm': 0.19762958586215973, 'learning_rate': 0.00036657128821631236, 'epoch': 0.63}
- 63%|██████▎   | 6725/10719 [1:08:03<33:14,  2.00it/s] 63%|██████▎   | 6726/10719 [1:08:03<33:17,  2.00it/s] 63%|██████▎   | 6727/10719 [1:08:04<33:17,  2.00it/s] 63%|██████▎   | 6728/10719 [1:08:04<33:15,  2.00it/s] 63%|██████▎   | 6729/10719 [1:08:05<33:15,  2.00it/s] 63%|██████▎   | 6730/10719 [1:08:05<33:15,  2.00it/s] 63%|██████▎   | 6731/10719 [1:08:06<33:12,  2.00it/s] 63%|██████▎   | 6732/10719 [1:08:06<33:10,  2.00it/s] 63%|██████▎   | 6733/10719 [1:08:07<33:07,  2.01it/s] 63%|██████▎   | 6734/10719 [1:08:07<33:08,  2.00it/s] 63%|██████▎   | 6735/10719 [1:08:08<33:10,  2.00it/s] 63%|██████▎   | 6736/10719 [1:08:08<33:07,  2.00it/s] 63%|██████▎   | 6737/10719 [1:08:09<33:09,  2.00it/s] 63%|██████▎   | 6738/10719 [1:08:09<33:08,  2.00it/s] 63%|██████▎   | 6739/10719 [1:08:10<33:09,  2.00it/s] 63%|██████▎   | 6740/10719 [1:08:10<33:10,  2.00it/s] 63%|██████▎   | 6741/10719 [1:08:11<33:08,  2.00it/s] 63%|██████▎   | 6742/10719 [1:08:11<33:06,  2.00it/s] 63%|██████▎   | 6743/10719 [1:08:12<33:05,  2.00it/s] 63%|██████▎   | 6744/10719 [1:08:12<33:03,  2.00it/s] 63%|██████▎   | 6745/10719 [1:08:13<34:39,  1.91it/s] 63%|██████▎   | 6746/10719 [1:08:14<34:10,  1.94it/s] 63%|██████▎   | 6747/10719 [1:08:14<33:51,  1.96it/s] 63%|██████▎   | 6748/10719 [1:08:15<33:35,  1.97it/s] 63%|██████▎   | 6749/10719 [1:08:15<33:23,  1.98it/s] 63%|██████▎   | 6750/10719 [1:08:16<33:16,  1.99it/s]                                                      {'loss': 3.5549, 'grad_norm': 0.20428526401519775, 'learning_rate': 0.00036265268673123805, 'epoch': 0.63}
- 63%|██████▎   | 6750/10719 [1:08:16<33:16,  1.99it/s] 63%|██████▎   | 6751/10719 [1:08:16<33:11,  1.99it/s] 63%|██████▎   | 6752/10719 [1:08:17<33:12,  1.99it/s] 63%|██████▎   | 6753/10719 [1:08:17<33:08,  1.99it/s] 63%|██████▎   | 6754/10719 [1:08:18<33:04,  2.00it/s] 63%|██████▎   | 6755/10719 [1:08:18<33:04,  2.00it/s] 63%|██████▎   | 6756/10719 [1:08:19<33:03,  2.00it/s] 63%|██████▎   | 6757/10719 [1:08:19<32:58,  2.00it/s] 63%|██████▎   | 6758/10719 [1:08:19<32:59,  2.00it/s] 63%|██████▎   | 6759/10719 [1:08:20<32:57,  2.00it/s] 63%|██████▎   | 6760/10719 [1:08:20<32:56,  2.00it/s] 63%|██████▎   | 6761/10719 [1:08:21<32:59,  2.00it/s] 63%|██████▎   | 6762/10719 [1:08:21<32:59,  2.00it/s] 63%|██████▎   | 6763/10719 [1:08:22<33:01,  2.00it/s] 63%|██████▎   | 6764/10719 [1:08:23<33:00,  2.00it/s] 63%|██████▎   | 6765/10719 [1:08:23<32:56,  2.00it/s] 63%|██████▎   | 6766/10719 [1:08:24<32:57,  2.00it/s] 63%|██████▎   | 6767/10719 [1:08:24<33:04,  1.99it/s] 63%|██████▎   | 6768/10719 [1:08:25<36:04,  1.83it/s] 63%|██████▎   | 6769/10719 [1:08:25<35:07,  1.87it/s] 63%|██████▎   | 6770/10719 [1:08:26<34:28,  1.91it/s] 63%|██████▎   | 6771/10719 [1:08:26<34:00,  1.93it/s] 63%|██████▎   | 6772/10719 [1:08:27<33:38,  1.96it/s] 63%|██████▎   | 6773/10719 [1:08:27<33:24,  1.97it/s] 63%|██████▎   | 6774/10719 [1:08:28<33:13,  1.98it/s] 63%|██████▎   | 6775/10719 [1:08:28<33:06,  1.99it/s]                                                      {'loss': 3.5428, 'grad_norm': 0.2129804939031601, 'learning_rate': 0.00035874318884214024, 'epoch': 0.63}
- 63%|██████▎   | 6775/10719 [1:08:28<33:06,  1.99it/s] 63%|██████▎   | 6776/10719 [1:08:29<32:59,  1.99it/s] 63%|██████▎   | 6777/10719 [1:08:29<32:52,  2.00it/s] 63%|██████▎   | 6778/10719 [1:08:30<32:50,  2.00it/s] 63%|██████▎   | 6779/10719 [1:08:30<32:46,  2.00it/s] 63%|██████▎   | 6780/10719 [1:08:31<32:43,  2.01it/s] 63%|██████▎   | 6781/10719 [1:08:31<32:43,  2.01it/s] 63%|██████▎   | 6782/10719 [1:08:32<38:50,  1.69it/s] 63%|██████▎   | 6783/10719 [1:08:33<38:23,  1.71it/s] 63%|██████▎   | 6784/10719 [1:08:33<36:46,  1.78it/s] 63%|██████▎   | 6785/10719 [1:08:34<35:34,  1.84it/s] 63%|██████▎   | 6786/10719 [1:08:34<34:40,  1.89it/s] 63%|██████▎   | 6787/10719 [1:08:35<34:03,  1.92it/s] 63%|██████▎   | 6788/10719 [1:08:35<33:37,  1.95it/s] 63%|██████▎   | 6789/10719 [1:08:36<33:17,  1.97it/s] 63%|██████▎   | 6790/10719 [1:08:36<33:06,  1.98it/s] 63%|██████▎   | 6791/10719 [1:08:37<32:57,  1.99it/s] 63%|██████▎   | 6792/10719 [1:08:37<32:55,  1.99it/s] 63%|██████▎   | 6793/10719 [1:08:38<34:04,  1.92it/s] 63%|██████▎   | 6794/10719 [1:08:38<33:39,  1.94it/s] 63%|██████▎   | 6795/10719 [1:08:39<33:21,  1.96it/s] 63%|██████▎   | 6796/10719 [1:08:39<33:10,  1.97it/s] 63%|██████▎   | 6797/10719 [1:08:40<33:03,  1.98it/s] 63%|██████▎   | 6798/10719 [1:08:40<32:52,  1.99it/s] 63%|██████▎   | 6799/10719 [1:08:41<32:47,  1.99it/s] 63%|██████▎   | 6800/10719 [1:08:41<32:40,  2.00it/s]                                                      {'loss': 3.5462, 'grad_norm': 0.2068932205438614, 'learning_rate': 0.0003548430536766889, 'epoch': 0.63}
- 63%|██████▎   | 6800/10719 [1:08:41<32:40,  2.00it/s] 63%|██████▎   | 6801/10719 [1:08:42<32:39,  2.00it/s] 63%|██████▎   | 6802/10719 [1:08:42<32:38,  2.00it/s] 63%|██████▎   | 6803/10719 [1:08:43<32:38,  2.00it/s] 63%|██████▎   | 6804/10719 [1:08:43<32:33,  2.00it/s] 63%|██████▎   | 6805/10719 [1:08:44<32:31,  2.01it/s] 63%|██████▎   | 6806/10719 [1:08:44<32:29,  2.01it/s] 64%|██████▎   | 6807/10719 [1:08:45<32:26,  2.01it/s] 64%|██████▎   | 6808/10719 [1:08:45<32:26,  2.01it/s] 64%|██████▎   | 6809/10719 [1:08:46<32:27,  2.01it/s] 64%|██████▎   | 6810/10719 [1:08:46<32:25,  2.01it/s] 64%|██████▎   | 6811/10719 [1:08:47<32:25,  2.01it/s] 64%|██████▎   | 6812/10719 [1:08:47<38:13,  1.70it/s] 64%|██████▎   | 6813/10719 [1:08:48<36:28,  1.79it/s] 64%|██████▎   | 6814/10719 [1:08:48<35:12,  1.85it/s] 64%|██████▎   | 6815/10719 [1:08:49<34:19,  1.90it/s] 64%|██████▎   | 6816/10719 [1:08:49<33:41,  1.93it/s] 64%|██████▎   | 6817/10719 [1:08:50<33:15,  1.96it/s] 64%|██████▎   | 6818/10719 [1:08:50<32:56,  1.97it/s] 64%|██████▎   | 6819/10719 [1:08:51<32:44,  1.98it/s] 64%|██████▎   | 6820/10719 [1:08:51<32:34,  2.00it/s] 64%|██████▎   | 6821/10719 [1:08:52<32:26,  2.00it/s] 64%|██████▎   | 6822/10719 [1:08:52<32:20,  2.01it/s] 64%|██████▎   | 6823/10719 [1:08:53<32:20,  2.01it/s] 64%|██████▎   | 6824/10719 [1:08:53<32:27,  2.00it/s] 64%|██████▎   | 6825/10719 [1:08:54<32:26,  2.00it/s]                                                      {'loss': 3.5453, 'grad_norm': 0.206739142537117, 'learning_rate': 0.0003509525397419778, 'epoch': 0.64}
- 64%|██████▎   | 6825/10719 [1:08:54<32:26,  2.00it/s] 64%|██████▎   | 6826/10719 [1:08:54<34:23,  1.89it/s] 64%|██████▎   | 6827/10719 [1:08:55<34:25,  1.88it/s] 64%|██████▎   | 6828/10719 [1:08:55<33:56,  1.91it/s] 64%|██████▎   | 6829/10719 [1:08:56<35:20,  1.83it/s] 64%|██████▎   | 6830/10719 [1:08:57<34:42,  1.87it/s] 64%|██████▎   | 6831/10719 [1:08:57<33:58,  1.91it/s] 64%|██████▎   | 6832/10719 [1:08:58<33:25,  1.94it/s] 64%|██████▎   | 6833/10719 [1:08:58<33:06,  1.96it/s] 64%|██████▍   | 6834/10719 [1:08:59<32:50,  1.97it/s] 64%|██████▍   | 6835/10719 [1:08:59<32:41,  1.98it/s] 64%|██████▍   | 6836/10719 [1:09:00<32:31,  1.99it/s] 64%|██████▍   | 6837/10719 [1:09:00<32:25,  2.00it/s] 64%|██████▍   | 6838/10719 [1:09:01<32:17,  2.00it/s] 64%|██████▍   | 6839/10719 [1:09:01<32:15,  2.00it/s] 64%|██████▍   | 6840/10719 [1:09:02<32:12,  2.01it/s] 64%|██████▍   | 6841/10719 [1:09:02<32:14,  2.00it/s] 64%|██████▍   | 6842/10719 [1:09:03<33:36,  1.92it/s] 64%|██████▍   | 6843/10719 [1:09:03<33:10,  1.95it/s] 64%|██████▍   | 6844/10719 [1:09:04<32:52,  1.96it/s] 64%|██████▍   | 6845/10719 [1:09:04<32:43,  1.97it/s] 64%|██████▍   | 6846/10719 [1:09:05<32:30,  1.99it/s] 64%|██████▍   | 6847/10719 [1:09:05<32:25,  1.99it/s] 64%|██████▍   | 6848/10719 [1:09:06<32:21,  1.99it/s] 64%|██████▍   | 6849/10719 [1:09:06<32:15,  2.00it/s] 64%|██████▍   | 6850/10719 [1:09:07<32:16,  2.00it/s]                                                      {'loss': 3.5325, 'grad_norm': 0.19632914662361145, 'learning_rate': 0.0003470719049073906, 'epoch': 0.64}
- 64%|██████▍   | 6850/10719 [1:09:07<32:16,  2.00it/s] 64%|██████▍   | 6851/10719 [1:09:07<32:16,  2.00it/s] 64%|██████▍   | 6852/10719 [1:09:08<32:10,  2.00it/s] 64%|██████▍   | 6853/10719 [1:09:08<32:10,  2.00it/s] 64%|██████▍   | 6854/10719 [1:09:09<32:06,  2.01it/s] 64%|██████▍   | 6855/10719 [1:09:09<32:03,  2.01it/s] 64%|██████▍   | 6856/10719 [1:09:10<32:02,  2.01it/s] 64%|██████▍   | 6857/10719 [1:09:10<32:01,  2.01it/s] 64%|██████▍   | 6858/10719 [1:09:11<32:03,  2.01it/s] 64%|██████▍   | 6859/10719 [1:09:11<31:59,  2.01it/s] 64%|██████▍   | 6860/10719 [1:09:12<31:57,  2.01it/s] 64%|██████▍   | 6861/10719 [1:09:12<31:57,  2.01it/s] 64%|██████▍   | 6862/10719 [1:09:13<31:57,  2.01it/s] 64%|██████▍   | 6863/10719 [1:09:13<31:56,  2.01it/s] 64%|██████▍   | 6864/10719 [1:09:14<31:54,  2.01it/s] 64%|██████▍   | 6865/10719 [1:09:14<31:54,  2.01it/s] 64%|██████▍   | 6866/10719 [1:09:15<31:53,  2.01it/s] 64%|██████▍   | 6867/10719 [1:09:15<31:57,  2.01it/s] 64%|█████��▍   | 6868/10719 [1:09:16<32:00,  2.01it/s] 64%|██████▍   | 6869/10719 [1:09:16<32:05,  2.00it/s] 64%|██████▍   | 6870/10719 [1:09:17<32:08,  2.00it/s] 64%|██████▍   | 6871/10719 [1:09:17<32:06,  2.00it/s] 64%|██████▍   | 6872/10719 [1:09:18<32:03,  2.00it/s] 64%|██████▍   | 6873/10719 [1:09:18<32:03,  2.00it/s] 64%|██████▍   | 6874/10719 [1:09:19<32:03,  2.00it/s] 64%|██████▍   | 6875/10719 [1:09:19<32:03,  2.00it/s]                                                      {'loss': 3.5426, 'grad_norm': 0.19864104688167572, 'learning_rate': 0.0003432014063875084, 'epoch': 0.64}
- 64%|██████▍   | 6875/10719 [1:09:19<32:03,  2.00it/s] 64%|██████▍   | 6876/10719 [1:09:20<32:04,  2.00it/s] 64%|██████▍   | 6877/10719 [1:09:20<31:59,  2.00it/s] 64%|██████▍   | 6878/10719 [1:09:21<31:58,  2.00it/s] 64%|██████▍   | 6879/10719 [1:09:21<32:01,  2.00it/s] 64%|██████▍   | 6880/10719 [1:09:22<31:59,  2.00it/s] 64%|██████▍   | 6881/10719 [1:09:22<32:01,  2.00it/s] 64%|██████▍   | 6882/10719 [1:09:23<32:01,  2.00it/s] 64%|██████▍   | 6883/10719 [1:09:23<31:57,  2.00it/s] 64%|██████▍   | 6884/10719 [1:09:24<31:58,  2.00it/s] 64%|██████▍   | 6885/10719 [1:09:24<32:11,  1.98it/s] 64%|██████▍   | 6886/10719 [1:09:25<32:06,  1.99it/s] 64%|██████▍   | 6887/10719 [1:09:25<32:01,  1.99it/s] 64%|██████▍   | 6888/10719 [1:09:26<31:56,  2.00it/s] 64%|██████▍   | 6889/10719 [1:09:26<31:54,  2.00it/s] 64%|██████▍   | 6890/10719 [1:09:27<31:54,  2.00it/s] 64%|██████▍   | 6891/10719 [1:09:27<31:53,  2.00it/s] 64%|██████▍   | 6892/10719 [1:09:28<31:53,  2.00it/s] 64%|██████▍   | 6893/10719 [1:09:28<31:52,  2.00it/s] 64%|██████▍   | 6894/10719 [1:09:29<32:14,  1.98it/s] 64%|██████▍   | 6895/10719 [1:09:29<32:06,  1.98it/s] 64%|██████▍   | 6896/10719 [1:09:30<31:59,  1.99it/s] 64%|██████▍   | 6897/10719 [1:09:30<31:56,  1.99it/s] 64%|██████▍   | 6898/10719 [1:09:31<31:52,  2.00it/s] 64%|██████▍   | 6899/10719 [1:09:31<31:51,  2.00it/s] 64%|██████▍   | 6900/10719 [1:09:32<31:47,  2.00it/s]                                                      {'loss': 3.5411, 'grad_norm': 0.205336332321167, 'learning_rate': 0.00033934130072506155, 'epoch': 0.64}
- 64%|██████▍   | 6900/10719 [1:09:32<31:47,  2.00it/s] 64%|██████▍   | 6901/10719 [1:09:32<31:47,  2.00it/s] 64%|██████▍   | 6902/10719 [1:09:33<31:45,  2.00it/s] 64%|██████▍   | 6903/10719 [1:09:33<31:43,  2.00it/s] 64%|██████▍   | 6904/10719 [1:09:34<31:42,  2.01it/s] 64%|██████▍   | 6905/10719 [1:09:34<32:17,  1.97it/s] 64%|██████▍   | 6906/10719 [1:09:35<32:08,  1.98it/s] 64%|██████▍   | 6907/10719 [1:09:35<31:58,  1.99it/s] 64%|██████▍   | 6908/10719 [1:09:36<31:53,  1.99it/s] 64%|██████▍   | 6909/10719 [1:09:36<31:46,  2.00it/s] 64%|██████▍   | 6910/10719 [1:09:37<31:40,  2.00it/s] 64%|██████▍   | 6911/10719 [1:09:37<31:41,  2.00it/s] 64%|██████▍   | 6912/10719 [1:09:38<31:37,  2.01it/s] 64%|██████▍   | 6913/10719 [1:09:38<31:36,  2.01it/s] 65%|██████▍   | 6914/10719 [1:09:39<31:35,  2.01it/s] 65%|██████▍   | 6915/10719 [1:09:39<31:32,  2.01it/s] 65%|██████▍   | 6916/10719 [1:09:40<31:31,  2.01it/s] 65%|██████▍   | 6917/10719 [1:09:40<31:31,  2.01it/s] 65%|██████▍   | 6918/10719 [1:09:41<31:28,  2.01it/s] 65%|██████▍   | 6919/10719 [1:09:41<31:27,  2.01it/s] 65%|██████▍   | 6920/10719 [1:09:42<31:26,  2.01it/s] 65%|██████▍   | 6921/10719 [1:09:42<31:27,  2.01it/s] 65%|██████▍   | 6922/10719 [1:09:43<31:25,  2.01it/s] 65%|██████▍   | 6923/10719 [1:09:43<31:23,  2.02it/s] 65%|██████▍   | 6924/10719 [1:09:44<31:22,  2.02it/s] 65%|██████▍   | 6925/10719 [1:09:44<31:22,  2.02it/s]                                                      {'loss': 3.5457, 'grad_norm': 0.2165890336036682, 'learning_rate': 0.0003354918437739256, 'epoch': 0.65}
- 65%|██████▍   | 6925/10719 [1:09:44<31:22,  2.02it/s] 65%|██████▍   | 6926/10719 [1:09:45<31:27,  2.01it/s] 65%|██████▍   | 6927/10719 [1:09:45<31:26,  2.01it/s] 65%|██████▍   | 6928/10719 [1:09:46<31:23,  2.01it/s] 65%|██████▍   | 6929/10719 [1:09:46<31:22,  2.01it/s] 65%|██████▍   | 6930/10719 [1:09:47<31:22,  2.01it/s] 65%|██████▍   | 6931/10719 [1:09:47<31:21,  2.01it/s] 65%|██████▍   | 6932/10719 [1:09:48<31:20,  2.01it/s] 65%|██████▍   | 6933/10719 [1:09:48<31:17,  2.02it/s] 65%|██████▍   | 6934/10719 [1:09:49<31:18,  2.01it/s] 65%|██████▍   | 6935/10719 [1:09:49<31:16,  2.02it/s] 65%|██████▍   | 6936/10719 [1:09:50<31:16,  2.02it/s] 65%|██████▍   | 6937/10719 [1:09:50<31:15,  2.02it/s] 65%|██████▍   | 6938/10719 [1:09:51<31:15,  2.02it/s] 65%|██████▍   | 6939/10719 [1:09:51<31:16,  2.01it/s] 65%|██████▍   | 6940/10719 [1:09:51<31:14,  2.02it/s] 65%|██████▍   | 6941/10719 [1:09:52<31:14,  2.02it/s] 65%|██████▍   | 6942/10719 [1:09:53<31:37,  1.99it/s] 65%|██████▍   | 6943/10719 [1:09:53<31:34,  1.99it/s] 65%|██████▍   | 6944/10719 [1:09:54<31:32,  2.00it/s] 65%|██████▍   | 6945/10719 [1:09:54<31:29,  2.00it/s] 65%|██████▍   | 6946/10719 [1:09:55<32:13,  1.95it/s] 65%|██████▍   | 6947/10719 [1:09:55<33:40,  1.87it/s] 65%|██████▍   | 6948/10719 [1:09:56<32:58,  1.91it/s] 65%|██████▍   | 6949/10719 [1:09:56<32:28,  1.94it/s] 65%|██████▍   | 6950/10719 [1:09:57<32:07,  1.95it/s]                                                      {'loss': 3.5393, 'grad_norm': 0.21968631446361542, 'learning_rate': 0.0003316532906821626, 'epoch': 0.65}
- 65%|██████▍   | 6950/10719 [1:09:57<32:07,  1.95it/s] 65%|██████▍   | 6951/10719 [1:09:57<31:58,  1.96it/s] 65%|██████▍   | 6952/10719 [1:09:58<31:45,  1.98it/s] 65%|██████▍   | 6953/10719 [1:09:58<31:40,  1.98it/s] 65%|██████▍   | 6954/10719 [1:09:59<31:33,  1.99it/s] 65%|██████▍   | 6955/10719 [1:09:59<31:28,  1.99it/s] 65%|██████▍   | 6956/10719 [1:10:00<31:25,  2.00it/s] 65%|██████▍   | 6957/10719 [1:10:00<31:20,  2.00it/s] 65%|██████▍   | 6958/10719 [1:10:01<31:18,  2.00it/s] 65%|██████▍   | 6959/10719 [1:10:01<31:20,  2.00it/s] 65%|██████▍   | 6960/10719 [1:10:02<31:18,  2.00it/s] 65%|██████▍   | 6961/10719 [1:10:02<31:16,  2.00it/s] 65%|██████▍   | 6962/10719 [1:10:03<31:16,  2.00it/s] 65%|██████▍   | 6963/10719 [1:10:03<31:12,  2.01it/s] 65%|██████▍   | 6964/10719 [1:10:04<31:12,  2.00it/s] 65%|██████▍   | 6965/10719 [1:10:04<31:09,  2.01it/s] 65%|██████▍   | 6966/10719 [1:10:05<31:10,  2.01it/s] 65%|██████▍   | 6967/10719 [1:10:05<31:07,  2.01it/s] 65%|██████▌   | 6968/10719 [1:10:06<31:06,  2.01it/s] 65%|██████▌   | 6969/10719 [1:10:06<31:08,  2.01it/s] 65%|██████▌   | 6970/10719 [1:10:07<31:07,  2.01it/s] 65%|██████▌   | 6971/10719 [1:10:07<31:09,  2.00it/s] 65%|██████▌   | 6972/10719 [1:10:08<31:10,  2.00it/s] 65%|██████▌   | 6973/10719 [1:10:08<31:14,  2.00it/s] 65%|██████▌   | 6974/10719 [1:10:09<31:13,  2.00it/s] 65%|██████▌   | 6975/10719 [1:10:09<31:49,  1.96it/s]                                                      {'loss': 3.5454, 'grad_norm': 0.22076201438903809, 'learning_rate': 0.00032782589587510957, 'epoch': 0.65}
- 65%|██████▌   | 6975/10719 [1:10:09<31:49,  1.96it/s] 65%|██████▌   | 6976/10719 [1:10:10<31:42,  1.97it/s] 65%|██████▌   | 6977/10719 [1:10:10<31:31,  1.98it/s] 65%|██████▌   | 6978/10719 [1:10:11<31:24,  1.98it/s] 65%|██████▌   | 6979/10719 [1:10:11<31:18,  1.99it/s] 65%|██████▌   | 6980/10719 [1:10:12<31:14,  2.00it/s] 65%|██████▌   | 6981/10719 [1:10:12<31:10,  2.00it/s] 65%|██████▌   | 6982/10719 [1:10:13<31:06,  2.00it/s] 65%|██████▌   | 6983/10719 [1:10:13<31:08,  2.00it/s] 65%|██████▌   | 6984/10719 [1:10:14<31:04,  2.00it/s] 65%|██████▌   | 6985/10719 [1:10:14<31:02,  2.01it/s] 65%|██████▌   | 6986/10719 [1:10:15<30:59,  2.01it/s] 65%|██████▌   | 6987/10719 [1:10:15<30:56,  2.01it/s] 65%|██████▌   | 6988/10719 [1:10:16<30:56,  2.01it/s] 65%|██████▌   | 6989/10719 [1:10:16<30:53,  2.01it/s] 65%|██████▌   | 6990/10719 [1:10:17<30:55,  2.01it/s] 65%|██████▌   | 6991/10719 [1:10:17<30:58,  2.01it/s] 65%|██████▌   | 6992/10719 [1:10:18<31:00,  2.00it/s] 65%|██████▌   | 6993/10719 [1:10:18<31:02,  2.00it/s] 65%|██████▌   | 6994/10719 [1:10:19<31:01,  2.00it/s] 65%|██████▌   | 6995/10719 [1:10:19<30:58,  2.00it/s] 65%|██████▌   | 6996/10719 [1:10:20<30:57,  2.00it/s] 65%|██████▌   | 6997/10719 [1:10:20<30:58,  2.00it/s] 65%|██████▌   | 6998/10719 [1:10:21<30:59,  2.00it/s] 65%|██████▌   | 6999/10719 [1:10:21<30:59,  2.00it/s] 65%|██████▌   | 7000/10719 [1:10:22<30:59,  2.00it/s]                                                      {'loss': 3.5376, 'grad_norm': 0.21576881408691406, 'learning_rate': 0.0003240099130385151, 'epoch': 0.65}
- 65%|██████▌   | 7000/10719 [1:10:22<30:59,  2.00it/s] 65%|██████▌   | 7001/10719 [1:10:22<31:02,  2.00it/s] 65%|██████▌   | 7002/10719 [1:10:23<31:02,  2.00it/s] 65%|██████▌   | 7003/10719 [1:10:23<31:02,  2.00it/s] 65%|██████▌   | 7004/10719 [1:10:24<31:02,  1.99it/s] 65%|██████▌   | 7005/10719 [1:10:24<32:33,  1.90it/s] 65%|██████▌   | 7006/10719 [1:10:25<32:10,  1.92it/s] 65%|██████▌   | 7007/10719 [1:10:25<31:50,  1.94it/s] 65%|██████▌   | 7008/10719 [1:10:26<31:31,  1.96it/s] 65%|██████▌   | 7009/10719 [1:10:26<31:19,  1.97it/s] 65%|██████▌   | 7010/10719 [1:10:27<31:10,  1.98it/s] 65%|██████▌   | 7011/10719 [1:10:27<31:02,  1.99it/s] 65%|██████▌   | 7012/10719 [1:10:28<30:57,  2.00it/s] 65%|██████▌   | 7013/10719 [1:10:28<30:53,  2.00it/s] 65%|██████▌   | 7014/10719 [1:10:29<30:52,  2.00it/s] 65%|██████▌   | 7015/10719 [1:10:29<30:49,  2.00it/s] 65%|██████▌   | 7016/10719 [1:10:30<30:45,  2.01it/s] 65%|██████▌   | 7017/10719 [1:10:30<30:45,  2.01it/s] 65%|██████▌   | 7018/10719 [1:10:31<30:44,  2.01it/s] 65%|██████▌   | 7019/10719 [1:10:31<30:40,  2.01it/s] 65%|██████▌   | 7020/10719 [1:10:32<30:43,  2.01it/s] 66%|██████▌   | 7021/10719 [1:10:32<30:40,  2.01it/s] 66%|██████▌   | 7022/10719 [1:10:33<30:38,  2.01it/s] 66%|██████▌   | 7023/10719 [1:10:33<30:37,  2.01it/s] 66%|██████▌   | 7024/10719 [1:10:34<30:38,  2.01it/s] 66%|██████▌   | 7025/10719 [1:10:34<30:36,  2.01it/s]                                                      {'loss': 3.5436, 'grad_norm': 0.20976221561431885, 'learning_rate': 0.00032020559510172425, 'epoch': 0.66}
- 66%|██████▌   | 7025/10719 [1:10:34<30:36,  2.01it/s] 66%|██████▌   | 7026/10719 [1:10:35<30:39,  2.01it/s] 66%|██████▌   | 7027/10719 [1:10:35<30:34,  2.01it/s] 66%|██████▌   | 7028/10719 [1:10:36<30:43,  2.00it/s] 66%|██████▌   | 7029/10719 [1:10:36<30:43,  2.00it/s] 66%|██████▌   | 7030/10719 [1:10:37<30:44,  2.00it/s] 66%|██████▌   | 7031/10719 [1:10:37<30:43,  2.00it/s] 66%|██████▌   | 7032/10719 [1:10:38<30:39,  2.00it/s] 66%|██████▌   | 7033/10719 [1:10:38<30:38,  2.01it/s] 66%|██████▌   | 7034/10719 [1:10:39<30:40,  2.00it/s] 66%|██████▌   | 7035/10719 [1:10:39<30:39,  2.00it/s] 66%|██████▌   | 7036/10719 [1:10:40<30:40,  2.00it/s] 66%|██████▌   | 7037/10719 [1:10:40<30:39,  2.00it/s] 66%|██████▌   | 7038/10719 [1:10:41<30:44,  2.00it/s] 66%|██████▌   | 7039/10719 [1:10:41<31:18,  1.96it/s] 66%|██████▌   | 7040/10719 [1:10:42<31:03,  1.97it/s] 66%|██████▌   | 7041/10719 [1:10:42<30:57,  1.98it/s] 66%|██████▌   | 7042/10719 [1:10:43<30:49,  1.99it/s] 66%|██████▌   | 7043/10719 [1:10:43<30:46,  1.99it/s] 66%|██████▌   | 7044/10719 [1:10:44<30:40,  2.00it/s] 66%|██████▌   | 7045/10719 [1:10:44<30:39,  2.00it/s] 66%|██████▌   | 7046/10719 [1:10:45<30:36,  2.00it/s] 66%|██████▌   | 7047/10719 [1:10:45<30:33,  2.00it/s] 66%|██████▌   | 7048/10719 [1:10:46<30:32,  2.00it/s] 66%|██████▌   | 7049/10719 [1:10:46<30:32,  2.00it/s] 66%|██████▌   | 7050/10719 [1:10:47<30:28,  2.01it/s]                                                      {'loss': 3.5301, 'grad_norm': 0.19865359365940094, 'learning_rate': 0.0003164131942209142, 'epoch': 0.66}
- 66%|██████▌   | 7050/10719 [1:10:47<30:28,  2.01it/s] 66%|██████▌   | 7051/10719 [1:10:47<30:29,  2.00it/s] 66%|██████▌   | 7052/10719 [1:10:48<30:28,  2.01it/s] 66%|██████▌   | 7053/10719 [1:10:48<30:24,  2.01it/s] 66%|██████▌   | 7054/10719 [1:10:49<30:21,  2.01it/s] 66%|██████▌   | 7055/10719 [1:10:49<30:22,  2.01it/s] 66%|██████▌   | 7056/10719 [1:10:50<30:22,  2.01it/s] 66%|██████▌   | 7057/10719 [1:10:50<30:24,  2.01it/s] 66%|██████▌   | 7058/10719 [1:10:51<30:26,  2.00it/s] 66%|██████▌   | 7059/10719 [1:10:51<30:26,  2.00it/s] 66%|██████▌   | 7060/10719 [1:10:52<30:23,  2.01it/s] 66%|██████▌   | 7061/10719 [1:10:52<30:23,  2.01it/s] 66%|██████▌   | 7062/10719 [1:10:53<30:23,  2.01it/s] 66%|██████▌   | 7063/10719 [1:10:53<30:24,  2.00it/s] 66%|██████▌   | 7064/10719 [1:10:54<30:26,  2.00it/s] 66%|██████▌   | 7065/10719 [1:10:54<32:07,  1.90it/s] 66%|██████▌   | 7066/10719 [1:10:55<34:55,  1.74it/s] 66%|██████▌   | 7067/10719 [1:10:55<33:31,  1.82it/s] 66%|██████▌   | 7068/10719 [1:10:56<32:34,  1.87it/s] 66%|██████▌   | 7069/10719 [1:10:56<31:53,  1.91it/s] 66%|██████▌   | 7070/10719 [1:10:57<31:24,  1.94it/s] 66%|██████▌   | 7071/10719 [1:10:57<31:05,  1.96it/s] 66%|██████▌   | 7072/10719 [1:10:58<30:50,  1.97it/s] 66%|██████▌   | 7073/10719 [1:10:58<30:40,  1.98it/s] 66%|██████▌   | 7074/10719 [1:10:59<30:32,  1.99it/s] 66%|██████▌   | 7075/10719 [1:10:59<30:25,  2.00it/s]                                                      {'loss': 3.5399, 'grad_norm': 0.20767642557621002, 'learning_rate': 0.00031263296176238097, 'epoch': 0.66}
- 66%|██████▌   | 7075/10719 [1:10:59<30:25,  2.00it/s] 66%|██████▌   | 7076/10719 [1:11:00<30:24,  2.00it/s] 66%|██████▌   | 7077/10719 [1:11:00<30:20,  2.00it/s] 66%|██████▌   | 7078/10719 [1:11:01<30:17,  2.00it/s] 66%|██████▌   | 7079/10719 [1:11:01<30:16,  2.00it/s] 66%|██████▌   | 7080/10719 [1:11:02<30:16,  2.00it/s] 66%|██████▌   | 7081/10719 [1:11:02<30:17,  2.00it/s] 66%|██████▌   | 7082/10719 [1:11:03<30:19,  2.00it/s] 66%|██████▌   | 7083/10719 [1:11:03<30:17,  2.00it/s] 66%|██████▌   | 7084/10719 [1:11:04<30:31,  1.98it/s] 66%|██████▌   | 7085/10719 [1:11:04<30:27,  1.99it/s] 66%|██████▌   | 7086/10719 [1:11:05<30:24,  1.99it/s] 66%|██████▌   | 7087/10719 [1:11:05<30:18,  2.00it/s] 66%|██████▌   | 7088/10719 [1:11:06<30:14,  2.00it/s] 66%|██████▌   | 7089/10719 [1:11:06<30:13,  2.00it/s] 66%|██████▌   | 7090/10719 [1:11:07<30:12,  2.00it/s] 66%|██████▌   | 7091/10719 [1:11:07<30:11,  2.00it/s] 66%|██████▌   | 7092/10719 [1:11:08<30:10,  2.00it/s] 66%|██████▌   | 7093/10719 [1:11:08<30:11,  2.00it/s] 66%|██████▌   | 7094/10719 [1:11:09<30:10,  2.00it/s] 66%|██████▌   | 7095/10719 [1:11:09<30:07,  2.00it/s] 66%|██████▌   | 7096/10719 [1:11:10<30:05,  2.01it/s] 66%|██████▌   | 7097/10719 [1:11:10<30:08,  2.00it/s] 66%|██████▌   | 7098/10719 [1:11:11<30:06,  2.00it/s] 66%|██████▌   | 7099/10719 [1:11:11<30:06,  2.00it/s] 66%|██████▌   | 7100/10719 [1:11:12<30:09,  2.00it/s]                                                      {'loss': 3.5317, 'grad_norm': 0.20638437569141388, 'learning_rate': 0.00030886514828587833, 'epoch': 0.66}
- 66%|██████▌   | 7100/10719 [1:11:12<30:09,  2.00it/s] 66%|██████▌   | 7101/10719 [1:11:12<30:09,  2.00it/s] 66%|██████▋   | 7102/10719 [1:11:13<30:11,  2.00it/s] 66%|██████▋   | 7103/10719 [1:11:13<30:09,  2.00it/s] 66%|██████▋   | 7104/10719 [1:11:14<30:15,  1.99it/s] 66%|██████▋   | 7105/10719 [1:11:14<31:02,  1.94it/s] 66%|██████▋   | 7106/10719 [1:11:15<30:44,  1.96it/s] 66%|██████▋   | 7107/10719 [1:11:15<30:31,  1.97it/s] 66%|██████▋   | 7108/10719 [1:11:16<30:23,  1.98it/s] 66%|██████▋   | 7109/10719 [1:11:17<30:27,  1.98it/s] 66%|██████▋   | 7110/10719 [1:11:17<30:22,  1.98it/s] 66%|██████▋   | 7111/10719 [1:11:18<30:17,  1.99it/s] 66%|██████▋   | 7112/10719 [1:11:18<30:12,  1.99it/s] 66%|██████▋   | 7113/10719 [1:11:19<30:07,  2.00it/s] 66%|██████▋   | 7114/10719 [1:11:19<30:02,  2.00it/s] 66%|██████▋   | 7115/10719 [1:11:20<29:59,  2.00it/s] 66%|██████▋   | 7116/10719 [1:11:20<29:57,  2.00it/s] 66%|██████▋   | 7117/10719 [1:11:21<29:59,  2.00it/s] 66%|██████▋   | 7118/10719 [1:11:21<29:59,  2.00it/s] 66%|██████▋   | 7119/10719 [1:11:22<29:57,  2.00it/s] 66%|██████▋   | 7120/10719 [1:11:22<29:58,  2.00it/s] 66%|██████▋   | 7121/10719 [1:11:22<29:56,  2.00it/s] 66%|██████▋   | 7122/10719 [1:11:23<29:53,  2.01it/s] 66%|██████▋   | 7123/10719 [1:11:23<29:54,  2.00it/s] 66%|██████▋   | 7124/10719 [1:11:24<29:54,  2.00it/s] 66%|██████▋   | 7125/10719 [1:11:25<30:44,  1.95it/s]{'loss': 3.5393, 'grad_norm': 0.21243537962436676, 'learning_rate': 0.00030511000352801044, 'epoch': 0.66}
-                                                       66%|██████▋   | 7125/10719 [1:11:25<30:44,  1.95it/s] 66%|██████▋   | 7126/10719 [1:11:25<32:09,  1.86it/s] 66%|██████▋   | 7127/10719 [1:11:26<31:33,  1.90it/s] 66%|��█████▋   | 7128/10719 [1:11:26<31:02,  1.93it/s] 67%|██████▋   | 7129/10719 [1:11:27<30:43,  1.95it/s] 67%|██████▋   | 7130/10719 [1:11:27<30:30,  1.96it/s] 67%|██████▋   | 7131/10719 [1:11:28<30:19,  1.97it/s] 67%|██████▋   | 7132/10719 [1:11:28<30:10,  1.98it/s] 67%|██████▋   | 7133/10719 [1:11:29<30:03,  1.99it/s] 67%|██████▋   | 7134/10719 [1:11:29<29:57,  1.99it/s] 67%|██████▋   | 7135/10719 [1:11:30<29:53,  2.00it/s] 67%|██████▋   | 7136/10719 [1:11:30<29:53,  2.00it/s] 67%|██████▋   | 7137/10719 [1:11:31<29:51,  2.00it/s] 67%|██████▋   | 7138/10719 [1:11:31<29:49,  2.00it/s] 67%|██████▋   | 7139/10719 [1:11:32<29:47,  2.00it/s] 67%|██████▋   | 7140/10719 [1:11:32<29:46,  2.00it/s] 67%|██████▋   | 7141/10719 [1:11:33<29:43,  2.01it/s] 67%|██████▋   | 7142/10719 [1:11:33<29:41,  2.01it/s] 67%|██████▋   | 7143/10719 [1:11:34<29:44,  2.00it/s] 67%|██████▋   | 7144/10719 [1:11:34<29:45,  2.00it/s] 67%|██████▋   | 7145/10719 [1:11:35<29:45,  2.00it/s] 67%|██████▋   | 7146/10719 [1:11:35<29:46,  2.00it/s] 67%|██████▋   | 7147/10719 [1:11:36<29:46,  2.00it/s] 67%|██████▋   | 7148/10719 [1:11:36<29:45,  2.00it/s] 67%|██████▋   | 7149/10719 [1:11:37<29:41,  2.00it/s] 67%|██████▋   | 7150/10719 [1:11:37<29:40,  2.00it/s]                                                      {'loss': 3.5291, 'grad_norm': 0.2090921550989151, 'learning_rate': 0.0003013677763856788, 'epoch': 0.67}
- 67%|██████▋   | 7150/10719 [1:11:37<29:40,  2.00it/s] 67%|██████▋   | 7151/10719 [1:11:38<29:42,  2.00it/s] 67%|██████▋   | 7152/10719 [1:11:38<29:44,  2.00it/s] 67%|██████▋   | 7153/10719 [1:11:39<29:38,  2.01it/s] 67%|██████▋   | 7154/10719 [1:11:39<29:37,  2.01it/s] 67%|██████▋   | 7155/10719 [1:11:40<29:34,  2.01it/s] 67%|██████▋   | 7156/10719 [1:11:40<29:32,  2.01it/s] 67%|██████▋   | 7157/10719 [1:11:41<29:31,  2.01it/s] 67%|██████▋   | 7158/10719 [1:11:41<29:32,  2.01it/s] 67%|██████▋   | 7159/10719 [1:11:42<29:31,  2.01it/s] 67%|██████▋   | 7160/10719 [1:11:42<29:29,  2.01it/s] 67%|██████▋   | 7161/10719 [1:11:43<29:27,  2.01it/s] 67%|██████▋   | 7162/10719 [1:11:43<29:27,  2.01it/s] 67%|██████▋   | 7163/10719 [1:11:44<29:26,  2.01it/s] 67%|██████▋   | 7164/10719 [1:11:44<29:34,  2.00it/s] 67%|██████▋   | 7165/10719 [1:11:45<29:33,  2.00it/s] 67%|██████▋   | 7166/10719 [1:11:45<29:33,  2.00it/s] 67%|██████▋   | 7167/10719 [1:11:46<29:32,  2.00it/s] 67%|██████▋   | 7168/10719 [1:11:46<29:32,  2.00it/s] 67%|██████▋   | 7169/10719 [1:11:47<29:29,  2.01it/s] 67%|██████▋   | 7170/10719 [1:11:47<29:31,  2.00it/s] 67%|██████▋   | 7171/10719 [1:11:48<29:27,  2.01it/s] 67%|██████▋   | 7172/10719 [1:11:48<29:26,  2.01it/s] 67%|██████▋   | 7173/10719 [1:11:49<29:26,  2.01it/s] 67%|██████▋   | 7174/10719 [1:11:49<29:24,  2.01it/s] 67%|██████▋   | 7175/10719 [1:11:50<29:21,  2.01it/s]                                                      {'loss': 3.5206, 'grad_norm': 0.2063572108745575, 'learning_rate': 0.00029763871489958536, 'epoch': 0.67}
- 67%|██████▋   | 7175/10719 [1:11:50<29:21,  2.01it/s] 67%|██████▋   | 7176/10719 [1:11:50<29:23,  2.01it/s] 67%|██████▋   | 7177/10719 [1:11:51<29:22,  2.01it/s] 67%|██████▋   | 7178/10719 [1:11:51<29:18,  2.01it/s] 67%|██████▋   | 7179/10719 [1:11:52<29:18,  2.01it/s] 67%|██████▋   | 7180/10719 [1:11:52<29:15,  2.02it/s] 67%|██████▋   | 7181/10719 [1:11:53<29:18,  2.01it/s] 67%|██████▋   | 7182/10719 [1:11:53<29:20,  2.01it/s] 67%|██████▋   | 7183/10719 [1:11:54<29:20,  2.01it/s] 67%|██████▋   | 7184/10719 [1:11:54<29:20,  2.01it/s] 67%|██████▋   | 7185/10719 [1:11:55<30:48,  1.91it/s] 67%|██████▋   | 7186/10719 [1:11:55<30:20,  1.94it/s] 67%|██████▋   | 7187/10719 [1:11:56<30:02,  1.96it/s] 67%|██████▋   | 7188/10719 [1:11:56<29:51,  1.97it/s] 67%|██████▋   | 7189/10719 [1:11:57<29:42,  1.98it/s] 67%|██████▋   | 7190/10719 [1:11:57<29:37,  1.99it/s] 67%|██████▋   | 7191/10719 [1:11:58<29:33,  1.99it/s] 67%|██████▋   | 7192/10719 [1:11:58<29:35,  1.99it/s] 67%|██████▋   | 7193/10719 [1:11:59<29:33,  1.99it/s] 67%|██████▋   | 7194/10719 [1:11:59<29:28,  1.99it/s] 67%|██████▋   | 7195/10719 [1:12:00<29:24,  2.00it/s] 67%|██████▋   | 7196/10719 [1:12:00<29:22,  2.00it/s] 67%|██████▋   | 7197/10719 [1:12:01<29:19,  2.00it/s] 67%|██████▋   | 7198/10719 [1:12:01<29:21,  2.00it/s] 67%|██████▋   | 7199/10719 [1:12:02<29:18,  2.00it/s] 67%|██████▋   | 7200/10719 [1:12:02<29:20,  2.00it/s]                                                      {'loss': 3.5384, 'grad_norm': 0.20583143830299377, 'learning_rate': 0.000293923066237791, 'epoch': 0.67}
- 67%|██████▋   | 7200/10719 [1:12:02<29:20,  2.00it/s] 67%|██████▋   | 7201/10719 [1:12:03<29:22,  2.00it/s] 67%|██████▋   | 7202/10719 [1:12:03<29:20,  2.00it/s] 67%|██████▋   | 7203/10719 [1:12:04<29:17,  2.00it/s] 67%|██████▋   | 7204/10719 [1:12:04<29:16,  2.00it/s] 67%|██████▋   | 7205/10719 [1:12:05<29:12,  2.01it/s] 67%|██████▋   | 7206/10719 [1:12:05<29:17,  2.00it/s] 67%|██████▋   | 7207/10719 [1:12:06<29:13,  2.00it/s] 67%|██████▋   | 7208/10719 [1:12:06<29:13,  2.00it/s] 67%|██████▋   | 7209/10719 [1:12:07<29:13,  2.00it/s] 67%|██████▋   | 7210/10719 [1:12:07<29:12,  2.00it/s] 67%|██████▋   | 7211/10719 [1:12:08<29:12,  2.00it/s] 67%|██████▋   | 7212/10719 [1:12:08<29:10,  2.00it/s] 67%|██████▋   | 7213/10719 [1:12:09<29:09,  2.00it/s] 67%|██████▋   | 7214/10719 [1:12:09<29:12,  2.00it/s] 67%|██████▋   | 7215/10719 [1:12:10<29:10,  2.00it/s] 67%|██████▋   | 7216/10719 [1:12:10<29:07,  2.00it/s] 67%|██████▋   | 7217/10719 [1:12:11<29:08,  2.00it/s] 67%|██████▋   | 7218/10719 [1:12:11<29:07,  2.00it/s] 67%|██████▋   | 7219/10719 [1:12:12<29:07,  2.00it/s] 67%|██████▋   | 7220/10719 [1:12:12<29:05,  2.00it/s] 67%|██████▋   | 7221/10719 [1:12:13<29:05,  2.00it/s] 67%|██████▋   | 7222/10719 [1:12:13<29:02,  2.01it/s] 67%|██████▋   | 7223/10719 [1:12:14<29:00,  2.01it/s] 67%|██████▋   | 7224/10719 [1:12:14<29:00,  2.01it/s] 67%|██████▋   | 7225/10719 [1:12:15<28:56,  2.01it/s]                                                      {'loss': 3.5319, 'grad_norm': 0.2024632692337036, 'learning_rate': 0.00029022107667933417, 'epoch': 0.67}
- 67%|██████▋   | 7225/10719 [1:12:15<28:56,  2.01it/s] 67%|██████▋   | 7226/10719 [1:12:15<28:59,  2.01it/s] 67%|██████▋   | 7227/10719 [1:12:16<28:58,  2.01it/s] 67%|██████▋   | 7228/10719 [1:12:16<28:55,  2.01it/s] 67%|██████▋   | 7229/10719 [1:12:17<28:56,  2.01it/s] 67%|██████▋   | 7230/10719 [1:12:17<28:58,  2.01it/s] 67%|██████▋   | 7231/10719 [1:12:18<28:55,  2.01it/s] 67%|██████▋   | 7232/10719 [1:12:18<28:54,  2.01it/s] 67%|██████▋   | 7233/10719 [1:12:19<28:55,  2.01it/s] 67%|██████▋   | 7234/10719 [1:12:19<28:52,  2.01it/s] 67%|██████▋   | 7235/10719 [1:12:20<28:51,  2.01it/s] 68%|██████▊   | 7236/10719 [1:12:20<28:49,  2.01it/s] 68%|██████▊   | 7237/10719 [1:12:21<28:48,  2.01it/s] 68%|██████▊   | 7238/10719 [1:12:21<28:49,  2.01it/s] 68%|██████▊   | 7239/10719 [1:12:22<28:48,  2.01it/s] 68%|██████▊   | 7240/10719 [1:12:22<28:48,  2.01it/s] 68%|██████▊   | 7241/10719 [1:12:23<28:47,  2.01it/s] 68%|██████▊   | 7242/10719 [1:12:23<28:46,  2.01it/s] 68%|██████▊   | 7243/10719 [1:12:24<28:48,  2.01it/s] 68%|██████▊   | 7244/10719 [1:12:24<28:49,  2.01it/s] 68%|██████▊   | 7245/10719 [1:12:25<28:48,  2.01it/s] 68%|██████▊   | 7246/10719 [1:12:25<28:50,  2.01it/s] 68%|██████▊   | 7247/10719 [1:12:26<28:50,  2.01it/s] 68%|██████▊   | 7248/10719 [1:12:26<28:46,  2.01it/s] 68%|██████▊   | 7249/10719 [1:12:27<28:46,  2.01it/s] 68%|██████▊   | 7250/10719 [1:12:27<28:45,  2.01it/s]                                                      {'loss': 3.529, 'grad_norm': 0.1957005113363266, 'learning_rate': 0.00028653299159790604, 'epoch': 0.68}
- 68%|██████▊   | 7250/10719 [1:12:27<28:45,  2.01it/s] 68%|██████▊   | 7251/10719 [1:12:28<28:46,  2.01it/s] 68%|██████▊   | 7252/10719 [1:12:28<28:47,  2.01it/s] 68%|██████▊   | 7253/10719 [1:12:29<28:44,  2.01it/s] 68%|██████▊   | 7254/10719 [1:12:29<28:45,  2.01it/s] 68%|██████▊   | 7255/10719 [1:12:30<28:44,  2.01it/s] 68%|██████▊   | 7256/10719 [1:12:30<28:41,  2.01it/s] 68%|██████▊   | 7257/10719 [1:12:31<28:39,  2.01it/s] 68%|██████▊   | 7258/10719 [1:12:31<28:44,  2.01it/s] 68%|██████▊   | 7259/10719 [1:12:32<28:46,  2.00it/s] 68%|██████▊   | 7260/10719 [1:12:32<28:47,  2.00it/s] 68%|██████▊   | 7261/10719 [1:12:33<28:45,  2.00it/s] 68%|██████▊   | 7262/10719 [1:12:33<28:43,  2.01it/s] 68%|██████▊   | 7263/10719 [1:12:34<28:43,  2.01it/s] 68%|██████▊   | 7264/10719 [1:12:34<28:40,  2.01it/s] 68%|██████▊   | 7265/10719 [1:12:35<28:40,  2.01it/s] 68%|██████▊   | 7266/10719 [1:12:35<28:36,  2.01it/s] 68%|██████▊   | 7267/10719 [1:12:36<28:34,  2.01it/s] 68%|██████▊   | 7268/10719 [1:12:36<28:36,  2.01it/s] 68%|██████▊   | 7269/10719 [1:12:37<28:36,  2.01it/s] 68%|██████▊   | 7270/10719 [1:12:37<28:37,  2.01it/s] 68%|██████▊   | 7271/10719 [1:12:37<28:38,  2.01it/s] 68%|██████▊   | 7272/10719 [1:12:38<28:40,  2.00it/s] 68%|██████▊   | 7273/10719 [1:12:38<28:38,  2.01it/s] 68%|██████▊   | 7274/10719 [1:12:39<28:37,  2.01it/s] 68%|██████▊   | 7275/10719 [1:12:39<28:36,  2.01it/s]                                                      {'loss': 3.523, 'grad_norm': 0.21039560437202454, 'learning_rate': 0.0002828590554455874, 'epoch': 0.68}
- 68%|██████▊   | 7275/10719 [1:12:39<28:36,  2.01it/s] 68%|██████▊   | 7276/10719 [1:12:40<28:37,  2.00it/s] 68%|██████▊   | 7277/10719 [1:12:40<28:39,  2.00it/s] 68%|██████▊   | 7278/10719 [1:12:41<28:38,  2.00it/s] 68%|██████▊   | 7279/10719 [1:12:41<28:37,  2.00it/s] 68%|██████▊   | 7280/10719 [1:12:42<28:35,  2.00it/s] 68%|██████▊   | 7281/10719 [1:12:42<28:34,  2.00it/s] 68%|██████▊   | 7282/10719 [1:12:43<28:32,  2.01it/s] 68%|██████▊   | 7283/10719 [1:12:43<28:33,  2.01it/s] 68%|██████▊   | 7284/10719 [1:12:44<28:33,  2.00it/s] 68%|██████▊   | 7285/10719 [1:12:44<28:33,  2.00it/s] 68%|██████▊   | 7286/10719 [1:12:45<28:32,  2.00it/s] 68%|██████▊   | 7287/10719 [1:12:45<28:32,  2.00it/s] 68%|██████▊   | 7288/10719 [1:12:46<28:30,  2.01it/s] 68%|██████▊   | 7289/10719 [1:12:46<28:29,  2.01it/s] 68%|██████▊   | 7290/10719 [1:12:47<28:27,  2.01it/s] 68%|██████▊   | 7291/10719 [1:12:47<28:26,  2.01it/s] 68%|██████▊   | 7292/10719 [1:12:48<28:26,  2.01it/s] 68%|██████▊   | 7293/10719 [1:12:48<28:22,  2.01it/s] 68%|██████▊   | 7294/10719 [1:12:49<28:22,  2.01it/s] 68%|██████▊   | 7295/10719 [1:12:49<28:22,  2.01it/s] 68%|██████▊   | 7296/10719 [1:12:50<28:21,  2.01it/s] 68%|██████▊   | 7297/10719 [1:12:50<28:22,  2.01it/s] 68%|██████▊   | 7298/10719 [1:12:51<28:21,  2.01it/s] 68%|██████▊   | 7299/10719 [1:12:51<28:19,  2.01it/s] 68%|██████▊   | 7300/10719 [1:12:52<28:22,  2.01it/s]                                                      {'loss': 3.521, 'grad_norm': 0.20038020610809326, 'learning_rate': 0.00027919951173664573, 'epoch': 0.68}
- 68%|██████▊   | 7300/10719 [1:12:52<28:22,  2.01it/s] 68%|██████▊   | 7301/10719 [1:12:52<28:23,  2.01it/s] 68%|██████▊   | 7302/10719 [1:12:53<28:24,  2.00it/s] 68%|██████▊   | 7303/10719 [1:12:53<28:23,  2.01it/s] 68%|██████▊   | 7304/10719 [1:12:54<28:28,  2.00it/s] 68%|██████▊   | 7305/10719 [1:12:55<31:11,  1.82it/s] 68%|██████▊   | 7306/10719 [1:12:55<32:04,  1.77it/s] 68%|██████▊   | 7307/10719 [1:12:56<30:55,  1.84it/s] 68%|██████▊   | 7308/10719 [1:12:56<30:07,  1.89it/s] 68%|██████▊   | 7309/10719 [1:12:57<29:35,  1.92it/s] 68%|██████▊   | 7310/10719 [1:12:57<29:09,  1.95it/s] 68%|██████▊   | 7311/10719 [1:12:58<28:54,  1.97it/s] 68%|██████▊   | 7312/10719 [1:12:58<28:40,  1.98it/s] 68%|██████▊   | 7313/10719 [1:12:59<28:41,  1.98it/s] 68%|██████▊   | 7314/10719 [1:12:59<28:32,  1.99it/s] 68%|██████▊   | 7315/10719 [1:13:00<28:28,  1.99it/s] 68%|██████▊   | 7316/10719 [1:13:00<28:24,  2.00it/s] 68%|██████▊   | 7317/10719 [1:13:01<28:21,  2.00it/s] 68%|██████▊   | 7318/10719 [1:13:01<28:18,  2.00it/s] 68%|██████▊   | 7319/10719 [1:13:02<28:17,  2.00it/s] 68%|██████▊   | 7320/10719 [1:13:02<29:43,  1.91it/s] 68%|██████▊   | 7321/10719 [1:13:03<29:14,  1.94it/s] 68%|██████▊   | 7322/10719 [1:13:03<28:53,  1.96it/s] 68%|██████▊   | 7323/10719 [1:13:04<28:43,  1.97it/s] 68%|██████▊   | 7324/10719 [1:13:04<28:31,  1.98it/s] 68%|██████▊   | 7325/10719 [1:13:05<28:26,  1.99it/s]                                                      {'loss': 3.5331, 'grad_norm': 0.21451987326145172, 'learning_rate': 0.0002755546030313946, 'epoch': 0.68}
- 68%|██████▊   | 7325/10719 [1:13:05<28:26,  1.99it/s] 68%|██████▊   | 7326/10719 [1:13:05<28:24,  1.99it/s] 68%|██████▊   | 7327/10719 [1:13:06<28:20,  1.99it/s] 68%|██████▊   | 7328/10719 [1:13:06<28:16,  2.00it/s] 68%|██████▊   | 7329/10719 [1:13:07<28:13,  2.00it/s] 68%|██████▊   | 7330/10719 [1:13:07<28:09,  2.01it/s] 68%|██████▊   | 7331/10719 [1:13:08<28:11,  2.00it/s] 68%|██████▊   | 7332/10719 [1:13:08<28:08,  2.01it/s] 68%|██████▊   | 7333/10719 [1:13:09<28:10,  2.00it/s] 68%|██████▊   | 7334/10719 [1:13:09<28:11,  2.00it/s] 68%|██████▊   | 7335/10719 [1:13:10<28:09,  2.00it/s] 68%|██████▊   | 7336/10719 [1:13:10<28:07,  2.01it/s] 68%|██████▊   | 7337/10719 [1:13:11<28:06,  2.01it/s] 68%|██████▊   | 7338/10719 [1:13:11<28:02,  2.01it/s] 68%|██████▊   | 7339/10719 [1:13:12<28:03,  2.01it/s] 68%|██████▊   | 7340/10719 [1:13:12<28:01,  2.01it/s] 68%|██████▊   | 7341/10719 [1:13:13<28:01,  2.01it/s] 68%|██████▊   | 7342/10719 [1:13:13<28:00,  2.01it/s] 69%|██████▊   | 7343/10719 [1:13:14<28:01,  2.01it/s] 69%|██████▊   | 7344/10719 [1:13:14<28:00,  2.01it/s] 69%|██████▊   | 7345/10719 [1:13:15<27:58,  2.01it/s] 69%|██████▊   | 7346/10719 [1:13:15<27:58,  2.01it/s] 69%|██████▊   | 7347/10719 [1:13:16<27:57,  2.01it/s] 69%|██████▊   | 7348/10719 [1:13:16<27:56,  2.01it/s] 69%|██████▊   | 7349/10719 [1:13:17<27:57,  2.01it/s] 69%|██████▊   | 7350/10719 [1:13:17<27:57,  2.01it/s]                                                      {'loss': 3.5221, 'grad_norm': 0.20864003896713257, 'learning_rate': 0.0002719245709201165, 'epoch': 0.69}
- 69%|██████▊   | 7350/10719 [1:13:17<27:57,  2.01it/s] 69%|██████▊   | 7351/10719 [1:13:18<27:55,  2.01it/s] 69%|██████▊   | 7352/10719 [1:13:18<27:55,  2.01it/s] 69%|██████▊   | 7353/10719 [1:13:19<27:54,  2.01it/s] 69%|██████▊   | 7354/10719 [1:13:19<27:52,  2.01it/s] 69%|██████▊   | 7355/10719 [1:13:20<27:50,  2.01it/s] 69%|██████▊   | 7356/10719 [1:13:20<27:51,  2.01it/s] 69%|██████▊   | 7357/10719 [1:13:21<27:50,  2.01it/s] 69%|██████▊   | 7358/10719 [1:13:21<27:49,  2.01it/s] 69%|██████▊   | 7359/10719 [1:13:22<27:57,  2.00it/s] 69%|██████▊   | 7360/10719 [1:13:22<29:20,  1.91it/s] 69%|██████▊   | 7361/10719 [1:13:23<28:55,  1.94it/s] 69%|██████▊   | 7362/10719 [1:13:23<28:37,  1.95it/s] 69%|██████▊   | 7363/10719 [1:13:24<28:21,  1.97it/s] 69%|██████▊   | 7364/10719 [1:13:24<28:39,  1.95it/s] 69%|██████▊   | 7365/10719 [1:13:25<28:24,  1.97it/s] 69%|██████▊   | 7366/10719 [1:13:25<28:17,  1.98it/s] 69%|██████▊   | 7367/10719 [1:13:26<28:09,  1.98it/s] 69%|██████▊   | 7368/10719 [1:13:26<28:03,  1.99it/s] 69%|██████▊   | 7369/10719 [1:13:27<27:57,  2.00it/s] 69%|██████▉   | 7370/10719 [1:13:27<27:56,  2.00it/s] 69%|██████▉   | 7371/10719 [1:13:28<27:49,  2.01it/s] 69%|██████▉   | 7372/10719 [1:13:28<27:47,  2.01it/s] 69%|██████▉   | 7373/10719 [1:13:29<27:47,  2.01it/s] 69%|██████▉   | 7374/10719 [1:13:29<27:42,  2.01it/s] 69%|██████▉   | 7375/10719 [1:13:30<27:42,  2.01it/s]                                                      {'loss': 3.5211, 'grad_norm': 0.20263102650642395, 'learning_rate': 0.00026830965600704995, 'epoch': 0.69}
- 69%|██████▉   | 7375/10719 [1:13:30<27:42,  2.01it/s] 69%|██████▉   | 7376/10719 [1:13:30<27:42,  2.01it/s] 69%|██████▉   | 7377/10719 [1:13:31<27:40,  2.01it/s] 69%|██████▉   | 7378/10719 [1:13:31<27:39,  2.01it/s] 69%|██████▉   | 7379/10719 [1:13:32<27:35,  2.02it/s] 69%|██████▉   | 7380/10719 [1:13:32<27:37,  2.01it/s] 69%|██████▉   | 7381/10719 [1:13:33<27:41,  2.01it/s] 69%|██████▉   | 7382/10719 [1:13:33<27:40,  2.01it/s] 69%|██████▉   | 7383/10719 [1:13:34<27:41,  2.01it/s] 69%|██████▉   | 7384/10719 [1:13:34<27:41,  2.01it/s] 69%|██████▉   | 7385/10719 [1:13:35<27:39,  2.01it/s] 69%|██████▉   | 7386/10719 [1:13:35<27:43,  2.00it/s] 69%|██████▉   | 7387/10719 [1:13:36<27:44,  2.00it/s] 69%|██████▉   | 7388/10719 [1:13:36<27:44,  2.00it/s] 69%|██████▉   | 7389/10719 [1:13:37<27:42,  2.00it/s] 69%|██████▉   | 7390/10719 [1:13:37<27:41,  2.00it/s] 69%|██████▉   | 7391/10719 [1:13:38<27:41,  2.00it/s] 69%|██████▉   | 7392/10719 [1:13:38<27:40,  2.00it/s] 69%|██████▉   | 7393/10719 [1:13:39<27:51,  1.99it/s] 69%|██████▉   | 7394/10719 [1:13:39<27:50,  1.99it/s] 69%|██████▉   | 7395/10719 [1:13:40<27:45,  2.00it/s] 69%|██████▉   | 7396/10719 [1:13:40<27:41,  2.00it/s] 69%|██████▉   | 7397/10719 [1:13:41<27:40,  2.00it/s] 69%|██████▉   | 7398/10719 [1:13:41<27:39,  2.00it/s] 69%|██████▉   | 7399/10719 [1:13:42<27:37,  2.00it/s] 69%|██████▉   | 7400/10719 [1:13:42<27:35,  2.01it/s]                                                      {'loss': 3.5198, 'grad_norm': 0.2070077359676361, 'learning_rate': 0.0002647100978944422, 'epoch': 0.69}
- 69%|██████▉   | 7400/10719 [1:13:42<27:35,  2.01it/s] 69%|██████▉   | 7401/10719 [1:13:43<27:37,  2.00it/s] 69%|██████▉   | 7402/10719 [1:13:43<27:35,  2.00it/s] 69%|██████▉   | 7403/10719 [1:13:44<27:32,  2.01it/s] 69%|██████▉   | 7404/10719 [1:13:44<27:31,  2.01it/s] 69%|██████▉   | 7405/10719 [1:13:45<27:30,  2.01it/s] 69%|██████▉   | 7406/10719 [1:13:45<27:31,  2.01it/s] 69%|██████▉   | 7407/10719 [1:13:46<27:31,  2.01it/s] 69%|██████▉   | 7408/10719 [1:13:46<27:31,  2.00it/s] 69%|██████▉   | 7409/10719 [1:13:47<27:28,  2.01it/s] 69%|██████▉   | 7410/10719 [1:13:47<27:27,  2.01it/s] 69%|██████▉   | 7411/10719 [1:13:48<27:28,  2.01it/s] 69%|██████▉   | 7412/10719 [1:13:48<27:26,  2.01it/s] 69%|██████▉   | 7413/10719 [1:13:49<27:26,  2.01it/s] 69%|██████▉   | 7414/10719 [1:13:49<27:27,  2.01it/s] 69%|██████▉   | 7415/10719 [1:13:50<27:25,  2.01it/s] 69%|██████▉   | 7416/10719 [1:13:50<27:24,  2.01it/s] 69%|██████▉   | 7417/10719 [1:13:51<27:25,  2.01it/s] 69%|██████▉   | 7418/10719 [1:13:51<27:25,  2.01it/s] 69%|██████▉   | 7419/10719 [1:13:52<27:22,  2.01it/s] 69%|██████▉   | 7420/10719 [1:13:52<27:21,  2.01it/s] 69%|██████▉   | 7421/10719 [1:13:53<27:18,  2.01it/s] 69%|██████▉   | 7422/10719 [1:13:53<27:18,  2.01it/s] 69%|██████▉   | 7423/10719 [1:13:54<27:19,  2.01it/s] 69%|██████▉   | 7424/10719 [1:13:54<27:17,  2.01it/s] 69%|██████▉   | 7425/10719 [1:13:55<27:34,  1.99it/s]                                                      {'loss': 3.5241, 'grad_norm': 0.21720632910728455, 'learning_rate': 0.00026112613516666663, 'epoch': 0.69}
- 69%|██████▉   | 7425/10719 [1:13:55<27:34,  1.99it/s] 69%|██████▉   | 7426/10719 [1:13:55<27:28,  2.00it/s] 69%|██████▉   | 7427/10719 [1:13:56<27:24,  2.00it/s] 69%|██████▉   | 7428/10719 [1:13:56<27:18,  2.01it/s] 69%|██████▉   | 7429/10719 [1:13:57<27:15,  2.01it/s] 69%|██████▉   | 7430/10719 [1:13:57<27:14,  2.01it/s] 69%|██████▉   | 7431/10719 [1:13:58<27:19,  2.01it/s] 69%|██████▉   | 7432/10719 [1:13:58<27:19,  2.00it/s] 69%|██████▉   | 7433/10719 [1:13:59<27:26,  2.00it/s] 69%|██████▉   | 7434/10719 [1:13:59<28:22,  1.93it/s] 69%|██████▉   | 7435/10719 [1:14:00<28:00,  1.95it/s] 69%|██████▉   | 7436/10719 [1:14:00<27:45,  1.97it/s] 69%|██████▉   | 7437/10719 [1:14:01<27:36,  1.98it/s] 69%|██████▉   | 7438/10719 [1:14:01<27:29,  1.99it/s] 69%|██████▉   | 7439/10719 [1:14:02<27:23,  2.00it/s] 69%|██████▉   | 7440/10719 [1:14:02<27:22,  2.00it/s] 69%|██████▉   | 7441/10719 [1:14:03<27:20,  2.00it/s] 69%|██████▉   | 7442/10719 [1:14:03<27:19,  2.00it/s] 69%|██████▉   | 7443/10719 [1:14:04<27:16,  2.00it/s] 69%|██████▉   | 7444/10719 [1:14:04<27:17,  2.00it/s] 69%|██████▉   | 7445/10719 [1:14:05<27:15,  2.00it/s] 69%|██████▉   | 7446/10719 [1:14:05<27:12,  2.00it/s] 69%|██████▉   | 7447/10719 [1:14:06<27:11,  2.01it/s] 69%|██████▉   | 7448/10719 [1:14:06<27:09,  2.01it/s] 69%|██████▉   | 7449/10719 [1:14:07<27:09,  2.01it/s] 70%|██████▉   | 7450/10719 [1:14:07<27:08,  2.01it/s]                                                      {'loss': 3.5227, 'grad_norm': 0.21472445130348206, 'learning_rate': 0.0002575580053744112, 'epoch': 0.7}
- 70%|██████▉   | 7450/10719 [1:14:07<27:08,  2.01it/s] 70%|██████▉   | 7451/10719 [1:14:08<27:10,  2.00it/s] 70%|██████▉   | 7452/10719 [1:14:08<27:09,  2.01it/s] 70%|██████▉   | 7453/10719 [1:14:09<27:08,  2.01it/s] 70%|██████▉   | 7454/10719 [1:14:09<27:08,  2.01it/s] 70%|██████▉   | 7455/10719 [1:14:10<27:06,  2.01it/s] 70%|██████▉   | 7456/10719 [1:14:10<27:04,  2.01it/s] 70%|██████▉   | 7457/10719 [1:14:11<27:06,  2.01it/s] 70%|██████▉   | 7458/10719 [1:14:11<27:06,  2.01it/s] 70%|██████▉   | 7459/10719 [1:14:12<27:04,  2.01it/s] 70%|██████▉   | 7460/10719 [1:14:12<27:03,  2.01it/s] 70%|██████▉   | 7461/10719 [1:14:13<27:05,  2.00it/s] 70%|██████▉   | 7462/10719 [1:14:13<27:05,  2.00it/s] 70%|██████▉   | 7463/10719 [1:14:14<27:01,  2.01it/s] 70%|██████▉   | 7464/10719 [1:14:14<27:01,  2.01it/s] 70%|██████▉   | 7465/10719 [1:14:15<27:00,  2.01it/s] 70%|██████▉   | 7466/10719 [1:14:15<26:57,  2.01it/s] 70%|██████▉   | 7467/10719 [1:14:16<26:56,  2.01it/s] 70%|██████▉   | 7468/10719 [1:14:16<26:54,  2.01it/s] 70%|██████▉   | 7469/10719 [1:14:17<26:56,  2.01it/s] 70%|██████▉   | 7470/10719 [1:14:17<26:56,  2.01it/s] 70%|██████▉   | 7471/10719 [1:14:18<26:54,  2.01it/s] 70%|██████▉   | 7472/10719 [1:14:18<26:56,  2.01it/s] 70%|██████▉   | 7473/10719 [1:14:19<27:16,  1.98it/s] 70%|██████▉   | 7474/10719 [1:14:19<27:26,  1.97it/s] 70%|██████▉   | 7475/10719 [1:14:20<27:15,  1.98it/s]                                                      {'loss': 3.5179, 'grad_norm': 0.19160844385623932, 'learning_rate': 0.0002540059450189306, 'epoch': 0.7}
- 70%|██████▉   | 7475/10719 [1:14:20<27:15,  1.98it/s] 70%|██████▉   | 7476/10719 [1:14:20<27:11,  1.99it/s] 70%|██████▉   | 7477/10719 [1:14:21<27:06,  1.99it/s] 70%|██████▉   | 7478/10719 [1:14:21<27:01,  2.00it/s] 70%|██████▉   | 7479/10719 [1:14:22<27:00,  2.00it/s] 70%|██████▉   | 7480/10719 [1:14:22<26:58,  2.00it/s] 70%|██████▉   | 7481/10719 [1:14:23<26:52,  2.01it/s] 70%|██████▉   | 7482/10719 [1:14:23<26:52,  2.01it/s] 70%|██████▉   | 7483/10719 [1:14:24<26:49,  2.01it/s] 70%|██████▉   | 7484/10719 [1:14:24<27:55,  1.93it/s] 70%|██████▉   | 7485/10719 [1:14:25<27:38,  1.95it/s] 70%|██████▉   | 7486/10719 [1:14:25<27:23,  1.97it/s] 70%|██████▉   | 7487/10719 [1:14:26<27:11,  1.98it/s] 70%|██████▉   | 7488/10719 [1:14:26<27:04,  1.99it/s] 70%|██████▉   | 7489/10719 [1:14:27<26:57,  2.00it/s] 70%|██████▉   | 7490/10719 [1:14:27<26:51,  2.00it/s] 70%|██████▉   | 7491/10719 [1:14:28<26:50,  2.00it/s] 70%|██████▉   | 7492/10719 [1:14:28<26:48,  2.01it/s] 70%|██████▉   | 7493/10719 [1:14:29<26:47,  2.01it/s] 70%|██████▉   | 7494/10719 [1:14:29<26:44,  2.01it/s] 70%|██████▉   | 7495/10719 [1:14:30<26:45,  2.01it/s] 70%|██████▉   | 7496/10719 [1:14:30<26:44,  2.01it/s] 70%|██████▉   | 7497/10719 [1:14:31<26:42,  2.01it/s] 70%|██████▉   | 7498/10719 [1:14:31<26:42,  2.01it/s] 70%|██████▉   | 7499/10719 [1:14:32<26:39,  2.01it/s] 70%|██████▉   | 7500/10719 [1:14:32<26:40,  2.01it/s]                                                      {'loss': 3.5114, 'grad_norm': 0.2161058783531189, 'learning_rate': 0.0002504701895363735, 'epoch': 0.7}
- 70%|██████▉   | 7500/10719 [1:14:32<26:40,  2.01it/s] 70%|██████▉   | 7501/10719 [1:14:33<26:45,  2.00it/s] 70%|██████▉   | 7502/10719 [1:14:34<31:55,  1.68it/s] 70%|██████▉   | 7503/10719 [1:14:34<30:21,  1.77it/s] 70%|███████   | 7504/10719 [1:14:35<29:16,  1.83it/s] 70%|███████   | 7505/10719 [1:14:35<28:30,  1.88it/s] 70%|███████   | 7506/10719 [1:14:36<27:53,  1.92it/s] 70%|███████   | 7507/10719 [1:14:36<27:32,  1.94it/s] 70%|███████   | 7508/10719 [1:14:37<27:14,  1.96it/s] 70%|███████   | 7509/10719 [1:14:37<27:01,  1.98it/s] 70%|███████   | 7510/10719 [1:14:38<26:52,  1.99it/s] 70%|███████   | 7511/10719 [1:14:38<26:45,  2.00it/s] 70%|███████   | 7512/10719 [1:14:39<26:41,  2.00it/s] 70%|███████   | 7513/10719 [1:14:39<26:36,  2.01it/s] 70%|███████   | 7514/10719 [1:14:40<26:33,  2.01it/s] 70%|███████   | 7515/10719 [1:14:40<26:34,  2.01it/s] 70%|███████   | 7516/10719 [1:14:41<26:35,  2.01it/s] 70%|███████   | 7517/10719 [1:14:41<26:35,  2.01it/s] 70%|███████   | 7518/10719 [1:14:42<26:36,  2.01it/s] 70%|███████   | 7519/10719 [1:14:42<26:34,  2.01it/s] 70%|███████   | 7520/10719 [1:14:43<26:33,  2.01it/s] 70%|███████   | 7521/10719 [1:14:43<26:32,  2.01it/s] 70%|███████   | 7522/10719 [1:14:44<26:31,  2.01it/s] 70%|███████   | 7523/10719 [1:14:44<26:30,  2.01it/s] 70%|███████   | 7524/10719 [1:14:45<26:31,  2.01it/s] 70%|███████   | 7525/10719 [1:14:45<26:31,  2.01it/s]                                                      {'loss': 3.5058, 'grad_norm': 0.20202705264091492, 'learning_rate': 0.0002469509732821745, 'epoch': 0.7}
- 70%|███████   | 7525/10719 [1:14:45<26:31,  2.01it/s] 70%|███████   | 7526/10719 [1:14:45<26:31,  2.01it/s] 70%|███████   | 7527/10719 [1:14:46<26:30,  2.01it/s] 70%|███████   | 7528/10719 [1:14:46<26:31,  2.01it/s] 70%|███████   | 7529/10719 [1:14:47<26:29,  2.01it/s] 70%|███████   | 7530/10719 [1:14:47<26:28,  2.01it/s] 70%|███████   | 7531/10719 [1:14:48<26:27,  2.01it/s] 70%|███████   | 7532/10719 [1:14:49<26:40,  1.99it/s] 70%|███████   | 7533/10719 [1:14:49<31:28,  1.69it/s] 70%|███████   | 7534/10719 [1:14:50<29:59,  1.77it/s] 70%|███████   | 7535/10719 [1:14:50<28:55,  1.83it/s] 70%|███████   | 7536/10719 [1:14:51<28:09,  1.88it/s] 70%|███████   | 7537/10719 [1:14:51<27:38,  1.92it/s] 70%|███████   | 7538/10719 [1:14:52<27:15,  1.95it/s] 70%|███████   | 7539/10719 [1:14:52<26:56,  1.97it/s] 70%|███████   | 7540/10719 [1:14:53<26:45,  1.98it/s] 70%|███████   | 7541/10719 [1:14:53<26:38,  1.99it/s] 70%|███████   | 7542/10719 [1:14:54<26:29,  2.00it/s] 70%|███████   | 7543/10719 [1:14:54<26:25,  2.00it/s] 70%|███████   | 7544/10719 [1:14:55<29:10,  1.81it/s] 70%|███████   | 7545/10719 [1:14:55<28:20,  1.87it/s] 70%|███████   | 7546/10719 [1:14:56<27:45,  1.91it/s] 70%|███████   | 7547/10719 [1:14:56<27:20,  1.93it/s] 70%|███████   | 7548/10719 [1:14:57<27:03,  1.95it/s] 70%|███████   | 7549/10719 [1:14:57<26:51,  1.97it/s] 70%|███████   | 7550/10719 [1:14:58<26:40,  1.98it/s]                                                      {'loss': 3.5107, 'grad_norm': 0.20251981914043427, 'learning_rate': 0.0002434485295155232, 'epoch': 0.7}
- 70%|███████   | 7550/10719 [1:14:58<26:40,  1.98it/s] 70%|███████   | 7551/10719 [1:14:58<26:34,  1.99it/s] 70%|███████   | 7552/10719 [1:14:59<26:32,  1.99it/s] 70%|███████   | 7553/10719 [1:14:59<26:27,  1.99it/s] 70%|███████   | 7554/10719 [1:15:00<26:21,  2.00it/s] 70%|███████   | 7555/10719 [1:15:00<26:21,  2.00it/s] 70%|███████   | 7556/10719 [1:15:01<26:22,  2.00it/s] 71%|███████   | 7557/10719 [1:15:01<27:13,  1.94it/s] 71%|███████   | 7558/10719 [1:15:02<28:36,  1.84it/s] 71%|███████   | 7559/10719 [1:15:03<27:54,  1.89it/s] 71%|███████   | 7560/10719 [1:15:03<27:23,  1.92it/s] 71%|███████   | 7561/10719 [1:15:04<27:00,  1.95it/s] 71%|███████   | 7562/10719 [1:15:04<26:46,  1.97it/s] 71%|███████   | 7563/10719 [1:15:05<26:34,  1.98it/s] 71%|███████   | 7564/10719 [1:15:05<26:27,  1.99it/s] 71%|███████   | 7565/10719 [1:15:06<26:23,  1.99it/s] 71%|███████   | 7566/10719 [1:15:06<26:18,  2.00it/s] 71%|███████   | 7567/10719 [1:15:07<26:14,  2.00it/s] 71%|███████   | 7568/10719 [1:15:07<26:13,  2.00it/s] 71%|███████   | 7569/10719 [1:15:08<26:09,  2.01it/s] 71%|███████   | 7570/10719 [1:15:08<26:08,  2.01it/s] 71%|███████   | 7571/10719 [1:15:09<26:07,  2.01it/s] 71%|███████   | 7572/10719 [1:15:09<26:10,  2.00it/s] 71%|███████   | 7573/10719 [1:15:10<26:07,  2.01it/s] 71%|███████   | 7574/10719 [1:15:10<26:07,  2.01it/s] 71%|███████   | 7575/10719 [1:15:11<26:06,  2.01it/s]                                                      {'loss': 3.5084, 'grad_norm': 0.2032873034477234, 'learning_rate': 0.00023996309038390196, 'epoch': 0.71}
- 71%|███████   | 7575/10719 [1:15:11<26:06,  2.01it/s] 71%|███████   | 7576/10719 [1:15:11<26:06,  2.01it/s] 71%|███████   | 7577/10719 [1:15:12<26:04,  2.01it/s] 71%|███████   | 7578/10719 [1:15:12<26:04,  2.01it/s] 71%|███████   | 7579/10719 [1:15:13<26:03,  2.01it/s] 71%|███████   | 7580/10719 [1:15:13<26:02,  2.01it/s] 71%|███████   | 7581/10719 [1:15:14<26:01,  2.01it/s] 71%|███████   | 7582/10719 [1:15:14<26:00,  2.01it/s] 71%|███████   | 7583/10719 [1:15:15<25:59,  2.01it/s] 71%|███████   | 7584/10719 [1:15:15<25:58,  2.01it/s] 71%|███████   | 7585/10719 [1:15:16<25:57,  2.01it/s] 71%|███████   | 7586/10719 [1:15:16<25:56,  2.01it/s] 71%|█���█████   | 7587/10719 [1:15:17<25:55,  2.01it/s] 71%|███████   | 7588/10719 [1:15:17<25:56,  2.01it/s] 71%|███████   | 7589/10719 [1:15:18<25:54,  2.01it/s] 71%|███████   | 7590/10719 [1:15:18<25:53,  2.01it/s] 71%|███████   | 7591/10719 [1:15:19<25:51,  2.02it/s] 71%|███████   | 7592/10719 [1:15:19<25:51,  2.02it/s] 71%|███████   | 7593/10719 [1:15:20<25:50,  2.02it/s] 71%|███████   | 7594/10719 [1:15:20<25:49,  2.02it/s] 71%|███████   | 7595/10719 [1:15:21<25:50,  2.01it/s] 71%|███████   | 7596/10719 [1:15:21<25:52,  2.01it/s] 71%|███████   | 7597/10719 [1:15:22<25:54,  2.01it/s] 71%|███████   | 7598/10719 [1:15:22<25:55,  2.01it/s] 71%|███████   | 7599/10719 [1:15:23<25:55,  2.01it/s] 71%|███████   | 7600/10719 [1:15:23<25:54,  2.01it/s]                                                      {'loss': 3.51, 'grad_norm': 0.20794373750686646, 'learning_rate': 0.000236494886907699, 'epoch': 0.71}
- 71%|███████   | 7600/10719 [1:15:23<25:54,  2.01it/s] 71%|███████   | 7601/10719 [1:15:23<25:54,  2.01it/s] 71%|███████   | 7602/10719 [1:15:24<25:56,  2.00it/s] 71%|███████   | 7603/10719 [1:15:24<25:56,  2.00it/s] 71%|███████   | 7604/10719 [1:15:25<25:53,  2.00it/s] 71%|███████   | 7605/10719 [1:15:25<25:52,  2.01it/s] 71%|███████   | 7606/10719 [1:15:26<25:55,  2.00it/s] 71%|███████   | 7607/10719 [1:15:26<25:51,  2.01it/s] 71%|███████   | 7608/10719 [1:15:27<25:50,  2.01it/s] 71%|███████   | 7609/10719 [1:15:27<25:48,  2.01it/s] 71%|███████   | 7610/10719 [1:15:28<25:48,  2.01it/s] 71%|███████   | 7611/10719 [1:15:28<25:48,  2.01it/s] 71%|███████   | 7612/10719 [1:15:29<25:51,  2.00it/s] 71%|███████   | 7613/10719 [1:15:29<25:51,  2.00it/s] 71%|███████   | 7614/10719 [1:15:30<25:50,  2.00it/s] 71%|███████   | 7615/10719 [1:15:30<25:49,  2.00it/s] 71%|███████   | 7616/10719 [1:15:31<25:49,  2.00it/s] 71%|███████   | 7617/10719 [1:15:31<25:48,  2.00it/s] 71%|███████   | 7618/10719 [1:15:32<25:45,  2.01it/s] 71%|███████   | 7619/10719 [1:15:32<25:44,  2.01it/s] 71%|███████   | 7620/10719 [1:15:33<25:44,  2.01it/s] 71%|███████   | 7621/10719 [1:15:33<25:44,  2.01it/s] 71%|███████   | 7622/10719 [1:15:34<25:44,  2.00it/s] 71%|███████   | 7623/10719 [1:15:34<25:45,  2.00it/s] 71%|███████   | 7624/10719 [1:15:35<25:44,  2.00it/s] 71%|███████   | 7625/10719 [1:15:35<25:42,  2.01it/s]                                                      {'loss': 3.5091, 'grad_norm': 0.2000943273305893, 'learning_rate': 0.00023304414896489645, 'epoch': 0.71}
- 71%|███████   | 7625/10719 [1:15:35<25:42,  2.01it/s] 71%|███████   | 7626/10719 [1:15:36<25:43,  2.00it/s] 71%|███████   | 7627/10719 [1:15:36<25:42,  2.00it/s] 71%|███████   | 7628/10719 [1:15:37<25:39,  2.01it/s] 71%|███████   | 7629/10719 [1:15:37<25:38,  2.01it/s] 71%|███████   | 7630/10719 [1:15:38<25:37,  2.01it/s] 71%|███████   | 7631/10719 [1:15:38<25:37,  2.01it/s] 71%|███████   | 7632/10719 [1:15:39<25:37,  2.01it/s] 71%|███████   | 7633/10719 [1:15:39<25:39,  2.00it/s] 71%|███████   | 7634/10719 [1:15:40<25:39,  2.00it/s] 71%|███████   | 7635/10719 [1:15:40<25:39,  2.00it/s] 71%|███████   | 7636/10719 [1:15:41<25:41,  2.00it/s] 71%|███████   | 7637/10719 [1:15:41<25:39,  2.00it/s] 71%|███████▏  | 7638/10719 [1:15:42<25:39,  2.00it/s] 71%|███████▏  | 7639/10719 [1:15:42<25:37,  2.00it/s] 71%|███████▏  | 7640/10719 [1:15:43<26:17,  1.95it/s] 71%|███████▏  | 7641/10719 [1:15:44<27:22,  1.87it/s] 71%|███████▏  | 7642/10719 [1:15:44<26:50,  1.91it/s] 71%|███████▏  | 7643/10719 [1:15:45<26:25,  1.94it/s] 71%|███████▏  | 7644/10719 [1:15:45<26:09,  1.96it/s] 71%|███████▏  | 7645/10719 [1:15:46<25:58,  1.97it/s] 71%|███████▏  | 7646/10719 [1:15:46<25:53,  1.98it/s] 71%|███████▏  | 7647/10719 [1:15:47<25:47,  1.99it/s] 71%|███████▏  | 7648/10719 [1:15:47<25:40,  1.99it/s] 71%|███████▏  | 7649/10719 [1:15:48<25:37,  2.00it/s] 71%|███████▏  | 7650/10719 [1:15:48<25:33,  2.00it/s]                                                      {'loss': 3.5033, 'grad_norm': 0.20686596632003784, 'learning_rate': 0.00022961110527583328, 'epoch': 0.71}
- 71%|███████▏  | 7650/10719 [1:15:48<25:33,  2.00it/s] 71%|███████▏  | 7651/10719 [1:15:49<25:32,  2.00it/s] 71%|███████▏  | 7652/10719 [1:15:49<25:30,  2.00it/s] 71%|███████▏  | 7653/10719 [1:15:50<25:29,  2.00it/s] 71%|███████▏  | 7654/10719 [1:15:50<25:24,  2.01it/s] 71%|███████▏  | 7655/10719 [1:15:51<25:25,  2.01it/s] 71%|███████▏  | 7656/10719 [1:15:51<25:24,  2.01it/s] 71%|███████▏  | 7657/10719 [1:15:52<25:21,  2.01it/s] 71%|███████▏  | 7658/10719 [1:15:52<25:21,  2.01it/s] 71%|███████▏  | 7659/10719 [1:15:53<25:19,  2.01it/s] 71%|███████▏  | 7660/10719 [1:15:53<25:19,  2.01it/s] 71%|███████▏  | 7661/10719 [1:15:54<25:18,  2.01it/s] 71%|███████▏  | 7662/10719 [1:15:54<25:18,  2.01it/s] 71%|███████▏  | 7663/10719 [1:15:55<26:33,  1.92it/s] 71%|███████▏  | 7664/10719 [1:15:55<26:08,  1.95it/s] 72%|███████▏  | 7665/10719 [1:15:56<25:50,  1.97it/s] 72%|███████▏  | 7666/10719 [1:15:56<25:39,  1.98it/s] 72%|███████▏  | 7667/10719 [1:15:57<25:29,  2.00it/s] 72%|███████▏  | 7668/10719 [1:15:57<25:22,  2.00it/s] 72%|███████▏  | 7669/10719 [1:15:58<25:17,  2.01it/s] 72%|███████▏  | 7670/10719 [1:15:58<25:16,  2.01it/s] 72%|███████▏  | 7671/10719 [1:15:59<25:12,  2.02it/s] 72%|███████▏  | 7672/10719 [1:15:59<25:12,  2.01it/s] 72%|███████▏  | 7673/10719 [1:16:00<25:12,  2.01it/s] 72%|███████▏  | 7674/10719 [1:16:00<25:09,  2.02it/s] 72%|███████▏  | 7675/10719 [1:16:01<25:09,  2.02it/s]                                                      {'loss': 3.5071, 'grad_norm': 0.20822691917419434, 'learning_rate': 0.00022619598338804553, 'epoch': 0.72}
- 72%|███████▏  | 7675/10719 [1:16:01<25:09,  2.02it/s] 72%|███████▏  | 7676/10719 [1:16:01<25:08,  2.02it/s] 72%|███████▏  | 7677/10719 [1:16:02<25:07,  2.02it/s] 72%|███████▏  | 7678/10719 [1:16:02<25:04,  2.02it/s] 72%|███████▏  | 7679/10719 [1:16:03<25:03,  2.02it/s] 72%|███████▏  | 7680/10719 [1:16:03<25:02,  2.02it/s] 72%|███████▏  | 7681/10719 [1:16:04<25:04,  2.02it/s] 72%|███████▏  | 7682/10719 [1:16:04<25:03,  2.02it/s] 72%|███████▏  | 7683/10719 [1:16:05<25:06,  2.01it/s] 72%|███████▏  | 7684/10719 [1:16:05<25:18,  2.00it/s] 72%|███████▏  | 7685/10719 [1:16:06<25:16,  2.00it/s] 72%|███████▏  | 7686/10719 [1:16:06<25:15,  2.00it/s] 72%|███████▏  | 7687/10719 [1:16:07<25:13,  2.00it/s] 72%|███████▏  | 7688/10719 [1:16:07<25:11,  2.01it/s] 72%|███████▏  | 7689/10719 [1:16:08<25:10,  2.01it/s] 72%|███████▏  | 7690/10719 [1:16:08<25:09,  2.01it/s] 72%|███████▏  | 7691/10719 [1:16:09<25:10,  2.00it/s] 72%|███████▏  | 7692/10719 [1:16:09<25:11,  2.00it/s] 72%|███████▏  | 7693/10719 [1:16:10<25:12,  2.00it/s] 72%|███████▏  | 7694/10719 [1:16:10<25:12,  2.00it/s] 72%|███████▏  | 7695/10719 [1:16:11<25:11,  2.00it/s] 72%|███████▏  | 7696/10719 [1:16:11<25:11,  2.00it/s] 72%|███████▏  | 7697/10719 [1:16:12<25:10,  2.00it/s] 72%|███████▏  | 7698/10719 [1:16:12<25:08,  2.00it/s] 72%|███████▏  | 7699/10719 [1:16:13<25:08,  2.00it/s] 72%|███████▏  | 7700/10719 [1:16:13<25:07,  2.00it/s]                                                      {'loss': 3.5063, 'grad_norm': 0.21032819151878357, 'learning_rate': 0.00022279900966118405, 'epoch': 0.72}
- 72%|███████▏  | 7700/10719 [1:16:13<25:07,  2.00it/s] 72%|███████▏  | 7701/10719 [1:16:14<25:08,  2.00it/s] 72%|███████▏  | 7702/10719 [1:16:14<25:05,  2.00it/s] 72%|███████▏  | 7703/10719 [1:16:15<25:05,  2.00it/s] 72%|███████▏  | 7704/10719 [1:16:15<25:03,  2.01it/s] 72%|███████▏  | 7705/10719 [1:16:16<25:01,  2.01it/s] 72%|███████▏  | 7706/10719 [1:16:16<25:00,  2.01it/s] 72%|███████▏  | 7707/10719 [1:16:17<24:59,  2.01it/s] 72%|███████▏  | 7708/10719 [1:16:17<25:00,  2.01it/s] 72%|███████▏  | 7709/10719 [1:16:18<25:01,  2.01it/s] 72%|███████▏  | 7710/10719 [1:16:18<25:01,  2.00it/s] 72%|███████▏  | 7711/10719 [1:16:18<24:59,  2.01it/s] 72%|███████▏  | 7712/10719 [1:16:19<24:59,  2.01it/s] 72%|███████▏  | 7713/10719 [1:16:19<24:58,  2.01it/s] 72%|███████▏  | 7714/10719 [1:16:20<24:58,  2.01it/s] 72%|███████▏  | 7715/10719 [1:16:20<24:56,  2.01it/s] 72%|███████▏  | 7716/10719 [1:16:21<25:17,  1.98it/s] 72%|███████▏  | 7717/10719 [1:16:22<25:11,  1.99it/s] 72%|███████▏  | 7718/10719 [1:16:22<25:06,  1.99it/s] 72%|███████▏  | 7719/10719 [1:16:23<25:04,  1.99it/s] 72%|███████▏  | 7720/10719 [1:16:23<25:00,  2.00it/s] 72%|███████▏  | 7721/10719 [1:16:24<24:59,  2.00it/s] 72%|███████▏  | 7722/10719 [1:16:24<24:55,  2.00it/s] 72%|███████▏  | 7723/10719 [1:16:25<25:01,  2.00it/s] 72%|███████▏  | 7724/10719 [1:16:25<24:59,  2.00it/s] 72%|███████▏  | 7725/10719 [1:16:26<24:57,  2.00it/s]                                                      {'loss': 3.5059, 'grad_norm': 0.20355768501758575, 'learning_rate': 0.000219420409252011, 'epoch': 0.72}
- 72%|███████▏  | 7725/10719 [1:16:26<24:57,  2.00it/s] 72%|███████▏  | 7726/10719 [1:16:26<24:56,  2.00it/s] 72%|███████▏  | 7727/10719 [1:16:27<24:54,  2.00it/s] 72%|███████▏  | 7728/10719 [1:16:27<24:51,  2.01it/s] 72%|███████▏  | 7729/10719 [1:16:28<24:48,  2.01it/s] 72%|███████▏  | 7730/10719 [1:16:28<24:47,  2.01it/s] 72%|███████▏  | 7731/10719 [1:16:28<24:48,  2.01it/s] 72%|███████▏  | 7732/10719 [1:16:29<24:50,  2.00it/s] 72%|███████▏  | 7733/10719 [1:16:29<24:49,  2.00it/s] 72%|███████▏  | 7734/10719 [1:16:30<24:47,  2.01it/s] 72%|███████▏  | 7735/10719 [1:16:30<24:46,  2.01it/s] 72%|███████▏  | 7736/10719 [1:16:31<24:44,  2.01it/s] 72%|███████▏  | 7737/10719 [1:16:31<24:44,  2.01it/s] 72%|███████▏  | 7738/10719 [1:16:32<24:44,  2.01it/s] 72%|███████▏  | 7739/10719 [1:16:32<24:44,  2.01it/s] 72%|███████▏  | 7740/10719 [1:16:33<24:44,  2.01it/s] 72%|███████▏  | 7741/10719 [1:16:33<24:45,  2.01it/s] 72%|███████▏  | 7742/10719 [1:16:34<24:47,  2.00it/s] 72%|███████▏  | 7743/10719 [1:16:34<24:45,  2.00it/s] 72%|███████▏  | 7744/10719 [1:16:35<24:44,  2.00it/s] 72%|███████▏  | 7745/10719 [1:16:35<24:42,  2.01it/s] 72%|███████▏  | 7746/10719 [1:16:36<24:40,  2.01it/s] 72%|███████▏  | 7747/10719 [1:16:36<24:39,  2.01it/s] 72%|███████▏  | 7748/10719 [1:16:37<24:40,  2.01it/s] 72%|███████▏  | 7749/10719 [1:16:38<25:26,  1.95it/s] 72%|███████▏  | 7750/10719 [1:16:38<25:34,  1.93it/s]{'loss': 3.5038, 'grad_norm': 0.2120954394340515, 'learning_rate': 0.00021606040609947625, 'epoch': 0.72}
-                                                       72%|███████▏  | 7750/10719 [1:16:38<25:34,  1.93it/s] 72%|███████▏  | 7751/10719 [1:16:39<25:43,  1.92it/s] 72%|███████▏  | 7752/10719 [1:16:39<25:26,  1.94it/s] 72%|███████▏  | 7753/10719 [1:16:40<25:11,  1.96it/s] 72%|███████▏  | 7754/10719 [1:16:40<25:02,  1.97it/s] 72%|███████▏  | 7755/10719 [1:16:41<24:54,  1.98it/s] 72%|███████▏  | 7756/10719 [1:16:41<24:51,  1.99it/s] 72%|███████▏  | 7757/10719 [1:16:42<24:47,  1.99it/s] 72%|███████▏  | 7758/10719 [1:16:42<24:44,  1.99it/s] 72%|███████▏  | 7759/10719 [1:16:43<24:40,  2.00it/s] 72%|███████▏  | 7760/10719 [1:16:43<24:36,  2.00it/s] 72%|███████▏  | 7761/10719 [1:16:44<24:35,  2.00it/s] 72%|███████▏  | 7762/10719 [1:16:44<24:33,  2.01it/s] 72%|███████▏  | 7763/10719 [1:16:45<24:36,  2.00it/s] 72%|███████▏  | 7764/10719 [1:16:45<24:35,  2.00it/s] 72%|███████▏  | 7765/10719 [1:16:46<24:35,  2.00it/s] 72%|███████▏  | 7766/10719 [1:16:46<24:43,  1.99it/s] 72%|███████▏  | 7767/10719 [1:16:47<24:41,  1.99it/s] 72%|███████▏  | 7768/10719 [1:16:47<24:37,  2.00it/s] 72%|███████▏  | 7769/10719 [1:16:48<24:34,  2.00it/s] 72%|███████▏  | 7770/10719 [1:16:48<24:34,  2.00it/s] 72%|███████▏  | 7771/10719 [1:16:49<24:33,  2.00it/s] 73%|███████▎  | 7772/10719 [1:16:49<24:32,  2.00it/s] 73%|███████▎  | 7773/10719 [1:16:50<24:31,  2.00it/s] 73%|███████▎  | 7774/10719 [1:16:50<24:32,  2.00it/s] 73%|███████▎  | 7775/10719 [1:16:51<24:31,  2.00it/s]                                                      {'loss': 3.5128, 'grad_norm': 0.20592275261878967, 'learning_rate': 0.00021271922290987417, 'epoch': 0.73}
- 73%|███████▎  | 7775/10719 [1:16:51<24:31,  2.00it/s] 73%|███████▎  | 7776/10719 [1:16:51<24:33,  2.00it/s] 73%|███████▎  | 7777/10719 [1:16:52<24:31,  2.00it/s] 73%|███████▎  | 7778/10719 [1:16:52<24:31,  2.00it/s] 73%|███████▎  | 7779/10719 [1:16:53<24:30,  2.00it/s] 73%|███████▎  | 7780/10719 [1:16:53<24:30,  2.00it/s] 73%|███████▎  | 7781/10719 [1:16:54<24:31,  2.00it/s] 73%|███████▎  | 7782/10719 [1:16:54<24:48,  1.97it/s] 73%|███████▎  | 7783/10719 [1:16:55<26:42,  1.83it/s] 73%|███████▎  | 7784/10719 [1:16:55<26:25,  1.85it/s] 73%|███████▎  | 7785/10719 [1:16:56<25:49,  1.89it/s] 73%|███████▎  | 7786/10719 [1:16:56<25:23,  1.93it/s] 73%|███████▎  | 7787/10719 [1:16:57<25:06,  1.95it/s] 73%|███████▎  | 7788/10719 [1:16:57<24:56,  1.96it/s] 73%|███████▎  | 7789/10719 [1:16:58<24:44,  1.97it/s] 73%|███████▎  | 7790/10719 [1:16:58<24:36,  1.98it/s] 73%|███████▎  | 7791/10719 [1:16:59<24:33,  1.99it/s] 73%|███████▎  | 7792/10719 [1:16:59<24:28,  1.99it/s] 73%|███████▎  | 7793/10719 [1:17:00<24:23,  2.00it/s] 73%|███████▎  | 7794/10719 [1:17:00<24:21,  2.00it/s] 73%|███████▎  | 7795/10719 [1:17:01<24:21,  2.00it/s] 73%|███████▎  | 7796/10719 [1:17:01<24:20,  2.00it/s] 73%|███████▎  | 7797/10719 [1:17:02<24:20,  2.00it/s] 73%|███████▎  | 7798/10719 [1:17:02<24:18,  2.00it/s] 73%|███████▎  | 7799/10719 [1:17:03<24:18,  2.00it/s] 73%|███████▎  | 7800/10719 [1:17:03<24:16,  2.00it/s]                                                      {'loss': 3.5066, 'grad_norm': 0.2088283896446228, 'learning_rate': 0.00020939708114208234, 'epoch': 0.73}
- 73%|███████▎  | 7800/10719 [1:17:03<24:16,  2.00it/s] 73%|███████▎  | 7801/10719 [1:17:04<24:19,  2.00it/s] 73%|███████▎  | 7802/10719 [1:17:04<24:17,  2.00it/s] 73%|███████▎  | 7803/10719 [1:17:05<24:19,  2.00it/s] 73%|███████▎  | 7804/10719 [1:17:05<25:29,  1.91it/s] 73%|███████▎  | 7805/10719 [1:17:06<25:07,  1.93it/s] 73%|███████▎  | 7806/10719 [1:17:06<24:49,  1.96it/s] 73%|███████▎  | 7807/10719 [1:17:07<24:36,  1.97it/s] 73%|███████▎  | 7808/10719 [1:17:07<24:30,  1.98it/s] 73%|███████▎  | 7809/10719 [1:17:08<24:23,  1.99it/s] 73%|███████▎  | 7810/10719 [1:17:08<24:18,  1.99it/s] 73%|███████▎  | 7811/10719 [1:17:09<24:13,  2.00it/s] 73%|███████▎  | 7812/10719 [1:17:09<24:11,  2.00it/s] 73%|███████▎  | 7813/10719 [1:17:10<24:08,  2.01it/s] 73%|███████▎  | 7814/10719 [1:17:10<24:06,  2.01it/s] 73%|███████▎  | 7815/10719 [1:17:11<24:06,  2.01it/s] 73%|███████▎  | 7816/10719 [1:17:11<24:04,  2.01it/s] 73%|███████▎  | 7817/10719 [1:17:12<24:02,  2.01it/s] 73%|███████▎  | 7818/10719 [1:17:12<24:00,  2.01it/s] 73%|███████▎  | 7819/10719 [1:17:13<24:01,  2.01it/s] 73%|███████▎  | 7820/10719 [1:17:13<24:01,  2.01it/s] 73%|███████▎  | 7821/10719 [1:17:14<23:59,  2.01it/s] 73%|███████▎  | 7822/10719 [1:17:14<23:59,  2.01it/s] 73%|███████▎  | 7823/10719 [1:17:15<23:59,  2.01it/s] 73%|███████▎  | 7824/10719 [1:17:15<23:58,  2.01it/s] 73%|███████▎  | 7825/10719 [1:17:16<23:57,  2.01it/s]                                                      {'loss': 3.5093, 'grad_norm': 0.20132863521575928, 'learning_rate': 0.00020609420099288302, 'epoch': 0.73}
- 73%|███████▎  | 7825/10719 [1:17:16<23:57,  2.01it/s] 73%|███████▎  | 7826/10719 [1:17:16<24:01,  2.01it/s] 73%|███████▎  | 7827/10719 [1:17:17<24:03,  2.00it/s] 73%|███████▎  | 7828/10719 [1:17:17<24:04,  2.00it/s] 73%|███████▎  | 7829/10719 [1:17:18<24:03,  2.00it/s] 73%|███████▎  | 7830/10719 [1:17:18<24:01,  2.00it/s] 73%|███████▎  | 7831/10719 [1:17:19<24:01,  2.00it/s] 73%|███████▎  | 7832/10719 [1:17:19<23:58,  2.01it/s] 73%|███████▎  | 7833/10719 [1:17:20<23:58,  2.01it/s] 73%|███████▎  | 7834/10719 [1:17:20<23:56,  2.01it/s] 73%|███████▎  | 7835/10719 [1:17:21<23:56,  2.01it/s] 73%|███████▎  | 7836/10719 [1:17:21<23:55,  2.01it/s] 73%|███████▎  | 7837/10719 [1:17:22<23:55,  2.01it/s] 73%|███████▎  | 7838/10719 [1:17:22<23:54,  2.01it/s] 73%|███████▎  | 7839/10719 [1:17:23<23:56,  2.01it/s] 73%|███████▎  | 7840/10719 [1:17:23<23:56,  2.00it/s] 73%|███████▎  | 7841/10719 [1:17:24<23:53,  2.01it/s] 73%|███████▎  | 7842/10719 [1:17:24<24:42,  1.94it/s] 73%|███████▎  | 7843/10719 [1:17:25<24:33,  1.95it/s] 73%|��██████▎  | 7844/10719 [1:17:25<24:25,  1.96it/s] 73%|███████▎  | 7845/10719 [1:17:26<24:15,  1.97it/s] 73%|███████▎  | 7846/10719 [1:17:26<24:08,  1.98it/s] 73%|███████▎  | 7847/10719 [1:17:27<24:03,  1.99it/s] 73%|███████▎  | 7848/10719 [1:17:27<24:01,  1.99it/s] 73%|███████▎  | 7849/10719 [1:17:28<23:55,  2.00it/s] 73%|███████▎  | 7850/10719 [1:17:28<23:54,  2.00it/s]                                                      {'loss': 3.4992, 'grad_norm': 0.19924473762512207, 'learning_rate': 0.000202810801382368, 'epoch': 0.73}
- 73%|███████▎  | 7850/10719 [1:17:28<23:54,  2.00it/s] 73%|███████▎  | 7851/10719 [1:17:29<23:54,  2.00it/s] 73%|███████▎  | 7852/10719 [1:17:29<23:51,  2.00it/s] 73%|███████▎  | 7853/10719 [1:17:30<23:49,  2.01it/s] 73%|███████▎  | 7854/10719 [1:17:30<23:50,  2.00it/s] 73%|███████▎  | 7855/10719 [1:17:31<23:46,  2.01it/s] 73%|███████▎  | 7856/10719 [1:17:31<23:45,  2.01it/s] 73%|███████▎  | 7857/10719 [1:17:32<23:45,  2.01it/s] 73%|███████▎  | 7858/10719 [1:17:32<23:41,  2.01it/s] 73%|███████▎  | 7859/10719 [1:17:33<23:41,  2.01it/s] 73%|███████▎  | 7860/10719 [1:17:33<23:39,  2.01it/s] 73%|███████▎  | 7861/10719 [1:17:34<23:39,  2.01it/s] 73%|███████▎  | 7862/10719 [1:17:34<23:47,  2.00it/s] 73%|███████▎  | 7863/10719 [1:17:35<24:01,  1.98it/s] 73%|███████▎  | 7864/10719 [1:17:35<23:55,  1.99it/s] 73%|███████▎  | 7865/10719 [1:17:36<23:52,  1.99it/s] 73%|███████▎  | 7866/10719 [1:17:36<23:49,  2.00it/s] 73%|███████▎  | 7867/10719 [1:17:37<23:49,  2.00it/s] 73%|███████▎  | 7868/10719 [1:17:37<23:45,  2.00it/s] 73%|███████▎  | 7869/10719 [1:17:38<23:43,  2.00it/s] 73%|███████▎  | 7870/10719 [1:17:38<23:40,  2.01it/s] 73%|███████▎  | 7871/10719 [1:17:39<23:39,  2.01it/s] 73%|███████▎  | 7872/10719 [1:17:39<23:40,  2.00it/s] 73%|███████▎  | 7873/10719 [1:17:40<23:39,  2.00it/s] 73%|███████▎  | 7874/10719 [1:17:40<23:37,  2.01it/s] 73%|███████▎  | 7875/10719 [1:17:41<23:37,  2.01it/s]                                                      {'loss': 3.4998, 'grad_norm': 0.20453472435474396, 'learning_rate': 0.00019954709993942837, 'epoch': 0.73}
- 73%|███████▎  | 7875/10719 [1:17:41<23:37,  2.01it/s] 73%|███████▎  | 7876/10719 [1:17:41<23:38,  2.00it/s] 73%|███████▎  | 7877/10719 [1:17:42<23:34,  2.01it/s] 73%|███████▎  | 7878/10719 [1:17:42<23:34,  2.01it/s] 74%|███████▎  | 7879/10719 [1:17:43<23:32,  2.01it/s] 74%|███████▎  | 7880/10719 [1:17:43<23:31,  2.01it/s] 74%|███████▎  | 7881/10719 [1:17:44<23:29,  2.01it/s] 74%|███████▎  | 7882/10719 [1:17:44<23:31,  2.01it/s] 74%|███████▎  | 7883/10719 [1:17:45<23:33,  2.01it/s] 74%|███████▎  | 7884/10719 [1:17:45<23:32,  2.01it/s] 74%|███████▎  | 7885/10719 [1:17:46<23:33,  2.00it/s] 74%|███████▎  | 7886/10719 [1:17:46<23:34,  2.00it/s] 74%|███████▎  | 7887/10719 [1:17:47<23:33,  2.00it/s] 74%|███████▎  | 7888/10719 [1:17:47<23:33,  2.00it/s] 74%|███████▎  | 7889/10719 [1:17:48<23:31,  2.00it/s] 74%|███████▎  | 7890/10719 [1:17:48<23:31,  2.00it/s] 74%|███████▎  | 7891/10719 [1:17:49<23:33,  2.00it/s] 74%|███████▎  | 7892/10719 [1:17:49<23:32,  2.00it/s] 74%|███████▎  | 7893/10719 [1:17:50<23:31,  2.00it/s] 74%|███████▎  | 7894/10719 [1:17:50<23:29,  2.00it/s] 74%|███████▎  | 7895/10719 [1:17:51<23:29,  2.00it/s] 74%|███████▎  | 7896/10719 [1:17:51<23:27,  2.01it/s] 74%|███████▎  | 7897/10719 [1:17:52<23:28,  2.00it/s] 74%|███████▎  | 7898/10719 [1:17:52<23:27,  2.00it/s] 74%|███████▎  | 7899/10719 [1:17:53<23:26,  2.00it/s] 74%|███████▎  | 7900/10719 [1:17:53<23:28,  2.00it/s]                                                      {'loss': 3.5005, 'grad_norm': 0.20034600794315338, 'learning_rate': 0.00019630331298733017, 'epoch': 0.74}
- 74%|███████▎  | 7900/10719 [1:17:53<23:28,  2.00it/s] 74%|███████▎  | 7901/10719 [1:17:54<23:30,  2.00it/s] 74%|███████▎  | 7902/10719 [1:17:54<24:45,  1.90it/s] 74%|███████▎  | 7903/10719 [1:17:55<24:27,  1.92it/s] 74%|███████▎  | 7904/10719 [1:17:55<24:10,  1.94it/s] 74%|███████▎  | 7905/10719 [1:17:56<23:56,  1.96it/s] 74%|█████��█▍  | 7906/10719 [1:17:56<23:47,  1.97it/s] 74%|███████▍  | 7907/10719 [1:17:57<23:40,  1.98it/s] 74%|███████▍  | 7908/10719 [1:17:57<23:36,  1.98it/s] 74%|███████▍  | 7909/10719 [1:17:58<23:32,  1.99it/s] 74%|███████▍  | 7910/10719 [1:17:58<23:28,  1.99it/s] 74%|███████▍  | 7911/10719 [1:17:59<23:27,  2.00it/s] 74%|███████▍  | 7912/10719 [1:17:59<23:23,  2.00it/s] 74%|███████▍  | 7913/10719 [1:18:00<23:22,  2.00it/s] 74%|███████▍  | 7914/10719 [1:18:00<23:21,  2.00it/s] 74%|███████▍  | 7915/10719 [1:18:01<23:17,  2.01it/s] 74%|███████▍  | 7916/10719 [1:18:01<23:16,  2.01it/s] 74%|███████▍  | 7917/10719 [1:18:02<23:15,  2.01it/s] 74%|███████▍  | 7918/10719 [1:18:02<23:13,  2.01it/s] 74%|███████▍  | 7919/10719 [1:18:03<23:14,  2.01it/s] 74%|███████▍  | 7920/10719 [1:18:03<23:14,  2.01it/s] 74%|███████▍  | 7921/10719 [1:18:04<23:12,  2.01it/s] 74%|███████▍  | 7922/10719 [1:18:04<23:10,  2.01it/s] 74%|███████▍  | 7923/10719 [1:18:05<23:08,  2.01it/s] 74%|███████▍  | 7924/10719 [1:18:05<23:07,  2.01it/s] 74%|███████▍  | 7925/10719 [1:18:06<23:08,  2.01it/s]                                                      {'loss': 3.5007, 'grad_norm': 0.20824041962623596, 'learning_rate': 0.0001930796555293744, 'epoch': 0.74}
- 74%|███████▍  | 7925/10719 [1:18:06<23:08,  2.01it/s] 74%|███████▍  | 7926/10719 [1:18:06<23:08,  2.01it/s] 74%|███████▍  | 7927/10719 [1:18:07<23:07,  2.01it/s] 74%|███████▍  | 7928/10719 [1:18:07<23:07,  2.01it/s] 74%|███████▍  | 7929/10719 [1:18:08<23:07,  2.01it/s] 74%|███████▍  | 7930/10719 [1:18:08<23:07,  2.01it/s] 74%|███████▍  | 7931/10719 [1:18:09<23:07,  2.01it/s] 74%|███████▍  | 7932/10719 [1:18:09<23:05,  2.01it/s] 74%|███████▍  | 7933/10719 [1:18:10<23:04,  2.01it/s] 74%|███████▍  | 7934/10719 [1:18:10<23:03,  2.01it/s] 74%|███████▍  | 7935/10719 [1:18:11<23:02,  2.01it/s] 74%|███████▍  | 7936/10719 [1:18:11<23:02,  2.01it/s] 74%|███████▍  | 7937/10719 [1:18:12<23:00,  2.02it/s] 74%|███████▍  | 7938/10719 [1:18:12<23:01,  2.01it/s] 74%|███████▍  | 7939/10719 [1:18:13<23:00,  2.01it/s] 74%|███████▍  | 7940/10719 [1:18:13<23:00,  2.01it/s] 74%|███████▍  | 7941/10719 [1:18:14<23:00,  2.01it/s] 74%|███████▍  | 7942/10719 [1:18:14<22:57,  2.02it/s] 74%|███████▍  | 7943/10719 [1:18:15<22:56,  2.02it/s] 74%|███████▍  | 7944/10719 [1:18:15<22:54,  2.02it/s] 74%|███████▍  | 7945/10719 [1:18:16<22:54,  2.02it/s] 74%|███████▍  | 7946/10719 [1:18:16<22:55,  2.02it/s] 74%|███████▍  | 7947/10719 [1:18:17<23:01,  2.01it/s] 74%|███████▍  | 7948/10719 [1:18:17<23:29,  1.97it/s] 74%|███████▍  | 7949/10719 [1:18:18<24:27,  1.89it/s] 74%|███████▍  | 7950/10719 [1:18:18<24:00,  1.92it/s]                                                      {'loss': 3.5014, 'grad_norm': 0.1974581480026245, 'learning_rate': 0.00018987634123464914, 'epoch': 0.74}
- 74%|███████▍  | 7950/10719 [1:18:18<24:00,  1.92it/s] 74%|███████▍  | 7951/10719 [1:18:19<23:43,  1.94it/s] 74%|███████▍  | 7952/10719 [1:18:19<23:30,  1.96it/s] 74%|███████▍  | 7953/10719 [1:18:20<23:19,  1.98it/s] 74%|███████▍  | 7954/10719 [1:18:20<23:14,  1.98it/s] 74%|███████▍  | 7955/10719 [1:18:21<23:09,  1.99it/s] 74%|███████▍  | 7956/10719 [1:18:21<23:06,  1.99it/s] 74%|███████▍  | 7957/10719 [1:18:22<23:02,  2.00it/s] 74%|███████▍  | 7958/10719 [1:18:22<23:00,  2.00it/s] 74%|███████▍  | 7959/10719 [1:18:23<22:59,  2.00it/s] 74%|███████▍  | 7960/10719 [1:18:23<22:56,  2.01it/s] 74%|███████▍  | 7961/10719 [1:18:24<22:55,  2.00it/s] 74%|███████▍  | 7962/10719 [1:18:24<22:56,  2.00it/s] 74%|███████▍  | 7963/10719 [1:18:25<24:47,  1.85it/s] 74%|███████▍  | 7964/10719 [1:18:25<24:12,  1.90it/s] 74%|███████▍  | 7965/10719 [1:18:26<23:49,  1.93it/s] 74%|███████▍  | 7966/10719 [1:18:26<23:28,  1.95it/s] 74%|███████▍  | 7967/10719 [1:18:27<23:18,  1.97it/s] 74%|███████▍  | 7968/10719 [1:18:27<23:08,  1.98it/s] 74%|███████▍  | 7969/10719 [1:18:28<23:02,  1.99it/s] 74%|███████▍  | 7970/10719 [1:18:28<22:59,  1.99it/s] 74%|███████▍  | 7971/10719 [1:18:29<24:01,  1.91it/s] 74%|███████▍  | 7972/10719 [1:18:30<23:39,  1.93it/s] 74%|███████▍  | 7973/10719 [1:18:30<24:29,  1.87it/s] 74%|███████▍  | 7974/10719 [1:18:31<25:05,  1.82it/s] 74%|███████▍  | 7975/10719 [1:18:31<24:25,  1.87it/s]                                                      {'loss': 3.5039, 'grad_norm': 0.20368458330631256, 'learning_rate': 0.00018669358242386403, 'epoch': 0.74}
- 74%|███████▍  | 7975/10719 [1:18:31<24:25,  1.87it/s] 74%|███████▍  | 7976/10719 [1:18:32<23:56,  1.91it/s] 74%|███████▍  | 7977/10719 [1:18:32<23:35,  1.94it/s] 74%|███████▍  | 7978/10719 [1:18:33<23:22,  1.95it/s] 74%|███████▍  | 7979/10719 [1:18:33<23:10,  1.97it/s] 74%|███████▍  | 7980/10719 [1:18:34<23:01,  1.98it/s] 74%|███████▍  | 7981/10719 [1:18:34<22:56,  1.99it/s] 74%|███████▍  | 7982/10719 [1:18:35<22:50,  2.00it/s] 74%|███████▍  | 7983/10719 [1:18:35<22:47,  2.00it/s] 74%|███████▍  | 7984/10719 [1:18:36<22:46,  2.00it/s] 74%|███████▍  | 7985/10719 [1:18:36<22:43,  2.01it/s] 75%|███████▍  | 7986/10719 [1:18:37<22:43,  2.00it/s] 75%|███████▍  | 7987/10719 [1:18:37<22:44,  2.00it/s] 75%|███████▍  | 7988/10719 [1:18:38<22:44,  2.00it/s] 75%|███████▍  | 7989/10719 [1:18:38<22:44,  2.00it/s] 75%|███████▍  | 7990/10719 [1:18:39<22:43,  2.00it/s] 75%|███████▍  | 7991/10719 [1:18:39<22:41,  2.00it/s] 75%|███████▍  | 7992/10719 [1:18:40<22:43,  2.00it/s] 75%|███████▍  | 7993/10719 [1:18:40<22:44,  2.00it/s] 75%|███████▍  | 7994/10719 [1:18:41<22:40,  2.00it/s] 75%|███████▍  | 7995/10719 [1:18:41<22:39,  2.00it/s] 75%|███████▍  | 7996/10719 [1:18:42<22:39,  2.00it/s] 75%|███████▍  | 7997/10719 [1:18:42<22:36,  2.01it/s] 75%|███████▍  | 7998/10719 [1:18:43<22:36,  2.01it/s] 75%|███████▍  | 7999/10719 [1:18:43<22:36,  2.00it/s] 75%|███████▍  | 8000/10719 [1:18:44<22:35,  2.01it/s]                                                      {'loss': 3.4931, 'grad_norm': 0.19980685412883759, 'learning_rate': 0.00018353159005528026, 'epoch': 0.75}
- 75%|███████▍  | 8000/10719 [1:18:44<22:35,  2.01it/s] 75%|███████▍  | 8001/10719 [1:18:44<22:34,  2.01it/s] 75%|███████▍  | 8002/10719 [1:18:45<22:33,  2.01it/s] 75%|███████▍  | 8003/10719 [1:18:45<22:31,  2.01it/s] 75%|███████▍  | 8004/10719 [1:18:46<22:31,  2.01it/s] 75%|███████▍  | 8005/10719 [1:18:46<22:33,  2.01it/s] 75%|███████▍  | 8006/10719 [1:18:47<22:32,  2.01it/s] 75%|███████▍  | 8007/10719 [1:18:47<22:31,  2.01it/s] 75%|███████▍  | 8008/10719 [1:18:48<22:32,  2.00it/s] 75%|███████▍  | 8009/10719 [1:18:48<22:30,  2.01it/s] 75%|███████▍  | 8010/10719 [1:18:49<22:28,  2.01it/s] 75%|███████▍  | 8011/10719 [1:18:49<22:29,  2.01it/s] 75%|███████▍  | 8012/10719 [1:18:50<22:29,  2.01it/s] 75%|███████▍  | 8013/10719 [1:18:50<22:28,  2.01it/s] 75%|███████▍  | 8014/10719 [1:18:51<22:32,  2.00it/s] 75%|███████▍  | 8015/10719 [1:18:51<22:31,  2.00it/s] 75%|███████▍  | 8016/10719 [1:18:52<22:30,  2.00it/s] 75%|███████▍  | 8017/10719 [1:18:52<22:28,  2.00it/s] 75%|███████▍  | 8018/10719 [1:18:53<22:29,  2.00it/s] 75%|███████▍  | 8019/10719 [1:18:53<22:26,  2.01it/s] 75%|███████▍  | 8020/10719 [1:18:54<22:24,  2.01it/s] 75%|███████▍  | 8021/10719 [1:18:54<23:58,  1.88it/s] 75%|███████▍  | 8022/10719 [1:18:55<24:50,  1.81it/s] 75%|███████▍  | 8023/10719 [1:18:55<24:05,  1.86it/s] 75%|███████▍  | 8024/10719 [1:18:56<23:33,  1.91it/s] 75%|███████▍  | 8025/10719 [1:18:56<23:12,  1.94it/s]                                                      {'loss': 3.5, 'grad_norm': 0.20032088458538055, 'learning_rate': 0.0001803905737107257, 'epoch': 0.75}
- 75%|███████▍  | 8025/10719 [1:18:56<23:12,  1.94it/s] 75%|███████▍  | 8026/10719 [1:18:57<22:59,  1.95it/s] 75%|███████▍  | 8027/10719 [1:18:57<22:45,  1.97it/s] 75%|███████▍  | 8028/10719 [1:18:58<22:37,  1.98it/s] 75%|███████▍  | 8029/10719 [1:18:58<22:31,  1.99it/s] 75%|███████▍  | 8030/10719 [1:18:59<22:24,  2.00it/s] 75%|███████▍  | 8031/10719 [1:18:59<22:21,  2.00it/s] 75%|███████▍  | 8032/10719 [1:19:00<22:18,  2.01it/s] 75%|███████▍  | 8033/10719 [1:19:00<22:16,  2.01it/s] 75%|███████▍  | 8034/10719 [1:19:01<22:17,  2.01it/s] 75%|███████▍  | 8035/10719 [1:19:01<22:14,  2.01it/s] 75%|███████▍  | 8036/10719 [1:19:02<22:13,  2.01it/s] 75%|███████▍  | 8037/10719 [1:19:02<22:11,  2.01it/s] 75%|███████▍  | 8038/10719 [1:19:03<22:10,  2.01it/s] 75%|███████▍  | 8039/10719 [1:19:03<22:11,  2.01it/s] 75%|███████▌  | 8040/10719 [1:19:04<22:10,  2.01it/s] 75%|███████▌  | 8041/10719 [1:19:04<22:09,  2.01it/s] 75%|███████▌  | 8042/10719 [1:19:05<22:08,  2.02it/s] 75%|███████▌  | 8043/10719 [1:19:05<22:07,  2.02it/s] 75%|███████▌  | 8044/10719 [1:19:06<22:06,  2.02it/s] 75%|███████▌  | 8045/10719 [1:19:06<22:05,  2.02it/s] 75%|███████▌  | 8046/10719 [1:19:07<22:06,  2.02it/s] 75%|███████▌  | 8047/10719 [1:19:07<22:03,  2.02it/s] 75%|███████▌  | 8048/10719 [1:19:08<22:05,  2.02it/s] 75%|███████▌  | 8049/10719 [1:19:08<22:06,  2.01it/s] 75%|███████▌  | 8050/10719 [1:19:09<22:08,  2.01it/s]                                                      {'loss': 3.5041, 'grad_norm': 0.1996127963066101, 'learning_rate': 0.00017727074158170464, 'epoch': 0.75}
- 75%|███████▌  | 8050/10719 [1:19:09<22:08,  2.01it/s] 75%|███████▌  | 8051/10719 [1:19:09<22:09,  2.01it/s] 75%|███████▌  | 8052/10719 [1:19:10<22:09,  2.01it/s] 75%|███████▌  | 8053/10719 [1:19:10<22:08,  2.01it/s] 75%|███████▌  | 8054/10719 [1:19:11<22:09,  2.00it/s] 75%|███████▌  | 8055/10719 [1:19:11<22:07,  2.01it/s] 75%|███████▌  | 8056/10719 [1:19:12<22:07,  2.01it/s] 75%|███████▌  | 8057/10719 [1:19:12<23:17,  1.90it/s] 75%|███████▌  | 8058/10719 [1:19:13<23:12,  1.91it/s] 75%|███████▌  | 8059/10719 [1:19:13<22:52,  1.94it/s] 75%|███████▌  | 8060/10719 [1:19:14<22:39,  1.96it/s] 75%|███████▌  | 8061/10719 [1:19:14<23:13,  1.91it/s] 75%|███████▌  | 8062/10719 [1:19:15<22:52,  1.94it/s] 75%|███████▌  | 8063/10719 [1:19:15<22:37,  1.96it/s] 75%|███████▌  | 8064/10719 [1:19:16<22:29,  1.97it/s] 75%|███████▌  | 8065/10719 [1:19:16<22:21,  1.98it/s] 75%|███████▌  | 8066/10719 [1:19:17<22:13,  1.99it/s] 75%|███████▌  | 8067/10719 [1:19:17<22:10,  1.99it/s] 75%|███████▌  | 8068/10719 [1:19:18<22:05,  2.00it/s] 75%|███████▌  | 8069/10719 [1:19:18<22:02,  2.00it/s] 75%|███████▌  | 8070/10719 [1:19:19<22:01,  2.00it/s] 75%|███████▌  | 8071/10719 [1:19:19<21:59,  2.01it/s] 75%|███████▌  | 8072/10719 [1:19:20<21:58,  2.01it/s] 75%|███████▌  | 8073/10719 [1:19:20<21:57,  2.01it/s] 75%|███████▌  | 8074/10719 [1:19:21<21:56,  2.01it/s] 75%|███████▌  | 8075/10719 [1:19:21<21:54,  2.01it/s]                                                      {'loss': 3.4964, 'grad_norm': 0.20923113822937012, 'learning_rate': 0.00017417230045559828, 'epoch': 0.75}
- 75%|███████▌  | 8075/10719 [1:19:21<21:54,  2.01it/s] 75%|███████▌  | 8076/10719 [1:19:22<21:57,  2.01it/s] 75%|███████▌  | 8077/10719 [1:19:22<21:56,  2.01it/s] 75%|███████▌  | 8078/10719 [1:19:23<22:00,  2.00it/s] 75%|███████▌  | 8079/10719 [1:19:23<21:58,  2.00it/s] 75%|███████▌  | 8080/10719 [1:19:24<22:11,  1.98it/s] 75%|███████▌  | 8081/10719 [1:19:24<22:59,  1.91it/s] 75%|███████▌  | 8082/10719 [1:19:25<24:04,  1.83it/s] 75%|███████▌  | 8083/10719 [1:19:26<23:26,  1.87it/s] 75%|███████▌  | 8084/10719 [1:19:26<22:58,  1.91it/s] 75%|███████▌  | 8085/10719 [1:19:27<22:37,  1.94it/s] 75%|███████▌  | 8086/10719 [1:19:27<22:25,  1.96it/s] 75%|███████▌  | 8087/10719 [1:19:28<22:13,  1.97it/s] 75%|███████▌  | 8088/10719 [1:19:28<22:05,  1.99it/s] 75%|███████▌  | 8089/10719 [1:19:29<22:02,  1.99it/s] 75%|███████▌  | 8090/10719 [1:19:29<21:57,  2.00it/s] 75%|███████▌  | 8091/10719 [1:19:30<21:54,  2.00it/s] 75%|███████▌  | 8092/10719 [1:19:30<21:52,  2.00it/s] 76%|███████▌  | 8093/10719 [1:19:31<21:50,  2.00it/s] 76%|███████▌  | 8094/10719 [1:19:31<21:48,  2.01it/s] 76%|███████▌  | 8095/10719 [1:19:32<21:47,  2.01it/s] 76%|███████▌  | 8096/10719 [1:19:32<21:44,  2.01it/s] 76%|███████▌  | 8097/10719 [1:19:33<21:43,  2.01it/s] 76%|███████▌  | 8098/10719 [1:19:33<21:44,  2.01it/s] 76%|███████▌  | 8099/10719 [1:19:34<21:42,  2.01it/s] 76%|███████▌  | 8100/10719 [1:19:34<21:42,  2.01it/s]                                                      {'loss': 3.5016, 'grad_norm': 0.20981621742248535, 'learning_rate': 0.00017109545570195833, 'epoch': 0.76}
- 76%|███████▌  | 8100/10719 [1:19:34<21:42,  2.01it/s] 76%|███████▌  | 8101/10719 [1:19:35<21:42,  2.01it/s] 76%|███████▌  | 8102/10719 [1:19:35<21:40,  2.01it/s] 76%|███████▌  | 8103/10719 [1:19:36<21:41,  2.01it/s] 76%|███████▌  | 8104/10719 [1:19:36<21:40,  2.01it/s] 76%|███████▌  | 8105/10719 [1:19:37<21:39,  2.01it/s] 76%|███████▌  | 8106/10719 [1:19:37<21:39,  2.01it/s] 76%|███████▌  | 8107/10719 [1:19:38<21:37,  2.01it/s] 76%|███████▌  | 8108/10719 [1:19:38<21:38,  2.01it/s] 76%|███████▌  | 8109/10719 [1:19:39<21:37,  2.01it/s] 76%|███████▌  | 8110/10719 [1:19:39<21:36,  2.01it/s] 76%|███████▌  | 8111/10719 [1:19:40<21:36,  2.01it/s] 76%|███████▌  | 8112/10719 [1:19:40<21:33,  2.02it/s] 76%|███████▌  | 8113/10719 [1:19:41<21:51,  1.99it/s] 76%|███████▌  | 8114/10719 [1:19:41<21:48,  1.99it/s] 76%|███████▌  | 8115/10719 [1:19:42<21:45,  1.99it/s] 76%|███████▌  | 8116/10719 [1:19:42<21:43,  2.00it/s] 76%|███████▌  | 8117/10719 [1:19:43<21:42,  2.00it/s] 76%|███████▌  | 8118/10719 [1:19:43<21:40,  2.00it/s] 76%|███████▌  | 8119/10719 [1:19:44<21:39,  2.00it/s] 76%|███████▌  | 8120/10719 [1:19:44<21:36,  2.01it/s] 76%|███████▌  | 8121/10719 [1:19:45<21:43,  1.99it/s] 76%|███████▌  | 8122/10719 [1:19:45<22:43,  1.91it/s] 76%|███████▌  | 8123/10719 [1:19:46<22:23,  1.93it/s] 76%|███████▌  | 8124/10719 [1:19:46<22:09,  1.95it/s] 76%|███████▌  | 8125/10719 [1:19:47<21:56,  1.97it/s]                                                      {'loss': 3.5005, 'grad_norm': 0.20398299396038055, 'learning_rate': 0.00016804041125889518, 'epoch': 0.76}
- 76%|███████▌  | 8125/10719 [1:19:47<21:56,  1.97it/s] 76%|███████▌  | 8126/10719 [1:19:47<21:50,  1.98it/s] 76%|███████▌  | 8127/10719 [1:19:48<21:45,  1.99it/s] 76%|███████▌  | 8128/10719 [1:19:48<21:40,  1.99it/s] 76%|███████▌  | 8129/10719 [1:19:49<21:36,  2.00it/s] 76%|███████▌  | 8130/10719 [1:19:49<21:35,  2.00it/s] 76%|███████▌  | 8131/10719 [1:19:50<21:33,  2.00it/s] 76%|███████▌  | 8132/10719 [1:19:50<21:29,  2.01it/s] 76%|███████▌  | 8133/10719 [1:19:51<21:29,  2.01it/s] 76%|███████▌  | 8134/10719 [1:19:51<21:26,  2.01it/s] 76%|███████▌  | 8135/10719 [1:19:52<21:26,  2.01it/s] 76%|███████▌  | 8136/10719 [1:19:52<21:25,  2.01it/s] 76%|███████▌  | 8137/10719 [1:19:53<21:23,  2.01it/s] 76%|███████▌  | 8138/10719 [1:19:53<21:23,  2.01it/s] 76%|███████▌  | 8139/10719 [1:19:54<21:23,  2.01it/s] 76%|███████▌  | 8140/10719 [1:19:54<21:49,  1.97it/s] 76%|███████▌  | 8141/10719 [1:19:55<22:52,  1.88it/s] 76%|███████▌  | 8142/10719 [1:19:55<22:31,  1.91it/s] 76%|███████▌  | 8143/10719 [1:19:56<22:10,  1.94it/s] 76%|███████▌  | 8144/10719 [1:19:56<21:53,  1.96it/s] 76%|███████▌  | 8145/10719 [1:19:57<21:42,  1.98it/s] 76%|███████▌  | 8146/10719 [1:19:57<21:33,  1.99it/s] 76%|███████▌  | 8147/10719 [1:19:58<21:27,  2.00it/s] 76%|███████▌  | 8148/10719 [1:19:58<21:25,  2.00it/s] 76%|███████▌  | 8149/10719 [1:19:59<21:22,  2.00it/s] 76%|███████▌  | 8150/10719 [1:19:59<21:19,  2.01it/s]                                                      {'loss': 3.5009, 'grad_norm': 0.20585684478282928, 'learning_rate': 0.00016500736961956014, 'epoch': 0.76}
- 76%|███████▌  | 8150/10719 [1:19:59<21:19,  2.01it/s] 76%|███████▌  | 8151/10719 [1:20:00<21:18,  2.01it/s] 76%|███████▌  | 8152/10719 [1:20:00<21:16,  2.01it/s] 76%|███████▌  | 8153/10719 [1:20:01<21:14,  2.01it/s] 76%|███████▌  | 8154/10719 [1:20:01<21:15,  2.01it/s] 76%|███████▌  | 8155/10719 [1:20:02<21:14,  2.01it/s] 76%|███████▌  | 8156/10719 [1:20:02<21:14,  2.01it/s] 76%|███████▌  | 8157/10719 [1:20:03<21:13,  2.01it/s] 76%|███████▌  | 8158/10719 [1:20:03<21:12,  2.01it/s] 76%|███████▌  | 8159/10719 [1:20:04<21:11,  2.01it/s] 76%|███████▌  | 8160/10719 [1:20:04<21:09,  2.02it/s] 76%|███████▌  | 8161/10719 [1:20:05<21:09,  2.01it/s] 76%|███████▌  | 8162/10719 [1:20:05<21:08,  2.02it/s] 76%|███████▌  | 8163/10719 [1:20:06<21:10,  2.01it/s] 76%|███████▌  | 8164/10719 [1:20:06<21:10,  2.01it/s] 76%|███████▌  | 8165/10719 [1:20:07<21:28,  1.98it/s] 76%|███████▌  | 8166/10719 [1:20:07<22:23,  1.90it/s] 76%|███████▌  | 8167/10719 [1:20:08<22:05,  1.93it/s] 76%|███████▌  | 8168/10719 [1:20:08<21:57,  1.94it/s] 76%|███████▌  | 8169/10719 [1:20:09<22:09,  1.92it/s] 76%|███████▌  | 8170/10719 [1:20:09<21:52,  1.94it/s] 76%|███████▌  | 8171/10719 [1:20:10<21:39,  1.96it/s] 76%|███████▌  | 8172/10719 [1:20:10<21:31,  1.97it/s] 76%|███████▌  | 8173/10719 [1:20:11<21:27,  1.98it/s] 76%|███████▋  | 8174/10719 [1:20:11<21:20,  1.99it/s] 76%|███████▋  | 8175/10719 [1:20:12<21:16,  1.99it/s]                                                      {'loss': 3.4913, 'grad_norm': 0.2016107141971588, 'learning_rate': 0.00016199653181872426, 'epoch': 0.76}
- 76%|███████▋  | 8175/10719 [1:20:12<21:16,  1.99it/s] 76%|███████▋  | 8176/10719 [1:20:12<21:15,  1.99it/s] 76%|███████▋  | 8177/10719 [1:20:13<21:13,  2.00it/s] 76%|███████▋  | 8178/10719 [1:20:13<21:10,  2.00it/s] 76%|███████▋  | 8179/10719 [1:20:14<21:09,  2.00it/s] 76%|███████▋  | 8180/10719 [1:20:14<21:09,  2.00it/s] 76%|███████▋  | 8181/10719 [1:20:15<21:08,  2.00it/s] 76%|███████▋  | 8182/10719 [1:20:15<21:05,  2.00it/s] 76%|███████▋  | 8183/10719 [1:20:16<21:04,  2.01it/s] 76%|███████▋  | 8184/10719 [1:20:16<21:04,  2.01it/s] 76%|███████▋  | 8185/10719 [1:20:17<21:06,  2.00it/s] 76%|███████▋  | 8186/10719 [1:20:17<21:05,  2.00it/s] 76%|███████▋  | 8187/10719 [1:20:18<21:06,  2.00it/s] 76%|███████▋  | 8188/10719 [1:20:18<21:04,  2.00it/s] 76%|███████▋  | 8189/10719 [1:20:19<21:04,  2.00it/s] 76%|███████▋  | 8190/10719 [1:20:19<21:01,  2.00it/s] 76%|███████▋  | 8191/10719 [1:20:20<21:01,  2.00it/s] 76%|███████▋  | 8192/10719 [1:20:20<21:00,  2.00it/s] 76%|███████▋  | 8193/10719 [1:20:21<21:01,  2.00it/s] 76%|███████▋  | 8194/10719 [1:20:21<21:00,  2.00it/s] 76%|███████▋  | 8195/10719 [1:20:22<21:03,  2.00it/s] 76%|███████▋  | 8196/10719 [1:20:22<21:03,  2.00it/s] 76%|███████▋  | 8197/10719 [1:20:23<21:01,  2.00it/s] 76%|███████▋  | 8198/10719 [1:20:23<21:00,  2.00it/s] 76%|███████▋  | 8199/10719 [1:20:24<20:56,  2.00it/s] 76%|███████▋  | 8200/10719 [1:20:24<21:39,  1.94it/s]                                                      {'loss': 3.4921, 'grad_norm': 0.19910144805908203, 'learning_rate': 0.0001590080974194531, 'epoch': 0.76}
- 76%|███████▋  | 8200/10719 [1:20:24<21:39,  1.94it/s] 77%|███████▋  | 8201/10719 [1:20:25<21:32,  1.95it/s] 77%|███████▋  | 8202/10719 [1:20:25<21:24,  1.96it/s] 77%|███████▋  | 8203/10719 [1:20:26<21:16,  1.97it/s] 77%|███████▋  | 8204/10719 [1:20:26<21:09,  1.98it/s] 77%|███████▋  | 8205/10719 [1:20:27<21:04,  1.99it/s] 77%|███████▋  | 8206/10719 [1:20:27<21:02,  1.99it/s] 77%|███████▋  | 8207/10719 [1:20:28<20:58,  2.00it/s] 77%|███████▋  | 8208/10719 [1:20:28<20:55,  2.00it/s] 77%|███████▋  | 8209/10719 [1:20:29<20:54,  2.00it/s] 77%|███████▋  | 8210/10719 [1:20:29<20:52,  2.00it/s] 77%|███████▋  | 8211/10719 [1:20:30<20:50,  2.01it/s] 77%|███████▋  | 8212/10719 [1:20:30<20:52,  2.00it/s] 77%|███████▋  | 8213/10719 [1:20:31<20:52,  2.00it/s] 77%|███████▋  | 8214/10719 [1:20:31<20:52,  2.00it/s] 77%|███████▋  | 8215/10719 [1:20:32<20:52,  2.00it/s] 77%|███████▋  | 8216/10719 [1:20:32<20:53,  2.00it/s] 77%|███████▋  | 8217/10719 [1:20:33<24:53,  1.67it/s] 77%|███████▋  | 8218/10719 [1:20:34<23:40,  1.76it/s] 77%|███████▋  | 8219/10719 [1:20:34<22:47,  1.83it/s] 77%|███████▋  | 8220/10719 [1:20:35<22:11,  1.88it/s] 77%|███████▋  | 8221/10719 [1:20:35<21:44,  1.92it/s] 77%|███████▋  | 8222/10719 [1:20:36<21:25,  1.94it/s] 77%|███████▋  | 8223/10719 [1:20:36<21:11,  1.96it/s] 77%|███████▋  | 8224/10719 [1:20:37<21:02,  1.98it/s] 77%|███████▋  | 8225/10719 [1:20:37<20:56,  1.99it/s]                                                      {'loss': 3.4796, 'grad_norm': 0.20973089337348938, 'learning_rate': 0.00015604226449987953, 'epoch': 0.77}
- 77%|███████▋  | 8225/10719 [1:20:37<20:56,  1.99it/s] 77%|███████▋  | 8226/10719 [1:20:38<20:50,  1.99it/s] 77%|███████▋  | 8227/10719 [1:20:38<20:46,  2.00it/s] 77%|███████▋  | 8228/10719 [1:20:39<20:43,  2.00it/s] 77%|███████▋  | 8229/10719 [1:20:39<20:40,  2.01it/s] 77%|███████▋  | 8230/10719 [1:20:40<20:39,  2.01it/s] 77%|███████▋  | 8231/10719 [1:20:40<20:36,  2.01it/s] 77%|███████▋  | 8232/10719 [1:20:41<20:36,  2.01it/s] 77%|███████▋  | 8233/10719 [1:20:41<20:36,  2.01it/s] 77%|███████▋  | 8234/10719 [1:20:42<20:34,  2.01it/s] 77%|███████▋  | 8235/10719 [1:20:42<20:33,  2.01it/s] 77%|███████▋  | 8236/10719 [1:20:43<20:33,  2.01it/s] 77%|███████▋  | 8237/10719 [1:20:43<20:34,  2.01it/s] 77%|███████▋  | 8238/10719 [1:20:44<20:31,  2.01it/s] 77%|███████▋  | 8239/10719 [1:20:44<20:30,  2.02it/s] 77%|███████▋  | 8240/10719 [1:20:45<20:30,  2.01it/s] 77%|███████▋  | 8241/10719 [1:20:45<20:29,  2.02it/s] 77%|███████▋  | 8242/10719 [1:20:46<20:30,  2.01it/s] 77%|███████▋  | 8243/10719 [1:20:46<20:30,  2.01it/s] 77%|███████▋  | 8244/10719 [1:20:47<20:28,  2.02it/s] 77%|███████▋  | 8245/10719 [1:20:47<20:28,  2.01it/s] 77%|███████▋  | 8246/10719 [1:20:48<20:27,  2.02it/s] 77%|███████▋  | 8247/10719 [1:20:48<20:26,  2.02it/s] 77%|███████▋  | 8248/10719 [1:20:49<20:26,  2.02it/s] 77%|███████▋  | 8249/10719 [1:20:49<20:25,  2.02it/s] 77%|███████▋  | 8250/10719 [1:20:50<20:25,  2.02it/s]                                                      {'loss': 3.4915, 'grad_norm': 0.19695857167243958, 'learning_rate': 0.00015309922964007488, 'epoch': 0.77}
- 77%|███████▋  | 8250/10719 [1:20:50<20:25,  2.02it/s] 77%|███████▋  | 8251/10719 [1:20:50<20:26,  2.01it/s] 77%|███████▋  | 8252/10719 [1:20:51<20:25,  2.01it/s] 77%|███████▋  | 8253/10719 [1:20:51<24:21,  1.69it/s] 77%|███████▋  | 8254/10719 [1:20:52<23:09,  1.77it/s] 77%|███████▋  | 8255/10719 [1:20:52<22:18,  1.84it/s] 77%|███████▋  | 8256/10719 [1:20:53<21:44,  1.89it/s] 77%|███████▋  | 8257/10719 [1:20:53<21:28,  1.91it/s] 77%|███████▋  | 8258/10719 [1:20:54<21:11,  1.93it/s] 77%|███████▋  | 8259/10719 [1:20:54<21:05,  1.94it/s] 77%|███████▋  | 8260/10719 [1:20:55<20:53,  1.96it/s] 77%|███████▋  | 8261/10719 [1:20:55<20:44,  1.97it/s] 77%|███████▋  | 8262/10719 [1:20:56<20:38,  1.98it/s] 77%|███████▋  | 8263/10719 [1:20:56<20:32,  1.99it/s] 77%|███████▋  | 8264/10719 [1:20:57<20:29,  2.00it/s] 77%|███████▋  | 8265/10719 [1:20:57<20:25,  2.00it/s] 77%|███████▋  | 8266/10719 [1:20:58<20:23,  2.00it/s] 77%|███████▋  | 8267/10719 [1:20:58<20:23,  2.00it/s] 77%|███████▋  | 8268/10719 [1:20:59<20:24,  2.00it/s] 77%|███████▋  | 8269/10719 [1:20:59<20:21,  2.01it/s] 77%|███████▋  | 8270/10719 [1:21:00<20:20,  2.01it/s] 77%|███████▋  | 8271/10719 [1:21:00<20:19,  2.01it/s] 77%|███████▋  | 8272/10719 [1:21:01<20:17,  2.01it/s] 77%|███████▋  | 8273/10719 [1:21:01<20:19,  2.01it/s] 77%|███████▋  | 8274/10719 [1:21:02<20:16,  2.01it/s] 77%|███████▋  | 8275/10719 [1:21:02<20:16,  2.01it/s]                                                      {'loss': 3.4912, 'grad_norm': 0.20557552576065063, 'learning_rate': 0.00015017918790901925, 'epoch': 0.77}
- 77%|███████▋  | 8275/10719 [1:21:02<20:16,  2.01it/s] 77%|███████▋  | 8276/10719 [1:21:03<20:17,  2.01it/s] 77%|███████▋  | 8277/10719 [1:21:03<20:14,  2.01it/s] 77%|███████▋  | 8278/10719 [1:21:04<20:14,  2.01it/s] 77%|███████▋  | 8279/10719 [1:21:04<20:12,  2.01it/s] 77%|███████▋  | 8280/10719 [1:21:05<20:13,  2.01it/s] 77%|███████▋  | 8281/10719 [1:21:05<20:12,  2.01it/s] 77%|███████▋  | 8282/10719 [1:21:06<20:10,  2.01it/s] 77%|███████▋  | 8283/10719 [1:21:06<20:09,  2.01it/s] 77%|███████▋  | 8284/10719 [1:21:07<20:09,  2.01it/s] 77%|███████▋  | 8285/10719 [1:21:07<20:08,  2.01it/s] 77%|███████▋  | 8286/10719 [1:21:08<20:07,  2.02it/s] 77%|███████▋  | 8287/10719 [1:21:08<20:07,  2.01it/s] 77%|███████▋  | 8288/10719 [1:21:09<20:07,  2.01it/s] 77%|███████▋  | 8289/10719 [1:21:09<20:06,  2.01it/s] 77%|███████▋  | 8290/10719 [1:21:10<20:05,  2.01it/s] 77%|███████▋  | 8291/10719 [1:21:10<20:05,  2.01it/s] 77%|███████▋  | 8292/10719 [1:21:11<20:05,  2.01it/s] 77%|███████▋  | 8293/10719 [1:21:11<20:04,  2.01it/s] 77%|███████▋  | 8294/10719 [1:21:12<20:04,  2.01it/s] 77%|███████▋  | 8295/10719 [1:21:12<20:03,  2.01it/s] 77%|███████▋  | 8296/10719 [1:21:13<20:14,  2.00it/s] 77%|███████▋  | 8297/10719 [1:21:13<20:10,  2.00it/s] 77%|███████▋  | 8298/10719 [1:21:14<20:09,  2.00it/s] 77%|███████▋  | 8299/10719 [1:21:14<20:07,  2.00it/s] 77%|███████▋  | 8300/10719 [1:21:15<20:08,  2.00it/s]                                                      {'loss': 3.4872, 'grad_norm': 0.20218607783317566, 'learning_rate': 0.0001472823328516718, 'epoch': 0.77}
- 77%|███████▋  | 8300/10719 [1:21:15<20:08,  2.00it/s] 77%|███████▋  | 8301/10719 [1:21:15<20:07,  2.00it/s] 77%|███████▋  | 8302/10719 [1:21:16<20:05,  2.01it/s] 77%|███████▋  | 8303/10719 [1:21:16<20:04,  2.01it/s] 77%|███████▋  | 8304/10719 [1:21:17<20:05,  2.00it/s] 77%|███████▋  | 8305/10719 [1:21:17<20:04,  2.00it/s] 77%|███████▋  | 8306/10719 [1:21:18<20:04,  2.00it/s] 77%|███████▋  | 8307/10719 [1:21:18<20:04,  2.00it/s] 78%|███████▊  | 8308/10719 [1:21:19<20:04,  2.00it/s] 78%|███████▊  | 8309/10719 [1:21:19<20:01,  2.01it/s] 78%|███████▊  | 8310/10719 [1:21:20<20:00,  2.01it/s] 78%|███████▊  | 8311/10719 [1:21:20<19:59,  2.01it/s] 78%|███████▊  | 8312/10719 [1:21:21<20:02,  2.00it/s] 78%|███████▊  | 8313/10719 [1:21:21<20:45,  1.93it/s] 78%|███████▊  | 8314/10719 [1:21:22<20:36,  1.94it/s] 78%|███████▊  | 8315/10719 [1:21:22<20:26,  1.96it/s] 78%|███████▊  | 8316/10719 [1:21:23<20:18,  1.97it/s] 78%|███████▊  | 8317/10719 [1:21:23<20:11,  1.98it/s] 78%|███████▊  | 8318/10719 [1:21:24<20:43,  1.93it/s] 78%|███████▊  | 8319/10719 [1:21:24<20:51,  1.92it/s] 78%|███████▊  | 8320/10719 [1:21:25<20:32,  1.95it/s] 78%|███████▊  | 8321/10719 [1:21:25<20:21,  1.96it/s] 78%|███████▊  | 8322/10719 [1:21:26<20:12,  1.98it/s] 78%|███████▊  | 8323/10719 [1:21:26<20:08,  1.98it/s] 78%|███████▊  | 8324/10719 [1:21:27<20:02,  1.99it/s] 78%|███████▊  | 8325/10719 [1:21:27<19:58,  2.00it/s]                                                      {'loss': 3.4913, 'grad_norm': 0.19759632647037506, 'learning_rate': 0.00014440885647614267, 'epoch': 0.78}
- 78%|███████▊  | 8325/10719 [1:21:27<19:58,  2.00it/s] 78%|███████▊  | 8326/10719 [1:21:28<19:57,  2.00it/s] 78%|███████▊  | 8327/10719 [1:21:28<19:53,  2.00it/s] 78%|███████▊  | 8328/10719 [1:21:29<19:52,  2.00it/s] 78%|███████▊  | 8329/10719 [1:21:29<19:51,  2.01it/s] 78%|███████▊  | 8330/10719 [1:21:30<19:52,  2.00it/s] 78%|███████▊  | 8331/10719 [1:21:30<19:50,  2.01it/s] 78%|███████▊  | 8332/10719 [1:21:31<19:52,  2.00it/s] 78%|███████▊  | 8333/10719 [1:21:31<19:51,  2.00it/s] 78%|███████▊  | 8334/10719 [1:21:32<19:51,  2.00it/s] 78%|███████▊  | 8335/10719 [1:21:32<19:50,  2.00it/s] 78%|███████▊  | 8336/10719 [1:21:33<19:50,  2.00it/s] 78%|███████▊  | 8337/10719 [1:21:33<19:48,  2.00it/s] 78%|███████▊  | 8338/10719 [1:21:34<19:49,  2.00it/s] 78%|███████▊  | 8339/10719 [1:21:34<19:47,  2.00it/s] 78%|███████▊  | 8340/10719 [1:21:35<19:47,  2.00it/s] 78%|███████▊  | 8341/10719 [1:21:35<19:44,  2.01it/s] 78%|███████▊  | 8342/10719 [1:21:36<19:45,  2.01it/s] 78%|███████▊  | 8343/10719 [1:21:36<19:43,  2.01it/s] 78%|███████▊  | 8344/10719 [1:21:37<19:42,  2.01it/s] 78%|███████▊  | 8345/10719 [1:21:37<19:42,  2.01it/s] 78%|███████▊  | 8346/10719 [1:21:38<19:42,  2.01it/s] 78%|███████▊  | 8347/10719 [1:21:38<19:39,  2.01it/s] 78%|███████▊  | 8348/10719 [1:21:39<19:39,  2.01it/s] 78%|███████▊  | 8349/10719 [1:21:39<19:39,  2.01it/s] 78%|███████▊  | 8350/10719 [1:21:40<19:37,  2.01it/s]                                                      {'loss': 3.4848, 'grad_norm': 0.19305332005023956, 'learning_rate': 0.00014155894924096612, 'epoch': 0.78}
- 78%|███████▊  | 8350/10719 [1:21:40<19:37,  2.01it/s] 78%|███████▊  | 8351/10719 [1:21:40<19:37,  2.01it/s] 78%|███████▊  | 8352/10719 [1:21:41<19:36,  2.01it/s] 78%|███████▊  | 8353/10719 [1:21:41<19:36,  2.01it/s] 78%|███████▊  | 8354/10719 [1:21:42<19:36,  2.01it/s] 78%|███████▊  | 8355/10719 [1:21:42<19:33,  2.01it/s] 78%|███████▊  | 8356/10719 [1:21:43<19:34,  2.01it/s] 78%|███████▊  | 8357/10719 [1:21:43<19:32,  2.01it/s] 78%|███████▊  | 8358/10719 [1:21:44<19:31,  2.02it/s] 78%|███████▊  | 8359/10719 [1:21:44<19:31,  2.01it/s] 78%|███████▊  | 8360/10719 [1:21:45<19:29,  2.02it/s] 78%|███████▊  | 8361/10719 [1:21:45<19:28,  2.02it/s] 78%|███████▊  | 8362/10719 [1:21:46<19:27,  2.02it/s] 78%|███████▊  | 8363/10719 [1:21:46<19:28,  2.02it/s] 78%|███████▊  | 8364/10719 [1:21:47<19:27,  2.02it/s] 78%|███████▊  | 8365/10719 [1:21:47<19:26,  2.02it/s] 78%|███████▊  | 8366/10719 [1:21:48<19:27,  2.02it/s] 78%|███████▊  | 8367/10719 [1:21:48<19:27,  2.01it/s] 78%|███████▊  | 8368/10719 [1:21:49<19:36,  2.00it/s] 78%|███████▊  | 8369/10719 [1:21:49<19:34,  2.00it/s] 78%|███████▊  | 8370/10719 [1:21:50<19:32,  2.00it/s] 78%|███████▊  | 8371/10719 [1:21:50<19:30,  2.01it/s] 78%|███████▊  | 8372/10719 [1:21:51<19:30,  2.00it/s] 78%|███████▊  | 8373/10719 [1:21:51<19:29,  2.01it/s] 78%|███████▊  | 8374/10719 [1:21:52<19:28,  2.01it/s] 78%|███████▊  | 8375/10719 [1:21:52<19:28,  2.01it/s]                                                      {'loss': 3.4941, 'grad_norm': 0.19692325592041016, 'learning_rate': 0.00013873280004247674, 'epoch': 0.78}
- 78%|███████▊  | 8375/10719 [1:21:52<19:28,  2.01it/s] 78%|███████▊  | 8376/10719 [1:21:53<19:29,  2.00it/s] 78%|███████▊  | 8377/10719 [1:21:53<19:27,  2.01it/s] 78%|███████▊  | 8378/10719 [1:21:54<19:27,  2.01it/s] 78%|███████▊  | 8379/10719 [1:21:54<20:22,  1.91it/s] 78%|███████▊  | 8380/10719 [1:21:55<20:05,  1.94it/s] 78%|███████▊  | 8381/10719 [1:21:55<19:50,  1.96it/s] 78%|███████▊  | 8382/10719 [1:21:56<19:42,  1.98it/s] 78%|███████▊  | 8383/10719 [1:21:56<19:35,  1.99it/s] 78%|███████▊  | 8384/10719 [1:21:57<19:29,  2.00it/s] 78%|███████▊  | 8385/10719 [1:21:57<19:26,  2.00it/s] 78%|███████▊  | 8386/10719 [1:21:58<19:24,  2.00it/s] 78%|███████▊  | 8387/10719 [1:21:58<19:22,  2.01it/s] 78%|███████▊  | 8388/10719 [1:21:59<19:21,  2.01it/s] 78%|███████▊  | 8389/10719 [1:21:59<19:18,  2.01it/s] 78%|███████▊  | 8390/10719 [1:22:00<19:16,  2.01it/s] 78%|███████▊  | 8391/10719 [1:22:00<19:14,  2.02it/s] 78%|███████▊  | 8392/10719 [1:22:01<19:14,  2.02it/s] 78%|███████▊  | 8393/10719 [1:22:01<19:13,  2.02it/s] 78%|███████▊  | 8394/10719 [1:22:02<19:12,  2.02it/s] 78%|███████▊  | 8395/10719 [1:22:02<19:12,  2.02it/s] 78%|███████▊  | 8396/10719 [1:22:03<19:11,  2.02it/s] 78%|███████▊  | 8397/10719 [1:22:03<19:11,  2.02it/s] 78%|███████▊  | 8398/10719 [1:22:04<19:10,  2.02it/s] 78%|███████▊  | 8399/10719 [1:22:04<19:11,  2.01it/s] 78%|███████▊  | 8400/10719 [1:22:05<19:16,  2.00it/s]                                                      {'loss': 3.4852, 'grad_norm': 0.19982610642910004, 'learning_rate': 0.00013593059620228883, 'epoch': 0.78}
- 78%|███████▊  | 8400/10719 [1:22:05<19:16,  2.00it/s] 78%|███████▊  | 8401/10719 [1:22:05<19:17,  2.00it/s] 78%|███████▊  | 8402/10719 [1:22:06<19:16,  2.00it/s] 78%|███████▊  | 8403/10719 [1:22:06<19:14,  2.01it/s] 78%|███████▊  | 8404/10719 [1:22:07<19:15,  2.00it/s] 78%|███████▊  | 8405/10719 [1:22:07<19:11,  2.01it/s] 78%|███████▊  | 8406/10719 [1:22:08<19:12,  2.01it/s] 78%|███████▊  | 8407/10719 [1:22:08<19:12,  2.01it/s] 78%|███████▊  | 8408/10719 [1:22:09<19:11,  2.01it/s] 78%|███████▊  | 8409/10719 [1:22:09<19:12,  2.01it/s] 78%|███████▊  | 8410/10719 [1:22:10<19:12,  2.00it/s] 78%|███████▊  | 8411/10719 [1:22:10<19:11,  2.01it/s] 78%|███████▊  | 8412/10719 [1:22:11<19:11,  2.00it/s] 78%|███████▊  | 8413/10719 [1:22:11<19:10,  2.00it/s] 78%|███████▊  | 8414/10719 [1:22:12<19:09,  2.01it/s] 79%|███████▊  | 8415/10719 [1:22:12<19:09,  2.00it/s] 79%|███████▊  | 8416/10719 [1:22:13<19:09,  2.00it/s] 79%|███████▊  | 8417/10719 [1:22:13<19:09,  2.00it/s] 79%|███████▊  | 8418/10719 [1:22:14<19:09,  2.00it/s] 79%|███████▊  | 8419/10719 [1:22:14<19:09,  2.00it/s] 79%|███████▊  | 8420/10719 [1:22:15<19:08,  2.00it/s] 79%|███████▊  | 8421/10719 [1:22:15<19:08,  2.00it/s] 79%|███████▊  | 8422/10719 [1:22:16<19:07,  2.00it/s] 79%|███████▊  | 8423/10719 [1:22:16<19:07,  2.00it/s] 79%|███████▊  | 8424/10719 [1:22:17<19:05,  2.00it/s] 79%|███████▊  | 8425/10719 [1:22:17<19:05,  2.00it/s]                                                      {'loss': 3.4924, 'grad_norm': 0.20753782987594604, 'learning_rate': 0.00013315252345488143, 'epoch': 0.79}
- 79%|███████▊  | 8425/10719 [1:22:17<19:05,  2.00it/s] 79%|███████▊  | 8426/10719 [1:22:18<19:06,  2.00it/s] 79%|███████▊  | 8427/10719 [1:22:18<19:04,  2.00it/s] 79%|███████▊  | 8428/10719 [1:22:19<19:03,  2.00it/s] 79%|███████▊  | 8429/10719 [1:22:19<19:01,  2.01it/s] 79%|███████▊  | 8430/10719 [1:22:20<19:00,  2.01it/s] 79%|███████▊  | 8431/10719 [1:22:20<18:59,  2.01it/s] 79%|███████▊  | 8432/10719 [1:22:21<19:00,  2.00it/s] 79%|███████▊  | 8433/10719 [1:22:21<19:01,  2.00it/s] 79%|███████▊  | 8434/10719 [1:22:22<19:00,  2.00it/s] 79%|███████▊  | 8435/10719 [1:22:22<19:01,  2.00it/s] 79%|███████▊  | 8436/10719 [1:22:23<18:59,  2.00it/s] 79%|███████▊  | 8437/10719 [1:22:23<18:58,  2.00it/s] 79%|███████▊  | 8438/10719 [1:22:24<18:58,  2.00it/s] 79%|███████▊  | 8439/10719 [1:22:24<18:57,  2.00it/s] 79%|███████▊  | 8440/10719 [1:22:25<20:02,  1.89it/s] 79%|███████▊  | 8441/10719 [1:22:25<19:46,  1.92it/s] 79%|███████▉  | 8442/10719 [1:22:26<19:32,  1.94it/s] 79%|███████▉  | 8443/10719 [1:22:26<19:23,  1.96it/s] 79%|███████▉  | 8444/10719 [1:22:27<19:14,  1.97it/s] 79%|███████▉  | 8445/10719 [1:22:27<19:09,  1.98it/s] 79%|███████▉  | 8446/10719 [1:22:28<19:05,  1.98it/s] 79%|███████▉  | 8447/10719 [1:22:28<19:01,  1.99it/s] 79%|███████▉  | 8448/10719 [1:22:29<18:57,  2.00it/s] 79%|███████▉  | 8449/10719 [1:22:29<18:54,  2.00it/s] 79%|███████▉  | 8450/10719 [1:22:30<18:51,  2.00it/s]                                                      {'loss': 3.4862, 'grad_norm': 0.19926883280277252, 'learning_rate': 0.0001303987659352857, 'epoch': 0.79}
- 79%|███████▉  | 8450/10719 [1:22:30<18:51,  2.00it/s] 79%|███████▉  | 8451/10719 [1:22:30<18:53,  2.00it/s] 79%|███████▉  | 8452/10719 [1:22:31<18:51,  2.00it/s] 79%|███████▉  | 8453/10719 [1:22:31<18:51,  2.00it/s] 79%|███████▉  | 8454/10719 [1:22:32<18:48,  2.01it/s] 79%|███████▉  | 8455/10719 [1:22:32<18:48,  2.01it/s] 79%|███████▉  | 8456/10719 [1:22:33<18:46,  2.01it/s] 79%|███████▉  | 8457/10719 [1:22:33<18:44,  2.01it/s] 79%|███████▉  | 8458/10719 [1:22:34<18:44,  2.01it/s] 79%|███████▉  | 8459/10719 [1:22:34<18:43,  2.01it/s] 79%|███████▉  | 8460/10719 [1:22:35<18:42,  2.01it/s] 79%|███████▉  | 8461/10719 [1:22:35<18:41,  2.01it/s] 79%|███████▉  | 8462/10719 [1:22:36<18:41,  2.01it/s] 79%|███████▉  | 8463/10719 [1:22:36<18:43,  2.01it/s] 79%|███████▉  | 8464/10719 [1:22:37<18:41,  2.01it/s] 79%|███████▉  | 8465/10719 [1:22:37<18:40,  2.01it/s] 79%|███████▉  | 8466/10719 [1:22:38<18:38,  2.01it/s] 79%|███████▉  | 8467/10719 [1:22:38<18:37,  2.01it/s] 79%|███████▉  | 8468/10719 [1:22:39<18:37,  2.01it/s] 79%|███████▉  | 8469/10719 [1:22:39<18:38,  2.01it/s] 79%|███████▉  | 8470/10719 [1:22:40<18:38,  2.01it/s] 79%|███████▉  | 8471/10719 [1:22:40<18:39,  2.01it/s] 79%|███████▉  | 8472/10719 [1:22:41<18:40,  2.01it/s] 79%|███████▉  | 8473/10719 [1:22:41<18:40,  2.00it/s] 79%|███████▉  | 8474/10719 [1:22:42<18:39,  2.01it/s] 79%|███████▉  | 8475/10719 [1:22:42<18:38,  2.01it/s]                                                      {'loss': 3.4826, 'grad_norm': 0.1973465532064438, 'learning_rate': 0.00012766950616688232, 'epoch': 0.79}
- 79%|███████▉  | 8475/10719 [1:22:42<18:38,  2.01it/s] 79%|███████▉  | 8476/10719 [1:22:43<18:39,  2.00it/s] 79%|███████▉  | 8477/10719 [1:22:43<18:36,  2.01it/s] 79%|███████▉  | 8478/10719 [1:22:44<18:37,  2.01it/s] 79%|███████▉  | 8479/10719 [1:22:44<18:38,  2.00it/s] 79%|███████▉  | 8480/10719 [1:22:45<18:38,  2.00it/s] 79%|███████▉  | 8481/10719 [1:22:45<18:38,  2.00it/s] 79%|███████▉  | 8482/10719 [1:22:46<18:38,  2.00it/s] 79%|███████▉  | 8483/10719 [1:22:46<18:35,  2.00it/s] 79%|███████▉  | 8484/10719 [1:22:47<18:38,  2.00it/s] 79%|███████▉  | 8485/10719 [1:22:47<18:37,  2.00it/s] 79%|███████▉  | 8486/10719 [1:22:48<18:34,  2.00it/s] 79%|███████▉  | 8487/10719 [1:22:48<18:32,  2.01it/s] 79%|███████▉  | 8488/10719 [1:22:49<18:33,  2.00it/s] 79%|███████▉  | 8489/10719 [1:22:49<18:33,  2.00it/s] 79%|███████▉  | 8490/10719 [1:22:50<18:31,  2.00it/s] 79%|███████▉  | 8491/10719 [1:22:50<18:30,  2.01it/s] 79%|███████▉  | 8492/10719 [1:22:51<18:30,  2.01it/s] 79%|███████▉  | 8493/10719 [1:22:51<18:28,  2.01it/s] 79%|███████▉  | 8494/10719 [1:22:52<18:28,  2.01it/s] 79%|███████▉  | 8495/10719 [1:22:52<18:30,  2.00it/s] 79%|███████▉  | 8496/10719 [1:22:53<18:30,  2.00it/s] 79%|███████▉  | 8497/10719 [1:22:53<18:27,  2.01it/s] 79%|███████▉  | 8498/10719 [1:22:54<18:27,  2.00it/s] 79%|███████▉  | 8499/10719 [1:22:54<19:24,  1.91it/s] 79%|███████▉  | 8500/10719 [1:22:55<20:52,  1.77it/s]                                                      {'loss': 3.485, 'grad_norm': 0.19813045859336853, 'learning_rate': 0.0001249649250493014, 'epoch': 0.79}
- 79%|███████▉  | 8500/10719 [1:22:55<20:52,  1.77it/s] 79%|███████▉  | 8501/10719 [1:22:55<20:09,  1.83it/s] 79%|███████▉  | 8502/10719 [1:22:56<19:38,  1.88it/s] 79%|███████▉  | 8503/10719 [1:22:56<19:18,  1.91it/s] 79%|███████▉  | 8504/10719 [1:22:57<19:02,  1.94it/s] 79%|███████▉  | 8505/10719 [1:22:57<18:50,  1.96it/s] 79%|███████▉  | 8506/10719 [1:22:58<18:43,  1.97it/s] 79%|███████▉  | 8507/10719 [1:22:58<18:36,  1.98it/s] 79%|███████▉  | 8508/10719 [1:22:59<18:33,  1.99it/s] 79%|███████▉  | 8509/10719 [1:22:59<18:28,  1.99it/s] 79%|███████▉  | 8510/10719 [1:23:00<18:26,  2.00it/s] 79%|███████▉  | 8511/10719 [1:23:00<18:25,  2.00it/s] 79%|███████▉  | 8512/10719 [1:23:01<18:25,  2.00it/s] 79%|███████▉  | 8513/10719 [1:23:01<18:23,  2.00it/s] 79%|███████▉  | 8514/10719 [1:23:02<18:21,  2.00it/s] 79%|███████▉  | 8515/10719 [1:23:02<18:20,  2.00it/s] 79%|███████▉  | 8516/10719 [1:23:03<18:20,  2.00it/s] 79%|███████▉  | 8517/10719 [1:23:04<18:49,  1.95it/s] 79%|███████▉  | 8518/10719 [1:23:04<18:42,  1.96it/s] 79%|███████▉  | 8519/10719 [1:23:05<18:35,  1.97it/s] 79%|███████▉  | 8520/10719 [1:23:05<18:30,  1.98it/s] 79%|███████▉  | 8521/10719 [1:23:06<18:26,  1.99it/s] 80%|███████▉  | 8522/10719 [1:23:06<18:23,  1.99it/s] 80%|███████▉  | 8523/10719 [1:23:07<18:20,  2.00it/s] 80%|███████▉  | 8524/10719 [1:23:07<18:17,  2.00it/s] 80%|███████▉  | 8525/10719 [1:23:08<18:15,  2.00it/s]                                                      {'loss': 3.4781, 'grad_norm': 0.20433345437049866, 'learning_rate': 0.0001222852018464345, 'epoch': 0.8}
- 80%|███████▉  | 8525/10719 [1:23:08<18:15,  2.00it/s] 80%|███████▉  | 8526/10719 [1:23:08<18:14,  2.00it/s] 80%|███████▉  | 8527/10719 [1:23:09<18:14,  2.00it/s] 80%|███████▉  | 8528/10719 [1:23:09<18:12,  2.00it/s] 80%|███████▉  | 8529/10719 [1:23:10<18:13,  2.00it/s] 80%|███████▉  | 8530/10719 [1:23:10<18:11,  2.01it/s] 80%|███████▉  | 8531/10719 [1:23:11<18:09,  2.01it/s] 80%|███████▉  | 8532/10719 [1:23:11<18:09,  2.01it/s] 80%|███████▉  | 8533/10719 [1:23:12<18:09,  2.01it/s] 80%|███████▉  | 8534/10719 [1:23:12<18:08,  2.01it/s] 80%|███████▉  | 8535/10719 [1:23:13<18:19,  1.99it/s] 80%|███████▉  | 8536/10719 [1:23:13<18:16,  1.99it/s] 80%|███████▉  | 8537/10719 [1:23:14<18:15,  1.99it/s] 80%|███████▉  | 8538/10719 [1:23:14<18:13,  1.99it/s] 80%|███████▉  | 8539/10719 [1:23:15<18:11,  2.00it/s] 80%|███████▉  | 8540/10719 [1:23:15<18:11,  2.00it/s] 80%|███████▉  | 8541/10719 [1:23:16<18:10,  2.00it/s] 80%|███████▉  | 8542/10719 [1:23:16<18:08,  2.00it/s] 80%|███████▉  | 8543/10719 [1:23:17<18:07,  2.00it/s] 80%|███████▉  | 8544/10719 [1:23:17<18:06,  2.00it/s] 80%|███████▉  | 8545/10719 [1:23:18<18:04,  2.00it/s] 80%|███████▉  | 8546/10719 [1:23:18<18:03,  2.01it/s] 80%|███████▉  | 8547/10719 [1:23:19<18:02,  2.01it/s] 80%|███████▉  | 8548/10719 [1:23:19<18:01,  2.01it/s] 80%|███████▉  | 8549/10719 [1:23:20<18:00,  2.01it/s] 80%|███████▉  | 8550/10719 [1:23:20<17:59,  2.01it/s]                                                      {'loss': 3.4741, 'grad_norm': 0.20137102901935577, 'learning_rate': 0.00011963051417455012, 'epoch': 0.8}
- 80%|███████▉  | 8550/10719 [1:23:20<17:59,  2.01it/s] 80%|███████▉  | 8551/10719 [1:23:21<18:06,  2.00it/s] 80%|███████▉  | 8552/10719 [1:23:21<18:03,  2.00it/s] 80%|███████▉  | 8553/10719 [1:23:22<18:03,  2.00it/s] 80%|███████▉  | 8554/10719 [1:23:22<18:01,  2.00it/s] 80%|███████▉  | 8555/10719 [1:23:23<17:59,  2.00it/s] 80%|███████▉  | 8556/10719 [1:23:23<17:58,  2.01it/s] 80%|███████▉  | 8557/10719 [1:23:24<17:58,  2.01it/s] 80%|███████▉  | 8558/10719 [1:23:24<18:01,  2.00it/s] 80%|███████▉  | 8559/10719 [1:23:25<18:34,  1.94it/s] 80%|███████▉  | 8560/10719 [1:23:25<18:25,  1.95it/s] 80%|███████▉  | 8561/10719 [1:23:26<18:25,  1.95it/s] 80%|███████▉  | 8562/10719 [1:23:26<18:16,  1.97it/s] 80%|███████▉  | 8563/10719 [1:23:27<18:12,  1.97it/s] 80%|███████▉  | 8564/10719 [1:23:27<18:06,  1.98it/s] 80%|███████▉  | 8565/10719 [1:23:28<18:01,  1.99it/s] 80%|███████▉  | 8566/10719 [1:23:28<17:59,  1.99it/s] 80%|███████▉  | 8567/10719 [1:23:29<17:58,  1.99it/s] 80%|███████▉  | 8568/10719 [1:23:29<17:57,  2.00it/s] 80%|███████▉  | 8569/10719 [1:23:30<17:54,  2.00it/s] 80%|███████▉  | 8570/10719 [1:23:30<17:52,  2.00it/s] 80%|███████▉  | 8571/10719 [1:23:31<17:52,  2.00it/s] 80%|███████▉  | 8572/10719 [1:23:31<17:51,  2.00it/s] 80%|███████▉  | 8573/10719 [1:23:32<17:49,  2.01it/s] 80%|███████▉  | 8574/10719 [1:23:32<17:48,  2.01it/s] 80%|███████▉  | 8575/10719 [1:23:33<17:48,  2.01it/s]                                                      {'loss': 3.4842, 'grad_norm': 0.1983451247215271, 'learning_rate': 0.00011700103799052364, 'epoch': 0.8}
- 80%|███████▉  | 8575/10719 [1:23:33<17:48,  2.01it/s] 80%|████████  | 8576/10719 [1:23:33<17:48,  2.01it/s] 80%|████████  | 8577/10719 [1:23:34<17:47,  2.01it/s] 80%|████████  | 8578/10719 [1:23:34<17:44,  2.01it/s] 80%|████████  | 8579/10719 [1:23:35<17:43,  2.01it/s] 80%|████████  | 8580/10719 [1:23:35<17:43,  2.01it/s] 80%|████████  | 8581/10719 [1:23:36<17:41,  2.01it/s] 80%|████████  | 8582/10719 [1:23:36<17:40,  2.02it/s] 80%|████████  | 8583/10719 [1:23:37<17:42,  2.01it/s] 80%|████████  | 8584/10719 [1:23:37<17:41,  2.01it/s] 80%|████████  | 8585/10719 [1:23:38<17:41,  2.01it/s] 80%|████████  | 8586/10719 [1:23:38<17:39,  2.01it/s] 80%|████████  | 8587/10719 [1:23:39<17:39,  2.01it/s] 80%|████████  | 8588/10719 [1:23:39<17:37,  2.01it/s] 80%|████████  | 8589/10719 [1:23:40<17:37,  2.01it/s] 80%|████████  | 8590/10719 [1:23:40<17:37,  2.01it/s] 80%|████████  | 8591/10719 [1:23:41<17:35,  2.02it/s] 80%|████████  | 8592/10719 [1:23:41<17:35,  2.01it/s] 80%|████████  | 8593/10719 [1:23:42<18:08,  1.95it/s] 80%|████████  | 8594/10719 [1:23:42<18:01,  1.96it/s] 80%|████████  | 8595/10719 [1:23:43<17:53,  1.98it/s] 80%|████████  | 8596/10719 [1:23:43<17:48,  1.99it/s] 80%|████████  | 8597/10719 [1:23:44<17:45,  1.99it/s] 80%|████████  | 8598/10719 [1:23:44<17:44,  1.99it/s] 80%|████████  | 8599/10719 [1:23:45<17:42,  2.00it/s] 80%|████████  | 8600/10719 [1:23:45<17:40,  2.00it/s]                                                      {'loss': 3.4786, 'grad_norm': 0.20068377256393433, 'learning_rate': 0.0001143969475801726, 'epoch': 0.8}
- 80%|████████  | 8600/10719 [1:23:45<17:40,  2.00it/s] 80%|████████  | 8601/10719 [1:23:46<17:39,  2.00it/s] 80%|████████  | 8602/10719 [1:23:46<17:37,  2.00it/s] 80%|████████  | 8603/10719 [1:23:47<17:36,  2.00it/s] 80%|████████  | 8604/10719 [1:23:47<17:35,  2.00it/s] 80%|████████  | 8605/10719 [1:23:48<17:34,  2.00it/s] 80%|████████  | 8606/10719 [1:23:48<17:33,  2.01it/s] 80%|██���█████  | 8607/10719 [1:23:49<17:32,  2.01it/s] 80%|████████  | 8608/10719 [1:23:49<17:31,  2.01it/s] 80%|████████  | 8609/10719 [1:23:50<17:31,  2.01it/s] 80%|████████  | 8610/10719 [1:23:50<17:28,  2.01it/s] 80%|████████  | 8611/10719 [1:23:51<17:28,  2.01it/s] 80%|████████  | 8612/10719 [1:23:51<17:26,  2.01it/s] 80%|████████  | 8613/10719 [1:23:52<17:26,  2.01it/s] 80%|████████  | 8614/10719 [1:23:52<17:26,  2.01it/s] 80%|████████  | 8615/10719 [1:23:53<17:25,  2.01it/s] 80%|████████  | 8616/10719 [1:23:53<17:25,  2.01it/s] 80%|████████  | 8617/10719 [1:23:54<17:25,  2.01it/s] 80%|████████  | 8618/10719 [1:23:54<17:24,  2.01it/s] 80%|████████  | 8619/10719 [1:23:55<18:26,  1.90it/s] 80%|████████  | 8620/10719 [1:23:55<18:06,  1.93it/s] 80%|████████  | 8621/10719 [1:23:56<17:52,  1.96it/s] 80%|████████  | 8622/10719 [1:23:56<17:42,  1.97it/s] 80%|████████  | 8623/10719 [1:23:57<17:34,  1.99it/s] 80%|████████  | 8624/10719 [1:23:57<17:29,  2.00it/s] 80%|████████  | 8625/10719 [1:23:58<17:24,  2.00it/s]                                                      {'loss': 3.4862, 'grad_norm': 0.20567166805267334, 'learning_rate': 0.00011181841554670575, 'epoch': 0.8}
- 80%|████████  | 8625/10719 [1:23:58<17:24,  2.00it/s] 80%|████████  | 8626/10719 [1:23:58<17:24,  2.00it/s] 80%|████████  | 8627/10719 [1:23:59<17:21,  2.01it/s] 80%|████████  | 8628/10719 [1:23:59<17:20,  2.01it/s] 81%|████████  | 8629/10719 [1:24:00<17:19,  2.01it/s] 81%|████████  | 8630/10719 [1:24:00<17:16,  2.01it/s] 81%|████████  | 8631/10719 [1:24:01<17:16,  2.01it/s] 81%|████████  | 8632/10719 [1:24:01<17:14,  2.02it/s] 81%|████████  | 8633/10719 [1:24:02<17:13,  2.02it/s] 81%|████████  | 8634/10719 [1:24:02<17:11,  2.02it/s] 81%|████████  | 8635/10719 [1:24:03<17:12,  2.02it/s] 81%|████████  | 8636/10719 [1:24:03<17:12,  2.02it/s] 81%|████████  | 8637/10719 [1:24:04<17:14,  2.01it/s] 81%|████████  | 8638/10719 [1:24:04<17:14,  2.01it/s] 81%|████████  | 8639/10719 [1:24:05<17:15,  2.01it/s] 81%|████████  | 8640/10719 [1:24:05<17:15,  2.01it/s] 81%|████████  | 8641/10719 [1:24:06<17:14,  2.01it/s] 81%|████████  | 8642/10719 [1:24:06<17:13,  2.01it/s] 81%|████████  | 8643/10719 [1:24:07<17:13,  2.01it/s] 81%|████████  | 8644/10719 [1:24:07<17:12,  2.01it/s] 81%|████████  | 8645/10719 [1:24:08<17:10,  2.01it/s] 81%|████████  | 8646/10719 [1:24:08<17:10,  2.01it/s] 81%|████████  | 8647/10719 [1:24:09<17:10,  2.01it/s] 81%|████████  | 8648/10719 [1:24:09<17:12,  2.01it/s] 81%|████████  | 8649/10719 [1:24:10<17:11,  2.01it/s] 81%|████████  | 8650/10719 [1:24:10<17:11,  2.01it/s]                                                      {'loss': 3.4696, 'grad_norm': 0.20139487087726593, 'learning_rate': 0.00010926561279928243, 'epoch': 0.81}
- 81%|████████  | 8650/10719 [1:24:10<17:11,  2.01it/s] 81%|████████  | 8651/10719 [1:24:11<17:11,  2.00it/s] 81%|████████  | 8652/10719 [1:24:11<17:11,  2.00it/s] 81%|████████  | 8653/10719 [1:24:12<17:10,  2.00it/s] 81%|████████  | 8654/10719 [1:24:12<17:10,  2.00it/s] 81%|████████  | 8655/10719 [1:24:13<17:12,  2.00it/s] 81%|████████  | 8656/10719 [1:24:13<17:12,  2.00it/s] 81%|████████  | 8657/10719 [1:24:14<17:10,  2.00it/s] 81%|████████  | 8658/10719 [1:24:14<17:09,  2.00it/s] 81%|████████  | 8659/10719 [1:24:15<17:08,  2.00it/s] 81%|████████  | 8660/10719 [1:24:15<17:06,  2.01it/s] 81%|████████  | 8661/10719 [1:24:16<17:06,  2.01it/s] 81%|████████  | 8662/10719 [1:24:16<17:05,  2.01it/s] 81%|████████  | 8663/10719 [1:24:17<17:06,  2.00it/s] 81%|████████  | 8664/10719 [1:24:17<17:05,  2.00it/s] 81%|████████  | 8665/10719 [1:24:18<17:06,  2.00it/s] 81%|████████  | 8666/10719 [1:24:18<17:05,  2.00it/s] 81%|████████  | 8667/10719 [1:24:19<17:04,  2.00it/s] 81%|████████  | 8668/10719 [1:24:19<17:02,  2.01it/s] 81%|████████  | 8669/10719 [1:24:19<17:01,  2.01it/s] 81%|████████  | 8670/10719 [1:24:20<17:00,  2.01it/s] 81%|████████  | 8671/10719 [1:24:20<16:59,  2.01it/s] 81%|████████  | 8672/10719 [1:24:21<17:00,  2.01it/s] 81%|████████  | 8673/10719 [1:24:21<17:01,  2.00it/s] 81%|████████  | 8674/10719 [1:24:22<17:00,  2.00it/s] 81%|████████  | 8675/10719 [1:24:22<17:01,  2.00it/s]                                                      {'loss': 3.4787, 'grad_norm': 0.20071282982826233, 'learning_rate': 0.00010673870854168438, 'epoch': 0.81}
- 81%|████████  | 8675/10719 [1:24:22<17:01,  2.00it/s] 81%|████████  | 8676/10719 [1:24:23<17:00,  2.00it/s] 81%|████████  | 8677/10719 [1:24:23<16:58,  2.00it/s] 81%|████████  | 8678/10719 [1:24:24<16:56,  2.01it/s] 81%|████████  | 8679/10719 [1:24:24<16:56,  2.01it/s] 81%|████████  | 8680/10719 [1:24:25<16:59,  2.00it/s] 81%|████████  | 8681/10719 [1:24:25<16:57,  2.00it/s] 81%|████████  | 8682/10719 [1:24:26<16:55,  2.01it/s] 81%|████████  | 8683/10719 [1:24:26<16:56,  2.00it/s] 81%|████████  | 8684/10719 [1:24:27<16:55,  2.00it/s] 81%|████████  | 8685/10719 [1:24:27<16:54,  2.01it/s] 81%|████████  | 8686/10719 [1:24:28<16:54,  2.00it/s] 81%|████████  | 8687/10719 [1:24:28<16:55,  2.00it/s] 81%|████████  | 8688/10719 [1:24:29<16:54,  2.00it/s] 81%|████████  | 8689/10719 [1:24:29<16:54,  2.00it/s] 81%|████████  | 8690/10719 [1:24:30<16:53,  2.00it/s] 81%|████████  | 8691/10719 [1:24:30<16:53,  2.00it/s] 81%|████████  | 8692/10719 [1:24:31<16:52,  2.00it/s] 81%|████████  | 8693/10719 [1:24:31<16:52,  2.00it/s] 81%|████████  | 8694/10719 [1:24:32<16:52,  2.00it/s] 81%|████████  | 8695/10719 [1:24:32<16:52,  2.00it/s] 81%|████████  | 8696/10719 [1:24:33<16:51,  2.00it/s] 81%|████████  | 8697/10719 [1:24:33<16:51,  2.00it/s] 81%|████████  | 8698/10719 [1:24:34<16:51,  2.00it/s] 81%|████████  | 8699/10719 [1:24:34<16:51,  2.00it/s] 81%|████████  | 8700/10719 [1:24:35<16:50,  2.00it/s]                                                      {'loss': 3.485, 'grad_norm': 0.1996665894985199, 'learning_rate': 0.0001042378702611007, 'epoch': 0.81}
- 81%|████████  | 8700/10719 [1:24:35<16:50,  2.00it/s] 81%|████████  | 8701/10719 [1:24:35<16:49,  2.00it/s] 81%|████████  | 8702/10719 [1:24:36<16:50,  2.00it/s] 81%|████████  | 8703/10719 [1:24:36<16:50,  2.00it/s] 81%|████████  | 8704/10719 [1:24:37<16:49,  2.00it/s] 81%|████████  | 8705/10719 [1:24:37<16:47,  2.00it/s] 81%|████████  | 8706/10719 [1:24:38<16:45,  2.00it/s] 81%|████████  | 8707/10719 [1:24:38<16:44,  2.00it/s] 81%|████████  | 8708/10719 [1:24:39<16:43,  2.00it/s] 81%|████████  | 8709/10719 [1:24:39<16:44,  2.00it/s] 81%|████████▏ | 8710/10719 [1:24:40<16:43,  2.00it/s] 81%|████████▏ | 8711/10719 [1:24:40<16:45,  2.00it/s] 81%|████████▏ | 8712/10719 [1:24:41<16:44,  2.00it/s] 81%|████████▏ | 8713/10719 [1:24:41<16:42,  2.00it/s] 81%|████████▏ | 8714/10719 [1:24:42<16:40,  2.00it/s] 81%|████████▏ | 8715/10719 [1:24:42<16:39,  2.00it/s] 81%|████████▏ | 8716/10719 [1:24:43<16:38,  2.01it/s] 81%|████████▏ | 8717/10719 [1:24:43<16:38,  2.00it/s] 81%|████████▏ | 8718/10719 [1:24:44<16:37,  2.01it/s] 81%|████████▏ | 8719/10719 [1:24:44<16:36,  2.01it/s] 81%|████████▏ | 8720/10719 [1:24:45<16:35,  2.01it/s] 81%|████████▏ | 8721/10719 [1:24:45<16:34,  2.01it/s] 81%|████████▏ | 8722/10719 [1:24:46<16:32,  2.01it/s] 81%|████████▏ | 8723/10719 [1:24:46<16:31,  2.01it/s] 81%|████████▏ | 8724/10719 [1:24:47<16:31,  2.01it/s] 81%|████████▏ | 8725/10719 [1:24:47<16:31,  2.01it/s]                                                      {'loss': 3.483, 'grad_norm': 0.20813198387622833, 'learning_rate': 0.00010176326371702666, 'epoch': 0.81}
- 81%|████████▏ | 8725/10719 [1:24:47<16:31,  2.01it/s] 81%|████████▏ | 8726/10719 [1:24:48<16:32,  2.01it/s] 81%|████████▏ | 8727/10719 [1:24:48<16:31,  2.01it/s] 81%|████████▏ | 8728/10719 [1:24:49<16:30,  2.01it/s] 81%|████████▏ | 8729/10719 [1:24:49<16:28,  2.01it/s] 81%|████████▏ | 8730/10719 [1:24:50<16:28,  2.01it/s] 81%|████████▏ | 8731/10719 [1:24:50<16:27,  2.01it/s] 81%|████████▏ | 8732/10719 [1:24:51<16:26,  2.01it/s] 81%|████████▏ | 8733/10719 [1:24:51<16:26,  2.01it/s] 81%|███���████▏ | 8734/10719 [1:24:52<16:26,  2.01it/s] 81%|████████▏ | 8735/10719 [1:24:52<16:25,  2.01it/s] 82%|████████▏ | 8736/10719 [1:24:53<16:25,  2.01it/s] 82%|████████▏ | 8737/10719 [1:24:53<16:24,  2.01it/s] 82%|████████▏ | 8738/10719 [1:24:54<16:23,  2.01it/s] 82%|████████▏ | 8739/10719 [1:24:54<17:11,  1.92it/s] 82%|████████▏ | 8740/10719 [1:24:55<16:55,  1.95it/s] 82%|████████▏ | 8741/10719 [1:24:55<16:47,  1.96it/s] 82%|████████▏ | 8742/10719 [1:24:56<16:40,  1.98it/s] 82%|████████▏ | 8743/10719 [1:24:56<16:36,  1.98it/s] 82%|████████▏ | 8744/10719 [1:24:57<16:32,  1.99it/s] 82%|████████▏ | 8745/10719 [1:24:57<16:30,  1.99it/s] 82%|████████▏ | 8746/10719 [1:24:58<16:28,  2.00it/s] 82%|████████▏ | 8747/10719 [1:24:58<16:25,  2.00it/s] 82%|████████▏ | 8748/10719 [1:24:59<16:25,  2.00it/s] 82%|████████▏ | 8749/10719 [1:24:59<16:23,  2.00it/s] 82%|████████▏ | 8750/10719 [1:25:00<16:22,  2.00it/s]                                                      {'loss': 3.477, 'grad_norm': 0.2054629623889923, 'learning_rate': 9.931505293027654e-05, 'epoch': 0.82}
- 82%|████████▏ | 8750/10719 [1:25:00<16:22,  2.00it/s] 82%|████████▏ | 8751/10719 [1:25:00<16:21,  2.01it/s] 82%|████████▏ | 8752/10719 [1:25:01<16:21,  2.00it/s] 82%|████████▏ | 8753/10719 [1:25:01<16:21,  2.00it/s] 82%|████████▏ | 8754/10719 [1:25:02<16:20,  2.00it/s] 82%|████████▏ | 8755/10719 [1:25:02<16:18,  2.01it/s] 82%|████████▏ | 8756/10719 [1:25:03<16:18,  2.01it/s] 82%|████████▏ | 8757/10719 [1:25:03<16:16,  2.01it/s] 82%|████████▏ | 8758/10719 [1:25:04<16:15,  2.01it/s] 82%|████████▏ | 8759/10719 [1:25:04<16:16,  2.01it/s] 82%|████████▏ | 8760/10719 [1:25:05<16:15,  2.01it/s] 82%|████████▏ | 8761/10719 [1:25:05<16:15,  2.01it/s] 82%|████████▏ | 8762/10719 [1:25:06<16:16,  2.01it/s] 82%|████████▏ | 8763/10719 [1:25:06<16:17,  2.00it/s] 82%|████████▏ | 8764/10719 [1:25:07<16:15,  2.00it/s] 82%|████████▏ | 8765/10719 [1:25:07<16:14,  2.00it/s] 82%|████████▏ | 8766/10719 [1:25:08<16:14,  2.00it/s] 82%|████████▏ | 8767/10719 [1:25:08<16:14,  2.00it/s] 82%|████████▏ | 8768/10719 [1:25:09<16:12,  2.01it/s] 82%|████████▏ | 8769/10719 [1:25:09<16:12,  2.01it/s] 82%|████████▏ | 8770/10719 [1:25:10<16:12,  2.00it/s] 82%|████████▏ | 8771/10719 [1:25:10<16:10,  2.01it/s] 82%|████████▏ | 8772/10719 [1:25:11<16:11,  2.00it/s] 82%|████████▏ | 8773/10719 [1:25:11<16:10,  2.01it/s] 82%|████████▏ | 8774/10719 [1:25:12<16:09,  2.01it/s] 82%|████████▏ | 8775/10719 [1:25:12<16:07,  2.01it/s]                                                      {'loss': 3.4768, 'grad_norm': 0.19357433915138245, 'learning_rate': 9.689340017211246e-05, 'epoch': 0.82}
- 82%|████████▏ | 8775/10719 [1:25:12<16:07,  2.01it/s] 82%|████████▏ | 8776/10719 [1:25:13<16:07,  2.01it/s] 82%|████████▏ | 8777/10719 [1:25:13<16:07,  2.01it/s] 82%|████████▏ | 8778/10719 [1:25:14<16:06,  2.01it/s] 82%|████████▏ | 8779/10719 [1:25:14<16:04,  2.01it/s] 82%|████████▏ | 8780/10719 [1:25:15<16:04,  2.01it/s] 82%|████████▏ | 8781/10719 [1:25:15<16:03,  2.01it/s] 82%|████████▏ | 8782/10719 [1:25:16<16:03,  2.01it/s] 82%|████████▏ | 8783/10719 [1:25:16<16:03,  2.01it/s] 82%|████████▏ | 8784/10719 [1:25:17<16:02,  2.01it/s] 82%|████████▏ | 8785/10719 [1:25:17<16:02,  2.01it/s] 82%|████████▏ | 8786/10719 [1:25:18<16:02,  2.01it/s] 82%|████████▏ | 8787/10719 [1:25:18<16:01,  2.01it/s] 82%|████████▏ | 8788/10719 [1:25:19<16:00,  2.01it/s] 82%|████████▏ | 8789/10719 [1:25:19<16:00,  2.01it/s] 82%|████████▏ | 8790/10719 [1:25:20<15:58,  2.01it/s] 82%|████████▏ | 8791/10719 [1:25:20<15:58,  2.01it/s] 82%|████████▏ | 8792/10719 [1:25:21<15:56,  2.01it/s] 82%|████████▏ | 8793/10719 [1:25:21<15:55,  2.01it/s] 82%|████████▏ | 8794/10719 [1:25:22<15:57,  2.01it/s] 82%|████████▏ | 8795/10719 [1:25:22<15:59,  2.00it/s] 82%|████████▏ | 8796/10719 [1:25:23<15:57,  2.01it/s] 82%|████████▏ | 8797/10719 [1:25:23<15:57,  2.01it/s] 82%|████████▏ | 8798/10719 [1:25:24<15:57,  2.01it/s] 82%|████████▏ | 8799/10719 [1:25:25<17:20,  1.85it/s] 82%|████████▏ | 8800/10719 [1:25:25<17:00,  1.88it/s]                                                      {'loss': 3.4786, 'grad_norm': 0.1963360607624054, 'learning_rate': 9.44984659534886e-05, 'epoch': 0.82}
- 82%|████████▏ | 8800/10719 [1:25:25<17:00,  1.88it/s] 82%|████████▏ | 8801/10719 [1:25:26<16:40,  1.92it/s] 82%|████████▏ | 8802/10719 [1:25:26<16:27,  1.94it/s] 82%|████████▏ | 8803/10719 [1:25:27<16:16,  1.96it/s] 82%|████████▏ | 8804/10719 [1:25:27<16:11,  1.97it/s] 82%|████████▏ | 8805/10719 [1:25:28<16:06,  1.98it/s] 82%|████████▏ | 8806/10719 [1:25:28<16:01,  1.99it/s] 82%|████████▏ | 8807/10719 [1:25:29<16:00,  1.99it/s] 82%|████████▏ | 8808/10719 [1:25:29<15:56,  2.00it/s] 82%|████████▏ | 8809/10719 [1:25:30<15:54,  2.00it/s] 82%|████████▏ | 8810/10719 [1:25:30<15:53,  2.00it/s] 82%|████████▏ | 8811/10719 [1:25:31<15:50,  2.01it/s] 82%|████████▏ | 8812/10719 [1:25:31<15:49,  2.01it/s] 82%|████████▏ | 8813/10719 [1:25:32<15:50,  2.00it/s] 82%|████████▏ | 8814/10719 [1:25:32<15:49,  2.01it/s] 82%|████████▏ | 8815/10719 [1:25:33<15:48,  2.01it/s] 82%|████████▏ | 8816/10719 [1:25:33<15:49,  2.00it/s] 82%|████████▏ | 8817/10719 [1:25:34<16:07,  1.97it/s] 82%|████████▏ | 8818/10719 [1:25:34<16:02,  1.98it/s] 82%|████████▏ | 8819/10719 [1:25:35<15:58,  1.98it/s] 82%|████████▏ | 8820/10719 [1:25:35<15:55,  1.99it/s] 82%|████████▏ | 8821/10719 [1:25:36<15:52,  1.99it/s] 82%|████████▏ | 8822/10719 [1:25:36<15:50,  1.99it/s] 82%|████████▏ | 8823/10719 [1:25:37<15:49,  2.00it/s] 82%|████████▏ | 8824/10719 [1:25:37<15:47,  2.00it/s] 82%|████████▏ | 8825/10719 [1:25:38<15:47,  2.00it/s]                                                      {'loss': 3.4778, 'grad_norm': 0.20225702226161957, 'learning_rate': 9.213040901441233e-05, 'epoch': 0.82}
- 82%|████████▏ | 8825/10719 [1:25:38<15:47,  2.00it/s] 82%|████████▏ | 8826/10719 [1:25:38<15:45,  2.00it/s] 82%|████████▏ | 8827/10719 [1:25:39<15:43,  2.00it/s] 82%|████████▏ | 8828/10719 [1:25:39<15:41,  2.01it/s] 82%|████████▏ | 8829/10719 [1:25:40<15:41,  2.01it/s] 82%|████████▏ | 8830/10719 [1:25:40<15:40,  2.01it/s] 82%|████████▏ | 8831/10719 [1:25:41<15:41,  2.01it/s] 82%|████████▏ | 8832/10719 [1:25:41<15:38,  2.01it/s] 82%|████████▏ | 8833/10719 [1:25:42<15:38,  2.01it/s] 82%|████████▏ | 8834/10719 [1:25:42<15:36,  2.01it/s] 82%|████████▏ | 8835/10719 [1:25:43<15:38,  2.01it/s] 82%|████████▏ | 8836/10719 [1:25:43<15:37,  2.01it/s] 82%|████████▏ | 8837/10719 [1:25:44<15:36,  2.01it/s] 82%|████████▏ | 8838/10719 [1:25:44<15:34,  2.01it/s] 82%|████████▏ | 8839/10719 [1:25:45<15:42,  2.00it/s] 82%|████████▏ | 8840/10719 [1:25:45<15:41,  2.00it/s] 82%|████████▏ | 8841/10719 [1:25:46<15:40,  2.00it/s] 82%|████████▏ | 8842/10719 [1:25:46<15:39,  2.00it/s] 82%|████████▏ | 8843/10719 [1:25:47<15:37,  2.00it/s] 83%|████████▎ | 8844/10719 [1:25:47<15:36,  2.00it/s] 83%|████████▎ | 8845/10719 [1:25:48<15:34,  2.00it/s] 83%|████████▎ | 8846/10719 [1:25:48<15:33,  2.01it/s] 83%|████████▎ | 8847/10719 [1:25:49<15:33,  2.01it/s] 83%|████████▎ | 8848/10719 [1:25:49<15:35,  2.00it/s] 83%|████████▎ | 8849/10719 [1:25:50<15:35,  2.00it/s] 83%|████████▎ | 8850/10719 [1:25:50<15:33,  2.00it/s]                                                      {'loss': 3.473, 'grad_norm': 0.1987038552761078, 'learning_rate': 8.978938631342243e-05, 'epoch': 0.83}
- 83%|████████▎ | 8850/10719 [1:25:50<15:33,  2.00it/s] 83%|████████▎ | 8851/10719 [1:25:51<15:34,  2.00it/s] 83%|████████▎ | 8852/10719 [1:25:51<15:32,  2.00it/s] 83%|████████▎ | 8853/10719 [1:25:52<15:32,  2.00it/s] 83%|████████▎ | 8854/10719 [1:25:52<15:31,  2.00it/s] 83%|████████▎ | 8855/10719 [1:25:53<15:30,  2.00it/s] 83%|████████▎ | 8856/10719 [1:25:53<15:31,  2.00it/s] 83%|████████▎ | 8857/10719 [1:25:54<15:32,  2.00it/s] 83%|████████▎ | 8858/10719 [1:25:54<15:40,  1.98it/s] 83%|████████▎ | 8859/10719 [1:25:55<15:38,  1.98it/s] 83%|████████▎ | 8860/10719 [1:25:55<15:36,  1.99it/s] 83%|████████▎ | 8861/10719 [1:25:56<15:34,  1.99it/s] 83%|████████▎ | 8862/10719 [1:25:56<15:33,  1.99it/s] 83%|████████▎ | 8863/10719 [1:25:57<15:30,  1.99it/s] 83%|████████▎ | 8864/10719 [1:25:57<15:30,  1.99it/s] 83%|████████▎ | 8865/10719 [1:25:58<15:28,  2.00it/s] 83%|████████▎ | 8866/10719 [1:25:58<15:25,  2.00it/s] 83%|████████▎ | 8867/10719 [1:25:59<15:24,  2.00it/s] 83%|████████▎ | 8868/10719 [1:25:59<15:23,  2.01it/s] 83%|████████▎ | 8869/10719 [1:26:00<15:23,  2.00it/s] 83%|████████▎ | 8870/10719 [1:26:00<15:23,  2.00it/s] 83%|████████▎ | 8871/10719 [1:26:01<15:22,  2.00it/s] 83%|████████▎ | 8872/10719 [1:26:01<15:22,  2.00it/s] 83%|████████▎ | 8873/10719 [1:26:02<15:20,  2.00it/s] 83%|████████▎ | 8874/10719 [1:26:02<15:19,  2.01it/s] 83%|████████▎ | 8875/10719 [1:26:03<15:19,  2.01it/s]                                                      {'loss': 3.4831, 'grad_norm': 0.1996147632598877, 'learning_rate': 8.747555301718651e-05, 'epoch': 0.83}
- 83%|████████▎ | 8875/10719 [1:26:03<15:19,  2.01it/s] 83%|████████▎ | 8876/10719 [1:26:03<15:20,  2.00it/s] 83%|████████▎ | 8877/10719 [1:26:04<15:19,  2.00it/s] 83%|████████▎ | 8878/10719 [1:26:04<15:18,  2.01it/s] 83%|████████▎ | 8879/10719 [1:26:05<15:16,  2.01it/s] 83%|████████▎ | 8880/10719 [1:26:05<15:16,  2.01it/s] 83%|████████▎ | 8881/10719 [1:26:06<15:16,  2.00it/s] 83%|████████▎ | 8882/10719 [1:26:06<15:15,  2.01it/s] 83%|████████▎ | 8883/10719 [1:26:07<15:15,  2.01it/s] 83%|████████▎ | 8884/10719 [1:26:07<15:15,  2.01it/s] 83%|████████▎ | 8885/10719 [1:26:08<15:14,  2.00it/s] 83%|████████▎ | 8886/10719 [1:26:08<15:13,  2.01it/s] 83%|████████▎ | 8887/10719 [1:26:09<15:13,  2.00it/s] 83%|████████▎ | 8888/10719 [1:26:09<15:14,  2.00it/s] 83%|████████▎ | 8889/10719 [1:26:10<15:14,  2.00it/s] 83%|████████▎ | 8890/10719 [1:26:10<15:13,  2.00it/s] 83%|████████▎ | 8891/10719 [1:26:11<15:11,  2.00it/s] 83%|████████▎ | 8892/10719 [1:26:11<15:11,  2.01it/s] 83%|████████▎ | 8893/10719 [1:26:12<15:09,  2.01it/s] 83%|████████▎ | 8894/10719 [1:26:12<15:09,  2.01it/s] 83%|████████▎ | 8895/10719 [1:26:13<15:10,  2.00it/s] 83%|████████▎ | 8896/10719 [1:26:13<15:12,  2.00it/s] 83%|████████▎ | 8897/10719 [1:26:14<15:11,  2.00it/s] 83%|████████▎ | 8898/10719 [1:26:14<15:10,  2.00it/s] 83%|████████▎ | 8899/10719 [1:26:15<15:09,  2.00it/s] 83%|████████▎ | 8900/10719 [1:26:15<15:09,  2.00it/s]                                                      {'loss': 3.4787, 'grad_norm': 0.19677115976810455, 'learning_rate': 8.518906249021464e-05, 'epoch': 0.83}
- 83%|████████▎ | 8900/10719 [1:26:15<15:09,  2.00it/s] 83%|████████▎ | 8901/10719 [1:26:16<15:08,  2.00it/s] 83%|████████▎ | 8902/10719 [1:26:16<15:09,  2.00it/s] 83%|████████▎ | 8903/10719 [1:26:17<15:08,  2.00it/s] 83%|████████▎ | 8904/10719 [1:26:17<15:09,  1.99it/s] 83%|████████▎ | 8905/10719 [1:26:18<15:09,  2.00it/s] 83%|████████▎ | 8906/10719 [1:26:18<15:07,  2.00it/s] 83%|████████▎ | 8907/10719 [1:26:19<15:05,  2.00it/s] 83%|████████▎ | 8908/10719 [1:26:19<15:04,  2.00it/s] 83%|████████▎ | 8909/10719 [1:26:20<15:03,  2.00it/s] 83%|████████▎ | 8910/10719 [1:26:20<15:04,  2.00it/s] 83%|████████▎ | 8911/10719 [1:26:21<15:05,  2.00it/s] 83%|████████▎ | 8912/10719 [1:26:21<15:05,  2.00it/s] 83%|████████▎ | 8913/10719 [1:26:22<15:04,  2.00it/s] 83%|████████▎ | 8914/10719 [1:26:22<15:03,  2.00it/s] 83%|████████▎ | 8915/10719 [1:26:23<15:03,  2.00it/s] 83%|████████▎ | 8916/10719 [1:26:23<15:02,  2.00it/s] 83%|████████▎ | 8917/10719 [1:26:24<15:00,  2.00it/s] 83%|████████▎ | 8918/10719 [1:26:24<14:58,  2.00it/s] 83%|████████▎ | 8919/10719 [1:26:25<15:05,  1.99it/s] 83%|████████▎ | 8920/10719 [1:26:25<15:03,  1.99it/s] 83%|████████▎ | 8921/10719 [1:26:26<15:01,  2.00it/s] 83%|���███████▎ | 8922/10719 [1:26:26<15:00,  2.00it/s] 83%|████████▎ | 8923/10719 [1:26:27<14:59,  2.00it/s] 83%|████████▎ | 8924/10719 [1:26:27<14:58,  2.00it/s] 83%|████████▎ | 8925/10719 [1:26:28<14:56,  2.00it/s]                                                      {'loss': 3.4783, 'grad_norm': 0.2027440071105957, 'learning_rate': 8.293006628469623e-05, 'epoch': 0.83}
- 83%|████████▎ | 8925/10719 [1:26:28<14:56,  2.00it/s] 83%|████████▎ | 8926/10719 [1:26:28<14:56,  2.00it/s] 83%|████████▎ | 8927/10719 [1:26:29<14:56,  2.00it/s] 83%|████████▎ | 8928/10719 [1:26:29<14:53,  2.00it/s] 83%|████████▎ | 8929/10719 [1:26:30<14:57,  1.99it/s] 83%|████████▎ | 8930/10719 [1:26:30<14:56,  2.00it/s] 83%|████████▎ | 8931/10719 [1:26:31<14:53,  2.00it/s] 83%|████████▎ | 8932/10719 [1:26:31<14:52,  2.00it/s] 83%|████████▎ | 8933/10719 [1:26:32<14:50,  2.00it/s] 83%|████████▎ | 8934/10719 [1:26:32<14:49,  2.01it/s] 83%|████████▎ | 8935/10719 [1:26:33<14:51,  2.00it/s] 83%|████████▎ | 8936/10719 [1:26:33<14:51,  2.00it/s] 83%|████████▎ | 8937/10719 [1:26:34<17:39,  1.68it/s] 83%|████████▎ | 8938/10719 [1:26:34<16:49,  1.77it/s] 83%|████████▎ | 8939/10719 [1:26:35<16:11,  1.83it/s] 83%|████████▎ | 8940/10719 [1:26:35<15:46,  1.88it/s] 83%|████████▎ | 8941/10719 [1:26:36<15:28,  1.91it/s] 83%|████████▎ | 8942/10719 [1:26:36<15:14,  1.94it/s] 83%|████████▎ | 8943/10719 [1:26:37<15:03,  1.97it/s] 83%|████████▎ | 8944/10719 [1:26:37<14:57,  1.98it/s] 83%|████████▎ | 8945/10719 [1:26:38<14:50,  1.99it/s] 83%|████████▎ | 8946/10719 [1:26:38<14:47,  2.00it/s] 83%|████████▎ | 8947/10719 [1:26:39<14:46,  2.00it/s] 83%|████████▎ | 8948/10719 [1:26:39<14:42,  2.01it/s] 83%|████████▎ | 8949/10719 [1:26:40<14:42,  2.01it/s] 83%|████████▎ | 8950/10719 [1:26:40<14:39,  2.01it/s]                                                      {'loss': 3.4691, 'grad_norm': 0.19666264951229095, 'learning_rate': 8.069871413045271e-05, 'epoch': 0.83}
- 83%|████████▎ | 8950/10719 [1:26:40<14:39,  2.01it/s] 84%|████████▎ | 8951/10719 [1:26:41<14:40,  2.01it/s] 84%|████████▎ | 8952/10719 [1:26:41<14:38,  2.01it/s] 84%|████████▎ | 8953/10719 [1:26:42<14:37,  2.01it/s] 84%|████████▎ | 8954/10719 [1:26:42<14:36,  2.01it/s] 84%|████████▎ | 8955/10719 [1:26:43<14:35,  2.01it/s] 84%|████████▎ | 8956/10719 [1:26:43<14:34,  2.02it/s] 84%|████████▎ | 8957/10719 [1:26:44<14:34,  2.02it/s] 84%|████████▎ | 8958/10719 [1:26:44<14:34,  2.01it/s] 84%|████████▎ | 8959/10719 [1:26:45<14:34,  2.01it/s] 84%|████████▎ | 8960/10719 [1:26:45<14:34,  2.01it/s] 84%|████████▎ | 8961/10719 [1:26:46<14:35,  2.01it/s] 84%|████████▎ | 8962/10719 [1:26:46<14:34,  2.01it/s] 84%|████████▎ | 8963/10719 [1:26:47<14:34,  2.01it/s] 84%|████████▎ | 8964/10719 [1:26:47<14:33,  2.01it/s] 84%|████████▎ | 8965/10719 [1:26:48<14:32,  2.01it/s] 84%|████████▎ | 8966/10719 [1:26:48<14:32,  2.01it/s] 84%|████████▎ | 8967/10719 [1:26:49<14:33,  2.01it/s] 84%|████████▎ | 8968/10719 [1:26:49<14:32,  2.01it/s] 84%|████████▎ | 8969/10719 [1:26:50<14:32,  2.01it/s] 84%|████████▎ | 8970/10719 [1:26:50<14:30,  2.01it/s] 84%|████████▎ | 8971/10719 [1:26:51<14:29,  2.01it/s] 84%|████████▎ | 8972/10719 [1:26:51<14:29,  2.01it/s] 84%|████████▎ | 8973/10719 [1:26:52<14:28,  2.01it/s] 84%|████████▎ | 8974/10719 [1:26:53<17:06,  1.70it/s] 84%|████████▎ | 8975/10719 [1:26:53<16:20,  1.78it/s]                                                      {'loss': 3.4711, 'grad_norm': 0.20253850519657135, 'learning_rate': 7.849515392501549e-05, 'epoch': 0.84}
- 84%|████████▎ | 8975/10719 [1:26:53<16:20,  1.78it/s] 84%|████████▎ | 8976/10719 [1:26:54<15:48,  1.84it/s] 84%|████████▎ | 8977/10719 [1:26:54<15:24,  1.88it/s] 84%|████████▍ | 8978/10719 [1:26:55<15:34,  1.86it/s] 84%|████████▍ | 8979/10719 [1:26:55<15:50,  1.83it/s] 84%|████████▍ | 8980/10719 [1:26:56<15:23,  1.88it/s] 84%|████████▍ | 8981/10719 [1:26:56<15:05,  1.92it/s] 84%|████████▍ | 8982/10719 [1:26:57<14:52,  1.95it/s] 84%|████████▍ | 8983/10719 [1:26:57<14:43,  1.97it/s] 84%|████████▍ | 8984/10719 [1:26:58<14:35,  1.98it/s] 84%|████████▍ | 8985/10719 [1:26:58<14:31,  1.99it/s] 84%|████████▍ | 8986/10719 [1:26:59<14:27,  2.00it/s] 84%|████████▍ | 8987/10719 [1:26:59<14:24,  2.00it/s] 84%|████████▍ | 8988/10719 [1:27:00<14:22,  2.01it/s] 84%|████████▍ | 8989/10719 [1:27:00<14:21,  2.01it/s] 84%|████████▍ | 8990/10719 [1:27:01<14:23,  2.00it/s] 84%|████████▍ | 8991/10719 [1:27:01<14:24,  2.00it/s] 84%|████████▍ | 8992/10719 [1:27:02<14:23,  2.00it/s] 84%|████████▍ | 8993/10719 [1:27:02<14:21,  2.00it/s] 84%|████████▍ | 8994/10719 [1:27:03<14:21,  2.00it/s] 84%|████████▍ | 8995/10719 [1:27:03<14:20,  2.00it/s] 84%|████████▍ | 8996/10719 [1:27:04<14:20,  2.00it/s] 84%|████████▍ | 8997/10719 [1:27:04<14:20,  2.00it/s] 84%|████████▍ | 8998/10719 [1:27:05<14:21,  2.00it/s] 84%|████████▍ | 8999/10719 [1:27:05<14:20,  2.00it/s] 84%|████████▍ | 9000/10719 [1:27:06<14:19,  2.00it/s]                                                      {'loss': 3.4736, 'grad_norm': 0.1975780576467514, 'learning_rate': 7.631953172382067e-05, 'epoch': 0.84}
- 84%|████████▍ | 9000/10719 [1:27:06<14:19,  2.00it/s] 84%|████████▍ | 9001/10719 [1:27:06<14:19,  2.00it/s] 84%|████████▍ | 9002/10719 [1:27:07<14:19,  2.00it/s] 84%|████████▍ | 9003/10719 [1:27:07<14:17,  2.00it/s] 84%|████████▍ | 9004/10719 [1:27:08<14:16,  2.00it/s] 84%|████████▍ | 9005/10719 [1:27:08<14:17,  2.00it/s] 84%|████████▍ | 9006/10719 [1:27:09<14:15,  2.00it/s] 84%|████████▍ | 9007/10719 [1:27:09<14:14,  2.00it/s] 84%|████████▍ | 9008/10719 [1:27:10<14:14,  2.00it/s] 84%|████████▍ | 9009/10719 [1:27:10<14:14,  2.00it/s] 84%|████████▍ | 9010/10719 [1:27:11<14:12,  2.00it/s] 84%|████████▍ | 9011/10719 [1:27:11<14:12,  2.00it/s] 84%|████████▍ | 9012/10719 [1:27:12<14:12,  2.00it/s] 84%|████████▍ | 9013/10719 [1:27:12<14:13,  2.00it/s] 84%|████████▍ | 9014/10719 [1:27:13<14:10,  2.00it/s] 84%|████████▍ | 9015/10719 [1:27:13<14:10,  2.00it/s] 84%|████████▍ | 9016/10719 [1:27:14<14:09,  2.00it/s] 84%|████████▍ | 9017/10719 [1:27:14<14:09,  2.00it/s] 84%|████████▍ | 9018/10719 [1:27:15<14:11,  2.00it/s] 84%|████████▍ | 9019/10719 [1:27:15<15:01,  1.89it/s] 84%|████████▍ | 9020/10719 [1:27:16<15:40,  1.81it/s] 84%|████████▍ | 9021/10719 [1:27:16<15:15,  1.85it/s] 84%|████████▍ | 9022/10719 [1:27:17<14:53,  1.90it/s] 84%|████████▍ | 9023/10719 [1:27:17<14:39,  1.93it/s] 84%|████████▍ | 9024/10719 [1:27:18<14:27,  1.95it/s] 84%|████████▍ | 9025/10719 [1:27:18<14:19,  1.97it/s]                                                      {'loss': 3.4715, 'grad_norm': 0.1954471468925476, 'learning_rate': 7.417199173053063e-05, 'epoch': 0.84}
- 84%|████████▍ | 9025/10719 [1:27:18<14:19,  1.97it/s] 84%|████████▍ | 9026/10719 [1:27:19<14:16,  1.98it/s] 84%|████████▍ | 9027/10719 [1:27:19<14:12,  1.98it/s] 84%|████████▍ | 9028/10719 [1:27:20<14:09,  1.99it/s] 84%|████████▍ | 9029/10719 [1:27:20<14:06,  2.00it/s] 84%|████████▍ | 9030/10719 [1:27:21<14:04,  2.00it/s] 84%|████████▍ | 9031/10719 [1:27:21<14:01,  2.00it/s] 84%|████████▍ | 9032/10719 [1:27:22<14:00,  2.01it/s] 84%|████████▍ | 9033/10719 [1:27:22<14:00,  2.01it/s] 84%|████████▍ | 9034/10719 [1:27:23<13:58,  2.01it/s] 84%|████████▍ | 9035/10719 [1:27:23<13:57,  2.01it/s] 84%|████████▍ | 9036/10719 [1:27:24<13:56,  2.01it/s] 84%|████████▍ | 9037/10719 [1:27:24<14:18,  1.96it/s] 84%|████████▍ | 9038/10719 [1:27:25<14:12,  1.97it/s] 84%|████████▍ | 9039/10719 [1:27:25<14:09,  1.98it/s] 84%|████████▍ | 9040/10719 [1:27:26<14:05,  1.99it/s] 84%|████████▍ | 9041/10719 [1:27:26<14:02,  1.99it/s] 84%|████████▍ | 9042/10719 [1:27:27<13:59,  2.00it/s] 84%|████████▍ | 9043/10719 [1:27:27<13:57,  2.00it/s] 84%|████████▍ | 9044/10719 [1:27:28<13:55,  2.00it/s] 84%|████████▍ | 9045/10719 [1:27:28<13:54,  2.01it/s] 84%|████████▍ | 9046/10719 [1:27:29<13:54,  2.01it/s] 84%|████████▍ | 9047/10719 [1:27:29<13:52,  2.01it/s] 84%|████████▍ | 9048/10719 [1:27:30<13:51,  2.01it/s] 84%|████████▍ | 9049/10719 [1:27:30<13:51,  2.01it/s] 84%|████████▍ | 9050/10719 [1:27:31<13:50,  2.01it/s]                                                      {'loss': 3.4784, 'grad_norm': 0.1956530511379242, 'learning_rate': 7.205267628747386e-05, 'epoch': 0.84}
- 84%|████████▍ | 9050/10719 [1:27:31<13:50,  2.01it/s] 84%|████████▍ | 9051/10719 [1:27:31<13:50,  2.01it/s] 84%|████████▍ | 9052/10719 [1:27:32<13:48,  2.01it/s] 84%|████████▍ | 9053/10719 [1:27:32<13:49,  2.01it/s] 84%|████████▍ | 9054/10719 [1:27:33<13:48,  2.01it/s] 84%|████████▍ | 9055/10719 [1:27:33<13:47,  2.01it/s] 84%|████████▍ | 9056/10719 [1:27:34<13:47,  2.01it/s] 84%|████████▍ | 9057/10719 [1:27:34<13:45,  2.01it/s] 85%|████████▍ | 9058/10719 [1:27:35<13:44,  2.01it/s] 85%|████████▍ | 9059/10719 [1:27:35<13:45,  2.01it/s] 85%|████████▍ | 9060/10719 [1:27:36<13:44,  2.01it/s] 85%|████████▍ | 9061/10719 [1:27:36<13:43,  2.01it/s] 85%|████████▍ | 9062/10719 [1:27:37<13:42,  2.01it/s] 85%|████████▍ | 9063/10719 [1:27:37<13:44,  2.01it/s] 85%|████████▍ | 9064/10719 [1:27:38<13:44,  2.01it/s] 85%|████████▍ | 9065/10719 [1:27:38<13:45,  2.00it/s] 85%|████████▍ | 9066/10719 [1:27:39<13:45,  2.00it/s] 85%|████████▍ | 9067/10719 [1:27:39<13:45,  2.00it/s] 85%|████████▍ | 9068/10719 [1:27:40<13:46,  2.00it/s] 85%|████████▍ | 9069/10719 [1:27:40<13:44,  2.00it/s] 85%|████████▍ | 9070/10719 [1:27:41<13:43,  2.00it/s] 85%|████████▍ | 9071/10719 [1:27:41<13:44,  2.00it/s] 85%|████████▍ | 9072/10719 [1:27:42<13:44,  2.00it/s] 85%|████████▍ | 9073/10719 [1:27:42<13:44,  2.00it/s] 85%|████████▍ | 9074/10719 [1:27:43<13:44,  2.00it/s] 85%|████████▍ | 9075/10719 [1:27:43<13:42,  2.00it/s]                                                      {'loss': 3.4642, 'grad_norm': 0.19761759042739868, 'learning_rate': 6.996172586621196e-05, 'epoch': 0.85}
- 85%|████████▍ | 9075/10719 [1:27:43<13:42,  2.00it/s] 85%|████████▍ | 9076/10719 [1:27:44<13:43,  1.99it/s] 85%|████████▍ | 9077/10719 [1:27:44<13:42,  2.00it/s] 85%|████████▍ | 9078/10719 [1:27:45<13:42,  1.99it/s] 85%|████████▍ | 9079/10719 [1:27:45<13:41,  2.00it/s] 85%|████████▍ | 9080/10719 [1:27:46<13:41,  2.00it/s] 85%|████████▍ | 9081/10719 [1:27:46<13:39,  2.00it/s] 85%|████████▍ | 9082/10719 [1:27:47<13:39,  2.00it/s] 85%|████████▍ | 9083/10719 [1:27:47<13:38,  2.00it/s] 85%|████████▍ | 9084/10719 [1:27:48<13:38,  2.00it/s] 85%|████████▍ | 9085/10719 [1:27:48<13:38,  2.00it/s] 85%|████████▍ | 9086/10719 [1:27:49<13:37,  2.00it/s] 85%|████████▍ | 9087/10719 [1:27:49<13:36,  2.00it/s] 85%|████████▍ | 9088/10719 [1:27:50<13:35,  2.00it/s] 85%|████████▍ | 9089/10719 [1:27:50<13:33,  2.00it/s] 85%|████████▍ | 9090/10719 [1:27:51<13:33,  2.00it/s] 85%|████████▍ | 9091/10719 [1:27:51<13:32,  2.00it/s] 85%|████████▍ | 9092/10719 [1:27:52<13:31,  2.01it/s] 85%|████████▍ | 9093/10719 [1:27:52<13:30,  2.01it/s] 85%|████████▍ | 9094/10719 [1:27:53<13:30,  2.00it/s] 85%|████████▍ | 9095/10719 [1:27:53<13:30,  2.00it/s] 85%|████████▍ | 9096/10719 [1:27:54<13:27,  2.01it/s] 85%|████████▍ | 9097/10719 [1:27:54<13:27,  2.01it/s] 85%|████████▍ | 9098/10719 [1:27:55<14:57,  1.81it/s] 85%|████████▍ | 9099/10719 [1:27:55<14:28,  1.86it/s] 85%|████████▍ | 9100/10719 [1:27:56<14:09,  1.91it/s]                                                      {'loss': 3.4746, 'grad_norm': 0.19812864065170288, 'learning_rate': 6.789927905822791e-05, 'epoch': 0.85}
- 85%|████████▍ | 9100/10719 [1:27:56<14:09,  1.91it/s] 85%|████████▍ | 9101/10719 [1:27:56<13:58,  1.93it/s] 85%|████████▍ | 9102/10719 [1:27:57<13:47,  1.95it/s] 85%|████████▍ | 9103/10719 [1:27:57<13:39,  1.97it/s] 85%|████████▍ | 9104/10719 [1:27:58<13:35,  1.98it/s] 85%|████████▍ | 9105/10719 [1:27:58<13:30,  1.99it/s] 85%|████████▍ | 9106/10719 [1:27:59<13:27,  2.00it/s] 85%|████████▍ | 9107/10719 [1:27:59<13:25,  2.00it/s] 85%|████████▍ | 9108/10719 [1:28:00<13:24,  2.00it/s] 85%|████████▍ | 9109/10719 [1:28:00<13:22,  2.01it/s] 85%|████████▍ | 9110/10719 [1:28:01<13:23,  2.00it/s] 85%|████████▍ | 9111/10719 [1:28:01<13:22,  2.00it/s] 85%|████████▌ | 9112/10719 [1:28:02<13:22,  2.00it/s] 85%|████████▌ | 9113/10719 [1:28:02<13:20,  2.01it/s] 85%|████████▌ | 9114/10719 [1:28:03<13:21,  2.00it/s] 85%|████████▌ | 9115/10719 [1:28:03<13:20,  2.00it/s] 85%|████████▌ | 9116/10719 [1:28:04<13:20,  2.00it/s] 85%|████████▌ | 9117/10719 [1:28:04<13:19,  2.00it/s] 85%|████████▌ | 9118/10719 [1:28:05<13:19,  2.00it/s] 85%|████████▌ | 9119/10719 [1:28:05<13:19,  2.00it/s] 85%|████████▌ | 9120/10719 [1:28:06<13:17,  2.00it/s] 85%|████████▌ | 9121/10719 [1:28:06<13:16,  2.01it/s] 85%|████████▌ | 9122/10719 [1:28:07<13:17,  2.00it/s] 85%|████████▌ | 9123/10719 [1:28:07<13:16,  2.00it/s] 85%|████████▌ | 9124/10719 [1:28:08<13:14,  2.01it/s] 85%|████████▌ | 9125/10719 [1:28:08<13:14,  2.01it/s]                                                      {'loss': 3.4768, 'grad_norm': 0.2016509473323822, 'learning_rate': 6.586547256574055e-05, 'epoch': 0.85}
- 85%|████████▌ | 9125/10719 [1:28:08<13:14,  2.01it/s] 85%|████████▌ | 9126/10719 [1:28:09<13:14,  2.00it/s] 85%|████████▌ | 9127/10719 [1:28:09<13:12,  2.01it/s] 85%|████████▌ | 9128/10719 [1:28:10<13:12,  2.01it/s] 85%|████████▌ | 9129/10719 [1:28:10<13:11,  2.01it/s] 85%|████████▌ | 9130/10719 [1:28:11<13:09,  2.01it/s] 85%|████████▌ | 9131/10719 [1:28:11<13:09,  2.01it/s] 85%|████████▌ | 9132/10719 [1:28:12<13:09,  2.01it/s] 85%|████████▌ | 9133/10719 [1:28:12<13:08,  2.01it/s] 85%|████████▌ | 9134/10719 [1:28:13<13:07,  2.01it/s] 85%|████████▌ | 9135/10719 [1:28:13<13:05,  2.02it/s] 85%|████████▌ | 9136/10719 [1:28:14<13:05,  2.02it/s] 85%|████████▌ | 9137/10719 [1:28:14<13:05,  2.02it/s] 85%|████████▌ | 9138/10719 [1:28:15<13:04,  2.02it/s] 85%|████████▌ | 9139/10719 [1:28:15<13:03,  2.02it/s] 85%|████████▌ | 9140/10719 [1:28:16<13:12,  1.99it/s] 85%|████████▌ | 9141/10719 [1:28:16<13:12,  1.99it/s] 85%|████████▌ | 9142/10719 [1:28:17<13:09,  2.00it/s] 85%|████████▌ | 9143/10719 [1:28:17<13:08,  2.00it/s] 85%|████████▌ | 9144/10719 [1:28:18<13:07,  2.00it/s] 85%|████████▌ | 9145/10719 [1:28:18<13:06,  2.00it/s] 85%|████████▌ | 9146/10719 [1:28:19<13:05,  2.00it/s] 85%|████████▌ | 9147/10719 [1:28:19<13:03,  2.01it/s] 85%|████████▌ | 9148/10719 [1:28:20<13:03,  2.00it/s] 85%|████████▌ | 9149/10719 [1:28:20<13:02,  2.01it/s] 85%|████████▌ | 9150/10719 [1:28:21<13:01,  2.01it/s]                                                      {'loss': 3.4666, 'grad_norm': 0.1992989331483841, 'learning_rate': 6.386044119264333e-05, 'epoch': 0.85}
- 85%|████████▌ | 9150/10719 [1:28:21<13:01,  2.01it/s] 85%|████████▌ | 9151/10719 [1:28:21<13:02,  2.00it/s] 85%|████████▌ | 9152/10719 [1:28:22<13:01,  2.01it/s] 85%|████████▌ | 9153/10719 [1:28:22<13:00,  2.01it/s] 85%|████████▌ | 9154/10719 [1:28:23<13:04,  2.00it/s] 85%|████████▌ | 9155/10719 [1:28:23<13:03,  2.00it/s] 85%|████████▌ | 9156/10719 [1:28:24<13:02,  2.00it/s] 85%|████████▌ | 9157/10719 [1:28:24<13:40,  1.90it/s] 85%|████████▌ | 9158/10719 [1:28:25<13:28,  1.93it/s] 85%|████████▌ | 9159/10719 [1:28:25<13:18,  1.95it/s] 85%|████████▌ | 9160/10719 [1:28:26<13:10,  1.97it/s] 85%|████████▌ | 9161/10719 [1:28:26<13:07,  1.98it/s] 85%|████████▌ | 9162/10719 [1:28:27<13:03,  1.99it/s] 85%|████████▌ | 9163/10719 [1:28:27<13:00,  1.99it/s] 85%|████████▌ | 9164/10719 [1:28:28<12:57,  2.00it/s] 86%|████████▌ | 9165/10719 [1:28:28<12:56,  2.00it/s] 86%|████████▌ | 9166/10719 [1:28:29<12:54,  2.00it/s] 86%|████████▌ | 9167/10719 [1:28:29<12:53,  2.01it/s] 86%|████████▌ | 9168/10719 [1:28:30<12:52,  2.01it/s] 86%|████████▌ | 9169/10719 [1:28:30<12:52,  2.01it/s] 86%|███████��▌ | 9170/10719 [1:28:31<12:51,  2.01it/s] 86%|████████▌ | 9171/10719 [1:28:31<12:49,  2.01it/s] 86%|████████▌ | 9172/10719 [1:28:32<12:48,  2.01it/s] 86%|████████▌ | 9173/10719 [1:28:32<12:48,  2.01it/s] 86%|████████▌ | 9174/10719 [1:28:33<12:47,  2.01it/s] 86%|████████▌ | 9175/10719 [1:28:33<12:46,  2.01it/s]                                                      {'loss': 3.4663, 'grad_norm': 0.203862264752388, 'learning_rate': 6.188431783556975e-05, 'epoch': 0.86}
- 86%|████████▌ | 9175/10719 [1:28:33<12:46,  2.01it/s] 86%|████████▌ | 9176/10719 [1:28:34<12:46,  2.01it/s] 86%|████████▌ | 9177/10719 [1:28:34<12:45,  2.02it/s] 86%|████████▌ | 9178/10719 [1:28:35<12:44,  2.02it/s] 86%|████████▌ | 9179/10719 [1:28:35<12:43,  2.02it/s] 86%|████████▌ | 9180/10719 [1:28:36<12:42,  2.02it/s] 86%|████████▌ | 9181/10719 [1:28:36<12:42,  2.02it/s] 86%|████████▌ | 9182/10719 [1:28:37<12:41,  2.02it/s] 86%|████████▌ | 9183/10719 [1:28:37<12:41,  2.02it/s] 86%|████████▌ | 9184/10719 [1:28:38<12:41,  2.02it/s] 86%|████████▌ | 9185/10719 [1:28:38<12:41,  2.01it/s] 86%|████████▌ | 9186/10719 [1:28:39<12:39,  2.02it/s] 86%|████████▌ | 9187/10719 [1:28:39<12:39,  2.02it/s] 86%|████████▌ | 9188/10719 [1:28:40<12:42,  2.01it/s] 86%|████████▌ | 9189/10719 [1:28:40<12:44,  2.00it/s] 86%|████████▌ | 9190/10719 [1:28:41<12:43,  2.00it/s] 86%|████████▌ | 9191/10719 [1:28:41<12:42,  2.00it/s] 86%|████████▌ | 9192/10719 [1:28:42<12:42,  2.00it/s] 86%|████████▌ | 9193/10719 [1:28:42<12:40,  2.01it/s] 86%|████████▌ | 9194/10719 [1:28:43<12:40,  2.01it/s] 86%|████████▌ | 9195/10719 [1:28:43<12:40,  2.00it/s] 86%|████████▌ | 9196/10719 [1:28:44<12:40,  2.00it/s] 86%|████████▌ | 9197/10719 [1:28:44<12:38,  2.01it/s] 86%|████████▌ | 9198/10719 [1:28:45<12:38,  2.01it/s] 86%|████████▌ | 9199/10719 [1:28:45<12:38,  2.00it/s] 86%|████████▌ | 9200/10719 [1:28:46<12:59,  1.95it/s]                                                      {'loss': 3.4719, 'grad_norm': 0.2025836557149887, 'learning_rate': 5.99372334750844e-05, 'epoch': 0.86}
- 86%|████████▌ | 9200/10719 [1:28:46<12:59,  1.95it/s] 86%|████████▌ | 9201/10719 [1:28:46<12:52,  1.96it/s] 86%|████████▌ | 9202/10719 [1:28:47<12:48,  1.98it/s] 86%|████████▌ | 9203/10719 [1:28:47<12:43,  1.98it/s] 86%|████████▌ | 9204/10719 [1:28:48<12:42,  1.99it/s] 86%|████████▌ | 9205/10719 [1:28:48<12:38,  2.00it/s] 86%|████████▌ | 9206/10719 [1:28:49<12:37,  2.00it/s] 86%|████████▌ | 9207/10719 [1:28:49<12:36,  2.00it/s] 86%|████████▌ | 9208/10719 [1:28:50<12:34,  2.00it/s] 86%|████████▌ | 9209/10719 [1:28:50<12:32,  2.01it/s] 86%|████████▌ | 9210/10719 [1:28:51<12:31,  2.01it/s] 86%|████████▌ | 9211/10719 [1:28:51<12:29,  2.01it/s] 86%|████████▌ | 9212/10719 [1:28:52<13:08,  1.91it/s] 86%|████████▌ | 9213/10719 [1:28:52<12:57,  1.94it/s] 86%|████████▌ | 9214/10719 [1:28:53<12:48,  1.96it/s] 86%|████████▌ | 9215/10719 [1:28:53<12:41,  1.97it/s] 86%|████████▌ | 9216/10719 [1:28:54<12:38,  1.98it/s] 86%|████████▌ | 9217/10719 [1:28:55<13:49,  1.81it/s] 86%|████████▌ | 9218/10719 [1:28:55<14:07,  1.77it/s] 86%|████████▌ | 9219/10719 [1:28:56<13:35,  1.84it/s] 86%|████████▌ | 9220/10719 [1:28:56<13:13,  1.89it/s] 86%|████████▌ | 9221/10719 [1:28:57<12:59,  1.92it/s] 86%|████████▌ | 9222/10719 [1:28:57<12:47,  1.95it/s] 86%|████████▌ | 9223/10719 [1:28:58<12:39,  1.97it/s] 86%|████████▌ | 9224/10719 [1:28:58<12:34,  1.98it/s] 86%|████████▌ | 9225/10719 [1:28:59<12:29,  1.99it/s]                                                      {'loss': 3.4685, 'grad_norm': 0.19976939260959625, 'learning_rate': 5.8019317167001594e-05, 'epoch': 0.86}
- 86%|████████▌ | 9225/10719 [1:28:59<12:29,  1.99it/s] 86%|████████▌ | 9226/10719 [1:28:59<12:27,  2.00it/s] 86%|████████▌ | 9227/10719 [1:29:00<12:24,  2.00it/s] 86%|████████▌ | 9228/10719 [1:29:00<12:22,  2.01it/s] 86%|████████▌ | 9229/10719 [1:29:01<12:20,  2.01it/s] 86%|████████▌ | 9230/10719 [1:29:01<12:19,  2.01it/s] 86%|████████▌ | 9231/10719 [1:29:02<12:18,  2.02it/s] 86%|████████▌ | 9232/10719 [1:29:02<12:18,  2.01it/s] 86%|████████▌ | 9233/10719 [1:29:03<12:17,  2.01it/s] 86%|████████▌ | 9234/10719 [1:29:03<12:16,  2.02it/s] 86%|████████▌ | 9235/10719 [1:29:04<12:15,  2.02it/s] 86%|████████▌ | 9236/10719 [1:29:04<12:15,  2.02it/s] 86%|████████▌ | 9237/10719 [1:29:05<12:14,  2.02it/s] 86%|████████▌ | 9238/10719 [1:29:05<12:27,  1.98it/s] 86%|████████▌ | 9239/10719 [1:29:06<12:41,  1.94it/s] 86%|████████▌ | 9240/10719 [1:29:06<12:35,  1.96it/s] 86%|████████▌ | 9241/10719 [1:29:07<12:30,  1.97it/s] 86%|████████▌ | 9242/10719 [1:29:07<12:25,  1.98it/s] 86%|████████▌ | 9243/10719 [1:29:08<12:22,  1.99it/s] 86%|████████▌ | 9244/10719 [1:29:08<12:19,  2.00it/s] 86%|████████▌ | 9245/10719 [1:29:09<12:18,  2.00it/s] 86%|████████▋ | 9246/10719 [1:29:09<12:17,  2.00it/s] 86%|████████▋ | 9247/10719 [1:29:10<12:16,  2.00it/s] 86%|████████▋ | 9248/10719 [1:29:10<12:14,  2.00it/s] 86%|████████▋ | 9249/10719 [1:29:11<12:12,  2.01it/s] 86%|████████▋ | 9250/10719 [1:29:11<12:12,  2.01it/s]                                                      {'loss': 3.4701, 'grad_norm': 0.1951388716697693, 'learning_rate': 5.613069603383103e-05, 'epoch': 0.86}
- 86%|████████▋ | 9250/10719 [1:29:11<12:12,  2.01it/s] 86%|████████▋ | 9251/10719 [1:29:12<12:12,  2.00it/s] 86%|████████▋ | 9252/10719 [1:29:12<12:11,  2.00it/s] 86%|████████▋ | 9253/10719 [1:29:13<12:10,  2.01it/s] 86%|████████▋ | 9254/10719 [1:29:13<12:10,  2.01it/s] 86%|████████▋ | 9255/10719 [1:29:14<12:10,  2.00it/s] 86%|████████▋ | 9256/10719 [1:29:14<12:08,  2.01it/s] 86%|████████▋ | 9257/10719 [1:29:15<12:09,  2.00it/s] 86%|████████▋ | 9258/10719 [1:29:15<12:10,  2.00it/s] 86%|████████▋ | 9259/10719 [1:29:16<12:09,  2.00it/s] 86%|████████▋ | 9260/10719 [1:29:16<12:08,  2.00it/s] 86%|████████▋ | 9261/10719 [1:29:17<12:08,  2.00it/s] 86%|████████▋ | 9262/10719 [1:29:17<12:07,  2.00it/s] 86%|████████▋ | 9263/10719 [1:29:18<12:06,  2.00it/s] 86%|████████▋ | 9264/10719 [1:29:18<12:06,  2.00it/s] 86%|████████▋ | 9265/10719 [1:29:19<12:04,  2.01it/s] 86%|████████▋ | 9266/10719 [1:29:19<12:04,  2.01it/s] 86%|████████▋ | 9267/10719 [1:29:20<12:03,  2.01it/s] 86%|████████▋ | 9268/10719 [1:29:20<12:02,  2.01it/s] 86%|████████▋ | 9269/10719 [1:29:21<12:02,  2.01it/s] 86%|████████▋ | 9270/10719 [1:29:21<12:01,  2.01it/s] 86%|████████▋ | 9271/10719 [1:29:22<12:01,  2.01it/s] 87%|████████▋ | 9272/10719 [1:29:22<12:00,  2.01it/s] 87%|████████▋ | 9273/10719 [1:29:23<11:59,  2.01it/s] 87%|████████▋ | 9274/10719 [1:29:23<12:01,  2.00it/s] 87%|████████▋ | 9275/10719 [1:29:24<12:00,  2.00it/s]                                                      {'loss': 3.474, 'grad_norm': 0.19777566194534302, 'learning_rate': 5.427149525635261e-05, 'epoch': 0.87}
- 87%|████████▋ | 9275/10719 [1:29:24<12:00,  2.00it/s] 87%|████████▋ | 9276/10719 [1:29:24<12:34,  1.91it/s] 87%|████████▋ | 9277/10719 [1:29:25<13:02,  1.84it/s] 87%|████████▋ | 9278/10719 [1:29:25<12:52,  1.86it/s] 87%|████████▋ | 9279/10719 [1:29:26<12:36,  1.90it/s] 87%|████████▋ | 9280/10719 [1:29:26<12:24,  1.93it/s] 87%|████████▋ | 9281/10719 [1:29:27<12:16,  1.95it/s] 87%|████████▋ | 9282/10719 [1:29:27<12:09,  1.97it/s] 87%|████████▋ | 9283/10719 [1:29:28<12:05,  1.98it/s] 87%|████████▋ | 9284/10719 [1:29:28<12:02,  1.99it/s] 87%|████████▋ | 9285/10719 [1:29:29<11:58,  1.99it/s] 87%|████████▋ | 9286/10719 [1:29:29<11:56,  2.00it/s] 87%|████████▋ | 9287/10719 [1:29:30<11:54,  2.00it/s] 87%|████████▋ | 9288/10719 [1:29:30<11:53,  2.01it/s] 87%|████████▋ | 9289/10719 [1:29:31<11:52,  2.01it/s] 87%|████████▋ | 9290/10719 [1:29:31<11:52,  2.01it/s] 87%|████████▋ | 9291/10719 [1:29:32<11:51,  2.01it/s] 87%|████████▋ | 9292/10719 [1:29:32<11:50,  2.01it/s] 87%|████████▋ | 9293/10719 [1:29:33<11:49,  2.01it/s] 87%|████████▋ | 9294/10719 [1:29:33<11:48,  2.01it/s] 87%|████████▋ | 9295/10719 [1:29:34<11:48,  2.01it/s] 87%|████████▋ | 9296/10719 [1:29:34<11:47,  2.01it/s] 87%|████████▋ | 9297/10719 [1:29:35<11:45,  2.01it/s] 87%|████████▋ | 9298/10719 [1:29:35<11:47,  2.01it/s] 87%|████████▋ | 9299/10719 [1:29:36<11:45,  2.01it/s] 87%|████████▋ | 9300/10719 [1:29:36<11:44,  2.01it/s]                                                      {'loss': 3.4738, 'grad_norm': 0.19986021518707275, 'learning_rate': 5.2441838065318045e-05, 'epoch': 0.87}
- 87%|████████▋ | 9300/10719 [1:29:36<11:44,  2.01it/s] 87%|████████▋ | 9301/10719 [1:29:37<11:46,  2.01it/s] 87%|████████▋ | 9302/10719 [1:29:37<11:44,  2.01it/s] 87%|████████▋ | 9303/10719 [1:29:38<11:43,  2.01it/s] 87%|████████▋ | 9304/10719 [1:29:38<11:43,  2.01it/s] 87%|████████▋ | 9305/10719 [1:29:39<11:41,  2.01it/s] 87%|████████▋ | 9306/10719 [1:29:39<11:41,  2.01it/s] 87%|████████▋ | 9307/10719 [1:29:40<11:39,  2.02it/s] 87%|████████▋ | 9308/10719 [1:29:40<11:39,  2.02it/s] 87%|████████▋ | 9309/10719 [1:29:41<11:40,  2.01it/s] 87%|████████▋ | 9310/10719 [1:29:41<11:39,  2.01it/s] 87%|████████▋ | 9311/10719 [1:29:42<11:40,  2.01it/s] 87%|████████▋ | 9312/10719 [1:29:42<11:39,  2.01it/s] 87%|████████▋ | 9313/10719 [1:29:43<11:38,  2.01it/s] 87%|████████▋ | 9314/10719 [1:29:43<11:37,  2.01it/s] 87%|████████▋ | 9315/10719 [1:29:44<11:37,  2.01it/s] 87%|████████▋ | 9316/10719 [1:29:44<11:37,  2.01it/s] 87%|████████▋ | 9317/10719 [1:29:45<11:36,  2.01it/s] 87%|████████▋ | 9318/10719 [1:29:45<11:36,  2.01it/s] 87%|████████▋ | 9319/10719 [1:29:46<11:37,  2.01it/s] 87%|████████▋ | 9320/10719 [1:29:46<11:37,  2.01it/s] 87%|████████▋ | 9321/10719 [1:29:47<11:37,  2.00it/s] 87%|████████▋ | 9322/10719 [1:29:47<11:36,  2.00it/s] 87%|████████▋ | 9323/10719 [1:29:48<11:36,  2.00it/s] 87%|████████▋ | 9324/10719 [1:29:48<11:37,  2.00it/s] 87%|████████▋ | 9325/10719 [1:29:49<11:38,  2.00it/s]                                                      {'loss': 3.4737, 'grad_norm': 0.19295454025268555, 'learning_rate': 5.0641845733284564e-05, 'epoch': 0.87}
- 87%|████████▋ | 9325/10719 [1:29:49<11:38,  2.00it/s] 87%|████████▋ | 9326/10719 [1:29:49<11:38,  1.99it/s] 87%|████████▋ | 9327/10719 [1:29:50<11:36,  2.00it/s] 87%|████████▋ | 9328/10719 [1:29:50<11:35,  2.00it/s] 87%|████████▋ | 9329/10719 [1:29:51<11:35,  2.00it/s] 87%|████████▋ | 9330/10719 [1:29:51<11:33,  2.00it/s] 87%|████████▋ | 9331/10719 [1:29:52<11:33,  2.00it/s] 87%|████████▋ | 9332/10719 [1:29:52<11:32,  2.00it/s] 87%|████████▋ | 9333/10719 [1:29:53<11:35,  1.99it/s] 87%|████████▋ | 9334/10719 [1:29:53<12:08,  1.90it/s] 87%|████████▋ | 9335/10719 [1:29:54<11:57,  1.93it/s] 87%|████████▋ | 9336/10719 [1:29:54<12:52,  1.79it/s] 87%|████████▋ | 9337/10719 [1:29:55<12:27,  1.85it/s] 87%|████████▋ | 9338/10719 [1:29:55<12:08,  1.89it/s] 87%|████████▋ | 9339/10719 [1:29:56<11:55,  1.93it/s] 87%|████████▋ | 9340/10719 [1:29:56<11:46,  1.95it/s] 87%|████████▋ | 9341/10719 [1:29:57<11:40,  1.97it/s] 87%|████████▋ | 9342/10719 [1:29:57<11:35,  1.98it/s] 87%|████████▋ | 9343/10719 [1:29:58<11:32,  1.99it/s] 87%|████████▋ | 9344/10719 [1:29:58<11:29,  1.99it/s] 87%|████████▋ | 9345/10719 [1:29:59<11:26,  2.00it/s] 87%|████████▋ | 9346/10719 [1:29:59<11:25,  2.00it/s] 87%|████████▋ | 9347/10719 [1:30:00<11:27,  1.99it/s] 87%|████████▋ | 9348/10719 [1:30:00<11:26,  2.00it/s] 87%|████████▋ | 9349/10719 [1:30:01<11:24,  2.00it/s] 87%|████████▋ | 9350/10719 [1:30:01<11:23,  2.00it/s]                                                      {'loss': 3.4562, 'grad_norm': 0.19795484840869904, 'learning_rate': 4.887163756657498e-05, 'epoch': 0.87}
- 87%|████████▋ | 9350/10719 [1:30:01<11:23,  2.00it/s] 87%|████████▋ | 9351/10719 [1:30:02<11:24,  2.00it/s] 87%|████████▋ | 9352/10719 [1:30:02<11:22,  2.00it/s] 87%|████████▋ | 9353/10719 [1:30:03<11:22,  2.00it/s] 87%|████████▋ | 9354/10719 [1:30:03<11:21,  2.00it/s] 87%|████████▋ | 9355/10719 [1:30:04<11:19,  2.01it/s] 87%|████████▋ | 9356/10719 [1:30:04<11:18,  2.01it/s] 87%|████████▋ | 9357/10719 [1:30:05<11:17,  2.01it/s] 87%|████████▋ | 9358/10719 [1:30:05<11:18,  2.01it/s] 87%|████████▋ | 9359/10719 [1:30:06<11:16,  2.01it/s] 87%|████████▋ | 9360/10719 [1:30:06<11:16,  2.01it/s] 87%|████████▋ | 9361/10719 [1:30:07<11:37,  1.95it/s] 87%|████████▋ | 9362/10719 [1:30:08<11:32,  1.96it/s] 87%|████████▋ | 9363/10719 [1:30:08<11:28,  1.97it/s] 87%|████████▋ | 9364/10719 [1:30:09<11:25,  1.98it/s] 87%|████████▋ | 9365/10719 [1:30:09<11:23,  1.98it/s] 87%|████████▋ | 9366/10719 [1:30:10<11:21,  1.98it/s] 87%|████████▋ | 9367/10719 [1:30:10<11:18,  1.99it/s] 87%|████████▋ | 9368/10719 [1:30:11<11:17,  1.99it/s] 87%|████████▋ | 9369/10719 [1:30:11<11:16,  2.00it/s] 87%|████████▋ | 9370/10719 [1:30:12<11:15,  2.00it/s] 87%|████████▋ | 9371/10719 [1:30:12<11:13,  2.00it/s] 87%|████████▋ | 9372/10719 [1:30:13<11:12,  2.00it/s] 87%|████████▋ | 9373/10719 [1:30:13<11:12,  2.00it/s] 87%|████████▋ | 9374/10719 [1:30:14<11:12,  2.00it/s] 87%|████████▋ | 9375/10719 [1:30:14<11:11,  2.00it/s]                                                      {'loss': 3.4609, 'grad_norm': 0.19732551276683807, 'learning_rate': 4.713133089737148e-05, 'epoch': 0.87}
- 87%|████████▋ | 9375/10719 [1:30:14<11:11,  2.00it/s] 87%|████████▋ | 9376/10719 [1:30:15<11:12,  2.00it/s] 87%|████████▋ | 9377/10719 [1:30:15<11:11,  2.00it/s] 87%|████████▋ | 9378/10719 [1:30:16<11:10,  2.00it/s] 87%|████████▋ | 9379/10719 [1:30:16<11:08,  2.01it/s] 88%|████████▊ | 9380/10719 [1:30:17<11:08,  2.00it/s] 88%|████████▊ | 9381/10719 [1:30:17<11:08,  2.00it/s] 88%|████████▊ | 9382/10719 [1:30:18<11:07,  2.00it/s] 88%|████████▊ | 9383/10719 [1:30:18<11:06,  2.00it/s] 88%|████████▊ | 9384/10719 [1:30:18<11:05,  2.01it/s] 88%|████████▊ | 9385/10719 [1:30:19<11:05,  2.00it/s] 88%|████████▊ | 9386/10719 [1:30:19<11:04,  2.01it/s] 88%|████████▊ | 9387/10719 [1:30:20<11:03,  2.01it/s] 88%|████████▊ | 9388/10719 [1:30:20<11:04,  2.00it/s] 88%|████████▊ | 9389/10719 [1:30:21<11:03,  2.01it/s] 88%|████████▊ | 9390/10719 [1:30:21<11:02,  2.00it/s] 88%|████████▊ | 9391/10719 [1:30:22<11:03,  2.00it/s] 88%|████████▊ | 9392/10719 [1:30:22<11:02,  2.00it/s] 88%|████████▊ | 9393/10719 [1:30:23<11:00,  2.01it/s] 88%|████████▊ | 9394/10719 [1:30:23<11:00,  2.00it/s] 88%|████████▊ | 9395/10719 [1:30:24<11:02,  2.00it/s] 88%|████████▊ | 9396/10719 [1:30:25<11:19,  1.95it/s] 88%|████████▊ | 9397/10719 [1:30:25<11:12,  1.96it/s] 88%|████████▊ | 9398/10719 [1:30:26<11:08,  1.98it/s] 88%|████████▊ | 9399/10719 [1:30:26<11:05,  1.98it/s] 88%|████████▊ | 9400/10719 [1:30:27<11:01,  1.99it/s]                                                      {'loss': 3.4633, 'grad_norm': 0.20046518743038177, 'learning_rate': 4.542104107593742e-05, 'epoch': 0.88}
- 88%|████████▊ | 9400/10719 [1:30:27<11:01,  1.99it/s] 88%|████████▊ | 9401/10719 [1:30:27<11:00,  1.99it/s] 88%|████████▊ | 9402/10719 [1:30:28<10:57,  2.00it/s] 88%|████████▊ | 9403/10719 [1:30:28<10:57,  2.00it/s] 88%|████████▊ | 9404/10719 [1:30:29<10:55,  2.00it/s] 88%|████████▊ | 9405/10719 [1:30:29<10:53,  2.01it/s] 88%|████████▊ | 9406/10719 [1:30:30<10:53,  2.01it/s] 88%|████████▊ | 9407/10719 [1:30:30<10:53,  2.01it/s] 88%|████████▊ | 9408/10719 [1:30:31<10:54,  2.00it/s] 88%|████████▊ | 9409/10719 [1:30:31<10:54,  2.00it/s] 88%|████████▊ | 9410/10719 [1:30:32<10:53,  2.00it/s] 88%|████████▊ | 9411/10719 [1:30:32<10:53,  2.00it/s] 88%|████████▊ | 9412/10719 [1:30:33<10:52,  2.00it/s] 88%|████████▊ | 9413/10719 [1:30:33<10:52,  2.00it/s] 88%|████████▊ | 9414/10719 [1:30:34<10:52,  2.00it/s] 88%|████████▊ | 9415/10719 [1:30:34<10:52,  2.00it/s] 88%|████████▊ | 9416/10719 [1:30:35<10:50,  2.00it/s] 88%|████████▊ | 9417/10719 [1:30:35<10:50,  2.00it/s] 88%|████████▊ | 9418/10719 [1:30:36<10:50,  2.00it/s] 88%|████████▊ | 9419/10719 [1:30:36<10:50,  2.00it/s] 88%|████████▊ | 9420/10719 [1:30:37<10:49,  2.00it/s] 88%|████████▊ | 9421/10719 [1:30:37<10:49,  2.00it/s] 88%|████████▊ | 9422/10719 [1:30:38<10:48,  2.00it/s] 88%|████████▊ | 9423/10719 [1:30:38<10:48,  2.00it/s] 88%|████████▊ | 9424/10719 [1:30:39<10:47,  2.00it/s] 88%|████████▊ | 9425/10719 [1:30:39<10:46,  2.00it/s]                                                      {'loss': 3.4618, 'grad_norm': 0.1975698322057724, 'learning_rate': 4.3740881462972835e-05, 'epoch': 0.88}
- 88%|████████▊ | 9425/10719 [1:30:39<10:46,  2.00it/s] 88%|████████▊ | 9426/10719 [1:30:40<10:45,  2.00it/s] 88%|████████▊ | 9427/10719 [1:30:40<10:45,  2.00it/s] 88%|████████▊ | 9428/10719 [1:30:41<10:46,  2.00it/s] 88%|████████▊ | 9429/10719 [1:30:41<10:46,  1.99it/s] 88%|████████▊ | 9430/10719 [1:30:42<10:46,  1.99it/s] 88%|████████▊ | 9431/10719 [1:30:42<10:44,  2.00it/s] 88%|████████▊ | 9432/10719 [1:30:43<10:42,  2.00it/s] 88%|████████▊ | 9433/10719 [1:30:43<10:41,  2.00it/s] 88%|████████▊ | 9434/10719 [1:30:44<10:40,  2.01it/s] 88%|████████▊ | 9435/10719 [1:30:44<10:40,  2.00it/s] 88%|████████▊ | 9436/10719 [1:30:45<10:40,  2.00it/s] 88%|████████▊ | 9437/10719 [1:30:45<10:39,  2.00it/s] 88%|████████▊ | 9438/10719 [1:30:46<10:39,  2.00it/s] 88%|████████▊ | 9439/10719 [1:30:46<10:38,  2.00it/s] 88%|████████▊ | 9440/10719 [1:30:47<10:39,  2.00it/s] 88%|████████▊ | 9441/10719 [1:30:47<10:39,  2.00it/s] 88%|████████▊ | 9442/10719 [1:30:48<10:38,  2.00it/s] 88%|████████▊ | 9443/10719 [1:30:48<10:37,  2.00it/s] 88%|████████▊ | 9444/10719 [1:30:49<10:36,  2.00it/s] 88%|████████▊ | 9445/10719 [1:30:49<10:36,  2.00it/s] 88%|████████▊ | 9446/10719 [1:30:50<10:35,  2.00it/s] 88%|████████▊ | 9447/10719 [1:30:50<10:35,  2.00it/s] 88%|████████▊ | 9448/10719 [1:30:51<10:35,  2.00it/s] 88%|████████▊ | 9449/10719 [1:30:51<10:35,  2.00it/s] 88%|████████▊ | 9450/10719 [1:30:52<10:34,  2.00it/s]                                                      {'loss': 3.4609, 'grad_norm': 0.20011654496192932, 'learning_rate': 4.209096342209945e-05, 'epoch': 0.88}
- 88%|████████▊ | 9450/10719 [1:30:52<10:34,  2.00it/s] 88%|████████▊ | 9451/10719 [1:30:52<10:35,  2.00it/s] 88%|████████▊ | 9452/10719 [1:30:53<10:35,  1.99it/s] 88%|████████▊ | 9453/10719 [1:30:53<10:34,  1.99it/s] 88%|████████▊ | 9454/10719 [1:30:54<10:34,  1.99it/s] 88%|████████▊ | 9455/10719 [1:30:54<10:35,  1.99it/s] 88%|████████▊ | 9456/10719 [1:30:55<10:50,  1.94it/s] 88%|████████▊ | 9457/10719 [1:30:55<10:46,  1.95it/s] 88%|████████▊ | 9458/10719 [1:30:56<10:41,  1.97it/s] 88%|████████▊ | 9459/10719 [1:30:56<10:37,  1.98it/s] 88%|████████▊ | 9460/10719 [1:30:57<10:33,  1.99it/s] 88%|████████▊ | 9461/10719 [1:30:57<10:31,  1.99it/s] 88%|████████▊ | 9462/10719 [1:30:58<10:29,  2.00it/s] 88%|████████▊ | 9463/10719 [1:30:58<10:27,  2.00it/s] 88%|████████▊ | 9464/10719 [1:30:59<10:26,  2.00it/s] 88%|████████▊ | 9465/10719 [1:30:59<10:25,  2.00it/s] 88%|████████▊ | 9466/10719 [1:31:00<10:24,  2.01it/s] 88%|████████▊ | 9467/10719 [1:31:00<10:25,  2.00it/s] 88%|████████▊ | 9468/10719 [1:31:01<10:25,  2.00it/s] 88%|████████▊ | 9469/10719 [1:31:01<10:24,  2.00it/s] 88%|████████▊ | 9470/10719 [1:31:02<10:23,  2.00it/s] 88%|████████▊ | 9471/10719 [1:31:02<10:22,  2.00it/s] 88%|████████▊ | 9472/10719 [1:31:03<10:21,  2.01it/s] 88%|████████▊ | 9473/10719 [1:31:03<10:20,  2.01it/s] 88%|████████▊ | 9474/10719 [1:31:04<10:20,  2.01it/s] 88%|████████▊ | 9475/10719 [1:31:04<10:19,  2.01it/s]                                                      {'loss': 3.4626, 'grad_norm': 0.1960565596818924, 'learning_rate': 4.047139631248076e-05, 'epoch': 0.88}
- 88%|████████▊ | 9475/10719 [1:31:04<10:19,  2.01it/s] 88%|████████▊ | 9476/10719 [1:31:05<10:18,  2.01it/s] 88%|████████▊ | 9477/10719 [1:31:05<10:18,  2.01it/s] 88%|████████▊ | 9478/10719 [1:31:06<10:17,  2.01it/s] 88%|��███████▊ | 9479/10719 [1:31:06<10:16,  2.01it/s] 88%|████████▊ | 9480/10719 [1:31:07<10:16,  2.01it/s] 88%|████████▊ | 9481/10719 [1:31:07<10:15,  2.01it/s] 88%|████████▊ | 9482/10719 [1:31:08<10:15,  2.01it/s] 88%|████████▊ | 9483/10719 [1:31:08<10:14,  2.01it/s] 88%|████████▊ | 9484/10719 [1:31:09<10:16,  2.00it/s] 88%|████████▊ | 9485/10719 [1:31:09<10:16,  2.00it/s] 88%|████████▊ | 9486/10719 [1:31:10<10:15,  2.00it/s] 89%|████████▊ | 9487/10719 [1:31:10<10:15,  2.00it/s] 89%|████████▊ | 9488/10719 [1:31:11<10:15,  2.00it/s] 89%|████████▊ | 9489/10719 [1:31:11<10:16,  2.00it/s] 89%|████████▊ | 9490/10719 [1:31:12<10:16,  1.99it/s] 89%|████████▊ | 9491/10719 [1:31:12<10:14,  2.00it/s] 89%|████████▊ | 9492/10719 [1:31:13<10:14,  2.00it/s] 89%|████████▊ | 9493/10719 [1:31:13<10:14,  2.00it/s] 89%|████████▊ | 9494/10719 [1:31:14<10:13,  2.00it/s] 89%|████████▊ | 9495/10719 [1:31:14<10:12,  2.00it/s] 89%|████████▊ | 9496/10719 [1:31:15<10:11,  2.00it/s] 89%|████████▊ | 9497/10719 [1:31:15<10:11,  2.00it/s] 89%|████████▊ | 9498/10719 [1:31:16<10:11,  2.00it/s] 89%|████████▊ | 9499/10719 [1:31:16<10:10,  2.00it/s] 89%|████████▊ | 9500/10719 [1:31:17<10:09,  2.00it/s]                                                      {'loss': 3.4571, 'grad_norm': 0.19685378670692444, 'learning_rate': 3.8882287481572244e-05, 'epoch': 0.89}
- 89%|████████▊ | 9500/10719 [1:31:17<10:09,  2.00it/s] 89%|████████▊ | 9501/10719 [1:31:17<10:08,  2.00it/s] 89%|████████▊ | 9502/10719 [1:31:18<10:08,  2.00it/s] 89%|████████▊ | 9503/10719 [1:31:18<10:07,  2.00it/s] 89%|████████▊ | 9504/10719 [1:31:19<10:06,  2.00it/s] 89%|████████▊ | 9505/10719 [1:31:19<10:05,  2.00it/s] 89%|████████▊ | 9506/10719 [1:31:20<10:06,  2.00it/s] 89%|████████▊ | 9507/10719 [1:31:20<10:06,  2.00it/s] 89%|████████▊ | 9508/10719 [1:31:21<10:04,  2.00it/s] 89%|████████▊ | 9509/10719 [1:31:21<10:03,  2.00it/s] 89%|████████▊ | 9510/10719 [1:31:22<10:04,  2.00it/s] 89%|████████▊ | 9511/10719 [1:31:22<10:02,  2.01it/s] 89%|████████▊ | 9512/10719 [1:31:23<10:01,  2.01it/s] 89%|████████▊ | 9513/10719 [1:31:23<10:00,  2.01it/s] 89%|████████▉ | 9514/10719 [1:31:24<09:59,  2.01it/s] 89%|████████▉ | 9515/10719 [1:31:24<09:59,  2.01it/s] 89%|████████▉ | 9516/10719 [1:31:25<10:13,  1.96it/s] 89%|████████▉ | 9517/10719 [1:31:25<10:08,  1.97it/s] 89%|████████▉ | 9518/10719 [1:31:26<10:04,  1.99it/s] 89%|████████▉ | 9519/10719 [1:31:26<10:02,  1.99it/s] 89%|████████▉ | 9520/10719 [1:31:27<10:00,  2.00it/s] 89%|████████▉ | 9521/10719 [1:31:27<09:58,  2.00it/s] 89%|████████▉ | 9522/10719 [1:31:28<09:57,  2.00it/s] 89%|████████▉ | 9523/10719 [1:31:28<09:55,  2.01it/s] 89%|████████▉ | 9524/10719 [1:31:29<09:54,  2.01it/s] 89%|████████▉ | 9525/10719 [1:31:29<09:55,  2.00it/s]                                                      {'loss': 3.4704, 'grad_norm': 0.1963910460472107, 'learning_rate': 3.7323742258007e-05, 'epoch': 0.89}
- 89%|████████▉ | 9525/10719 [1:31:29<09:55,  2.00it/s] 89%|████████▉ | 9526/10719 [1:31:30<09:56,  2.00it/s] 89%|████████▉ | 9527/10719 [1:31:30<09:54,  2.01it/s] 89%|████████▉ | 9528/10719 [1:31:31<09:54,  2.00it/s] 89%|████████▉ | 9529/10719 [1:31:31<09:54,  2.00it/s] 89%|████████▉ | 9530/10719 [1:31:32<09:54,  2.00it/s] 89%|████████▉ | 9531/10719 [1:31:32<09:52,  2.00it/s] 89%|████████▉ | 9532/10719 [1:31:33<09:52,  2.00it/s] 89%|████████▉ | 9533/10719 [1:31:33<09:51,  2.01it/s] 89%|████████▉ | 9534/10719 [1:31:34<09:50,  2.01it/s] 89%|████████▉ | 9535/10719 [1:31:34<09:49,  2.01it/s] 89%|████████▉ | 9536/10719 [1:31:35<09:49,  2.01it/s] 89%|████████▉ | 9537/10719 [1:31:35<09:49,  2.01it/s] 89%|████████▉ | 9538/10719 [1:31:36<09:47,  2.01it/s] 89%|████████▉ | 9539/10719 [1:31:36<09:48,  2.01it/s] 89%|████████▉ | 9540/10719 [1:31:37<09:47,  2.01it/s] 89%|████████▉ | 9541/10719 [1:31:37<09:46,  2.01it/s] 89%|████████▉ | 9542/10719 [1:31:38<09:46,  2.01it/s] 89%|████████▉ | 9543/10719 [1:31:38<09:46,  2.00it/s] 89%|████████▉ | 9544/10719 [1:31:39<09:46,  2.00it/s] 89%|████████▉ | 9545/10719 [1:31:39<09:46,  2.00it/s] 89%|████████▉ | 9546/10719 [1:31:40<09:46,  2.00it/s] 89%|████████▉ | 9547/10719 [1:31:40<10:10,  1.92it/s] 89%|████████▉ | 9548/10719 [1:31:41<10:03,  1.94it/s] 89%|████████▉ | 9549/10719 [1:31:41<09:58,  1.96it/s] 89%|████████▉ | 9550/10719 [1:31:42<09:52,  1.97it/s]                                                      {'loss': 3.468, 'grad_norm': 0.1991538256406784, 'learning_rate': 3.5795863944614097e-05, 'epoch': 0.89}
- 89%|████████▉ | 9550/10719 [1:31:42<09:52,  1.97it/s] 89%|████████▉ | 9551/10719 [1:31:42<09:50,  1.98it/s] 89%|████████▉ | 9552/10719 [1:31:43<09:47,  1.99it/s] 89%|████████▉ | 9553/10719 [1:31:43<09:45,  1.99it/s] 89%|████████▉ | 9554/10719 [1:31:44<09:44,  1.99it/s] 89%|████████▉ | 9555/10719 [1:31:44<09:42,  2.00it/s] 89%|████████▉ | 9556/10719 [1:31:45<09:40,  2.00it/s] 89%|████████▉ | 9557/10719 [1:31:45<09:39,  2.00it/s] 89%|████████▉ | 9558/10719 [1:31:46<09:38,  2.01it/s] 89%|████████▉ | 9559/10719 [1:31:46<09:37,  2.01it/s] 89%|████████▉ | 9560/10719 [1:31:47<09:36,  2.01it/s] 89%|████████▉ | 9561/10719 [1:31:47<09:37,  2.00it/s] 89%|████████▉ | 9562/10719 [1:31:48<10:05,  1.91it/s] 89%|████████▉ | 9563/10719 [1:31:48<09:57,  1.94it/s] 89%|████████▉ | 9564/10719 [1:31:49<09:51,  1.95it/s] 89%|████████▉ | 9565/10719 [1:31:49<09:45,  1.97it/s] 89%|████████▉ | 9566/10719 [1:31:50<09:42,  1.98it/s] 89%|████████▉ | 9567/10719 [1:31:50<09:39,  1.99it/s] 89%|████████▉ | 9568/10719 [1:31:51<09:37,  1.99it/s] 89%|████████▉ | 9569/10719 [1:31:51<09:34,  2.00it/s] 89%|████████▉ | 9570/10719 [1:31:52<09:33,  2.00it/s] 89%|████████▉ | 9571/10719 [1:31:52<09:32,  2.00it/s] 89%|████████▉ | 9572/10719 [1:31:53<09:32,  2.00it/s] 89%|████████▉ | 9573/10719 [1:31:53<09:32,  2.00it/s] 89%|████████▉ | 9574/10719 [1:31:54<09:32,  2.00it/s] 89%|████████▉ | 9575/10719 [1:31:54<09:31,  2.00it/s]                                                      {'loss': 3.4683, 'grad_norm': 0.19979263842105865, 'learning_rate': 3.4298753811571604e-05, 'epoch': 0.89}
- 89%|████████▉ | 9575/10719 [1:31:54<09:31,  2.00it/s] 89%|████████▉ | 9576/10719 [1:31:55<09:35,  1.99it/s] 89%|████████▉ | 9577/10719 [1:31:55<09:32,  1.99it/s] 89%|████████▉ | 9578/10719 [1:31:56<09:31,  2.00it/s] 89%|████████▉ | 9579/10719 [1:31:56<09:30,  2.00it/s] 89%|████████▉ | 9580/10719 [1:31:57<09:29,  2.00it/s] 89%|████████▉ | 9581/10719 [1:31:57<09:28,  2.00it/s] 89%|████████▉ | 9582/10719 [1:31:58<09:27,  2.00it/s] 89%|████████▉ | 9583/10719 [1:31:58<09:26,  2.01it/s] 89%|████████▉ | 9584/10719 [1:31:59<09:25,  2.01it/s] 89%|████████▉ | 9585/10719 [1:31:59<09:24,  2.01it/s] 89%|████████▉ | 9586/10719 [1:32:00<09:24,  2.01it/s] 89%|████████▉ | 9587/10719 [1:32:00<09:23,  2.01it/s] 89%|████████▉ | 9588/10719 [1:32:01<09:23,  2.01it/s] 89%|████████▉ | 9589/10719 [1:32:01<09:32,  1.97it/s] 89%|████████▉ | 9590/10719 [1:32:02<09:31,  1.98it/s] 89%|████████▉ | 9591/10719 [1:32:02<09:29,  1.98it/s] 89%|████████▉ | 9592/10719 [1:32:03<09:27,  1.99it/s] 89%|████████▉ | 9593/10719 [1:32:03<09:26,  1.99it/s] 90%|████████▉ | 9594/10719 [1:32:04<09:24,  1.99it/s] 90%|████████▉ | 9595/10719 [1:32:04<09:22,  2.00it/s] 90%|████████▉ | 9596/10719 [1:32:05<09:21,  2.00it/s] 90%|████████▉ | 9597/10719 [1:32:05<09:20,  2.00it/s] 90%|████████▉ | 9598/10719 [1:32:06<09:18,  2.01it/s] 90%|████████▉ | 9599/10719 [1:32:06<09:18,  2.00it/s] 90%|████████▉ | 9600/10719 [1:32:07<09:18,  2.00it/s]                                                      {'loss': 3.4527, 'grad_norm': 0.1967221200466156, 'learning_rate': 3.283251108969409e-05, 'epoch': 0.9}
- 90%|████████▉ | 9600/10719 [1:32:07<09:18,  2.00it/s] 90%|████████▉ | 9601/10719 [1:32:07<09:17,  2.01it/s] 90%|████████▉ | 9602/10719 [1:32:08<09:16,  2.01it/s] 90%|████��███▉ | 9603/10719 [1:32:08<09:16,  2.01it/s] 90%|████████▉ | 9604/10719 [1:32:09<09:15,  2.01it/s] 90%|████████▉ | 9605/10719 [1:32:09<09:14,  2.01it/s] 90%|████████▉ | 9606/10719 [1:32:10<09:14,  2.01it/s] 90%|████████▉ | 9607/10719 [1:32:10<09:13,  2.01it/s] 90%|████████▉ | 9608/10719 [1:32:11<09:12,  2.01it/s] 90%|████████▉ | 9609/10719 [1:32:11<09:11,  2.01it/s] 90%|████████▉ | 9610/10719 [1:32:12<09:11,  2.01it/s] 90%|████████▉ | 9611/10719 [1:32:12<09:11,  2.01it/s] 90%|████████▉ | 9612/10719 [1:32:13<09:10,  2.01it/s] 90%|████████▉ | 9613/10719 [1:32:13<09:09,  2.01it/s] 90%|████████▉ | 9614/10719 [1:32:14<09:08,  2.01it/s] 90%|████████▉ | 9615/10719 [1:32:14<09:07,  2.02it/s] 90%|████████▉ | 9616/10719 [1:32:15<09:07,  2.01it/s] 90%|████████▉ | 9617/10719 [1:32:15<09:06,  2.02it/s] 90%|████████▉ | 9618/10719 [1:32:16<09:06,  2.01it/s] 90%|████████▉ | 9619/10719 [1:32:16<09:06,  2.01it/s] 90%|████████▉ | 9620/10719 [1:32:17<09:05,  2.01it/s] 90%|████████▉ | 9621/10719 [1:32:17<09:05,  2.01it/s] 90%|████████▉ | 9622/10719 [1:32:18<09:04,  2.01it/s] 90%|████████▉ | 9623/10719 [1:32:18<09:04,  2.01it/s] 90%|████████▉ | 9624/10719 [1:32:19<09:03,  2.02it/s] 90%|████████▉ | 9625/10719 [1:32:19<09:02,  2.02it/s]                                                      {'loss': 3.4571, 'grad_norm': 0.19615206122398376, 'learning_rate': 3.139723296385566e-05, 'epoch': 0.9}
- 90%|████████▉ | 9625/10719 [1:32:19<09:02,  2.02it/s] 90%|████████▉ | 9626/10719 [1:32:20<09:03,  2.01it/s] 90%|████████▉ | 9627/10719 [1:32:20<09:02,  2.01it/s] 90%|████████▉ | 9628/10719 [1:32:21<09:01,  2.01it/s] 90%|████████▉ | 9629/10719 [1:32:21<09:01,  2.01it/s] 90%|████████▉ | 9630/10719 [1:32:22<09:00,  2.02it/s] 90%|████████▉ | 9631/10719 [1:32:22<09:00,  2.01it/s] 90%|████████▉ | 9632/10719 [1:32:23<09:00,  2.01it/s] 90%|████████▉ | 9633/10719 [1:32:23<08:59,  2.01it/s] 90%|████████▉ | 9634/10719 [1:32:24<08:59,  2.01it/s] 90%|████████▉ | 9635/10719 [1:32:24<08:57,  2.02it/s] 90%|████████▉ | 9636/10719 [1:32:25<08:57,  2.01it/s] 90%|████████▉ | 9637/10719 [1:32:25<09:20,  1.93it/s] 90%|████████▉ | 9638/10719 [1:32:26<09:13,  1.95it/s] 90%|████████▉ | 9639/10719 [1:32:26<09:06,  1.97it/s] 90%|████████▉ | 9640/10719 [1:32:27<09:03,  1.98it/s] 90%|████████▉ | 9641/10719 [1:32:27<09:00,  2.00it/s] 90%|████████▉ | 9642/10719 [1:32:28<08:58,  2.00it/s] 90%|████████▉ | 9643/10719 [1:32:28<08:56,  2.01it/s] 90%|████████▉ | 9644/10719 [1:32:29<08:54,  2.01it/s] 90%|████████▉ | 9645/10719 [1:32:29<08:53,  2.01it/s] 90%|████████▉ | 9646/10719 [1:32:30<08:52,  2.01it/s] 90%|████████▉ | 9647/10719 [1:32:30<08:52,  2.01it/s] 90%|█████████ | 9648/10719 [1:32:31<08:51,  2.02it/s] 90%|█████████ | 9649/10719 [1:32:31<08:50,  2.02it/s] 90%|█████████ | 9650/10719 [1:32:32<08:49,  2.02it/s]                                                      {'loss': 3.4621, 'grad_norm': 0.1947067826986313, 'learning_rate': 2.9993014566548236e-05, 'epoch': 0.9}
- 90%|█████████ | 9650/10719 [1:32:32<08:49,  2.02it/s] 90%|█████████ | 9651/10719 [1:32:32<08:49,  2.02it/s] 90%|█████████ | 9652/10719 [1:32:33<10:21,  1.72it/s] 90%|█████████ | 9653/10719 [1:32:33<09:52,  1.80it/s] 90%|█████████ | 9654/10719 [1:32:34<09:33,  1.86it/s] 90%|█████████ | 9655/10719 [1:32:34<09:18,  1.90it/s] 90%|█████████ | 9656/10719 [1:32:35<09:08,  1.94it/s] 90%|█████████ | 9657/10719 [1:32:35<09:01,  1.96it/s] 90%|█████████ | 9658/10719 [1:32:36<08:55,  1.98it/s] 90%|█████████ | 9659/10719 [1:32:36<08:52,  1.99it/s] 90%|█████████ | 9660/10719 [1:32:37<08:49,  2.00it/s] 90%|█████████ | 9661/10719 [1:32:37<08:48,  2.00it/s] 90%|█████████ | 9662/10719 [1:32:38<08:46,  2.01it/s] 90%|█████████ | 9663/10719 [1:32:38<08:44,  2.01it/s] 90%|█████████ | 9664/10719 [1:32:39<08:43,  2.02it/s] 90%|█████████ | 9665/10719 [1:32:39<08:42,  2.02it/s] 90%|█████████ | 9666/10719 [1:32:40<08:41,  2.02it/s] 90%|█████████ | 9667/10719 [1:32:40<08:42,  2.01it/s] 90%|█████████ | 9668/10719 [1:32:41<08:42,  2.01it/s] 90%|█████████ | 9669/10719 [1:32:41<08:42,  2.01it/s] 90%|█████████ | 9670/10719 [1:32:42<08:42,  2.01it/s] 90%|█████████ | 9671/10719 [1:32:42<08:42,  2.01it/s] 90%|█████████ | 9672/10719 [1:32:43<08:42,  2.00it/s] 90%|█████████ | 9673/10719 [1:32:43<08:42,  2.00it/s] 90%|█████████ | 9674/10719 [1:32:44<08:42,  2.00it/s] 90%|█████████ | 9675/10719 [1:32:44<09:01,  1.93it/s]                                                      {'loss': 3.4639, 'grad_norm': 0.20366033911705017, 'learning_rate': 2.861994897157605e-05, 'epoch': 0.9}
- 90%|█████████ | 9675/10719 [1:32:44<09:01,  1.93it/s] 90%|█████████ | 9676/10719 [1:32:45<08:55,  1.95it/s] 90%|█████████ | 9677/10719 [1:32:45<08:51,  1.96it/s] 90%|█████████ | 9678/10719 [1:32:46<08:48,  1.97it/s] 90%|█████████ | 9679/10719 [1:32:46<08:45,  1.98it/s] 90%|█████████ | 9680/10719 [1:32:47<08:43,  1.98it/s] 90%|█████████ | 9681/10719 [1:32:47<08:42,  1.99it/s] 90%|█████████ | 9682/10719 [1:32:48<08:40,  1.99it/s] 90%|█████████ | 9683/10719 [1:32:48<08:39,  1.99it/s] 90%|█████████ | 9684/10719 [1:32:49<08:38,  2.00it/s] 90%|█████████ | 9685/10719 [1:32:49<08:36,  2.00it/s] 90%|█████████ | 9686/10719 [1:32:50<08:35,  2.00it/s] 90%|█████████ | 9687/10719 [1:32:50<08:34,  2.00it/s] 90%|█████████ | 9688/10719 [1:32:51<08:38,  1.99it/s] 90%|█████████ | 9689/10719 [1:32:51<08:57,  1.91it/s] 90%|█████████ | 9690/10719 [1:32:52<08:50,  1.94it/s] 90%|█████████ | 9691/10719 [1:32:52<08:45,  1.96it/s] 90%|█████████ | 9692/10719 [1:32:53<08:42,  1.97it/s] 90%|█████████ | 9693/10719 [1:32:53<08:39,  1.98it/s] 90%|█████████ | 9694/10719 [1:32:54<10:09,  1.68it/s] 90%|█████████ | 9695/10719 [1:32:55<10:00,  1.71it/s] 90%|█████████ | 9696/10719 [1:32:55<09:33,  1.79it/s] 90%|█████████ | 9697/10719 [1:32:56<09:14,  1.84it/s] 90%|█████████ | 9698/10719 [1:32:56<08:59,  1.89it/s] 90%|█████████ | 9699/10719 [1:32:57<08:50,  1.92it/s] 90%|█████████ | 9700/10719 [1:32:57<09:09,  1.85it/s]                                                      {'loss': 3.4608, 'grad_norm': 0.20280086994171143, 'learning_rate': 2.7278127187886635e-05, 'epoch': 0.9}
- 90%|█████████ | 9700/10719 [1:32:57<09:09,  1.85it/s] 91%|█████████ | 9701/10719 [1:32:58<08:58,  1.89it/s] 91%|█████████ | 9702/10719 [1:32:58<08:48,  1.92it/s] 91%|█████████ | 9703/10719 [1:32:59<08:41,  1.95it/s] 91%|█████████ | 9704/10719 [1:32:59<08:36,  1.96it/s] 91%|█████████ | 9705/10719 [1:33:00<08:32,  1.98it/s] 91%|█████████ | 9706/10719 [1:33:00<08:29,  1.99it/s] 91%|█████████ | 9707/10719 [1:33:01<08:28,  1.99it/s] 91%|█████████ | 9708/10719 [1:33:01<08:26,  2.00it/s] 91%|█████████ | 9709/10719 [1:33:02<08:24,  2.00it/s] 91%|█████████ | 9710/10719 [1:33:02<08:24,  2.00it/s] 91%|█████████ | 9711/10719 [1:33:03<08:23,  2.00it/s] 91%|█████████ | 9712/10719 [1:33:03<08:22,  2.00it/s] 91%|█████████ | 9713/10719 [1:33:04<08:22,  2.00it/s] 91%|█████████ | 9714/10719 [1:33:04<08:21,  2.00it/s] 91%|█████████ | 9715/10719 [1:33:05<08:21,  2.00it/s] 91%|█████████ | 9716/10719 [1:33:05<08:19,  2.01it/s] 91%|█████████ | 9717/10719 [1:33:06<08:19,  2.01it/s] 91%|█████████ | 9718/10719 [1:33:06<08:18,  2.01it/s] 91%|█████████ | 9719/10719 [1:33:07<08:17,  2.01it/s] 91%|█████████ | 9720/10719 [1:33:07<08:17,  2.01it/s] 91%|█████████ | 9721/10719 [1:33:08<08:15,  2.01it/s] 91%|█████████ | 9722/10719 [1:33:08<08:15,  2.01it/s] 91%|█████████ | 9723/10719 [1:33:09<08:15,  2.01it/s] 91%|█████████ | 9724/10719 [1:33:09<08:14,  2.01it/s] 91%|█████████ | 9725/10719 [1:33:10<08:14,  2.01it/s]                                                      {'loss': 3.4649, 'grad_norm': 0.19461597502231598, 'learning_rate': 2.5967638153538754e-05, 'epoch': 0.91}
- 91%|█████████ | 9725/10719 [1:33:10<08:14,  2.01it/s] 91%|█████████ | 9726/10719 [1:33:10<08:14,  2.01it/s] 91%|█████████ | 9727/10719 [1:33:11<08:13,  2.01it/s] 91%|█████████ | 9728/10719 [1:33:11<08:13,  2.01it/s] 91%|█████████ | 9729/10719 [1:33:12<08:12,  2.01it/s] 91%|█████████ | 9730/10719 [1:33:12<08:11,  2.01it/s] 91%|█████████ | 9731/10719 [1:33:13<08:10,  2.01it/s] 91%|█████████ | 9732/10719 [1:33:13<08:09,  2.02it/s] 91%|█████████ | 9733/10719 [1:33:14<08:09,  2.01it/s] 91%|█████████ | 9734/10719 [1:33:14<08:08,  2.02it/s] 91%|█████████ | 9735/10719 [1:33:15<08:08,  2.01it/s] 91%|█████████ | 9736/10719 [1:33:15<08:08,  2.01it/s] 91%|█████████ | 9737/10719 [1:33:16<08:07,  2.02it/s] 91%|█████████ | 9738/10719 [1:33:16<08:07,  2.01it/s] 91%|█████████ | 9739/10719 [1:33:17<08:08,  2.01it/s] 91%|█████████ | 9740/10719 [1:33:17<08:08,  2.01it/s] 91%|█████████ | 9741/10719 [1:33:18<08:12,  1.99it/s] 91%|█████████ | 9742/10719 [1:33:18<08:42,  1.87it/s] 91%|█████████ | 9743/10719 [1:33:19<08:31,  1.91it/s] 91%|█████████ | 9744/10719 [1:33:19<08:23,  1.94it/s] 91%|█████████ | 9745/10719 [1:33:20<08:18,  1.95it/s] 91%|█████████ | 9746/10719 [1:33:20<08:13,  1.97it/s] 91%|█████████ | 9747/10719 [1:33:21<08:11,  1.98it/s] 91%|█████████ | 9748/10719 [1:33:21<08:09,  1.98it/s] 91%|█████████ | 9749/10719 [1:33:22<08:07,  1.99it/s] 91%|█████████ | 9750/10719 [1:33:22<08:06,  1.99it/s]                                                      {'loss': 3.4665, 'grad_norm': 0.19515548646450043, 'learning_rate': 2.4688568729806683e-05, 'epoch': 0.91}
- 91%|█████████ | 9750/10719 [1:33:22<08:06,  1.99it/s] 91%|█████████ | 9751/10719 [1:33:23<08:05,  1.99it/s] 91%|█████████ | 9752/10719 [1:33:23<08:04,  2.00it/s] 91%|█████████ | 9753/10719 [1:33:24<08:03,  2.00it/s] 91%|█████████ | 9754/10719 [1:33:24<08:07,  1.98it/s] 91%|█████████ | 9755/10719 [1:33:25<08:28,  1.89it/s] 91%|█████████ | 9756/10719 [1:33:25<08:19,  1.93it/s] 91%|█████████ | 9757/10719 [1:33:26<08:13,  1.95it/s] 91%|█████████ | 9758/10719 [1:33:26<08:08,  1.97it/s] 91%|█████████ | 9759/10719 [1:33:27<08:04,  1.98it/s] 91%|█████████ | 9760/10719 [1:33:27<08:01,  1.99it/s] 91%|█████████ | 9761/10719 [1:33:28<07:59,  2.00it/s] 91%|█████████ | 9762/10719 [1:33:28<07:58,  2.00it/s] 91%|█████████ | 9763/10719 [1:33:29<07:56,  2.01it/s] 91%|█████████ | 9764/10719 [1:33:29<07:54,  2.01it/s] 91%|█████████ | 9765/10719 [1:33:30<07:54,  2.01it/s] 91%|█████████ | 9766/10719 [1:33:30<07:53,  2.01it/s] 91%|█████████ | 9767/10719 [1:33:31<07:53,  2.01it/s] 91%|█████████ | 9768/10719 [1:33:31<07:53,  2.01it/s] 91%|█████████ | 9769/10719 [1:33:32<07:51,  2.01it/s] 91%|█████████ | 9770/10719 [1:33:32<07:51,  2.01it/s] 91%|█████████ | 9771/10719 [1:33:33<07:49,  2.02it/s] 91%|█████████ | 9772/10719 [1:33:33<07:49,  2.02it/s] 91%|█████████ | 9773/10719 [1:33:34<07:49,  2.02it/s] 91%|█████████ | 9774/10719 [1:33:34<07:48,  2.02it/s] 91%|█████████ | 9775/10719 [1:33:35<07:47,  2.02it/s]                                                      {'loss': 3.4571, 'grad_norm': 0.19589976966381073, 'learning_rate': 2.3441003695424234e-05, 'epoch': 0.91}
- 91%|█████████ | 9775/10719 [1:33:35<07:47,  2.02it/s] 91%|█████████ | 9776/10719 [1:33:35<07:47,  2.02it/s] 91%|█████████ | 9777/10719 [1:33:36<07:47,  2.02it/s] 91%|█████████ | 9778/10719 [1:33:36<07:46,  2.02it/s] 91%|█████████ | 9779/10719 [1:33:37<07:46,  2.02it/s] 91%|█████████ | 9780/10719 [1:33:37<07:45,  2.02it/s] 91%|█████████ | 9781/10719 [1:33:38<07:44,  2.02it/s] 91%|█████████▏| 9782/10719 [1:33:38<07:44,  2.02it/s] 91%|█████████▏| 9783/10719 [1:33:39<07:43,  2.02it/s] 91%|█████████▏| 9784/10719 [1:33:39<07:42,  2.02it/s] 91%|█████████▏| 9785/10719 [1:33:40<07:41,  2.02it/s] 91%|█████████▏| 9786/10719 [1:33:40<07:41,  2.02it/s] 91%|█████████▏| 9787/10719 [1:33:41<07:41,  2.02it/s] 91%|█████████▏| 9788/10719 [1:33:41<07:41,  2.02it/s] 91%|█████████▏| 9789/10719 [1:33:42<07:40,  2.02it/s] 91%|█████████▏| 9790/10719 [1:33:42<07:40,  2.02it/s] 91%|█████████▏| 9791/10719 [1:33:43<07:39,  2.02it/s] 91%|█████████▏| 9792/10719 [1:33:43<07:39,  2.02it/s] 91%|█████████▏| 9793/10719 [1:33:44<07:38,  2.02it/s] 91%|█████████▏| 9794/10719 [1:33:44<07:37,  2.02it/s] 91%|█████████▏| 9795/10719 [1:33:45<07:37,  2.02it/s] 91%|█████████▏| 9796/10719 [1:33:45<07:36,  2.02it/s] 91%|█████████▏| 9797/10719 [1:33:46<07:36,  2.02it/s] 91%|█████████▏| 9798/10719 [1:33:46<07:35,  2.02it/s] 91%|█████████▏| 9799/10719 [1:33:47<07:35,  2.02it/s] 91%|█████████▏| 9800/10719 [1:33:47<07:35,  2.02it/s]                                                      {'loss': 3.467, 'grad_norm': 0.19380731880664825, 'learning_rate': 2.2225025740964076e-05, 'epoch': 0.91}
- 91%|█████████▏| 9800/10719 [1:33:47<07:35,  2.02it/s] 91%|█████████▏| 9801/10719 [1:33:48<07:35,  2.02it/s] 91%|█████████▏| 9802/10719 [1:33:48<07:34,  2.02it/s] 91%|█████████▏| 9803/10719 [1:33:49<07:33,  2.02it/s] 91%|█████████▏| 9804/10719 [1:33:49<07:33,  2.02it/s] 91%|█████████▏| 9805/10719 [1:33:50<07:33,  2.02it/s] 91%|█████████▏| 9806/10719 [1:33:50<07:32,  2.02it/s] 91%|█████████▏| 9807/10719 [1:33:51<07:32,  2.02it/s] 92%|█████████▏| 9808/10719 [1:33:51<07:33,  2.01it/s] 92%|█████████▏| 9809/10719 [1:33:52<07:34,  2.00it/s] 92%|█████████▏| 9810/10719 [1:33:52<07:34,  2.00it/s] 92%|█████████▏| 9811/10719 [1:33:53<07:35,  2.00it/s] 92%|█████████▏| 9812/10719 [1:33:53<07:33,  2.00it/s] 92%|█████████▏| 9813/10719 [1:33:54<07:32,  2.00it/s] 92%|█████████▏| 9814/10719 [1:33:54<08:00,  1.88it/s] 92%|█████████▏| 9815/10719 [1:33:55<08:07,  1.86it/s] 92%|█████████▏| 9816/10719 [1:33:55<07:56,  1.89it/s] 92%|█████████▏| 9817/10719 [1:33:56<07:47,  1.93it/s] 92%|█████████▏| 9818/10719 [1:33:56<07:42,  1.95it/s] 92%|█████████▏| 9819/10719 [1:33:57<07:37,  1.97it/s] 92%|█████████▏| 9820/10719 [1:33:57<07:34,  1.98it/s] 92%|█████████▏| 9821/10719 [1:33:58<07:31,  1.99it/s] 92%|█████████▏| 9822/10719 [1:33:58<07:29,  1.99it/s] 92%|█████████▏| 9823/10719 [1:33:59<07:28,  2.00it/s] 92%|█████████▏| 9824/10719 [1:33:59<07:26,  2.00it/s] 92%|█████████▏| 9825/10719 [1:34:00<07:25,  2.01it/s]                                                      {'loss': 3.4616, 'grad_norm': 0.19599634408950806, 'learning_rate': 2.1040715463358062e-05, 'epoch': 0.92}
- 92%|█████████▏| 9825/10719 [1:34:00<07:25,  2.01it/s] 92%|█████████▏| 9826/10719 [1:34:00<07:25,  2.01it/s] 92%|█████████▏| 9827/10719 [1:34:01<07:24,  2.01it/s] 92%|█████████▏| 9828/10719 [1:34:01<07:23,  2.01it/s] 92%|█████████▏| 9829/10719 [1:34:02<07:22,  2.01it/s] 92%|█████████▏| 9830/10719 [1:34:02<07:22,  2.01it/s] 92%|█████████▏| 9831/10719 [1:34:03<07:21,  2.01it/s] 92%|█████████▏| 9832/10719 [1:34:03<07:20,  2.01it/s] 92%|█████████▏| 9833/10719 [1:34:04<07:20,  2.01it/s] 92%|█████████▏| 9834/10719 [1:34:04<07:19,  2.01it/s] 92%|█████████▏| 9835/10719 [1:34:05<07:18,  2.01it/s] 92%|█████████▏| 9836/10719 [1:34:05<07:17,  2.02it/s] 92%|█████████▏| 9837/10719 [1:34:06<07:17,  2.02it/s] 92%|█████████▏| 9838/10719 [1:34:06<07:16,  2.02it/s] 92%|█████████▏| 9839/10719 [1:34:07<07:16,  2.02it/s] 92%|█████████▏| 9840/10719 [1:34:07<07:16,  2.01it/s] 92%|█████████▏| 9841/10719 [1:34:08<07:15,  2.02it/s] 92%|█████████▏| 9842/10719 [1:34:08<07:15,  2.01it/s] 92%|█████████▏| 9843/10719 [1:34:09<07:14,  2.01it/s] 92%|█████████▏| 9844/10719 [1:34:09<07:14,  2.02it/s] 92%|█████████▏| 9845/10719 [1:34:10<07:13,  2.01it/s] 92%|█████████▏| 9846/10719 [1:34:10<07:13,  2.02it/s] 92%|█████████▏| 9847/10719 [1:34:11<07:12,  2.01it/s] 92%|█████████▏| 9848/10719 [1:34:11<07:11,  2.02it/s] 92%|█████████▏| 9849/10719 [1:34:12<07:11,  2.02it/s] 92%|█████████▏| 9850/10719 [1:34:12<07:10,  2.02it/s]                                                      {'loss': 3.4735, 'grad_norm': 0.193141371011734, 'learning_rate': 1.988815136055405e-05, 'epoch': 0.92}
- 92%|█████████▏| 9850/10719 [1:34:12<07:10,  2.02it/s] 92%|█████████▏| 9851/10719 [1:34:13<07:10,  2.02it/s] 92%|█████████▏| 9852/10719 [1:34:13<07:09,  2.02it/s] 92%|█████████▏| 9853/10719 [1:34:14<07:09,  2.02it/s] 92%|█████████▏| 9854/10719 [1:34:14<07:08,  2.02it/s] 92%|█████████▏| 9855/10719 [1:34:15<07:08,  2.02it/s] 92%|█████████▏| 9856/10719 [1:34:15<07:08,  2.02it/s] 92%|█████████▏| 9857/10719 [1:34:16<07:07,  2.02it/s] 92%|█████████▏| 9858/10719 [1:34:16<07:07,  2.02it/s] 92%|█████████▏| 9859/10719 [1:34:17<07:06,  2.02it/s] 92%|█████████▏| 9860/10719 [1:34:17<07:05,  2.02it/s] 92%|█████████▏| 9861/10719 [1:34:18<07:05,  2.02it/s] 92%|█████████▏| 9862/10719 [1:34:18<07:04,  2.02it/s] 92%|█████████▏| 9863/10719 [1:34:19<07:04,  2.01it/s] 92%|█████████▏| 9864/10719 [1:34:19<07:06,  2.01it/s] 92%|█████████▏| 9865/10719 [1:34:20<07:06,  2.00it/s] 92%|█████████▏| 9866/10719 [1:34:20<07:05,  2.00it/s] 92%|█████████▏| 9867/10719 [1:34:21<07:05,  2.00it/s] 92%|█████████▏| 9868/10719 [1:34:21<07:05,  2.00it/s] 92%|█████████▏| 9869/10719 [1:34:22<07:04,  2.00it/s] 92%|█████████▏| 9870/10719 [1:34:22<07:04,  2.00it/s] 92%|█████████▏| 9871/10719 [1:34:23<07:03,  2.00it/s] 92%|█████████▏| 9872/10719 [1:34:23<07:03,  2.00it/s] 92%|█████████▏| 9873/10719 [1:34:24<07:02,  2.00it/s] 92%|█████████▏| 9874/10719 [1:34:24<07:28,  1.88it/s] 92%|█████████▏| 9875/10719 [1:34:25<07:46,  1.81it/s]                                                      {'loss': 3.4604, 'grad_norm': 0.19665086269378662, 'learning_rate': 1.8767409826314142e-05, 'epoch': 0.92}
- 92%|█████████▏| 9875/10719 [1:34:25<07:46,  1.81it/s] 92%|█████████▏| 9876/10719 [1:34:25<07:33,  1.86it/s] 92%|█████████▏| 9877/10719 [1:34:26<07:24,  1.90it/s] 92%|█████████▏| 9878/10719 [1:34:26<07:17,  1.92it/s] 92%|█████████▏| 9879/10719 [1:34:27<07:12,  1.94it/s] 92%|█████████▏| 9880/10719 [1:34:27<07:09,  1.96it/s] 92%|█████████▏| 9881/10719 [1:34:28<07:06,  1.97it/s] 92%|█████████▏| 9882/10719 [1:34:28<07:03,  1.98it/s] 92%|█████████▏| 9883/10719 [1:34:29<07:01,  1.98it/s] 92%|█████████▏| 9884/10719 [1:34:29<07:00,  1.99it/s] 92%|█████████▏| 9885/10719 [1:34:30<06:59,  1.99it/s] 92%|█████████▏| 9886/10719 [1:34:30<06:57,  1.99it/s] 92%|█████████▏| 9887/10719 [1:34:31<06:56,  2.00it/s] 92%|█████████▏| 9888/10719 [1:34:31<06:55,  2.00it/s] 92%|█████████▏| 9889/10719 [1:34:32<06:56,  2.00it/s] 92%|█████████▏| 9890/10719 [1:34:32<06:55,  1.99it/s] 92%|█████████▏| 9891/10719 [1:34:33<06:55,  2.00it/s] 92%|█████████▏| 9892/10719 [1:34:33<06:54,  2.00it/s] 92%|█████████▏| 9893/10719 [1:34:34<06:53,  2.00it/s] 92%|█████████▏| 9894/10719 [1:34:34<06:53,  2.00it/s] 92%|█████████▏| 9895/10719 [1:34:35<06:52,  2.00it/s] 92%|█████████▏| 9896/10719 [1:34:36<06:52,  2.00it/s] 92%|█████████▏| 9897/10719 [1:34:36<06:51,  2.00it/s] 92%|█████████▏| 9898/10719 [1:34:37<06:50,  2.00it/s] 92%|█████████▏| 9899/10719 [1:34:37<06:50,  2.00it/s] 92%|█████████▏| 9900/10719 [1:34:38<06:50,  2.00it/s]                                                      {'loss': 3.4566, 'grad_norm': 0.19416700303554535, 'learning_rate': 1.767856514514993e-05, 'epoch': 0.92}
- 92%|█████████▏| 9900/10719 [1:34:38<06:50,  2.00it/s] 92%|█████████▏| 9901/10719 [1:34:38<06:50,  1.99it/s] 92%|█████████▏| 9902/10719 [1:34:39<06:49,  1.99it/s] 92%|█████████▏| 9903/10719 [1:34:39<06:48,  2.00it/s] 92%|█████████▏| 9904/10719 [1:34:40<06:48,  2.00it/s] 92%|█████████▏| 9905/10719 [1:34:40<06:46,  2.00it/s] 92%|█████████▏| 9906/10719 [1:34:41<06:46,  2.00it/s] 92%|█████████▏| 9907/10719 [1:34:41<06:45,  2.00it/s] 92%|█████████▏| 9908/10719 [1:34:42<06:45,  2.00it/s] 92%|█████████▏| 9909/10719 [1:34:42<06:45,  2.00it/s] 92%|█████████▏| 9910/10719 [1:34:43<06:45,  1.99it/s] 92%|█████████▏| 9911/10719 [1:34:43<06:45,  1.99it/s] 92%|█████████▏| 9912/10719 [1:34:44<06:44,  1.99it/s] 92%|█████████▏| 9913/10719 [1:34:44<06:44,  1.99it/s] 92%|█████████▏| 9914/10719 [1:34:45<06:43,  2.00it/s] 92%|█████████▏| 9915/10719 [1:34:45<06:42,  2.00it/s] 93%|█████████▎| 9916/10719 [1:34:46<06:42,  1.99it/s] 93%|█████████▎| 9917/10719 [1:34:46<06:42,  1.99it/s] 93%|█████████▎| 9918/10719 [1:34:47<06:41,  1.99it/s] 93%|█████████▎| 9919/10719 [1:34:47<06:41,  1.99it/s] 93%|█████████▎| 9920/10719 [1:34:48<06:40,  2.00it/s] 93%|█████████▎| 9921/10719 [1:34:48<06:39,  2.00it/s] 93%|█████████▎| 9922/10719 [1:34:49<06:39,  2.00it/s] 93%|█████████▎| 9923/10719 [1:34:49<06:38,  2.00it/s] 93%|█████████▎| 9924/10719 [1:34:50<06:37,  2.00it/s] 93%|█████████▎| 9925/10719 [1:34:50<06:36,  2.00it/s]                                                      {'loss': 3.4561, 'grad_norm': 0.20058758556842804, 'learning_rate': 1.6621689487399838e-05, 'epoch': 0.93}
- 93%|█████████▎| 9925/10719 [1:34:50<06:36,  2.00it/s] 93%|█████████▎| 9926/10719 [1:34:51<06:36,  2.00it/s] 93%|█████████▎| 9927/10719 [1:34:51<06:36,  2.00it/s] 93%|█████████▎| 9928/10719 [1:34:52<06:36,  2.00it/s] 93%|█████████▎| 9929/10719 [1:34:52<06:55,  1.90it/s] 93%|█████████▎| 9930/10719 [1:34:53<06:48,  1.93it/s] 93%|█████████▎| 9931/10719 [1:34:53<06:43,  1.95it/s] 93%|█████████▎| 9932/10719 [1:34:54<06:40,  1.97it/s] 93%|█████████▎| 9933/10719 [1:34:54<06:56,  1.89it/s] 93%|█████████▎| 9934/10719 [1:34:55<07:33,  1.73it/s] 93%|█████████▎| 9935/10719 [1:34:55<07:14,  1.80it/s] 93%|█████████▎| 9936/10719 [1:34:56<07:01,  1.86it/s] 93%|█████████▎| 9937/10719 [1:34:56<06:51,  1.90it/s] 93%|█████████▎| 9938/10719 [1:34:57<06:44,  1.93it/s] 93%|█████████▎| 9939/10719 [1:34:57<06:39,  1.95it/s] 93%|█████████▎| 9940/10719 [1:34:58<06:36,  1.97it/s] 93%|█████████▎| 9941/10719 [1:34:58<06:33,  1.98it/s] 93%|█████████▎| 9942/10719 [1:34:59<06:32,  1.98it/s] 93%|█████████▎| 9943/10719 [1:34:59<06:30,  1.99it/s] 93%|█████████▎| 9944/10719 [1:35:00<06:29,  1.99it/s] 93%|█████████▎| 9945/10719 [1:35:00<06:28,  1.99it/s] 93%|█████████▎| 9946/10719 [1:35:01<06:27,  1.99it/s] 93%|█████████▎| 9947/10719 [1:35:01<06:26,  2.00it/s] 93%|█████████▎| 9948/10719 [1:35:02<06:25,  2.00it/s] 93%|█████████▎| 9949/10719 [1:35:02<06:24,  2.00it/s] 93%|█████████▎| 9950/10719 [1:35:03<06:24,  2.00it/s]                                                      {'loss': 3.4624, 'grad_norm': 0.19848012924194336, 'learning_rate': 1.5596852904444903e-05, 'epoch': 0.93}
- 93%|█████████▎| 9950/10719 [1:35:03<06:24,  2.00it/s] 93%|█████████▎| 9951/10719 [1:35:03<06:23,  2.00it/s] 93%|█████████▎| 9952/10719 [1:35:04<06:23,  2.00it/s] 93%|█████████▎| 9953/10719 [1:35:04<06:23,  2.00it/s] 93%|█████████▎| 9954/10719 [1:35:05<06:22,  2.00it/s] 93%|█████████▎| 9955/10719 [1:35:05<06:22,  2.00it/s] 93%|█████████▎| 9956/10719 [1:35:06<06:21,  2.00it/s] 93%|█████████▎| 9957/10719 [1:35:06<06:20,  2.00it/s] 93%|█████████▎| 9958/10719 [1:35:07<06:19,  2.00it/s] 93%|█████████▎| 9959/10719 [1:35:07<06:19,  2.00it/s] 93%|█████████▎| 9960/10719 [1:35:08<06:19,  2.00it/s] 93%|█████████▎| 9961/10719 [1:35:08<06:18,  2.00it/s] 93%|█████████▎| 9962/10719 [1:35:09<06:17,  2.00it/s] 93%|█████████▎| 9963/10719 [1:35:09<06:16,  2.01it/s] 93%|█████████▎| 9964/10719 [1:35:10<06:16,  2.01it/s] 93%|█████████▎| 9965/10719 [1:35:10<06:15,  2.01it/s] 93%|█████████▎| 9966/10719 [1:35:11<06:15,  2.01it/s] 93%|█████████▎| 9967/10719 [1:35:11<06:14,  2.01it/s] 93%|█████████▎| 9968/10719 [1:35:12<06:13,  2.01it/s] 93%|█████████▎| 9969/10719 [1:35:12<06:17,  1.99it/s] 93%|█████████▎| 9970/10719 [1:35:13<06:16,  1.99it/s] 93%|█████████▎| 9971/10719 [1:35:13<06:15,  1.99it/s] 93%|█████████▎| 9972/10719 [1:35:14<06:14,  1.99it/s] 93%|███████���█▎| 9973/10719 [1:35:14<06:13,  2.00it/s] 93%|█████████▎| 9974/10719 [1:35:15<06:13,  2.00it/s] 93%|█████████▎| 9975/10719 [1:35:15<06:13,  1.99it/s]                                                      {'loss': 3.4582, 'grad_norm': 0.19449938833713531, 'learning_rate': 1.4604123324066021e-05, 'epoch': 0.93}
- 93%|█████████▎| 9975/10719 [1:35:15<06:13,  1.99it/s] 93%|█████████▎| 9976/10719 [1:35:16<06:13,  1.99it/s] 93%|█████████▎| 9977/10719 [1:35:16<06:11,  2.00it/s] 93%|█████████▎| 9978/10719 [1:35:17<06:10,  2.00it/s] 93%|█████████▎| 9979/10719 [1:35:17<06:10,  2.00it/s] 93%|█████████▎| 9980/10719 [1:35:18<06:10,  2.00it/s] 93%|█████████▎| 9981/10719 [1:35:18<06:08,  2.00it/s] 93%|█████████▎| 9982/10719 [1:35:19<06:08,  2.00it/s] 93%|█████████▎| 9983/10719 [1:35:19<06:08,  2.00it/s] 93%|█████████▎| 9984/10719 [1:35:20<06:07,  2.00it/s] 93%|█████████▎| 9985/10719 [1:35:20<06:06,  2.00it/s] 93%|█████████▎| 9986/10719 [1:35:21<06:06,  2.00it/s] 93%|█████████▎| 9987/10719 [1:35:21<06:05,  2.00it/s] 93%|█████████▎| 9988/10719 [1:35:22<06:05,  2.00it/s] 93%|█████████▎| 9989/10719 [1:35:22<06:04,  2.00it/s] 93%|█████████▎| 9990/10719 [1:35:23<06:03,  2.00it/s] 93%|█████████▎| 9991/10719 [1:35:23<06:04,  2.00it/s] 93%|█████████▎| 9992/10719 [1:35:24<06:03,  2.00it/s] 93%|█████████▎| 9993/10719 [1:35:25<06:41,  1.81it/s] 93%|█████████▎| 9994/10719 [1:35:25<06:40,  1.81it/s] 93%|█████████▎| 9995/10719 [1:35:26<06:27,  1.87it/s] 93%|█████████▎| 9996/10719 [1:35:26<06:19,  1.91it/s] 93%|█████████▎| 9997/10719 [1:35:27<06:13,  1.93it/s] 93%|█████████▎| 9998/10719 [1:35:27<06:08,  1.95it/s] 93%|█████████▎| 9999/10719 [1:35:28<06:05,  1.97it/s] 93%|█████████▎| 10000/10719 [1:35:28<06:02,  1.98it/s]                                                       {'loss': 3.4593, 'grad_norm': 0.19592775404453278, 'learning_rate': 1.3643566545941288e-05, 'epoch': 0.93}
- 93%|█████████▎| 10000/10719 [1:35:28<06:02,  1.98it/s] 93%|█████████▎| 10001/10719 [1:35:29<06:01,  1.98it/s] 93%|█████████▎| 10002/10719 [1:35:29<05:59,  1.99it/s] 93%|█████████▎| 10003/10719 [1:35:30<05:58,  2.00it/s] 93%|█████████▎| 10004/10719 [1:35:30<05:57,  2.00it/s] 93%|█████████▎| 10005/10719 [1:35:31<05:56,  2.00it/s] 93%|█████████▎| 10006/10719 [1:35:31<05:55,  2.00it/s] 93%|█████████▎| 10007/10719 [1:35:32<05:55,  2.00it/s] 93%|█████████▎| 10008/10719 [1:35:32<05:53,  2.01it/s] 93%|█████████▎| 10009/10719 [1:35:33<05:53,  2.01it/s] 93%|█████████▎| 10010/10719 [1:35:33<05:52,  2.01it/s] 93%|█████████▎| 10011/10719 [1:35:34<05:51,  2.01it/s] 93%|█████████▎| 10012/10719 [1:35:34<05:51,  2.01it/s] 93%|█████████▎| 10013/10719 [1:35:35<05:51,  2.01it/s] 93%|█████████▎| 10014/10719 [1:35:35<05:51,  2.01it/s] 93%|█████████▎| 10015/10719 [1:35:36<05:51,  2.00it/s] 93%|█████████▎| 10016/10719 [1:35:36<05:51,  2.00it/s] 93%|█████████▎| 10017/10719 [1:35:37<05:51,  2.00it/s] 93%|█████████▎| 10018/10719 [1:35:37<05:50,  2.00it/s] 93%|█████████▎| 10019/10719 [1:35:38<05:50,  2.00it/s] 93%|█████████▎| 10020/10719 [1:35:38<05:49,  2.00it/s] 93%|█████████▎| 10021/10719 [1:35:39<06:06,  1.90it/s] 93%|█████████▎| 10022/10719 [1:35:39<06:00,  1.93it/s] 94%|█████████▎| 10023/10719 [1:35:40<05:56,  1.95it/s] 94%|█████████▎| 10024/10719 [1:35:40<05:53,  1.97it/s] 94%|█████████▎| 10025/10719 [1:35:41<05:51,  1.98it/s]                                                       {'loss': 3.4652, 'grad_norm': 0.19325533509254456, 'learning_rate': 1.2715246237285039e-05, 'epoch': 0.94}
- 94%|█████████▎| 10025/10719 [1:35:41<05:51,  1.98it/s] 94%|█████████▎| 10026/10719 [1:35:41<05:49,  1.98it/s] 94%|█████████▎| 10027/10719 [1:35:42<05:47,  1.99it/s] 94%|█████████▎| 10028/10719 [1:35:42<05:45,  2.00it/s] 94%|█████████▎| 10029/10719 [1:35:43<05:44,  2.00it/s] 94%|█████████▎| 10030/10719 [1:35:43<05:43,  2.00it/s] 94%|█████████▎| 10031/10719 [1:35:44<05:42,  2.01it/s] 94%|█████████▎| 10032/10719 [1:35:44<05:42,  2.01it/s] 94%|█████████▎| 10033/10719 [1:35:45<05:41,  2.01it/s] 94%|█████████▎| 10034/10719 [1:35:45<05:41,  2.01it/s] 94%|█████████▎| 10035/10719 [1:35:46<05:41,  2.00it/s] 94%|█████████▎| 10036/10719 [1:35:46<05:40,  2.01it/s] 94%|█████████▎| 10037/10719 [1:35:47<05:39,  2.01it/s] 94%|█████████▎| 10038/10719 [1:35:47<05:39,  2.00it/s] 94%|█████████▎| 10039/10719 [1:35:48<05:40,  2.00it/s] 94%|█████████▎| 10040/10719 [1:35:48<05:40,  2.00it/s] 94%|█████████▎| 10041/10719 [1:35:49<05:39,  2.00it/s] 94%|█████████▎| 10042/10719 [1:35:49<05:38,  2.00it/s] 94%|█████████▎| 10043/10719 [1:35:50<05:37,  2.00it/s] 94%|█████████▎| 10044/10719 [1:35:50<05:52,  1.91it/s] 94%|█████████▎| 10045/10719 [1:35:51<05:47,  1.94it/s] 94%|█████████▎| 10046/10719 [1:35:51<05:43,  1.96it/s] 94%|█████████▎| 10047/10719 [1:35:52<05:41,  1.97it/s] 94%|█████████▎| 10048/10719 [1:35:52<05:39,  1.98it/s] 94%|█████████▎| 10049/10719 [1:35:53<05:37,  1.99it/s] 94%|█████████▍| 10050/10719 [1:35:53<05:35,  1.99it/s]                                                       {'loss': 3.4536, 'grad_norm': 0.19532951712608337, 'learning_rate': 1.1819223928627553e-05, 'epoch': 0.94}
- 94%|█████████▍| 10050/10719 [1:35:53<05:35,  1.99it/s] 94%|█████████▍| 10051/10719 [1:35:54<05:35,  1.99it/s] 94%|█████████▍| 10052/10719 [1:35:54<05:51,  1.90it/s] 94%|█████████▍| 10053/10719 [1:35:55<06:12,  1.79it/s] 94%|█████████▍| 10054/10719 [1:35:55<05:59,  1.85it/s] 94%|█████████▍| 10055/10719 [1:35:56<05:50,  1.90it/s] 94%|█████████▍| 10056/10719 [1:35:56<05:43,  1.93it/s] 94%|█████████▍| 10057/10719 [1:35:57<05:38,  1.95it/s] 94%|█████████▍| 10058/10719 [1:35:57<05:35,  1.97it/s] 94%|█████████▍| 10059/10719 [1:35:58<05:32,  1.99it/s] 94%|█████████▍| 10060/10719 [1:35:58<05:30,  1.99it/s] 94%|█████████▍| 10061/10719 [1:35:59<05:28,  2.00it/s] 94%|█████████▍| 10062/10719 [1:35:59<05:27,  2.01it/s] 94%|█████████▍| 10063/10719 [1:36:00<05:26,  2.01it/s] 94%|█████████▍| 10064/10719 [1:36:00<05:25,  2.01it/s] 94%|█████████▍| 10065/10719 [1:36:01<05:25,  2.01it/s] 94%|█████████▍| 10066/10719 [1:36:01<05:24,  2.01it/s] 94%|█████████▍| 10067/10719 [1:36:02<05:24,  2.01it/s] 94%|█████████▍| 10068/10719 [1:36:02<05:23,  2.01it/s] 94%|█████████▍| 10069/10719 [1:36:03<05:22,  2.01it/s] 94%|█████████▍| 10070/10719 [1:36:03<05:21,  2.02it/s] 94%|█████████▍| 10071/10719 [1:36:04<05:21,  2.02it/s] 94%|█████████▍| 10072/10719 [1:36:04<05:21,  2.02it/s] 94%|█████████▍| 10073/10719 [1:36:05<05:21,  2.01it/s] 94%|█████████▍| 10074/10719 [1:36:05<05:28,  1.96it/s] 94%|█████████▍| 10075/10719 [1:36:06<05:26,  1.97it/s]                                                       {'loss': 3.4602, 'grad_norm': 0.19806092977523804, 'learning_rate': 1.0955559009736993e-05, 'epoch': 0.94}
- 94%|█████████▍| 10075/10719 [1:36:06<05:26,  1.97it/s] 94%|█████████▍| 10076/10719 [1:36:06<05:25,  1.98it/s] 94%|█████████▍| 10077/10719 [1:36:07<05:23,  1.99it/s] 94%|█████████▍| 10078/10719 [1:36:07<05:21,  1.99it/s] 94%|█████████▍| 10079/10719 [1:36:08<05:20,  2.00it/s] 94%|█████████▍| 10080/10719 [1:36:08<05:19,  2.00it/s] 94%|█████████▍| 10081/10719 [1:36:09<05:17,  2.01it/s] 94%|█████████▍| 10082/10719 [1:36:09<05:17,  2.00it/s] 94%|█████████▍| 10083/10719 [1:36:10<05:17,  2.00it/s] 94%|█████████▍| 10084/10719 [1:36:10<05:16,  2.01it/s] 94%|█████████▍| 10085/10719 [1:36:11<05:15,  2.01it/s] 94%|█████████▍| 10086/10719 [1:36:11<05:14,  2.01it/s] 94%|█████████▍| 10087/10719 [1:36:12<05:14,  2.01it/s] 94%|█████████▍| 10088/10719 [1:36:12<05:14,  2.01it/s] 94%|█████████▍| 10089/10719 [1:36:13<05:14,  2.00it/s] 94%|█████████▍| 10090/10719 [1:36:13<05:14,  2.00it/s] 94%|█████████▍| 10091/10719 [1:36:14<05:18,  1.97it/s] 94%|█████████▍| 10092/10719 [1:36:14<05:16,  1.98it/s] 94%|█████████▍| 10093/10719 [1:36:15<05:14,  1.99it/s] 94%|█████████▍| 10094/10719 [1:36:15<05:13,  1.99it/s] 94%|█████████▍| 10095/10719 [1:36:16<05:13,  1.99it/s] 94%|█████████▍| 10096/10719 [1:36:16<05:12,  1.99it/s] 94%|█████████▍| 10097/10719 [1:36:17<05:11,  2.00it/s] 94%|█████████▍| 10098/10719 [1:36:17<05:10,  2.00it/s] 94%|█████████▍| 10099/10719 [1:36:18<05:09,  2.00it/s] 94%|█████████▍| 10100/10719 [1:36:18<05:08,  2.01it/s]                                                       {'loss': 3.4636, 'grad_norm': 0.19393545389175415, 'learning_rate': 1.0124308725682763e-05, 'epoch': 0.94}
- 94%|█████████▍| 10100/10719 [1:36:18<05:08,  2.01it/s] 94%|█████████▍| 10101/10719 [1:36:19<05:08,  2.00it/s] 94%|█████████▍| 10102/10719 [1:36:19<05:07,  2.01it/s] 94%|█████████▍| 10103/10719 [1:36:20<05:07,  2.01it/s] 94%|█████████▍| 10104/10719 [1:36:20<05:06,  2.01it/s] 94%|█████████▍| 10105/10719 [1:36:21<05:05,  2.01it/s] 94%|█████████▍| 10106/10719 [1:36:21<05:05,  2.01it/s] 94%|█████████▍| 10107/10719 [1:36:22<05:05,  2.00it/s] 94%|█████████▍| 10108/10719 [1:36:22<05:05,  2.00it/s] 94%|█████████▍| 10109/10719 [1:36:23<05:04,  2.00it/s] 94%|█████████▍| 10110/10719 [1:36:23<05:04,  2.00it/s] 94%|█████████▍| 10111/10719 [1:36:24<05:03,  2.00it/s] 94%|█████████▍| 10112/10719 [1:36:24<05:18,  1.90it/s] 94%|█████████▍| 10113/10719 [1:36:25<05:13,  1.93it/s] 94%|█████████▍| 10114/10719 [1:36:25<05:09,  1.96it/s] 94%|█████████▍| 10115/10719 [1:36:26<05:06,  1.97it/s] 94%|█████████▍| 10116/10719 [1:36:26<05:04,  1.98it/s] 94%|█████████▍| 10117/10719 [1:36:27<05:03,  1.99it/s] 94%|█████████▍| 10118/10719 [1:36:27<05:01,  1.99it/s] 94%|█████████▍| 10119/10719 [1:36:28<05:00,  1.99it/s] 94%|█████████▍| 10120/10719 [1:36:28<04:59,  2.00it/s] 94%|█████████▍| 10121/10719 [1:36:29<04:58,  2.00it/s] 94%|█████████▍| 10122/10719 [1:36:29<04:57,  2.01it/s] 94%|█████████▍| 10123/10719 [1:36:30<04:56,  2.01it/s] 94%|█████████▍| 10124/10719 [1:36:30<04:56,  2.01it/s] 94%|█████████▍| 10125/10719 [1:36:31<04:55,  2.01it/s]                                                       {'loss': 3.467, 'grad_norm': 0.1951368898153305, 'learning_rate': 9.32552817304122e-06, 'epoch': 0.94}
- 94%|█████████▍| 10125/10719 [1:36:31<04:55,  2.01it/s] 94%|█████████▍| 10126/10719 [1:36:31<04:55,  2.01it/s] 94%|█████████▍| 10127/10719 [1:36:32<04:54,  2.01it/s] 94%|█████████▍| 10128/10719 [1:36:32<04:53,  2.01it/s] 94%|█████████▍| 10129/10719 [1:36:33<04:53,  2.01it/s] 95%|█████████▍| 10130/10719 [1:36:33<04:53,  2.01it/s] 95%|█████████▍| 10131/10719 [1:36:34<04:52,  2.01it/s] 95%|█████████▍| 10132/10719 [1:36:34<04:52,  2.01it/s] 95%|█████████▍| 10133/10719 [1:36:35<04:51,  2.01it/s] 95%|█████████▍| 10134/10719 [1:36:35<04:51,  2.01it/s] 95%|█████████▍| 10135/10719 [1:36:36<04:50,  2.01it/s] 95%|█████████▍| 10136/10719 [1:36:36<04:50,  2.01it/s] 95%|█████████▍| 10137/10719 [1:36:37<04:49,  2.01it/s] 95%|█████████▍| 10138/10719 [1:36:37<04:48,  2.01it/s] 95%|█████████▍| 10139/10719 [1:36:38<04:48,  2.01it/s] 95%|█████████▍| 10140/10719 [1:36:38<04:47,  2.01it/s] 95%|█████████▍| 10141/10719 [1:36:39<04:47,  2.01it/s] 95%|█████████▍| 10142/10719 [1:36:39<04:47,  2.01it/s] 95%|█████████▍| 10143/10719 [1:36:40<04:47,  2.00it/s] 95%|█████████▍| 10144/10719 [1:36:40<04:47,  2.00it/s] 95%|█████████▍| 10145/10719 [1:36:41<04:46,  2.00it/s] 95%|█████████▍| 10146/10719 [1:36:41<05:00,  1.91it/s] 95%|█████████▍| 10147/10719 [1:36:42<04:55,  1.93it/s] 95%|█████████▍| 10148/10719 [1:36:42<04:52,  1.95it/s] 95%|█████████▍| 10149/10719 [1:36:43<04:50,  1.96it/s] 95%|█████████▍| 10150/10719 [1:36:43<04:47,  1.98it/s]                                                       {'loss': 3.4527, 'grad_norm': 0.19293315708637238, 'learning_rate': 8.55927029624387e-06, 'epoch': 0.95}
- 95%|█████████▍| 10150/10719 [1:36:43<04:47,  1.98it/s] 95%|█████████▍| 10151/10719 [1:36:44<04:46,  1.98it/s] 95%|█████████▍| 10152/10719 [1:36:44<04:45,  1.99it/s] 95%|█████████▍| 10153/10719 [1:36:45<04:44,  1.99it/s] 95%|█████████▍| 10154/10719 [1:36:45<04:43,  1.99it/s] 95%|█████████▍| 10155/10719 [1:36:46<04:42,  1.99it/s] 95%|█████████▍| 10156/10719 [1:36:46<04:42,  2.00it/s] 95%|█████████▍| 10157/10719 [1:36:47<04:42,  1.99it/s] 95%|█████████▍| 10158/10719 [1:36:47<04:41,  1.99it/s] 95%|█████████▍| 10159/10719 [1:36:48<04:40,  2.00it/s] 95%|█████████▍| 10160/10719 [1:36:48<04:39,  2.00it/s] 95%|█████████▍| 10161/10719 [1:36:49<04:39,  2.00it/s] 95%|█████████▍| 10162/10719 [1:36:49<04:38,  2.00it/s] 95%|█████████▍| 10163/10719 [1:36:50<04:38,  2.00it/s] 95%|█████████▍| 10164/10719 [1:36:50<04:37,  2.00it/s] 95%|█████████▍| 10165/10719 [1:36:51<04:36,  2.00it/s] 95%|█████████▍| 10166/10719 [1:36:51<04:35,  2.00it/s] 95%|█████████▍| 10167/10719 [1:36:52<04:35,  2.00it/s] 95%|█████████▍| 10168/10719 [1:36:52<04:34,  2.01it/s] 95%|█████████▍| 10169/10719 [1:36:53<04:34,  2.00it/s] 95%|█████████▍| 10170/10719 [1:36:53<04:34,  2.00it/s] 95%|█████████▍| 10171/10719 [1:36:54<04:33,  2.00it/s] 95%|█████████▍| 10172/10719 [1:36:54<04:32,  2.01it/s] 95%|█████████▍| 10173/10719 [1:36:55<04:32,  2.01it/s] 95%|█████████▍| 10174/10719 [1:36:55<04:32,  2.00it/s] 95%|█████████▍| 10175/10719 [1:36:56<04:31,  2.00it/s]                                                       {'loss': 3.4596, 'grad_norm': 0.19351528584957123, 'learning_rate': 7.825585884068342e-06, 'epoch': 0.95}
- 95%|█████████▍| 10175/10719 [1:36:56<04:31,  2.00it/s] 95%|█████████▍| 10176/10719 [1:36:56<04:31,  2.00it/s] 95%|█████████▍| 10177/10719 [1:36:57<04:30,  2.00it/s] 95%|█████████▍| 10178/10719 [1:36:57<04:30,  2.00it/s] 95%|█████████▍| 10179/10719 [1:36:58<04:29,  2.00it/s] 95%|█████████▍| 10180/10719 [1:36:58<04:29,  2.00it/s] 95%|█████████▍| 10181/10719 [1:36:59<04:28,  2.00it/s] 95%|█████████▍| 10182/10719 [1:36:59<04:28,  2.00it/s] 95%|█████████▍| 10183/10719 [1:37:00<04:27,  2.00it/s] 95%|█████████▌| 10184/10719 [1:37:00<04:27,  2.00it/s] 95%|█████████▌| 10185/10719 [1:37:01<04:26,  2.01it/s] 95%|█████████▌| 10186/10719 [1:37:01<04:25,  2.01it/s] 95%|█████████▌| 10187/10719 [1:37:02<04:24,  2.01it/s] 95%|█████████▌| 10188/10719 [1:37:02<04:24,  2.01it/s] 95%|█████████▌| 10189/10719 [1:37:03<04:24,  2.00it/s] 95%|█████████▌| 10190/10719 [1:37:03<04:24,  2.00it/s] 95%|█████████▌| 10191/10719 [1:37:04<04:23,  2.00it/s] 95%|█████████▌| 10192/10719 [1:37:04<04:22,  2.00it/s] 95%|█████████▌| 10193/10719 [1:37:05<04:22,  2.01it/s] 95%|█████████▌| 10194/10719 [1:37:05<04:21,  2.01it/s] 95%|█████████▌| 10195/10719 [1:37:06<04:20,  2.01it/s] 95%|█████████▌| 10196/10719 [1:37:06<04:20,  2.01it/s] 95%|█████████▌| 10197/10719 [1:37:07<04:20,  2.01it/s] 95%|█████████▌| 10198/10719 [1:37:07<04:20,  2.00it/s] 95%|█████████▌| 10199/10719 [1:37:08<04:19,  2.00it/s] 95%|█████████▌| 10200/10719 [1:37:08<04:19,  2.00it/s]                                                       {'loss': 3.4615, 'grad_norm': 0.1943957805633545, 'learning_rate': 7.124523566271357e-06, 'epoch': 0.95}
- 95%|█████████▌| 10200/10719 [1:37:08<04:19,  2.00it/s] 95%|█████████▌| 10201/10719 [1:37:09<04:18,  2.00it/s] 95%|█████████▌| 10202/10719 [1:37:09<04:18,  2.00it/s] 95%|█████████▌| 10203/10719 [1:37:10<04:17,  2.01it/s] 95%|█████████▌| 10204/10719 [1:37:10<04:16,  2.01it/s] 95%|█████████▌| 10205/10719 [1:37:11<04:15,  2.01it/s] 95%|█████████▌| 10206/10719 [1:37:11<04:15,  2.01it/s] 95%|█████████▌| 10207/10719 [1:37:12<04:15,  2.00it/s] 95%|█████████▌| 10208/10719 [1:37:12<04:15,  2.00it/s] 95%|█████████▌| 10209/10719 [1:37:13<04:14,  2.00it/s] 95%|█████████▌| 10210/10719 [1:37:13<04:13,  2.00it/s] 95%|█████████▌| 10211/10719 [1:37:14<04:13,  2.00it/s] 95%|█████████▌| 10212/10719 [1:37:14<04:13,  2.00it/s] 95%|█████████▌| 10213/10719 [1:37:15<04:12,  2.00it/s] 95%|█████████▌| 10214/10719 [1:37:15<04:12,  2.00it/s] 95%|█████████▌| 10215/10719 [1:37:16<04:11,  2.00it/s] 95%|█████████▌| 10216/10719 [1:37:16<04:11,  2.00it/s] 95%|█████████▌| 10217/10719 [1:37:17<04:10,  2.00it/s] 95%|█████████▌| 10218/10719 [1:37:17<04:10,  2.00it/s] 95%|█████████▌| 10219/10719 [1:37:18<04:09,  2.01it/s] 95%|█████████▌| 10220/10719 [1:37:18<04:08,  2.01it/s] 95%|█████████▌| 10221/10719 [1:37:19<04:07,  2.01it/s] 95%|█████████▌| 10222/10719 [1:37:19<04:07,  2.01it/s] 95%|█████████▌| 10223/10719 [1:37:20<04:07,  2.01it/s] 95%|█████████▌| 10224/10719 [1:37:20<04:06,  2.01it/s] 95%|█████████▌| 10225/10719 [1:37:21<04:05,  2.01it/s]                                                       {'loss': 3.4588, 'grad_norm': 0.19303394854068756, 'learning_rate': 6.456129810366307e-06, 'epoch': 0.95}
- 95%|█████████▌| 10225/10719 [1:37:21<04:05,  2.01it/s] 95%|█████████▌| 10226/10719 [1:37:21<04:05,  2.01it/s] 95%|█████████▌| 10227/10719 [1:37:22<04:04,  2.01it/s] 95%|█████████▌| 10228/10719 [1:37:22<04:04,  2.01it/s] 95%|█████████▌| 10229/10719 [1:37:23<04:03,  2.01it/s] 95%|█████████▌| 10230/10719 [1:37:23<04:02,  2.01it/s] 95%|█████████▌| 10231/10719 [1:37:24<04:02,  2.01it/s] 95%|█████████▌| 10232/10719 [1:37:25<04:18,  1.88it/s] 95%|█████████▌| 10233/10719 [1:37:25<04:26,  1.82it/s] 95%|█████████▌| 10234/10719 [1:37:26<04:18,  1.88it/s] 95%|█████████▌| 10235/10719 [1:37:26<04:12,  1.92it/s] 95%|█████████▌| 10236/10719 [1:37:27<04:08,  1.94it/s] 96%|█████████▌| 10237/10719 [1:37:27<04:05,  1.96it/s] 96%|█████████▌| 10238/10719 [1:37:28<04:03,  1.98it/s] 96%|█████████▌| 10239/10719 [1:37:28<04:01,  1.99it/s] 96%|█████████▌| 10240/10719 [1:37:29<04:00,  2.00it/s] 96%|█████████▌| 10241/10719 [1:37:29<03:58,  2.00it/s] 96%|█████████▌| 10242/10719 [1:37:30<03:58,  2.00it/s] 96%|█████████▌| 10243/10719 [1:37:30<03:57,  2.00it/s] 96%|█████████▌| 10244/10719 [1:37:31<03:57,  2.00it/s] 96%|█████████▌| 10245/10719 [1:37:31<03:56,  2.00it/s] 96%|█████████▌| 10246/10719 [1:37:32<03:56,  2.00it/s] 96%|█████████▌| 10247/10719 [1:37:32<03:55,  2.01it/s] 96%|█████████▌| 10248/10719 [1:37:33<03:54,  2.01it/s] 96%|█████████▌| 10249/10719 [1:37:33<03:54,  2.00it/s] 96%|█████████▌| 10250/10719 [1:37:34<03:54,  2.00it/s]                                                       {'loss': 3.4593, 'grad_norm': 0.19254811108112335, 'learning_rate': 5.820448918542609e-06, 'epoch': 0.96}
- 96%|█████████▌| 10250/10719 [1:37:34<03:54,  2.00it/s] 96%|█████████▌| 10251/10719 [1:37:34<03:53,  2.00it/s] 96%|█████████▌| 10252/10719 [1:37:35<03:53,  2.00it/s] 96%|█████████▌| 10253/10719 [1:37:35<03:52,  2.01it/s] 96%|█████████▌| 10254/10719 [1:37:36<03:51,  2.01it/s] 96%|█████████▌| 10255/10719 [1:37:36<03:51,  2.01it/s] 96%|█████████▌| 10256/10719 [1:37:37<03:50,  2.01it/s] 96%|█████████▌| 10257/10719 [1:37:37<03:50,  2.00it/s] 96%|█████████▌| 10258/10719 [1:37:38<03:49,  2.01it/s] 96%|█████████▌| 10259/10719 [1:37:38<03:49,  2.01it/s] 96%|█████████▌| 10260/10719 [1:37:39<03:49,  2.00it/s] 96%|█████████▌| 10261/10719 [1:37:39<03:48,  2.00it/s] 96%|█████████▌| 10262/10719 [1:37:40<03:48,  2.00it/s] 96%|█████████▌| 10263/10719 [1:37:40<03:47,  2.00it/s] 96%|█████████▌| 10264/10719 [1:37:41<03:47,  2.00it/s] 96%|█████████▌| 10265/10719 [1:37:41<03:46,  2.00it/s] 96%|█████████▌| 10266/10719 [1:37:42<03:45,  2.01it/s] 96%|█████████▌| 10267/10719 [1:37:42<03:45,  2.01it/s] 96%|█████████▌| 10268/10719 [1:37:43<03:44,  2.01it/s] 96%|█████████▌| 10269/10719 [1:37:43<03:44,  2.01it/s] 96%|█████████▌| 10270/10719 [1:37:44<03:43,  2.01it/s] 96%|█████████▌| 10271/10719 [1:37:44<03:43,  2.00it/s] 96%|█████████▌| 10272/10719 [1:37:45<03:42,  2.01it/s] 96%|█████████▌| 10273/10719 [1:37:45<03:52,  1.92it/s] 96%|█████████▌| 10274/10719 [1:37:46<03:49,  1.94it/s] 96%|█████████▌| 10275/10719 [1:37:46<03:46,  1.96it/s]                                                       {'loss': 3.4552, 'grad_norm': 0.19671878218650818, 'learning_rate': 5.217523024729887e-06, 'epoch': 0.96}
- 96%|█████████▌| 10275/10719 [1:37:46<03:46,  1.96it/s] 96%|█████████▌| 10276/10719 [1:37:47<03:44,  1.97it/s] 96%|█████████▌| 10277/10719 [1:37:47<03:43,  1.98it/s] 96%|█████████▌| 10278/10719 [1:37:48<03:41,  1.99it/s] 96%|█████████▌| 10279/10719 [1:37:48<03:40,  2.00it/s] 96%|█████████▌| 10280/10719 [1:37:49<03:39,  2.00it/s] 96%|█████████▌| 10281/10719 [1:37:49<03:39,  2.00it/s] 96%|█████████▌| 10282/10719 [1:37:50<03:38,  2.00it/s] 96%|█████████▌| 10283/10719 [1:37:50<03:37,  2.00it/s] 96%|█████████▌| 10284/10719 [1:37:51<03:36,  2.01it/s] 96%|█████████▌| 10285/10719 [1:37:51<03:36,  2.01it/s] 96%|█████████▌| 10286/10719 [1:37:52<03:35,  2.01it/s] 96%|█████████▌| 10287/10719 [1:37:52<03:34,  2.01it/s] 96%|█████████▌| 10288/10719 [1:37:53<03:34,  2.01it/s] 96%|█████████▌| 10289/10719 [1:37:53<03:33,  2.01it/s] 96%|█████████▌| 10290/10719 [1:37:54<03:33,  2.01it/s] 96%|█████████▌| 10291/10719 [1:37:54<03:39,  1.95it/s] 96%|█████████▌| 10292/10719 [1:37:55<03:36,  1.97it/s] 96%|█████████▌| 10293/10719 [1:37:55<03:35,  1.98it/s] 96%|█████████▌| 10294/10719 [1:37:56<03:34,  1.99it/s] 96%|█████████▌| 10295/10719 [1:37:56<03:32,  1.99it/s] 96%|█████████▌| 10296/10719 [1:37:57<03:31,  2.00it/s] 96%|█████████▌| 10297/10719 [1:37:57<03:31,  2.00it/s] 96%|█████████▌| 10298/10719 [1:37:58<03:30,  2.00it/s] 96%|█████████▌| 10299/10719 [1:37:58<03:29,  2.00it/s] 96%|█████████▌| 10300/10719 [1:37:59<03:29,  2.00it/s]                                                       {'loss': 3.4541, 'grad_norm': 0.19140931963920593, 'learning_rate': 4.647392091804703e-06, 'epoch': 0.96}
- 96%|█████████▌| 10300/10719 [1:37:59<03:29,  2.00it/s] 96%|█████████▌| 10301/10719 [1:37:59<03:28,  2.00it/s] 96%|█████████▌| 10302/10719 [1:38:00<03:28,  2.00it/s] 96%|█████████▌| 10303/10719 [1:38:00<03:27,  2.01it/s] 96%|█████████▌| 10304/10719 [1:38:01<03:26,  2.01it/s] 96%|█████████▌| 10305/10719 [1:38:01<03:26,  2.01it/s] 96%|█████████▌| 10306/10719 [1:38:02<03:25,  2.01it/s] 96%|█████████▌| 10307/10719 [1:38:02<03:24,  2.01it/s] 96%|█████████▌| 10308/10719 [1:38:03<03:24,  2.01it/s] 96%|█████████▌| 10309/10719 [1:38:03<03:23,  2.01it/s] 96%|█████████▌| 10310/10719 [1:38:04<03:23,  2.01it/s] 96%|█████████▌| 10311/10719 [1:38:04<03:22,  2.01it/s] 96%|█████████▌| 10312/10719 [1:38:05<03:22,  2.01it/s] 96%|█████████▌| 10313/10719 [1:38:05<03:21,  2.01it/s] 96%|█████████▌| 10314/10719 [1:38:06<03:21,  2.01it/s] 96%|█████████▌| 10315/10719 [1:38:06<03:20,  2.01it/s] 96%|█████████▌| 10316/10719 [1:38:07<03:20,  2.01it/s] 96%|█████████▌| 10317/10719 [1:38:07<03:19,  2.01it/s] 96%|█████████▋| 10318/10719 [1:38:08<03:19,  2.01it/s] 96%|█████████▋| 10319/10719 [1:38:08<03:18,  2.01it/s] 96%|█████████▋| 10320/10719 [1:38:09<03:17,  2.02it/s] 96%|█████████▋| 10321/10719 [1:38:09<03:17,  2.01it/s] 96%|█████████▋| 10322/10719 [1:38:10<03:17,  2.01it/s] 96%|█████████▋| 10323/10719 [1:38:10<03:16,  2.01it/s] 96%|█████████▋| 10324/10719 [1:38:11<03:16,  2.01it/s] 96%|█████████▋| 10325/10719 [1:38:11<03:16,  2.01it/s]                                                       {'loss': 3.4504, 'grad_norm': 0.19224895536899567, 'learning_rate': 4.110093908942125e-06, 'epoch': 0.96}
- 96%|█████████▋| 10325/10719 [1:38:11<03:16,  2.01it/s] 96%|█████████▋| 10326/10719 [1:38:12<03:16,  2.00it/s] 96%|█████████▋| 10327/10719 [1:38:12<03:15,  2.00it/s] 96%|█████████▋| 10328/10719 [1:38:13<03:14,  2.01it/s] 96%|█████████▋| 10329/10719 [1:38:13<03:14,  2.01it/s] 96%|█████████▋| 10330/10719 [1:38:14<03:13,  2.01it/s] 96%|█████████▋| 10331/10719 [1:38:14<03:13,  2.01it/s] 96%|█████████▋| 10332/10719 [1:38:15<03:13,  2.00it/s] 96%|█████████▋| 10333/10719 [1:38:15<03:12,  2.00it/s] 96%|█████████▋| 10334/10719 [1:38:16<03:12,  2.00it/s] 96%|█████████▋| 10335/10719 [1:38:16<03:11,  2.00it/s] 96%|█████████▋| 10336/10719 [1:38:17<03:11,  2.00it/s] 96%|█████████▋| 10337/10719 [1:38:17<03:11,  2.00it/s] 96%|█████████▋| 10338/10719 [1:38:18<03:10,  2.00it/s] 96%|█████████▋| 10339/10719 [1:38:18<03:09,  2.00it/s] 96%|█████████▋| 10340/10719 [1:38:19<03:09,  2.00it/s] 96%|█████████▋| 10341/10719 [1:38:19<03:08,  2.00it/s] 96%|█████████▋| 10342/10719 [1:38:20<03:08,  2.00it/s] 96%|█████████▋| 10343/10719 [1:38:20<03:10,  1.97it/s] 97%|█████████▋| 10344/10719 [1:38:21<03:09,  1.98it/s] 97%|█████████▋| 10345/10719 [1:38:21<03:08,  1.98it/s] 97%|█████████▋| 10346/10719 [1:38:22<03:07,  1.99it/s] 97%|█████████▋| 10347/10719 [1:38:22<03:06,  1.99it/s] 97%|█████████▋| 10348/10719 [1:38:23<03:06,  1.99it/s] 97%|█████████▋| 10349/10719 [1:38:23<03:05,  2.00it/s] 97%|█████████▋| 10350/10719 [1:38:24<03:04,  2.00it/s]                                                       {'loss': 3.4655, 'grad_norm': 0.19434304535388947, 'learning_rate': 3.605664089110949e-06, 'epoch': 0.97}
- 97%|█████████▋| 10350/10719 [1:38:24<03:04,  2.00it/s] 97%|█████████▋| 10351/10719 [1:38:24<03:06,  1.97it/s] 97%|█████████▋| 10352/10719 [1:38:25<03:05,  1.98it/s] 97%|█████████▋| 10353/10719 [1:38:25<03:04,  1.98it/s] 97%|█████████▋| 10354/10719 [1:38:26<03:03,  1.99it/s] 97%|█████████▋| 10355/10719 [1:38:26<03:02,  1.99it/s] 97%|█████████▋| 10356/10719 [1:38:27<03:01,  2.00it/s] 97%|█████████▋| 10357/10719 [1:38:27<03:00,  2.00it/s] 97%|█████████▋| 10358/10719 [1:38:28<03:00,  2.00it/s] 97%|█████████▋| 10359/10719 [1:38:28<02:59,  2.01it/s] 97%|█████████▋| 10360/10719 [1:38:29<02:58,  2.01it/s] 97%|█████████▋| 10361/10719 [1:38:29<02:58,  2.01it/s] 97%|█████████▋| 10362/10719 [1:38:30<02:57,  2.01it/s] 97%|█████████▋| 10363/10719 [1:38:30<02:57,  2.01it/s] 97%|█████████▋| 10364/10719 [1:38:31<02:56,  2.01it/s] 97%|█████████▋| 10365/10719 [1:38:31<02:56,  2.01it/s] 97%|█████████▋| 10366/10719 [1:38:32<02:55,  2.01it/s] 97%|█████████▋| 10367/10719 [1:38:32<02:54,  2.01it/s] 97%|█████████▋| 10368/10719 [1:38:33<02:54,  2.01it/s] 97%|█████████▋| 10369/10719 [1:38:33<02:54,  2.01it/s] 97%|█████████▋| 10370/10719 [1:38:34<02:53,  2.01it/s] 97%|█████████▋| 10371/10719 [1:38:34<02:53,  2.01it/s] 97%|█████████▋| 10372/10719 [1:38:35<03:26,  1.68it/s] 97%|█████████▋| 10373/10719 [1:38:35<03:16,  1.76it/s] 97%|█████████▋| 10374/10719 [1:38:36<03:08,  1.83it/s] 97%|█████████▋| 10375/10719 [1:38:36<03:02,  1.88it/s]                                                       {'loss': 3.4678, 'grad_norm': 0.19695959985256195, 'learning_rate': 3.134136066713089e-06, 'epoch': 0.97}
- 97%|█████████▋| 10375/10719 [1:38:36<03:02,  1.88it/s] 97%|█████████▋| 10376/10719 [1:38:37<02:59,  1.91it/s] 97%|█████████▋| 10377/10719 [1:38:37<02:56,  1.94it/s] 97%|█████████▋| 10378/10719 [1:38:38<02:53,  1.96it/s] 97%|█████████▋| 10379/10719 [1:38:38<02:52,  1.97it/s] 97%|█████████▋| 10380/10719 [1:38:39<02:50,  1.99it/s] 97%|█████████▋| 10381/10719 [1:38:39<02:49,  1.99it/s] 97%|█████████▋| 10382/10719 [1:38:40<02:48,  2.00it/s] 97%|█████████▋| 10383/10719 [1:38:40<02:47,  2.00it/s] 97%|█████████▋| 10384/10719 [1:38:41<02:47,  2.00it/s] 97%|█████████▋| 10385/10719 [1:38:41<02:46,  2.00it/s] 97%|█████████▋| 10386/10719 [1:38:42<02:46,  2.00it/s] 97%|█████████▋| 10387/10719 [1:38:42<02:45,  2.00it/s] 97%|█████████▋| 10388/10719 [1:38:43<02:45,  2.00it/s] 97%|█████████▋| 10389/10719 [1:38:43<02:44,  2.00it/s] 97%|█████████▋| 10390/10719 [1:38:44<02:44,  2.00it/s] 97%|█████████▋| 10391/10719 [1:38:44<02:43,  2.00it/s] 97%|█████████▋| 10392/10719 [1:38:45<02:42,  2.01it/s] 97%|█████████▋| 10393/10719 [1:38:45<02:42,  2.01it/s] 97%|█████████▋| 10394/10719 [1:38:46<02:41,  2.01it/s] 97%|█████████▋| 10395/10719 [1:38:46<02:41,  2.01it/s] 97%|█████████▋| 10396/10719 [1:38:47<02:40,  2.01it/s] 97%|█████████▋| 10397/10719 [1:38:47<02:40,  2.01it/s] 97%|█████████▋| 10398/10719 [1:38:48<02:39,  2.01it/s] 97%|█████████▋| 10399/10719 [1:38:48<02:39,  2.01it/s] 97%|█████████▋| 10400/10719 [1:38:49<02:38,  2.01it/s]                                                       {'loss': 3.4597, 'grad_norm': 0.19303373992443085, 'learning_rate': 2.6955410953676262e-06, 'epoch': 0.97}
- 97%|█████████▋| 10400/10719 [1:38:49<02:38,  2.01it/s] 97%|█████████▋| 10401/10719 [1:38:49<02:38,  2.01it/s] 97%|█████████▋| 10402/10719 [1:38:50<02:37,  2.01it/s] 97%|█████████▋| 10403/10719 [1:38:50<02:36,  2.01it/s] 97%|█████████▋| 10404/10719 [1:38:51<02:36,  2.01it/s] 97%|█████████▋| 10405/10719 [1:38:51<02:35,  2.02it/s] 97%|█████████▋| 10406/10719 [1:38:52<02:35,  2.02it/s] 97%|█████████▋| 10407/10719 [1:38:52<02:34,  2.02it/s] 97%|█████████▋| 10408/10719 [1:38:53<02:34,  2.01it/s] 97%|█████████▋| 10409/10719 [1:38:53<02:34,  2.01it/s] 97%|█████████▋| 10410/10719 [1:38:54<02:34,  2.00it/s] 97%|█████████▋| 10411/10719 [1:38:54<02:34,  1.99it/s] 97%|█████████▋| 10412/10719 [1:38:55<02:37,  1.95it/s] 97%|█████████▋| 10413/10719 [1:38:55<02:42,  1.88it/s] 97%|█████████▋| 10414/10719 [1:38:56<02:39,  1.91it/s] 97%|█████████▋| 10415/10719 [1:38:57<03:04,  1.64it/s] 97%|█████████▋| 10416/10719 [1:38:57<02:54,  1.74it/s] 97%|█████████▋| 10417/10719 [1:38:58<02:46,  1.81it/s] 97%|█████████▋| 10418/10719 [1:38:58<02:41,  1.87it/s] 97%|█████████▋| 10419/10719 [1:38:59<02:37,  1.91it/s] 97%|█████████▋| 10420/10719 [1:38:59<02:34,  1.94it/s] 97%|█████████▋| 10421/10719 [1:39:00<02:32,  1.96it/s] 97%|█████████▋| 10422/10719 [1:39:00<02:30,  1.98it/s] 97%|█████████▋| 10423/10719 [1:39:01<02:28,  1.99it/s] 97%|█████████▋| 10424/10719 [1:39:01<02:27,  2.00it/s] 97%|█████████▋| 10425/10719 [1:39:02<02:26,  2.00it/s]                                                       {'loss': 3.4622, 'grad_norm': 0.19309090077877045, 'learning_rate': 2.2899082458391895e-06, 'epoch': 0.97}
- 97%|█████████▋| 10425/10719 [1:39:02<02:26,  2.00it/s] 97%|█████████▋| 10426/10719 [1:39:02<02:26,  2.00it/s] 97%|█████████▋| 10427/10719 [1:39:03<02:25,  2.00it/s] 97%|█████████▋| 10428/10719 [1:39:03<02:24,  2.01it/s] 97%|█████████▋| 10429/10719 [1:39:04<02:24,  2.01it/s] 97%|█████████▋| 10430/10719 [1:39:04<02:23,  2.01it/s] 97%|█████████▋| 10431/10719 [1:39:05<02:22,  2.01it/s] 97%|█████████▋| 10432/10719 [1:39:05<02:22,  2.01it/s] 97%|█████████▋| 10433/10719 [1:39:06<02:21,  2.02it/s] 97%|█████████▋| 10434/10719 [1:39:06<02:21,  2.01it/s] 97%|█████████▋| 10435/10719 [1:39:07<02:21,  2.01it/s] 97%|█████████▋| 10436/10719 [1:39:07<02:20,  2.01it/s] 97%|█████████▋| 10437/10719 [1:39:08<02:19,  2.01it/s] 97%|█████████▋| 10438/10719 [1:39:08<02:19,  2.02it/s] 97%|█████████▋| 10439/10719 [1:39:09<02:18,  2.02it/s] 97%|█████████▋| 10440/10719 [1:39:09<02:18,  2.01it/s] 97%|█████████▋| 10441/10719 [1:39:10<02:17,  2.02it/s] 97%|█████████▋| 10442/10719 [1:39:10<02:17,  2.01it/s] 97%|█████████▋| 10443/10719 [1:39:11<02:16,  2.02it/s] 97%|█████████▋| 10444/10719 [1:39:11<02:16,  2.01it/s] 97%|█████████▋| 10445/10719 [1:39:12<02:16,  2.01it/s] 97%|█████████▋| 10446/10719 [1:39:12<02:17,  1.99it/s] 97%|█████████▋| 10447/10719 [1:39:13<02:16,  1.99it/s] 97%|█████████▋| 10448/10719 [1:39:13<02:16,  1.99it/s] 97%|█████████▋| 10449/10719 [1:39:14<02:15,  2.00it/s] 97%|█████████▋| 10450/10719 [1:39:14<02:14,  2.00it/s]                                                       {'loss': 3.4542, 'grad_norm': 0.19413988292217255, 'learning_rate': 1.9172644041111632e-06, 'epoch': 0.97}
- 97%|█████████▋| 10450/10719 [1:39:14<02:14,  2.00it/s] 97%|█████████▋| 10451/10719 [1:39:15<02:13,  2.00it/s] 98%|█████████▊| 10452/10719 [1:39:15<02:13,  2.00it/s] 98%|█████████▊| 10453/10719 [1:39:16<02:12,  2.00it/s] 98%|█████████▊| 10454/10719 [1:39:16<02:12,  2.01it/s] 98%|█████████▊| 10455/10719 [1:39:17<02:11,  2.01it/s] 98%|█████████▊| 10456/10719 [1:39:17<02:11,  2.01it/s] 98%|█████████▊| 10457/10719 [1:39:18<02:10,  2.01it/s] 98%|█████████▊| 10458/10719 [1:39:18<02:10,  2.01it/s] 98%|█████████▊| 10459/10719 [1:39:19<02:09,  2.00it/s] 98%|█████████▊| 10460/10719 [1:39:19<02:09,  2.00it/s] 98%|█████████▊| 10461/10719 [1:39:20<02:08,  2.00it/s] 98%|█████████▊| 10462/10719 [1:39:20<02:08,  2.00it/s] 98%|█████████▊| 10463/10719 [1:39:21<02:07,  2.00it/s] 98%|█████████▊| 10464/10719 [1:39:21<02:07,  2.00it/s] 98%|█████████▊| 10465/10719 [1:39:22<02:06,  2.00it/s] 98%|█████████▊| 10466/10719 [1:39:22<02:06,  2.00it/s] 98%|█████████▊| 10467/10719 [1:39:23<02:06,  2.00it/s] 98%|█████████▊| 10468/10719 [1:39:23<02:05,  2.00it/s] 98%|█████████▊| 10469/10719 [1:39:24<02:05,  2.00it/s] 98%|█████████▊| 10470/10719 [1:39:24<02:05,  1.98it/s] 98%|█████████▊| 10471/10719 [1:39:25<02:05,  1.97it/s] 98%|█████████▊| 10472/10719 [1:39:25<02:10,  1.90it/s] 98%|█████████▊| 10473/10719 [1:39:26<02:07,  1.93it/s] 98%|█████████▊| 10474/10719 [1:39:26<02:05,  1.95it/s] 98%|█████████▊| 10475/10719 [1:39:27<02:04,  1.97it/s]                                                       {'loss': 3.4629, 'grad_norm': 0.19140809774398804, 'learning_rate': 1.5776342696034452e-06, 'epoch': 0.98}
- 98%|█████████▊| 10475/10719 [1:39:27<02:04,  1.97it/s] 98%|█████████▊| 10476/10719 [1:39:27<02:03,  1.98it/s] 98%|█████████▊| 10477/10719 [1:39:28<02:01,  1.98it/s] 98%|█████████▊| 10478/10719 [1:39:28<02:00,  1.99it/s] 98%|█████████▊| 10479/10719 [1:39:29<02:00,  2.00it/s] 98%|█████████▊| 10480/10719 [1:39:29<01:59,  2.00it/s] 98%|█████████▊| 10481/10719 [1:39:30<01:58,  2.00it/s] 98%|█████████▊| 10482/10719 [1:39:30<01:58,  2.01it/s] 98%|█████████▊| 10483/10719 [1:39:31<01:57,  2.01it/s] 98%|█████████▊| 10484/10719 [1:39:31<01:56,  2.01it/s] 98%|█████████▊| 10485/10719 [1:39:32<01:56,  2.01it/s] 98%|█████████▊| 10486/10719 [1:39:32<01:55,  2.01it/s] 98%|█████████▊| 10487/10719 [1:39:33<01:55,  2.01it/s] 98%|█████████▊| 10488/10719 [1:39:33<01:54,  2.01it/s] 98%|█████████▊| 10489/10719 [1:39:34<01:54,  2.02it/s] 98%|█████████▊| 10490/10719 [1:39:34<01:53,  2.02it/s] 98%|█████████▊| 10491/10719 [1:39:35<01:53,  2.02it/s] 98%|█████████▊| 10492/10719 [1:39:35<01:52,  2.02it/s] 98%|█████████▊| 10493/10719 [1:39:36<01:52,  2.02it/s] 98%|█████████▊| 10494/10719 [1:39:36<01:51,  2.02it/s] 98%|█████████▊| 10495/10719 [1:39:37<01:51,  2.02it/s] 98%|█████████▊| 10496/10719 [1:39:37<01:50,  2.02it/s] 98%|█████████▊| 10497/10719 [1:39:38<01:50,  2.01it/s] 98%|█████████▊| 10498/10719 [1:39:38<01:49,  2.02it/s] 98%|█████████▊| 10499/10719 [1:39:39<01:49,  2.02it/s] 98%|█████████▊| 10500/10719 [1:39:39<01:48,  2.01it/s]                                                       {'loss': 3.4505, 'grad_norm': 0.1928802728652954, 'learning_rate': 1.271040353535702e-06, 'epoch': 0.98}
- 98%|█████████▊| 10500/10719 [1:39:39<01:48,  2.01it/s] 98%|█████████▊| 10501/10719 [1:39:40<01:48,  2.01it/s] 98%|█████████▊| 10502/10719 [1:39:40<01:47,  2.01it/s] 98%|█████████▊| 10503/10719 [1:39:41<01:47,  2.01it/s] 98%|█████████▊| 10504/10719 [1:39:41<01:46,  2.01it/s] 98%|█████████▊| 10505/10719 [1:39:42<01:46,  2.01it/s] 98%|█████████▊| 10506/10719 [1:39:42<01:45,  2.01it/s] 98%|█████████▊| 10507/10719 [1:39:43<01:45,  2.01it/s] 98%|█████████▊| 10508/10719 [1:39:43<01:50,  1.91it/s] 98%|█████████▊| 10509/10719 [1:39:44<01:48,  1.93it/s] 98%|█████████▊| 10510/10719 [1:39:44<01:47,  1.95it/s] 98%|█████████▊| 10511/10719 [1:39:45<01:45,  1.96it/s] 98%|█████████▊| 10512/10719 [1:39:45<01:44,  1.98it/s] 98%|█████████▊| 10513/10719 [1:39:46<01:43,  1.98it/s] 98%|█████████▊| 10514/10719 [1:39:46<01:43,  1.99it/s] 98%|█████████▊| 10515/10719 [1:39:47<01:42,  2.00it/s] 98%|█████████▊| 10516/10719 [1:39:47<01:41,  2.00it/s] 98%|█████████▊| 10517/10719 [1:39:48<01:40,  2.00it/s] 98%|█████████▊| 10518/10719 [1:39:48<01:40,  2.01it/s] 98%|█████████▊| 10519/10719 [1:39:49<01:39,  2.01it/s] 98%|█████████▊| 10520/10719 [1:39:49<01:38,  2.01it/s] 98%|█████████▊| 10521/10719 [1:39:50<01:38,  2.01it/s] 98%|█████████▊| 10522/10719 [1:39:50<01:37,  2.01it/s] 98%|█████████▊| 10523/10719 [1:39:51<01:37,  2.01it/s] 98%|█████████▊| 10524/10719 [1:39:51<01:36,  2.01it/s] 98%|█████████▊| 10525/10719 [1:39:52<01:36,  2.01it/s]                                                       {'loss': 3.4609, 'grad_norm': 0.19333860278129578, 'learning_rate': 9.975029774349498e-07, 'epoch': 0.98}
- 98%|█████████▊| 10525/10719 [1:39:52<01:36,  2.01it/s] 98%|█████████▊| 10526/10719 [1:39:52<01:35,  2.01it/s] 98%|█████████▊| 10527/10719 [1:39:53<01:35,  2.01it/s] 98%|█████████▊| 10528/10719 [1:39:53<01:34,  2.01it/s] 98%|█████████▊| 10529/10719 [1:39:54<01:34,  2.01it/s] 98%|█████████▊| 10530/10719 [1:39:54<01:39,  1.90it/s] 98%|█████████▊| 10531/10719 [1:39:55<01:37,  1.93it/s] 98%|█████████▊| 10532/10719 [1:39:55<01:35,  1.95it/s] 98%|█████████▊| 10533/10719 [1:39:56<01:34,  1.97it/s] 98%|█████████▊| 10534/10719 [1:39:56<01:33,  1.98it/s] 98%|█████████▊| 10535/10719 [1:39:57<01:32,  1.99it/s] 98%|█████████▊| 10536/10719 [1:39:57<01:32,  1.99it/s] 98%|█████████▊| 10537/10719 [1:39:58<01:31,  2.00it/s] 98%|█████████▊| 10538/10719 [1:39:58<01:30,  2.00it/s] 98%|█████████▊| 10539/10719 [1:39:59<01:29,  2.00it/s] 98%|█████████▊| 10540/10719 [1:39:59<01:29,  2.00it/s] 98%|█████████▊| 10541/10719 [1:40:00<01:28,  2.01it/s] 98%|█████████▊| 10542/10719 [1:40:00<01:28,  2.00it/s] 98%|█████████▊| 10543/10719 [1:40:01<01:27,  2.00it/s] 98%|█████████▊| 10544/10719 [1:40:01<01:27,  2.00it/s] 98%|█████████▊| 10545/10719 [1:40:02<01:26,  2.00it/s] 98%|█████████▊| 10546/10719 [1:40:02<01:26,  2.00it/s] 98%|█████████▊| 10547/10719 [1:40:03<01:25,  2.00it/s] 98%|█████████▊| 10548/10719 [1:40:03<01:25,  2.00it/s] 98%|█████████▊| 10549/10719 [1:40:04<01:24,  2.00it/s] 98%|█████████▊| 10550/10719 [1:40:04<01:24,  2.01it/s]                                                       {'loss': 3.466, 'grad_norm': 0.19333936274051666, 'learning_rate': 7.570402717887448e-07, 'epoch': 0.98}
- 98%|█████████▊| 10550/10719 [1:40:04<01:24,  2.01it/s] 98%|█████████▊| 10551/10719 [1:40:05<01:23,  2.00it/s] 98%|█████████▊| 10552/10719 [1:40:05<01:23,  2.01it/s] 98%|█████████▊| 10553/10719 [1:40:06<01:22,  2.01it/s] 98%|█████████▊| 10554/10719 [1:40:06<01:22,  2.01it/s] 98%|█████████▊| 10555/10719 [1:40:07<01:21,  2.01it/s] 98%|█████████▊| 10556/10719 [1:40:07<01:21,  2.01it/s] 98%|█████████▊| 10557/10719 [1:40:08<01:20,  2.01it/s] 98%|█████████▊| 10558/10719 [1:40:08<01:20,  2.01it/s] 99%|█████████▊| 10559/10719 [1:40:09<01:19,  2.01it/s] 99%|█████████▊| 10560/10719 [1:40:09<01:19,  2.01it/s] 99%|█████████▊| 10561/10719 [1:40:10<01:18,  2.01it/s] 99%|█████████▊| 10562/10719 [1:40:10<01:22,  1.91it/s] 99%|█████████▊| 10563/10719 [1:40:11<01:20,  1.94it/s] 99%|█████████▊| 10564/10719 [1:40:11<01:19,  1.95it/s] 99%|█████████▊| 10565/10719 [1:40:12<01:18,  1.96it/s] 99%|█████████▊| 10566/10719 [1:40:12<01:17,  1.97it/s] 99%|█████████▊| 10567/10719 [1:40:13<01:16,  1.98it/s] 99%|█████████▊| 10568/10719 [1:40:13<01:15,  1.99it/s] 99%|█████████▊| 10569/10719 [1:40:14<01:15,  2.00it/s] 99%|█████████▊| 10570/10719 [1:40:14<01:14,  1.99it/s] 99%|█████████▊| 10571/10719 [1:40:15<01:13,  2.00it/s] 99%|█████████▊| 10572/10719 [1:40:15<01:13,  2.00it/s] 99%|█████████▊| 10573/10719 [1:40:16<01:12,  2.00it/s] 99%|█████████▊| 10574/10719 [1:40:16<01:12,  2.01it/s] 99%|█████████▊| 10575/10719 [1:40:17<01:11,  2.00it/s]                                                       {'loss': 3.4653, 'grad_norm': 0.1931830793619156, 'learning_rate': 5.496681748434762e-07, 'epoch': 0.99}
- 99%|█████████▊| 10575/10719 [1:40:17<01:11,  2.00it/s] 99%|█████████▊| 10576/10719 [1:40:17<01:11,  2.01it/s] 99%|█████████▊| 10577/10719 [1:40:18<01:10,  2.00it/s] 99%|█████████▊| 10578/10719 [1:40:18<01:10,  2.00it/s] 99%|█████████▊| 10579/10719 [1:40:19<01:10,  2.00it/s] 99%|█████████▊| 10580/10719 [1:40:19<01:09,  2.00it/s] 99%|█████████▊| 10581/10719 [1:40:20<01:09,  2.00it/s] 99%|█████████▊| 10582/10719 [1:40:20<01:11,  1.92it/s] 99%|█████████▊| 10583/10719 [1:40:21<01:10,  1.94it/s] 99%|█████████▊| 10584/10719 [1:40:21<01:08,  1.96it/s] 99%|█████████▊| 10585/10719 [1:40:22<01:07,  1.97it/s] 99%|█████████▉| 10586/10719 [1:40:22<01:07,  1.98it/s] 99%|█████████▉| 10587/10719 [1:40:23<01:06,  1.99it/s] 99%|█████████▉| 10588/10719 [1:40:23<01:05,  1.99it/s] 99%|█████████▉| 10589/10719 [1:40:24<01:05,  2.00it/s] 99%|█████████▉| 10590/10719 [1:40:24<01:04,  2.00it/s] 99%|█████████▉| 10591/10719 [1:40:25<01:04,  2.00it/s] 99%|█████████▉| 10592/10719 [1:40:25<01:03,  2.00it/s] 99%|█████████▉| 10593/10719 [1:40:26<01:03,  2.00it/s] 99%|█████████▉| 10594/10719 [1:40:26<01:02,  2.00it/s] 99%|█████████▉| 10595/10719 [1:40:27<01:01,  2.00it/s] 99%|█████████▉| 10596/10719 [1:40:27<01:01,  2.00it/s] 99%|█████████▉| 10597/10719 [1:40:28<01:01,  2.00it/s] 99%|█████████▉| 10598/10719 [1:40:28<01:00,  2.00it/s] 99%|█████████▉| 10599/10719 [1:40:29<00:59,  2.00it/s] 99%|█████████▉| 10600/10719 [1:40:29<00:59,  2.00it/s]                                                       {'loss': 3.4603, 'grad_norm': 0.1933687925338745, 'learning_rate': 3.7540043154798973e-07, 'epoch': 0.99}
- 99%|█████████▉| 10600/10719 [1:40:29<00:59,  2.00it/s] 99%|█████████▉| 10601/10719 [1:40:30<00:58,  2.00it/s] 99%|█████████▉| 10602/10719 [1:40:30<00:58,  2.00it/s] 99%|█████████▉| 10603/10719 [1:40:31<00:57,  2.01it/s] 99%|█████████▉| 10604/10719 [1:40:31<00:57,  2.01it/s] 99%|█████████▉| 10605/10719 [1:40:32<00:56,  2.01it/s] 99%|█████████▉| 10606/10719 [1:40:32<00:56,  2.01it/s] 99%|█████████▉| 10607/10719 [1:40:33<00:55,  2.01it/s] 99%|█████████▉| 10608/10719 [1:40:33<00:55,  2.00it/s] 99%|█████████▉| 10609/10719 [1:40:34<00:55,  2.00it/s] 99%|█████████▉| 10610/10719 [1:40:34<00:54,  2.00it/s] 99%|█████████▉| 10611/10719 [1:40:35<00:53,  2.00it/s] 99%|█████████▉| 10612/10719 [1:40:35<00:53,  2.00it/s] 99%|█████████▉| 10613/10719 [1:40:36<00:52,  2.00it/s] 99%|█████████▉| 10614/10719 [1:40:36<00:52,  2.01it/s] 99%|█████████▉| 10615/10719 [1:40:37<00:51,  2.01it/s] 99%|█████████▉| 10616/10719 [1:40:37<00:51,  2.01it/s] 99%|█████████▉| 10617/10719 [1:40:38<00:50,  2.01it/s] 99%|█████████▉| 10618/10719 [1:40:38<00:50,  2.01it/s] 99%|█████████▉| 10619/10719 [1:40:39<00:49,  2.01it/s] 99%|█████████▉| 10620/10719 [1:40:39<00:49,  2.01it/s] 99%|█████████▉| 10621/10719 [1:40:40<00:48,  2.01it/s] 99%|█████████▉| 10622/10719 [1:40:40<00:48,  2.01it/s] 99%|█████████▉| 10623/10719 [1:40:41<00:47,  2.01it/s] 99%|█████████▉| 10624/10719 [1:40:41<00:47,  2.01it/s] 99%|█████████▉| 10625/10719 [1:40:42<00:46,  2.02it/s]                                                       {'loss': 3.457, 'grad_norm': 0.19196239113807678, 'learning_rate': 2.3424859264237208e-07, 'epoch': 0.99}
- 99%|█████████▉| 10625/10719 [1:40:42<00:46,  2.02it/s] 99%|█████████▉| 10626/10719 [1:40:42<00:46,  2.01it/s] 99%|█████████▉| 10627/10719 [1:40:43<00:45,  2.01it/s] 99%|█████████▉| 10628/10719 [1:40:43<00:45,  2.02it/s] 99%|█████████▉| 10629/10719 [1:40:44<00:45,  2.00it/s] 99%|█████████▉| 10630/10719 [1:40:44<00:44,  1.98it/s] 99%|█████████▉| 10631/10719 [1:40:45<00:45,  1.93it/s] 99%|█████████▉| 10632/10719 [1:40:45<00:44,  1.96it/s] 99%|█████████▉| 10633/10719 [1:40:46<00:43,  1.97it/s] 99%|█████████▉| 10634/10719 [1:40:46<00:42,  1.98it/s] 99%|█████████▉| 10635/10719 [1:40:47<00:42,  1.99it/s] 99%|█████████▉| 10636/10719 [1:40:47<00:41,  1.99it/s] 99%|█████████▉| 10637/10719 [1:40:48<00:41,  2.00it/s] 99%|█████████▉| 10638/10719 [1:40:48<00:40,  2.00it/s] 99%|█████████▉| 10639/10719 [1:40:49<00:39,  2.00it/s] 99%|█████████▉| 10640/10719 [1:40:49<00:39,  2.01it/s] 99%|█████████▉| 10641/10719 [1:40:50<00:38,  2.01it/s] 99%|█████████▉| 10642/10719 [1:40:50<00:38,  2.01it/s] 99%|█████████▉| 10643/10719 [1:40:51<00:37,  2.01it/s] 99%|█████████▉| 10644/10719 [1:40:51<00:37,  2.01it/s] 99%|█████████▉| 10645/10719 [1:40:52<00:36,  2.01it/s] 99%|█████████▉| 10646/10719 [1:40:52<00:36,  2.01it/s] 99%|█████████▉| 10647/10719 [1:40:53<00:35,  2.01it/s] 99%|█████████▉| 10648/10719 [1:40:53<00:35,  2.01it/s] 99%|█████████▉| 10649/10719 [1:40:54<00:34,  2.01it/s] 99%|█████████▉| 10650/10719 [1:40:54<00:36,  1.88it/s]                                                       {'loss': 3.455, 'grad_norm': 0.19391925632953644, 'learning_rate': 1.2622201389256292e-07, 'epoch': 0.99}
- 99%|█████████▉| 10650/10719 [1:40:54<00:36,  1.88it/s] 99%|█████████▉| 10651/10719 [1:40:55<00:35,  1.92it/s] 99%|█████████▉| 10652/10719 [1:40:55<00:34,  1.94it/s] 99%|█████████▉| 10653/10719 [1:40:56<00:34,  1.90it/s] 99%|█████████▉| 10654/10719 [1:40:56<00:33,  1.92it/s] 99%|█████████▉| 10655/10719 [1:40:57<00:33,  1.92it/s] 99%|█████████▉| 10656/10719 [1:40:58<00:32,  1.94it/s] 99%|█████████▉| 10657/10719 [1:40:58<00:31,  1.96it/s] 99%|█████████▉| 10658/10719 [1:40:59<00:30,  1.98it/s] 99%|█████████▉| 10659/10719 [1:40:59<00:30,  1.98it/s] 99%|█████████▉| 10660/10719 [1:41:00<00:29,  1.99it/s] 99%|█████████▉| 10661/10719 [1:41:00<00:29,  2.00it/s] 99%|█████████▉| 10662/10719 [1:41:01<00:28,  1.99it/s] 99%|█████████▉| 10663/10719 [1:41:01<00:28,  2.00it/s] 99%|█████████▉| 10664/10719 [1:41:02<00:27,  2.00it/s] 99%|█████████▉| 10665/10719 [1:41:02<00:26,  2.00it/s]100%|█████████▉| 10666/10719 [1:41:03<00:26,  2.00it/s]100%|█████████▉| 10667/10719 [1:41:03<00:25,  2.01it/s]100%|█████████▉| 10668/10719 [1:41:03<00:25,  2.01it/s]100%|█████████▉| 10669/10719 [1:41:04<00:24,  2.00it/s]100%|█████████▉| 10670/10719 [1:41:04<00:24,  2.00it/s]100%|█████████▉| 10671/10719 [1:41:05<00:23,  2.01it/s]100%|█████████▉| 10672/10719 [1:41:05<00:23,  2.00it/s]100%|█████████▉| 10673/10719 [1:41:06<00:22,  2.00it/s]100%|█████████▉| 10674/10719 [1:41:06<00:22,  2.00it/s]100%|█████████▉| 10675/10719 [1:41:07<00:21,  2.01it/s]                                                       {'loss': 3.4643, 'grad_norm': 0.19448357820510864, 'learning_rate': 5.132785547018459e-08, 'epoch': 1.0}
-100%|█████████▉| 10675/10719 [1:41:07<00:21,  2.01it/s]100%|█████████▉| 10676/10719 [1:41:07<00:21,  2.00it/s]100%|█████████▉| 10677/10719 [1:41:08<00:20,  2.00it/s]100%|█████████▉| 10678/10719 [1:41:08<00:20,  2.00it/s]100%|█████████▉| 10679/10719 [1:41:09<00:19,  2.00it/s]100%|█████████▉| 10680/10719 [1:41:09<00:19,  2.00it/s]100%|█████████▉| 10681/10719 [1:41:10<00:18,  2.00it/s]100%|█████████▉| 10682/10719 [1:41:10<00:18,  2.00it/s]100%|█████████▉| 10683/10719 [1:41:11<00:17,  2.00it/s]100%|█████████▉| 10684/10719 [1:41:11<00:17,  2.00it/s]100%|█████████▉| 10685/10719 [1:41:12<00:16,  2.00it/s]100%|█████████▉| 10686/10719 [1:41:12<00:16,  2.00it/s]100%|█████████▉| 10687/10719 [1:41:13<00:16,  2.00it/s]100%|█████████▉| 10688/10719 [1:41:13<00:15,  1.99it/s]100%|█████████▉| 10689/10719 [1:41:14<00:15,  1.99it/s]100%|█████████▉| 10690/10719 [1:41:14<00:14,  1.99it/s]100%|█████████▉| 10691/10719 [1:41:15<00:14,  1.99it/s]100%|█████████▉| 10692/10719 [1:41:15<00:13,  2.00it/s]100%|█████████▉| 10693/10719 [1:41:16<00:13,  1.99it/s]100%|█████████▉| 10694/10719 [1:41:17<00:12,  2.00it/s]100%|█████████▉| 10695/10719 [1:41:17<00:12,  2.00it/s]100%|█████████▉| 10696/10719 [1:41:17<00:11,  2.00it/s]100%|█████████▉| 10697/10719 [1:41:18<00:10,  2.00it/s]100%|█████████▉| 10698/10719 [1:41:18<00:10,  2.00it/s]100%|█████████▉| 10699/10719 [1:41:19<00:09,  2.00it/s]100%|█████████▉| 10700/10719 [1:41:19<00:09,  2.01it/s]                                                       {'loss': 3.4553, 'grad_norm': 0.19132158160209656, 'learning_rate': 9.571081477810494e-09, 'epoch': 1.0}
-100%|█████████▉| 10700/10719 [1:41:19<00:09,  2.01it/s]100%|█████████▉| 10701/10719 [1:41:20<00:08,  2.01it/s]100%|█████████▉| 10702/10719 [1:41:20<00:08,  2.00it/s]100%|█████████▉| 10703/10719 [1:41:21<00:07,  2.00it/s]100%|█████████▉| 10704/10719 [1:41:21<00:07,  2.00it/s]100%|█████████▉| 10705/10719 [1:41:22<00:07,  2.00it/s]100%|█████████▉| 10706/10719 [1:41:22<00:06,  2.00it/s]100%|█████████▉| 10707/10719 [1:41:23<00:05,  2.00it/s]100%|█████████▉| 10708/10719 [1:41:23<00:05,  2.01it/s]100%|█████████▉| 10709/10719 [1:41:24<00:04,  2.01it/s]100%|█████████▉| 10710/10719 [1:41:25<00:04,  1.95it/s]100%|█████████▉| 10711/10719 [1:41:25<00:04,  1.94it/s]100%|█████████▉| 10712/10719 [1:41:26<00:03,  1.90it/s]100%|█████████▉| 10713/10719 [1:41:26<00:03,  1.92it/s]100%|█████████▉| 10714/10719 [1:41:27<00:02,  1.94it/s]100%|█████████▉| 10715/10719 [1:41:27<00:02,  1.96it/s]100%|█████████▉| 10716/10719 [1:41:28<00:01,  1.97it/s]100%|█████████▉| 10717/10719 [1:41:28<00:01,  1.98it/s]100%|█████████▉| 10718/10719 [1:41:29<00:00,  1.99it/s]100%|██████████| 10719/10719 [1:41:30<00:00,  1.32it/s]                                                       {'train_runtime': 6103.2292, 'train_samples_per_second': 1798.392, 'train_steps_per_second': 1.756, 'train_loss': 3.8457925139728886, 'epoch': 1.0}
-100%|██████████| 10719/10719 [1:41:43<00:00,  1.32it/s]100%|██████████| 10719/10719 [1:41:43<00:00,  1.76it/s]
+  0%|          | 1/10692 [00:36<107:17:17, 36.13s/it]  0%|          | 2/10692 [00:57<81:03:19, 27.30s/it]   0%|          | 3/10692 [01:15<69:01:25, 23.25s/it]  0%|          | 4/10692 [01:32<61:42:12, 20.78s/it]  0%|          | 5/10692 [01:47<55:21:39, 18.65s/it]  0%|          | 6/10692 [02:01<50:42:57, 17.09s/it]  0%|          | 7/10692 [02:14<46:59:25, 15.83s/it]  0%|          | 8/10692 [02:26<43:10:22, 14.55s/it]  0%|          | 9/10692 [02:38<40:22:01, 13.60s/it]  0%|          | 10/10692 [02:48<37:47:59, 12.74s/it]  0%|          | 11/10692 [02:59<35:48:04, 12.07s/it]  0%|          | 12/10692 [03:09<33:38:53, 11.34s/it]  0%|          | 13/10692 [03:18<32:08:33, 10.84s/it]  0%|          | 14/10692 [03:27<30:04:03, 10.14s/it]  0%|          | 15/10692 [03:35<28:18:21,  9.54s/it]  0%|          | 16/10692 [03:42<26:16:24,  8.86s/it]  0%|          | 17/10692 [03:50<24:46:39,  8.36s/it]  0%|          | 18/10692 [03:57<23:39:14,  7.98s/it]  0%|          | 19/10692 [04:03<22:34:07,  7.61s/it]  0%|          | 20/10692 [04:10<22:03:07,  7.44s/it]  0%|          | 21/10692 [04:17<21:19:16,  7.19s/it]  0%|          | 22/10692 [04:23<19:57:02,  6.73s/it]  0%|          | 23/10692 [04:29<19:19:42,  6.52s/it]  0%|          | 24/10692 [04:35<19:14:44,  6.49s/it]  0%|          | 25/10692 [04:42<19:14:16,  6.49s/it]                                                     {'loss': 10.6705, 'grad_norm': 1.326047420501709, 'learning_rate': 2.336448598130841e-05, 'epoch': 0.0}
+  0%|          | 25/10692 [04:42<19:14:16,  6.49s/it]  0%|          | 26/10692 [04:47<18:20:52,  6.19s/it]  0%|          | 27/10692 [04:53<17:39:32,  5.96s/it]  0%|          | 28/10692 [04:57<16:19:48,  5.51s/it]  0%|          | 29/10692 [05:01<14:50:32,  5.01s/it]  0%|          | 30/10692 [05:05<13:54:02,  4.69s/it]  0%|          | 31/10692 [05:09<13:10:07,  4.45s/it]  0%|          | 32/10692 [05:12<12:20:46,  4.17s/it]  0%|          | 33/10692 [05:16<12:03:23,  4.07s/it]  0%|          | 34/10692 [05:20<11:40:32,  3.94s/it]  0%|          | 35/10692 [05:23<11:06:45,  3.75s/it]  0%|          | 36/10692 [05:26<10:42:26,  3.62s/it]  0%|          | 37/10692 [05:30<10:23:58,  3.51s/it]  0%|          | 38/10692 [05:33<10:17:05,  3.48s/it]  0%|          | 39/10692 [05:36<9:49:51,  3.32s/it]   0%|          | 40/10692 [05:39<9:36:30,  3.25s/it]  0%|          | 41/10692 [05:42<9:04:36,  3.07s/it]  0%|          | 42/10692 [05:45<9:02:23,  3.06s/it]  0%|          | 43/10692 [05:47<8:47:45,  2.97s/it]  0%|          | 44/10692 [05:50<8:30:01,  2.87s/it]  0%|          | 45/10692 [05:53<8:16:32,  2.80s/it]  0%|          | 46/10692 [05:56<8:24:31,  2.84s/it]  0%|          | 47/10692 [05:58<8:06:55,  2.74s/it]  0%|          | 48/10692 [06:01<7:56:20,  2.69s/it]  0%|          | 49/10692 [06:03<7:49:50,  2.65s/it]  0%|          | 50/10692 [06:06<7:34:36,  2.56s/it]{'loss': 9.9546, 'grad_norm': 1.244269847869873, 'learning_rate': 4.672897196261682e-05, 'epoch': 0.0}
+                                                      0%|          | 50/10692 [06:06<7:34:36,  2.56s/it]  0%|          | 51/10692 [06:08<7:19:18,  2.48s/it]  0%|          | 52/10692 [06:10<7:08:19,  2.42s/it]  0%|          | 53/10692 [06:12<6:56:02,  2.35s/it]  1%|          | 54/10692 [06:15<6:47:30,  2.30s/it]  1%|          | 55/10692 [06:17<6:28:11,  2.19s/it]  1%|          | 56/10692 [06:19<6:32:43,  2.22s/it]  1%|          | 57/10692 [06:21<6:08:37,  2.08s/it]  1%|          | 58/10692 [06:23<6:14:02,  2.11s/it]  1%|          | 59/10692 [06:25<5:59:29,  2.03s/it]  1%|          | 60/10692 [06:26<5:47:44,  1.96s/it]  1%|          | 61/10692 [06:28<5:40:23,  1.92s/it]  1%|          | 62/10692 [06:30<5:37:45,  1.91s/it]  1%|          | 63/10692 [06:32<5:33:52,  1.88s/it]  1%|          | 64/10692 [06:34<5:40:20,  1.92s/it]  1%|          | 65/10692 [06:36<5:35:45,  1.90s/it]  1%|          | 66/10692 [06:38<5:28:36,  1.86s/it]  1%|          | 67/10692 [06:39<5:20:06,  1.81s/it]  1%|          | 68/10692 [06:41<5:16:16,  1.79s/it]  1%|          | 69/10692 [06:43<5:04:22,  1.72s/it]  1%|          | 70/10692 [06:44<5:07:56,  1.74s/it]  1%|          | 71/10692 [06:46<5:01:11,  1.70s/it]  1%|          | 72/10692 [06:48<5:07:07,  1.74s/it]  1%|          | 73/10692 [06:49<4:58:36,  1.69s/it]  1%|          | 74/10692 [06:51<4:51:08,  1.65s/it]  1%|          | 75/10692 [06:53<4:52:57,  1.66s/it]                                                    {'loss': 9.2322, 'grad_norm': 1.0280184745788574, 'learning_rate': 7.009345794392523e-05, 'epoch': 0.01}
+  1%|          | 75/10692 [06:53<4:52:57,  1.66s/it]  1%|          | 76/10692 [06:54<4:42:00,  1.59s/it]  1%|          | 77/10692 [06:56<4:49:38,  1.64s/it]  1%|          | 78/10692 [06:57<4:39:28,  1.58s/it]  1%|          | 79/10692 [06:59<4:37:11,  1.57s/it]  1%|          | 80/10692 [07:00<4:34:46,  1.55s/it]  1%|          | 81/10692 [07:01<4:17:49,  1.46s/it]  1%|          | 82/10692 [07:03<4:19:51,  1.47s/it]  1%|          | 83/10692 [07:04<4:20:18,  1.47s/it]  1%|          | 84/10692 [07:06<4:14:20,  1.44s/it]  1%|          | 85/10692 [07:07<4:15:29,  1.45s/it]  1%|          | 86/10692 [07:09<4:09:35,  1.41s/it]  1%|          | 87/10692 [07:10<4:10:55,  1.42s/it]  1%|          | 88/10692 [07:11<4:10:01,  1.41s/it]  1%|          | 89/10692 [07:13<4:09:20,  1.41s/it]  1%|          | 90/10692 [07:14<3:58:38,  1.35s/it]  1%|          | 91/10692 [07:15<3:52:50,  1.32s/it]  1%|          | 92/10692 [07:16<3:47:51,  1.29s/it]  1%|          | 93/10692 [07:18<3:49:50,  1.30s/it]  1%|          | 94/10692 [07:19<3:41:15,  1.25s/it]  1%|          | 95/10692 [07:20<3:37:26,  1.23s/it]  1%|          | 96/10692 [07:21<3:38:13,  1.24s/it]  1%|          | 97/10692 [07:22<3:27:25,  1.17s/it]  1%|          | 98/10692 [07:24<3:29:58,  1.19s/it]  1%|          | 99/10692 [07:25<3:30:38,  1.19s/it]  1%|          | 100/10692 [07:26<3:28:47,  1.18s/it]{'loss': 8.4477, 'grad_norm': 0.7515178322792053, 'learning_rate': 9.345794392523364e-05, 'epoch': 0.01}
+                                                       1%|          | 100/10692 [07:26<3:28:47,  1.18s/it]  1%|          | 101/10692 [07:27<3:29:14,  1.19s/it]  1%|          | 102/10692 [07:28<3:32:08,  1.20s/it]  1%|          | 103/10692 [07:30<3:26:14,  1.17s/it]  1%|          | 104/10692 [07:31<3:22:56,  1.15s/it]  1%|          | 105/10692 [07:32<3:22:45,  1.15s/it]  1%|          | 106/10692 [07:33<3:20:22,  1.14s/it]  1%|          | 107/10692 [07:34<3:16:37,  1.11s/it]  1%|          | 108/10692 [07:35<3:16:11,  1.11s/it]  1%|          | 109/10692 [07:36<3:11:08,  1.08s/it]  1%|          | 110/10692 [07:37<3:13:43,  1.10s/it]  1%|          | 111/10692 [07:38<3:10:40,  1.08s/it]  1%|          | 112/10692 [07:39<3:05:25,  1.05s/it]  1%|          | 113/10692 [07:40<3:04:55,  1.05s/it]  1%|          | 114/10692 [07:41<3:08:04,  1.07s/it]  1%|          | 115/10692 [07:42<3:10:01,  1.08s/it]  1%|          | 116/10692 [07:44<3:07:40,  1.06s/it]  1%|          | 117/10692 [07:44<2:56:23,  1.00s/it]  1%|          | 118/10692 [07:45<2:57:37,  1.01s/it]  1%|          | 119/10692 [07:46<2:54:23,  1.01it/s]  1%|          | 120/10692 [07:47<2:56:31,  1.00s/it]  1%|          | 121/10692 [07:48<2:53:30,  1.02it/s]  1%|          | 122/10692 [07:49<2:52:18,  1.02it/s]  1%|          | 123/10692 [07:50<2:48:22,  1.05it/s]  1%|          | 124/10692 [07:51<2:49:55,  1.04it/s]  1%|          | 125/10692 [07:52<2:50:01,  1.04it/s]{'loss': 7.818, 'grad_norm': 0.44742095470428467, 'learning_rate': 0.00011682242990654206, 'epoch': 0.01}
+                                                       1%|          | 125/10692 [07:52<2:50:01,  1.04it/s]  1%|          | 126/10692 [07:53<2:47:25,  1.05it/s]  1%|          | 127/10692 [07:54<2:46:08,  1.06it/s]  1%|          | 128/10692 [07:55<2:43:57,  1.07it/s]  1%|          | 129/10692 [07:56<2:38:53,  1.11it/s]  1%|          | 130/10692 [07:57<2:37:50,  1.12it/s]  1%|          | 131/10692 [07:58<2:42:12,  1.09it/s]  1%|          | 132/10692 [07:58<2:39:55,  1.10it/s]  1%|          | 133/10692 [07:59<2:40:19,  1.10it/s]  1%|▏         | 134/10692 [08:00<2:37:46,  1.12it/s]  1%|▏         | 135/10692 [08:01<2:30:08,  1.17it/s]  1%|▏         | 136/10692 [08:02<2:33:34,  1.15it/s]  1%|▏         | 137/10692 [08:03<2:36:45,  1.12it/s]  1%|▏         | 138/10692 [08:04<2:35:23,  1.13it/s]  1%|▏         | 139/10692 [08:05<2:32:52,  1.15it/s]  1%|▏         | 140/10692 [08:05<2:34:41,  1.14it/s]  1%|▏         | 141/10692 [08:06<2:34:43,  1.14it/s]  1%|▏         | 142/10692 [08:07<2:39:12,  1.10it/s]  1%|▏         | 143/10692 [08:08<2:36:41,  1.12it/s]  1%|▏         | 144/10692 [08:09<2:35:17,  1.13it/s]  1%|▏         | 145/10692 [08:10<2:27:55,  1.19it/s]  1%|▏         | 146/10692 [08:11<2:26:18,  1.20it/s]  1%|▏         | 147/10692 [08:11<2:29:51,  1.17it/s]  1%|▏         | 148/10692 [08:12<2:27:40,  1.19it/s]  1%|▏         | 149/10692 [08:13<2:28:54,  1.18it/s]  1%|▏         | 150/10692 [08:14<2:25:06,  1.21it/s]                                                     {'loss': 7.338, 'grad_norm': 0.4400424063205719, 'learning_rate': 0.00014018691588785047, 'epoch': 0.01}
+  1%|▏         | 150/10692 [08:14<2:25:06,  1.21it/s]  1%|▏         | 151/10692 [08:15<2:23:55,  1.22it/s]  1%|▏         | 152/10692 [08:16<2:23:24,  1.22it/s]  1%|▏         | 153/10692 [08:16<2:19:27,  1.26it/s]  1%|▏         | 154/10692 [08:17<2:19:33,  1.26it/s]  1%|▏         | 155/10692 [08:18<2:19:17,  1.26it/s]  1%|▏         | 156/10692 [08:19<2:20:35,  1.25it/s]  1%|▏         | 157/10692 [08:19<2:17:57,  1.27it/s]  1%|▏         | 158/10692 [08:20<2:14:36,  1.30it/s]  1%|▏         | 159/10692 [08:21<2:14:17,  1.31it/s]  1%|▏         | 160/10692 [08:22<2:14:27,  1.31it/s]  2%|▏         | 161/10692 [08:22<2:09:47,  1.35it/s]  2%|▏         | 162/10692 [08:23<2:07:25,  1.38it/s]  2%|▏         | 163/10692 [08:24<2:08:31,  1.37it/s]  2%|▏         | 164/10692 [08:25<2:06:53,  1.38it/s]  2%|▏         | 165/10692 [08:25<2:06:59,  1.38it/s]  2%|▏         | 166/10692 [08:26<2:07:21,  1.38it/s]  2%|▏         | 167/10692 [08:27<2:06:21,  1.39it/s]  2%|▏         | 168/10692 [08:27<2:07:43,  1.37it/s]  2%|▏         | 169/10692 [08:28<2:10:06,  1.35it/s]  2%|▏         | 170/10692 [08:29<2:07:52,  1.37it/s]  2%|▏         | 171/10692 [08:30<2:08:47,  1.36it/s]  2%|▏         | 172/10692 [08:30<2:11:02,  1.34it/s]  2%|▏         | 173/10692 [08:31<2:07:02,  1.38it/s]  2%|▏         | 174/10692 [08:32<2:07:54,  1.37it/s]  2%|▏         | 175/10692 [08:32<2:03:28,  1.42it/s]{'loss': 6.9367, 'grad_norm': 0.4288700222969055, 'learning_rate': 0.00016355140186915886, 'epoch': 0.02}
+                                                       2%|▏         | 175/10692 [08:32<2:03:28,  1.42it/s]  2%|▏         | 176/10692 [08:33<2:03:06,  1.42it/s]  2%|▏         | 177/10692 [08:34<2:01:51,  1.44it/s]  2%|▏         | 178/10692 [08:35<2:03:36,  1.42it/s]  2%|▏         | 179/10692 [08:35<2:03:27,  1.42it/s]  2%|▏         | 180/10692 [08:36<1:59:56,  1.46it/s]  2%|▏         | 181/10692 [08:37<2:00:07,  1.46it/s]  2%|▏         | 182/10692 [08:37<2:01:43,  1.44it/s]  2%|▏         | 183/10692 [08:38<2:00:34,  1.45it/s]  2%|▏         | 184/10692 [08:39<1:58:40,  1.48it/s]  2%|▏         | 185/10692 [08:39<1:58:01,  1.48it/s]  2%|▏         | 186/10692 [08:40<1:58:22,  1.48it/s]  2%|▏         | 187/10692 [08:41<1:58:16,  1.48it/s]  2%|▏         | 188/10692 [08:41<1:58:07,  1.48it/s]  2%|▏         | 189/10692 [08:42<1:56:32,  1.50it/s]  2%|▏         | 190/10692 [08:43<1:56:15,  1.51it/s]  2%|▏         | 191/10692 [08:43<1:57:19,  1.49it/s]  2%|▏         | 192/10692 [08:44<1:57:44,  1.49it/s]  2%|▏         | 193/10692 [08:45<1:57:24,  1.49it/s]  2%|▏         | 194/10692 [08:45<1:53:40,  1.54it/s]  2%|▏         | 195/10692 [08:46<1:55:41,  1.51it/s]  2%|▏         | 196/10692 [08:47<1:54:11,  1.53it/s]  2%|▏         | 197/10692 [08:47<1:55:35,  1.51it/s]  2%|▏         | 198/10692 [08:48<1:59:20,  1.47it/s]  2%|▏         | 199/10692 [08:49<1:59:19,  1.47it/s]  2%|▏         | 200/10692 [08:49<1:56:55,  1.50it/s]{'loss': 6.6025, 'grad_norm': 0.4434279203414917, 'learning_rate': 0.00018691588785046728, 'epoch': 0.02}
+                                                       2%|▏         | 200/10692 [08:49<1:56:55,  1.50it/s]  2%|▏         | 201/10692 [08:50<1:54:06,  1.53it/s]  2%|▏         | 202/10692 [08:51<1:52:06,  1.56it/s]  2%|▏         | 203/10692 [08:51<1:54:48,  1.52it/s]  2%|▏         | 204/10692 [08:52<1:58:33,  1.47it/s]  2%|▏         | 205/10692 [08:53<1:55:35,  1.51it/s]  2%|▏         | 206/10692 [08:53<1:55:10,  1.52it/s]  2%|▏         | 207/10692 [08:54<1:56:04,  1.51it/s]  2%|▏         | 208/10692 [08:55<1:54:41,  1.52it/s]  2%|▏         | 209/10692 [08:55<1:53:03,  1.55it/s]  2%|▏         | 210/10692 [08:56<1:50:50,  1.58it/s]  2%|▏         | 211/10692 [08:56<1:52:34,  1.55it/s]  2%|▏         | 212/10692 [08:57<1:55:24,  1.51it/s]  2%|▏         | 213/10692 [08:58<1:59:08,  1.47it/s]  2%|▏         | 214/10692 [08:59<1:59:33,  1.46it/s]  2%|▏         | 215/10692 [08:59<1:55:58,  1.51it/s]  2%|▏         | 216/10692 [09:00<1:52:07,  1.56it/s]  2%|▏         | 217/10692 [09:00<1:51:35,  1.56it/s]  2%|▏         | 218/10692 [09:01<1:50:25,  1.58it/s]  2%|▏         | 219/10692 [09:02<1:49:44,  1.59it/s]  2%|▏         | 220/10692 [09:02<1:48:26,  1.61it/s]  2%|▏         | 221/10692 [09:03<1:48:21,  1.61it/s]  2%|▏         | 222/10692 [09:03<1:46:18,  1.64it/s]  2%|▏         | 223/10692 [09:04<1:47:13,  1.63it/s]  2%|▏         | 224/10692 [09:05<1:47:27,  1.62it/s]  2%|▏         | 225/10692 [09:05<1:47:11,  1.63it/s]{'loss': 6.3442, 'grad_norm': 0.7975730299949646, 'learning_rate': 0.0002102803738317757, 'epoch': 0.02}
+                                                       2%|▏         | 225/10692 [09:05<1:47:11,  1.63it/s]  2%|▏         | 226/10692 [09:06<1:46:30,  1.64it/s]  2%|▏         | 227/10692 [09:07<1:45:53,  1.65it/s]  2%|▏         | 228/10692 [09:07<1:46:32,  1.64it/s]  2%|▏         | 229/10692 [09:08<1:48:14,  1.61it/s]  2%|▏         | 230/10692 [09:08<1:47:13,  1.63it/s]  2%|▏         | 231/10692 [09:09<1:46:43,  1.63it/s]  2%|▏         | 232/10692 [09:10<1:46:29,  1.64it/s]  2%|▏         | 233/10692 [09:10<1:44:59,  1.66it/s]  2%|▏         | 234/10692 [09:11<1:46:10,  1.64it/s]  2%|▏         | 235/10692 [09:11<1:47:12,  1.63it/s]  2%|▏         | 236/10692 [09:12<1:45:58,  1.64it/s]  2%|▏         | 237/10692 [09:13<1:47:21,  1.62it/s]  2%|▏         | 238/10692 [09:13<1:46:36,  1.63it/s]  2%|▏         | 239/10692 [09:14<1:43:59,  1.68it/s]  2%|▏         | 240/10692 [09:14<1:42:35,  1.70it/s]  2%|▏         | 241/10692 [09:15<1:42:20,  1.70it/s]  2%|▏         | 242/10692 [09:16<1:41:29,  1.72it/s]  2%|▏         | 243/10692 [09:16<1:41:52,  1.71it/s]  2%|▏         | 244/10692 [09:17<1:43:13,  1.69it/s]  2%|▏         | 245/10692 [09:17<1:43:22,  1.68it/s]  2%|▏         | 246/10692 [09:18<1:53:15,  1.54it/s]  2%|▏         | 247/10692 [09:19<1:50:33,  1.57it/s]  2%|▏         | 248/10692 [09:19<1:47:31,  1.62it/s]  2%|▏         | 249/10692 [09:20<1:46:37,  1.63it/s]  2%|▏         | 250/10692 [09:20<1:43:58,  1.67it/s]{'loss': 6.1429, 'grad_norm': 0.4961651861667633, 'learning_rate': 0.00023364485981308412, 'epoch': 0.02}
+                                                       2%|▏         | 250/10692 [09:20<1:43:58,  1.67it/s]  2%|▏         | 251/10692 [09:21<1:44:20,  1.67it/s]  2%|▏         | 252/10692 [09:22<1:43:34,  1.68it/s]  2%|▏         | 253/10692 [09:22<1:42:31,  1.70it/s]  2%|▏         | 254/10692 [09:23<1:42:06,  1.70it/s]  2%|▏         | 255/10692 [09:24<1:47:02,  1.62it/s]  2%|▏         | 256/10692 [09:24<1:45:09,  1.65it/s]  2%|▏         | 257/10692 [09:25<1:43:39,  1.68it/s]  2%|▏         | 258/10692 [09:25<1:42:48,  1.69it/s]  2%|▏         | 259/10692 [09:26<1:42:45,  1.69it/s]  2%|▏         | 260/10692 [09:26<1:42:53,  1.69it/s]  2%|▏         | 261/10692 [09:27<1:40:22,  1.73it/s]  2%|▏         | 262/10692 [09:28<1:39:50,  1.74it/s]  2%|▏         | 263/10692 [09:28<1:39:44,  1.74it/s]  2%|▏         | 264/10692 [09:29<1:39:40,  1.74it/s]  2%|▏         | 265/10692 [09:29<1:39:10,  1.75it/s]  2%|▏         | 266/10692 [09:30<1:39:57,  1.74it/s]  2%|▏         | 267/10692 [09:30<1:41:24,  1.71it/s]  3%|▎         | 268/10692 [09:31<1:40:31,  1.73it/s]  3%|▎         | 269/10692 [09:32<1:40:01,  1.74it/s]  3%|▎         | 270/10692 [09:32<1:39:31,  1.75it/s]  3%|▎         | 271/10692 [09:33<1:38:28,  1.76it/s]  3%|▎         | 272/10692 [09:33<1:39:07,  1.75it/s]  3%|▎         | 273/10692 [09:34<1:39:07,  1.75it/s]  3%|▎         | 274/10692 [09:34<1:39:39,  1.74it/s]  3%|▎         | 275/10692 [09:35<1:38:29,  1.76it/s]{'loss': 5.9749, 'grad_norm': 0.7183046340942383, 'learning_rate': 0.0002570093457943925, 'epoch': 0.03}
+                                                       3%|▎         | 275/10692 [09:35<1:38:29,  1.76it/s]  3%|▎         | 276/10692 [09:36<1:38:22,  1.76it/s]  3%|▎         | 277/10692 [09:36<1:36:53,  1.79it/s]  3%|▎         | 278/10692 [09:37<1:36:30,  1.80it/s]  3%|▎         | 279/10692 [09:37<1:35:43,  1.81it/s]  3%|▎         | 280/10692 [09:38<1:35:28,  1.82it/s]  3%|▎         | 281/10692 [09:38<1:35:47,  1.81it/s]  3%|▎         | 282/10692 [09:39<1:38:09,  1.77it/s]  3%|▎         | 283/10692 [09:39<1:38:01,  1.77it/s]  3%|▎         | 284/10692 [09:40<1:36:58,  1.79it/s]  3%|▎         | 285/10692 [09:41<1:36:15,  1.80it/s]  3%|▎         | 286/10692 [09:41<1:36:30,  1.80it/s]  3%|▎         | 287/10692 [09:42<1:36:55,  1.79it/s]  3%|▎         | 288/10692 [09:42<1:36:20,  1.80it/s]  3%|▎         | 289/10692 [09:43<1:36:50,  1.79it/s]  3%|▎         | 290/10692 [09:43<1:35:22,  1.82it/s]  3%|▎         | 291/10692 [09:44<1:35:00,  1.82it/s]  3%|▎         | 292/10692 [09:44<1:35:30,  1.81it/s]  3%|▎         | 293/10692 [09:45<1:36:06,  1.80it/s]  3%|▎         | 294/10692 [09:46<1:36:15,  1.80it/s]  3%|▎         | 295/10692 [09:46<1:37:04,  1.79it/s]  3%|▎         | 296/10692 [09:47<1:36:09,  1.80it/s]  3%|▎         | 297/10692 [09:47<1:35:19,  1.82it/s]  3%|▎         | 298/10692 [09:48<1:37:01,  1.79it/s]  3%|▎         | 299/10692 [09:48<1:36:06,  1.80it/s]  3%|▎         | 300/10692 [09:49<1:34:50,  1.83it/s]                                                     {'loss': 5.8337, 'grad_norm': 0.6662181615829468, 'learning_rate': 0.00028037383177570094, 'epoch': 0.03}
+  3%|▎         | 300/10692 [09:49<1:34:50,  1.83it/s]  3%|▎         | 301/10692 [09:49<1:34:36,  1.83it/s]  3%|▎         | 302/10692 [09:50<1:33:49,  1.85it/s]  3%|▎         | 303/10692 [09:50<1:34:47,  1.83it/s]  3%|▎         | 304/10692 [09:51<1:35:41,  1.81it/s]  3%|▎         | 305/10692 [09:52<1:35:13,  1.82it/s]  3%|▎         | 306/10692 [09:52<1:34:03,  1.84it/s]  3%|▎         | 307/10692 [09:53<1:35:17,  1.82it/s]  3%|▎         | 308/10692 [09:53<1:34:12,  1.84it/s]  3%|▎         | 309/10692 [09:54<1:34:12,  1.84it/s]  3%|▎         | 310/10692 [09:54<1:34:29,  1.83it/s]  3%|▎         | 311/10692 [09:55<1:34:31,  1.83it/s]  3%|▎         | 312/10692 [09:55<1:34:20,  1.83it/s]  3%|▎         | 313/10692 [09:56<1:34:18,  1.83it/s]  3%|▎         | 314/10692 [09:56<1:33:36,  1.85it/s]  3%|▎         | 315/10692 [09:57<1:32:42,  1.87it/s]  3%|▎         | 316/10692 [09:58<1:32:14,  1.87it/s]  3%|▎         | 317/10692 [09:58<1:32:21,  1.87it/s]  3%|▎         | 318/10692 [09:59<1:32:27,  1.87it/s]  3%|▎         | 319/10692 [09:59<1:32:34,  1.87it/s]  3%|▎         | 320/10692 [10:00<1:32:00,  1.88it/s]  3%|▎         | 321/10692 [10:00<1:33:29,  1.85it/s]  3%|▎         | 322/10692 [10:01<1:32:51,  1.86it/s]  3%|▎         | 323/10692 [10:01<1:32:14,  1.87it/s]  3%|▎         | 324/10692 [10:02<1:32:15,  1.87it/s]  3%|▎         | 325/10692 [10:02<1:33:29,  1.85it/s]{'loss': 5.7071, 'grad_norm': 0.5687894225120544, 'learning_rate': 0.00030373831775700936, 'epoch': 0.03}
+                                                       3%|▎         | 325/10692 [10:02<1:33:29,  1.85it/s]  3%|▎         | 326/10692 [10:03<1:32:47,  1.86it/s]  3%|▎         | 327/10692 [10:04<1:46:27,  1.62it/s]  3%|▎         | 328/10692 [10:04<1:55:33,  1.49it/s]  3%|▎         | 329/10692 [10:05<1:48:03,  1.60it/s]  3%|▎         | 330/10692 [10:06<1:43:49,  1.66it/s]  3%|▎         | 331/10692 [10:06<1:40:24,  1.72it/s]  3%|▎         | 332/10692 [10:07<1:39:05,  1.74it/s]  3%|▎         | 333/10692 [10:07<1:37:19,  1.77it/s]  3%|▎         | 334/10692 [10:08<1:35:03,  1.82it/s]  3%|▎         | 335/10692 [10:08<1:33:33,  1.84it/s]  3%|▎         | 336/10692 [10:09<1:33:50,  1.84it/s]  3%|▎         | 337/10692 [10:09<1:32:51,  1.86it/s]  3%|▎         | 338/10692 [10:10<1:33:51,  1.84it/s]  3%|▎         | 339/10692 [10:10<1:33:03,  1.85it/s]  3%|▎         | 340/10692 [10:11<1:32:18,  1.87it/s]  3%|▎         | 341/10692 [10:11<1:31:29,  1.89it/s]  3%|▎         | 342/10692 [10:12<1:31:28,  1.89it/s]  3%|▎         | 343/10692 [10:12<1:31:49,  1.88it/s]  3%|▎         | 344/10692 [10:13<1:33:20,  1.85it/s]  3%|▎         | 345/10692 [10:14<1:32:37,  1.86it/s]  3%|▎         | 346/10692 [10:14<1:31:32,  1.88it/s]  3%|▎         | 347/10692 [10:15<1:30:52,  1.90it/s]  3%|▎         | 348/10692 [10:15<1:31:08,  1.89it/s]  3%|▎         | 349/10692 [10:16<1:30:52,  1.90it/s]  3%|▎         | 350/10692 [10:16<1:32:22,  1.87it/s]{'loss': 5.5953, 'grad_norm': 0.5280373692512512, 'learning_rate': 0.0003271028037383177, 'epoch': 0.03}
+                                                       3%|▎         | 350/10692 [10:16<1:32:22,  1.87it/s]  3%|▎         | 351/10692 [10:17<1:31:43,  1.88it/s]  3%|▎         | 352/10692 [10:17<1:31:23,  1.89it/s]  3%|▎         | 353/10692 [10:18<1:30:42,  1.90it/s]  3%|▎         | 354/10692 [10:18<1:31:29,  1.88it/s]  3%|▎         | 355/10692 [10:19<1:31:20,  1.89it/s]  3%|▎         | 356/10692 [10:19<1:30:42,  1.90it/s]  3%|▎         | 357/10692 [10:20<1:30:23,  1.91it/s]  3%|▎         | 358/10692 [10:20<1:30:21,  1.91it/s]  3%|▎         | 359/10692 [10:21<1:30:14,  1.91it/s]  3%|▎         | 360/10692 [10:21<1:30:17,  1.91it/s]  3%|▎         | 361/10692 [10:22<1:31:12,  1.89it/s]  3%|▎         | 362/10692 [10:23<1:30:40,  1.90it/s]  3%|▎         | 363/10692 [10:23<1:30:11,  1.91it/s]  3%|▎         | 364/10692 [10:24<1:30:34,  1.90it/s]  3%|▎         | 365/10692 [10:24<1:30:39,  1.90it/s]  3%|▎         | 366/10692 [10:25<1:30:03,  1.91it/s]  3%|▎         | 367/10692 [10:25<1:29:55,  1.91it/s]  3%|▎         | 368/10692 [10:26<1:29:42,  1.92it/s]  3%|▎         | 369/10692 [10:26<1:29:48,  1.92it/s]  3%|▎         | 370/10692 [10:27<1:29:32,  1.92it/s]  3%|▎         | 371/10692 [10:27<1:29:24,  1.92it/s]  3%|▎         | 372/10692 [10:28<1:29:47,  1.92it/s]  3%|▎         | 373/10692 [10:28<1:30:38,  1.90it/s]  3%|▎         | 374/10692 [10:29<1:31:31,  1.88it/s]  4%|▎         | 375/10692 [10:29<1:30:41,  1.90it/s]{'loss': 5.5082, 'grad_norm': 0.79620760679245, 'learning_rate': 0.00035046728971962614, 'epoch': 0.04}
+                                                       4%|▎         | 375/10692 [10:29<1:30:41,  1.90it/s]  4%|▎         | 376/10692 [10:30<1:30:52,  1.89it/s]  4%|▎         | 377/10692 [10:30<1:31:36,  1.88it/s]  4%|▎         | 378/10692 [10:31<1:32:04,  1.87it/s]  4%|▎         | 379/10692 [10:31<1:31:30,  1.88it/s]  4%|▎         | 380/10692 [10:32<1:30:48,  1.89it/s]  4%|▎         | 381/10692 [10:33<1:31:24,  1.88it/s]  4%|▎         | 382/10692 [10:33<1:30:49,  1.89it/s]  4%|▎         | 383/10692 [10:34<1:30:17,  1.90it/s]  4%|▎         | 384/10692 [10:34<1:29:36,  1.92it/s]  4%|▎         | 385/10692 [10:35<1:29:30,  1.92it/s]  4%|▎         | 386/10692 [10:35<1:29:37,  1.92it/s]  4%|▎         | 387/10692 [10:36<1:30:49,  1.89it/s]  4%|▎         | 388/10692 [10:36<1:30:00,  1.91it/s]  4%|▎         | 389/10692 [10:37<1:30:05,  1.91it/s]  4%|▎         | 390/10692 [10:37<1:30:01,  1.91it/s]  4%|▎         | 391/10692 [10:38<1:29:27,  1.92it/s]  4%|▎         | 392/10692 [10:38<1:28:57,  1.93it/s]  4%|▎         | 393/10692 [10:39<1:28:37,  1.94it/s]  4%|▎         | 394/10692 [10:39<1:29:18,  1.92it/s]  4%|▎         | 395/10692 [10:40<1:28:52,  1.93it/s]  4%|▎         | 396/10692 [10:40<1:28:30,  1.94it/s]  4%|▎         | 397/10692 [10:41<1:28:13,  1.94it/s]  4%|▎         | 398/10692 [10:41<1:28:27,  1.94it/s]  4%|▎         | 399/10692 [10:42<1:29:10,  1.92it/s]  4%|▎         | 400/10692 [10:42<1:28:59,  1.93it/s]{'loss': 5.4068, 'grad_norm': 0.6169611811637878, 'learning_rate': 0.00037383177570093456, 'epoch': 0.04}                                                     
+  4%|▎         | 400/10692 [10:42<1:28:59,  1.93it/s]  4%|▍         | 401/10692 [10:43<1:28:45,  1.93it/s]  4%|▍         | 402/10692 [10:43<1:28:31,  1.94it/s]  4%|▍         | 403/10692 [10:44<1:28:22,  1.94it/s]  4%|▍         | 404/10692 [10:44<1:28:35,  1.94it/s]  4%|▍         | 405/10692 [10:45<1:28:42,  1.93it/s]  4%|▍         | 406/10692 [10:46<1:28:23,  1.94it/s]  4%|▍         | 407/10692 [10:46<1:29:22,  1.92it/s]  4%|▍         | 408/10692 [10:47<1:28:49,  1.93it/s]  4%|▍         | 409/10692 [10:47<1:28:52,  1.93it/s]  4%|▍         | 410/10692 [10:48<1:28:33,  1.94it/s]  4%|▍         | 411/10692 [10:48<1:29:34,  1.91it/s]  4%|▍         | 412/10692 [10:49<1:28:44,  1.93it/s]  4%|▍         | 413/10692 [10:49<1:28:38,  1.93it/s]  4%|▍         | 414/10692 [10:50<1:28:15,  1.94it/s]  4%|▍         | 415/10692 [10:50<1:27:56,  1.95it/s]  4%|▍         | 416/10692 [10:51<1:28:51,  1.93it/s]  4%|▍         | 417/10692 [10:51<1:28:42,  1.93it/s]  4%|▍         | 418/10692 [10:52<1:29:24,  1.92it/s]  4%|▍         | 419/10692 [10:52<1:29:16,  1.92it/s]  4%|▍         | 420/10692 [10:53<1:28:42,  1.93it/s]  4%|▍         | 421/10692 [10:53<1:28:23,  1.94it/s]  4%|▍         | 422/10692 [10:54<1:28:23,  1.94it/s]  4%|▍         | 423/10692 [10:54<1:27:58,  1.95it/s]  4%|▍         | 424/10692 [10:55<1:27:53,  1.95it/s]  4%|▍         | 425/10692 [10:55<1:27:40,  1.95it/s]                                                     {'loss': 5.3439, 'grad_norm': 0.46775805950164795, 'learning_rate': 0.000397196261682243, 'epoch': 0.04}
+  4%|▍         | 425/10692 [10:55<1:27:40,  1.95it/s]  4%|▍         | 426/10692 [10:56<1:28:02,  1.94it/s]  4%|▍         | 427/10692 [10:56<1:28:29,  1.93it/s]  4%|▍         | 428/10692 [10:57<1:28:50,  1.93it/s]  4%|▍         | 429/10692 [10:57<1:28:27,  1.93it/s]  4%|▍         | 430/10692 [10:58<1:28:13,  1.94it/s]  4%|▍         | 431/10692 [10:58<1:28:11,  1.94it/s]  4%|▍         | 432/10692 [10:59<1:27:57,  1.94it/s]  4%|▍         | 433/10692 [10:59<1:27:42,  1.95it/s]  4%|▍         | 434/10692 [11:00<1:27:24,  1.96it/s]  4%|▍         | 435/10692 [11:00<1:27:55,  1.94it/s]  4%|▍         | 436/10692 [11:01<1:27:33,  1.95it/s]  4%|▍         | 437/10692 [11:02<1:27:30,  1.95it/s]  4%|▍         | 438/10692 [11:02<1:27:21,  1.96it/s]  4%|▍         | 439/10692 [11:03<1:27:52,  1.94it/s]  4%|▍         | 440/10692 [11:03<1:28:56,  1.92it/s]  4%|▍         | 441/10692 [11:04<1:29:24,  1.91it/s]  4%|▍         | 442/10692 [11:04<1:29:53,  1.90it/s]  4%|▍         | 443/10692 [11:05<1:29:58,  1.90it/s]  4%|▍         | 444/10692 [11:05<1:29:59,  1.90it/s]  4%|▍         | 445/10692 [11:06<1:29:11,  1.91it/s]  4%|▍         | 446/10692 [11:06<1:28:57,  1.92it/s]  4%|▍         | 447/10692 [11:07<1:28:20,  1.93it/s]  4%|▍         | 448/10692 [11:07<1:29:13,  1.91it/s]  4%|▍         | 449/10692 [11:08<1:28:35,  1.93it/s]  4%|▍         | 450/10692 [11:08<1:28:08,  1.94it/s]{'loss': 5.2651, 'grad_norm': 0.5368751883506775, 'learning_rate': 0.0004205607476635514, 'epoch': 0.04}
+                                                       4%|▍         | 450/10692 [11:08<1:28:08,  1.94it/s]  4%|▍         | 451/10692 [11:09<1:27:46,  1.94it/s]  4%|▍         | 452/10692 [11:09<1:27:19,  1.95it/s]  4%|▍         | 453/10692 [11:10<1:27:02,  1.96it/s]  4%|▍         | 454/10692 [11:10<1:26:50,  1.96it/s]  4%|▍         | 455/10692 [11:11<1:26:51,  1.96it/s]  4%|▍         | 456/10692 [11:11<1:26:44,  1.97it/s]  4%|▍         | 457/10692 [11:12<1:26:41,  1.97it/s]  4%|▍         | 458/10692 [11:12<1:26:42,  1.97it/s]  4%|▍         | 459/10692 [11:13<1:27:10,  1.96it/s]  4%|▍         | 460/10692 [11:13<1:27:16,  1.95it/s]  4%|▍         | 461/10692 [11:14<1:27:00,  1.96it/s]  4%|▍         | 462/10692 [11:14<1:27:00,  1.96it/s]  4%|▍         | 463/10692 [11:15<1:27:06,  1.96it/s]  4%|▍         | 464/10692 [11:15<1:27:00,  1.96it/s]  4%|▍         | 465/10692 [11:16<1:26:41,  1.97it/s]  4%|▍         | 466/10692 [11:16<1:27:01,  1.96it/s]  4%|▍         | 467/10692 [11:17<1:27:09,  1.96it/s]  4%|▍         | 468/10692 [11:17<1:27:22,  1.95it/s]  4%|▍         | 469/10692 [11:18<1:27:25,  1.95it/s]  4%|▍         | 470/10692 [11:19<1:28:41,  1.92it/s]  4%|▍         | 471/10692 [11:19<1:28:01,  1.94it/s]  4%|▍         | 472/10692 [11:20<1:27:22,  1.95it/s]  4%|▍         | 473/10692 [11:20<1:27:18,  1.95it/s]  4%|▍         | 474/10692 [11:21<1:26:52,  1.96it/s]  4%|▍         | 475/10692 [11:21<1:26:28,  1.97it/s]{'loss': 5.2063, 'grad_norm': 0.5010877847671509, 'learning_rate': 0.0004439252336448598, 'epoch': 0.04}
+                                                       4%|▍         | 475/10692 [11:21<1:26:28,  1.97it/s]  4%|▍         | 476/10692 [11:22<1:26:57,  1.96it/s]  4%|▍         | 477/10692 [11:22<1:26:39,  1.96it/s]  4%|▍         | 478/10692 [11:23<1:26:28,  1.97it/s]  4%|▍         | 479/10692 [11:23<1:26:17,  1.97it/s]  4%|▍         | 480/10692 [11:24<1:26:16,  1.97it/s]  4%|▍         | 481/10692 [11:24<1:26:02,  1.98it/s]  5%|▍         | 482/10692 [11:25<1:26:07,  1.98it/s]  5%|▍         | 483/10692 [11:25<1:26:36,  1.96it/s]  5%|▍         | 484/10692 [11:26<1:26:22,  1.97it/s]  5%|▍         | 485/10692 [11:26<1:26:27,  1.97it/s]  5%|▍         | 486/10692 [11:27<1:26:40,  1.96it/s]  5%|▍         | 487/10692 [11:27<1:26:40,  1.96it/s]  5%|▍         | 488/10692 [11:28<1:26:33,  1.96it/s]  5%|▍         | 489/10692 [11:28<1:26:33,  1.96it/s]  5%|▍         | 490/10692 [11:29<1:26:25,  1.97it/s]  5%|▍         | 491/10692 [11:29<1:26:14,  1.97it/s]  5%|▍         | 492/10692 [11:30<1:26:17,  1.97it/s]  5%|▍         | 493/10692 [11:30<1:26:17,  1.97it/s]  5%|▍         | 494/10692 [11:31<1:26:04,  1.97it/s]  5%|▍         | 495/10692 [11:31<1:25:57,  1.98it/s]  5%|▍         | 496/10692 [11:32<1:25:58,  1.98it/s]  5%|▍         | 497/10692 [11:32<1:26:07,  1.97it/s]  5%|▍         | 498/10692 [11:33<1:26:17,  1.97it/s]  5%|▍         | 499/10692 [11:33<1:26:57,  1.95it/s]  5%|▍         | 500/10692 [11:34<1:27:09,  1.95it/s]{'loss': 5.1452, 'grad_norm': 0.6732818484306335, 'learning_rate': 0.00046728971962616824, 'epoch': 0.05}
+                                                       5%|▍         | 500/10692 [11:34<1:27:09,  1.95it/s]  5%|▍         | 501/10692 [11:34<1:27:19,  1.95it/s]  5%|▍         | 502/10692 [11:35<1:26:45,  1.96it/s]  5%|▍         | 503/10692 [11:35<1:26:51,  1.96it/s]  5%|▍         | 504/10692 [11:36<1:27:02,  1.95it/s]  5%|▍         | 505/10692 [11:36<1:26:36,  1.96it/s]  5%|▍         | 506/10692 [11:37<1:26:14,  1.97it/s]  5%|▍         | 507/10692 [11:37<1:26:07,  1.97it/s]  5%|▍         | 508/10692 [11:38<1:26:02,  1.97it/s]  5%|▍         | 509/10692 [11:38<1:25:58,  1.97it/s]  5%|▍         | 510/10692 [11:39<1:25:45,  1.98it/s]  5%|▍         | 511/10692 [11:39<1:25:37,  1.98it/s]  5%|▍         | 512/10692 [11:40<1:25:35,  1.98it/s]  5%|▍         | 513/10692 [11:40<1:25:40,  1.98it/s]  5%|▍         | 514/10692 [11:41<1:25:29,  1.98it/s]  5%|▍         | 515/10692 [11:41<1:25:37,  1.98it/s]  5%|▍         | 516/10692 [11:42<1:25:33,  1.98it/s]  5%|▍         | 517/10692 [11:42<1:25:39,  1.98it/s]  5%|▍         | 518/10692 [11:43<1:25:41,  1.98it/s]  5%|▍         | 519/10692 [11:43<1:25:40,  1.98it/s]  5%|▍         | 520/10692 [11:44<1:25:32,  1.98it/s]  5%|▍         | 521/10692 [11:44<1:25:32,  1.98it/s]  5%|▍         | 522/10692 [11:45<1:25:36,  1.98it/s]  5%|▍         | 523/10692 [11:45<1:25:25,  1.98it/s]  5%|▍         | 524/10692 [11:46<1:26:03,  1.97it/s]  5%|▍         | 525/10692 [11:46<1:26:07,  1.97it/s]{'loss': 5.0702, 'grad_norm': 0.5931141376495361, 'learning_rate': 0.0004906542056074767, 'epoch': 0.05}
+                                                       5%|▍         | 525/10692 [11:46<1:26:07,  1.97it/s]  5%|▍         | 526/10692 [11:47<1:25:57,  1.97it/s]  5%|▍         | 527/10692 [11:47<1:26:03,  1.97it/s]  5%|▍         | 528/10692 [11:48<1:25:58,  1.97it/s]  5%|▍         | 529/10692 [11:48<1:25:40,  1.98it/s]  5%|▍         | 530/10692 [11:49<1:25:44,  1.98it/s]  5%|▍         | 531/10692 [11:49<1:25:49,  1.97it/s]  5%|▍         | 532/10692 [11:50<1:26:02,  1.97it/s]  5%|▍         | 533/10692 [11:50<1:25:52,  1.97it/s]  5%|▍         | 534/10692 [11:51<1:26:06,  1.97it/s]  5%|▌         | 535/10692 [11:51<1:25:46,  1.97it/s]  5%|▌         | 536/10692 [11:52<1:25:45,  1.97it/s]  5%|▌         | 537/10692 [11:53<1:25:43,  1.97it/s]  5%|▌         | 538/10692 [11:53<1:26:01,  1.97it/s]  5%|▌         | 539/10692 [11:54<1:25:43,  1.97it/s]  5%|▌         | 540/10692 [11:54<1:26:08,  1.96it/s]  5%|▌         | 541/10692 [11:55<1:25:51,  1.97it/s]  5%|▌         | 542/10692 [11:55<1:25:49,  1.97it/s]  5%|▌         | 543/10692 [11:56<1:25:53,  1.97it/s]  5%|▌         | 544/10692 [11:56<1:25:26,  1.98it/s]  5%|▌         | 545/10692 [11:57<1:25:15,  1.98it/s]  5%|▌         | 546/10692 [11:57<1:25:14,  1.98it/s]  5%|▌         | 547/10692 [11:58<1:25:21,  1.98it/s]  5%|▌         | 548/10692 [11:58<1:25:27,  1.98it/s]  5%|▌         | 549/10692 [11:59<1:25:16,  1.98it/s]  5%|▌         | 550/10692 [11:59<1:25:16,  1.98it/s]{'loss': 5.0247, 'grad_norm': 0.4829762279987335, 'learning_rate': 0.000514018691588785, 'epoch': 0.05}
+                                                       5%|▌         | 550/10692 [11:59<1:25:16,  1.98it/s]  5%|▌         | 551/10692 [12:00<1:25:14,  1.98it/s]  5%|▌         | 552/10692 [12:00<1:25:10,  1.98it/s]  5%|▌         | 553/10692 [12:01<1:25:28,  1.98it/s]  5%|▌         | 554/10692 [12:01<1:25:29,  1.98it/s]  5%|▌         | 555/10692 [12:02<1:25:22,  1.98it/s]  5%|▌         | 556/10692 [12:02<1:25:22,  1.98it/s]  5%|▌         | 557/10692 [12:03<1:25:21,  1.98it/s]  5%|▌         | 558/10692 [12:03<1:25:14,  1.98it/s]  5%|▌         | 559/10692 [12:04<1:25:03,  1.99it/s]  5%|▌         | 560/10692 [12:04<1:25:23,  1.98it/s]  5%|▌         | 561/10692 [12:05<1:25:05,  1.98it/s]  5%|▌         | 562/10692 [12:05<1:24:54,  1.99it/s]  5%|▌         | 563/10692 [12:06<1:25:44,  1.97it/s]  5%|▌         | 564/10692 [12:06<1:25:48,  1.97it/s]  5%|▌         | 565/10692 [12:07<1:25:43,  1.97it/s]  5%|▌         | 566/10692 [12:07<1:25:33,  1.97it/s]  5%|▌         | 567/10692 [12:08<1:25:14,  1.98it/s]  5%|▌         | 568/10692 [12:08<1:25:05,  1.98it/s]  5%|▌         | 569/10692 [12:09<1:25:05,  1.98it/s]  5%|▌         | 570/10692 [12:09<1:24:59,  1.99it/s]  5%|▌         | 571/10692 [12:10<1:24:55,  1.99it/s]  5%|▌         | 572/10692 [12:10<1:24:59,  1.98it/s]  5%|▌         | 573/10692 [12:11<1:25:03,  1.98it/s]  5%|▌         | 574/10692 [12:11<1:25:14,  1.98it/s]  5%|▌         | 575/10692 [12:12<1:25:18,  1.98it/s]{'loss': 4.9765, 'grad_norm': 0.6290197372436523, 'learning_rate': 0.0005373831775700935, 'epoch': 0.05}
+                                                       5%|▌         | 575/10692 [12:12<1:25:18,  1.98it/s]  5%|▌         | 576/10692 [12:12<1:25:30,  1.97it/s]  5%|▌         | 577/10692 [12:13<1:25:08,  1.98it/s]  5%|▌         | 578/10692 [12:13<1:24:46,  1.99it/s]  5%|▌         | 579/10692 [12:14<1:24:47,  1.99it/s]  5%|▌         | 580/10692 [12:14<1:24:44,  1.99it/s]  5%|▌         | 581/10692 [12:15<1:24:42,  1.99it/s]  5%|▌         | 582/10692 [12:15<1:24:56,  1.98it/s]  5%|▌         | 583/10692 [12:16<1:24:54,  1.98it/s]  5%|▌         | 584/10692 [12:16<1:24:47,  1.99it/s]  5%|▌         | 585/10692 [12:17<1:24:37,  1.99it/s]  5%|▌         | 586/10692 [12:17<1:24:39,  1.99it/s]  5%|▌         | 587/10692 [12:18<1:24:27,  1.99it/s]  5%|▌         | 588/10692 [12:18<1:24:28,  1.99it/s]  6%|▌         | 589/10692 [12:19<1:24:34,  1.99it/s]  6%|▌         | 590/10692 [12:19<1:24:36,  1.99it/s]  6%|▌         | 591/10692 [12:20<1:24:42,  1.99it/s]  6%|▌         | 592/10692 [12:20<1:24:40,  1.99it/s]  6%|▌         | 593/10692 [12:21<1:24:31,  1.99it/s]  6%|▌         | 594/10692 [12:21<1:24:46,  1.99it/s]  6%|▌         | 595/10692 [12:22<1:24:48,  1.98it/s]  6%|▌         | 596/10692 [12:22<1:24:40,  1.99it/s]  6%|▌         | 597/10692 [12:23<1:24:31,  1.99it/s]  6%|▌         | 598/10692 [12:23<1:24:32,  1.99it/s]  6%|▌         | 599/10692 [12:24<1:24:27,  1.99it/s]  6%|▌         | 600/10692 [12:24<1:24:20,  1.99it/s]{'loss': 4.9308, 'grad_norm': 0.5385046601295471, 'learning_rate': 0.0005607476635514019, 'epoch': 0.06}
+                                                       6%|▌         | 600/10692 [12:24<1:24:20,  1.99it/s]  6%|▌         | 601/10692 [12:25<1:24:25,  1.99it/s]  6%|▌         | 602/10692 [12:25<1:24:18,  1.99it/s]  6%|▌         | 603/10692 [12:26<1:24:20,  1.99it/s]  6%|▌         | 604/10692 [12:26<1:24:25,  1.99it/s]  6%|▌         | 605/10692 [12:27<1:24:41,  1.99it/s]  6%|▌         | 606/10692 [12:27<1:24:36,  1.99it/s]  6%|▌         | 607/10692 [12:28<1:24:39,  1.99it/s]  6%|▌         | 608/10692 [12:28<1:24:19,  1.99it/s]  6%|▌         | 609/10692 [12:29<1:24:19,  1.99it/s]  6%|▌         | 610/10692 [12:29<1:24:12,  2.00it/s]  6%|▌         | 611/10692 [12:30<1:24:13,  2.00it/s]  6%|▌         | 612/10692 [12:30<1:24:03,  2.00it/s]  6%|▌         | 613/10692 [12:31<1:24:06,  2.00it/s]  6%|▌         | 614/10692 [12:31<1:24:11,  2.00it/s]  6%|▌         | 615/10692 [12:32<1:24:21,  1.99it/s]  6%|▌         | 616/10692 [12:32<1:24:23,  1.99it/s]  6%|▌         | 617/10692 [12:33<1:24:17,  1.99it/s]  6%|▌         | 618/10692 [12:33<1:24:06,  2.00it/s]  6%|▌         | 619/10692 [12:34<1:24:05,  2.00it/s]  6%|▌         | 620/10692 [12:34<1:24:06,  2.00it/s]  6%|▌         | 621/10692 [12:35<1:24:31,  1.99it/s]  6%|▌         | 622/10692 [12:35<1:24:17,  1.99it/s]  6%|▌         | 623/10692 [12:36<1:24:21,  1.99it/s]  6%|▌         | 624/10692 [12:36<1:24:16,  1.99it/s]  6%|▌         | 625/10692 [12:37<1:24:07,  1.99it/s]{'loss': 4.8873, 'grad_norm': 0.539746880531311, 'learning_rate': 0.0005841121495327103, 'epoch': 0.06}
+                                                       6%|▌         | 625/10692 [12:37<1:24:07,  1.99it/s]  6%|▌         | 626/10692 [12:37<1:24:20,  1.99it/s]  6%|▌         | 627/10692 [12:38<1:24:15,  1.99it/s]  6%|▌         | 628/10692 [12:38<1:24:06,  1.99it/s]  6%|▌         | 629/10692 [12:39<1:24:09,  1.99it/s]  6%|▌         | 630/10692 [12:39<1:24:13,  1.99it/s]  6%|▌         | 631/10692 [12:40<1:24:13,  1.99it/s]  6%|▌         | 632/10692 [12:40<1:24:20,  1.99it/s]  6%|▌         | 633/10692 [12:41<1:24:17,  1.99it/s]  6%|▌         | 634/10692 [12:41<1:24:08,  1.99it/s]  6%|▌         | 635/10692 [12:42<1:24:03,  1.99it/s]  6%|▌         | 636/10692 [12:42<1:24:00,  2.00it/s]  6%|▌         | 637/10692 [12:43<1:23:57,  2.00it/s]  6%|▌         | 638/10692 [12:43<1:23:46,  2.00it/s]  6%|▌         | 639/10692 [12:44<1:23:44,  2.00it/s]  6%|▌         | 640/10692 [12:44<1:23:49,  2.00it/s]  6%|▌         | 641/10692 [12:45<1:23:55,  2.00it/s]  6%|▌         | 642/10692 [12:45<1:23:51,  2.00it/s]  6%|▌         | 643/10692 [12:46<1:23:54,  2.00it/s]  6%|▌         | 644/10692 [12:46<1:23:49,  2.00it/s]  6%|▌         | 645/10692 [12:47<1:23:55,  2.00it/s]  6%|▌         | 646/10692 [12:47<1:23:50,  2.00it/s]  6%|▌         | 647/10692 [12:48<1:23:48,  2.00it/s]  6%|▌         | 648/10692 [12:48<1:23:53,  2.00it/s]  6%|▌         | 649/10692 [12:49<1:24:07,  1.99it/s]  6%|▌         | 650/10692 [12:49<1:24:16,  1.99it/s]{'loss': 4.841, 'grad_norm': 0.5633655786514282, 'learning_rate': 0.0006074766355140187, 'epoch': 0.06}
+                                                       6%|▌         | 650/10692 [12:49<1:24:16,  1.99it/s]  6%|▌         | 651/10692 [12:50<1:24:20,  1.98it/s]  6%|▌         | 652/10692 [12:50<1:24:14,  1.99it/s]  6%|▌         | 653/10692 [12:51<1:24:05,  1.99it/s]  6%|▌         | 654/10692 [12:51<1:23:58,  1.99it/s]  6%|▌         | 655/10692 [12:52<1:24:08,  1.99it/s]  6%|▌         | 656/10692 [12:52<1:24:05,  1.99it/s]  6%|▌         | 657/10692 [12:53<1:24:01,  1.99it/s]  6%|▌         | 658/10692 [12:53<1:23:50,  1.99it/s]  6%|▌         | 659/10692 [12:54<1:24:04,  1.99it/s]  6%|▌         | 660/10692 [12:54<1:23:59,  1.99it/s]  6%|▌         | 661/10692 [12:55<1:23:55,  1.99it/s]  6%|▌         | 662/10692 [12:55<1:23:45,  2.00it/s]  6%|▌         | 663/10692 [12:56<1:23:38,  2.00it/s]  6%|▌         | 664/10692 [12:56<1:23:40,  2.00it/s]  6%|▌         | 665/10692 [12:57<1:23:31,  2.00it/s]  6%|▌         | 666/10692 [12:57<1:23:24,  2.00it/s]  6%|▌         | 667/10692 [12:58<1:23:29,  2.00it/s]  6%|▌         | 668/10692 [12:58<1:23:22,  2.00it/s]  6%|▋         | 669/10692 [12:59<1:23:43,  2.00it/s]  6%|▋         | 670/10692 [12:59<1:23:34,  2.00it/s]  6%|▋         | 671/10692 [13:00<1:23:52,  1.99it/s]  6%|▋         | 672/10692 [13:00<1:24:05,  1.99it/s]  6%|▋         | 673/10692 [13:01<1:23:56,  1.99it/s]  6%|▋         | 674/10692 [13:01<1:23:50,  1.99it/s]  6%|▋         | 675/10692 [13:02<1:23:56,  1.99it/s]{'loss': 4.8106, 'grad_norm': 0.513303816318512, 'learning_rate': 0.0006308411214953271, 'epoch': 0.06}
+                                                       6%|▋         | 675/10692 [13:02<1:23:56,  1.99it/s]  6%|▋         | 676/10692 [13:02<1:23:54,  1.99it/s]  6%|▋         | 677/10692 [13:03<1:24:00,  1.99it/s]  6%|▋         | 678/10692 [13:03<1:24:05,  1.98it/s]  6%|▋         | 679/10692 [13:04<1:24:02,  1.99it/s]  6%|▋         | 680/10692 [13:04<1:24:08,  1.98it/s]  6%|▋         | 681/10692 [13:05<1:24:06,  1.98it/s]  6%|▋         | 682/10692 [13:05<1:23:59,  1.99it/s]  6%|▋         | 683/10692 [13:06<1:23:59,  1.99it/s]  6%|▋         | 684/10692 [13:06<1:23:49,  1.99it/s]  6%|▋         | 685/10692 [13:07<1:23:48,  1.99it/s]  6%|▋         | 686/10692 [13:07<1:23:40,  1.99it/s]  6%|▋         | 687/10692 [13:08<1:23:35,  1.99it/s]  6%|▋         | 688/10692 [13:08<1:23:29,  2.00it/s]  6%|▋         | 689/10692 [13:09<1:23:16,  2.00it/s]  6%|▋         | 690/10692 [13:09<1:23:18,  2.00it/s]  6%|▋         | 691/10692 [13:10<1:23:16,  2.00it/s]  6%|▋         | 692/10692 [13:10<1:23:11,  2.00it/s]  6%|▋         | 693/10692 [13:11<1:23:08,  2.00it/s]  6%|▋         | 694/10692 [13:11<1:23:24,  2.00it/s]  7%|▋         | 695/10692 [13:12<1:23:37,  1.99it/s]  7%|▋         | 696/10692 [13:12<1:23:26,  2.00it/s]  7%|▋         | 697/10692 [13:13<1:23:27,  2.00it/s]  7%|▋         | 698/10692 [13:13<1:23:16,  2.00it/s]  7%|▋         | 699/10692 [13:14<1:23:26,  2.00it/s]  7%|▋         | 700/10692 [13:14<1:23:10,  2.00it/s]                                                     {'loss': 4.7764, 'grad_norm': 0.44043901562690735, 'learning_rate': 0.0006542056074766354, 'epoch': 0.07}
+  7%|▋         | 700/10692 [13:14<1:23:10,  2.00it/s]  7%|▋         | 701/10692 [13:15<1:23:26,  2.00it/s]  7%|▋         | 702/10692 [13:15<1:23:30,  1.99it/s]  7%|▋         | 703/10692 [13:16<1:23:22,  2.00it/s]  7%|▋         | 704/10692 [13:16<1:23:10,  2.00it/s]  7%|▋         | 705/10692 [13:17<1:23:05,  2.00it/s]  7%|▋         | 706/10692 [13:17<1:23:02,  2.00it/s]  7%|▋         | 707/10692 [13:18<1:23:02,  2.00it/s]  7%|▋         | 708/10692 [13:18<1:22:58,  2.01it/s]  7%|▋         | 709/10692 [13:19<1:22:54,  2.01it/s]  7%|▋         | 710/10692 [13:19<1:22:59,  2.00it/s]  7%|▋         | 711/10692 [13:20<1:23:01,  2.00it/s]  7%|▋         | 712/10692 [13:20<1:23:01,  2.00it/s]  7%|▋         | 713/10692 [13:21<1:23:00,  2.00it/s]  7%|▋         | 714/10692 [13:21<1:23:05,  2.00it/s]  7%|▋         | 715/10692 [13:22<1:23:10,  2.00it/s]  7%|▋         | 716/10692 [13:22<1:23:29,  1.99it/s]  7%|▋         | 717/10692 [13:23<1:23:15,  2.00it/s]  7%|▋         | 718/10692 [13:23<1:23:07,  2.00it/s]  7%|▋         | 719/10692 [13:24<1:23:10,  2.00it/s]  7%|▋         | 720/10692 [13:24<1:23:06,  2.00it/s]  7%|▋         | 721/10692 [13:25<1:22:56,  2.00it/s]  7%|▋         | 722/10692 [13:25<1:22:56,  2.00it/s]  7%|▋         | 723/10692 [13:26<1:22:56,  2.00it/s]  7%|▋         | 724/10692 [13:26<1:22:54,  2.00it/s]  7%|▋         | 725/10692 [13:27<1:22:54,  2.00it/s]{'loss': 4.7463, 'grad_norm': 0.42140817642211914, 'learning_rate': 0.0006775700934579439, 'epoch': 0.07}
+                                                       7%|▋         | 725/10692 [13:27<1:22:54,  2.00it/s]  7%|▋         | 726/10692 [13:27<1:23:04,  2.00it/s]  7%|▋         | 727/10692 [13:28<1:22:55,  2.00it/s]  7%|▋         | 728/10692 [13:28<1:23:07,  2.00it/s]  7%|▋         | 729/10692 [13:29<1:23:00,  2.00it/s]  7%|▋         | 730/10692 [13:29<1:22:57,  2.00it/s]  7%|▋         | 731/10692 [13:30<1:22:53,  2.00it/s]  7%|▋         | 732/10692 [13:30<1:23:11,  2.00it/s]  7%|▋         | 733/10692 [13:31<1:23:14,  1.99it/s]  7%|▋         | 734/10692 [13:31<1:23:08,  2.00it/s]  7%|▋         | 735/10692 [13:32<1:22:58,  2.00it/s]  7%|▋         | 736/10692 [13:32<1:23:03,  2.00it/s]  7%|▋         | 737/10692 [13:33<1:23:03,  2.00it/s]  7%|▋         | 738/10692 [13:33<1:22:55,  2.00it/s]  7%|▋         | 739/10692 [13:34<1:22:50,  2.00it/s]  7%|▋         | 740/10692 [13:34<1:22:45,  2.00it/s]  7%|▋         | 741/10692 [13:35<1:22:46,  2.00it/s]  7%|▋         | 742/10692 [13:35<1:22:43,  2.00it/s]  7%|▋         | 743/10692 [13:36<1:22:37,  2.01it/s]  7%|▋         | 744/10692 [13:36<1:22:37,  2.01it/s]  7%|▋         | 745/10692 [13:37<1:22:46,  2.00it/s]  7%|▋         | 746/10692 [13:37<1:22:43,  2.00it/s]  7%|▋         | 747/10692 [13:38<1:22:50,  2.00it/s]  7%|▋         | 748/10692 [13:38<1:22:50,  2.00it/s]  7%|▋         | 749/10692 [13:39<1:22:42,  2.00it/s]  7%|▋         | 750/10692 [13:39<1:22:38,  2.00it/s]{'loss': 4.7117, 'grad_norm': 0.4104544222354889, 'learning_rate': 0.0007009345794392523, 'epoch': 0.07}
+                                                       7%|▋         | 750/10692 [13:39<1:22:38,  2.00it/s]  7%|▋         | 751/10692 [13:40<1:22:50,  2.00it/s]  7%|▋         | 752/10692 [13:40<1:22:36,  2.01it/s]  7%|▋         | 753/10692 [13:41<1:22:56,  2.00it/s]  7%|▋         | 754/10692 [13:41<1:22:53,  2.00it/s]  7%|▋         | 755/10692 [13:42<1:22:35,  2.01it/s]  7%|▋         | 756/10692 [13:42<1:22:32,  2.01it/s]  7%|▋         | 757/10692 [13:43<1:22:26,  2.01it/s]  7%|▋         | 758/10692 [13:43<1:22:23,  2.01it/s]  7%|▋         | 759/10692 [13:44<1:22:32,  2.01it/s]  7%|▋         | 760/10692 [13:44<1:22:37,  2.00it/s]  7%|▋         | 761/10692 [13:45<1:22:30,  2.01it/s]  7%|▋         | 762/10692 [13:45<1:22:29,  2.01it/s]  7%|▋         | 763/10692 [13:46<1:22:32,  2.00it/s]  7%|▋         | 764/10692 [13:46<1:22:24,  2.01it/s]  7%|▋         | 765/10692 [13:47<1:22:31,  2.00it/s]  7%|▋         | 766/10692 [13:47<1:22:36,  2.00it/s]  7%|▋         | 767/10692 [13:48<1:22:44,  2.00it/s]  7%|▋         | 768/10692 [13:48<1:22:29,  2.01it/s]  7%|▋         | 769/10692 [13:49<1:22:33,  2.00it/s]  7%|▋         | 770/10692 [13:49<1:22:23,  2.01it/s]  7%|▋         | 771/10692 [13:50<1:22:23,  2.01it/s]  7%|▋         | 772/10692 [13:50<1:22:18,  2.01it/s]  7%|▋         | 773/10692 [13:51<1:22:22,  2.01it/s]  7%|▋         | 774/10692 [13:51<1:22:23,  2.01it/s]  7%|▋         | 775/10692 [13:52<1:22:34,  2.00it/s]                                                     {'loss': 4.6828, 'grad_norm': 0.410610556602478, 'learning_rate': 0.0007242990654205608, 'epoch': 0.07}
+  7%|▋         | 775/10692 [13:52<1:22:34,  2.00it/s]  7%|▋         | 776/10692 [13:52<1:22:41,  2.00it/s]  7%|▋         | 777/10692 [13:53<1:22:27,  2.00it/s]  7%|▋         | 778/10692 [13:53<1:22:22,  2.01it/s]  7%|▋         | 779/10692 [13:54<1:22:16,  2.01it/s]  7%|▋         | 780/10692 [13:54<1:22:20,  2.01it/s]  7%|▋         | 781/10692 [13:55<1:22:17,  2.01it/s]  7%|▋         | 782/10692 [13:55<1:22:09,  2.01it/s]  7%|▋         | 783/10692 [13:56<1:22:12,  2.01it/s]  7%|▋         | 784/10692 [13:56<1:22:14,  2.01it/s]  7%|▋         | 785/10692 [13:57<1:22:15,  2.01it/s]  7%|▋         | 786/10692 [13:57<1:22:11,  2.01it/s]  7%|▋         | 787/10692 [13:58<1:22:07,  2.01it/s]  7%|▋         | 788/10692 [13:58<1:22:14,  2.01it/s]  7%|▋         | 789/10692 [13:59<1:22:11,  2.01it/s]  7%|▋         | 790/10692 [13:59<1:22:11,  2.01it/s]  7%|▋         | 791/10692 [14:00<1:22:02,  2.01it/s]  7%|▋         | 792/10692 [14:00<1:22:08,  2.01it/s]  7%|▋         | 793/10692 [14:01<1:22:12,  2.01it/s]  7%|▋         | 794/10692 [14:01<1:22:01,  2.01it/s]  7%|▋         | 795/10692 [14:02<1:21:59,  2.01it/s]  7%|▋         | 796/10692 [14:02<1:21:55,  2.01it/s]  7%|▋         | 797/10692 [14:03<1:22:15,  2.00it/s]  7%|▋         | 798/10692 [14:03<1:22:15,  2.00it/s]  7%|▋         | 799/10692 [14:04<1:22:17,  2.00it/s]  7%|▋         | 800/10692 [14:04<1:22:14,  2.00it/s]{'loss': 4.6642, 'grad_norm': 0.4583929181098938, 'learning_rate': 0.0007476635514018691, 'epoch': 0.07}
+                                                       7%|▋         | 800/10692 [14:04<1:22:14,  2.00it/s]  7%|▋         | 801/10692 [14:05<1:22:15,  2.00it/s]  8%|▊         | 802/10692 [14:05<1:22:01,  2.01it/s]  8%|▊         | 803/10692 [14:06<1:21:55,  2.01it/s]  8%|▊         | 804/10692 [14:06<1:21:56,  2.01it/s]  8%|▊         | 805/10692 [14:07<1:21:54,  2.01it/s]  8%|▊         | 806/10692 [14:07<1:21:56,  2.01it/s]  8%|▊         | 807/10692 [14:08<1:21:53,  2.01it/s]  8%|▊         | 808/10692 [14:08<1:21:54,  2.01it/s]  8%|▊         | 809/10692 [14:09<1:21:48,  2.01it/s]  8%|▊         | 810/10692 [14:09<1:21:53,  2.01it/s]  8%|▊         | 811/10692 [14:10<1:21:46,  2.01it/s]  8%|▊         | 812/10692 [14:10<1:21:51,  2.01it/s]  8%|▊         | 813/10692 [14:11<1:21:55,  2.01it/s]  8%|▊         | 814/10692 [14:11<1:21:47,  2.01it/s]  8%|▊         | 815/10692 [14:12<1:21:48,  2.01it/s]  8%|▊         | 816/10692 [14:12<1:21:45,  2.01it/s]  8%|▊         | 817/10692 [14:13<1:21:41,  2.01it/s]  8%|▊         | 818/10692 [14:13<1:21:56,  2.01it/s]  8%|▊         | 819/10692 [14:14<1:21:52,  2.01it/s]  8%|▊         | 820/10692 [14:14<1:21:52,  2.01it/s]  8%|▊         | 821/10692 [14:15<1:21:54,  2.01it/s]  8%|▊         | 822/10692 [14:15<1:21:48,  2.01it/s]  8%|▊         | 823/10692 [14:16<1:21:46,  2.01it/s]  8%|▊         | 824/10692 [14:16<1:21:52,  2.01it/s]  8%|▊         | 825/10692 [14:17<1:22:05,  2.00it/s]{'loss': 4.6331, 'grad_norm': 0.3948143422603607, 'learning_rate': 0.0007710280373831776, 'epoch': 0.08}
+                                                       8%|▊         | 825/10692 [14:17<1:22:05,  2.00it/s]  8%|▊         | 826/10692 [14:17<1:22:05,  2.00it/s]  8%|▊         | 827/10692 [14:18<1:21:59,  2.01it/s]  8%|▊         | 828/10692 [14:18<1:21:55,  2.01it/s]  8%|▊         | 829/10692 [14:19<1:21:45,  2.01it/s]  8%|▊         | 830/10692 [14:19<1:21:54,  2.01it/s]  8%|▊         | 831/10692 [14:20<1:21:56,  2.01it/s]  8%|▊         | 832/10692 [14:20<1:21:46,  2.01it/s]  8%|▊         | 833/10692 [14:21<1:21:39,  2.01it/s]  8%|▊         | 834/10692 [14:21<1:21:59,  2.00it/s]  8%|▊         | 835/10692 [14:22<1:21:51,  2.01it/s]  8%|▊         | 836/10692 [14:22<1:21:45,  2.01it/s]  8%|▊         | 837/10692 [14:23<1:21:45,  2.01it/s]  8%|▊         | 838/10692 [14:23<1:21:42,  2.01it/s]  8%|▊         | 839/10692 [14:24<1:21:37,  2.01it/s]  8%|▊         | 840/10692 [14:24<1:21:33,  2.01it/s]  8%|▊         | 841/10692 [14:25<1:21:31,  2.01it/s]  8%|▊         | 842/10692 [14:25<1:21:33,  2.01it/s]  8%|▊         | 843/10692 [14:26<1:21:36,  2.01it/s]  8%|▊         | 844/10692 [14:26<1:21:37,  2.01it/s]  8%|▊         | 845/10692 [14:27<1:21:30,  2.01it/s]  8%|▊         | 846/10692 [14:27<1:21:29,  2.01it/s]  8%|▊         | 847/10692 [14:28<1:21:28,  2.01it/s]  8%|▊         | 848/10692 [14:28<1:21:31,  2.01it/s]  8%|▊         | 849/10692 [14:29<1:21:31,  2.01it/s]  8%|▊         | 850/10692 [14:29<1:21:28,  2.01it/s]{'loss': 4.6161, 'grad_norm': 0.3561970889568329, 'learning_rate': 0.000794392523364486, 'epoch': 0.08}
+                                                       8%|▊         | 850/10692 [14:29<1:21:28,  2.01it/s]  8%|▊         | 851/10692 [14:30<1:21:33,  2.01it/s]  8%|▊         | 852/10692 [14:30<1:21:28,  2.01it/s]  8%|▊         | 853/10692 [14:31<1:21:40,  2.01it/s]  8%|▊         | 854/10692 [14:31<1:21:32,  2.01it/s]  8%|▊         | 855/10692 [14:32<1:21:32,  2.01it/s]  8%|▊         | 856/10692 [14:32<1:21:34,  2.01it/s]  8%|▊         | 857/10692 [14:33<1:21:27,  2.01it/s]  8%|▊         | 858/10692 [14:33<1:21:32,  2.01it/s]  8%|▊         | 859/10692 [14:34<1:21:24,  2.01it/s]  8%|▊         | 860/10692 [14:34<1:21:28,  2.01it/s]  8%|▊         | 861/10692 [14:35<1:21:31,  2.01it/s]  8%|▊         | 862/10692 [14:35<1:21:23,  2.01it/s]  8%|▊         | 863/10692 [14:36<1:21:28,  2.01it/s]  8%|▊         | 864/10692 [14:36<1:21:15,  2.02it/s]  8%|▊         | 865/10692 [14:37<1:21:18,  2.01it/s]  8%|▊         | 866/10692 [14:37<1:21:13,  2.02it/s]  8%|▊         | 867/10692 [14:38<1:21:22,  2.01it/s]  8%|▊         | 868/10692 [14:38<1:21:20,  2.01it/s]  8%|▊         | 869/10692 [14:39<1:21:19,  2.01it/s]  8%|▊         | 870/10692 [14:39<1:21:23,  2.01it/s]  8%|▊         | 871/10692 [14:40<1:21:18,  2.01it/s]  8%|▊         | 872/10692 [14:40<1:21:15,  2.01it/s]  8%|▊         | 873/10692 [14:41<1:21:09,  2.02it/s]  8%|▊         | 874/10692 [14:41<1:21:14,  2.01it/s]  8%|▊         | 875/10692 [14:42<1:21:07,  2.02it/s]{'loss': 4.5947, 'grad_norm': 0.42973092198371887, 'learning_rate': 0.0008177570093457944, 'epoch': 0.08}
+                                                       8%|▊         | 875/10692 [14:42<1:21:07,  2.02it/s]  8%|▊         | 876/10692 [14:42<1:21:21,  2.01it/s]  8%|▊         | 877/10692 [14:43<1:21:14,  2.01it/s]  8%|▊         | 878/10692 [14:43<1:21:07,  2.02it/s]  8%|▊         | 879/10692 [14:44<1:21:07,  2.02it/s]  8%|▊         | 880/10692 [14:44<1:21:10,  2.01it/s]  8%|▊         | 881/10692 [14:45<1:21:09,  2.01it/s]  8%|▊         | 882/10692 [14:45<1:21:10,  2.01it/s]  8%|▊         | 883/10692 [14:46<1:21:14,  2.01it/s]  8%|▊         | 884/10692 [14:46<1:21:14,  2.01it/s]  8%|▊         | 885/10692 [14:47<1:21:07,  2.01it/s]  8%|▊         | 886/10692 [14:47<1:21:09,  2.01it/s]  8%|▊         | 887/10692 [14:48<1:21:18,  2.01it/s]  8%|▊         | 888/10692 [14:48<1:21:12,  2.01it/s]  8%|▊         | 889/10692 [14:49<1:21:12,  2.01it/s]  8%|▊         | 890/10692 [14:49<1:21:06,  2.01it/s]  8%|▊         | 891/10692 [14:50<1:21:15,  2.01it/s]  8%|▊         | 892/10692 [14:50<1:21:16,  2.01it/s]  8%|▊         | 893/10692 [14:51<1:21:11,  2.01it/s]  8%|▊         | 894/10692 [14:51<1:21:12,  2.01it/s]  8%|▊         | 895/10692 [14:52<1:21:06,  2.01it/s]  8%|▊         | 896/10692 [14:52<1:21:07,  2.01it/s]  8%|▊         | 897/10692 [14:53<1:21:06,  2.01it/s]  8%|▊         | 898/10692 [14:53<1:21:07,  2.01it/s]  8%|▊         | 899/10692 [14:54<1:21:44,  2.00it/s]  8%|▊         | 900/10692 [14:54<1:21:37,  2.00it/s]                                                     {'loss': 4.5661, 'grad_norm': 0.4565073251724243, 'learning_rate': 0.0008411214953271028, 'epoch': 0.08}
+  8%|▊         | 900/10692 [14:54<1:21:37,  2.00it/s]  8%|▊         | 901/10692 [14:55<1:21:32,  2.00it/s]  8%|▊         | 902/10692 [14:55<1:21:23,  2.00it/s]  8%|▊         | 903/10692 [14:56<1:21:28,  2.00it/s]  8%|▊         | 904/10692 [14:56<1:21:36,  2.00it/s]  8%|▊         | 905/10692 [14:57<1:21:22,  2.00it/s]  8%|▊         | 906/10692 [14:57<1:21:16,  2.01it/s]  8%|▊         | 907/10692 [14:58<1:21:13,  2.01it/s]  8%|▊         | 908/10692 [14:58<1:21:11,  2.01it/s]  9%|▊         | 909/10692 [14:59<1:21:06,  2.01it/s]  9%|▊         | 910/10692 [14:59<1:21:06,  2.01it/s]  9%|▊         | 911/10692 [15:00<1:21:05,  2.01it/s]  9%|▊         | 912/10692 [15:00<1:20:58,  2.01it/s]  9%|▊         | 913/10692 [15:01<1:21:03,  2.01it/s]  9%|▊         | 914/10692 [15:01<1:21:06,  2.01it/s]  9%|▊         | 915/10692 [15:02<1:20:59,  2.01it/s]  9%|▊         | 916/10692 [15:02<1:21:00,  2.01it/s]  9%|▊         | 917/10692 [15:03<1:21:08,  2.01it/s]  9%|▊         | 918/10692 [15:03<1:21:03,  2.01it/s]  9%|▊         | 919/10692 [15:04<1:21:03,  2.01it/s]  9%|▊         | 920/10692 [15:04<1:21:00,  2.01it/s]  9%|▊         | 921/10692 [15:05<1:20:52,  2.01it/s]  9%|▊         | 922/10692 [15:05<1:20:54,  2.01it/s]  9%|▊         | 923/10692 [15:06<1:20:54,  2.01it/s]  9%|▊         | 924/10692 [15:06<1:20:54,  2.01it/s]  9%|▊         | 925/10692 [15:07<1:20:54,  2.01it/s]{'loss': 4.5476, 'grad_norm': 0.37545260787010193, 'learning_rate': 0.0008644859813084113, 'epoch': 0.09}
+                                                       9%|▊         | 925/10692 [15:07<1:20:54,  2.01it/s]  9%|▊         | 926/10692 [15:07<1:21:15,  2.00it/s]  9%|▊         | 927/10692 [15:08<1:21:01,  2.01it/s]  9%|▊         | 928/10692 [15:08<1:20:56,  2.01it/s]  9%|▊         | 929/10692 [15:09<1:20:52,  2.01it/s]  9%|▊         | 930/10692 [15:09<1:20:50,  2.01it/s]  9%|▊         | 931/10692 [15:10<1:20:52,  2.01it/s]  9%|▊         | 932/10692 [15:10<1:20:53,  2.01it/s]  9%|▊         | 933/10692 [15:10<1:20:52,  2.01it/s]  9%|▊         | 934/10692 [15:11<1:20:44,  2.01it/s]  9%|▊         | 935/10692 [15:11<1:20:42,  2.01it/s]  9%|▉         | 936/10692 [15:12<1:20:33,  2.02it/s]  9%|▉         | 937/10692 [15:12<1:20:44,  2.01it/s]  9%|▉         | 938/10692 [15:13<1:20:38,  2.02it/s]  9%|▉         | 939/10692 [15:13<1:20:37,  2.02it/s]  9%|▉         | 940/10692 [15:14<1:20:29,  2.02it/s]  9%|▉         | 941/10692 [15:14<1:20:34,  2.02it/s]  9%|▉         | 942/10692 [15:15<1:20:33,  2.02it/s]  9%|▉         | 943/10692 [15:15<1:20:43,  2.01it/s]  9%|▉         | 944/10692 [15:16<1:20:43,  2.01it/s]  9%|▉         | 945/10692 [15:16<1:20:57,  2.01it/s]  9%|▉         | 946/10692 [15:17<1:21:16,  2.00it/s]  9%|▉         | 947/10692 [15:17<1:21:04,  2.00it/s]  9%|▉         | 948/10692 [15:18<1:20:55,  2.01it/s]  9%|▉         | 949/10692 [15:18<1:20:43,  2.01it/s]  9%|▉         | 950/10692 [15:19<1:20:40,  2.01it/s]{'loss': 4.5281, 'grad_norm': 0.34423187375068665, 'learning_rate': 0.0008878504672897196, 'epoch': 0.09}
+                                                       9%|▉         | 950/10692 [15:19<1:20:40,  2.01it/s]  9%|▉         | 951/10692 [15:19<1:20:45,  2.01it/s]  9%|▉         | 952/10692 [15:20<1:20:41,  2.01it/s]  9%|▉         | 953/10692 [15:20<1:20:36,  2.01it/s]  9%|▉         | 954/10692 [15:21<1:20:39,  2.01it/s]  9%|▉         | 955/10692 [15:21<1:20:36,  2.01it/s]  9%|▉         | 956/10692 [15:22<1:20:30,  2.02it/s]  9%|▉         | 957/10692 [15:22<1:20:31,  2.02it/s]  9%|▉         | 958/10692 [15:23<1:20:25,  2.02it/s]  9%|▉         | 959/10692 [15:23<1:20:31,  2.01it/s]  9%|▉         | 960/10692 [15:24<1:20:30,  2.01it/s]  9%|▉         | 961/10692 [15:24<1:20:26,  2.02it/s]  9%|▉         | 962/10692 [15:25<1:20:24,  2.02it/s]  9%|▉         | 963/10692 [15:25<1:20:21,  2.02it/s]  9%|▉         | 964/10692 [15:26<1:20:29,  2.01it/s]  9%|▉         | 965/10692 [15:26<1:20:37,  2.01it/s]  9%|▉         | 966/10692 [15:27<1:20:36,  2.01it/s]  9%|▉         | 967/10692 [15:27<1:20:35,  2.01it/s]  9%|▉         | 968/10692 [15:28<1:20:25,  2.02it/s]  9%|▉         | 969/10692 [15:28<1:20:25,  2.01it/s]  9%|▉         | 970/10692 [15:29<1:20:15,  2.02it/s]  9%|▉         | 971/10692 [15:29<1:20:19,  2.02it/s]  9%|▉         | 972/10692 [15:30<1:20:15,  2.02it/s]  9%|▉         | 973/10692 [15:30<1:20:22,  2.02it/s]  9%|▉         | 974/10692 [15:31<1:20:30,  2.01it/s]  9%|▉         | 975/10692 [15:31<1:20:20,  2.02it/s]{'loss': 4.5052, 'grad_norm': 0.37251192331314087, 'learning_rate': 0.0009112149532710281, 'epoch': 0.09}
+                                                       9%|▉         | 975/10692 [15:31<1:20:20,  2.02it/s]  9%|▉         | 976/10692 [15:32<1:20:28,  2.01it/s]  9%|▉         | 977/10692 [15:32<1:20:26,  2.01it/s]  9%|▉         | 978/10692 [15:33<1:20:20,  2.02it/s]  9%|▉         | 979/10692 [15:33<1:20:28,  2.01it/s]  9%|▉         | 980/10692 [15:34<1:20:21,  2.01it/s]  9%|▉         | 981/10692 [15:34<1:20:19,  2.01it/s]  9%|▉         | 982/10692 [15:35<1:20:30,  2.01it/s]  9%|▉         | 983/10692 [15:35<1:20:29,  2.01it/s]  9%|▉         | 984/10692 [15:36<1:20:26,  2.01it/s]  9%|▉         | 985/10692 [15:36<1:20:16,  2.02it/s]  9%|▉         | 986/10692 [15:37<1:20:17,  2.01it/s]  9%|▉         | 987/10692 [15:37<1:20:13,  2.02it/s]  9%|▉         | 988/10692 [15:38<1:20:28,  2.01it/s]  9%|▉         | 989/10692 [15:38<1:20:20,  2.01it/s]  9%|▉         | 990/10692 [15:39<1:20:18,  2.01it/s]  9%|▉         | 991/10692 [15:39<1:20:19,  2.01it/s]  9%|▉         | 992/10692 [15:40<1:20:13,  2.02it/s]  9%|▉         | 993/10692 [15:40<1:20:12,  2.02it/s]  9%|▉         | 994/10692 [15:41<1:20:06,  2.02it/s]  9%|▉         | 995/10692 [15:41<1:20:06,  2.02it/s]  9%|▉         | 996/10692 [15:42<1:20:11,  2.02it/s]  9%|▉         | 997/10692 [15:42<1:20:14,  2.01it/s]  9%|▉         | 998/10692 [15:43<1:20:06,  2.02it/s]  9%|▉         | 999/10692 [15:43<1:20:16,  2.01it/s]  9%|▉         | 1000/10692 [15:44<1:20:12,  2.01it/s]{'loss': 4.485, 'grad_norm': 0.4422452449798584, 'learning_rate': 0.0009345794392523365, 'epoch': 0.09}
+                                                        9%|▉         | 1000/10692 [15:44<1:20:12,  2.01it/s]  9%|▉         | 1001/10692 [15:44<1:20:23,  2.01it/s]  9%|▉         | 1002/10692 [15:45<1:20:31,  2.01it/s]  9%|▉         | 1003/10692 [15:45<1:20:28,  2.01it/s]  9%|▉         | 1004/10692 [15:46<1:20:28,  2.01it/s]  9%|▉         | 1005/10692 [15:46<1:20:28,  2.01it/s]  9%|▉         | 1006/10692 [15:47<1:20:22,  2.01it/s]  9%|▉         | 1007/10692 [15:47<1:20:15,  2.01it/s]  9%|▉         | 1008/10692 [15:48<1:20:21,  2.01it/s]  9%|▉         | 1009/10692 [15:48<1:20:43,  2.00it/s]  9%|▉         | 1010/10692 [15:49<1:20:24,  2.01it/s]  9%|▉         | 1011/10692 [15:49<1:20:18,  2.01it/s]  9%|▉         | 1012/10692 [15:50<1:20:06,  2.01it/s]  9%|▉         | 1013/10692 [15:50<1:20:03,  2.01it/s]  9%|▉         | 1014/10692 [15:51<1:19:58,  2.02it/s]  9%|▉         | 1015/10692 [15:51<1:19:53,  2.02it/s] 10%|▉         | 1016/10692 [15:52<1:19:52,  2.02it/s] 10%|▉         | 1017/10692 [15:52<1:19:55,  2.02it/s] 10%|▉         | 1018/10692 [15:53<1:19:48,  2.02it/s] 10%|▉         | 1019/10692 [15:53<1:20:02,  2.01it/s] 10%|▉         | 1020/10692 [15:54<1:20:07,  2.01it/s] 10%|▉         | 1021/10692 [15:54<1:20:00,  2.01it/s] 10%|▉         | 1022/10692 [15:55<1:20:04,  2.01it/s] 10%|▉         | 1023/10692 [15:55<1:19:54,  2.02it/s] 10%|▉         | 1024/10692 [15:56<1:19:57,  2.02it/s] 10%|▉         | 1025/10692 [15:56<1:19:51,  2.02it/s]{'loss': 4.4716, 'grad_norm': 0.3197115957736969, 'learning_rate': 0.000957943925233645, 'epoch': 0.1}
+                                                       10%|▉         | 1025/10692 [15:56<1:19:51,  2.02it/s] 10%|▉         | 1026/10692 [15:57<1:20:03,  2.01it/s] 10%|▉         | 1027/10692 [15:57<1:20:05,  2.01it/s] 10%|▉         | 1028/10692 [15:58<1:19:58,  2.01it/s] 10%|▉         | 1029/10692 [15:58<1:19:57,  2.01it/s] 10%|▉         | 1030/10692 [15:59<1:19:53,  2.02it/s] 10%|▉         | 1031/10692 [15:59<1:20:03,  2.01it/s] 10%|▉         | 1032/10692 [16:00<1:20:01,  2.01it/s] 10%|▉         | 1033/10692 [16:00<1:19:52,  2.02it/s] 10%|▉         | 1034/10692 [16:01<1:20:01,  2.01it/s] 10%|▉         | 1035/10692 [16:01<1:19:55,  2.01it/s] 10%|▉         | 1036/10692 [16:02<1:19:54,  2.01it/s] 10%|▉         | 1037/10692 [16:02<1:19:54,  2.01it/s] 10%|▉         | 1038/10692 [16:03<1:19:48,  2.02it/s] 10%|▉         | 1039/10692 [16:03<1:19:43,  2.02it/s] 10%|▉         | 1040/10692 [16:04<1:19:42,  2.02it/s] 10%|▉         | 1041/10692 [16:04<1:19:39,  2.02it/s] 10%|▉         | 1042/10692 [16:05<1:32:42,  1.73it/s] 10%|▉         | 1043/10692 [16:05<1:28:47,  1.81it/s] 10%|▉         | 1044/10692 [16:06<1:26:02,  1.87it/s] 10%|▉         | 1045/10692 [16:06<1:24:25,  1.90it/s] 10%|▉         | 1046/10692 [16:07<1:23:00,  1.94it/s] 10%|▉         | 1047/10692 [16:07<1:22:01,  1.96it/s] 10%|▉         | 1048/10692 [16:08<1:34:47,  1.70it/s] 10%|▉         | 1049/10692 [16:09<1:30:15,  1.78it/s] 10%|▉         | 1050/10692 [16:09<1:27:00,  1.85it/s]{'loss': 4.455, 'grad_norm': 0.3625889718532562, 'learning_rate': 0.0009813084112149533, 'epoch': 0.1}
+                                                       10%|▉         | 1050/10692 [16:09<1:27:00,  1.85it/s] 10%|▉         | 1051/10692 [16:10<1:24:54,  1.89it/s] 10%|▉         | 1052/10692 [16:10<1:23:20,  1.93it/s] 10%|▉         | 1053/10692 [16:11<1:22:15,  1.95it/s] 10%|▉         | 1054/10692 [16:11<1:21:28,  1.97it/s] 10%|▉         | 1055/10692 [16:12<1:20:57,  1.98it/s] 10%|▉         | 1056/10692 [16:12<1:20:30,  1.99it/s] 10%|▉         | 1057/10692 [16:13<1:20:15,  2.00it/s] 10%|▉         | 1058/10692 [16:13<1:19:58,  2.01it/s] 10%|▉         | 1059/10692 [16:14<1:19:49,  2.01it/s] 10%|▉         | 1060/10692 [16:14<1:19:41,  2.01it/s] 10%|▉         | 1061/10692 [16:15<1:19:37,  2.02it/s] 10%|▉         | 1062/10692 [16:15<1:19:36,  2.02it/s] 10%|▉         | 1063/10692 [16:16<1:19:40,  2.01it/s] 10%|▉         | 1064/10692 [16:16<1:19:54,  2.01it/s] 10%|▉         | 1065/10692 [16:17<1:19:49,  2.01it/s] 10%|▉         | 1066/10692 [16:17<1:19:48,  2.01it/s] 10%|▉         | 1067/10692 [16:18<1:19:40,  2.01it/s] 10%|▉         | 1068/10692 [16:18<1:19:36,  2.02it/s] 10%|▉         | 1069/10692 [16:19<1:19:29,  2.02it/s] 10%|█         | 1070/10692 [16:19<1:19:33,  2.02it/s] 10%|█         | 1071/10692 [16:20<1:19:27,  2.02it/s] 10%|█         | 1072/10692 [16:20<1:19:27,  2.02it/s] 10%|█         | 1073/10692 [16:21<1:19:21,  2.02it/s] 10%|█         | 1074/10692 [16:21<1:19:27,  2.02it/s] 10%|█         | 1075/10692 [16:22<1:19:21,  2.02it/s]{'loss': 4.4382, 'grad_norm': 0.3068883419036865, 'learning_rate': 0.0009999993337319907, 'epoch': 0.1}
+                                                       10%|█         | 1075/10692 [16:22<1:19:21,  2.02it/s] 10%|█         | 1076/10692 [16:22<1:19:35,  2.01it/s] 10%|█         | 1077/10692 [16:23<1:19:33,  2.01it/s] 10%|█         | 1078/10692 [16:23<1:19:30,  2.02it/s] 10%|█         | 1079/10692 [16:24<1:19:40,  2.01it/s] 10%|█         | 1080/10692 [16:24<1:19:39,  2.01it/s] 10%|█         | 1081/10692 [16:25<1:19:35,  2.01it/s] 10%|█         | 1082/10692 [16:25<1:19:31,  2.01it/s] 10%|█         | 1083/10692 [16:26<1:19:35,  2.01it/s] 10%|█         | 1084/10692 [16:26<1:19:31,  2.01it/s] 10%|█         | 1085/10692 [16:27<1:19:30,  2.01it/s] 10%|█         | 1086/10692 [16:27<1:19:30,  2.01it/s] 10%|█         | 1087/10692 [16:28<1:19:22,  2.02it/s] 10%|█         | 1088/10692 [16:28<1:19:23,  2.02it/s] 10%|█         | 1089/10692 [16:28<1:19:22,  2.02it/s] 10%|█         | 1090/10692 [16:29<1:19:26,  2.01it/s] 10%|█         | 1091/10692 [16:29<1:19:35,  2.01it/s] 10%|█         | 1092/10692 [16:30<1:19:34,  2.01it/s] 10%|█         | 1093/10692 [16:30<1:19:39,  2.01it/s] 10%|█         | 1094/10692 [16:31<1:19:52,  2.00it/s] 10%|█         | 1095/10692 [16:31<1:19:44,  2.01it/s] 10%|█         | 1096/10692 [16:32<1:19:30,  2.01it/s] 10%|█         | 1097/10692 [16:32<1:19:29,  2.01it/s] 10%|█         | 1098/10692 [16:33<1:19:22,  2.01it/s] 10%|█         | 1099/10692 [16:33<1:19:26,  2.01it/s] 10%|█         | 1100/10692 [16:34<1:19:23,  2.01it/s]{'loss': 4.4217, 'grad_norm': 0.3110775053501129, 'learning_rate': 0.0009999760145381123, 'epoch': 0.1}
+                                                       10%|█         | 1100/10692 [16:34<1:19:23,  2.01it/s] 10%|█         | 1101/10692 [16:34<1:19:21,  2.01it/s] 10%|█         | 1102/10692 [16:35<1:19:20,  2.01it/s] 10%|█         | 1103/10692 [16:35<1:19:14,  2.02it/s] 10%|█         | 1104/10692 [16:36<1:19:15,  2.02it/s] 10%|█         | 1105/10692 [16:36<1:19:12,  2.02it/s] 10%|█         | 1106/10692 [16:37<1:19:10,  2.02it/s] 10%|█         | 1107/10692 [16:37<1:19:07,  2.02it/s] 10%|█         | 1108/10692 [16:38<1:19:10,  2.02it/s] 10%|█         | 1109/10692 [16:38<1:19:04,  2.02it/s] 10%|█         | 1110/10692 [16:39<1:19:07,  2.02it/s] 10%|█         | 1111/10692 [16:39<1:19:07,  2.02it/s] 10%|█         | 1112/10692 [16:40<1:19:08,  2.02it/s] 10%|█         | 1113/10692 [16:40<1:19:05,  2.02it/s] 10%|█         | 1114/10692 [16:41<1:19:06,  2.02it/s] 10%|█         | 1115/10692 [16:41<1:19:13,  2.01it/s] 10%|█         | 1116/10692 [16:42<1:19:08,  2.02it/s] 10%|█         | 1117/10692 [16:42<1:19:10,  2.02it/s] 10%|█         | 1118/10692 [16:43<1:19:11,  2.02it/s] 10%|█         | 1119/10692 [16:43<1:19:10,  2.02it/s] 10%|█         | 1120/10692 [16:44<1:19:03,  2.02it/s] 10%|█         | 1121/10692 [16:44<1:19:03,  2.02it/s] 10%|█         | 1122/10692 [16:45<1:19:03,  2.02it/s] 11%|█         | 1123/10692 [16:45<1:19:04,  2.02it/s] 11%|█         | 1124/10692 [16:46<1:19:02,  2.02it/s] 11%|█         | 1125/10692 [16:46<1:19:03,  2.02it/s]{'loss': 4.4023, 'grad_norm': 0.31586816906929016, 'learning_rate': 0.0009999193837194056, 'epoch': 0.11}
+                                                       11%|█         | 1125/10692 [16:46<1:19:03,  2.02it/s] 11%|█         | 1126/10692 [16:47<1:19:17,  2.01it/s] 11%|█         | 1127/10692 [16:47<1:19:11,  2.01it/s] 11%|█         | 1128/10692 [16:48<1:19:06,  2.01it/s] 11%|█         | 1129/10692 [16:48<1:19:00,  2.02it/s] 11%|█         | 1130/10692 [16:49<1:19:00,  2.02it/s] 11%|█         | 1131/10692 [16:49<1:18:57,  2.02it/s] 11%|█         | 1132/10692 [16:50<1:18:57,  2.02it/s] 11%|█         | 1133/10692 [16:50<1:18:53,  2.02it/s] 11%|█         | 1134/10692 [16:51<1:18:57,  2.02it/s] 11%|█         | 1135/10692 [16:51<1:18:57,  2.02it/s] 11%|█         | 1136/10692 [16:52<1:19:01,  2.02it/s] 11%|█         | 1137/10692 [16:52<1:18:56,  2.02it/s] 11%|█         | 1138/10692 [16:53<1:18:59,  2.02it/s] 11%|█         | 1139/10692 [16:53<1:18:53,  2.02it/s] 11%|█         | 1140/10692 [16:54<1:18:53,  2.02it/s] 11%|█         | 1141/10692 [16:54<1:18:47,  2.02it/s] 11%|█         | 1142/10692 [16:55<1:18:47,  2.02it/s] 11%|█         | 1143/10692 [16:55<1:18:45,  2.02it/s] 11%|█         | 1144/10692 [16:56<1:18:52,  2.02it/s] 11%|█         | 1145/10692 [16:56<1:18:47,  2.02it/s] 11%|█         | 1146/10692 [16:57<1:18:52,  2.02it/s] 11%|█         | 1147/10692 [16:57<1:18:48,  2.02it/s] 11%|█         | 1148/10692 [16:58<1:18:50,  2.02it/s] 11%|█         | 1149/10692 [16:58<1:18:43,  2.02it/s] 11%|█         | 1150/10692 [16:59<1:19:01,  2.01it/s]{'loss': 4.382, 'grad_norm': 0.29659509658813477, 'learning_rate': 0.0009998294450489808, 'epoch': 0.11}
+                                                       11%|█         | 1150/10692 [16:59<1:19:01,  2.01it/s] 11%|█         | 1151/10692 [16:59<1:19:10,  2.01it/s] 11%|█         | 1152/10692 [17:00<1:19:06,  2.01it/s] 11%|█         | 1153/10692 [17:00<1:19:03,  2.01it/s] 11%|█         | 1154/10692 [17:01<1:19:14,  2.01it/s] 11%|█         | 1155/10692 [17:01<1:19:03,  2.01it/s] 11%|█         | 1156/10692 [17:02<1:18:58,  2.01it/s] 11%|█         | 1157/10692 [17:02<1:18:48,  2.02it/s] 11%|█         | 1158/10692 [17:03<1:18:47,  2.02it/s] 11%|█         | 1159/10692 [17:03<1:18:47,  2.02it/s] 11%|█         | 1160/10692 [17:04<1:18:46,  2.02it/s] 11%|█         | 1161/10692 [17:04<1:18:43,  2.02it/s] 11%|█         | 1162/10692 [17:05<1:18:47,  2.02it/s] 11%|█         | 1163/10692 [17:05<1:18:45,  2.02it/s] 11%|█         | 1164/10692 [17:06<1:18:41,  2.02it/s] 11%|█         | 1165/10692 [17:06<1:18:39,  2.02it/s] 11%|█         | 1166/10692 [17:07<1:18:35,  2.02it/s] 11%|█         | 1167/10692 [17:07<1:18:41,  2.02it/s] 11%|█         | 1168/10692 [17:08<1:18:35,  2.02it/s] 11%|█         | 1169/10692 [17:08<1:18:33,  2.02it/s] 11%|█         | 1170/10692 [17:09<1:18:30,  2.02it/s] 11%|█         | 1171/10692 [17:09<1:18:39,  2.02it/s] 11%|█         | 1172/10692 [17:10<1:18:33,  2.02it/s] 11%|█         | 1173/10692 [17:10<1:18:35,  2.02it/s] 11%|█         | 1174/10692 [17:11<1:18:33,  2.02it/s] 11%|█         | 1175/10692 [17:11<1:18:34,  2.02it/s]                                                      {'loss': 4.3644, 'grad_norm': 0.27123916149139404, 'learning_rate': 0.0009997062045191318, 'epoch': 0.11}
+ 11%|█         | 1175/10692 [17:11<1:18:34,  2.02it/s] 11%|█         | 1176/10692 [17:12<1:18:43,  2.01it/s] 11%|█         | 1177/10692 [17:12<1:18:41,  2.02it/s] 11%|█         | 1178/10692 [17:13<1:18:38,  2.02it/s] 11%|█         | 1179/10692 [17:13<1:18:36,  2.02it/s] 11%|█         | 1180/10692 [17:14<1:18:37,  2.02it/s] 11%|█         | 1181/10692 [17:14<1:18:31,  2.02it/s] 11%|█         | 1182/10692 [17:15<1:18:37,  2.02it/s] 11%|█         | 1183/10692 [17:15<1:18:38,  2.02it/s] 11%|█         | 1184/10692 [17:16<1:18:38,  2.02it/s] 11%|█         | 1185/10692 [17:16<1:18:35,  2.02it/s] 11%|█         | 1186/10692 [17:17<1:18:28,  2.02it/s] 11%|█         | 1187/10692 [17:17<1:18:29,  2.02it/s] 11%|█         | 1188/10692 [17:18<1:18:32,  2.02it/s] 11%|█         | 1189/10692 [17:18<1:18:38,  2.01it/s] 11%|█         | 1190/10692 [17:19<1:18:39,  2.01it/s] 11%|█         | 1191/10692 [17:19<1:18:37,  2.01it/s] 11%|█         | 1192/10692 [17:20<1:18:47,  2.01it/s] 11%|█         | 1193/10692 [17:20<1:18:36,  2.01it/s] 11%|█         | 1194/10692 [17:21<1:18:36,  2.01it/s] 11%|█         | 1195/10692 [17:21<1:18:28,  2.02it/s] 11%|█         | 1196/10692 [17:22<1:18:31,  2.02it/s] 11%|█         | 1197/10692 [17:22<1:18:26,  2.02it/s] 11%|█         | 1198/10692 [17:23<1:18:33,  2.01it/s] 11%|█         | 1199/10692 [17:23<1:18:41,  2.01it/s] 11%|█         | 1200/10692 [17:24<1:18:39,  2.01it/s]{'loss': 4.3485, 'grad_norm': 0.2740069031715393, 'learning_rate': 0.0009995496703409372, 'epoch': 0.11}
+                                                       11%|█         | 1200/10692 [17:24<1:18:39,  2.01it/s] 11%|█         | 1201/10692 [17:24<1:18:48,  2.01it/s] 11%|█         | 1202/10692 [17:25<1:18:36,  2.01it/s] 11%|█▏        | 1203/10692 [17:25<1:18:34,  2.01it/s] 11%|█▏        | 1204/10692 [17:26<1:18:22,  2.02it/s] 11%|█▏        | 1205/10692 [17:26<1:18:25,  2.02it/s] 11%|█▏        | 1206/10692 [17:27<1:18:26,  2.02it/s] 11%|█▏        | 1207/10692 [17:27<1:18:25,  2.02it/s] 11%|█▏        | 1208/10692 [17:28<1:18:18,  2.02it/s] 11%|█▏        | 1209/10692 [17:28<1:18:24,  2.02it/s] 11%|█▏        | 1210/10692 [17:29<1:18:23,  2.02it/s] 11%|█▏        | 1211/10692 [17:29<1:18:22,  2.02it/s] 11%|█▏        | 1212/10692 [17:30<1:18:23,  2.02it/s] 11%|█▏        | 1213/10692 [17:30<1:18:20,  2.02it/s] 11%|█▏        | 1214/10692 [17:31<1:18:29,  2.01it/s] 11%|█▏        | 1215/10692 [17:31<1:18:34,  2.01it/s] 11%|█▏        | 1216/10692 [17:32<1:18:26,  2.01it/s] 11%|█▏        | 1217/10692 [17:32<1:18:22,  2.01it/s] 11%|█▏        | 1218/10692 [17:32<1:18:16,  2.02it/s] 11%|█▏        | 1219/10692 [17:33<1:18:15,  2.02it/s] 11%|█▏        | 1220/10692 [17:33<1:18:08,  2.02it/s] 11%|█▏        | 1221/10692 [17:34<1:18:13,  2.02it/s] 11%|█▏        | 1222/10692 [17:34<1:18:06,  2.02it/s] 11%|█▏        | 1223/10692 [17:35<1:18:11,  2.02it/s] 11%|█▏        | 1224/10692 [17:35<1:18:05,  2.02it/s] 11%|█▏        | 1225/10692 [17:36<1:18:16,  2.02it/s]{'loss': 4.3266, 'grad_norm': 0.282397985458374, 'learning_rate': 0.000999359852943713, 'epoch': 0.11}
+                                                       11%|█▏        | 1225/10692 [17:36<1:18:16,  2.02it/s] 11%|█▏        | 1226/10692 [17:36<1:18:21,  2.01it/s] 11%|█▏        | 1227/10692 [17:37<1:18:17,  2.02it/s] 11%|█▏        | 1228/10692 [17:37<1:18:12,  2.02it/s] 11%|█▏        | 1229/10692 [17:38<1:18:13,  2.02it/s] 12%|█▏        | 1230/10692 [17:38<1:18:18,  2.01it/s] 12%|█▏        | 1231/10692 [17:39<1:18:14,  2.02it/s] 12%|█▏        | 1232/10692 [17:39<1:18:19,  2.01it/s] 12%|█▏        | 1233/10692 [17:40<1:18:11,  2.02it/s] 12%|█▏        | 1234/10692 [17:40<1:18:10,  2.02it/s] 12%|█▏        | 1235/10692 [17:41<1:18:03,  2.02it/s] 12%|█▏        | 1236/10692 [17:41<1:18:07,  2.02it/s] 12%|█▏        | 1237/10692 [17:42<1:18:10,  2.02it/s] 12%|█▏        | 1238/10692 [17:42<1:18:05,  2.02it/s] 12%|█▏        | 1239/10692 [17:43<1:18:10,  2.02it/s] 12%|█▏        | 1240/10692 [17:43<1:18:08,  2.02it/s] 12%|█▏        | 1241/10692 [17:44<1:18:10,  2.01it/s] 12%|█▏        | 1242/10692 [17:44<1:18:11,  2.01it/s] 12%|█▏        | 1243/10692 [17:45<1:18:05,  2.02it/s] 12%|█▏        | 1244/10692 [17:45<1:18:05,  2.02it/s] 12%|█▏        | 1245/10692 [17:46<1:18:00,  2.02it/s] 12%|█▏        | 1246/10692 [17:46<1:17:58,  2.02it/s] 12%|█▏        | 1247/10692 [17:47<1:17:58,  2.02it/s] 12%|█▏        | 1248/10692 [17:47<1:17:55,  2.02it/s] 12%|█▏        | 1249/10692 [17:48<1:17:55,  2.02it/s] 12%|█▏        | 1250/10692 [17:48<1:18:00,  2.02it/s]{'loss': 4.3156, 'grad_norm': 0.2722896337509155, 'learning_rate': 0.0009991367649743175, 'epoch': 0.12}
+                                                       12%|█▏        | 1250/10692 [17:48<1:18:00,  2.02it/s] 12%|█▏        | 1251/10692 [17:49<1:18:04,  2.02it/s] 12%|█▏        | 1252/10692 [17:49<1:17:58,  2.02it/s] 12%|█▏        | 1253/10692 [17:50<1:17:59,  2.02it/s] 12%|█▏        | 1254/10692 [17:50<1:17:54,  2.02it/s] 12%|█▏        | 1255/10692 [17:51<1:17:49,  2.02it/s] 12%|█▏        | 1256/10692 [17:51<1:17:47,  2.02it/s] 12%|█▏        | 1257/10692 [17:52<1:17:53,  2.02it/s] 12%|█▏        | 1258/10692 [17:52<1:17:55,  2.02it/s] 12%|█▏        | 1259/10692 [17:53<1:17:53,  2.02it/s] 12%|█▏        | 1260/10692 [17:53<1:17:56,  2.02it/s] 12%|█▏        | 1261/10692 [17:54<1:17:50,  2.02it/s] 12%|█▏        | 1262/10692 [17:54<1:17:48,  2.02it/s] 12%|█▏        | 1263/10692 [17:55<1:17:48,  2.02it/s] 12%|█▏        | 1264/10692 [17:55<1:18:00,  2.01it/s] 12%|█▏        | 1265/10692 [17:56<1:17:50,  2.02it/s] 12%|█▏        | 1266/10692 [17:56<1:17:54,  2.02it/s] 12%|█▏        | 1267/10692 [17:57<1:17:54,  2.02it/s] 12%|█▏        | 1268/10692 [17:57<1:17:58,  2.01it/s] 12%|█▏        | 1269/10692 [17:58<1:17:53,  2.02it/s] 12%|█▏        | 1270/10692 [17:58<1:17:52,  2.02it/s] 12%|█▏        | 1271/10692 [17:59<1:17:49,  2.02it/s] 12%|█▏        | 1272/10692 [17:59<1:17:49,  2.02it/s] 12%|█▏        | 1273/10692 [18:00<1:17:49,  2.02it/s] 12%|█▏        | 1274/10692 [18:00<1:17:52,  2.02it/s] 12%|█▏        | 1275/10692 [18:01<1:18:02,  2.01it/s]                                                      {'loss': 4.3004, 'grad_norm': 0.26577645540237427, 'learning_rate': 0.0009988804212963094, 'epoch': 0.12}
+ 12%|█▏        | 1275/10692 [18:01<1:18:02,  2.01it/s] 12%|█▏        | 1276/10692 [18:01<1:18:04,  2.01it/s] 12%|█▏        | 1277/10692 [18:02<1:17:57,  2.01it/s] 12%|█▏        | 1278/10692 [18:02<1:17:54,  2.01it/s] 12%|█▏        | 1279/10692 [18:03<1:17:53,  2.01it/s] 12%|█▏        | 1280/10692 [18:03<1:17:50,  2.02it/s] 12%|█▏        | 1281/10692 [18:04<1:17:49,  2.02it/s] 12%|█▏        | 1282/10692 [18:04<1:17:45,  2.02it/s] 12%|█▏        | 1283/10692 [18:05<1:17:50,  2.01it/s] 12%|█▏        | 1284/10692 [18:05<1:17:47,  2.02it/s] 12%|█▏        | 1285/10692 [18:06<1:17:44,  2.02it/s] 12%|█▏        | 1286/10692 [18:06<1:17:37,  2.02it/s] 12%|█▏        | 1287/10692 [18:07<1:17:36,  2.02it/s] 12%|█▏        | 1288/10692 [18:07<1:17:49,  2.01it/s] 12%|█▏        | 1289/10692 [18:08<1:17:43,  2.02it/s] 12%|█▏        | 1290/10692 [18:08<1:17:42,  2.02it/s] 12%|█▏        | 1291/10692 [18:09<1:17:40,  2.02it/s] 12%|█▏        | 1292/10692 [18:09<1:17:37,  2.02it/s] 12%|█▏        | 1293/10692 [18:10<1:17:35,  2.02it/s] 12%|█▏        | 1294/10692 [18:10<1:17:33,  2.02it/s] 12%|█▏        | 1295/10692 [18:11<1:17:35,  2.02it/s] 12%|█▏        | 1296/10692 [18:11<1:17:27,  2.02it/s] 12%|█▏        | 1297/10692 [18:12<1:17:28,  2.02it/s] 12%|█▏        | 1298/10692 [18:12<1:17:30,  2.02it/s] 12%|█▏        | 1299/10692 [18:13<1:17:29,  2.02it/s] 12%|█▏        | 1300/10692 [18:13<1:17:27,  2.02it/s]{'loss': 4.2833, 'grad_norm': 0.24905158579349518, 'learning_rate': 0.0009985908389889566, 'epoch': 0.12}
+                                                       12%|█▏        | 1300/10692 [18:13<1:17:27,  2.02it/s] 12%|█▏        | 1301/10692 [18:14<1:17:35,  2.02it/s] 12%|█▏        | 1302/10692 [18:14<1:17:33,  2.02it/s] 12%|█▏        | 1303/10692 [18:15<1:17:29,  2.02it/s] 12%|█▏        | 1304/10692 [18:15<1:17:26,  2.02it/s] 12%|█▏        | 1305/10692 [18:16<1:17:33,  2.02it/s] 12%|█▏        | 1306/10692 [18:16<1:17:32,  2.02it/s] 12%|█▏        | 1307/10692 [18:17<1:17:29,  2.02it/s] 12%|█▏        | 1308/10692 [18:17<1:17:28,  2.02it/s] 12%|█▏        | 1309/10692 [18:18<1:17:32,  2.02it/s] 12%|█▏        | 1310/10692 [18:18<1:17:27,  2.02it/s] 12%|█▏        | 1311/10692 [18:19<1:17:41,  2.01it/s] 12%|█▏        | 1312/10692 [18:19<1:17:37,  2.01it/s] 12%|█▏        | 1313/10692 [18:20<1:17:34,  2.02it/s] 12%|█▏        | 1314/10692 [18:20<1:17:27,  2.02it/s] 12%|█▏        | 1315/10692 [18:21<1:17:28,  2.02it/s] 12%|█▏        | 1316/10692 [18:21<1:17:25,  2.02it/s] 12%|█▏        | 1317/10692 [18:22<1:17:22,  2.02it/s] 12%|█▏        | 1318/10692 [18:22<1:17:18,  2.02it/s] 12%|█▏        | 1319/10692 [18:23<1:17:18,  2.02it/s] 12%|█▏        | 1320/10692 [18:23<1:17:14,  2.02it/s] 12%|█▏        | 1321/10692 [18:24<1:17:24,  2.02it/s] 12%|█▏        | 1322/10692 [18:24<1:17:19,  2.02it/s] 12%|█▏        | 1323/10692 [18:25<1:17:18,  2.02it/s] 12%|█▏        | 1324/10692 [18:25<1:17:10,  2.02it/s] 12%|█▏        | 1325/10692 [18:26<1:17:16,  2.02it/s]                                                      {'loss': 4.2668, 'grad_norm': 0.2647573947906494, 'learning_rate': 0.0009982680373460996, 'epoch': 0.12}
+ 12%|█▏        | 1325/10692 [18:26<1:17:16,  2.02it/s] 12%|█▏        | 1326/10692 [18:26<1:17:22,  2.02it/s] 12%|█▏        | 1327/10692 [18:27<1:17:17,  2.02it/s] 12%|█▏        | 1328/10692 [18:27<1:17:18,  2.02it/s] 12%|█▏        | 1329/10692 [18:28<1:17:08,  2.02it/s] 12%|█▏        | 1330/10692 [18:28<1:17:16,  2.02it/s] 12%|█▏        | 1331/10692 [18:29<1:17:09,  2.02it/s] 12%|█▏        | 1332/10692 [18:29<1:17:31,  2.01it/s] 12%|█▏        | 1333/10692 [18:29<1:17:14,  2.02it/s] 12%|█▏        | 1334/10692 [18:30<1:17:19,  2.02it/s] 12%|█▏        | 1335/10692 [18:30<1:17:29,  2.01it/s] 12%|█▏        | 1336/10692 [18:31<1:17:28,  2.01it/s] 13%|█▎        | 1337/10692 [18:31<1:17:25,  2.01it/s] 13%|█▎        | 1338/10692 [18:32<1:17:15,  2.02it/s] 13%|█▎        | 1339/10692 [18:32<1:17:17,  2.02it/s] 13%|█▎        | 1340/10692 [18:33<1:17:09,  2.02it/s] 13%|█▎        | 1341/10692 [18:33<1:17:12,  2.02it/s] 13%|█▎        | 1342/10692 [18:34<1:17:06,  2.02it/s] 13%|█▎        | 1343/10692 [18:34<1:17:04,  2.02it/s] 13%|█▎        | 1344/10692 [18:35<1:17:06,  2.02it/s] 13%|█▎        | 1345/10692 [18:35<1:17:06,  2.02it/s] 13%|█▎        | 1346/10692 [18:36<1:17:05,  2.02it/s] 13%|█▎        | 1347/10692 [18:36<1:17:09,  2.02it/s] 13%|█▎        | 1348/10692 [18:37<1:17:03,  2.02it/s] 13%|█▎        | 1349/10692 [18:37<1:17:05,  2.02it/s] 13%|█▎        | 1350/10692 [18:38<1:17:06,  2.02it/s]{'loss': 4.2529, 'grad_norm': 0.2828295826911926, 'learning_rate': 0.0009979120378748637, 'epoch': 0.13}
+                                                       13%|█▎        | 1350/10692 [18:38<1:17:06,  2.02it/s] 13%|█▎        | 1351/10692 [18:38<1:17:17,  2.01it/s] 13%|█▎        | 1352/10692 [18:39<1:17:18,  2.01it/s] 13%|█▎        | 1353/10692 [18:39<1:17:16,  2.01it/s] 13%|█▎        | 1354/10692 [18:40<1:17:12,  2.02it/s] 13%|█▎        | 1355/10692 [18:40<1:17:12,  2.02it/s] 13%|█▎        | 1356/10692 [18:41<1:17:07,  2.02it/s] 13%|█▎        | 1357/10692 [18:41<1:17:06,  2.02it/s] 13%|█▎        | 1358/10692 [18:42<1:17:10,  2.02it/s] 13%|█▎        | 1359/10692 [18:42<1:17:06,  2.02it/s] 13%|█▎        | 1360/10692 [18:43<1:17:10,  2.02it/s] 13%|█▎        | 1361/10692 [18:43<1:17:05,  2.02it/s] 13%|█▎        | 1362/10692 [18:44<1:17:04,  2.02it/s] 13%|█▎        | 1363/10692 [18:44<1:17:05,  2.02it/s] 13%|█▎        | 1364/10692 [18:45<1:17:02,  2.02it/s] 13%|█▎        | 1365/10692 [18:45<1:16:57,  2.02it/s] 13%|█▎        | 1366/10692 [18:46<1:16:56,  2.02it/s] 13%|█▎        | 1367/10692 [18:46<1:16:59,  2.02it/s] 13%|█▎        | 1368/10692 [18:47<1:16:56,  2.02it/s] 13%|█▎        | 1369/10692 [18:47<1:16:56,  2.02it/s] 13%|█▎        | 1370/10692 [18:48<1:16:53,  2.02it/s] 13%|█▎        | 1371/10692 [18:48<1:17:00,  2.02it/s] 13%|█▎        | 1372/10692 [18:49<1:16:56,  2.02it/s] 13%|█▎        | 1373/10692 [18:49<1:16:55,  2.02it/s] 13%|█▎        | 1374/10692 [18:50<1:16:51,  2.02it/s] 13%|█▎        | 1375/10692 [18:50<1:16:46,  2.02it/s]{'loss': 4.2443, 'grad_norm': 0.2484920471906662, 'learning_rate': 0.000997522864294229, 'epoch': 0.13}
+                                                       13%|█▎        | 1375/10692 [18:50<1:16:46,  2.02it/s] 13%|█▎        | 1376/10692 [18:51<1:16:57,  2.02it/s] 13%|█▎        | 1377/10692 [18:51<1:17:01,  2.02it/s] 13%|█▎        | 1378/10692 [18:52<1:16:55,  2.02it/s] 13%|█▎        | 1379/10692 [18:52<1:16:55,  2.02it/s] 13%|█▎        | 1380/10692 [18:53<1:16:52,  2.02it/s] 13%|█▎        | 1381/10692 [18:53<1:16:54,  2.02it/s] 13%|█▎        | 1382/10692 [18:54<1:16:49,  2.02it/s] 13%|█▎        | 1383/10692 [18:54<1:16:49,  2.02it/s] 13%|█▎        | 1384/10692 [18:55<1:16:50,  2.02it/s] 13%|█▎        | 1385/10692 [18:55<1:16:52,  2.02it/s] 13%|█▎        | 1386/10692 [18:56<1:16:50,  2.02it/s] 13%|█▎        | 1387/10692 [18:56<1:16:51,  2.02it/s] 13%|█▎        | 1388/10692 [18:57<1:16:52,  2.02it/s] 13%|█▎        | 1389/10692 [18:57<1:16:50,  2.02it/s] 13%|█▎        | 1390/10692 [18:58<1:16:46,  2.02it/s] 13%|█▎        | 1391/10692 [18:58<1:16:46,  2.02it/s] 13%|█▎        | 1392/10692 [18:59<1:16:40,  2.02it/s] 13%|█▎        | 1393/10692 [18:59<1:16:44,  2.02it/s] 13%|█▎        | 1394/10692 [19:00<1:16:44,  2.02it/s] 13%|█▎        | 1395/10692 [19:00<1:16:47,  2.02it/s] 13%|█▎        | 1396/10692 [19:01<1:16:59,  2.01it/s] 13%|█▎        | 1397/10692 [19:01<1:16:53,  2.01it/s] 13%|█▎        | 1398/10692 [19:02<1:16:52,  2.01it/s] 13%|█▎        | 1399/10692 [19:02<1:16:41,  2.02it/s] 13%|█▎        | 1400/10692 [19:03<1:16:45,  2.02it/s]{'loss': 4.2254, 'grad_norm': 0.24039754271507263, 'learning_rate': 0.0009971005425334478, 'epoch': 0.13}
+                                                       13%|█▎        | 1400/10692 [19:03<1:16:45,  2.02it/s] 13%|█▎        | 1401/10692 [19:03<1:16:52,  2.01it/s] 13%|█▎        | 1402/10692 [19:04<1:16:49,  2.02it/s] 13%|█▎        | 1403/10692 [19:04<1:16:42,  2.02it/s] 13%|█▎        | 1404/10692 [19:05<1:16:50,  2.01it/s] 13%|█▎        | 1405/10692 [19:05<1:16:46,  2.02it/s] 13%|█▎        | 1406/10692 [19:06<1:16:41,  2.02it/s] 13%|█▎        | 1407/10692 [19:06<1:16:42,  2.02it/s] 13%|█▎        | 1408/10692 [19:07<1:16:37,  2.02it/s] 13%|█▎        | 1409/10692 [19:07<1:16:37,  2.02it/s] 13%|█▎        | 1410/10692 [19:08<1:16:37,  2.02it/s] 13%|█▎        | 1411/10692 [19:08<1:16:40,  2.02it/s] 13%|█▎        | 1412/10692 [19:09<1:16:47,  2.01it/s] 13%|█▎        | 1413/10692 [19:09<1:16:39,  2.02it/s] 13%|█▎        | 1414/10692 [19:10<1:16:37,  2.02it/s] 13%|█▎        | 1415/10692 [19:10<1:16:35,  2.02it/s] 13%|█▎        | 1416/10692 [19:11<1:16:32,  2.02it/s] 13%|█▎        | 1417/10692 [19:11<1:16:32,  2.02it/s] 13%|█▎        | 1418/10692 [19:12<1:16:32,  2.02it/s] 13%|█▎        | 1419/10692 [19:12<1:16:30,  2.02it/s] 13%|█▎        | 1420/10692 [19:13<1:16:35,  2.02it/s] 13%|█▎        | 1421/10692 [19:13<1:16:38,  2.02it/s] 13%|█▎        | 1422/10692 [19:14<1:16:35,  2.02it/s] 13%|█▎        | 1423/10692 [19:14<1:16:36,  2.02it/s] 13%|█▎        | 1424/10692 [19:15<1:16:32,  2.02it/s] 13%|█▎        | 1425/10692 [19:15<1:16:30,  2.02it/s]                                                      {'loss': 4.2135, 'grad_norm': 0.25192341208457947, 'learning_rate': 0.000996645100730318, 'epoch': 0.13}
+ 13%|█▎        | 1425/10692 [19:15<1:16:30,  2.02it/s] 13%|█▎        | 1426/10692 [19:16<1:16:29,  2.02it/s] 13%|█▎        | 1427/10692 [19:16<1:16:27,  2.02it/s] 13%|█▎        | 1428/10692 [19:17<1:16:24,  2.02it/s] 13%|█▎        | 1429/10692 [19:17<1:16:29,  2.02it/s] 13%|█▎        | 1430/10692 [19:18<1:16:22,  2.02it/s] 13%|█▎        | 1431/10692 [19:18<1:16:25,  2.02it/s] 13%|█▎        | 1432/10692 [19:19<1:16:25,  2.02it/s] 13%|█▎        | 1433/10692 [19:19<1:16:27,  2.02it/s] 13%|█▎        | 1434/10692 [19:20<1:16:25,  2.02it/s] 13%|█▎        | 1435/10692 [19:20<1:16:24,  2.02it/s] 13%|█▎        | 1436/10692 [19:21<1:16:17,  2.02it/s] 13%|█▎        | 1437/10692 [19:21<1:16:22,  2.02it/s] 13%|█▎        | 1438/10692 [19:22<1:16:15,  2.02it/s] 13%|█▎        | 1439/10692 [19:22<1:16:19,  2.02it/s] 13%|█▎        | 1440/10692 [19:23<1:16:14,  2.02it/s] 13%|█▎        | 1441/10692 [19:23<1:16:20,  2.02it/s] 13%|█▎        | 1442/10692 [19:24<1:16:16,  2.02it/s] 13%|█▎        | 1443/10692 [19:24<1:16:20,  2.02it/s] 14%|█▎        | 1444/10692 [19:24<1:16:20,  2.02it/s] 14%|█▎        | 1445/10692 [19:25<1:16:21,  2.02it/s] 14%|█▎        | 1446/10692 [19:25<1:16:20,  2.02it/s] 14%|█▎        | 1447/10692 [19:26<1:16:19,  2.02it/s] 14%|█▎        | 1448/10692 [19:26<1:16:19,  2.02it/s] 14%|█▎        | 1449/10692 [19:27<1:16:13,  2.02it/s] 14%|█▎        | 1450/10692 [19:27<1:16:20,  2.02it/s]{'loss': 4.2052, 'grad_norm': 0.25609296560287476, 'learning_rate': 0.0009961565692293082, 'epoch': 0.14}
+                                                       14%|█▎        | 1450/10692 [19:27<1:16:20,  2.02it/s] 14%|█▎        | 1451/10692 [19:28<1:16:23,  2.02it/s] 14%|█▎        | 1452/10692 [19:28<1:16:20,  2.02it/s] 14%|█▎        | 1453/10692 [19:29<1:16:23,  2.02it/s] 14%|█▎        | 1454/10692 [19:29<1:16:22,  2.02it/s] 14%|█▎        | 1455/10692 [19:30<1:16:14,  2.02it/s] 14%|█▎        | 1456/10692 [19:30<1:16:23,  2.01it/s] 14%|█▎        | 1457/10692 [19:31<1:16:24,  2.01it/s] 14%|█▎        | 1458/10692 [19:31<1:16:22,  2.01it/s] 14%|█▎        | 1459/10692 [19:32<1:16:20,  2.02it/s] 14%|█▎        | 1460/10692 [19:32<1:16:21,  2.02it/s] 14%|█▎        | 1461/10692 [19:33<1:16:13,  2.02it/s] 14%|█▎        | 1462/10692 [19:33<1:16:14,  2.02it/s] 14%|█▎        | 1463/10692 [19:34<1:16:10,  2.02it/s] 14%|█▎        | 1464/10692 [19:34<1:16:09,  2.02it/s] 14%|█▎        | 1465/10692 [19:35<1:16:05,  2.02it/s] 14%|█▎        | 1466/10692 [19:35<1:16:08,  2.02it/s] 14%|█▎        | 1467/10692 [19:36<1:16:09,  2.02it/s] 14%|█▎        | 1468/10692 [19:36<1:16:06,  2.02it/s] 14%|█▎        | 1469/10692 [19:37<1:16:12,  2.02it/s] 14%|█▎        | 1470/10692 [19:37<1:16:10,  2.02it/s] 14%|█▍        | 1471/10692 [19:38<1:16:10,  2.02it/s] 14%|█▍        | 1472/10692 [19:38<1:16:03,  2.02it/s] 14%|█▍        | 1473/10692 [19:39<1:16:10,  2.02it/s] 14%|█▍        | 1474/10692 [19:39<1:16:08,  2.02it/s] 14%|█▍        | 1475/10692 [19:40<1:16:09,  2.02it/s]{'loss': 4.1956, 'grad_norm': 0.2557324171066284, 'learning_rate': 0.000995634980579536, 'epoch': 0.14}                                                      
+ 14%|█▍        | 1475/10692 [19:40<1:16:09,  2.02it/s] 14%|█▍        | 1476/10692 [19:40<1:16:15,  2.01it/s] 14%|█▍        | 1477/10692 [19:41<1:16:11,  2.02it/s] 14%|█▍        | 1478/10692 [19:41<1:16:03,  2.02it/s] 14%|█▍        | 1479/10692 [19:42<1:16:03,  2.02it/s] 14%|█▍        | 1480/10692 [19:42<1:16:00,  2.02it/s] 14%|█▍        | 1481/10692 [19:43<1:16:02,  2.02it/s] 14%|█▍        | 1482/10692 [19:43<1:16:00,  2.02it/s] 14%|█▍        | 1483/10692 [19:44<1:15:56,  2.02it/s] 14%|█▍        | 1484/10692 [19:44<1:15:53,  2.02it/s] 14%|█▍        | 1485/10692 [19:45<1:15:56,  2.02it/s] 14%|█▍        | 1486/10692 [19:45<1:15:58,  2.02it/s] 14%|█▍        | 1487/10692 [19:46<1:15:59,  2.02it/s] 14%|█▍        | 1488/10692 [19:46<1:15:56,  2.02it/s] 14%|█▍        | 1489/10692 [19:47<1:15:57,  2.02it/s] 14%|█▍        | 1490/10692 [19:47<1:16:01,  2.02it/s] 14%|█▍        | 1491/10692 [19:48<1:15:57,  2.02it/s] 14%|█▍        | 1492/10692 [19:48<1:15:54,  2.02it/s] 14%|█▍        | 1493/10692 [19:49<1:15:53,  2.02it/s] 14%|█▍        | 1494/10692 [19:49<1:15:50,  2.02it/s] 14%|█▍        | 1495/10692 [19:50<1:15:51,  2.02it/s] 14%|█▍        | 1496/10692 [19:50<1:15:51,  2.02it/s] 14%|█▍        | 1497/10692 [19:51<1:15:50,  2.02it/s] 14%|█▍        | 1498/10692 [19:51<1:15:47,  2.02it/s] 14%|█▍        | 1499/10692 [19:52<1:15:48,  2.02it/s] 14%|█▍        | 1500/10692 [19:52<1:15:48,  2.02it/s]{'loss': 4.1905, 'grad_norm': 0.2457941770553589, 'learning_rate': 0.0009950803695325991, 'epoch': 0.14}
+                                                       14%|█▍        | 1500/10692 [19:52<1:15:48,  2.02it/s] 14%|█▍        | 1501/10692 [19:53<1:15:54,  2.02it/s] 14%|█▍        | 1502/10692 [19:53<1:15:55,  2.02it/s] 14%|█▍        | 1503/10692 [19:54<1:15:52,  2.02it/s] 14%|█▍        | 1504/10692 [19:54<1:15:47,  2.02it/s] 14%|█▍        | 1505/10692 [19:55<1:15:51,  2.02it/s] 14%|█▍        | 1506/10692 [19:55<1:15:53,  2.02it/s] 14%|█▍        | 1507/10692 [19:56<1:15:52,  2.02it/s] 14%|█▍        | 1508/10692 [19:56<1:15:54,  2.02it/s] 14%|█▍        | 1509/10692 [19:57<1:15:48,  2.02it/s] 14%|█▍        | 1510/10692 [19:57<1:15:48,  2.02it/s] 14%|█▍        | 1511/10692 [19:58<1:15:45,  2.02it/s] 14%|█▍        | 1512/10692 [19:58<1:15:48,  2.02it/s] 14%|█▍        | 1513/10692 [19:59<1:15:39,  2.02it/s] 14%|█▍        | 1514/10692 [19:59<1:15:46,  2.02it/s] 14%|█▍        | 1515/10692 [20:00<1:15:46,  2.02it/s] 14%|█▍        | 1516/10692 [20:00<1:15:51,  2.02it/s] 14%|█▍        | 1517/10692 [20:01<1:16:00,  2.01it/s] 14%|█▍        | 1518/10692 [20:01<1:15:49,  2.02it/s] 14%|█▍        | 1519/10692 [20:02<1:15:49,  2.02it/s] 14%|█▍        | 1520/10692 [20:02<1:15:41,  2.02it/s] 14%|█▍        | 1521/10692 [20:03<1:15:40,  2.02it/s] 14%|█▍        | 1522/10692 [20:03<1:15:44,  2.02it/s] 14%|█▍        | 1523/10692 [20:04<1:15:44,  2.02it/s] 14%|█▍        | 1524/10692 [20:04<1:15:40,  2.02it/s] 14%|█▍        | 1525/10692 [20:05<1:15:42,  2.02it/s]{'loss': 4.1783, 'grad_norm': 0.2386235147714615, 'learning_rate': 0.0009944927730402607, 'epoch': 0.14}
+                                                       14%|█▍        | 1525/10692 [20:05<1:15:42,  2.02it/s] 14%|█▍        | 1526/10692 [20:05<1:15:44,  2.02it/s] 14%|█▍        | 1527/10692 [20:06<1:15:43,  2.02it/s] 14%|█▍        | 1528/10692 [20:06<1:15:44,  2.02it/s] 14%|█▍        | 1529/10692 [20:07<1:15:42,  2.02it/s] 14%|█▍        | 1530/10692 [20:07<1:15:41,  2.02it/s] 14%|█▍        | 1531/10692 [20:08<1:15:45,  2.02it/s] 14%|█▍        | 1532/10692 [20:08<1:15:42,  2.02it/s] 14%|█▍        | 1533/10692 [20:09<1:15:41,  2.02it/s] 14%|█▍        | 1534/10692 [20:09<1:15:41,  2.02it/s] 14%|█▍        | 1535/10692 [20:10<1:15:40,  2.02it/s] 14%|█▍        | 1536/10692 [20:10<1:15:37,  2.02it/s] 14%|█▍        | 1537/10692 [20:11<1:15:41,  2.02it/s] 14%|█▍        | 1538/10692 [20:11<1:15:35,  2.02it/s] 14%|█▍        | 1539/10692 [20:12<1:15:32,  2.02it/s] 14%|█▍        | 1540/10692 [20:12<1:15:28,  2.02it/s] 14%|█▍        | 1541/10692 [20:13<1:15:28,  2.02it/s] 14%|█▍        | 1542/10692 [20:13<1:15:23,  2.02it/s] 14%|█▍        | 1543/10692 [20:14<1:15:26,  2.02it/s] 14%|█▍        | 1544/10692 [20:14<1:15:22,  2.02it/s] 14%|█▍        | 1545/10692 [20:15<1:15:24,  2.02it/s] 14%|█▍        | 1546/10692 [20:15<1:15:20,  2.02it/s] 14%|█▍        | 1547/10692 [20:16<1:15:23,  2.02it/s] 14%|█▍        | 1548/10692 [20:16<1:15:25,  2.02it/s] 14%|█▍        | 1549/10692 [20:17<1:15:24,  2.02it/s] 14%|█▍        | 1550/10692 [20:17<1:15:28,  2.02it/s]                                                      {'loss': 4.1652, 'grad_norm': 0.23675793409347534, 'learning_rate': 0.0009938722302519863, 'epoch': 0.14}
+ 14%|█▍        | 1550/10692 [20:17<1:15:28,  2.02it/s] 15%|█▍        | 1551/10692 [20:18<1:15:41,  2.01it/s] 15%|█▍        | 1552/10692 [20:18<1:15:33,  2.02it/s] 15%|█▍        | 1553/10692 [20:18<1:15:33,  2.02it/s] 15%|█▍        | 1554/10692 [20:19<1:15:29,  2.02it/s] 15%|█▍        | 1555/10692 [20:19<1:15:33,  2.02it/s] 15%|█▍        | 1556/10692 [20:20<1:15:23,  2.02it/s] 15%|█▍        | 1557/10692 [20:20<1:15:29,  2.02it/s] 15%|█▍        | 1558/10692 [20:21<1:15:23,  2.02it/s] 15%|█▍        | 1559/10692 [20:21<1:15:22,  2.02it/s] 15%|█▍        | 1560/10692 [20:22<1:15:12,  2.02it/s] 15%|█▍        | 1561/10692 [20:22<1:15:17,  2.02it/s] 15%|█▍        | 1562/10692 [20:23<1:15:17,  2.02it/s] 15%|█▍        | 1563/10692 [20:23<1:15:18,  2.02it/s] 15%|█▍        | 1564/10692 [20:24<1:15:19,  2.02it/s] 15%|█▍        | 1565/10692 [20:24<1:15:21,  2.02it/s] 15%|█▍        | 1566/10692 [20:25<1:15:24,  2.02it/s] 15%|█▍        | 1567/10692 [20:25<1:15:20,  2.02it/s] 15%|█▍        | 1568/10692 [20:26<1:15:18,  2.02it/s] 15%|█▍        | 1569/10692 [20:26<1:15:19,  2.02it/s] 15%|█▍        | 1570/10692 [20:27<1:15:15,  2.02it/s] 15%|█▍        | 1571/10692 [20:27<1:15:24,  2.02it/s] 15%|█▍        | 1572/10692 [20:28<1:15:26,  2.01it/s] 15%|█▍        | 1573/10692 [20:28<1:15:18,  2.02it/s] 15%|█▍        | 1574/10692 [20:29<1:15:16,  2.02it/s] 15%|█▍        | 1575/10692 [20:29<1:15:11,  2.02it/s]{'loss': 4.1578, 'grad_norm': 0.23211358487606049, 'learning_rate': 0.0009932187825123365, 'epoch': 0.15}
+                                                       15%|█▍        | 1575/10692 [20:29<1:15:11,  2.02it/s] 15%|█▍        | 1576/10692 [20:30<1:15:22,  2.02it/s] 15%|█▍        | 1577/10692 [20:30<1:15:22,  2.02it/s] 15%|█▍        | 1578/10692 [20:31<1:15:27,  2.01it/s] 15%|█▍        | 1579/10692 [20:31<1:15:24,  2.01it/s] 15%|█▍        | 1580/10692 [20:32<1:15:18,  2.02it/s] 15%|█▍        | 1581/10692 [20:32<1:15:15,  2.02it/s] 15%|█▍        | 1582/10692 [20:33<1:15:12,  2.02it/s] 15%|█▍        | 1583/10692 [20:33<1:15:08,  2.02it/s] 15%|█▍        | 1584/10692 [20:34<1:15:05,  2.02it/s] 15%|█▍        | 1585/10692 [20:34<1:15:01,  2.02it/s] 15%|█▍        | 1586/10692 [20:35<1:15:03,  2.02it/s] 15%|█▍        | 1587/10692 [20:35<1:15:04,  2.02it/s] 15%|█▍        | 1588/10692 [20:36<1:15:11,  2.02it/s] 15%|█▍        | 1589/10692 [20:36<1:15:01,  2.02it/s] 15%|█▍        | 1590/10692 [20:37<1:15:05,  2.02it/s] 15%|█▍        | 1591/10692 [20:37<1:15:02,  2.02it/s] 15%|█▍        | 1592/10692 [20:38<1:15:03,  2.02it/s] 15%|█▍        | 1593/10692 [20:38<1:14:55,  2.02it/s] 15%|█▍        | 1594/10692 [20:39<1:14:56,  2.02it/s] 15%|█▍        | 1595/10692 [20:39<1:14:59,  2.02it/s] 15%|█▍        | 1596/10692 [20:40<1:14:54,  2.02it/s] 15%|█▍        | 1597/10692 [20:40<1:14:58,  2.02it/s] 15%|█▍        | 1598/10692 [20:41<1:14:56,  2.02it/s] 15%|█▍        | 1599/10692 [20:41<1:14:57,  2.02it/s] 15%|█▍        | 1600/10692 [20:42<1:14:53,  2.02it/s]{'loss': 4.1512, 'grad_norm': 0.23690979182720184, 'learning_rate': 0.0009925324733582117, 'epoch': 0.15}
+                                                       15%|█▍        | 1600/10692 [20:42<1:14:53,  2.02it/s] 15%|█▍        | 1601/10692 [20:42<1:14:54,  2.02it/s] 15%|█▍        | 1602/10692 [20:43<1:14:57,  2.02it/s] 15%|█▍        | 1603/10692 [20:43<1:14:56,  2.02it/s] 15%|█▌        | 1604/10692 [20:44<1:14:58,  2.02it/s] 15%|█▌        | 1605/10692 [20:44<1:14:53,  2.02it/s] 15%|█▌        | 1606/10692 [20:45<1:14:53,  2.02it/s] 15%|█▌        | 1607/10692 [20:45<1:14:54,  2.02it/s] 15%|█▌        | 1608/10692 [20:46<1:14:46,  2.02it/s] 15%|█▌        | 1609/10692 [20:46<1:14:55,  2.02it/s] 15%|█▌        | 1610/10692 [20:47<1:14:47,  2.02it/s] 15%|█▌        | 1611/10692 [20:47<1:14:53,  2.02it/s] 15%|█▌        | 1612/10692 [20:48<1:14:48,  2.02it/s] 15%|█▌        | 1613/10692 [20:48<1:14:50,  2.02it/s] 15%|█▌        | 1614/10692 [20:49<1:14:47,  2.02it/s] 15%|█▌        | 1615/10692 [20:49<1:14:53,  2.02it/s] 15%|█▌        | 1616/10692 [20:50<1:14:48,  2.02it/s] 15%|█▌        | 1617/10692 [20:50<1:14:46,  2.02it/s] 15%|█▌        | 1618/10692 [20:51<1:14:47,  2.02it/s] 15%|█▌        | 1619/10692 [20:51<1:14:45,  2.02it/s] 15%|█▌        | 1620/10692 [20:52<1:14:45,  2.02it/s] 15%|█▌        | 1621/10692 [20:52<1:14:41,  2.02it/s] 15%|█▌        | 1622/10692 [20:53<1:14:44,  2.02it/s] 15%|█▌        | 1623/10692 [20:53<1:14:52,  2.02it/s] 15%|█▌        | 1624/10692 [20:54<1:14:48,  2.02it/s] 15%|█▌        | 1625/10692 [20:54<1:14:41,  2.02it/s]{'loss': 4.1416, 'grad_norm': 0.2245790958404541, 'learning_rate': 0.0009918133485159518, 'epoch': 0.15}
+                                                       15%|█▌        | 1625/10692 [20:54<1:14:41,  2.02it/s] 15%|█▌        | 1626/10692 [20:55<1:14:51,  2.02it/s] 15%|█▌        | 1627/10692 [20:55<1:14:45,  2.02it/s] 15%|█▌        | 1628/10692 [20:56<1:14:43,  2.02it/s] 15%|█▌        | 1629/10692 [20:56<1:14:40,  2.02it/s] 15%|█▌        | 1630/10692 [20:57<1:14:43,  2.02it/s] 15%|█▌        | 1631/10692 [20:57<1:14:41,  2.02it/s] 15%|█▌        | 1632/10692 [20:58<1:14:43,  2.02it/s] 15%|█▌        | 1633/10692 [20:58<1:14:39,  2.02it/s] 15%|█▌        | 1634/10692 [20:59<1:14:43,  2.02it/s] 15%|█▌        | 1635/10692 [20:59<1:14:36,  2.02it/s] 15%|█▌        | 1636/10692 [21:00<1:14:39,  2.02it/s] 15%|█▌        | 1637/10692 [21:00<1:14:37,  2.02it/s] 15%|█▌        | 1638/10692 [21:01<1:14:48,  2.02it/s] 15%|█▌        | 1639/10692 [21:01<1:14:53,  2.01it/s] 15%|█▌        | 1640/10692 [21:02<1:14:48,  2.02it/s] 15%|█▌        | 1641/10692 [21:02<1:14:44,  2.02it/s] 15%|█▌        | 1642/10692 [21:03<1:14:44,  2.02it/s] 15%|█▌        | 1643/10692 [21:03<1:14:42,  2.02it/s] 15%|█▌        | 1644/10692 [21:04<1:14:37,  2.02it/s] 15%|█▌        | 1645/10692 [21:04<1:14:41,  2.02it/s] 15%|█▌        | 1646/10692 [21:05<1:14:33,  2.02it/s] 15%|█▌        | 1647/10692 [21:05<1:14:38,  2.02it/s] 15%|█▌        | 1648/10692 [21:06<1:14:32,  2.02it/s] 15%|█▌        | 1649/10692 [21:06<1:14:37,  2.02it/s] 15%|█▌        | 1650/10692 [21:07<1:14:51,  2.01it/s]{'loss': 4.1283, 'grad_norm': 0.21960704028606415, 'learning_rate': 0.0009910614558982886, 'epoch': 0.15}                                                      
+ 15%|█▌        | 1650/10692 [21:07<1:14:51,  2.01it/s] 15%|█▌        | 1651/10692 [21:07<1:14:49,  2.01it/s] 15%|█▌        | 1652/10692 [21:08<1:14:47,  2.01it/s] 15%|█▌        | 1653/10692 [21:08<1:14:42,  2.02it/s] 15%|█▌        | 1654/10692 [21:08<1:14:42,  2.02it/s] 15%|█▌        | 1655/10692 [21:09<1:14:36,  2.02it/s] 15%|█▌        | 1656/10692 [21:09<1:14:35,  2.02it/s] 15%|█▌        | 1657/10692 [21:10<1:14:33,  2.02it/s] 16%|█▌        | 1658/10692 [21:10<1:14:31,  2.02it/s] 16%|█▌        | 1659/10692 [21:11<1:14:25,  2.02it/s] 16%|█▌        | 1660/10692 [21:11<1:14:21,  2.02it/s] 16%|█▌        | 1661/10692 [21:12<1:14:28,  2.02it/s] 16%|█▌        | 1662/10692 [21:12<1:14:21,  2.02it/s] 16%|█▌        | 1663/10692 [21:13<1:14:20,  2.02it/s] 16%|█▌        | 1664/10692 [21:13<1:14:20,  2.02it/s] 16%|█▌        | 1665/10692 [21:14<1:14:25,  2.02it/s] 16%|█▌        | 1666/10692 [21:14<1:14:19,  2.02it/s] 16%|█▌        | 1667/10692 [21:15<1:14:22,  2.02it/s] 16%|█▌        | 1668/10692 [21:15<1:14:19,  2.02it/s] 16%|█▌        | 1669/10692 [21:16<1:14:22,  2.02it/s] 16%|█▌        | 1670/10692 [21:16<1:14:21,  2.02it/s] 16%|█▌        | 1671/10692 [21:17<1:14:21,  2.02it/s] 16%|█▌        | 1672/10692 [21:17<1:14:18,  2.02it/s] 16%|█▌        | 1673/10692 [21:18<1:14:17,  2.02it/s] 16%|█▌        | 1674/10692 [21:18<1:14:19,  2.02it/s] 16%|█▌        | 1675/10692 [21:19<1:14:17,  2.02it/s]                                                      {'loss': 4.1347, 'grad_norm': 0.2408616691827774, 'learning_rate': 0.0009902768456011553, 'epoch': 0.16}
+ 16%|█▌        | 1675/10692 [21:19<1:14:17,  2.02it/s] 16%|█▌        | 1676/10692 [21:19<1:14:26,  2.02it/s] 16%|█▌        | 1677/10692 [21:20<1:14:25,  2.02it/s] 16%|█▌        | 1678/10692 [21:20<1:14:27,  2.02it/s] 16%|█▌        | 1679/10692 [21:21<1:14:23,  2.02it/s] 16%|█▌        | 1680/10692 [21:21<1:14:27,  2.02it/s] 16%|█▌        | 1681/10692 [21:22<1:14:23,  2.02it/s] 16%|█▌        | 1682/10692 [21:22<1:14:22,  2.02it/s] 16%|█▌        | 1683/10692 [21:23<1:14:18,  2.02it/s] 16%|█▌        | 1684/10692 [21:23<1:14:25,  2.02it/s] 16%|█▌        | 1685/10692 [21:24<1:14:31,  2.01it/s] 16%|█▌        | 1686/10692 [21:24<1:14:24,  2.02it/s] 16%|█▌        | 1687/10692 [21:25<1:14:16,  2.02it/s] 16%|█▌        | 1688/10692 [21:25<1:14:18,  2.02it/s] 16%|█▌        | 1689/10692 [21:26<1:14:11,  2.02it/s] 16%|█▌        | 1690/10692 [21:26<1:14:16,  2.02it/s] 16%|█▌        | 1691/10692 [21:27<1:14:08,  2.02it/s] 16%|█▌        | 1692/10692 [21:27<1:14:12,  2.02it/s] 16%|█▌        | 1693/10692 [21:28<1:14:08,  2.02it/s] 16%|█▌        | 1694/10692 [21:28<1:14:08,  2.02it/s] 16%|█▌        | 1695/10692 [21:29<1:14:10,  2.02it/s] 16%|█▌        | 1696/10692 [21:29<1:14:15,  2.02it/s] 16%|█▌        | 1697/10692 [21:30<1:14:11,  2.02it/s] 16%|█▌        | 1698/10692 [21:30<1:14:18,  2.02it/s] 16%|█▌        | 1699/10692 [21:31<1:14:21,  2.02it/s] 16%|█▌        | 1700/10692 [21:31<1:14:19,  2.02it/s]{'loss': 4.1057, 'grad_norm': 0.23204205930233002, 'learning_rate': 0.000989459569900347, 'epoch': 0.16}
+                                                       16%|█▌        | 1700/10692 [21:31<1:14:19,  2.02it/s] 16%|█▌        | 1701/10692 [21:32<1:14:24,  2.01it/s] 16%|█▌        | 1702/10692 [21:32<1:14:18,  2.02it/s] 16%|█▌        | 1703/10692 [21:33<1:14:23,  2.01it/s] 16%|█▌        | 1704/10692 [21:33<1:14:12,  2.02it/s] 16%|█▌        | 1705/10692 [21:34<1:14:13,  2.02it/s] 16%|█▌        | 1706/10692 [21:34<1:14:07,  2.02it/s] 16%|█▌        | 1707/10692 [21:35<1:14:06,  2.02it/s] 16%|█▌        | 1708/10692 [21:35<1:14:03,  2.02it/s] 16%|█▌        | 1709/10692 [21:36<1:14:04,  2.02it/s] 16%|█▌        | 1710/10692 [21:36<1:14:03,  2.02it/s] 16%|█▌        | 1711/10692 [21:37<1:14:03,  2.02it/s] 16%|█▌        | 1712/10692 [21:37<1:14:01,  2.02it/s] 16%|█▌        | 1713/10692 [21:38<1:14:03,  2.02it/s] 16%|█▌        | 1714/10692 [21:38<1:13:59,  2.02it/s] 16%|█▌        | 1715/10692 [21:39<1:13:57,  2.02it/s] 16%|█▌        | 1716/10692 [21:39<1:13:59,  2.02it/s] 16%|█▌        | 1717/10692 [21:40<1:14:09,  2.02it/s] 16%|█▌        | 1718/10692 [21:40<1:14:07,  2.02it/s] 16%|█▌        | 1719/10692 [21:41<1:14:02,  2.02it/s] 16%|█▌        | 1720/10692 [21:41<1:13:57,  2.02it/s] 16%|█▌        | 1721/10692 [21:42<1:13:59,  2.02it/s] 16%|█▌        | 1722/10692 [21:42<1:13:56,  2.02it/s] 16%|█▌        | 1723/10692 [21:43<1:13:54,  2.02it/s] 16%|█▌        | 1724/10692 [21:43<1:13:59,  2.02it/s] 16%|█▌        | 1725/10692 [21:44<1:13:57,  2.02it/s]                                                      {'loss': 4.1048, 'grad_norm': 0.23494994640350342, 'learning_rate': 0.000988609683248039, 'epoch': 0.16}
+ 16%|█▌        | 1725/10692 [21:44<1:13:57,  2.02it/s] 16%|█▌        | 1726/10692 [21:44<1:14:07,  2.02it/s] 16%|█▌        | 1727/10692 [21:45<1:14:02,  2.02it/s] 16%|█▌        | 1728/10692 [21:45<1:14:00,  2.02it/s] 16%|█▌        | 1729/10692 [21:46<1:13:59,  2.02it/s] 16%|█▌        | 1730/10692 [21:46<1:14:00,  2.02it/s] 16%|█▌        | 1731/10692 [21:47<1:14:02,  2.02it/s] 16%|█▌        | 1732/10692 [21:47<1:13:58,  2.02it/s] 16%|█▌        | 1733/10692 [21:48<1:14:00,  2.02it/s] 16%|█▌        | 1734/10692 [21:48<1:13:58,  2.02it/s] 16%|█▌        | 1735/10692 [21:49<1:13:55,  2.02it/s] 16%|█▌        | 1736/10692 [21:49<1:13:54,  2.02it/s] 16%|█▌        | 1737/10692 [21:50<1:13:47,  2.02it/s] 16%|█▋        | 1738/10692 [21:50<1:13:53,  2.02it/s] 16%|█▋        | 1739/10692 [21:51<1:13:47,  2.02it/s] 16%|█▋        | 1740/10692 [21:51<1:13:46,  2.02it/s] 16%|█▋        | 1741/10692 [21:52<1:13:48,  2.02it/s] 16%|█▋        | 1742/10692 [21:52<1:13:43,  2.02it/s] 16%|█▋        | 1743/10692 [21:53<1:13:48,  2.02it/s] 16%|█▋        | 1744/10692 [21:53<1:13:43,  2.02it/s] 16%|█▋        | 1745/10692 [21:54<1:13:48,  2.02it/s] 16%|█▋        | 1746/10692 [21:54<1:13:46,  2.02it/s] 16%|█▋        | 1747/10692 [21:55<1:13:47,  2.02it/s] 16%|█▋        | 1748/10692 [21:55<1:13:43,  2.02it/s] 16%|█▋        | 1749/10692 [21:56<1:13:44,  2.02it/s] 16%|█▋        | 1750/10692 [21:56<1:13:45,  2.02it/s]{'loss': 4.1091, 'grad_norm': 0.23502235114574432, 'learning_rate': 0.0009877272422691584, 'epoch': 0.16}
+                                                       16%|█▋        | 1750/10692 [21:56<1:13:45,  2.02it/s] 16%|█▋        | 1751/10692 [21:57<1:13:53,  2.02it/s] 16%|█▋        | 1752/10692 [21:57<1:14:06,  2.01it/s] 16%|���▋        | 1753/10692 [21:58<1:13:58,  2.01it/s] 16%|█▋        | 1754/10692 [21:58<1:13:52,  2.02it/s] 16%|█▋        | 1755/10692 [21:58<1:13:45,  2.02it/s] 16%|█▋        | 1756/10692 [21:59<1:13:41,  2.02it/s] 16%|█▋        | 1757/10692 [21:59<1:13:43,  2.02it/s] 16%|█▋        | 1758/10692 [22:00<1:13:41,  2.02it/s] 16%|█▋        | 1759/10692 [22:00<1:13:49,  2.02it/s] 16%|█▋        | 1760/10692 [22:01<1:13:53,  2.01it/s] 16%|█▋        | 1761/10692 [22:01<1:13:44,  2.02it/s] 16%|█▋        | 1762/10692 [22:02<1:25:29,  1.74it/s] 16%|█▋        | 1763/10692 [22:03<1:21:50,  1.82it/s] 16%|█▋        | 1764/10692 [22:03<1:19:22,  1.87it/s] 17%|█▋        | 1765/10692 [22:04<1:17:34,  1.92it/s] 17%|█▋        | 1766/10692 [22:04<1:16:21,  1.95it/s] 17%|█▋        | 1767/10692 [22:05<1:15:31,  1.97it/s] 17%|█▋        | 1768/10692 [22:05<1:14:55,  1.98it/s] 17%|█▋        | 1769/10692 [22:06<1:26:28,  1.72it/s] 17%|█▋        | 1770/10692 [22:06<1:22:40,  1.80it/s] 17%|█▋        | 1771/10692 [22:07<1:19:58,  1.86it/s] 17%|█▋        | 1772/10692 [22:07<1:18:04,  1.90it/s] 17%|█▋        | 1773/10692 [22:08<1:16:39,  1.94it/s] 17%|█▋        | 1774/10692 [22:08<1:15:38,  1.96it/s] 17%|█▋        | 1775/10692 [22:09<1:15:00,  1.98it/s]{'loss': 4.0987, 'grad_norm': 0.22470241785049438, 'learning_rate': 0.0009868123057576107, 'epoch': 0.17}
+                                                       17%|█▋        | 1775/10692 [22:09<1:15:00,  1.98it/s] 17%|█▋        | 1776/10692 [22:09<1:14:38,  1.99it/s] 17%|█▋        | 1777/10692 [22:10<1:14:18,  2.00it/s] 17%|█▋        | 1778/10692 [22:10<1:14:05,  2.01it/s] 17%|█▋        | 1779/10692 [22:11<1:13:54,  2.01it/s] 17%|█▋        | 1780/10692 [22:11<1:13:45,  2.01it/s] 17%|█▋        | 1781/10692 [22:12<1:13:38,  2.02it/s] 17%|█▋        | 1782/10692 [22:12<1:13:29,  2.02it/s] 17%|█▋        | 1783/10692 [22:13<1:13:28,  2.02it/s] 17%|█▋        | 1784/10692 [22:13<1:13:20,  2.02it/s] 17%|█▋        | 1785/10692 [22:14<1:13:26,  2.02it/s] 17%|█▋        | 1786/10692 [22:14<1:13:19,  2.02it/s] 17%|█▋        | 1787/10692 [22:15<1:13:20,  2.02it/s] 17%|█▋        | 1788/10692 [22:15<1:13:22,  2.02it/s] 17%|█▋        | 1789/10692 [22:16<1:13:22,  2.02it/s] 17%|█▋        | 1790/10692 [22:16<1:13:18,  2.02it/s] 17%|█▋        | 1791/10692 [22:17<1:13:19,  2.02it/s] 17%|█▋        | 1792/10692 [22:17<1:13:20,  2.02it/s] 17%|█▋        | 1793/10692 [22:18<1:13:18,  2.02it/s] 17%|█▋        | 1794/10692 [22:18<1:13:16,  2.02it/s] 17%|█▋        | 1795/10692 [22:19<1:13:15,  2.02it/s] 17%|█▋        | 1796/10692 [22:19<1:13:21,  2.02it/s] 17%|█▋        | 1797/10692 [22:20<1:13:19,  2.02it/s] 17%|█▋        | 1798/10692 [22:20<1:13:21,  2.02it/s] 17%|█▋        | 1799/10692 [22:21<1:13:21,  2.02it/s] 17%|█▋        | 1800/10692 [22:21<1:13:20,  2.02it/s]                                                      {'loss': 4.0915, 'grad_norm': 0.23734939098358154, 'learning_rate': 0.0009858649346723646, 'epoch': 0.17}
+ 17%|█▋        | 1800/10692 [22:21<1:13:20,  2.02it/s] 17%|█▋        | 1801/10692 [22:22<1:13:24,  2.02it/s] 17%|█▋        | 1802/10692 [22:22<1:13:22,  2.02it/s] 17%|█▋        | 1803/10692 [22:23<1:13:16,  2.02it/s] 17%|█▋        | 1804/10692 [22:23<1:13:15,  2.02it/s] 17%|█▋        | 1805/10692 [22:24<1:13:11,  2.02it/s] 17%|█▋        | 1806/10692 [22:24<1:13:16,  2.02it/s] 17%|█▋        | 1807/10692 [22:25<1:13:13,  2.02it/s] 17%|█▋        | 1808/10692 [22:25<1:13:12,  2.02it/s] 17%|█▋        | 1809/10692 [22:26<1:13:13,  2.02it/s] 17%|█▋        | 1810/10692 [22:26<1:13:10,  2.02it/s] 17%|█▋        | 1811/10692 [22:27<1:13:11,  2.02it/s] 17%|█▋        | 1812/10692 [22:27<1:13:03,  2.03it/s] 17%|█▋        | 1813/10692 [22:28<1:13:10,  2.02it/s] 17%|█▋        | 1814/10692 [22:28<1:13:07,  2.02it/s] 17%|█▋        | 1815/10692 [22:29<1:13:13,  2.02it/s] 17%|█▋        | 1816/10692 [22:29<1:13:08,  2.02it/s] 17%|█▋        | 1817/10692 [22:30<1:13:10,  2.02it/s] 17%|█▋        | 1818/10692 [22:30<1:13:07,  2.02it/s] 17%|█▋        | 1819/10692 [22:31<1:13:20,  2.02it/s] 17%|█▋        | 1820/10692 [22:31<1:13:11,  2.02it/s] 17%|█▋        | 1821/10692 [22:32<1:13:15,  2.02it/s] 17%|█▋        | 1822/10692 [22:32<1:13:08,  2.02it/s] 17%|█▋        | 1823/10692 [22:33<1:13:08,  2.02it/s] 17%|█▋        | 1824/10692 [22:33<1:13:08,  2.02it/s] 17%|█▋        | 1825/10692 [22:34<1:13:14,  2.02it/s]{'loss': 4.0844, 'grad_norm': 0.23642955720424652, 'learning_rate': 0.000984885192133388, 'epoch': 0.17}
+                                                       17%|█▋        | 1825/10692 [22:34<1:13:14,  2.02it/s] 17%|█▋        | 1826/10692 [22:34<1:13:12,  2.02it/s] 17%|█▋        | 1827/10692 [22:35<1:13:12,  2.02it/s] 17%|█▋        | 1828/10692 [22:35<1:13:07,  2.02it/s] 17%|█▋        | 1829/10692 [22:36<1:13:12,  2.02it/s] 17%|█▋        | 1830/10692 [22:36<1:13:09,  2.02it/s] 17%|█▋        | 1831/10692 [22:37<1:13:12,  2.02it/s] 17%|█▋        | 1832/10692 [22:37<1:13:11,  2.02it/s] 17%|█▋        | 1833/10692 [22:38<1:13:09,  2.02it/s] 17%|█▋        | 1834/10692 [22:38<1:13:05,  2.02it/s] 17%|█▋        | 1835/10692 [22:39<1:13:04,  2.02it/s] 17%|█▋        | 1836/10692 [22:39<1:13:03,  2.02it/s] 17%|█▋        | 1837/10692 [22:40<1:13:05,  2.02it/s] 17%|█▋        | 1838/10692 [22:40<1:12:59,  2.02it/s] 17%|█▋        | 1839/10692 [22:41<1:13:01,  2.02it/s] 17%|█▋        | 1840/10692 [22:41<1:12:57,  2.02it/s] 17%|█▋        | 1841/10692 [22:42<1:13:04,  2.02it/s] 17%|█▋        | 1842/10692 [22:42<1:12:57,  2.02it/s] 17%|█▋        | 1843/10692 [22:43<1:13:01,  2.02it/s] 17%|█▋        | 1844/10692 [22:43<1:12:55,  2.02it/s] 17%|█▋        | 1845/10692 [22:44<1:12:54,  2.02it/s] 17%|█▋        | 1846/10692 [22:44<1:12:52,  2.02it/s] 17%|█▋        | 1847/10692 [22:45<1:12:52,  2.02it/s] 17%|█▋        | 1848/10692 [22:45<1:12:49,  2.02it/s] 17%|█▋        | 1849/10692 [22:46<1:12:51,  2.02it/s] 17%|█▋        | 1850/10692 [22:46<1:12:50,  2.02it/s]{'loss': 4.0838, 'grad_norm': 0.21626166999340057, 'learning_rate': 0.0009838731434174436, 'epoch': 0.17}
+                                                       17%|█▋        | 1850/10692 [22:46<1:12:50,  2.02it/s] 17%|█▋        | 1851/10692 [22:47<1:13:10,  2.01it/s] 17%|█▋        | 1852/10692 [22:47<1:13:02,  2.02it/s] 17%|█▋        | 1853/10692 [22:48<1:13:03,  2.02it/s] 17%|█▋        | 1854/10692 [22:48<1:12:56,  2.02it/s] 17%|█▋        | 1855/10692 [22:49<1:12:57,  2.02it/s] 17%|█▋        | 1856/10692 [22:49<1:12:53,  2.02it/s] 17%|█▋        | 1857/10692 [22:49<1:12:54,  2.02it/s] 17%|█▋        | 1858/10692 [22:50<1:12:50,  2.02it/s] 17%|█▋        | 1859/10692 [22:50<1:12:55,  2.02it/s] 17%|█▋        | 1860/10692 [22:51<1:12:54,  2.02it/s] 17%|█▋        | 1861/10692 [22:51<1:12:52,  2.02it/s] 17%|█▋        | 1862/10692 [22:52<1:12:47,  2.02it/s] 17%|█▋        | 1863/10692 [22:52<1:12:52,  2.02it/s] 17%|█▋        | 1864/10692 [22:53<1:12:44,  2.02it/s] 17%|█▋        | 1865/10692 [22:53<1:12:52,  2.02it/s] 17%|█▋        | 1866/10692 [22:54<1:12:47,  2.02it/s] 17%|█▋        | 1867/10692 [22:54<1:12:43,  2.02it/s] 17%|█▋        | 1868/10692 [22:55<1:12:49,  2.02it/s] 17%|█▋        | 1869/10692 [22:55<1:12:44,  2.02it/s] 17%|█▋        | 1870/10692 [22:56<1:12:46,  2.02it/s] 17%|█▋        | 1871/10692 [22:56<1:12:47,  2.02it/s] 18%|█▊        | 1872/10692 [22:57<1:12:47,  2.02it/s] 18%|█▊        | 1873/10692 [22:57<1:12:44,  2.02it/s] 18%|█▊        | 1874/10692 [22:58<1:12:47,  2.02it/s] 18%|█▊        | 1875/10692 [22:58<1:12:46,  2.02it/s]{'loss': 4.0611, 'grad_norm': 0.22896067798137665, 'learning_rate': 0.000982828855953741, 'epoch': 0.18}
+                                                       18%|█▊        | 1875/10692 [22:58<1:12:46,  2.02it/s] 18%|█▊        | 1876/10692 [22:59<1:12:52,  2.02it/s] 18%|█▊        | 1877/10692 [22:59<1:12:47,  2.02it/s] 18%|█▊        | 1878/10692 [23:00<1:12:44,  2.02it/s] 18%|█▊        | 1879/10692 [23:00<1:12:47,  2.02it/s] 18%|█▊        | 1880/10692 [23:01<1:12:56,  2.01it/s] 18%|█▊        | 1881/10692 [23:01<1:12:49,  2.02it/s] 18%|█▊        | 1882/10692 [23:02<1:12:49,  2.02it/s] 18%|█▊        | 1883/10692 [23:02<1:12:41,  2.02it/s] 18%|█▊        | 1884/10692 [23:03<1:12:41,  2.02it/s] 18%|█▊        | 1885/10692 [23:03<1:12:41,  2.02it/s] 18%|█▊        | 1886/10692 [23:04<1:12:39,  2.02it/s] 18%|█▊        | 1887/10692 [23:04<1:12:35,  2.02it/s] 18%|█▊        | 1888/10692 [23:05<1:12:36,  2.02it/s] 18%|█▊        | 1889/10692 [23:05<1:12:36,  2.02it/s] 18%|█▊        | 1890/10692 [23:06<1:12:35,  2.02it/s] 18%|█▊        | 1891/10692 [23:06<1:12:35,  2.02it/s] 18%|█▊        | 1892/10692 [23:07<1:12:37,  2.02it/s] 18%|█▊        | 1893/10692 [23:07<1:12:35,  2.02it/s] 18%|█▊        | 1894/10692 [23:08<1:12:36,  2.02it/s] 18%|█▊        | 1895/10692 [23:08<1:12:34,  2.02it/s] 18%|█▊        | 1896/10692 [23:09<1:12:31,  2.02it/s] 18%|█▊        | 1897/10692 [23:09<1:12:32,  2.02it/s] 18%|█▊        | 1898/10692 [23:10<1:12:29,  2.02it/s] 18%|█▊        | 1899/10692 [23:10<1:12:31,  2.02it/s] 18%|█▊        | 1900/10692 [23:11<1:12:30,  2.02it/s]{'loss': 4.0612, 'grad_norm': 0.2608153522014618, 'learning_rate': 0.0009817523993194421, 'epoch': 0.18}
+                                                       18%|█▊        | 1900/10692 [23:11<1:12:30,  2.02it/s] 18%|█▊        | 1901/10692 [23:11<1:12:37,  2.02it/s] 18%|█▊        | 1902/10692 [23:12<1:12:35,  2.02it/s] 18%|█▊        | 1903/10692 [23:12<1:12:31,  2.02it/s] 18%|█▊        | 1904/10692 [23:13<1:12:27,  2.02it/s] 18%|█▊        | 1905/10692 [23:13<1:12:24,  2.02it/s] 18%|█▊        | 1906/10692 [23:14<1:12:29,  2.02it/s] 18%|█▊        | 1907/10692 [23:14<1:12:25,  2.02it/s] 18%|█▊        | 1908/10692 [23:15<1:12:26,  2.02it/s] 18%|█▊        | 1909/10692 [23:15<1:12:24,  2.02it/s] 18%|█▊        | 1910/10692 [23:16<1:12:25,  2.02it/s] 18%|█▊        | 1911/10692 [23:16<1:12:21,  2.02it/s] 18%|█▊        | 1912/10692 [23:17<1:12:21,  2.02it/s] 18%|█▊        | 1913/10692 [23:17<1:12:19,  2.02it/s] 18%|█▊        | 1914/10692 [23:18<1:12:29,  2.02it/s] 18%|█▊        | 1915/10692 [23:18<1:12:22,  2.02it/s] 18%|█▊        | 1916/10692 [23:19<1:12:21,  2.02it/s] 18%|█▊        | 1917/10692 [23:19<1:12:19,  2.02it/s] 18%|█▊        | 1918/10692 [23:20<1:12:22,  2.02it/s] 18%|█▊        | 1919/10692 [23:20<1:12:20,  2.02it/s] 18%|█▊        | 1920/10692 [23:21<1:12:21,  2.02it/s] 18%|█▊        | 1921/10692 [23:21<1:12:17,  2.02it/s] 18%|█▊        | 1922/10692 [23:22<1:12:17,  2.02it/s] 18%|█▊        | 1923/10692 [23:22<1:12:17,  2.02it/s] 18%|█▊        | 1924/10692 [23:23<1:12:15,  2.02it/s] 18%|█▊        | 1925/10692 [23:23<1:12:15,  2.02it/s]{'loss': 4.0635, 'grad_norm': 0.2351418286561966, 'learning_rate': 0.0009806438452350263, 'epoch': 0.18}
+                                                       18%|█▊        | 1925/10692 [23:23<1:12:15,  2.02it/s] 18%|█▊        | 1926/10692 [23:24<1:12:21,  2.02it/s] 18%|█▊        | 1927/10692 [23:24<1:12:18,  2.02it/s] 18%|█▊        | 1928/10692 [23:25<1:12:19,  2.02it/s] 18%|█▊        | 1929/10692 [23:25<1:12:11,  2.02it/s] 18%|█▊        | 1930/10692 [23:26<1:12:14,  2.02it/s] 18%|█▊        | 1931/10692 [23:26<1:12:09,  2.02it/s] 18%|█▊        | 1932/10692 [23:27<1:12:05,  2.03it/s] 18%|█▊        | 1933/10692 [23:27<1:12:09,  2.02it/s] 18%|█▊        | 1934/10692 [23:28<1:12:11,  2.02it/s] 18%|█▊        | 1935/10692 [23:28<1:12:12,  2.02it/s] 18%|█▊        | 1936/10692 [23:29<1:12:11,  2.02it/s] 18%|█▊        | 1937/10692 [23:29<1:12:25,  2.01it/s] 18%|█▊        | 1938/10692 [23:30<1:12:23,  2.02it/s] 18%|█▊        | 1939/10692 [23:30<1:12:15,  2.02it/s] 18%|█▊        | 1940/10692 [23:31<1:12:24,  2.01it/s] 18%|█▊        | 1941/10692 [23:31<1:12:26,  2.01it/s] 18%|█▊        | 1942/10692 [23:32<1:12:22,  2.01it/s] 18%|█▊        | 1943/10692 [23:32<1:12:17,  2.02it/s] 18%|█▊        | 1944/10692 [23:33<1:12:19,  2.02it/s] 18%|█▊        | 1945/10692 [23:33<1:12:11,  2.02it/s] 18%|█▊        | 1946/10692 [23:34<1:12:15,  2.02it/s] 18%|█▊        | 1947/10692 [23:34<1:12:08,  2.02it/s] 18%|█▊        | 1948/10692 [23:35<1:12:10,  2.02it/s] 18%|█▊        | 1949/10692 [23:35<1:12:03,  2.02it/s] 18%|█▊        | 1950/10692 [23:36<1:12:04,  2.02it/s]{'loss': 4.0479, 'grad_norm': 0.21586722135543823, 'learning_rate': 0.0009795032675595121, 'epoch': 0.18}
+                                                       18%|█▊        | 1950/10692 [23:36<1:12:04,  2.02it/s] 18%|█▊        | 1951/10692 [23:36<1:12:05,  2.02it/s] 18%|█▊        | 1952/10692 [23:37<1:12:06,  2.02it/s] 18%|█▊        | 1953/10692 [23:37<1:12:03,  2.02it/s] 18%|█▊        | 1954/10692 [23:38<1:12:05,  2.02it/s] 18%|█▊        | 1955/10692 [23:38<1:12:03,  2.02it/s] 18%|█▊        | 1956/10692 [23:39<1:11:59,  2.02it/s] 18%|█▊        | 1957/10692 [23:39<1:12:01,  2.02it/s] 18%|█▊        | 1958/10692 [23:39<1:12:03,  2.02it/s] 18%|█▊        | 1959/10692 [23:40<1:12:03,  2.02it/s] 18%|█▊        | 1960/10692 [23:40<1:12:01,  2.02it/s] 18%|█▊        | 1961/10692 [23:41<1:11:59,  2.02it/s] 18%|█▊        | 1962/10692 [23:41<1:11:59,  2.02it/s] 18%|█▊        | 1963/10692 [23:42<1:11:59,  2.02it/s] 18%|█▊        | 1964/10692 [23:42<1:11:54,  2.02it/s] 18%|█▊        | 1965/10692 [23:43<1:12:00,  2.02it/s] 18%|█▊        | 1966/10692 [23:43<1:11:57,  2.02it/s] 18%|█▊        | 1967/10692 [23:44<1:12:02,  2.02it/s] 18%|█▊        | 1968/10692 [23:44<1:12:06,  2.02it/s] 18%|█▊        | 1969/10692 [23:45<1:12:03,  2.02it/s] 18%|█▊        | 1970/10692 [23:45<1:12:03,  2.02it/s] 18%|█▊        | 1971/10692 [23:46<1:12:01,  2.02it/s] 18%|█▊        | 1972/10692 [23:46<1:12:00,  2.02it/s] 18%|█▊        | 1973/10692 [23:47<1:11:54,  2.02it/s] 18%|█▊        | 1974/10692 [23:47<1:11:57,  2.02it/s] 18%|█▊        | 1975/10692 [23:48<1:11:53,  2.02it/s]                                                      {'loss': 4.0422, 'grad_norm': 0.22354063391685486, 'learning_rate': 0.0009783307422855368, 'epoch': 0.18}
+ 18%|█▊        | 1975/10692 [23:48<1:11:53,  2.02it/s] 18%|█▊        | 1976/10692 [23:48<1:12:09,  2.01it/s] 18%|█▊        | 1977/10692 [23:49<1:12:06,  2.01it/s] 18%|█▊        | 1978/10692 [23:49<1:12:02,  2.02it/s] 19%|█▊        | 1979/10692 [23:50<1:11:56,  2.02it/s] 19%|█▊        | 1980/10692 [23:50<1:11:57,  2.02it/s] 19%|█▊        | 1981/10692 [23:51<1:11:53,  2.02it/s] 19%|█▊        | 1982/10692 [23:51<1:11:53,  2.02it/s] 19%|█▊        | 1983/10692 [23:52<1:11:52,  2.02it/s] 19%|█▊        | 1984/10692 [23:52<1:11:53,  2.02it/s] 19%|█▊        | 1985/10692 [23:53<1:11:51,  2.02it/s] 19%|█▊        | 1986/10692 [23:53<1:11:53,  2.02it/s] 19%|█▊        | 1987/10692 [23:54<1:11:47,  2.02it/s] 19%|█▊        | 1988/10692 [23:54<1:11:49,  2.02it/s] 19%|█▊        | 1989/10692 [23:55<1:11:42,  2.02it/s] 19%|█▊        | 1990/10692 [23:55<1:11:43,  2.02it/s] 19%|█▊        | 1991/10692 [23:56<1:11:39,  2.02it/s] 19%|█▊        | 1992/10692 [23:56<1:11:39,  2.02it/s] 19%|█▊        | 1993/10692 [23:57<1:11:35,  2.03it/s] 19%|█▊        | 1994/10692 [23:57<1:11:32,  2.03it/s] 19%|█▊        | 1995/10692 [23:58<1:11:36,  2.02it/s] 19%|█▊        | 1996/10692 [23:58<1:11:32,  2.03it/s] 19%|█▊        | 1997/10692 [23:59<1:11:37,  2.02it/s] 19%|█▊        | 1998/10692 [23:59<1:11:34,  2.02it/s] 19%|█▊        | 1999/10692 [24:00<1:11:40,  2.02it/s] 19%|█▊        | 2000/10692 [24:00<1:11:37,  2.02it/s]{'loss': 4.0381, 'grad_norm': 0.22324103116989136, 'learning_rate': 0.0009771263475342913, 'epoch': 0.19}
+                                                       19%|█▊        | 2000/10692 [24:00<1:11:37,  2.02it/s] 19%|█▊        | 2001/10692 [24:01<1:11:56,  2.01it/s] 19%|█▊        | 2002/10692 [24:01<1:11:53,  2.01it/s] 19%|█▊        | 2003/10692 [24:02<1:11:47,  2.02it/s] 19%|█▊        | 2004/10692 [24:02<1:11:45,  2.02it/s] 19%|█▉        | 2005/10692 [24:03<1:11:48,  2.02it/s] 19%|█▉        | 2006/10692 [24:03<1:11:42,  2.02it/s] 19%|█▉        | 2007/10692 [24:04<1:11:47,  2.02it/s] 19%|█▉        | 2008/10692 [24:04<1:11:39,  2.02it/s] 19%|█▉        | 2009/10692 [24:05<1:11:39,  2.02it/s] 19%|█▉        | 2010/10692 [24:05<1:11:34,  2.02it/s] 19%|█▉        | 2011/10692 [24:06<1:11:32,  2.02it/s] 19%|█▉        | 2012/10692 [24:06<1:11:32,  2.02it/s] 19%|█▉        | 2013/10692 [24:07<1:11:26,  2.02it/s] 19%|█▉        | 2014/10692 [24:07<1:11:29,  2.02it/s] 19%|█▉        | 2015/10692 [24:08<1:11:31,  2.02it/s] 19%|█▉        | 2016/10692 [24:08<1:11:29,  2.02it/s] 19%|█▉        | 2017/10692 [24:09<1:11:31,  2.02it/s] 19%|█▉        | 2018/10692 [24:09<1:11:27,  2.02it/s] 19%|█▉        | 2019/10692 [24:10<1:11:30,  2.02it/s] 19%|█▉        | 2020/10692 [24:10<1:11:25,  2.02it/s] 19%|█▉        | 2021/10692 [24:11<1:11:29,  2.02it/s] 19%|█▉        | 2022/10692 [24:11<1:11:27,  2.02it/s] 19%|█▉        | 2023/10692 [24:12<1:11:31,  2.02it/s] 19%|█▉        | 2024/10692 [24:12<1:11:22,  2.02it/s] 19%|█▉        | 2025/10692 [24:13<1:11:23,  2.02it/s]                                                      {'loss': 4.042, 'grad_norm': 0.2266554832458496, 'learning_rate': 0.0009758901635503175, 'epoch': 0.19}
+ 19%|█▉        | 2025/10692 [24:13<1:11:23,  2.02it/s] 19%|█▉        | 2026/10692 [24:13<1:11:43,  2.01it/s] 19%|█▉        | 2027/10692 [24:14<1:11:38,  2.02it/s] 19%|█▉        | 2028/10692 [24:14<1:11:33,  2.02it/s] 19%|█▉        | 2029/10692 [24:15<1:11:35,  2.02it/s] 19%|█▉        | 2030/10692 [24:15<1:11:35,  2.02it/s] 19%|█▉        | 2031/10692 [24:16<1:11:31,  2.02it/s] 19%|█▉        | 2032/10692 [24:16<1:11:30,  2.02it/s] 19%|█▉        | 2033/10692 [24:17<1:11:27,  2.02it/s] 19%|█▉        | 2034/10692 [24:17<1:11:27,  2.02it/s] 19%|█▉        | 2035/10692 [24:18<1:11:25,  2.02it/s] 19%|█▉        | 2036/10692 [24:18<1:11:27,  2.02it/s] 19%|█▉        | 2037/10692 [24:19<1:11:25,  2.02it/s] 19%|█▉        | 2038/10692 [24:19<1:11:23,  2.02it/s] 19%|█▉        | 2039/10692 [24:20<1:11:23,  2.02it/s] 19%|█▉        | 2040/10692 [24:20<1:11:23,  2.02it/s] 19%|█▉        | 2041/10692 [24:21<1:11:23,  2.02it/s] 19%|█▉        | 2042/10692 [24:21<1:11:24,  2.02it/s] 19%|█▉        | 2043/10692 [24:22<1:11:20,  2.02it/s] 19%|█▉        | 2044/10692 [24:22<1:11:22,  2.02it/s] 19%|█▉        | 2045/10692 [24:23<1:11:15,  2.02it/s] 19%|█▉        | 2046/10692 [24:23<1:11:22,  2.02it/s] 19%|█▉        | 2047/10692 [24:24<1:11:22,  2.02it/s] 19%|█▉        | 2048/10692 [24:24<1:11:19,  2.02it/s] 19%|█▉        | 2049/10692 [24:25<1:11:23,  2.02it/s] 19%|█▉        | 2050/10692 [24:25<1:11:21,  2.02it/s]{'loss': 4.032, 'grad_norm': 0.22230978310108185, 'learning_rate': 0.0009746222726961604, 'epoch': 0.19}                                                      
+ 19%|█▉        | 2050/10692 [24:25<1:11:21,  2.02it/s] 19%|█▉        | 2051/10692 [24:26<1:11:32,  2.01it/s] 19%|█▉        | 2052/10692 [24:26<1:11:23,  2.02it/s] 19%|█▉        | 2053/10692 [24:27<1:11:23,  2.02it/s] 19%|█▉        | 2054/10692 [24:27<1:11:17,  2.02it/s] 19%|█▉        | 2055/10692 [24:28<1:11:18,  2.02it/s] 19%|█▉        | 2056/10692 [24:28<1:11:11,  2.02it/s] 19%|█▉        | 2057/10692 [24:29<1:11:14,  2.02it/s] 19%|█▉        | 2058/10692 [24:29<1:11:08,  2.02it/s] 19%|█▉        | 2059/10692 [24:29<1:11:16,  2.02it/s] 19%|█▉        | 2060/10692 [24:30<1:11:11,  2.02it/s] 19%|█▉        | 2061/10692 [24:30<1:11:18,  2.02it/s] 19%|█▉        | 2062/10692 [24:31<1:11:19,  2.02it/s] 19%|█▉        | 2063/10692 [24:31<1:11:14,  2.02it/s] 19%|█▉        | 2064/10692 [24:32<1:11:16,  2.02it/s] 19%|█▉        | 2065/10692 [24:32<1:11:12,  2.02it/s] 19%|█▉        | 2066/10692 [24:33<1:11:07,  2.02it/s] 19%|█▉        | 2067/10692 [24:33<1:11:05,  2.02it/s] 19%|█▉        | 2068/10692 [24:34<1:11:09,  2.02it/s] 19%|█▉        | 2069/10692 [24:34<1:11:12,  2.02it/s] 19%|█▉        | 2070/10692 [24:35<1:11:07,  2.02it/s] 19%|█▉        | 2071/10692 [24:35<1:11:08,  2.02it/s] 19%|█▉        | 2072/10692 [24:36<1:11:00,  2.02it/s] 19%|█▉        | 2073/10692 [24:36<1:10:59,  2.02it/s] 19%|█▉        | 2074/10692 [24:37<1:10:58,  2.02it/s] 19%|█▉        | 2075/10692 [24:37<1:10:57,  2.02it/s]{'loss': 4.0309, 'grad_norm': 0.2042275071144104, 'learning_rate': 0.0009733227594468817, 'epoch': 0.19}
+                                                       19%|█▉        | 2075/10692 [24:37<1:10:57,  2.02it/s] 19%|█▉        | 2076/10692 [24:38<1:10:58,  2.02it/s] 19%|█▉        | 2077/10692 [24:38<1:10:56,  2.02it/s] 19%|█▉        | 2078/10692 [24:39<1:10:56,  2.02it/s] 19%|█▉        | 2079/10692 [24:39<1:10:56,  2.02it/s] 19%|█▉        | 2080/10692 [24:40<1:10:59,  2.02it/s] 19%|█▉        | 2081/10692 [24:40<1:10:59,  2.02it/s] 19%|█▉        | 2082/10692 [24:41<1:10:58,  2.02it/s] 19%|█▉        | 2083/10692 [24:41<1:10:58,  2.02it/s] 19%|█▉        | 2084/10692 [24:42<1:10:58,  2.02it/s] 20%|█▉        | 2085/10692 [24:42<1:10:57,  2.02it/s] 20%|█▉        | 2086/10692 [24:43<1:11:02,  2.02it/s] 20%|█▉        | 2087/10692 [24:43<1:10:59,  2.02it/s] 20%|█▉        | 2088/10692 [24:44<1:10:56,  2.02it/s] 20%|█▉        | 2089/10692 [24:44<1:10:57,  2.02it/s] 20%|█▉        | 2090/10692 [24:45<1:10:56,  2.02it/s] 20%|█▉        | 2091/10692 [24:45<1:10:55,  2.02it/s] 20%|█▉        | 2092/10692 [24:46<1:10:54,  2.02it/s] 20%|█▉        | 2093/10692 [24:46<1:10:53,  2.02it/s] 20%|█▉        | 2094/10692 [24:47<1:10:49,  2.02it/s] 20%|█▉        | 2095/10692 [24:47<1:10:51,  2.02it/s] 20%|█▉        | 2096/10692 [24:48<1:10:46,  2.02it/s] 20%|█▉        | 2097/10692 [24:48<1:10:53,  2.02it/s] 20%|█▉        | 2098/10692 [24:49<1:10:48,  2.02it/s] 20%|█▉        | 2099/10692 [24:49<1:10:46,  2.02it/s] 20%|█▉        | 2100/10692 [24:50<1:10:43,  2.02it/s]{'loss': 4.0229, 'grad_norm': 0.21106332540512085, 'learning_rate': 0.0009719917103844301, 'epoch': 0.2}
+                                                       20%|█▉        | 2100/10692 [24:50<1:10:43,  2.02it/s] 20%|█▉        | 2101/10692 [24:50<1:10:52,  2.02it/s] 20%|█▉        | 2102/10692 [24:51<1:10:47,  2.02it/s] 20%|█▉        | 2103/10692 [24:51<1:10:54,  2.02it/s] 20%|█▉        | 2104/10692 [24:52<1:10:47,  2.02it/s] 20%|█▉        | 2105/10692 [24:52<1:10:46,  2.02it/s] 20%|█▉        | 2106/10692 [24:53<1:10:42,  2.02it/s] 20%|█▉        | 2107/10692 [24:53<1:10:43,  2.02it/s] 20%|█▉        | 2108/10692 [24:54<1:10:42,  2.02it/s] 20%|█▉        | 2109/10692 [24:54<1:10:44,  2.02it/s] 20%|█▉        | 2110/10692 [24:55<1:10:44,  2.02it/s] 20%|█▉        | 2111/10692 [24:55<1:10:49,  2.02it/s] 20%|█▉        | 2112/10692 [24:56<1:10:59,  2.01it/s] 20%|█▉        | 2113/10692 [24:56<1:10:54,  2.02it/s] 20%|█▉        | 2114/10692 [24:57<1:10:48,  2.02it/s] 20%|█▉        | 2115/10692 [24:57<1:10:47,  2.02it/s] 20%|█▉        | 2116/10692 [24:58<1:10:42,  2.02it/s] 20%|█▉        | 2117/10692 [24:58<1:10:44,  2.02it/s] 20%|█▉        | 2118/10692 [24:59<1:10:37,  2.02it/s] 20%|█▉        | 2119/10692 [24:59<1:10:42,  2.02it/s] 20%|█▉        | 2120/10692 [25:00<1:10:37,  2.02it/s] 20%|█▉        | 2121/10692 [25:00<1:10:41,  2.02it/s] 20%|█▉        | 2122/10692 [25:01<1:10:48,  2.02it/s] 20%|█▉        | 2123/10692 [25:01<1:10:46,  2.02it/s] 20%|█▉        | 2124/10692 [25:02<1:10:39,  2.02it/s] 20%|█▉        | 2125/10692 [25:02<1:10:41,  2.02it/s]{'loss': 4.0152, 'grad_norm': 0.2562767565250397, 'learning_rate': 0.0009706292141918737, 'epoch': 0.2}
+                                                       20%|█▉        | 2125/10692 [25:02<1:10:41,  2.02it/s] 20%|█▉        | 2126/10692 [25:03<1:10:44,  2.02it/s] 20%|█▉        | 2127/10692 [25:03<1:10:43,  2.02it/s] 20%|█▉        | 2128/10692 [25:04<1:10:42,  2.02it/s] 20%|█▉        | 2129/10692 [25:04<1:10:43,  2.02it/s] 20%|█▉        | 2130/10692 [25:05<1:10:38,  2.02it/s] 20%|█▉        | 2131/10692 [25:05<1:10:39,  2.02it/s] 20%|█▉        | 2132/10692 [25:06<1:10:39,  2.02it/s] 20%|█▉        | 2133/10692 [25:06<1:10:40,  2.02it/s] 20%|█▉        | 2134/10692 [25:07<1:10:35,  2.02it/s] 20%|█▉        | 2135/10692 [25:07<1:10:39,  2.02it/s] 20%|█▉        | 2136/10692 [25:08<1:10:33,  2.02it/s] 20%|█▉        | 2137/10692 [25:08<1:10:33,  2.02it/s] 20%|█▉        | 2138/10692 [25:09<1:10:34,  2.02it/s] 20%|██        | 2139/10692 [25:09<1:10:33,  2.02it/s] 20%|██        | 2140/10692 [25:10<1:10:29,  2.02it/s] 20%|██        | 2141/10692 [25:10<1:10:28,  2.02it/s] 20%|██        | 2142/10692 [25:11<1:10:31,  2.02it/s] 20%|██        | 2143/10692 [25:11<1:10:24,  2.02it/s] 20%|██        | 2144/10692 [25:12<1:10:25,  2.02it/s] 20%|██        | 2145/10692 [25:12<1:10:23,  2.02it/s] 20%|██        | 2146/10692 [25:13<1:10:20,  2.03it/s] 20%|██        | 2147/10692 [25:13<1:10:22,  2.02it/s] 20%|██        | 2148/10692 [25:14<1:10:21,  2.02it/s] 20%|██        | 2149/10692 [25:14<1:10:22,  2.02it/s] 20%|██        | 2150/10692 [25:15<1:10:24,  2.02it/s]{'loss': 4.0098, 'grad_norm': 0.21705488860607147, 'learning_rate': 0.0009692353616474916, 'epoch': 0.2}
+                                                       20%|██        | 2150/10692 [25:15<1:10:24,  2.02it/s] 20%|██        | 2151/10692 [25:15<1:10:32,  2.02it/s] 20%|██        | 2152/10692 [25:16<1:10:25,  2.02it/s] 20%|██        | 2153/10692 [25:16<1:10:27,  2.02it/s] 20%|██        | 2154/10692 [25:17<1:10:22,  2.02it/s] 20%|██        | 2155/10692 [25:17<1:10:17,  2.02it/s] 20%|██        | 2156/10692 [25:17<1:10:17,  2.02it/s] 20%|██        | 2157/10692 [25:18<1:10:13,  2.03it/s] 20%|██        | 2158/10692 [25:18<1:10:16,  2.02it/s] 20%|██        | 2159/10692 [25:19<1:10:15,  2.02it/s] 20%|██        | 2160/10692 [25:19<1:10:19,  2.02it/s] 20%|██        | 2161/10692 [25:20<1:10:17,  2.02it/s] 20%|██        | 2162/10692 [25:20<1:10:19,  2.02it/s] 20%|██        | 2163/10692 [25:21<1:10:15,  2.02it/s] 20%|██        | 2164/10692 [25:21<1:10:18,  2.02it/s] 20%|██        | 2165/10692 [25:22<1:10:19,  2.02it/s] 20%|██        | 2166/10692 [25:22<1:10:19,  2.02it/s] 20%|██        | 2167/10692 [25:23<1:10:14,  2.02it/s] 20%|██        | 2168/10692 [25:23<1:10:18,  2.02it/s] 20%|██        | 2169/10692 [25:24<1:10:15,  2.02it/s] 20%|██        | 2170/10692 [25:24<1:10:21,  2.02it/s] 20%|██        | 2171/10692 [25:25<1:10:14,  2.02it/s] 20%|██        | 2172/10692 [25:25<1:10:16,  2.02it/s] 20%|██        | 2173/10692 [25:26<1:10:10,  2.02it/s] 20%|██        | 2174/10692 [25:26<1:10:14,  2.02it/s] 20%|██        | 2175/10692 [25:27<1:10:11,  2.02it/s]{'loss': 4.0065, 'grad_norm': 0.22307884693145752, 'learning_rate': 0.0009678102456187245, 'epoch': 0.2}
+                                                       20%|██        | 2175/10692 [25:27<1:10:11,  2.02it/s] 20%|██        | 2176/10692 [25:27<1:10:22,  2.02it/s] 20%|██        | 2177/10692 [25:28<1:10:16,  2.02it/s] 20%|██        | 2178/10692 [25:28<1:10:21,  2.02it/s] 20%|██        | 2179/10692 [25:29<1:10:24,  2.01it/s] 20%|██        | 2180/10692 [25:29<1:10:22,  2.02it/s] 20%|██        | 2181/10692 [25:30<1:10:15,  2.02it/s] 20%|██        | 2182/10692 [25:30<1:10:18,  2.02it/s] 20%|██        | 2183/10692 [25:31<1:10:28,  2.01it/s] 20%|██        | 2184/10692 [25:31<1:10:20,  2.02it/s] 20%|██        | 2185/10692 [25:32<1:10:19,  2.02it/s] 20%|██        | 2186/10692 [25:32<1:10:17,  2.02it/s] 20%|██        | 2187/10692 [25:33<1:10:14,  2.02it/s] 20%|██        | 2188/10692 [25:33<1:10:09,  2.02it/s] 20%|██        | 2189/10692 [25:34<1:10:14,  2.02it/s] 20%|██        | 2190/10692 [25:34<1:10:12,  2.02it/s] 20%|██        | 2191/10692 [25:35<1:10:12,  2.02it/s] 21%|██        | 2192/10692 [25:35<1:10:10,  2.02it/s] 21%|██        | 2193/10692 [25:36<1:10:07,  2.02it/s] 21%|██        | 2194/10692 [25:36<1:10:05,  2.02it/s] 21%|██        | 2195/10692 [25:37<1:10:05,  2.02it/s] 21%|██        | 2196/10692 [25:37<1:10:05,  2.02it/s] 21%|██        | 2197/10692 [25:38<1:10:04,  2.02it/s] 21%|██        | 2198/10692 [25:38<1:09:58,  2.02it/s] 21%|██        | 2199/10692 [25:39<1:10:00,  2.02it/s] 21%|██        | 2200/10692 [25:39<1:10:02,  2.02it/s]{'loss': 3.9998, 'grad_norm': 0.21018405258655548, 'learning_rate': 0.0009663539610559884, 'epoch': 0.21}
+                                                       21%|██        | 2200/10692 [25:39<1:10:02,  2.02it/s] 21%|██        | 2201/10692 [25:40<1:10:09,  2.02it/s] 21%|██        | 2202/10692 [25:40<1:10:07,  2.02it/s] 21%|██        | 2203/10692 [25:41<1:10:04,  2.02it/s] 21%|██        | 2204/10692 [25:41<1:10:06,  2.02it/s] 21%|██        | 2205/10692 [25:42<1:10:06,  2.02it/s] 21%|██        | 2206/10692 [25:42<1:10:03,  2.02it/s] 21%|██        | 2207/10692 [25:43<1:10:02,  2.02it/s] 21%|██        | 2208/10692 [25:43<1:09:56,  2.02it/s] 21%|██        | 2209/10692 [25:44<1:09:58,  2.02it/s] 21%|██        | 2210/10692 [25:44<1:09:51,  2.02it/s] 21%|██        | 2211/10692 [25:45<1:09:57,  2.02it/s] 21%|██        | 2212/10692 [25:45<1:09:50,  2.02it/s] 21%|██        | 2213/10692 [25:46<1:09:53,  2.02it/s] 21%|██        | 2214/10692 [25:46<1:09:52,  2.02it/s] 21%|██        | 2215/10692 [25:47<1:09:55,  2.02it/s] 21%|██        | 2216/10692 [25:47<1:09:50,  2.02it/s] 21%|██        | 2217/10692 [25:48<1:09:54,  2.02it/s] 21%|██        | 2218/10692 [25:48<1:09:55,  2.02it/s] 21%|██        | 2219/10692 [25:49<1:09:54,  2.02it/s] 21%|██        | 2220/10692 [25:49<1:09:51,  2.02it/s] 21%|██        | 2221/10692 [25:50<1:09:50,  2.02it/s] 21%|██        | 2222/10692 [25:50<1:09:49,  2.02it/s] 21%|██        | 2223/10692 [25:51<1:09:52,  2.02it/s] 21%|██        | 2224/10692 [25:51<1:09:50,  2.02it/s] 21%|██        | 2225/10692 [25:52<1:09:53,  2.02it/s]{'loss': 4.0037, 'grad_norm': 0.2170400768518448, 'learning_rate': 0.0009648666049863475, 'epoch': 0.21}
+                                                       21%|██        | 2225/10692 [25:52<1:09:53,  2.02it/s] 21%|██        | 2226/10692 [25:52<1:09:56,  2.02it/s] 21%|██        | 2227/10692 [25:53<1:09:54,  2.02it/s] 21%|██        | 2228/10692 [25:53<1:09:50,  2.02it/s] 21%|██        | 2229/10692 [25:54<1:09:50,  2.02it/s] 21%|██        | 2230/10692 [25:54<1:09:46,  2.02it/s] 21%|██        | 2231/10692 [25:55<1:09:45,  2.02it/s] 21%|██        | 2232/10692 [25:55<1:09:46,  2.02it/s] 21%|██        | 2233/10692 [25:56<1:09:53,  2.02it/s] 21%|██        | 2234/10692 [25:56<1:10:00,  2.01it/s] 21%|██        | 2235/10692 [25:57<1:10:03,  2.01it/s] 21%|██        | 2236/10692 [25:57<1:09:58,  2.01it/s] 21%|██        | 2237/10692 [25:58<1:09:53,  2.02it/s] 21%|██        | 2238/10692 [25:58<1:09:50,  2.02it/s] 21%|██        | 2239/10692 [25:59<1:09:50,  2.02it/s] 21%|██        | 2240/10692 [25:59<1:09:43,  2.02it/s] 21%|██        | 2241/10692 [26:00<1:09:46,  2.02it/s] 21%|██        | 2242/10692 [26:00<1:09:44,  2.02it/s] 21%|██        | 2243/10692 [26:01<1:09:54,  2.01it/s] 21%|██        | 2244/10692 [26:01<1:09:55,  2.01it/s] 21%|██        | 2245/10692 [26:02<1:09:50,  2.02it/s] 21%|██        | 2246/10692 [26:02<1:09:50,  2.02it/s] 21%|██        | 2247/10692 [26:03<1:09:44,  2.02it/s] 21%|██        | 2248/10692 [26:03<1:09:43,  2.02it/s] 21%|██        | 2249/10692 [26:04<1:09:43,  2.02it/s] 21%|██        | 2250/10692 [26:04<1:09:40,  2.02it/s]{'loss': 3.9898, 'grad_norm': 0.2074773907661438, 'learning_rate': 0.0009633482765070507, 'epoch': 0.21}                                                      
+ 21%|██        | 2250/10692 [26:04<1:09:40,  2.02it/s] 21%|██        | 2251/10692 [26:05<1:09:41,  2.02it/s] 21%|██        | 2252/10692 [26:05<1:09:42,  2.02it/s] 21%|██        | 2253/10692 [26:06<1:09:35,  2.02it/s] 21%|██        | 2254/10692 [26:06<1:09:40,  2.02it/s] 21%|██        | 2255/10692 [26:07<1:09:30,  2.02it/s] 21%|██        | 2256/10692 [26:07<1:09:33,  2.02it/s] 21%|██        | 2257/10692 [26:08<1:09:32,  2.02it/s] 21%|██        | 2258/10692 [26:08<1:09:36,  2.02it/s] 21%|██        | 2259/10692 [26:08<1:09:30,  2.02it/s] 21%|██        | 2260/10692 [26:09<1:09:31,  2.02it/s] 21%|██        | 2261/10692 [26:09<1:09:27,  2.02it/s] 21%|██        | 2262/10692 [26:10<1:09:32,  2.02it/s] 21%|██        | 2263/10692 [26:10<1:09:29,  2.02it/s] 21%|██        | 2264/10692 [26:11<1:09:31,  2.02it/s] 21%|██        | 2265/10692 [26:11<1:09:28,  2.02it/s] 21%|██        | 2266/10692 [26:12<1:09:32,  2.02it/s] 21%|██        | 2267/10692 [26:12<1:09:27,  2.02it/s] 21%|██        | 2268/10692 [26:13<1:09:27,  2.02it/s] 21%|██        | 2269/10692 [26:13<1:09:22,  2.02it/s] 21%|██        | 2270/10692 [26:14<1:09:20,  2.02it/s] 21%|██        | 2271/10692 [26:14<1:09:21,  2.02it/s] 21%|██        | 2272/10692 [26:15<1:09:21,  2.02it/s] 21%|██▏       | 2273/10692 [26:15<1:09:24,  2.02it/s] 21%|██▏       | 2274/10692 [26:16<1:09:24,  2.02it/s] 21%|██▏       | 2275/10692 [26:16<1:09:23,  2.02it/s]{'loss': 3.991, 'grad_norm': 0.221714586019516, 'learning_rate': 0.000961799076778928, 'epoch': 0.21}
+                                                       21%|██▏       | 2275/10692 [26:16<1:09:23,  2.02it/s] 21%|██▏       | 2276/10692 [26:17<1:09:29,  2.02it/s] 21%|██▏       | 2277/10692 [26:17<1:09:25,  2.02it/s] 21%|██▏       | 2278/10692 [26:18<1:09:24,  2.02it/s] 21%|██▏       | 2279/10692 [26:18<1:09:27,  2.02it/s] 21%|██▏       | 2280/10692 [26:19<1:09:22,  2.02it/s] 21%|██▏       | 2281/10692 [26:19<1:09:25,  2.02it/s] 21%|██▏       | 2282/10692 [26:20<1:09:24,  2.02it/s] 21%|██▏       | 2283/10692 [26:20<1:09:20,  2.02it/s] 21%|██▏       | 2284/10692 [26:21<1:09:24,  2.02it/s] 21%|██▏       | 2285/10692 [26:21<1:09:20,  2.02it/s] 21%|██▏       | 2286/10692 [26:22<1:09:19,  2.02it/s] 21%|██▏       | 2287/10692 [26:22<1:09:16,  2.02it/s] 21%|██▏       | 2288/10692 [26:23<1:09:19,  2.02it/s] 21%|██▏       | 2289/10692 [26:23<1:09:13,  2.02it/s] 21%|██▏       | 2290/10692 [26:24<1:09:11,  2.02it/s] 21%|██▏       | 2291/10692 [26:24<1:09:11,  2.02it/s] 21%|██▏       | 2292/10692 [26:25<1:09:08,  2.02it/s] 21%|██▏       | 2293/10692 [26:25<1:09:15,  2.02it/s] 21%|██▏       | 2294/10692 [26:26<1:09:12,  2.02it/s] 21%|██▏       | 2295/10692 [26:26<1:09:16,  2.02it/s] 21%|██▏       | 2296/10692 [26:27<1:09:11,  2.02it/s] 21%|██▏       | 2297/10692 [26:27<1:09:14,  2.02it/s] 21%|██▏       | 2298/10692 [26:28<1:09:09,  2.02it/s] 22%|██▏       | 2299/10692 [26:28<1:09:10,  2.02it/s] 22%|██▏       | 2300/10692 [26:29<1:09:07,  2.02it/s]{'loss': 3.9843, 'grad_norm': 0.21987245976924896, 'learning_rate': 0.0009602191090196508, 'epoch': 0.22}
+                                                       22%|██▏       | 2300/10692 [26:29<1:09:07,  2.02it/s] 22%|██▏       | 2301/10692 [26:29<1:09:18,  2.02it/s] 22%|██▏       | 2302/10692 [26:30<1:09:08,  2.02it/s] 22%|██▏       | 2303/10692 [26:30<1:09:14,  2.02it/s] 22%|██▏       | 2304/10692 [26:31<1:09:23,  2.01it/s] 22%|██▏       | 2305/10692 [26:31<1:09:20,  2.02it/s] 22%|██▏       | 2306/10692 [26:32<1:09:17,  2.02it/s] 22%|██▏       | 2307/10692 [26:32<1:09:21,  2.02it/s] 22%|██▏       | 2308/10692 [26:33<1:09:19,  2.02it/s] 22%|██▏       | 2309/10692 [26:33<1:09:13,  2.02it/s] 22%|██▏       | 2310/10692 [26:34<1:09:13,  2.02it/s] 22%|██▏       | 2311/10692 [26:34<1:09:09,  2.02it/s] 22%|██▏       | 2312/10692 [26:35<1:09:06,  2.02it/s] 22%|██▏       | 2313/10692 [26:35<1:09:03,  2.02it/s] 22%|██▏       | 2314/10692 [26:36<1:09:07,  2.02it/s] 22%|██▏       | 2315/10692 [26:36<1:09:03,  2.02it/s] 22%|██▏       | 2316/10692 [26:37<1:09:06,  2.02it/s] 22%|██▏       | 2317/10692 [26:37<1:09:04,  2.02it/s] 22%|██▏       | 2318/10692 [26:38<1:09:05,  2.02it/s] 22%|██▏       | 2319/10692 [26:38<1:08:57,  2.02it/s] 22%|██▏       | 2320/10692 [26:39<1:09:01,  2.02it/s] 22%|██▏       | 2321/10692 [26:39<1:08:57,  2.02it/s] 22%|██▏       | 2322/10692 [26:40<1:08:58,  2.02it/s] 22%|██▏       | 2323/10692 [26:40<1:08:52,  2.03it/s] 22%|██▏       | 2324/10692 [26:41<1:08:55,  2.02it/s] 22%|██▏       | 2325/10692 [26:41<1:08:57,  2.02it/s]{'loss': 3.9784, 'grad_norm': 0.21893607079982758, 'learning_rate': 0.0009586084784968558, 'epoch': 0.22}
+                                                       22%|██▏       | 2325/10692 [26:41<1:08:57,  2.02it/s] 22%|██▏       | 2326/10692 [26:42<1:09:06,  2.02it/s] 22%|██▏       | 2327/10692 [26:42<1:08:59,  2.02it/s] 22%|██▏       | 2328/10692 [26:43<1:09:04,  2.02it/s] 22%|██▏       | 2329/10692 [26:43<1:08:59,  2.02it/s] 22%|██▏       | 2330/10692 [26:44<1:09:01,  2.02it/s] 22%|██▏       | 2331/10692 [26:44<1:08:59,  2.02it/s] 22%|██▏       | 2332/10692 [26:45<1:08:59,  2.02it/s] 22%|██▏       | 2333/10692 [26:45<1:08:51,  2.02it/s] 22%|██▏       | 2334/10692 [26:46<1:08:55,  2.02it/s] 22%|██▏       | 2335/10692 [26:46<1:08:52,  2.02it/s] 22%|██▏       | 2336/10692 [26:47<1:08:54,  2.02it/s] 22%|██▏       | 2337/10692 [26:47<1:08:52,  2.02it/s] 22%|██▏       | 2338/10692 [26:48<1:08:58,  2.02it/s] 22%|██▏       | 2339/10692 [26:48<1:08:51,  2.02it/s] 22%|██▏       | 2340/10692 [26:49<1:08:50,  2.02it/s] 22%|██▏       | 2341/10692 [26:49<1:08:46,  2.02it/s] 22%|██▏       | 2342/10692 [26:50<1:08:47,  2.02it/s] 22%|██▏       | 2343/10692 [26:50<1:08:44,  2.02it/s] 22%|██▏       | 2344/10692 [26:51<1:08:47,  2.02it/s] 22%|██▏       | 2345/10692 [26:51<1:08:47,  2.02it/s] 22%|██▏       | 2346/10692 [26:52<1:08:49,  2.02it/s] 22%|██▏       | 2347/10692 [26:52<1:08:51,  2.02it/s] 22%|██▏       | 2348/10692 [26:53<1:08:49,  2.02it/s] 22%|██▏       | 2349/10692 [26:53<1:08:52,  2.02it/s] 22%|██▏       | 2350/10692 [26:54<1:08:46,  2.02it/s]{'loss': 3.9768, 'grad_norm': 0.2164832353591919, 'learning_rate': 0.0009569672925211299, 'epoch': 0.22}
+                                                       22%|██▏       | 2350/10692 [26:54<1:08:46,  2.02it/s] 22%|██▏       | 2351/10692 [26:54<1:08:54,  2.02it/s] 22%|██▏       | 2352/10692 [26:55<1:08:47,  2.02it/s] 22%|██▏       | 2353/10692 [26:55<1:08:46,  2.02it/s] 22%|██▏       | 2354/10692 [26:55<1:08:43,  2.02it/s] 22%|██▏       | 2355/10692 [26:56<1:08:45,  2.02it/s] 22%|██▏       | 2356/10692 [26:56<1:08:42,  2.02it/s] 22%|██▏       | 2357/10692 [26:57<1:08:40,  2.02it/s] 22%|██▏       | 2358/10692 [26:57<1:08:39,  2.02it/s] 22%|██▏       | 2359/10692 [26:58<1:08:41,  2.02it/s] 22%|██▏       | 2360/10692 [26:58<1:08:36,  2.02it/s] 22%|██▏       | 2361/10692 [26:59<1:08:36,  2.02it/s] 22%|██▏       | 2362/10692 [26:59<1:08:38,  2.02it/s] 22%|██▏       | 2363/10692 [27:00<1:08:36,  2.02it/s] 22%|██▏       | 2364/10692 [27:00<1:08:45,  2.02it/s] 22%|██▏       | 2365/10692 [27:01<1:08:50,  2.02it/s] 22%|██▏       | 2366/10692 [27:01<1:08:48,  2.02it/s] 22%|██▏       | 2367/10692 [27:02<1:08:40,  2.02it/s] 22%|██▏       | 2368/10692 [27:02<1:08:41,  2.02it/s] 22%|██▏       | 2369/10692 [27:03<1:08:37,  2.02it/s] 22%|██▏       | 2370/10692 [27:03<1:08:39,  2.02it/s] 22%|██▏       | 2371/10692 [27:04<1:08:37,  2.02it/s] 22%|██▏       | 2372/10692 [27:04<1:08:37,  2.02it/s] 22%|██▏       | 2373/10692 [27:05<1:08:32,  2.02it/s] 22%|██▏       | 2374/10692 [27:05<1:08:38,  2.02it/s] 22%|██▏       | 2375/10692 [27:06<1:08:30,  2.02it/s]{'loss': 3.9675, 'grad_norm': 0.22254721820354462, 'learning_rate': 0.0009552956604388616, 'epoch': 0.22}
+                                                       22%|██▏       | 2375/10692 [27:06<1:08:30,  2.02it/s] 22%|██▏       | 2376/10692 [27:06<1:08:39,  2.02it/s] 22%|██▏       | 2377/10692 [27:07<1:08:31,  2.02it/s] 22%|██▏       | 2378/10692 [27:07<1:08:33,  2.02it/s] 22%|██▏       | 2379/10692 [27:08<1:08:30,  2.02it/s] 22%|██▏       | 2380/10692 [27:08<1:08:33,  2.02it/s] 22%|██▏       | 2381/10692 [27:09<1:08:28,  2.02it/s] 22%|██▏       | 2382/10692 [27:09<1:08:30,  2.02it/s] 22%|██▏       | 2383/10692 [27:10<1:08:25,  2.02it/s] 22%|██▏       | 2384/10692 [27:10<1:08:27,  2.02it/s] 22%|██▏       | 2385/10692 [27:11<1:08:25,  2.02it/s] 22%|██▏       | 2386/10692 [27:11<1:08:26,  2.02it/s] 22%|██▏       | 2387/10692 [27:12<1:08:23,  2.02it/s] 22%|██▏       | 2388/10692 [27:12<1:08:30,  2.02it/s] 22%|██▏       | 2389/10692 [27:13<1:08:24,  2.02it/s] 22%|██▏       | 2390/10692 [27:13<1:08:24,  2.02it/s] 22%|██▏       | 2391/10692 [27:14<1:08:24,  2.02it/s] 22%|██▏       | 2392/10692 [27:14<1:08:26,  2.02it/s] 22%|██▏       | 2393/10692 [27:15<1:08:21,  2.02it/s] 22%|██▏       | 2394/10692 [27:15<1:08:18,  2.02it/s] 22%|██▏       | 2395/10692 [27:16<1:08:20,  2.02it/s] 22%|██▏       | 2396/10692 [27:16<1:08:22,  2.02it/s] 22%|██▏       | 2397/10692 [27:17<1:08:26,  2.02it/s] 22%|██▏       | 2398/10692 [27:17<1:08:21,  2.02it/s] 22%|██▏       | 2399/10692 [27:18<1:08:23,  2.02it/s] 22%|██▏       | 2400/10692 [27:18<1:08:20,  2.02it/s]{'loss': 3.961, 'grad_norm': 0.20438049733638763, 'learning_rate': 0.0009535936936249554, 'epoch': 0.22}
+                                                       22%|██▏       | 2400/10692 [27:18<1:08:20,  2.02it/s] 22%|██▏       | 2401/10692 [27:19<1:08:26,  2.02it/s] 22%|██▏       | 2402/10692 [27:19<1:08:24,  2.02it/s] 22%|██▏       | 2403/10692 [27:20<1:08:21,  2.02it/s] 22%|██▏       | 2404/10692 [27:20<1:08:17,  2.02it/s] 22%|██▏       | 2405/10692 [27:21<1:08:22,  2.02it/s] 23%|██▎       | 2406/10692 [27:21<1:08:19,  2.02it/s] 23%|██▎       | 2407/10692 [27:22<1:08:25,  2.02it/s] 23%|██▎       | 2408/10692 [27:22<1:08:19,  2.02it/s] 23%|██▎       | 2409/10692 [27:23<1:08:21,  2.02it/s] 23%|██▎       | 2410/10692 [27:23<1:08:15,  2.02it/s] 23%|██▎       | 2411/10692 [27:24<1:08:16,  2.02it/s] 23%|██▎       | 2412/10692 [27:24<1:08:16,  2.02it/s] 23%|██▎       | 2413/10692 [27:25<1:08:15,  2.02it/s] 23%|██▎       | 2414/10692 [27:25<1:08:12,  2.02it/s] 23%|██▎       | 2415/10692 [27:26<1:08:09,  2.02it/s] 23%|██▎       | 2416/10692 [27:26<1:08:12,  2.02it/s] 23%|██▎       | 2417/10692 [27:27<1:08:10,  2.02it/s] 23%|██▎       | 2418/10692 [27:27<1:08:09,  2.02it/s] 23%|██▎       | 2419/10692 [27:28<1:08:12,  2.02it/s] 23%|██▎       | 2420/10692 [27:28<1:08:09,  2.02it/s] 23%|██▎       | 2421/10692 [27:29<1:08:11,  2.02it/s] 23%|██▎       | 2422/10692 [27:29<1:08:10,  2.02it/s] 23%|██▎       | 2423/10692 [27:30<1:08:08,  2.02it/s] 23%|██▎       | 2424/10692 [27:30<1:08:08,  2.02it/s] 23%|██▎       | 2425/10692 [27:31<1:08:22,  2.01it/s]                                                      {'loss': 3.9652, 'grad_norm': 0.20503634214401245, 'learning_rate': 0.0009518615054754109, 'epoch': 0.23}
+ 23%|██▎       | 2425/10692 [27:31<1:08:22,  2.01it/s] 23%|██▎       | 2426/10692 [27:31<1:08:31,  2.01it/s] 23%|██▎       | 2427/10692 [27:32<1:08:26,  2.01it/s] 23%|██▎       | 2428/10692 [27:32<1:08:23,  2.01it/s] 23%|██▎       | 2429/10692 [27:33<1:08:19,  2.02it/s] 23%|██▎       | 2430/10692 [27:33<1:08:18,  2.02it/s] 23%|██▎       | 2431/10692 [27:34<1:08:10,  2.02it/s] 23%|██▎       | 2432/10692 [27:34<1:08:10,  2.02it/s] 23%|██▎       | 2433/10692 [27:35<1:08:10,  2.02it/s] 23%|██▎       | 2434/10692 [27:35<1:08:06,  2.02it/s] 23%|██▎       | 2435/10692 [27:36<1:08:00,  2.02it/s] 23%|██▎       | 2436/10692 [27:36<1:07:59,  2.02it/s] 23%|██▎       | 2437/10692 [27:37<1:08:00,  2.02it/s] 23%|██▎       | 2438/10692 [27:37<1:08:02,  2.02it/s] 23%|██▎       | 2439/10692 [27:38<1:08:04,  2.02it/s] 23%|██▎       | 2440/10692 [27:38<1:08:05,  2.02it/s] 23%|██▎       | 2441/10692 [27:39<1:08:06,  2.02it/s] 23%|██▎       | 2442/10692 [27:39<1:08:05,  2.02it/s] 23%|██▎       | 2443/10692 [27:40<1:08:02,  2.02it/s] 23%|██▎       | 2444/10692 [27:40<1:07:57,  2.02it/s] 23%|██▎       | 2445/10692 [27:41<1:07:59,  2.02it/s] 23%|██▎       | 2446/10692 [27:41<1:08:03,  2.02it/s] 23%|██▎       | 2447/10692 [27:42<1:08:01,  2.02it/s] 23%|██▎       | 2448/10692 [27:42<1:08:01,  2.02it/s] 23%|██▎       | 2449/10692 [27:43<1:07:57,  2.02it/s] 23%|██▎       | 2450/10692 [27:43<1:08:00,  2.02it/s]{'loss': 3.958, 'grad_norm': 0.22525478899478912, 'learning_rate': 0.0009500992113997677, 'epoch': 0.23}
+                                                       23%|██▎       | 2450/10692 [27:43<1:08:00,  2.02it/s] 23%|██▎       | 2451/10692 [27:43<1:08:05,  2.02it/s] 23%|██▎       | 2452/10692 [27:44<1:08:06,  2.02it/s] 23%|██▎       | 2453/10692 [27:44<1:07:55,  2.02it/s] 23%|██▎       | 2454/10692 [27:45<1:07:58,  2.02it/s] 23%|██▎       | 2455/10692 [27:45<1:07:54,  2.02it/s] 23%|██▎       | 2456/10692 [27:46<1:07:59,  2.02it/s] 23%|██▎       | 2457/10692 [27:46<1:07:49,  2.02it/s] 23%|██▎       | 2458/10692 [27:47<1:08:00,  2.02it/s] 23%|██▎       | 2459/10692 [27:47<1:07:56,  2.02it/s] 23%|██▎       | 2460/10692 [27:48<1:07:57,  2.02it/s] 23%|██▎       | 2461/10692 [27:48<1:07:51,  2.02it/s] 23%|██▎       | 2462/10692 [27:49<1:07:53,  2.02it/s] 23%|██▎       | 2463/10692 [27:49<1:07:53,  2.02it/s] 23%|██▎       | 2464/10692 [27:50<1:07:52,  2.02it/s] 23%|██▎       | 2465/10692 [27:50<1:07:47,  2.02it/s] 23%|██▎       | 2466/10692 [27:51<1:07:51,  2.02it/s] 23%|██▎       | 2467/10692 [27:51<1:07:53,  2.02it/s] 23%|██▎       | 2468/10692 [27:52<1:07:54,  2.02it/s] 23%|██▎       | 2469/10692 [27:52<1:07:54,  2.02it/s] 23%|██▎       | 2470/10692 [27:53<1:07:51,  2.02it/s] 23%|██▎       | 2471/10692 [27:53<1:07:50,  2.02it/s] 23%|██▎       | 2472/10692 [27:54<1:07:49,  2.02it/s] 23%|██▎       | 2473/10692 [27:54<1:07:49,  2.02it/s] 23%|██▎       | 2474/10692 [27:55<1:07:43,  2.02it/s] 23%|██▎       | 2475/10692 [27:55<1:07:45,  2.02it/s]{'loss': 3.9566, 'grad_norm': 0.2069225311279297, 'learning_rate': 0.0009483069288134167, 'epoch': 0.23}
+                                                       23%|██▎       | 2475/10692 [27:55<1:07:45,  2.02it/s] 23%|██▎       | 2476/10692 [27:56<1:07:49,  2.02it/s] 23%|██▎       | 2477/10692 [27:57<1:18:51,  1.74it/s] 23%|██▎       | 2478/10692 [27:57<1:15:30,  1.81it/s] 23%|██▎       | 2479/10692 [27:58<1:13:10,  1.87it/s] 23%|██▎       | 2480/10692 [27:58<1:11:31,  1.91it/s] 23%|██▎       | 2481/10692 [27:59<1:10:22,  1.94it/s] 23%|██▎       | 2482/10692 [27:59<1:09:34,  1.97it/s] 23%|██▎       | 2483/10692 [28:00<1:08:59,  1.98it/s] 23%|██▎       | 2484/10692 [28:00<1:08:35,  1.99it/s] 23%|██▎       | 2485/10692 [28:01<1:08:29,  2.00it/s] 23%|██▎       | 2486/10692 [28:01<1:08:12,  2.01it/s] 23%|██▎       | 2487/10692 [28:02<1:08:05,  2.01it/s] 23%|██▎       | 2488/10692 [28:02<1:07:51,  2.01it/s] 23%|██▎       | 2489/10692 [28:03<1:18:48,  1.73it/s] 23%|██▎       | 2490/10692 [28:03<1:15:24,  1.81it/s] 23%|██▎       | 2491/10692 [28:04<1:13:05,  1.87it/s] 23%|██▎       | 2492/10692 [28:04<1:11:23,  1.91it/s] 23%|██▎       | 2493/10692 [28:05<1:10:14,  1.95it/s] 23%|██▎       | 2494/10692 [28:05<1:09:25,  1.97it/s] 23%|██▎       | 2495/10692 [28:06<1:08:50,  1.98it/s] 23%|██▎       | 2496/10692 [28:06<1:08:28,  1.99it/s] 23%|██▎       | 2497/10692 [28:07<1:08:09,  2.00it/s] 23%|██▎       | 2498/10692 [28:07<1:07:58,  2.01it/s] 23%|██▎       | 2499/10692 [28:08<1:07:53,  2.01it/s] 23%|██▎       | 2500/10692 [28:08<1:07:49,  2.01it/s]{'loss': 3.9536, 'grad_norm': 0.20954926311969757, 'learning_rate': 0.0009464847771297766, 'epoch': 0.23}
+                                                       23%|██▎       | 2500/10692 [28:08<1:07:49,  2.01it/s] 23%|██▎       | 2501/10692 [28:09<1:07:49,  2.01it/s] 23%|██▎       | 2502/10692 [28:09<1:07:44,  2.01it/s] 23%|██▎       | 2503/10692 [28:10<1:07:39,  2.02it/s] 23%|██▎       | 2504/10692 [28:10<1:07:41,  2.02it/s] 23%|██▎       | 2505/10692 [28:11<1:07:31,  2.02it/s] 23%|██▎       | 2506/10692 [28:11<1:07:35,  2.02it/s] 23%|██▎       | 2507/10692 [28:12<1:07:28,  2.02it/s] 23%|██▎       | 2508/10692 [28:12<1:07:30,  2.02it/s] 23%|██▎       | 2509/10692 [28:13<1:07:29,  2.02it/s] 23%|██▎       | 2510/10692 [28:13<1:07:29,  2.02it/s] 23%|██▎       | 2511/10692 [28:14<1:07:24,  2.02it/s] 23%|██▎       | 2512/10692 [28:14<1:07:27,  2.02it/s] 24%|██▎       | 2513/10692 [28:15<1:07:25,  2.02it/s] 24%|██▎       | 2514/10692 [28:15<1:07:30,  2.02it/s] 24%|██▎       | 2515/10692 [28:16<1:07:25,  2.02it/s] 24%|██▎       | 2516/10692 [28:16<1:07:27,  2.02it/s] 24%|██▎       | 2517/10692 [28:17<1:07:22,  2.02it/s] 24%|██▎       | 2518/10692 [28:17<1:07:23,  2.02it/s] 24%|██▎       | 2519/10692 [28:18<1:07:20,  2.02it/s] 24%|██▎       | 2520/10692 [28:18<1:07:21,  2.02it/s] 24%|██▎       | 2521/10692 [28:19<1:07:17,  2.02it/s] 24%|██▎       | 2522/10692 [28:19<1:07:19,  2.02it/s] 24%|██▎       | 2523/10692 [28:20<1:07:19,  2.02it/s] 24%|██▎       | 2524/10692 [28:20<1:07:19,  2.02it/s] 24%|██▎       | 2525/10692 [28:21<1:07:14,  2.02it/s]{'loss': 3.9486, 'grad_norm': 0.20265242457389832, 'learning_rate': 0.0009446328777523374, 'epoch': 0.24}
+                                                       24%|██▎       | 2525/10692 [28:21<1:07:14,  2.02it/s] 24%|██▎       | 2526/10692 [28:21<1:07:25,  2.02it/s] 24%|██▎       | 2527/10692 [28:22<1:07:18,  2.02it/s] 24%|██▎       | 2528/10692 [28:22<1:07:23,  2.02it/s] 24%|██▎       | 2529/10692 [28:23<1:07:16,  2.02it/s] 24%|██▎       | 2530/10692 [28:23<1:07:20,  2.02it/s] 24%|██▎       | 2531/10692 [28:24<1:07:18,  2.02it/s] 24%|██▎       | 2532/10692 [28:24<1:07:20,  2.02it/s] 24%|██▎       | 2533/10692 [28:25<1:07:13,  2.02it/s] 24%|██▎       | 2534/10692 [28:25<1:07:18,  2.02it/s] 24%|██▎       | 2535/10692 [28:26<1:07:10,  2.02it/s] 24%|██▎       | 2536/10692 [28:26<1:07:15,  2.02it/s] 24%|██▎       | 2537/10692 [28:27<1:07:11,  2.02it/s] 24%|██▎       | 2538/10692 [28:27<1:07:17,  2.02it/s] 24%|██▎       | 2539/10692 [28:28<1:07:15,  2.02it/s] 24%|██▍       | 2540/10692 [28:28<1:07:16,  2.02it/s] 24%|██▍       | 2541/10692 [28:29<1:07:09,  2.02it/s] 24%|██▍       | 2542/10692 [28:29<1:07:12,  2.02it/s] 24%|██▍       | 2543/10692 [28:30<1:07:08,  2.02it/s] 24%|██▍       | 2544/10692 [28:30<1:07:08,  2.02it/s] 24%|██▍       | 2545/10692 [28:31<1:07:17,  2.02it/s] 24%|██▍       | 2546/10692 [28:31<1:07:21,  2.02it/s] 24%|██▍       | 2547/10692 [28:32<1:07:16,  2.02it/s] 24%|██▍       | 2548/10692 [28:32<1:07:16,  2.02it/s] 24%|██▍       | 2549/10692 [28:33<1:07:15,  2.02it/s] 24%|██▍       | 2550/10692 [28:33<1:07:11,  2.02it/s]{'loss': 3.9364, 'grad_norm': 0.20198366045951843, 'learning_rate': 0.0009427513540665729, 'epoch': 0.24}
+                                                       24%|██▍       | 2550/10692 [28:33<1:07:11,  2.02it/s] 24%|██▍       | 2551/10692 [28:34<1:07:19,  2.02it/s] 24%|██▍       | 2552/10692 [28:34<1:07:17,  2.02it/s] 24%|██▍       | 2553/10692 [28:35<1:07:11,  2.02it/s] 24%|██▍       | 2554/10692 [28:35<1:07:04,  2.02it/s] 24%|██▍       | 2555/10692 [28:36<1:07:09,  2.02it/s] 24%|██▍       | 2556/10692 [28:36<1:07:04,  2.02it/s] 24%|██▍       | 2557/10692 [28:36<1:07:02,  2.02it/s] 24%|██▍       | 2558/10692 [28:37<1:07:00,  2.02it/s] 24%|██▍       | 2559/10692 [28:37<1:07:00,  2.02it/s] 24%|██▍       | 2560/10692 [28:38<1:07:02,  2.02it/s] 24%|██▍       | 2561/10692 [28:38<1:06:57,  2.02it/s] 24%|██▍       | 2562/10692 [28:39<1:07:00,  2.02it/s] 24%|██▍       | 2563/10692 [28:39<1:06:57,  2.02it/s] 24%|██▍       | 2564/10692 [28:40<1:07:00,  2.02it/s] 24%|██▍       | 2565/10692 [28:40<1:06:58,  2.02it/s] 24%|██▍       | 2566/10692 [28:41<1:07:01,  2.02it/s] 24%|██▍       | 2567/10692 [28:41<1:06:51,  2.03it/s] 24%|██▍       | 2568/10692 [28:42<1:06:58,  2.02it/s] 24%|██▍       | 2569/10692 [28:42<1:06:55,  2.02it/s] 24%|██▍       | 2570/10692 [28:43<1:06:55,  2.02it/s] 24%|██▍       | 2571/10692 [28:43<1:06:52,  2.02it/s] 24%|██▍       | 2572/10692 [28:44<1:06:55,  2.02it/s] 24%|██▍       | 2573/10692 [28:44<1:06:54,  2.02it/s] 24%|██▍       | 2574/10692 [28:45<1:06:56,  2.02it/s] 24%|██▍       | 2575/10692 [28:45<1:06:55,  2.02it/s]{'loss': 3.9497, 'grad_norm': 0.22707174718379974, 'learning_rate': 0.0009408403314317187, 'epoch': 0.24}
+                                                       24%|██▍       | 2575/10692 [28:45<1:06:55,  2.02it/s] 24%|██▍       | 2576/10692 [28:46<1:07:02,  2.02it/s] 24%|██▍       | 2577/10692 [28:46<1:06:57,  2.02it/s] 24%|██▍       | 2578/10692 [28:47<1:06:57,  2.02it/s] 24%|██▍       | 2579/10692 [28:47<1:06:55,  2.02it/s] 24%|██▍       | 2580/10692 [28:48<1:06:57,  2.02it/s] 24%|██▍       | 2581/10692 [28:48<1:06:52,  2.02it/s] 24%|██▍       | 2582/10692 [28:49<1:06:54,  2.02it/s] 24%|██▍       | 2583/10692 [28:49<1:06:50,  2.02it/s] 24%|██▍       | 2584/10692 [28:50<1:06:54,  2.02it/s] 24%|██▍       | 2585/10692 [28:50<1:06:49,  2.02it/s] 24%|██▍       | 2586/10692 [28:51<1:06:51,  2.02it/s] 24%|██▍       | 2587/10692 [28:51<1:06:49,  2.02it/s] 24%|██▍       | 2588/10692 [28:52<1:06:52,  2.02it/s] 24%|██▍       | 2589/10692 [28:52<1:06:46,  2.02it/s] 24%|██▍       | 2590/10692 [28:53<1:06:47,  2.02it/s] 24%|██▍       | 2591/10692 [28:53<1:06:43,  2.02it/s] 24%|██▍       | 2592/10692 [28:54<1:06:44,  2.02it/s] 24%|██▍       | 2593/10692 [28:54<1:06:44,  2.02it/s] 24%|██▍       | 2594/10692 [28:55<1:06:45,  2.02it/s] 24%|██▍       | 2595/10692 [28:55<1:06:42,  2.02it/s] 24%|██▍       | 2596/10692 [28:56<1:06:46,  2.02it/s] 24%|██▍       | 2597/10692 [28:56<1:06:42,  2.02it/s] 24%|██▍       | 2598/10692 [28:57<1:06:44,  2.02it/s] 24%|██▍       | 2599/10692 [28:57<1:06:42,  2.02it/s] 24%|██▍       | 2600/10692 [28:58<1:06:43,  2.02it/s]{'loss': 3.9428, 'grad_norm': 0.20486094057559967, 'learning_rate': 0.0009388999371724211, 'epoch': 0.24}
+                                                       24%|██▍       | 2600/10692 [28:58<1:06:43,  2.02it/s] 24%|██▍       | 2601/10692 [28:58<1:06:48,  2.02it/s] 24%|██▍       | 2602/10692 [28:59<1:06:48,  2.02it/s] 24%|██▍       | 2603/10692 [28:59<1:06:48,  2.02it/s] 24%|██▍       | 2604/10692 [29:00<1:06:45,  2.02it/s] 24%|██▍       | 2605/10692 [29:00<1:06:39,  2.02it/s] 24%|██▍       | 2606/10692 [29:01<1:06:53,  2.01it/s] 24%|██▍       | 2607/10692 [29:01<1:06:47,  2.02it/s] 24%|██▍       | 2608/10692 [29:02<1:06:45,  2.02it/s] 24%|██▍       | 2609/10692 [29:02<1:06:41,  2.02it/s] 24%|██▍       | 2610/10692 [29:03<1:06:41,  2.02it/s] 24%|██▍       | 2611/10692 [29:03<1:06:43,  2.02it/s] 24%|██▍       | 2612/10692 [29:04<1:06:39,  2.02it/s] 24%|██▍       | 2613/10692 [29:04<1:06:38,  2.02it/s] 24%|██▍       | 2614/10692 [29:05<1:06:34,  2.02it/s] 24%|██▍       | 2615/10692 [29:05<1:06:28,  2.03it/s] 24%|██▍       | 2616/10692 [29:06<1:06:31,  2.02it/s] 24%|██▍       | 2617/10692 [29:06<1:06:28,  2.02it/s] 24%|██▍       | 2618/10692 [29:07<1:06:33,  2.02it/s] 24%|██▍       | 2619/10692 [29:07<1:06:27,  2.02it/s] 25%|██▍       | 2620/10692 [29:08<1:06:33,  2.02it/s] 25%|██▍       | 2621/10692 [29:08<1:06:28,  2.02it/s] 25%|██▍       | 2622/10692 [29:09<1:06:31,  2.02it/s] 25%|██▍       | 2623/10692 [29:09<1:06:28,  2.02it/s] 25%|██▍       | 2624/10692 [29:10<1:06:28,  2.02it/s] 25%|██▍       | 2625/10692 [29:10<1:06:29,  2.02it/s]{'loss': 3.9358, 'grad_norm': 0.22620342671871185, 'learning_rate': 0.0009369303005702527, 'epoch': 0.25}
+                                                       25%|██▍       | 2625/10692 [29:10<1:06:29,  2.02it/s] 25%|██▍       | 2626/10692 [29:11<1:06:38,  2.02it/s] 25%|██▍       | 2627/10692 [29:11<1:06:34,  2.02it/s] 25%|██▍       | 2628/10692 [29:12<1:06:34,  2.02it/s] 25%|██▍       | 2629/10692 [29:12<1:06:31,  2.02it/s] 25%|██▍       | 2630/10692 [29:13<1:06:32,  2.02it/s] 25%|██▍       | 2631/10692 [29:13<1:06:29,  2.02it/s] 25%|██▍       | 2632/10692 [29:14<1:06:27,  2.02it/s] 25%|██▍       | 2633/10692 [29:14<1:06:41,  2.01it/s] 25%|██▍       | 2634/10692 [29:15<1:06:36,  2.02it/s] 25%|██▍       | 2635/10692 [29:15<1:06:32,  2.02it/s] 25%|██▍       | 2636/10692 [29:16<1:06:33,  2.02it/s] 25%|██▍       | 2637/10692 [29:16<1:06:26,  2.02it/s] 25%|██▍       | 2638/10692 [29:17<1:06:25,  2.02it/s] 25%|██▍       | 2639/10692 [29:17<1:06:23,  2.02it/s] 25%|██▍       | 2640/10692 [29:18<1:06:19,  2.02it/s] 25%|██▍       | 2641/10692 [29:18<1:06:22,  2.02it/s] 25%|██▍       | 2642/10692 [29:19<1:06:18,  2.02it/s] 25%|██▍       | 2643/10692 [29:19<1:06:17,  2.02it/s] 25%|██▍       | 2644/10692 [29:20<1:06:16,  2.02it/s] 25%|██▍       | 2645/10692 [29:20<1:06:19,  2.02it/s] 25%|██▍       | 2646/10692 [29:21<1:06:16,  2.02it/s] 25%|██▍       | 2647/10692 [29:21<1:06:19,  2.02it/s] 25%|██▍       | 2648/10692 [29:22<1:06:17,  2.02it/s] 25%|██▍       | 2649/10692 [29:22<1:06:18,  2.02it/s] 25%|██▍       | 2650/10692 [29:23<1:06:19,  2.02it/s]{'loss': 3.9262, 'grad_norm': 0.20639674365520477, 'learning_rate': 0.0009349315528551001, 'epoch': 0.25}
+                                                       25%|██▍       | 2650/10692 [29:23<1:06:19,  2.02it/s] 25%|██▍       | 2651/10692 [29:23<1:06:25,  2.02it/s] 25%|██▍       | 2652/10692 [29:24<1:06:24,  2.02it/s] 25%|██▍       | 2653/10692 [29:24<1:06:21,  2.02it/s] 25%|██▍       | 2654/10692 [29:24<1:06:17,  2.02it/s] 25%|██▍       | 2655/10692 [29:25<1:06:18,  2.02it/s] 25%|██▍       | 2656/10692 [29:25<1:06:12,  2.02it/s] 25%|██▍       | 2657/10692 [29:26<1:06:12,  2.02it/s] 25%|██▍       | 2658/10692 [29:26<1:06:14,  2.02it/s] 25%|██▍       | 2659/10692 [29:27<1:06:19,  2.02it/s] 25%|██▍       | 2660/10692 [29:27<1:06:08,  2.02it/s] 25%|██▍       | 2661/10692 [29:28<1:06:14,  2.02it/s] 25%|██▍       | 2662/10692 [29:28<1:06:10,  2.02it/s] 25%|██▍       | 2663/10692 [29:29<1:06:13,  2.02it/s] 25%|██▍       | 2664/10692 [29:29<1:06:10,  2.02it/s] 25%|██▍       | 2665/10692 [29:30<1:06:13,  2.02it/s] 25%|██▍       | 2666/10692 [29:30<1:06:16,  2.02it/s] 25%|██▍       | 2667/10692 [29:31<1:06:24,  2.01it/s] 25%|██▍       | 2668/10692 [29:31<1:06:17,  2.02it/s] 25%|██▍       | 2669/10692 [29:32<1:06:15,  2.02it/s] 25%|██▍       | 2670/10692 [29:32<1:06:10,  2.02it/s] 25%|██▍       | 2671/10692 [29:33<1:06:09,  2.02it/s] 25%|██▍       | 2672/10692 [29:33<1:06:03,  2.02it/s] 25%|██▌       | 2673/10692 [29:34<1:06:07,  2.02it/s] 25%|██▌       | 2674/10692 [29:34<1:06:01,  2.02it/s] 25%|██▌       | 2675/10692 [29:35<1:06:02,  2.02it/s]{'loss': 3.9277, 'grad_norm': 0.21017104387283325, 'learning_rate': 0.0009329038271964192, 'epoch': 0.25}
+                                                       25%|██▌       | 2675/10692 [29:35<1:06:02,  2.02it/s] 25%|██▌       | 2676/10692 [29:35<1:06:07,  2.02it/s] 25%|██▌       | 2677/10692 [29:36<1:06:05,  2.02it/s] 25%|██▌       | 2678/10692 [29:36<1:06:09,  2.02it/s] 25%|██▌       | 2679/10692 [29:37<1:06:06,  2.02it/s] 25%|██▌       | 2680/10692 [29:37<1:06:04,  2.02it/s] 25%|██▌       | 2681/10692 [29:38<1:06:04,  2.02it/s] 25%|██▌       | 2682/10692 [29:38<1:06:03,  2.02it/s] 25%|██▌       | 2683/10692 [29:39<1:05:59,  2.02it/s] 25%|██▌       | 2684/10692 [29:39<1:06:00,  2.02it/s] 25%|██▌       | 2685/10692 [29:40<1:06:03,  2.02it/s] 25%|██▌       | 2686/10692 [29:40<1:06:04,  2.02it/s] 25%|██▌       | 2687/10692 [29:41<1:06:00,  2.02it/s] 25%|██▌       | 2688/10692 [29:41<1:05:59,  2.02it/s] 25%|██▌       | 2689/10692 [29:42<1:05:59,  2.02it/s] 25%|██▌       | 2690/10692 [29:42<1:05:53,  2.02it/s] 25%|██▌       | 2691/10692 [29:43<1:05:56,  2.02it/s] 25%|██▌       | 2692/10692 [29:43<1:05:55,  2.02it/s] 25%|██▌       | 2693/10692 [29:44<1:05:57,  2.02it/s] 25%|██▌       | 2694/10692 [29:44<1:05:54,  2.02it/s] 25%|██▌       | 2695/10692 [29:45<1:05:55,  2.02it/s] 25%|██▌       | 2696/10692 [29:45<1:05:58,  2.02it/s] 25%|██▌       | 2697/10692 [29:46<1:05:53,  2.02it/s] 25%|██▌       | 2698/10692 [29:46<1:05:54,  2.02it/s] 25%|██▌       | 2699/10692 [29:47<1:05:52,  2.02it/s] 25%|██▌       | 2700/10692 [29:47<1:05:51,  2.02it/s]{'loss': 3.9211, 'grad_norm': 0.20834462344646454, 'learning_rate': 0.0009308472586943642, 'epoch': 0.25}
+                                                       25%|██▌       | 2700/10692 [29:47<1:05:51,  2.02it/s] 25%|██▌       | 2701/10692 [29:48<1:05:56,  2.02it/s] 25%|██▌       | 2702/10692 [29:48<1:05:55,  2.02it/s] 25%|██▌       | 2703/10692 [29:49<1:05:55,  2.02it/s] 25%|██▌       | 2704/10692 [29:49<1:05:53,  2.02it/s] 25%|██▌       | 2705/10692 [29:50<1:05:49,  2.02it/s] 25%|██▌       | 2706/10692 [29:50<1:05:53,  2.02it/s] 25%|██▌       | 2707/10692 [29:51<1:05:48,  2.02it/s] 25%|██▌       | 2708/10692 [29:51<1:05:51,  2.02it/s] 25%|██▌       | 2709/10692 [29:52<1:06:00,  2.02it/s] 25%|██▌       | 2710/10692 [29:52<1:05:56,  2.02it/s] 25%|██▌       | 2711/10692 [29:53<1:05:49,  2.02it/s] 25%|██▌       | 2712/10692 [29:53<1:05:49,  2.02it/s] 25%|██▌       | 2713/10692 [29:54<1:05:44,  2.02it/s] 25%|██▌       | 2714/10692 [29:54<1:05:43,  2.02it/s] 25%|██▌       | 2715/10692 [29:55<1:05:42,  2.02it/s] 25%|██▌       | 2716/10692 [29:55<1:05:43,  2.02it/s] 25%|██▌       | 2717/10692 [29:56<1:05:40,  2.02it/s] 25%|██▌       | 2718/10692 [29:56<1:05:42,  2.02it/s] 25%|██▌       | 2719/10692 [29:57<1:05:39,  2.02it/s] 25%|██▌       | 2720/10692 [29:57<1:05:41,  2.02it/s] 25%|██▌       | 2721/10692 [29:58<1:05:38,  2.02it/s] 25%|██▌       | 2722/10692 [29:58<1:05:44,  2.02it/s] 25%|██▌       | 2723/10692 [29:59<1:05:43,  2.02it/s] 25%|██▌       | 2724/10692 [29:59<1:06:00,  2.01it/s] 25%|██▌       | 2725/10692 [30:00<1:05:52,  2.02it/s]{'loss': 3.9285, 'grad_norm': 0.21980533003807068, 'learning_rate': 0.0009287619843707844, 'epoch': 0.25}
+                                                       25%|██▌       | 2725/10692 [30:00<1:05:52,  2.02it/s] 25%|██▌       | 2726/10692 [30:00<1:05:53,  2.02it/s] 26%|██▌       | 2727/10692 [30:01<1:06:01,  2.01it/s] 26%|██▌       | 2728/10692 [30:01<1:05:53,  2.01it/s] 26%|██▌       | 2729/10692 [30:02<1:05:52,  2.01it/s] 26%|██▌       | 2730/10692 [30:02<1:05:44,  2.02it/s] 26%|██▌       | 2731/10692 [30:03<1:05:45,  2.02it/s] 26%|██▌       | 2732/10692 [30:03<1:05:37,  2.02it/s] 26%|██▌       | 2733/10692 [30:04<1:05:40,  2.02it/s] 26%|██▌       | 2734/10692 [30:04<1:05:35,  2.02it/s] 26%|██▌       | 2735/10692 [30:05<1:05:36,  2.02it/s] 26%|██▌       | 2736/10692 [30:05<1:05:38,  2.02it/s] 26%|██▌       | 2737/10692 [30:06<1:05:39,  2.02it/s] 26%|██▌       | 2738/10692 [30:06<1:05:33,  2.02it/s] 26%|██▌       | 2739/10692 [30:07<1:05:35,  2.02it/s] 26%|██▌       | 2740/10692 [30:07<1:05:28,  2.02it/s] 26%|██▌       | 2741/10692 [30:08<1:05:32,  2.02it/s] 26%|██▌       | 2742/10692 [30:08<1:05:26,  2.02it/s] 26%|██▌       | 2743/10692 [30:09<1:05:32,  2.02it/s] 26%|██▌       | 2744/10692 [30:09<1:05:32,  2.02it/s] 26%|██▌       | 2745/10692 [30:10<1:05:33,  2.02it/s] 26%|██▌       | 2746/10692 [30:10<1:05:33,  2.02it/s] 26%|██▌       | 2747/10692 [30:11<1:05:35,  2.02it/s] 26%|██▌       | 2748/10692 [30:11<1:05:30,  2.02it/s] 26%|██▌       | 2749/10692 [30:12<1:05:30,  2.02it/s] 26%|██▌       | 2750/10692 [30:12<1:05:23,  2.02it/s]{'loss': 3.9248, 'grad_norm': 0.2188628762960434, 'learning_rate': 0.0009266481431600967, 'epoch': 0.26}
+                                                       26%|██▌       | 2750/10692 [30:12<1:05:23,  2.02it/s] 26%|██▌       | 2751/10692 [30:12<1:05:33,  2.02it/s] 26%|██▌       | 2752/10692 [30:13<1:05:26,  2.02it/s] 26%|██▌       | 2753/10692 [30:13<1:05:31,  2.02it/s] 26%|██▌       | 2754/10692 [30:14<1:05:27,  2.02it/s] 26%|██▌       | 2755/10692 [30:14<1:05:29,  2.02it/s] 26%|██▌       | 2756/10692 [30:15<1:05:24,  2.02it/s] 26%|██▌       | 2757/10692 [30:15<1:05:30,  2.02it/s] 26%|██▌       | 2758/10692 [30:16<1:05:44,  2.01it/s] 26%|██▌       | 2759/10692 [30:16<1:05:35,  2.02it/s] 26%|██▌       | 2760/10692 [30:17<1:05:31,  2.02it/s] 26%|██▌       | 2761/10692 [30:17<1:05:29,  2.02it/s] 26%|██▌       | 2762/10692 [30:18<1:05:25,  2.02it/s] 26%|██▌       | 2763/10692 [30:18<1:05:25,  2.02it/s] 26%|██▌       | 2764/10692 [30:19<1:05:22,  2.02it/s] 26%|██▌       | 2765/10692 [30:19<1:05:24,  2.02it/s] 26%|██▌       | 2766/10692 [30:20<1:05:20,  2.02it/s] 26%|██▌       | 2767/10692 [30:20<1:05:21,  2.02it/s] 26%|██▌       | 2768/10692 [30:21<1:05:18,  2.02it/s] 26%|██▌       | 2769/10692 [30:21<1:05:20,  2.02it/s] 26%|██▌       | 2770/10692 [30:22<1:05:15,  2.02it/s] 26%|██▌       | 2771/10692 [30:22<1:05:10,  2.03it/s] 26%|██▌       | 2772/10692 [30:23<1:05:11,  2.02it/s] 26%|██▌       | 2773/10692 [30:23<1:05:12,  2.02it/s] 26%|██▌       | 2774/10692 [30:24<1:05:12,  2.02it/s] 26%|██▌       | 2775/10692 [30:24<1:05:09,  2.03it/s]{'loss': 3.9201, 'grad_norm': 0.25414803624153137, 'learning_rate': 0.000924505875900028, 'epoch': 0.26}
+                                                       26%|██▌       | 2775/10692 [30:24<1:05:09,  2.03it/s] 26%|██▌       | 2776/10692 [30:25<1:05:20,  2.02it/s] 26%|██▌       | 2777/10692 [30:25<1:05:14,  2.02it/s] 26%|██▌       | 2778/10692 [30:26<1:05:18,  2.02it/s] 26%|██▌       | 2779/10692 [30:26<1:05:12,  2.02it/s] 26%|██▌       | 2780/10692 [30:27<1:05:15,  2.02it/s] 26%|██▌       | 2781/10692 [30:27<1:05:08,  2.02it/s] 26%|██▌       | 2782/10692 [30:28<1:05:06,  2.02it/s] 26%|██▌       | 2783/10692 [30:28<1:05:06,  2.02it/s] 26%|██▌       | 2784/10692 [30:29<1:05:06,  2.02it/s] 26%|██▌       | 2785/10692 [30:29<1:05:08,  2.02it/s] 26%|██▌       | 2786/10692 [30:30<1:05:06,  2.02it/s] 26%|██▌       | 2787/10692 [30:30<1:05:11,  2.02it/s] 26%|██▌       | 2788/10692 [30:31<1:05:21,  2.02it/s] 26%|██▌       | 2789/10692 [30:31<1:05:12,  2.02it/s] 26%|██▌       | 2790/10692 [30:32<1:05:10,  2.02it/s] 26%|██▌       | 2791/10692 [30:32<1:05:03,  2.02it/s] 26%|██▌       | 2792/10692 [30:33<1:05:00,  2.03it/s] 26%|██▌       | 2793/10692 [30:33<1:05:04,  2.02it/s] 26%|██▌       | 2794/10692 [30:34<1:05:02,  2.02it/s] 26%|██▌       | 2795/10692 [30:34<1:05:04,  2.02it/s] 26%|██▌       | 2796/10692 [30:35<1:04:58,  2.03it/s] 26%|██▌       | 2797/10692 [30:35<1:05:06,  2.02it/s] 26%|██▌       | 2798/10692 [30:36<1:05:03,  2.02it/s] 26%|██▌       | 2799/10692 [30:36<1:05:05,  2.02it/s] 26%|██▌       | 2800/10692 [30:37<1:05:00,  2.02it/s]{'loss': 3.9092, 'grad_norm': 0.19842548668384552, 'learning_rate': 0.0009223353253222315, 'epoch': 0.26}
+                                                       26%|██▌       | 2800/10692 [30:37<1:05:00,  2.02it/s] 26%|██▌       | 2801/10692 [30:37<1:05:05,  2.02it/s] 26%|██▌       | 2802/10692 [30:38<1:05:01,  2.02it/s] 26%|██▌       | 2803/10692 [30:38<1:05:02,  2.02it/s] 26%|██▌       | 2804/10692 [30:39<1:04:58,  2.02it/s] 26%|██▌       | 2805/10692 [30:39<1:04:59,  2.02it/s] 26%|██▌       | 2806/10692 [30:40<1:04:56,  2.02it/s] 26%|██▋       | 2807/10692 [30:40<1:04:56,  2.02it/s] 26%|██▋       | 2808/10692 [30:41<1:04:55,  2.02it/s] 26%|██▋       | 2809/10692 [30:41<1:04:55,  2.02it/s] 26%|██▋       | 2810/10692 [30:42<1:04:56,  2.02it/s] 26%|██▋       | 2811/10692 [30:42<1:04:53,  2.02it/s] 26%|██▋       | 2812/10692 [30:43<1:04:56,  2.02it/s] 26%|██▋       | 2813/10692 [30:43<1:04:56,  2.02it/s] 26%|██▋       | 2814/10692 [30:44<1:05:01,  2.02it/s] 26%|██▋       | 2815/10692 [30:44<1:04:57,  2.02it/s] 26%|██▋       | 2816/10692 [30:45<1:04:56,  2.02it/s] 26%|██▋       | 2817/10692 [30:45<1:04:52,  2.02it/s] 26%|██▋       | 2818/10692 [30:46<1:04:55,  2.02it/s] 26%|██▋       | 2819/10692 [30:46<1:04:52,  2.02it/s] 26%|██▋       | 2820/10692 [30:47<1:04:47,  2.02it/s] 26%|██▋       | 2821/10692 [30:47<1:04:48,  2.02it/s] 26%|██▋       | 2822/10692 [30:48<1:04:45,  2.03it/s] 26%|██▋       | 2823/10692 [30:48<1:04:47,  2.02it/s] 26%|██▋       | 2824/10692 [30:49<1:04:46,  2.02it/s] 26%|██▋       | 2825/10692 [30:49<1:04:46,  2.02it/s]{'loss': 3.9171, 'grad_norm': 0.20188367366790771, 'learning_rate': 0.000920136636042778, 'epoch': 0.26}
+                                                       26%|██▋       | 2825/10692 [30:49<1:04:46,  2.02it/s] 26%|██▋       | 2826/10692 [30:50<1:04:57,  2.02it/s] 26%|██▋       | 2827/10692 [30:50<1:04:53,  2.02it/s] 26%|██▋       | 2828/10692 [30:51<1:04:52,  2.02it/s] 26%|██▋       | 2829/10692 [30:51<1:04:48,  2.02it/s] 26%|██▋       | 2830/10692 [30:52<1:04:49,  2.02it/s] 26%|██▋       | 2831/10692 [30:52<1:04:48,  2.02it/s] 26%|██▋       | 2832/10692 [30:53<1:04:41,  2.02it/s] 26%|██▋       | 2833/10692 [30:53<1:04:45,  2.02it/s] 27%|██▋       | 2834/10692 [30:54<1:04:39,  2.03it/s] 27%|██▋       | 2835/10692 [30:54<1:04:46,  2.02it/s] 27%|██▋       | 2836/10692 [30:55<1:04:41,  2.02it/s] 27%|██▋       | 2837/10692 [30:55<1:04:44,  2.02it/s] 27%|██▋       | 2838/10692 [30:56<1:04:42,  2.02it/s] 27%|██▋       | 2839/10692 [30:56<1:04:48,  2.02it/s] 27%|██▋       | 2840/10692 [30:57<1:04:45,  2.02it/s] 27%|██▋       | 2841/10692 [30:57<1:04:47,  2.02it/s] 27%|██▋       | 2842/10692 [30:58<1:04:43,  2.02it/s] 27%|██▋       | 2843/10692 [30:58<1:04:43,  2.02it/s] 27%|██▋       | 2844/10692 [30:58<1:04:42,  2.02it/s] 27%|██▋       | 2845/10692 [30:59<1:04:45,  2.02it/s] 27%|██▋       | 2846/10692 [30:59<1:04:39,  2.02it/s] 27%|██▋       | 2847/10692 [31:00<1:04:43,  2.02it/s] 27%|██▋       | 2848/10692 [31:00<1:04:47,  2.02it/s] 27%|██▋       | 2849/10692 [31:01<1:04:51,  2.02it/s] 27%|██▋       | 2850/10692 [31:01<1:04:43,  2.02it/s]{'loss': 3.912, 'grad_norm': 0.21292750537395477, 'learning_rate': 0.0009179099545525193, 'epoch': 0.27}
+                                                       27%|██▋       | 2850/10692 [31:01<1:04:43,  2.02it/s] 27%|██▋       | 2851/10692 [31:02<1:04:47,  2.02it/s] 27%|██▋       | 2852/10692 [31:02<1:04:43,  2.02it/s] 27%|██▋       | 2853/10692 [31:03<1:04:40,  2.02it/s] 27%|██▋       | 2854/10692 [31:03<1:04:36,  2.02it/s] 27%|██▋       | 2855/10692 [31:04<1:04:41,  2.02it/s] 27%|██▋       | 2856/10692 [31:04<1:04:37,  2.02it/s] 27%|██▋       | 2857/10692 [31:05<1:04:41,  2.02it/s] 27%|██▋       | 2858/10692 [31:05<1:04:37,  2.02it/s] 27%|██▋       | 2859/10692 [31:06<1:04:35,  2.02it/s] 27%|██▋       | 2860/10692 [31:06<1:04:35,  2.02it/s] 27%|██▋       | 2861/10692 [31:07<1:04:35,  2.02it/s] 27%|██▋       | 2862/10692 [31:07<1:04:34,  2.02it/s] 27%|██▋       | 2863/10692 [31:08<1:04:34,  2.02it/s] 27%|██▋       | 2864/10692 [31:08<1:04:35,  2.02it/s] 27%|██▋       | 2865/10692 [31:09<1:04:34,  2.02it/s] 27%|██▋       | 2866/10692 [31:09<1:04:33,  2.02it/s] 27%|██▋       | 2867/10692 [31:10<1:04:36,  2.02it/s] 27%|██▋       | 2868/10692 [31:10<1:04:35,  2.02it/s] 27%|██▋       | 2869/10692 [31:11<1:04:34,  2.02it/s] 27%|██▋       | 2870/10692 [31:11<1:04:33,  2.02it/s] 27%|██▋       | 2871/10692 [31:12<1:04:31,  2.02it/s] 27%|██▋       | 2872/10692 [31:12<1:04:27,  2.02it/s] 27%|██▋       | 2873/10692 [31:13<1:04:29,  2.02it/s] 27%|██▋       | 2874/10692 [31:13<1:04:25,  2.02it/s] 27%|██▋       | 2875/10692 [31:14<1:04:30,  2.02it/s]{'loss': 3.9035, 'grad_norm': 0.20203262567520142, 'learning_rate': 0.0009156554292073291, 'epoch': 0.27}
+                                                       27%|██▋       | 2875/10692 [31:14<1:04:30,  2.02it/s] 27%|██▋       | 2876/10692 [31:14<1:04:45,  2.01it/s] 27%|██▋       | 2877/10692 [31:15<1:04:46,  2.01it/s] 27%|██▋       | 2878/10692 [31:15<1:04:41,  2.01it/s] 27%|██▋       | 2879/10692 [31:16<1:04:35,  2.02it/s] 27%|██▋       | 2880/10692 [31:16<1:04:46,  2.01it/s] 27%|██▋       | 2881/10692 [31:17<1:04:54,  2.01it/s] 27%|██▋       | 2882/10692 [31:17<1:05:07,  2.00it/s] 27%|██▋       | 2883/10692 [31:18<1:05:14,  1.99it/s] 27%|██▋       | 2884/10692 [31:18<1:05:06,  2.00it/s] 27%|██▋       | 2885/10692 [31:19<1:04:55,  2.00it/s] 27%|██▋       | 2886/10692 [31:19<1:04:45,  2.01it/s] 27%|██▋       | 2887/10692 [31:20<1:04:38,  2.01it/s] 27%|██▋       | 2888/10692 [31:20<1:04:32,  2.02it/s] 27%|██▋       | 2889/10692 [31:21<1:04:28,  2.02it/s] 27%|██▋       | 2890/10692 [31:21<1:04:17,  2.02it/s] 27%|██▋       | 2891/10692 [31:22<1:04:16,  2.02it/s] 27%|██▋       | 2892/10692 [31:22<1:04:11,  2.03it/s] 27%|██▋       | 2893/10692 [31:23<1:04:13,  2.02it/s] 27%|██▋       | 2894/10692 [31:23<1:04:14,  2.02it/s] 27%|██▋       | 2895/10692 [31:24<1:04:13,  2.02it/s] 27%|██▋       | 2896/10692 [31:24<1:04:13,  2.02it/s] 27%|██▋       | 2897/10692 [31:25<1:04:14,  2.02it/s] 27%|██▋       | 2898/10692 [31:25<1:04:16,  2.02it/s] 27%|██▋       | 2899/10692 [31:26<1:04:12,  2.02it/s] 27%|██▋       | 2900/10692 [31:26<1:04:11,  2.02it/s]{'loss': 3.8976, 'grad_norm': 0.20405881106853485, 'learning_rate': 0.0009133732102182179, 'epoch': 0.27}
+                                                       27%|██▋       | 2900/10692 [31:26<1:04:11,  2.02it/s] 27%|██▋       | 2901/10692 [31:27<1:04:15,  2.02it/s] 27%|██▋       | 2902/10692 [31:27<1:04:16,  2.02it/s] 27%|██▋       | 2903/10692 [31:28<1:04:12,  2.02it/s] 27%|██▋       | 2904/10692 [31:28<1:04:14,  2.02it/s] 27%|██▋       | 2905/10692 [31:29<1:04:11,  2.02it/s] 27%|██▋       | 2906/10692 [31:29<1:04:12,  2.02it/s] 27%|██▋       | 2907/10692 [31:30<1:04:08,  2.02it/s] 27%|██▋       | 2908/10692 [31:30<1:04:09,  2.02it/s] 27%|██▋       | 2909/10692 [31:31<1:04:21,  2.02it/s] 27%|██▋       | 2910/10692 [31:31<1:04:20,  2.02it/s] 27%|██▋       | 2911/10692 [31:32<1:04:15,  2.02it/s] 27%|██▋       | 2912/10692 [31:32<1:04:15,  2.02it/s] 27%|██▋       | 2913/10692 [31:33<1:04:06,  2.02it/s] 27%|██▋       | 2914/10692 [31:33<1:04:07,  2.02it/s] 27%|██▋       | 2915/10692 [31:34<1:04:04,  2.02it/s] 27%|██▋       | 2916/10692 [31:34<1:04:00,  2.02it/s] 27%|██▋       | 2917/10692 [31:35<1:04:00,  2.02it/s] 27%|██▋       | 2918/10692 [31:35<1:03:53,  2.03it/s] 27%|██▋       | 2919/10692 [31:36<1:03:59,  2.02it/s] 27%|██▋       | 2920/10692 [31:36<1:03:54,  2.03it/s] 27%|██▋       | 2921/10692 [31:37<1:03:59,  2.02it/s] 27%|██▋       | 2922/10692 [31:37<1:03:55,  2.03it/s] 27%|██▋       | 2923/10692 [31:38<1:03:57,  2.02it/s] 27%|██▋       | 2924/10692 [31:38<1:03:56,  2.02it/s] 27%|██▋       | 2925/10692 [31:39<1:04:02,  2.02it/s]{'loss': 3.8961, 'grad_norm': 0.21506154537200928, 'learning_rate': 0.000911063449641326, 'epoch': 0.27}
+                                                       27%|██▋       | 2925/10692 [31:39<1:04:02,  2.02it/s] 27%|██▋       | 2926/10692 [31:39<1:04:02,  2.02it/s] 27%|██▋       | 2927/10692 [31:40<1:04:05,  2.02it/s] 27%|██▋       | 2928/10692 [31:40<1:03:57,  2.02it/s] 27%|██▋       | 2929/10692 [31:41<1:04:02,  2.02it/s] 27%|██▋       | 2930/10692 [31:41<1:03:55,  2.02it/s] 27%|██▋       | 2931/10692 [31:42<1:03:59,  2.02it/s] 27%|██▋       | 2932/10692 [31:42<1:03:57,  2.02it/s] 27%|██▋       | 2933/10692 [31:43<1:03:57,  2.02it/s] 27%|██▋       | 2934/10692 [31:43<1:03:54,  2.02it/s] 27%|██▋       | 2935/10692 [31:44<1:03:55,  2.02it/s] 27%|██▋       | 2936/10692 [31:44<1:03:53,  2.02it/s] 27%|██▋       | 2937/10692 [31:45<1:03:51,  2.02it/s] 27%|██▋       | 2938/10692 [31:45<1:03:55,  2.02it/s] 27%|██▋       | 2939/10692 [31:46<1:03:55,  2.02it/s] 27%|██▋       | 2940/10692 [31:46<1:03:53,  2.02it/s] 28%|██▊       | 2941/10692 [31:47<1:03:51,  2.02it/s] 28%|██▊       | 2942/10692 [31:47<1:03:51,  2.02it/s] 28%|██▊       | 2943/10692 [31:48<1:03:51,  2.02it/s] 28%|██▊       | 2944/10692 [31:48<1:03:54,  2.02it/s] 28%|██▊       | 2945/10692 [31:49<1:03:53,  2.02it/s] 28%|██▊       | 2946/10692 [31:49<1:03:54,  2.02it/s] 28%|██▊       | 2947/10692 [31:49<1:03:51,  2.02it/s] 28%|██▊       | 2948/10692 [31:50<1:03:51,  2.02it/s] 28%|██▊       | 2949/10692 [31:50<1:03:47,  2.02it/s] 28%|██▊       | 2950/10692 [31:51<1:03:49,  2.02it/s]{'loss': 3.8884, 'grad_norm': 0.2050967663526535, 'learning_rate': 0.0009087263013677904, 'epoch': 0.28}
+                                                       28%|██▊       | 2950/10692 [31:51<1:03:49,  2.02it/s] 28%|██▊       | 2951/10692 [31:51<1:03:53,  2.02it/s] 28%|██▊       | 2952/10692 [31:52<1:03:58,  2.02it/s] 28%|██▊       | 2953/10692 [31:52<1:03:50,  2.02it/s] 28%|██▊       | 2954/10692 [31:53<1:03:49,  2.02it/s] 28%|██▊       | 2955/10692 [31:53<1:03:46,  2.02it/s] 28%|██▊       | 2956/10692 [31:54<1:03:42,  2.02it/s] 28%|██▊       | 2957/10692 [31:54<1:03:44,  2.02it/s] 28%|██▊       | 2958/10692 [31:55<1:03:50,  2.02it/s] 28%|██▊       | 2959/10692 [31:55<1:03:49,  2.02it/s] 28%|██▊       | 2960/10692 [31:56<1:03:49,  2.02it/s] 28%|██▊       | 2961/10692 [31:56<1:03:53,  2.02it/s] 28%|██▊       | 2962/10692 [31:57<1:03:48,  2.02it/s] 28%|██▊       | 2963/10692 [31:57<1:03:45,  2.02it/s] 28%|██▊       | 2964/10692 [31:58<1:03:42,  2.02it/s] 28%|██▊       | 2965/10692 [31:58<1:03:43,  2.02it/s] 28%|██▊       | 2966/10692 [31:59<1:03:38,  2.02it/s] 28%|██▊       | 2967/10692 [31:59<1:03:34,  2.02it/s] 28%|██▊       | 2968/10692 [32:00<1:03:39,  2.02it/s] 28%|██▊       | 2969/10692 [32:00<1:03:39,  2.02it/s] 28%|██▊       | 2970/10692 [32:01<1:03:47,  2.02it/s] 28%|██▊       | 2971/10692 [32:01<1:03:45,  2.02it/s] 28%|██▊       | 2972/10692 [32:02<1:03:42,  2.02it/s] 28%|██▊       | 2973/10692 [32:02<1:03:40,  2.02it/s] 28%|██▊       | 2974/10692 [32:03<1:03:40,  2.02it/s] 28%|██▊       | 2975/10692 [32:03<1:03:36,  2.02it/s]{'loss': 3.8995, 'grad_norm': 0.20382927358150482, 'learning_rate': 0.0009063619211134946, 'epoch': 0.28}
+                                                       28%|██▊       | 2975/10692 [32:03<1:03:36,  2.02it/s] 28%|██▊       | 2976/10692 [32:04<1:03:40,  2.02it/s] 28%|██▊       | 2977/10692 [32:04<1:03:38,  2.02it/s] 28%|██▊       | 2978/10692 [32:05<1:03:39,  2.02it/s] 28%|██▊       | 2979/10692 [32:05<1:03:35,  2.02it/s] 28%|██▊       | 2980/10692 [32:06<1:03:41,  2.02it/s] 28%|██▊       | 2981/10692 [32:06<1:03:42,  2.02it/s] 28%|██▊       | 2982/10692 [32:07<1:03:37,  2.02it/s] 28%|██▊       | 2983/10692 [32:07<1:03:38,  2.02it/s] 28%|██▊       | 2984/10692 [32:08<1:03:31,  2.02it/s] 28%|██▊       | 2985/10692 [32:08<1:03:33,  2.02it/s] 28%|██▊       | 2986/10692 [32:09<1:03:29,  2.02it/s] 28%|██▊       | 2987/10692 [32:09<1:03:23,  2.03it/s] 28%|██▊       | 2988/10692 [32:10<1:03:27,  2.02it/s] 28%|██▊       | 2989/10692 [32:10<1:03:25,  2.02it/s] 28%|██▊       | 2990/10692 [32:11<1:03:31,  2.02it/s] 28%|██▊       | 2991/10692 [32:11<1:03:25,  2.02it/s] 28%|██▊       | 2992/10692 [32:12<1:03:28,  2.02it/s] 28%|██▊       | 2993/10692 [32:12<1:03:24,  2.02it/s] 28%|██▊       | 2994/10692 [32:13<1:03:27,  2.02it/s] 28%|██▊       | 2995/10692 [32:13<1:03:26,  2.02it/s] 28%|██▊       | 2996/10692 [32:14<1:03:28,  2.02it/s] 28%|██▊       | 2997/10692 [32:14<1:03:19,  2.03it/s] 28%|██▊       | 2998/10692 [32:15<1:03:23,  2.02it/s] 28%|██▊       | 2999/10692 [32:15<1:03:21,  2.02it/s] 28%|██▊       | 3000/10692 [32:16<1:03:27,  2.02it/s]{'loss': 3.8989, 'grad_norm': 0.22091999650001526, 'learning_rate': 0.0009039704664086912, 'epoch': 0.28}
+                                                       28%|██▊       | 3000/10692 [32:16<1:03:27,  2.02it/s] 28%|██▊       | 3001/10692 [32:16<1:03:30,  2.02it/s] 28%|██▊       | 3002/10692 [32:17<1:03:29,  2.02it/s] 28%|██▊       | 3003/10692 [32:17<1:03:27,  2.02it/s] 28%|██▊       | 3004/10692 [32:18<1:03:27,  2.02it/s] 28%|██▊       | 3005/10692 [32:18<1:03:22,  2.02it/s] 28%|██▊       | 3006/10692 [32:19<1:03:26,  2.02it/s] 28%|██▊       | 3007/10692 [32:19<1:03:21,  2.02it/s] 28%|██▊       | 3008/10692 [32:20<1:03:25,  2.02it/s] 28%|██▊       | 3009/10692 [32:20<1:03:28,  2.02it/s] 28%|██▊       | 3010/10692 [32:21<1:03:25,  2.02it/s] 28%|██▊       | 3011/10692 [32:21<1:03:22,  2.02it/s] 28%|██▊       | 3012/10692 [32:22<1:03:20,  2.02it/s] 28%|██▊       | 3013/10692 [32:22<1:03:15,  2.02it/s] 28%|██▊       | 3014/10692 [32:23<1:03:20,  2.02it/s] 28%|██▊       | 3015/10692 [32:23<1:03:21,  2.02it/s] 28%|██▊       | 3016/10692 [32:24<1:03:19,  2.02it/s] 28%|██▊       | 3017/10692 [32:24<1:03:17,  2.02it/s] 28%|██▊       | 3018/10692 [32:25<1:03:18,  2.02it/s] 28%|██▊       | 3019/10692 [32:25<1:03:13,  2.02it/s] 28%|██▊       | 3020/10692 [32:26<1:03:19,  2.02it/s] 28%|██▊       | 3021/10692 [32:26<1:03:18,  2.02it/s] 28%|██▊       | 3022/10692 [32:27<1:03:15,  2.02it/s] 28%|██▊       | 3023/10692 [32:27<1:03:12,  2.02it/s] 28%|██▊       | 3024/10692 [32:28<1:03:11,  2.02it/s] 28%|██▊       | 3025/10692 [32:28<1:03:12,  2.02it/s]{'loss': 3.8792, 'grad_norm': 0.22660855948925018, 'learning_rate': 0.0009015520965875072, 'epoch': 0.28}
+                                                       28%|██▊       | 3025/10692 [32:28<1:03:12,  2.02it/s] 28%|██▊       | 3026/10692 [32:29<1:03:17,  2.02it/s] 28%|██▊       | 3027/10692 [32:29<1:03:09,  2.02it/s] 28%|██▊       | 3028/10692 [32:30<1:03:14,  2.02it/s] 28%|██▊       | 3029/10692 [32:30<1:03:09,  2.02it/s] 28%|██▊       | 3030/10692 [32:31<1:03:21,  2.02it/s] 28%|██▊       | 3031/10692 [32:31<1:03:25,  2.01it/s] 28%|██▊       | 3032/10692 [32:32<1:03:19,  2.02it/s] 28%|██▊       | 3033/10692 [32:32<1:03:18,  2.02it/s] 28%|██▊       | 3034/10692 [32:33<1:03:12,  2.02it/s] 28%|██▊       | 3035/10692 [32:33<1:03:08,  2.02it/s] 28%|██▊       | 3036/10692 [32:34<1:03:09,  2.02it/s] 28%|██▊       | 3037/10692 [32:34<1:03:04,  2.02it/s] 28%|██▊       | 3038/10692 [32:35<1:03:08,  2.02it/s] 28%|██▊       | 3039/10692 [32:35<1:03:18,  2.01it/s] 28%|██▊       | 3040/10692 [32:36<1:03:14,  2.02it/s] 28%|██▊       | 3041/10692 [32:36<1:03:11,  2.02it/s] 28%|██▊       | 3042/10692 [32:37<1:03:06,  2.02it/s] 28%|██▊       | 3043/10692 [32:37<1:03:04,  2.02it/s] 28%|██▊       | 3044/10692 [32:38<1:03:04,  2.02it/s] 28%|██▊       | 3045/10692 [32:38<1:03:02,  2.02it/s] 28%|██▊       | 3046/10692 [32:38<1:03:00,  2.02it/s] 28%|██▊       | 3047/10692 [32:39<1:02:55,  2.02it/s] 29%|██▊       | 3048/10692 [32:39<1:02:57,  2.02it/s] 29%|██▊       | 3049/10692 [32:40<1:02:56,  2.02it/s] 29%|██▊       | 3050/10692 [32:40<1:02:57,  2.02it/s]{'loss': 3.8852, 'grad_norm': 0.22718791663646698, 'learning_rate': 0.0008991069727773288, 'epoch': 0.29}
+                                                       29%|██▊       | 3050/10692 [32:40<1:02:57,  2.02it/s] 29%|██▊       | 3051/10692 [32:41<1:03:01,  2.02it/s] 29%|██▊       | 3052/10692 [32:41<1:02:58,  2.02it/s] 29%|██▊       | 3053/10692 [32:42<1:02:56,  2.02it/s] 29%|██▊       | 3054/10692 [32:42<1:02:53,  2.02it/s] 29%|██▊       | 3055/10692 [32:43<1:02:54,  2.02it/s] 29%|██▊       | 3056/10692 [32:43<1:02:52,  2.02it/s] 29%|██▊       | 3057/10692 [32:44<1:02:55,  2.02it/s] 29%|██▊       | 3058/10692 [32:44<1:02:50,  2.02it/s] 29%|██▊       | 3059/10692 [32:45<1:02:54,  2.02it/s] 29%|██▊       | 3060/10692 [32:45<1:02:52,  2.02it/s] 29%|██▊       | 3061/10692 [32:46<1:02:55,  2.02it/s] 29%|██▊       | 3062/10692 [32:46<1:02:54,  2.02it/s] 29%|██▊       | 3063/10692 [32:47<1:02:56,  2.02it/s] 29%|██▊       | 3064/10692 [32:47<1:02:50,  2.02it/s] 29%|██▊       | 3065/10692 [32:48<1:02:54,  2.02it/s] 29%|██▊       | 3066/10692 [32:48<1:02:50,  2.02it/s] 29%|██▊       | 3067/10692 [32:49<1:02:53,  2.02it/s] 29%|██▊       | 3068/10692 [32:49<1:02:48,  2.02it/s] 29%|██▊       | 3069/10692 [32:50<1:02:51,  2.02it/s] 29%|██▊       | 3070/10692 [32:50<1:02:49,  2.02it/s] 29%|██▊       | 3071/10692 [32:51<1:02:51,  2.02it/s] 29%|██▊       | 3072/10692 [32:51<1:02:44,  2.02it/s] 29%|██▊       | 3073/10692 [32:52<1:02:45,  2.02it/s] 29%|██▉       | 3074/10692 [32:52<1:02:39,  2.03it/s] 29%|██▉       | 3075/10692 [32:53<1:02:37,  2.03it/s]{'loss': 3.8832, 'grad_norm': 0.20075634121894836, 'learning_rate': 0.0008966352578880648, 'epoch': 0.29}
+                                                       29%|██▉       | 3075/10692 [32:53<1:02:37,  2.03it/s] 29%|██▉       | 3076/10692 [32:53<1:02:42,  2.02it/s] 29%|██▉       | 3077/10692 [32:54<1:02:36,  2.03it/s] 29%|██▉       | 3078/10692 [32:54<1:02:36,  2.03it/s] 29%|██▉       | 3079/10692 [32:55<1:02:36,  2.03it/s] 29%|██▉       | 3080/10692 [32:55<1:02:40,  2.02it/s] 29%|██▉       | 3081/10692 [32:56<1:02:35,  2.03it/s] 29%|██▉       | 3082/10692 [32:56<1:02:35,  2.03it/s] 29%|██▉       | 3083/10692 [32:57<1:02:37,  2.03it/s] 29%|██▉       | 3084/10692 [32:57<1:02:39,  2.02it/s] 29%|██▉       | 3085/10692 [32:58<1:02:42,  2.02it/s] 29%|██▉       | 3086/10692 [32:58<1:02:40,  2.02it/s] 29%|██▉       | 3087/10692 [32:59<1:02:40,  2.02it/s] 29%|██▉       | 3088/10692 [32:59<1:02:38,  2.02it/s] 29%|██▉       | 3089/10692 [33:00<1:02:44,  2.02it/s] 29%|██▉       | 3090/10692 [33:00<1:02:43,  2.02it/s] 29%|██▉       | 3091/10692 [33:01<1:02:53,  2.01it/s] 29%|██▉       | 3092/10692 [33:01<1:02:46,  2.02it/s] 29%|██▉       | 3093/10692 [33:02<1:02:45,  2.02it/s] 29%|██▉       | 3094/10692 [33:02<1:02:44,  2.02it/s] 29%|██▉       | 3095/10692 [33:03<1:02:46,  2.02it/s] 29%|██▉       | 3096/10692 [33:03<1:02:40,  2.02it/s] 29%|██▉       | 3097/10692 [33:04<1:02:37,  2.02it/s] 29%|██▉       | 3098/10692 [33:04<1:02:36,  2.02it/s] 29%|██▉       | 3099/10692 [33:05<1:02:35,  2.02it/s] 29%|██▉       | 3100/10692 [33:05<1:02:37,  2.02it/s]{'loss': 3.8781, 'grad_norm': 0.2097524106502533, 'learning_rate': 0.000894137116601293, 'epoch': 0.29}
+                                                       29%|██▉       | 3100/10692 [33:05<1:02:37,  2.02it/s] 29%|██▉       | 3101/10692 [33:06<1:02:40,  2.02it/s] 29%|██▉       | 3102/10692 [33:06<1:02:40,  2.02it/s] 29%|██▉       | 3103/10692 [33:07<1:02:34,  2.02it/s] 29%|██▉       | 3104/10692 [33:07<1:02:35,  2.02it/s] 29%|██▉       | 3105/10692 [33:08<1:02:33,  2.02it/s] 29%|██▉       | 3106/10692 [33:08<1:02:33,  2.02it/s] 29%|██▉       | 3107/10692 [33:09<1:02:28,  2.02it/s] 29%|██▉       | 3108/10692 [33:09<1:02:29,  2.02it/s] 29%|██▉       | 3109/10692 [33:10<1:02:28,  2.02it/s] 29%|██▉       | 3110/10692 [33:10<1:02:28,  2.02it/s] 29%|██▉       | 3111/10692 [33:11<1:02:27,  2.02it/s] 29%|██▉       | 3112/10692 [33:11<1:02:27,  2.02it/s] 29%|██▉       | 3113/10692 [33:12<1:02:29,  2.02it/s] 29%|██▉       | 3114/10692 [33:12<1:02:27,  2.02it/s] 29%|██▉       | 3115/10692 [33:13<1:02:27,  2.02it/s] 29%|██▉       | 3116/10692 [33:13<1:02:24,  2.02it/s] 29%|██▉       | 3117/10692 [33:14<1:02:26,  2.02it/s] 29%|██▉       | 3118/10692 [33:14<1:02:22,  2.02it/s] 29%|██▉       | 3119/10692 [33:15<1:02:25,  2.02it/s] 29%|██▉       | 3120/10692 [33:15<1:02:21,  2.02it/s] 29%|██▉       | 3121/10692 [33:16<1:02:25,  2.02it/s] 29%|██▉       | 3122/10692 [33:16<1:02:20,  2.02it/s] 29%|██▉       | 3123/10692 [33:17<1:02:25,  2.02it/s] 29%|██▉       | 3124/10692 [33:17<1:02:22,  2.02it/s] 29%|██▉       | 3125/10692 [33:18<1:02:25,  2.02it/s]{'loss': 3.876, 'grad_norm': 0.20929387211799622, 'learning_rate': 0.000891612715359289, 'epoch': 0.29}
+                                                       29%|██▉       | 3125/10692 [33:18<1:02:25,  2.02it/s] 29%|██▉       | 3126/10692 [33:18<1:02:27,  2.02it/s] 29%|██▉       | 3127/10692 [33:19<1:02:29,  2.02it/s] 29%|██▉       | 3128/10692 [33:19<1:02:23,  2.02it/s] 29%|██▉       | 3129/10692 [33:20<1:02:25,  2.02it/s] 29%|██▉       | 3130/10692 [33:20<1:02:21,  2.02it/s] 29%|██▉       | 3131/10692 [33:21<1:02:22,  2.02it/s] 29%|██▉       | 3132/10692 [33:21<1:02:17,  2.02it/s] 29%|██▉       | 3133/10692 [33:22<1:02:21,  2.02it/s] 29%|██▉       | 3134/10692 [33:22<1:02:16,  2.02it/s] 29%|██▉       | 3135/10692 [33:23<1:02:20,  2.02it/s] 29%|██▉       | 3136/10692 [33:23<1:02:16,  2.02it/s] 29%|██▉       | 3137/10692 [33:23<1:02:17,  2.02it/s] 29%|██▉       | 3138/10692 [33:24<1:02:12,  2.02it/s] 29%|██▉       | 3139/10692 [33:24<1:02:16,  2.02it/s] 29%|██▉       | 3140/10692 [33:25<1:02:14,  2.02it/s] 29%|██▉       | 3141/10692 [33:25<1:02:21,  2.02it/s] 29%|██▉       | 3142/10692 [33:26<1:02:16,  2.02it/s] 29%|██▉       | 3143/10692 [33:26<1:02:15,  2.02it/s] 29%|██▉       | 3144/10692 [33:27<1:02:12,  2.02it/s] 29%|██▉       | 3145/10692 [33:27<1:02:16,  2.02it/s] 29%|██▉       | 3146/10692 [33:28<1:02:11,  2.02it/s] 29%|██▉       | 3147/10692 [33:28<1:02:13,  2.02it/s] 29%|██▉       | 3148/10692 [33:29<1:02:06,  2.02it/s] 29%|██▉       | 3149/10692 [33:29<1:02:07,  2.02it/s] 29%|██▉       | 3150/10692 [33:30<1:02:02,  2.03it/s]{'loss': 3.8664, 'grad_norm': 0.19779035449028015, 'learning_rate': 0.0008890622223539348, 'epoch': 0.29}
+                                                       29%|██▉       | 3150/10692 [33:30<1:02:02,  2.03it/s] 29%|██▉       | 3151/10692 [33:30<1:02:23,  2.01it/s] 29%|██▉       | 3152/10692 [33:31<1:02:25,  2.01it/s] 29%|██▉       | 3153/10692 [33:31<1:02:18,  2.02it/s] 29%|██▉       | 3154/10692 [33:32<1:02:18,  2.02it/s] 30%|██▉       | 3155/10692 [33:32<1:02:12,  2.02it/s] 30%|██▉       | 3156/10692 [33:33<1:02:12,  2.02it/s] 30%|██▉       | 3157/10692 [33:33<1:02:08,  2.02it/s] 30%|██▉       | 3158/10692 [33:34<1:02:06,  2.02it/s] 30%|██▉       | 3159/10692 [33:34<1:02:07,  2.02it/s] 30%|██▉       | 3160/10692 [33:35<1:02:03,  2.02it/s] 30%|██▉       | 3161/10692 [33:35<1:02:07,  2.02it/s] 30%|██▉       | 3162/10692 [33:36<1:02:04,  2.02it/s] 30%|██▉       | 3163/10692 [33:36<1:02:04,  2.02it/s] 30%|██▉       | 3164/10692 [33:37<1:02:05,  2.02it/s] 30%|██▉       | 3165/10692 [33:37<1:02:06,  2.02it/s] 30%|██▉       | 3166/10692 [33:38<1:02:01,  2.02it/s] 30%|██▉       | 3167/10692 [33:38<1:02:03,  2.02it/s] 30%|██▉       | 3168/10692 [33:39<1:02:00,  2.02it/s] 30%|██▉       | 3169/10692 [33:39<1:02:03,  2.02it/s] 30%|██▉       | 3170/10692 [33:40<1:02:02,  2.02it/s] 30%|██▉       | 3171/10692 [33:40<1:02:05,  2.02it/s] 30%|██▉       | 3172/10692 [33:41<1:02:00,  2.02it/s] 30%|██▉       | 3173/10692 [33:41<1:02:00,  2.02it/s] 30%|██▉       | 3174/10692 [33:42<1:01:58,  2.02it/s] 30%|██▉       | 3175/10692 [33:42<1:01:54,  2.02it/s]{'loss': 3.8731, 'grad_norm': 0.2213582694530487, 'learning_rate': 0.0008864858075155144, 'epoch': 0.3}
+                                                       30%|██▉       | 3175/10692 [33:42<1:01:54,  2.02it/s] 30%|██▉       | 3176/10692 [33:43<1:02:09,  2.02it/s] 30%|██▉       | 3177/10692 [33:43<1:02:08,  2.02it/s] 30%|██▉       | 3178/10692 [33:44<1:02:00,  2.02it/s] 30%|██▉       | 3179/10692 [33:44<1:01:57,  2.02it/s] 30%|██▉       | 3180/10692 [33:45<1:01:54,  2.02it/s] 30%|██▉       | 3181/10692 [33:45<1:01:53,  2.02it/s] 30%|██▉       | 3182/10692 [33:46<1:01:54,  2.02it/s] 30%|██▉       | 3183/10692 [33:46<1:01:56,  2.02it/s] 30%|██▉       | 3184/10692 [33:47<1:01:56,  2.02it/s] 30%|██▉       | 3185/10692 [33:47<1:01:49,  2.02it/s] 30%|██▉       | 3186/10692 [33:48<1:01:54,  2.02it/s] 30%|██▉       | 3187/10692 [33:48<1:01:50,  2.02it/s] 30%|██▉       | 3188/10692 [33:49<1:01:51,  2.02it/s] 30%|██▉       | 3189/10692 [33:49<1:01:48,  2.02it/s] 30%|██▉       | 3190/10692 [33:50<1:01:48,  2.02it/s] 30%|██▉       | 3191/10692 [33:50<1:01:46,  2.02it/s] 30%|██▉       | 3192/10692 [33:51<1:01:45,  2.02it/s] 30%|██▉       | 3193/10692 [33:51<1:01:44,  2.02it/s] 30%|██▉       | 3194/10692 [33:52<1:01:42,  2.02it/s] 30%|██▉       | 3195/10692 [33:52<1:01:40,  2.03it/s] 30%|██▉       | 3196/10692 [33:53<1:01:38,  2.03it/s] 30%|██▉       | 3197/10692 [33:53<1:13:19,  1.70it/s] 30%|██▉       | 3198/10692 [33:54<1:09:51,  1.79it/s] 30%|██▉       | 3199/10692 [33:54<1:07:22,  1.85it/s] 30%|██▉       | 3200/10692 [33:55<1:05:43,  1.90it/s]{'loss': 3.8679, 'grad_norm': 0.20532390475273132, 'learning_rate': 0.0008838836425013916, 'epoch': 0.3}
+                                                       30%|██▉       | 3200/10692 [33:55<1:05:43,  1.90it/s] 30%|██▉       | 3201/10692 [33:55<1:04:33,  1.93it/s] 30%|██▉       | 3202/10692 [33:56<1:03:45,  1.96it/s] 30%|██▉       | 3203/10692 [33:56<1:03:07,  1.98it/s] 30%|██▉       | 3204/10692 [33:57<1:02:51,  1.99it/s] 30%|██▉       | 3205/10692 [33:57<1:02:26,  2.00it/s] 30%|██▉       | 3206/10692 [33:58<1:02:14,  2.00it/s] 30%|██▉       | 3207/10692 [33:58<1:02:04,  2.01it/s] 30%|███       | 3208/10692 [33:59<1:01:57,  2.01it/s] 30%|███       | 3209/10692 [33:59<1:01:53,  2.01it/s] 30%|███       | 3210/10692 [34:00<1:11:50,  1.74it/s] 30%|███       | 3211/10692 [34:01<1:08:55,  1.81it/s] 30%|███       | 3212/10692 [34:01<1:06:43,  1.87it/s] 30%|███       | 3213/10692 [34:02<1:05:12,  1.91it/s] 30%|███       | 3214/10692 [34:02<1:04:08,  1.94it/s] 30%|███       | 3215/10692 [34:03<1:03:20,  1.97it/s] 30%|███       | 3216/10692 [34:03<1:02:51,  1.98it/s] 30%|███       | 3217/10692 [34:04<1:02:31,  1.99it/s] 30%|███       | 3218/10692 [34:04<1:02:15,  2.00it/s] 30%|███       | 3219/10692 [34:05<1:01:59,  2.01it/s] 30%|███       | 3220/10692 [34:05<1:01:51,  2.01it/s] 30%|███       | 3221/10692 [34:06<1:01:47,  2.02it/s] 30%|███       | 3222/10692 [34:06<1:01:45,  2.02it/s] 30%|███       | 3223/10692 [34:07<1:01:41,  2.02it/s] 30%|███       | 3224/10692 [34:07<1:01:40,  2.02it/s] 30%|███       | 3225/10692 [34:08<1:01:37,  2.02it/s]{'loss': 3.8692, 'grad_norm': 0.21676327288150787, 'learning_rate': 0.0008812559006845727, 'epoch': 0.3}
+                                                       30%|███       | 3225/10692 [34:08<1:01:37,  2.02it/s] 30%|███       | 3226/10692 [34:08<1:01:44,  2.02it/s] 30%|███       | 3227/10692 [34:09<1:01:37,  2.02it/s] 30%|███       | 3228/10692 [34:09<1:01:34,  2.02it/s] 30%|███       | 3229/10692 [34:10<1:01:32,  2.02it/s] 30%|███       | 3230/10692 [34:10<1:01:31,  2.02it/s] 30%|███       | 3231/10692 [34:11<1:01:30,  2.02it/s] 30%|███       | 3232/10692 [34:11<1:01:30,  2.02it/s] 30%|███       | 3233/10692 [34:12<1:01:30,  2.02it/s] 30%|███       | 3234/10692 [34:12<1:01:27,  2.02it/s] 30%|███       | 3235/10692 [34:13<1:01:24,  2.02it/s] 30%|███       | 3236/10692 [34:13<1:01:24,  2.02it/s] 30%|███       | 3237/10692 [34:14<1:01:24,  2.02it/s] 30%|███       | 3238/10692 [34:14<1:01:25,  2.02it/s] 30%|███       | 3239/10692 [34:15<1:01:23,  2.02it/s] 30%|███       | 3240/10692 [34:15<1:01:24,  2.02it/s] 30%|███       | 3241/10692 [34:16<1:01:23,  2.02it/s] 30%|███       | 3242/10692 [34:16<1:01:26,  2.02it/s] 30%|███       | 3243/10692 [34:17<1:01:24,  2.02it/s] 30%|███       | 3244/10692 [34:17<1:01:23,  2.02it/s] 30%|███       | 3245/10692 [34:18<1:01:22,  2.02it/s] 30%|███       | 3246/10692 [34:18<1:01:18,  2.02it/s] 30%|███       | 3247/10692 [34:18<1:01:22,  2.02it/s] 30%|███       | 3248/10692 [34:19<1:01:20,  2.02it/s] 30%|███       | 3249/10692 [34:19<1:01:18,  2.02it/s] 30%|███       | 3250/10692 [34:20<1:01:17,  2.02it/s]{'loss': 3.8702, 'grad_norm': 0.20468869805335999, 'learning_rate': 0.0008786027571421551, 'epoch': 0.3}
+                                                       30%|███       | 3250/10692 [34:20<1:01:17,  2.02it/s] 30%|███       | 3251/10692 [34:20<1:01:23,  2.02it/s] 30%|███       | 3252/10692 [34:21<1:01:16,  2.02it/s] 30%|███       | 3253/10692 [34:21<1:01:19,  2.02it/s] 30%|███       | 3254/10692 [34:22<1:01:17,  2.02it/s] 30%|███       | 3255/10692 [34:22<1:01:21,  2.02it/s] 30%|███       | 3256/10692 [34:23<1:01:15,  2.02it/s] 30%|███       | 3257/10692 [34:23<1:01:18,  2.02it/s] 30%|███       | 3258/10692 [34:24<1:01:11,  2.02it/s] 30%|███       | 3259/10692 [34:24<1:01:13,  2.02it/s] 30%|███       | 3260/10692 [34:25<1:01:10,  2.02it/s] 30%|███       | 3261/10692 [34:25<1:01:14,  2.02it/s] 31%|███       | 3262/10692 [34:26<1:01:12,  2.02it/s] 31%|███       | 3263/10692 [34:26<1:01:13,  2.02it/s] 31%|███       | 3264/10692 [34:27<1:01:12,  2.02it/s] 31%|███       | 3265/10692 [34:27<1:01:12,  2.02it/s] 31%|███       | 3266/10692 [34:28<1:01:08,  2.02it/s] 31%|███       | 3267/10692 [34:28<1:01:06,  2.02it/s] 31%|███       | 3268/10692 [34:29<1:01:07,  2.02it/s] 31%|███       | 3269/10692 [34:29<1:01:05,  2.02it/s] 31%|███       | 3270/10692 [34:30<1:01:08,  2.02it/s] 31%|███       | 3271/10692 [34:30<1:01:14,  2.02it/s] 31%|███       | 3272/10692 [34:31<1:01:19,  2.02it/s] 31%|███       | 3273/10692 [34:31<1:01:19,  2.02it/s] 31%|███       | 3274/10692 [34:32<1:01:16,  2.02it/s] 31%|███       | 3275/10692 [34:32<1:01:16,  2.02it/s]{'loss': 3.8587, 'grad_norm': 0.19891469180583954, 'learning_rate': 0.0008759243886436632, 'epoch': 0.31}
+                                                       31%|███       | 3275/10692 [34:32<1:01:16,  2.02it/s] 31%|███       | 3276/10692 [34:33<1:01:19,  2.02it/s] 31%|███       | 3277/10692 [34:33<1:01:17,  2.02it/s] 31%|███       | 3278/10692 [34:34<1:01:08,  2.02it/s] 31%|███       | 3279/10692 [34:34<1:01:08,  2.02it/s] 31%|███       | 3280/10692 [34:35<1:01:00,  2.02it/s] 31%|███       | 3281/10692 [34:35<1:01:04,  2.02it/s] 31%|███       | 3282/10692 [34:36<1:01:03,  2.02it/s] 31%|███       | 3283/10692 [34:36<1:01:04,  2.02it/s] 31%|███       | 3284/10692 [34:37<1:00:58,  2.03it/s] 31%|███       | 3285/10692 [34:37<1:00:59,  2.02it/s] 31%|███       | 3286/10692 [34:38<1:01:00,  2.02it/s] 31%|███       | 3287/10692 [34:38<1:00:59,  2.02it/s] 31%|███       | 3288/10692 [34:39<1:00:57,  2.02it/s] 31%|███       | 3289/10692 [34:39<1:00:59,  2.02it/s] 31%|███       | 3290/10692 [34:40<1:00:59,  2.02it/s] 31%|███       | 3291/10692 [34:40<1:00:58,  2.02it/s] 31%|███       | 3292/10692 [34:41<1:01:02,  2.02it/s] 31%|███       | 3293/10692 [34:41<1:01:00,  2.02it/s] 31%|███       | 3294/10692 [34:42<1:00:59,  2.02it/s] 31%|███       | 3295/10692 [34:42<1:00:56,  2.02it/s] 31%|███       | 3296/10692 [34:43<1:00:59,  2.02it/s] 31%|███       | 3297/10692 [34:43<1:00:58,  2.02it/s] 31%|███       | 3298/10692 [34:44<1:00:59,  2.02it/s] 31%|███       | 3299/10692 [34:44<1:00:56,  2.02it/s] 31%|███       | 3300/10692 [34:45<1:00:57,  2.02it/s]{'loss': 3.8712, 'grad_norm': 0.20326103270053864, 'learning_rate': 0.0008732209736392708, 'epoch': 0.31}
+                                                       31%|███       | 3300/10692 [34:45<1:00:57,  2.02it/s] 31%|███       | 3301/10692 [34:45<1:01:01,  2.02it/s] 31%|███       | 3302/10692 [34:46<1:01:03,  2.02it/s] 31%|███       | 3303/10692 [34:46<1:00:55,  2.02it/s] 31%|███       | 3304/10692 [34:47<1:00:56,  2.02it/s] 31%|███       | 3305/10692 [34:47<1:00:51,  2.02it/s] 31%|███       | 3306/10692 [34:48<1:00:55,  2.02it/s] 31%|███       | 3307/10692 [34:48<1:00:49,  2.02it/s] 31%|███       | 3308/10692 [34:49<1:00:45,  2.03it/s] 31%|███       | 3309/10692 [34:49<1:00:48,  2.02it/s] 31%|███       | 3310/10692 [34:50<1:00:45,  2.03it/s] 31%|███       | 3311/10692 [34:50<1:00:49,  2.02it/s] 31%|███       | 3312/10692 [34:51<1:00:46,  2.02it/s] 31%|███       | 3313/10692 [34:51<1:00:49,  2.02it/s] 31%|███       | 3314/10692 [34:52<1:00:48,  2.02it/s] 31%|███       | 3315/10692 [34:52<1:00:50,  2.02it/s] 31%|███       | 3316/10692 [34:53<1:00:48,  2.02it/s] 31%|███       | 3317/10692 [34:53<1:00:48,  2.02it/s] 31%|███       | 3318/10692 [34:54<1:00:45,  2.02it/s] 31%|███       | 3319/10692 [34:54<1:00:46,  2.02it/s] 31%|███       | 3320/10692 [34:55<1:00:44,  2.02it/s] 31%|███       | 3321/10692 [34:55<1:00:44,  2.02it/s] 31%|███       | 3322/10692 [34:56<1:00:47,  2.02it/s] 31%|███       | 3323/10692 [34:56<1:00:45,  2.02it/s] 31%|███       | 3324/10692 [34:57<1:00:50,  2.02it/s] 31%|███       | 3325/10692 [34:57<1:00:46,  2.02it/s]{'loss': 3.8583, 'grad_norm': 0.1987224966287613, 'learning_rate': 0.0008704926922479112, 'epoch': 0.31}
+                                                       31%|███       | 3325/10692 [34:57<1:00:46,  2.02it/s] 31%|███       | 3326/10692 [34:58<1:00:49,  2.02it/s] 31%|███       | 3327/10692 [34:58<1:00:48,  2.02it/s] 31%|███       | 3328/10692 [34:59<1:00:45,  2.02it/s] 31%|███       | 3329/10692 [34:59<1:00:41,  2.02it/s] 31%|███       | 3330/10692 [35:00<1:00:41,  2.02it/s] 31%|███       | 3331/10692 [35:00<1:00:39,  2.02it/s] 31%|███       | 3332/10692 [35:01<1:00:48,  2.02it/s] 31%|███       | 3333/10692 [35:01<1:00:51,  2.02it/s] 31%|███       | 3334/10692 [35:02<1:00:48,  2.02it/s] 31%|███       | 3335/10692 [35:02<1:00:48,  2.02it/s] 31%|███       | 3336/10692 [35:03<1:00:45,  2.02it/s] 31%|███       | 3337/10692 [35:03<1:00:46,  2.02it/s] 31%|███       | 3338/10692 [35:04<1:00:40,  2.02it/s] 31%|███       | 3339/10692 [35:04<1:00:37,  2.02it/s] 31%|███       | 3340/10692 [35:05<1:00:34,  2.02it/s] 31%|███       | 3341/10692 [35:05<1:00:37,  2.02it/s] 31%|███▏      | 3342/10692 [35:05<1:00:36,  2.02it/s] 31%|███▏      | 3343/10692 [35:06<1:00:35,  2.02it/s] 31%|███▏      | 3344/10692 [35:06<1:00:34,  2.02it/s] 31%|███▏      | 3345/10692 [35:07<1:00:33,  2.02it/s] 31%|███▏      | 3346/10692 [35:07<1:00:31,  2.02it/s] 31%|███▏      | 3347/10692 [35:08<1:00:35,  2.02it/s] 31%|███▏      | 3348/10692 [35:08<1:00:31,  2.02it/s] 31%|███▏      | 3349/10692 [35:09<1:00:28,  2.02it/s] 31%|███▏      | 3350/10692 [35:09<1:00:28,  2.02it/s]{'loss': 3.8573, 'grad_norm': 0.22417649626731873, 'learning_rate': 0.0008677397262452763, 'epoch': 0.31}
+                                                       31%|███▏      | 3350/10692 [35:09<1:00:28,  2.02it/s] 31%|███▏      | 3351/10692 [35:10<1:00:32,  2.02it/s] 31%|███▏      | 3352/10692 [35:10<1:00:33,  2.02it/s] 31%|███▏      | 3353/10692 [35:11<1:00:26,  2.02it/s] 31%|███▏      | 3354/10692 [35:11<1:00:29,  2.02it/s] 31%|███▏      | 3355/10692 [35:12<1:00:25,  2.02it/s] 31%|███▏      | 3356/10692 [35:12<1:00:27,  2.02it/s] 31%|███▏      | 3357/10692 [35:13<1:00:21,  2.03it/s] 31%|███▏      | 3358/10692 [35:13<1:00:19,  2.03it/s] 31%|███▏      | 3359/10692 [35:14<1:00:21,  2.02it/s] 31%|███▏      | 3360/10692 [35:14<1:00:15,  2.03it/s] 31%|███▏      | 3361/10692 [35:15<1:00:17,  2.03it/s] 31%|███▏      | 3362/10692 [35:15<1:00:17,  2.03it/s] 31%|███▏      | 3363/10692 [35:16<1:00:16,  2.03it/s] 31%|███▏      | 3364/10692 [35:16<1:00:20,  2.02it/s] 31%|███▏      | 3365/10692 [35:17<1:00:19,  2.02it/s] 31%|███▏      | 3366/10692 [35:17<1:00:20,  2.02it/s] 31%|███▏      | 3367/10692 [35:18<1:00:20,  2.02it/s] 32%|███▏      | 3368/10692 [35:18<1:00:16,  2.03it/s] 32%|███▏      | 3369/10692 [35:19<1:00:17,  2.02it/s] 32%|███▏      | 3370/10692 [35:19<1:00:11,  2.03it/s] 32%|███▏      | 3371/10692 [35:20<1:00:17,  2.02it/s] 32%|███▏      | 3372/10692 [35:20<1:00:18,  2.02it/s] 32%|███▏      | 3373/10692 [35:21<1:00:14,  2.03it/s] 32%|███▏      | 3374/10692 [35:21<1:00:17,  2.02it/s] 32%|███▏      | 3375/10692 [35:22<1:00:14,  2.02it/s]{'loss': 3.8485, 'grad_norm': 0.20260359346866608, 'learning_rate': 0.0008649622590517065, 'epoch': 0.32}
+                                                       32%|███▏      | 3375/10692 [35:22<1:00:14,  2.02it/s] 32%|███▏      | 3376/10692 [35:22<1:00:23,  2.02it/s] 32%|███▏      | 3377/10692 [35:23<1:00:20,  2.02it/s] 32%|███▏      | 3378/10692 [35:23<1:00:21,  2.02it/s] 32%|███▏      | 3379/10692 [35:24<1:00:17,  2.02it/s] 32%|███▏      | 3380/10692 [35:24<1:00:20,  2.02it/s] 32%|███▏      | 3381/10692 [35:25<1:00:20,  2.02it/s] 32%|███▏      | 3382/10692 [35:25<1:00:22,  2.02it/s] 32%|███▏      | 3383/10692 [35:26<1:00:15,  2.02it/s] 32%|███▏      | 3384/10692 [35:26<1:00:18,  2.02it/s] 32%|███▏      | 3385/10692 [35:27<1:00:13,  2.02it/s] 32%|███▏      | 3386/10692 [35:27<1:00:16,  2.02it/s] 32%|███▏      | 3387/10692 [35:28<1:00:12,  2.02it/s] 32%|███▏      | 3388/10692 [35:28<1:00:13,  2.02it/s] 32%|███▏      | 3389/10692 [35:29<1:00:16,  2.02it/s] 32%|███▏      | 3390/10692 [35:29<1:00:16,  2.02it/s] 32%|███▏      | 3391/10692 [35:30<1:00:11,  2.02it/s] 32%|███▏      | 3392/10692 [35:30<1:00:16,  2.02it/s] 32%|███▏      | 3393/10692 [35:31<1:00:20,  2.02it/s] 32%|███▏      | 3394/10692 [35:31<1:00:17,  2.02it/s] 32%|███▏      | 3395/10692 [35:32<1:00:15,  2.02it/s] 32%|███▏      | 3396/10692 [35:32<1:00:16,  2.02it/s] 32%|███▏      | 3397/10692 [35:33<1:00:18,  2.02it/s] 32%|███▏      | 3398/10692 [35:33<1:00:16,  2.02it/s] 32%|███▏      | 3399/10692 [35:34<1:00:15,  2.02it/s] 32%|███▏      | 3400/10692 [35:34<1:00:11,  2.02it/s]{'loss': 3.8555, 'grad_norm': 0.2004280835390091, 'learning_rate': 0.000862160475719969, 'epoch': 0.32}                                                      
+ 32%|███▏      | 3400/10692 [35:34<1:00:11,  2.02it/s] 32%|███▏      | 3401/10692 [35:35<1:00:19,  2.01it/s] 32%|███▏      | 3402/10692 [35:35<1:00:13,  2.02it/s] 32%|███▏      | 3403/10692 [35:36<1:00:11,  2.02it/s] 32%|███▏      | 3404/10692 [35:36<1:00:04,  2.02it/s] 32%|███▏      | 3405/10692 [35:37<1:00:05,  2.02it/s] 32%|███▏      | 3406/10692 [35:37<1:00:01,  2.02it/s] 32%|███▏      | 3407/10692 [35:38<1:00:03,  2.02it/s] 32%|███▏      | 3408/10692 [35:38<1:00:01,  2.02it/s] 32%|███▏      | 3409/10692 [35:39<1:00:01,  2.02it/s] 32%|███▏      | 3410/10692 [35:39<1:00:00,  2.02it/s] 32%|███▏      | 3411/10692 [35:40<1:00:01,  2.02it/s] 32%|███▏      | 3412/10692 [35:40<59:57,  2.02it/s]   32%|███▏      | 3413/10692 [35:41<1:00:03,  2.02it/s] 32%|███▏      | 3414/10692 [35:41<59:55,  2.02it/s]   32%|███▏      | 3415/10692 [35:42<59:58,  2.02it/s] 32%|███▏      | 3416/10692 [35:42<59:55,  2.02it/s] 32%|███▏      | 3417/10692 [35:43<59:54,  2.02it/s] 32%|███▏      | 3418/10692 [35:43<59:53,  2.02it/s] 32%|███▏      | 3419/10692 [35:44<59:49,  2.03it/s] 32%|███▏      | 3420/10692 [35:44<59:51,  2.02it/s] 32%|███▏      | 3421/10692 [35:45<59:48,  2.03it/s] 32%|███▏      | 3422/10692 [35:45<59:50,  2.02it/s] 32%|███▏      | 3423/10692 [35:46<59:45,  2.03it/s] 32%|███▏      | 3424/10692 [35:46<59:44,  2.03it/s] 32%|███▏      | 3425/10692 [35:47<59:45,  2.03it/s]{'loss': 3.8491, 'grad_norm': 0.22417739033699036, 'learning_rate': 0.0008593345629229291, 'epoch': 0.32}                                                    
+ 32%|███▏      | 3425/10692 [35:47<59:45,  2.03it/s] 32%|███▏      | 3426/10692 [35:47<59:53,  2.02it/s] 32%|███▏      | 3427/10692 [35:48<59:55,  2.02it/s] 32%|███▏      | 3428/10692 [35:48<59:53,  2.02it/s] 32%|███▏      | 3429/10692 [35:49<59:50,  2.02it/s] 32%|███▏      | 3430/10692 [35:49<59:50,  2.02it/s] 32%|███▏      | 3431/10692 [35:50<59:50,  2.02it/s] 32%|███▏      | 3432/10692 [35:50<59:50,  2.02it/s] 32%|███▏      | 3433/10692 [35:50<59:51,  2.02it/s] 32%|███▏      | 3434/10692 [35:51<59:49,  2.02it/s] 32%|███▏      | 3435/10692 [35:51<59:49,  2.02it/s] 32%|███▏      | 3436/10692 [35:52<59:51,  2.02it/s] 32%|███▏      | 3437/10692 [35:52<59:50,  2.02it/s] 32%|███▏      | 3438/10692 [35:53<59:49,  2.02it/s] 32%|███▏      | 3439/10692 [35:53<59:49,  2.02it/s] 32%|███▏      | 3440/10692 [35:54<59:46,  2.02it/s] 32%|███▏      | 3441/10692 [35:54<59:46,  2.02it/s] 32%|███▏      | 3442/10692 [35:55<59:44,  2.02it/s] 32%|███▏      | 3443/10692 [35:55<59:46,  2.02it/s] 32%|███▏      | 3444/10692 [35:56<59:42,  2.02it/s] 32%|███▏      | 3445/10692 [35:56<59:46,  2.02it/s] 32%|███▏      | 3446/10692 [35:57<59:43,  2.02it/s] 32%|███▏      | 3447/10692 [35:57<59:44,  2.02it/s] 32%|███▏      | 3448/10692 [35:58<59:44,  2.02it/s] 32%|███▏      | 3449/10692 [35:58<59:41,  2.02it/s] 32%|███▏      | 3450/10692 [35:59<59:42,  2.02it/s]                                                    {'loss': 3.8407, 'grad_norm': 0.19781990349292755, 'learning_rate': 0.0008564847089411128, 'epoch': 0.32}
+ 32%|███▏      | 3450/10692 [35:59<59:42,  2.02it/s] 32%|███▏      | 3451/10692 [35:59<59:47,  2.02it/s] 32%|███▏      | 3452/10692 [36:00<59:46,  2.02it/s] 32%|███▏      | 3453/10692 [36:00<59:53,  2.01it/s] 32%|███▏      | 3454/10692 [36:01<59:52,  2.01it/s] 32%|███▏      | 3455/10692 [36:01<59:53,  2.01it/s] 32%|███▏      | 3456/10692 [36:02<59:43,  2.02it/s] 32%|███▏      | 3457/10692 [36:02<59:41,  2.02it/s] 32%|███▏      | 3458/10692 [36:03<59:40,  2.02it/s] 32%|███▏      | 3459/10692 [36:03<59:34,  2.02it/s] 32%|███▏      | 3460/10692 [36:04<59:37,  2.02it/s] 32%|███▏      | 3461/10692 [36:04<59:31,  2.02it/s] 32%|███▏      | 3462/10692 [36:05<59:34,  2.02it/s] 32%|███▏      | 3463/10692 [36:05<59:31,  2.02it/s] 32%|███▏      | 3464/10692 [36:06<59:34,  2.02it/s] 32%|███▏      | 3465/10692 [36:06<59:32,  2.02it/s] 32%|███▏      | 3466/10692 [36:07<59:34,  2.02it/s] 32%|███▏      | 3467/10692 [36:07<59:32,  2.02it/s] 32%|███▏      | 3468/10692 [36:08<59:33,  2.02it/s] 32%|███▏      | 3469/10692 [36:08<59:28,  2.02it/s] 32%|███▏      | 3470/10692 [36:09<59:28,  2.02it/s] 32%|███▏      | 3471/10692 [36:09<59:27,  2.02it/s] 32%|███▏      | 3472/10692 [36:10<59:28,  2.02it/s] 32%|███▏      | 3473/10692 [36:10<59:28,  2.02it/s] 32%|███▏      | 3474/10692 [36:11<59:26,  2.02it/s] 33%|███▎      | 3475/10692 [36:11<59:28,  2.02it/s]{'loss': 3.8459, 'grad_norm': 0.19970309734344482, 'learning_rate': 0.0008536111036501615, 'epoch': 0.32}
+                                                     33%|███▎      | 3475/10692 [36:11<59:28,  2.02it/s] 33%|███▎      | 3476/10692 [36:12<59:37,  2.02it/s] 33%|███▎      | 3477/10692 [36:12<59:29,  2.02it/s] 33%|███▎      | 3478/10692 [36:13<59:30,  2.02it/s] 33%|███▎      | 3479/10692 [36:13<59:27,  2.02it/s] 33%|███▎      | 3480/10692 [36:14<59:26,  2.02it/s] 33%|███▎      | 3481/10692 [36:14<59:25,  2.02it/s] 33%|███▎      | 3482/10692 [36:15<59:22,  2.02it/s] 33%|███▎      | 3483/10692 [36:15<59:26,  2.02it/s] 33%|███▎      | 3484/10692 [36:16<59:27,  2.02it/s] 33%|███▎      | 3485/10692 [36:16<59:27,  2.02it/s] 33%|███▎      | 3486/10692 [36:17<59:28,  2.02it/s] 33%|███▎      | 3487/10692 [36:17<59:26,  2.02it/s] 33%|███▎      | 3488/10692 [36:18<59:26,  2.02it/s] 33%|███▎      | 3489/10692 [36:18<59:25,  2.02it/s] 33%|███▎      | 3490/10692 [36:19<59:23,  2.02it/s] 33%|███▎      | 3491/10692 [36:19<59:24,  2.02it/s] 33%|███▎      | 3492/10692 [36:20<59:20,  2.02it/s] 33%|███▎      | 3493/10692 [36:20<59:24,  2.02it/s] 33%|███▎      | 3494/10692 [36:21<59:19,  2.02it/s] 33%|███▎      | 3495/10692 [36:21<59:24,  2.02it/s] 33%|███▎      | 3496/10692 [36:22<59:22,  2.02it/s] 33%|███▎      | 3497/10692 [36:22<59:25,  2.02it/s] 33%|███▎      | 3498/10692 [36:23<59:19,  2.02it/s] 33%|███▎      | 3499/10692 [36:23<59:20,  2.02it/s] 33%|███▎      | 3500/10692 [36:24<59:17,  2.02it/s]{'loss': 3.8338, 'grad_norm': 0.2122921645641327, 'learning_rate': 0.0008507139385081827, 'epoch': 0.33}
+                                                     33%|███▎      | 3500/10692 [36:24<59:17,  2.02it/s] 33%|███▎      | 3501/10692 [36:24<59:21,  2.02it/s] 33%|███▎      | 3502/10692 [36:25<59:21,  2.02it/s] 33%|███▎      | 3503/10692 [36:25<59:20,  2.02it/s] 33%|███▎      | 3504/10692 [36:26<59:20,  2.02it/s] 33%|███▎      | 3505/10692 [36:26<59:17,  2.02it/s] 33%|███▎      | 3506/10692 [36:27<59:19,  2.02it/s] 33%|███▎      | 3507/10692 [36:27<59:17,  2.02it/s] 33%|███▎      | 3508/10692 [36:28<59:16,  2.02it/s] 33%|███▎      | 3509/10692 [36:28<59:11,  2.02it/s] 33%|███▎      | 3510/10692 [36:29<59:03,  2.03it/s] 33%|███▎      | 3511/10692 [36:29<59:08,  2.02it/s] 33%|███▎      | 3512/10692 [36:30<59:06,  2.02it/s] 33%|███▎      | 3513/10692 [36:30<59:05,  2.02it/s] 33%|███▎      | 3514/10692 [36:31<59:11,  2.02it/s] 33%|███▎      | 3515/10692 [36:31<59:19,  2.02it/s] 33%|███▎      | 3516/10692 [36:32<59:13,  2.02it/s] 33%|███▎      | 3517/10692 [36:32<59:12,  2.02it/s] 33%|███▎      | 3518/10692 [36:33<59:07,  2.02it/s] 33%|███▎      | 3519/10692 [36:33<59:09,  2.02it/s] 33%|███▎      | 3520/10692 [36:34<59:08,  2.02it/s] 33%|███▎      | 3521/10692 [36:34<59:07,  2.02it/s] 33%|███▎      | 3522/10692 [36:35<59:06,  2.02it/s] 33%|███▎      | 3523/10692 [36:35<59:04,  2.02it/s] 33%|███▎      | 3524/10692 [36:36<59:00,  2.02it/s] 33%|███▎      | 3525/10692 [36:36<59:02,  2.02it/s]{'loss': 3.8383, 'grad_norm': 0.2158694565296173, 'learning_rate': 0.0008477934065429926, 'epoch': 0.33}
+                                                     33%|███▎      | 3525/10692 [36:36<59:02,  2.02it/s] 33%|███▎      | 3526/10692 [36:37<59:02,  2.02it/s] 33%|███▎      | 3527/10692 [36:37<59:05,  2.02it/s] 33%|███▎      | 3528/10692 [36:37<59:00,  2.02it/s] 33%|███▎      | 3529/10692 [36:38<58:55,  2.03it/s] 33%|███▎      | 3530/10692 [36:38<58:57,  2.02it/s] 33%|███▎      | 3531/10692 [36:39<58:51,  2.03it/s] 33%|███▎      | 3532/10692 [36:39<58:56,  2.02it/s] 33%|███▎      | 3533/10692 [36:40<58:55,  2.03it/s] 33%|███▎      | 3534/10692 [36:40<58:53,  2.03it/s] 33%|███▎      | 3535/10692 [36:41<58:52,  2.03it/s] 33%|███▎      | 3536/10692 [36:41<58:53,  2.03it/s] 33%|███▎      | 3537/10692 [36:42<58:54,  2.02it/s] 33%|███▎      | 3538/10692 [36:42<58:56,  2.02it/s] 33%|███▎      | 3539/10692 [36:43<58:53,  2.02it/s] 33%|███▎      | 3540/10692 [36:43<58:50,  2.03it/s] 33%|███▎      | 3541/10692 [36:44<58:51,  2.02it/s] 33%|███▎      | 3542/10692 [36:44<58:50,  2.03it/s] 33%|███▎      | 3543/10692 [36:45<58:55,  2.02it/s] 33%|███▎      | 3544/10692 [36:45<58:54,  2.02it/s] 33%|███▎      | 3545/10692 [36:46<58:59,  2.02it/s] 33%|███▎      | 3546/10692 [36:46<58:57,  2.02it/s] 33%|███▎      | 3547/10692 [36:47<58:56,  2.02it/s] 33%|███▎      | 3548/10692 [36:47<58:53,  2.02it/s] 33%|███▎      | 3549/10692 [36:48<58:52,  2.02it/s] 33%|███▎      | 3550/10692 [36:48<58:48,  2.02it/s]{'loss': 3.835, 'grad_norm': 0.1985917091369629, 'learning_rate': 0.0008448497023392558, 'epoch': 0.33}
+                                                     33%|███▎      | 3550/10692 [36:48<58:48,  2.02it/s] 33%|███▎      | 3551/10692 [36:49<58:55,  2.02it/s] 33%|███▎      | 3552/10692 [36:49<58:51,  2.02it/s] 33%|███▎      | 3553/10692 [36:50<58:54,  2.02it/s] 33%|███▎      | 3554/10692 [36:50<58:51,  2.02it/s] 33%|███▎      | 3555/10692 [36:51<58:55,  2.02it/s] 33%|███▎      | 3556/10692 [36:51<58:51,  2.02it/s] 33%|███▎      | 3557/10692 [36:52<58:49,  2.02it/s] 33%|███▎      | 3558/10692 [36:52<58:47,  2.02it/s] 33%|███▎      | 3559/10692 [36:53<58:50,  2.02it/s] 33%|███▎      | 3560/10692 [36:53<58:46,  2.02it/s] 33%|███▎      | 3561/10692 [36:54<58:47,  2.02it/s] 33%|███▎      | 3562/10692 [36:54<58:44,  2.02it/s] 33%|███▎      | 3563/10692 [36:55<58:58,  2.01it/s] 33%|███▎      | 3564/10692 [36:55<58:51,  2.02it/s] 33%|███▎      | 3565/10692 [36:56<58:50,  2.02it/s] 33%|███▎      | 3566/10692 [36:56<58:43,  2.02it/s] 33%|███▎      | 3567/10692 [36:57<58:46,  2.02it/s] 33%|███▎      | 3568/10692 [36:57<58:40,  2.02it/s] 33%|███▎      | 3569/10692 [36:58<58:43,  2.02it/s] 33%|███▎      | 3570/10692 [36:58<58:40,  2.02it/s] 33%|███▎      | 3571/10692 [36:59<58:46,  2.02it/s] 33%|███▎      | 3572/10692 [36:59<58:43,  2.02it/s] 33%|███▎      | 3573/10692 [37:00<58:45,  2.02it/s] 33%|███▎      | 3574/10692 [37:00<58:42,  2.02it/s] 33%|███▎      | 3575/10692 [37:01<58:51,  2.02it/s]{'loss': 3.836, 'grad_norm': 0.20279544591903687, 'learning_rate': 0.0008418830220255209, 'epoch': 0.33}
+                                                     33%|███▎      | 3575/10692 [37:01<58:51,  2.02it/s] 33%|███▎      | 3576/10692 [37:01<58:51,  2.01it/s] 33%|███▎      | 3577/10692 [37:02<58:50,  2.02it/s] 33%|███▎      | 3578/10692 [37:02<58:43,  2.02it/s] 33%|███▎      | 3579/10692 [37:03<58:47,  2.02it/s] 33%|███▎      | 3580/10692 [37:03<58:42,  2.02it/s] 33%|███▎      | 3581/10692 [37:04<58:41,  2.02it/s] 34%|███▎      | 3582/10692 [37:04<58:39,  2.02it/s] 34%|███▎      | 3583/10692 [37:05<58:42,  2.02it/s] 34%|███▎      | 3584/10692 [37:05<58:38,  2.02it/s] 34%|███▎      | 3585/10692 [37:06<58:36,  2.02it/s] 34%|███▎      | 3586/10692 [37:06<58:33,  2.02it/s] 34%|███▎      | 3587/10692 [37:07<58:34,  2.02it/s] 34%|███▎      | 3588/10692 [37:07<58:34,  2.02it/s] 34%|███▎      | 3589/10692 [37:08<58:37,  2.02it/s] 34%|███▎      | 3590/10692 [37:08<58:35,  2.02it/s] 34%|███▎      | 3591/10692 [37:09<58:32,  2.02it/s] 34%|███▎      | 3592/10692 [37:09<58:31,  2.02it/s] 34%|███▎      | 3593/10692 [37:10<58:27,  2.02it/s] 34%|███▎      | 3594/10692 [37:10<58:30,  2.02it/s] 34%|███▎      | 3595/10692 [37:11<58:24,  2.02it/s] 34%|███▎      | 3596/10692 [37:11<58:27,  2.02it/s] 34%|███▎      | 3597/10692 [37:12<58:25,  2.02it/s] 34%|███▎      | 3598/10692 [37:12<58:24,  2.02it/s] 34%|███▎      | 3599/10692 [37:13<58:25,  2.02it/s] 34%|███▎      | 3600/10692 [37:13<58:22,  2.02it/s]{'loss': 3.8299, 'grad_norm': 0.2001027762889862, 'learning_rate': 0.000838893563261153, 'epoch': 0.34}
+                                                     34%|███▎      | 3600/10692 [37:13<58:22,  2.02it/s] 34%|███▎      | 3601/10692 [37:14<58:28,  2.02it/s] 34%|███▎      | 3602/10692 [37:14<58:31,  2.02it/s] 34%|███▎      | 3603/10692 [37:15<58:26,  2.02it/s] 34%|███▎      | 3604/10692 [37:15<58:31,  2.02it/s] 34%|███▎      | 3605/10692 [37:16<58:25,  2.02it/s] 34%|███▎      | 3606/10692 [37:16<58:27,  2.02it/s] 34%|███▎      | 3607/10692 [37:17<58:26,  2.02it/s] 34%|███▎      | 3608/10692 [37:17<58:24,  2.02it/s] 34%|███▍      | 3609/10692 [37:18<58:22,  2.02it/s] 34%|███▍      | 3610/10692 [37:18<58:27,  2.02it/s] 34%|███▍      | 3611/10692 [37:19<58:20,  2.02it/s] 34%|███▍      | 3612/10692 [37:19<58:22,  2.02it/s] 34%|███▍      | 3613/10692 [37:20<58:18,  2.02it/s] 34%|███▍      | 3614/10692 [37:20<58:26,  2.02it/s] 34%|███▍      | 3615/10692 [37:21<58:20,  2.02it/s] 34%|███▍      | 3616/10692 [37:21<58:20,  2.02it/s] 34%|███▍      | 3617/10692 [37:22<58:18,  2.02it/s] 34%|███▍      | 3618/10692 [37:22<58:29,  2.02it/s] 34%|███▍      | 3619/10692 [37:23<58:26,  2.02it/s] 34%|███▍      | 3620/10692 [37:23<58:24,  2.02it/s] 34%|███▍      | 3621/10692 [37:24<58:20,  2.02it/s] 34%|███▍      | 3622/10692 [37:24<58:23,  2.02it/s] 34%|███▍      | 3623/10692 [37:24<58:17,  2.02it/s] 34%|███▍      | 3624/10692 [37:25<58:21,  2.02it/s] 34%|███▍      | 3625/10692 [37:25<58:20,  2.02it/s]{'loss': 3.838, 'grad_norm': 0.19859836995601654, 'learning_rate': 0.0008358815252231645, 'epoch': 0.34}
+                                                     34%|███▍      | 3625/10692 [37:25<58:20,  2.02it/s] 34%|███▍      | 3626/10692 [37:26<58:25,  2.02it/s] 34%|███▍      | 3627/10692 [37:26<58:26,  2.02it/s] 34%|███▍      | 3628/10692 [37:27<58:19,  2.02it/s] 34%|███▍      | 3629/10692 [37:27<58:21,  2.02it/s] 34%|███▍      | 3630/10692 [37:28<58:17,  2.02it/s] 34%|███▍      | 3631/10692 [37:28<58:13,  2.02it/s] 34%|███▍      | 3632/10692 [37:29<58:12,  2.02it/s] 34%|███▍      | 3633/10692 [37:29<58:11,  2.02it/s] 34%|███▍      | 3634/10692 [37:30<58:13,  2.02it/s] 34%|███▍      | 3635/10692 [37:30<58:16,  2.02it/s] 34%|███▍      | 3636/10692 [37:31<58:20,  2.02it/s] 34%|███▍      | 3637/10692 [37:31<58:13,  2.02it/s] 34%|███▍      | 3638/10692 [37:32<58:16,  2.02it/s] 34%|███▍      | 3639/10692 [37:32<58:11,  2.02it/s] 34%|███▍      | 3640/10692 [37:33<58:10,  2.02it/s] 34%|███▍      | 3641/10692 [37:33<58:09,  2.02it/s] 34%|███▍      | 3642/10692 [37:34<58:08,  2.02it/s] 34%|███▍      | 3643/10692 [37:34<58:11,  2.02it/s] 34%|███▍      | 3644/10692 [37:35<58:07,  2.02it/s] 34%|███▍      | 3645/10692 [37:35<58:05,  2.02it/s] 34%|███▍      | 3646/10692 [37:36<58:07,  2.02it/s] 34%|███▍      | 3647/10692 [37:36<58:06,  2.02it/s] 34%|███▍      | 3648/10692 [37:37<58:04,  2.02it/s] 34%|███▍      | 3649/10692 [37:37<58:02,  2.02it/s] 34%|███▍      | 3650/10692 [37:38<58:02,  2.02it/s]                                                    {'loss': 3.8332, 'grad_norm': 0.19663271307945251, 'learning_rate': 0.0008328471085929438, 'epoch': 0.34}
+ 34%|███▍      | 3650/10692 [37:38<58:02,  2.02it/s] 34%|███▍      | 3651/10692 [37:38<58:23,  2.01it/s] 34%|███▍      | 3652/10692 [37:39<58:15,  2.01it/s] 34%|███▍      | 3653/10692 [37:39<58:14,  2.01it/s] 34%|███▍      | 3654/10692 [37:40<58:13,  2.01it/s] 34%|███▍      | 3655/10692 [37:40<58:08,  2.02it/s] 34%|███▍      | 3656/10692 [37:41<58:06,  2.02it/s] 34%|███▍      | 3657/10692 [37:41<58:04,  2.02it/s] 34%|███▍      | 3658/10692 [37:42<58:00,  2.02it/s] 34%|███▍      | 3659/10692 [37:42<58:02,  2.02it/s] 34%|███▍      | 3660/10692 [37:43<57:57,  2.02it/s] 34%|███▍      | 3661/10692 [37:43<57:58,  2.02it/s] 34%|███▍      | 3662/10692 [37:44<57:55,  2.02it/s] 34%|███▍      | 3663/10692 [37:44<57:58,  2.02it/s] 34%|███▍      | 3664/10692 [37:45<57:56,  2.02it/s] 34%|███▍      | 3665/10692 [37:45<57:58,  2.02it/s] 34%|███▍      | 3666/10692 [37:46<57:54,  2.02it/s] 34%|███▍      | 3667/10692 [37:46<57:57,  2.02it/s] 34%|███▍      | 3668/10692 [37:47<57:51,  2.02it/s] 34%|███▍      | 3669/10692 [37:47<57:56,  2.02it/s] 34%|███▍      | 3670/10692 [37:48<57:50,  2.02it/s] 34%|███▍      | 3671/10692 [37:48<57:50,  2.02it/s] 34%|███▍      | 3672/10692 [37:49<57:49,  2.02it/s] 34%|███▍      | 3673/10692 [37:49<57:51,  2.02it/s] 34%|███▍      | 3674/10692 [37:50<57:48,  2.02it/s] 34%|███▍      | 3675/10692 [37:50<57:52,  2.02it/s]{'loss': 3.8284, 'grad_norm': 0.19761697947978973, 'learning_rate': 0.0008297905155428869, 'epoch': 0.34}
+                                                     34%|███▍      | 3675/10692 [37:50<57:52,  2.02it/s] 34%|███▍      | 3676/10692 [37:51<57:52,  2.02it/s] 34%|███▍      | 3677/10692 [37:51<57:51,  2.02it/s] 34%|███▍      | 3678/10692 [37:52<57:47,  2.02it/s] 34%|███▍      | 3679/10692 [37:52<57:47,  2.02it/s] 34%|███▍      | 3680/10692 [37:53<57:43,  2.02it/s] 34%|███▍      | 3681/10692 [37:53<57:43,  2.02it/s] 34%|███▍      | 3682/10692 [37:54<57:45,  2.02it/s] 34%|███▍      | 3683/10692 [37:54<57:47,  2.02it/s] 34%|███▍      | 3684/10692 [37:55<57:45,  2.02it/s] 34%|███▍      | 3685/10692 [37:55<57:45,  2.02it/s] 34%|███▍      | 3686/10692 [37:56<57:43,  2.02it/s] 34%|███▍      | 3687/10692 [37:56<57:45,  2.02it/s] 34%|███▍      | 3688/10692 [37:57<57:44,  2.02it/s] 35%|███▍      | 3689/10692 [37:57<57:45,  2.02it/s] 35%|███▍      | 3690/10692 [37:58<57:43,  2.02it/s] 35%|███▍      | 3691/10692 [37:58<57:42,  2.02it/s] 35%|███▍      | 3692/10692 [37:59<57:46,  2.02it/s] 35%|███▍      | 3693/10692 [37:59<57:44,  2.02it/s] 35%|███▍      | 3694/10692 [38:00<57:46,  2.02it/s] 35%|███▍      | 3695/10692 [38:00<57:44,  2.02it/s] 35%|███▍      | 3696/10692 [38:01<57:50,  2.02it/s] 35%|███▍      | 3697/10692 [38:01<57:54,  2.01it/s] 35%|███▍      | 3698/10692 [38:02<57:48,  2.02it/s] 35%|███▍      | 3699/10692 [38:02<57:47,  2.02it/s] 35%|███▍      | 3700/10692 [38:03<57:44,  2.02it/s]{'loss': 3.8294, 'grad_norm': 0.19144196808338165, 'learning_rate': 0.0008267119497229245, 'epoch': 0.35}
+                                                     35%|███▍      | 3700/10692 [38:03<57:44,  2.02it/s] 35%|███▍      | 3701/10692 [38:03<57:55,  2.01it/s] 35%|███▍      | 3702/10692 [38:04<57:53,  2.01it/s] 35%|███▍      | 3703/10692 [38:04<57:45,  2.02it/s] 35%|███▍      | 3704/10692 [38:05<57:48,  2.01it/s] 35%|███▍      | 3705/10692 [38:05<57:44,  2.02it/s] 35%|███▍      | 3706/10692 [38:06<57:48,  2.01it/s] 35%|███▍      | 3707/10692 [38:06<57:41,  2.02it/s] 35%|███▍      | 3708/10692 [38:07<57:41,  2.02it/s] 35%|███▍      | 3709/10692 [38:07<57:34,  2.02it/s] 35%|███▍      | 3710/10692 [38:08<57:33,  2.02it/s] 35%|███▍      | 3711/10692 [38:08<57:31,  2.02it/s] 35%|███▍      | 3712/10692 [38:09<57:33,  2.02it/s] 35%|███▍      | 3713/10692 [38:09<57:33,  2.02it/s] 35%|███▍      | 3714/10692 [38:10<57:34,  2.02it/s] 35%|███▍      | 3715/10692 [38:10<57:34,  2.02it/s] 35%|███▍      | 3716/10692 [38:11<57:36,  2.02it/s] 35%|███▍      | 3717/10692 [38:11<57:31,  2.02it/s] 35%|███▍      | 3718/10692 [38:12<57:33,  2.02it/s] 35%|███▍      | 3719/10692 [38:12<57:30,  2.02it/s] 35%|███▍      | 3720/10692 [38:13<57:37,  2.02it/s] 35%|███▍      | 3721/10692 [38:13<57:32,  2.02it/s] 35%|███▍      | 3722/10692 [38:14<57:33,  2.02it/s] 35%|███▍      | 3723/10692 [38:14<57:28,  2.02it/s] 35%|███▍      | 3724/10692 [38:15<57:29,  2.02it/s] 35%|███▍      | 3725/10692 [38:15<57:27,  2.02it/s]{'loss': 3.8221, 'grad_norm': 0.21103248000144958, 'learning_rate': 0.0008236116162469555, 'epoch': 0.35}
+                                                     35%|███▍      | 3725/10692 [38:15<57:27,  2.02it/s] 35%|███▍      | 3726/10692 [38:15<57:34,  2.02it/s] 35%|███▍      | 3727/10692 [38:16<57:31,  2.02it/s] 35%|███▍      | 3728/10692 [38:16<57:32,  2.02it/s] 35%|███▍      | 3729/10692 [38:17<57:30,  2.02it/s] 35%|███▍      | 3730/10692 [38:17<57:32,  2.02it/s] 35%|███▍      | 3731/10692 [38:18<57:27,  2.02it/s] 35%|███▍      | 3732/10692 [38:18<57:30,  2.02it/s] 35%|███▍      | 3733/10692 [38:19<57:27,  2.02it/s] 35%|███▍      | 3734/10692 [38:19<57:31,  2.02it/s] 35%|███▍      | 3735/10692 [38:20<57:31,  2.02it/s] 35%|███▍      | 3736/10692 [38:20<57:29,  2.02it/s] 35%|███▍      | 3737/10692 [38:21<57:30,  2.02it/s] 35%|███▍      | 3738/10692 [38:21<57:28,  2.02it/s] 35%|███▍      | 3739/10692 [38:22<57:29,  2.02it/s] 35%|███▍      | 3740/10692 [38:22<57:23,  2.02it/s] 35%|███▍      | 3741/10692 [38:23<57:23,  2.02it/s] 35%|███▍      | 3742/10692 [38:23<57:25,  2.02it/s] 35%|███▌      | 3743/10692 [38:24<57:25,  2.02it/s] 35%|███▌      | 3744/10692 [38:24<57:20,  2.02it/s] 35%|███▌      | 3745/10692 [38:25<57:22,  2.02it/s] 35%|███▌      | 3746/10692 [38:25<57:16,  2.02it/s] 35%|███▌      | 3747/10692 [38:26<57:16,  2.02it/s] 35%|███▌      | 3748/10692 [38:26<57:14,  2.02it/s] 35%|███▌      | 3749/10692 [38:27<57:15,  2.02it/s] 35%|███▌      | 3750/10692 [38:27<57:11,  2.02it/s]{'loss': 3.8182, 'grad_norm': 0.21523045003414154, 'learning_rate': 0.0008204897216791799, 'epoch': 0.35}
+                                                     35%|███▌      | 3750/10692 [38:27<57:11,  2.02it/s] 35%|███▌      | 3751/10692 [38:28<57:20,  2.02it/s] 35%|███▌      | 3752/10692 [38:28<57:18,  2.02it/s] 35%|███▌      | 3753/10692 [38:29<57:16,  2.02it/s] 35%|███▌      | 3754/10692 [38:29<57:14,  2.02it/s] 35%|███▌      | 3755/10692 [38:30<57:13,  2.02it/s] 35%|███▌      | 3756/10692 [38:30<57:19,  2.02it/s] 35%|███▌      | 3757/10692 [38:31<57:20,  2.02it/s] 35%|███▌      | 3758/10692 [38:31<57:21,  2.01it/s] 35%|███▌      | 3759/10692 [38:32<57:15,  2.02it/s] 35%|███▌      | 3760/10692 [38:32<57:13,  2.02it/s] 35%|███▌      | 3761/10692 [38:33<57:07,  2.02it/s] 35%|███▌      | 3762/10692 [38:33<57:04,  2.02it/s] 35%|███▌      | 3763/10692 [38:34<57:07,  2.02it/s] 35%|███▌      | 3764/10692 [38:34<57:04,  2.02it/s] 35%|███▌      | 3765/10692 [38:35<57:05,  2.02it/s] 35%|███▌      | 3766/10692 [38:35<57:04,  2.02it/s] 35%|███▌      | 3767/10692 [38:36<57:05,  2.02it/s] 35%|███▌      | 3768/10692 [38:36<57:02,  2.02it/s] 35%|███▌      | 3769/10692 [38:37<57:03,  2.02it/s] 35%|███▌      | 3770/10692 [38:37<57:02,  2.02it/s] 35%|███▌      | 3771/10692 [38:38<56:59,  2.02it/s] 35%|███▌      | 3772/10692 [38:38<56:59,  2.02it/s] 35%|███▌      | 3773/10692 [38:39<56:56,  2.02it/s] 35%|███▌      | 3774/10692 [38:39<57:00,  2.02it/s] 35%|███▌      | 3775/10692 [38:40<56:57,  2.02it/s]{'loss': 3.8192, 'grad_norm': 0.19926996529102325, 'learning_rate': 0.0008173464740203371, 'epoch': 0.35}
+                                                     35%|███▌      | 3775/10692 [38:40<56:57,  2.02it/s] 35%|███▌      | 3776/10692 [38:40<57:07,  2.02it/s] 35%|███▌      | 3777/10692 [38:41<57:04,  2.02it/s] 35%|███▌      | 3778/10692 [38:41<57:01,  2.02it/s] 35%|███▌      | 3779/10692 [38:42<57:06,  2.02it/s] 35%|███▌      | 3780/10692 [38:42<56:58,  2.02it/s] 35%|███▌      | 3781/10692 [38:43<56:59,  2.02it/s] 35%|███▌      | 3782/10692 [38:43<56:56,  2.02it/s] 35%|███▌      | 3783/10692 [38:44<56:56,  2.02it/s] 35%|███▌      | 3784/10692 [38:44<56:56,  2.02it/s] 35%|███▌      | 3785/10692 [38:45<56:56,  2.02it/s] 35%|███▌      | 3786/10692 [38:45<56:57,  2.02it/s] 35%|███▌      | 3787/10692 [38:46<56:54,  2.02it/s] 35%|███▌      | 3788/10692 [38:46<56:56,  2.02it/s] 35%|███▌      | 3789/10692 [38:47<56:56,  2.02it/s] 35%|███▌      | 3790/10692 [38:47<56:55,  2.02it/s] 35%|███▌      | 3791/10692 [38:48<56:53,  2.02it/s] 35%|███▌      | 3792/10692 [38:48<56:52,  2.02it/s] 35%|███▌      | 3793/10692 [38:49<56:52,  2.02it/s] 35%|███▌      | 3794/10692 [38:49<56:55,  2.02it/s] 35%|███▌      | 3795/10692 [38:50<56:46,  2.02it/s] 36%|███▌      | 3796/10692 [38:50<56:51,  2.02it/s] 36%|███▌      | 3797/10692 [38:51<56:47,  2.02it/s] 36%|███▌      | 3798/10692 [38:51<56:51,  2.02it/s] 36%|███▌      | 3799/10692 [38:52<56:50,  2.02it/s] 36%|███▌      | 3800/10692 [38:52<56:48,  2.02it/s]{'loss': 3.8136, 'grad_norm': 0.20363005995750427, 'learning_rate': 0.0008141820826938467, 'epoch': 0.36}
+                                                     36%|███▌      | 3800/10692 [38:52<56:48,  2.02it/s] 36%|███▌      | 3801/10692 [38:53<56:50,  2.02it/s] 36%|███▌      | 3802/10692 [38:53<56:51,  2.02it/s] 36%|███▌      | 3803/10692 [38:54<56:53,  2.02it/s] 36%|███▌      | 3804/10692 [38:54<56:55,  2.02it/s] 36%|███▌      | 3805/10692 [38:55<56:49,  2.02it/s] 36%|███▌      | 3806/10692 [38:55<56:48,  2.02it/s] 36%|███▌      | 3807/10692 [38:56<56:43,  2.02it/s] 36%|███▌      | 3808/10692 [38:56<56:43,  2.02it/s] 36%|███▌      | 3809/10692 [38:57<56:42,  2.02it/s] 36%|███▌      | 3810/10692 [38:57<56:45,  2.02it/s] 36%|███▌      | 3811/10692 [38:58<56:41,  2.02it/s] 36%|███▌      | 3812/10692 [38:58<56:43,  2.02it/s] 36%|███▌      | 3813/10692 [38:59<56:40,  2.02it/s] 36%|███▌      | 3814/10692 [38:59<56:45,  2.02it/s] 36%|███▌      | 3815/10692 [39:00<56:39,  2.02it/s] 36%|███▌      | 3816/10692 [39:00<56:42,  2.02it/s] 36%|███▌      | 3817/10692 [39:01<56:40,  2.02it/s] 36%|███▌      | 3818/10692 [39:01<56:44,  2.02it/s] 36%|███▌      | 3819/10692 [39:02<56:38,  2.02it/s] 36%|███▌      | 3820/10692 [39:02<56:38,  2.02it/s] 36%|███▌      | 3821/10692 [39:03<56:35,  2.02it/s] 36%|███▌      | 3822/10692 [39:03<56:37,  2.02it/s] 36%|███▌      | 3823/10692 [39:04<56:33,  2.02it/s] 36%|███▌      | 3824/10692 [39:04<56:36,  2.02it/s] 36%|███▌      | 3825/10692 [39:04<56:33,  2.02it/s]{'loss': 3.8129, 'grad_norm': 0.20131319761276245, 'learning_rate': 0.0008109967585318561, 'epoch': 0.36}
+                                                     36%|███▌      | 3825/10692 [39:04<56:33,  2.02it/s] 36%|███▌      | 3826/10692 [39:05<56:41,  2.02it/s] 36%|███▌      | 3827/10692 [39:05<56:35,  2.02it/s] 36%|███▌      | 3828/10692 [39:06<56:36,  2.02it/s] 36%|███▌      | 3829/10692 [39:06<56:31,  2.02it/s] 36%|███▌      | 3830/10692 [39:07<56:34,  2.02it/s] 36%|███▌      | 3831/10692 [39:07<56:29,  2.02it/s] 36%|███▌      | 3832/10692 [39:08<56:31,  2.02it/s] 36%|███▌      | 3833/10692 [39:08<56:29,  2.02it/s] 36%|███▌      | 3834/10692 [39:09<56:31,  2.02it/s] 36%|███▌      | 3835/10692 [39:09<56:27,  2.02it/s] 36%|███▌      | 3836/10692 [39:10<56:30,  2.02it/s] 36%|███▌      | 3837/10692 [39:10<56:27,  2.02it/s] 36%|███▌      | 3838/10692 [39:11<56:30,  2.02it/s] 36%|███▌      | 3839/10692 [39:11<56:31,  2.02it/s] 36%|███▌      | 3840/10692 [39:12<56:31,  2.02it/s] 36%|███▌      | 3841/10692 [39:12<56:27,  2.02it/s] 36%|███▌      | 3842/10692 [39:13<56:26,  2.02it/s] 36%|███▌      | 3843/10692 [39:13<56:28,  2.02it/s] 36%|███▌      | 3844/10692 [39:14<56:24,  2.02it/s] 36%|███▌      | 3845/10692 [39:14<56:25,  2.02it/s] 36%|███▌      | 3846/10692 [39:15<56:25,  2.02it/s] 36%|███▌      | 3847/10692 [39:15<56:27,  2.02it/s] 36%|███▌      | 3848/10692 [39:16<56:24,  2.02it/s] 36%|███▌      | 3849/10692 [39:16<56:26,  2.02it/s] 36%|███▌      | 3850/10692 [39:17<56:21,  2.02it/s]{'loss': 3.8136, 'grad_norm': 0.20001763105392456, 'learning_rate': 0.0008077907137611924, 'epoch': 0.36}
+                                                     36%|███▌      | 3850/10692 [39:17<56:21,  2.02it/s] 36%|███▌      | 3851/10692 [39:17<56:26,  2.02it/s] 36%|███▌      | 3852/10692 [39:18<56:23,  2.02it/s] 36%|███▌      | 3853/10692 [39:18<56:21,  2.02it/s] 36%|███▌      | 3854/10692 [39:19<56:22,  2.02it/s] 36%|███▌      | 3855/10692 [39:19<56:22,  2.02it/s] 36%|███▌      | 3856/10692 [39:20<56:24,  2.02it/s] 36%|███▌      | 3857/10692 [39:20<56:16,  2.02it/s] 36%|███▌      | 3858/10692 [39:21<56:22,  2.02it/s] 36%|███▌      | 3859/10692 [39:21<56:27,  2.02it/s] 36%|███▌      | 3860/10692 [39:22<56:24,  2.02it/s] 36%|███▌      | 3861/10692 [39:22<56:19,  2.02it/s] 36%|███▌      | 3862/10692 [39:23<56:20,  2.02it/s] 36%|███▌      | 3863/10692 [39:23<56:18,  2.02it/s] 36%|███▌      | 3864/10692 [39:24<56:20,  2.02it/s] 36%|███▌      | 3865/10692 [39:24<56:16,  2.02it/s] 36%|███▌      | 3866/10692 [39:25<56:16,  2.02it/s] 36%|███▌      | 3867/10692 [39:25<56:13,  2.02it/s] 36%|███▌      | 3868/10692 [39:26<56:13,  2.02it/s] 36%|███▌      | 3869/10692 [39:26<56:12,  2.02it/s] 36%|███▌      | 3870/10692 [39:27<56:16,  2.02it/s] 36%|███▌      | 3871/10692 [39:27<56:14,  2.02it/s] 36%|███▌      | 3872/10692 [39:28<56:16,  2.02it/s] 36%|███▌      | 3873/10692 [39:28<56:11,  2.02it/s] 36%|███▌      | 3874/10692 [39:29<56:13,  2.02it/s] 36%|███▌      | 3875/10692 [39:29<56:10,  2.02it/s]{'loss': 3.811, 'grad_norm': 0.2191513180732727, 'learning_rate': 0.0008045641619892244, 'epoch': 0.36}
+                                                     36%|███▌      | 3875/10692 [39:29<56:10,  2.02it/s] 36%|███▋      | 3876/10692 [39:30<56:15,  2.02it/s] 36%|███▋      | 3877/10692 [39:30<56:13,  2.02it/s] 36%|███▋      | 3878/10692 [39:31<56:22,  2.01it/s] 36%|███▋      | 3879/10692 [39:31<56:19,  2.02it/s] 36%|███▋      | 3880/10692 [39:32<56:17,  2.02it/s] 36%|███▋      | 3881/10692 [39:32<56:10,  2.02it/s] 36%|███▋      | 3882/10692 [39:33<56:11,  2.02it/s] 36%|███▋      | 3883/10692 [39:33<56:07,  2.02it/s] 36%|███▋      | 3884/10692 [39:34<56:09,  2.02it/s] 36%|███▋      | 3885/10692 [39:34<56:05,  2.02it/s] 36%|███▋      | 3886/10692 [39:35<56:07,  2.02it/s] 36%|███▋      | 3887/10692 [39:35<56:02,  2.02it/s] 36%|███▋      | 3888/10692 [39:36<56:01,  2.02it/s] 36%|███▋      | 3889/10692 [39:36<55:59,  2.03it/s] 36%|███▋      | 3890/10692 [39:37<55:57,  2.03it/s] 36%|███▋      | 3891/10692 [39:37<56:00,  2.02it/s] 36%|███▋      | 3892/10692 [39:38<55:57,  2.03it/s] 36%|███▋      | 3893/10692 [39:38<55:59,  2.02it/s] 36%|███▋      | 3894/10692 [39:39<55:57,  2.02it/s] 36%|███▋      | 3895/10692 [39:39<56:03,  2.02it/s] 36%|███▋      | 3896/10692 [39:40<56:00,  2.02it/s] 36%|███▋      | 3897/10692 [39:40<56:05,  2.02it/s] 36%|███▋      | 3898/10692 [39:41<55:59,  2.02it/s] 36%|███▋      | 3899/10692 [39:41<55:58,  2.02it/s] 36%|███▋      | 3900/10692 [39:42<55:55,  2.02it/s]{'loss': 3.809, 'grad_norm': 0.2032954841852188, 'learning_rate': 0.0008013173181896282, 'epoch': 0.36}
+                                                     36%|███▋      | 3900/10692 [39:42<55:55,  2.02it/s] 36%|███▋      | 3901/10692 [39:42<56:04,  2.02it/s] 36%|███▋      | 3902/10692 [39:43<56:02,  2.02it/s] 37%|███▋      | 3903/10692 [39:43<56:01,  2.02it/s] 37%|███▋      | 3904/10692 [39:44<55:56,  2.02it/s] 37%|███▋      | 3905/10692 [39:44<55:58,  2.02it/s] 37%|███▋      | 3906/10692 [39:45<55:55,  2.02it/s] 37%|███▋      | 3907/10692 [39:45<55:53,  2.02it/s] 37%|███▋      | 3908/10692 [39:46<55:55,  2.02it/s] 37%|███▋      | 3909/10692 [39:46<55:55,  2.02it/s] 37%|███▋      | 3910/10692 [39:47<55:56,  2.02it/s] 37%|███▋      | 3911/10692 [39:47<55:54,  2.02it/s] 37%|███▋      | 3912/10692 [39:48<1:04:57,  1.74it/s] 37%|███▋      | 3913/10692 [39:48<1:02:11,  1.82it/s] 37%|███▋      | 3914/10692 [39:49<1:00:19,  1.87it/s] 37%|███▋      | 3915/10692 [39:49<59:02,  1.91it/s]   37%|███▋      | 3916/10692 [39:50<58:04,  1.94it/s] 37%|███▋      | 3917/10692 [39:50<57:21,  1.97it/s] 37%|███▋      | 3918/10692 [39:51<56:54,  1.98it/s] 37%|███▋      | 3919/10692 [39:51<56:35,  1.99it/s] 37%|███▋      | 3920/10692 [39:52<56:22,  2.00it/s] 37%|███▋      | 3921/10692 [39:52<56:12,  2.01it/s] 37%|███▋      | 3922/10692 [39:53<56:00,  2.01it/s] 37%|███▋      | 3923/10692 [39:53<55:56,  2.02it/s] 37%|███▋      | 3924/10692 [39:54<55:50,  2.02it/s] 37%|███▋      | 3925/10692 [39:54<55:51,  2.02it/s]{'loss': 3.8105, 'grad_norm': 0.21355277299880981, 'learning_rate': 0.0007980503986880666, 'epoch': 0.37}
+                                                     37%|███▋      | 3925/10692 [39:54<55:51,  2.02it/s] 37%|███▋      | 3926/10692 [39:55<55:51,  2.02it/s] 37%|███▋      | 3927/10692 [39:55<55:54,  2.02it/s] 37%|███▋      | 3928/10692 [39:56<55:49,  2.02it/s] 37%|███▋      | 3929/10692 [39:56<55:48,  2.02it/s] 37%|███▋      | 3930/10692 [39:57<1:04:58,  1.73it/s] 37%|███▋      | 3931/10692 [39:57<1:02:13,  1.81it/s] 37%|███▋      | 3932/10692 [39:58<1:00:16,  1.87it/s] 37%|███▋      | 3933/10692 [39:58<58:50,  1.91it/s]   37%|███▋      | 3934/10692 [39:59<57:53,  1.95it/s] 37%|███▋      | 3935/10692 [39:59<57:14,  1.97it/s] 37%|███▋      | 3936/10692 [40:00<56:48,  1.98it/s] 37%|███▋      | 3937/10692 [40:00<56:30,  1.99it/s] 37%|███▋      | 3938/10692 [40:01<56:22,  2.00it/s] 37%|███▋      | 3939/10692 [40:01<56:05,  2.01it/s] 37%|███▋      | 3940/10692 [40:02<55:58,  2.01it/s] 37%|███▋      | 3941/10692 [40:02<55:49,  2.02it/s] 37%|███▋      | 3942/10692 [40:03<55:44,  2.02it/s] 37%|███▋      | 3943/10692 [40:03<55:40,  2.02it/s] 37%|███▋      | 3944/10692 [40:04<55:36,  2.02it/s] 37%|███▋      | 3945/10692 [40:04<55:39,  2.02it/s] 37%|███▋      | 3946/10692 [40:05<55:33,  2.02it/s] 37%|███▋      | 3947/10692 [40:05<55:34,  2.02it/s] 37%|███▋      | 3948/10692 [40:06<55:34,  2.02it/s] 37%|███▋      | 3949/10692 [40:06<55:34,  2.02it/s] 37%|███▋      | 3950/10692 [40:07<55:29,  2.02it/s]{'loss': 3.8046, 'grad_norm': 0.20806002616882324, 'learning_rate': 0.0007947636211477745, 'epoch': 0.37}
+                                                     37%|███▋      | 3950/10692 [40:07<55:29,  2.02it/s] 37%|███▋      | 3951/10692 [40:07<55:39,  2.02it/s] 37%|███▋      | 3952/10692 [40:08<55:31,  2.02it/s] 37%|███▋      | 3953/10692 [40:08<55:30,  2.02it/s] 37%|███▋      | 3954/10692 [40:09<55:28,  2.02it/s] 37%|███▋      | 3955/10692 [40:09<55:30,  2.02it/s] 37%|███▋      | 3956/10692 [40:10<55:31,  2.02it/s] 37%|███▋      | 3957/10692 [40:10<55:29,  2.02it/s] 37%|███▋      | 3958/10692 [40:11<55:26,  2.02it/s] 37%|███▋      | 3959/10692 [40:11<55:28,  2.02it/s] 37%|███▋      | 3960/10692 [40:12<55:26,  2.02it/s] 37%|███▋      | 3961/10692 [40:12<55:28,  2.02it/s] 37%|███▋      | 3962/10692 [40:13<55:25,  2.02it/s] 37%|███▋      | 3963/10692 [40:13<55:22,  2.03it/s] 37%|███▋      | 3964/10692 [40:14<55:23,  2.02it/s] 37%|███▋      | 3965/10692 [40:14<55:23,  2.02it/s] 37%|███▋      | 3966/10692 [40:15<55:27,  2.02it/s] 37%|███▋      | 3967/10692 [40:15<55:24,  2.02it/s] 37%|███▋      | 3968/10692 [40:16<55:25,  2.02it/s] 37%|███▋      | 3969/10692 [40:16<55:24,  2.02it/s] 37%|███▋      | 3970/10692 [40:17<55:24,  2.02it/s] 37%|███▋      | 3971/10692 [40:17<55:20,  2.02it/s] 37%|███▋      | 3972/10692 [40:18<55:25,  2.02it/s] 37%|███▋      | 3973/10692 [40:18<55:22,  2.02it/s] 37%|███▋      | 3974/10692 [40:19<55:22,  2.02it/s] 37%|███▋      | 3975/10692 [40:19<55:19,  2.02it/s]{'loss': 3.7981, 'grad_norm': 0.20322124660015106, 'learning_rate': 0.0007914572045550575, 'epoch': 0.37}
+                                                     37%|███▋      | 3975/10692 [40:19<55:19,  2.02it/s] 37%|███▋      | 3976/10692 [40:20<55:26,  2.02it/s] 37%|███▋      | 3977/10692 [40:20<55:24,  2.02it/s] 37%|███▋      | 3978/10692 [40:21<55:27,  2.02it/s] 37%|███▋      | 3979/10692 [40:21<55:24,  2.02it/s] 37%|███▋      | 3980/10692 [40:22<55:23,  2.02it/s] 37%|███▋      | 3981/10692 [40:22<55:21,  2.02it/s] 37%|███▋      | 3982/10692 [40:23<55:21,  2.02it/s] 37%|███▋      | 3983/10692 [40:23<55:17,  2.02it/s] 37%|███▋      | 3984/10692 [40:24<55:17,  2.02it/s] 37%|███▋      | 3985/10692 [40:24<55:16,  2.02it/s] 37%|███▋      | 3986/10692 [40:25<55:25,  2.02it/s] 37%|███▋      | 3987/10692 [40:25<55:20,  2.02it/s] 37%|███▋      | 3988/10692 [40:26<55:21,  2.02it/s] 37%|███▋      | 3989/10692 [40:26<55:14,  2.02it/s] 37%|███▋      | 3990/10692 [40:27<55:16,  2.02it/s] 37%|███▋      | 3991/10692 [40:27<55:16,  2.02it/s] 37%|███▋      | 3992/10692 [40:28<55:17,  2.02it/s] 37%|███▋      | 3993/10692 [40:28<55:12,  2.02it/s] 37%|███▋      | 3994/10692 [40:29<55:11,  2.02it/s] 37%|███▋      | 3995/10692 [40:29<55:12,  2.02it/s] 37%|███▋      | 3996/10692 [40:30<55:10,  2.02it/s] 37%|███▋      | 3997/10692 [40:30<55:12,  2.02it/s] 37%|███▋      | 3998/10692 [40:31<55:22,  2.01it/s] 37%|███▋      | 3999/10692 [40:31<55:18,  2.02it/s] 37%|███▋      | 4000/10692 [40:32<55:19,  2.02it/s]{'loss': 3.7972, 'grad_norm': 0.19668349623680115, 'learning_rate': 0.0007881313692047016, 'epoch': 0.37}
+                                                     37%|███▋      | 4000/10692 [40:32<55:19,  2.02it/s] 37%|███▋      | 4001/10692 [40:32<55:19,  2.02it/s] 37%|███▋      | 4002/10692 [40:33<55:20,  2.01it/s] 37%|███▋      | 4003/10692 [40:33<55:14,  2.02it/s] 37%|███▋      | 4004/10692 [40:34<55:14,  2.02it/s] 37%|███▋      | 4005/10692 [40:34<55:10,  2.02it/s] 37%|███▋      | 4006/10692 [40:35<55:12,  2.02it/s] 37%|███▋      | 4007/10692 [40:35<55:06,  2.02it/s] 37%|███▋      | 4008/10692 [40:36<55:08,  2.02it/s] 37%|███▋      | 4009/10692 [40:36<55:02,  2.02it/s] 38%|███▊      | 4010/10692 [40:37<55:04,  2.02it/s] 38%|███▊      | 4011/10692 [40:37<55:02,  2.02it/s] 38%|███▊      | 4012/10692 [40:38<55:06,  2.02it/s] 38%|███▊      | 4013/10692 [40:38<55:00,  2.02it/s] 38%|███▊      | 4014/10692 [40:39<55:02,  2.02it/s] 38%|███▊      | 4015/10692 [40:39<55:00,  2.02it/s] 38%|███▊      | 4016/10692 [40:40<55:01,  2.02it/s] 38%|███▊      | 4017/10692 [40:40<54:59,  2.02it/s] 38%|███▊      | 4018/10692 [40:41<54:58,  2.02it/s] 38%|███▊      | 4019/10692 [40:41<54:57,  2.02it/s] 38%|███▊      | 4020/10692 [40:41<54:57,  2.02it/s] 38%|███▊      | 4021/10692 [40:42<54:58,  2.02it/s] 38%|███▊      | 4022/10692 [40:42<54:57,  2.02it/s] 38%|███▊      | 4023/10692 [40:43<54:57,  2.02it/s] 38%|███▊      | 4024/10692 [40:43<54:57,  2.02it/s] 38%|███▊      | 4025/10692 [40:44<54:59,  2.02it/s]{'loss': 3.7989, 'grad_norm': 0.19566190242767334, 'learning_rate': 0.0007847863366852952, 'epoch': 0.38}                                                    
+ 38%|███▊      | 4025/10692 [40:44<54:59,  2.02it/s] 38%|███▊      | 4026/10692 [40:44<55:00,  2.02it/s] 38%|███▊      | 4027/10692 [40:45<55:02,  2.02it/s] 38%|███▊      | 4028/10692 [40:45<54:58,  2.02it/s] 38%|███▊      | 4029/10692 [40:46<54:58,  2.02it/s] 38%|███▊      | 4030/10692 [40:46<54:55,  2.02it/s] 38%|███▊      | 4031/10692 [40:47<54:57,  2.02it/s] 38%|███▊      | 4032/10692 [40:47<55:00,  2.02it/s] 38%|███▊      | 4033/10692 [40:48<54:59,  2.02it/s] 38%|███▊      | 4034/10692 [40:48<54:54,  2.02it/s] 38%|███▊      | 4035/10692 [40:49<54:57,  2.02it/s] 38%|███▊      | 4036/10692 [40:49<54:52,  2.02it/s] 38%|███▊      | 4037/10692 [40:50<54:55,  2.02it/s] 38%|███▊      | 4038/10692 [40:50<54:51,  2.02it/s] 38%|███▊      | 4039/10692 [40:51<54:51,  2.02it/s] 38%|███▊      | 4040/10692 [40:51<54:48,  2.02it/s] 38%|███▊      | 4041/10692 [40:52<54:51,  2.02it/s] 38%|███▊      | 4042/10692 [40:52<54:49,  2.02it/s] 38%|███▊      | 4043/10692 [40:53<54:47,  2.02it/s] 38%|███▊      | 4044/10692 [40:53<54:49,  2.02it/s] 38%|███▊      | 4045/10692 [40:54<54:48,  2.02it/s] 38%|███▊      | 4046/10692 [40:54<54:48,  2.02it/s] 38%|███▊      | 4047/10692 [40:55<54:46,  2.02it/s] 38%|███▊      | 4048/10692 [40:55<54:50,  2.02it/s] 38%|███▊      | 4049/10692 [40:56<54:47,  2.02it/s] 38%|███▊      | 4050/10692 [40:56<54:46,  2.02it/s]{'loss': 3.7945, 'grad_norm': 0.1942652016878128, 'learning_rate': 0.0007814223298644665, 'epoch': 0.38}
+                                                     38%|███▊      | 4050/10692 [40:56<54:46,  2.02it/s] 38%|███▊      | 4051/10692 [40:57<54:48,  2.02it/s] 38%|███▊      | 4052/10692 [40:57<54:44,  2.02it/s] 38%|███▊      | 4053/10692 [40:58<54:45,  2.02it/s] 38%|███▊      | 4054/10692 [40:58<54:42,  2.02it/s] 38%|███▊      | 4055/10692 [40:59<54:46,  2.02it/s] 38%|███▊      | 4056/10692 [40:59<54:42,  2.02it/s] 38%|███▊      | 4057/10692 [41:00<54:41,  2.02it/s] 38%|███▊      | 4058/10692 [41:00<54:44,  2.02it/s] 38%|███▊      | 4059/10692 [41:01<54:50,  2.02it/s] 38%|███▊      | 4060/10692 [41:01<54:44,  2.02it/s] 38%|███▊      | 4061/10692 [41:02<54:44,  2.02it/s] 38%|███▊      | 4062/10692 [41:02<54:36,  2.02it/s] 38%|███▊      | 4063/10692 [41:03<54:36,  2.02it/s] 38%|███▊      | 4064/10692 [41:03<54:36,  2.02it/s] 38%|███▊      | 4065/10692 [41:04<54:38,  2.02it/s] 38%|███▊      | 4066/10692 [41:04<54:35,  2.02it/s] 38%|███▊      | 4067/10692 [41:05<54:37,  2.02it/s] 38%|███▊      | 4068/10692 [41:05<54:37,  2.02it/s] 38%|███▊      | 4069/10692 [41:06<54:40,  2.02it/s] 38%|███▊      | 4070/10692 [41:06<54:41,  2.02it/s] 38%|███▊      | 4071/10692 [41:07<54:41,  2.02it/s] 38%|███▊      | 4072/10692 [41:07<54:37,  2.02it/s] 38%|███▊      | 4073/10692 [41:08<54:36,  2.02it/s] 38%|███▊      | 4074/10692 [41:08<54:36,  2.02it/s] 38%|███▊      | 4075/10692 [41:09<54:35,  2.02it/s]{'loss': 3.7981, 'grad_norm': 0.21274657547473907, 'learning_rate': 0.0007780395728740332, 'epoch': 0.38}
+                                                     38%|███▊      | 4075/10692 [41:09<54:35,  2.02it/s] 38%|███▊      | 4076/10692 [41:09<54:37,  2.02it/s] 38%|███▊      | 4077/10692 [41:10<54:37,  2.02it/s] 38%|███▊      | 4078/10692 [41:10<54:35,  2.02it/s] 38%|███▊      | 4079/10692 [41:11<54:35,  2.02it/s] 38%|███▊      | 4080/10692 [41:11<54:35,  2.02it/s] 38%|███▊      | 4081/10692 [41:12<54:34,  2.02it/s] 38%|███▊      | 4082/10692 [41:12<54:30,  2.02it/s] 38%|███▊      | 4083/10692 [41:13<54:29,  2.02it/s] 38%|███▊      | 4084/10692 [41:13<54:25,  2.02it/s] 38%|███▊      | 4085/10692 [41:14<54:28,  2.02it/s] 38%|███▊      | 4086/10692 [41:14<54:25,  2.02it/s] 38%|███▊      | 4087/10692 [41:15<54:29,  2.02it/s] 38%|███▊      | 4088/10692 [41:15<54:27,  2.02it/s] 38%|███▊      | 4089/10692 [41:16<54:29,  2.02it/s] 38%|███▊      | 4090/10692 [41:16<54:25,  2.02it/s] 38%|███▊      | 4091/10692 [41:17<54:28,  2.02it/s] 38%|███▊      | 4092/10692 [41:17<54:23,  2.02it/s] 38%|███▊      | 4093/10692 [41:18<54:25,  2.02it/s] 38%|███▊      | 4094/10692 [41:18<54:19,  2.02it/s] 38%|███▊      | 4095/10692 [41:19<54:22,  2.02it/s] 38%|███▊      | 4096/10692 [41:19<54:18,  2.02it/s] 38%|███▊      | 4097/10692 [41:20<54:22,  2.02it/s] 38%|███▊      | 4098/10692 [41:20<54:22,  2.02it/s] 38%|███▊      | 4099/10692 [41:21<54:22,  2.02it/s] 38%|███▊      | 4100/10692 [41:21<54:17,  2.02it/s]{'loss': 3.8033, 'grad_norm': 0.20995858311653137, 'learning_rate': 0.0007746382910950708, 'epoch': 0.38}
+                                                     38%|███▊      | 4100/10692 [41:21<54:17,  2.02it/s] 38%|███▊      | 4101/10692 [41:22<54:25,  2.02it/s] 38%|███▊      | 4102/10692 [41:22<54:17,  2.02it/s] 38%|███▊      | 4103/10692 [41:23<54:18,  2.02it/s] 38%|███▊      | 4104/10692 [41:23<54:16,  2.02it/s] 38%|███▊      | 4105/10692 [41:24<54:20,  2.02it/s] 38%|███▊      | 4106/10692 [41:24<54:17,  2.02it/s] 38%|███▊      | 4107/10692 [41:25<54:20,  2.02it/s] 38%|███▊      | 4108/10692 [41:25<54:16,  2.02it/s] 38%|███▊      | 4109/10692 [41:26<54:14,  2.02it/s] 38%|███▊      | 4110/10692 [41:26<54:13,  2.02it/s] 38%|███▊      | 4111/10692 [41:27<54:13,  2.02it/s] 38%|███▊      | 4112/10692 [41:27<54:14,  2.02it/s] 38%|███▊      | 4113/10692 [41:28<54:16,  2.02it/s] 38%|███▊      | 4114/10692 [41:28<54:16,  2.02it/s] 38%|███▊      | 4115/10692 [41:29<54:17,  2.02it/s] 38%|███▊      | 4116/10692 [41:29<54:17,  2.02it/s] 39%|███▊      | 4117/10692 [41:29<54:14,  2.02it/s] 39%|███▊      | 4118/10692 [41:30<54:15,  2.02it/s] 39%|███▊      | 4119/10692 [41:30<54:14,  2.02it/s] 39%|███▊      | 4120/10692 [41:31<54:18,  2.02it/s] 39%|███▊      | 4121/10692 [41:31<54:10,  2.02it/s] 39%|███▊      | 4122/10692 [41:32<54:12,  2.02it/s] 39%|███▊      | 4123/10692 [41:32<54:08,  2.02it/s] 39%|███▊      | 4124/10692 [41:33<54:08,  2.02it/s] 39%|███▊      | 4125/10692 [41:33<54:07,  2.02it/s]{'loss': 3.7937, 'grad_norm': 0.19192665815353394, 'learning_rate': 0.0007712187111428952, 'epoch': 0.39}
+                                                     39%|███▊      | 4125/10692 [41:33<54:07,  2.02it/s] 39%|███▊      | 4126/10692 [41:34<54:16,  2.02it/s] 39%|███▊      | 4127/10692 [41:34<54:12,  2.02it/s] 39%|███▊      | 4128/10692 [41:35<54:14,  2.02it/s] 39%|███▊      | 4129/10692 [41:35<54:07,  2.02it/s] 39%|███▊      | 4130/10692 [41:36<54:11,  2.02it/s] 39%|███▊      | 4131/10692 [41:36<54:07,  2.02it/s] 39%|███▊      | 4132/10692 [41:37<54:08,  2.02it/s] 39%|███▊      | 4133/10692 [41:37<54:03,  2.02it/s] 39%|███▊      | 4134/10692 [41:38<54:08,  2.02it/s] 39%|███▊      | 4135/10692 [41:38<54:06,  2.02it/s] 39%|███▊      | 4136/10692 [41:39<54:05,  2.02it/s] 39%|███▊      | 4137/10692 [41:39<54:03,  2.02it/s] 39%|███▊      | 4138/10692 [41:40<54:01,  2.02it/s] 39%|███▊      | 4139/10692 [41:40<54:04,  2.02it/s] 39%|███▊      | 4140/10692 [41:41<53:59,  2.02it/s] 39%|███▊      | 4141/10692 [41:41<53:59,  2.02it/s] 39%|███▊      | 4142/10692 [41:42<53:57,  2.02it/s] 39%|███▊      | 4143/10692 [41:42<53:58,  2.02it/s] 39%|███▉      | 4144/10692 [41:43<53:57,  2.02it/s] 39%|███▉      | 4145/10692 [41:43<53:58,  2.02it/s] 39%|███▉      | 4146/10692 [41:44<53:56,  2.02it/s] 39%|███▉      | 4147/10692 [41:44<53:59,  2.02it/s] 39%|███▉      | 4148/10692 [41:45<53:57,  2.02it/s] 39%|███▉      | 4149/10692 [41:45<53:56,  2.02it/s] 39%|███▉      | 4150/10692 [41:46<53:57,  2.02it/s]{'loss': 3.7911, 'grad_norm': 0.20203140377998352, 'learning_rate': 0.0007677810608519649, 'epoch': 0.39}
+                                                     39%|███▉      | 4150/10692 [41:46<53:57,  2.02it/s] 39%|███▉      | 4151/10692 [41:46<54:01,  2.02it/s] 39%|███▉      | 4152/10692 [41:47<53:58,  2.02it/s] 39%|███▉      | 4153/10692 [41:47<53:57,  2.02it/s] 39%|███▉      | 4154/10692 [41:48<53:53,  2.02it/s] 39%|███▉      | 4155/10692 [41:48<53:55,  2.02it/s] 39%|███▉      | 4156/10692 [41:49<53:55,  2.02it/s] 39%|███▉      | 4157/10692 [41:49<53:58,  2.02it/s] 39%|███▉      | 4158/10692 [41:50<53:52,  2.02it/s] 39%|███▉      | 4159/10692 [41:50<53:52,  2.02it/s] 39%|███▉      | 4160/10692 [41:51<53:49,  2.02it/s] 39%|███▉      | 4161/10692 [41:51<53:53,  2.02it/s] 39%|███▉      | 4162/10692 [41:52<53:47,  2.02it/s] 39%|███▉      | 4163/10692 [41:52<53:49,  2.02it/s] 39%|███▉      | 4164/10692 [41:53<53:46,  2.02it/s] 39%|███▉      | 4165/10692 [41:53<53:46,  2.02it/s] 39%|███▉      | 4166/10692 [41:54<53:43,  2.02it/s] 39%|███▉      | 4167/10692 [41:54<53:48,  2.02it/s] 39%|███▉      | 4168/10692 [41:55<53:46,  2.02it/s] 39%|███▉      | 4169/10692 [41:55<53:45,  2.02it/s] 39%|███▉      | 4170/10692 [41:56<53:43,  2.02it/s] 39%|███▉      | 4171/10692 [41:56<53:42,  2.02it/s] 39%|███▉      | 4172/10692 [41:57<53:43,  2.02it/s] 39%|███▉      | 4173/10692 [41:57<53:44,  2.02it/s] 39%|███▉      | 4174/10692 [41:58<53:43,  2.02it/s] 39%|███▉      | 4175/10692 [41:58<53:43,  2.02it/s]{'loss': 3.7976, 'grad_norm': 0.20818305015563965, 'learning_rate': 0.0007643255692607003, 'epoch': 0.39}
+                                                     39%|███▉      | 4175/10692 [41:58<53:43,  2.02it/s] 39%|███▉      | 4176/10692 [41:59<53:49,  2.02it/s] 39%|███▉      | 4177/10692 [41:59<53:50,  2.02it/s] 39%|███▉      | 4178/10692 [42:00<53:49,  2.02it/s] 39%|███▉      | 4179/10692 [42:00<53:48,  2.02it/s] 39%|███▉      | 4180/10692 [42:01<53:53,  2.01it/s] 39%|███▉      | 4181/10692 [42:01<53:51,  2.02it/s] 39%|███▉      | 4182/10692 [42:02<53:48,  2.02it/s] 39%|███▉      | 4183/10692 [42:02<53:43,  2.02it/s] 39%|███▉      | 4184/10692 [42:03<53:44,  2.02it/s] 39%|███▉      | 4185/10692 [42:03<53:38,  2.02it/s] 39%|███▉      | 4186/10692 [42:04<53:39,  2.02it/s] 39%|███▉      | 4187/10692 [42:04<53:40,  2.02it/s] 39%|███▉      | 4188/10692 [42:05<53:40,  2.02it/s] 39%|███▉      | 4189/10692 [42:05<53:36,  2.02it/s] 39%|███▉      | 4190/10692 [42:06<53:36,  2.02it/s] 39%|███▉      | 4191/10692 [42:06<53:35,  2.02it/s] 39%|███▉      | 4192/10692 [42:07<53:35,  2.02it/s] 39%|███▉      | 4193/10692 [42:07<53:33,  2.02it/s] 39%|███▉      | 4194/10692 [42:08<53:34,  2.02it/s] 39%|███▉      | 4195/10692 [42:08<53:35,  2.02it/s] 39%|███▉      | 4196/10692 [42:09<53:31,  2.02it/s] 39%|███▉      | 4197/10692 [42:09<53:35,  2.02it/s] 39%|███▉      | 4198/10692 [42:10<53:32,  2.02it/s] 39%|███▉      | 4199/10692 [42:10<53:32,  2.02it/s] 39%|███▉      | 4200/10692 [42:11<53:27,  2.02it/s]{'loss': 3.7827, 'grad_norm': 0.20195956528186798, 'learning_rate': 0.0007608524665962251, 'epoch': 0.39}
+                                                     39%|███▉      | 4200/10692 [42:11<53:27,  2.02it/s] 39%|███▉      | 4201/10692 [42:11<53:33,  2.02it/s] 39%|███▉      | 4202/10692 [42:12<53:28,  2.02it/s] 39%|███▉      | 4203/10692 [42:12<53:28,  2.02it/s] 39%|███▉      | 4204/10692 [42:13<53:25,  2.02it/s] 39%|███▉      | 4205/10692 [42:13<53:26,  2.02it/s] 39%|███▉      | 4206/10692 [42:14<53:25,  2.02it/s] 39%|███▉      | 4207/10692 [42:14<53:27,  2.02it/s] 39%|███▉      | 4208/10692 [42:15<53:27,  2.02it/s] 39%|███▉      | 4209/10692 [42:15<53:27,  2.02it/s] 39%|███▉      | 4210/10692 [42:16<53:27,  2.02it/s] 39%|███▉      | 4211/10692 [42:16<53:25,  2.02it/s] 39%|███▉      | 4212/10692 [42:17<53:23,  2.02it/s] 39%|███▉      | 4213/10692 [42:17<53:25,  2.02it/s] 39%|███▉      | 4214/10692 [42:17<53:21,  2.02it/s] 39%|███▉      | 4215/10692 [42:18<53:20,  2.02it/s] 39%|███▉      | 4216/10692 [42:18<53:19,  2.02it/s] 39%|███▉      | 4217/10692 [42:19<53:18,  2.02it/s] 39%|███▉      | 4218/10692 [42:19<53:21,  2.02it/s] 39%|███▉      | 4219/10692 [42:20<53:19,  2.02it/s] 39%|███▉      | 4220/10692 [42:20<53:22,  2.02it/s] 39%|███▉      | 4221/10692 [42:21<53:16,  2.02it/s] 39%|███▉      | 4222/10692 [42:21<53:19,  2.02it/s] 39%|███▉      | 4223/10692 [42:22<53:17,  2.02it/s] 40%|███▉      | 4224/10692 [42:22<53:19,  2.02it/s] 40%|███▉      | 4225/10692 [42:23<53:14,  2.02it/s]{'loss': 3.7804, 'grad_norm': 0.20579871535301208, 'learning_rate': 0.0007573619842590251, 'epoch': 0.4}
+                                                     40%|███▉      | 4225/10692 [42:23<53:14,  2.02it/s] 40%|███▉      | 4226/10692 [42:23<53:20,  2.02it/s] 40%|███▉      | 4227/10692 [42:24<53:15,  2.02it/s] 40%|███▉      | 4228/10692 [42:24<53:10,  2.03it/s] 40%|███▉      | 4229/10692 [42:25<53:15,  2.02it/s] 40%|███▉      | 4230/10692 [42:25<53:15,  2.02it/s] 40%|███▉      | 4231/10692 [42:26<53:13,  2.02it/s] 40%|███▉      | 4232/10692 [42:26<53:10,  2.02it/s] 40%|███▉      | 4233/10692 [42:27<53:12,  2.02it/s] 40%|███▉      | 4234/10692 [42:27<53:11,  2.02it/s] 40%|███▉      | 4235/10692 [42:28<53:10,  2.02it/s] 40%|███▉      | 4236/10692 [42:28<53:07,  2.03it/s] 40%|███▉      | 4237/10692 [42:29<53:08,  2.02it/s] 40%|███▉      | 4238/10692 [42:29<53:05,  2.03it/s] 40%|███▉      | 4239/10692 [42:30<53:10,  2.02it/s] 40%|███▉      | 4240/10692 [42:30<53:11,  2.02it/s] 40%|███▉      | 4241/10692 [42:31<53:16,  2.02it/s] 40%|███▉      | 4242/10692 [42:31<53:12,  2.02it/s] 40%|███▉      | 4243/10692 [42:32<53:13,  2.02it/s] 40%|███▉      | 4244/10692 [42:32<53:08,  2.02it/s] 40%|███▉      | 4245/10692 [42:33<53:05,  2.02it/s] 40%|███▉      | 4246/10692 [42:33<53:06,  2.02it/s] 40%|███▉      | 4247/10692 [42:34<53:04,  2.02it/s] 40%|███▉      | 4248/10692 [42:34<53:06,  2.02it/s] 40%|███▉      | 4249/10692 [42:35<53:08,  2.02it/s] 40%|███▉      | 4250/10692 [42:35<53:06,  2.02it/s]{'loss': 3.7839, 'grad_norm': 0.2076612263917923, 'learning_rate': 0.000753854354807533, 'epoch': 0.4}
+                                                     40%|███▉      | 4250/10692 [42:35<53:06,  2.02it/s] 40%|███▉      | 4251/10692 [42:36<53:05,  2.02it/s] 40%|███▉      | 4252/10692 [42:36<53:09,  2.02it/s] 40%|███▉      | 4253/10692 [42:37<53:06,  2.02it/s] 40%|███▉      | 4254/10692 [42:37<53:05,  2.02it/s] 40%|███▉      | 4255/10692 [42:38<53:01,  2.02it/s] 40%|███▉      | 4256/10692 [42:38<53:02,  2.02it/s] 40%|███▉      | 4257/10692 [42:39<53:00,  2.02it/s] 40%|███▉      | 4258/10692 [42:39<53:00,  2.02it/s] 40%|███▉      | 4259/10692 [42:40<53:03,  2.02it/s] 40%|███▉      | 4260/10692 [42:40<53:04,  2.02it/s] 40%|███▉      | 4261/10692 [42:41<53:00,  2.02it/s] 40%|███▉      | 4262/10692 [42:41<52:56,  2.02it/s] 40%|███▉      | 4263/10692 [42:42<52:57,  2.02it/s] 40%|███▉      | 4264/10692 [42:42<52:55,  2.02it/s] 40%|███▉      | 4265/10692 [42:43<52:56,  2.02it/s] 40%|███▉      | 4266/10692 [42:43<52:54,  2.02it/s] 40%|███▉      | 4267/10692 [42:44<52:58,  2.02it/s] 40%|███▉      | 4268/10692 [42:44<52:52,  2.02it/s] 40%|███▉      | 4269/10692 [42:45<52:55,  2.02it/s] 40%|███▉      | 4270/10692 [42:45<52:52,  2.02it/s] 40%|███▉      | 4271/10692 [42:46<52:50,  2.03it/s] 40%|███▉      | 4272/10692 [42:46<52:50,  2.02it/s] 40%|███▉      | 4273/10692 [42:47<52:48,  2.03it/s] 40%|███▉      | 4274/10692 [42:47<52:53,  2.02it/s] 40%|███▉      | 4275/10692 [42:48<52:53,  2.02it/s]{'loss': 3.7802, 'grad_norm': 0.20807573199272156, 'learning_rate': 0.000750329811942632, 'epoch': 0.4}
+                                                     40%|███▉      | 4275/10692 [42:48<52:53,  2.02it/s] 40%|███▉      | 4276/10692 [42:48<52:57,  2.02it/s] 40%|████      | 4277/10692 [42:49<52:52,  2.02it/s] 40%|████      | 4278/10692 [42:49<52:53,  2.02it/s] 40%|████      | 4279/10692 [42:50<52:46,  2.03it/s] 40%|████      | 4280/10692 [42:50<52:48,  2.02it/s] 40%|████      | 4281/10692 [42:51<52:43,  2.03it/s] 40%|████      | 4282/10692 [42:51<52:44,  2.03it/s] 40%|████      | 4283/10692 [42:52<52:44,  2.03it/s] 40%|████      | 4284/10692 [42:52<52:45,  2.02it/s] 40%|████      | 4285/10692 [42:53<52:45,  2.02it/s] 40%|████      | 4286/10692 [42:53<52:45,  2.02it/s] 40%|████      | 4287/10692 [42:54<52:47,  2.02it/s] 40%|████      | 4288/10692 [42:54<52:43,  2.02it/s] 40%|████      | 4289/10692 [42:55<52:46,  2.02it/s] 40%|████      | 4290/10692 [42:55<52:41,  2.02it/s] 40%|████      | 4291/10692 [42:56<52:41,  2.02it/s] 40%|████      | 4292/10692 [42:56<52:40,  2.02it/s] 40%|████      | 4293/10692 [42:57<52:39,  2.03it/s] 40%|████      | 4294/10692 [42:57<52:40,  2.02it/s] 40%|████      | 4295/10692 [42:58<52:37,  2.03it/s] 40%|████      | 4296/10692 [42:58<52:40,  2.02it/s] 40%|████      | 4297/10692 [42:59<52:40,  2.02it/s] 40%|████      | 4298/10692 [42:59<52:42,  2.02it/s] 40%|████      | 4299/10692 [43:00<52:38,  2.02it/s] 40%|████      | 4300/10692 [43:00<52:39,  2.02it/s]{'loss': 3.7839, 'grad_norm': 0.20292168855667114, 'learning_rate': 0.0007467885904920864, 'epoch': 0.4}
+                                                     40%|████      | 4300/10692 [43:00<52:39,  2.02it/s] 40%|████      | 4301/10692 [43:01<52:51,  2.02it/s] 40%|████      | 4302/10692 [43:01<52:50,  2.02it/s] 40%|████      | 4303/10692 [43:01<52:46,  2.02it/s] 40%|████      | 4304/10692 [43:02<52:42,  2.02it/s] 40%|████      | 4305/10692 [43:02<52:39,  2.02it/s] 40%|████      | 4306/10692 [43:03<52:39,  2.02it/s] 40%|████      | 4307/10692 [43:03<52:35,  2.02it/s] 40%|████      | 4308/10692 [43:04<52:36,  2.02it/s] 40%|████      | 4309/10692 [43:04<52:36,  2.02it/s] 40%|████      | 4310/10692 [43:05<52:36,  2.02it/s] 40%|████      | 4311/10692 [43:05<52:31,  2.02it/s] 40%|████      | 4312/10692 [43:06<52:34,  2.02it/s] 40%|████      | 4313/10692 [43:06<52:32,  2.02it/s] 40%|████      | 4314/10692 [43:07<52:29,  2.03it/s] 40%|████      | 4315/10692 [43:07<52:31,  2.02it/s] 40%|████      | 4316/10692 [43:08<52:31,  2.02it/s] 40%|████      | 4317/10692 [43:08<52:33,  2.02it/s] 40%|████      | 4318/10692 [43:09<52:30,  2.02it/s] 40%|████      | 4319/10692 [43:09<52:29,  2.02it/s] 40%|████      | 4320/10692 [43:10<52:28,  2.02it/s] 40%|████      | 4321/10692 [43:10<52:27,  2.02it/s] 40%|████      | 4322/10692 [43:11<52:24,  2.03it/s] 40%|████      | 4323/10692 [43:11<52:25,  2.02it/s] 40%|████      | 4324/10692 [43:12<52:24,  2.02it/s] 40%|████      | 4325/10692 [43:12<52:24,  2.02it/s]{'loss': 3.7779, 'grad_norm': 0.2156982421875, 'learning_rate': 0.000743230926394895, 'epoch': 0.4}
+                                                     40%|████      | 4325/10692 [43:12<52:24,  2.02it/s] 40%|████      | 4326/10692 [43:13<52:28,  2.02it/s] 40%|████      | 4327/10692 [43:13<52:29,  2.02it/s] 40%|████      | 4328/10692 [43:14<52:28,  2.02it/s] 40%|████      | 4329/10692 [43:14<52:26,  2.02it/s] 40%|████      | 4330/10692 [43:15<52:25,  2.02it/s] 41%|████      | 4331/10692 [43:15<52:23,  2.02it/s] 41%|████      | 4332/10692 [43:16<52:26,  2.02it/s] 41%|████      | 4333/10692 [43:16<52:23,  2.02it/s] 41%|████      | 4334/10692 [43:17<52:26,  2.02it/s] 41%|████      | 4335/10692 [43:17<52:19,  2.02it/s] 41%|████      | 4336/10692 [43:18<52:24,  2.02it/s] 41%|████      | 4337/10692 [43:18<52:19,  2.02it/s] 41%|████      | 4338/10692 [43:19<52:20,  2.02it/s] 41%|████      | 4339/10692 [43:19<52:19,  2.02it/s] 41%|████      | 4340/10692 [43:20<52:19,  2.02it/s] 41%|████      | 4341/10692 [43:20<52:18,  2.02it/s] 41%|████      | 4342/10692 [43:21<52:17,  2.02it/s] 41%|████      | 4343/10692 [43:21<52:16,  2.02it/s] 41%|████      | 4344/10692 [43:22<52:12,  2.03it/s] 41%|████      | 4345/10692 [43:22<52:14,  2.02it/s] 41%|████      | 4346/10692 [43:23<52:12,  2.03it/s] 41%|████      | 4347/10692 [43:23<52:16,  2.02it/s] 41%|████      | 4348/10692 [43:24<52:12,  2.03it/s] 41%|████      | 4349/10692 [43:24<52:14,  2.02it/s] 41%|████      | 4350/10692 [43:25<52:10,  2.03it/s]{'loss': 3.7733, 'grad_norm': 0.19935736060142517, 'learning_rate': 0.0007396570566855723, 'epoch': 0.41}
+                                                     41%|████      | 4350/10692 [43:25<52:10,  2.03it/s] 41%|████      | 4351/10692 [43:25<52:19,  2.02it/s] 41%|████      | 4352/10692 [43:26<52:15,  2.02it/s] 41%|████      | 4353/10692 [43:26<52:15,  2.02it/s] 41%|████      | 4354/10692 [43:27<52:10,  2.02it/s] 41%|████      | 4355/10692 [43:27<52:14,  2.02it/s] 41%|████      | 4356/10692 [43:28<52:13,  2.02it/s] 41%|████      | 4357/10692 [43:28<52:15,  2.02it/s] 41%|████      | 4358/10692 [43:29<52:10,  2.02it/s] 41%|████      | 4359/10692 [43:29<52:09,  2.02it/s] 41%|████      | 4360/10692 [43:30<52:07,  2.02it/s] 41%|████      | 4361/10692 [43:30<52:08,  2.02it/s] 41%|████      | 4362/10692 [43:31<52:16,  2.02it/s] 41%|████      | 4363/10692 [43:31<52:17,  2.02it/s] 41%|████      | 4364/10692 [43:32<52:10,  2.02it/s] 41%|████      | 4365/10692 [43:32<52:08,  2.02it/s] 41%|████      | 4366/10692 [43:33<52:09,  2.02it/s] 41%|████      | 4367/10692 [43:33<52:07,  2.02it/s] 41%|████      | 4368/10692 [43:34<52:07,  2.02it/s] 41%|████      | 4369/10692 [43:34<52:07,  2.02it/s] 41%|████      | 4370/10692 [43:35<52:05,  2.02it/s] 41%|████      | 4371/10692 [43:35<52:03,  2.02it/s] 41%|████      | 4372/10692 [43:36<52:05,  2.02it/s] 41%|████      | 4373/10692 [43:36<52:04,  2.02it/s] 41%|████      | 4374/10692 [43:37<52:03,  2.02it/s] 41%|████      | 4375/10692 [43:37<51:58,  2.03it/s]{'loss': 3.7741, 'grad_norm': 0.20376916229724884, 'learning_rate': 0.0007360672194783542, 'epoch': 0.41}
+                                                     41%|████      | 4375/10692 [43:37<51:58,  2.03it/s] 41%|████      | 4376/10692 [43:38<52:08,  2.02it/s] 41%|████      | 4377/10692 [43:38<52:04,  2.02it/s] 41%|████      | 4378/10692 [43:39<52:06,  2.02it/s] 41%|████      | 4379/10692 [43:39<52:03,  2.02it/s] 41%|████      | 4380/10692 [43:40<52:04,  2.02it/s] 41%|████      | 4381/10692 [43:40<52:02,  2.02it/s] 41%|████      | 4382/10692 [43:41<52:01,  2.02it/s] 41%|████      | 4383/10692 [43:41<51:59,  2.02it/s] 41%|████      | 4384/10692 [43:42<51:59,  2.02it/s] 41%|████      | 4385/10692 [43:42<51:55,  2.02it/s] 41%|████      | 4386/10692 [43:43<51:55,  2.02it/s] 41%|████      | 4387/10692 [43:43<51:55,  2.02it/s] 41%|████      | 4388/10692 [43:44<51:57,  2.02it/s] 41%|████      | 4389/10692 [43:44<51:57,  2.02it/s] 41%|████      | 4390/10692 [43:45<51:55,  2.02it/s] 41%|████      | 4391/10692 [43:45<51:56,  2.02it/s] 41%|████      | 4392/10692 [43:45<51:55,  2.02it/s] 41%|████      | 4393/10692 [43:46<51:55,  2.02it/s] 41%|████      | 4394/10692 [43:46<51:51,  2.02it/s] 41%|████      | 4395/10692 [43:47<51:50,  2.02it/s] 41%|████      | 4396/10692 [43:47<51:54,  2.02it/s] 41%|████      | 4397/10692 [43:48<51:50,  2.02it/s] 41%|████      | 4398/10692 [43:48<51:52,  2.02it/s] 41%|████      | 4399/10692 [43:49<51:49,  2.02it/s] 41%|████      | 4400/10692 [43:49<51:50,  2.02it/s]{'loss': 3.7768, 'grad_norm': 0.20704419910907745, 'learning_rate': 0.0007324616539513351, 'epoch': 0.41}
+                                                     41%|████      | 4400/10692 [43:49<51:50,  2.02it/s] 41%|████      | 4401/10692 [43:50<51:51,  2.02it/s] 41%|████      | 4402/10692 [43:50<51:54,  2.02it/s] 41%|████      | 4403/10692 [43:51<51:50,  2.02it/s] 41%|████      | 4404/10692 [43:51<51:54,  2.02it/s] 41%|████      | 4405/10692 [43:52<51:50,  2.02it/s] 41%|████      | 4406/10692 [43:52<51:49,  2.02it/s] 41%|████      | 4407/10692 [43:53<51:47,  2.02it/s] 41%|████      | 4408/10692 [43:53<51:46,  2.02it/s] 41%|████      | 4409/10692 [43:54<51:45,  2.02it/s] 41%|████      | 4410/10692 [43:54<51:43,  2.02it/s] 41%|████▏     | 4411/10692 [43:55<51:45,  2.02it/s] 41%|████▏     | 4412/10692 [43:55<51:42,  2.02it/s] 41%|████▏     | 4413/10692 [43:56<51:46,  2.02it/s] 41%|████▏     | 4414/10692 [43:56<51:40,  2.03it/s] 41%|████▏     | 4415/10692 [43:57<51:42,  2.02it/s] 41%|████▏     | 4416/10692 [43:57<51:39,  2.03it/s] 41%|████▏     | 4417/10692 [43:58<51:41,  2.02it/s] 41%|████▏     | 4418/10692 [43:58<51:40,  2.02it/s] 41%|████▏     | 4419/10692 [43:59<51:39,  2.02it/s] 41%|████▏     | 4420/10692 [43:59<51:40,  2.02it/s] 41%|████▏     | 4421/10692 [44:00<51:40,  2.02it/s] 41%|████▏     | 4422/10692 [44:00<51:42,  2.02it/s] 41%|████▏     | 4423/10692 [44:01<51:52,  2.01it/s] 41%|████▏     | 4424/10692 [44:01<51:44,  2.02it/s] 41%|████▏     | 4425/10692 [44:02<51:45,  2.02it/s]{'loss': 3.7741, 'grad_norm': 0.20682531595230103, 'learning_rate': 0.0007288406003305311, 'epoch': 0.41}
+                                                     41%|████▏     | 4425/10692 [44:02<51:45,  2.02it/s] 41%|████▏     | 4426/10692 [44:02<51:45,  2.02it/s] 41%|████▏     | 4427/10692 [44:03<51:45,  2.02it/s] 41%|████▏     | 4428/10692 [44:03<51:43,  2.02it/s] 41%|████▏     | 4429/10692 [44:04<51:43,  2.02it/s] 41%|████▏     | 4430/10692 [44:04<51:39,  2.02it/s] 41%|████▏     | 4431/10692 [44:05<51:39,  2.02it/s] 41%|████▏     | 4432/10692 [44:05<51:36,  2.02it/s] 41%|████▏     | 4433/10692 [44:06<51:35,  2.02it/s] 41%|████▏     | 4434/10692 [44:06<51:35,  2.02it/s] 41%|████▏     | 4435/10692 [44:07<51:34,  2.02it/s] 41%|████▏     | 4436/10692 [44:07<51:34,  2.02it/s] 41%|████▏     | 4437/10692 [44:08<51:34,  2.02it/s] 42%|████▏     | 4438/10692 [44:08<51:35,  2.02it/s] 42%|████▏     | 4439/10692 [44:09<51:34,  2.02it/s] 42%|████▏     | 4440/10692 [44:09<51:32,  2.02it/s] 42%|████▏     | 4441/10692 [44:10<51:32,  2.02it/s] 42%|████▏     | 4442/10692 [44:10<51:31,  2.02it/s] 42%|████▏     | 4443/10692 [44:11<51:31,  2.02it/s] 42%|████▏     | 4444/10692 [44:11<51:30,  2.02it/s] 42%|████▏     | 4445/10692 [44:12<51:29,  2.02it/s] 42%|████▏     | 4446/10692 [44:12<51:28,  2.02it/s] 42%|████▏     | 4447/10692 [44:13<51:27,  2.02it/s] 42%|████▏     | 4448/10692 [44:13<51:31,  2.02it/s] 42%|████▏     | 4449/10692 [44:14<51:28,  2.02it/s] 42%|████▏     | 4450/10692 [44:14<51:30,  2.02it/s]{'loss': 3.7627, 'grad_norm': 0.20358246564865112, 'learning_rate': 0.000725204299873875, 'epoch': 0.42}
+                                                     42%|████▏     | 4450/10692 [44:14<51:30,  2.02it/s] 42%|████▏     | 4451/10692 [44:15<51:30,  2.02it/s] 42%|████▏     | 4452/10692 [44:15<51:31,  2.02it/s] 42%|████▏     | 4453/10692 [44:16<51:30,  2.02it/s] 42%|████▏     | 4454/10692 [44:16<51:29,  2.02it/s] 42%|████▏     | 4455/10692 [44:17<51:27,  2.02it/s] 42%|████▏     | 4456/10692 [44:17<51:24,  2.02it/s] 42%|████▏     | 4457/10692 [44:18<51:28,  2.02it/s] 42%|████▏     | 4458/10692 [44:18<51:24,  2.02it/s] 42%|████▏     | 4459/10692 [44:19<51:27,  2.02it/s] 42%|████▏     | 4460/10692 [44:19<51:23,  2.02it/s] 42%|████▏     | 4461/10692 [44:20<51:26,  2.02it/s] 42%|████▏     | 4462/10692 [44:20<51:23,  2.02it/s] 42%|████▏     | 4463/10692 [44:21<51:27,  2.02it/s] 42%|████▏     | 4464/10692 [44:21<51:20,  2.02it/s] 42%|████▏     | 4465/10692 [44:22<51:20,  2.02it/s] 42%|████▏     | 4466/10692 [44:22<51:19,  2.02it/s] 42%|████▏     | 4467/10692 [44:23<51:18,  2.02it/s] 42%|████▏     | 4468/10692 [44:23<51:22,  2.02it/s] 42%|████▏     | 4469/10692 [44:24<51:22,  2.02it/s] 42%|████▏     | 4470/10692 [44:24<51:22,  2.02it/s] 42%|████▏     | 4471/10692 [44:25<51:18,  2.02it/s] 42%|████▏     | 4472/10692 [44:25<51:18,  2.02it/s] 42%|████▏     | 4473/10692 [44:26<51:14,  2.02it/s] 42%|████▏     | 4474/10692 [44:26<51:17,  2.02it/s] 42%|████▏     | 4475/10692 [44:27<51:14,  2.02it/s]{'loss': 3.7695, 'grad_norm': 0.20580096542835236, 'learning_rate': 0.0007215529948551419, 'epoch': 0.42}
+                                                     42%|████▏     | 4475/10692 [44:27<51:14,  2.02it/s] 42%|████▏     | 4476/10692 [44:27<51:18,  2.02it/s] 42%|████▏     | 4477/10692 [44:28<51:14,  2.02it/s] 42%|████▏     | 4478/10692 [44:28<51:16,  2.02it/s] 42%|████▏     | 4479/10692 [44:29<51:15,  2.02it/s] 42%|████▏     | 4480/10692 [44:29<51:16,  2.02it/s] 42%|████▏     | 4481/10692 [44:30<51:13,  2.02it/s] 42%|████▏     | 4482/10692 [44:30<51:14,  2.02it/s] 42%|████▏     | 4483/10692 [44:31<51:14,  2.02it/s] 42%|████▏     | 4484/10692 [44:31<51:17,  2.02it/s] 42%|████▏     | 4485/10692 [44:32<51:14,  2.02it/s] 42%|████▏     | 4486/10692 [44:32<51:11,  2.02it/s] 42%|████▏     | 4487/10692 [44:33<51:10,  2.02it/s] 42%|████▏     | 4488/10692 [44:33<51:10,  2.02it/s] 42%|████▏     | 4489/10692 [44:33<51:06,  2.02it/s] 42%|████▏     | 4490/10692 [44:34<51:08,  2.02it/s] 42%|████▏     | 4491/10692 [44:34<51:06,  2.02it/s] 42%|████▏     | 4492/10692 [44:35<51:07,  2.02it/s] 42%|████▏     | 4493/10692 [44:35<51:03,  2.02it/s] 42%|████▏     | 4494/10692 [44:36<51:07,  2.02it/s] 42%|████▏     | 4495/10692 [44:36<51:04,  2.02it/s] 42%|████▏     | 4496/10692 [44:37<51:02,  2.02it/s] 42%|████▏     | 4497/10692 [44:37<50:59,  2.02it/s] 42%|████▏     | 4498/10692 [44:38<51:01,  2.02it/s] 42%|████▏     | 4499/10692 [44:38<51:01,  2.02it/s] 42%|████▏     | 4500/10692 [44:39<51:01,  2.02it/s]{'loss': 3.7668, 'grad_norm': 0.21039801836013794, 'learning_rate': 0.0007178869285478079, 'epoch': 0.42}
+                                                     42%|████▏     | 4500/10692 [44:39<51:01,  2.02it/s] 42%|████▏     | 4501/10692 [44:39<51:03,  2.02it/s] 42%|████▏     | 4502/10692 [44:40<51:10,  2.02it/s] 42%|████▏     | 4503/10692 [44:40<51:05,  2.02it/s] 42%|████▏     | 4504/10692 [44:41<51:04,  2.02it/s] 42%|████▏     | 4505/10692 [44:41<51:03,  2.02it/s] 42%|████▏     | 4506/10692 [44:42<51:03,  2.02it/s] 42%|████▏     | 4507/10692 [44:42<50:59,  2.02it/s] 42%|████▏     | 4508/10692 [44:43<50:59,  2.02it/s] 42%|████▏     | 4509/10692 [44:43<50:58,  2.02it/s] 42%|████▏     | 4510/10692 [44:44<51:00,  2.02it/s] 42%|████▏     | 4511/10692 [44:44<50:54,  2.02it/s] 42%|████▏     | 4512/10692 [44:45<50:53,  2.02it/s] 42%|████▏     | 4513/10692 [44:45<50:51,  2.02it/s] 42%|████▏     | 4514/10692 [44:46<50:51,  2.02it/s] 42%|████▏     | 4515/10692 [44:46<50:50,  2.02it/s] 42%|████▏     | 4516/10692 [44:47<50:51,  2.02it/s] 42%|████▏     | 4517/10692 [44:47<50:56,  2.02it/s] 42%|████▏     | 4518/10692 [44:48<50:52,  2.02it/s] 42%|████▏     | 4519/10692 [44:48<50:52,  2.02it/s] 42%|████▏     | 4520/10692 [44:49<50:48,  2.02it/s] 42%|████▏     | 4521/10692 [44:49<50:50,  2.02it/s] 42%|████▏     | 4522/10692 [44:50<50:47,  2.02it/s] 42%|████▏     | 4523/10692 [44:50<50:45,  2.03it/s] 42%|████▏     | 4524/10692 [44:51<50:47,  2.02it/s] 42%|████▏     | 4525/10692 [44:51<50:47,  2.02it/s]{'loss': 3.77, 'grad_norm': 0.20780354738235474, 'learning_rate': 0.0007142063452088409, 'epoch': 0.42}
+                                                     42%|████▏     | 4525/10692 [44:51<50:47,  2.02it/s] 42%|████▏     | 4526/10692 [44:52<51:02,  2.01it/s] 42%|████▏     | 4527/10692 [44:52<50:55,  2.02it/s] 42%|████▏     | 4528/10692 [44:53<50:52,  2.02it/s] 42%|████▏     | 4529/10692 [44:53<50:48,  2.02it/s] 42%|████▏     | 4530/10692 [44:54<50:47,  2.02it/s] 42%|████▏     | 4531/10692 [44:54<50:45,  2.02it/s] 42%|████▏     | 4532/10692 [44:55<50:47,  2.02it/s] 42%|████▏     | 4533/10692 [44:55<50:46,  2.02it/s] 42%|████▏     | 4534/10692 [44:56<50:48,  2.02it/s] 42%|████▏     | 4535/10692 [44:56<50:41,  2.02it/s] 42%|████▏     | 4536/10692 [44:57<50:45,  2.02it/s] 42%|████▏     | 4537/10692 [44:57<50:41,  2.02it/s] 42%|████▏     | 4538/10692 [44:58<50:47,  2.02it/s] 42%|████▏     | 4539/10692 [44:58<50:43,  2.02it/s] 42%|████▏     | 4540/10692 [44:59<50:43,  2.02it/s] 42%|████▏     | 4541/10692 [44:59<50:44,  2.02it/s] 42%|████▏     | 4542/10692 [45:00<50:42,  2.02it/s] 42%|████▏     | 4543/10692 [45:00<50:39,  2.02it/s] 42%|████▏     | 4544/10692 [45:01<50:49,  2.02it/s] 43%|████▎     | 4545/10692 [45:01<50:43,  2.02it/s] 43%|████▎     | 4546/10692 [45:02<50:45,  2.02it/s] 43%|████▎     | 4547/10692 [45:02<50:42,  2.02it/s] 43%|████▎     | 4548/10692 [45:03<50:44,  2.02it/s] 43%|████▎     | 4549/10692 [45:03<50:40,  2.02it/s] 43%|████▎     | 4550/10692 [45:04<50:39,  2.02it/s]{'loss': 3.768, 'grad_norm': 0.19545620679855347, 'learning_rate': 0.0007105114900624271, 'epoch': 0.43}
+                                                     43%|████▎     | 4550/10692 [45:04<50:39,  2.02it/s] 43%|████▎     | 4551/10692 [45:04<50:41,  2.02it/s] 43%|████▎     | 4552/10692 [45:05<50:42,  2.02it/s] 43%|████▎     | 4553/10692 [45:05<50:38,  2.02it/s] 43%|████▎     | 4554/10692 [45:06<50:42,  2.02it/s] 43%|████▎     | 4555/10692 [45:06<50:36,  2.02it/s] 43%|████▎     | 4556/10692 [45:07<50:36,  2.02it/s] 43%|████▎     | 4557/10692 [45:07<50:35,  2.02it/s] 43%|████▎     | 4558/10692 [45:08<50:38,  2.02it/s] 43%|████▎     | 4559/10692 [45:08<50:36,  2.02it/s] 43%|████▎     | 4560/10692 [45:09<50:36,  2.02it/s] 43%|████▎     | 4561/10692 [45:09<50:35,  2.02it/s] 43%|████▎     | 4562/10692 [45:10<50:35,  2.02it/s] 43%|████▎     | 4563/10692 [45:10<50:31,  2.02it/s] 43%|████▎     | 4564/10692 [45:11<50:33,  2.02it/s] 43%|████▎     | 4565/10692 [45:11<50:30,  2.02it/s] 43%|████▎     | 4566/10692 [45:12<50:31,  2.02it/s] 43%|████▎     | 4567/10692 [45:12<50:28,  2.02it/s] 43%|████▎     | 4568/10692 [45:13<50:29,  2.02it/s] 43%|████▎     | 4569/10692 [45:13<50:25,  2.02it/s] 43%|████▎     | 4570/10692 [45:14<50:22,  2.03it/s] 43%|████▎     | 4571/10692 [45:14<50:22,  2.03it/s] 43%|████▎     | 4572/10692 [45:15<50:23,  2.02it/s] 43%|████▎     | 4573/10692 [45:15<50:22,  2.02it/s] 43%|████▎     | 4574/10692 [45:16<50:20,  2.03it/s] 43%|████▎     | 4575/10692 [45:16<50:24,  2.02it/s]{'loss': 3.766, 'grad_norm': 0.18996138870716095, 'learning_rate': 0.0007068026092836329, 'epoch': 0.43}
+                                                     43%|████▎     | 4575/10692 [45:16<50:24,  2.02it/s] 43%|████▎     | 4576/10692 [45:17<50:31,  2.02it/s] 43%|████▎     | 4577/10692 [45:17<50:28,  2.02it/s] 43%|████▎     | 4578/10692 [45:18<50:26,  2.02it/s] 43%|████▎     | 4579/10692 [45:18<50:27,  2.02it/s] 43%|████▎     | 4580/10692 [45:19<50:26,  2.02it/s] 43%|████▎     | 4581/10692 [45:19<50:27,  2.02it/s] 43%|████▎     | 4582/10692 [45:20<50:23,  2.02it/s] 43%|████▎     | 4583/10692 [45:20<50:24,  2.02it/s] 43%|████▎     | 4584/10692 [45:20<50:20,  2.02it/s] 43%|████▎     | 4585/10692 [45:21<50:20,  2.02it/s] 43%|████▎     | 4586/10692 [45:21<50:18,  2.02it/s] 43%|████▎     | 4587/10692 [45:22<50:16,  2.02it/s] 43%|████▎     | 4588/10692 [45:22<50:17,  2.02it/s] 43%|████▎     | 4589/10692 [45:23<50:15,  2.02it/s] 43%|████▎     | 4590/10692 [45:23<50:18,  2.02it/s] 43%|████▎     | 4591/10692 [45:24<50:19,  2.02it/s] 43%|████▎     | 4592/10692 [45:24<50:20,  2.02it/s] 43%|████▎     | 4593/10692 [45:25<50:17,  2.02it/s] 43%|████▎     | 4594/10692 [45:25<50:15,  2.02it/s] 43%|████▎     | 4595/10692 [45:26<50:14,  2.02it/s] 43%|████▎     | 4596/10692 [45:26<50:15,  2.02it/s] 43%|████▎     | 4597/10692 [45:27<50:14,  2.02it/s] 43%|████▎     | 4598/10692 [45:27<50:14,  2.02it/s] 43%|████▎     | 4599/10692 [45:28<50:13,  2.02it/s] 43%|████▎     | 4600/10692 [45:28<50:12,  2.02it/s]{'loss': 3.7535, 'grad_norm': 0.19629116356372833, 'learning_rate': 0.0007030799499820024, 'epoch': 0.43}
+                                                     43%|████▎     | 4600/10692 [45:28<50:12,  2.02it/s] 43%|████▎     | 4601/10692 [45:29<50:18,  2.02it/s] 43%|████▎     | 4602/10692 [45:29<50:15,  2.02it/s] 43%|████▎     | 4603/10692 [45:30<50:15,  2.02it/s] 43%|████▎     | 4604/10692 [45:30<50:16,  2.02it/s] 43%|████▎     | 4605/10692 [45:31<50:23,  2.01it/s] 43%|████▎     | 4606/10692 [45:31<50:16,  2.02it/s] 43%|████▎     | 4607/10692 [45:32<50:16,  2.02it/s] 43%|████▎     | 4608/10692 [45:32<50:12,  2.02it/s] 43%|████▎     | 4609/10692 [45:33<50:14,  2.02it/s] 43%|████▎     | 4610/10692 [45:33<50:14,  2.02it/s] 43%|████▎     | 4611/10692 [45:34<50:14,  2.02it/s] 43%|████▎     | 4612/10692 [45:34<50:13,  2.02it/s] 43%|████▎     | 4613/10692 [45:35<50:11,  2.02it/s] 43%|████▎     | 4614/10692 [45:35<50:08,  2.02it/s] 43%|████▎     | 4615/10692 [45:36<50:09,  2.02it/s] 43%|████▎     | 4616/10692 [45:36<50:06,  2.02it/s] 43%|████▎     | 4617/10692 [45:37<50:06,  2.02it/s] 43%|████▎     | 4618/10692 [45:37<50:02,  2.02it/s] 43%|████▎     | 4619/10692 [45:38<50:03,  2.02it/s] 43%|████▎     | 4620/10692 [45:38<50:00,  2.02it/s] 43%|████▎     | 4621/10692 [45:39<50:02,  2.02it/s] 43%|████▎     | 4622/10692 [45:39<49:59,  2.02it/s] 43%|████▎     | 4623/10692 [45:40<50:01,  2.02it/s] 43%|████▎     | 4624/10692 [45:40<49:59,  2.02it/s] 43%|████▎     | 4625/10692 [45:41<50:02,  2.02it/s]{'loss': 3.7608, 'grad_norm': 0.20232895016670227, 'learning_rate': 0.0006993437601850935, 'epoch': 0.43}
+                                                     43%|████▎     | 4625/10692 [45:41<50:02,  2.02it/s] 43%|████▎     | 4626/10692 [45:41<50:06,  2.02it/s] 43%|████▎     | 4627/10692 [45:42<50:04,  2.02it/s] 43%|████▎     | 4628/10692 [45:42<50:05,  2.02it/s] 43%|████▎     | 4629/10692 [45:43<50:03,  2.02it/s] 43%|████▎     | 4630/10692 [45:43<50:03,  2.02it/s] 43%|████▎     | 4631/10692 [45:44<50:00,  2.02it/s] 43%|████▎     | 4632/10692 [45:45<58:10,  1.74it/s] 43%|████▎     | 4633/10692 [45:45<55:40,  1.81it/s] 43%|████▎     | 4634/10692 [45:46<53:57,  1.87it/s] 43%|████▎     | 4635/10692 [45:46<52:42,  1.92it/s] 43%|████▎     | 4636/10692 [45:46<51:53,  1.95it/s] 43%|████▎     | 4637/10692 [45:47<51:13,  1.97it/s] 43%|████▎     | 4638/10692 [45:47<50:55,  1.98it/s] 43%|████▎     | 4639/10692 [45:48<50:34,  1.99it/s] 43%|████▎     | 4640/10692 [45:48<50:22,  2.00it/s] 43%|████▎     | 4641/10692 [45:49<50:11,  2.01it/s] 43%|████▎     | 4642/10692 [45:49<50:05,  2.01it/s] 43%|████▎     | 4643/10692 [45:50<50:03,  2.01it/s] 43%|████▎     | 4644/10692 [45:50<49:59,  2.02it/s] 43%|████▎     | 4645/10692 [45:51<49:54,  2.02it/s] 43%|████▎     | 4646/10692 [45:51<49:54,  2.02it/s] 43%|████▎     | 4647/10692 [45:52<49:50,  2.02it/s] 43%|████▎     | 4648/10692 [45:52<49:50,  2.02it/s] 43%|████▎     | 4649/10692 [45:53<49:45,  2.02it/s] 43%|████▎     | 4650/10692 [45:53<49:44,  2.02it/s]                                                    {'loss': 3.7563, 'grad_norm': 0.19807229936122894, 'learning_rate': 0.0006955942888219534, 'epoch': 0.43}
+ 43%|████▎     | 4650/10692 [45:53<49:44,  2.02it/s] 43%|████▎     | 4651/10692 [45:54<58:36,  1.72it/s] 44%|████▎     | 4652/10692 [45:55<55:55,  1.80it/s] 44%|████▎     | 4653/10692 [45:55<54:06,  1.86it/s] 44%|████▎     | 4654/10692 [45:56<52:45,  1.91it/s] 44%|████▎     | 4655/10692 [45:56<51:53,  1.94it/s] 44%|████▎     | 4656/10692 [45:57<51:13,  1.96it/s] 44%|████▎     | 4657/10692 [45:57<50:44,  1.98it/s] 44%|████▎     | 4658/10692 [45:58<50:27,  1.99it/s] 44%|████▎     | 4659/10692 [45:58<50:14,  2.00it/s] 44%|████▎     | 4660/10692 [45:59<50:06,  2.01it/s] 44%|████▎     | 4661/10692 [45:59<49:56,  2.01it/s] 44%|████▎     | 4662/10692 [46:00<49:56,  2.01it/s] 44%|████▎     | 4663/10692 [46:00<49:53,  2.01it/s] 44%|████▎     | 4664/10692 [46:01<49:55,  2.01it/s] 44%|████▎     | 4665/10692 [46:01<49:48,  2.02it/s] 44%|████▎     | 4666/10692 [46:02<49:46,  2.02it/s] 44%|████▎     | 4667/10692 [46:02<49:41,  2.02it/s] 44%|████▎     | 4668/10692 [46:03<49:40,  2.02it/s] 44%|████▎     | 4669/10692 [46:03<49:39,  2.02it/s] 44%|████▎     | 4670/10692 [46:04<49:36,  2.02it/s] 44%|████▎     | 4671/10692 [46:04<49:38,  2.02it/s] 44%|████▎     | 4672/10692 [46:05<49:38,  2.02it/s] 44%|████▎     | 4673/10692 [46:05<49:36,  2.02it/s] 44%|████▎     | 4674/10692 [46:06<49:35,  2.02it/s] 44%|████▎     | 4675/10692 [46:06<49:35,  2.02it/s]{'loss': 3.7624, 'grad_norm': 0.20492927730083466, 'learning_rate': 0.0006918317857065326, 'epoch': 0.44}
+                                                     44%|████▎     | 4675/10692 [46:06<49:35,  2.02it/s] 44%|████▎     | 4676/10692 [46:07<49:41,  2.02it/s] 44%|████▎     | 4677/10692 [46:07<49:38,  2.02it/s] 44%|████▍     | 4678/10692 [46:08<49:35,  2.02it/s] 44%|████▍     | 4679/10692 [46:08<49:33,  2.02it/s] 44%|████▍     | 4680/10692 [46:09<49:31,  2.02it/s] 44%|████▍     | 4681/10692 [46:09<49:35,  2.02it/s] 44%|████▍     | 4682/10692 [46:10<49:34,  2.02it/s] 44%|████▍     | 4683/10692 [46:10<49:35,  2.02it/s] 44%|████▍     | 4684/10692 [46:11<49:32,  2.02it/s] 44%|████▍     | 4685/10692 [46:11<49:32,  2.02it/s] 44%|████▍     | 4686/10692 [46:12<49:31,  2.02it/s] 44%|████▍     | 4687/10692 [46:12<49:31,  2.02it/s] 44%|████▍     | 4688/10692 [46:13<49:30,  2.02it/s] 44%|█��██▍     | 4689/10692 [46:13<49:31,  2.02it/s] 44%|████▍     | 4690/10692 [46:14<49:30,  2.02it/s] 44%|████▍     | 4691/10692 [46:14<49:29,  2.02it/s] 44%|████▍     | 4692/10692 [46:14<49:28,  2.02it/s] 44%|████▍     | 4693/10692 [46:15<49:28,  2.02it/s] 44%|████▍     | 4694/10692 [46:15<49:27,  2.02it/s] 44%|████▍     | 4695/10692 [46:16<49:26,  2.02it/s] 44%|████▍     | 4696/10692 [46:16<49:25,  2.02it/s] 44%|████▍     | 4697/10692 [46:17<49:26,  2.02it/s] 44%|████▍     | 4698/10692 [46:17<49:24,  2.02it/s] 44%|████▍     | 4699/10692 [46:18<49:26,  2.02it/s] 44%|████▍     | 4700/10692 [46:18<49:23,  2.02it/s]{'loss': 3.7559, 'grad_norm': 0.19737565517425537, 'learning_rate': 0.0006880565015210408, 'epoch': 0.44}
+                                                     44%|████▍     | 4700/10692 [46:18<49:23,  2.02it/s] 44%|████▍     | 4701/10692 [46:19<49:35,  2.01it/s] 44%|████▍     | 4702/10692 [46:19<49:31,  2.02it/s] 44%|████▍     | 4703/10692 [46:20<49:26,  2.02it/s] 44%|████▍     | 4704/10692 [46:20<49:22,  2.02it/s] 44%|████▍     | 4705/10692 [46:21<49:23,  2.02it/s] 44%|████▍     | 4706/10692 [46:21<49:21,  2.02it/s] 44%|████▍     | 4707/10692 [46:22<49:23,  2.02it/s] 44%|████▍     | 4708/10692 [46:22<49:18,  2.02it/s] 44%|████▍     | 4709/10692 [46:23<49:19,  2.02it/s] 44%|████▍     | 4710/10692 [46:23<49:15,  2.02it/s] 44%|████▍     | 4711/10692 [46:24<49:16,  2.02it/s] 44%|████▍     | 4712/10692 [46:24<49:15,  2.02it/s] 44%|████▍     | 4713/10692 [46:25<49:14,  2.02it/s] 44%|████▍     | 4714/10692 [46:25<49:13,  2.02it/s] 44%|████▍     | 4715/10692 [46:26<49:11,  2.03it/s] 44%|████▍     | 4716/10692 [46:26<49:13,  2.02it/s] 44%|████▍     | 4717/10692 [46:27<49:09,  2.03it/s] 44%|████▍     | 4718/10692 [46:27<49:11,  2.02it/s] 44%|████▍     | 4719/10692 [46:28<49:09,  2.02it/s] 44%|████▍     | 4720/10692 [46:28<49:11,  2.02it/s] 44%|████▍     | 4721/10692 [46:29<49:12,  2.02it/s] 44%|████▍     | 4722/10692 [46:29<49:09,  2.02it/s] 44%|████▍     | 4723/10692 [46:30<49:12,  2.02it/s] 44%|████▍     | 4724/10692 [46:30<49:12,  2.02it/s] 44%|████▍     | 4725/10692 [46:31<49:18,  2.02it/s]                                                    {'loss': 3.7544, 'grad_norm': 0.19256091117858887, 'learning_rate': 0.0006842686877992452, 'epoch': 0.44}
+ 44%|████▍     | 4725/10692 [46:31<49:18,  2.02it/s] 44%|████▍     | 4726/10692 [46:31<49:18,  2.02it/s] 44%|████▍     | 4727/10692 [46:32<49:16,  2.02it/s] 44%|████▍     | 4728/10692 [46:32<49:08,  2.02it/s] 44%|████▍     | 4729/10692 [46:33<49:06,  2.02it/s] 44%|████▍     | 4730/10692 [46:33<49:09,  2.02it/s] 44%|████▍     | 4731/10692 [46:34<49:05,  2.02it/s] 44%|████▍     | 4732/10692 [46:34<49:04,  2.02it/s] 44%|████▍     | 4733/10692 [46:35<49:04,  2.02it/s] 44%|████▍     | 4734/10692 [46:35<49:04,  2.02it/s] 44%|████▍     | 4735/10692 [46:36<49:04,  2.02it/s] 44%|████▍     | 4736/10692 [46:36<49:03,  2.02it/s] 44%|████▍     | 4737/10692 [46:37<49:05,  2.02it/s] 44%|████▍     | 4738/10692 [46:37<49:00,  2.03it/s] 44%|████▍     | 4739/10692 [46:38<49:02,  2.02it/s] 44%|████▍     | 4740/10692 [46:38<48:59,  2.02it/s] 44%|████▍     | 4741/10692 [46:39<49:03,  2.02it/s] 44%|████▍     | 4742/10692 [46:39<49:02,  2.02it/s] 44%|████▍     | 4743/10692 [46:40<49:02,  2.02it/s] 44%|████▍     | 4744/10692 [46:40<49:01,  2.02it/s] 44%|████▍     | 4745/10692 [46:41<49:02,  2.02it/s] 44%|████▍     | 4746/10692 [46:41<48:58,  2.02it/s] 44%|████▍     | 4747/10692 [46:42<48:55,  2.03it/s] 44%|████▍     | 4748/10692 [46:42<48:56,  2.02it/s] 44%|████▍     | 4749/10692 [46:43<48:56,  2.02it/s] 44%|████▍     | 4750/10692 [46:43<49:00,  2.02it/s]                                                    {'loss': 3.7545, 'grad_norm': 0.19598205387592316, 'learning_rate': 0.0006804685969097114, 'epoch': 0.44}
+ 44%|████▍     | 4750/10692 [46:43<49:00,  2.02it/s] 44%|████▍     | 4751/10692 [46:44<49:01,  2.02it/s] 44%|████▍     | 4752/10692 [46:44<49:01,  2.02it/s] 44%|████▍     | 4753/10692 [46:45<48:57,  2.02it/s] 44%|████▍     | 4754/10692 [46:45<48:58,  2.02it/s] 44%|████▍     | 4755/10692 [46:46<48:55,  2.02it/s] 44%|████▍     | 4756/10692 [46:46<48:57,  2.02it/s] 44%|████▍     | 4757/10692 [46:47<48:55,  2.02it/s] 45%|████▍     | 4758/10692 [46:47<48:55,  2.02it/s] 45%|████▍     | 4759/10692 [46:48<48:53,  2.02it/s] 45%|████▍     | 4760/10692 [46:48<48:54,  2.02it/s] 45%|████▍     | 4761/10692 [46:49<48:48,  2.03it/s] 45%|████▍     | 4762/10692 [46:49<48:49,  2.02it/s] 45%|████▍     | 4763/10692 [46:50<48:49,  2.02it/s] 45%|████▍     | 4764/10692 [46:50<48:52,  2.02it/s] 45%|████▍     | 4765/10692 [46:51<48:49,  2.02it/s] 45%|████▍     | 4766/10692 [46:51<48:51,  2.02it/s] 45%|████▍     | 4767/10692 [46:52<48:48,  2.02it/s] 45%|████▍     | 4768/10692 [46:52<48:46,  2.02it/s] 45%|████▍     | 4769/10692 [46:53<48:46,  2.02it/s] 45%|████▍     | 4770/10692 [46:53<48:47,  2.02it/s] 45%|████▍     | 4771/10692 [46:54<48:46,  2.02it/s] 45%|████▍     | 4772/10692 [46:54<48:43,  2.02it/s] 45%|████▍     | 4773/10692 [46:55<48:47,  2.02it/s] 45%|████▍     | 4774/10692 [46:55<48:42,  2.03it/s] 45%|████▍     | 4775/10692 [46:56<48:45,  2.02it/s]{'loss': 3.7552, 'grad_norm': 0.21348309516906738, 'learning_rate': 0.000676656482038989, 'epoch': 0.45}
+                                                     45%|████▍     | 4775/10692 [46:56<48:45,  2.02it/s] 45%|████▍     | 4776/10692 [46:56<48:49,  2.02it/s] 45%|████▍     | 4777/10692 [46:57<48:48,  2.02it/s] 45%|████▍     | 4778/10692 [46:57<48:42,  2.02it/s] 45%|████▍     | 4779/10692 [46:58<48:44,  2.02it/s] 45%|████▍     | 4780/10692 [46:58<48:42,  2.02it/s] 45%|████▍     | 4781/10692 [46:59<48:44,  2.02it/s] 45%|████▍     | 4782/10692 [46:59<48:41,  2.02it/s] 45%|████▍     | 4783/10692 [46:59<48:46,  2.02it/s] 45%|████▍     | 4784/10692 [47:00<48:42,  2.02it/s] 45%|████▍     | 4785/10692 [47:00<48:49,  2.02it/s] 45%|████▍     | 4786/10692 [47:01<48:55,  2.01it/s] 45%|████▍     | 4787/10692 [47:01<48:45,  2.02it/s] 45%|████▍     | 4788/10692 [47:02<48:42,  2.02it/s] 45%|████▍     | 4789/10692 [47:02<48:40,  2.02it/s] 45%|████▍     | 4790/10692 [47:03<48:40,  2.02it/s] 45%|████▍     | 4791/10692 [47:03<48:42,  2.02it/s] 45%|████▍     | 4792/10692 [47:04<48:43,  2.02it/s] 45%|████▍     | 4793/10692 [47:04<48:41,  2.02it/s] 45%|████▍     | 4794/10692 [47:05<48:37,  2.02it/s] 45%|████▍     | 4795/10692 [47:05<48:35,  2.02it/s] 45%|████▍     | 4796/10692 [47:06<48:35,  2.02it/s] 45%|████▍     | 4797/10692 [47:06<48:39,  2.02it/s] 45%|████▍     | 4798/10692 [47:07<48:34,  2.02it/s] 45%|████▍     | 4799/10692 [47:07<48:36,  2.02it/s] 45%|████▍     | 4800/10692 [47:08<48:36,  2.02it/s]                                                    {'loss': 3.7522, 'grad_norm': 0.2064017802476883, 'learning_rate': 0.0006728325971747429, 'epoch': 0.45}
+ 45%|████▍     | 4800/10692 [47:08<48:36,  2.02it/s] 45%|████▍     | 4801/10692 [47:08<48:40,  2.02it/s] 45%|████▍     | 4802/10692 [47:09<48:39,  2.02it/s] 45%|████▍     | 4803/10692 [47:09<48:38,  2.02it/s] 45%|████▍     | 4804/10692 [47:10<48:33,  2.02it/s] 45%|████▍     | 4805/10692 [47:10<48:35,  2.02it/s] 45%|████▍     | 4806/10692 [47:11<48:31,  2.02it/s] 45%|████▍     | 4807/10692 [47:11<48:30,  2.02it/s] 45%|████▍     | 4808/10692 [47:12<48:28,  2.02it/s] 45%|████▍     | 4809/10692 [47:12<48:24,  2.03it/s] 45%|████▍     | 4810/10692 [47:13<48:27,  2.02it/s] 45%|████▍     | 4811/10692 [47:13<48:21,  2.03it/s] 45%|████▌     | 4812/10692 [47:14<48:23,  2.03it/s] 45%|████▌     | 4813/10692 [47:14<48:22,  2.03it/s] 45%|████▌     | 4814/10692 [47:15<48:24,  2.02it/s] 45%|████▌     | 4815/10692 [47:15<48:25,  2.02it/s] 45%|████▌     | 4816/10692 [47:16<48:24,  2.02it/s] 45%|████▌     | 4817/10692 [47:16<48:25,  2.02it/s] 45%|████▌     | 4818/10692 [47:17<48:21,  2.02it/s] 45%|████▌     | 4819/10692 [47:17<48:23,  2.02it/s] 45%|████▌     | 4820/10692 [47:18<48:21,  2.02it/s] 45%|████▌     | 4821/10692 [47:18<48:22,  2.02it/s] 45%|████▌     | 4822/10692 [47:19<48:20,  2.02it/s] 45%|████▌     | 4823/10692 [47:19<48:23,  2.02it/s] 45%|████▌     | 4824/10692 [47:20<48:18,  2.02it/s] 45%|████▌     | 4825/10692 [47:20<48:19,  2.02it/s]{'loss': 3.7419, 'grad_norm': 0.20353510975837708, 'learning_rate': 0.0006689971970888307, 'epoch': 0.45}
+                                                     45%|████▌     | 4825/10692 [47:20<48:19,  2.02it/s] 45%|████▌     | 4826/10692 [47:21<48:22,  2.02it/s] 45%|████▌     | 4827/10692 [47:21<48:20,  2.02it/s] 45%|████▌     | 4828/10692 [47:22<48:18,  2.02it/s] 45%|████▌     | 4829/10692 [47:22<48:15,  2.02it/s] 45%|████▌     | 4830/10692 [47:23<48:18,  2.02it/s] 45%|████▌     | 4831/10692 [47:23<48:19,  2.02it/s] 45%|████▌     | 4832/10692 [47:24<48:20,  2.02it/s] 45%|████▌     | 4833/10692 [47:24<48:19,  2.02it/s] 45%|████▌     | 4834/10692 [47:25<48:23,  2.02it/s] 45%|████▌     | 4835/10692 [47:25<48:19,  2.02it/s] 45%|████▌     | 4836/10692 [47:26<48:18,  2.02it/s] 45%|████▌     | 4837/10692 [47:26<48:16,  2.02it/s] 45%|████▌     | 4838/10692 [47:27<48:16,  2.02it/s] 45%|████▌     | 4839/10692 [47:27<48:13,  2.02it/s] 45%|████▌     | 4840/10692 [47:28<48:16,  2.02it/s] 45%|████▌     | 4841/10692 [47:28<48:13,  2.02it/s] 45%|████▌     | 4842/10692 [47:29<48:16,  2.02it/s] 45%|████▌     | 4843/10692 [47:29<48:10,  2.02it/s] 45%|████▌     | 4844/10692 [47:30<48:14,  2.02it/s] 45%|████▌     | 4845/10692 [47:30<48:12,  2.02it/s] 45%|████▌     | 4846/10692 [47:31<48:20,  2.02it/s] 45%|████▌     | 4847/10692 [47:31<48:18,  2.02it/s] 45%|████▌     | 4848/10692 [47:32<48:15,  2.02it/s] 45%|████▌     | 4849/10692 [47:32<48:12,  2.02it/s] 45%|████▌     | 4850/10692 [47:33<48:15,  2.02it/s]{'loss': 3.7293, 'grad_norm': 0.20647521317005157, 'learning_rate': 0.0006651505373203282, 'epoch': 0.45}
+                                                     45%|████▌     | 4850/10692 [47:33<48:15,  2.02it/s] 45%|████▌     | 4851/10692 [47:33<48:18,  2.02it/s] 45%|████▌     | 4852/10692 [47:34<48:17,  2.02it/s] 45%|████▌     | 4853/10692 [47:34<48:17,  2.02it/s] 45%|████▌     | 4854/10692 [47:35<48:14,  2.02it/s] 45%|████▌     | 4855/10692 [47:35<48:13,  2.02it/s] 45%|████▌     | 4856/10692 [47:36<48:11,  2.02it/s] 45%|████▌     | 4857/10692 [47:36<48:09,  2.02it/s] 45%|████▌     | 4858/10692 [47:37<48:09,  2.02it/s] 45%|████▌     | 4859/10692 [47:37<48:04,  2.02it/s] 45%|████▌     | 4860/10692 [47:38<48:03,  2.02it/s] 45%|████▌     | 4861/10692 [47:38<48:03,  2.02it/s] 45%|████▌     | 4862/10692 [47:39<48:05,  2.02it/s] 45%|████▌     | 4863/10692 [47:39<48:07,  2.02it/s] 45%|████▌     | 4864/10692 [47:40<48:06,  2.02it/s] 46%|████▌     | 4865/10692 [47:40<48:06,  2.02it/s] 46%|████▌     | 4866/10692 [47:41<48:04,  2.02it/s] 46%|████▌     | 4867/10692 [47:41<48:06,  2.02it/s] 46%|████▌     | 4868/10692 [47:42<48:03,  2.02it/s] 46%|████▌     | 4869/10692 [47:42<48:03,  2.02it/s] 46%|████▌     | 4870/10692 [47:43<47:59,  2.02it/s] 46%|████▌     | 4871/10692 [47:43<48:02,  2.02it/s] 46%|████▌     | 4872/10692 [47:44<47:59,  2.02it/s] 46%|████▌     | 4873/10692 [47:44<47:56,  2.02it/s] 46%|████▌     | 4874/10692 [47:45<47:58,  2.02it/s] 46%|████▌     | 4875/10692 [47:45<47:56,  2.02it/s]{'loss': 3.7413, 'grad_norm': 0.2206491231918335, 'learning_rate': 0.0006612928741585038, 'epoch': 0.46}
+                                                     46%|████▌     | 4875/10692 [47:45<47:56,  2.02it/s] 46%|████▌     | 4876/10692 [47:46<48:10,  2.01it/s] 46%|████▌     | 4877/10692 [47:46<48:09,  2.01it/s] 46%|████▌     | 4878/10692 [47:47<48:04,  2.02it/s] 46%|████▌     | 4879/10692 [47:47<48:01,  2.02it/s] 46%|████▌     | 4880/10692 [47:48<47:57,  2.02it/s] 46%|████▌     | 4881/10692 [47:48<47:57,  2.02it/s] 46%|████▌     | 4882/10692 [47:48<47:54,  2.02it/s] 46%|████▌     | 4883/10692 [47:49<47:56,  2.02it/s] 46%|████▌     | 4884/10692 [47:49<47:53,  2.02it/s] 46%|████▌     | 4885/10692 [47:50<47:53,  2.02it/s] 46%|████▌     | 4886/10692 [47:50<47:50,  2.02it/s] 46%|████▌     | 4887/10692 [47:51<47:51,  2.02it/s] 46%|████▌     | 4888/10692 [47:51<47:48,  2.02it/s] 46%|████▌     | 4889/10692 [47:52<47:49,  2.02it/s] 46%|████▌     | 4890/10692 [47:52<47:47,  2.02it/s] 46%|████▌     | 4891/10692 [47:53<47:48,  2.02it/s] 46%|████▌     | 4892/10692 [47:53<47:47,  2.02it/s] 46%|████▌     | 4893/10692 [47:54<47:49,  2.02it/s] 46%|████▌     | 4894/10692 [47:54<47:48,  2.02it/s] 46%|████▌     | 4895/10692 [47:55<47:48,  2.02it/s] 46%|████▌     | 4896/10692 [47:55<47:46,  2.02it/s] 46%|████▌     | 4897/10692 [47:56<47:49,  2.02it/s] 46%|████▌     | 4898/10692 [47:56<47:45,  2.02it/s] 46%|████▌     | 4899/10692 [47:57<47:43,  2.02it/s] 46%|████▌     | 4900/10692 [47:57<47:43,  2.02it/s]{'loss': 3.745, 'grad_norm': 0.21715907752513885, 'learning_rate': 0.0006574244646257434, 'epoch': 0.46}
+                                                     46%|████▌     | 4900/10692 [47:57<47:43,  2.02it/s] 46%|████▌     | 4901/10692 [47:58<47:44,  2.02it/s] 46%|████▌     | 4902/10692 [47:58<47:42,  2.02it/s] 46%|████▌     | 4903/10692 [47:59<47:43,  2.02it/s] 46%|████▌     | 4904/10692 [47:59<47:45,  2.02it/s] 46%|████▌     | 4905/10692 [48:00<47:44,  2.02it/s] 46%|████▌     | 4906/10692 [48:00<47:47,  2.02it/s] 46%|████▌     | 4907/10692 [48:01<47:51,  2.01it/s] 46%|████▌     | 4908/10692 [48:01<47:47,  2.02it/s] 46%|████▌     | 4909/10692 [48:02<47:43,  2.02it/s] 46%|████▌     | 4910/10692 [48:02<47:40,  2.02it/s] 46%|████▌     | 4911/10692 [48:03<47:39,  2.02it/s] 46%|████▌     | 4912/10692 [48:03<47:39,  2.02it/s] 46%|████▌     | 4913/10692 [48:04<47:46,  2.02it/s] 46%|████▌     | 4914/10692 [48:04<47:43,  2.02it/s] 46%|████▌     | 4915/10692 [48:05<47:42,  2.02it/s] 46%|████▌     | 4916/10692 [48:05<47:39,  2.02it/s] 46%|████▌     | 4917/10692 [48:06<47:37,  2.02it/s] 46%|████▌     | 4918/10692 [48:06<47:37,  2.02it/s] 46%|████▌     | 4919/10692 [48:07<47:37,  2.02it/s] 46%|████▌     | 4920/10692 [48:07<47:34,  2.02it/s] 46%|████▌     | 4921/10692 [48:08<47:36,  2.02it/s] 46%|████▌     | 4922/10692 [48:08<47:33,  2.02it/s] 46%|████▌     | 4923/10692 [48:09<47:33,  2.02it/s] 46%|████▌     | 4924/10692 [48:09<47:33,  2.02it/s] 46%|████▌     | 4925/10692 [48:10<47:33,  2.02it/s]{'loss': 3.7448, 'grad_norm': 0.19831900298595428, 'learning_rate': 0.0006535455664604245, 'epoch': 0.46}
+                                                     46%|████▌     | 4925/10692 [48:10<47:33,  2.02it/s] 46%|████▌     | 4926/10692 [48:10<47:36,  2.02it/s] 46%|████▌     | 4927/10692 [48:11<47:33,  2.02it/s] 46%|████▌     | 4928/10692 [48:11<47:32,  2.02it/s] 46%|████▌     | 4929/10692 [48:12<47:32,  2.02it/s] 46%|████▌     | 4930/10692 [48:12<47:31,  2.02it/s] 46%|████▌     | 4931/10692 [48:13<47:31,  2.02it/s] 46%|████▌     | 4932/10692 [48:13<47:31,  2.02it/s] 46%|████▌     | 4933/10692 [48:14<47:29,  2.02it/s] 46%|████▌     | 4934/10692 [48:14<47:30,  2.02it/s] 46%|████▌     | 4935/10692 [48:15<47:29,  2.02it/s] 46%|████▌     | 4936/10692 [48:15<47:30,  2.02it/s] 46%|████▌     | 4937/10692 [48:16<47:27,  2.02it/s] 46%|████▌     | 4938/10692 [48:16<47:28,  2.02it/s] 46%|████▌     | 4939/10692 [48:17<47:28,  2.02it/s] 46%|████▌     | 4940/10692 [48:17<47:28,  2.02it/s] 46%|████▌     | 4941/10692 [48:18<47:25,  2.02it/s] 46%|████▌     | 4942/10692 [48:18<47:28,  2.02it/s] 46%|████▌     | 4943/10692 [48:19<47:25,  2.02it/s] 46%|████▌     | 4944/10692 [48:19<47:26,  2.02it/s] 46%|████▌     | 4945/10692 [48:20<47:25,  2.02it/s] 46%|████▋     | 4946/10692 [48:20<47:24,  2.02it/s] 46%|████▋     | 4947/10692 [48:21<47:21,  2.02it/s] 46%|████▋     | 4948/10692 [48:21<47:23,  2.02it/s] 46%|████▋     | 4949/10692 [48:22<47:20,  2.02it/s] 46%|████▋     | 4950/10692 [48:22<47:17,  2.02it/s]{'loss': 3.7414, 'grad_norm': 0.21508044004440308, 'learning_rate': 0.0006496564380997458, 'epoch': 0.46}                                                    
+ 46%|████▋     | 4950/10692 [48:22<47:17,  2.02it/s] 46%|████▋     | 4951/10692 [48:23<47:21,  2.02it/s] 46%|████▋     | 4952/10692 [48:23<47:21,  2.02it/s] 46%|████▋     | 4953/10692 [48:24<47:22,  2.02it/s] 46%|████▋     | 4954/10692 [48:24<47:21,  2.02it/s] 46%|████▋     | 4955/10692 [48:25<47:22,  2.02it/s] 46%|████▋     | 4956/10692 [48:25<47:21,  2.02it/s] 46%|████▋     | 4957/10692 [48:26<47:20,  2.02it/s] 46%|████▋     | 4958/10692 [48:26<47:17,  2.02it/s] 46%|████▋     | 4959/10692 [48:27<47:17,  2.02it/s] 46%|████▋     | 4960/10692 [48:27<47:16,  2.02it/s] 46%|████▋     | 4961/10692 [48:28<47:17,  2.02it/s] 46%|████▋     | 4962/10692 [48:28<47:14,  2.02it/s] 46%|████▋     | 4963/10692 [48:29<47:16,  2.02it/s] 46%|████▋     | 4964/10692 [48:29<47:14,  2.02it/s] 46%|████▋     | 4965/10692 [48:30<47:14,  2.02it/s] 46%|████▋     | 4966/10692 [48:30<47:11,  2.02it/s] 46%|████▋     | 4967/10692 [48:31<47:19,  2.02it/s] 46%|████▋     | 4968/10692 [48:31<47:21,  2.01it/s] 46%|████▋     | 4969/10692 [48:32<47:15,  2.02it/s] 46%|████▋     | 4970/10692 [48:32<47:12,  2.02it/s] 46%|████▋     | 4971/10692 [48:33<47:11,  2.02it/s] 47%|████▋     | 4972/10692 [48:33<47:09,  2.02it/s] 47%|████▋     | 4973/10692 [48:34<47:11,  2.02it/s] 47%|████▋     | 4974/10692 [48:34<47:05,  2.02it/s] 47%|██���█▋     | 4975/10692 [48:35<47:09,  2.02it/s]{'loss': 3.7379, 'grad_norm': 0.19713807106018066, 'learning_rate': 0.0006457573386625074, 'epoch': 0.47}
+                                                     47%|████▋     | 4975/10692 [48:35<47:09,  2.02it/s] 47%|████▋     | 4976/10692 [48:35<47:09,  2.02it/s] 47%|████▋     | 4977/10692 [48:36<47:10,  2.02it/s] 47%|████▋     | 4978/10692 [48:36<47:09,  2.02it/s] 47%|████▋     | 4979/10692 [48:37<47:09,  2.02it/s] 47%|████▋     | 4980/10692 [48:37<47:04,  2.02it/s] 47%|████▋     | 4981/10692 [48:37<47:04,  2.02it/s] 47%|████▋     | 4982/10692 [48:38<47:03,  2.02it/s] 47%|████▋     | 4983/10692 [48:38<47:05,  2.02it/s] 47%|████▋     | 4984/10692 [48:39<47:02,  2.02it/s] 47%|████▋     | 4985/10692 [48:39<47:04,  2.02it/s] 47%|████▋     | 4986/10692 [48:40<47:01,  2.02it/s] 47%|████▋     | 4987/10692 [48:40<47:03,  2.02it/s] 47%|████▋     | 4988/10692 [48:41<47:01,  2.02it/s] 47%|████▋     | 4989/10692 [48:41<46:58,  2.02it/s] 47%|████▋     | 4990/10692 [48:42<46:59,  2.02it/s] 47%|████▋     | 4991/10692 [48:42<46:55,  2.02it/s] 47%|████▋     | 4992/10692 [48:43<46:59,  2.02it/s] 47%|████▋     | 4993/10692 [48:43<46:59,  2.02it/s] 47%|████▋     | 4994/10692 [48:44<47:02,  2.02it/s] 47%|████▋     | 4995/10692 [48:44<47:00,  2.02it/s] 47%|████▋     | 4996/10692 [48:45<47:02,  2.02it/s] 47%|████▋     | 4997/10692 [48:45<46:59,  2.02it/s] 47%|████▋     | 4998/10692 [48:46<47:00,  2.02it/s] 47%|████▋     | 4999/10692 [48:46<46:56,  2.02it/s] 47%|████▋     | 5000/10692 [48:47<46:57,  2.02it/s]{'loss': 3.742, 'grad_norm': 0.19819574058055878, 'learning_rate': 0.0006418485279318462, 'epoch': 0.47}
+                                                     47%|████▋     | 5000/10692 [48:47<46:57,  2.02it/s] 47%|████▋     | 5001/10692 [48:47<47:00,  2.02it/s] 47%|████▋     | 5002/10692 [48:48<46:58,  2.02it/s] 47%|████▋     | 5003/10692 [48:48<46:59,  2.02it/s] 47%|████▋     | 5004/10692 [48:49<46:55,  2.02it/s] 47%|████▋     | 5005/10692 [48:49<46:57,  2.02it/s] 47%|████▋     | 5006/10692 [48:50<46:51,  2.02it/s] 47%|████▋     | 5007/10692 [48:50<46:52,  2.02it/s] 47%|████▋     | 5008/10692 [48:51<46:49,  2.02it/s] 47%|████▋     | 5009/10692 [48:51<46:49,  2.02it/s] 47%|████▋     | 5010/10692 [48:52<46:47,  2.02it/s] 47%|████▋     | 5011/10692 [48:52<46:42,  2.03it/s] 47%|████▋     | 5012/10692 [48:53<46:45,  2.02it/s] 47%|████▋     | 5013/10692 [48:53<46:43,  2.03it/s] 47%|████▋     | 5014/10692 [48:54<46:43,  2.03it/s] 47%|████▋     | 5015/10692 [48:54<46:41,  2.03it/s] 47%|████▋     | 5016/10692 [48:55<46:43,  2.02it/s] 47%|████▋     | 5017/10692 [48:55<46:43,  2.02it/s] 47%|████▋     | 5018/10692 [48:56<46:41,  2.03it/s] 47%|████▋     | 5019/10692 [48:56<46:43,  2.02it/s] 47%|████▋     | 5020/10692 [48:57<46:38,  2.03it/s] 47%|████▋     | 5021/10692 [48:57<46:40,  2.02it/s] 47%|████▋     | 5022/10692 [48:58<46:38,  2.03it/s] 47%|████▋     | 5023/10692 [48:58<46:43,  2.02it/s] 47%|████▋     | 5024/10692 [48:59<46:41,  2.02it/s] 47%|████▋     | 5025/10692 [48:59<46:43,  2.02it/s]{'loss': 3.7323, 'grad_norm': 0.19307614862918854, 'learning_rate': 0.0006379302663379285, 'epoch': 0.47}
+                                                     47%|████▋     | 5025/10692 [48:59<46:43,  2.02it/s] 47%|████▋     | 5026/10692 [49:00<46:46,  2.02it/s] 47%|████▋     | 5027/10692 [49:00<46:46,  2.02it/s] 47%|████▋     | 5028/10692 [49:01<46:53,  2.01it/s] 47%|████▋     | 5029/10692 [49:01<46:49,  2.02it/s] 47%|████▋     | 5030/10692 [49:02<46:45,  2.02it/s] 47%|████▋     | 5031/10692 [49:02<46:44,  2.02it/s] 47%|████▋     | 5032/10692 [49:03<46:42,  2.02it/s] 47%|████▋     | 5033/10692 [49:03<46:40,  2.02it/s] 47%|████▋     | 5034/10692 [49:04<46:45,  2.02it/s] 47%|████▋     | 5035/10692 [49:04<46:38,  2.02it/s] 47%|████▋     | 5036/10692 [49:05<46:39,  2.02it/s] 47%|████▋     | 5037/10692 [49:05<46:36,  2.02it/s] 47%|████▋     | 5038/10692 [49:06<46:36,  2.02it/s] 47%|████▋     | 5039/10692 [49:06<46:36,  2.02it/s] 47%|████▋     | 5040/10692 [49:07<46:35,  2.02it/s] 47%|████▋     | 5041/10692 [49:07<46:34,  2.02it/s] 47%|████▋     | 5042/10692 [49:08<46:32,  2.02it/s] 47%|████▋     | 5043/10692 [49:08<46:33,  2.02it/s] 47%|████▋     | 5044/10692 [49:09<46:31,  2.02it/s] 47%|████▋     | 5045/10692 [49:09<46:32,  2.02it/s] 47%|████▋     | 5046/10692 [49:10<46:31,  2.02it/s] 47%|████▋     | 5047/10692 [49:10<46:32,  2.02it/s] 47%|████▋     | 5048/10692 [49:11<46:30,  2.02it/s] 47%|████▋     | 5049/10692 [49:11<46:32,  2.02it/s] 47%|████▋     | 5050/10692 [49:12<46:29,  2.02it/s]{'loss': 3.7464, 'grad_norm': 0.20451636612415314, 'learning_rate': 0.0006340028149405981, 'epoch': 0.47}
+                                                     47%|████▋     | 5050/10692 [49:12<46:29,  2.02it/s] 47%|████▋     | 5051/10692 [49:12<46:34,  2.02it/s] 47%|████▋     | 5052/10692 [49:13<46:31,  2.02it/s] 47%|████▋     | 5053/10692 [49:13<46:30,  2.02it/s] 47%|████▋     | 5054/10692 [49:14<46:30,  2.02it/s] 47%|████▋     | 5055/10692 [49:14<46:30,  2.02it/s] 47%|████▋     | 5056/10692 [49:15<46:27,  2.02it/s] 47%|████▋     | 5057/10692 [49:15<46:27,  2.02it/s] 47%|████▋     | 5058/10692 [49:16<46:25,  2.02it/s] 47%|████▋     | 5059/10692 [49:16<46:27,  2.02it/s] 47%|████▋     | 5060/10692 [49:17<46:28,  2.02it/s] 47%|████▋     | 5061/10692 [49:17<46:26,  2.02it/s] 47%|████▋     | 5062/10692 [49:18<46:25,  2.02it/s] 47%|████▋     | 5063/10692 [49:18<46:24,  2.02it/s] 47%|████▋     | 5064/10692 [49:19<46:24,  2.02it/s] 47%|████▋     | 5065/10692 [49:19<46:25,  2.02it/s] 47%|████▋     | 5066/10692 [49:20<46:22,  2.02it/s] 47%|████▋     | 5067/10692 [49:20<46:24,  2.02it/s] 47%|████▋     | 5068/10692 [49:21<46:23,  2.02it/s] 47%|████▋     | 5069/10692 [49:21<46:25,  2.02it/s] 47%|████▋     | 5070/10692 [49:22<46:21,  2.02it/s] 47%|████▋     | 5071/10692 [49:22<46:23,  2.02it/s] 47%|████▋     | 5072/10692 [49:23<46:20,  2.02it/s] 47%|████▋     | 5073/10692 [49:23<46:18,  2.02it/s] 47%|████▋     | 5074/10692 [49:24<46:18,  2.02it/s] 47%|████▋     | 5075/10692 [49:24<46:18,  2.02it/s]{'loss': 3.7227, 'grad_norm': 0.21201348304748535, 'learning_rate': 0.0006300664354119825, 'epoch': 0.47}
+                                                     47%|████▋     | 5075/10692 [49:24<46:18,  2.02it/s] 47%|████▋     | 5076/10692 [49:24<46:18,  2.02it/s] 47%|████▋     | 5077/10692 [49:25<46:21,  2.02it/s] 47%|████▋     | 5078/10692 [49:25<46:16,  2.02it/s] 48%|████▊     | 5079/10692 [49:26<46:18,  2.02it/s] 48%|████▊     | 5080/10692 [49:26<46:14,  2.02it/s] 48%|████▊     | 5081/10692 [49:27<46:12,  2.02it/s] 48%|████▊     | 5082/10692 [49:27<46:12,  2.02it/s] 48%|████▊     | 5083/10692 [49:28<46:09,  2.03it/s] 48%|████▊     | 5084/10692 [49:28<46:13,  2.02it/s] 48%|████▊     | 5085/10692 [49:29<46:09,  2.02it/s] 48%|████▊     | 5086/10692 [49:29<46:12,  2.02it/s] 48%|████▊     | 5087/10692 [49:30<46:10,  2.02it/s] 48%|████▊     | 5088/10692 [49:30<46:15,  2.02it/s] 48%|████▊     | 5089/10692 [49:31<46:20,  2.02it/s] 48%|████▊     | 5090/10692 [49:31<46:16,  2.02it/s] 48%|████▊     | 5091/10692 [49:32<46:14,  2.02it/s] 48%|████▊     | 5092/10692 [49:32<46:14,  2.02it/s] 48%|████▊     | 5093/10692 [49:33<46:11,  2.02it/s] 48%|████▊     | 5094/10692 [49:33<46:12,  2.02it/s] 48%|████▊     | 5095/10692 [49:34<46:09,  2.02it/s] 48%|████▊     | 5096/10692 [49:34<46:09,  2.02it/s] 48%|████▊     | 5097/10692 [49:35<46:06,  2.02it/s] 48%|████▊     | 5098/10692 [49:35<46:07,  2.02it/s] 48%|████▊     | 5099/10692 [49:36<46:08,  2.02it/s] 48%|████▊     | 5100/10692 [49:36<46:07,  2.02it/s]{'loss': 3.7243, 'grad_norm': 0.19870223104953766, 'learning_rate': 0.0006261213900190589, 'epoch': 0.48}
+                                                     48%|████▊     | 5100/10692 [49:36<46:07,  2.02it/s] 48%|████▊     | 5101/10692 [49:37<46:09,  2.02it/s] 48%|████▊     | 5102/10692 [49:37<46:07,  2.02it/s] 48%|████▊     | 5103/10692 [49:38<46:05,  2.02it/s] 48%|████▊     | 5104/10692 [49:38<46:05,  2.02it/s] 48%|████▊     | 5105/10692 [49:39<46:04,  2.02it/s] 48%|████▊     | 5106/10692 [49:39<46:02,  2.02it/s] 48%|████▊     | 5107/10692 [49:40<45:59,  2.02it/s] 48%|████▊     | 5108/10692 [49:40<46:02,  2.02it/s] 48%|████▊     | 5109/10692 [49:41<46:03,  2.02it/s] 48%|████▊     | 5110/10692 [49:41<46:03,  2.02it/s] 48%|████▊     | 5111/10692 [49:42<46:00,  2.02it/s] 48%|████▊     | 5112/10692 [49:42<46:02,  2.02it/s] 48%|████▊     | 5113/10692 [49:43<45:58,  2.02it/s] 48%|████▊     | 5114/10692 [49:43<46:01,  2.02it/s] 48%|████▊     | 5115/10692 [49:44<46:00,  2.02it/s] 48%|████▊     | 5116/10692 [49:44<46:02,  2.02it/s] 48%|████▊     | 5117/10692 [49:45<45:58,  2.02it/s] 48%|████▊     | 5118/10692 [49:45<45:58,  2.02it/s] 48%|████▊     | 5119/10692 [49:46<45:54,  2.02it/s] 48%|████▊     | 5120/10692 [49:46<45:57,  2.02it/s] 48%|████▊     | 5121/10692 [49:47<45:52,  2.02it/s] 48%|████▊     | 5122/10692 [49:47<45:55,  2.02it/s] 48%|████▊     | 5123/10692 [49:48<45:52,  2.02it/s] 48%|████▊     | 5124/10692 [49:48<45:55,  2.02it/s] 48%|████▊     | 5125/10692 [49:49<45:51,  2.02it/s]                                                    {'loss': 3.7292, 'grad_norm': 0.20216795802116394, 'learning_rate': 0.0006221679416061804, 'epoch': 0.48}
+ 48%|████▊     | 5125/10692 [49:49<45:51,  2.02it/s] 48%|████▊     | 5126/10692 [49:49<45:58,  2.02it/s] 48%|████▊     | 5127/10692 [49:50<45:53,  2.02it/s] 48%|████▊     | 5128/10692 [49:50<45:53,  2.02it/s] 48%|████▊     | 5129/10692 [49:51<45:51,  2.02it/s] 48%|████▊     | 5130/10692 [49:51<45:50,  2.02it/s] 48%|████▊     | 5131/10692 [49:52<45:51,  2.02it/s] 48%|████▊     | 5132/10692 [49:52<45:48,  2.02it/s] 48%|████▊     | 5133/10692 [49:53<45:47,  2.02it/s] 48%|████▊     | 5134/10692 [49:53<45:48,  2.02it/s] 48%|████▊     | 5135/10692 [49:54<45:43,  2.03it/s] 48%|████▊     | 5136/10692 [49:54<45:45,  2.02it/s] 48%|████▊     | 5137/10692 [49:55<45:44,  2.02it/s] 48%|████▊     | 5138/10692 [49:55<45:43,  2.02it/s] 48%|████▊     | 5139/10692 [49:56<45:45,  2.02it/s] 48%|████▊     | 5140/10692 [49:56<45:40,  2.03it/s] 48%|████▊     | 5141/10692 [49:57<45:43,  2.02it/s] 48%|████▊     | 5142/10692 [49:57<45:41,  2.02it/s] 48%|████▊     | 5143/10692 [49:58<45:40,  2.02it/s] 48%|████▊     | 5144/10692 [49:58<45:40,  2.02it/s] 48%|████▊     | 5145/10692 [49:59<45:41,  2.02it/s] 48%|████▊     | 5146/10692 [49:59<45:43,  2.02it/s] 48%|████▊     | 5147/10692 [50:00<45:37,  2.03it/s] 48%|████▊     | 5148/10692 [50:00<45:39,  2.02it/s] 48%|████▊     | 5149/10692 [50:01<45:45,  2.02it/s] 48%|████▊     | 5150/10692 [50:01<45:46,  2.02it/s]{'loss': 3.7297, 'grad_norm': 0.21511627733707428, 'learning_rate': 0.0006182063535775634, 'epoch': 0.48}
+                                                     48%|████▊     | 5150/10692 [50:01<45:46,  2.02it/s] 48%|████▊     | 5151/10692 [50:02<46:00,  2.01it/s] 48%|████▊     | 5152/10692 [50:02<45:50,  2.01it/s] 48%|████▊     | 5153/10692 [50:03<45:46,  2.02it/s] 48%|████▊     | 5154/10692 [50:03<45:42,  2.02it/s] 48%|████▊     | 5155/10692 [50:04<45:41,  2.02it/s] 48%|████▊     | 5156/10692 [50:04<45:36,  2.02it/s] 48%|████▊     | 5157/10692 [50:05<45:34,  2.02it/s] 48%|████▊     | 5158/10692 [50:05<45:33,  2.02it/s] 48%|████▊     | 5159/10692 [50:06<45:31,  2.03it/s] 48%|████▊     | 5160/10692 [50:06<45:35,  2.02it/s] 48%|████▊     | 5161/10692 [50:07<45:32,  2.02it/s] 48%|████▊     | 5162/10692 [50:07<45:33,  2.02it/s] 48%|████▊     | 5163/10692 [50:08<45:33,  2.02it/s] 48%|████▊     | 5164/10692 [50:08<45:34,  2.02it/s] 48%|████▊     | 5165/10692 [50:09<45:30,  2.02it/s] 48%|████▊     | 5166/10692 [50:09<45:36,  2.02it/s] 48%|████▊     | 5167/10692 [50:10<45:31,  2.02it/s] 48%|████▊     | 5168/10692 [50:10<45:31,  2.02it/s] 48%|████▊     | 5169/10692 [50:10<45:30,  2.02it/s] 48%|████▊     | 5170/10692 [50:11<45:31,  2.02it/s] 48%|████▊     | 5171/10692 [50:11<45:29,  2.02it/s] 48%|████▊     | 5172/10692 [50:12<45:28,  2.02it/s] 48%|████▊     | 5173/10692 [50:12<45:27,  2.02it/s] 48%|████▊     | 5174/10692 [50:13<45:27,  2.02it/s] 48%|████▊     | 5175/10692 [50:13<45:23,  2.03it/s]{'loss': 3.7278, 'grad_norm': 0.19208139181137085, 'learning_rate': 0.0006142368898797379, 'epoch': 0.48}
+                                                     48%|████▊     | 5175/10692 [50:13<45:23,  2.03it/s] 48%|████▊     | 5176/10692 [50:14<45:31,  2.02it/s] 48%|████▊     | 5177/10692 [50:14<45:28,  2.02it/s] 48%|████▊     | 5178/10692 [50:15<45:26,  2.02it/s] 48%|████▊     | 5179/10692 [50:15<45:26,  2.02it/s] 48%|████▊     | 5180/10692 [50:16<45:27,  2.02it/s] 48%|████▊     | 5181/10692 [50:16<45:23,  2.02it/s] 48%|████▊     | 5182/10692 [50:17<45:23,  2.02it/s] 48%|████▊     | 5183/10692 [50:17<45:22,  2.02it/s] 48%|████▊     | 5184/10692 [50:18<45:25,  2.02it/s] 48%|████▊     | 5185/10692 [50:18<45:22,  2.02it/s] 49%|████▊     | 5186/10692 [50:19<45:24,  2.02it/s] 49%|████▊     | 5187/10692 [50:19<45:23,  2.02it/s] 49%|████▊     | 5188/10692 [50:20<45:24,  2.02it/s] 49%|████▊     | 5189/10692 [50:20<45:24,  2.02it/s] 49%|████▊     | 5190/10692 [50:21<45:25,  2.02it/s] 49%|████▊     | 5191/10692 [50:21<45:21,  2.02it/s] 49%|████▊     | 5192/10692 [50:22<45:22,  2.02it/s] 49%|████▊     | 5193/10692 [50:22<45:20,  2.02it/s] 49%|████▊     | 5194/10692 [50:23<45:20,  2.02it/s] 49%|████▊     | 5195/10692 [50:23<45:18,  2.02it/s] 49%|████▊     | 5196/10692 [50:24<45:21,  2.02it/s] 49%|████▊     | 5197/10692 [50:24<45:18,  2.02it/s] 49%|████▊     | 5198/10692 [50:25<45:16,  2.02it/s] 49%|████▊     | 5199/10692 [50:25<45:16,  2.02it/s] 49%|████▊     | 5200/10692 [50:26<45:14,  2.02it/s]{'loss': 3.7233, 'grad_norm': 0.19398115575313568, 'learning_rate': 0.0006102598149839619, 'epoch': 0.49}                                                    
+ 49%|████▊     | 5200/10692 [50:26<45:14,  2.02it/s] 49%|████▊     | 5201/10692 [50:26<45:18,  2.02it/s] 49%|████▊     | 5202/10692 [50:27<45:14,  2.02it/s] 49%|████▊     | 5203/10692 [50:27<45:15,  2.02it/s] 49%|████▊     | 5204/10692 [50:28<45:12,  2.02it/s] 49%|████▊     | 5205/10692 [50:28<45:12,  2.02it/s] 49%|████▊     | 5206/10692 [50:29<45:11,  2.02it/s] 49%|████▊     | 5207/10692 [50:29<45:15,  2.02it/s] 49%|████▊     | 5208/10692 [50:30<45:11,  2.02it/s] 49%|████▊     | 5209/10692 [50:30<45:13,  2.02it/s] 49%|████▊     | 5210/10692 [50:31<45:13,  2.02it/s] 49%|████▊     | 5211/10692 [50:31<45:15,  2.02it/s] 49%|████▊     | 5212/10692 [50:32<45:11,  2.02it/s] 49%|████▉     | 5213/10692 [50:32<45:12,  2.02it/s] 49%|████▉     | 5214/10692 [50:33<45:10,  2.02it/s] 49%|████▉     | 5215/10692 [50:33<45:09,  2.02it/s] 49%|████▉     | 5216/10692 [50:34<45:12,  2.02it/s] 49%|████▉     | 5217/10692 [50:34<45:11,  2.02it/s] 49%|████▉     | 5218/10692 [50:35<45:08,  2.02it/s] 49%|████▉     | 5219/10692 [50:35<45:12,  2.02it/s] 49%|████▉     | 5220/10692 [50:36<45:08,  2.02it/s] 49%|████▉     | 5221/10692 [50:36<45:07,  2.02it/s] 49%|████▉     | 5222/10692 [50:37<45:05,  2.02it/s] 49%|████▉     | 5223/10692 [50:37<45:08,  2.02it/s] 49%|████▉     | 5224/10692 [50:38<45:08,  2.02it/s] 49%|████▉     | 5225/10692 [50:38<45:08,  2.02it/s]{'loss': 3.7285, 'grad_norm': 0.2116468846797943, 'learning_rate': 0.0006062753938686, 'epoch': 0.49}
+                                                     49%|████▉     | 5225/10692 [50:38<45:08,  2.02it/s] 49%|████▉     | 5226/10692 [50:39<45:12,  2.02it/s] 49%|████▉     | 5227/10692 [50:39<45:11,  2.02it/s] 49%|████▉     | 5228/10692 [50:40<45:07,  2.02it/s] 49%|████▉     | 5229/10692 [50:40<45:07,  2.02it/s] 49%|████▉     | 5230/10692 [50:41<45:04,  2.02it/s] 49%|████▉     | 5231/10692 [50:41<45:03,  2.02it/s] 49%|████▉     | 5232/10692 [50:42<44:58,  2.02it/s] 49%|████▉     | 5233/10692 [50:42<45:00,  2.02it/s] 49%|████▉     | 5234/10692 [50:43<45:00,  2.02it/s] 49%|████▉     | 5235/10692 [50:43<45:00,  2.02it/s] 49%|████▉     | 5236/10692 [50:44<44:55,  2.02it/s] 49%|████▉     | 5237/10692 [50:44<44:57,  2.02it/s] 49%|████▉     | 5238/10692 [50:45<44:54,  2.02it/s] 49%|████▉     | 5239/10692 [50:45<44:57,  2.02it/s] 49%|████▉     | 5240/10692 [50:46<44:52,  2.03it/s] 49%|████▉     | 5241/10692 [50:46<44:52,  2.02it/s] 49%|████▉     | 5242/10692 [50:47<44:52,  2.02it/s] 49%|████▉     | 5243/10692 [50:47<44:56,  2.02it/s] 49%|████▉     | 5244/10692 [50:48<44:55,  2.02it/s] 49%|████▉     | 5245/10692 [50:48<44:53,  2.02it/s] 49%|████▉     | 5246/10692 [50:49<44:54,  2.02it/s] 49%|████▉     | 5247/10692 [50:49<44:54,  2.02it/s] 49%|████▉     | 5248/10692 [50:50<44:53,  2.02it/s] 49%|████▉     | 5249/10692 [50:50<44:52,  2.02it/s] 49%|████▉     | 5250/10692 [50:51<44:53,  2.02it/s]{'loss': 3.7159, 'grad_norm': 0.19159647822380066, 'learning_rate': 0.0006022838920014702, 'epoch': 0.49}
+                                                     49%|████▉     | 5250/10692 [50:51<44:53,  2.02it/s] 49%|████▉     | 5251/10692 [50:51<44:56,  2.02it/s] 49%|████▉     | 5252/10692 [50:52<44:54,  2.02it/s] 49%|████▉     | 5253/10692 [50:52<44:50,  2.02it/s] 49%|████▉     | 5254/10692 [50:53<44:52,  2.02it/s] 49%|████▉     | 5255/10692 [50:53<44:50,  2.02it/s] 49%|████▉     | 5256/10692 [50:54<44:50,  2.02it/s] 49%|████▉     | 5257/10692 [50:54<44:44,  2.02it/s] 49%|████▉     | 5258/10692 [50:55<44:46,  2.02it/s] 49%|████▉     | 5259/10692 [50:55<44:43,  2.02it/s] 49%|████▉     | 5260/10692 [50:56<44:43,  2.02it/s] 49%|████▉     | 5261/10692 [50:56<44:41,  2.03it/s] 49%|████▉     | 5262/10692 [50:57<44:39,  2.03it/s] 49%|████▉     | 5263/10692 [50:57<44:42,  2.02it/s] 49%|████▉     | 5264/10692 [50:57<44:40,  2.03it/s] 49%|████▉     | 5265/10692 [50:58<44:42,  2.02it/s] 49%|████▉     | 5266/10692 [50:58<44:43,  2.02it/s] 49%|████▉     | 5267/10692 [50:59<44:41,  2.02it/s] 49%|████▉     | 5268/10692 [50:59<44:42,  2.02it/s] 49%|████▉     | 5269/10692 [51:00<44:39,  2.02it/s] 49%|████▉     | 5270/10692 [51:00<44:44,  2.02it/s] 49%|████▉     | 5271/10692 [51:01<44:44,  2.02it/s] 49%|████▉     | 5272/10692 [51:01<44:44,  2.02it/s] 49%|████▉     | 5273/10692 [51:02<44:42,  2.02it/s] 49%|████▉     | 5274/10692 [51:02<44:45,  2.02it/s] 49%|████▉     | 5275/10692 [51:03<44:41,  2.02it/s]{'loss': 3.7229, 'grad_norm': 0.19995151460170746, 'learning_rate': 0.0005982855753221545, 'epoch': 0.49}
+                                                     49%|████▉     | 5275/10692 [51:03<44:41,  2.02it/s] 49%|████▉     | 5276/10692 [51:03<44:47,  2.02it/s] 49%|████▉     | 5277/10692 [51:04<44:41,  2.02it/s] 49%|████▉     | 5278/10692 [51:04<44:42,  2.02it/s] 49%|████▉     | 5279/10692 [51:05<44:38,  2.02it/s] 49%|████▉     | 5280/10692 [51:05<44:37,  2.02it/s] 49%|████▉     | 5281/10692 [51:06<44:37,  2.02it/s] 49%|████▉     | 5282/10692 [51:06<44:32,  2.02it/s] 49%|████▉     | 5283/10692 [51:07<44:33,  2.02it/s] 49%|████▉     | 5284/10692 [51:07<44:31,  2.02it/s] 49%|████▉     | 5285/10692 [51:08<44:37,  2.02it/s] 49%|████▉     | 5286/10692 [51:08<44:33,  2.02it/s] 49%|████▉     | 5287/10692 [51:09<44:34,  2.02it/s] 49%|████▉     | 5288/10692 [51:09<44:32,  2.02it/s] 49%|████▉     | 5289/10692 [51:10<44:34,  2.02it/s] 49%|████▉     | 5290/10692 [51:10<44:32,  2.02it/s] 49%|████▉     | 5291/10692 [51:11<44:31,  2.02it/s] 49%|████▉     | 5292/10692 [51:11<44:29,  2.02it/s] 50%|████▉     | 5293/10692 [51:12<44:33,  2.02it/s] 50%|████▉     | 5294/10692 [51:12<44:29,  2.02it/s] 50%|████▉     | 5295/10692 [51:13<44:28,  2.02it/s] 50%|████▉     | 5296/10692 [51:13<44:26,  2.02it/s] 50%|████▉     | 5297/10692 [51:14<44:25,  2.02it/s] 50%|████▉     | 5298/10692 [51:14<44:25,  2.02it/s] 50%|████▉     | 5299/10692 [51:15<44:27,  2.02it/s] 50%|████▉     | 5300/10692 [51:15<44:28,  2.02it/s]{'loss': 3.7222, 'grad_norm': 0.19501031935214996, 'learning_rate': 0.000594280710224283, 'epoch': 0.5}
+                                                     50%|████▉     | 5300/10692 [51:15<44:28,  2.02it/s] 50%|████▉     | 5301/10692 [51:16<44:31,  2.02it/s] 50%|████▉     | 5302/10692 [51:16<44:27,  2.02it/s] 50%|████▉     | 5303/10692 [51:17<44:30,  2.02it/s] 50%|████▉     | 5304/10692 [51:17<44:28,  2.02it/s] 50%|████▉     | 5305/10692 [51:18<44:29,  2.02it/s] 50%|████▉     | 5306/10692 [51:18<44:25,  2.02it/s] 50%|████▉     | 5307/10692 [51:19<44:26,  2.02it/s] 50%|████▉     | 5308/10692 [51:19<44:26,  2.02it/s] 50%|████▉     | 5309/10692 [51:20<44:24,  2.02it/s] 50%|████▉     | 5310/10692 [51:20<44:21,  2.02it/s] 50%|████▉     | 5311/10692 [51:21<44:22,  2.02it/s] 50%|████▉     | 5312/10692 [51:21<44:20,  2.02it/s] 50%|████▉     | 5313/10692 [51:22<44:21,  2.02it/s] 50%|████▉     | 5314/10692 [51:22<44:17,  2.02it/s] 50%|████▉     | 5315/10692 [51:23<44:20,  2.02it/s] 50%|████▉     | 5316/10692 [51:23<44:18,  2.02it/s] 50%|████▉     | 5317/10692 [51:24<44:21,  2.02it/s] 50%|████▉     | 5318/10692 [51:24<44:17,  2.02it/s] 50%|████▉     | 5319/10692 [51:25<44:17,  2.02it/s] 50%|████▉     | 5320/10692 [51:25<44:14,  2.02it/s] 50%|████▉     | 5321/10692 [51:26<44:13,  2.02it/s] 50%|████▉     | 5322/10692 [51:26<44:11,  2.03it/s] 50%|████▉     | 5323/10692 [51:27<44:08,  2.03it/s] 50%|████▉     | 5324/10692 [51:27<44:11,  2.02it/s] 50%|████▉     | 5325/10692 [51:28<44:11,  2.02it/s]{'loss': 3.7243, 'grad_norm': 0.2011709362268448, 'learning_rate': 0.0005902695635377826, 'epoch': 0.5}
+                                                     50%|████▉     | 5325/10692 [51:28<44:11,  2.02it/s] 50%|████▉     | 5326/10692 [51:28<44:15,  2.02it/s] 50%|████▉     | 5327/10692 [51:29<44:15,  2.02it/s] 50%|████▉     | 5328/10692 [51:29<44:15,  2.02it/s] 50%|████▉     | 5329/10692 [51:30<44:13,  2.02it/s] 50%|████▉     | 5330/10692 [51:30<44:15,  2.02it/s] 50%|████▉     | 5331/10692 [51:31<44:21,  2.01it/s] 50%|████▉     | 5332/10692 [51:31<44:18,  2.02it/s] 50%|████▉     | 5333/10692 [51:32<44:14,  2.02it/s] 50%|████▉     | 5334/10692 [51:32<44:12,  2.02it/s] 50%|████▉     | 5335/10692 [51:33<44:13,  2.02it/s] 50%|████▉     | 5336/10692 [51:33<44:09,  2.02it/s] 50%|████▉     | 5337/10692 [51:34<44:07,  2.02it/s] 50%|████▉     | 5338/10692 [51:34<44:08,  2.02it/s] 50%|████▉     | 5339/10692 [51:35<44:07,  2.02it/s] 50%|████▉     | 5340/10692 [51:35<44:10,  2.02it/s] 50%|████▉     | 5341/10692 [51:36<44:07,  2.02it/s] 50%|████▉     | 5342/10692 [51:36<44:05,  2.02it/s] 50%|████▉     | 5343/10692 [51:37<44:05,  2.02it/s] 50%|████▉     | 5344/10692 [51:37<44:07,  2.02it/s] 50%|████▉     | 5345/10692 [51:38<44:05,  2.02it/s] 50%|█████     | 5346/10692 [51:38<44:05,  2.02it/s] 50%|█████     | 5347/10692 [51:39<51:33,  1.73it/s] 50%|█████     | 5348/10692 [51:39<49:19,  1.81it/s] 50%|█████     | 5349/10692 [51:40<47:46,  1.86it/s] 50%|█████     | 5350/10692 [51:40<46:38,  1.91it/s]{'loss': 3.7126, 'grad_norm': 0.20869354903697968, 'learning_rate': 0.000586252402511101, 'epoch': 0.5}
+                                                     50%|█████     | 5350/10692 [51:40<46:38,  1.91it/s] 50%|█████     | 5351/10692 [51:41<45:54,  1.94it/s] 50%|█████     | 5352/10692 [51:41<45:15,  1.97it/s] 50%|█████     | 5353/10692 [51:42<44:54,  1.98it/s] 50%|█████     | 5354/10692 [51:42<44:34,  2.00it/s] 50%|█████     | 5355/10692 [51:43<44:30,  2.00it/s] 50%|█████     | 5356/10692 [51:43<44:19,  2.01it/s] 50%|█████     | 5357/10692 [51:44<44:13,  2.01it/s] 50%|█████     | 5358/10692 [51:44<44:08,  2.01it/s] 50%|█████     | 5359/10692 [51:45<44:05,  2.02it/s] 50%|█████     | 5360/10692 [51:45<44:01,  2.02it/s] 50%|█████     | 5361/10692 [51:46<44:04,  2.02it/s] 50%|█████     | 5362/10692 [51:46<43:59,  2.02it/s] 50%|█████     | 5363/10692 [51:47<43:58,  2.02it/s] 50%|█████     | 5364/10692 [51:47<43:55,  2.02it/s] 50%|█████     | 5365/10692 [51:48<43:57,  2.02it/s] 50%|█████     | 5366/10692 [51:48<43:53,  2.02it/s] 50%|█████     | 5367/10692 [51:49<43:53,  2.02it/s] 50%|█████     | 5368/10692 [51:49<43:50,  2.02it/s] 50%|█████     | 5369/10692 [51:50<43:50,  2.02it/s] 50%|█████     | 5370/10692 [51:50<43:48,  2.02it/s] 50%|█████     | 5371/10692 [51:51<50:58,  1.74it/s] 50%|█████     | 5372/10692 [51:51<48:50,  1.82it/s] 50%|█████     | 5373/10692 [51:52<47:20,  1.87it/s] 50%|█████     | 5374/10692 [51:52<46:15,  1.92it/s] 50%|█████     | 5375/10692 [51:53<45:32,  1.95it/s]{'loss': 3.7147, 'grad_norm': 0.18845924735069275, 'learning_rate': 0.0005822294947933994, 'epoch': 0.5}
+                                                     50%|█████     | 5375/10692 [51:53<45:32,  1.95it/s] 50%|█████     | 5376/10692 [51:53<45:05,  1.97it/s] 50%|█████     | 5377/10692 [51:54<44:44,  1.98it/s] 50%|█████     | 5378/10692 [51:54<44:27,  1.99it/s] 50%|█████     | 5379/10692 [51:55<44:13,  2.00it/s] 50%|█████     | 5380/10692 [51:55<44:06,  2.01it/s] 50%|█████     | 5381/10692 [51:56<44:00,  2.01it/s] 50%|█████     | 5382/10692 [51:56<43:56,  2.01it/s] 50%|█████     | 5383/10692 [51:57<43:53,  2.02it/s] 50%|█████     | 5384/10692 [51:57<43:48,  2.02it/s] 50%|█████     | 5385/10692 [51:58<43:47,  2.02it/s] 50%|█████     | 5386/10692 [51:58<43:44,  2.02it/s] 50%|█████     | 5387/10692 [51:59<43:45,  2.02it/s] 50%|█████     | 5388/10692 [51:59<43:45,  2.02it/s] 50%|█████     | 5389/10692 [52:00<43:45,  2.02it/s] 50%|█████     | 5390/10692 [52:00<43:46,  2.02it/s] 50%|█████     | 5391/10692 [52:01<43:49,  2.02it/s] 50%|█████     | 5392/10692 [52:01<43:46,  2.02it/s] 50%|█████     | 5393/10692 [52:02<43:43,  2.02it/s] 50%|█████     | 5394/10692 [52:02<43:43,  2.02it/s] 50%|█████     | 5395/10692 [52:03<43:42,  2.02it/s] 50%|█████     | 5396/10692 [52:03<43:39,  2.02it/s] 50%|█████     | 5397/10692 [52:04<43:41,  2.02it/s] 50%|█████     | 5398/10692 [52:04<43:37,  2.02it/s] 50%|█████     | 5399/10692 [52:05<43:38,  2.02it/s] 51%|█████     | 5400/10692 [52:05<43:35,  2.02it/s]                                                    {'loss': 3.711, 'grad_norm': 0.1949460655450821, 'learning_rate': 0.0005782011084167207, 'epoch': 0.51}
+ 51%|█████     | 5400/10692 [52:05<43:35,  2.02it/s] 51%|█████     | 5401/10692 [52:06<43:41,  2.02it/s] 51%|█████     | 5402/10692 [52:06<43:36,  2.02it/s] 51%|█████     | 5403/10692 [52:07<43:35,  2.02it/s] 51%|█████     | 5404/10692 [52:07<43:36,  2.02it/s] 51%|█████     | 5405/10692 [52:08<43:33,  2.02it/s] 51%|█████     | 5406/10692 [52:08<43:35,  2.02it/s] 51%|█████     | 5407/10692 [52:09<43:32,  2.02it/s] 51%|█████     | 5408/10692 [52:09<43:33,  2.02it/s] 51%|█████     | 5409/10692 [52:10<43:32,  2.02it/s] 51%|█████     | 5410/10692 [52:10<43:31,  2.02it/s] 51%|█████     | 5411/10692 [52:11<43:32,  2.02it/s] 51%|█████     | 5412/10692 [52:11<43:27,  2.02it/s] 51%|█████     | 5413/10692 [52:12<43:30,  2.02it/s] 51%|█████     | 5414/10692 [52:12<43:29,  2.02it/s] 51%|█████     | 5415/10692 [52:13<43:28,  2.02it/s] 51%|█████     | 5416/10692 [52:13<43:28,  2.02it/s] 51%|█████     | 5417/10692 [52:14<43:27,  2.02it/s] 51%|█████     | 5418/10692 [52:14<43:27,  2.02it/s] 51%|█████     | 5419/10692 [52:15<43:25,  2.02it/s] 51%|█████     | 5420/10692 [52:15<43:26,  2.02it/s] 51%|█████     | 5421/10692 [52:16<43:23,  2.02it/s] 51%|█████     | 5422/10692 [52:16<43:25,  2.02it/s] 51%|█████     | 5423/10692 [52:17<43:23,  2.02it/s] 51%|█████     | 5424/10692 [52:17<43:25,  2.02it/s] 51%|█████     | 5425/10692 [52:18<43:24,  2.02it/s]{'loss': 3.7096, 'grad_norm': 0.2175387293100357, 'learning_rate': 0.0005741675117781315, 'epoch': 0.51}
+                                                     51%|█████     | 5425/10692 [52:18<43:24,  2.02it/s] 51%|█████     | 5426/10692 [52:18<43:29,  2.02it/s] 51%|█████     | 5427/10692 [52:19<43:24,  2.02it/s] 51%|█████     | 5428/10692 [52:19<43:25,  2.02it/s] 51%|█████     | 5429/10692 [52:20<43:20,  2.02it/s] 51%|█████     | 5430/10692 [52:20<43:21,  2.02it/s] 51%|█████     | 5431/10692 [52:21<43:18,  2.02it/s] 51%|█████     | 5432/10692 [52:21<43:20,  2.02it/s] 51%|█████     | 5433/10692 [52:22<43:19,  2.02it/s] 51%|█████     | 5434/10692 [52:22<43:19,  2.02it/s] 51%|█████     | 5435/10692 [52:23<43:17,  2.02it/s] 51%|█████     | 5436/10692 [52:23<43:18,  2.02it/s] 51%|█████     | 5437/10692 [52:24<43:20,  2.02it/s] 51%|█████     | 5438/10692 [52:24<43:19,  2.02it/s] 51%|█████     | 5439/10692 [52:25<43:19,  2.02it/s] 51%|█████     | 5440/10692 [52:25<43:19,  2.02it/s] 51%|█████     | 5441/10692 [52:26<43:18,  2.02it/s] 51%|█████     | 5442/10692 [52:26<43:16,  2.02it/s] 51%|█████     | 5443/10692 [52:27<43:13,  2.02it/s] 51%|█████     | 5444/10692 [52:27<43:11,  2.02it/s] 51%|█████     | 5445/10692 [52:28<43:13,  2.02it/s] 51%|█████     | 5446/10692 [52:28<43:15,  2.02it/s] 51%|█████     | 5447/10692 [52:29<43:16,  2.02it/s] 51%|█████     | 5448/10692 [52:29<43:14,  2.02it/s] 51%|█████     | 5449/10692 [52:30<43:14,  2.02it/s] 51%|█████     | 5450/10692 [52:30<43:12,  2.02it/s]{'loss': 3.708, 'grad_norm': 0.20021528005599976, 'learning_rate': 0.0005701289736218393, 'epoch': 0.51}                                                    
+ 51%|█████     | 5450/10692 [52:30<43:12,  2.02it/s] 51%|█████     | 5451/10692 [52:31<43:22,  2.01it/s] 51%|█████     | 5452/10692 [52:31<43:22,  2.01it/s] 51%|█████     | 5453/10692 [52:32<43:19,  2.02it/s] 51%|█████     | 5454/10692 [52:32<43:18,  2.02it/s] 51%|█████     | 5455/10692 [52:33<43:15,  2.02it/s] 51%|█████     | 5456/10692 [52:33<43:18,  2.02it/s] 51%|█████     | 5457/10692 [52:34<43:13,  2.02it/s] 51%|█████     | 5458/10692 [52:34<43:10,  2.02it/s] 51%|█████     | 5459/10692 [52:35<43:06,  2.02it/s] 51%|█████     | 5460/10692 [52:35<43:03,  2.03it/s] 51%|█████     | 5461/10692 [52:36<43:07,  2.02it/s] 51%|█████     | 5462/10692 [52:36<43:03,  2.02it/s] 51%|█████     | 5463/10692 [52:37<43:06,  2.02it/s] 51%|█████     | 5464/10692 [52:37<43:04,  2.02it/s] 51%|█████     | 5465/10692 [52:37<43:05,  2.02it/s] 51%|█████     | 5466/10692 [52:38<43:07,  2.02it/s] 51%|█████     | 5467/10692 [52:38<43:06,  2.02it/s] 51%|█████     | 5468/10692 [52:39<43:03,  2.02it/s] 51%|█████     | 5469/10692 [52:39<43:04,  2.02it/s] 51%|█████     | 5470/10692 [52:40<43:00,  2.02it/s] 51%|█████     | 5471/10692 [52:40<43:02,  2.02it/s] 51%|█████     | 5472/10692 [52:41<42:58,  2.02it/s] 51%|█████     | 5473/10692 [52:41<42:59,  2.02it/s] 51%|█████     | 5474/10692 [52:42<42:56,  2.03it/s] 51%|█████     | 5475/10692 [52:42<42:54,  2.03it/s]{'loss': 3.7161, 'grad_norm': 0.19931000471115112, 'learning_rate': 0.000566085763021288, 'epoch': 0.51}
+                                                     51%|█████     | 5475/10692 [52:42<42:54,  2.03it/s] 51%|█████     | 5476/10692 [52:43<43:00,  2.02it/s] 51%|█████     | 5477/10692 [52:43<43:00,  2.02it/s] 51%|█████     | 5478/10692 [52:44<43:00,  2.02it/s] 51%|█████     | 5479/10692 [52:44<42:58,  2.02it/s] 51%|█████▏    | 5480/10692 [52:45<42:58,  2.02it/s] 51%|█████▏    | 5481/10692 [52:45<42:58,  2.02it/s] 51%|█████▏    | 5482/10692 [52:46<42:58,  2.02it/s] 51%|█████▏    | 5483/10692 [52:46<42:55,  2.02it/s] 51%|█████▏    | 5484/10692 [52:47<42:57,  2.02it/s] 51%|█████▏    | 5485/10692 [52:47<42:54,  2.02it/s] 51%|█████▏    | 5486/10692 [52:48<42:57,  2.02it/s] 51%|█████▏    | 5487/10692 [52:48<42:54,  2.02it/s] 51%|█████▏    | 5488/10692 [52:49<42:53,  2.02it/s] 51%|█████▏    | 5489/10692 [52:49<42:51,  2.02it/s] 51%|█████▏    | 5490/10692 [52:50<42:47,  2.03it/s] 51%|█████▏    | 5491/10692 [52:50<42:50,  2.02it/s] 51%|█████▏    | 5492/10692 [52:51<42:47,  2.03it/s] 51%|█████▏    | 5493/10692 [52:51<42:50,  2.02it/s] 51%|█████▏    | 5494/10692 [52:52<42:49,  2.02it/s] 51%|█████▏    | 5495/10692 [52:52<42:48,  2.02it/s] 51%|█████▏    | 5496/10692 [52:53<42:48,  2.02it/s] 51%|█████▏    | 5497/10692 [52:53<42:47,  2.02it/s] 51%|█████▏    | 5498/10692 [52:54<42:45,  2.02it/s] 51%|█████▏    | 5499/10692 [52:54<42:43,  2.03it/s] 51%|█████▏    | 5500/10692 [52:55<42:46,  2.02it/s]{'loss': 3.715, 'grad_norm': 0.20689305663108826, 'learning_rate': 0.0005620381493612293, 'epoch': 0.51}
+                                                     51%|█████▏    | 5500/10692 [52:55<42:46,  2.02it/s] 51%|█████▏    | 5501/10692 [52:55<42:52,  2.02it/s] 51%|█████▏    | 5502/10692 [52:56<42:48,  2.02it/s] 51%|█████▏    | 5503/10692 [52:56<42:45,  2.02it/s] 51%|█████▏    | 5504/10692 [52:57<42:45,  2.02it/s] 51%|█████▏    | 5505/10692 [52:57<42:41,  2.03it/s] 51%|█████▏    | 5506/10692 [52:58<42:46,  2.02it/s] 52%|█████▏    | 5507/10692 [52:58<42:42,  2.02it/s] 52%|█████▏    | 5508/10692 [52:59<42:43,  2.02it/s] 52%|█████▏    | 5509/10692 [52:59<42:40,  2.02it/s] 52%|█████▏    | 5510/10692 [53:00<42:40,  2.02it/s] 52%|█████▏    | 5511/10692 [53:00<42:39,  2.02it/s] 52%|█████▏    | 5512/10692 [53:01<42:47,  2.02it/s] 52%|█████▏    | 5513/10692 [53:01<42:40,  2.02it/s] 52%|█████▏    | 5514/10692 [53:02<42:39,  2.02it/s] 52%|█████▏    | 5515/10692 [53:02<42:37,  2.02it/s] 52%|█████▏    | 5516/10692 [53:03<42:37,  2.02it/s] 52%|█████▏    | 5517/10692 [53:03<42:37,  2.02it/s] 52%|█████▏    | 5518/10692 [53:04<42:35,  2.02it/s] 52%|█████▏    | 5519/10692 [53:04<42:36,  2.02it/s] 52%|█████▏    | 5520/10692 [53:05<42:32,  2.03it/s] 52%|█████▏    | 5521/10692 [53:05<42:34,  2.02it/s] 52%|█████▏    | 5522/10692 [53:06<42:31,  2.03it/s] 52%|█████▏    | 5523/10692 [53:06<42:32,  2.03it/s] 52%|█████▏    | 5524/10692 [53:07<42:32,  2.02it/s] 52%|█████▏    | 5525/10692 [53:07<42:33,  2.02it/s]                                                    {'loss': 3.7087, 'grad_norm': 0.1996123343706131, 'learning_rate': 0.0005579864023197755, 'epoch': 0.52}
+ 52%|█████▏    | 5525/10692 [53:07<42:33,  2.02it/s] 52%|█████▏    | 5526/10692 [53:08<42:37,  2.02it/s] 52%|█████▏    | 5527/10692 [53:08<42:35,  2.02it/s] 52%|█████▏    | 5528/10692 [53:09<42:32,  2.02it/s] 52%|█████▏    | 5529/10692 [53:09<42:36,  2.02it/s] 52%|█████▏    | 5530/10692 [53:10<42:32,  2.02it/s] 52%|█████▏    | 5531/10692 [53:10<42:34,  2.02it/s] 52%|█████▏    | 5532/10692 [53:11<42:30,  2.02it/s] 52%|█████▏    | 5533/10692 [53:11<42:31,  2.02it/s] 52%|█████▏    | 5534/10692 [53:12<42:28,  2.02it/s] 52%|█████▏    | 5535/10692 [53:12<42:26,  2.02it/s] 52%|█████▏    | 5536/10692 [53:13<42:30,  2.02it/s] 52%|█████▏    | 5537/10692 [53:13<42:29,  2.02it/s] 52%|█████▏    | 5538/10692 [53:14<42:28,  2.02it/s] 52%|█████▏    | 5539/10692 [53:14<42:26,  2.02it/s] 52%|█████▏    | 5540/10692 [53:15<42:25,  2.02it/s] 52%|█████▏    | 5541/10692 [53:15<42:27,  2.02it/s] 52%|█████▏    | 5542/10692 [53:16<42:23,  2.02it/s] 52%|█████▏    | 5543/10692 [53:16<42:26,  2.02it/s] 52%|█████▏    | 5544/10692 [53:17<42:24,  2.02it/s] 52%|█████▏    | 5545/10692 [53:17<42:24,  2.02it/s] 52%|█████▏    | 5546/10692 [53:18<42:24,  2.02it/s] 52%|█████▏    | 5547/10692 [53:18<42:23,  2.02it/s] 52%|█████▏    | 5548/10692 [53:19<42:24,  2.02it/s] 52%|█████▏    | 5549/10692 [53:19<42:23,  2.02it/s] 52%|█████▏    | 5550/10692 [53:20<42:25,  2.02it/s]{'loss': 3.7008, 'grad_norm': 0.1887568086385727, 'learning_rate': 0.0005539307918504309, 'epoch': 0.52}
+                                                     52%|█████▏    | 5550/10692 [53:20<42:25,  2.02it/s] 52%|█████▏    | 5551/10692 [53:20<42:27,  2.02it/s] 52%|█████▏    | 5552/10692 [53:21<42:26,  2.02it/s] 52%|█████▏    | 5553/10692 [53:21<42:26,  2.02it/s] 52%|█████▏    | 5554/10692 [53:21<42:24,  2.02it/s] 52%|█████▏    | 5555/10692 [53:22<42:23,  2.02it/s] 52%|█████▏    | 5556/10692 [53:22<42:24,  2.02it/s] 52%|█████▏    | 5557/10692 [53:23<42:20,  2.02it/s] 52%|█████▏    | 5558/10692 [53:23<42:20,  2.02it/s] 52%|█████▏    | 5559/10692 [53:24<42:18,  2.02it/s] 52%|█████▏    | 5560/10692 [53:24<42:18,  2.02it/s] 52%|█████▏    | 5561/10692 [53:25<42:16,  2.02it/s] 52%|█████▏    | 5562/10692 [53:25<42:13,  2.02it/s] 52%|█████▏    | 5563/10692 [53:26<42:11,  2.03it/s] 52%|█████▏    | 5564/10692 [53:26<42:07,  2.03it/s] 52%|█████▏    | 5565/10692 [53:27<42:09,  2.03it/s] 52%|█████▏    | 5566/10692 [53:27<42:07,  2.03it/s] 52%|█████▏    | 5567/10692 [53:28<42:11,  2.02it/s] 52%|█████▏    | 5568/10692 [53:28<42:09,  2.03it/s] 52%|█████▏    | 5569/10692 [53:29<42:12,  2.02it/s] 52%|█████▏    | 5570/10692 [53:29<42:11,  2.02it/s] 52%|█████▏    | 5571/10692 [53:30<42:12,  2.02it/s] 52%|█████▏    | 5572/10692 [53:30<42:14,  2.02it/s] 52%|█████▏    | 5573/10692 [53:31<42:18,  2.02it/s] 52%|█████▏    | 5574/10692 [53:31<42:14,  2.02it/s] 52%|█████▏    | 5575/10692 [53:32<42:18,  2.02it/s]{'loss': 3.7023, 'grad_norm': 0.2103181928396225, 'learning_rate': 0.0005498715881641069, 'epoch': 0.52}
+                                                     52%|█████▏    | 5575/10692 [53:32<42:18,  2.02it/s] 52%|█████▏    | 5576/10692 [53:32<42:20,  2.01it/s] 52%|█████▏    | 5577/10692 [53:33<42:15,  2.02it/s] 52%|█████▏    | 5578/10692 [53:33<42:15,  2.02it/s] 52%|█████▏    | 5579/10692 [53:34<42:14,  2.02it/s] 52%|█████▏    | 5580/10692 [53:34<42:15,  2.02it/s] 52%|█████▏    | 5581/10692 [53:35<42:09,  2.02it/s] 52%|█████▏    | 5582/10692 [53:35<42:08,  2.02it/s] 52%|█████▏    | 5583/10692 [53:36<42:05,  2.02it/s] 52%|█████▏    | 5584/10692 [53:36<42:04,  2.02it/s] 52%|█████▏    | 5585/10692 [53:37<42:03,  2.02it/s] 52%|█████▏    | 5586/10692 [53:37<42:03,  2.02it/s] 52%|█████▏    | 5587/10692 [53:38<42:03,  2.02it/s] 52%|█████▏    | 5588/10692 [53:38<42:03,  2.02it/s] 52%|█████▏    | 5589/10692 [53:39<42:03,  2.02it/s] 52%|█████▏    | 5590/10692 [53:39<42:02,  2.02it/s] 52%|█████▏    | 5591/10692 [53:40<42:04,  2.02it/s] 52%|█████▏    | 5592/10692 [53:40<42:01,  2.02it/s] 52%|█████▏    | 5593/10692 [53:41<42:02,  2.02it/s] 52%|█████▏    | 5594/10692 [53:41<41:59,  2.02it/s] 52%|█████▏    | 5595/10692 [53:42<42:01,  2.02it/s] 52%|█████▏    | 5596/10692 [53:42<42:01,  2.02it/s] 52%|█████▏    | 5597/10692 [53:43<42:02,  2.02it/s] 52%|█████▏    | 5598/10692 [53:43<41:59,  2.02it/s] 52%|█████▏    | 5599/10692 [53:44<41:57,  2.02it/s] 52%|█████▏    | 5600/10692 [53:44<41:55,  2.02it/s]{'loss': 3.6931, 'grad_norm': 0.2105621099472046, 'learning_rate': 0.0005458090617111176, 'epoch': 0.52}
+                                                     52%|█████▏    | 5600/10692 [53:44<41:55,  2.02it/s] 52%|█████▏    | 5601/10692 [53:45<42:01,  2.02it/s] 52%|█████▏    | 5602/10692 [53:45<41:58,  2.02it/s] 52%|█████▏    | 5603/10692 [53:46<41:58,  2.02it/s] 52%|█████▏    | 5604/10692 [53:46<41:55,  2.02it/s] 52%|█████▏    | 5605/10692 [53:47<41:53,  2.02it/s] 52%|█████▏    | 5606/10692 [53:47<41:55,  2.02it/s] 52%|█████▏    | 5607/10692 [53:48<41:54,  2.02it/s] 52%|█████▏    | 5608/10692 [53:48<41:55,  2.02it/s] 52%|█████▏    | 5609/10692 [53:49<41:52,  2.02it/s] 52%|███���█▏    | 5610/10692 [53:49<41:53,  2.02it/s] 52%|█████▏    | 5611/10692 [53:50<41:50,  2.02it/s] 52%|█████▏    | 5612/10692 [53:50<41:53,  2.02it/s] 52%|█████▏    | 5613/10692 [53:51<41:49,  2.02it/s] 53%|█████▎    | 5614/10692 [53:51<41:49,  2.02it/s] 53%|█████▎    | 5615/10692 [53:52<41:51,  2.02it/s] 53%|█████▎    | 5616/10692 [53:52<41:50,  2.02it/s] 53%|█████▎    | 5617/10692 [53:53<41:49,  2.02it/s] 53%|█████▎    | 5618/10692 [53:53<41:47,  2.02it/s] 53%|█████▎    | 5619/10692 [53:54<41:48,  2.02it/s] 53%|█████▎    | 5620/10692 [53:54<41:47,  2.02it/s] 53%|█████▎    | 5621/10692 [53:55<41:49,  2.02it/s] 53%|█████▎    | 5622/10692 [53:55<41:49,  2.02it/s] 53%|█████▎    | 5623/10692 [53:56<41:50,  2.02it/s] 53%|█████▎    | 5624/10692 [53:56<41:45,  2.02it/s] 53%|█████▎    | 5625/10692 [53:57<41:45,  2.02it/s]{'loss': 3.7067, 'grad_norm': 0.21406814455986023, 'learning_rate': 0.0005417434831631617, 'epoch': 0.53}
+                                                     53%|█████▎    | 5625/10692 [53:57<41:45,  2.02it/s] 53%|█████▎    | 5626/10692 [53:57<41:47,  2.02it/s] 53%|█████▎    | 5627/10692 [53:58<41:49,  2.02it/s] 53%|█████▎    | 5628/10692 [53:58<41:45,  2.02it/s] 53%|█████▎    | 5629/10692 [53:59<41:45,  2.02it/s] 53%|█████▎    | 5630/10692 [53:59<41:42,  2.02it/s] 53%|█████▎    | 5631/10692 [54:00<41:40,  2.02it/s] 53%|█████▎    | 5632/10692 [54:00<41:41,  2.02it/s] 53%|█████▎    | 5633/10692 [54:01<41:47,  2.02it/s] 53%|█████▎    | 5634/10692 [54:01<41:45,  2.02it/s] 53%|█████▎    | 5635/10692 [54:02<41:46,  2.02it/s] 53%|█████▎    | 5636/10692 [54:02<41:40,  2.02it/s] 53%|█████▎    | 5637/10692 [54:03<41:39,  2.02it/s] 53%|█████▎    | 5638/10692 [54:03<41:39,  2.02it/s] 53%|█████▎    | 5639/10692 [54:04<41:39,  2.02it/s] 53%|█████▎    | 5640/10692 [54:04<41:37,  2.02it/s] 53%|█████▎    | 5641/10692 [54:05<41:37,  2.02it/s] 53%|█████▎    | 5642/10692 [54:05<41:37,  2.02it/s] 53%|█████▎    | 5643/10692 [54:06<41:37,  2.02it/s] 53%|█████▎    | 5644/10692 [54:06<41:36,  2.02it/s] 53%|█████▎    | 5645/10692 [54:07<41:36,  2.02it/s] 53%|█████▎    | 5646/10692 [54:07<41:35,  2.02it/s] 53%|█████▎    | 5647/10692 [54:07<41:36,  2.02it/s] 53%|█████▎    | 5648/10692 [54:08<41:36,  2.02it/s] 53%|█████▎    | 5649/10692 [54:08<41:33,  2.02it/s] 53%|█████▎    | 5650/10692 [54:09<41:33,  2.02it/s]{'loss': 3.7007, 'grad_norm': 0.20165057480335236, 'learning_rate': 0.0005376751233952875, 'epoch': 0.53}
+                                                     53%|█████▎    | 5650/10692 [54:09<41:33,  2.02it/s] 53%|█████▎    | 5651/10692 [54:09<41:37,  2.02it/s] 53%|█████▎    | 5652/10692 [54:10<41:35,  2.02it/s] 53%|█████▎    | 5653/10692 [54:10<41:29,  2.02it/s] 53%|█████▎    | 5654/10692 [54:11<41:30,  2.02it/s] 53%|█████▎    | 5655/10692 [54:11<41:30,  2.02it/s] 53%|█████▎    | 5656/10692 [54:12<41:29,  2.02it/s] 53%|█████▎    | 5657/10692 [54:12<41:29,  2.02it/s] 53%|█████▎    | 5658/10692 [54:13<41:30,  2.02it/s] 53%|█████▎    | 5659/10692 [54:13<41:27,  2.02it/s] 53%|█████▎    | 5660/10692 [54:14<41:26,  2.02it/s] 53%|█████▎    | 5661/10692 [54:14<41:23,  2.03it/s] 53%|█████▎    | 5662/10692 [54:15<41:24,  2.02it/s] 53%|█████▎    | 5663/10692 [54:15<41:25,  2.02it/s] 53%|█████▎    | 5664/10692 [54:16<41:27,  2.02it/s] 53%|█████▎    | 5665/10692 [54:16<41:27,  2.02it/s] 53%|█████▎    | 5666/10692 [54:17<41:26,  2.02it/s] 53%|█████▎    | 5667/10692 [54:17<41:27,  2.02it/s] 53%|█████▎    | 5668/10692 [54:18<41:24,  2.02it/s] 53%|█████▎    | 5669/10692 [54:18<41:28,  2.02it/s] 53%|█████▎    | 5670/10692 [54:19<41:25,  2.02it/s] 53%|█████▎    | 5671/10692 [54:19<41:27,  2.02it/s] 53%|█████▎    | 5672/10692 [54:20<41:23,  2.02it/s] 53%|█████▎    | 5673/10692 [54:20<41:22,  2.02it/s] 53%|█████▎    | 5674/10692 [54:21<41:20,  2.02it/s] 53%|█████▎    | 5675/10692 [54:21<41:18,  2.02it/s]{'loss': 3.7002, 'grad_norm': 0.2078782021999359, 'learning_rate': 0.0005336042534678471, 'epoch': 0.53}
+                                                     53%|█████▎    | 5675/10692 [54:21<41:18,  2.02it/s] 53%|█████▎    | 5676/10692 [54:22<41:23,  2.02it/s] 53%|█████▎    | 5677/10692 [54:22<41:21,  2.02it/s] 53%|█████▎    | 5678/10692 [54:23<41:22,  2.02it/s] 53%|█████▎    | 5679/10692 [54:23<41:20,  2.02it/s] 53%|█████▎    | 5680/10692 [54:24<41:21,  2.02it/s] 53%|█████▎    | 5681/10692 [54:24<41:19,  2.02it/s] 53%|█████▎    | 5682/10692 [54:25<41:20,  2.02it/s] 53%|█████▎    | 5683/10692 [54:25<41:17,  2.02it/s] 53%|█████▎    | 5684/10692 [54:26<41:14,  2.02it/s] 53%|█████▎    | 5685/10692 [54:26<41:14,  2.02it/s] 53%|█████▎    | 5686/10692 [54:27<41:14,  2.02it/s] 53%|█████▎    | 5687/10692 [54:27<41:18,  2.02it/s] 53%|█████▎    | 5688/10692 [54:28<41:15,  2.02it/s] 53%|█████▎    | 5689/10692 [54:28<41:18,  2.02it/s] 53%|█████▎    | 5690/10692 [54:29<41:15,  2.02it/s] 53%|█████▎    | 5691/10692 [54:29<41:17,  2.02it/s] 53%|█████▎    | 5692/10692 [54:30<41:14,  2.02it/s] 53%|█████▎    | 5693/10692 [54:30<41:15,  2.02it/s] 53%|█████▎    | 5694/10692 [54:31<41:16,  2.02it/s] 53%|█████▎    | 5695/10692 [54:31<41:16,  2.02it/s] 53%|█████▎    | 5696/10692 [54:32<41:15,  2.02it/s] 53%|█████▎    | 5697/10692 [54:32<41:15,  2.02it/s] 53%|█████▎    | 5698/10692 [54:33<41:11,  2.02it/s] 53%|█████▎    | 5699/10692 [54:33<41:11,  2.02it/s] 53%|█████▎    | 5700/10692 [54:34<41:10,  2.02it/s]{'loss': 3.6898, 'grad_norm': 0.20379801094532013, 'learning_rate': 0.0005295311446084347, 'epoch': 0.53}
+                                                     53%|█████▎    | 5700/10692 [54:34<41:10,  2.02it/s] 53%|█████▎    | 5701/10692 [54:34<41:13,  2.02it/s] 53%|█████▎    | 5702/10692 [54:35<41:11,  2.02it/s] 53%|█████▎    | 5703/10692 [54:35<41:10,  2.02it/s] 53%|█████▎    | 5704/10692 [54:36<41:07,  2.02it/s] 53%|█████▎    | 5705/10692 [54:36<41:09,  2.02it/s] 53%|█████▎    | 5706/10692 [54:37<41:11,  2.02it/s] 53%|█████▎    | 5707/10692 [54:37<41:09,  2.02it/s] 53%|█████▎    | 5708/10692 [54:38<41:07,  2.02it/s] 53%|█████▎    | 5709/10692 [54:38<41:07,  2.02it/s] 53%|█████▎    | 5710/10692 [54:39<41:06,  2.02it/s] 53%|█████▎    | 5711/10692 [54:39<41:07,  2.02it/s] 53%|█████▎    | 5712/10692 [54:40<41:07,  2.02it/s] 53%|█████▎    | 5713/10692 [54:40<41:07,  2.02it/s] 53%|█████▎    | 5714/10692 [54:41<41:05,  2.02it/s] 53%|█████▎    | 5715/10692 [54:41<41:03,  2.02it/s] 53%|█████▎    | 5716/10692 [54:42<41:05,  2.02it/s] 53%|█████▎    | 5717/10692 [54:42<41:05,  2.02it/s] 53%|█████▎    | 5718/10692 [54:43<41:04,  2.02it/s] 53%|█████▎    | 5719/10692 [54:43<41:02,  2.02it/s] 53%|█████▎    | 5720/10692 [54:44<41:04,  2.02it/s] 54%|█████▎    | 5721/10692 [54:44<41:01,  2.02it/s] 54%|█████▎    | 5722/10692 [54:45<40:58,  2.02it/s] 54%|█████▎    | 5723/10692 [54:45<40:56,  2.02it/s] 54%|█████▎    | 5724/10692 [54:46<40:56,  2.02it/s] 54%|█████▎    | 5725/10692 [54:46<40:56,  2.02it/s]{'loss': 3.7025, 'grad_norm': 0.19999435544013977, 'learning_rate': 0.0005254560681938169, 'epoch': 0.54}
+                                                     54%|█████▎    | 5725/10692 [54:46<40:56,  2.02it/s] 54%|█████▎    | 5726/10692 [54:47<41:02,  2.02it/s] 54%|█████▎    | 5727/10692 [54:47<41:00,  2.02it/s] 54%|█████▎    | 5728/10692 [54:48<40:57,  2.02it/s] 54%|█████▎    | 5729/10692 [54:48<40:56,  2.02it/s] 54%|█████▎    | 5730/10692 [54:49<40:56,  2.02it/s] 54%|█████▎    | 5731/10692 [54:49<40:54,  2.02it/s] 54%|█████▎    | 5732/10692 [54:50<40:50,  2.02it/s] 54%|█████▎    | 5733/10692 [54:50<40:51,  2.02it/s] 54%|█████▎    | 5734/10692 [54:51<40:48,  2.02it/s] 54%|█████▎    | 5735/10692 [54:51<40:48,  2.02it/s] 54%|█████▎    | 5736/10692 [54:52<40:48,  2.02it/s] 54%|█████▎    | 5737/10692 [54:52<40:50,  2.02it/s] 54%|█████▎    | 5738/10692 [54:53<40:49,  2.02it/s] 54%|█████▎    | 5739/10692 [54:53<40:51,  2.02it/s] 54%|█████▎    | 5740/10692 [54:54<40:49,  2.02it/s] 54%|█████▎    | 5741/10692 [54:54<40:51,  2.02it/s] 54%|█████▎    | 5742/10692 [54:55<40:48,  2.02it/s] 54%|█████▎    | 5743/10692 [54:55<40:48,  2.02it/s] 54%|█████▎    | 5744/10692 [54:55<40:45,  2.02it/s] 54%|█████▎    | 5745/10692 [54:56<40:48,  2.02it/s] 54%|█████▎    | 5746/10692 [54:56<40:45,  2.02it/s] 54%|█████▍    | 5747/10692 [54:57<40:48,  2.02it/s] 54%|█████▍    | 5748/10692 [54:57<40:42,  2.02it/s] 54%|█████▍    | 5749/10692 [54:58<40:45,  2.02it/s] 54%|█████▍    | 5750/10692 [54:58<40:43,  2.02it/s]{'loss': 3.6956, 'grad_norm': 0.19602930545806885, 'learning_rate': 0.0005213792957318518, 'epoch': 0.54}
+                                                     54%|█████▍    | 5750/10692 [54:58<40:43,  2.02it/s] 54%|█████▍    | 5751/10692 [54:59<40:46,  2.02it/s] 54%|█████▍    | 5752/10692 [54:59<40:44,  2.02it/s] 54%|█████▍    | 5753/10692 [55:00<40:41,  2.02it/s] 54%|█████▍    | 5754/10692 [55:00<40:46,  2.02it/s] 54%|█████▍    | 5755/10692 [55:01<40:48,  2.02it/s] 54%|█████▍    | 5756/10692 [55:01<40:43,  2.02it/s] 54%|█████▍    | 5757/10692 [55:02<40:43,  2.02it/s] 54%|█████▍    | 5758/10692 [55:02<40:42,  2.02it/s] 54%|█████▍    | 5759/10692 [55:03<40:41,  2.02it/s] 54%|█████▍    | 5760/10692 [55:03<40:41,  2.02it/s] 54%|█████▍    | 5761/10692 [55:04<40:39,  2.02it/s] 54%|█████▍    | 5762/10692 [55:04<40:38,  2.02it/s] 54%|█████▍    | 5763/10692 [55:05<40:38,  2.02it/s] 54%|█████▍    | 5764/10692 [55:05<40:38,  2.02it/s] 54%|█████▍    | 5765/10692 [55:06<40:36,  2.02it/s] 54%|█████▍    | 5766/10692 [55:06<40:38,  2.02it/s] 54%|█████▍    | 5767/10692 [55:07<40:36,  2.02it/s] 54%|█████▍    | 5768/10692 [55:07<40:39,  2.02it/s] 54%|█████▍    | 5769/10692 [55:08<40:36,  2.02it/s] 54%|█████▍    | 5770/10692 [55:08<40:36,  2.02it/s] 54%|█████▍    | 5771/10692 [55:09<40:33,  2.02it/s] 54%|█████▍    | 5772/10692 [55:09<40:35,  2.02it/s] 54%|█████▍    | 5773/10692 [55:10<40:32,  2.02it/s] 54%|█████▍    | 5774/10692 [55:10<40:33,  2.02it/s] 54%|█████▍    | 5775/10692 [55:11<40:31,  2.02it/s]{'loss': 3.6955, 'grad_norm': 0.20126423239707947, 'learning_rate': 0.0005173010988433984, 'epoch': 0.54}
+                                                     54%|█████▍    | 5775/10692 [55:11<40:31,  2.02it/s] 54%|█████▍    | 5776/10692 [55:11<40:38,  2.02it/s] 54%|█████▍    | 5777/10692 [55:12<40:34,  2.02it/s] 54%|█████▍    | 5778/10692 [55:12<40:35,  2.02it/s] 54%|█████▍    | 5779/10692 [55:13<40:34,  2.02it/s] 54%|█████▍    | 5780/10692 [55:13<40:33,  2.02it/s] 54%|█████▍    | 5781/10692 [55:14<40:29,  2.02it/s] 54%|█████▍    | 5782/10692 [55:14<40:30,  2.02it/s] 54%|█████▍    | 5783/10692 [55:15<40:26,  2.02it/s] 54%|█████▍    | 5784/10692 [55:15<40:28,  2.02it/s] 54%|█████▍    | 5785/10692 [55:16<40:25,  2.02it/s] 54%|█████▍    | 5786/10692 [55:16<40:28,  2.02it/s] 54%|█████▍    | 5787/10692 [55:17<40:26,  2.02it/s] 54%|█████▍    | 5788/10692 [55:17<40:26,  2.02it/s] 54%|█████▍    | 5789/10692 [55:18<40:27,  2.02it/s] 54%|█████▍    | 5790/10692 [55:18<40:27,  2.02it/s] 54%|█████▍    | 5791/10692 [55:19<40:24,  2.02it/s] 54%|█████▍    | 5792/10692 [55:19<40:28,  2.02it/s] 54%|█████▍    | 5793/10692 [55:20<40:26,  2.02it/s] 54%|█████▍    | 5794/10692 [55:20<40:26,  2.02it/s] 54%|█████▍    | 5795/10692 [55:21<40:20,  2.02it/s] 54%|█████▍    | 5796/10692 [55:21<40:23,  2.02it/s] 54%|█████▍    | 5797/10692 [55:22<40:18,  2.02it/s] 54%|█████▍    | 5798/10692 [55:22<40:20,  2.02it/s] 54%|█████▍    | 5799/10692 [55:23<40:17,  2.02it/s] 54%|█████▍    | 5800/10692 [55:23<40:18,  2.02it/s]{'loss': 3.6907, 'grad_norm': 0.18878942728042603, 'learning_rate': 0.0005132217492442208, 'epoch': 0.54}
+                                                     54%|█████▍    | 5800/10692 [55:23<40:18,  2.02it/s] 54%|█████▍    | 5801/10692 [55:24<40:21,  2.02it/s] 54%|█████▍    | 5802/10692 [55:24<40:22,  2.02it/s] 54%|█████▍    | 5803/10692 [55:25<40:17,  2.02it/s] 54%|█████▍    | 5804/10692 [55:25<40:19,  2.02it/s] 54%|█████▍    | 5805/10692 [55:26<40:16,  2.02it/s] 54%|█████▍    | 5806/10692 [55:26<40:16,  2.02it/s] 54%|█████▍    | 5807/10692 [55:27<40:15,  2.02it/s] 54%|█████▍    | 5808/10692 [55:27<40:15,  2.02it/s] 54%|█████▍    | 5809/10692 [55:28<40:17,  2.02it/s] 54%|█████▍    | 5810/10692 [55:28<40:15,  2.02it/s] 54%|█████▍    | 5811/10692 [55:29<40:17,  2.02it/s] 54%|█████▍    | 5812/10692 [55:29<40:16,  2.02it/s] 54%|█████▍    | 5813/10692 [55:30<40:17,  2.02it/s] 54%|█████▍    | 5814/10692 [55:30<40:15,  2.02it/s] 54%|█████▍    | 5815/10692 [55:31<40:21,  2.01it/s] 54%|█████▍    | 5816/10692 [55:31<40:14,  2.02it/s] 54%|█████▍    | 5817/10692 [55:32<40:14,  2.02it/s] 54%|█████▍    | 5818/10692 [55:32<40:10,  2.02it/s] 54%|█████▍    | 5819/10692 [55:33<40:06,  2.02it/s] 54%|█████▍    | 5820/10692 [55:33<40:08,  2.02it/s] 54%|█████▍    | 5821/10692 [55:34<40:06,  2.02it/s] 54%|█████▍    | 5822/10692 [55:34<40:08,  2.02it/s] 54%|█████▍    | 5823/10692 [55:35<40:05,  2.02it/s] 54%|█████▍    | 5824/10692 [55:35<40:10,  2.02it/s] 54%|█████▍    | 5825/10692 [55:36<40:06,  2.02it/s]{'loss': 3.6943, 'grad_norm': 0.19729499518871307, 'learning_rate': 0.0005091415187268842, 'epoch': 0.54}
+                                                     54%|█████▍    | 5825/10692 [55:36<40:06,  2.02it/s] 54%|█████▍    | 5826/10692 [55:36<40:10,  2.02it/s] 54%|█████▍    | 5827/10692 [55:37<40:07,  2.02it/s] 55%|█████▍    | 5828/10692 [55:37<40:05,  2.02it/s] 55%|█████▍    | 5829/10692 [55:38<40:05,  2.02it/s] 55%|█████▍    | 5830/10692 [55:38<40:04,  2.02it/s] 55%|█████▍    | 5831/10692 [55:39<40:04,  2.02it/s] 55%|█████▍    | 5832/10692 [55:39<40:06,  2.02it/s] 55%|█████▍    | 5833/10692 [55:40<40:04,  2.02it/s] 55%|█████▍    | 5834/10692 [55:40<40:00,  2.02it/s] 55%|█████▍    | 5835/10692 [55:41<40:00,  2.02it/s] 55%|█████▍    | 5836/10692 [55:41<39:58,  2.03it/s] 55%|█████▍    | 5837/10692 [55:42<39:58,  2.02it/s] 55%|█████▍    | 5838/10692 [55:42<39:58,  2.02it/s] 55%|█████▍    | 5839/10692 [55:43<39:59,  2.02it/s] 55%|█████▍    | 5840/10692 [55:43<39:56,  2.02it/s] 55%|█████▍    | 5841/10692 [55:43<39:56,  2.02it/s] 55%|█████▍    | 5842/10692 [55:44<39:56,  2.02it/s] 55%|█████▍    | 5843/10692 [55:44<39:52,  2.03it/s] 55%|█████▍    | 5844/10692 [55:45<39:57,  2.02it/s] 55%|█████▍    | 5845/10692 [55:45<39:52,  2.03it/s] 55%|█████▍    | 5846/10692 [55:46<39:51,  2.03it/s] 55%|█████▍    | 5847/10692 [55:46<39:49,  2.03it/s] 55%|█████▍    | 5848/10692 [55:47<39:49,  2.03it/s] 55%|█████▍    | 5849/10692 [55:47<39:51,  2.02it/s] 55%|█████▍    | 5850/10692 [55:48<39:51,  2.02it/s]{'loss': 3.6862, 'grad_norm': 0.1965387910604477, 'learning_rate': 0.0005050606791426454, 'epoch': 0.55}                                                    
+ 55%|█████▍    | 5850/10692 [55:48<39:51,  2.02it/s] 55%|█████▍    | 5851/10692 [55:48<39:54,  2.02it/s] 55%|█████▍    | 5852/10692 [55:49<39:52,  2.02it/s] 55%|█████▍    | 5853/10692 [55:49<39:53,  2.02it/s] 55%|█████▍    | 5854/10692 [55:50<39:48,  2.03it/s] 55%|█████▍    | 5855/10692 [55:50<39:50,  2.02it/s] 55%|█████▍    | 5856/10692 [55:51<39:46,  2.03it/s] 55%|█████▍    | 5857/10692 [55:51<39:48,  2.02it/s] 55%|█████▍    | 5858/10692 [55:52<39:48,  2.02it/s] 55%|█████▍    | 5859/10692 [55:52<39:49,  2.02it/s] 55%|█████▍    | 5860/10692 [55:53<39:47,  2.02it/s] 55%|█████▍    | 5861/10692 [55:53<39:48,  2.02it/s] 55%|█████▍    | 5862/10692 [55:54<39:45,  2.02it/s] 55%|█████▍    | 5863/10692 [55:54<39:46,  2.02it/s] 55%|█████▍    | 5864/10692 [55:55<39:46,  2.02it/s] 55%|█████▍    | 5865/10692 [55:55<39:45,  2.02it/s] 55%|█████▍    | 5866/10692 [55:56<39:46,  2.02it/s] 55%|█████▍    | 5867/10692 [55:56<39:45,  2.02it/s] 55%|█████▍    | 5868/10692 [55:57<39:46,  2.02it/s] 55%|█████▍    | 5869/10692 [55:57<39:46,  2.02it/s] 55%|█████▍    | 5870/10692 [55:58<39:46,  2.02it/s] 55%|█████▍    | 5871/10692 [55:58<39:42,  2.02it/s] 55%|█████▍    | 5872/10692 [55:59<39:42,  2.02it/s] 55%|█████▍    | 5873/10692 [55:59<39:41,  2.02it/s] 55%|█████▍    | 5874/10692 [56:00<39:40,  2.02it/s] 55%|█████▍    | 5875/10692 [56:00<39:39,  2.02it/s]{'loss': 3.6895, 'grad_norm': 0.2036149948835373, 'learning_rate': 0.0005009795023833421, 'epoch': 0.55}
+                                                     55%|█████▍    | 5875/10692 [56:00<39:39,  2.02it/s] 55%|█████▍    | 5876/10692 [56:01<39:50,  2.01it/s] 55%|█████▍    | 5877/10692 [56:01<39:47,  2.02it/s] 55%|█████▍    | 5878/10692 [56:02<39:43,  2.02it/s] 55%|█████▍    | 5879/10692 [56:02<39:41,  2.02it/s] 55%|█████▍    | 5880/10692 [56:03<39:40,  2.02it/s] 55%|█████▌    | 5881/10692 [56:03<39:39,  2.02it/s] 55%|█████▌    | 5882/10692 [56:04<39:40,  2.02it/s] 55%|█████▌    | 5883/10692 [56:04<39:39,  2.02it/s] 55%|█████▌    | 5884/10692 [56:05<39:41,  2.02it/s] 55%|█████▌    | 5885/10692 [56:05<39:39,  2.02it/s] 55%|█████▌    | 5886/10692 [56:06<39:39,  2.02it/s] 55%|��████▌    | 5887/10692 [56:06<39:37,  2.02it/s] 55%|█████▌    | 5888/10692 [56:07<39:40,  2.02it/s] 55%|█████▌    | 5889/10692 [56:07<39:39,  2.02it/s] 55%|█████▌    | 5890/10692 [56:08<39:39,  2.02it/s] 55%|█████▌    | 5891/10692 [56:08<39:35,  2.02it/s] 55%|█████▌    | 5892/10692 [56:09<39:40,  2.02it/s] 55%|█████▌    | 5893/10692 [56:09<39:35,  2.02it/s] 55%|█████▌    | 5894/10692 [56:10<39:37,  2.02it/s] 55%|█████▌    | 5895/10692 [56:10<39:36,  2.02it/s] 55%|█████▌    | 5896/10692 [56:11<39:36,  2.02it/s] 55%|█████▌    | 5897/10692 [56:11<39:33,  2.02it/s] 55%|█████▌    | 5898/10692 [56:12<39:34,  2.02it/s] 55%|█████▌    | 5899/10692 [56:12<39:31,  2.02it/s] 55%|█████▌    | 5900/10692 [56:13<39:30,  2.02it/s]{'loss': 3.6854, 'grad_norm': 0.19468265771865845, 'learning_rate': 0.0004968982603632765, 'epoch': 0.55}
+                                                     55%|█████▌    | 5900/10692 [56:13<39:30,  2.02it/s] 55%|█████▌    | 5901/10692 [56:13<39:31,  2.02it/s] 55%|█████▌    | 5902/10692 [56:14<39:30,  2.02it/s] 55%|█████▌    | 5903/10692 [56:14<39:27,  2.02it/s] 55%|█████▌    | 5904/10692 [56:15<39:26,  2.02it/s] 55%|█████▌    | 5905/10692 [56:15<39:27,  2.02it/s] 55%|█████▌    | 5906/10692 [56:16<39:26,  2.02it/s] 55%|█████▌    | 5907/10692 [56:16<39:25,  2.02it/s] 55%|█████▌    | 5908/10692 [56:17<39:25,  2.02it/s] 55%|█████▌    | 5909/10692 [56:17<39:26,  2.02it/s] 55%|█████▌    | 5910/10692 [56:18<39:23,  2.02it/s] 55%|█████▌    | 5911/10692 [56:18<39:24,  2.02it/s] 55%|█████▌    | 5912/10692 [56:19<39:22,  2.02it/s] 55%|█████▌    | 5913/10692 [56:19<39:24,  2.02it/s] 55%|█████▌    | 5914/10692 [56:20<39:20,  2.02it/s] 55%|█████▌    | 5915/10692 [56:20<39:21,  2.02it/s] 55%|█████▌    | 5916/10692 [56:21<39:20,  2.02it/s] 55%|█████▌    | 5917/10692 [56:21<39:20,  2.02it/s] 55%|█████▌    | 5918/10692 [56:22<39:19,  2.02it/s] 55%|█████▌    | 5919/10692 [56:22<39:21,  2.02it/s] 55%|█████▌    | 5920/10692 [56:23<39:17,  2.02it/s] 55%|█████▌    | 5921/10692 [56:23<39:20,  2.02it/s] 55%|█████▌    | 5922/10692 [56:24<39:17,  2.02it/s] 55%|█████▌    | 5923/10692 [56:24<39:19,  2.02it/s] 55%|█████▌    | 5924/10692 [56:25<39:14,  2.03it/s] 55%|█████▌    | 5925/10692 [56:25<39:14,  2.02it/s]{'loss': 3.6901, 'grad_norm': 0.19565190374851227, 'learning_rate': 0.0004928172250010987, 'epoch': 0.55}
+                                                     55%|█████▌    | 5925/10692 [56:25<39:14,  2.02it/s] 55%|█████▌    | 5926/10692 [56:26<39:16,  2.02it/s] 55%|█████▌    | 5927/10692 [56:26<39:15,  2.02it/s] 55%|█████▌    | 5928/10692 [56:27<39:16,  2.02it/s] 55%|█████▌    | 5929/10692 [56:27<39:15,  2.02it/s] 55%|█████▌    | 5930/10692 [56:28<39:16,  2.02it/s] 55%|█████▌    | 5931/10692 [56:28<39:15,  2.02it/s] 55%|█████▌    | 5932/10692 [56:28<39:16,  2.02it/s] 55%|█████▌    | 5933/10692 [56:29<39:13,  2.02it/s] 55%|█████▌    | 5934/10692 [56:29<39:12,  2.02it/s] 56%|█████▌    | 5935/10692 [56:30<39:11,  2.02it/s] 56%|█████▌    | 5936/10692 [56:30<39:15,  2.02it/s] 56%|█████▌    | 5937/10692 [56:31<39:17,  2.02it/s] 56%|█████▌    | 5938/10692 [56:31<39:14,  2.02it/s] 56%|█████▌    | 5939/10692 [56:32<39:12,  2.02it/s] 56%|█████▌    | 5940/10692 [56:32<39:10,  2.02it/s] 56%|█████▌    | 5941/10692 [56:33<39:06,  2.02it/s] 56%|█████▌    | 5942/10692 [56:33<39:08,  2.02it/s] 56%|█████▌    | 5943/10692 [56:34<39:04,  2.03it/s] 56%|█████▌    | 5944/10692 [56:34<39:04,  2.02it/s] 56%|█████▌    | 5945/10692 [56:35<39:05,  2.02it/s] 56%|█████▌    | 5946/10692 [56:35<39:03,  2.02it/s] 56%|█████▌    | 5947/10692 [56:36<39:05,  2.02it/s] 56%|█████▌    | 5948/10692 [56:36<39:03,  2.02it/s] 56%|█████▌    | 5949/10692 [56:37<39:04,  2.02it/s] 56%|█████▌    | 5950/10692 [56:37<39:06,  2.02it/s]{'loss': 3.6835, 'grad_norm': 0.20329530537128448, 'learning_rate': 0.0004887366682016899, 'epoch': 0.56}
+                                                     56%|█████▌    | 5950/10692 [56:37<39:06,  2.02it/s] 56%|█████▌    | 5951/10692 [56:38<39:10,  2.02it/s] 56%|█████▌    | 5952/10692 [56:38<39:08,  2.02it/s] 56%|█████▌    | 5953/10692 [56:39<39:04,  2.02it/s] 56%|█████▌    | 5954/10692 [56:39<39:06,  2.02it/s] 56%|█████▌    | 5955/10692 [56:40<39:03,  2.02it/s] 56%|█████▌    | 5956/10692 [56:40<38:59,  2.02it/s] 56%|█████▌    | 5957/10692 [56:41<39:01,  2.02it/s] 56%|█████▌    | 5958/10692 [56:41<38:58,  2.02it/s] 56%|█████▌    | 5959/10692 [56:42<38:58,  2.02it/s] 56%|█████▌    | 5960/10692 [56:42<38:59,  2.02it/s] 56%|█████▌    | 5961/10692 [56:43<38:57,  2.02it/s] 56%|█████▌    | 5962/10692 [56:43<38:57,  2.02it/s] 56%|█████▌    | 5963/10692 [56:44<38:58,  2.02it/s] 56%|█████▌    | 5964/10692 [56:44<38:56,  2.02it/s] 56%|█████▌    | 5965/10692 [56:45<38:57,  2.02it/s] 56%|█████▌    | 5966/10692 [56:45<38:56,  2.02it/s] 56%|█████▌    | 5967/10692 [56:46<38:54,  2.02it/s] 56%|█████▌    | 5968/10692 [56:46<38:55,  2.02it/s] 56%|█████▌    | 5969/10692 [56:47<38:53,  2.02it/s] 56%|█████▌    | 5970/10692 [56:47<38:56,  2.02it/s] 56%|█████▌    | 5971/10692 [56:48<38:55,  2.02it/s] 56%|█████▌    | 5972/10692 [56:48<38:56,  2.02it/s] 56%|█████▌    | 5973/10692 [56:49<38:55,  2.02it/s] 56%|█████▌    | 5974/10692 [56:49<38:53,  2.02it/s] 56%|█████▌    | 5975/10692 [56:50<38:53,  2.02it/s]{'loss': 3.6854, 'grad_norm': 0.19977547228336334, 'learning_rate': 0.0004846568618380466, 'epoch': 0.56}
+                                                     56%|█████▌    | 5975/10692 [56:50<38:53,  2.02it/s] 56%|█████▌    | 5976/10692 [56:50<38:54,  2.02it/s] 56%|█████▌    | 5977/10692 [56:51<38:52,  2.02it/s] 56%|█████▌    | 5978/10692 [56:51<38:52,  2.02it/s] 56%|█████▌    | 5979/10692 [56:52<38:50,  2.02it/s] 56%|█████▌    | 5980/10692 [56:52<38:54,  2.02it/s] 56%|█████▌    | 5981/10692 [56:53<38:54,  2.02it/s] 56%|█████▌    | 5982/10692 [56:53<38:51,  2.02it/s] 56%|█████▌    | 5983/10692 [56:54<38:51,  2.02it/s] 56%|█████▌    | 5984/10692 [56:54<38:49,  2.02it/s] 56%|█████▌    | 5985/10692 [56:55<38:50,  2.02it/s] 56%|█████▌    | 5986/10692 [56:55<38:49,  2.02it/s] 56%|█████▌    | 5987/10692 [56:56<38:48,  2.02it/s] 56%|█████▌    | 5988/10692 [56:56<38:46,  2.02it/s] 56%|█████▌    | 5989/10692 [56:57<38:44,  2.02it/s] 56%|█████▌    | 5990/10692 [56:57<38:47,  2.02it/s] 56%|█████▌    | 5991/10692 [56:58<38:46,  2.02it/s] 56%|█████▌    | 5992/10692 [56:58<38:45,  2.02it/s] 56%|█████▌    | 5993/10692 [56:59<38:45,  2.02it/s] 56%|█████▌    | 5994/10692 [56:59<38:44,  2.02it/s] 56%|█████▌    | 5995/10692 [57:00<38:44,  2.02it/s] 56%|█████▌    | 5996/10692 [57:00<38:44,  2.02it/s] 56%|█████▌    | 5997/10692 [57:01<38:49,  2.02it/s] 56%|█████▌    | 5998/10692 [57:01<38:47,  2.02it/s] 56%|█████▌    | 5999/10692 [57:02<38:44,  2.02it/s] 56%|█████▌    | 6000/10692 [57:02<38:39,  2.02it/s]{'loss': 3.6791, 'grad_norm': 0.2040417641401291, 'learning_rate': 0.0004805780777331662, 'epoch': 0.56}
+                                                     56%|█████▌    | 6000/10692 [57:02<38:39,  2.02it/s] 56%|█████▌    | 6001/10692 [57:03<38:43,  2.02it/s] 56%|█████▌    | 6002/10692 [57:03<38:41,  2.02it/s] 56%|█████▌    | 6003/10692 [57:04<38:41,  2.02it/s] 56%|█████▌    | 6004/10692 [57:04<38:39,  2.02it/s] 56%|█████▌    | 6005/10692 [57:05<38:39,  2.02it/s] 56%|█████▌    | 6006/10692 [57:05<38:37,  2.02it/s] 56%|█████▌    | 6007/10692 [57:06<38:38,  2.02it/s] 56%|█████▌    | 6008/10692 [57:06<38:34,  2.02it/s] 56%|█████▌    | 6009/10692 [57:07<38:35,  2.02it/s] 56%|█████▌    | 6010/10692 [57:07<38:34,  2.02it/s] 56%|█████▌    | 6011/10692 [57:08<38:34,  2.02it/s] 56%|█████▌    | 6012/10692 [57:08<38:34,  2.02it/s] 56%|█████▌    | 6013/10692 [57:09<38:34,  2.02it/s] 56%|█████▌    | 6014/10692 [57:09<38:30,  2.02it/s] 56%|█████▋    | 6015/10692 [57:10<38:30,  2.02it/s] 56%|█████▋    | 6016/10692 [57:10<38:29,  2.02it/s] 56%|█████▋    | 6017/10692 [57:11<38:28,  2.03it/s] 56%|█████▋    | 6018/10692 [57:11<38:32,  2.02it/s] 56%|█████▋    | 6019/10692 [57:12<38:32,  2.02it/s] 56%|█████▋    | 6020/10692 [57:12<38:31,  2.02it/s] 56%|█████▋    | 6021/10692 [57:13<38:29,  2.02it/s] 56%|█████▋    | 6022/10692 [57:13<38:29,  2.02it/s] 56%|█████▋    | 6023/10692 [57:14<38:27,  2.02it/s] 56%|█████▋    | 6024/10692 [57:14<38:28,  2.02it/s] 56%|█████▋    | 6025/10692 [57:14<38:28,  2.02it/s]{'loss': 3.6871, 'grad_norm': 0.19405929744243622, 'learning_rate': 0.0004765005876419368, 'epoch': 0.56}
+                                                     56%|█████▋    | 6025/10692 [57:15<38:28,  2.02it/s] 56%|█████▋    | 6026/10692 [57:15<38:32,  2.02it/s] 56%|█████▋    | 6027/10692 [57:15<38:30,  2.02it/s] 56%|█████▋    | 6028/10692 [57:16<38:29,  2.02it/s] 56%|█████▋    | 6029/10692 [57:16<38:28,  2.02it/s] 56%|█████▋    | 6030/10692 [57:17<38:29,  2.02it/s] 56%|█████▋    | 6031/10692 [57:17<38:27,  2.02it/s] 56%|█████▋    | 6032/10692 [57:18<38:27,  2.02it/s] 56%|█████▋    | 6033/10692 [57:18<38:23,  2.02it/s] 56%|█████▋    | 6034/10692 [57:19<38:26,  2.02it/s] 56%|█████▋    | 6035/10692 [57:19<38:25,  2.02it/s] 56%|█████▋    | 6036/10692 [57:20<38:26,  2.02it/s] 56%|█████▋    | 6037/10692 [57:20<38:19,  2.02it/s] 56%|█████▋    | 6038/10692 [57:21<38:21,  2.02it/s] 56%|█████▋    | 6039/10692 [57:21<38:18,  2.02it/s] 56%|█████▋    | 6040/10692 [57:22<38:18,  2.02it/s] 57%|█████▋    | 6041/10692 [57:22<38:21,  2.02it/s] 57%|█████▋    | 6042/10692 [57:23<38:19,  2.02it/s] 57%|█████▋    | 6043/10692 [57:23<38:21,  2.02it/s] 57%|█████▋    | 6044/10692 [57:24<38:19,  2.02it/s] 57%|█████▋    | 6045/10692 [57:24<38:19,  2.02it/s] 57%|█████▋    | 6046/10692 [57:25<38:17,  2.02it/s] 57%|█████▋    | 6047/10692 [57:25<38:17,  2.02it/s] 57%|█████▋    | 6048/10692 [57:26<38:15,  2.02it/s] 57%|█████▋    | 6049/10692 [57:26<38:16,  2.02it/s] 57%|█████▋    | 6050/10692 [57:27<38:14,  2.02it/s]{'loss': 3.6838, 'grad_norm': 0.19439108669757843, 'learning_rate': 0.00047242466323303104, 'epoch': 0.57}
+                                                     57%|█████▋    | 6050/10692 [57:27<38:14,  2.02it/s] 57%|█████▋    | 6051/10692 [57:27<38:18,  2.02it/s] 57%|█████▋    | 6052/10692 [57:28<38:13,  2.02it/s] 57%|█████▋    | 6053/10692 [57:28<38:15,  2.02it/s] 57%|█████▋    | 6054/10692 [57:29<38:10,  2.02it/s] 57%|█████▋    | 6055/10692 [57:29<38:12,  2.02it/s] 57%|█████▋    | 6056/10692 [57:30<38:10,  2.02it/s] 57%|█████▋    | 6057/10692 [57:30<38:13,  2.02it/s] 57%|█████▋    | 6058/10692 [57:31<38:16,  2.02it/s] 57%|█████▋    | 6059/10692 [57:31<38:16,  2.02it/s] 57%|█████▋    | 6060/10692 [57:32<38:11,  2.02it/s] 57%|█████▋    | 6061/10692 [57:32<38:12,  2.02it/s] 57%|█████▋    | 6062/10692 [57:33<38:08,  2.02it/s] 57%|█████▋    | 6063/10692 [57:33<38:10,  2.02it/s] 57%|█████▋    | 6064/10692 [57:34<38:06,  2.02it/s] 57%|█████▋    | 6065/10692 [57:34<38:07,  2.02it/s] 57%|█████▋    | 6066/10692 [57:35<38:04,  2.02it/s] 57%|█████▋    | 6067/10692 [57:36<44:18,  1.74it/s] 57%|█████▋    | 6068/10692 [57:36<42:26,  1.82it/s] 57%|█████▋    | 6069/10692 [57:37<41:11,  1.87it/s] 57%|█████▋    | 6070/10692 [57:37<40:15,  1.91it/s] 57%|█████▋    | 6071/10692 [57:38<39:38,  1.94it/s] 57%|█████▋    | 6072/10692 [57:38<39:08,  1.97it/s] 57%|█████▋    | 6073/10692 [57:39<38:49,  1.98it/s] 57%|█████▋    | 6074/10692 [57:39<38:36,  1.99it/s] 57%|█████▋    | 6075/10692 [57:40<38:28,  2.00it/s]{'loss': 3.6784, 'grad_norm': 0.21253053843975067, 'learning_rate': 0.00046835057607080545, 'epoch': 0.57}
+                                                     57%|█████▋    | 6075/10692 [57:40<38:28,  2.00it/s] 57%|█████▋    | 6076/10692 [57:40<38:25,  2.00it/s] 57%|█████▋    | 6077/10692 [57:40<38:18,  2.01it/s] 57%|█████▋    | 6078/10692 [57:41<38:14,  2.01it/s] 57%|█████▋    | 6079/10692 [57:41<38:10,  2.01it/s] 57%|█████▋    | 6080/10692 [57:42<38:08,  2.02it/s] 57%|█████▋    | 6081/10692 [57:42<38:06,  2.02it/s] 57%|█████▋    | 6082/10692 [57:43<38:01,  2.02it/s] 57%|█████▋    | 6083/10692 [57:43<38:02,  2.02it/s] 57%|█████▋    | 6084/10692 [57:44<37:59,  2.02it/s] 57%|█████▋    | 6085/10692 [57:44<37:58,  2.02it/s] 57%|█████▋    | 6086/10692 [57:45<37:58,  2.02it/s] 57%|█████▋    | 6087/10692 [57:45<37:58,  2.02it/s] 57%|█████▋    | 6088/10692 [57:46<37:58,  2.02it/s] 57%|█████▋    | 6089/10692 [57:46<37:55,  2.02it/s] 57%|█████▋    | 6090/10692 [57:47<37:58,  2.02it/s] 57%|█████▋    | 6091/10692 [57:47<37:57,  2.02it/s] 57%|█████▋    | 6092/10692 [57:48<44:09,  1.74it/s] 57%|█████▋    | 6093/10692 [57:49<42:13,  1.82it/s] 57%|█████▋    | 6094/10692 [57:49<40:55,  1.87it/s] 57%|█████▋    | 6095/10692 [57:50<39:58,  1.92it/s] 57%|█████▋    | 6096/10692 [57:50<39:19,  1.95it/s] 57%|█████▋    | 6097/10692 [57:51<38:54,  1.97it/s] 57%|█████▋    | 6098/10692 [57:51<38:31,  1.99it/s] 57%|█████▋    | 6099/10692 [57:52<38:21,  2.00it/s] 57%|█████▋    | 6100/10692 [57:52<38:10,  2.01it/s]{'loss': 3.6713, 'grad_norm': 0.19287295639514923, 'learning_rate': 0.0004642785975972075, 'epoch': 0.57}
+                                                     57%|█████▋    | 6100/10692 [57:52<38:10,  2.01it/s] 57%|█████▋    | 6101/10692 [57:53<38:09,  2.01it/s] 57%|█████▋    | 6102/10692 [57:53<38:03,  2.01it/s] 57%|█████▋    | 6103/10692 [57:54<38:01,  2.01it/s] 57%|█████▋    | 6104/10692 [57:54<37:56,  2.02it/s] 57%|█████▋    | 6105/10692 [57:55<37:54,  2.02it/s] 57%|█████▋    | 6106/10692 [57:55<37:52,  2.02it/s] 57%|█████▋    | 6107/10692 [57:56<37:50,  2.02it/s] 57%|█████▋    | 6108/10692 [57:56<37:50,  2.02it/s] 57%|█████▋    | 6109/10692 [57:57<37:48,  2.02it/s] 57%|█████▋    | 6110/10692 [57:57<37:46,  2.02it/s] 57%|█████▋    | 6111/10692 [57:58<37:47,  2.02it/s] 57%|█████▋    | 6112/10692 [57:58<37:45,  2.02it/s] 57%|█████▋    | 6113/10692 [57:59<37:44,  2.02it/s] 57%|█████▋    | 6114/10692 [57:59<37:42,  2.02it/s] 57%|█████▋    | 6115/10692 [58:00<37:44,  2.02it/s] 57%|█████▋    | 6116/10692 [58:00<37:42,  2.02it/s] 57%|█████▋    | 6117/10692 [58:01<37:46,  2.02it/s] 57%|█████▋    | 6118/10692 [58:01<37:46,  2.02it/s] 57%|█████▋    | 6119/10692 [58:02<37:44,  2.02it/s] 57%|█████▋    | 6120/10692 [58:02<37:42,  2.02it/s] 57%|█████▋    | 6121/10692 [58:03<37:41,  2.02it/s] 57%|█████▋    | 6122/10692 [58:03<37:38,  2.02it/s] 57%|█████▋    | 6123/10692 [58:04<37:42,  2.02it/s] 57%|█████▋    | 6124/10692 [58:04<37:40,  2.02it/s] 57%|█████▋    | 6125/10692 [58:05<37:40,  2.02it/s]                                                    {'loss': 3.6785, 'grad_norm': 0.20159471035003662, 'learning_rate': 0.0004602089991136901, 'epoch': 0.57}
+ 57%|█████▋    | 6125/10692 [58:05<37:40,  2.02it/s] 57%|█████▋    | 6126/10692 [58:05<37:44,  2.02it/s] 57%|█████▋    | 6127/10692 [58:06<37:40,  2.02it/s] 57%|█████▋    | 6128/10692 [58:06<37:35,  2.02it/s] 57%|█████▋    | 6129/10692 [58:06<37:36,  2.02it/s] 57%|█████▋    | 6130/10692 [58:07<37:33,  2.02it/s] 57%|█████▋    | 6131/10692 [58:07<37:35,  2.02it/s] 57%|█████▋    | 6132/10692 [58:08<37:32,  2.02it/s] 57%|█████▋    | 6133/10692 [58:08<37:33,  2.02it/s] 57%|█████▋    | 6134/10692 [58:09<37:32,  2.02it/s] 57%|█████▋    | 6135/10692 [58:09<37:35,  2.02it/s] 57%|█████▋    | 6136/10692 [58:10<37:31,  2.02it/s] 57%|█████▋    | 6137/10692 [58:10<37:30,  2.02it/s] 57%|█████▋    | 6138/10692 [58:11<37:28,  2.03it/s] 57%|█████▋    | 6139/10692 [58:11<37:30,  2.02it/s] 57%|█████▋    | 6140/10692 [58:12<37:28,  2.02it/s] 57%|█████▋    | 6141/10692 [58:12<37:30,  2.02it/s] 57%|█████▋    | 6142/10692 [58:13<37:27,  2.02it/s] 57%|█████▋    | 6143/10692 [58:13<37:26,  2.02it/s] 57%|█████▋    | 6144/10692 [58:14<37:28,  2.02it/s] 57%|█████▋    | 6145/10692 [58:14<37:26,  2.02it/s] 57%|█████▋    | 6146/10692 [58:15<37:29,  2.02it/s] 57%|█████▋    | 6147/10692 [58:15<37:26,  2.02it/s] 58%|█████▊    | 6148/10692 [58:16<37:27,  2.02it/s] 58%|█████▊    | 6149/10692 [58:16<37:24,  2.02it/s] 58%|█████▊    | 6150/10692 [58:17<37:27,  2.02it/s]{'loss': 3.6755, 'grad_norm': 0.20027710497379303, 'learning_rate': 0.00045614205176313624, 'epoch': 0.58}
+                                                     58%|█████▊    | 6150/10692 [58:17<37:27,  2.02it/s] 58%|█████▊    | 6151/10692 [58:17<37:29,  2.02it/s] 58%|█████▊    | 6152/10692 [58:18<37:28,  2.02it/s] 58%|█████▊    | 6153/10692 [58:18<37:23,  2.02it/s] 58%|█████▊    | 6154/10692 [58:19<37:23,  2.02it/s] 58%|█████▊    | 6155/10692 [58:19<37:22,  2.02it/s] 58%|█████▊    | 6156/10692 [58:20<37:24,  2.02it/s] 58%|█████▊    | 6157/10692 [58:20<37:20,  2.02it/s] 58%|█████▊    | 6158/10692 [58:21<37:22,  2.02it/s] 58%|█████▊    | 6159/10692 [58:21<37:22,  2.02it/s] 58%|█████▊    | 6160/10692 [58:22<37:21,  2.02it/s] 58%|█████▊    | 6161/10692 [58:22<37:24,  2.02it/s] 58%|█████▊    | 6162/10692 [58:23<37:21,  2.02it/s] 58%|█████▊    | 6163/10692 [58:23<37:22,  2.02it/s] 58%|█████▊    | 6164/10692 [58:24<37:18,  2.02it/s] 58%|█████▊    | 6165/10692 [58:24<37:19,  2.02it/s] 58%|█████▊    | 6166/10692 [58:25<37:18,  2.02it/s] 58%|█████▊    | 6167/10692 [58:25<37:17,  2.02it/s] 58%|█████▊    | 6168/10692 [58:26<37:14,  2.02it/s] 58%|█████▊    | 6169/10692 [58:26<37:15,  2.02it/s] 58%|█████▊    | 6170/10692 [58:27<37:15,  2.02it/s] 58%|█████▊    | 6171/10692 [58:27<37:12,  2.03it/s] 58%|█████▊    | 6172/10692 [58:28<37:13,  2.02it/s] 58%|█████▊    | 6173/10692 [58:28<37:11,  2.02it/s] 58%|█████▊    | 6174/10692 [58:29<37:13,  2.02it/s] 58%|█████▊    | 6175/10692 [58:29<37:12,  2.02it/s]{'loss': 3.6694, 'grad_norm': 0.18923136591911316, 'learning_rate': 0.00045207802651179305, 'epoch': 0.58}                                                    
+ 58%|█████▊    | 6175/10692 [58:29<37:12,  2.02it/s] 58%|█████▊    | 6176/10692 [58:30<37:20,  2.02it/s] 58%|█████▊    | 6177/10692 [58:30<37:15,  2.02it/s] 58%|█████▊    | 6178/10692 [58:31<37:21,  2.01it/s] 58%|█████▊    | 6179/10692 [58:31<37:15,  2.02it/s] 58%|█████▊    | 6180/10692 [58:32<37:12,  2.02it/s] 58%|█████▊    | 6181/10692 [58:32<37:09,  2.02it/s] 58%|█████▊    | 6182/10692 [58:33<37:08,  2.02it/s] 58%|█████▊    | 6183/10692 [58:33<37:07,  2.02it/s] 58%|█████▊    | 6184/10692 [58:34<37:09,  2.02it/s] 58%|█████▊    | 6185/10692 [58:34<37:07,  2.02it/s] 58%|█████▊    | 6186/10692 [58:35<37:08,  2.02it/s] 58%|█████▊    | 6187/10692 [58:35<37:06,  2.02it/s] 58%|█████▊    | 6188/10692 [58:36<37:06,  2.02it/s] 58%|█████▊    | 6189/10692 [58:36<37:05,  2.02it/s] 58%|█████▊    | 6190/10692 [58:37<37:05,  2.02it/s] 58%|█████▊    | 6191/10692 [58:37<37:04,  2.02it/s] 58%|█████▊    | 6192/10692 [58:38<37:00,  2.03it/s] 58%|█████▊    | 6193/10692 [58:38<37:04,  2.02it/s] 58%|█████▊    | 6194/10692 [58:39<37:02,  2.02it/s] 58%|█████▊    | 6195/10692 [58:39<37:04,  2.02it/s] 58%|█████▊    | 6196/10692 [58:40<37:02,  2.02it/s] 58%|█████▊    | 6197/10692 [58:40<37:04,  2.02it/s] 58%|█████▊    | 6198/10692 [58:41<37:01,  2.02it/s] 58%|█████▊    | 6199/10692 [58:41<37:00,  2.02it/s] 58%|█████▊    | 6200/10692 [58:42<36:57,  2.03it/s]{'loss': 3.6723, 'grad_norm': 0.1953965276479721, 'learning_rate': 0.0004480171941312186, 'epoch': 0.58}                                                    
+ 58%|█████▊    | 6200/10692 [58:42<36:57,  2.03it/s] 58%|█████▊    | 6201/10692 [58:42<37:01,  2.02it/s] 58%|█████▊    | 6202/10692 [58:43<37:01,  2.02it/s] 58%|█████▊    | 6203/10692 [58:43<37:01,  2.02it/s] 58%|█████▊    | 6204/10692 [58:44<36:59,  2.02it/s] 58%|█████▊    | 6205/10692 [58:44<37:00,  2.02it/s] 58%|█████▊    | 6206/10692 [58:45<37:00,  2.02it/s] 58%|█████▊    | 6207/10692 [58:45<36:58,  2.02it/s] 58%|█████▊    | 6208/10692 [58:46<36:56,  2.02it/s] 58%|█████▊    | 6209/10692 [58:46<36:55,  2.02it/s] 58%|█████▊    | 6210/10692 [58:47<36:57,  2.02it/s] 58%|█████▊    | 6211/10692 [58:47<36:54,  2.02it/s] 58%|█████▊    | 6212/10692 [58:48<36:57,  2.02it/s] 58%|█████▊    | 6213/10692 [58:48<36:53,  2.02it/s] 58%|█████▊    | 6214/10692 [58:49<36:52,  2.02it/s] 58%|█████▊    | 6215/10692 [58:49<36:51,  2.02it/s] 58%|█████▊    | 6216/10692 [58:50<36:50,  2.03it/s] 58%|█████▊    | 6217/10692 [58:50<36:51,  2.02it/s] 58%|█████▊    | 6218/10692 [58:50<36:48,  2.03it/s] 58%|█████▊    | 6219/10692 [58:51<36:48,  2.02it/s] 58%|█████▊    | 6220/10692 [58:51<36:50,  2.02it/s] 58%|█████▊    | 6221/10692 [58:52<36:49,  2.02it/s] 58%|█████▊    | 6222/10692 [58:52<36:51,  2.02it/s] 58%|█████▊    | 6223/10692 [58:53<36:48,  2.02it/s] 58%|█████▊    | 6224/10692 [58:53<36:49,  2.02it/s] 58%|█████▊    | 6225/10692 [58:54<36:48,  2.02it/s]{'loss': 3.6737, 'grad_norm': 0.2007298767566681, 'learning_rate': 0.0004439598251802412, 'epoch': 0.58}
+                                                     58%|█████▊    | 6225/10692 [58:54<36:48,  2.02it/s] 58%|█████▊    | 6226/10692 [58:54<36:52,  2.02it/s] 58%|█████▊    | 6227/10692 [58:55<36:50,  2.02it/s] 58%|█████▊    | 6228/10692 [58:55<36:46,  2.02it/s] 58%|█████▊    | 6229/10692 [58:56<36:46,  2.02it/s] 58%|█████▊    | 6230/10692 [58:56<36:43,  2.02it/s] 58%|█████▊    | 6231/10692 [58:57<36:44,  2.02it/s] 58%|█████▊    | 6232/10692 [58:57<36:46,  2.02it/s] 58%|█████▊    | 6233/10692 [58:58<36:44,  2.02it/s] 58%|█████▊    | 6234/10692 [58:58<36:44,  2.02it/s] 58%|█████▊    | 6235/10692 [58:59<36:40,  2.03it/s] 58%|█████▊    | 6236/10692 [58:59<36:43,  2.02it/s] 58%|█████▊    | 6237/10692 [59:00<36:39,  2.03it/s] 58%|█████▊    | 6238/10692 [59:00<36:43,  2.02it/s] 58%|█████▊    | 6239/10692 [59:01<36:45,  2.02it/s] 58%|█████▊    | 6240/10692 [59:01<36:45,  2.02it/s] 58%|█████▊    | 6241/10692 [59:02<36:39,  2.02it/s] 58%|█████▊    | 6242/10692 [59:02<36:41,  2.02it/s] 58%|█████▊    | 6243/10692 [59:03<36:38,  2.02it/s] 58%|█████▊    | 6244/10692 [59:03<36:42,  2.02it/s] 58%|█████▊    | 6245/10692 [59:04<36:39,  2.02it/s] 58%|█████▊    | 6246/10692 [59:04<36:38,  2.02it/s] 58%|█████▊    | 6247/10692 [59:05<36:36,  2.02it/s] 58%|█████▊    | 6248/10692 [59:05<36:36,  2.02it/s] 58%|█████▊    | 6249/10692 [59:06<36:34,  2.02it/s] 58%|█████▊    | 6250/10692 [59:06<36:35,  2.02it/s]{'loss': 3.6688, 'grad_norm': 0.1997828185558319, 'learning_rate': 0.0004399061899869333, 'epoch': 0.58}
+                                                     58%|█████▊    | 6250/10692 [59:06<36:35,  2.02it/s] 58%|█████▊    | 6251/10692 [59:07<36:35,  2.02it/s] 58%|█████▊    | 6252/10692 [59:07<36:37,  2.02it/s] 58%|█████▊    | 6253/10692 [59:08<36:33,  2.02it/s] 58%|█████▊    | 6254/10692 [59:08<36:33,  2.02it/s] 59%|█████▊    | 6255/10692 [59:09<36:33,  2.02it/s] 59%|█████▊    | 6256/10692 [59:09<36:30,  2.03it/s] 59%|█████▊    | 6257/10692 [59:10<36:30,  2.03it/s] 59%|█████▊    | 6258/10692 [59:10<36:28,  2.03it/s] 59%|█████▊    | 6259/10692 [59:11<36:29,  2.02it/s] 59%|█████▊    | 6260/10692 [59:11<36:27,  2.03it/s] 59%|█████▊    | 6261/10692 [59:12<36:29,  2.02it/s] 59%|█████▊    | 6262/10692 [59:12<36:26,  2.03it/s] 59%|█████▊    | 6263/10692 [59:13<36:28,  2.02it/s] 59%|█████▊    | 6264/10692 [59:13<36:26,  2.02it/s] 59%|█████▊    | 6265/10692 [59:14<36:27,  2.02it/s] 59%|█████▊    | 6266/10692 [59:14<36:25,  2.03it/s] 59%|█████▊    | 6267/10692 [59:15<36:23,  2.03it/s] 59%|█████▊    | 6268/10692 [59:15<36:24,  2.03it/s] 59%|█████▊    | 6269/10692 [59:16<36:21,  2.03it/s] 59%|█████▊    | 6270/10692 [59:16<36:22,  2.03it/s] 59%|█████▊    | 6271/10692 [59:17<36:21,  2.03it/s] 59%|█████▊    | 6272/10692 [59:17<36:22,  2.03it/s] 59%|█████▊    | 6273/10692 [59:18<36:21,  2.03it/s] 59%|█████▊    | 6274/10692 [59:18<36:23,  2.02it/s] 59%|█████▊    | 6275/10692 [59:19<36:21,  2.03it/s]{'loss': 3.6668, 'grad_norm': 0.20171129703521729, 'learning_rate': 0.0004358565586306007, 'epoch': 0.59}
+                                                     59%|█████▊    | 6275/10692 [59:19<36:21,  2.03it/s] 59%|█████▊    | 6276/10692 [59:19<36:27,  2.02it/s] 59%|█████▊    | 6277/10692 [59:20<36:22,  2.02it/s] 59%|█████▊    | 6278/10692 [59:20<36:21,  2.02it/s] 59%|█████▊    | 6279/10692 [59:21<36:20,  2.02it/s] 59%|█████▊    | 6280/10692 [59:21<36:19,  2.02it/s] 59%|█████▊    | 6281/10692 [59:22<36:18,  2.02it/s] 59%|█████▉    | 6282/10692 [59:22<36:16,  2.03it/s] 59%|█████▉    | 6283/10692 [59:23<36:17,  2.02it/s] 59%|█████▉    | 6284/10692 [59:23<36:16,  2.03it/s] 59%|█████▉    | 6285/10692 [59:24<36:17,  2.02it/s] 59%|█████▉    | 6286/10692 [59:24<36:16,  2.02it/s] 59%|█████▉    | 6287/10692 [59:25<36:17,  2.02it/s] 59%|█████▉    | 6288/10692 [59:25<36:14,  2.03it/s] 59%|█████▉    | 6289/10692 [59:26<36:14,  2.02it/s] 59%|█████▉    | 6290/10692 [59:26<36:15,  2.02it/s] 59%|█████▉    | 6291/10692 [59:27<36:15,  2.02it/s] 59%|█████▉    | 6292/10692 [59:27<36:15,  2.02it/s] 59%|█████▉    | 6293/10692 [59:28<36:13,  2.02it/s] 59%|█████▉    | 6294/10692 [59:28<36:13,  2.02it/s] 59%|█████▉    | 6295/10692 [59:29<36:12,  2.02it/s] 59%|█████▉    | 6296/10692 [59:29<36:12,  2.02it/s] 59%|█████▉    | 6297/10692 [59:30<36:13,  2.02it/s] 59%|█████▉    | 6298/10692 [59:30<36:13,  2.02it/s] 59%|█████▉    | 6299/10692 [59:31<36:14,  2.02it/s] 59%|█████▉    | 6300/10692 [59:31<36:16,  2.02it/s]                                                    {'loss': 3.6669, 'grad_norm': 0.19253318011760712, 'learning_rate': 0.0004318112009237871, 'epoch': 0.59}
+ 59%|█████▉    | 6300/10692 [59:31<36:16,  2.02it/s] 59%|█████▉    | 6301/10692 [59:32<36:16,  2.02it/s] 59%|█████▉    | 6302/10692 [59:32<36:15,  2.02it/s] 59%|█████▉    | 6303/10692 [59:33<36:15,  2.02it/s] 59%|█████▉    | 6304/10692 [59:33<36:13,  2.02it/s] 59%|█████▉    | 6305/10692 [59:34<36:11,  2.02it/s] 59%|█████▉    | 6306/10692 [59:34<36:10,  2.02it/s] 59%|█████▉    | 6307/10692 [59:34<36:08,  2.02it/s] 59%|█████▉    | 6308/10692 [59:35<36:07,  2.02it/s] 59%|█████▉    | 6309/10692 [59:35<36:06,  2.02it/s] 59%|█████▉    | 6310/10692 [59:36<36:03,  2.03it/s] 59%|█████▉    | 6311/10692 [59:36<36:06,  2.02it/s] 59%|█████▉    | 6312/10692 [59:37<36:03,  2.02it/s] 59%|█████▉    | 6313/10692 [59:37<36:04,  2.02it/s] 59%|█████▉    | 6314/10692 [59:38<36:03,  2.02it/s] 59%|█████▉    | 6315/10692 [59:38<36:04,  2.02it/s] 59%|█████▉    | 6316/10692 [59:39<36:03,  2.02it/s] 59%|█████▉    | 6317/10692 [59:39<36:03,  2.02it/s] 59%|█████▉    | 6318/10692 [59:40<36:02,  2.02it/s] 59%|█████▉    | 6319/10692 [59:40<36:00,  2.02it/s] 59%|█████▉    | 6320/10692 [59:41<35:58,  2.03it/s] 59%|█████▉    | 6321/10692 [59:41<35:56,  2.03it/s] 59%|█████▉    | 6322/10692 [59:42<35:58,  2.02it/s] 59%|█████▉    | 6323/10692 [59:42<35:55,  2.03it/s] 59%|█████▉    | 6324/10692 [59:43<35:57,  2.02it/s] 59%|█████▉    | 6325/10692 [59:43<35:56,  2.03it/s]                                                    {'loss': 3.6652, 'grad_norm': 0.19637160003185272, 'learning_rate': 0.0004277703863942986, 'epoch': 0.59}
+ 59%|█████▉    | 6325/10692 [59:43<35:56,  2.03it/s] 59%|█████▉    | 6326/10692 [59:44<36:00,  2.02it/s] 59%|█████▉    | 6327/10692 [59:44<35:58,  2.02it/s] 59%|█████▉    | 6328/10692 [59:45<35:58,  2.02it/s] 59%|█████▉    | 6329/10692 [59:45<35:56,  2.02it/s] 59%|█████▉    | 6330/10692 [59:46<35:56,  2.02it/s] 59%|█████▉    | 6331/10692 [59:46<35:54,  2.02it/s] 59%|█████▉    | 6332/10692 [59:47<35:52,  2.03it/s] 59%|█████▉    | 6333/10692 [59:47<35:54,  2.02it/s] 59%|█████▉    | 6334/10692 [59:48<35:54,  2.02it/s] 59%|█████▉    | 6335/10692 [59:48<35:56,  2.02it/s] 59%|█████▉    | 6336/10692 [59:49<35:53,  2.02it/s] 59%|█████▉    | 6337/10692 [59:49<35:53,  2.02it/s] 59%|█████▉    | 6338/10692 [59:50<35:53,  2.02it/s] 59%|█████▉    | 6339/10692 [59:50<35:51,  2.02it/s] 59%|█████▉    | 6340/10692 [59:51<35:50,  2.02it/s] 59%|█████▉    | 6341/10692 [59:51<35:52,  2.02it/s] 59%|█████▉    | 6342/10692 [59:52<35:49,  2.02it/s] 59%|█████▉    | 6343/10692 [59:52<35:52,  2.02it/s] 59%|█████▉    | 6344/10692 [59:53<35:51,  2.02it/s] 59%|█████▉    | 6345/10692 [59:53<35:52,  2.02it/s] 59%|█████▉    | 6346/10692 [59:54<35:48,  2.02it/s] 59%|█████▉    | 6347/10692 [59:54<35:49,  2.02it/s] 59%|█████▉    | 6348/10692 [59:55<35:49,  2.02it/s] 59%|█████▉    | 6349/10692 [59:55<35:50,  2.02it/s] 59%|█████▉    | 6350/10692 [59:56<35:47,  2.02it/s]{'loss': 3.6606, 'grad_norm': 0.20430777966976166, 'learning_rate': 0.0004237343842672453, 'epoch': 0.59}
+                                                     59%|█████▉    | 6350/10692 [59:56<35:47,  2.02it/s] 59%|█████▉    | 6351/10692 [59:56<35:52,  2.02it/s] 59%|█████▉    | 6352/10692 [59:57<35:47,  2.02it/s] 59%|█████▉    | 6353/10692 [59:57<35:49,  2.02it/s] 59%|█████▉    | 6354/10692 [59:58<35:45,  2.02it/s] 59%|█████▉    | 6355/10692 [59:58<35:44,  2.02it/s] 59%|█████▉    | 6356/10692 [59:59<35:44,  2.02it/s] 59%|█████▉    | 6357/10692 [59:59<35:43,  2.02it/s] 59%|█████▉    | 6358/10692 [1:00:00<35:45,  2.02it/s] 59%|█████▉    | 6359/10692 [1:00:00<35:42,  2.02it/s] 59%|█████▉    | 6360/10692 [1:00:01<35:49,  2.02it/s] 59%|█████▉    | 6361/10692 [1:00:01<35:46,  2.02it/s] 60%|█████▉    | 6362/10692 [1:00:02<35:44,  2.02it/s] 60%|█████▉    | 6363/10692 [1:00:02<35:40,  2.02it/s] 60%|█████▉    | 6364/10692 [1:00:03<35:36,  2.03it/s] 60%|█████▉    | 6365/10692 [1:00:03<35:37,  2.02it/s] 60%|█████▉    | 6366/10692 [1:00:04<35:36,  2.02it/s] 60%|█████▉    | 6367/10692 [1:00:04<35:37,  2.02it/s] 60%|█████▉    | 6368/10692 [1:00:05<35:35,  2.02it/s] 60%|█████▉    | 6369/10692 [1:00:05<35:33,  2.03it/s] 60%|█████▉    | 6370/10692 [1:00:06<35:34,  2.02it/s] 60%|█████▉    | 6371/10692 [1:00:06<35:31,  2.03it/s] 60%|█████▉    | 6372/10692 [1:00:07<35:33,  2.02it/s] 60%|█████▉    | 6373/10692 [1:00:07<35:32,  2.02it/s] 60%|█████▉    | 6374/10692 [1:00:08<35:33,  2.02it/s] 60%|█████▉    | 6375/10692 [1:00:08<35:31,  2.03it/s]{'loss': 3.6696, 'grad_norm': 0.19828525185585022, 'learning_rate': 0.0004197034634471042, 'epoch': 0.6}
+                                                       60%|█████▉    | 6375/10692 [1:00:08<35:31,  2.03it/s] 60%|█████▉    | 6376/10692 [1:00:09<35:39,  2.02it/s] 60%|█████▉    | 6377/10692 [1:00:09<35:36,  2.02it/s] 60%|█████▉    | 6378/10692 [1:00:10<35:34,  2.02it/s] 60%|█████▉    | 6379/10692 [1:00:10<35:32,  2.02it/s] 60%|█████▉    | 6380/10692 [1:00:11<35:31,  2.02it/s] 60%|█████▉    | 6381/10692 [1:00:11<35:29,  2.02it/s] 60%|█████▉    | 6382/10692 [1:00:12<35:29,  2.02it/s] 60%|█████▉    | 6383/10692 [1:00:12<35:27,  2.03it/s] 60%|█████▉    | 6384/10692 [1:00:13<35:28,  2.02it/s] 60%|█████▉    | 6385/10692 [1:00:13<35:27,  2.02it/s] 60%|█████▉    | 6386/10692 [1:00:14<35:29,  2.02it/s] 60%|█████▉    | 6387/10692 [1:00:14<35:27,  2.02it/s] 60%|█████▉    | 6388/10692 [1:00:15<35:28,  2.02it/s] 60%|█████▉    | 6389/10692 [1:00:15<35:27,  2.02it/s] 60%|█████▉    | 6390/10692 [1:00:16<35:25,  2.02it/s] 60%|█████▉    | 6391/10692 [1:00:16<35:25,  2.02it/s] 60%|█████▉    | 6392/10692 [1:00:17<35:24,  2.02it/s] 60%|█████▉    | 6393/10692 [1:00:17<35:28,  2.02it/s] 60%|█████▉    | 6394/10692 [1:00:18<35:25,  2.02it/s] 60%|█████▉    | 6395/10692 [1:00:18<35:25,  2.02it/s] 60%|█████▉    | 6396/10692 [1:00:18<35:24,  2.02it/s] 60%|█████▉    | 6397/10692 [1:00:19<35:23,  2.02it/s] 60%|█████▉    | 6398/10692 [1:00:19<35:23,  2.02it/s] 60%|█████▉    | 6399/10692 [1:00:20<35:25,  2.02it/s] 60%|█████▉    | 6400/10692 [1:00:20<35:22,  2.02it/s]{'loss': 3.6616, 'grad_norm': 0.20177139341831207, 'learning_rate': 0.0004156778924998026, 'epoch': 0.6}
+                                                       60%|█████▉    | 6400/10692 [1:00:20<35:22,  2.02it/s] 60%|█████▉    | 6401/10692 [1:00:21<35:29,  2.01it/s] 60%|█████▉    | 6402/10692 [1:00:21<35:25,  2.02it/s] 60%|█████▉    | 6403/10692 [1:00:22<35:25,  2.02it/s] 60%|█████▉    | 6404/10692 [1:00:22<35:23,  2.02it/s] 60%|█████▉    | 6405/10692 [1:00:23<35:21,  2.02it/s] 60%|█████▉    | 6406/10692 [1:00:23<35:19,  2.02it/s] 60%|█████▉    | 6407/10692 [1:00:24<35:19,  2.02it/s] 60%|█████▉    | 6408/10692 [1:00:24<35:17,  2.02it/s] 60%|█████▉    | 6409/10692 [1:00:25<35:17,  2.02it/s] 60%|█████▉    | 6410/10692 [1:00:25<35:14,  2.02it/s] 60%|█████▉    | 6411/10692 [1:00:26<35:15,  2.02it/s] 60%|█████▉    | 6412/10692 [1:00:26<35:13,  2.03it/s] 60%|█████▉    | 6413/10692 [1:00:27<35:13,  2.02it/s] 60%|█████▉    | 6414/10692 [1:00:27<35:11,  2.03it/s] 60%|█████▉    | 6415/10692 [1:00:28<35:11,  2.03it/s] 60%|██████    | 6416/10692 [1:00:28<35:12,  2.02it/s] 60%|██████    | 6417/10692 [1:00:29<35:09,  2.03it/s] 60%|██████    | 6418/10692 [1:00:29<35:11,  2.02it/s] 60%|██████    | 6419/10692 [1:00:30<35:08,  2.03it/s] 60%|██████    | 6420/10692 [1:00:30<35:14,  2.02it/s] 60%|██████    | 6421/10692 [1:00:31<35:16,  2.02it/s] 60%|██████    | 6422/10692 [1:00:31<35:15,  2.02it/s] 60%|██████    | 6423/10692 [1:00:32<35:12,  2.02it/s] 60%|██████    | 6424/10692 [1:00:32<35:12,  2.02it/s] 60%|██████    | 6425/10692 [1:00:33<35:08,  2.02it/s]{'loss': 3.665, 'grad_norm': 0.20037779211997986, 'learning_rate': 0.0004116579396348253, 'epoch': 0.6}
+                                                       60%|██████    | 6425/10692 [1:00:33<35:08,  2.02it/s] 60%|██████    | 6426/10692 [1:00:33<35:11,  2.02it/s] 60%|██████    | 6427/10692 [1:00:34<35:08,  2.02it/s] 60%|██████    | 6428/10692 [1:00:34<35:09,  2.02it/s] 60%|██████    | 6429/10692 [1:00:35<35:05,  2.02it/s] 60%|██████    | 6430/10692 [1:00:35<35:09,  2.02it/s] 60%|██████    | 6431/10692 [1:00:36<35:07,  2.02it/s] 60%|██████    | 6432/10692 [1:00:36<35:08,  2.02it/s] 60%|██████    | 6433/10692 [1:00:37<35:06,  2.02it/s] 60%|██████    | 6434/10692 [1:00:37<35:07,  2.02it/s] 60%|██████    | 6435/10692 [1:00:38<35:04,  2.02it/s] 60%|██████    | 6436/10692 [1:00:38<35:05,  2.02it/s] 60%|██████    | 6437/10692 [1:00:39<35:04,  2.02it/s] 60%|██���███    | 6438/10692 [1:00:39<35:06,  2.02it/s] 60%|██████    | 6439/10692 [1:00:40<35:03,  2.02it/s] 60%|██████    | 6440/10692 [1:00:40<35:02,  2.02it/s] 60%|██████    | 6441/10692 [1:00:41<35:01,  2.02it/s] 60%|██████    | 6442/10692 [1:00:41<34:59,  2.02it/s] 60%|██████    | 6443/10692 [1:00:42<35:02,  2.02it/s] 60%|██████    | 6444/10692 [1:00:42<35:02,  2.02it/s] 60%|██████    | 6445/10692 [1:00:43<35:01,  2.02it/s] 60%|██████    | 6446/10692 [1:00:43<35:01,  2.02it/s] 60%|██████    | 6447/10692 [1:00:44<35:02,  2.02it/s] 60%|██████    | 6448/10692 [1:00:44<34:59,  2.02it/s] 60%|██████    | 6449/10692 [1:00:45<34:58,  2.02it/s] 60%|██████    | 6450/10692 [1:00:45<34:58,  2.02it/s]{'loss': 3.6609, 'grad_norm': 0.2002815455198288, 'learning_rate': 0.00040764387268734374, 'epoch': 0.6}
+                                                       60%|██████    | 6450/10692 [1:00:45<34:58,  2.02it/s] 60%|██████    | 6451/10692 [1:00:46<35:00,  2.02it/s] 60%|██████    | 6452/10692 [1:00:46<34:58,  2.02it/s] 60%|██████    | 6453/10692 [1:00:47<35:00,  2.02it/s] 60%|██████    | 6454/10692 [1:00:47<34:58,  2.02it/s] 60%|██████    | 6455/10692 [1:00:48<34:59,  2.02it/s] 60%|██████    | 6456/10692 [1:00:48<34:57,  2.02it/s] 60%|██████    | 6457/10692 [1:00:49<34:55,  2.02it/s] 60%|██████    | 6458/10692 [1:00:49<34:52,  2.02it/s] 60%|██████    | 6459/10692 [1:00:50<34:53,  2.02it/s] 60%|██████    | 6460/10692 [1:00:50<34:51,  2.02it/s] 60%|██████    | 6461/10692 [1:00:51<34:51,  2.02it/s] 60%|██████    | 6462/10692 [1:00:51<34:50,  2.02it/s] 60%|██████    | 6463/10692 [1:00:52<34:52,  2.02it/s] 60%|██████    | 6464/10692 [1:00:52<34:53,  2.02it/s] 60%|██████    | 6465/10692 [1:00:53<34:51,  2.02it/s] 60%|██████    | 6466/10692 [1:00:53<34:50,  2.02it/s] 60%|██████    | 6467/10692 [1:00:54<34:50,  2.02it/s] 60%|██████    | 6468/10692 [1:00:54<34:48,  2.02it/s] 61%|██████    | 6469/10692 [1:00:55<34:47,  2.02it/s] 61%|██████    | 6470/10692 [1:00:55<34:44,  2.03it/s] 61%|██████    | 6471/10692 [1:00:56<34:47,  2.02it/s] 61%|██████    | 6472/10692 [1:00:56<34:44,  2.02it/s] 61%|██████    | 6473/10692 [1:00:57<34:45,  2.02it/s] 61%|██████    | 6474/10692 [1:00:57<34:46,  2.02it/s] 61%|██████    | 6475/10692 [1:00:58<34:47,  2.02it/s]{'loss': 3.6547, 'grad_norm': 0.19607533514499664, 'learning_rate': 0.0004036359591003716, 'epoch': 0.61}
+                                                       61%|██████    | 6475/10692 [1:00:58<34:47,  2.02it/s] 61%|██████    | 6476/10692 [1:00:58<34:48,  2.02it/s] 61%|██████    | 6477/10692 [1:00:59<34:49,  2.02it/s] 61%|██████    | 6478/10692 [1:00:59<34:48,  2.02it/s] 61%|██████    | 6479/10692 [1:01:00<34:46,  2.02it/s] 61%|██████    | 6480/10692 [1:01:00<34:44,  2.02it/s] 61%|██████    | 6481/10692 [1:01:01<34:47,  2.02it/s] 61%|██████    | 6482/10692 [1:01:01<34:50,  2.01it/s] 61%|██████    | 6483/10692 [1:01:02<34:48,  2.02it/s] 61%|██████    | 6484/10692 [1:01:02<34:47,  2.02it/s] 61%|██████    | 6485/10692 [1:01:03<34:42,  2.02it/s] 61%|██████    | 6486/10692 [1:01:03<34:40,  2.02it/s] 61%|██████    | 6487/10692 [1:01:04<34:39,  2.02it/s] 61%|██████    | 6488/10692 [1:01:04<34:36,  2.02it/s] 61%|██████    | 6489/10692 [1:01:05<34:36,  2.02it/s] 61%|██████    | 6490/10692 [1:01:05<34:35,  2.02it/s] 61%|██████    | 6491/10692 [1:01:05<34:35,  2.02it/s] 61%|██████    | 6492/10692 [1:01:06<34:35,  2.02it/s] 61%|██████    | 6493/10692 [1:01:06<34:36,  2.02it/s] 61%|██████    | 6494/10692 [1:01:07<34:36,  2.02it/s] 61%|██████    | 6495/10692 [1:01:07<34:35,  2.02it/s] 61%|██████    | 6496/10692 [1:01:08<34:36,  2.02it/s] 61%|██████    | 6497/10692 [1:01:08<34:35,  2.02it/s] 61%|██████    | 6498/10692 [1:01:09<34:34,  2.02it/s] 61%|██████    | 6499/10692 [1:01:09<34:34,  2.02it/s] 61%|██████    | 6500/10692 [1:01:10<34:32,  2.02it/s]{'loss': 3.6601, 'grad_norm': 0.20807521045207977, 'learning_rate': 0.00039963446590694665, 'epoch': 0.61}
+                                                       61%|██████    | 6500/10692 [1:01:10<34:32,  2.02it/s] 61%|██████    | 6501/10692 [1:01:10<34:34,  2.02it/s] 61%|██████    | 6502/10692 [1:01:11<34:31,  2.02it/s] 61%|██████    | 6503/10692 [1:01:11<34:30,  2.02it/s] 61%|██████    | 6504/10692 [1:01:12<34:29,  2.02it/s] 61%|██████    | 6505/10692 [1:01:12<34:26,  2.03it/s] 61%|██████    | 6506/10692 [1:01:13<34:28,  2.02it/s] 61%|██████    | 6507/10692 [1:01:13<34:26,  2.03it/s] 61%|██████    | 6508/10692 [1:01:14<34:27,  2.02it/s] 61%|██████    | 6509/10692 [1:01:14<34:24,  2.03it/s] 61%|██████    | 6510/10692 [1:01:15<34:26,  2.02it/s] 61%|██████    | 6511/10692 [1:01:15<34:24,  2.03it/s] 61%|██████    | 6512/10692 [1:01:16<34:24,  2.02it/s] 61%|██████    | 6513/10692 [1:01:16<34:23,  2.03it/s] 61%|██████    | 6514/10692 [1:01:17<34:23,  2.02it/s] 61%|██████    | 6515/10692 [1:01:17<34:24,  2.02it/s] 61%|██████    | 6516/10692 [1:01:18<34:23,  2.02it/s] 61%|██████    | 6517/10692 [1:01:18<34:24,  2.02it/s] 61%|██████    | 6518/10692 [1:01:19<34:22,  2.02it/s] 61%|██████    | 6519/10692 [1:01:19<34:24,  2.02it/s] 61%|██████    | 6520/10692 [1:01:20<34:21,  2.02it/s] 61%|██████    | 6521/10692 [1:01:20<34:21,  2.02it/s] 61%|██████    | 6522/10692 [1:01:21<34:22,  2.02it/s] 61%|██████    | 6523/10692 [1:01:21<34:22,  2.02it/s] 61%|██████    | 6524/10692 [1:01:22<34:22,  2.02it/s] 61%|██████    | 6525/10692 [1:01:22<34:21,  2.02it/s]{'loss': 3.6682, 'grad_norm': 0.19472789764404297, 'learning_rate': 0.0003956396597123381, 'epoch': 0.61}
+                                                       61%|██████    | 6525/10692 [1:01:22<34:21,  2.02it/s] 61%|██████    | 6526/10692 [1:01:23<34:24,  2.02it/s] 61%|██████    | 6527/10692 [1:01:23<34:20,  2.02it/s] 61%|██████    | 6528/10692 [1:01:24<34:21,  2.02it/s] 61%|██████    | 6529/10692 [1:01:24<34:19,  2.02it/s] 61%|██████    | 6530/10692 [1:01:25<34:17,  2.02it/s] 61%|██████    | 6531/10692 [1:01:25<34:16,  2.02it/s] 61%|██████    | 6532/10692 [1:01:26<34:15,  2.02it/s] 61%|██████    | 6533/10692 [1:01:26<34:15,  2.02it/s] 61%|██████    | 6534/10692 [1:01:27<34:15,  2.02it/s] 61%|██████    | 6535/10692 [1:01:27<34:15,  2.02it/s] 61%|██████    | 6536/10692 [1:01:28<34:16,  2.02it/s] 61%|██████    | 6537/10692 [1:01:28<34:16,  2.02it/s] 61%|██████    | 6538/10692 [1:01:29<34:15,  2.02it/s] 61%|██████    | 6539/10692 [1:01:29<34:15,  2.02it/s] 61%|██████    | 6540/10692 [1:01:30<34:12,  2.02it/s] 61%|██████    | 6541/10692 [1:01:30<34:13,  2.02it/s] 61%|██████    | 6542/10692 [1:01:31<34:17,  2.02it/s] 61%|██████    | 6543/10692 [1:01:31<34:16,  2.02it/s] 61%|██████    | 6544/10692 [1:01:32<34:16,  2.02it/s] 61%|██████    | 6545/10692 [1:01:32<34:13,  2.02it/s] 61%|██████    | 6546/10692 [1:01:33<34:12,  2.02it/s] 61%|██████    | 6547/10692 [1:01:33<34:12,  2.02it/s] 61%|██████    | 6548/10692 [1:01:34<34:11,  2.02it/s] 61%|██████▏   | 6549/10692 [1:01:34<34:09,  2.02it/s] 61%|██████▏   | 6550/10692 [1:01:35<34:08,  2.02it/s]{'loss': 3.6624, 'grad_norm': 0.20497608184814453, 'learning_rate': 0.00039165180667628406, 'epoch': 0.61}
+                                                       61%|██████▏   | 6550/10692 [1:01:35<34:08,  2.02it/s] 61%|██████▏   | 6551/10692 [1:01:35<34:10,  2.02it/s] 61%|██████▏   | 6552/10692 [1:01:36<34:09,  2.02it/s] 61%|██████▏   | 6553/10692 [1:01:36<34:08,  2.02it/s] 61%|██████▏   | 6554/10692 [1:01:37<34:11,  2.02it/s] 61%|██████▏   | 6555/10692 [1:01:37<34:07,  2.02it/s] 61%|██████▏   | 6556/10692 [1:01:38<34:06,  2.02it/s] 61%|██████▏   | 6557/10692 [1:01:38<34:04,  2.02it/s] 61%|██████▏   | 6558/10692 [1:01:39<34:04,  2.02it/s] 61%|██████▏   | 6559/10692 [1:01:39<34:05,  2.02it/s] 61%|██████▏   | 6560/10692 [1:01:40<34:03,  2.02it/s] 61%|██████▏   | 6561/10692 [1:01:40<34:03,  2.02it/s] 61%|██████▏   | 6562/10692 [1:01:41<34:01,  2.02it/s] 61%|██████▏   | 6563/10692 [1:01:41<34:00,  2.02it/s] 61%|██████▏   | 6564/10692 [1:01:42<33:58,  2.02it/s] 61%|██████▏   | 6565/10692 [1:01:42<34:00,  2.02it/s] 61%|██████▏   | 6566/10692 [1:01:43<33:58,  2.02it/s] 61%|██████▏   | 6567/10692 [1:01:43<34:00,  2.02it/s] 61%|██████▏   | 6568/10692 [1:01:44<33:57,  2.02it/s] 61%|██████▏   | 6569/10692 [1:01:44<33:58,  2.02it/s] 61%|██████▏   | 6570/10692 [1:01:45<33:56,  2.02it/s] 61%|██████▏   | 6571/10692 [1:01:45<33:54,  2.03it/s] 61%|██████▏   | 6572/10692 [1:01:46<33:54,  2.03it/s] 61%|���█████▏   | 6573/10692 [1:01:46<33:56,  2.02it/s] 61%|██████▏   | 6574/10692 [1:01:47<33:58,  2.02it/s] 61%|██████▏   | 6575/10692 [1:01:47<33:57,  2.02it/s]{'loss': 3.6444, 'grad_norm': 0.20055343210697174, 'learning_rate': 0.0003876711724952589, 'epoch': 0.61}
+                                                       61%|██████▏   | 6575/10692 [1:01:47<33:57,  2.02it/s] 62%|██████▏   | 6576/10692 [1:01:48<33:59,  2.02it/s] 62%|██████▏   | 6577/10692 [1:01:48<33:59,  2.02it/s] 62%|██████▏   | 6578/10692 [1:01:49<33:55,  2.02it/s] 62%|██████▏   | 6579/10692 [1:01:49<33:54,  2.02it/s] 62%|██████▏   | 6580/10692 [1:01:50<33:54,  2.02it/s] 62%|██████▏   | 6581/10692 [1:01:50<33:53,  2.02it/s] 62%|██████▏   | 6582/10692 [1:01:50<33:53,  2.02it/s] 62%|██████▏   | 6583/10692 [1:01:51<33:52,  2.02it/s] 62%|██████▏   | 6584/10692 [1:01:51<33:54,  2.02it/s] 62%|██████▏   | 6585/10692 [1:01:52<33:53,  2.02it/s] 62%|██████▏   | 6586/10692 [1:01:52<33:52,  2.02it/s] 62%|██████▏   | 6587/10692 [1:01:53<33:49,  2.02it/s] 62%|██████▏   | 6588/10692 [1:01:53<33:50,  2.02it/s] 62%|██████▏   | 6589/10692 [1:01:54<33:49,  2.02it/s] 62%|██████▏   | 6590/10692 [1:01:54<33:49,  2.02it/s] 62%|██████▏   | 6591/10692 [1:01:55<33:47,  2.02it/s] 62%|██████▏   | 6592/10692 [1:01:55<33:49,  2.02it/s] 62%|██████▏   | 6593/10692 [1:01:56<33:47,  2.02it/s] 62%|██████▏   | 6594/10692 [1:01:56<33:48,  2.02it/s] 62%|██████▏   | 6595/10692 [1:01:57<33:46,  2.02it/s] 62%|██████▏   | 6596/10692 [1:01:57<33:48,  2.02it/s] 62%|██████▏   | 6597/10692 [1:01:58<33:46,  2.02it/s] 62%|██████▏   | 6598/10692 [1:01:58<33:46,  2.02it/s] 62%|██████▏   | 6599/10692 [1:01:59<33:44,  2.02it/s] 62%|██████▏   | 6600/10692 [1:01:59<33:44,  2.02it/s]{'loss': 3.6585, 'grad_norm': 0.1890367567539215, 'learning_rate': 0.0003836980223847698, 'epoch': 0.62}
+                                                       62%|██████▏   | 6600/10692 [1:01:59<33:44,  2.02it/s] 62%|██████▏   | 6601/10692 [1:02:00<33:46,  2.02it/s] 62%|██████▏   | 6602/10692 [1:02:00<33:48,  2.02it/s] 62%|██████▏   | 6603/10692 [1:02:01<33:52,  2.01it/s] 62%|██████▏   | 6604/10692 [1:02:01<33:48,  2.02it/s] 62%|██████▏   | 6605/10692 [1:02:02<33:46,  2.02it/s] 62%|██████▏   | 6606/10692 [1:02:02<33:42,  2.02it/s] 62%|██████▏   | 6607/10692 [1:02:03<33:42,  2.02it/s] 62%|██████▏   | 6608/10692 [1:02:03<33:39,  2.02it/s] 62%|██████▏   | 6609/10692 [1:02:04<33:37,  2.02it/s] 62%|██████▏   | 6610/10692 [1:02:04<33:36,  2.02it/s] 62%|██████▏   | 6611/10692 [1:02:05<33:35,  2.02it/s] 62%|██████▏   | 6612/10692 [1:02:05<33:37,  2.02it/s] 62%|██████▏   | 6613/10692 [1:02:06<33:37,  2.02it/s] 62%|██████▏   | 6614/10692 [1:02:06<33:38,  2.02it/s] 62%|██████▏   | 6615/10692 [1:02:07<33:37,  2.02it/s] 62%|██████▏   | 6616/10692 [1:02:07<33:39,  2.02it/s] 62%|██████▏   | 6617/10692 [1:02:08<33:37,  2.02it/s] 62%|██████▏   | 6618/10692 [1:02:08<33:37,  2.02it/s] 62%|██████▏   | 6619/10692 [1:02:09<33:33,  2.02it/s] 62%|██████▏   | 6620/10692 [1:02:09<33:34,  2.02it/s] 62%|██████▏   | 6621/10692 [1:02:10<33:30,  2.02it/s] 62%|██████▏   | 6622/10692 [1:02:10<33:32,  2.02it/s] 62%|██████▏   | 6623/10692 [1:02:11<33:30,  2.02it/s] 62%|██████▏   | 6624/10692 [1:02:11<33:34,  2.02it/s] 62%|██████▏   | 6625/10692 [1:02:12<33:31,  2.02it/s]{'loss': 3.6499, 'grad_norm': 0.20117250084877014, 'learning_rate': 0.00037973262106168757, 'epoch': 0.62}
+                                                       62%|██████▏   | 6625/10692 [1:02:12<33:31,  2.02it/s] 62%|██████▏   | 6626/10692 [1:02:12<33:33,  2.02it/s] 62%|██████▏   | 6627/10692 [1:02:13<33:31,  2.02it/s] 62%|██████▏   | 6628/10692 [1:02:13<33:29,  2.02it/s] 62%|██████▏   | 6629/10692 [1:02:14<33:30,  2.02it/s] 62%|██████▏   | 6630/10692 [1:02:14<33:28,  2.02it/s] 62%|██████▏   | 6631/10692 [1:02:15<33:27,  2.02it/s] 62%|██████▏   | 6632/10692 [1:02:15<33:25,  2.02it/s] 62%|██████▏   | 6633/10692 [1:02:16<33:25,  2.02it/s] 62%|██████▏   | 6634/10692 [1:02:16<33:26,  2.02it/s] 62%|██████▏   | 6635/10692 [1:02:17<33:24,  2.02it/s] 62%|██████▏   | 6636/10692 [1:02:17<33:25,  2.02it/s] 62%|██████▏   | 6637/10692 [1:02:18<33:22,  2.02it/s] 62%|██████▏   | 6638/10692 [1:02:18<33:21,  2.03it/s] 62%|██████▏   | 6639/10692 [1:02:19<33:21,  2.02it/s] 62%|██████▏   | 6640/10692 [1:02:19<33:18,  2.03it/s] 62%|██████▏   | 6641/10692 [1:02:20<33:18,  2.03it/s] 62%|██████▏   | 6642/10692 [1:02:20<33:18,  2.03it/s] 62%|██████▏   | 6643/10692 [1:02:21<33:19,  2.03it/s] 62%|██████▏   | 6644/10692 [1:02:21<33:20,  2.02it/s] 62%|██████▏   | 6645/10692 [1:02:22<33:17,  2.03it/s] 62%|██████▏   | 6646/10692 [1:02:22<33:19,  2.02it/s] 62%|██████▏   | 6647/10692 [1:02:23<33:19,  2.02it/s] 62%|██████▏   | 6648/10692 [1:02:23<33:20,  2.02it/s] 62%|██████▏   | 6649/10692 [1:02:24<33:18,  2.02it/s] 62%|██████▏   | 6650/10692 [1:02:24<33:20,  2.02it/s]{'loss': 3.6533, 'grad_norm': 0.20495851337909698, 'learning_rate': 0.0003757752327266083, 'epoch': 0.62}
+                                                       62%|██████▏   | 6650/10692 [1:02:24<33:20,  2.02it/s] 62%|██████▏   | 6651/10692 [1:02:25<33:21,  2.02it/s] 62%|██████▏   | 6652/10692 [1:02:25<33:21,  2.02it/s] 62%|██████▏   | 6653/10692 [1:02:26<33:21,  2.02it/s] 62%|██████▏   | 6654/10692 [1:02:26<33:20,  2.02it/s] 62%|██████▏   | 6655/10692 [1:02:27<33:20,  2.02it/s] 62%|██████▏   | 6656/10692 [1:02:27<33:19,  2.02it/s] 62%|██████▏   | 6657/10692 [1:02:28<33:17,  2.02it/s] 62%|██████▏   | 6658/10692 [1:02:28<33:16,  2.02it/s] 62%|██████▏   | 6659/10692 [1:02:29<33:13,  2.02it/s] 62%|██████▏   | 6660/10692 [1:02:29<33:13,  2.02it/s] 62%|██████▏   | 6661/10692 [1:02:30<33:12,  2.02it/s] 62%|██████▏   | 6662/10692 [1:02:30<33:13,  2.02it/s] 62%|██████▏   | 6663/10692 [1:02:31<33:18,  2.02it/s] 62%|██████▏   | 6664/10692 [1:02:31<33:17,  2.02it/s] 62%|██████▏   | 6665/10692 [1:02:32<33:16,  2.02it/s] 62%|██████▏   | 6666/10692 [1:02:32<33:13,  2.02it/s] 62%|██████▏   | 6667/10692 [1:02:33<33:12,  2.02it/s] 62%|██████▏   | 6668/10692 [1:02:33<33:11,  2.02it/s] 62%|██████▏   | 6669/10692 [1:02:34<33:11,  2.02it/s] 62%|██████▏   | 6670/10692 [1:02:34<33:10,  2.02it/s] 62%|██████▏   | 6671/10692 [1:02:35<33:08,  2.02it/s] 62%|██████▏   | 6672/10692 [1:02:35<33:06,  2.02it/s] 62%|██████▏   | 6673/10692 [1:02:36<33:04,  2.03it/s] 62%|██████▏   | 6674/10692 [1:02:36<33:04,  2.02it/s] 62%|██████▏   | 6675/10692 [1:02:37<33:04,  2.02it/s]{'loss': 3.6545, 'grad_norm': 0.21883641183376312, 'learning_rate': 0.0003718261210462514, 'epoch': 0.62}                                                      
+ 62%|██████▏   | 6675/10692 [1:02:37<33:04,  2.02it/s] 62%|██████▏   | 6676/10692 [1:02:37<33:08,  2.02it/s] 62%|██████▏   | 6677/10692 [1:02:37<33:05,  2.02it/s] 62%|██████▏   | 6678/10692 [1:02:38<33:05,  2.02it/s] 62%|██████▏   | 6679/10692 [1:02:38<33:03,  2.02it/s] 62%|██████▏   | 6680/10692 [1:02:39<33:05,  2.02it/s] 62%|██████▏   | 6681/10692 [1:02:39<33:04,  2.02it/s] 62%|██████▏   | 6682/10692 [1:02:40<33:03,  2.02it/s] 63%|██████▎   | 6683/10692 [1:02:40<33:02,  2.02it/s] 63%|██████▎   | 6684/10692 [1:02:41<33:00,  2.02it/s] 63%|██████▎   | 6685/10692 [1:02:41<33:01,  2.02it/s] 63%|██████▎   | 6686/10692 [1:02:42<33:02,  2.02it/s] 63%|██████▎   | 6687/10692 [1:02:42<33:01,  2.02it/s] 63%|██████▎   | 6688/10692 [1:02:43<33:01,  2.02it/s] 63%|██████▎   | 6689/10692 [1:02:43<32:57,  2.02it/s] 63%|██████▎   | 6690/10692 [1:02:44<32:58,  2.02it/s] 63%|██████▎   | 6691/10692 [1:02:44<32:57,  2.02it/s] 63%|██████▎   | 6692/10692 [1:02:45<32:56,  2.02it/s] 63%|██████▎   | 6693/10692 [1:02:45<32:58,  2.02it/s] 63%|██████▎   | 6694/10692 [1:02:46<32:57,  2.02it/s] 63%|██████▎   | 6695/10692 [1:02:46<32:55,  2.02it/s] 63%|██████▎   | 6696/10692 [1:02:47<32:56,  2.02it/s] 63%|██████▎   | 6697/10692 [1:02:47<32:56,  2.02it/s] 63%|██████▎   | 6698/10692 [1:02:48<32:57,  2.02it/s] 63%|██████▎   | 6699/10692 [1:02:48<32:53,  2.02it/s] 63%|██████▎   | 6700/10692 [1:02:49<32:50,  2.03it/s]{'loss': 3.6547, 'grad_norm': 0.20609940588474274, 'learning_rate': 0.00036788554913589206, 'epoch': 0.63}
+                                                       63%|██████▎   | 6700/10692 [1:02:49<32:50,  2.03it/s] 63%|█████���▎   | 6701/10692 [1:02:49<32:53,  2.02it/s] 63%|██████▎   | 6702/10692 [1:02:50<32:51,  2.02it/s] 63%|██████▎   | 6703/10692 [1:02:50<32:51,  2.02it/s] 63%|██████▎   | 6704/10692 [1:02:51<32:49,  2.02it/s] 63%|██████▎   | 6705/10692 [1:02:51<32:51,  2.02it/s] 63%|██████▎   | 6706/10692 [1:02:52<32:49,  2.02it/s] 63%|██████▎   | 6707/10692 [1:02:52<32:50,  2.02it/s] 63%|██████▎   | 6708/10692 [1:02:53<32:50,  2.02it/s] 63%|██████▎   | 6709/10692 [1:02:53<32:49,  2.02it/s] 63%|██████▎   | 6710/10692 [1:02:54<32:50,  2.02it/s] 63%|██████▎   | 6711/10692 [1:02:54<32:48,  2.02it/s] 63%|██████▎   | 6712/10692 [1:02:55<32:48,  2.02it/s] 63%|██████▎   | 6713/10692 [1:02:55<32:47,  2.02it/s] 63%|██████▎   | 6714/10692 [1:02:56<32:48,  2.02it/s] 63%|██████▎   | 6715/10692 [1:02:56<32:49,  2.02it/s] 63%|██████▎   | 6716/10692 [1:02:57<32:48,  2.02it/s] 63%|██████▎   | 6717/10692 [1:02:57<32:46,  2.02it/s] 63%|██████▎   | 6718/10692 [1:02:58<32:48,  2.02it/s] 63%|██████▎   | 6719/10692 [1:02:58<32:44,  2.02it/s] 63%|██████▎   | 6720/10692 [1:02:59<32:46,  2.02it/s] 63%|██████▎   | 6721/10692 [1:02:59<32:44,  2.02it/s] 63%|██████▎   | 6722/10692 [1:03:00<32:45,  2.02it/s] 63%|██████▎   | 6723/10692 [1:03:00<32:43,  2.02it/s] 63%|██████▎   | 6724/10692 [1:03:01<32:50,  2.01it/s] 63%|██████▎   | 6725/10692 [1:03:01<32:48,  2.02it/s]{'loss': 3.6603, 'grad_norm': 0.19623424112796783, 'learning_rate': 0.0003639537795418312, 'epoch': 0.63}
+                                                       63%|██████▎   | 6725/10692 [1:03:01<32:48,  2.02it/s] 63%|██████▎   | 6726/10692 [1:03:02<32:46,  2.02it/s] 63%|██████▎   | 6727/10692 [1:03:02<32:47,  2.01it/s] 63%|██████▎   | 6728/10692 [1:03:03<32:43,  2.02it/s] 63%|██████▎   | 6729/10692 [1:03:03<32:43,  2.02it/s] 63%|██████▎   | 6730/10692 [1:03:04<32:41,  2.02it/s] 63%|██████▎   | 6731/10692 [1:03:04<32:41,  2.02it/s] 63%|██████▎   | 6732/10692 [1:03:05<32:37,  2.02it/s] 63%|██████▎   | 6733/10692 [1:03:05<32:38,  2.02it/s] 63%|██████▎   | 6734/10692 [1:03:06<32:35,  2.02it/s] 63%|██████▎   | 6735/10692 [1:03:06<32:37,  2.02it/s] 63%|██████▎   | 6736/10692 [1:03:07<32:35,  2.02it/s] 63%|██████▎   | 6737/10692 [1:03:07<32:38,  2.02it/s] 63%|██████▎   | 6738/10692 [1:03:08<32:35,  2.02it/s] 63%|██████▎   | 6739/10692 [1:03:08<32:34,  2.02it/s] 63%|██████▎   | 6740/10692 [1:03:09<32:34,  2.02it/s] 63%|██████▎   | 6741/10692 [1:03:09<32:35,  2.02it/s] 63%|██████▎   | 6742/10692 [1:03:10<32:33,  2.02it/s] 63%|██████▎   | 6743/10692 [1:03:10<32:33,  2.02it/s] 63%|██████▎   | 6744/10692 [1:03:11<32:32,  2.02it/s] 63%|██████▎   | 6745/10692 [1:03:11<32:31,  2.02it/s] 63%|██████▎   | 6746/10692 [1:03:12<32:33,  2.02it/s] 63%|██████▎   | 6747/10692 [1:03:12<32:31,  2.02it/s] 63%|██████▎   | 6748/10692 [1:03:13<32:31,  2.02it/s] 63%|██████▎   | 6749/10692 [1:03:13<32:29,  2.02it/s] 63%|██████▎   | 6750/10692 [1:03:14<32:29,  2.02it/s]                                                      {'loss': 3.6457, 'grad_norm': 0.2062385082244873, 'learning_rate': 0.0003600310742239022, 'epoch': 0.63}
+ 63%|██████▎   | 6750/10692 [1:03:14<32:29,  2.02it/s] 63%|██████▎   | 6751/10692 [1:03:14<32:32,  2.02it/s] 63%|██████▎   | 6752/10692 [1:03:15<32:29,  2.02it/s] 63%|██████▎   | 6753/10692 [1:03:15<32:29,  2.02it/s] 63%|██████▎   | 6754/10692 [1:03:16<32:27,  2.02it/s] 63%|██████▎   | 6755/10692 [1:03:16<32:27,  2.02it/s] 63%|██████▎   | 6756/10692 [1:03:17<32:30,  2.02it/s] 63%|██████▎   | 6757/10692 [1:03:17<32:29,  2.02it/s] 63%|██████▎   | 6758/10692 [1:03:18<32:27,  2.02it/s] 63%|██████▎   | 6759/10692 [1:03:18<32:25,  2.02it/s] 63%|██████▎   | 6760/10692 [1:03:19<32:25,  2.02it/s] 63%|██████▎   | 6761/10692 [1:03:19<32:24,  2.02it/s] 63%|██████▎   | 6762/10692 [1:03:20<32:23,  2.02it/s] 63%|██████▎   | 6763/10692 [1:03:20<32:23,  2.02it/s] 63%|██████▎   | 6764/10692 [1:03:21<32:22,  2.02it/s] 63%|██████▎   | 6765/10692 [1:03:21<32:22,  2.02it/s] 63%|██████▎   | 6766/10692 [1:03:22<32:19,  2.02it/s] 63%|██████▎   | 6767/10692 [1:03:22<32:21,  2.02it/s] 63%|██████▎   | 6768/10692 [1:03:23<32:20,  2.02it/s] 63%|██████▎   | 6769/10692 [1:03:23<32:23,  2.02it/s] 63%|██████▎   | 6770/10692 [1:03:24<32:21,  2.02it/s] 63%|██████▎   | 6771/10692 [1:03:24<32:21,  2.02it/s] 63%|██████▎   | 6772/10692 [1:03:24<32:21,  2.02it/s] 63%|██████▎   | 6773/10692 [1:03:25<32:17,  2.02it/s] 63%|██████▎   | 6774/10692 [1:03:25<32:16,  2.02it/s] 63%|██████▎   | 6775/10692 [1:03:26<32:14,  2.02it/s]                                                      {'loss': 3.6505, 'grad_norm': 0.19225911796092987, 'learning_rate': 0.00035611769453801876, 'epoch': 0.63}
+ 63%|██████▎   | 6775/10692 [1:03:26<32:14,  2.02it/s] 63%|██████▎   | 6776/10692 [1:03:26<32:20,  2.02it/s] 63%|██████▎   | 6777/10692 [1:03:27<32:18,  2.02it/s] 63%|██████▎   | 6778/10692 [1:03:27<32:21,  2.02it/s] 63%|██████▎   | 6779/10692 [1:03:28<32:17,  2.02it/s] 63%|██████▎   | 6780/10692 [1:03:28<32:18,  2.02it/s] 63%|██████▎   | 6781/10692 [1:03:29<32:16,  2.02it/s] 63%|██████▎   | 6782/10692 [1:03:30<37:29,  1.74it/s] 63%|██████▎   | 6783/10692 [1:03:30<35:54,  1.81it/s] 63%|██████▎   | 6784/10692 [1:03:31<34:50,  1.87it/s] 63%|██████▎   | 6785/10692 [1:03:31<34:03,  1.91it/s] 63%|██████▎   | 6786/10692 [1:03:32<33:29,  1.94it/s] 63%|██████▎   | 6787/10692 [1:03:32<33:05,  1.97it/s] 63%|██████▎   | 6788/10692 [1:03:33<32:47,  1.98it/s] 63%|██████▎   | 6789/10692 [1:03:33<32:35,  2.00it/s] 64%|██████▎   | 6790/10692 [1:03:34<32:28,  2.00it/s] 64%|██████▎   | 6791/10692 [1:03:34<32:20,  2.01it/s] 64%|██████▎   | 6792/10692 [1:03:35<32:17,  2.01it/s] 64%|██████▎   | 6793/10692 [1:03:35<32:15,  2.01it/s] 64%|██████▎   | 6794/10692 [1:03:36<32:13,  2.02it/s] 64%|██████▎   | 6795/10692 [1:03:36<32:11,  2.02it/s] 64%|██████▎   | 6796/10692 [1:03:37<32:11,  2.02it/s] 64%|██████▎   | 6797/10692 [1:03:37<32:10,  2.02it/s] 64%|██████▎   | 6798/10692 [1:03:38<32:09,  2.02it/s] 64%|██████▎   | 6799/10692 [1:03:38<32:08,  2.02it/s] 64%|██████▎   | 6800/10692 [1:03:39<32:06,  2.02it/s]{'loss': 3.6428, 'grad_norm': 0.1965993046760559, 'learning_rate': 0.0003522139012187601, 'epoch': 0.64}
+                                                       64%|██████▎   | 6800/10692 [1:03:39<32:06,  2.02it/s] 64%|██████▎   | 6801/10692 [1:03:39<32:12,  2.01it/s] 64%|██████▎   | 6802/10692 [1:03:40<32:10,  2.02it/s] 64%|██████▎   | 6803/10692 [1:03:40<32:08,  2.02it/s] 64%|██████▎   | 6804/10692 [1:03:41<32:06,  2.02it/s] 64%|██████▎   | 6805/10692 [1:03:41<32:05,  2.02it/s] 64%|██████▎   | 6806/10692 [1:03:42<32:03,  2.02it/s] 64%|██████▎   | 6807/10692 [1:03:42<32:04,  2.02it/s] 64%|██████▎   | 6808/10692 [1:03:43<32:01,  2.02it/s] 64%|██████▎   | 6809/10692 [1:03:43<32:02,  2.02it/s] 64%|██████▎   | 6810/10692 [1:03:44<31:59,  2.02it/s] 64%|██████▎   | 6811/10692 [1:03:44<32:00,  2.02it/s] 64%|██████▎   | 6812/10692 [1:03:45<37:18,  1.73it/s] 64%|██████▎   | 6813/10692 [1:03:45<35:39,  1.81it/s] 64%|██████▎   | 6814/10692 [1:03:46<34:34,  1.87it/s] 64%|██████▎   | 6815/10692 [1:03:46<33:44,  1.91it/s] 64%|██████▎   | 6816/10692 [1:03:47<33:15,  1.94it/s] 64%|██████▍   | 6817/10692 [1:03:47<32:52,  1.96it/s] 64%|██████▍   | 6818/10692 [1:03:48<32:35,  1.98it/s] 64%|██████▍   | 6819/10692 [1:03:48<32:23,  1.99it/s] 64%|██████▍   | 6820/10692 [1:03:49<32:14,  2.00it/s] 64%|██████▍   | 6821/10692 [1:03:49<32:05,  2.01it/s] 64%|██████▍   | 6822/10692 [1:03:50<32:03,  2.01it/s] 64%|██████▍   | 6823/10692 [1:03:50<31:57,  2.02it/s] 64%|██████▍   | 6824/10692 [1:03:51<31:56,  2.02it/s] 64%|██████▍   | 6825/10692 [1:03:51<31:54,  2.02it/s]                                                      {'loss': 3.6492, 'grad_norm': 0.2034042775630951, 'learning_rate': 0.00034831995436200016, 'epoch': 0.64}
+ 64%|██████▍   | 6825/10692 [1:03:51<31:54,  2.02it/s] 64%|██████▍   | 6826/10692 [1:03:52<31:59,  2.01it/s] 64%|██████▍   | 6827/10692 [1:03:52<31:57,  2.02it/s] 64%|██████▍   | 6828/10692 [1:03:53<31:57,  2.01it/s] 64%|██████▍   | 6829/10692 [1:03:53<31:55,  2.02it/s] 64%|██████▍   | 6830/10692 [1:03:54<31:55,  2.02it/s] 64%|██████▍   | 6831/10692 [1:03:54<31:51,  2.02it/s] 64%|██████▍   | 6832/10692 [1:03:55<31:52,  2.02it/s] 64%|██████▍   | 6833/10692 [1:03:55<31:50,  2.02it/s] 64%|██████▍   | 6834/10692 [1:03:56<31:52,  2.02it/s] 64%|██████▍   | 6835/10692 [1:03:56<31:51,  2.02it/s] 64%|██████▍   | 6836/10692 [1:03:57<31:51,  2.02it/s] 64%|██████▍   | 6837/10692 [1:03:57<31:50,  2.02it/s] 64%|██████▍   | 6838/10692 [1:03:58<31:51,  2.02it/s] 64%|██████▍   | 6839/10692 [1:03:58<31:50,  2.02it/s] 64%|██████▍   | 6840/10692 [1:03:59<31:48,  2.02it/s] 64%|██████▍   | 6841/10692 [1:03:59<31:47,  2.02it/s] 64%|██████▍   | 6842/10692 [1:04:00<31:49,  2.02it/s] 64%|██████▍   | 6843/10692 [1:04:00<31:47,  2.02it/s] 64%|██████▍   | 6844/10692 [1:04:01<31:51,  2.01it/s] 64%|██████▍   | 6845/10692 [1:04:01<31:50,  2.01it/s] 64%|██████▍   | 6846/10692 [1:04:02<31:48,  2.02it/s] 64%|██████▍   | 6847/10692 [1:04:02<31:46,  2.02it/s] 64%|██████▍   | 6848/10692 [1:04:03<31:42,  2.02it/s] 64%|██████▍   | 6849/10692 [1:04:03<31:40,  2.02it/s] 64%|██████▍   | 6850/10692 [1:04:04<31:43,  2.02it/s]{'loss': 3.6382, 'grad_norm': 0.20194530487060547, 'learning_rate': 0.00034443611340757797, 'epoch': 0.64}
+                                                       64%|██████▍   | 6850/10692 [1:04:04<31:43,  2.02it/s] 64%|██████▍   | 6851/10692 [1:04:04<31:43,  2.02it/s] 64%|██████▍   | 6852/10692 [1:04:05<31:43,  2.02it/s] 64%|██████▍   | 6853/10692 [1:04:05<31:44,  2.02it/s] 64%|██████▍   | 6854/10692 [1:04:06<31:42,  2.02it/s] 64%|██████▍   | 6855/10692 [1:04:06<31:40,  2.02it/s] 64%|██████▍   | 6856/10692 [1:04:07<31:41,  2.02it/s] 64%|██████▍   | 6857/10692 [1:04:07<31:40,  2.02it/s] 64%|██████▍   | 6858/10692 [1:04:08<31:41,  2.02it/s] 64%|██████▍   | 6859/10692 [1:04:08<31:40,  2.02it/s] 64%|██████▍   | 6860/10692 [1:04:09<31:38,  2.02it/s] 64%|██████▍   | 6861/10692 [1:04:09<31:37,  2.02it/s] 64%|██████▍   | 6862/10692 [1:04:10<31:34,  2.02it/s] 64%|██████▍   | 6863/10692 [1:04:10<31:34,  2.02it/s] 64%|██████▍   | 6864/10692 [1:04:11<31:33,  2.02it/s] 64%|██████▍   | 6865/10692 [1:04:11<31:34,  2.02it/s] 64%|██████▍   | 6866/10692 [1:04:12<31:34,  2.02it/s] 64%|██████▍   | 6867/10692 [1:04:12<31:34,  2.02it/s] 64%|██████▍   | 6868/10692 [1:04:13<31:32,  2.02it/s] 64%|██████▍   | 6869/10692 [1:04:13<31:33,  2.02it/s] 64%|██████▍   | 6870/10692 [1:04:14<31:31,  2.02it/s] 64%|██████▍   | 6871/10692 [1:04:14<31:31,  2.02it/s] 64%|██████▍   | 6872/10692 [1:04:15<31:30,  2.02it/s] 64%|██████▍   | 6873/10692 [1:04:15<31:32,  2.02it/s] 64%|██████▍   | 6874/10692 [1:04:16<31:30,  2.02it/s] 64%|██████▍   | 6875/10692 [1:04:16<31:31,  2.02it/s]{'loss': 3.643, 'grad_norm': 0.20069298148155212, 'learning_rate': 0.0003405626371220127, 'epoch': 0.64}
+                                                       64%|██████▍   | 6875/10692 [1:04:16<31:31,  2.02it/s] 64%|██████▍   | 6876/10692 [1:04:17<31:34,  2.01it/s] 64%|██████▍   | 6877/10692 [1:04:17<31:32,  2.02it/s] 64%|██████▍   | 6878/10692 [1:04:18<31:28,  2.02it/s] 64%|██████▍   | 6879/10692 [1:04:18<31:27,  2.02it/s] 64%|██████▍   | 6880/10692 [1:04:19<31:25,  2.02it/s] 64%|██████▍   | 6881/10692 [1:04:19<31:24,  2.02it/s] 64%|██████▍   | 6882/10692 [1:04:20<31:23,  2.02it/s] 64%|██████▍   | 6883/10692 [1:04:20<31:21,  2.02it/s] 64%|██████▍   | 6884/10692 [1:04:20<31:21,  2.02it/s] 64%|██████▍   | 6885/10692 [1:04:21<31:20,  2.02it/s] 64%|██████▍   | 6886/10692 [1:04:21<31:20,  2.02it/s] 64%|██████▍   | 6887/10692 [1:04:22<31:21,  2.02it/s] 64%|██████▍   | 6888/10692 [1:04:22<31:22,  2.02it/s] 64%|██████▍   | 6889/10692 [1:04:23<31:22,  2.02it/s] 64%|██████▍   | 6890/10692 [1:04:23<31:21,  2.02it/s] 64%|██████▍   | 6891/10692 [1:04:24<31:20,  2.02it/s] 64%|██████▍   | 6892/10692 [1:04:24<31:21,  2.02it/s] 64%|██████▍   | 6893/10692 [1:04:25<31:19,  2.02it/s] 64%|██████▍   | 6894/10692 [1:04:25<31:24,  2.01it/s] 64%|██████▍   | 6895/10692 [1:04:26<31:21,  2.02it/s] 64%|██████▍   | 6896/10692 [1:04:26<31:21,  2.02it/s] 65%|██████▍   | 6897/10692 [1:04:27<31:18,  2.02it/s] 65%|██████▍   | 6898/10692 [1:04:27<31:19,  2.02it/s] 65%|██████▍   | 6899/10692 [1:04:28<31:17,  2.02it/s] 65%|██████▍   | 6900/10692 [1:04:28<31:18,  2.02it/s]{'loss': 3.633, 'grad_norm': 0.2029946893453598, 'learning_rate': 0.00033669978358126187, 'epoch': 0.65}
+                                                       65%|██████▍   | 6900/10692 [1:04:28<31:18,  2.02it/s] 65%|██████▍   | 6901/10692 [1:04:29<31:18,  2.02it/s] 65%|██████▍   | 6902/10692 [1:04:29<31:18,  2.02it/s] 65%|██████▍   | 6903/10692 [1:04:30<31:15,  2.02it/s] 65%|██████▍   | 6904/10692 [1:04:30<31:17,  2.02it/s] 65%|██████▍   | 6905/10692 [1:04:31<31:17,  2.02it/s] 65%|██████▍   | 6906/10692 [1:04:31<31:16,  2.02it/s] 65%|██████▍   | 6907/10692 [1:04:32<31:14,  2.02it/s] 65%|██████▍   | 6908/10692 [1:04:32<31:13,  2.02it/s] 65%|██████▍   | 6909/10692 [1:04:33<31:12,  2.02it/s] 65%|██████▍   | 6910/10692 [1:04:33<31:11,  2.02it/s] 65%|██████▍   | 6911/10692 [1:04:34<31:10,  2.02it/s] 65%|██████▍   | 6912/10692 [1:04:34<31:08,  2.02it/s] 65%|██████▍   | 6913/10692 [1:04:35<31:09,  2.02it/s] 65%|██████▍   | 6914/10692 [1:04:35<31:06,  2.02it/s] 65%|██████▍   | 6915/10692 [1:04:36<31:07,  2.02it/s] 65%|██████▍   | 6916/10692 [1:04:36<31:06,  2.02it/s] 65%|██████▍   | 6917/10692 [1:04:37<31:07,  2.02it/s] 65%|██████▍   | 6918/10692 [1:04:37<31:05,  2.02it/s] 65%|██████▍   | 6919/10692 [1:04:38<31:06,  2.02it/s] 65%|██████▍   | 6920/10692 [1:04:38<31:05,  2.02it/s] 65%|██████▍   | 6921/10692 [1:04:39<31:06,  2.02it/s] 65%|██████▍   | 6922/10692 [1:04:39<31:05,  2.02it/s] 65%|██████▍   | 6923/10692 [1:04:40<31:05,  2.02it/s] 65%|██████▍   | 6924/10692 [1:04:40<31:04,  2.02it/s] 65%|██████▍   | 6925/10692 [1:04:41<31:03,  2.02it/s]                                                      {'loss': 3.6423, 'grad_norm': 0.202614888548851, 'learning_rate': 0.0003328478101535276, 'epoch': 0.65}
+ 65%|██████▍   | 6925/10692 [1:04:41<31:03,  2.02it/s] 65%|██████▍   | 6926/10692 [1:04:41<31:04,  2.02it/s] 65%|██████▍   | 6927/10692 [1:04:42<31:04,  2.02it/s] 65%|██████▍   | 6928/10692 [1:04:42<31:03,  2.02it/s] 65%|██████▍   | 6929/10692 [1:04:43<31:03,  2.02it/s] 65%|██████▍   | 6930/10692 [1:04:43<31:02,  2.02it/s] 65%|██████▍   | 6931/10692 [1:04:44<31:00,  2.02it/s] 65%|██████▍   | 6932/10692 [1:04:44<30:59,  2.02it/s] 65%|██████▍   | 6933/10692 [1:04:45<30:59,  2.02it/s] 65%|██████▍   | 6934/10692 [1:04:45<30:58,  2.02it/s] 65%|██████▍   | 6935/10692 [1:04:46<30:57,  2.02it/s] 65%|██████▍   | 6936/10692 [1:04:46<30:56,  2.02it/s] 65%|██████▍   | 6937/10692 [1:04:47<30:53,  2.03it/s] 65%|██████▍   | 6938/10692 [1:04:47<30:58,  2.02it/s] 65%|██████▍   | 6939/10692 [1:04:48<30:58,  2.02it/s] 65%|██████▍   | 6940/10692 [1:04:48<30:56,  2.02it/s] 65%|██████▍   | 6941/10692 [1:04:49<30:55,  2.02it/s] 65%|██████▍   | 6942/10692 [1:04:49<30:55,  2.02it/s] 65%|██████▍   | 6943/10692 [1:04:50<30:53,  2.02it/s] 65%|██████▍   | 6944/10692 [1:04:50<30:53,  2.02it/s] 65%|██████▍   | 6945/10692 [1:04:51<30:50,  2.02it/s] 65%|██████▍   | 6946/10692 [1:04:51<30:53,  2.02it/s] 65%|██████▍   | 6947/10692 [1:04:52<30:51,  2.02it/s] 65%|██████▍   | 6948/10692 [1:04:52<30:54,  2.02it/s] 65%|██████▍   | 6949/10692 [1:04:53<30:50,  2.02it/s] 65%|██████▌   | 6950/10692 [1:04:53<30:51,  2.02it/s]{'loss': 3.6368, 'grad_norm': 0.2277308851480484, 'learning_rate': 0.0003290069734821086, 'epoch': 0.65}
+                                                       65%|██████▌   | 6950/10692 [1:04:53<30:51,  2.02it/s] 65%|██████▌   | 6951/10692 [1:04:54<30:53,  2.02it/s] 65%|██████▌   | 6952/10692 [1:04:54<30:52,  2.02it/s] 65%|██████▌   | 6953/10692 [1:04:55<30:52,  2.02it/s] 65%|██████▌   | 6954/10692 [1:04:55<30:50,  2.02it/s] 65%|██████▌   | 6955/10692 [1:04:56<30:50,  2.02it/s] 65%|██████▌   | 6956/10692 [1:04:56<30:48,  2.02it/s] 65%|██████▌   | 6957/10692 [1:04:57<30:46,  2.02it/s] 65%|██████▌   | 6958/10692 [1:04:57<30:47,  2.02it/s] 65%|██████▌   | 6959/10692 [1:04:58<30:47,  2.02it/s] 65%|██████▌   | 6960/10692 [1:04:58<30:46,  2.02it/s] 65%|██████▌   | 6961/10692 [1:04:59<30:44,  2.02it/s] 65%|██████▌   | 6962/10692 [1:04:59<30:44,  2.02it/s] 65%|██████▌   | 6963/10692 [1:05:00<30:45,  2.02it/s] 65%|██████▌   | 6964/10692 [1:05:00<30:44,  2.02it/s] 65%|██████▌   | 6965/10692 [1:05:01<30:47,  2.02it/s] 65%|██████▌   | 6966/10692 [1:05:01<30:47,  2.02it/s] 65%|██████▌   | 6967/10692 [1:05:02<30:44,  2.02it/s] 65%|██████▌   | 6968/10692 [1:05:02<30:43,  2.02it/s] 65%|██████▌   | 6969/10692 [1:05:03<30:42,  2.02it/s] 65%|██████▌   | 6970/10692 [1:05:03<30:42,  2.02it/s] 65%|██████▌   | 6971/10692 [1:05:04<30:40,  2.02it/s] 65%|██████▌   | 6972/10692 [1:05:04<30:41,  2.02it/s] 65%|██████▌   | 6973/10692 [1:05:05<30:39,  2.02it/s] 65%|██████▌   | 6974/10692 [1:05:05<30:40,  2.02it/s] 65%|██████▌   | 6975/10692 [1:05:06<30:37,  2.02it/s]{'loss': 3.6466, 'grad_norm': 0.2047910839319229, 'learning_rate': 0.0003251775294683009, 'epoch': 0.65}                                                      
+ 65%|██████▌   | 6975/10692 [1:05:06<30:37,  2.02it/s] 65%|██████▌   | 6976/10692 [1:05:06<30:40,  2.02it/s] 65%|██████▌   | 6977/10692 [1:05:07<30:37,  2.02it/s] 65%|██████▌   | 6978/10692 [1:05:07<30:39,  2.02it/s] 65%|██████▌   | 6979/10692 [1:05:08<30:36,  2.02it/s] 65%|██████▌   | 6980/10692 [1:05:08<30:40,  2.02it/s] 65%|██████▌   | 6981/10692 [1:05:09<30:37,  2.02it/s] 65%|██████▌   | 6982/10692 [1:05:09<30:39,  2.02it/s] 65%|██████▌   | 6983/10692 [1:05:09<30:34,  2.02it/s] 65%|██████▌   | 6984/10692 [1:05:10<30:35,  2.02it/s] 65%|██████▌   | 6985/10692 [1:05:10<30:31,  2.02it/s] 65%|██████▌   | 6986/10692 [1:05:11<30:31,  2.02it/s] 65%|██████▌   | 6987/10692 [1:05:11<30:31,  2.02it/s] 65%|██████▌   | 6988/10692 [1:05:12<30:30,  2.02it/s] 65%|██████▌   | 6989/10692 [1:05:12<30:31,  2.02it/s] 65%|██████▌   | 6990/10692 [1:05:13<30:30,  2.02it/s] 65%|██████▌   | 6991/10692 [1:05:13<30:29,  2.02it/s] 65%|██████▌   | 6992/10692 [1:05:14<30:26,  2.03it/s] 65%|██████▌   | 6993/10692 [1:05:14<30:28,  2.02it/s] 65%|██████▌   | 6994/10692 [1:05:15<30:25,  2.03it/s] 65%|██████▌   | 6995/10692 [1:05:15<30:25,  2.03it/s] 65%|██████▌   | 6996/10692 [1:05:16<30:27,  2.02it/s] 65%|██████▌   | 6997/10692 [1:05:16<30:25,  2.02it/s] 65%|██████▌   | 6998/10692 [1:05:17<30:28,  2.02it/s] 65%|██████▌   | 6999/10692 [1:05:17<30:25,  2.02it/s] 65%|██████▌   | 7000/10692 [1:05:18<30:26,  2.02it/s]{'loss': 3.6293, 'grad_norm': 0.2001909464597702, 'learning_rate': 0.00032135973325434896, 'epoch': 0.65}
+                                                       65%|██████▌   | 7000/10692 [1:05:18<30:26,  2.02it/s] 65%|██████▌   | 7001/10692 [1:05:18<30:34,  2.01it/s] 65%|██████▌   | 7002/10692 [1:05:19<30:31,  2.02it/s] 65%|██████▌   | 7003/10692 [1:05:19<30:31,  2.01it/s] 66%|██████▌   | 7004/10692 [1:05:20<30:29,  2.02it/s] 66%|██████▌   | 7005/10692 [1:05:20<30:26,  2.02it/s] 66%|██████▌   | 7006/10692 [1:05:21<30:23,  2.02it/s] 66%|██████▌   | 7007/10692 [1:05:21<30:23,  2.02it/s] 66%|██████▌   | 7008/10692 [1:05:22<30:22,  2.02it/s] 66%|██████▌   | 7009/10692 [1:05:22<30:22,  2.02it/s] 66%|██████▌   | 7010/10692 [1:05:23<30:21,  2.02it/s] 66%|██████▌   | 7011/10692 [1:05:23<30:21,  2.02it/s] 66%|██████▌   | 7012/10692 [1:05:24<30:21,  2.02it/s] 66%|██████▌   | 7013/10692 [1:05:24<30:20,  2.02it/s] 66%|██████▌   | 7014/10692 [1:05:25<30:18,  2.02it/s] 66%|██████▌   | 7015/10692 [1:05:25<30:17,  2.02it/s] 66%|██████▌   | 7016/10692 [1:05:26<30:17,  2.02it/s] 66%|██████▌   | 7017/10692 [1:05:26<30:18,  2.02it/s] 66%|██████▌   | 7018/10692 [1:05:27<30:19,  2.02it/s] 66%|██████▌   | 7019/10692 [1:05:27<30:18,  2.02it/s] 66%|██████▌   | 7020/10692 [1:05:28<30:16,  2.02it/s] 66%|██████▌   | 7021/10692 [1:05:28<30:17,  2.02it/s] 66%|██████▌   | 7022/10692 [1:05:29<30:15,  2.02it/s] 66%|██████▌   | 7023/10692 [1:05:29<30:15,  2.02it/s] 66%|██████▌   | 7024/10692 [1:05:30<30:14,  2.02it/s] 66%|██████▌   | 7025/10692 [1:05:30<30:14,  2.02it/s]{'loss': 3.6297, 'grad_norm': 0.19930431246757507, 'learning_rate': 0.000317553839206445, 'epoch': 0.66}
+                                                       66%|██████▌   | 7025/10692 [1:05:30<30:14,  2.02it/s] 66%|██████▌   | 7026/10692 [1:05:31<30:20,  2.01it/s] 66%|██████▌   | 7027/10692 [1:05:31<30:17,  2.02it/s] 66%|██████▌   | 7028/10692 [1:05:32<30:13,  2.02it/s] 66%|██████▌   | 7029/10692 [1:05:32<30:13,  2.02it/s] 66%|██████▌   | 7030/10692 [1:05:33<30:12,  2.02it/s] 66%|██████▌   | 7031/10692 [1:05:33<30:13,  2.02it/s] 66%|██████▌   | 7032/10692 [1:05:34<30:10,  2.02it/s] 66%|██████▌   | 7033/10692 [1:05:34<30:10,  2.02it/s] 66%|██████▌   | 7034/10692 [1:05:35<30:08,  2.02it/s] 66%|██████▌   | 7035/10692 [1:05:35<30:07,  2.02it/s] 66%|██████▌   | 7036/10692 [1:05:36<30:06,  2.02it/s] 66%|██████▌   | 7037/10692 [1:05:36<30:07,  2.02it/s] 66%|██████▌   | 7038/10692 [1:05:37<30:07,  2.02it/s] 66%|██████▌   | 7039/10692 [1:05:37<30:05,  2.02it/s] 66%|██████▌   | 7040/10692 [1:05:38<30:03,  2.02it/s] 66%|██████▌   | 7041/10692 [1:05:38<30:04,  2.02it/s] 66%|██████▌   | 7042/10692 [1:05:39<30:03,  2.02it/s] 66%|██████▌   | 7043/10692 [1:05:39<30:05,  2.02it/s] 66%|██████▌   | 7044/10692 [1:05:40<30:03,  2.02it/s] 66%|██████▌   | 7045/10692 [1:05:40<30:02,  2.02it/s] 66%|██████▌   | 7046/10692 [1:05:41<30:03,  2.02it/s] 66%|██████▌   | 7047/10692 [1:05:41<30:01,  2.02it/s] 66%|██████▌   | 7048/10692 [1:05:42<30:02,  2.02it/s] 66%|██████▌   | 7049/10692 [1:05:42<30:00,  2.02it/s] 66%|██████▌   | 7050/10692 [1:05:43<30:01,  2.02it/s]{'loss': 3.6318, 'grad_norm': 0.19342081248760223, 'learning_rate': 0.0003137601008977824, 'epoch': 0.66}
+                                                       66%|██████▌   | 7050/10692 [1:05:43<30:01,  2.02it/s] 66%|██████▌   | 7051/10692 [1:05:43<30:04,  2.02it/s] 66%|██████▌   | 7052/10692 [1:05:44<30:04,  2.02it/s] 66%|██████▌   | 7053/10692 [1:05:44<29:59,  2.02it/s] 66%|██████▌   | 7054/10692 [1:05:45<30:01,  2.02it/s] 66%|██████▌   | 7055/10692 [1:05:45<29:57,  2.02it/s] 66%|██████▌   | 7056/10692 [1:05:46<29:58,  2.02it/s] 66%|██████▌   | 7057/10692 [1:05:46<29:56,  2.02it/s] 66%|██████▌   | 7058/10692 [1:05:47<29:57,  2.02it/s] 66%|██████▌   | 7059/10692 [1:05:47<29:57,  2.02it/s] 66%|██████▌   | 7060/10692 [1:05:48<29:58,  2.02it/s] 66%|██████▌   | 7061/10692 [1:05:48<29:56,  2.02it/s] 66%|██████▌   | 7062/10692 [1:05:49<29:58,  2.02it/s] 66%|██████▌   | 7063/10692 [1:05:49<29:57,  2.02it/s] 66%|██████▌   | 7064/10692 [1:05:50<29:57,  2.02it/s] 66%|██████▌   | 7065/10692 [1:05:50<29:55,  2.02it/s] 66%|██████▌   | 7066/10692 [1:05:51<29:55,  2.02it/s] 66%|██████▌   | 7067/10692 [1:05:51<29:53,  2.02it/s] 66%|██████▌   | 7068/10692 [1:05:52<29:54,  2.02it/s] 66%|██████▌   | 7069/10692 [1:05:52<29:53,  2.02it/s] 66%|██████▌   | 7070/10692 [1:05:53<29:53,  2.02it/s] 66%|██████▌   | 7071/10692 [1:05:53<29:52,  2.02it/s] 66%|██████▌   | 7072/10692 [1:05:54<29:53,  2.02it/s] 66%|██████▌   | 7073/10692 [1:05:54<29:52,  2.02it/s] 66%|██████▌   | 7074/10692 [1:05:55<29:52,  2.02it/s] 66%|██████▌   | 7075/10692 [1:05:55<29:49,  2.02it/s]                                                      {'loss': 3.6343, 'grad_norm': 0.19793803989887238, 'learning_rate': 0.00030997877109166104, 'epoch': 0.66}
+ 66%|██████▌   | 7075/10692 [1:05:55<29:49,  2.02it/s] 66%|██████▌   | 7076/10692 [1:05:56<29:50,  2.02it/s] 66%|██████▌   | 7077/10692 [1:05:56<29:48,  2.02it/s] 66%|██████▌   | 7078/10692 [1:05:57<29:48,  2.02it/s] 66%|██████▌   | 7079/10692 [1:05:57<29:46,  2.02it/s] 66%|██████▌   | 7080/10692 [1:05:57<29:47,  2.02it/s] 66%|██████▌   | 7081/10692 [1:05:58<29:47,  2.02it/s] 66%|██████▌   | 7082/10692 [1:05:58<29:48,  2.02it/s] 66%|██████▌   | 7083/10692 [1:05:59<29:46,  2.02it/s] 66%|██████▋   | 7084/10692 [1:05:59<29:46,  2.02it/s] 66%|██████▋   | 7085/10692 [1:06:00<29:43,  2.02it/s] 66%|██████▋   | 7086/10692 [1:06:00<29:46,  2.02it/s] 66%|██████▋   | 7087/10692 [1:06:01<29:47,  2.02it/s] 66%|██████▋   | 7088/10692 [1:06:01<29:44,  2.02it/s] 66%|██████▋   | 7089/10692 [1:06:02<29:44,  2.02it/s] 66%|██████▋   | 7090/10692 [1:06:02<29:42,  2.02it/s] 66%|██████▋   | 7091/10692 [1:06:03<29:43,  2.02it/s] 66%|██████▋   | 7092/10692 [1:06:03<29:41,  2.02it/s] 66%|██████▋   | 7093/10692 [1:06:04<29:42,  2.02it/s] 66%|██████▋   | 7094/10692 [1:06:04<29:39,  2.02it/s] 66%|██████▋   | 7095/10692 [1:06:05<29:41,  2.02it/s] 66%|██���███▋   | 7096/10692 [1:06:05<29:38,  2.02it/s] 66%|██████▋   | 7097/10692 [1:06:06<29:39,  2.02it/s] 66%|██████▋   | 7098/10692 [1:06:06<29:37,  2.02it/s] 66%|██████▋   | 7099/10692 [1:06:07<29:39,  2.02it/s] 66%|██████▋   | 7100/10692 [1:06:07<29:37,  2.02it/s]                                                      {'loss': 3.637, 'grad_norm': 0.20185698568820953, 'learning_rate': 0.0003062101017246463, 'epoch': 0.66}
+ 66%|██████▋   | 7100/10692 [1:06:07<29:37,  2.02it/s] 66%|██████▋   | 7101/10692 [1:06:08<29:41,  2.02it/s] 66%|██████▋   | 7102/10692 [1:06:08<29:35,  2.02it/s] 66%|██████▋   | 7103/10692 [1:06:09<29:34,  2.02it/s] 66%|██████▋   | 7104/10692 [1:06:09<29:34,  2.02it/s] 66%|██████▋   | 7105/10692 [1:06:10<29:33,  2.02it/s] 66%|██████▋   | 7106/10692 [1:06:10<29:33,  2.02it/s] 66%|██████▋   | 7107/10692 [1:06:11<29:32,  2.02it/s] 66%|██████▋   | 7108/10692 [1:06:11<29:33,  2.02it/s] 66%|██████▋   | 7109/10692 [1:06:12<29:33,  2.02it/s] 66%|██████▋   | 7110/10692 [1:06:12<29:32,  2.02it/s] 67%|██████▋   | 7111/10692 [1:06:13<29:30,  2.02it/s] 67%|██████▋   | 7112/10692 [1:06:13<29:30,  2.02it/s] 67%|██████▋   | 7113/10692 [1:06:14<29:28,  2.02it/s] 67%|██████▋   | 7114/10692 [1:06:14<29:30,  2.02it/s] 67%|██████▋   | 7115/10692 [1:06:15<29:29,  2.02it/s] 67%|██████▋   | 7116/10692 [1:06:15<29:28,  2.02it/s] 67%|██████▋   | 7117/10692 [1:06:16<29:28,  2.02it/s] 67%|██████▋   | 7118/10692 [1:06:16<29:25,  2.02it/s] 67%|██████▋   | 7119/10692 [1:06:17<29:27,  2.02it/s] 67%|██████▋   | 7120/10692 [1:06:17<29:23,  2.03it/s] 67%|██████▋   | 7121/10692 [1:06:18<29:26,  2.02it/s] 67%|██████▋   | 7122/10692 [1:06:18<29:23,  2.02it/s] 67%|██████▋   | 7123/10692 [1:06:19<29:23,  2.02it/s] 67%|██████▋   | 7124/10692 [1:06:19<29:22,  2.02it/s] 67%|██████▋   | 7125/10692 [1:06:20<29:20,  2.03it/s]                                                      {'loss': 3.6239, 'grad_norm': 0.1940571665763855, 'learning_rate': 0.00030245434388978326, 'epoch': 0.67}
+ 67%|██████▋   | 7125/10692 [1:06:20<29:20,  2.03it/s] 67%|██████▋   | 7126/10692 [1:06:20<29:23,  2.02it/s] 67%|██████▋   | 7127/10692 [1:06:21<29:22,  2.02it/s] 67%|██████▋   | 7128/10692 [1:06:21<29:22,  2.02it/s] 67%|██████▋   | 7129/10692 [1:06:22<29:21,  2.02it/s] 67%|██████▋   | 7130/10692 [1:06:22<29:22,  2.02it/s] 67%|██████▋   | 7131/10692 [1:06:23<29:19,  2.02it/s] 67%|██████▋   | 7132/10692 [1:06:23<29:20,  2.02it/s] 67%|██████▋   | 7133/10692 [1:06:24<29:18,  2.02it/s] 67%|██████▋   | 7134/10692 [1:06:24<29:19,  2.02it/s] 67%|██████▋   | 7135/10692 [1:06:25<29:16,  2.03it/s] 67%|██████▋   | 7136/10692 [1:06:25<29:18,  2.02it/s] 67%|██████▋   | 7137/10692 [1:06:26<29:16,  2.02it/s] 67%|██████▋   | 7138/10692 [1:06:26<29:18,  2.02it/s] 67%|██████▋   | 7139/10692 [1:06:27<29:18,  2.02it/s] 67%|██████▋   | 7140/10692 [1:06:27<29:17,  2.02it/s] 67%|██████▋   | 7141/10692 [1:06:28<29:17,  2.02it/s] 67%|██████▋   | 7142/10692 [1:06:28<29:18,  2.02it/s] 67%|██████▋   | 7143/10692 [1:06:29<29:14,  2.02it/s] 67%|██████▋   | 7144/10692 [1:06:29<29:14,  2.02it/s] 67%|██████▋   | 7145/10692 [1:06:30<29:13,  2.02it/s] 67%|██████▋   | 7146/10692 [1:06:30<29:15,  2.02it/s] 67%|██████▋   | 7147/10692 [1:06:31<29:16,  2.02it/s] 67%|██████▋   | 7148/10692 [1:06:31<29:19,  2.01it/s] 67%|██████▋   | 7149/10692 [1:06:32<29:17,  2.02it/s] 67%|██████▋   | 7150/10692 [1:06:32<29:14,  2.02it/s]{'loss': 3.6258, 'grad_norm': 0.2103806734085083, 'learning_rate': 0.00029871174781986794, 'epoch': 0.67}
+                                                       67%|██████▋   | 7150/10692 [1:06:32<29:14,  2.02it/s] 67%|██████▋   | 7151/10692 [1:06:33<29:17,  2.01it/s] 67%|██████▋   | 7152/10692 [1:06:33<29:14,  2.02it/s] 67%|██████▋   | 7153/10692 [1:06:34<29:12,  2.02it/s] 67%|██████▋   | 7154/10692 [1:06:34<29:11,  2.02it/s] 67%|██████▋   | 7155/10692 [1:06:35<29:10,  2.02it/s] 67%|██████▋   | 7156/10692 [1:06:35<29:09,  2.02it/s] 67%|██████▋   | 7157/10692 [1:06:36<29:09,  2.02it/s] 67%|██████▋   | 7158/10692 [1:06:36<29:08,  2.02it/s] 67%|██████▋   | 7159/10692 [1:06:37<29:07,  2.02it/s] 67%|█████���▋   | 7160/10692 [1:06:37<29:06,  2.02it/s] 67%|██████▋   | 7161/10692 [1:06:38<29:07,  2.02it/s] 67%|██████▋   | 7162/10692 [1:06:38<29:07,  2.02it/s] 67%|██████▋   | 7163/10692 [1:06:39<29:06,  2.02it/s] 67%|██████▋   | 7164/10692 [1:06:39<29:05,  2.02it/s] 67%|██████▋   | 7165/10692 [1:06:40<29:03,  2.02it/s] 67%|██████▋   | 7166/10692 [1:06:40<29:05,  2.02it/s] 67%|██████▋   | 7167/10692 [1:06:41<29:04,  2.02it/s] 67%|██████▋   | 7168/10692 [1:06:41<29:04,  2.02it/s] 67%|██████▋   | 7169/10692 [1:06:42<29:03,  2.02it/s] 67%|██████▋   | 7170/10692 [1:06:42<29:04,  2.02it/s] 67%|██████▋   | 7171/10692 [1:06:43<29:03,  2.02it/s] 67%|██████▋   | 7172/10692 [1:06:43<29:03,  2.02it/s] 67%|██████▋   | 7173/10692 [1:06:44<29:01,  2.02it/s] 67%|██████▋   | 7174/10692 [1:06:44<29:00,  2.02it/s] 67%|██████▋   | 7175/10692 [1:06:44<28:59,  2.02it/s]{'loss': 3.6309, 'grad_norm': 0.2065649926662445, 'learning_rate': 0.0002949825628707744, 'epoch': 0.67}
+                                                       67%|██████▋   | 7175/10692 [1:06:45<28:59,  2.02it/s] 67%|██████▋   | 7176/10692 [1:06:45<29:00,  2.02it/s] 67%|██████▋   | 7177/10692 [1:06:45<29:00,  2.02it/s] 67%|██████▋   | 7178/10692 [1:06:46<28:57,  2.02it/s] 67%|██████▋   | 7179/10692 [1:06:46<28:56,  2.02it/s] 67%|██████▋   | 7180/10692 [1:06:47<28:56,  2.02it/s] 67%|██████▋   | 7181/10692 [1:06:47<28:57,  2.02it/s] 67%|██████▋   | 7182/10692 [1:06:48<28:58,  2.02it/s] 67%|██████▋   | 7183/10692 [1:06:48<28:55,  2.02it/s] 67%|██████▋   | 7184/10692 [1:06:49<28:55,  2.02it/s] 67%|██████▋   | 7185/10692 [1:06:49<28:53,  2.02it/s] 67%|██████▋   | 7186/10692 [1:06:50<28:54,  2.02it/s] 67%|██████▋   | 7187/10692 [1:06:50<28:52,  2.02it/s] 67%|██████▋   | 7188/10692 [1:06:51<28:53,  2.02it/s] 67%|██████▋   | 7189/10692 [1:06:51<28:53,  2.02it/s] 67%|██████▋   | 7190/10692 [1:06:52<28:52,  2.02it/s] 67%|██████▋   | 7191/10692 [1:06:52<28:51,  2.02it/s] 67%|██████▋   | 7192/10692 [1:06:53<28:50,  2.02it/s] 67%|██████▋   | 7193/10692 [1:06:53<28:49,  2.02it/s] 67%|██████▋   | 7194/10692 [1:06:54<28:48,  2.02it/s] 67%|██████▋   | 7195/10692 [1:06:54<28:49,  2.02it/s] 67%|██████▋   | 7196/10692 [1:06:55<28:46,  2.02it/s] 67%|██████▋   | 7197/10692 [1:06:55<28:48,  2.02it/s] 67%|██████▋   | 7198/10692 [1:06:56<28:47,  2.02it/s] 67%|██████▋   | 7199/10692 [1:06:56<28:47,  2.02it/s] 67%|██████▋   | 7200/10692 [1:06:57<28:46,  2.02it/s]{'loss': 3.6296, 'grad_norm': 0.20339034497737885, 'learning_rate': 0.0002912670375048413, 'epoch': 0.67}
+                                                       67%|██████▋   | 7200/10692 [1:06:57<28:46,  2.02it/s] 67%|██████▋   | 7201/10692 [1:06:57<28:49,  2.02it/s] 67%|██████▋   | 7202/10692 [1:06:58<28:49,  2.02it/s] 67%|██████▋   | 7203/10692 [1:06:58<28:47,  2.02it/s] 67%|██████▋   | 7204/10692 [1:06:59<28:45,  2.02it/s] 67%|██████▋   | 7205/10692 [1:06:59<28:46,  2.02it/s] 67%|██████▋   | 7206/10692 [1:07:00<28:44,  2.02it/s] 67%|██████▋   | 7207/10692 [1:07:00<28:46,  2.02it/s] 67%|██████▋   | 7208/10692 [1:07:01<28:49,  2.01it/s] 67%|██████▋   | 7209/10692 [1:07:01<28:45,  2.02it/s] 67%|██████▋   | 7210/10692 [1:07:02<28:45,  2.02it/s] 67%|██████▋   | 7211/10692 [1:07:02<28:43,  2.02it/s] 67%|██████▋   | 7212/10692 [1:07:03<28:42,  2.02it/s] 67%|██████▋   | 7213/10692 [1:07:03<28:40,  2.02it/s] 67%|██████▋   | 7214/10692 [1:07:04<28:39,  2.02it/s] 67%|██████▋   | 7215/10692 [1:07:04<28:39,  2.02it/s] 67%|██████▋   | 7216/10692 [1:07:05<28:38,  2.02it/s] 67%|██████▋   | 7217/10692 [1:07:05<28:38,  2.02it/s] 68%|██████▊   | 7218/10692 [1:07:06<28:38,  2.02it/s] 68%|██████▊   | 7219/10692 [1:07:06<28:38,  2.02it/s] 68%|██████▊   | 7220/10692 [1:07:07<28:38,  2.02it/s] 68%|██████▊   | 7221/10692 [1:07:07<28:37,  2.02it/s] 68%|██████▊   | 7222/10692 [1:07:08<28:37,  2.02it/s] 68%|██████▊   | 7223/10692 [1:07:08<28:36,  2.02it/s] 68%|██████▊   | 7224/10692 [1:07:09<28:33,  2.02it/s] 68%|██████▊   | 7225/10692 [1:07:09<28:34,  2.02it/s]{'loss': 3.6219, 'grad_norm': 0.20612014830112457, 'learning_rate': 0.0002875654192743183, 'epoch': 0.68}
+                                                       68%|██████▊   | 7225/10692 [1:07:09<28:34,  2.02it/s] 68%|██████▊   | 7226/10692 [1:07:10<28:36,  2.02it/s] 68%|██████▊   | 7227/10692 [1:07:10<28:34,  2.02it/s] 68%|██████▊   | 7228/10692 [1:07:11<28:33,  2.02it/s] 68%|██████▊   | 7229/10692 [1:07:11<28:33,  2.02it/s] 68%|██████▊   | 7230/10692 [1:07:12<28:32,  2.02it/s] 68%|██████▊   | 7231/10692 [1:07:12<28:31,  2.02it/s] 68%|██████▊   | 7232/10692 [1:07:13<28:29,  2.02it/s] 68%|██████▊   | 7233/10692 [1:07:13<28:30,  2.02it/s] 68%|██████▊   | 7234/10692 [1:07:14<28:30,  2.02it/s] 68%|██████▊   | 7235/10692 [1:07:14<28:31,  2.02it/s] 68%|██████▊   | 7236/10692 [1:07:15<28:30,  2.02it/s] 68%|██████▊   | 7237/10692 [1:07:15<28:30,  2.02it/s] 68%|██████▊   | 7238/10692 [1:07:16<28:29,  2.02it/s] 68%|██████▊   | 7239/10692 [1:07:16<28:30,  2.02it/s] 68%|██████▊   | 7240/10692 [1:07:17<28:27,  2.02it/s] 68%|██████▊   | 7241/10692 [1:07:17<28:26,  2.02it/s] 68%|██████▊   | 7242/10692 [1:07:18<28:26,  2.02it/s] 68%|██████▊   | 7243/10692 [1:07:18<28:25,  2.02it/s] 68%|██████▊   | 7244/10692 [1:07:19<28:24,  2.02it/s] 68%|██████▊   | 7245/10692 [1:07:19<28:25,  2.02it/s] 68%|██████▊   | 7246/10692 [1:07:20<28:24,  2.02it/s] 68%|██████▊   | 7247/10692 [1:07:20<28:22,  2.02it/s] 68%|██████▊   | 7248/10692 [1:07:21<28:23,  2.02it/s] 68%|██████▊   | 7249/10692 [1:07:21<28:21,  2.02it/s] 68%|██████▊   | 7250/10692 [1:07:22<28:22,  2.02it/s]                                                      {'loss': 3.6278, 'grad_norm': 0.1990220695734024, 'learning_rate': 0.00028387795480487176, 'epoch': 0.68}
+ 68%|██████▊   | 7250/10692 [1:07:22<28:22,  2.02it/s] 68%|██████▊   | 7251/10692 [1:07:22<28:23,  2.02it/s] 68%|██████▊   | 7252/10692 [1:07:23<28:23,  2.02it/s] 68%|██████▊   | 7253/10692 [1:07:23<28:21,  2.02it/s] 68%|██████▊   | 7254/10692 [1:07:24<28:22,  2.02it/s] 68%|██████▊   | 7255/10692 [1:07:24<28:19,  2.02it/s] 68%|██████▊   | 7256/10692 [1:07:25<28:19,  2.02it/s] 68%|██████▊   | 7257/10692 [1:07:25<28:18,  2.02it/s] 68%|██████▊   | 7258/10692 [1:07:26<28:17,  2.02it/s] 68%|██████▊   | 7259/10692 [1:07:26<28:16,  2.02it/s] 68%|██████▊   | 7260/10692 [1:07:27<28:18,  2.02it/s] 68%|██████▊   | 7261/10692 [1:07:27<28:16,  2.02it/s] 68%|██████▊   | 7262/10692 [1:07:28<28:17,  2.02it/s] 68%|██████▊   | 7263/10692 [1:07:28<28:17,  2.02it/s] 68%|██████▊   | 7264/10692 [1:07:29<28:15,  2.02it/s] 68%|██████▊   | 7265/10692 [1:07:29<28:16,  2.02it/s] 68%|██████▊   | 7266/10692 [1:07:30<28:14,  2.02it/s] 68%|██████▊   | 7267/10692 [1:07:30<28:14,  2.02it/s] 68%|██████▊   | 7268/10692 [1:07:31<28:15,  2.02it/s] 68%|██████▊   | 7269/10692 [1:07:31<28:16,  2.02it/s] 68%|██████▊   | 7270/10692 [1:07:32<28:18,  2.02it/s] 68%|██████▊   | 7271/10692 [1:07:32<28:14,  2.02it/s] 68%|██████▊   | 7272/10692 [1:07:32<28:13,  2.02it/s] 68%|██████▊   | 7273/10692 [1:07:33<28:11,  2.02it/s] 68%|██████▊   | 7274/10692 [1:07:33<28:09,  2.02it/s] 68%|██████▊   | 7275/10692 [1:07:34<28:10,  2.02it/s]                                                      {'loss': 3.6244, 'grad_norm': 0.19923508167266846, 'learning_rate': 0.00028020488977915285, 'epoch': 0.68}
+ 68%|██████▊   | 7275/10692 [1:07:34<28:10,  2.02it/s] 68%|██████▊   | 7276/10692 [1:07:34<28:12,  2.02it/s] 68%|██████▊   | 7277/10692 [1:07:35<28:11,  2.02it/s] 68%|██████▊   | 7278/10692 [1:07:35<28:11,  2.02it/s] 68%|██████▊   | 7279/10692 [1:07:36<28:08,  2.02it/s] 68%|██████▊   | 7280/10692 [1:07:36<28:10,  2.02it/s] 68%|██████▊   | 7281/10692 [1:07:37<28:08,  2.02it/s] 68%|██████▊   | 7282/10692 [1:07:37<28:08,  2.02it/s] 68%|██████▊   | 7283/10692 [1:07:38<28:05,  2.02it/s] 68%|██████▊   | 7284/10692 [1:07:38<28:06,  2.02it/s] 68%|██████▊   | 7285/10692 [1:07:39<28:05,  2.02it/s] 68%|██████▊   | 7286/10692 [1:07:39<28:05,  2.02it/s] 68%|██████▊   | 7287/10692 [1:07:40<28:03,  2.02it/s] 68%|██████▊   | 7288/10692 [1:07:40<28:02,  2.02it/s] 68%|██████▊   | 7289/10692 [1:07:41<28:02,  2.02it/s] 68%|██████▊   | 7290/10692 [1:07:41<28:01,  2.02it/s] 68%|██████▊   | 7291/10692 [1:07:42<28:01,  2.02it/s] 68%|██████▊   | 7292/10692 [1:07:42<28:00,  2.02it/s] 68%|██████▊   | 7293/10692 [1:07:43<28:01,  2.02it/s] 68%|██████▊   | 7294/10692 [1:07:43<27:59,  2.02it/s] 68%|██████▊   | 7295/10692 [1:07:44<27:58,  2.02it/s] 68%|██████▊   | 7296/10692 [1:07:44<27:58,  2.02it/s] 68%|██████▊   | 7297/10692 [1:07:45<27:58,  2.02it/s] 68%|██████▊   | 7298/10692 [1:07:45<27:57,  2.02it/s] 68%|██████▊   | 7299/10692 [1:07:46<27:59,  2.02it/s] 68%|██████▊   | 7300/10692 [1:07:46<27:58,  2.02it/s]{'loss': 3.6219, 'grad_norm': 0.19653849303722382, 'learning_rate': 0.0002765464689204299, 'epoch': 0.68}
+                                                       68%|██████▊   | 7300/10692 [1:07:46<27:58,  2.02it/s] 68%|██████▊   | 7301/10692 [1:07:47<28:00,  2.02it/s] 68%|██████▊   | 7302/10692 [1:07:47<27:59,  2.02it/s] 68%|██████▊   | 7303/10692 [1:07:48<28:00,  2.02it/s] 68%|██████▊   | 7304/10692 [1:07:48<27:59,  2.02it/s] 68%|██████▊   | 7305/10692 [1:07:49<27:59,  2.02it/s] 68%|██████▊   | 7306/10692 [1:07:49<27:55,  2.02it/s] 68%|██████▊   | 7307/10692 [1:07:50<27:55,  2.02it/s] 68%|██████▊   | 7308/10692 [1:07:50<27:54,  2.02it/s] 68%|██████▊   | 7309/10692 [1:07:51<27:54,  2.02it/s] 68%|██████▊   | 7310/10692 [1:07:51<27:54,  2.02it/s] 68%|██████▊   | 7311/10692 [1:07:52<27:53,  2.02it/s] 68%|██████▊   | 7312/10692 [1:07:52<27:52,  2.02it/s] 68%|██████▊   | 7313/10692 [1:07:53<27:51,  2.02it/s] 68%|██████▊   | 7314/10692 [1:07:53<27:50,  2.02it/s] 68%|██████▊   | 7315/10692 [1:07:54<27:51,  2.02it/s] 68%|██████▊   | 7316/10692 [1:07:54<27:48,  2.02it/s] 68%|██████▊   | 7317/10692 [1:07:55<27:48,  2.02it/s] 68%|██████▊   | 7318/10692 [1:07:55<27:46,  2.02it/s] 68%|██████▊   | 7319/10692 [1:07:56<27:48,  2.02it/s] 68%|██████▊   | 7320/10692 [1:07:56<27:47,  2.02it/s] 68%|██████▊   | 7321/10692 [1:07:57<27:49,  2.02it/s] 68%|██████▊   | 7322/10692 [1:07:57<27:47,  2.02it/s] 68%|██████▊   | 7323/10692 [1:07:58<27:47,  2.02it/s] 68%|██████▊   | 7324/10692 [1:07:58<27:45,  2.02it/s] 69%|██████▊   | 7325/10692 [1:07:59<27:43,  2.02it/s]{'loss': 3.62, 'grad_norm': 0.20314572751522064, 'learning_rate': 0.0002729029359762817, 'epoch': 0.69}
+                                                       69%|██████▊   | 7325/10692 [1:07:59<27:43,  2.02it/s] 69%|██████▊   | 7326/10692 [1:07:59<27:46,  2.02it/s] 69%|██████▊   | 7327/10692 [1:08:00<27:46,  2.02it/s] 69%|██████▊   | 7328/10692 [1:08:00<27:44,  2.02it/s] 69%|██████▊   | 7329/10692 [1:08:01<27:47,  2.02it/s] 69%|██████▊   | 7330/10692 [1:08:01<27:44,  2.02it/s] 69%|██████▊   | 7331/10692 [1:08:02<27:45,  2.02it/s] 69%|██████▊   | 7332/10692 [1:08:02<27:42,  2.02it/s] 69%|██████▊   | 7333/10692 [1:08:03<27:40,  2.02it/s] 69%|██████▊   | 7334/10692 [1:08:03<27:41,  2.02it/s] 69%|██████▊   | 7335/10692 [1:08:04<27:40,  2.02it/s] 69%|██████▊   | 7336/10692 [1:08:04<27:40,  2.02it/s] 69%|██████▊   | 7337/10692 [1:08:05<27:39,  2.02it/s] 69%|██████▊   | 7338/10692 [1:08:05<27:38,  2.02it/s] 69%|██████▊   | 7339/10692 [1:08:06<27:37,  2.02it/s] 69%|██████▊   | 7340/10692 [1:08:06<27:38,  2.02it/s] 69%|██████▊   | 7341/10692 [1:08:07<27:37,  2.02it/s] 69%|██████▊   | 7342/10692 [1:08:07<27:37,  2.02it/s] 69%|██████▊   | 7343/10692 [1:08:08<27:35,  2.02it/s] 69%|██████▊   | 7344/10692 [1:08:08<27:36,  2.02it/s] 69%|██████▊   | 7345/10692 [1:08:09<27:35,  2.02it/s] 69%|██████▊   | 7346/10692 [1:08:09<27:37,  2.02it/s] 69%|██████▊   | 7347/10692 [1:08:10<27:36,  2.02it/s] 69%|██████▊   | 7348/10692 [1:08:10<27:35,  2.02it/s] 69%|██████▊   | 7349/10692 [1:08:11<27:32,  2.02it/s] 69%|██████▊   | 7350/10692 [1:08:11<27:33,  2.02it/s]                                                      {'loss': 3.6196, 'grad_norm': 0.19219234585762024, 'learning_rate': 0.00026927453370235847, 'epoch': 0.69}
+ 69%|██████▊   | 7350/10692 [1:08:11<27:33,  2.02it/s] 69%|██████▉   | 7351/10692 [1:08:12<27:35,  2.02it/s] 69%|██████▉   | 7352/10692 [1:08:12<27:34,  2.02it/s] 69%|██████▉   | 7353/10692 [1:08:13<27:34,  2.02it/s] 69%|██████▉   | 7354/10692 [1:08:13<27:32,  2.02it/s] 69%|██████▉   | 7355/10692 [1:08:14<27:31,  2.02it/s] 69%|██████▉   | 7356/10692 [1:08:14<27:30,  2.02it/s] 69%|██████▉   | 7357/10692 [1:08:15<27:30,  2.02it/s] 69%|██████▉   | 7358/10692 [1:08:15<27:29,  2.02it/s] 69%|██████▉   | 7359/10692 [1:08:16<27:28,  2.02it/s] 69%|██████▉   | 7360/10692 [1:08:16<27:28,  2.02it/s] 69%|██████▉   | 7361/10692 [1:08:17<27:27,  2.02it/s] 69%|██████▉   | 7362/10692 [1:08:17<27:26,  2.02it/s] 69%|██████▉   | 7363/10692 [1:08:18<27:25,  2.02it/s] 69%|██████▉   | 7364/10692 [1:08:18<27:25,  2.02it/s] 69%|██████▉   | 7365/10692 [1:08:19<27:25,  2.02it/s] 69%|██████▉   | 7366/10692 [1:08:19<27:25,  2.02it/s] 69%|██████▉   | 7367/10692 [1:08:19<27:23,  2.02it/s] 69%|██████▉   | 7368/10692 [1:08:20<27:23,  2.02it/s] 69%|██████▉   | 7369/10692 [1:08:20<27:22,  2.02it/s] 69%|██████▉   | 7370/10692 [1:08:21<27:23,  2.02it/s] 69%|██████▉   | 7371/10692 [1:08:21<27:21,  2.02it/s] 69%|██████▉   | 7372/10692 [1:08:22<27:23,  2.02it/s] 69%|██████▉   | 7373/10692 [1:08:22<27:21,  2.02it/s] 69%|██████▉   | 7374/10692 [1:08:23<27:21,  2.02it/s] 69%|██████▉   | 7375/10692 [1:08:23<27:19,  2.02it/s]{'loss': 3.6229, 'grad_norm': 0.2029964178800583, 'learning_rate': 0.0002656615038462076, 'epoch': 0.69}                                                      
+ 69%|██████▉   | 7375/10692 [1:08:23<27:19,  2.02it/s] 69%|██████▉   | 7376/10692 [1:08:24<27:23,  2.02it/s] 69%|██████▉   | 7377/10692 [1:08:24<27:19,  2.02it/s] 69%|██████▉   | 7378/10692 [1:08:25<27:19,  2.02it/s] 69%|██████▉   | 7379/10692 [1:08:25<27:17,  2.02it/s] 69%|██████▉   | 7380/10692 [1:08:26<27:18,  2.02it/s] 69%|██████▉   | 7381/10692 [1:08:26<27:16,  2.02it/s] 69%|██████▉   | 7382/10692 [1:08:27<27:18,  2.02it/s] 69%|██████▉   | 7383/10692 [1:08:27<27:16,  2.02it/s] 69%|██████▉   | 7384/10692 [1:08:28<27:17,  2.02it/s] 69%|██████▉   | 7385/10692 [1:08:28<27:14,  2.02it/s] 69%|██████▉   | 7386/10692 [1:08:29<27:12,  2.02it/s] 69%|██████▉   | 7387/10692 [1:08:29<27:13,  2.02it/s] 69%|██████▉   | 7388/10692 [1:08:30<27:10,  2.03it/s] 69%|██████▉   | 7389/10692 [1:08:30<27:13,  2.02it/s] 69%|██████▉   | 7390/10692 [1:08:31<27:16,  2.02it/s] 69%|██████▉   | 7391/10692 [1:08:31<27:16,  2.02it/s] 69%|██████▉   | 7392/10692 [1:08:32<27:13,  2.02it/s] 69%|██████▉   | 7393/10692 [1:08:32<27:12,  2.02it/s] 69%|██████▉   | 7394/10692 [1:08:33<27:09,  2.02it/s] 69%|██████▉   | 7395/10692 [1:08:33<27:07,  2.03it/s] 69%|██████▉   | 7396/10692 [1:08:34<27:08,  2.02it/s] 69%|██████▉   | 7397/10692 [1:08:34<27:07,  2.02it/s] 69%|██████▉   | 7398/10692 [1:08:35<27:08,  2.02it/s] 69%|██████▉   | 7399/10692 [1:08:35<27:07,  2.02it/s] 69%|██████▉   | 7400/10692 [1:08:36<27:08,  2.02it/s]{'loss': 3.6163, 'grad_norm': 0.19813409447669983, 'learning_rate': 0.0002620640871311668, 'epoch': 0.69}
+                                                       69%|██████▉   | 7400/10692 [1:08:36<27:08,  2.02it/s] 69%|██████▉   | 7401/10692 [1:08:36<27:09,  2.02it/s] 69%|██████▉   | 7402/10692 [1:08:37<27:08,  2.02it/s] 69%|██████▉   | 7403/10692 [1:08:37<27:07,  2.02it/s] 69%|██████▉   | 7404/10692 [1:08:38<27:07,  2.02it/s] 69%|██████▉   | 7405/10692 [1:08:38<27:06,  2.02it/s] 69%|██████▉   | 7406/10692 [1:08:39<27:06,  2.02it/s] 69%|██████▉   | 7407/10692 [1:08:39<27:06,  2.02it/s] 69%|██████▉   | 7408/10692 [1:08:40<27:05,  2.02it/s] 69%|██████▉   | 7409/10692 [1:08:40<27:04,  2.02it/s] 69%|██████▉   | 7410/10692 [1:08:41<27:04,  2.02it/s] 69%|██████▉   | 7411/10692 [1:08:41<27:04,  2.02it/s] 69%|██████▉   | 7412/10692 [1:08:42<27:02,  2.02it/s] 69%|██████▉   | 7413/10692 [1:08:42<27:00,  2.02it/s] 69%|██████▉   | 7414/10692 [1:08:43<27:01,  2.02it/s] 69%|██████▉   | 7415/10692 [1:08:43<26:59,  2.02it/s] 69%|██████▉   | 7416/10692 [1:08:44<26:57,  2.02it/s] 69%|██████▉   | 7417/10692 [1:08:44<26:56,  2.03it/s] 69%|██████▉   | 7418/10692 [1:08:45<26:57,  2.02it/s] 69%|██████▉   | 7419/10692 [1:08:45<26:56,  2.03it/s] 69%|██████▉   | 7420/10692 [1:08:46<26:57,  2.02it/s] 69%|██████▉   | 7421/10692 [1:08:46<26:56,  2.02it/s] 69%|██████▉   | 7422/10692 [1:08:47<26:57,  2.02it/s] 69%|██████▉   | 7423/10692 [1:08:47<26:55,  2.02it/s] 69%|██████▉   | 7424/10692 [1:08:48<26:53,  2.03it/s] 69%|██████▉   | 7425/10692 [1:08:48<26:53,  2.02it/s]{'loss': 3.6205, 'grad_norm': 0.19727814197540283, 'learning_rate': 0.00025848252324032605, 'epoch': 0.69}
+                                                       69%|██████▉   | 7425/10692 [1:08:48<26:53,  2.02it/s] 69%|██████▉   | 7426/10692 [1:08:49<26:55,  2.02it/s] 69%|██████▉   | 7427/10692 [1:08:49<26:56,  2.02it/s] 69%|██████▉   | 7428/10692 [1:08:50<26:54,  2.02it/s] 69%|██████▉   | 7429/10692 [1:08:50<26:54,  2.02it/s] 69%|██████▉   | 7430/10692 [1:08:51<26:52,  2.02it/s] 70%|██████▉   | 7431/10692 [1:08:51<26:51,  2.02it/s] 70%|██████▉   | 7432/10692 [1:08:52<26:51,  2.02it/s] 70%|██████▉   | 7433/10692 [1:08:52<26:51,  2.02it/s] 70%|██████▉   | 7434/10692 [1:08:53<26:49,  2.02it/s] 70%|██████▉   | 7435/10692 [1:08:53<26:51,  2.02it/s] 70%|██████▉   | 7436/10692 [1:08:54<26:49,  2.02it/s] 70%|██████▉   | 7437/10692 [1:08:54<26:50,  2.02it/s] 70%|██████▉   | 7438/10692 [1:08:55<26:47,  2.02it/s] 70%|██████▉   | 7439/10692 [1:08:55<26:47,  2.02it/s] 70%|██████▉   | 7440/10692 [1:08:56<26:47,  2.02it/s] 70%|██████▉   | 7441/10692 [1:08:56<26:45,  2.02it/s] 70%|██████▉   | 7442/10692 [1:08:57<26:48,  2.02it/s] 70%|██████▉   | 7443/10692 [1:08:57<26:46,  2.02it/s] 70%|██████▉   | 7444/10692 [1:08:58<26:48,  2.02it/s] 70%|██████▉   | 7445/10692 [1:08:58<26:46,  2.02it/s] 70%|██████▉   | 7446/10692 [1:08:59<26:48,  2.02it/s] 70%|██████▉   | 7447/10692 [1:08:59<26:46,  2.02it/s] 70%|██████▉   | 7448/10692 [1:09:00<26:47,  2.02it/s] 70%|██████▉   | 7449/10692 [1:09:00<26:45,  2.02it/s] 70%|██████▉   | 7450/10692 [1:09:01<26:49,  2.01it/s]{'loss': 3.623, 'grad_norm': 0.20405790209770203, 'learning_rate': 0.0002549170508005576, 'epoch': 0.7}                                                      
+ 70%|██████▉   | 7450/10692 [1:09:01<26:49,  2.01it/s] 70%|██████▉   | 7451/10692 [1:09:01<26:50,  2.01it/s] 70%|██████▉   | 7452/10692 [1:09:02<26:49,  2.01it/s] 70%|██████▉   | 7453/10692 [1:09:02<26:44,  2.02it/s] 70%|██████▉   | 7454/10692 [1:09:03<26:44,  2.02it/s] 70%|██████▉   | 7455/10692 [1:09:03<26:42,  2.02it/s] 70%|██████▉   | 7456/10692 [1:09:04<26:41,  2.02it/s] 70%|██████▉   | 7457/10692 [1:09:04<26:41,  2.02it/s] 70%|██████▉   | 7458/10692 [1:09:05<26:40,  2.02it/s] 70%|██████▉   | 7459/10692 [1:09:05<26:39,  2.02it/s] 70%|██████▉   | 7460/10692 [1:09:05<26:38,  2.02it/s] 70%|██████▉   | 7461/10692 [1:09:06<26:38,  2.02it/s] 70%|██████▉   | 7462/10692 [1:09:06<26:36,  2.02it/s] 70%|██████▉   | 7463/10692 [1:09:07<26:37,  2.02it/s] 70%|██████▉   | 7464/10692 [1:09:07<26:35,  2.02it/s] 70%|██████▉   | 7465/10692 [1:09:08<26:37,  2.02it/s] 70%|██████▉   | 7466/10692 [1:09:08<26:35,  2.02it/s] 70%|██████▉   | 7467/10692 [1:09:09<26:36,  2.02it/s] 70%|██████▉   | 7468/10692 [1:09:09<26:34,  2.02it/s] 70%|██████▉   | 7469/10692 [1:09:10<26:34,  2.02it/s] 70%|██████▉   | 7470/10692 [1:09:10<26:34,  2.02it/s] 70%|██████▉   | 7471/10692 [1:09:11<26:33,  2.02it/s] 70%|██████▉   | 7472/10692 [1:09:11<26:31,  2.02it/s] 70%|██████▉   | 7473/10692 [1:09:12<26:32,  2.02it/s] 70%|██████▉   | 7474/10692 [1:09:12<26:30,  2.02it/s] 70%|██████▉   | 7475/10692 [1:09:13<26:31,  2.02it/s]{'loss': 3.6196, 'grad_norm': 0.20062731206417084, 'learning_rate': 0.0002513679073666176, 'epoch': 0.7}
+                                                       70%|██████▉   | 7475/10692 [1:09:13<26:31,  2.02it/s] 70%|██████▉   | 7476/10692 [1:09:13<26:32,  2.02it/s] 70%|██████▉   | 7477/10692 [1:09:14<26:31,  2.02it/s] 70%|██████▉   | 7478/10692 [1:09:14<26:30,  2.02it/s] 70%|██████▉   | 7479/10692 [1:09:15<26:31,  2.02it/s] 70%|██████▉   | 7480/10692 [1:09:15<26:30,  2.02it/s] 70%|██████▉   | 7481/10692 [1:09:16<26:30,  2.02it/s] 70%|██████▉   | 7482/10692 [1:09:16<26:28,  2.02it/s] 70%|██████▉   | 7483/10692 [1:09:17<26:28,  2.02it/s] 70%|██████▉   | 7484/10692 [1:09:17<26:28,  2.02it/s] 70%|███████   | 7485/10692 [1:09:18<26:28,  2.02it/s] 70%|███████   | 7486/10692 [1:09:18<26:25,  2.02it/s] 70%|███████   | 7487/10692 [1:09:19<26:25,  2.02it/s] 70%|███████   | 7488/10692 [1:09:19<26:23,  2.02it/s] 70%|███████   | 7489/10692 [1:09:20<26:24,  2.02it/s] 70%|███████   | 7490/10692 [1:09:20<26:22,  2.02it/s] 70%|███████   | 7491/10692 [1:09:21<26:22,  2.02it/s] 70%|███████   | 7492/10692 [1:09:21<26:20,  2.02it/s] 70%|███████   | 7493/10692 [1:09:22<26:21,  2.02it/s] 70%|███████   | 7494/10692 [1:09:22<26:21,  2.02it/s] 70%|███████   | 7495/10692 [1:09:23<26:22,  2.02it/s] 70%|███████   | 7496/10692 [1:09:23<26:20,  2.02it/s] 70%|███████   | 7497/10692 [1:09:24<26:20,  2.02it/s] 70%|███████   | 7498/10692 [1:09:24<26:18,  2.02it/s] 70%|███████   | 7499/10692 [1:09:25<26:19,  2.02it/s] 70%|███████   | 7500/10692 [1:09:25<26:17,  2.02it/s]{'loss': 3.6184, 'grad_norm': 0.19889675080776215, 'learning_rate': 0.0002478353294053189, 'epoch': 0.7}
+                                                       70%|███████   | 7500/10692 [1:09:25<26:17,  2.02it/s] 70%|███████   | 7501/10692 [1:09:26<26:21,  2.02it/s] 70%|███████   | 7502/10692 [1:09:27<30:38,  1.74it/s] 70%|███████   | 7503/10692 [1:09:27<29:20,  1.81it/s] 70%|███████   | 7504/10692 [1:09:28<28:26,  1.87it/s] 70%|███████   | 7505/10692 [1:09:28<27:46,  1.91it/s] 70%|███████   | 7506/10692 [1:09:29<27:21,  1.94it/s] 70%|███████   | 7507/10692 [1:09:29<27:01,  1.96it/s] 70%|███████   | 7508/10692 [1:09:30<26:48,  1.98it/s] 70%|███████   | 7509/10692 [1:09:30<26:36,  1.99it/s] 70%|███████   | 7510/10692 [1:09:31<26:32,  2.00it/s] 70%|███████   | 7511/10692 [1:09:31<26:25,  2.01it/s] 70%|███████   | 7512/10692 [1:09:32<26:26,  2.00it/s] 70%|███████   | 7513/10692 [1:09:32<26:22,  2.01it/s] 70%|███████   | 7514/10692 [1:09:32<26:18,  2.01it/s] 70%|███████   | 7515/10692 [1:09:33<26:15,  2.02it/s] 70%|███████   | 7516/10692 [1:09:33<26:15,  2.02it/s] 70%|███████   | 7517/10692 [1:09:34<26:12,  2.02it/s] 70%|███████   | 7518/10692 [1:09:34<26:12,  2.02it/s] 70%|███████   | 7519/10692 [1:09:35<26:11,  2.02it/s] 70%|███████   | 7520/10692 [1:09:35<26:09,  2.02it/s] 70%|███████   | 7521/10692 [1:09:36<26:07,  2.02it/s] 70%|███████   | 7522/10692 [1:09:36<26:08,  2.02it/s] 70%|███████   | 7523/10692 [1:09:37<26:08,  2.02it/s] 70%|███████   | 7524/10692 [1:09:37<26:06,  2.02it/s] 70%|███████   | 7525/10692 [1:09:38<26:07,  2.02it/s]{'loss': 3.6184, 'grad_norm': 0.20693989098072052, 'learning_rate': 0.0002443195522797753, 'epoch': 0.7}
+                                                       70%|███████   | 7525/10692 [1:09:38<26:07,  2.02it/s] 70%|███████   | 7526/10692 [1:09:38<26:09,  2.02it/s] 70%|███████   | 7527/10692 [1:09:39<26:07,  2.02it/s] 70%|███████   | 7528/10692 [1:09:39<26:04,  2.02it/s] 70%|███████   | 7529/10692 [1:09:40<26:04,  2.02it/s] 70%|███████   | 7530/10692 [1:09:40<26:03,  2.02it/s] 70%|███████   | 7531/10692 [1:09:41<26:03,  2.02it/s] 70%|███████   | 7532/10692 [1:09:41<26:00,  2.02it/s] 70%|███████   | 7533/10692 [1:09:42<30:15,  1.74it/s] 70%|███████   | 7534/10692 [1:09:43<28:57,  1.82it/s] 70%|███████   | 7535/10692 [1:09:43<28:07,  1.87it/s] 70%|███████   | 7536/10692 [1:09:44<27:27,  1.92it/s] 70%|███████   | 7537/10692 [1:09:44<27:02,  1.94it/s] 71%|███████   | 7538/10692 [1:09:45<26:43,  1.97it/s] 71%|███████   | 7539/10692 [1:09:45<26:31,  1.98it/s] 71%|███████   | 7540/10692 [1:09:46<26:21,  1.99it/s] 71%|███████   | 7541/10692 [1:09:46<26:15,  2.00it/s] 71%|███████   | 7542/10692 [1:09:47<26:08,  2.01it/s] 71%|███████   | 7543/10692 [1:09:47<26:05,  2.01it/s] 71%|███████   | 7544/10692 [1:09:48<26:04,  2.01it/s] 71%|███████   | 7545/10692 [1:09:48<26:02,  2.01it/s] 71%|███████   | 7546/10692 [1:09:49<25:58,  2.02it/s] 71%|███████   | 7547/10692 [1:09:49<25:59,  2.02it/s] 71%|███████   | 7548/10692 [1:09:50<25:56,  2.02it/s] 71%|███████   | 7549/10692 [1:09:50<25:56,  2.02it/s] 71%|███████   | 7550/10692 [1:09:51<25:54,  2.02it/s]{'loss': 3.6098, 'grad_norm': 0.20148445665836334, 'learning_rate': 0.00024082081023372098, 'epoch': 0.71}
+                                                       71%|███████   | 7550/10692 [1:09:51<25:54,  2.02it/s] 71%|███████   | 7551/10692 [1:09:51<25:55,  2.02it/s] 71%|███████   | 7552/10692 [1:09:52<25:54,  2.02it/s] 71%|███████   | 7553/10692 [1:09:52<25:54,  2.02it/s] 71%|███████   | 7554/10692 [1:09:53<25:53,  2.02it/s] 71%|███████   | 7555/10692 [1:09:53<25:53,  2.02it/s] 71%|███████   | 7556/10692 [1:09:54<25:53,  2.02it/s] 71%|███████   | 7557/10692 [1:09:54<25:52,  2.02it/s] 71%|███████   | 7558/10692 [1:09:55<25:51,  2.02it/s] 71%|███████   | 7559/10692 [1:09:55<25:52,  2.02it/s] 71%|███████   | 7560/10692 [1:09:56<25:50,  2.02it/s] 71%|███████   | 7561/10692 [1:09:56<25:50,  2.02it/s] 71%|███████   | 7562/10692 [1:09:57<25:48,  2.02it/s] 71%|███████   | 7563/10692 [1:09:57<25:50,  2.02it/s] 71%|███████   | 7564/10692 [1:09:58<25:48,  2.02it/s] 71%|███████   | 7565/10692 [1:09:58<25:49,  2.02it/s] 71%|███████   | 7566/10692 [1:09:59<25:48,  2.02it/s] 71%|███████   | 7567/10692 [1:09:59<25:48,  2.02it/s] 71%|███████   | 7568/10692 [1:09:59<25:47,  2.02it/s] 71%|███████   | 7569/10692 [1:10:00<25:47,  2.02it/s] 71%|███████   | 7570/10692 [1:10:00<25:46,  2.02it/s] 71%|███████   | 7571/10692 [1:10:01<25:49,  2.01it/s] 71%|███████   | 7572/10692 [1:10:01<25:47,  2.02it/s] 71%|███████   | 7573/10692 [1:10:02<25:45,  2.02it/s] 71%|███████   | 7574/10692 [1:10:02<25:42,  2.02it/s] 71%|███████   | 7575/10692 [1:10:03<25:42,  2.02it/s]{'loss': 3.6147, 'grad_norm': 0.19324184954166412, 'learning_rate': 0.000237339336375903, 'epoch': 0.71}                                                      
+ 71%|███████   | 7575/10692 [1:10:03<25:42,  2.02it/s] 71%|███████   | 7576/10692 [1:10:03<25:44,  2.02it/s] 71%|███████   | 7577/10692 [1:10:04<25:44,  2.02it/s] 71%|███████   | 7578/10692 [1:10:04<25:43,  2.02it/s] 71%|███████   | 7579/10692 [1:10:05<25:43,  2.02it/s] 71%|███████   | 7580/10692 [1:10:05<25:41,  2.02it/s] 71%|███████   | 7581/10692 [1:10:06<25:40,  2.02it/s] 71%|███████   | 7582/10692 [1:10:06<25:38,  2.02it/s] 71%|███████   | 7583/10692 [1:10:07<25:37,  2.02it/s] 71%|███████   | 7584/10692 [1:10:07<25:38,  2.02it/s] 71%|███████   | 7585/10692 [1:10:08<25:35,  2.02it/s] 71%|███████   | 7586/10692 [1:10:08<25:36,  2.02it/s] 71%|███████   | 7587/10692 [1:10:09<25:34,  2.02it/s] 71%|███████   | 7588/10692 [1:10:09<25:35,  2.02it/s] 71%|███████   | 7589/10692 [1:10:10<25:34,  2.02it/s] 71%|███████   | 7590/10692 [1:10:10<25:32,  2.02it/s] 71%|███████   | 7591/10692 [1:10:11<25:33,  2.02it/s] 71%|███████   | 7592/10692 [1:10:11<25:31,  2.02it/s] 71%|███████   | 7593/10692 [1:10:12<25:32,  2.02it/s] 71%|███████   | 7594/10692 [1:10:12<25:30,  2.02it/s] 71%|███████   | 7595/10692 [1:10:13<25:32,  2.02it/s] 71%|███████   | 7596/10692 [1:10:13<25:31,  2.02it/s] 71%|███████   | 7597/10692 [1:10:14<25:29,  2.02it/s] 71%|███████   | 7598/10692 [1:10:14<25:30,  2.02it/s] 71%|███████   | 7599/10692 [1:10:15<25:29,  2.02it/s] 71%|███████   | 7600/10692 [1:10:15<25:29,  2.02it/s]{'loss': 3.6115, 'grad_norm': 0.2057514190673828, 'learning_rate': 0.00023387536266455096, 'epoch': 0.71}                                                      
+ 71%|███████   | 7600/10692 [1:10:15<25:29,  2.02it/s] 71%|███████   | 7601/10692 [1:10:16<25:32,  2.02it/s] 71%|███████   | 7602/10692 [1:10:16<25:29,  2.02it/s] 71%|███████   | 7603/10692 [1:10:17<25:30,  2.02it/s] 71%|███████   | 7604/10692 [1:10:17<25:28,  2.02it/s] 71%|███████   | 7605/10692 [1:10:18<25:28,  2.02it/s] 71%|███████   | 7606/10692 [1:10:18<25:27,  2.02it/s] 71%|███████   | 7607/10692 [1:10:19<25:27,  2.02it/s] 71%|███████   | 7608/10692 [1:10:19<25:25,  2.02it/s] 71%|███████   | 7609/10692 [1:10:20<25:27,  2.02it/s] 71%|███████   | 7610/10692 [1:10:20<25:24,  2.02it/s] 71%|███████   | 7611/10692 [1:10:21<25:24,  2.02it/s] 71%|███████   | 7612/10692 [1:10:21<25:23,  2.02it/s] 71%|███████   | 7613/10692 [1:10:22<25:23,  2.02it/s] 71%|███████   | 7614/10692 [1:10:22<25:22,  2.02it/s] 71%|███████   | 7615/10692 [1:10:23<25:21,  2.02it/s] 71%|███████   | 7616/10692 [1:10:23<25:19,  2.02it/s] 71%|███████   | 7617/10692 [1:10:24<25:19,  2.02it/s] 71%|███████   | 7618/10692 [1:10:24<25:17,  2.03it/s] 71%|███████▏  | 7619/10692 [1:10:25<25:17,  2.02it/s] 71%|███████▏  | 7620/10692 [1:10:25<25:17,  2.02it/s] 71%|███████▏  | 7621/10692 [1:10:26<25:17,  2.02it/s] 71%|███████▏  | 7622/10692 [1:10:26<25:16,  2.02it/s] 71%|███████▏  | 7623/10692 [1:10:27<25:14,  2.03it/s] 71%|███████▏  | 7624/10692 [1:10:27<25:15,  2.02it/s] 71%|███████▏  | 7625/10692 [1:10:28<25:13,  2.03it/s]{'loss': 3.6093, 'grad_norm': 0.2027246057987213, 'learning_rate': 0.00023042911989192116, 'epoch': 0.71}
+                                                       71%|███████▏  | 7625/10692 [1:10:28<25:13,  2.03it/s] 71%|███████▏  | 7626/10692 [1:10:28<25:18,  2.02it/s] 71%|███████▏  | 7627/10692 [1:10:29<25:15,  2.02it/s] 71%|███████▏  | 7628/10692 [1:10:29<25:14,  2.02it/s] 71%|███████▏  | 7629/10692 [1:10:30<25:13,  2.02it/s] 71%|███████▏  | 7630/10692 [1:10:30<25:14,  2.02it/s] 71%|███████▏  | 7631/10692 [1:10:31<25:16,  2.02it/s] 71%|███████▏  | 7632/10692 [1:10:31<25:15,  2.02it/s] 71%|███████▏  | 7633/10692 [1:10:32<25:15,  2.02it/s] 71%|███████▏  | 7634/10692 [1:10:32<25:15,  2.02it/s] 71%|███████▏  | 7635/10692 [1:10:33<25:12,  2.02it/s] 71%|███████▏  | 7636/10692 [1:10:33<25:12,  2.02it/s] 71%|███████▏  | 7637/10692 [1:10:34<25:09,  2.02it/s] 71%|███████▏  | 7638/10692 [1:10:34<25:10,  2.02it/s] 71%|███████▏  | 7639/10692 [1:10:35<25:07,  2.02it/s] 71%|███████▏  | 7640/10692 [1:10:35<25:07,  2.02it/s] 71%|███████▏  | 7641/10692 [1:10:36<25:07,  2.02it/s] 71%|███████▏  | 7642/10692 [1:10:36<25:07,  2.02it/s] 71%|███████▏  | 7643/10692 [1:10:37<25:08,  2.02it/s] 71%|███████▏  | 7644/10692 [1:10:37<25:06,  2.02it/s] 72%|███████▏  | 7645/10692 [1:10:38<25:05,  2.02it/s] 72%|███████▏  | 7646/10692 [1:10:38<25:06,  2.02it/s] 72%|███████▏  | 7647/10692 [1:10:39<25:07,  2.02it/s] 72%|███████▏  | 7648/10692 [1:10:39<25:06,  2.02it/s] 72%|███████▏  | 7649/10692 [1:10:40<25:07,  2.02it/s] 72%|███████▏  | 7650/10692 [1:10:40<25:04,  2.02it/s]                                                      {'loss': 3.6158, 'grad_norm': 0.21092058718204498, 'learning_rate': 0.00022700083766892128, 'epoch': 0.72}
+ 72%|███████▏  | 7650/10692 [1:10:40<25:04,  2.02it/s] 72%|███████▏  | 7651/10692 [1:10:41<25:08,  2.02it/s] 72%|███████▏  | 7652/10692 [1:10:41<25:05,  2.02it/s] 72%|███████▏  | 7653/10692 [1:10:42<25:05,  2.02it/s] 72%|███████▏  | 7654/10692 [1:10:42<25:04,  2.02it/s] 72%|███████▏  | 7655/10692 [1:10:43<25:04,  2.02it/s] 72%|███████▏  | 7656/10692 [1:10:43<25:02,  2.02it/s] 72%|███████▏  | 7657/10692 [1:10:44<25:03,  2.02it/s] 72%|███████▏  | 7658/10692 [1:10:44<25:01,  2.02it/s] 72%|███████▏  | 7659/10692 [1:10:45<25:01,  2.02it/s] 72%|███████▏  | 7660/10692 [1:10:45<24:58,  2.02it/s] 72%|███████▏  | 7661/10692 [1:10:46<24:58,  2.02it/s] 72%|███████▏  | 7662/10692 [1:10:46<24:57,  2.02it/s] 72%|███████▏  | 7663/10692 [1:10:46<24:57,  2.02it/s] 72%|███████▏  | 7664/10692 [1:10:47<24:58,  2.02it/s] 72%|███████▏  | 7665/10692 [1:10:47<24:56,  2.02it/s] 72%|███████▏  | 7666/10692 [1:10:48<24:58,  2.02it/s] 72%|███████▏  | 7667/10692 [1:10:48<24:56,  2.02it/s] 72%|███████▏  | 7668/10692 [1:10:49<24:57,  2.02it/s] 72%|███████▏  | 7669/10692 [1:10:49<24:54,  2.02it/s] 72%|███████▏  | 7670/10692 [1:10:50<24:54,  2.02it/s] 72%|███████▏  | 7671/10692 [1:10:50<24:52,  2.02it/s] 72%|███████▏  | 7672/10692 [1:10:51<24:51,  2.02it/s] 72%|███████▏  | 7673/10692 [1:10:51<24:51,  2.02it/s] 72%|███████▏  | 7674/10692 [1:10:52<24:51,  2.02it/s] 72%|███████▏  | 7675/10692 [1:10:52<24:50,  2.02it/s]{'loss': 3.6117, 'grad_norm': 0.21290285885334015, 'learning_rate': 0.0002235907444098108, 'epoch': 0.72}
+                                                       72%|███████▏  | 7675/10692 [1:10:52<24:50,  2.02it/s] 72%|███████▏  | 7676/10692 [1:10:53<24:52,  2.02it/s] 72%|███████▏  | 7677/10692 [1:10:53<24:51,  2.02it/s] 72%|███████▏  | 7678/10692 [1:10:54<24:50,  2.02it/s] 72%|███████▏  | 7679/10692 [1:10:54<24:50,  2.02it/s] 72%|███████▏  | 7680/10692 [1:10:55<24:50,  2.02it/s] 72%|███████▏  | 7681/10692 [1:10:55<24:48,  2.02it/s] 72%|███████▏  | 7682/10692 [1:10:56<24:48,  2.02it/s] 72%|███████▏  | 7683/10692 [1:10:56<24:47,  2.02it/s] 72%|███████▏  | 7684/10692 [1:10:57<24:47,  2.02it/s] 72%|███████▏  | 7685/10692 [1:10:57<24:46,  2.02it/s] 72%|███████▏  | 7686/10692 [1:10:58<24:46,  2.02it/s] 72%|███████▏  | 7687/10692 [1:10:58<24:45,  2.02it/s] 72%|███████▏  | 7688/10692 [1:10:59<24:46,  2.02it/s] 72%|███████▏  | 7689/10692 [1:10:59<24:46,  2.02it/s] 72%|███████▏  | 7690/10692 [1:11:00<24:45,  2.02it/s] 72%|███████▏  | 7691/10692 [1:11:00<24:47,  2.02it/s] 72%|███████▏  | 7692/10692 [1:11:01<24:50,  2.01it/s] 72%|███████▏  | 7693/10692 [1:11:01<24:47,  2.02it/s] 72%|███████▏  | 7694/10692 [1:11:02<24:47,  2.02it/s] 72%|███████▏  | 7695/10692 [1:11:02<24:44,  2.02it/s] 72%|███████▏  | 7696/10692 [1:11:03<24:42,  2.02it/s] 72%|███████▏  | 7697/10692 [1:11:03<24:40,  2.02it/s] 72%|███████▏  | 7698/10692 [1:11:04<24:41,  2.02it/s] 72%|███████▏  | 7699/10692 [1:11:04<24:38,  2.02it/s] 72%|███████▏  | 7700/10692 [1:11:05<24:39,  2.02it/s]                                                      {'loss': 3.6211, 'grad_norm': 0.20913827419281006, 'learning_rate': 0.00022019906731698336, 'epoch': 0.72}
+ 72%|███████▏  | 7700/10692 [1:11:05<24:39,  2.02it/s] 72%|███████▏  | 7701/10692 [1:11:05<24:40,  2.02it/s] 72%|███████▏  | 7702/10692 [1:11:06<24:39,  2.02it/s] 72%|███████▏  | 7703/10692 [1:11:06<24:37,  2.02it/s] 72%|███████▏  | 7704/10692 [1:11:07<24:35,  2.03it/s] 72%|███████▏  | 7705/10692 [1:11:07<24:36,  2.02it/s] 72%|███████▏  | 7706/10692 [1:11:08<24:35,  2.02it/s] 72%|███████▏  | 7707/10692 [1:11:08<24:35,  2.02it/s] 72%|███████▏  | 7708/10692 [1:11:09<24:35,  2.02it/s] 72%|███████▏  | 7709/10692 [1:11:09<24:35,  2.02it/s] 72%|███████▏  | 7710/10692 [1:11:10<24:33,  2.02it/s] 72%|███████▏  | 7711/10692 [1:11:10<24:32,  2.02it/s] 72%|███████▏  | 7712/10692 [1:11:11<24:32,  2.02it/s] 72%|███████▏  | 7713/10692 [1:11:11<24:32,  2.02it/s] 72%|███████▏  | 7714/10692 [1:11:12<24:33,  2.02it/s] 72%|███████▏  | 7715/10692 [1:11:12<24:31,  2.02it/s] 72%|███████▏  | 7716/10692 [1:11:13<24:31,  2.02it/s] 72%|███████▏  | 7717/10692 [1:11:13<24:28,  2.03it/s] 72%|███████▏  | 7718/10692 [1:11:14<24:26,  2.03it/s] 72%|███████▏  | 7719/10692 [1:11:14<24:29,  2.02it/s] 72%|███████▏  | 7720/10692 [1:11:15<24:28,  2.02it/s] 72%|███████▏  | 7721/10692 [1:11:15<24:27,  2.02it/s] 72%|███████▏  | 7722/10692 [1:11:16<24:28,  2.02it/s] 72%|███████▏  | 7723/10692 [1:11:16<24:26,  2.02it/s] 72%|███████▏  | 7724/10692 [1:11:17<24:27,  2.02it/s] 72%|███████▏  | 7725/10692 [1:11:17<24:25,  2.02it/s]{'loss': 3.6078, 'grad_norm': 0.208012193441391, 'learning_rate': 0.000216826032365829, 'epoch': 0.72}
+                                                       72%|███████▏  | 7725/10692 [1:11:17<24:25,  2.02it/s] 72%|███████▏  | 7726/10692 [1:11:18<24:28,  2.02it/s] 72%|███████▏  | 7727/10692 [1:11:18<24:26,  2.02it/s] 72%|███████▏  | 7728/10692 [1:11:19<24:27,  2.02it/s] 72%|███████▏  | 7729/10692 [1:11:19<24:25,  2.02it/s] 72%|███████▏  | 7730/10692 [1:11:20<24:24,  2.02it/s] 72%|███████▏  | 7731/10692 [1:11:20<24:23,  2.02it/s] 72%|███████▏  | 7732/10692 [1:11:21<24:22,  2.02it/s] 72%|███████▏  | 7733/10692 [1:11:21<24:22,  2.02it/s] 72%|███████▏  | 7734/10692 [1:11:22<24:20,  2.02it/s] 72%|███████▏  | 7735/10692 [1:11:22<24:22,  2.02it/s] 72%|███████▏  | 7736/10692 [1:11:23<24:20,  2.02it/s] 72%|███████▏  | 7737/10692 [1:11:23<24:21,  2.02it/s] 72%|███████▏  | 7738/10692 [1:11:24<24:20,  2.02it/s] 72%|███████▏  | 7739/10692 [1:11:24<24:20,  2.02it/s] 72%|███████▏  | 7740/10692 [1:11:25<24:19,  2.02it/s] 72%|███████▏  | 7741/10692 [1:11:25<24:20,  2.02it/s] 72%|███████▏  | 7742/10692 [1:11:26<24:18,  2.02it/s] 72%|███████▏  | 7743/10692 [1:11:26<24:17,  2.02it/s] 72%|███████▏  | 7744/10692 [1:11:27<24:16,  2.02it/s] 72%|███████▏  | 7745/10692 [1:11:27<24:16,  2.02it/s] 72%|███████▏  | 7746/10692 [1:11:28<24:15,  2.02it/s] 72%|███████▏  | 7747/10692 [1:11:28<24:15,  2.02it/s] 72%|███████▏  | 7748/10692 [1:11:29<24:14,  2.02it/s] 72%|███████▏  | 7749/10692 [1:11:29<24:13,  2.02it/s] 72%|███████▏  | 7750/10692 [1:11:30<24:15,  2.02it/s]                                                      {'loss': 3.6156, 'grad_norm': 0.19757536053657532, 'learning_rate': 0.0002134718642896779, 'epoch': 0.72}
+ 72%|███████▏  | 7750/10692 [1:11:30<24:15,  2.02it/s] 72%|███████▏  | 7751/10692 [1:11:30<24:18,  2.02it/s] 73%|███████▎  | 7752/10692 [1:11:31<24:17,  2.02it/s] 73%|███████▎  | 7753/10692 [1:11:31<24:19,  2.01it/s] 73%|███████▎  | 7754/10692 [1:11:32<24:16,  2.02it/s] 73%|███████▎  | 7755/10692 [1:11:32<24:17,  2.02it/s] 73%|███████▎  | 7756/10692 [1:11:32<24:13,  2.02it/s] 73%|███████▎  | 7757/10692 [1:11:33<24:13,  2.02it/s] 73%|███████▎  | 7758/10692 [1:11:33<24:11,  2.02it/s] 73%|███████▎  | 7759/10692 [1:11:34<24:12,  2.02it/s] 73%|███████▎  | 7760/10692 [1:11:34<24:09,  2.02it/s] 73%|███████▎  | 7761/10692 [1:11:35<24:10,  2.02it/s] 73%|███████▎  | 7762/10692 [1:11:35<24:09,  2.02it/s] 73%|███████▎  | 7763/10692 [1:11:36<24:07,  2.02it/s] 73%|███████▎  | 7764/10692 [1:11:36<24:06,  2.02it/s] 73%|███████▎  | 7765/10692 [1:11:37<24:08,  2.02it/s] 73%|███████▎  | 7766/10692 [1:11:37<24:06,  2.02it/s] 73%|███████▎  | 7767/10692 [1:11:38<24:06,  2.02it/s] 73%|███████▎  | 7768/10692 [1:11:38<24:05,  2.02it/s] 73%|███████▎  | 7769/10692 [1:11:39<24:06,  2.02it/s] 73%|███████▎  | 7770/10692 [1:11:39<24:06,  2.02it/s] 73%|███████▎  | 7771/10692 [1:11:40<24:06,  2.02it/s] 73%|███████▎  | 7772/10692 [1:11:40<24:04,  2.02it/s] 73%|███████▎  | 7773/10692 [1:11:41<24:03,  2.02it/s] 73%|███████▎  | 7774/10692 [1:11:41<24:01,  2.02it/s] 73%|███████▎  | 7775/10692 [1:11:42<24:01,  2.02it/s]                                                      {'loss': 3.6102, 'grad_norm': 0.2027813196182251, 'learning_rate': 0.00021013678656482766, 'epoch': 0.73}
+ 73%|███████▎  | 7775/10692 [1:11:42<24:01,  2.02it/s] 73%|███████▎  | 7776/10692 [1:11:42<24:03,  2.02it/s] 73%|███████▎  | 7777/10692 [1:11:43<24:03,  2.02it/s] 73%|███████▎  | 7778/10692 [1:11:43<24:00,  2.02it/s] 73%|███████▎  | 7779/10692 [1:11:44<24:02,  2.02it/s] 73%|███████▎  | 7780/10692 [1:11:44<23:59,  2.02it/s] 73%|███████▎  | 7781/10692 [1:11:45<24:00,  2.02it/s] 73%|███████▎  | 7782/10692 [1:11:45<23:58,  2.02it/s] 73%|███████▎  | 7783/10692 [1:11:46<23:57,  2.02it/s] 73%|███████▎  | 7784/10692 [1:11:46<23:57,  2.02it/s] 73%|███████▎  | 7785/10692 [1:11:47<23:56,  2.02it/s] 73%|███████▎  | 7786/10692 [1:11:47<23:58,  2.02it/s] 73%|███████▎  | 7787/10692 [1:11:48<23:57,  2.02it/s] 73%|███████▎  | 7788/10692 [1:11:48<23:57,  2.02it/s] 73%|███████▎  | 7789/10692 [1:11:49<23:56,  2.02it/s] 73%|███████▎  | 7790/10692 [1:11:49<23:57,  2.02it/s] 73%|███████▎  | 7791/10692 [1:11:50<23:56,  2.02it/s] 73%|███████▎  | 7792/10692 [1:11:50<23:56,  2.02it/s] 73%|███████▎  | 7793/10692 [1:11:51<23:53,  2.02it/s] 73%|███████▎  | 7794/10692 [1:11:51<23:55,  2.02it/s] 73%|███████▎  | 7795/10692 [1:11:52<23:52,  2.02it/s] 73%|███████▎  | 7796/10692 [1:11:52<23:53,  2.02it/s] 73%|███████▎  | 7797/10692 [1:11:53<23:51,  2.02it/s] 73%|███████▎  | 7798/10692 [1:11:53<23:50,  2.02it/s] 73%|███████▎  | 7799/10692 [1:11:54<23:50,  2.02it/s] 73%|███████▎  | 7800/10692 [1:11:54<23:50,  2.02it/s]{'loss': 3.6038, 'grad_norm': 0.20251457393169403, 'learning_rate': 0.00020682102139565344, 'epoch': 0.73}
+                                                       73%|███████▎  | 7800/10692 [1:11:54<23:50,  2.02it/s] 73%|███████▎  | 7801/10692 [1:11:55<23:50,  2.02it/s] 73%|███████▎  | 7802/10692 [1:11:55<23:51,  2.02it/s] 73%|███████▎  | 7803/10692 [1:11:56<23:49,  2.02it/s] 73%|███████▎  | 7804/10692 [1:11:56<23:50,  2.02it/s] 73%|███████▎  | 7805/10692 [1:11:57<23:48,  2.02it/s] 73%|███████▎  | 7806/10692 [1:11:57<23:47,  2.02it/s] 73%|███████▎  | 7807/10692 [1:11:58<23:46,  2.02it/s] 73%|███████▎  | 7808/10692 [1:11:58<23:45,  2.02it/s] 73%|████���██▎  | 7809/10692 [1:11:59<23:46,  2.02it/s] 73%|███████▎  | 7810/10692 [1:11:59<23:45,  2.02it/s] 73%|███████▎  | 7811/10692 [1:12:00<23:46,  2.02it/s] 73%|███████▎  | 7812/10692 [1:12:00<23:46,  2.02it/s] 73%|███████▎  | 7813/10692 [1:12:01<23:47,  2.02it/s] 73%|███████▎  | 7814/10692 [1:12:01<23:47,  2.02it/s] 73%|███████▎  | 7815/10692 [1:12:02<23:45,  2.02it/s] 73%|███████▎  | 7816/10692 [1:12:02<23:45,  2.02it/s] 73%|███████▎  | 7817/10692 [1:12:03<23:42,  2.02it/s] 73%|███████▎  | 7818/10692 [1:12:03<23:43,  2.02it/s] 73%|███████▎  | 7819/10692 [1:12:04<23:42,  2.02it/s] 73%|███████▎  | 7820/10692 [1:12:04<23:42,  2.02it/s] 73%|███████▎  | 7821/10692 [1:12:05<23:41,  2.02it/s] 73%|███████▎  | 7822/10692 [1:12:05<23:41,  2.02it/s] 73%|███████▎  | 7823/10692 [1:12:06<23:39,  2.02it/s] 73%|███████▎  | 7824/10692 [1:12:06<23:39,  2.02it/s] 73%|███████▎  | 7825/10692 [1:12:07<23:37,  2.02it/s]                                                      {'loss': 3.6024, 'grad_norm': 0.19707387685775757, 'learning_rate': 0.00020352478969980358, 'epoch': 0.73}
+ 73%|███████▎  | 7825/10692 [1:12:07<23:37,  2.02it/s] 73%|███████▎  | 7826/10692 [1:12:07<23:42,  2.02it/s] 73%|███████▎  | 7827/10692 [1:12:08<23:40,  2.02it/s] 73%|███████▎  | 7828/10692 [1:12:08<23:38,  2.02it/s] 73%|███████▎  | 7829/10692 [1:12:09<23:35,  2.02it/s] 73%|███████▎  | 7830/10692 [1:12:09<23:36,  2.02it/s] 73%|███████▎  | 7831/10692 [1:12:10<23:34,  2.02it/s] 73%|███████▎  | 7832/10692 [1:12:10<23:35,  2.02it/s] 73%|███████▎  | 7833/10692 [1:12:11<23:34,  2.02it/s] 73%|███████▎  | 7834/10692 [1:12:11<23:34,  2.02it/s] 73%|███████▎  | 7835/10692 [1:12:12<23:34,  2.02it/s] 73%|███████▎  | 7836/10692 [1:12:12<23:34,  2.02it/s] 73%|███████▎  | 7837/10692 [1:12:13<23:32,  2.02it/s] 73%|███████▎  | 7838/10692 [1:12:13<23:32,  2.02it/s] 73%|███████▎  | 7839/10692 [1:12:14<23:30,  2.02it/s] 73%|███████▎  | 7840/10692 [1:12:14<23:30,  2.02it/s] 73%|███████▎  | 7841/10692 [1:12:15<23:30,  2.02it/s] 73%|███████▎  | 7842/10692 [1:12:15<23:29,  2.02it/s] 73%|███████▎  | 7843/10692 [1:12:16<23:29,  2.02it/s] 73%|███████▎  | 7844/10692 [1:12:16<23:29,  2.02it/s] 73%|███████▎  | 7845/10692 [1:12:17<23:27,  2.02it/s] 73%|███████▎  | 7846/10692 [1:12:17<23:28,  2.02it/s] 73%|███████▎  | 7847/10692 [1:12:18<23:27,  2.02it/s] 73%|███████▎  | 7848/10692 [1:12:18<23:28,  2.02it/s] 73%|███████▎  | 7849/10692 [1:12:19<23:26,  2.02it/s] 73%|███████▎  | 7850/10692 [1:12:19<23:25,  2.02it/s]                                                      {'loss': 3.6144, 'grad_norm': 0.20191282033920288, 'learning_rate': 0.00020024831109348052, 'epoch': 0.73}
+ 73%|███████▎  | 7850/10692 [1:12:19<23:25,  2.02it/s] 73%|███████▎  | 7851/10692 [1:12:20<23:28,  2.02it/s] 73%|███████▎  | 7852/10692 [1:12:20<23:25,  2.02it/s] 73%|███████▎  | 7853/10692 [1:12:20<23:26,  2.02it/s] 73%|███████▎  | 7854/10692 [1:12:21<23:25,  2.02it/s] 73%|███████▎  | 7855/10692 [1:12:21<23:25,  2.02it/s] 73%|███████▎  | 7856/10692 [1:12:22<23:23,  2.02it/s] 73%|███████▎  | 7857/10692 [1:12:22<23:22,  2.02it/s] 73%|███████▎  | 7858/10692 [1:12:23<23:23,  2.02it/s] 74%|███████▎  | 7859/10692 [1:12:23<23:22,  2.02it/s] 74%|███████▎  | 7860/10692 [1:12:24<23:21,  2.02it/s] 74%|███████▎  | 7861/10692 [1:12:24<23:19,  2.02it/s] 74%|███████▎  | 7862/10692 [1:12:25<23:19,  2.02it/s] 74%|███████▎  | 7863/10692 [1:12:25<23:18,  2.02it/s] 74%|███████▎  | 7864/10692 [1:12:26<23:18,  2.02it/s] 74%|███████▎  | 7865/10692 [1:12:26<23:17,  2.02it/s] 74%|███████▎  | 7866/10692 [1:12:27<23:18,  2.02it/s] 74%|███████▎  | 7867/10692 [1:12:27<23:17,  2.02it/s] 74%|███████▎  | 7868/10692 [1:12:28<23:20,  2.02it/s] 74%|███████▎  | 7869/10692 [1:12:28<23:19,  2.02it/s] 74%|███████▎  | 7870/10692 [1:12:29<23:18,  2.02it/s] 74%|███████▎  | 7871/10692 [1:12:29<23:16,  2.02it/s] 74%|███████▎  | 7872/10692 [1:12:30<23:17,  2.02it/s] 74%|███████▎  | 7873/10692 [1:12:30<23:17,  2.02it/s] 74%|███████▎  | 7874/10692 [1:12:31<23:21,  2.01it/s] 74%|███████▎  | 7875/10692 [1:12:31<23:20,  2.01it/s]                                                      {'loss': 3.6026, 'grad_norm': 0.20405052602291107, 'learning_rate': 0.00019699180387680837, 'epoch': 0.74}
+ 74%|███████▎  | 7875/10692 [1:12:31<23:20,  2.01it/s] 74%|███████▎  | 7876/10692 [1:12:32<23:19,  2.01it/s] 74%|███████▎  | 7877/10692 [1:12:32<23:17,  2.01it/s] 74%|███████▎  | 7878/10692 [1:12:33<23:16,  2.02it/s] 74%|███████▎  | 7879/10692 [1:12:33<23:15,  2.02it/s] 74%|███████▎  | 7880/10692 [1:12:34<23:13,  2.02it/s] 74%|███████▎  | 7881/10692 [1:12:34<23:12,  2.02it/s] 74%|███████▎  | 7882/10692 [1:12:35<23:10,  2.02it/s] 74%|███████▎  | 7883/10692 [1:12:35<23:10,  2.02it/s] 74%|███████▎  | 7884/10692 [1:12:36<23:09,  2.02it/s] 74%|███████▎  | 7885/10692 [1:12:36<23:09,  2.02it/s] 74%|███████▍  | 7886/10692 [1:12:37<23:10,  2.02it/s] 74%|███████▍  | 7887/10692 [1:12:37<23:09,  2.02it/s] 74%|███████▍  | 7888/10692 [1:12:38<23:10,  2.02it/s] 74%|███████▍  | 7889/10692 [1:12:38<23:07,  2.02it/s] 74%|███████▍  | 7890/10692 [1:12:39<23:07,  2.02it/s] 74%|███████▍  | 7891/10692 [1:12:39<23:05,  2.02it/s] 74%|███████▍  | 7892/10692 [1:12:40<23:06,  2.02it/s] 74%|███████▍  | 7893/10692 [1:12:40<23:04,  2.02it/s] 74%|███████▍  | 7894/10692 [1:12:41<23:05,  2.02it/s] 74%|███████▍  | 7895/10692 [1:12:41<23:03,  2.02it/s] 74%|███████▍  | 7896/10692 [1:12:42<23:04,  2.02it/s] 74%|███████▍  | 7897/10692 [1:12:42<23:02,  2.02it/s] 74%|███████▍  | 7898/10692 [1:12:43<23:03,  2.02it/s] 74%|███████▍  | 7899/10692 [1:12:43<23:02,  2.02it/s] 74%|███████▍  | 7900/10692 [1:12:44<23:03,  2.02it/s]{'loss': 3.6036, 'grad_norm': 0.197440966963768, 'learning_rate': 0.0001937554850192888, 'epoch': 0.74}
+                                                       74%|███████▍  | 7900/10692 [1:12:44<23:03,  2.02it/s] 74%|███████▍  | 7901/10692 [1:12:44<23:03,  2.02it/s] 74%|███████▍  | 7902/10692 [1:12:45<23:02,  2.02it/s] 74%|███████▍  | 7903/10692 [1:12:45<23:00,  2.02it/s] 74%|███████▍  | 7904/10692 [1:12:46<22:59,  2.02it/s] 74%|███████▍  | 7905/10692 [1:12:46<22:58,  2.02it/s] 74%|███████▍  | 7906/10692 [1:12:47<22:59,  2.02it/s] 74%|███████▍  | 7907/10692 [1:12:47<22:59,  2.02it/s] 74%|███████▍  | 7908/10692 [1:12:48<22:59,  2.02it/s] 74%|███████▍  | 7909/10692 [1:12:48<22:56,  2.02it/s] 74%|███████▍  | 7910/10692 [1:12:49<22:57,  2.02it/s] 74%|███████▍  | 7911/10692 [1:12:49<22:55,  2.02it/s] 74%|███████▍  | 7912/10692 [1:12:50<22:56,  2.02it/s] 74%|███████▍  | 7913/10692 [1:12:50<22:54,  2.02it/s] 74%|███████▍  | 7914/10692 [1:12:51<22:53,  2.02it/s] 74%|███████▍  | 7915/10692 [1:12:51<22:52,  2.02it/s] 74%|███████▍  | 7916/10692 [1:12:52<22:53,  2.02it/s] 74%|███████▍  | 7917/10692 [1:12:52<22:51,  2.02it/s] 74%|███████▍  | 7918/10692 [1:12:53<22:51,  2.02it/s] 74%|███████▍  | 7919/10692 [1:12:53<22:50,  2.02it/s] 74%|███████▍  | 7920/10692 [1:12:54<22:50,  2.02it/s] 74%|███████▍  | 7921/10692 [1:12:54<22:49,  2.02it/s] 74%|███████▍  | 7922/10692 [1:12:55<22:48,  2.02it/s] 74%|███████▍  | 7923/10692 [1:12:55<22:47,  2.02it/s] 74%|███████▍  | 7924/10692 [1:12:56<22:47,  2.02it/s] 74%|███████▍  | 7925/10692 [1:12:56<22:48,  2.02it/s]                                                      {'loss': 3.605, 'grad_norm': 0.2026987075805664, 'learning_rate': 0.00019053957014534444, 'epoch': 0.74}
+ 74%|███████▍  | 7925/10692 [1:12:56<22:48,  2.02it/s] 74%|███████▍  | 7926/10692 [1:12:57<22:49,  2.02it/s] 74%|███████▍  | 7927/10692 [1:12:57<22:48,  2.02it/s] 74%|███████▍  | 7928/10692 [1:12:58<22:48,  2.02it/s] 74%|███████▍  | 7929/10692 [1:12:58<22:48,  2.02it/s] 74%|███████▍  | 7930/10692 [1:12:59<22:46,  2.02it/s] 74%|███████▍  | 7931/10692 [1:12:59<22:46,  2.02it/s] 74%|███████▍  | 7932/10692 [1:13:00<22:45,  2.02it/s] 74%|███████▍  | 7933/10692 [1:13:00<22:46,  2.02it/s] 74%|███████▍  | 7934/10692 [1:13:01<22:47,  2.02it/s] 74%|███████▍  | 7935/10692 [1:13:01<22:47,  2.02it/s] 74%|███████▍  | 7936/10692 [1:13:02<22:44,  2.02it/s] 74%|███████▍  | 7937/10692 [1:13:02<22:47,  2.02it/s] 74%|███████▍  | 7938/10692 [1:13:03<22:44,  2.02it/s] 74%|███████▍  | 7939/10692 [1:13:03<22:43,  2.02it/s] 74%|███████▍  | 7940/10692 [1:13:04<22:42,  2.02it/s] 74%|███████▍  | 7941/10692 [1:13:04<22:42,  2.02it/s] 74%|███████▍  | 7942/10692 [1:13:05<22:41,  2.02it/s] 74%|███████▍  | 7943/10692 [1:13:05<22:40,  2.02it/s] 74%|███████▍  | 7944/10692 [1:13:06<22:39,  2.02it/s] 74%|███████▍  | 7945/10692 [1:13:06<22:40,  2.02it/s] 74%|███████▍  | 7946/10692 [1:13:07<22:39,  2.02it/s] 74%|███████▍  | 7947/10692 [1:13:07<22:41,  2.02it/s] 74%|███████▍  | 7948/10692 [1:13:08<22:40,  2.02it/s] 74%|███████▍  | 7949/10692 [1:13:08<22:39,  2.02it/s] 74%|███████▍  | 7950/10692 [1:13:09<22:35,  2.02it/s]{'loss': 3.5988, 'grad_norm': 0.20342598855495453, 'learning_rate': 0.0001873442735199537, 'epoch': 0.74}
+                                                       74%|███████▍  | 7950/10692 [1:13:09<22:35,  2.02it/s] 74%|███████▍  | 7951/10692 [1:13:09<22:38,  2.02it/s] 74%|███████▍  | 7952/10692 [1:13:10<22:36,  2.02it/s] 74%|███████▍  | 7953/10692 [1:13:10<22:36,  2.02it/s] 74%|███████▍  | 7954/10692 [1:13:11<22:34,  2.02it/s] 74%|███████▍  | 7955/10692 [1:13:11<22:34,  2.02it/s] 74%|███████▍  | 7956/10692 [1:13:11<22:34,  2.02it/s] 74%|███████▍  | 7957/10692 [1:13:12<22:34,  2.02it/s] 74%|███████▍  | 7958/10692 [1:13:12<22:33,  2.02it/s] 74%|███████▍  | 7959/10692 [1:13:13<22:33,  2.02it/s] 74%|███████▍  | 7960/10692 [1:13:13<22:30,  2.02it/s] 74%|███████▍  | 7961/10692 [1:13:14<22:30,  2.02it/s] 74%|███████▍  | 7962/10692 [1:13:14<22:28,  2.03it/s] 74%|███████▍  | 7963/10692 [1:13:15<22:29,  2.02it/s] 74%|███████▍  | 7964/10692 [1:13:15<22:27,  2.02it/s] 74%|███████▍  | 7965/10692 [1:13:16<22:29,  2.02it/s] 75%|███████▍  | 7966/10692 [1:13:16<22:27,  2.02it/s] 75%|███████▍  | 7967/10692 [1:13:17<22:29,  2.02it/s] 75%|███████▍  | 7968/10692 [1:13:17<22:28,  2.02it/s] 75%|███████▍  | 7969/10692 [1:13:18<22:28,  2.02it/s] 75%|███████▍  | 7970/10692 [1:13:18<22:27,  2.02it/s] 75%|███████▍  | 7971/10692 [1:13:19<22:27,  2.02it/s] 75%|███████▍  | 7972/10692 [1:13:19<22:27,  2.02it/s] 75%|███████▍  | 7973/10692 [1:13:20<22:25,  2.02it/s] 75%|███████▍  | 7974/10692 [1:13:20<22:24,  2.02it/s] 75%|███████▍  | 7975/10692 [1:13:21<22:25,  2.02it/s]{'loss': 3.6007, 'grad_norm': 0.19401799142360687, 'learning_rate': 0.00018416980803437382, 'epoch': 0.75}
+                                                       75%|███████▍  | 7975/10692 [1:13:21<22:25,  2.02it/s] 75%|███████▍  | 7976/10692 [1:13:21<22:28,  2.01it/s] 75%|███████▍  | 7977/10692 [1:13:22<22:26,  2.02it/s] 75%|███████▍  | 7978/10692 [1:13:22<22:25,  2.02it/s] 75%|███████▍  | 7979/10692 [1:13:23<22:23,  2.02it/s] 75%|███████▍  | 7980/10692 [1:13:23<22:23,  2.02it/s] 75%|███████▍  | 7981/10692 [1:13:24<22:22,  2.02it/s] 75%|███████▍  | 7982/10692 [1:13:24<22:21,  2.02it/s] 75%|███████▍  | 7983/10692 [1:13:25<22:19,  2.02it/s] 75%|███████▍  | 7984/10692 [1:13:25<22:17,  2.02it/s] 75%|███████▍  | 7985/10692 [1:13:26<22:18,  2.02it/s] 75%|███████▍  | 7986/10692 [1:13:26<22:17,  2.02it/s] 75%|███████▍  | 7987/10692 [1:13:27<22:17,  2.02it/s] 75%|███████▍  | 7988/10692 [1:13:27<22:17,  2.02it/s] 75%|███████▍  | 7989/10692 [1:13:28<22:14,  2.03it/s] 75%|███████▍  | 7990/10692 [1:13:28<22:16,  2.02it/s] 75%|███████▍  | 7991/10692 [1:13:29<22:12,  2.03it/s] 75%|███████▍  | 7992/10692 [1:13:29<22:13,  2.03it/s] 75%|███████▍  | 7993/10692 [1:13:30<22:13,  2.02it/s] 75%|███████▍  | 7994/10692 [1:13:30<22:13,  2.02it/s] 75%|███████▍  | 7995/10692 [1:13:31<22:17,  2.02it/s] 75%|███████▍  | 7996/10692 [1:13:31<22:16,  2.02it/s] 75%|███████▍  | 7997/10692 [1:13:32<22:15,  2.02it/s] 75%|███████▍  | 7998/10692 [1:13:32<22:13,  2.02it/s] 75%|███████▍  | 7999/10692 [1:13:33<22:13,  2.02it/s] 75%|███████▍  | 8000/10692 [1:13:33<22:13,  2.02it/s]{'loss': 3.6069, 'grad_norm': 0.20038548111915588, 'learning_rate': 0.00018101638519195718, 'epoch': 0.75}
+                                                       75%|███████▍  | 8000/10692 [1:13:33<22:13,  2.02it/s] 75%|███████▍  | 8001/10692 [1:13:34<22:14,  2.02it/s] 75%|███████▍  | 8002/10692 [1:13:34<22:11,  2.02it/s] 75%|███████▍  | 8003/10692 [1:13:35<22:11,  2.02it/s] 75%|███████▍  | 8004/10692 [1:13:35<22:09,  2.02it/s] 75%|███████▍  | 8005/10692 [1:13:36<22:10,  2.02it/s] 75%|███████▍  | 8006/10692 [1:13:36<22:07,  2.02it/s] 75%|███████▍  | 8007/10692 [1:13:37<22:07,  2.02it/s] 75%|███████▍  | 8008/10692 [1:13:37<22:05,  2.02it/s] 75%|███████▍  | 8009/10692 [1:13:38<22:07,  2.02it/s] 75%|███████▍  | 8010/10692 [1:13:38<22:04,  2.02it/s] 75%|███████▍  | 8011/10692 [1:13:39<22:05,  2.02it/s] 75%|███████▍  | 8012/10692 [1:13:39<22:04,  2.02it/s] 75%|███████▍  | 8013/10692 [1:13:40<22:04,  2.02it/s] 75%|███████▍  | 8014/10692 [1:13:40<22:03,  2.02it/s] 75%|███████▍  | 8015/10692 [1:13:41<22:03,  2.02it/s] 75%|███████▍  | 8016/10692 [1:13:41<22:02,  2.02it/s] 75%|███████▍  | 8017/10692 [1:13:42<22:00,  2.03it/s] 75%|███████▍  | 8018/10692 [1:13:42<22:01,  2.02it/s] 75%|███████▌  | 8019/10692 [1:13:43<22:01,  2.02it/s] 75%|███████▌  | 8020/10692 [1:13:43<22:01,  2.02it/s] 75%|███████▌  | 8021/10692 [1:13:44<22:00,  2.02it/s] 75%|███████▌  | 8022/10692 [1:13:44<22:01,  2.02it/s] 75%|███████▌  | 8023/10692 [1:13:45<21:58,  2.02it/s] 75%|███████▌  | 8024/10692 [1:13:45<21:59,  2.02it/s] 75%|███████▌  | 8025/10692 [1:13:46<21:56,  2.03it/s]{'loss': 3.6077, 'grad_norm': 0.1988060027360916, 'learning_rate': 0.00017788421509406016, 'epoch': 0.75}
+                                                       75%|███████▌  | 8025/10692 [1:13:46<21:56,  2.03it/s] 75%|███████▌  | 8026/10692 [1:13:46<21:59,  2.02it/s] 75%|███████▌  | 8027/10692 [1:13:47<21:58,  2.02it/s] 75%|███████▌  | 8028/10692 [1:13:47<21:58,  2.02it/s] 75%|███████▌  | 8029/10692 [1:13:48<21:56,  2.02it/s] 75%|███████▌  | 8030/10692 [1:13:48<21:56,  2.02it/s] 75%|███████▌  | 8031/10692 [1:13:49<21:55,  2.02it/s] 75%|███████▌  | 8032/10692 [1:13:49<21:56,  2.02it/s] 75%|███████▌  | 8033/10692 [1:13:50<21:54,  2.02it/s] 75%|███████▌  | 8034/10692 [1:13:50<21:54,  2.02it/s] 75%|███████▌  | 8035/10692 [1:13:51<21:52,  2.02it/s] 75%|███████▌  | 8036/10692 [1:13:51<21:52,  2.02it/s] 75%|███████▌  | 8037/10692 [1:13:52<21:50,  2.03it/s] 75%|███████▌  | 8038/10692 [1:13:52<21:51,  2.02it/s] 75%|███████▌  | 8039/10692 [1:13:53<21:50,  2.02it/s] 75%|███████▌  | 8040/10692 [1:13:53<21:51,  2.02it/s] 75%|███████▌  | 8041/10692 [1:13:54<21:49,  2.02it/s] 75%|███████▌  | 8042/10692 [1:13:54<21:49,  2.02it/s] 75%|███████▌  | 8043/10692 [1:13:55<21:49,  2.02it/s] 75%|███████▌  | 8044/10692 [1:13:55<21:49,  2.02it/s] 75%|███████▌  | 8045/10692 [1:13:56<21:48,  2.02it/s] 75%|███████▌  | 8046/10692 [1:13:56<21:47,  2.02it/s] 75%|███████▌  | 8047/10692 [1:13:57<21:48,  2.02it/s] 75%|███████▌  | 8048/10692 [1:13:57<21:47,  2.02it/s] 75%|███████▌  | 8049/10692 [1:13:57<21:48,  2.02it/s] 75%|███████▌  | 8050/10692 [1:13:58<21:48,  2.02it/s]{'loss': 3.5935, 'grad_norm': 0.19576393067836761, 'learning_rate': 0.00017477350642604384, 'epoch': 0.75}
+                                                       75%|███████▌  | 8050/10692 [1:13:58<21:48,  2.02it/s] 75%|███████▌  | 8051/10692 [1:13:58<21:49,  2.02it/s] 75%|███████▌  | 8052/10692 [1:13:59<21:48,  2.02it/s] 75%|███████▌  | 8053/10692 [1:13:59<21:46,  2.02it/s] 75%|███████▌  | 8054/10692 [1:14:00<21:46,  2.02it/s] 75%|███████▌  | 8055/10692 [1:14:00<21:46,  2.02it/s] 75%|███████▌  | 8056/10692 [1:14:01<21:47,  2.02it/s] 75%|███████▌  | 8057/10692 [1:14:01<21:46,  2.02it/s] 75%|███████▌  | 8058/10692 [1:14:02<21:45,  2.02it/s] 75%|███████▌  | 8059/10692 [1:14:02<21:43,  2.02it/s] 75%|███████▌  | 8060/10692 [1:14:03<21:43,  2.02it/s] 75%|███████▌  | 8061/10692 [1:14:03<21:42,  2.02it/s] 75%|███████▌  | 8062/10692 [1:14:04<21:42,  2.02it/s] 75%|███████▌  | 8063/10692 [1:14:04<21:41,  2.02it/s] 75%|███████▌  | 8064/10692 [1:14:05<21:40,  2.02it/s] 75%|███████▌  | 8065/10692 [1:14:05<21:39,  2.02it/s] 75%|███████▌  | 8066/10692 [1:14:06<21:38,  2.02it/s] 75%|███████▌  | 8067/10692 [1:14:06<21:38,  2.02it/s] 75%|███████▌  | 8068/10692 [1:14:07<21:37,  2.02it/s] 75%|███████▌  | 8069/10692 [1:14:07<21:38,  2.02it/s] 75%|███████▌  | 8070/10692 [1:14:08<21:36,  2.02it/s] 75%|███████▌  | 8071/10692 [1:14:08<21:36,  2.02it/s] 75%|███████▌  | 8072/10692 [1:14:09<21:35,  2.02it/s] 76%|███████▌  | 8073/10692 [1:14:09<21:35,  2.02it/s] 76%|███████▌  | 8074/10692 [1:14:10<21:33,  2.02it/s] 76%|███████▌  | 8075/10692 [1:14:10<21:34,  2.02it/s]                                                      {'loss': 3.6052, 'grad_norm': 0.19937559962272644, 'learning_rate': 0.0001716844664433707, 'epoch': 0.76}
+ 76%|███████▌  | 8075/10692 [1:14:10<21:34,  2.02it/s] 76%|███████▌  | 8076/10692 [1:14:11<21:34,  2.02it/s] 76%|███████▌  | 8077/10692 [1:14:11<21:34,  2.02it/s] 76%|███████▌  | 8078/10692 [1:14:12<21:32,  2.02it/s] 76%|███████▌  | 8079/10692 [1:14:12<21:33,  2.02it/s] 76%|███████▌  | 8080/10692 [1:14:13<21:31,  2.02it/s] 76%|███████▌  | 8081/10692 [1:14:13<21:29,  2.02it/s] 76%|███████▌  | 8082/10692 [1:14:14<21:30,  2.02it/s] 76%|███████▌  | 8083/10692 [1:14:14<21:26,  2.03it/s] 76%|███████▌  | 8084/10692 [1:14:15<21:28,  2.02it/s] 76%|███████▌  | 8085/10692 [1:14:15<21:27,  2.03it/s] 76%|███████▌  | 8086/10692 [1:14:16<21:28,  2.02it/s] 76%|███████▌  | 8087/10692 [1:14:16<21:27,  2.02it/s] 76%|███████▌  | 8088/10692 [1:14:17<21:27,  2.02it/s] 76%|███████▌  | 8089/10692 [1:14:17<21:26,  2.02it/s] 76%|███████▌  | 8090/10692 [1:14:18<21:27,  2.02it/s] 76%|███████▌  | 8091/10692 [1:14:18<21:24,  2.02it/s] 76%|███████▌  | 8092/10692 [1:14:19<21:25,  2.02it/s] 76%|███████▌  | 8093/10692 [1:14:19<21:25,  2.02it/s] 76%|███████▌  | 8094/10692 [1:14:20<21:25,  2.02it/s] 76%|███████▌  | 8095/10692 [1:14:20<21:23,  2.02it/s] 76%|███████▌  | 8096/10692 [1:14:21<21:24,  2.02it/s] 76%|███████▌  | 8097/10692 [1:14:21<21:22,  2.02it/s] 76%|███████▌  | 8098/10692 [1:14:22<21:23,  2.02it/s] 76%|███████▌  | 8099/10692 [1:14:22<21:20,  2.02it/s] 76%|███████▌  | 8100/10692 [1:14:23<21:21,  2.02it/s]{'loss': 3.5926, 'grad_norm': 0.19144518673419952, 'learning_rate': 0.0001686173009577956, 'epoch': 0.76}
+                                                       76%|███████▌  | 8100/10692 [1:14:23<21:21,  2.02it/s] 76%|███████▌  | 8101/10692 [1:14:23<21:21,  2.02it/s] 76%|███████▌  | 8102/10692 [1:14:24<21:22,  2.02it/s] 76%|███████▌  | 8103/10692 [1:14:24<21:20,  2.02it/s] 76%|███████▌  | 8104/10692 [1:14:25<21:20,  2.02it/s] 76%|███████▌  | 8105/10692 [1:14:25<21:19,  2.02it/s] 76%|███████▌  | 8106/10692 [1:14:26<21:18,  2.02it/s] 76%|███████▌  | 8107/10692 [1:14:26<21:18,  2.02it/s] 76%|███████▌  | 8108/10692 [1:14:27<21:17,  2.02it/s] 76%|███████▌  | 8109/10692 [1:14:27<21:17,  2.02it/s] 76%|███████▌  | 8110/10692 [1:14:28<21:17,  2.02it/s] 76%|███████▌  | 8111/10692 [1:14:28<21:16,  2.02it/s] 76%|███████▌  | 8112/10692 [1:14:29<21:15,  2.02it/s] 76%|███████▌  | 8113/10692 [1:14:29<21:15,  2.02it/s] 76%|███████▌  | 8114/10692 [1:14:30<21:14,  2.02it/s] 76%|███████▌  | 8115/10692 [1:14:30<21:15,  2.02it/s] 76%|███████▌  | 8116/10692 [1:14:31<21:18,  2.01it/s] 76%|███████▌  | 8117/10692 [1:14:31<21:17,  2.02it/s] 76%|███████▌  | 8118/10692 [1:14:32<21:16,  2.02it/s] 76%|███████▌  | 8119/10692 [1:14:32<21:15,  2.02it/s] 76%|███████▌  | 8120/10692 [1:14:33<21:14,  2.02it/s] 76%|███████▌  | 8121/10692 [1:14:33<21:13,  2.02it/s] 76%|███████▌  | 8122/10692 [1:14:34<21:11,  2.02it/s] 76%|███████▌  | 8123/10692 [1:14:34<21:11,  2.02it/s] 76%|███████▌  | 8124/10692 [1:14:35<21:08,  2.02it/s] 76%|███████▌  | 8125/10692 [1:14:35<21:09,  2.02it/s]{'loss': 3.6061, 'grad_norm': 0.20232030749320984, 'learning_rate': 0.00016557221432365356, 'epoch': 0.76}
+                                                       76%|███████▌  | 8125/10692 [1:14:35<21:09,  2.02it/s] 76%|███████▌  | 8126/10692 [1:14:36<21:11,  2.02it/s] 76%|███████▌  | 8127/10692 [1:14:36<21:10,  2.02it/s] 76%|███████▌  | 8128/10692 [1:14:37<21:09,  2.02it/s] 76%|███████▌  | 8129/10692 [1:14:37<21:09,  2.02it/s] 76%|███████▌  | 8130/10692 [1:14:38<21:08,  2.02it/s] 76%|███████▌  | 8131/10692 [1:14:38<21:07,  2.02it/s] 76%|███████▌  | 8132/10692 [1:14:39<21:08,  2.02it/s] 76%|███████▌  | 8133/10692 [1:14:39<21:06,  2.02it/s] 76%|███████▌  | 8134/10692 [1:14:40<21:06,  2.02it/s] 76%|███████▌  | 8135/10692 [1:14:40<21:05,  2.02it/s] 76%|███████▌  | 8136/10692 [1:14:41<21:05,  2.02it/s] 76%|███████▌  | 8137/10692 [1:14:41<21:04,  2.02it/s] 76%|███████▌  | 8138/10692 [1:14:42<21:03,  2.02it/s] 76%|███████▌  | 8139/10692 [1:14:42<21:02,  2.02it/s] 76%|███████▌  | 8140/10692 [1:14:43<21:01,  2.02it/s] 76%|███████▌  | 8141/10692 [1:14:43<21:01,  2.02it/s] 76%|███████▌  | 8142/10692 [1:14:44<21:00,  2.02it/s] 76%|███████▌  | 8143/10692 [1:14:44<20:59,  2.02it/s] 76%|███████▌  | 8144/10692 [1:14:45<20:57,  2.03it/s] 76%|███████▌  | 8145/10692 [1:14:45<20:59,  2.02it/s] 76%|███████▌  | 8146/10692 [1:14:45<20:59,  2.02it/s] 76%|███████▌  | 8147/10692 [1:14:46<20:59,  2.02it/s] 76%|███████▌  | 8148/10692 [1:14:46<20:58,  2.02it/s] 76%|███████▌  | 8149/10692 [1:14:47<20:59,  2.02it/s] 76%|███████▌  | 8150/10692 [1:14:47<20:58,  2.02it/s]{'loss': 3.5938, 'grad_norm': 0.19566196203231812, 'learning_rate': 0.00016254940942424408, 'epoch': 0.76}
+                                                       76%|███████▌  | 8150/10692 [1:14:47<20:58,  2.02it/s] 76%|███████▌  | 8151/10692 [1:14:48<21:04,  2.01it/s] 76%|███████▌  | 8152/10692 [1:14:48<21:02,  2.01it/s] 76%|███████▋  | 8153/10692 [1:14:49<20:58,  2.02it/s] 76%|███████▋  | 8154/10692 [1:14:49<20:58,  2.02it/s] 76%|███████▋  | 8155/10692 [1:14:50<20:55,  2.02it/s] 76%|███████▋  | 8156/10692 [1:14:50<20:57,  2.02it/s] 76%|███████▋  | 8157/10692 [1:14:51<20:55,  2.02it/s] 76%|███████▋  | 8158/10692 [1:14:51<20:55,  2.02it/s] 76%|███████▋  | 8159/10692 [1:14:52<20:53,  2.02it/s] 76%|███████▋  | 8160/10692 [1:14:52<20:53,  2.02it/s] 76%|███████▋  | 8161/10692 [1:14:53<20:51,  2.02it/s] 76%|███████▋  | 8162/10692 [1:14:53<20:51,  2.02it/s] 76%|███████▋  | 8163/10692 [1:14:54<20:49,  2.02it/s] 76%|███████▋  | 8164/10692 [1:14:54<20:49,  2.02it/s] 76%|███████▋  | 8165/10692 [1:14:55<20:47,  2.03it/s] 76%|███████▋  | 8166/10692 [1:14:55<20:48,  2.02it/s] 76%|███████▋  | 8167/10692 [1:14:56<20:47,  2.02it/s] 76%|███████▋  | 8168/10692 [1:14:56<20:48,  2.02it/s] 76%|███████▋  | 8169/10692 [1:14:57<20:47,  2.02it/s] 76%|███████▋  | 8170/10692 [1:14:57<20:48,  2.02it/s] 76%|███████▋  | 8171/10692 [1:14:58<20:46,  2.02it/s] 76%|███████▋  | 8172/10692 [1:14:58<20:46,  2.02it/s] 76%|███████▋  | 8173/10692 [1:14:59<20:45,  2.02it/s] 76%|███████▋  | 8174/10692 [1:14:59<20:46,  2.02it/s] 76%|███████▋  | 8175/10692 [1:15:00<20:44,  2.02it/s]{'loss': 3.5985, 'grad_norm': 0.19637268781661987, 'learning_rate': 0.00015954908765831394, 'epoch': 0.76}
+                                                       76%|███████▋  | 8175/10692 [1:15:00<20:44,  2.02it/s] 76%|███████▋  | 8176/10692 [1:15:00<20:49,  2.01it/s] 76%|███████▋  | 8177/10692 [1:15:01<20:49,  2.01it/s] 76%|███████▋  | 8178/10692 [1:15:01<20:47,  2.02it/s] 76%|███████▋  | 8179/10692 [1:15:02<20:44,  2.02it/s] 77%|███████▋  | 8180/10692 [1:15:02<20:44,  2.02it/s] 77%|███████▋  | 8181/10692 [1:15:03<20:43,  2.02it/s] 77%|███████▋  | 8182/10692 [1:15:03<20:42,  2.02it/s] 77%|███████▋  | 8183/10692 [1:15:04<20:40,  2.02it/s] 77%|███████▋  | 8184/10692 [1:15:04<20:41,  2.02it/s] 77%|███████▋  | 8185/10692 [1:15:05<20:40,  2.02it/s] 77%|███████▋  | 8186/10692 [1:15:05<20:40,  2.02it/s] 77%|███████▋  | 8187/10692 [1:15:06<20:39,  2.02it/s] 77%|███████▋  | 8188/10692 [1:15:06<20:40,  2.02it/s] 77%|███████▋  | 8189/10692 [1:15:07<20:37,  2.02it/s] 77%|███████▋  | 8190/10692 [1:15:07<20:38,  2.02it/s] 77%|███████▋  | 8191/10692 [1:15:08<20:37,  2.02it/s] 77%|███████▋  | 8192/10692 [1:15:08<20:37,  2.02it/s] 77%|███████▋  | 8193/10692 [1:15:09<20:35,  2.02it/s] 77%|███████▋  | 8194/10692 [1:15:09<20:35,  2.02it/s] 77%|███████▋  | 8195/10692 [1:15:10<20:34,  2.02it/s] 77%|███████▋  | 8196/10692 [1:15:10<20:35,  2.02it/s] 77%|███████▋  | 8197/10692 [1:15:11<20:33,  2.02it/s] 77%|███████▋  | 8198/10692 [1:15:11<20:34,  2.02it/s] 77%|███████▋  | 8199/10692 [1:15:12<20:33,  2.02it/s] 77%|███████▋  | 8200/10692 [1:15:12<20:33,  2.02it/s]                                                      {'loss': 3.6006, 'grad_norm': 0.19448918104171753, 'learning_rate': 0.0001565714489266386, 'epoch': 0.77}
+ 77%|███████▋  | 8200/10692 [1:15:12<20:33,  2.02it/s] 77%|███████▋  | 8201/10692 [1:15:13<20:33,  2.02it/s] 77%|███████▋  | 8202/10692 [1:15:13<20:32,  2.02it/s] 77%|███████▋  | 8203/10692 [1:15:14<20:31,  2.02it/s] 77%|███████▋  | 8204/10692 [1:15:14<20:30,  2.02it/s] 77%|███████▋  | 8205/10692 [1:15:15<20:29,  2.02it/s] 77%|███████▋  | 8206/10692 [1:15:15<20:29,  2.02it/s] 77%|███████▋  | 8207/10692 [1:15:16<20:30,  2.02it/s] 77%|███████▋  | 8208/10692 [1:15:16<20:30,  2.02it/s] 77%|███████▋  | 8209/10692 [1:15:17<20:29,  2.02it/s] 77%|███████▋  | 8210/10692 [1:15:17<20:28,  2.02it/s] 77%|███████▋  | 8211/10692 [1:15:18<20:29,  2.02it/s] 77%|███████▋  | 8212/10692 [1:15:18<20:27,  2.02it/s] 77%|███████▋  | 8213/10692 [1:15:19<20:27,  2.02it/s] 77%|███████▋  | 8214/10692 [1:15:19<20:26,  2.02it/s] 77%|███████▋  | 8215/10692 [1:15:20<20:26,  2.02it/s] 77%|███████▋  | 8216/10692 [1:15:20<20:25,  2.02it/s] 77%|███████▋  | 8217/10692 [1:15:21<23:45,  1.74it/s] 77%|███████▋  | 8218/10692 [1:15:21<22:43,  1.81it/s] 77%|███████▋  | 8219/10692 [1:15:22<22:00,  1.87it/s] 77%|███████▋  | 8220/10692 [1:15:22<21:30,  1.92it/s] 77%|███████▋  | 8221/10692 [1:15:23<21:09,  1.95it/s] 77%|███████▋  | 8222/10692 [1:15:23<20:55,  1.97it/s] 77%|███████▋  | 8223/10692 [1:15:24<20:45,  1.98it/s] 77%|███████▋  | 8224/10692 [1:15:24<20:36,  2.00it/s] 77%|███████▋  | 8225/10692 [1:15:25<20:31,  2.00it/s]{'loss': 3.5906, 'grad_norm': 0.20348602533340454, 'learning_rate': 0.0001536166916187037, 'epoch': 0.77}
+                                                       77%|███████▋  | 8225/10692 [1:15:25<20:31,  2.00it/s] 77%|███████▋  | 8226/10692 [1:15:25<20:28,  2.01it/s] 77%|███████▋  | 8227/10692 [1:15:26<20:25,  2.01it/s] 77%|███████▋  | 8228/10692 [1:15:26<20:22,  2.02it/s] 77%|███████▋  | 8229/10692 [1:15:27<20:20,  2.02it/s] 77%|███████▋  | 8230/10692 [1:15:27<20:18,  2.02it/s] 77%|███████▋  | 8231/10692 [1:15:28<20:17,  2.02it/s] 77%|███████▋  | 8232/10692 [1:15:28<20:16,  2.02it/s] 77%|███████▋  | 8233/10692 [1:15:29<20:15,  2.02it/s] 77%|███████▋  | 8234/10692 [1:15:29<20:14,  2.02it/s] 77%|███████▋  | 8235/10692 [1:15:30<20:12,  2.03it/s] 77%|███████▋  | 8236/10692 [1:15:30<20:13,  2.02it/s] 77%|███████▋  | 8237/10692 [1:15:31<20:17,  2.02it/s] 77%|███████▋  | 8238/10692 [1:15:31<20:16,  2.02it/s] 77%|███████▋  | 8239/10692 [1:15:32<20:14,  2.02it/s] 77%|███████▋  | 8240/10692 [1:15:32<20:13,  2.02it/s] 77%|███████▋  | 8241/10692 [1:15:33<20:12,  2.02it/s] 77%|███████▋  | 8242/10692 [1:15:33<20:12,  2.02it/s] 77%|███████▋  | 8243/10692 [1:15:34<20:11,  2.02it/s] 77%|███████▋  | 8244/10692 [1:15:34<20:12,  2.02it/s] 77%|███████▋  | 8245/10692 [1:15:35<20:10,  2.02it/s] 77%|███████▋  | 8246/10692 [1:15:35<20:10,  2.02it/s] 77%|███████▋  | 8247/10692 [1:15:36<20:10,  2.02it/s] 77%|███████▋  | 8248/10692 [1:15:36<20:09,  2.02it/s] 77%|███████▋  | 8249/10692 [1:15:37<20:08,  2.02it/s] 77%|███████▋  | 8250/10692 [1:15:37<20:08,  2.02it/s]{'loss': 3.5939, 'grad_norm': 0.1978783905506134, 'learning_rate': 0.0001506850125994867, 'epoch': 0.77}
+                                                       77%|███████▋  | 8250/10692 [1:15:37<20:08,  2.02it/s] 77%|███████▋  | 8251/10692 [1:15:38<20:08,  2.02it/s] 77%|███████▋  | 8252/10692 [1:15:38<20:08,  2.02it/s] 77%|███████▋  | 8253/10692 [1:15:39<23:24,  1.74it/s] 77%|███████▋  | 8254/10692 [1:15:39<22:24,  1.81it/s] 77%|███████▋  | 8255/10692 [1:15:40<21:42,  1.87it/s] 77%|███████▋  | 8256/10692 [1:15:40<21:13,  1.91it/s] 77%|███████▋  | 8257/10692 [1:15:41<20:51,  1.95it/s] 77%|███████▋  | 8258/10692 [1:15:41<20:38,  1.97it/s] 77%|███████▋  | 8259/10692 [1:15:42<20:26,  1.98it/s] 77%|███████▋  | 8260/10692 [1:15:42<20:19,  2.00it/s] 77%|███████▋  | 8261/10692 [1:15:43<20:13,  2.00it/s] 77%|███████▋  | 8262/10692 [1:15:43<20:09,  2.01it/s] 77%|███████▋  | 8263/10692 [1:15:44<20:07,  2.01it/s] 77%|███████▋  | 8264/10692 [1:15:44<20:04,  2.02it/s] 77%|███████▋  | 8265/10692 [1:15:45<20:06,  2.01it/s] 77%|███████▋  | 8266/10692 [1:15:45<20:03,  2.02it/s] 77%|███████▋  | 8267/10692 [1:15:46<20:02,  2.02it/s] 77%|███████▋  | 8268/10692 [1:15:46<20:00,  2.02it/s] 77%|███████▋  | 8269/10692 [1:15:47<19:58,  2.02it/s] 77%|███████▋  | 8270/10692 [1:15:47<19:58,  2.02it/s] 77%|███████▋  | 8271/10692 [1:15:48<19:58,  2.02it/s] 77%|███████▋  | 8272/10692 [1:15:48<19:58,  2.02it/s] 77%|███████▋  | 8273/10692 [1:15:49<19:57,  2.02it/s] 77%|███████▋  | 8274/10692 [1:15:49<19:57,  2.02it/s] 77%|███████▋  | 8275/10692 [1:15:50<19:54,  2.02it/s]{'loss': 3.5845, 'grad_norm': 0.20627522468566895, 'learning_rate': 0.00014777660719634089, 'epoch': 0.77}
+                                                       77%|███████▋  | 8275/10692 [1:15:50<19:54,  2.02it/s] 77%|███████▋  | 8276/10692 [1:15:50<19:56,  2.02it/s] 77%|███████▋  | 8277/10692 [1:15:51<19:54,  2.02it/s] 77%|███████▋  | 8278/10692 [1:15:51<19:55,  2.02it/s] 77%|███████▋  | 8279/10692 [1:15:52<19:53,  2.02it/s] 77%|███████▋  | 8280/10692 [1:15:52<19:53,  2.02it/s] 77%|███████▋  | 8281/10692 [1:15:53<19:53,  2.02it/s] 77%|███████▋  | 8282/10692 [1:15:53<19:52,  2.02it/s] 77%|███████▋  | 8283/10692 [1:15:54<19:52,  2.02it/s] 77%|███████▋  | 8284/10692 [1:15:54<19:51,  2.02it/s] 77%|███████▋  | 8285/10692 [1:15:55<19:51,  2.02it/s] 77%|███████▋  | 8286/10692 [1:15:55<19:51,  2.02it/s] 78%|███████▊  | 8287/10692 [1:15:56<19:51,  2.02it/s] 78%|███████▊  | 8288/10692 [1:15:56<19:50,  2.02it/s] 78%|███████▊  | 8289/10692 [1:15:57<19:48,  2.02it/s] 78%|███████▊  | 8290/10692 [1:15:57<19:49,  2.02it/s] 78%|███████▊  | 8291/10692 [1:15:58<19:47,  2.02it/s] 78%|███████▊  | 8292/10692 [1:15:58<19:48,  2.02it/s] 78%|███████▊  | 8293/10692 [1:15:59<19:47,  2.02it/s] 78%|███████▊  | 8294/10692 [1:15:59<19:48,  2.02it/s] 78%|███████▊  | 8295/10692 [1:16:00<19:45,  2.02it/s] 78%|███████▊  | 8296/10692 [1:16:00<19:46,  2.02it/s] 78%|███████▊  | 8297/10692 [1:16:01<19:49,  2.01it/s] 78%|███████▊  | 8298/10692 [1:16:01<19:47,  2.02it/s] 78%|███████▊  | 8299/10692 [1:16:02<19:46,  2.02it/s] 78%|███████▊  | 8300/10692 [1:16:02<19:44,  2.02it/s]                                                      {'loss': 3.5927, 'grad_norm': 0.19816961884498596, 'learning_rate': 0.00014489166918598106, 'epoch': 0.78}
+ 78%|███████▊  | 8300/10692 [1:16:02<19:44,  2.02it/s] 78%|███████▊  | 8301/10692 [1:16:03<19:46,  2.02it/s] 78%|███████▊  | 8302/10692 [1:16:03<19:44,  2.02it/s] 78%|███████▊  | 8303/10692 [1:16:04<19:44,  2.02it/s] 78%|███████▊  | 8304/10692 [1:16:04<19:43,  2.02it/s] 78%|███████▊  | 8305/10692 [1:16:05<19:42,  2.02it/s] 78%|███████▊  | 8306/10692 [1:16:05<19:41,  2.02it/s] 78%|███████▊  | 8307/10692 [1:16:06<19:41,  2.02it/s] 78%|███████▊  | 8308/10692 [1:16:06<19:40,  2.02it/s] 78%|███████▊  | 8309/10692 [1:16:07<19:40,  2.02it/s] 78%|███████▊  | 8310/10692 [1:16:07<19:38,  2.02it/s] 78%|███████▊  | 8311/10692 [1:16:08<19:39,  2.02it/s] 78%|███████▊  | 8312/10692 [1:16:08<19:37,  2.02it/s] 78%|███████▊  | 8313/10692 [1:16:09<19:36,  2.02it/s] 78%|███████▊  | 8314/10692 [1:16:09<19:36,  2.02it/s] 78%|███████▊  | 8315/10692 [1:16:10<19:35,  2.02it/s] 78%|███████▊  | 8316/10692 [1:16:10<19:35,  2.02it/s] 78%|███████▊  | 8317/10692 [1:16:11<19:35,  2.02it/s] 78%|███████▊  | 8318/10692 [1:16:11<19:34,  2.02it/s] 78%|███████▊  | 8319/10692 [1:16:12<19:35,  2.02it/s] 78%|█��█████▊  | 8320/10692 [1:16:12<19:33,  2.02it/s] 78%|███████▊  | 8321/10692 [1:16:13<19:33,  2.02it/s] 78%|███████▊  | 8322/10692 [1:16:13<19:31,  2.02it/s] 78%|███████▊  | 8323/10692 [1:16:14<19:31,  2.02it/s] 78%|███████▊  | 8324/10692 [1:16:14<19:31,  2.02it/s] 78%|███████▊  | 8325/10692 [1:16:15<19:30,  2.02it/s]{'loss': 3.5876, 'grad_norm': 0.19674652814865112, 'learning_rate': 0.0001420303907815735, 'epoch': 0.78}
+                                                       78%|███████▊  | 8325/10692 [1:16:15<19:30,  2.02it/s] 78%|███████▊  | 8326/10692 [1:16:15<19:31,  2.02it/s] 78%|███████▊  | 8327/10692 [1:16:16<19:31,  2.02it/s] 78%|███████▊  | 8328/10692 [1:16:16<19:29,  2.02it/s] 78%|███████▊  | 8329/10692 [1:16:17<19:29,  2.02it/s] 78%|███████▊  | 8330/10692 [1:16:17<19:27,  2.02it/s] 78%|███████▊  | 8331/10692 [1:16:18<19:28,  2.02it/s] 78%|███████▊  | 8332/10692 [1:16:18<19:26,  2.02it/s] 78%|███████▊  | 8333/10692 [1:16:19<19:26,  2.02it/s] 78%|███████▊  | 8334/10692 [1:16:19<19:26,  2.02it/s] 78%|███████▊  | 8335/10692 [1:16:20<19:26,  2.02it/s] 78%|███████▊  | 8336/10692 [1:16:20<19:26,  2.02it/s] 78%|███████▊  | 8337/10692 [1:16:21<19:25,  2.02it/s] 78%|███████▊  | 8338/10692 [1:16:21<19:24,  2.02it/s] 78%|███████▊  | 8339/10692 [1:16:22<19:23,  2.02it/s] 78%|███████▊  | 8340/10692 [1:16:22<19:23,  2.02it/s] 78%|███████▊  | 8341/10692 [1:16:23<19:23,  2.02it/s] 78%|███████▊  | 8342/10692 [1:16:23<19:23,  2.02it/s] 78%|███████▊  | 8343/10692 [1:16:24<19:20,  2.02it/s] 78%|███████▊  | 8344/10692 [1:16:24<19:22,  2.02it/s] 78%|███████▊  | 8345/10692 [1:16:25<19:22,  2.02it/s] 78%|███████▊  | 8346/10692 [1:16:25<19:22,  2.02it/s] 78%|███████▊  | 8347/10692 [1:16:26<19:19,  2.02it/s] 78%|███████▊  | 8348/10692 [1:16:26<19:20,  2.02it/s] 78%|███████▊  | 8349/10692 [1:16:27<19:18,  2.02it/s] 78%|███████▊  | 8350/10692 [1:16:27<19:18,  2.02it/s]{'loss': 3.5936, 'grad_norm': 0.19281233847141266, 'learning_rate': 0.0001391929626199285, 'epoch': 0.78}
+                                                       78%|███████▊  | 8350/10692 [1:16:27<19:18,  2.02it/s] 78%|███████▊  | 8351/10692 [1:16:27<19:18,  2.02it/s] 78%|███████▊  | 8352/10692 [1:16:28<19:18,  2.02it/s] 78%|███████▊  | 8353/10692 [1:16:28<19:17,  2.02it/s] 78%|███████▊  | 8354/10692 [1:16:29<19:16,  2.02it/s] 78%|███████▊  | 8355/10692 [1:16:29<19:16,  2.02it/s] 78%|███████▊  | 8356/10692 [1:16:30<19:16,  2.02it/s] 78%|███████▊  | 8357/10692 [1:16:30<19:16,  2.02it/s] 78%|███████▊  | 8358/10692 [1:16:31<19:17,  2.02it/s] 78%|███████▊  | 8359/10692 [1:16:31<19:14,  2.02it/s] 78%|███████▊  | 8360/10692 [1:16:32<19:15,  2.02it/s] 78%|███████▊  | 8361/10692 [1:16:32<19:12,  2.02it/s] 78%|███████▊  | 8362/10692 [1:16:33<19:13,  2.02it/s] 78%|███████▊  | 8363/10692 [1:16:33<19:10,  2.02it/s] 78%|███████▊  | 8364/10692 [1:16:34<19:12,  2.02it/s] 78%|███████▊  | 8365/10692 [1:16:34<19:10,  2.02it/s] 78%|███████▊  | 8366/10692 [1:16:35<19:10,  2.02it/s] 78%|███████▊  | 8367/10692 [1:16:35<19:09,  2.02it/s] 78%|███████▊  | 8368/10692 [1:16:36<19:10,  2.02it/s] 78%|███████▊  | 8369/10692 [1:16:36<19:09,  2.02it/s] 78%|███████▊  | 8370/10692 [1:16:37<19:09,  2.02it/s] 78%|███████▊  | 8371/10692 [1:16:37<19:07,  2.02it/s] 78%|███████▊  | 8372/10692 [1:16:38<19:08,  2.02it/s] 78%|███████▊  | 8373/10692 [1:16:38<19:06,  2.02it/s] 78%|███████▊  | 8374/10692 [1:16:39<19:06,  2.02it/s] 78%|███████▊  | 8375/10692 [1:16:39<19:04,  2.02it/s]{'loss': 3.5866, 'grad_norm': 0.20539230108261108, 'learning_rate': 0.00013637957374879945, 'epoch': 0.78}
+                                                       78%|███████▊  | 8375/10692 [1:16:39<19:04,  2.02it/s] 78%|███████▊  | 8376/10692 [1:16:40<19:07,  2.02it/s] 78%|███████▊  | 8377/10692 [1:16:40<19:06,  2.02it/s] 78%|███████▊  | 8378/10692 [1:16:41<19:06,  2.02it/s] 78%|███████▊  | 8379/10692 [1:16:41<19:05,  2.02it/s] 78%|███████▊  | 8380/10692 [1:16:42<19:04,  2.02it/s] 78%|███████▊  | 8381/10692 [1:16:42<19:03,  2.02it/s] 78%|██████��▊  | 8382/10692 [1:16:43<19:03,  2.02it/s] 78%|███████▊  | 8383/10692 [1:16:43<19:01,  2.02it/s] 78%|███████▊  | 8384/10692 [1:16:44<19:02,  2.02it/s] 78%|███████▊  | 8385/10692 [1:16:44<19:01,  2.02it/s] 78%|███████▊  | 8386/10692 [1:16:45<19:02,  2.02it/s] 78%|███████▊  | 8387/10692 [1:16:45<19:00,  2.02it/s] 78%|███████▊  | 8388/10692 [1:16:46<19:00,  2.02it/s] 78%|███████▊  | 8389/10692 [1:16:46<18:58,  2.02it/s] 78%|███████▊  | 8390/10692 [1:16:47<18:58,  2.02it/s] 78%|███████▊  | 8391/10692 [1:16:47<18:57,  2.02it/s] 78%|███████▊  | 8392/10692 [1:16:48<18:57,  2.02it/s] 78%|███████▊  | 8393/10692 [1:16:48<18:56,  2.02it/s] 79%|███████▊  | 8394/10692 [1:16:49<18:55,  2.02it/s] 79%|███████▊  | 8395/10692 [1:16:49<18:55,  2.02it/s] 79%|███████▊  | 8396/10692 [1:16:50<18:55,  2.02it/s] 79%|███████▊  | 8397/10692 [1:16:50<18:54,  2.02it/s] 79%|███████▊  | 8398/10692 [1:16:51<18:54,  2.02it/s] 79%|███████▊  | 8399/10692 [1:16:51<18:53,  2.02it/s] 79%|███████▊  | 8400/10692 [1:16:52<18:54,  2.02it/s]{'loss': 3.5867, 'grad_norm': 0.20496006309986115, 'learning_rate': 0.00013359041161428787, 'epoch': 0.79}
+                                                       79%|███████▊  | 8400/10692 [1:16:52<18:54,  2.02it/s] 79%|███████▊  | 8401/10692 [1:16:52<18:55,  2.02it/s] 79%|███████▊  | 8402/10692 [1:16:53<18:54,  2.02it/s] 79%|███████▊  | 8403/10692 [1:16:53<18:52,  2.02it/s] 79%|███████▊  | 8404/10692 [1:16:54<18:52,  2.02it/s] 79%|███████▊  | 8405/10692 [1:16:54<18:51,  2.02it/s] 79%|███████▊  | 8406/10692 [1:16:55<18:50,  2.02it/s] 79%|███████▊  | 8407/10692 [1:16:55<18:50,  2.02it/s] 79%|███████▊  | 8408/10692 [1:16:56<18:49,  2.02it/s] 79%|███████▊  | 8409/10692 [1:16:56<18:49,  2.02it/s] 79%|███████▊  | 8410/10692 [1:16:57<18:48,  2.02it/s] 79%|███████▊  | 8411/10692 [1:16:57<18:48,  2.02it/s] 79%|███████▊  | 8412/10692 [1:16:58<18:46,  2.02it/s] 79%|███████▊  | 8413/10692 [1:16:58<18:46,  2.02it/s] 79%|███████▊  | 8414/10692 [1:16:59<18:46,  2.02it/s] 79%|███████▊  | 8415/10692 [1:16:59<18:46,  2.02it/s] 79%|███████▊  | 8416/10692 [1:17:00<18:45,  2.02it/s] 79%|███████▊  | 8417/10692 [1:17:00<18:47,  2.02it/s] 79%|███████▊  | 8418/10692 [1:17:01<18:49,  2.01it/s] 79%|███████▊  | 8419/10692 [1:17:01<18:48,  2.01it/s] 79%|███████▉  | 8420/10692 [1:17:02<18:47,  2.02it/s] 79%|███████▉  | 8421/10692 [1:17:02<18:45,  2.02it/s] 79%|███████▉  | 8422/10692 [1:17:03<18:44,  2.02it/s] 79%|███████▉  | 8423/10692 [1:17:03<18:42,  2.02it/s] 79%|███████▉  | 8424/10692 [1:17:04<18:42,  2.02it/s] 79%|███████▉  | 8425/10692 [1:17:04<18:42,  2.02it/s]{'loss': 3.5831, 'grad_norm': 0.20170852541923523, 'learning_rate': 0.00013082566204835328, 'epoch': 0.79}
+                                                       79%|███████▉  | 8425/10692 [1:17:04<18:42,  2.02it/s] 79%|███████▉  | 8426/10692 [1:17:05<18:44,  2.01it/s] 79%|███████▉  | 8427/10692 [1:17:05<18:42,  2.02it/s] 79%|███████▉  | 8428/10692 [1:17:06<18:42,  2.02it/s] 79%|███████▉  | 8429/10692 [1:17:06<18:41,  2.02it/s] 79%|███████▉  | 8430/10692 [1:17:07<18:41,  2.02it/s] 79%|███████▉  | 8431/10692 [1:17:07<18:39,  2.02it/s] 79%|███████▉  | 8432/10692 [1:17:08<18:38,  2.02it/s] 79%|███████▉  | 8433/10692 [1:17:08<18:38,  2.02it/s] 79%|███████▉  | 8434/10692 [1:17:09<18:37,  2.02it/s] 79%|███████▉  | 8435/10692 [1:17:09<18:36,  2.02it/s] 79%|███████▉  | 8436/10692 [1:17:10<18:36,  2.02it/s] 79%|███████▉  | 8437/10692 [1:17:10<18:34,  2.02it/s] 79%|███████▉  | 8438/10692 [1:17:11<18:35,  2.02it/s] 79%|███████▉  | 8439/10692 [1:17:11<18:33,  2.02it/s] 79%|███████▉  | 8440/10692 [1:17:12<18:34,  2.02it/s] 79%|███████▉  | 8441/10692 [1:17:12<18:32,  2.02it/s] 79%|███████▉  | 8442/10692 [1:17:13<18:32,  2.02it/s] 79%|███████▉  | 8443/10692 [1:17:13<18:31,  2.02it/s] 79%|███████▉  | 8444/10692 [1:17:14<18:31,  2.02it/s] 79%|███████▉  | 8445/10692 [1:17:14<18:29,  2.02it/s] 79%|███████▉  | 8446/10692 [1:17:15<18:31,  2.02it/s] 79%|███████▉  | 8447/10692 [1:17:15<18:30,  2.02it/s] 79%|███████▉  | 8448/10692 [1:17:15<18:30,  2.02it/s] 79%|███████▉  | 8449/10692 [1:17:16<18:28,  2.02it/s] 79%|███████▉  | 8450/10692 [1:17:16<18:30,  2.02it/s]                                                      {'loss': 3.5979, 'grad_norm': 0.19286543130874634, 'learning_rate': 0.00012808550925643282, 'epoch': 0.79}
+ 79%|███████▉  | 8450/10692 [1:17:16<18:30,  2.02it/s] 79%|███████▉  | 8451/10692 [1:17:17<18:30,  2.02it/s] 79%|███████▉  | 8452/10692 [1:17:17<18:29,  2.02it/s] 79%|███████▉  | 8453/10692 [1:17:18<18:26,  2.02it/s] 79%|███████▉  | 8454/10692 [1:17:18<18:27,  2.02it/s] 79%|███████▉  | 8455/10692 [1:17:19<18:27,  2.02it/s] 79%|███████▉  | 8456/10692 [1:17:19<18:27,  2.02it/s] 79%|███████▉  | 8457/10692 [1:17:20<18:26,  2.02it/s] 79%|███████▉  | 8458/10692 [1:17:20<18:26,  2.02it/s] 79%|███████▉  | 8459/10692 [1:17:21<18:23,  2.02it/s] 79%|███████▉  | 8460/10692 [1:17:21<18:24,  2.02it/s] 79%|███████▉  | 8461/10692 [1:17:22<18:22,  2.02it/s] 79%|███████▉  | 8462/10692 [1:17:22<18:22,  2.02it/s] 79%|███████▉  | 8463/10692 [1:17:23<18:21,  2.02it/s] 79%|███████▉  | 8464/10692 [1:17:23<18:22,  2.02it/s] 79%|███████▉  | 8465/10692 [1:17:24<18:22,  2.02it/s] 79%|███████▉  | 8466/10692 [1:17:24<18:21,  2.02it/s] 79%|███████▉  | 8467/10692 [1:17:25<18:20,  2.02it/s] 79%|███████▉  | 8468/10692 [1:17:25<18:20,  2.02it/s] 79%|███████▉  | 8469/10692 [1:17:26<18:19,  2.02it/s] 79%|███████▉  | 8470/10692 [1:17:26<18:19,  2.02it/s] 79%|███████▉  | 8471/10692 [1:17:27<18:19,  2.02it/s] 79%|███████▉  | 8472/10692 [1:17:27<18:19,  2.02it/s] 79%|███████▉  | 8473/10692 [1:17:28<18:19,  2.02it/s] 79%|███████▉  | 8474/10692 [1:17:28<18:16,  2.02it/s] 79%|███████▉  | 8475/10692 [1:17:29<18:18,  2.02it/s]{'loss': 3.5904, 'grad_norm': 0.19797784090042114, 'learning_rate': 0.00012537013580516787, 'epoch': 0.79}
+                                                       79%|███████▉  | 8475/10692 [1:17:29<18:18,  2.02it/s] 79%|███████▉  | 8476/10692 [1:17:29<18:18,  2.02it/s] 79%|███████▉  | 8477/10692 [1:17:30<18:18,  2.02it/s] 79%|███████▉  | 8478/10692 [1:17:30<18:18,  2.02it/s] 79%|███████▉  | 8479/10692 [1:17:31<18:18,  2.01it/s] 79%|███████▉  | 8480/10692 [1:17:31<18:17,  2.02it/s] 79%|███████▉  | 8481/10692 [1:17:32<18:15,  2.02it/s] 79%|███████▉  | 8482/10692 [1:17:32<18:13,  2.02it/s] 79%|███████▉  | 8483/10692 [1:17:33<18:13,  2.02it/s] 79%|███████▉  | 8484/10692 [1:17:33<18:11,  2.02it/s] 79%|███████▉  | 8485/10692 [1:17:34<18:12,  2.02it/s] 79%|███████▉  | 8486/10692 [1:17:34<18:09,  2.02it/s] 79%|███████▉  | 8487/10692 [1:17:35<18:11,  2.02it/s] 79%|███████▉  | 8488/10692 [1:17:35<18:10,  2.02it/s] 79%|███████▉  | 8489/10692 [1:17:36<18:10,  2.02it/s] 79%|███████▉  | 8490/10692 [1:17:36<18:08,  2.02it/s] 79%|███████▉  | 8491/10692 [1:17:37<18:09,  2.02it/s] 79%|███████▉  | 8492/10692 [1:17:37<18:08,  2.02it/s] 79%|███████▉  | 8493/10692 [1:17:38<18:09,  2.02it/s] 79%|███████▉  | 8494/10692 [1:17:38<18:07,  2.02it/s] 79%|███████▉  | 8495/10692 [1:17:39<18:09,  2.02it/s] 79%|███████▉  | 8496/10692 [1:17:39<18:06,  2.02it/s] 79%|███████▉  | 8497/10692 [1:17:40<18:06,  2.02it/s] 79%|███████▉  | 8498/10692 [1:17:40<18:04,  2.02it/s] 79%|███████▉  | 8499/10692 [1:17:41<18:04,  2.02it/s] 79%|███████▉  | 8500/10692 [1:17:41<18:03,  2.02it/s]{'loss': 3.5863, 'grad_norm': 0.1947271227836609, 'learning_rate': 0.00012267972261024057, 'epoch': 0.79}
+                                                       79%|███████▉  | 8500/10692 [1:17:41<18:03,  2.02it/s] 80%|███████▉  | 8501/10692 [1:17:42<18:04,  2.02it/s] 80%|███████▉  | 8502/10692 [1:17:42<18:02,  2.02it/s] 80%|███████▉  | 8503/10692 [1:17:43<18:02,  2.02it/s] 80%|███████▉  | 8504/10692 [1:17:43<18:01,  2.02it/s] 80%|███████▉  | 8505/10692 [1:17:44<18:02,  2.02it/s] 80%|███████▉  | 8506/10692 [1:17:44<18:00,  2.02it/s] 80%|███████▉  | 8507/10692 [1:17:45<18:00,  2.02it/s] 80%|███████▉  | 8508/10692 [1:17:45<17:58,  2.02it/s] 80%|███████▉  | 8509/10692 [1:17:46<18:00,  2.02it/s] 80%|███████▉  | 8510/10692 [1:17:46<17:59,  2.02it/s] 80%|███████▉  | 8511/10692 [1:17:47<17:59,  2.02it/s] 80%|███████▉  | 8512/10692 [1:17:47<17:58,  2.02it/s] 80%|███████▉  | 8513/10692 [1:17:48<17:58,  2.02it/s] 80%|███████▉  | 8514/10692 [1:17:48<17:57,  2.02it/s] 80%|███████▉  | 8515/10692 [1:17:49<17:57,  2.02it/s] 80%|███████▉  | 8516/10692 [1:17:49<17:55,  2.02it/s] 80%|███████▉  | 8517/10692 [1:17:50<17:56,  2.02it/s] 80%|███████▉  | 8518/10692 [1:17:50<17:55,  2.02it/s] 80%|███████▉  | 8519/10692 [1:17:51<17:55,  2.02it/s] 80%|███████▉  | 8520/10692 [1:17:51<17:54,  2.02it/s] 80%|███████▉  | 8521/10692 [1:17:52<17:54,  2.02it/s] 80%|███████▉  | 8522/10692 [1:17:52<17:52,  2.02it/s] 80%|███████▉  | 8523/10692 [1:17:53<17:52,  2.02it/s] 80%|███████▉  | 8524/10692 [1:17:53<17:51,  2.02it/s] 80%|███████▉  | 8525/10692 [1:17:54<17:51,  2.02it/s]{'loss': 3.5795, 'grad_norm': 0.1944679170846939, 'learning_rate': 0.00012001444892431968, 'epoch': 0.8}
+                                                       80%|███████▉  | 8525/10692 [1:17:54<17:51,  2.02it/s] 80%|███████▉  | 8526/10692 [1:17:54<17:52,  2.02it/s] 80%|███████▉  | 8527/10692 [1:17:55<17:52,  2.02it/s] 80%|███████▉  | 8528/10692 [1:17:55<17:51,  2.02it/s] 80%|███████▉  | 8529/10692 [1:17:56<17:50,  2.02it/s] 80%|███████▉  | 8530/10692 [1:17:56<17:51,  2.02it/s] 80%|███████▉  | 8531/10692 [1:17:57<17:48,  2.02it/s] 80%|███████▉  | 8532/10692 [1:17:57<17:49,  2.02it/s] 80%|███████▉  | 8533/10692 [1:17:58<17:47,  2.02it/s] 80%|███████▉  | 8534/10692 [1:17:58<17:47,  2.02it/s] 80%|███████▉  | 8535/10692 [1:17:59<17:48,  2.02it/s] 80%|███████▉  | 8536/10692 [1:17:59<17:47,  2.02it/s] 80%|███████▉  | 8537/10692 [1:18:00<17:46,  2.02it/s] 80%|███████▉  | 8538/10692 [1:18:00<17:45,  2.02it/s] 80%|███████▉  | 8539/10692 [1:18:01<17:46,  2.02it/s] 80%|███████▉  | 8540/10692 [1:18:01<17:47,  2.02it/s] 80%|███████▉  | 8541/10692 [1:18:02<17:46,  2.02it/s] 80%|███████▉  | 8542/10692 [1:18:02<17:43,  2.02it/s] 80%|███████▉  | 8543/10692 [1:18:03<17:43,  2.02it/s] 80%|███████▉  | 8544/10692 [1:18:03<17:42,  2.02it/s] 80%|███████▉  | 8545/10692 [1:18:03<17:42,  2.02it/s] 80%|███████▉  | 8546/10692 [1:18:04<17:41,  2.02it/s] 80%|███████▉  | 8547/10692 [1:18:04<17:40,  2.02it/s] 80%|███████▉  | 8548/10692 [1:18:05<17:40,  2.02it/s] 80%|███████▉  | 8549/10692 [1:18:05<17:39,  2.02it/s] 80%|███████▉  | 8550/10692 [1:18:06<17:39,  2.02it/s]{'loss': 3.5809, 'grad_norm': 0.2040940672159195, 'learning_rate': 0.00011737449232511799, 'epoch': 0.8}
+                                                       80%|███████▉  | 8550/10692 [1:18:06<17:39,  2.02it/s] 80%|███████▉  | 8551/10692 [1:18:06<17:39,  2.02it/s] 80%|███████▉  | 8552/10692 [1:18:07<17:39,  2.02it/s] 80%|███████▉  | 8553/10692 [1:18:07<17:39,  2.02it/s] 80%|████████  | 8554/10692 [1:18:08<17:39,  2.02it/s] 80%|████████  | 8555/10692 [1:18:08<17:38,  2.02it/s] 80%|████████  | 8556/10692 [1:18:09<17:37,  2.02it/s] 80%|████████  | 8557/10692 [1:18:09<17:37,  2.02it/s] 80%|████████  | 8558/10692 [1:18:10<17:36,  2.02it/s] 80%|████████  | 8559/10692 [1:18:10<17:37,  2.02it/s] 80%|████████  | 8560/10692 [1:18:11<17:35,  2.02it/s] 80%|████████  | 8561/10692 [1:18:11<17:35,  2.02it/s] 80%|████████  | 8562/10692 [1:18:12<17:34,  2.02it/s] 80%|████████  | 8563/10692 [1:18:12<17:34,  2.02it/s] 80%|████████  | 8564/10692 [1:18:13<17:32,  2.02it/s] 80%|████████  | 8565/10692 [1:18:13<17:33,  2.02it/s] 80%|████████  | 8566/10692 [1:18:14<17:32,  2.02it/s] 80%|████████  | 8567/10692 [1:18:14<17:31,  2.02it/s] 80%|████████  | 8568/10692 [1:18:15<17:31,  2.02it/s] 80%|████████  | 8569/10692 [1:18:15<17:30,  2.02it/s] 80%|████████  | 8570/10692 [1:18:16<17:29,  2.02it/s] 80%|████████  | 8571/10692 [1:18:16<17:30,  2.02it/s] 80%|████████  | 8572/10692 [1:18:17<17:28,  2.02it/s] 80%|████████  | 8573/10692 [1:18:17<17:29,  2.02it/s] 80%|████████  | 8574/10692 [1:18:18<17:27,  2.02it/s] 80%|████████  | 8575/10692 [1:18:18<17:28,  2.02it/s]{'loss': 3.5859, 'grad_norm': 0.19479328393936157, 'learning_rate': 0.00011476002870356079, 'epoch': 0.8}
+                                                       80%|████████  | 8575/10692 [1:18:18<17:28,  2.02it/s] 80%|████████  | 8576/10692 [1:18:19<17:27,  2.02it/s] 80%|████████  | 8577/10692 [1:18:19<17:28,  2.02it/s] 80%|████████  | 8578/10692 [1:18:20<17:26,  2.02it/s] 80%|████████  | 8579/10692 [1:18:20<17:26,  2.02it/s] 80%|████████  | 8580/10692 [1:18:21<17:25,  2.02it/s] 80%|████████  | 8581/10692 [1:18:21<17:25,  2.02it/s] 80%|████████  | 8582/10692 [1:18:22<17:23,  2.02it/s] 80%|████████  | 8583/10692 [1:18:22<17:24,  2.02it/s] 80%|████████  | 8584/10692 [1:18:23<17:22,  2.02it/s] 80%|████████  | 8585/10692 [1:18:23<17:22,  2.02it/s] 80%|████████  | 8586/10692 [1:18:24<17:21,  2.02it/s] 80%|████████  | 8587/10692 [1:18:24<17:22,  2.02it/s] 80%|████████  | 8588/10692 [1:18:25<17:20,  2.02it/s] 80%|████████  | 8589/10692 [1:18:25<17:20,  2.02it/s] 80%|████████  | 8590/10692 [1:18:26<17:19,  2.02it/s] 80%|████████  | 8591/10692 [1:18:26<17:20,  2.02it/s] 80%|████████  | 8592/10692 [1:18:27<17:19,  2.02it/s] 80%|████████  | 8593/10692 [1:18:27<17:19,  2.02it/s] 80%|████████  | 8594/10692 [1:18:28<17:18,  2.02it/s] 80%|████████  | 8595/10692 [1:18:28<17:18,  2.02it/s] 80%|████████  | 8596/10692 [1:18:29<17:17,  2.02it/s] 80%|████████  | 8597/10692 [1:18:29<17:17,  2.02it/s] 80%|████████  | 8598/10692 [1:18:30<17:16,  2.02it/s] 80%|████████  | 8599/10692 [1:18:30<17:16,  2.02it/s] 80%|████████  | 8600/10692 [1:18:31<17:17,  2.02it/s]                                                      {'loss': 3.5896, 'grad_norm': 0.19237039983272552, 'learning_rate': 0.00011217123225206671, 'epoch': 0.8}
+ 80%|████████  | 8600/10692 [1:18:31<17:17,  2.02it/s] 80%|████████  | 8601/10692 [1:18:31<17:17,  2.02it/s] 80%|████████  | 8602/10692 [1:18:32<17:15,  2.02it/s] 80%|████████  | 8603/10692 [1:18:32<17:14,  2.02it/s] 80%|████████  | 8604/10692 [1:18:33<17:12,  2.02it/s] 80%|████████  | 8605/10692 [1:18:33<17:13,  2.02it/s] 80%|████████  | 8606/10692 [1:18:34<17:11,  2.02it/s] 80%|████████  | 8607/10692 [1:18:34<17:10,  2.02it/s] 81%|████████  | 8608/10692 [1:18:35<17:09,  2.02it/s] 81%|████████  | 8609/10692 [1:18:35<17:08,  2.02it/s] 81%|████████  | 8610/10692 [1:18:36<17:09,  2.02it/s] 81%|████████  | 8611/10692 [1:18:36<17:08,  2.02it/s] 81%|████████  | 8612/10692 [1:18:37<17:08,  2.02it/s] 81%|████████  | 8613/10692 [1:18:37<17:07,  2.02it/s] 81%|████████  | 8614/10692 [1:18:38<17:07,  2.02it/s] 81%|████████  | 8615/10692 [1:18:38<17:06,  2.02it/s] 81%|████████  | 8616/10692 [1:18:39<17:06,  2.02it/s] 81%|████████  | 8617/10692 [1:18:39<17:05,  2.02it/s] 81%|████████  | 8618/10692 [1:18:40<17:04,  2.02it/s] 81%|████████  | 8619/10692 [1:18:40<17:04,  2.02it/s] 81%|████████  | 8620/10692 [1:18:41<17:03,  2.02it/s] 81%|████████  | 8621/10692 [1:18:41<17:02,  2.03it/s] 81%|████████  | 8622/10692 [1:18:42<17:01,  2.03it/s] 81%|████████  | 8623/10692 [1:18:42<17:01,  2.03it/s] 81%|████████  | 8624/10692 [1:18:43<17:00,  2.03it/s] 81%|████████  | 8625/10692 [1:18:43<17:01,  2.02it/s]                                                      {'loss': 3.5902, 'grad_norm': 0.20655299723148346, 'learning_rate': 0.00010960827545294233, 'epoch': 0.81}
+ 81%|████████  | 8625/10692 [1:18:43<17:01,  2.02it/s] 81%|████████  | 8626/10692 [1:18:44<17:01,  2.02it/s] 81%|████████  | 8627/10692 [1:18:44<16:59,  2.03it/s] 81%|████████  | 8628/10692 [1:18:45<16:59,  2.02it/s] 81%|████████  | 8629/10692 [1:18:45<16:57,  2.03it/s] 81%|████████  | 8630/10692 [1:18:46<16:59,  2.02it/s] 81%|████████  | 8631/10692 [1:18:46<16:57,  2.03it/s] 81%|████████  | 8632/10692 [1:18:47<16:58,  2.02it/s] 81%|████████  | 8633/10692 [1:18:47<16:56,  2.03it/s] 81%|████████  | 8634/10692 [1:18:48<16:57,  2.02it/s] 81%|████████  | 8635/10692 [1:18:48<16:57,  2.02it/s] 81%|████████  | 8636/10692 [1:18:49<16:57,  2.02it/s] 81%|████████  | 8637/10692 [1:18:49<16:56,  2.02it/s] 81%|████████  | 8638/10692 [1:18:50<16:56,  2.02it/s] 81%|████████  | 8639/10692 [1:18:50<16:54,  2.02it/s] 81%|████████  | 8640/10692 [1:18:50<16:54,  2.02it/s] 81%|████████  | 8641/10692 [1:18:51<16:52,  2.02it/s] 81%|████████  | 8642/10692 [1:18:51<16:52,  2.02it/s] 81%|████████  | 8643/10692 [1:18:52<16:53,  2.02it/s] 81%|████████  | 8644/10692 [1:18:52<16:52,  2.02it/s] 81%|████████  | 8645/10692 [1:18:53<16:52,  2.02it/s] 81%|████████  | 8646/10692 [1:18:53<16:52,  2.02it/s] 81%|████████  | 8647/10692 [1:18:54<16:51,  2.02it/s] 81%|████████  | 8648/10692 [1:18:54<16:51,  2.02it/s] 81%|████████  | 8649/10692 [1:18:55<16:50,  2.02it/s] 81%|████████  | 8650/10692 [1:18:55<16:50,  2.02it/s]{'loss': 3.5774, 'grad_norm': 0.19422337412834167, 'learning_rate': 0.00010707132906688971, 'epoch': 0.81}                                                      
+ 81%|████████  | 8650/10692 [1:18:55<16:50,  2.02it/s] 81%|████████  | 8651/10692 [1:18:56<16:51,  2.02it/s] 81%|████████  | 8652/10692 [1:18:56<16:51,  2.02it/s] 81%|████████  | 8653/10692 [1:18:57<16:49,  2.02it/s] 81%|████████  | 8654/10692 [1:18:57<16:49,  2.02it/s] 81%|████████  | 8655/10692 [1:18:58<16:48,  2.02it/s] 81%|████████  | 8656/10692 [1:18:58<16:46,  2.02it/s] 81%|████████  | 8657/10692 [1:18:59<16:46,  2.02it/s] 81%|████████  | 8658/10692 [1:18:59<16:46,  2.02it/s] 81%|████████  | 8659/10692 [1:19:00<16:46,  2.02it/s] 81%|████████  | 8660/10692 [1:19:00<16:47,  2.02it/s] 81%|████████  | 8661/10692 [1:19:01<16:47,  2.02it/s] 81%|████████  | 8662/10692 [1:19:01<16:46,  2.02it/s] 81%|████████  | 8663/10692 [1:19:02<16:45,  2.02it/s] 81%|████████  | 8664/10692 [1:19:02<16:43,  2.02it/s] 81%|████████  | 8665/10692 [1:19:03<16:43,  2.02it/s] 81%|████████  | 8666/10692 [1:19:03<16:42,  2.02it/s] 81%|████████  | 8667/10692 [1:19:04<16:43,  2.02it/s] 81%|████████  | 8668/10692 [1:19:04<16:41,  2.02it/s] 81%|████████  | 8669/10692 [1:19:05<16:41,  2.02it/s] 81%|████████  | 8670/10692 [1:19:05<16:39,  2.02it/s] 81%|████████  | 8671/10692 [1:19:06<16:38,  2.02it/s] 81%|████████  | 8672/10692 [1:19:06<16:38,  2.02it/s] 81%|████████  | 8673/10692 [1:19:07<16:37,  2.02it/s] 81%|████████  | 8674/10692 [1:19:07<16:36,  2.02it/s] 81%|████████  | 8675/10692 [1:19:08<16:36,  2.02it/s]{'loss': 3.5752, 'grad_norm': 0.19826632738113403, 'learning_rate': 0.0001045605621216299, 'epoch': 0.81}
+                                                       81%|████████  | 8675/10692 [1:19:08<16:36,  2.02it/s] 81%|████████  | 8676/10692 [1:19:08<16:38,  2.02it/s] 81%|████████  | 8677/10692 [1:19:09<16:37,  2.02it/s] 81%|████████  | 8678/10692 [1:19:09<16:36,  2.02it/s] 81%|████████  | 8679/10692 [1:19:10<16:36,  2.02it/s] 81%|████████  | 8680/10692 [1:19:10<16:35,  2.02it/s] 81%|████████  | 8681/10692 [1:19:11<16:35,  2.02it/s] 81%|████████  | 8682/10692 [1:19:11<16:34,  2.02it/s] 81%|████████  | 8683/10692 [1:19:12<16:34,  2.02it/s] 81%|████████  | 8684/10692 [1:19:12<16:33,  2.02it/s] 81%|████████  | 8685/10692 [1:19:13<16:32,  2.02it/s] 81%|████████  | 8686/10692 [1:19:13<16:32,  2.02it/s] 81%|████████  | 8687/10692 [1:19:14<16:32,  2.02it/s] 81%|████████▏ | 8688/10692 [1:19:14<16:30,  2.02it/s] 81%|████████▏ | 8689/10692 [1:19:15<16:30,  2.02it/s] 81%|████████▏ | 8690/10692 [1:19:15<16:29,  2.02it/s] 81%|████████▏ | 8691/10692 [1:19:16<16:28,  2.02it/s] 81%|████████▏ | 8692/10692 [1:19:16<16:29,  2.02it/s] 81%|████████▏ | 8693/10692 [1:19:17<16:28,  2.02it/s] 81%|████████▏ | 8694/10692 [1:19:17<16:29,  2.02it/s] 81%|████████▏ | 8695/10692 [1:19:18<16:28,  2.02it/s] 81%|████████▏ | 8696/10692 [1:19:18<16:28,  2.02it/s] 81%|████████▏ | 8697/10692 [1:19:19<16:27,  2.02it/s] 81%|████████▏ | 8698/10692 [1:19:19<16:27,  2.02it/s] 81%|████████▏ | 8699/10692 [1:19:20<16:26,  2.02it/s] 81%|████████▏ | 8700/10692 [1:19:20<16:25,  2.02it/s]{'loss': 3.5771, 'grad_norm': 0.19710879027843475, 'learning_rate': 0.00010207614190064063, 'epoch': 0.81}
+                                                       81%|████████▏ | 8700/10692 [1:19:20<16:25,  2.02it/s] 81%|████████▏ | 8701/10692 [1:19:21<16:26,  2.02it/s] 81%|████████▏ | 8702/10692 [1:19:21<16:25,  2.02it/s] 81%|████████▏ | 8703/10692 [1:19:22<16:25,  2.02it/s] 81%|████████▏ | 8704/10692 [1:19:22<16:23,  2.02it/s] 81%|████████▏ | 8705/10692 [1:19:23<16:24,  2.02it/s] 81%|████████▏ | 8706/10692 [1:19:23<16:23,  2.02it/s] 81%|████████▏ | 8707/10692 [1:19:24<16:23,  2.02it/s] 81%|████████▏ | 8708/10692 [1:19:24<16:21,  2.02it/s] 81%|████████▏ | 8709/10692 [1:19:25<16:22,  2.02it/s] 81%|████████▏ | 8710/10692 [1:19:25<16:19,  2.02it/s] 81%|████████▏ | 8711/10692 [1:19:26<16:19,  2.02it/s] 81%|████████▏ | 8712/10692 [1:19:26<16:18,  2.02it/s] 81%|████████▏ | 8713/10692 [1:19:27<16:17,  2.02it/s] 82%|████████▏ | 8714/10692 [1:19:27<16:17,  2.02it/s] 82%|████████▏ | 8715/10692 [1:19:28<16:18,  2.02it/s] 82%|████████▏ | 8716/10692 [1:19:28<16:17,  2.02it/s] 82%|████████▏ | 8717/10692 [1:19:29<16:17,  2.02it/s] 82%|████████▏ | 8718/10692 [1:19:29<16:16,  2.02it/s] 82%|████████▏ | 8719/10692 [1:19:30<16:15,  2.02it/s] 82%|████████▏ | 8720/10692 [1:19:30<16:15,  2.02it/s] 82%|████████▏ | 8721/10692 [1:19:31<16:16,  2.02it/s] 82%|████████▏ | 8722/10692 [1:19:31<16:15,  2.02it/s] 82%|████████▏ | 8723/10692 [1:19:32<16:15,  2.02it/s] 82%|████████▏ | 8724/10692 [1:19:32<16:15,  2.02it/s] 82%|████████▏ | 8725/10692 [1:19:33<16:15,  2.02it/s]{'loss': 3.5838, 'grad_norm': 0.19365771114826202, 'learning_rate': 9.961823393201098e-05, 'epoch': 0.82}
+                                                       82%|████████▏ | 8725/10692 [1:19:33<16:15,  2.02it/s] 82%|████████▏ | 8726/10692 [1:19:33<16:15,  2.01it/s] 82%|████████▏ | 8727/10692 [1:19:34<16:15,  2.02it/s] 82%|████████▏ | 8728/10692 [1:19:34<16:13,  2.02it/s] 82%|████████▏ | 8729/10692 [1:19:35<16:12,  2.02it/s] 82%|████████▏ | 8730/10692 [1:19:35<16:11,  2.02it/s] 82%|████████▏ | 8731/10692 [1:19:36<16:11,  2.02it/s] 82%|████████▏ | 8732/10692 [1:19:36<16:09,  2.02it/s] 82%|████████▏ | 8733/10692 [1:19:37<16:09,  2.02it/s] 82%|████████▏ | 8734/10692 [1:19:37<16:08,  2.02it/s] 82%|████████▏ | 8735/10692 [1:19:38<16:08,  2.02it/s] 82%|████████▏ | 8736/10692 [1:19:38<16:07,  2.02it/s] 82%|████████▏ | 8737/10692 [1:19:39<16:07,  2.02it/s] 82%|████████▏ | 8738/10692 [1:19:39<16:06,  2.02it/s] 82%|████████▏ | 8739/10692 [1:19:39<16:06,  2.02it/s] 82%|████████▏ | 8740/10692 [1:19:40<16:05,  2.02it/s] 82%|████████▏ | 8741/10692 [1:19:40<16:05,  2.02it/s] 82%|████████▏ | 8742/10692 [1:19:41<16:03,  2.02it/s] 82%|████████▏ | 8743/10692 [1:19:41<16:05,  2.02it/s] 82%|████████▏ | 8744/10692 [1:19:42<16:03,  2.02it/s] 82%|████████▏ | 8745/10692 [1:19:42<16:03,  2.02it/s] 82%|████████▏ | 8746/10692 [1:19:43<16:02,  2.02it/s] 82%|████████▏ | 8747/10692 [1:19:43<16:02,  2.02it/s] 82%|████████▏ | 8748/10692 [1:19:44<16:02,  2.02it/s] 82%|████████▏ | 8749/10692 [1:19:44<16:01,  2.02it/s] 82%|████████▏ | 8750/10692 [1:19:45<16:00,  2.02it/s]{'loss': 3.5756, 'grad_norm': 0.1960335075855255, 'learning_rate': 9.718700197741292e-05, 'epoch': 0.82}
+                                                       82%|████████▏ | 8750/10692 [1:19:45<16:00,  2.02it/s] 82%|████████▏ | 8751/10692 [1:19:45<16:01,  2.02it/s] 82%|████████▏ | 8752/10692 [1:19:46<16:00,  2.02it/s] 82%|████████▏ | 8753/10692 [1:19:46<15:59,  2.02it/s] 82%|████████▏ | 8754/10692 [1:19:47<15:59,  2.02it/s] 82%|████████▏ | 8755/10692 [1:19:47<15:58,  2.02it/s] 82%|████████▏ | 8756/10692 [1:19:48<15:58,  2.02it/s] 82%|████████▏ | 8757/10692 [1:19:48<15:57,  2.02it/s] 82%|████████▏ | 8758/10692 [1:19:49<15:57,  2.02it/s] 82%|████████▏ | 8759/10692 [1:19:49<15:56,  2.02it/s] 82%|████████▏ | 8760/10692 [1:19:50<15:56,  2.02it/s] 82%|████████▏ | 8761/10692 [1:19:50<15:54,  2.02it/s] 82%|████████▏ | 8762/10692 [1:19:51<15:54,  2.02it/s] 82%|██████���█▏ | 8763/10692 [1:19:51<15:53,  2.02it/s] 82%|████████▏ | 8764/10692 [1:19:52<15:53,  2.02it/s] 82%|████████▏ | 8765/10692 [1:19:52<15:53,  2.02it/s] 82%|████████▏ | 8766/10692 [1:19:53<15:53,  2.02it/s] 82%|████████▏ | 8767/10692 [1:19:53<15:53,  2.02it/s] 82%|████████▏ | 8768/10692 [1:19:54<15:52,  2.02it/s] 82%|████████▏ | 8769/10692 [1:19:54<15:51,  2.02it/s] 82%|████████▏ | 8770/10692 [1:19:55<15:52,  2.02it/s] 82%|████████▏ | 8771/10692 [1:19:55<15:50,  2.02it/s] 82%|████████▏ | 8772/10692 [1:19:56<15:50,  2.02it/s] 82%|████████▏ | 8773/10692 [1:19:56<15:48,  2.02it/s] 82%|████████▏ | 8774/10692 [1:19:57<15:49,  2.02it/s] 82%|████████▏ | 8775/10692 [1:19:57<15:48,  2.02it/s]{'loss': 3.5793, 'grad_norm': 0.2025727778673172, 'learning_rate': 9.478260802119065e-05, 'epoch': 0.82}
+                                                       82%|████████▏ | 8775/10692 [1:19:57<15:48,  2.02it/s] 82%|████████▏ | 8776/10692 [1:19:58<15:49,  2.02it/s] 82%|████████▏ | 8777/10692 [1:19:58<15:48,  2.02it/s] 82%|████████▏ | 8778/10692 [1:19:59<15:47,  2.02it/s] 82%|████████▏ | 8779/10692 [1:19:59<15:46,  2.02it/s] 82%|████████▏ | 8780/10692 [1:20:00<15:46,  2.02it/s] 82%|████████▏ | 8781/10692 [1:20:00<15:46,  2.02it/s] 82%|████████▏ | 8782/10692 [1:20:01<15:47,  2.02it/s] 82%|████████▏ | 8783/10692 [1:20:01<15:45,  2.02it/s] 82%|████████▏ | 8784/10692 [1:20:02<15:44,  2.02it/s] 82%|████████▏ | 8785/10692 [1:20:02<15:43,  2.02it/s] 82%|████████▏ | 8786/10692 [1:20:03<15:42,  2.02it/s] 82%|████████▏ | 8787/10692 [1:20:03<15:42,  2.02it/s] 82%|████████▏ | 8788/10692 [1:20:04<15:41,  2.02it/s] 82%|████████▏ | 8789/10692 [1:20:04<15:41,  2.02it/s] 82%|████████▏ | 8790/10692 [1:20:05<15:40,  2.02it/s] 82%|████████▏ | 8791/10692 [1:20:05<15:39,  2.02it/s] 82%|████████▏ | 8792/10692 [1:20:06<15:40,  2.02it/s] 82%|████████▏ | 8793/10692 [1:20:06<15:39,  2.02it/s] 82%|████████▏ | 8794/10692 [1:20:07<15:40,  2.02it/s] 82%|████████▏ | 8795/10692 [1:20:07<15:39,  2.02it/s] 82%|████████▏ | 8796/10692 [1:20:08<15:39,  2.02it/s] 82%|████████▏ | 8797/10692 [1:20:08<15:38,  2.02it/s] 82%|████████▏ | 8798/10692 [1:20:09<15:38,  2.02it/s] 82%|████████▏ | 8799/10692 [1:20:09<15:36,  2.02it/s] 82%|████████▏ | 8800/10692 [1:20:10<15:36,  2.02it/s]{'loss': 3.575, 'grad_norm': 0.19450590014457703, 'learning_rate': 9.240521225956772e-05, 'epoch': 0.82}
+                                                       82%|████████▏ | 8800/10692 [1:20:10<15:36,  2.02it/s] 82%|████████▏ | 8801/10692 [1:20:10<15:37,  2.02it/s] 82%|████████▏ | 8802/10692 [1:20:11<15:36,  2.02it/s] 82%|████████▏ | 8803/10692 [1:20:11<15:35,  2.02it/s] 82%|████████▏ | 8804/10692 [1:20:12<15:35,  2.02it/s] 82%|████████▏ | 8805/10692 [1:20:12<15:33,  2.02it/s] 82%|████████▏ | 8806/10692 [1:20:13<15:33,  2.02it/s] 82%|████████▏ | 8807/10692 [1:20:13<15:32,  2.02it/s] 82%|████████▏ | 8808/10692 [1:20:14<15:31,  2.02it/s] 82%|████████▏ | 8809/10692 [1:20:14<15:32,  2.02it/s] 82%|████████▏ | 8810/10692 [1:20:15<15:29,  2.02it/s] 82%|████████▏ | 8811/10692 [1:20:15<15:29,  2.02it/s] 82%|████████▏ | 8812/10692 [1:20:16<15:28,  2.02it/s] 82%|████████▏ | 8813/10692 [1:20:16<15:28,  2.02it/s] 82%|████████▏ | 8814/10692 [1:20:17<15:29,  2.02it/s] 82%|████████▏ | 8815/10692 [1:20:17<15:27,  2.02it/s] 82%|████████▏ | 8816/10692 [1:20:18<15:28,  2.02it/s] 82%|████████▏ | 8817/10692 [1:20:18<15:27,  2.02it/s] 82%|████████▏ | 8818/10692 [1:20:19<15:27,  2.02it/s] 82%|████████▏ | 8819/10692 [1:20:19<15:26,  2.02it/s] 82%|████████▏ | 8820/10692 [1:20:20<15:25,  2.02it/s] 83%|████████▎ | 8821/10692 [1:20:20<15:24,  2.02it/s] 83%|████████▎ | 8822/10692 [1:20:21<15:24,  2.02it/s] 83%|████████▎ | 8823/10692 [1:20:21<15:24,  2.02it/s] 83%|████████▎ | 8824/10692 [1:20:22<15:25,  2.02it/s] 83%|████████▎ | 8825/10692 [1:20:22<15:23,  2.02it/s]{'loss': 3.5764, 'grad_norm': 0.20234400033950806, 'learning_rate': 9.00549730899739e-05, 'epoch': 0.83}                                                      
+ 83%|████████▎ | 8825/10692 [1:20:22<15:23,  2.02it/s] 83%|████████▎ | 8826/10692 [1:20:23<15:25,  2.02it/s] 83%|████████▎ | 8827/10692 [1:20:23<15:24,  2.02it/s] 83%|████████▎ | 8828/10692 [1:20:24<15:23,  2.02it/s] 83%|████████▎ | 8829/10692 [1:20:24<15:21,  2.02it/s] 83%|████████▎ | 8830/10692 [1:20:25<15:21,  2.02it/s] 83%|████████▎ | 8831/10692 [1:20:25<15:20,  2.02it/s] 83%|████████▎ | 8832/10692 [1:20:26<15:19,  2.02it/s] 83%|████████▎ | 8833/10692 [1:20:26<15:18,  2.02it/s] 83%|████████▎ | 8834/10692 [1:20:27<15:19,  2.02it/s] 83%|████████▎ | 8835/10692 [1:20:27<15:17,  2.02it/s] 83%|████████▎ | 8836/10692 [1:20:27<15:18,  2.02it/s] 83%|████████▎ | 8837/10692 [1:20:28<15:17,  2.02it/s] 83%|████████▎ | 8838/10692 [1:20:28<15:17,  2.02it/s] 83%|████████▎ | 8839/10692 [1:20:29<15:16,  2.02it/s] 83%|████████▎ | 8840/10692 [1:20:29<15:16,  2.02it/s] 83%|████████▎ | 8841/10692 [1:20:30<15:15,  2.02it/s] 83%|████████▎ | 8842/10692 [1:20:30<15:17,  2.02it/s] 83%|████████▎ | 8843/10692 [1:20:31<15:17,  2.01it/s] 83%|████████▎ | 8844/10692 [1:20:31<15:16,  2.02it/s] 83%|████████▎ | 8845/10692 [1:20:32<15:15,  2.02it/s] 83%|████████▎ | 8846/10692 [1:20:32<15:13,  2.02it/s] 83%|████████▎ | 8847/10692 [1:20:33<15:13,  2.02it/s] 83%|████████▎ | 8848/10692 [1:20:33<15:12,  2.02it/s] 83%|████████▎ | 8849/10692 [1:20:34<15:11,  2.02it/s] 83%|████████▎ | 8850/10692 [1:20:34<15:10,  2.02it/s]{'loss': 3.584, 'grad_norm': 0.18958823382854462, 'learning_rate': 8.773204710049188e-05, 'epoch': 0.83}
+                                                       83%|████████▎ | 8850/10692 [1:20:34<15:10,  2.02it/s] 83%|████████▎ | 8851/10692 [1:20:35<15:10,  2.02it/s] 83%|████████▎ | 8852/10692 [1:20:35<15:10,  2.02it/s] 83%|████████▎ | 8853/10692 [1:20:36<15:08,  2.02it/s] 83%|████████▎ | 8854/10692 [1:20:36<15:08,  2.02it/s] 83%|████████▎ | 8855/10692 [1:20:37<15:06,  2.03it/s] 83%|████████▎ | 8856/10692 [1:20:37<15:06,  2.03it/s] 83%|████████▎ | 8857/10692 [1:20:38<15:06,  2.02it/s] 83%|████████▎ | 8858/10692 [1:20:38<15:06,  2.02it/s] 83%|████████▎ | 8859/10692 [1:20:39<15:05,  2.02it/s] 83%|████████▎ | 8860/10692 [1:20:39<15:05,  2.02it/s] 83%|████████▎ | 8861/10692 [1:20:40<15:04,  2.02it/s] 83%|████████▎ | 8862/10692 [1:20:40<15:04,  2.02it/s] 83%|████████▎ | 8863/10692 [1:20:41<15:03,  2.02it/s] 83%|████████▎ | 8864/10692 [1:20:41<15:02,  2.02it/s] 83%|████████▎ | 8865/10692 [1:20:42<15:02,  2.02it/s] 83%|████████▎ | 8866/10692 [1:20:42<15:01,  2.02it/s] 83%|████████▎ | 8867/10692 [1:20:43<15:02,  2.02it/s] 83%|████████▎ | 8868/10692 [1:20:43<15:00,  2.02it/s] 83%|████████▎ | 8869/10692 [1:20:44<15:01,  2.02it/s] 83%|████████▎ | 8870/10692 [1:20:44<14:59,  2.02it/s] 83%|████████▎ | 8871/10692 [1:20:45<15:00,  2.02it/s] 83%|████████▎ | 8872/10692 [1:20:45<14:59,  2.02it/s] 83%|████████▎ | 8873/10692 [1:20:46<14:59,  2.02it/s] 83%|████████▎ | 8874/10692 [1:20:46<14:58,  2.02it/s] 83%|████████▎ | 8875/10692 [1:20:47<14:57,  2.02it/s]                                                      {'loss': 3.5797, 'grad_norm': 0.19573228061199188, 'learning_rate': 8.543658905942403e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8875/10692 [1:20:47<14:57,  2.02it/s] 83%|████████▎ | 8876/10692 [1:20:47<14:59,  2.02it/s] 83%|████████▎ | 8877/10692 [1:20:48<14:59,  2.02it/s] 83%|████████▎ | 8878/10692 [1:20:48<14:58,  2.02it/s] 83%|████████▎ | 8879/10692 [1:20:49<14:56,  2.02it/s] 83%|████████▎ | 8880/10692 [1:20:49<14:56,  2.02it/s] 83%|████████▎ | 8881/10692 [1:20:50<14:55,  2.02it/s] 83%|████████▎ | 8882/10692 [1:20:50<14:55,  2.02it/s] 83%|████████▎ | 8883/10692 [1:20:51<14:54,  2.02it/s] 83%|████████▎ | 8884/10692 [1:20:51<14:54,  2.02it/s] 83%|████████▎ | 8885/10692 [1:20:52<14:53,  2.02it/s] 83%|████████▎ | 8886/10692 [1:20:52<14:53,  2.02it/s] 83%|████████▎ | 8887/10692 [1:20:53<14:52,  2.02it/s] 83%|████████▎ | 8888/10692 [1:20:53<14:50,  2.02it/s] 83%|████████▎ | 8889/10692 [1:20:54<14:51,  2.02it/s] 83%|████████▎ | 8890/10692 [1:20:54<14:49,  2.03it/s] 83%|████████▎ | 8891/10692 [1:20:55<14:49,  2.02it/s] 83%|████████▎ | 8892/10692 [1:20:55<14:49,  2.02it/s] 83%|████████▎ | 8893/10692 [1:20:56<14:48,  2.02it/s] 83%|████████▎ | 8894/10692 [1:20:56<14:49,  2.02it/s] 83%|████████▎ | 8895/10692 [1:20:57<14:48,  2.02it/s] 83%|████████▎ | 8896/10692 [1:20:57<14:48,  2.02it/s] 83%|████████▎ | 8897/10692 [1:20:58<14:46,  2.02it/s] 83%|████████▎ | 8898/10692 [1:20:58<14:47,  2.02it/s] 83%|████████▎ | 8899/10692 [1:20:59<14:46,  2.02it/s] 83%|████████▎ | 8900/10692 [1:20:59<14:46,  2.02it/s]{'loss': 3.5771, 'grad_norm': 0.19992980360984802, 'learning_rate': 8.316875190498119e-05, 'epoch': 0.83}
+                                                       83%|████████▎ | 8900/10692 [1:20:59<14:46,  2.02it/s] 83%|████████▎ | 8901/10692 [1:21:00<14:46,  2.02it/s] 83%|████████▎ | 8902/10692 [1:21:00<14:46,  2.02it/s] 83%|████████▎ | 8903/10692 [1:21:01<14:48,  2.01it/s] 83%|████████▎ | 8904/10692 [1:21:01<14:46,  2.02it/s] 83%|████████▎ | 8905/10692 [1:21:02<14:46,  2.02it/s] 83%|████████▎ | 8906/10692 [1:21:02<14:44,  2.02it/s] 83%|████████▎ | 8907/10692 [1:21:03<14:44,  2.02it/s] 83%|████████▎ | 8908/10692 [1:21:03<14:42,  2.02it/s] 83%|████████▎ | 8909/10692 [1:21:04<14:42,  2.02it/s] 83%|████████▎ | 8910/10692 [1:21:04<14:41,  2.02it/s] 83%|████████▎ | 8911/10692 [1:21:05<14:41,  2.02it/s] 83%|████████▎ | 8912/10692 [1:21:05<14:40,  2.02it/s] 83%|████████▎ | 8913/10692 [1:21:06<14:40,  2.02it/s] 83%|████████▎ | 8914/10692 [1:21:06<14:39,  2.02it/s] 83%|████████▎ | 8915/10692 [1:21:07<14:39,  2.02it/s] 83%|████████▎ | 8916/10692 [1:21:07<14:39,  2.02it/s] 83%|████████▎ | 8917/10692 [1:21:08<14:38,  2.02it/s] 83%|████████▎ | 8918/10692 [1:21:08<14:37,  2.02it/s] 83%|████████▎ | 8919/10692 [1:21:09<14:37,  2.02it/s] 83%|████████▎ | 8920/10692 [1:21:09<14:36,  2.02it/s] 83%|████████▎ | 8921/10692 [1:21:10<14:36,  2.02it/s] 83%|████████▎ | 8922/10692 [1:21:10<14:35,  2.02it/s] 83%|████████▎ | 8923/10692 [1:21:11<14:35,  2.02it/s] 83%|████████▎ | 8924/10692 [1:21:11<14:34,  2.02it/s] 83%|████████▎ | 8925/10692 [1:21:12<14:34,  2.02it/s]                                                      {'loss': 3.5811, 'grad_norm': 0.20050281286239624, 'learning_rate': 8.092868673509257e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8925/10692 [1:21:12<14:34,  2.02it/s] 83%|████████▎ | 8926/10692 [1:21:12<14:35,  2.02it/s] 83%|████████▎ | 8927/10692 [1:21:13<14:34,  2.02it/s] 84%|████████▎ | 8928/10692 [1:21:13<14:34,  2.02it/s] 84%|████████▎ | 8929/10692 [1:21:14<14:34,  2.02it/s] 84%|████████▎ | 8930/10692 [1:21:14<14:32,  2.02it/s] 84%|████████▎ | 8931/10692 [1:21:14<14:32,  2.02it/s] 84%|████████▎ | 8932/10692 [1:21:15<14:32,  2.02it/s] 84%|████████▎ | 8933/10692 [1:21:15<14:32,  2.02it/s] 84%|████████▎ | 8934/10692 [1:21:16<14:30,  2.02it/s] 84%|████████▎ | 8935/10692 [1:21:16<14:31,  2.02it/s] 84%|████████▎ | 8936/10692 [1:21:17<14:29,  2.02it/s] 84%|████████▎ | 8937/10692 [1:21:18<16:50,  1.74it/s] 84%|████████▎ | 8938/10692 [1:21:18<16:06,  1.81it/s] 84%|████████▎ | 8939/10692 [1:21:19<15:36,  1.87it/s] 84%|████████▎ | 8940/10692 [1:21:19<15:14,  1.91it/s] 84%|████████▎ | 8941/10692 [1:21:20<15:01,  1.94it/s] 84%|████████▎ | 8942/10692 [1:21:20<14:49,  1.97it/s] 84%|████████▎ | 8943/10692 [1:21:21<14:41,  1.98it/s] 84%|████████▎ | 8944/10692 [1:21:21<14:37,  1.99it/s] 84%|████████▎ | 8945/10692 [1:21:22<14:32,  2.00it/s] 84%|████████▎ | 8946/10692 [1:21:22<14:30,  2.01it/s] 84%|████████▎ | 8947/10692 [1:21:23<14:27,  2.01it/s] 84%|████████▎ | 8948/10692 [1:21:23<14:26,  2.01it/s] 84%|████████▎ | 8949/10692 [1:21:24<14:24,  2.02it/s] 84%|████████▎ | 8950/10692 [1:21:24<14:22,  2.02it/s]{'loss': 3.5767, 'grad_norm': 0.19767799973487854, 'learning_rate': 7.871654279733881e-05, 'epoch': 0.84}
+                                                       84%|████████▎ | 8950/10692 [1:21:24<14:22,  2.02it/s] 84%|████████▎ | 8951/10692 [1:21:25<14:23,  2.02it/s] 84%|████████▎ | 8952/10692 [1:21:25<14:20,  2.02it/s] 84%|████████▎ | 8953/10692 [1:21:26<14:21,  2.02it/s] 84%|████████▎ | 8954/10692 [1:21:26<14:19,  2.02it/s] 84%|████████▍ | 8955/10692 [1:21:27<14:19,  2.02it/s] 84%|████████▍ | 8956/10692 [1:21:27<14:18,  2.02it/s] 84%|████████▍ | 8957/10692 [1:21:28<14:18,  2.02it/s] 84%|████████▍ | 8958/10692 [1:21:28<14:17,  2.02it/s] 84%|████████▍ | 8959/10692 [1:21:29<14:18,  2.02it/s] 84%|████████▍ | 8960/10692 [1:21:29<14:16,  2.02it/s] 84%|████████▍ | 8961/10692 [1:21:30<14:16,  2.02it/s] 84%|████████▍ | 8962/10692 [1:21:30<14:15,  2.02it/s] 84%|████████▍ | 8963/10692 [1:21:31<14:17,  2.02it/s] 84%|████████▍ | 8964/10692 [1:21:31<14:17,  2.01it/s] 84%|████████▍ | 8965/10692 [1:21:32<14:15,  2.02it/s] 84%|████████▍ | 8966/10692 [1:21:32<14:15,  2.02it/s] 84%|████████▍ | 8967/10692 [1:21:33<14:13,  2.02it/s] 84%|████████▍ | 8968/10692 [1:21:33<14:13,  2.02it/s] 84%|████████▍ | 8969/10692 [1:21:34<14:12,  2.02it/s] 84%|████████▍ | 8970/10692 [1:21:34<14:11,  2.02it/s] 84%|████████▍ | 8971/10692 [1:21:35<14:10,  2.02it/s] 84%|████████▍ | 8972/10692 [1:21:35<14:09,  2.02it/s] 84%|████████▍ | 8973/10692 [1:21:36<14:10,  2.02it/s] 84%|████████▍ | 8974/10692 [1:21:36<16:26,  1.74it/s] 84%|████████▍ | 8975/10692 [1:21:37<15:44,  1.82it/s]{'loss': 3.577, 'grad_norm': 0.20241843163967133, 'learning_rate': 7.653246747900794e-05, 'epoch': 0.84}
+                                                       84%|████████▍ | 8975/10692 [1:21:37<15:44,  1.82it/s] 84%|████████▍ | 8976/10692 [1:21:37<15:17,  1.87it/s] 84%|████████▍ | 8977/10692 [1:21:38<14:55,  1.91it/s] 84%|████████▍ | 8978/10692 [1:21:38<14:41,  1.94it/s] 84%|████████▍ | 8979/10692 [1:21:39<14:30,  1.97it/s] 84%|████████▍ | 8980/10692 [1:21:39<14:23,  1.98it/s] 84%|████████▍ | 8981/10692 [1:21:40<14:17,  2.00it/s] 84%|████████▍ | 8982/10692 [1:21:40<14:13,  2.00it/s] 84%|████████▍ | 8983/10692 [1:21:41<14:10,  2.01it/s] 84%|████████▍ | 8984/10692 [1:21:41<14:07,  2.01it/s] 84%|████████▍ | 8985/10692 [1:21:42<14:06,  2.02it/s] 84%|████████▍ | 8986/10692 [1:21:42<14:04,  2.02it/s] 84%|████████▍ | 8987/10692 [1:21:43<14:04,  2.02it/s] 84%|████████▍ | 8988/10692 [1:21:43<14:03,  2.02it/s] 84%|████████▍ | 8989/10692 [1:21:44<14:03,  2.02it/s] 84%|████████▍ | 8990/10692 [1:21:44<14:01,  2.02it/s] 84%|████████▍ | 8991/10692 [1:21:45<14:01,  2.02it/s] 84%|████████▍ | 8992/10692 [1:21:45<14:00,  2.02it/s] 84%|████████▍ | 8993/10692 [1:21:46<14:00,  2.02it/s] 84%|████████▍ | 8994/10692 [1:21:46<13:59,  2.02it/s] 84%|████████▍ | 8995/10692 [1:21:47<13:59,  2.02it/s] 84%|████████▍ | 8996/10692 [1:21:47<13:58,  2.02it/s] 84%|████████▍ | 8997/10692 [1:21:48<13:57,  2.02it/s] 84%|████████▍ | 8998/10692 [1:21:48<13:56,  2.02it/s] 84%|████████▍ | 8999/10692 [1:21:49<13:55,  2.03it/s] 84%|████████▍ | 9000/10692 [1:21:49<13:55,  2.03it/s]{'loss': 3.5682, 'grad_norm': 0.19249381124973297, 'learning_rate': 7.437660629727589e-05, 'epoch': 0.84}
+                                                       84%|████████▍ | 9000/10692 [1:21:49<13:55,  2.03it/s] 84%|████████▍ | 9001/10692 [1:21:50<13:56,  2.02it/s] 84%|████████▍ | 9002/10692 [1:21:50<13:56,  2.02it/s] 84%|████████▍ | 9003/10692 [1:21:51<13:54,  2.02it/s] 84%|████████▍ | 9004/10692 [1:21:51<13:54,  2.02it/s] 84%|████████▍ | 9005/10692 [1:21:52<13:54,  2.02it/s] 84%|████████▍ | 9006/10692 [1:21:52<13:53,  2.02it/s] 84%|████████▍ | 9007/10692 [1:21:53<13:52,  2.02it/s] 84%|████████▍ | 9008/10692 [1:21:53<13:52,  2.02it/s] 84%|████████▍ | 9009/10692 [1:21:54<13:51,  2.02it/s] 84%|████████▍ | 9010/10692 [1:21:54<13:51,  2.02it/s] 84%|████████▍ | 9011/10692 [1:21:55<13:50,  2.02it/s] 84%|████████▍ | 9012/10692 [1:21:55<13:49,  2.02it/s] 84%|████████▍ | 9013/10692 [1:21:56<13:49,  2.02it/s] 84%|████████▍ | 9014/10692 [1:21:56<13:49,  2.02it/s] 84%|████████▍ | 9015/10692 [1:21:57<13:49,  2.02it/s] 84%|████████▍ | 9016/10692 [1:21:57<13:48,  2.02it/s] 84%|████████▍ | 9017/10692 [1:21:58<13:48,  2.02it/s] 84%|████████▍ | 9018/10692 [1:21:58<13:47,  2.02it/s] 84%|████████▍ | 9019/10692 [1:21:59<13:47,  2.02it/s] 84%|████████▍ | 9020/10692 [1:21:59<13:46,  2.02it/s] 84%|████████▍ | 9021/10692 [1:22:00<13:45,  2.02it/s] 84%|████████▍ | 9022/10692 [1:22:00<13:45,  2.02it/s] 84%|████████▍ | 9023/10692 [1:22:01<13:46,  2.02it/s] 84%|████████▍ | 9024/10692 [1:22:01<13:47,  2.02it/s] 84%|████████▍ | 9025/10692 [1:22:02<13:46,  2.02it/s]{'loss': 3.5742, 'grad_norm': 0.19329224526882172, 'learning_rate': 7.224910288951058e-05, 'epoch': 0.84}
+                                                       84%|████████▍ | 9025/10692 [1:22:02<13:46,  2.02it/s] 84%|████████▍ | 9026/10692 [1:22:02<13:46,  2.02it/s] 84%|████████▍ | 9027/10692 [1:22:03<13:45,  2.02it/s] 84%|████████▍ | 9028/10692 [1:22:03<13:43,  2.02it/s] 84%|████████▍ | 9029/10692 [1:22:04<13:43,  2.02it/s] 84%|████████▍ | 9030/10692 [1:22:04<13:42,  2.02it/s] 84%|████████▍ | 9031/10692 [1:22:05<13:41,  2.02it/s] 84%|████████▍ | 9032/10692 [1:22:05<13:41,  2.02it/s] 84%|████████▍ | 9033/10692 [1:22:05<13:41,  2.02it/s] 84%|████████▍ | 9034/10692 [1:22:06<13:41,  2.02it/s] 85%|████████▍ | 9035/10692 [1:22:06<13:39,  2.02it/s] 85%|████████▍ | 9036/10692 [1:22:07<13:39,  2.02it/s] 85%|████████▍ | 9037/10692 [1:22:07<13:38,  2.02it/s] 85%|████████▍ | 9038/10692 [1:22:08<13:38,  2.02it/s] 85%|████████▍ | 9039/10692 [1:22:08<13:38,  2.02it/s] 85%|████████▍ | 9040/10692 [1:22:09<13:37,  2.02it/s] 85%|████████▍ | 9041/10692 [1:22:09<13:37,  2.02it/s] 85%|████████▍ | 9042/10692 [1:22:10<13:36,  2.02it/s] 85%|████████▍ | 9043/10692 [1:22:10<13:35,  2.02it/s] 85%|████████▍ | 9044/10692 [1:22:11<13:35,  2.02it/s] 85%|████████▍ | 9045/10692 [1:22:11<13:34,  2.02it/s] 85%|████████▍ | 9046/10692 [1:22:12<13:34,  2.02it/s] 85%|████████▍ | 9047/10692 [1:22:12<13:33,  2.02it/s] 85%|████████▍ | 9048/10692 [1:22:13<13:33,  2.02it/s] 85%|████████▍ | 9049/10692 [1:22:13<13:32,  2.02it/s] 85%|████████▍ | 9050/10692 [1:22:14<13:32,  2.02it/s]{'loss': 3.5751, 'grad_norm': 0.1897251158952713, 'learning_rate': 7.015009900370284e-05, 'epoch': 0.85}
+                                                       85%|████████▍ | 9050/10692 [1:22:14<13:32,  2.02it/s] 85%|████████▍ | 9051/10692 [1:22:14<13:32,  2.02it/s] 85%|████████▍ | 9052/10692 [1:22:15<13:32,  2.02it/s] 85%|████████▍ | 9053/10692 [1:22:15<13:30,  2.02it/s] 85%|████████▍ | 9054/10692 [1:22:16<13:31,  2.02it/s] 85%|████████▍ | 9055/10692 [1:22:16<13:30,  2.02it/s] 85%|████████▍ | 9056/10692 [1:22:17<13:29,  2.02it/s] 85%|████████▍ | 9057/10692 [1:22:17<13:28,  2.02it/s] 85%|████████▍ | 9058/10692 [1:22:18<13:28,  2.02it/s] 85%|████████▍ | 9059/10692 [1:22:18<13:27,  2.02it/s] 85%|████████▍ | 9060/10692 [1:22:19<13:27,  2.02it/s] 85%|████████▍ | 9061/10692 [1:22:19<13:25,  2.02it/s] 85%|████████▍ | 9062/10692 [1:22:20<13:26,  2.02it/s] 85%|████████▍ | 9063/10692 [1:22:20<13:25,  2.02it/s] 85%|████████▍ | 9064/10692 [1:22:21<13:23,  2.03it/s] 85%|████████▍ | 9065/10692 [1:22:21<13:23,  2.02it/s] 85%|████████▍ | 9066/10692 [1:22:22<13:23,  2.02it/s] 85%|████████▍ | 9067/10692 [1:22:22<13:23,  2.02it/s] 85%|████████▍ | 9068/10692 [1:22:23<13:21,  2.03it/s] 85%|████████▍ | 9069/10692 [1:22:23<13:22,  2.02it/s] 85%|████████▍ | 9070/10692 [1:22:24<13:21,  2.02it/s] 85%|████████▍ | 9071/10692 [1:22:24<13:21,  2.02it/s] 85%|████████▍ | 9072/10692 [1:22:25<13:20,  2.02it/s] 85%|████████▍ | 9073/10692 [1:22:25<13:20,  2.02it/s] 85%|████████▍ | 9074/10692 [1:22:26<13:20,  2.02it/s] 85%|█████��██▍ | 9075/10692 [1:22:26<13:19,  2.02it/s]{'loss': 3.5769, 'grad_norm': 0.19499586522579193, 'learning_rate': 6.807973448902105e-05, 'epoch': 0.85}
+                                                       85%|████████▍ | 9075/10692 [1:22:26<13:19,  2.02it/s] 85%|████████▍ | 9076/10692 [1:22:27<13:20,  2.02it/s] 85%|████████▍ | 9077/10692 [1:22:27<13:20,  2.02it/s] 85%|████████▍ | 9078/10692 [1:22:28<13:19,  2.02it/s] 85%|████████▍ | 9079/10692 [1:22:28<13:17,  2.02it/s] 85%|████████▍ | 9080/10692 [1:22:29<13:17,  2.02it/s] 85%|████████▍ | 9081/10692 [1:22:29<13:16,  2.02it/s] 85%|████████▍ | 9082/10692 [1:22:30<13:16,  2.02it/s] 85%|████████▍ | 9083/10692 [1:22:30<13:16,  2.02it/s] 85%|████████▍ | 9084/10692 [1:22:31<13:17,  2.02it/s] 85%|████████▍ | 9085/10692 [1:22:31<13:16,  2.02it/s] 85%|████████▍ | 9086/10692 [1:22:32<13:16,  2.02it/s] 85%|████████▍ | 9087/10692 [1:22:32<13:14,  2.02it/s] 85%|████████▍ | 9088/10692 [1:22:33<13:13,  2.02it/s] 85%|████████▌ | 9089/10692 [1:22:33<13:12,  2.02it/s] 85%|████████▌ | 9090/10692 [1:22:34<13:11,  2.02it/s] 85%|████████▌ | 9091/10692 [1:22:34<13:12,  2.02it/s] 85%|████████▌ | 9092/10692 [1:22:35<13:11,  2.02it/s] 85%|████████▌ | 9093/10692 [1:22:35<13:11,  2.02it/s] 85%|████████▌ | 9094/10692 [1:22:36<13:10,  2.02it/s] 85%|████████▌ | 9095/10692 [1:22:36<13:10,  2.02it/s] 85%|████████▌ | 9096/10692 [1:22:37<13:10,  2.02it/s] 85%|████████▌ | 9097/10692 [1:22:37<13:09,  2.02it/s] 85%|████████▌ | 9098/10692 [1:22:38<13:09,  2.02it/s] 85%|████████▌ | 9099/10692 [1:22:38<13:08,  2.02it/s] 85%|████████▌ | 9100/10692 [1:22:39<13:07,  2.02it/s]{'loss': 3.575, 'grad_norm': 0.1880614310503006, 'learning_rate': 6.60381472864942e-05, 'epoch': 0.85}
+                                                       85%|████████▌ | 9100/10692 [1:22:39<13:07,  2.02it/s] 85%|████████▌ | 9101/10692 [1:22:39<13:08,  2.02it/s] 85%|████████▌ | 9102/10692 [1:22:40<13:07,  2.02it/s] 85%|████████▌ | 9103/10692 [1:22:40<13:07,  2.02it/s] 85%|████████▌ | 9104/10692 [1:22:41<13:05,  2.02it/s] 85%|████████▌ | 9105/10692 [1:22:41<13:05,  2.02it/s] 85%|████████▌ | 9106/10692 [1:22:42<13:04,  2.02it/s] 85%|████████▌ | 9107/10692 [1:22:42<13:04,  2.02it/s] 85%|████████▌ | 9108/10692 [1:22:43<13:03,  2.02it/s] 85%|████████▌ | 9109/10692 [1:22:43<13:03,  2.02it/s] 85%|████████▌ | 9110/10692 [1:22:44<13:01,  2.02it/s] 85%|████████▌ | 9111/10692 [1:22:44<13:02,  2.02it/s] 85%|████████▌ | 9112/10692 [1:22:45<13:01,  2.02it/s] 85%|████████▌ | 9113/10692 [1:22:45<13:01,  2.02it/s] 85%|████████▌ | 9114/10692 [1:22:46<13:00,  2.02it/s] 85%|████████▌ | 9115/10692 [1:22:46<13:00,  2.02it/s] 85%|████████▌ | 9116/10692 [1:22:47<13:00,  2.02it/s] 85%|████████▌ | 9117/10692 [1:22:47<12:59,  2.02it/s] 85%|████████▌ | 9118/10692 [1:22:48<12:58,  2.02it/s] 85%|████████▌ | 9119/10692 [1:22:48<12:58,  2.02it/s] 85%|████████▌ | 9120/10692 [1:22:49<12:57,  2.02it/s] 85%|████████▌ | 9121/10692 [1:22:49<12:57,  2.02it/s] 85%|████████▌ | 9122/10692 [1:22:50<12:55,  2.02it/s] 85%|████████▌ | 9123/10692 [1:22:50<12:56,  2.02it/s] 85%|████████▌ | 9124/10692 [1:22:51<12:54,  2.02it/s] 85%|████████▌ | 9125/10692 [1:22:51<12:54,  2.02it/s]{'loss': 3.5695, 'grad_norm': 0.19226403534412384, 'learning_rate': 6.402547341982163e-05, 'epoch': 0.85}
+                                                       85%|████████▌ | 9125/10692 [1:22:51<12:54,  2.02it/s] 85%|████████▌ | 9126/10692 [1:22:52<12:55,  2.02it/s] 85%|████████▌ | 9127/10692 [1:22:52<12:55,  2.02it/s] 85%|████████▌ | 9128/10692 [1:22:52<12:53,  2.02it/s] 85%|████████▌ | 9129/10692 [1:22:53<12:53,  2.02it/s] 85%|████████▌ | 9130/10692 [1:22:53<12:52,  2.02it/s] 85%|████████▌ | 9131/10692 [1:22:54<12:51,  2.02it/s] 85%|████████▌ | 9132/10692 [1:22:54<12:50,  2.02it/s] 85%|████████▌ | 9133/10692 [1:22:55<12:51,  2.02it/s] 85%|████████▌ | 9134/10692 [1:22:55<12:49,  2.02it/s] 85%|████████▌ | 9135/10692 [1:22:56<12:50,  2.02it/s] 85%|████████▌ | 9136/10692 [1:22:56<12:49,  2.02it/s] 85%|████████▌ | 9137/10692 [1:22:57<12:49,  2.02it/s] 85%|████████▌ | 9138/10692 [1:22:57<12:48,  2.02it/s] 85%|████████▌ | 9139/10692 [1:22:58<12:48,  2.02it/s] 85%|████████▌ | 9140/10692 [1:22:58<12:47,  2.02it/s] 85%|████████▌ | 9141/10692 [1:22:59<12:47,  2.02it/s] 86%|████████▌ | 9142/10692 [1:22:59<12:46,  2.02it/s] 86%|████████▌ | 9143/10692 [1:23:00<12:45,  2.02it/s] 86%|████████▌ | 9144/10692 [1:23:00<12:46,  2.02it/s] 86%|████████▌ | 9145/10692 [1:23:01<12:47,  2.02it/s] 86%|████████▌ | 9146/10692 [1:23:01<12:46,  2.02it/s] 86%|████████▌ | 9147/10692 [1:23:02<12:45,  2.02it/s] 86%|████████▌ | 9148/10692 [1:23:02<12:44,  2.02it/s] 86%|████████▌ | 9149/10692 [1:23:03<12:43,  2.02it/s] 86%|████████▌ | 9150/10692 [1:23:03<12:42,  2.02it/s]{'loss': 3.5846, 'grad_norm': 0.19446957111358643, 'learning_rate': 6.20418469863095e-05, 'epoch': 0.86}
+                                                       86%|████████▌ | 9150/10692 [1:23:03<12:42,  2.02it/s] 86%|████████▌ | 9151/10692 [1:23:04<12:44,  2.02it/s] 86%|████████▌ | 9152/10692 [1:23:04<12:42,  2.02it/s] 86%|████████▌ | 9153/10692 [1:23:05<12:42,  2.02it/s] 86%|████████▌ | 9154/10692 [1:23:05<12:41,  2.02it/s] 86%|████████▌ | 9155/10692 [1:23:06<12:40,  2.02it/s] 86%|████████▌ | 9156/10692 [1:23:06<12:40,  2.02it/s] 86%|████████▌ | 9157/10692 [1:23:07<12:38,  2.02it/s] 86%|████████▌ | 9158/10692 [1:23:07<12:38,  2.02it/s] 86%|████████▌ | 9159/10692 [1:23:08<12:37,  2.02it/s] 86%|████████▌ | 9160/10692 [1:23:08<12:37,  2.02it/s] 86%|████████▌ | 9161/10692 [1:23:09<12:36,  2.02it/s] 86%|████████▌ | 9162/10692 [1:23:09<12:35,  2.03it/s] 86%|████████▌ | 9163/10692 [1:23:10<12:36,  2.02it/s] 86%|████████▌ | 9164/10692 [1:23:10<12:35,  2.02it/s] 86%|████████▌ | 9165/10692 [1:23:11<12:35,  2.02it/s] 86%|████████▌ | 9166/10692 [1:23:11<12:34,  2.02it/s] 86%|████████▌ | 9167/10692 [1:23:12<12:33,  2.02it/s] 86%|████████▌ | 9168/10692 [1:23:12<12:33,  2.02it/s] 86%|████████▌ | 9169/10692 [1:23:13<12:33,  2.02it/s] 86%|████████▌ | 9170/10692 [1:23:13<12:31,  2.02it/s] 86%|████████▌ | 9171/10692 [1:23:14<12:31,  2.02it/s] 86%|████████▌ | 9172/10692 [1:23:14<12:31,  2.02it/s] 86%|████████▌ | 9173/10692 [1:23:15<12:30,  2.02it/s] 86%|████████▌ | 9174/10692 [1:23:15<12:30,  2.02it/s] 86%|████████▌ | 9175/10692 [1:23:16<12:29,  2.02it/s]{'loss': 3.5704, 'grad_norm': 0.19638773798942566, 'learning_rate': 6.008740014793684e-05, 'epoch': 0.86}
+                                                       86%|████████▌ | 9175/10692 [1:23:16<12:29,  2.02it/s] 86%|████████▌ | 9176/10692 [1:23:16<12:30,  2.02it/s] 86%|████████▌ | 9177/10692 [1:23:17<12:29,  2.02it/s] 86%|████████▌ | 9178/10692 [1:23:17<12:28,  2.02it/s] 86%|████████▌ | 9179/10692 [1:23:18<12:27,  2.02it/s] 86%|████████▌ | 9180/10692 [1:23:18<12:27,  2.02it/s] 86%|████████▌ | 9181/10692 [1:23:19<12:25,  2.03it/s] 86%|████████▌ | 9182/10692 [1:23:19<12:26,  2.02it/s] 86%|████████▌ | 9183/10692 [1:23:20<12:25,  2.02it/s] 86%|████████▌ | 9184/10692 [1:23:20<12:26,  2.02it/s] 86%|████████▌ | 9185/10692 [1:23:21<12:24,  2.02it/s] 86%|████████▌ | 9186/10692 [1:23:21<12:25,  2.02it/s] 86%|████████▌ | 9187/10692 [1:23:22<12:24,  2.02it/s] 86%|████████▌ | 9188/10692 [1:23:22<12:24,  2.02it/s] 86%|████████▌ | 9189/10692 [1:23:23<12:22,  2.02it/s] 86%|████████▌ | 9190/10692 [1:23:23<12:23,  2.02it/s] 86%|████████▌ | 9191/10692 [1:23:24<12:22,  2.02it/s] 86%|████████▌ | 9192/10692 [1:23:24<12:22,  2.02it/s] 86%|████████▌ | 9193/10692 [1:23:25<12:20,  2.02it/s] 86%|████████▌ | 9194/10692 [1:23:25<12:19,  2.03it/s] 86%|████████▌ | 9195/10692 [1:23:26<12:19,  2.02it/s] 86%|████████▌ | 9196/10692 [1:23:26<12:19,  2.02it/s] 86%|████████▌ | 9197/10692 [1:23:27<12:18,  2.02it/s] 86%|████████▌ | 9198/10692 [1:23:27<12:18,  2.02it/s] 86%|████████▌ | 9199/10692 [1:23:28<12:18,  2.02it/s] 86%|████████▌ | 9200/10692 [1:23:28<12:18,  2.02it/s]{'loss': 3.5723, 'grad_norm': 0.19327512383460999, 'learning_rate': 5.816226312254996e-05, 'epoch': 0.86}
+                                                       86%|████████▌ | 9200/10692 [1:23:28<12:18,  2.02it/s] 86%|████████▌ | 9201/10692 [1:23:29<12:18,  2.02it/s] 86%|████████▌ | 9202/10692 [1:23:29<12:17,  2.02it/s] 86%|████████▌ | 9203/10692 [1:23:30<12:17,  2.02it/s] 86%|████████▌ | 9204/10692 [1:23:30<12:15,  2.02it/s] 86%|████████▌ | 9205/10692 [1:23:31<12:17,  2.02it/s] 86%|████████▌ | 9206/10692 [1:23:31<12:17,  2.01it/s] 86%|████████▌ | 9207/10692 [1:23:32<12:16,  2.02it/s] 86%|████████▌ | 9208/10692 [1:23:32<12:14,  2.02it/s] 86%|████████▌ | 9209/10692 [1:23:33<12:14,  2.02it/s] 86%|████████▌ | 9210/10692 [1:23:33<12:13,  2.02it/s] 86%|████████▌ | 9211/10692 [1:23:34<12:13,  2.02it/s] 86%|████████▌ | 9212/10692 [1:23:34<12:12,  2.02it/s] 86%|████████▌ | 9213/10692 [1:23:35<12:11,  2.02it/s] 86%|████████▌ | 9214/10692 [1:23:35<12:10,  2.02it/s] 86%|████████▌ | 9215/10692 [1:23:36<12:09,  2.02it/s] 86%|████████▌ | 9216/10692 [1:23:36<12:10,  2.02it/s] 86%|████████▌ | 9217/10692 [1:23:37<12:09,  2.02it/s] 86%|████████▌ | 9218/10692 [1:23:37<12:08,  2.02it/s] 86%|████████▌ | 9219/10692 [1:23:38<12:08,  2.02it/s] 86%|████████▌ | 9220/10692 [1:23:38<12:08,  2.02it/s] 86%|████████▌ | 9221/10692 [1:23:38<12:08,  2.02it/s] 86%|████████▋ | 9222/10692 [1:23:39<12:07,  2.02it/s] 86%|████████▋ | 9223/10692 [1:23:39<12:06,  2.02it/s] 86%|████████▋ | 9224/10692 [1:23:40<12:06,  2.02it/s] 86%|████████▋ | 9225/10692 [1:23:40<12:05,  2.02it/s]                                                      {'loss': 3.5673, 'grad_norm': 0.1902739405632019, 'learning_rate': 5.6266564175186494e-05, 'epoch': 0.86}
+ 86%|████████▋ | 9225/10692 [1:23:40<12:05,  2.02it/s] 86%|████████▋ | 9226/10692 [1:23:41<12:05,  2.02it/s] 86%|████████▋ | 9227/10692 [1:23:41<12:05,  2.02it/s] 86%|████████▋ | 9228/10692 [1:23:42<12:04,  2.02it/s] 86%|████████▋ | 9229/10692 [1:23:42<12:03,  2.02it/s] 86%|████████▋ | 9230/10692 [1:23:43<12:03,  2.02it/s] 86%|████████▋ | 9231/10692 [1:23:43<12:02,  2.02it/s] 86%|████████▋ | 9232/10692 [1:23:44<12:02,  2.02it/s] 86%|████████▋ | 9233/10692 [1:23:44<12:02,  2.02it/s] 86%|████████▋ | 9234/10692 [1:23:45<12:00,  2.02it/s] 86%|████████▋ | 9235/10692 [1:23:45<11:59,  2.02it/s] 86%|████████▋ | 9236/10692 [1:23:46<11:59,  2.02it/s] 86%|████████▋ | 9237/10692 [1:23:46<11:59,  2.02it/s] 86%|████████▋ | 9238/10692 [1:23:47<11:59,  2.02it/s] 86%|████████▋ | 9239/10692 [1:23:47<11:58,  2.02it/s] 86%|████████▋ | 9240/10692 [1:23:48<11:58,  2.02it/s] 86%|████████▋ | 9241/10692 [1:23:48<11:56,  2.02it/s] 86%|████████▋ | 9242/10692 [1:23:49<11:57,  2.02it/s] 86%|████████▋ | 9243/10692 [1:23:49<11:56,  2.02it/s] 86%|████████▋ | 9244/10692 [1:23:50<11:56,  2.02it/s] 86%|████████▋ | 9245/10692 [1:23:50<11:55,  2.02it/s] 86%|████████▋ | 9246/10692 [1:23:51<11:54,  2.02it/s] 86%|████████▋ | 9247/10692 [1:23:51<11:54,  2.02it/s] 86%|████████▋ | 9248/10692 [1:23:52<11:53,  2.02it/s] 87%|████████▋ | 9249/10692 [1:23:52<11:52,  2.02it/s] 87%|████████▋ | 9250/10692 [1:23:53<11:53,  2.02it/s]{'loss': 3.5689, 'grad_norm': 0.19253703951835632, 'learning_rate': 5.440042960952962e-05, 'epoch': 0.87}
+                                                       87%|████████▋ | 9250/10692 [1:23:53<11:53,  2.02it/s] 87%|████████▋ | 9251/10692 [1:23:53<11:54,  2.02it/s] 87%|████████▋ | 9252/10692 [1:23:54<11:53,  2.02it/s] 87%|████████▋ | 9253/10692 [1:23:54<11:52,  2.02it/s] 87%|████████▋ | 9254/10692 [1:23:55<11:51,  2.02it/s] 87%|████████▋ | 9255/10692 [1:23:55<11:50,  2.02it/s] 87%|████████▋ | 9256/10692 [1:23:56<11:50,  2.02it/s] 87%|████████▋ | 9257/10692 [1:23:56<11:48,  2.02it/s] 87%|████████▋ | 9258/10692 [1:23:57<11:48,  2.03it/s] 87%|████████▋ | 9259/10692 [1:23:57<11:47,  2.02it/s] 87%|████████▋ | 9260/10692 [1:23:58<11:47,  2.02it/s] 87%|████████▋ | 9261/10692 [1:23:58<11:47,  2.02it/s] 87%|████████▋ | 9262/10692 [1:23:59<11:48,  2.02it/s] 87%|████████▋ | 9263/10692 [1:23:59<11:46,  2.02it/s] 87%|████████▋ | 9264/10692 [1:24:00<11:46,  2.02it/s] 87%|████████▋ | 9265/10692 [1:24:00<11:46,  2.02it/s] 87%|████████▋ | 9266/10692 [1:24:01<11:47,  2.02it/s] 87%|████████▋ | 9267/10692 [1:24:01<11:45,  2.02it/s] 87%|████████▋ | 9268/10692 [1:24:02<11:44,  2.02it/s] 87%|████████▋ | 9269/10692 [1:24:02<11:43,  2.02it/s] 87%|████████▋ | 9270/10692 [1:24:03<11:43,  2.02it/s] 87%|████████▋ | 9271/10692 [1:24:03<11:42,  2.02it/s] 87%|████████▋ | 9272/10692 [1:24:04<11:43,  2.02it/s] 87%|████████▋ | 9273/10692 [1:24:04<11:42,  2.02it/s] 87%|████████▋ | 9274/10692 [1:24:05<11:42,  2.02it/s] 87%|████████▋ | 9275/10692 [1:24:05<11:40,  2.02it/s]{'loss': 3.5725, 'grad_norm': 0.1964408904314041, 'learning_rate': 5.256398375949284e-05, 'epoch': 0.87}
+                                                       87%|████████▋ | 9275/10692 [1:24:05<11:40,  2.02it/s] 87%|████████▋ | 9276/10692 [1:24:06<11:40,  2.02it/s] 87%|████████▋ | 9277/10692 [1:24:06<11:40,  2.02it/s] 87%|████████▋ | 9278/10692 [1:24:07<11:39,  2.02it/s] 87%|████████▋ | 9279/10692 [1:24:07<11:38,  2.02it/s] 87%|████████▋ | 9280/10692 [1:24:08<11:38,  2.02it/s] 87%|████████▋ | 9281/10692 [1:24:08<11:38,  2.02it/s] 87%|████████▋ | 9282/10692 [1:24:09<11:37,  2.02it/s] 87%|████████▋ | 9283/10692 [1:24:09<11:37,  2.02it/s] 87%|████████▋ | 9284/10692 [1:24:10<11:36,  2.02it/s] 87%|████████▋ | 9285/10692 [1:24:10<11:35,  2.02it/s] 87%|████████▋ | 9286/10692 [1:24:11<11:34,  2.02it/s] 87%|████████▋ | 9287/10692 [1:24:11<11:35,  2.02it/s] 87%|████████▋ | 9288/10692 [1:24:12<11:34,  2.02it/s] 87%|████████▋ | 9289/10692 [1:24:12<11:33,  2.02it/s] 87%|████████▋ | 9290/10692 [1:24:13<11:33,  2.02it/s] 87%|████████▋ | 9291/10692 [1:24:13<11:31,  2.02it/s] 87%|████████▋ | 9292/10692 [1:24:14<11:32,  2.02it/s] 87%|████████▋ | 9293/10692 [1:24:14<11:31,  2.02it/s] 87%|████████▋ | 9294/10692 [1:24:15<11:30,  2.02it/s] 87%|████████▋ | 9295/10692 [1:24:15<11:30,  2.02it/s] 87%|████████▋ | 9296/10692 [1:24:16<11:29,  2.02it/s] 87%|████████▋ | 9297/10692 [1:24:16<11:29,  2.02it/s] 87%|████████▋ | 9298/10692 [1:24:17<11:29,  2.02it/s] 87%|████████▋ | 9299/10692 [1:24:17<11:28,  2.02it/s] 87%|████████▋ | 9300/10692 [1:24:18<11:28,  2.02it/s]{'loss': 3.5724, 'grad_norm': 0.19544146955013275, 'learning_rate': 5.075734898093598e-05, 'epoch': 0.87}
+                                                       87%|████████▋ | 9300/10692 [1:24:18<11:28,  2.02it/s] 87%|████████▋ | 9301/10692 [1:24:18<11:28,  2.02it/s] 87%|████████▋ | 9302/10692 [1:24:19<11:28,  2.02it/s] 87%|████████▋ | 9303/10692 [1:24:19<11:27,  2.02it/s] 87%|████████▋ | 9304/10692 [1:24:20<11:26,  2.02it/s] 87%|████████▋ | 9305/10692 [1:24:20<11:26,  2.02it/s] 87%|████████▋ | 9306/10692 [1:24:21<11:25,  2.02it/s] 87%|████████▋ | 9307/10692 [1:24:21<11:25,  2.02it/s] 87%|████████▋ | 9308/10692 [1:24:22<11:25,  2.02it/s] 87%|████████▋ | 9309/10692 [1:24:22<11:25,  2.02it/s] 87%|████████▋ | 9310/10692 [1:24:23<11:23,  2.02it/s] 87%|████████▋ | 9311/10692 [1:24:23<11:23,  2.02it/s] 87%|████████▋ | 9312/10692 [1:24:24<11:22,  2.02it/s] 87%|████████▋ | 9313/10692 [1:24:24<11:21,  2.02it/s] 87%|████████▋ | 9314/10692 [1:24:24<11:20,  2.02it/s] 87%|████████▋ | 9315/10692 [1:24:25<11:20,  2.02it/s] 87%|████████▋ | 9316/10692 [1:24:25<11:20,  2.02it/s] 87%|████████▋ | 9317/10692 [1:24:26<11:19,  2.02it/s] 87%|████████▋ | 9318/10692 [1:24:26<11:17,  2.03it/s] 87%|████████▋ | 9319/10692 [1:24:27<11:17,  2.03it/s] 87%|████████▋ | 9320/10692 [1:24:27<11:18,  2.02it/s] 87%|████████▋ | 9321/10692 [1:24:28<11:17,  2.02it/s] 87%|████████▋ | 9322/10692 [1:24:28<11:17,  2.02it/s] 87%|████████▋ | 9323/10692 [1:24:29<11:16,  2.02it/s] 87%|████████▋ | 9324/10692 [1:24:29<11:16,  2.02it/s] 87%|████████▋ | 9325/10692 [1:24:30<11:15,  2.02it/s]                                                      {'loss': 3.5601, 'grad_norm': 0.19339284300804138, 'learning_rate': 4.8980645643513176e-05, 'epoch': 0.87}
+ 87%|████████▋ | 9325/10692 [1:24:30<11:15,  2.02it/s] 87%|████████▋ | 9326/10692 [1:24:30<11:17,  2.02it/s] 87%|████████▋ | 9327/10692 [1:24:31<11:17,  2.01it/s] 87%|████████▋ | 9328/10692 [1:24:31<11:16,  2.01it/s] 87%|████████▋ | 9329/10692 [1:24:32<11:15,  2.02it/s] 87%|████████▋ | 9330/10692 [1:24:32<11:15,  2.02it/s] 87%|████████▋ | 9331/10692 [1:24:33<11:13,  2.02it/s] 87%|████████▋ | 9332/10692 [1:24:33<11:12,  2.02it/s] 87%|████████▋ | 9333/10692 [1:24:34<11:11,  2.02it/s] 87%|████████▋ | 9334/10692 [1:24:34<11:10,  2.02it/s] 87%|████████▋ | 9335/10692 [1:24:35<11:10,  2.02it/s] 87%|████████▋ | 9336/10692 [1:24:35<11:11,  2.02it/s] 87%|████████▋ | 9337/10692 [1:24:36<11:09,  2.02it/s] 87%|████████▋ | 9338/10692 [1:24:36<11:10,  2.02it/s] 87%|████████▋ | 9339/10692 [1:24:37<11:07,  2.03it/s] 87%|████████▋ | 9340/10692 [1:24:37<11:08,  2.02it/s] 87%|████████▋ | 9341/10692 [1:24:38<11:07,  2.03it/s] 87%|████████▋ | 9342/10692 [1:24:38<11:07,  2.02it/s] 87%|████████▋ | 9343/10692 [1:24:39<11:07,  2.02it/s] 87%|████████▋ | 9344/10692 [1:24:39<11:07,  2.02it/s] 87%|████████▋ | 9345/10692 [1:24:40<11:06,  2.02it/s] 87%|████████▋ | 9346/10692 [1:24:40<11:05,  2.02it/s] 87%|████████▋ | 9347/10692 [1:24:41<11:05,  2.02it/s] 87%|████████▋ | 9348/10692 [1:24:41<11:04,  2.02it/s] 87%|████████▋ | 9349/10692 [1:24:42<11:03,  2.02it/s] 87%|████████▋ | 9350/10692 [1:24:42<11:03,  2.02it/s]{'loss': 3.5771, 'grad_norm': 0.19553621113300323, 'learning_rate': 4.723399212265306e-05, 'epoch': 0.87}                                                      
+ 87%|████████▋ | 9350/10692 [1:24:42<11:03,  2.02it/s] 87%|████████▋ | 9351/10692 [1:24:43<11:03,  2.02it/s] 87%|████████▋ | 9352/10692 [1:24:43<11:02,  2.02it/s] 87%|████████▋ | 9353/10692 [1:24:44<11:01,  2.02it/s] 87%|████████▋ | 9354/10692 [1:24:44<11:01,  2.02it/s] 87%|████████▋ | 9355/10692 [1:24:45<11:00,  2.02it/s] 88%|████████▊ | 9356/10692 [1:24:45<11:00,  2.02it/s] 88%|████████▊ | 9357/10692 [1:24:46<11:00,  2.02it/s] 88%|████████▊ | 9358/10692 [1:24:46<10:58,  2.03it/s] 88%|████████▊ | 9359/10692 [1:24:47<10:58,  2.03it/s] 88%|████████▊ | 9360/10692 [1:24:47<10:57,  2.02it/s] 88%|████████▊ | 9361/10692 [1:24:48<10:58,  2.02it/s] 88%|████████▊ | 9362/10692 [1:24:48<10:57,  2.02it/s] 88%|████████▊ | 9363/10692 [1:24:49<10:57,  2.02it/s] 88%|████████▊ | 9364/10692 [1:24:49<10:56,  2.02it/s] 88%|████████▊ | 9365/10692 [1:24:50<10:56,  2.02it/s] 88%|████████▊ | 9366/10692 [1:24:50<10:55,  2.02it/s] 88%|████████▊ | 9367/10692 [1:24:51<10:54,  2.02it/s] 88%|████████▊ | 9368/10692 [1:24:51<10:53,  2.03it/s] 88%|████████▊ | 9369/10692 [1:24:52<10:53,  2.03it/s] 88%|████████▊ | 9370/10692 [1:24:52<10:52,  2.02it/s] 88%|████████▊ | 9371/10692 [1:24:53<10:52,  2.03it/s] 88%|████████▊ | 9372/10692 [1:24:53<10:52,  2.02it/s] 88%|████████▊ | 9373/10692 [1:24:54<10:52,  2.02it/s] 88%|████████▊ | 9374/10692 [1:24:54<10:51,  2.02it/s] 88%|████████▊ | 9375/10692 [1:24:55<10:50,  2.02it/s]{'loss': 3.5791, 'grad_norm': 0.19568729400634766, 'learning_rate': 4.55175047916716e-05, 'epoch': 0.88}
+                                                       88%|████████▊ | 9375/10692 [1:24:55<10:50,  2.02it/s] 88%|████████▊ | 9376/10692 [1:24:55<10:51,  2.02it/s] 88%|████████▊ | 9377/10692 [1:24:56<10:50,  2.02it/s] 88%|████████▊ | 9378/10692 [1:24:56<10:51,  2.02it/s] 88%|████████▊ | 9379/10692 [1:24:57<10:50,  2.02it/s] 88%|████████▊ | 9380/10692 [1:24:57<10:50,  2.02it/s] 88%|████████▊ | 9381/10692 [1:24:58<10:49,  2.02it/s] 88%|████████▊ | 9382/10692 [1:24:58<10:48,  2.02it/s] 88%|████████▊ | 9383/10692 [1:24:59<10:47,  2.02it/s] 88%|████████▊ | 9384/10692 [1:24:59<10:47,  2.02it/s] 88%|████████▊ | 9385/10692 [1:25:00<10:46,  2.02it/s] 88%|████████▊ | 9386/10692 [1:25:00<10:46,  2.02it/s] 88%|████████▊ | 9387/10692 [1:25:01<10:47,  2.02it/s] 88%|████████▊ | 9388/10692 [1:25:01<10:46,  2.02it/s] 88%|████████▊ | 9389/10692 [1:25:02<10:45,  2.02it/s] 88%|████████▊ | 9390/10692 [1:25:02<10:44,  2.02it/s] 88%|████████▊ | 9391/10692 [1:25:03<10:43,  2.02it/s] 88%|████████▊ | 9392/10692 [1:25:03<10:43,  2.02it/s] 88%|████████▊ | 9393/10692 [1:25:04<10:43,  2.02it/s] 88%|████████▊ | 9394/10692 [1:25:04<10:42,  2.02it/s] 88%|████████▊ | 9395/10692 [1:25:05<10:42,  2.02it/s] 88%|████████▊ | 9396/10692 [1:25:05<10:41,  2.02it/s] 88%|████████▊ | 9397/10692 [1:25:06<10:42,  2.02it/s] 88%|████████▊ | 9398/10692 [1:25:06<10:40,  2.02it/s] 88%|████████▊ | 9399/10692 [1:25:07<10:40,  2.02it/s] 88%|████████▊ | 9400/10692 [1:25:07<10:39,  2.02it/s]{'loss': 3.5672, 'grad_norm': 0.19405891001224518, 'learning_rate': 4.383129801401914e-05, 'epoch': 0.88}
+                                                       88%|████████▊ | 9400/10692 [1:25:07<10:39,  2.02it/s] 88%|████████▊ | 9401/10692 [1:25:08<10:42,  2.01it/s] 88%|████████▊ | 9402/10692 [1:25:08<10:41,  2.01it/s] 88%|████████▊ | 9403/10692 [1:25:09<10:40,  2.01it/s] 88%|████████▊ | 9404/10692 [1:25:09<10:39,  2.01it/s] 88%|████████▊ | 9405/10692 [1:25:10<10:38,  2.01it/s] 88%|████████▊ | 9406/10692 [1:25:10<10:37,  2.02it/s] 88%|████████▊ | 9407/10692 [1:25:11<10:36,  2.02it/s] 88%|████████▊ | 9408/10692 [1:25:11<10:35,  2.02it/s] 88%|████████▊ | 9409/10692 [1:25:12<10:34,  2.02it/s] 88%|████████▊ | 9410/10692 [1:25:12<10:35,  2.02it/s] 88%|████████▊ | 9411/10692 [1:25:12<10:33,  2.02it/s] 88%|████████▊ | 9412/10692 [1:25:13<10:33,  2.02it/s] 88%|████████▊ | 9413/10692 [1:25:13<10:32,  2.02it/s] 88%|████████▊ | 9414/10692 [1:25:14<10:32,  2.02it/s] 88%|████████▊ | 9415/10692 [1:25:14<10:31,  2.02it/s] 88%|████████▊ | 9416/10692 [1:25:15<10:30,  2.02it/s] 88%|████████▊ | 9417/10692 [1:25:15<10:30,  2.02it/s] 88%|████████▊ | 9418/10692 [1:25:16<10:29,  2.02it/s] 88%|████████▊ | 9419/10692 [1:25:16<10:29,  2.02it/s] 88%|████████▊ | 9420/10692 [1:25:17<10:28,  2.02it/s] 88%|████████▊ | 9421/10692 [1:25:17<10:28,  2.02it/s] 88%|████████▊ | 9422/10692 [1:25:18<10:27,  2.02it/s] 88%|████████▊ | 9423/10692 [1:25:18<10:27,  2.02it/s] 88%|████████▊ | 9424/10692 [1:25:19<10:26,  2.02it/s] 88%|████████▊ | 9425/10692 [1:25:19<10:26,  2.02it/s]{'loss': 3.5752, 'grad_norm': 0.19550499320030212, 'learning_rate': 4.217548413565997e-05, 'epoch': 0.88}
+                                                       88%|████████▊ | 9425/10692 [1:25:19<10:26,  2.02it/s] 88%|████████▊ | 9426/10692 [1:25:20<10:26,  2.02it/s] 88%|████████▊ | 9427/10692 [1:25:20<10:26,  2.02it/s] 88%|████████▊ | 9428/10692 [1:25:21<10:25,  2.02it/s] 88%|████████▊ | 9429/10692 [1:25:21<10:25,  2.02it/s] 88%|████████▊ | 9430/10692 [1:25:22<10:24,  2.02it/s] 88%|████████▊ | 9431/10692 [1:25:22<10:24,  2.02it/s] 88%|████████▊ | 9432/10692 [1:25:23<10:23,  2.02it/s] 88%|████████▊ | 9433/10692 [1:25:23<10:23,  2.02it/s] 88%|████████▊ | 9434/10692 [1:25:24<10:21,  2.02it/s] 88%|████████▊ | 9435/10692 [1:25:24<10:21,  2.02it/s] 88%|████████▊ | 9436/10692 [1:25:25<10:20,  2.02it/s] 88%|████████▊ | 9437/10692 [1:25:25<10:20,  2.02it/s] 88%|████████▊ | 9438/10692 [1:25:26<10:20,  2.02it/s] 88%|████████▊ | 9439/10692 [1:25:26<10:19,  2.02it/s] 88%|████████▊ | 9440/10692 [1:25:27<10:19,  2.02it/s] 88%|████████▊ | 9441/10692 [1:25:27<10:19,  2.02it/s] 88%|████████▊ | 9442/10692 [1:25:28<10:18,  2.02it/s] 88%|████████▊ | 9443/10692 [1:25:28<10:17,  2.02it/s] 88%|████████▊ | 9444/10692 [1:25:29<10:17,  2.02it/s] 88%|████████▊ | 9445/10692 [1:25:29<10:16,  2.02it/s] 88%|████████▊ | 9446/10692 [1:25:30<10:16,  2.02it/s] 88%|████████▊ | 9447/10692 [1:25:30<10:16,  2.02it/s] 88%|████████▊ | 9448/10692 [1:25:31<10:17,  2.02it/s] 88%|████████▊ | 9449/10692 [1:25:31<10:16,  2.02it/s] 88%|████████▊ | 9450/10692 [1:25:32<10:15,  2.02it/s]{'loss': 3.5586, 'grad_norm': 0.19181779026985168, 'learning_rate': 4.055017347758783e-05, 'epoch': 0.88}
+                                                       88%|████████▊ | 9450/10692 [1:25:32<10:15,  2.02it/s] 88%|████████▊ | 9451/10692 [1:25:32<10:16,  2.01it/s] 88%|████████▊ | 9452/10692 [1:25:33<10:14,  2.02it/s] 88%|████████▊ | 9453/10692 [1:25:33<10:14,  2.02it/s] 88%|████████▊ | 9454/10692 [1:25:34<10:12,  2.02it/s] 88%|████████▊ | 9455/10692 [1:25:34<10:12,  2.02it/s] 88%|████████▊ | 9456/10692 [1:25:35<10:11,  2.02it/s] 88%|████████▊ | 9457/10692 [1:25:35<10:11,  2.02it/s] 88%|████████▊ | 9458/10692 [1:25:36<10:10,  2.02it/s] 88%|████████▊ | 9459/10692 [1:25:36<10:09,  2.02it/s] 88%|████████▊ | 9460/10692 [1:25:37<10:08,  2.02it/s] 88%|████████▊ | 9461/10692 [1:25:37<10:08,  2.02it/s] 88%|████████▊ | 9462/10692 [1:25:38<10:07,  2.02it/s] 89%|████████▊ | 9463/10692 [1:25:38<10:08,  2.02it/s] 89%|████████▊ | 9464/10692 [1:25:39<10:06,  2.02it/s] 89%|████████▊ | 9465/10692 [1:25:39<10:06,  2.02it/s] 89%|████████▊ | 9466/10692 [1:25:40<10:06,  2.02it/s] 89%|████████▊ | 9467/10692 [1:25:40<10:05,  2.02it/s] 89%|████████▊ | 9468/10692 [1:25:41<10:04,  2.02it/s] 89%|████████▊ | 9469/10692 [1:25:41<10:03,  2.03it/s] 89%|████████▊ | 9470/10692 [1:25:42<10:03,  2.02it/s] 89%|████████▊ | 9471/10692 [1:25:42<10:03,  2.02it/s] 89%|████████▊ | 9472/10692 [1:25:43<10:03,  2.02it/s] 89%|████████▊ | 9473/10692 [1:25:43<10:02,  2.02it/s] 89%|████████▊ | 9474/10692 [1:25:44<10:02,  2.02it/s] 89%|████████▊ | 9475/10692 [1:25:44<10:01,  2.02it/s]{'loss': 3.5697, 'grad_norm': 0.2002086341381073, 'learning_rate': 3.895547432847496e-05, 'epoch': 0.89}
+                                                       89%|████████▊ | 9475/10692 [1:25:44<10:01,  2.02it/s] 89%|████████▊ | 9476/10692 [1:25:45<10:02,  2.02it/s] 89%|████████▊ | 9477/10692 [1:25:45<10:01,  2.02it/s] 89%|████████▊ | 9478/10692 [1:25:46<10:00,  2.02it/s] 89%|████████▊ | 9479/10692 [1:25:46<09:59,  2.02it/s] 89%|████████▊ | 9480/10692 [1:25:47<09:59,  2.02it/s] 89%|████████▊ | 9481/10692 [1:25:47<09:59,  2.02it/s] 89%|████████▊ | 9482/10692 [1:25:48<09:58,  2.02it/s] 89%|████████▊ | 9483/10692 [1:25:48<09:58,  2.02it/s] 89%|████████▊ | 9484/10692 [1:25:49<09:57,  2.02it/s] 89%|████████▊ | 9485/10692 [1:25:49<09:57,  2.02it/s] 89%|████████▊ | 9486/10692 [1:25:50<09:55,  2.02it/s] 89%|████████▊ | 9487/10692 [1:25:50<09:55,  2.02it/s] 89%|████████▊ | 9488/10692 [1:25:51<09:55,  2.02it/s] 89%|████████▊ | 9489/10692 [1:25:51<09:54,  2.02it/s] 89%|████████▉ | 9490/10692 [1:25:52<09:54,  2.02it/s] 89%|████████▉ | 9491/10692 [1:25:52<09:53,  2.02it/s] 89%|████████▉ | 9492/10692 [1:25:53<09:53,  2.02it/s] 89%|████████▉ | 9493/10692 [1:25:53<09:53,  2.02it/s] 89%|████████▉ | 9494/10692 [1:25:54<09:52,  2.02it/s] 89%|████████▉ | 9495/10692 [1:25:54<09:52,  2.02it/s] 89%|████████▉ | 9496/10692 [1:25:55<09:51,  2.02it/s] 89%|████████▉ | 9497/10692 [1:25:55<09:50,  2.02it/s] 89%|████████▉ | 9498/10692 [1:25:56<09:50,  2.02it/s] 89%|████████▉ | 9499/10692 [1:25:56<09:49,  2.02it/s] 89%|████████▉ | 9500/10692 [1:25:57<09:49,  2.02it/s]{'loss': 3.5677, 'grad_norm': 0.19023749232292175, 'learning_rate': 3.739149293745797e-05, 'epoch': 0.89}
+                                                       89%|████████▉ | 9500/10692 [1:25:57<09:49,  2.02it/s] 89%|████████▉ | 9501/10692 [1:25:57<09:49,  2.02it/s] 89%|████████▉ | 9502/10692 [1:25:58<09:49,  2.02it/s] 89%|████████▉ | 9503/10692 [1:25:58<09:49,  2.02it/s] 89%|████████▉ | 9504/10692 [1:25:59<09:48,  2.02it/s] 89%|████████▉ | 9505/10692 [1:25:59<09:48,  2.02it/s] 89%|████████▉ | 9506/10692 [1:25:59<09:46,  2.02it/s] 89%|████████▉ | 9507/10692 [1:26:00<09:46,  2.02it/s] 89%|████████▉ | 9508/10692 [1:26:00<09:46,  2.02it/s] 89%|████████▉ | 9509/10692 [1:26:01<09:46,  2.02it/s] 89%|████████▉ | 9510/10692 [1:26:01<09:45,  2.02it/s] 89%|████████▉ | 9511/10692 [1:26:02<09:44,  2.02it/s] 89%|████████▉ | 9512/10692 [1:26:02<09:43,  2.02it/s] 89%|████████▉ | 9513/10692 [1:26:03<09:43,  2.02it/s] 89%|████████▉ | 9514/10692 [1:26:03<09:43,  2.02it/s] 89%|████████▉ | 9515/10692 [1:26:04<09:42,  2.02it/s] 89%|████████▉ | 9516/10692 [1:26:04<09:41,  2.02it/s] 89%|████████▉ | 9517/10692 [1:26:05<09:41,  2.02it/s] 89%|████████▉ | 9518/10692 [1:26:05<09:40,  2.02it/s] 89%|████████▉ | 9519/10692 [1:26:06<09:40,  2.02it/s] 89%|████████▉ | 9520/10692 [1:26:06<09:39,  2.02it/s] 89%|████████▉ | 9521/10692 [1:26:07<09:39,  2.02it/s] 89%|████████▉ | 9522/10692 [1:26:07<09:38,  2.02it/s] 89%|████████▉ | 9523/10692 [1:26:08<09:39,  2.02it/s] 89%|████████▉ | 9524/10692 [1:26:08<09:37,  2.02it/s] 89%|████████▉ | 9525/10692 [1:26:09<09:37,  2.02it/s]{'loss': 3.5662, 'grad_norm': 0.19042176008224487, 'learning_rate': 3.5858333507058194e-05, 'epoch': 0.89}
+                                                       89%|████████▉ | 9525/10692 [1:26:09<09:37,  2.02it/s] 89%|████████▉ | 9526/10692 [1:26:09<09:37,  2.02it/s] 89%|████████▉ | 9527/10692 [1:26:10<09:36,  2.02it/s] 89%|████████▉ | 9528/10692 [1:26:10<09:35,  2.02it/s] 89%|████████▉ | 9529/10692 [1:26:11<09:35,  2.02it/s] 89%|████████▉ | 9530/10692 [1:26:11<09:35,  2.02it/s] 89%|████████▉ | 9531/10692 [1:26:12<09:34,  2.02it/s] 89%|████████▉ | 9532/10692 [1:26:12<09:33,  2.02it/s] 89%|████████▉ | 9533/10692 [1:26:13<09:34,  2.02it/s] 89%|████████▉ | 9534/10692 [1:26:13<09:33,  2.02it/s] 89%|████████▉ | 9535/10692 [1:26:14<09:32,  2.02it/s] 89%|████████▉ | 9536/10692 [1:26:14<09:31,  2.02it/s] 89%|████████▉ | 9537/10692 [1:26:15<09:30,  2.02it/s] 89%|████████▉ | 9538/10692 [1:26:15<09:30,  2.02it/s] 89%|████████▉ | 9539/10692 [1:26:16<09:29,  2.02it/s] 89%|████████▉ | 9540/10692 [1:26:16<09:29,  2.02it/s] 89%|████████▉ | 9541/10692 [1:26:17<09:29,  2.02it/s] 89%|████████▉ | 9542/10692 [1:26:17<09:29,  2.02it/s] 89%|████████▉ | 9543/10692 [1:26:18<09:29,  2.02it/s] 89%|████████▉ | 9544/10692 [1:26:18<09:28,  2.02it/s] 89%|████████▉ | 9545/10692 [1:26:19<09:28,  2.02it/s] 89%|████████▉ | 9546/10692 [1:26:19<09:27,  2.02it/s] 89%|████████▉ | 9547/10692 [1:26:20<09:27,  2.02it/s] 89%|████████▉ | 9548/10692 [1:26:20<09:26,  2.02it/s] 89%|████████▉ | 9549/10692 [1:26:21<09:25,  2.02it/s] 89%|████████▉ | 9550/10692 [1:26:21<09:25,  2.02it/s]{'loss': 3.572, 'grad_norm': 0.1915276199579239, 'learning_rate': 3.435609818623919e-05, 'epoch': 0.89}
+                                                       89%|████████▉ | 9550/10692 [1:26:21<09:25,  2.02it/s] 89%|████████▉ | 9551/10692 [1:26:22<09:26,  2.02it/s] 89%|████████▉ | 9552/10692 [1:26:22<09:25,  2.02it/s] 89%|████████▉ | 9553/10692 [1:26:23<09:24,  2.02it/s] 89%|████████▉ | 9554/10692 [1:26:23<09:24,  2.02it/s] 89%|████████▉ | 9555/10692 [1:26:24<09:23,  2.02it/s] 89%|████████▉ | 9556/10692 [1:26:24<09:22,  2.02it/s] 89%|████████▉ | 9557/10692 [1:26:25<09:21,  2.02it/s] 89%|████████▉ | 9558/10692 [1:26:25<09:20,  2.02it/s] 89%|████████▉ | 9559/10692 [1:26:26<09:20,  2.02it/s] 89%|████████▉ | 9560/10692 [1:26:26<09:19,  2.02it/s] 89%|████████▉ | 9561/10692 [1:26:27<09:19,  2.02it/s] 89%|████████▉ | 9562/10692 [1:26:27<09:18,  2.02it/s] 89%|████████▉ | 9563/10692 [1:26:28<09:18,  2.02it/s] 89%|████████▉ | 9564/10692 [1:26:28<09:17,  2.02it/s] 89%|████████▉ | 9565/10692 [1:26:29<09:17,  2.02it/s] 89%|████████▉ | 9566/10692 [1:26:29<09:16,  2.02it/s] 89%|████████▉ | 9567/10692 [1:26:30<09:15,  2.02it/s] 89%|████████▉ | 9568/10692 [1:26:30<09:15,  2.02it/s] 89%|████████▉ | 9569/10692 [1:26:31<09:17,  2.02it/s] 90%|████████▉ | 9570/10692 [1:26:31<09:15,  2.02it/s] 90%|████████▉ | 9571/10692 [1:26:32<09:15,  2.02it/s] 90%|████████▉ | 9572/10692 [1:26:32<09:14,  2.02it/s] 90%|████████▉ | 9573/10692 [1:26:33<09:13,  2.02it/s] 90%|████████▉ | 9574/10692 [1:26:33<09:13,  2.02it/s] 90%|████████▉ | 9575/10692 [1:26:34<09:12,  2.02it/s]{'loss': 3.5677, 'grad_norm': 0.18990080058574677, 'learning_rate': 3.288488706360126e-05, 'epoch': 0.9}
+                                                       90%|████████▉ | 9575/10692 [1:26:34<09:12,  2.02it/s] 90%|████████▉ | 9576/10692 [1:26:34<09:12,  2.02it/s] 90%|████████▉ | 9577/10692 [1:26:35<09:11,  2.02it/s] 90%|████████▉ | 9578/10692 [1:26:35<09:11,  2.02it/s] 90%|████████▉ | 9579/10692 [1:26:36<09:10,  2.02it/s] 90%|████████▉ | 9580/10692 [1:26:36<09:09,  2.02it/s] 90%|████████▉ | 9581/10692 [1:26:37<09:09,  2.02it/s] 90%|████████▉ | 9582/10692 [1:26:37<09:09,  2.02it/s] 90%|████████▉ | 9583/10692 [1:26:38<09:08,  2.02it/s] 90%|████████▉ | 9584/10692 [1:26:38<09:08,  2.02it/s] 90%|████████▉ | 9585/10692 [1:26:39<09:07,  2.02it/s] 90%|████████▉ | 9586/10692 [1:26:39<09:07,  2.02it/s] 90%|████████▉ | 9587/10692 [1:26:40<09:06,  2.02it/s] 90%|████████▉ | 9588/10692 [1:26:40<09:06,  2.02it/s] 90%|████████▉ | 9589/10692 [1:26:41<09:04,  2.02it/s] 90%|████████▉ | 9590/10692 [1:26:41<09:05,  2.02it/s] 90%|████████▉ | 9591/10692 [1:26:42<09:04,  2.02it/s] 90%|████████▉ | 9592/10692 [1:26:42<09:04,  2.02it/s] 90%|████████▉ | 9593/10692 [1:26:43<09:03,  2.02it/s] 90%|████████▉ | 9594/10692 [1:26:43<09:03,  2.02it/s] 90%|████████▉ | 9595/10692 [1:26:44<09:02,  2.02it/s] 90%|████████▉ | 9596/10692 [1:26:44<09:01,  2.02it/s] 90%|████████▉ | 9597/10692 [1:26:45<09:00,  2.03it/s] 90%|████████▉ | 9598/10692 [1:26:45<08:59,  2.03it/s] 90%|████████▉ | 9599/10692 [1:26:46<08:59,  2.03it/s] 90%|████████▉ | 9600/10692 [1:26:46<08:59,  2.03it/s]                                                      {'loss': 3.5676, 'grad_norm': 0.19303449988365173, 'learning_rate': 3.144479816071239e-05, 'epoch': 0.9}
+ 90%|████████▉ | 9600/10692 [1:26:46<08:59,  2.03it/s] 90%|████████▉ | 9601/10692 [1:26:46<09:00,  2.02it/s] 90%|████████▉ | 9602/10692 [1:26:47<08:59,  2.02it/s] 90%|████████▉ | 9603/10692 [1:26:47<08:58,  2.02it/s] 90%|████████▉ | 9604/10692 [1:26:48<08:57,  2.02it/s] 90%|████████▉ | 9605/10692 [1:26:48<08:57,  2.02it/s] 90%|████████▉ | 9606/10692 [1:26:49<08:56,  2.02it/s] 90%|████████▉ | 9607/10692 [1:26:49<08:56,  2.02it/s] 90%|████████▉ | 9608/10692 [1:26:50<08:55,  2.02it/s] 90%|████████▉ | 9609/10692 [1:26:50<08:55,  2.02it/s] 90%|████████▉ | 9610/10692 [1:26:51<08:54,  2.02it/s] 90%|████████▉ | 9611/10692 [1:26:51<08:54,  2.02it/s] 90%|████████▉ | 9612/10692 [1:26:52<08:53,  2.02it/s] 90%|████████▉ | 9613/10692 [1:26:52<08:53,  2.02it/s] 90%|████████▉ | 9614/10692 [1:26:53<08:52,  2.02it/s] 90%|████████▉ | 9615/10692 [1:26:53<08:52,  2.02it/s] 90%|████████▉ | 9616/10692 [1:26:54<08:51,  2.02it/s] 90%|████████▉ | 9617/10692 [1:26:54<08:51,  2.02it/s] 90%|████████▉ | 9618/10692 [1:26:55<08:51,  2.02it/s] 90%|████████▉ | 9619/10692 [1:26:55<08:50,  2.02it/s] 90%|████████▉ | 9620/10692 [1:26:56<08:50,  2.02it/s] 90%|████████▉ | 9621/10692 [1:26:56<08:50,  2.02it/s] 90%|████████▉ | 9622/10692 [1:26:57<08:50,  2.02it/s] 90%|█████████ | 9623/10692 [1:26:57<08:49,  2.02it/s] 90%|█████████ | 9624/10692 [1:26:58<08:48,  2.02it/s] 90%|█████████ | 9625/10692 [1:26:58<08:48,  2.02it/s]{'loss': 3.5706, 'grad_norm': 0.19205783307552338, 'learning_rate': 3.003592742557787e-05, 'epoch': 0.9}
+                                                       90%|█████████ | 9625/10692 [1:26:58<08:48,  2.02it/s] 90%|█████████ | 9626/10692 [1:26:59<08:49,  2.01it/s] 90%|█████████ | 9627/10692 [1:26:59<08:47,  2.02it/s] 90%|█████████ | 9628/10692 [1:27:00<08:47,  2.02it/s] 90%|█████████ | 9629/10692 [1:27:00<08:47,  2.02it/s] 90%|█████████ | 9630/10692 [1:27:01<08:48,  2.01it/s] 90%|█████████ | 9631/10692 [1:27:01<08:45,  2.02it/s] 90%|█████████ | 9632/10692 [1:27:02<08:45,  2.02it/s] 90%|█████████ | 9633/10692 [1:27:02<08:44,  2.02it/s] 90%|█████████ | 9634/10692 [1:27:03<08:43,  2.02it/s] 90%|█████████ | 9635/10692 [1:27:03<08:42,  2.02it/s] 90%|█████████ | 9636/10692 [1:27:04<08:41,  2.02it/s] 90%|█████████ | 9637/10692 [1:27:04<08:41,  2.02it/s] 90%|█████████ | 9638/10692 [1:27:05<08:40,  2.02it/s] 90%|█████████ | 9639/10692 [1:27:05<08:40,  2.02it/s] 90%|█████████ | 9640/10692 [1:27:06<08:40,  2.02it/s] 90%|█████████ | 9641/10692 [1:27:06<08:40,  2.02it/s] 90%|█████████ | 9642/10692 [1:27:07<08:38,  2.02it/s] 90%|█████████ | 9643/10692 [1:27:07<08:39,  2.02it/s] 90%|█████████ | 9644/10692 [1:27:08<08:38,  2.02it/s] 90%|█████████ | 9645/10692 [1:27:08<08:38,  2.02it/s] 90%|█████████ | 9646/10692 [1:27:09<08:36,  2.02it/s] 90%|█████████ | 9647/10692 [1:27:09<08:37,  2.02it/s] 90%|█████████ | 9648/10692 [1:27:10<08:36,  2.02it/s] 90%|█████████ | 9649/10692 [1:27:10<08:35,  2.02it/s] 90%|█████████ | 9650/10692 [1:27:11<08:35,  2.02it/s]{'loss': 3.5645, 'grad_norm': 0.18938887119293213, 'learning_rate': 2.865836872624733e-05, 'epoch': 0.9}
+                                                       90%|█████████ | 9650/10692 [1:27:11<08:35,  2.02it/s] 90%|█████████ | 9651/10692 [1:27:11<08:35,  2.02it/s] 90%|█████████ | 9652/10692 [1:27:12<10:00,  1.73it/s] 90%|█████████ | 9653/10692 [1:27:13<09:33,  1.81it/s] 90%|█████████ | 9654/10692 [1:27:13<09:15,  1.87it/s] 90%|█████████ | 9655/10692 [1:27:13<09:01,  1.91it/s] 90%|█████████ | 9656/10692 [1:27:14<08:52,  1.95it/s] 90%|█████████ | 9657/10692 [1:27:14<08:45,  1.97it/s] 90%|█████████ | 9658/10692 [1:27:15<08:41,  1.98it/s] 90%|█████████ | 9659/10692 [1:27:15<08:37,  2.00it/s] 90%|█████████ | 9660/10692 [1:27:16<08:35,  2.00it/s] 90%|█████████ | 9661/10692 [1:27:16<08:33,  2.01it/s] 90%|█████████ | 9662/10692 [1:27:17<08:31,  2.01it/s] 90%|█████████ | 9663/10692 [1:27:17<08:30,  2.02it/s] 90%|█████████ | 9664/10692 [1:27:18<08:29,  2.02it/s] 90%|█████████ | 9665/10692 [1:27:18<08:28,  2.02it/s] 90%|█████████ | 9666/10692 [1:27:19<08:27,  2.02it/s] 90%|█████████ | 9667/10692 [1:27:19<08:27,  2.02it/s] 90%|█████████ | 9668/10692 [1:27:20<08:26,  2.02it/s] 90%|█████████ | 9669/10692 [1:27:20<08:26,  2.02it/s] 90%|█████████ | 9670/10692 [1:27:21<08:25,  2.02it/s] 90%|█████████ | 9671/10692 [1:27:21<08:25,  2.02it/s] 90%|█████████ | 9672/10692 [1:27:22<08:24,  2.02it/s] 90%|█████████ | 9673/10692 [1:27:22<08:24,  2.02it/s] 90%|█████████ | 9674/10692 [1:27:23<08:23,  2.02it/s] 90%|█████████ | 9675/10692 [1:27:23<08:23,  2.02it/s]{'loss': 3.5701, 'grad_norm': 0.19377166032791138, 'learning_rate': 2.731221384456084e-05, 'epoch': 0.9}
+                                                       90%|█████████ | 9675/10692 [1:27:23<08:23,  2.02it/s] 90%|█████████ | 9676/10692 [1:27:24<08:23,  2.02it/s] 91%|█████████ | 9677/10692 [1:27:24<08:22,  2.02it/s] 91%|█████████ | 9678/10692 [1:27:25<08:21,  2.02it/s] 91%|█████████ | 9679/10692 [1:27:25<08:21,  2.02it/s] 91%|█████████ | 9680/10692 [1:27:26<08:20,  2.02it/s] 91%|█████████ | 9681/10692 [1:27:26<08:19,  2.02it/s] 91%|█████████ | 9682/10692 [1:27:27<08:18,  2.02it/s] 91%|█████████ | 9683/10692 [1:27:27<08:18,  2.02it/s] 91%|█████████ | 9684/10692 [1:27:28<08:18,  2.02it/s] 91%|█████████ | 9685/10692 [1:27:28<08:17,  2.02it/s] 91%|█████████ | 9686/10692 [1:27:29<08:17,  2.02it/s] 91%|█████████ | 9687/10692 [1:27:29<08:16,  2.03it/s] 91%|█████████ | 9688/10692 [1:27:30<08:16,  2.02it/s] 91%|█████████ | 9689/10692 [1:27:30<08:15,  2.02it/s] 91%|█████████ | 9690/10692 [1:27:31<08:16,  2.02it/s] 91%|█████████ | 9691/10692 [1:27:31<08:16,  2.02it/s] 91%|█████████ | 9692/10692 [1:27:32<08:15,  2.02it/s] 91%|█████████ | 9693/10692 [1:27:32<08:14,  2.02it/s] 91%|█████████ | 9694/10692 [1:27:33<09:35,  1.73it/s] 91%|█████████ | 9695/10692 [1:27:34<09:10,  1.81it/s] 91%|█████████ | 9696/10692 [1:27:34<08:52,  1.87it/s] 91%|█████████ | 9697/10692 [1:27:35<08:39,  1.91it/s] 91%|█████████ | 9698/10692 [1:27:35<08:30,  1.95it/s] 91%|█████████ | 9699/10692 [1:27:36<08:25,  1.97it/s] 91%|█████████ | 9700/10692 [1:27:36<08:20,  1.98it/s]{'loss': 3.5638, 'grad_norm': 0.18834242224693298, 'learning_rate': 2.5997552470033546e-05, 'epoch': 0.91}
+                                                       91%|█████████ | 9700/10692 [1:27:36<08:20,  1.98it/s] 91%|█████████ | 9701/10692 [1:27:37<08:17,  1.99it/s] 91%|█████████ | 9702/10692 [1:27:37<08:14,  2.00it/s] 91%|█████████ | 9703/10692 [1:27:38<08:12,  2.01it/s] 91%|█████████ | 9704/10692 [1:27:38<08:11,  2.01it/s] 91%|█████████ | 9705/10692 [1:27:38<08:10,  2.01it/s] 91%|█████████ | 9706/10692 [1:27:39<08:09,  2.02it/s] 91%|█████████ | 9707/10692 [1:27:39<08:08,  2.02it/s] 91%|█████████ | 9708/10692 [1:27:40<08:07,  2.02it/s] 91%|█████████ | 9709/10692 [1:27:40<08:06,  2.02it/s] 91%|█████████ | 9710/10692 [1:27:41<08:06,  2.02it/s] 91%|█████████ | 9711/10692 [1:27:41<08:05,  2.02it/s] 91%|█████████ | 9712/10692 [1:27:42<08:04,  2.02it/s] 91%|█████████ | 9713/10692 [1:27:42<08:03,  2.02it/s] 91%|█████████ | 9714/10692 [1:27:43<08:03,  2.02it/s] 91%|█████████ | 9715/10692 [1:27:43<08:02,  2.02it/s] 91%|█████████ | 9716/10692 [1:27:44<08:02,  2.02it/s] 91%|█████████ | 9717/10692 [1:27:44<08:01,  2.02it/s] 91%|█████████ | 9718/10692 [1:27:45<08:00,  2.03it/s] 91%|█████████ | 9719/10692 [1:27:45<08:00,  2.02it/s] 91%|█████████ | 9720/10692 [1:27:46<07:59,  2.03it/s] 91%|█████████ | 9721/10692 [1:27:46<07:59,  2.02it/s] 91%|█████████ | 9722/10692 [1:27:47<07:58,  2.03it/s] 91%|█████████ | 9723/10692 [1:27:47<07:59,  2.02it/s] 91%|█████████ | 9724/10692 [1:27:48<07:58,  2.02it/s] 91%|█████████ | 9725/10692 [1:27:48<07:58,  2.02it/s]{'loss': 3.5665, 'grad_norm': 0.18801461160182953, 'learning_rate': 2.4714472193880287e-05, 'epoch': 0.91}
+                                                       91%|█████████ | 9725/10692 [1:27:48<07:58,  2.02it/s] 91%|█████████ | 9726/10692 [1:27:49<07:58,  2.02it/s] 91%|█████████ | 9727/10692 [1:27:49<07:57,  2.02it/s] 91%|█████████ | 9728/10692 [1:27:50<07:56,  2.02it/s] 91%|█████████ | 9729/10692 [1:27:50<07:56,  2.02it/s] 91%|█████████ | 9730/10692 [1:27:51<07:55,  2.02it/s] 91%|█████████ | 9731/10692 [1:27:51<07:55,  2.02it/s] 91%|█████████ | 9732/10692 [1:27:52<07:54,  2.02it/s] 91%|█████████ | 9733/10692 [1:27:52<07:54,  2.02it/s] 91%|█████████ | 9734/10692 [1:27:53<07:53,  2.02it/s] 91%|█████████ | 9735/10692 [1:27:53<07:53,  2.02it/s] 91%|█████████ | 9736/10692 [1:27:54<07:52,  2.02it/s] 91%|█████████ | 9737/10692 [1:27:54<07:52,  2.02it/s] 91%|█████████ | 9738/10692 [1:27:55<07:51,  2.02it/s] 91%|█████████ | 9739/10692 [1:27:55<07:51,  2.02it/s] 91%|█████████ | 9740/10692 [1:27:56<07:51,  2.02it/s] 91%|█████████ | 9741/10692 [1:27:56<07:50,  2.02it/s] 91%|█████████ | 9742/10692 [1:27:57<07:50,  2.02it/s] 91%|█████████ | 9743/10692 [1:27:57<07:49,  2.02it/s] 91%|█████████ | 9744/10692 [1:27:58<07:48,  2.02it/s] 91%|█████████ | 9745/10692 [1:27:58<07:48,  2.02it/s] 91%|█████████ | 9746/10692 [1:27:59<07:48,  2.02it/s] 91%|█████████ | 9747/10692 [1:27:59<07:47,  2.02it/s] 91%|█████████ | 9748/10692 [1:28:00<07:47,  2.02it/s] 91%|█████████ | 9749/10692 [1:28:00<07:46,  2.02it/s] 91%|█████████ | 9750/10692 [1:28:01<07:47,  2.02it/s]{'loss': 3.5653, 'grad_norm': 0.18787527084350586, 'learning_rate': 2.3463058503179425e-05, 'epoch': 0.91}
+                                                       91%|█████████ | 9750/10692 [1:28:01<07:47,  2.02it/s] 91%|█████████ | 9751/10692 [1:28:01<07:47,  2.01it/s] 91%|█████████ | 9752/10692 [1:28:02<07:46,  2.01it/s] 91%|█████████ | 9753/10692 [1:28:02<07:44,  2.02it/s] 91%|█████████ | 9754/10692 [1:28:03<07:44,  2.02it/s] 91%|█████████ | 9755/10692 [1:28:03<07:43,  2.02it/s] 91%|████████��� | 9756/10692 [1:28:04<07:43,  2.02it/s] 91%|█████████▏| 9757/10692 [1:28:04<07:43,  2.02it/s] 91%|█████████▏| 9758/10692 [1:28:05<07:42,  2.02it/s] 91%|█████████▏| 9759/10692 [1:28:05<07:41,  2.02it/s] 91%|█████████▏| 9760/10692 [1:28:06<07:40,  2.02it/s] 91%|█████████▏| 9761/10692 [1:28:06<07:40,  2.02it/s] 91%|█████████▏| 9762/10692 [1:28:07<07:39,  2.02it/s] 91%|█████████▏| 9763/10692 [1:28:07<07:39,  2.02it/s] 91%|█████████▏| 9764/10692 [1:28:08<07:38,  2.02it/s] 91%|█████████▏| 9765/10692 [1:28:08<07:38,  2.02it/s] 91%|█████████▏| 9766/10692 [1:28:09<07:38,  2.02it/s] 91%|█████████▏| 9767/10692 [1:28:09<07:37,  2.02it/s] 91%|█████████▏| 9768/10692 [1:28:10<07:36,  2.02it/s] 91%|█████████▏| 9769/10692 [1:28:10<07:36,  2.02it/s] 91%|█████████▏| 9770/10692 [1:28:11<07:35,  2.02it/s] 91%|█████████▏| 9771/10692 [1:28:11<07:35,  2.02it/s] 91%|█████████▏| 9772/10692 [1:28:12<07:34,  2.02it/s] 91%|█████████▏| 9773/10692 [1:28:12<07:34,  2.02it/s] 91%|█████████▏| 9774/10692 [1:28:13<07:34,  2.02it/s] 91%|█████████▏| 9775/10692 [1:28:13<07:33,  2.02it/s]{'loss': 3.5685, 'grad_norm': 0.1950032263994217, 'learning_rate': 2.2243394775177616e-05, 'epoch': 0.91}
+                                                       91%|█████████▏| 9775/10692 [1:28:13<07:33,  2.02it/s] 91%|█████████▏| 9776/10692 [1:28:14<07:33,  2.02it/s] 91%|█████████▏| 9777/10692 [1:28:14<07:33,  2.02it/s] 91%|█████████▏| 9778/10692 [1:28:15<07:31,  2.02it/s] 91%|█████████▏| 9779/10692 [1:28:15<07:31,  2.02it/s] 91%|█████████▏| 9780/10692 [1:28:16<07:30,  2.02it/s] 91%|█████████▏| 9781/10692 [1:28:16<07:31,  2.02it/s] 91%|█████████▏| 9782/10692 [1:28:17<07:30,  2.02it/s] 91%|█████████▏| 9783/10692 [1:28:17<07:29,  2.02it/s] 92%|█████████▏| 9784/10692 [1:28:18<07:28,  2.02it/s] 92%|█████████▏| 9785/10692 [1:28:18<07:28,  2.02it/s] 92%|█████████▏| 9786/10692 [1:28:19<07:27,  2.02it/s] 92%|█████████▏| 9787/10692 [1:28:19<07:27,  2.02it/s] 92%|█████████▏| 9788/10692 [1:28:20<07:26,  2.02it/s] 92%|█████████▏| 9789/10692 [1:28:20<07:25,  2.03it/s] 92%|█████████▏| 9790/10692 [1:28:21<07:25,  2.02it/s] 92%|█████████▏| 9791/10692 [1:28:21<07:25,  2.02it/s] 92%|█████████▏| 9792/10692 [1:28:22<07:24,  2.02it/s] 92%|█████████▏| 9793/10692 [1:28:22<07:23,  2.03it/s] 92%|█████████▏| 9794/10692 [1:28:23<07:24,  2.02it/s] 92%|█████████▏| 9795/10692 [1:28:23<07:23,  2.02it/s] 92%|█████████▏| 9796/10692 [1:28:24<07:23,  2.02it/s] 92%|█████████▏| 9797/10692 [1:28:24<07:22,  2.02it/s] 92%|█████████▏| 9798/10692 [1:28:24<07:21,  2.02it/s] 92%|█████████▏| 9799/10692 [1:28:25<07:21,  2.02it/s] 92%|█████████▏| 9800/10692 [1:28:25<07:20,  2.02it/s]{'loss': 3.5735, 'grad_norm': 0.19064579904079437, 'learning_rate': 2.105556227173394e-05, 'epoch': 0.92}
+                                                       92%|█████████▏| 9800/10692 [1:28:25<07:20,  2.02it/s] 92%|█████████▏| 9801/10692 [1:28:26<07:22,  2.01it/s] 92%|█████████▏| 9802/10692 [1:28:26<07:21,  2.02it/s] 92%|█████████▏| 9803/10692 [1:28:27<07:20,  2.02it/s] 92%|█████████▏| 9804/10692 [1:28:27<07:19,  2.02it/s] 92%|█████████▏| 9805/10692 [1:28:28<07:18,  2.02it/s] 92%|█████████▏| 9806/10692 [1:28:28<07:18,  2.02it/s] 92%|█████████▏| 9807/10692 [1:28:29<07:17,  2.02it/s] 92%|█████████▏| 9808/10692 [1:28:29<07:17,  2.02it/s] 92%|█████████▏| 9809/10692 [1:28:30<07:16,  2.02it/s] 92%|█████████▏| 9810/10692 [1:28:30<07:16,  2.02it/s] 92%|█████████▏| 9811/10692 [1:28:31<07:17,  2.01it/s] 92%|█████████▏| 9812/10692 [1:28:31<07:16,  2.02it/s] 92%|█████████▏| 9813/10692 [1:28:32<07:15,  2.02it/s] 92%|█████████▏| 9814/10692 [1:28:32<07:14,  2.02it/s] 92%|█████████▏| 9815/10692 [1:28:33<07:13,  2.02it/s] 92%|█████████▏| 9816/10692 [1:28:33<07:13,  2.02it/s] 92%|█████████▏| 9817/10692 [1:28:34<07:12,  2.02it/s] 92%|█████████▏| 9818/10692 [1:28:34<07:12,  2.02it/s] 92%|█████████▏| 9819/10692 [1:28:35<07:11,  2.02it/s] 92%|█████████▏| 9820/10692 [1:28:35<07:11,  2.02it/s] 92%|█████████▏| 9821/10692 [1:28:36<07:11,  2.02it/s] 92%|█████████▏| 9822/10692 [1:28:36<07:11,  2.02it/s] 92%|█████████▏| 9823/10692 [1:28:37<07:10,  2.02it/s] 92%|█████████▏| 9824/10692 [1:28:37<07:09,  2.02it/s] 92%|█████████▏| 9825/10692 [1:28:38<07:09,  2.02it/s]{'loss': 3.5605, 'grad_norm': 0.1908756047487259, 'learning_rate': 1.9899640133906383e-05, 'epoch': 0.92}
+                                                       92%|█████████▏| 9825/10692 [1:28:38<07:09,  2.02it/s] 92%|█████████▏| 9826/10692 [1:28:38<07:09,  2.01it/s] 92%|█████████▏| 9827/10692 [1:28:39<07:08,  2.02it/s] 92%|█████████▏| 9828/10692 [1:28:39<07:07,  2.02it/s] 92%|█████████▏| 9829/10692 [1:28:40<07:07,  2.02it/s] 92%|█████████▏| 9830/10692 [1:28:40<07:06,  2.02it/s] 92%|█████████▏| 9831/10692 [1:28:41<07:06,  2.02it/s] 92%|█████████▏| 9832/10692 [1:28:41<07:05,  2.02it/s] 92%|█████████▏| 9833/10692 [1:28:42<07:04,  2.02it/s] 92%|█████████▏| 9834/10692 [1:28:42<07:04,  2.02it/s] 92%|█████████▏| 9835/10692 [1:28:43<07:03,  2.02it/s] 92%|█████████▏| 9836/10692 [1:28:43<07:03,  2.02it/s] 92%|█████████▏| 9837/10692 [1:28:44<07:02,  2.02it/s] 92%|█████████▏| 9838/10692 [1:28:44<07:02,  2.02it/s] 92%|█████████▏| 9839/10692 [1:28:45<07:01,  2.02it/s] 92%|█████████▏| 9840/10692 [1:28:45<07:01,  2.02it/s] 92%|█████████▏| 9841/10692 [1:28:46<07:00,  2.02it/s] 92%|█████████▏| 9842/10692 [1:28:46<07:00,  2.02it/s] 92%|█████████▏| 9843/10692 [1:28:47<06:59,  2.02it/s] 92%|█████████▏| 9844/10692 [1:28:47<06:59,  2.02it/s] 92%|█████████▏| 9845/10692 [1:28:48<06:59,  2.02it/s] 92%|█████████▏| 9846/10692 [1:28:48<06:57,  2.02it/s] 92%|█████████▏| 9847/10692 [1:28:49<06:57,  2.02it/s] 92%|█████████▏| 9848/10692 [1:28:49<06:56,  2.02it/s] 92%|█████████▏| 9849/10692 [1:28:50<06:56,  2.02it/s] 92%|█████████▏| 9850/10692 [1:28:50<06:56,  2.02it/s]{'loss': 3.5643, 'grad_norm': 0.18800707161426544, 'learning_rate': 1.8775705376678443e-05, 'epoch': 0.92}
+                                                       92%|█████████▏| 9850/10692 [1:28:50<06:56,  2.02it/s] 92%|█████████▏| 9851/10692 [1:28:51<06:55,  2.02it/s] 92%|█████████▏| 9852/10692 [1:28:51<06:55,  2.02it/s] 92%|█████████▏| 9853/10692 [1:28:52<06:54,  2.02it/s] 92%|█████████▏| 9854/10692 [1:28:52<06:54,  2.02it/s] 92%|█████████▏| 9855/10692 [1:28:53<06:54,  2.02it/s] 92%|█████████▏| 9856/10692 [1:28:53<06:53,  2.02it/s] 92%|█████████▏| 9857/10692 [1:28:54<06:53,  2.02it/s] 92%|█████████▏| 9858/10692 [1:28:54<06:52,  2.02it/s] 92%|█████████▏| 9859/10692 [1:28:55<06:52,  2.02it/s] 92%|█████████▏| 9860/10692 [1:28:55<06:52,  2.02it/s] 92%|█████████▏| 9861/10692 [1:28:56<06:51,  2.02it/s] 92%|█████████▏| 9862/10692 [1:28:56<06:51,  2.02it/s] 92%|█████████▏| 9863/10692 [1:28:57<06:50,  2.02it/s] 92%|█████████▏| 9864/10692 [1:28:57<06:49,  2.02it/s] 92%|█████████▏| 9865/10692 [1:28:58<06:48,  2.02it/s] 92%|█████████▏| 9866/10692 [1:28:58<06:48,  2.02it/s] 92%|█████████▏| 9867/10692 [1:28:59<06:48,  2.02it/s] 92%|█████████▏| 9868/10692 [1:28:59<06:48,  2.02it/s] 92%|█████████▏| 9869/10692 [1:29:00<06:47,  2.02it/s] 92%|█████████▏| 9870/10692 [1:29:00<06:46,  2.02it/s] 92%|█████████▏| 9871/10692 [1:29:01<06:46,  2.02it/s] 92%|█████████▏| 9872/10692 [1:29:01<06:46,  2.02it/s] 92%|█████████▏| 9873/10692 [1:29:02<06:45,  2.02it/s] 92%|█████████▏| 9874/10692 [1:29:02<06:45,  2.02it/s] 92%|█████████▏| 9875/10692 [1:29:03<06:44,  2.02it/s]{'loss': 3.5582, 'grad_norm': 0.1914772242307663, 'learning_rate': 1.7683832883828522e-05, 'epoch': 0.92}
+                                                       92%|█████████▏| 9875/10692 [1:29:03<06:44,  2.02it/s] 92%|█████████▏| 9876/10692 [1:29:03<06:44,  2.02it/s] 92%|���████████▏| 9877/10692 [1:29:04<06:43,  2.02it/s] 92%|█████████▏| 9878/10692 [1:29:04<06:42,  2.02it/s] 92%|█████████▏| 9879/10692 [1:29:05<06:42,  2.02it/s] 92%|█████████▏| 9880/10692 [1:29:05<06:42,  2.02it/s] 92%|█████████▏| 9881/10692 [1:29:06<06:41,  2.02it/s] 92%|█████████▏| 9882/10692 [1:29:06<06:40,  2.02it/s] 92%|█████████▏| 9883/10692 [1:29:07<06:40,  2.02it/s] 92%|█████████▏| 9884/10692 [1:29:07<06:39,  2.02it/s] 92%|█████████▏| 9885/10692 [1:29:08<06:39,  2.02it/s] 92%|█████████▏| 9886/10692 [1:29:08<06:39,  2.02it/s] 92%|█████████▏| 9887/10692 [1:29:09<06:38,  2.02it/s] 92%|█████████▏| 9888/10692 [1:29:09<06:38,  2.02it/s] 92%|█████████▏| 9889/10692 [1:29:10<06:37,  2.02it/s] 92%|█████████▏| 9890/10692 [1:29:10<06:36,  2.02it/s] 93%|█████████▎| 9891/10692 [1:29:11<06:36,  2.02it/s] 93%|█████████▎| 9892/10692 [1:29:11<06:35,  2.02it/s] 93%|█████████▎| 9893/10692 [1:29:12<06:34,  2.02it/s] 93%|█████████▎| 9894/10692 [1:29:12<06:34,  2.02it/s] 93%|█████████▎| 9895/10692 [1:29:12<06:33,  2.03it/s] 93%|█████████▎| 9896/10692 [1:29:13<06:33,  2.02it/s] 93%|█████████▎| 9897/10692 [1:29:13<06:32,  2.03it/s] 93%|█████████▎| 9898/10692 [1:29:14<06:32,  2.03it/s] 93%|█████████▎| 9899/10692 [1:29:14<06:31,  2.02it/s] 93%|█████████▎| 9900/10692 [1:29:15<06:31,  2.02it/s]{'loss': 3.5675, 'grad_norm': 0.1886676400899887, 'learning_rate': 1.662409540293991e-05, 'epoch': 0.93}
+                                                       93%|█████████▎| 9900/10692 [1:29:15<06:31,  2.02it/s] 93%|█████████▎| 9901/10692 [1:29:15<06:31,  2.02it/s] 93%|█████████▎| 9902/10692 [1:29:16<06:31,  2.02it/s] 93%|█████████▎| 9903/10692 [1:29:16<06:30,  2.02it/s] 93%|█████████▎| 9904/10692 [1:29:17<06:29,  2.02it/s] 93%|█████████▎| 9905/10692 [1:29:17<06:29,  2.02it/s] 93%|█████████▎| 9906/10692 [1:29:18<06:28,  2.02it/s] 93%|█████████▎| 9907/10692 [1:29:18<06:27,  2.02it/s] 93%|█████████▎| 9908/10692 [1:29:19<06:27,  2.03it/s] 93%|█████████▎| 9909/10692 [1:29:19<06:26,  2.02it/s] 93%|█████████▎| 9910/10692 [1:29:20<06:26,  2.02it/s] 93%|█████████▎| 9911/10692 [1:29:20<06:25,  2.02it/s] 93%|█████████▎| 9912/10692 [1:29:21<06:25,  2.02it/s] 93%|█████████▎| 9913/10692 [1:29:21<06:25,  2.02it/s] 93%|█████████▎| 9914/10692 [1:29:22<06:24,  2.02it/s] 93%|█████████▎| 9915/10692 [1:29:22<06:24,  2.02it/s] 93%|█████████▎| 9916/10692 [1:29:23<06:23,  2.02it/s] 93%|█████████▎| 9917/10692 [1:29:23<06:23,  2.02it/s] 93%|█████████▎| 9918/10692 [1:29:24<06:22,  2.02it/s] 93%|█████████▎| 9919/10692 [1:29:24<06:21,  2.02it/s] 93%|█████████▎| 9920/10692 [1:29:25<06:21,  2.02it/s] 93%|█████████▎| 9921/10692 [1:29:25<06:20,  2.02it/s] 93%|█████████▎| 9922/10692 [1:29:26<06:20,  2.02it/s] 93%|█████████▎| 9923/10692 [1:29:26<06:19,  2.03it/s] 93%|█████████▎| 9924/10692 [1:29:27<06:19,  2.03it/s] 93%|█████████▎| 9925/10692 [1:29:27<06:18,  2.02it/s]                                                      {'loss': 3.5619, 'grad_norm': 0.18857945501804352, 'learning_rate': 1.5596563540554497e-05, 'epoch': 0.93}
+ 93%|█████████▎| 9925/10692 [1:29:27<06:18,  2.02it/s] 93%|█████████▎| 9926/10692 [1:29:28<06:19,  2.02it/s] 93%|█████████▎| 9927/10692 [1:29:28<06:18,  2.02it/s] 93%|█████████▎| 9928/10692 [1:29:29<06:18,  2.02it/s] 93%|█████████▎| 9929/10692 [1:29:29<06:17,  2.02it/s] 93%|█████████▎| 9930/10692 [1:29:30<06:16,  2.02it/s] 93%|█████████▎| 9931/10692 [1:29:30<06:16,  2.02it/s] 93%|█████████▎| 9932/10692 [1:29:31<06:17,  2.01it/s] 93%|█████████▎| 9933/10692 [1:29:31<06:15,  2.02it/s] 93%|█████████▎| 9934/10692 [1:29:32<06:15,  2.02it/s] 93%|█████████▎| 9935/10692 [1:29:32<06:14,  2.02it/s] 93%|█████████▎| 9936/10692 [1:29:33<06:14,  2.02it/s] 93%|█████████▎| 9937/10692 [1:29:33<06:13,  2.02it/s] 93%|█████████▎| 9938/10692 [1:29:34<06:12,  2.02it/s] 93%|█████████▎| 9939/10692 [1:29:34<06:12,  2.02it/s] 93%|█████████▎| 9940/10692 [1:29:35<06:11,  2.02it/s] 93%|█████████▎| 9941/10692 [1:29:35<06:11,  2.02it/s] 93%|█████████▎| 9942/10692 [1:29:36<06:11,  2.02it/s] 93%|█████████▎| 9943/10692 [1:29:36<06:10,  2.02it/s] 93%|█████████▎| 9944/10692 [1:29:37<06:10,  2.02it/s] 93%|█████████▎| 9945/10692 [1:29:37<06:09,  2.02it/s] 93%|█████████▎| 9946/10692 [1:29:38<06:09,  2.02it/s] 93%|█████████▎| 9947/10692 [1:29:38<06:08,  2.02it/s] 93%|█████████▎| 9948/10692 [1:29:39<06:08,  2.02it/s] 93%|█████████▎| 9949/10692 [1:29:39<06:07,  2.02it/s] 93%|█████████▎| 9950/10692 [1:29:40<06:07,  2.02it/s]{'loss': 3.5769, 'grad_norm': 0.1881035566329956, 'learning_rate': 1.4601305757468153e-05, 'epoch': 0.93}
+                                                       93%|█████████▎| 9950/10692 [1:29:40<06:07,  2.02it/s] 93%|█████████▎| 9951/10692 [1:29:40<06:07,  2.02it/s] 93%|█████████▎| 9952/10692 [1:29:41<06:07,  2.02it/s] 93%|█████████▎| 9953/10692 [1:29:41<06:06,  2.02it/s] 93%|█████████▎| 9954/10692 [1:29:42<06:05,  2.02it/s] 93%|█████████▎| 9955/10692 [1:29:42<06:04,  2.02it/s] 93%|█████████▎| 9956/10692 [1:29:43<06:04,  2.02it/s] 93%|█████████▎| 9957/10692 [1:29:43<06:03,  2.02it/s] 93%|█████████▎| 9958/10692 [1:29:44<06:03,  2.02it/s] 93%|█████████▎| 9959/10692 [1:29:44<06:02,  2.02it/s] 93%|█████████▎| 9960/10692 [1:29:45<06:02,  2.02it/s] 93%|█████████▎| 9961/10692 [1:29:45<06:01,  2.02it/s] 93%|█████████▎| 9962/10692 [1:29:46<06:01,  2.02it/s] 93%|█████████▎| 9963/10692 [1:29:46<06:00,  2.02it/s] 93%|█████████▎| 9964/10692 [1:29:47<06:00,  2.02it/s] 93%|█████████▎| 9965/10692 [1:29:47<05:59,  2.02it/s] 93%|█████████▎| 9966/10692 [1:29:48<05:59,  2.02it/s] 93%|█████████▎| 9967/10692 [1:29:48<05:58,  2.02it/s] 93%|█████████▎| 9968/10692 [1:29:49<05:57,  2.02it/s] 93%|█████████▎| 9969/10692 [1:29:49<05:57,  2.02it/s] 93%|█████████▎| 9970/10692 [1:29:50<05:56,  2.02it/s] 93%|█████████▎| 9971/10692 [1:29:50<05:56,  2.02it/s] 93%|█████████▎| 9972/10692 [1:29:51<05:55,  2.02it/s] 93%|█████████▎| 9973/10692 [1:29:51<05:55,  2.02it/s] 93%|█████████▎| 9974/10692 [1:29:52<05:55,  2.02it/s] 93%|█████████▎| 9975/10692 [1:29:52<05:54,  2.02it/s]{'loss': 3.5585, 'grad_norm': 0.19369922578334808, 'learning_rate': 1.363838836416964e-05, 'epoch': 0.93}
+                                                       93%|█████████▎| 9975/10692 [1:29:52<05:54,  2.02it/s] 93%|█████████▎| 9976/10692 [1:29:53<05:54,  2.02it/s] 93%|█████████▎| 9977/10692 [1:29:53<05:54,  2.02it/s] 93%|█████████▎| 9978/10692 [1:29:54<05:53,  2.02it/s] 93%|█████████▎| 9979/10692 [1:29:54<05:53,  2.02it/s] 93%|█████████▎| 9980/10692 [1:29:55<05:52,  2.02it/s] 93%|█████████▎| 9981/10692 [1:29:55<05:51,  2.02it/s] 93%|█████████▎| 9982/10692 [1:29:56<05:51,  2.02it/s] 93%|█████████▎| 9983/10692 [1:29:56<05:50,  2.02it/s] 93%|█████████▎| 9984/10692 [1:29:57<05:50,  2.02it/s] 93%|█████████▎| 9985/10692 [1:29:57<05:49,  2.02it/s] 93%|█████████▎| 9986/10692 [1:29:58<05:49,  2.02it/s] 93%|█████████▎| 9987/10692 [1:29:58<05:49,  2.02it/s] 93%|█████████▎| 9988/10692 [1:29:59<05:48,  2.02it/s] 93%|█████████▎| 9989/10692 [1:29:59<05:48,  2.02it/s] 93%|█████████▎| 9990/10692 [1:29:59<05:47,  2.02it/s] 93%|█████████▎| 9991/10692 [1:30:00<05:46,  2.02it/s] 93%|█████████▎| 9992/10692 [1:30:00<05:46,  2.02it/s] 93%|█████████▎| 9993/10692 [1:30:01<05:46,  2.02it/s] 93%|█████████▎| 9994/10692 [1:30:01<05:45,  2.02it/s] 93%|█████████▎| 9995/10692 [1:30:02<05:45,  2.02it/s] 93%|█████████▎| 9996/10692 [1:30:02<05:44,  2.02it/s] 93%|█████████▎| 9997/10692 [1:30:03<05:44,  2.02it/s] 94%|█████████▎| 9998/10692 [1:30:03<05:43,  2.02it/s] 94%|█████████▎| 9999/10692 [1:30:04<05:43,  2.02it/s] 94%|█████████▎| 10000/10692 [1:30:04<05:42,  2.02it/s]{'loss': 3.5613, 'grad_norm': 0.1877155303955078, 'learning_rate': 1.270787551642244e-05, 'epoch': 0.94}
+                                                        94%|█████████▎| 10000/10692 [1:30:04<05:42,  2.02it/s] 94%|█████████▎| 10001/10692 [1:30:05<05:42,  2.02it/s] 94%|█████████▎| 10002/10692 [1:30:05<05:41,  2.02it/s] 94%|█████████▎| 10003/10692 [1:30:06<05:41,  2.02it/s] 94%|█████████▎| 10004/10692 [1:30:06<05:40,  2.02it/s] 94%|█████████▎| 10005/10692 [1:30:07<05:40,  2.02it/s] 94%|█████████▎| 10006/10692 [1:30:07<05:39,  2.02it/s] 94%|█████████▎| 10007/10692 [1:30:08<05:39,  2.02it/s] 94%|█████████▎| 10008/10692 [1:30:08<05:38,  2.02it/s] 94%|█████████▎| 10009/10692 [1:30:09<05:38,  2.02it/s] 94%|█████████▎| 10010/10692 [1:30:09<05:37,  2.02it/s] 94%|█████████▎| 10011/10692 [1:30:10<05:37,  2.02it/s] 94%|█████████▎| 10012/10692 [1:30:10<05:36,  2.02it/s] 94%|█████████▎| 10013/10692 [1:30:11<05:36,  2.02it/s] 94%|█████████▎| 10014/10692 [1:30:11<05:35,  2.02it/s] 94%|█████████▎| 10015/10692 [1:30:12<05:35,  2.02it/s] 94%|█████████▎| 10016/10692 [1:30:12<05:34,  2.02it/s] 94%|█████████▎| 10017/10692 [1:30:13<05:34,  2.02it/s] 94%|█████████▎| 10018/10692 [1:30:13<05:33,  2.02it/s] 94%|█████████▎| 10019/10692 [1:30:14<05:33,  2.02it/s] 94%|█████████▎| 10020/10692 [1:30:14<05:32,  2.02it/s] 94%|█████████▎| 10021/10692 [1:30:15<05:32,  2.02it/s] 94%|█████████▎| 10022/10692 [1:30:15<05:31,  2.02it/s] 94%|█████████▎| 10023/10692 [1:30:16<05:31,  2.02it/s] 94%|█████████▍| 10024/10692 [1:30:16<05:30,  2.02it/s] 94%|█████████▍| 10025/10692 [1:30:17<05:30,  2.02it/s]{'loss': 3.5642, 'grad_norm': 0.19170023500919342, 'learning_rate': 1.1809829210990441e-05, 'epoch': 0.94}
+                                                        94%|█████████▍| 10025/10692 [1:30:17<05:30,  2.02it/s] 94%|█████████▍| 10026/10692 [1:30:17<05:30,  2.02it/s] 94%|█████████▍| 10027/10692 [1:30:18<05:29,  2.02it/s] 94%|█████████▍| 10028/10692 [1:30:18<05:29,  2.02it/s] 94%|█████████▍| 10029/10692 [1:30:19<05:28,  2.02it/s] 94%|█████████▍| 10030/10692 [1:30:19<05:27,  2.02it/s] 94%|█████████▍| 10031/10692 [1:30:20<05:27,  2.02it/s] 94%|█████████▍| 10032/10692 [1:30:20<05:26,  2.02it/s] 94%|█████████▍| 10033/10692 [1:30:21<05:25,  2.02it/s] 94%|█████████▍| 10034/10692 [1:30:21<05:26,  2.02it/s] 94%|█████████▍| 10035/10692 [1:30:22<05:25,  2.02it/s] 94%|█████████▍| 10036/10692 [1:30:22<05:24,  2.02it/s] 94%|█████████▍| 10037/10692 [1:30:23<05:24,  2.02it/s] 94%|█████████▍| 10038/10692 [1:30:23<05:23,  2.02it/s] 94%|█████████▍| 10039/10692 [1:30:24<05:23,  2.02it/s] 94%|█████████▍| 10040/10692 [1:30:24<05:22,  2.02it/s] 94%|█████████▍| 10041/10692 [1:30:25<05:22,  2.02it/s] 94%|█████████▍| 10042/10692 [1:30:25<05:22,  2.02it/s] 94%|█████████▍| 10043/10692 [1:30:26<05:21,  2.02it/s] 94%|█████████▍| 10044/10692 [1:30:26<05:20,  2.02it/s] 94%|█████████▍| 10045/10692 [1:30:27<05:20,  2.02it/s] 94%|█████████▍| 10046/10692 [1:30:27<05:19,  2.02it/s] 94%|█████████▍| 10047/10692 [1:30:28<05:19,  2.02it/s] 94%|█████████▍| 10048/10692 [1:30:28<05:18,  2.02it/s] 94%|█████████▍| 10049/10692 [1:30:29<05:18,  2.02it/s] 94%|█████████▍| 10050/10692 [1:30:29<05:17,  2.02it/s]{'loss': 3.556, 'grad_norm': 0.19096043705940247, 'learning_rate': 1.0944309281507025e-05, 'epoch': 0.94}
+                                                        94%|█████████▍| 10050/10692 [1:30:29<05:17,  2.02it/s] 94%|█████████▍| 10051/10692 [1:30:30<05:17,  2.02it/s] 94%|█████████▍| 10052/10692 [1:30:30<05:17,  2.02it/s] 94%|█████████▍| 10053/10692 [1:30:31<05:16,  2.02it/s] 94%|█████████▍| 10054/10692 [1:30:31<05:16,  2.01it/s] 94%|█████████▍| 10055/10692 [1:30:32<05:15,  2.02it/s] 94%|█████████▍| 10056/10692 [1:30:32<05:14,  2.02it/s] 94%|█████████▍| 10057/10692 [1:30:33<05:14,  2.02it/s] 94%|█████████▍| 10058/10692 [1:30:33<05:13,  2.02it/s] 94%|█████████▍| 10059/10692 [1:30:34<05:13,  2.02it/s] 94%|█████████▍| 10060/10692 [1:30:34<05:12,  2.02it/s] 94%|█████████▍| 10061/10692 [1:30:35<05:12,  2.02it/s] 94%|█████████▍| 10062/10692 [1:30:35<05:11,  2.02it/s] 94%|█████████▍| 10063/10692 [1:30:36<05:11,  2.02it/s] 94%|█████████▍| 10064/10692 [1:30:36<05:10,  2.02it/s] 94%|█████████▍| 10065/10692 [1:30:37<05:09,  2.02it/s] 94%|█████████▍| 10066/10692 [1:30:37<05:09,  2.02it/s] 94%|█████████▍| 10067/10692 [1:30:38<05:08,  2.03it/s] 94%|█████████▍| 10068/10692 [1:30:38<05:08,  2.02it/s] 94%|█████████▍| 10069/10692 [1:30:39<05:07,  2.02it/s] 94%|█████████▍| 10070/10692 [1:30:39<05:07,  2.02it/s] 94%|█████████▍| 10071/10692 [1:30:40<05:06,  2.02it/s] 94%|█████████▍| 10072/10692 [1:30:40<05:06,  2.02it/s] 94%|█████████▍| 10073/10692 [1:30:41<05:05,  2.02it/s] 94%|█████████▍| 10074/10692 [1:30:41<05:05,  2.03it/s] 94%|█████████▍| 10075/10692 [1:30:42<05:05,  2.02it/s]{'loss': 3.5607, 'grad_norm': 0.19063308835029602, 'learning_rate': 1.0111373394488865e-05, 'epoch': 0.94}                                                       
+ 94%|█████████▍| 10075/10692 [1:30:42<05:05,  2.02it/s] 94%|█████████▍| 10076/10692 [1:30:42<05:04,  2.02it/s] 94%|█████████▍| 10077/10692 [1:30:43<05:04,  2.02it/s] 94%|█████████▍| 10078/10692 [1:30:43<05:04,  2.02it/s] 94%|█████████▍| 10079/10692 [1:30:44<05:03,  2.02it/s] 94%|█████████▍| 10080/10692 [1:30:44<05:02,  2.02it/s] 94%|█████████▍| 10081/10692 [1:30:45<05:02,  2.02it/s] 94%|█████████▍| 10082/10692 [1:30:45<05:01,  2.02it/s] 94%|█████████▍| 10083/10692 [1:30:46<05:01,  2.02it/s] 94%|█████████▍| 10084/10692 [1:30:46<05:00,  2.02it/s] 94%|█████████▍| 10085/10692 [1:30:47<05:00,  2.02it/s] 94%|█████████▍| 10086/10692 [1:30:47<04:59,  2.02it/s] 94%|█████████▍| 10087/10692 [1:30:48<04:59,  2.02it/s] 94%|█████████▍| 10088/10692 [1:30:48<04:58,  2.02it/s] 94%|█████████▍| 10089/10692 [1:30:48<04:58,  2.02it/s] 94%|█████████▍| 10090/10692 [1:30:49<04:57,  2.02it/s] 94%|█████████▍| 10091/10692 [1:30:49<04:57,  2.02it/s] 94%|█████████▍| 10092/10692 [1:30:50<04:56,  2.02it/s] 94%|█████████▍| 10093/10692 [1:30:50<04:56,  2.02it/s] 94%|█████████▍| 10094/10692 [1:30:51<04:55,  2.02it/s] 94%|█████████▍| 10095/10692 [1:30:51<04:55,  2.02it/s] 94%|█████████▍| 10096/10692 [1:30:52<04:54,  2.02it/s] 94%|█████████▍| 10097/10692 [1:30:52<04:54,  2.02it/s] 94%|█████████▍| 10098/10692 [1:30:53<04:53,  2.02it/s] 94%|█████████▍| 10099/10692 [1:30:53<04:52,  2.03it/s] 94%|█████████▍| 10100/10692 [1:30:54<04:52,  2.02it/s]{'loss': 3.5517, 'grad_norm': 0.19063101708889008, 'learning_rate': 9.311077045493721e-06, 'epoch': 0.94}
+                                                        94%|█████████▍| 10100/10692 [1:30:54<04:52,  2.02it/s] 94%|█████████▍| 10101/10692 [1:30:54<04:52,  2.02it/s] 94%|█████████▍| 10102/10692 [1:30:55<04:52,  2.02it/s] 94%|█████████▍| 10103/10692 [1:30:55<04:51,  2.02it/s] 95%|█████████▍| 10104/10692 [1:30:56<04:51,  2.02it/s] 95%|█████████▍| 10105/10692 [1:30:56<04:50,  2.02it/s] 95%|█████████▍| 10106/10692 [1:30:57<04:49,  2.02it/s] 95%|█████████▍| 10107/10692 [1:30:57<04:49,  2.02it/s] 95%|█████████▍| 10108/10692 [1:30:58<04:48,  2.02it/s] 95%|█████████▍| 10109/10692 [1:30:58<04:48,  2.02it/s] 95%|█████████▍| 10110/10692 [1:30:59<04:47,  2.02it/s] 95%|█████████▍| 10111/10692 [1:30:59<04:47,  2.02it/s] 95%|█████████▍| 10112/10692 [1:31:00<04:46,  2.02it/s] 95%|█████████▍| 10113/10692 [1:31:00<04:46,  2.02it/s] 95%|█████████▍| 10114/10692 [1:31:01<04:47,  2.01it/s] 95%|█████████▍| 10115/10692 [1:31:01<04:46,  2.01it/s] 95%|█████████▍| 10116/10692 [1:31:02<04:45,  2.01it/s] 95%|█████████▍| 10117/10692 [1:31:02<04:45,  2.02it/s] 95%|█████████▍| 10118/10692 [1:31:03<04:44,  2.01it/s] 95%|█████████▍| 10119/10692 [1:31:03<04:43,  2.02it/s] 95%|█████████▍| 10120/10692 [1:31:04<04:43,  2.02it/s] 95%|█████████▍| 10121/10692 [1:31:04<04:42,  2.02it/s] 95%|█████████▍| 10122/10692 [1:31:05<04:42,  2.02it/s] 95%|█████████▍| 10123/10692 [1:31:05<04:41,  2.02it/s] 95%|█████████▍| 10124/10692 [1:31:06<04:40,  2.02it/s] 95%|█████████▍| 10125/10692 [1:31:06<04:40,  2.02it/s]{'loss': 3.5629, 'grad_norm': 0.18899910151958466, 'learning_rate': 8.543473555422898e-06, 'epoch': 0.95}
+                                                        95%|█████████▍| 10125/10692 [1:31:06<04:40,  2.02it/s] 95%|█████████▍| 10126/10692 [1:31:07<04:40,  2.02it/s] 95%|█████████▍| 10127/10692 [1:31:07<04:39,  2.02it/s] 95%|█████████▍| 10128/10692 [1:31:08<04:39,  2.02it/s] 95%|█████████▍| 10129/10692 [1:31:08<04:38,  2.02it/s] 95%|█████████▍| 10130/10692 [1:31:09<04:38,  2.02it/s] 95%|█████████▍| 10131/10692 [1:31:09<04:37,  2.02it/s] 95%|█████████▍| 10132/10692 [1:31:10<04:36,  2.02it/s] 95%|█████████▍| 10133/10692 [1:31:10<04:36,  2.02it/s] 95%|█████████▍| 10134/10692 [1:31:11<04:35,  2.02it/s] 95%|█████████▍| 10135/10692 [1:31:11<04:35,  2.02it/s] 95%|█████████▍| 10136/10692 [1:31:12<04:35,  2.02it/s] 95%|█████████▍| 10137/10692 [1:31:12<04:34,  2.02it/s] 95%|█████████▍| 10138/10692 [1:31:13<04:33,  2.02it/s] 95%|█████████▍| 10139/10692 [1:31:13<04:33,  2.02it/s] 95%|█████████▍| 10140/10692 [1:31:14<04:32,  2.02it/s] 95%|█████████▍| 10141/10692 [1:31:14<04:32,  2.02it/s] 95%|█████████▍| 10142/10692 [1:31:15<04:31,  2.03it/s] 95%|█████████▍| 10143/10692 [1:31:15<04:31,  2.02it/s] 95%|█████████▍| 10144/10692 [1:31:16<04:30,  2.02it/s] 95%|█████████▍| 10145/10692 [1:31:16<04:30,  2.02it/s] 95%|█████████▍| 10146/10692 [1:31:17<04:29,  2.03it/s] 95%|█████████▍| 10147/10692 [1:31:17<04:29,  2.03it/s] 95%|█████████▍| 10148/10692 [1:31:18<04:28,  2.03it/s] 95%|█████████▍| 10149/10692 [1:31:18<04:28,  2.02it/s] 95%|█████████▍| 10150/10692 [1:31:19<04:27,  2.02it/s]                                                       {'loss': 3.5697, 'grad_norm': 0.19142334163188934, 'learning_rate': 7.8086140669687e-06, 'epoch': 0.95}
+ 95%|█████████▍| 10150/10692 [1:31:19<04:27,  2.02it/s] 95%|█████████▍| 10151/10692 [1:31:19<04:28,  2.02it/s] 95%|█████████▍| 10152/10692 [1:31:20<04:27,  2.02it/s] 95%|█████████▍| 10153/10692 [1:31:20<04:26,  2.02it/s] 95%|█████████▍| 10154/10692 [1:31:21<04:26,  2.02it/s] 95%|█████████▍| 10155/10692 [1:31:21<04:25,  2.02it/s] 95%|█████████▍| 10156/10692 [1:31:22<04:25,  2.02it/s] 95%|█████████▍| 10157/10692 [1:31:22<04:24,  2.02it/s] 95%|█████████▌| 10158/10692 [1:31:23<04:24,  2.02it/s] 95%|█████████▌| 10159/10692 [1:31:23<04:23,  2.02it/s] 95%|█████████▌| 10160/10692 [1:31:24<04:23,  2.02it/s] 95%|█████████▌| 10161/10692 [1:31:24<04:22,  2.02it/s] 95%|█████████▌| 10162/10692 [1:31:25<04:21,  2.02it/s] 95%|█████████▌| 10163/10692 [1:31:25<04:21,  2.02it/s] 95%|█████████▌| 10164/10692 [1:31:26<04:20,  2.02it/s] 95%|█████████▌| 10165/10692 [1:31:26<04:20,  2.02it/s] 95%|█████████▌| 10166/10692 [1:31:27<04:19,  2.02it/s] 95%|█████████▌| 10167/10692 [1:31:27<04:19,  2.03it/s] 95%|█████████▌| 10168/10692 [1:31:28<04:18,  2.02it/s] 95%|█████████▌| 10169/10692 [1:31:28<04:18,  2.02it/s] 95%|█████████▌| 10170/10692 [1:31:29<04:18,  2.02it/s] 95%|█████████▌| 10171/10692 [1:31:29<04:17,  2.02it/s] 95%|█████████▌| 10172/10692 [1:31:30<04:17,  2.02it/s] 95%|█████████▌| 10173/10692 [1:31:30<04:16,  2.02it/s] 95%|█████████▌| 10174/10692 [1:31:31<04:16,  2.02it/s] 95%|█████████▌| 10175/10692 [1:31:31<04:16,  2.02it/s]{'loss': 3.5716, 'grad_norm': 0.19327250123023987, 'learning_rate': 7.106547541207042e-06, 'epoch': 0.95}
+                                                        95%|█████████▌| 10175/10692 [1:31:31<04:16,  2.02it/s] 95%|█████████▌| 10176/10692 [1:31:32<04:16,  2.01it/s] 95%|█████████▌| 10177/10692 [1:31:32<04:14,  2.02it/s] 95%|█████████▌| 10178/10692 [1:31:33<04:14,  2.02it/s] 95%|█████████▌| 10179/10692 [1:31:33<04:13,  2.02it/s] 95%|█████████▌| 10180/10692 [1:31:34<04:13,  2.02it/s] 95%|█████████▌| 10181/10692 [1:31:34<04:12,  2.02it/s] 95%|█████████▌| 10182/10692 [1:31:34<04:12,  2.02it/s] 95%|█████████▌| 10183/10692 [1:31:35<04:11,  2.02it/s] 95%|█████████▌| 10184/10692 [1:31:35<04:11,  2.02it/s] 95%|█████████▌| 10185/10692 [1:31:36<04:11,  2.02it/s] 95%|█████████▌| 10186/10692 [1:31:36<04:10,  2.02it/s] 95%|█████████▌| 10187/10692 [1:31:37<04:10,  2.02it/s] 95%|█████████▌| 10188/10692 [1:31:37<04:09,  2.02it/s] 95%|█████████▌| 10189/10692 [1:31:38<04:09,  2.02it/s] 95%|█████████▌| 10190/10692 [1:31:38<04:08,  2.02it/s] 95%|█████████▌| 10191/10692 [1:31:39<04:07,  2.02it/s] 95%|█████████▌| 10192/10692 [1:31:39<04:07,  2.02it/s] 95%|█████████▌| 10193/10692 [1:31:40<04:06,  2.02it/s] 95%|█████████▌| 10194/10692 [1:31:40<04:05,  2.02it/s] 95%|█████████▌| 10195/10692 [1:31:41<04:05,  2.02it/s] 95%|█████████▌| 10196/10692 [1:31:41<04:05,  2.02it/s] 95%|█████████▌| 10197/10692 [1:31:42<04:04,  2.02it/s] 95%|█████████▌| 10198/10692 [1:31:42<04:03,  2.03it/s] 95%|█████████▌| 10199/10692 [1:31:43<04:03,  2.02it/s] 95%|█████████▌| 10200/10692 [1:31:43<04:03,  2.02it/s]{'loss': 3.5564, 'grad_norm': 0.186780646443367, 'learning_rate': 6.437320754335174e-06, 'epoch': 0.95}
+                                                        95%|█████████▌| 10200/10692 [1:31:43<04:03,  2.02it/s] 95%|█████████▌| 10201/10692 [1:31:44<04:03,  2.02it/s] 95%|█████████▌| 10202/10692 [1:31:44<04:02,  2.02it/s] 95%|█████████▌| 10203/10692 [1:31:45<04:01,  2.02it/s] 95%|█████████▌| 10204/10692 [1:31:45<04:01,  2.02it/s] 95%|█████████▌| 10205/10692 [1:31:46<04:01,  2.02it/s] 95%|█████████▌| 10206/10692 [1:31:46<04:00,  2.02it/s] 95%|█████████▌| 10207/10692 [1:31:47<04:00,  2.02it/s] 95%|█████████▌| 10208/10692 [1:31:47<03:59,  2.02it/s] 95%|█████████▌| 10209/10692 [1:31:48<03:59,  2.02it/s] 95%|█████████▌| 10210/10692 [1:31:48<03:58,  2.02it/s] 96%|█████████▌| 10211/10692 [1:31:49<03:58,  2.02it/s] 96%|█████████▌| 10212/10692 [1:31:49<03:57,  2.02it/s] 96%|█████████▌| 10213/10692 [1:31:50<03:57,  2.02it/s] 96%|█████████▌| 10214/10692 [1:31:50<03:56,  2.02it/s] 96%|█████████▌| 10215/10692 [1:31:51<03:56,  2.02it/s] 96%|█████████▌| 10216/10692 [1:31:51<03:55,  2.02it/s] 96%|█████████▌| 10217/10692 [1:31:52<03:55,  2.02it/s] 96%|█████████▌| 10218/10692 [1:31:52<03:54,  2.02it/s] 96%|█████████▌| 10219/10692 [1:31:53<03:54,  2.02it/s] 96%|█████████▌| 10220/10692 [1:31:53<03:53,  2.02it/s] 96%|█████████▌| 10221/10692 [1:31:54<03:52,  2.02it/s] 96%|█████████▌| 10222/10692 [1:31:54<03:52,  2.02it/s] 96%|█████████▌| 10223/10692 [1:31:55<03:51,  2.02it/s] 96%|█████████▌| 10224/10692 [1:31:55<03:51,  2.02it/s] 96%|█████████▌| 10225/10692 [1:31:56<03:50,  2.02it/s]                                                       {'loss': 3.5672, 'grad_norm': 0.19235534965991974, 'learning_rate': 5.800978294555392e-06, 'epoch': 0.96}
+ 96%|█████████▌| 10225/10692 [1:31:56<03:50,  2.02it/s] 96%|█████████▌| 10226/10692 [1:31:56<03:50,  2.02it/s] 96%|█████████▌| 10227/10692 [1:31:57<03:50,  2.02it/s] 96%|█████████▌| 10228/10692 [1:31:57<03:49,  2.02it/s] 96%|█████████▌| 10229/10692 [1:31:58<03:49,  2.02it/s] 96%|█████████▌| 10230/10692 [1:31:58<03:48,  2.02it/s] 96%|█████████▌| 10231/10692 [1:31:59<03:47,  2.02it/s] 96%|█████████▌| 10232/10692 [1:31:59<03:47,  2.02it/s] 96%|█████████▌| 10233/10692 [1:32:00<03:47,  2.02it/s] 96%|█████████▌| 10234/10692 [1:32:00<03:46,  2.02it/s] 96%|█████████▌| 10235/10692 [1:32:01<03:46,  2.01it/s] 96%|█████████▌| 10236/10692 [1:32:01<03:46,  2.02it/s] 96%|█████████▌| 10237/10692 [1:32:02<03:45,  2.02it/s] 96%|█████████▌| 10238/10692 [1:32:02<03:45,  2.02it/s] 96%|█████████▌| 10239/10692 [1:32:03<03:44,  2.02it/s] 96%|█████████▌| 10240/10692 [1:32:03<03:43,  2.02it/s] 96%|█████████▌| 10241/10692 [1:32:04<03:43,  2.02it/s] 96%|█████████▌| 10242/10692 [1:32:04<03:42,  2.02it/s] 96%|█████████▌| 10243/10692 [1:32:05<03:42,  2.02it/s] 96%|█████████▌| 10244/10692 [1:32:05<03:41,  2.02it/s] 96%|█████████▌| 10245/10692 [1:32:06<03:40,  2.02it/s] 96%|█████████▌| 10246/10692 [1:32:06<03:40,  2.02it/s] 96%|█████████▌| 10247/10692 [1:32:07<03:39,  2.02it/s] 96%|█████████▌| 10248/10692 [1:32:07<03:39,  2.02it/s] 96%|█████████▌| 10249/10692 [1:32:08<03:38,  2.02it/s] 96%|█████████▌| 10250/10692 [1:32:08<03:38,  2.02it/s]{'loss': 3.5687, 'grad_norm': 0.18963174521923065, 'learning_rate': 5.1975625591040294e-06, 'epoch': 0.96}
+                                                        96%|█████████▌| 10250/10692 [1:32:08<03:38,  2.02it/s] 96%|█████████▌| 10251/10692 [1:32:09<03:38,  2.02it/s] 96%|█████████▌| 10252/10692 [1:32:09<03:38,  2.02it/s] 96%|█████████▌| 10253/10692 [1:32:10<03:37,  2.02it/s] 96%|█████████▌| 10254/10692 [1:32:10<03:36,  2.02it/s] 96%|█████████▌| 10255/10692 [1:32:11<03:36,  2.02it/s] 96%|█████████▌| 10256/10692 [1:32:11<03:35,  2.02it/s] 96%|█████████▌| 10257/10692 [1:32:12<03:35,  2.02it/s] 96%|█████████▌| 10258/10692 [1:32:12<03:34,  2.02it/s] 96%|█████████▌| 10259/10692 [1:32:13<03:34,  2.02it/s] 96%|█████████▌| 10260/10692 [1:32:13<03:33,  2.02it/s] 96%|█████████▌| 10261/10692 [1:32:14<03:33,  2.02it/s] 96%|█████████▌| 10262/10692 [1:32:14<03:32,  2.02it/s] 96%|█████████▌| 10263/10692 [1:32:15<03:32,  2.02it/s] 96%|█████████▌| 10264/10692 [1:32:15<03:31,  2.02it/s] 96%|█████████▌| 10265/10692 [1:32:16<03:31,  2.02it/s] 96%|█████████▌| 10266/10692 [1:32:16<03:30,  2.02it/s] 96%|█████████▌| 10267/10692 [1:32:17<03:30,  2.02it/s] 96%|█████████▌| 10268/10692 [1:32:17<03:29,  2.02it/s] 96%|█████████▌| 10269/10692 [1:32:18<03:29,  2.02it/s] 96%|█████████▌| 10270/10692 [1:32:18<03:29,  2.02it/s] 96%|█████████▌| 10271/10692 [1:32:19<03:28,  2.02it/s] 96%|█████████▌| 10272/10692 [1:32:19<03:28,  2.01it/s] 96%|█████████▌| 10273/10692 [1:32:20<03:27,  2.02it/s] 96%|█████████▌| 10274/10692 [1:32:20<03:27,  2.01it/s] 96%|█████████▌| 10275/10692 [1:32:21<03:26,  2.02it/s]{'loss': 3.5644, 'grad_norm': 0.18971414864063263, 'learning_rate': 4.6271137514269365e-06, 'epoch': 0.96}
+                                                        96%|█████████▌| 10275/10692 [1:32:21<03:26,  2.02it/s] 96%|█████████▌| 10276/10692 [1:32:21<03:26,  2.01it/s] 96%|█████████▌| 10277/10692 [1:32:22<03:25,  2.02it/s] 96%|█████████▌| 10278/10692 [1:32:22<03:25,  2.02it/s] 96%|█████████▌| 10279/10692 [1:32:23<03:24,  2.02it/s] 96%|█████████▌| 10280/10692 [1:32:23<03:24,  2.02it/s] 96%|█████████▌| 10281/10692 [1:32:23<03:23,  2.02it/s] 96%|█████████▌| 10282/10692 [1:32:24<03:23,  2.02it/s] 96%|█████████▌| 10283/10692 [1:32:24<03:22,  2.02it/s] 96%|█████████▌| 10284/10692 [1:32:25<03:22,  2.02it/s] 96%|█████████▌| 10285/10692 [1:32:25<03:21,  2.02it/s] 96%|█████████▌| 10286/10692 [1:32:26<03:21,  2.02it/s] 96%|█████████▌| 10287/10692 [1:32:26<03:20,  2.02it/s] 96%|█████████▌| 10288/10692 [1:32:27<03:20,  2.02it/s] 96%|█████████▌| 10289/10692 [1:32:27<03:19,  2.02it/s] 96%|█████████▌| 10290/10692 [1:32:28<03:19,  2.02it/s] 96%|█████████▌| 10291/10692 [1:32:28<03:18,  2.02it/s] 96%|█████████▋| 10292/10692 [1:32:29<03:18,  2.02it/s] 96%|█████████▋| 10293/10692 [1:32:29<03:17,  2.02it/s] 96%|█████████▋| 10294/10692 [1:32:30<03:16,  2.02it/s] 96%|█████████▋| 10295/10692 [1:32:30<03:16,  2.02it/s] 96%|█████████▋| 10296/10692 [1:32:31<03:16,  2.01it/s] 96%|█████████▋| 10297/10692 [1:32:31<03:15,  2.02it/s] 96%|█████████▋| 10298/10692 [1:32:32<03:15,  2.02it/s] 96%|█████████▋| 10299/10692 [1:32:32<03:14,  2.02it/s] 96%|█████████▋| 10300/10692 [1:32:33<03:14,  2.02it/s]{'loss': 3.5596, 'grad_norm': 0.18883894383907318, 'learning_rate': 4.089669878500679e-06, 'epoch': 0.96}
+                                                        96%|█████████▋| 10300/10692 [1:32:33<03:14,  2.02it/s] 96%|█████████▋| 10301/10692 [1:32:33<03:14,  2.01it/s] 96%|█████████▋| 10302/10692 [1:32:34<03:13,  2.02it/s] 96%|█████████▋| 10303/10692 [1:32:34<03:12,  2.02it/s] 96%|█████████▋| 10304/10692 [1:32:35<03:12,  2.02it/s] 96%|█████████▋| 10305/10692 [1:32:35<03:11,  2.02it/s] 96%|█████████▋| 10306/10692 [1:32:36<03:11,  2.02it/s] 96%|█████████▋| 10307/10692 [1:32:36<03:10,  2.02it/s] 96%|█████████▋| 10308/10692 [1:32:37<03:10,  2.02it/s] 96%|█████████▋| 10309/10692 [1:32:37<03:09,  2.02it/s] 96%|█████████▋| 10310/10692 [1:32:38<03:09,  2.02it/s] 96%|█████████▋| 10311/10692 [1:32:38<03:08,  2.02it/s] 96%|█████████▋| 10312/10692 [1:32:39<03:08,  2.02it/s] 96%|█████████▋| 10313/10692 [1:32:39<03:07,  2.02it/s] 96%|█████████▋| 10314/10692 [1:32:40<03:07,  2.02it/s] 96%|█████████▋| 10315/10692 [1:32:40<03:06,  2.02it/s] 96%|█████████▋| 10316/10692 [1:32:41<03:06,  2.02it/s] 96%|█████████▋| 10317/10692 [1:32:41<03:05,  2.02it/s] 97%|█████████▋| 10318/10692 [1:32:42<03:05,  2.02it/s] 97%|█████████▋| 10319/10692 [1:32:42<03:04,  2.02it/s] 97%|█████████▋| 10320/10692 [1:32:43<03:04,  2.02it/s] 97%|█████████▋| 10321/10692 [1:32:43<03:03,  2.02it/s] 97%|█████████▋| 10322/10692 [1:32:44<03:03,  2.02it/s] 97%|█████████▋| 10323/10692 [1:32:44<03:02,  2.02it/s] 97%|█████████▋| 10324/10692 [1:32:45<03:02,  2.02it/s] 97%|█████████▋| 10325/10692 [1:32:45<03:02,  2.01it/s]{'loss': 3.5644, 'grad_norm': 0.18870337307453156, 'learning_rate': 3.585266748300231e-06, 'epoch': 0.97}
+                                                        97%|█████████▋| 10325/10692 [1:32:45<03:02,  2.01it/s] 97%|█████████▋| 10326/10692 [1:32:46<03:01,  2.01it/s] 97%|█████████▋| 10327/10692 [1:32:46<03:01,  2.01it/s] 97%|█████████▋| 10328/10692 [1:32:47<03:00,  2.01it/s] 97%|█████████▋| 10329/10692 [1:32:47<03:00,  2.02it/s] 97%|█████████▋| 10330/10692 [1:32:48<02:59,  2.02it/s] 97%|█████████▋| 10331/10692 [1:32:48<02:58,  2.02it/s] 97%|█████████▋| 10332/10692 [1:32:49<02:58,  2.02it/s] 97%|█████████▋| 10333/10692 [1:32:49<02:58,  2.02it/s] 97%|█████████▋| 10334/10692 [1:32:50<02:57,  2.02it/s] 97%|█████████▋| 10335/10692 [1:32:50<02:57,  2.02it/s] 97%|█████████▋| 10336/10692 [1:32:51<02:56,  2.02it/s] 97%|█████████▋| 10337/10692 [1:32:51<02:56,  2.02it/s] 97%|█████████▋| 10338/10692 [1:32:52<02:55,  2.02it/s] 97%|█████████▋| 10339/10692 [1:32:52<02:54,  2.02it/s] 97%|█████████▋| 10340/10692 [1:32:53<02:54,  2.02it/s] 97%|█████████▋| 10341/10692 [1:32:53<02:53,  2.02it/s] 97%|█████████▋| 10342/10692 [1:32:54<02:52,  2.02it/s] 97%|█████████▋| 10343/10692 [1:32:54<02:52,  2.02it/s] 97%|█████████▋| 10344/10692 [1:32:55<02:51,  2.02it/s] 97%|█████████▋| 10345/10692 [1:32:55<02:51,  2.02it/s] 97%|█████████▋| 10346/10692 [1:32:56<02:51,  2.02it/s] 97%|█████████▋| 10347/10692 [1:32:56<02:50,  2.02it/s] 97%|█████████▋| 10348/10692 [1:32:57<02:50,  2.02it/s] 97%|█████████▋| 10349/10692 [1:32:57<02:49,  2.02it/s] 97%|█████████▋| 10350/10692 [1:32:58<02:49,  2.02it/s]{'loss': 3.5661, 'grad_norm': 0.19033454358577728, 'learning_rate': 3.1139379674134937e-06, 'epoch': 0.97}
+                                                        97%|█████████▋| 10350/10692 [1:32:58<02:49,  2.02it/s] 97%|█████████▋| 10351/10692 [1:32:58<02:49,  2.02it/s] 97%|█████████▋| 10352/10692 [1:32:59<02:48,  2.02it/s] 97%|█████████▋| 10353/10692 [1:32:59<02:48,  2.02it/s] 97%|█████████▋| 10354/10692 [1:33:00<02:47,  2.02it/s] 97%|█████████▋| 10355/10692 [1:33:00<02:46,  2.02it/s] 97%|█████████▋| 10356/10692 [1:33:01<02:46,  2.01it/s] 97%|█████████▋| 10357/10692 [1:33:01<02:46,  2.02it/s] 97%|█████████▋| 10358/10692 [1:33:02<02:45,  2.02it/s] 97%|█████████▋| 10359/10692 [1:33:02<02:45,  2.02it/s] 97%|█████████▋| 10360/10692 [1:33:03<02:44,  2.02it/s] 97%|█████████▋| 10361/10692 [1:33:03<02:43,  2.02it/s] 97%|█████████▋| 10362/10692 [1:33:04<02:43,  2.02it/s] 97%|█████████▋| 10363/10692 [1:33:04<02:42,  2.02it/s] 97%|█████████▋| 10364/10692 [1:33:05<02:42,  2.02it/s] 97%|█████████▋| 10365/10692 [1:33:05<02:41,  2.02it/s] 97%|█████████▋| 10366/10692 [1:33:06<02:41,  2.02it/s] 97%|█████████▋| 10367/10692 [1:33:06<02:40,  2.02it/s] 97%|█████████▋| 10368/10692 [1:33:07<02:40,  2.02it/s] 97%|█████████▋| 10369/10692 [1:33:07<02:39,  2.02it/s] 97%|█████████▋| 10370/10692 [1:33:08<02:39,  2.02it/s] 97%|█████████▋| 10371/10692 [1:33:08<02:38,  2.02it/s] 97%|█████████▋| 10372/10692 [1:33:09<03:07,  1.70it/s] 97%|█████████▋| 10373/10692 [1:33:09<02:58,  1.79it/s] 97%|█████████▋| 10374/10692 [1:33:10<02:51,  1.85it/s] 97%|█████████▋| 10375/10692 [1:33:10<02:46,  1.90it/s]{'loss': 3.5684, 'grad_norm': 0.1878124326467514, 'learning_rate': 2.6757149388019206e-06, 'epoch': 0.97}
+                                                        97%|█████████▋| 10375/10692 [1:33:10<02:46,  1.90it/s] 97%|█████████▋| 10376/10692 [1:33:11<02:44,  1.92it/s] 97%|█████████▋| 10377/10692 [1:33:11<02:41,  1.95it/s] 97%|█████████▋| 10378/10692 [1:33:12<02:39,  1.97it/s] 97%|█████████▋| 10379/10692 [1:33:12<02:37,  1.99it/s] 97%|█████████▋| 10380/10692 [1:33:13<02:36,  2.00it/s] 97%|█████████▋| 10381/10692 [1:33:13<02:35,  2.00it/s] 97%|█████████▋| 10382/10692 [1:33:14<02:34,  2.01it/s] 97%|█████████▋| 10383/10692 [1:33:14<02:33,  2.02it/s] 97%|█████████▋| 10384/10692 [1:33:15<02:32,  2.01it/s] 97%|█████████▋| 10385/10692 [1:33:15<02:32,  2.02it/s] 97%|█████████▋| 10386/10692 [1:33:16<02:31,  2.02it/s] 97%|█████████▋| 10387/10692 [1:33:16<02:31,  2.02it/s] 97%|█████████▋| 10388/10692 [1:33:17<02:30,  2.02it/s] 97%|█████████▋| 10389/10692 [1:33:17<02:29,  2.02it/s] 97%|█████████▋| 10390/10692 [1:33:18<02:29,  2.02it/s] 97%|█████████▋| 10391/10692 [1:33:18<02:28,  2.02it/s] 97%|█████████▋| 10392/10692 [1:33:19<02:28,  2.02it/s] 97%|█████████▋| 10393/10692 [1:33:19<02:27,  2.02it/s] 97%|█████████▋| 10394/10692 [1:33:20<02:27,  2.02it/s] 97%|█████████▋| 10395/10692 [1:33:20<02:26,  2.02it/s] 97%|█████████▋| 10396/10692 [1:33:21<02:26,  2.02it/s] 97%|█████████▋| 10397/10692 [1:33:21<02:25,  2.02it/s] 97%|█████████▋| 10398/10692 [1:33:22<02:25,  2.02it/s] 97%|█████████▋| 10399/10692 [1:33:22<02:24,  2.02it/s] 97%|█████████▋| 10400/10692 [1:33:23<02:24,  2.02it/s]{'loss': 3.5551, 'grad_norm': 0.18978992104530334, 'learning_rate': 2.2706268597083025e-06, 'epoch': 0.97}
+                                                        97%|█████████▋| 10400/10692 [1:33:23<02:24,  2.02it/s] 97%|█████████▋| 10401/10692 [1:33:23<02:24,  2.02it/s] 97%|█████████▋| 10402/10692 [1:33:24<02:23,  2.02it/s] 97%|█████████▋| 10403/10692 [1:33:24<02:22,  2.02it/s] 97%|█████████▋| 10404/10692 [1:33:25<02:22,  2.02it/s] 97%|█████████▋| 10405/10692 [1:33:25<02:22,  2.02it/s] 97%|█████████▋| 10406/10692 [1:33:26<02:21,  2.02it/s] 97%|█████████▋| 10407/10692 [1:33:26<02:21,  2.02it/s] 97%|█████████▋| 10408/10692 [1:33:27<02:20,  2.02it/s] 97%|█████████▋| 10409/10692 [1:33:27<02:19,  2.02it/s] 97%|█████████▋| 10410/10692 [1:33:28<02:19,  2.02it/s] 97%|█████████▋| 10411/10692 [1:33:28<02:18,  2.02it/s] 97%|█████████▋| 10412/10692 [1:33:29<02:18,  2.02it/s] 97%|█████████▋| 10413/10692 [1:33:29<02:17,  2.02it/s] 97%|█████████▋| 10414/10692 [1:33:30<02:17,  2.02it/s] 97%|█████████▋| 10415/10692 [1:33:30<02:41,  1.72it/s] 97%|█████████▋| 10416/10692 [1:33:31<02:33,  1.80it/s] 97%|█████████▋| 10417/10692 [1:33:31<02:27,  1.86it/s] 97%|█████████▋| 10418/10692 [1:33:32<02:23,  1.90it/s] 97%|█████████▋| 10419/10692 [1:33:32<02:20,  1.94it/s] 97%|█████████▋| 10420/10692 [1:33:33<02:18,  1.96it/s] 97%|█████████▋| 10421/10692 [1:33:33<02:17,  1.98it/s] 97%|█████████▋| 10422/10692 [1:33:34<02:15,  1.99it/s] 97%|█████████▋| 10423/10692 [1:33:34<02:14,  2.00it/s] 97%|█████████▋| 10424/10692 [1:33:35<02:13,  2.01it/s] 98%|█████████▊| 10425/10692 [1:33:35<02:12,  2.01it/s]{'loss': 3.5675, 'grad_norm': 0.187654510140419, 'learning_rate': 1.89870071971171e-06, 'epoch': 0.97}
+                                                        98%|█████████▊| 10425/10692 [1:33:35<02:12,  2.01it/s] 98%|█████████▊| 10426/10692 [1:33:36<02:12,  2.01it/s] 98%|█████████▊| 10427/10692 [1:33:36<02:11,  2.01it/s] 98%|█████████▊| 10428/10692 [1:33:37<02:10,  2.02it/s] 98%|█████████▊| 10429/10692 [1:33:37<02:10,  2.02it/s] 98%|█████████▊| 10430/10692 [1:33:38<02:09,  2.02it/s] 98%|█████████▊| 10431/10692 [1:33:38<02:09,  2.02it/s] 98%|█████████▊| 10432/10692 [1:33:39<02:08,  2.02it/s] 98%|█████████▊| 10433/10692 [1:33:39<02:08,  2.02it/s] 98%|█████████▊| 10434/10692 [1:33:40<02:07,  2.02it/s] 98%|█████████▊| 10435/10692 [1:33:40<02:07,  2.02it/s] 98%|█████████▊| 10436/10692 [1:33:41<02:06,  2.02it/s] 98%|█████████▊| 10437/10692 [1:33:41<02:06,  2.02it/s] 98%|█████████▊| 10438/10692 [1:33:42<02:05,  2.02it/s] 98%|█████████▊| 10439/10692 [1:33:42<02:05,  2.02it/s] 98%|█████████▊| 10440/10692 [1:33:43<02:04,  2.02it/s] 98%|█████████▊| 10441/10692 [1:33:43<02:04,  2.02it/s] 98%|█████████▊| 10442/10692 [1:33:44<02:03,  2.02it/s] 98%|█████████▊| 10443/10692 [1:33:44<02:03,  2.02it/s] 98%|█████████▊| 10444/10692 [1:33:45<02:02,  2.02it/s] 98%|█████████▊| 10445/10692 [1:33:45<02:01,  2.02it/s] 98%|█████████▊| 10446/10692 [1:33:46<02:01,  2.02it/s] 98%|█████████▊| 10447/10692 [1:33:46<02:01,  2.02it/s] 98%|█████████▊| 10448/10692 [1:33:47<02:00,  2.03it/s] 98%|█████████▊| 10449/10692 [1:33:47<02:00,  2.02it/s] 98%|█████████▊| 10450/10692 [1:33:48<01:59,  2.03it/s]{'loss': 3.5555, 'grad_norm': 0.18741875886917114, 'learning_rate': 1.5599612989287692e-06, 'epoch': 0.98}
+                                                        98%|█████████▊| 10450/10692 [1:33:48<01:59,  2.03it/s] 98%|█████████▊| 10451/10692 [1:33:48<01:59,  2.02it/s] 98%|█████████▊| 10452/10692 [1:33:49<01:58,  2.02it/s] 98%|█████████▊| 10453/10692 [1:33:49<01:58,  2.02it/s] 98%|█████████▊| 10454/10692 [1:33:50<01:57,  2.02it/s] 98%|█████████▊| 10455/10692 [1:33:50<01:57,  2.02it/s] 98%|█████████▊| 10456/10692 [1:33:51<01:56,  2.02it/s] 98%|█████████▊| 10457/10692 [1:33:51<01:56,  2.02it/s] 98%|█████████▊| 10458/10692 [1:33:52<01:55,  2.02it/s] 98%|█████████▊| 10459/10692 [1:33:52<01:55,  2.02it/s] 98%|█████████▊| 10460/10692 [1:33:53<01:54,  2.02it/s] 98%|█████████▊| 10461/10692 [1:33:53<01:54,  2.02it/s] 98%|█████████▊| 10462/10692 [1:33:54<01:53,  2.02it/s] 98%|█████████▊| 10463/10692 [1:33:54<01:53,  2.02it/s] 98%|█████████▊| 10464/10692 [1:33:55<01:52,  2.02it/s] 98%|█████████▊| 10465/10692 [1:33:55<01:52,  2.02it/s] 98%|█████████▊| 10466/10692 [1:33:56<01:51,  2.02it/s] 98%|█████████▊| 10467/10692 [1:33:56<01:51,  2.02it/s] 98%|█████████▊| 10468/10692 [1:33:57<01:50,  2.02it/s] 98%|█████████▊| 10469/10692 [1:33:57<01:50,  2.02it/s] 98%|█████████▊| 10470/10692 [1:33:58<01:49,  2.02it/s] 98%|█████████▊| 10471/10692 [1:33:58<01:49,  2.02it/s] 98%|█████████▊| 10472/10692 [1:33:59<01:48,  2.02it/s] 98%|█████████▊| 10473/10692 [1:33:59<01:48,  2.02it/s] 98%|█████████▊| 10474/10692 [1:34:00<01:47,  2.02it/s] 98%|█████████▊| 10475/10692 [1:34:00<01:47,  2.02it/s]{'loss': 3.5551, 'grad_norm': 0.1890508085489273, 'learning_rate': 1.2544311663633123e-06, 'epoch': 0.98}
+                                                        98%|█████████▊| 10475/10692 [1:34:00<01:47,  2.02it/s] 98%|█████████▊| 10476/10692 [1:34:01<01:47,  2.01it/s] 98%|█████████▊| 10477/10692 [1:34:01<01:46,  2.01it/s] 98%|█████████▊| 10478/10692 [1:34:02<01:46,  2.01it/s] 98%|█████████▊| 10479/10692 [1:34:02<01:45,  2.02it/s] 98%|█████████▊| 10480/10692 [1:34:03<01:45,  2.02it/s] 98%|█████████▊| 10481/10692 [1:34:03<01:44,  2.02it/s] 98%|█████████▊| 10482/10692 [1:34:04<01:44,  2.02it/s] 98%|█████████▊| 10483/10692 [1:34:04<01:43,  2.02it/s] 98%|█████████▊| 10484/10692 [1:34:05<01:42,  2.02it/s] 98%|█████████▊| 10485/10692 [1:34:05<01:42,  2.02it/s] 98%|█████████▊| 10486/10692 [1:34:06<01:41,  2.02it/s] 98%|█████████▊| 10487/10692 [1:34:06<01:41,  2.02it/s] 98%|█████████▊| 10488/10692 [1:34:07<01:41,  2.02it/s] 98%|█████████▊| 10489/10692 [1:34:07<01:40,  2.02it/s] 98%|█████████▊| 10490/10692 [1:34:08<01:40,  2.02it/s] 98%|█████████▊| 10491/10692 [1:34:08<01:39,  2.02it/s] 98%|█████████▊| 10492/10692 [1:34:09<01:38,  2.02it/s] 98%|█████████▊| 10493/10692 [1:34:09<01:38,  2.02it/s] 98%|█████████▊| 10494/10692 [1:34:10<01:37,  2.02it/s] 98%|█████████▊| 10495/10692 [1:34:10<01:37,  2.02it/s] 98%|█████████▊| 10496/10692 [1:34:11<01:37,  2.02it/s] 98%|█████████▊| 10497/10692 [1:34:11<01:36,  2.02it/s] 98%|█████████▊| 10498/10692 [1:34:12<01:36,  2.02it/s] 98%|█████████▊| 10499/10692 [1:34:12<01:35,  2.02it/s] 98%|█████████▊| 10500/10692 [1:34:13<01:35,  2.02it/s]{'loss': 3.5538, 'grad_norm': 0.19055324792861938, 'learning_rate': 9.821306784020268e-07, 'epoch': 0.98}
+                                                        98%|█████████▊| 10500/10692 [1:34:13<01:35,  2.02it/s] 98%|█████████▊| 10501/10692 [1:34:13<01:35,  2.01it/s] 98%|█████████▊| 10502/10692 [1:34:14<01:34,  2.01it/s] 98%|█████████▊| 10503/10692 [1:34:14<01:33,  2.02it/s] 98%|█████████▊| 10504/10692 [1:34:14<01:33,  2.02it/s] 98%|█████████▊| 10505/10692 [1:34:15<01:32,  2.02it/s] 98%|█████████▊| 10506/10692 [1:34:15<01:32,  2.02it/s] 98%|█████████▊| 10507/10692 [1:34:16<01:31,  2.02it/s] 98%|█████████▊| 10508/10692 [1:34:16<01:31,  2.02it/s] 98%|█████████▊| 10509/10692 [1:34:17<01:30,  2.02it/s] 98%|█████████▊| 10510/10692 [1:34:17<01:30,  2.02it/s] 98%|█████████▊| 10511/10692 [1:34:18<01:29,  2.02it/s] 98%|█████████▊| 10512/10692 [1:34:18<01:29,  2.02it/s] 98%|█████████▊| 10513/10692 [1:34:19<01:28,  2.02it/s] 98%|█████████▊| 10514/10692 [1:34:19<01:28,  2.02it/s] 98%|█████████▊| 10515/10692 [1:34:20<01:27,  2.02it/s] 98%|█████████▊| 10516/10692 [1:34:20<01:27,  2.02it/s] 98%|█████████▊| 10517/10692 [1:34:21<01:26,  2.02it/s] 98%|█████████▊| 10518/10692 [1:34:21<01:26,  2.02it/s] 98%|█████████▊| 10519/10692 [1:34:22<01:25,  2.02it/s] 98%|█████████▊| 10520/10692 [1:34:22<01:25,  2.02it/s] 98%|█████████▊| 10521/10692 [1:34:23<01:24,  2.02it/s] 98%|█████████▊| 10522/10692 [1:34:23<01:24,  2.02it/s] 98%|█████████▊| 10523/10692 [1:34:24<01:23,  2.02it/s] 98%|█████████▊| 10524/10692 [1:34:24<01:23,  2.02it/s] 98%|█████████▊| 10525/10692 [1:34:25<01:22,  2.02it/s]{'loss': 3.5574, 'grad_norm': 0.1872813105583191, 'learning_rate': 7.43077977458706e-07, 'epoch': 0.98}
+                                                        98%|█████████▊| 10525/10692 [1:34:25<01:22,  2.02it/s] 98%|█████████▊| 10526/10692 [1:34:25<01:22,  2.02it/s] 98%|█████████▊| 10527/10692 [1:34:26<01:21,  2.02it/s] 98%|█████████▊| 10528/10692 [1:34:26<01:21,  2.02it/s] 98%|█████████▊| 10529/10692 [1:34:27<01:20,  2.02it/s] 98%|█████████▊| 10530/10692 [1:34:27<01:20,  2.02it/s] 98%|█████████▊| 10531/10692 [1:34:28<01:19,  2.02it/s] 99%|█████████▊| 10532/10692 [1:34:28<01:19,  2.02it/s] 99%|█████████▊| 10533/10692 [1:34:29<01:18,  2.02it/s] 99%|█████████▊| 10534/10692 [1:34:29<01:18,  2.02it/s] 99%|█████████▊| 10535/10692 [1:34:30<01:17,  2.02it/s] 99%|█████████▊| 10536/10692 [1:34:30<01:17,  2.02it/s] 99%|█████████▊| 10537/10692 [1:34:31<01:16,  2.01it/s] 99%|█████████▊| 10538/10692 [1:34:31<01:16,  2.01it/s] 99%|█████████▊| 10539/10692 [1:34:32<01:15,  2.02it/s] 99%|█████████▊| 10540/10692 [1:34:32<01:15,  2.02it/s] 99%|█████████▊| 10541/10692 [1:34:33<01:14,  2.02it/s] 99%|█████████▊| 10542/10692 [1:34:33<01:14,  2.02it/s] 99%|█████████▊| 10543/10692 [1:34:34<01:13,  2.02it/s] 99%|█████████▊| 10544/10692 [1:34:34<01:13,  2.02it/s] 99%|█████████▊| 10545/10692 [1:34:35<01:12,  2.02it/s] 99%|█████████▊| 10546/10692 [1:34:35<01:12,  2.02it/s] 99%|█████████▊| 10547/10692 [1:34:36<01:11,  2.02it/s] 99%|█████████▊| 10548/10692 [1:34:36<01:11,  2.02it/s] 99%|█████████▊| 10549/10692 [1:34:37<01:10,  2.02it/s] 99%|█████████▊| 10550/10692 [1:34:37<01:10,  2.02it/s]{'loss': 3.5589, 'grad_norm': 0.18873248994350433, 'learning_rate': 5.372889907650502e-07, 'epoch': 0.99}
+                                                        99%|█████████▊| 10550/10692 [1:34:37<01:10,  2.02it/s] 99%|█████████▊| 10551/10692 [1:34:38<01:09,  2.02it/s] 99%|█████████▊| 10552/10692 [1:34:38<01:09,  2.02it/s] 99%|█████████▊| 10553/10692 [1:34:39<01:08,  2.02it/s] 99%|█████████▊| 10554/10692 [1:34:39<01:08,  2.02it/s] 99%|█████████▊| 10555/10692 [1:34:40<01:07,  2.02it/s] 99%|█████████▊| 10556/10692 [1:34:40<01:07,  2.02it/s] 99%|█████████▊| 10557/10692 [1:34:41<01:06,  2.02it/s] 99%|█████████▊| 10558/10692 [1:34:41<01:06,  2.02it/s] 99%|█████████▉| 10559/10692 [1:34:42<01:05,  2.02it/s] 99%|█████████▉| 10560/10692 [1:34:42<01:05,  2.02it/s] 99%|█████████▉| 10561/10692 [1:34:43<01:04,  2.02it/s] 99%|█████████▉| 10562/10692 [1:34:43<01:04,  2.02it/s] 99%|█████████▉| 10563/10692 [1:34:44<01:03,  2.02it/s] 99%|█████████▉| 10564/10692 [1:34:44<01:03,  2.02it/s] 99%|█████████▉| 10565/10692 [1:34:45<01:02,  2.02it/s] 99%|█████████▉| 10566/10692 [1:34:45<01:02,  2.02it/s] 99%|█████████▉| 10567/10692 [1:34:46<01:01,  2.02it/s] 99%|█████████▉| 10568/10692 [1:34:46<01:01,  2.02it/s] 99%|█████████▉| 10569/10692 [1:34:47<01:00,  2.02it/s] 99%|█████████▉| 10570/10692 [1:34:47<01:00,  2.02it/s] 99%|█████████▉| 10571/10692 [1:34:48<00:59,  2.02it/s] 99%|█████████▉| 10572/10692 [1:34:48<00:59,  2.02it/s] 99%|█████████▉| 10573/10692 [1:34:49<00:58,  2.02it/s] 99%|█████████▉| 10574/10692 [1:34:49<00:58,  2.02it/s] 99%|█████████▉| 10575/10692 [1:34:50<00:57,  2.02it/s]{'loss': 3.5616, 'grad_norm': 0.18986108899116516, 'learning_rate': 3.6477742930995927e-07, 'epoch': 0.99}
+                                                        99%|█████████▉| 10575/10692 [1:34:50<00:57,  2.02it/s] 99%|█████████▉| 10576/10692 [1:34:50<00:57,  2.02it/s] 99%|█████████▉| 10577/10692 [1:34:51<00:56,  2.02it/s] 99%|█████████▉| 10578/10692 [1:34:51<00:56,  2.02it/s] 99%|█████████▉| 10579/10692 [1:34:52<00:56,  2.02it/s] 99%|█████████▉| 10580/10692 [1:34:52<00:55,  2.02it/s] 99%|█████████▉| 10581/10692 [1:34:53<00:54,  2.02it/s] 99%|█████████▉| 10582/10692 [1:34:53<00:54,  2.02it/s] 99%|█████████▉| 10583/10692 [1:34:54<00:53,  2.02it/s] 99%|█████████▉| 10584/10692 [1:34:54<00:53,  2.02it/s] 99%|█████████▉| 10585/10692 [1:34:55<00:52,  2.02it/s] 99%|█████████▉| 10586/10692 [1:34:55<00:52,  2.02it/s] 99%|█████████▉| 10587/10692 [1:34:56<00:51,  2.02it/s] 99%|█████████▉| 10588/10692 [1:34:56<00:51,  2.02it/s] 99%|█████████▉| 10589/10692 [1:34:57<00:50,  2.03it/s] 99%|█████████▉| 10590/10692 [1:34:57<00:50,  2.02it/s] 99%|█████████▉| 10591/10692 [1:34:58<00:49,  2.02it/s] 99%|█████████▉| 10592/10692 [1:34:58<00:49,  2.02it/s] 99%|█████████▉| 10593/10692 [1:34:59<00:48,  2.02it/s] 99%|█████████▉| 10594/10692 [1:34:59<00:48,  2.02it/s] 99%|█████████▉| 10595/10692 [1:35:00<00:47,  2.02it/s] 99%|█████████▉| 10596/10692 [1:35:00<00:47,  2.02it/s] 99%|█████████▉| 10597/10692 [1:35:01<00:47,  2.02it/s] 99%|█████████▉| 10598/10692 [1:35:01<00:46,  2.02it/s] 99%|█████████▉| 10599/10692 [1:35:02<00:46,  2.02it/s] 99%|█████████▉| 10600/10692 [1:35:02<00:45,  2.02it/s]{'loss': 3.5614, 'grad_norm': 0.18914395570755005, 'learning_rate': 2.2555478692559695e-07, 'epoch': 0.99}
+                                                        99%|█████████▉| 10600/10692 [1:35:02<00:45,  2.02it/s] 99%|█████████▉| 10601/10692 [1:35:03<00:45,  2.02it/s] 99%|█████████▉| 10602/10692 [1:35:03<00:44,  2.02it/s] 99%|█████████▉| 10603/10692 [1:35:03<00:44,  2.02it/s] 99%|█████████▉| 10604/10692 [1:35:04<00:43,  2.02it/s] 99%|█████████▉| 10605/10692 [1:35:04<00:43,  2.02it/s] 99%|█████████▉| 10606/10692 [1:35:05<00:42,  2.02it/s] 99%|█████████▉| 10607/10692 [1:35:05<00:42,  2.02it/s] 99%|█████████▉| 10608/10692 [1:35:06<00:41,  2.02it/s] 99%|█████████▉| 10609/10692 [1:35:06<00:41,  2.02it/s] 99%|█████████▉| 10610/10692 [1:35:07<00:40,  2.02it/s] 99%|█████████▉| 10611/10692 [1:35:07<00:40,  2.02it/s] 99%|█████████▉| 10612/10692 [1:35:08<00:39,  2.02it/s] 99%|█████████▉| 10613/10692 [1:35:08<00:39,  2.02it/s] 99%|█████████▉| 10614/10692 [1:35:09<00:38,  2.02it/s] 99%|█████████▉| 10615/10692 [1:35:09<00:38,  2.02it/s] 99%|█████████▉| 10616/10692 [1:35:10<00:37,  2.02it/s] 99%|█████████▉| 10617/10692 [1:35:10<00:37,  2.02it/s] 99%|█████████▉| 10618/10692 [1:35:11<00:36,  2.02it/s] 99%|█████████▉| 10619/10692 [1:35:11<00:36,  2.02it/s] 99%|█████████▉| 10620/10692 [1:35:12<00:35,  2.02it/s] 99%|█████████▉| 10621/10692 [1:35:12<00:35,  2.02it/s] 99%|█████████▉| 10622/10692 [1:35:13<00:34,  2.02it/s] 99%|█████████▉| 10623/10692 [1:35:13<00:34,  2.02it/s] 99%|█████████▉| 10624/10692 [1:35:14<00:33,  2.02it/s] 99%|█████████▉| 10625/10692 [1:35:14<00:33,  2.02it/s]                                                       {'loss': 3.5615, 'grad_norm': 0.1910233199596405, 'learning_rate': 1.1963033952172574e-07, 'epoch': 0.99}
+ 99%|█████████▉| 10625/10692 [1:35:14<00:33,  2.02it/s] 99%|█████████▉| 10626/10692 [1:35:15<00:32,  2.02it/s] 99%|█████████▉| 10627/10692 [1:35:15<00:32,  2.02it/s] 99%|█████████▉| 10628/10692 [1:35:16<00:31,  2.02it/s] 99%|█████████▉| 10629/10692 [1:35:16<00:31,  2.02it/s] 99%|█████████▉| 10630/10692 [1:35:17<00:30,  2.02it/s] 99%|█████████▉| 10631/10692 [1:35:17<00:30,  2.02it/s] 99%|█████████▉| 10632/10692 [1:35:18<00:29,  2.02it/s] 99%|█████████▉| 10633/10692 [1:35:18<00:29,  2.02it/s] 99%|█████████▉| 10634/10692 [1:35:19<00:28,  2.02it/s] 99%|█████████▉| 10635/10692 [1:35:19<00:28,  2.02it/s] 99%|█████████▉| 10636/10692 [1:35:20<00:27,  2.02it/s] 99%|█████████▉| 10637/10692 [1:35:20<00:27,  2.02it/s] 99%|█████████▉| 10638/10692 [1:35:21<00:26,  2.02it/s]100%|█████████▉| 10639/10692 [1:35:21<00:26,  2.02it/s]100%|█████████▉| 10640/10692 [1:35:22<00:25,  2.02it/s]100%|█████████▉| 10641/10692 [1:35:22<00:25,  2.02it/s]100%|█████████▉| 10642/10692 [1:35:23<00:24,  2.02it/s]100%|█████████▉| 10643/10692 [1:35:23<00:24,  2.02it/s]100%|█████████▉| 10644/10692 [1:35:24<00:23,  2.02it/s]100%|█████████▉| 10645/10692 [1:35:24<00:23,  2.02it/s]100%|█████████▉| 10646/10692 [1:35:25<00:22,  2.02it/s]100%|█████████▉| 10647/10692 [1:35:25<00:22,  2.02it/s]100%|█████████▉| 10648/10692 [1:35:26<00:21,  2.02it/s]100%|█████████▉| 10649/10692 [1:35:26<00:21,  2.02it/s]100%|█████████▉| 10650/10692 [1:35:27<00:20,  2.02it/s]                                                       {'loss': 3.5607, 'grad_norm': 0.1891922801733017, 'learning_rate': 4.70111444678678e-08, 'epoch': 1.0}
+100%|█████████▉| 10650/10692 [1:35:27<00:20,  2.02it/s]100%|█████████▉| 10651/10692 [1:35:27<00:20,  2.02it/s]100%|█████████▉| 10652/10692 [1:35:28<00:19,  2.02it/s]100%|█████████▉| 10653/10692 [1:35:28<00:19,  2.02it/s]100%|█████████▉| 10654/10692 [1:35:29<00:18,  2.02it/s]100%|█████████▉| 10655/10692 [1:35:29<00:18,  2.02it/s]100%|█████████▉| 10656/10692 [1:35:30<00:17,  2.02it/s]100%|█████████▉| 10657/10692 [1:35:30<00:17,  2.02it/s]100%|█████████▉| 10658/10692 [1:35:31<00:16,  2.02it/s]100%|█████████▉| 10659/10692 [1:35:31<00:16,  2.02it/s]100%|█████████▉| 10660/10692 [1:35:32<00:15,  2.02it/s]100%|█████████▉| 10661/10692 [1:35:32<00:15,  2.02it/s]100%|█████████▉| 10662/10692 [1:35:33<00:14,  2.02it/s]100%|█████████▉| 10663/10692 [1:35:33<00:14,  2.02it/s]100%|█████████▉| 10664/10692 [1:35:34<00:13,  2.02it/s]100%|█████████▉| 10665/10692 [1:35:34<00:13,  2.02it/s]100%|█████████▉| 10666/10692 [1:35:35<00:12,  2.02it/s]100%|█████████▉| 10667/10692 [1:35:35<00:12,  2.02it/s]100%|█████████▉| 10668/10692 [1:35:36<00:11,  2.02it/s]100%|█████████▉| 10669/10692 [1:35:36<00:11,  2.02it/s]100%|█████████▉| 10670/10692 [1:35:37<00:10,  2.02it/s]100%|█████████▉| 10671/10692 [1:35:37<00:10,  2.02it/s]100%|█████████▉| 10672/10692 [1:35:38<00:09,  2.02it/s]100%|█████████▉| 10673/10692 [1:35:38<00:09,  2.02it/s]100%|█████████▉| 10674/10692 [1:35:39<00:08,  2.02it/s]100%|█████████▉| 10675/10692 [1:35:39<00:08,  2.02it/s]{'loss': 3.557, 'grad_norm': 0.18817153573036194, 'learning_rate': 7.702040122847808e-09, 'epoch': 1.0}
+                                                       100%|█████████▉| 10675/10692 [1:35:39<00:08,  2.02it/s]100%|█████████▉| 10676/10692 [1:35:40<00:07,  2.01it/s]100%|█████████▉| 10677/10692 [1:35:40<00:07,  2.01it/s]100%|█████████▉| 10678/10692 [1:35:41<00:06,  2.02it/s]100%|█████████▉| 10679/10692 [1:35:41<00:06,  2.02it/s]100%|█████████▉| 10680/10692 [1:35:42<00:05,  2.02it/s]100%|█████████▉| 10681/10692 [1:35:42<00:05,  2.02it/s]100%|█████████▉| 10682/10692 [1:35:43<00:04,  2.02it/s]100%|█████████▉| 10683/10692 [1:35:43<00:04,  2.02it/s]100%|█████████▉| 10684/10692 [1:35:44<00:03,  2.02it/s]100%|█████████▉| 10685/10692 [1:35:44<00:03,  2.02it/s]100%|█████████▉| 10686/10692 [1:35:45<00:02,  2.02it/s]100%|█████████▉| 10687/10692 [1:35:45<00:02,  2.02it/s]100%|█████████▉| 10688/10692 [1:35:46<00:01,  2.02it/s]100%|█████████▉| 10689/10692 [1:35:46<00:01,  2.02it/s]100%|█████████▉| 10690/10692 [1:35:47<00:00,  2.02it/s]100%|█████████▉| 10691/10692 [1:35:47<00:00,  2.02it/s]100%|██████████| 10692/10692 [1:35:48<00:00,  1.32it/s]                                                       {'train_runtime': 5760.8647, 'train_samples_per_second': 1900.58, 'train_steps_per_second': 1.856, 'train_loss': 3.937918478569376, 'epoch': 1.0}
+100%|██████████| 10692/10692 [1:36:00<00:00,  1.32it/s]100%|██████████| 10692/10692 [1:36:00<00:00,  1.86it/s]
 Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.