07/12/2022 23:33:48 - WARNING - __main__ - Process rank: -1, device: cuda:0, n_gpu: 1distributed training: False, 16-bits training: False
07/12/2022 23:33:48 - INFO - __main__ - Training/evaluation parameters TrainingArguments(
_n_gpu=1,
adafactor=False,
adam_beta1=0.9,
adam_beta2=0.999,
adam_epsilon=1e-08,
auto_find_batch_size=False,
bf16=False,
bf16_full_eval=False,
data_seed=None,
dataloader_drop_last=False,
dataloader_num_workers=0,
dataloader_pin_memory=True,
ddp_bucket_cap_mb=None,
ddp_find_unused_parameters=None,
debug=[],
deepspeed=None,
disable_tqdm=False,
do_eval=True,
do_predict=False,
do_train=True,
eval_accumulation_steps=None,
eval_delay=0,
eval_steps=None,
evaluation_strategy=IntervalStrategy.NO,
fp16=False,
fp16_backend=auto,
fp16_full_eval=False,
fp16_opt_level=O1,
fsdp=[],
fsdp_min_num_params=0,
full_determinism=False,
gradient_accumulation_steps=1,
gradient_checkpointing=False,
greater_is_better=None,
group_by_length=False,
half_precision_backend=auto,
hub_model_id=None,
hub_private_repo=False,
hub_strategy=HubStrategy.EVERY_SAVE,
hub_token=<HUB_TOKEN>,
ignore_data_skip=False,
include_inputs_for_metrics=False,
jit_mode_eval=False,
label_names=None,
label_smoothing_factor=0.0,
learning_rate=3e-05,
length_column_name=length,
load_best_model_at_end=False,
local_rank=-1,
log_level=-1,
log_level_replica=-1,
log_on_each_node=True,
logging_dir=../results/phrase_retrieval/PR-pass/qa/whaleloops/phrase-bert/finetuned/runs/Jul12_23-33-44_gpu5,
logging_first_step=False,
logging_nan_inf_filter=True,
logging_steps=500,
logging_strategy=IntervalStrategy.STEPS,
lr_scheduler_type=SchedulerType.LINEAR,
max_grad_norm=1.0,
max_steps=-1,
metric_for_best_model=None,
mp_parameters=,
no_cuda=False,
num_train_epochs=2.0,
optim=OptimizerNames.ADAMW_HF,
output_dir=../results/phrase_retrieval/PR-pass/qa/whaleloops/phrase-bert/finetuned,
overwrite_output_dir=True,
past_index=-1,
per_device_eval_batch_size=8,
per_device_train_batch_size=8,
prediction_loss_only=False,
push_to_hub=False,
push_to_hub_model_id=None,
push_to_hub_organization=None,
push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
ray_scope=last,
remove_unused_columns=True,
report_to=[],
resume_from_checkpoint=None,
run_name=../results/phrase_retrieval/PR-pass/qa/whaleloops/phrase-bert/finetuned,
save_on_each_node=False,
save_steps=100000,
save_strategy=IntervalStrategy.STEPS,
save_total_limit=None,
seed=42,
sharded_ddp=[],
skip_memory_metrics=True,
tf32=None,
torchdynamo=None,
tpu_metrics_debug=False,
tpu_num_cores=None,
use_ipex=False,
use_legacy_prediction_loop=False,
warmup_ratio=0.0,
warmup_steps=0,
weight_decay=0.0,
xpu_backend=None,
)
07/12/2022 23:33:56 - INFO - datasets.builder - Overwrite dataset info from restored data version.
07/12/2022 23:33:56 - INFO - datasets.info - Loading Dataset info from /home/thang/.cache/huggingface/datasets/PiC___phrase_retrieval/PR-pass/1.0.0/df969d90a784d9e54828c7c7d2ce5ad117c6a955ed833539b969e1c00e1d41f4
07/12/2022 23:33:56 - WARNING - datasets.builder - Reusing dataset phrase_retrieval (/home/thang/.cache/huggingface/datasets/PiC___phrase_retrieval/PR-pass/1.0.0/df969d90a784d9e54828c7c7d2ce5ad117c6a955ed833539b969e1c00e1d41f4)
07/12/2022 23:33:56 - INFO - datasets.info - Loading Dataset info from /home/thang/.cache/huggingface/datasets/PiC___phrase_retrieval/PR-pass/1.0.0/df969d90a784d9e54828c7c7d2ce5ad117c6a955ed833539b969e1c00e1d41f4
  0%|          | 0/3 [00:00<?, ?it/s]100%|██████████| 3/3 [00:00<00:00, 743.98it/s]
[INFO|configuration_utils.py:659] 2022-07-12 23:33:59,148 >> loading configuration file https://huggingface.co/whaleloops/phrase-bert/resolve/main/config.json from cache at /home/thang/.cache/huggingface/transformers/62cfb51a093ad89e817a23b38170cd7e448af4d81389373dfbc2071e3edfb769.2d3e2aee7a39d8283b1bf9892ebad74482e62bcf897413b4a246c5c312e59666
[INFO|configuration_utils.py:708] 2022-07-12 23:33:59,162 >> Model config BertConfig {
  "_name_or_path": "whaleloops/phrase-bert",
  "architectures": [
    "BertModel"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "transformers_version": "4.20.1",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 30522
}

[INFO|tokenization_utils_base.py:1781] 2022-07-12 23:34:05,413 >> loading file https://huggingface.co/whaleloops/phrase-bert/resolve/main/vocab.txt from cache at /home/thang/.cache/huggingface/transformers/31850d8b282f8512ee92b6a420af4c958ae48ddfb2faf24b049bfff73c015a76.d789d64ebfe299b0e416afc4a169632f903f693095b4629a7ea271d5a0cf2c99
[INFO|tokenization_utils_base.py:1781] 2022-07-12 23:34:05,414 >> loading file https://huggingface.co/whaleloops/phrase-bert/resolve/main/tokenizer.json from cache at /home/thang/.cache/huggingface/transformers/b578ae2e104171ec2511751fa00552466dc7c909b7e62c61f945fcebd175a381.d2b4c50f542e11b76f117bcbb7ea83eaa1a63f2bc645fe95913ba1101c7e0cf6
[INFO|tokenization_utils_base.py:1781] 2022-07-12 23:34:05,414 >> loading file https://huggingface.co/whaleloops/phrase-bert/resolve/main/added_tokens.json from cache at None
[INFO|tokenization_utils_base.py:1781] 2022-07-12 23:34:05,414 >> loading file https://huggingface.co/whaleloops/phrase-bert/resolve/main/special_tokens_map.json from cache at /home/thang/.cache/huggingface/transformers/892f54e8e43352eb5492f8c87717ecf41dc57604a7e8401968e1df056dde72e1.dd8bd9bfd3664b530ea4e645105f557769387b3da9f79bdb55ed556bdd80611d
[INFO|tokenization_utils_base.py:1781] 2022-07-12 23:34:05,414 >> loading file https://huggingface.co/whaleloops/phrase-bert/resolve/main/tokenizer_config.json from cache at /home/thang/.cache/huggingface/transformers/b45851b086a84c19fc71957f11f22804c30d590005e6f5461c29b284cd98290d.84411b762161d243125cbc2aa86025bca9ac24bf1dc12f00c1587a5f069e8b4f
[INFO|modeling_utils.py:2107] 2022-07-12 23:34:05,570 >> loading weights file https://huggingface.co/whaleloops/phrase-bert/resolve/main/pytorch_model.bin from cache at /home/thang/.cache/huggingface/transformers/5fc8f3446d4735c324f981040adebd6b7bbfdc72047edaa4fb75fa7979c58f46.dd8b3f2eba57449f29e2d2aa405e4ac12462714e164084e969e847516b09e65c
[INFO|modeling_utils.py:2483] 2022-07-12 23:34:06,723 >> All model checkpoint weights were used when initializing BertForQuestionAnswering.

[WARNING|modeling_utils.py:2485] 2022-07-12 23:34:06,723 >> Some weights of BertForQuestionAnswering were not initialized from the model checkpoint at whaleloops/phrase-bert and are newly initialized: ['qa_outputs.weight', 'qa_outputs.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
07/12/2022 23:34:06 - WARNING - datasets.fingerprint - Parameter 'function'=<function main.<locals>.prepare_train_features at 0x7f9d1d2715e0> of the transform datasets.arrow_dataset.Dataset._map_single couldn't be hashed properly, a random hash was used instead. Make sure your transforms and parameters are serializable with pickle or dill for the dataset fingerprinting and caching to work. If you reuse this transform, the caching mechanism will consider it to be different from the previous calls and recompute everything. This warning is only showed once. Subsequent hashing failures won't be showed.
Running tokenizer on train dataset:   0%|          | 0/21 [00:00<?, ?ba/s]07/12/2022 23:34:07 - INFO - datasets.arrow_dataset - Caching processed dataset at /home/thang/.cache/huggingface/datasets/PiC___phrase_retrieval/PR-pass/1.0.0/df969d90a784d9e54828c7c7d2ce5ad117c6a955ed833539b969e1c00e1d41f4/cache-1c80317fa3b1799d.arrow
Running tokenizer on train dataset:   5%|▍         | 1/21 [00:00<00:12,  1.62ba/s]Running tokenizer on train dataset:  10%|▉         | 2/21 [00:01<00:09,  2.07ba/s]Running tokenizer on train dataset:  14%|█▍        | 3/21 [00:01<00:08,  2.17ba/s]Running tokenizer on train dataset:  19%|█▉        | 4/21 [00:01<00:07,  2.32ba/s]Running tokenizer on train dataset:  24%|██▍       | 5/21 [00:02<00:06,  2.48ba/s]Running tokenizer on train dataset:  29%|██▊       | 6/21 [00:02<00:06,  2.42ba/s]Running tokenizer on train dataset:  33%|███▎      | 7/21 [00:02<00:05,  2.54ba/s]Running tokenizer on train dataset:  38%|███▊      | 8/21 [00:03<00:04,  2.60ba/s]Running tokenizer on train dataset:  43%|████▎     | 9/21 [00:03<00:04,  2.54ba/s]Running tokenizer on train dataset:  48%|████▊     | 10/21 [00:04<00:04,  2.63ba/s]Running tokenizer on train dataset:  52%|█████▏    | 11/21 [00:04<00:03,  2.70ba/s]Running tokenizer on train dataset:  57%|█████▋    | 12/21 [00:04<00:03,  2.62ba/s]Running tokenizer on train dataset:  62%|██████▏   | 13/21 [00:05<00:02,  2.68ba/s]Running tokenizer on train dataset:  67%|██████▋   | 14/21 [00:05<00:02,  2.58ba/s]Running tokenizer on train dataset:  71%|███████▏  | 15/21 [00:05<00:02,  2.66ba/s]Running tokenizer on train dataset:  76%|███████▌  | 16/21 [00:06<00:01,  2.70ba/s]Running tokenizer on train dataset:  81%|████████  | 17/21 [00:06<00:01,  2.55ba/s]Running tokenizer on train dataset:  86%|████████▌ | 18/21 [00:07<00:01,  2.66ba/s]Running tokenizer on train dataset:  90%|█████████ | 19/21 [00:07<00:00,  2.77ba/s]Running tokenizer on train dataset:  95%|█████████▌| 20/21 [00:07<00:00,  2.61ba/s]Running tokenizer on train dataset: 100%|██████████| 21/21 [00:07<00:00,  2.64ba/s]
07/12/2022 23:34:14 - INFO - datasets.fingerprint - Parameter 'function'=<function main.<locals>.prepare_validation_features at 0x7f9d1cf363a0> of the transform datasets.arrow_dataset.Dataset._map_single couldn't be hashed properly, a random hash was used instead.
Running tokenizer on validation dataset:   0%|          | 0/3 [00:00<?, ?ba/s]07/12/2022 23:34:14 - INFO - datasets.arrow_dataset - Caching processed dataset at /home/thang/.cache/huggingface/datasets/PiC___phrase_retrieval/PR-pass/1.0.0/df969d90a784d9e54828c7c7d2ce5ad117c6a955ed833539b969e1c00e1d41f4/cache-bdd640fb06671ad1.arrow
Running tokenizer on validation dataset:  33%|███▎      | 1/3 [00:04<00:08,  4.28s/ba]Running tokenizer on validation dataset:  67%|██████▋   | 2/3 [00:08<00:04,  4.28s/ba]Running tokenizer on validation dataset: 100%|██████████| 3/3 [00:12<00:00,  4.23s/ba]Running tokenizer on validation dataset: 100%|██████████| 3/3 [00:12<00:00,  4.25s/ba]
/home/thang/Softwares/anaconda3/envs/pic_eval/lib/python3.9/site-packages/transformers/optimization.py:306: FutureWarning: This implementation of AdamW is deprecated and will be removed in a future version. Use the PyTorch implementation torch.optim.AdamW instead, or set `no_deprecation_warning=True` to disable this warning
  warnings.warn(
[INFO|trainer.py:1516] 2022-07-12 23:34:39,311 >> ***** Running training *****
[INFO|trainer.py:1517] 2022-07-12 23:34:39,311 >>   Num examples = 20261
[INFO|trainer.py:1518] 2022-07-12 23:34:39,311 >>   Num Epochs = 2
[INFO|trainer.py:1519] 2022-07-12 23:34:39,311 >>   Instantaneous batch size per device = 8
[INFO|trainer.py:1520] 2022-07-12 23:34:39,311 >>   Total train batch size (w. parallel, distributed & accumulation) = 8
[INFO|trainer.py:1521] 2022-07-12 23:34:39,311 >>   Gradient Accumulation steps = 1
[INFO|trainer.py:1522] 2022-07-12 23:34:39,311 >>   Total optimization steps = 5066
  0%|          | 0/5066 [00:00<?, ?it/s]  0%|          | 1/5066 [00:01<2:17:45,  1.63s/it]  0%|          | 2/5066 [00:02<1:17:06,  1.09it/s]  0%|          | 4/5066 [00:02<33:47,  2.50it/s]    0%|          | 6/5066 [00:02<21:40,  3.89it/s]  0%|          | 8/5066 [00:02<16:01,  5.26it/s]  0%|          | 10/5066 [00:02<13:04,  6.44it/s]  0%|          | 12/5066 [00:02<11:19,  7.44it/s]  0%|          | 14/5066 [00:03<10:12,  8.24it/s]  0%|          | 16/5066 [00:03<09:23,  8.97it/s]  0%|          | 18/5066 [00:03<09:03,  9.30it/s]  0%|          | 20/5066 [00:03<08:36,  9.78it/s]  0%|          | 22/5066 [00:03<08:17, 10.13it/s]  0%|          | 24/5066 [00:04<08:06, 10.37it/s]  1%|          | 26/5066 [00:04<07:56, 10.57it/s]  1%|          | 28/5066 [00:04<08:00, 10.49it/s]  1%|          | 30/5066 [00:04<07:54, 10.62it/s]  1%|          | 32/5066 [00:04<07:48, 10.74it/s]  1%|          | 34/5066 [00:05<07:48, 10.73it/s]  1%|          | 36/5066 [00:05<07:44, 10.82it/s]  1%|          | 38/5066 [00:05<07:42, 10.86it/s]  1%|          | 40/5066 [00:05<07:40, 10.92it/s]  1%|          | 42/5066 [00:05<07:38, 10.96it/s]  1%|          | 44/5066 [00:05<07:37, 10.97it/s]  1%|          | 46/5066 [00:06<07:37, 10.98it/s]  1%|          | 48/5066 [00:06<07:36, 11.00it/s]  1%|          | 50/5066 [00:06<07:41, 10.87it/s]  1%|          | 52/5066 [00:06<07:44, 10.78it/s]  1%|          | 54/5066 [00:06<07:41, 10.87it/s]  1%|          | 56/5066 [00:07<07:39, 10.91it/s]  1%|          | 58/5066 [00:07<07:37, 10.95it/s]  1%|          | 60/5066 [00:07<07:36, 10.98it/s]  1%|          | 62/5066 [00:07<07:35, 10.99it/s]  1%|▏         | 64/5066 [00:07<07:34, 11.01it/s]  1%|▏         | 66/5066 [00:07<07:33, 11.02it/s]  1%|▏         | 68/5066 [00:08<07:33, 11.01it/s]  1%|▏         | 70/5066 [00:08<07:33, 11.02it/s]  1%|▏         | 72/5066 [00:08<07:32, 11.03it/s]  1%|▏         | 74/5066 [00:08<07:32, 11.04it/s]  2%|▏         | 76/5066 [00:08<07:32, 11.03it/s]  2%|▏         | 78/5066 [00:09<07:35, 10.96it/s]  2%|▏         | 80/5066 [00:09<07:33, 10.99it/s]  2%|▏         | 82/5066 [00:09<07:32, 11.00it/s]  2%|▏         | 84/5066 [00:09<07:31, 11.03it/s]  2%|▏         | 86/5066 [00:09<07:32, 11.01it/s]  2%|▏         | 88/5066 [00:09<07:31, 11.03it/s]  2%|▏         | 90/5066 [00:10<07:30, 11.04it/s]  2%|▏         | 92/5066 [00:10<07:31, 11.02it/s]  2%|▏         | 94/5066 [00:10<07:30, 11.03it/s]  2%|▏         | 96/5066 [00:10<07:33, 10.97it/s]  2%|▏         | 98/5066 [00:10<07:38, 10.84it/s]  2%|▏         | 100/5066 [00:11<07:35, 10.91it/s]  2%|▏         | 102/5066 [00:11<07:32, 10.96it/s]  2%|▏         | 104/5066 [00:11<07:31, 10.99it/s]  2%|▏         | 106/5066 [00:11<07:30, 11.01it/s]  2%|▏         | 108/5066 [00:11<07:29, 11.04it/s]  2%|▏         | 110/5066 [00:11<07:28, 11.05it/s]  2%|▏         | 112/5066 [00:12<07:28, 11.05it/s]  2%|▏         | 114/5066 [00:12<07:28, 11.03it/s]  2%|▏         | 116/5066 [00:12<07:28, 11.03it/s]  2%|▏         | 118/5066 [00:12<07:28, 11.04it/s]  2%|▏         | 120/5066 [00:12<07:27, 11.04it/s]  2%|▏         | 122/5066 [00:13<07:27, 11.05it/s]  2%|▏         | 124/5066 [00:13<07:27, 11.05it/s]  2%|▏         | 126/5066 [00:13<07:26, 11.05it/s]  3%|▎         | 128/5066 [00:13<07:26, 11.06it/s]  3%|▎         | 130/5066 [00:13<07:26, 11.05it/s]  3%|▎         | 132/5066 [00:13<07:26, 11.05it/s]  3%|▎         | 134/5066 [00:14<07:26, 11.05it/s]  3%|▎         | 136/5066 [00:14<07:25, 11.06it/s]  3%|▎         | 138/5066 [00:14<07:25, 11.06it/s]  3%|▎         | 140/5066 [00:14<07:28, 10.98it/s]  3%|▎         | 142/5066 [00:14<07:27, 11.00it/s]  3%|▎         | 144/5066 [00:15<07:26, 11.02it/s]  3%|▎         | 146/5066 [00:15<07:25, 11.03it/s]  3%|▎         | 148/5066 [00:15<07:29, 10.93it/s]  3%|▎         | 150/5066 [00:15<07:29, 10.94it/s]  3%|▎         | 152/5066 [00:15<07:27, 10.97it/s]  3%|▎         | 154/5066 [00:15<07:26, 11.00it/s]  3%|▎         | 156/5066 [00:16<07:25, 11.02it/s]  3%|▎         | 158/5066 [00:16<07:25, 11.03it/s]  3%|▎         | 160/5066 [00:16<07:24, 11.03it/s]  3%|▎         | 162/5066 [00:16<07:24, 11.04it/s]  3%|▎         | 164/5066 [00:16<07:23, 11.05it/s]  3%|▎         | 166/5066 [00:17<07:26, 10.98it/s]  3%|▎         | 168/5066 [00:17<07:25, 11.00it/s]  3%|▎         | 170/5066 [00:17<07:24, 11.01it/s]  3%|▎         | 172/5066 [00:17<07:23, 11.03it/s]  3%|▎         | 174/5066 [00:17<07:22, 11.05it/s]  3%|▎         | 176/5066 [00:17<07:22, 11.05it/s]  4%|▎         | 178/5066 [00:18<07:21, 11.06it/s]  4%|▎         | 180/5066 [00:18<07:21, 11.06it/s]  4%|▎         | 182/5066 [00:18<07:21, 11.06it/s]  4%|▎         | 184/5066 [00:18<07:25, 10.95it/s]  4%|▎         | 186/5066 [00:18<07:24, 10.99it/s]  4%|▎         | 188/5066 [00:19<07:23, 11.01it/s]  4%|▍         | 190/5066 [00:19<07:22, 11.03it/s]  4%|▍         | 192/5066 [00:19<07:25, 10.93it/s]  4%|▍         | 194/5066 [00:19<07:24, 10.97it/s]  4%|▍         | 196/5066 [00:19<07:22, 11.00it/s]  4%|▍         | 198/5066 [00:19<07:22, 10.99it/s]  4%|▍         | 200/5066 [00:20<07:21, 11.01it/s]  4%|▍         | 202/5066 [00:20<07:20, 11.03it/s]  4%|▍         | 204/5066 [00:20<07:20, 11.04it/s]  4%|▍         | 206/5066 [00:20<07:20, 11.03it/s]  4%|▍         | 208/5066 [00:20<07:20, 11.04it/s]  4%|▍         | 210/5066 [00:21<07:19, 11.05it/s]  4%|▍         | 212/5066 [00:21<07:19, 11.06it/s]  4%|▍         | 214/5066 [00:21<07:18, 11.05it/s]  4%|▍         | 216/5066 [00:21<07:18, 11.06it/s]  4%|▍         | 218/5066 [00:21<07:18, 11.06it/s]  4%|▍         | 220/5066 [00:21<07:18, 11.06it/s]  4%|▍         | 222/5066 [00:22<07:17, 11.06it/s]  4%|▍         | 224/5066 [00:22<07:17, 11.06it/s]  4%|▍         | 226/5066 [00:22<07:17, 11.06it/s]  5%|▍         | 228/5066 [00:22<07:20, 10.99it/s]  5%|▍         | 230/5066 [00:22<07:19, 11.01it/s]  5%|▍         | 232/5066 [00:23<07:18, 11.03it/s]  5%|▍         | 234/5066 [00:23<07:17, 11.04it/s]  5%|▍         | 236/5066 [00:23<07:17, 11.05it/s]  5%|▍         | 238/5066 [00:23<07:16, 11.05it/s]  5%|▍         | 240/5066 [00:23<07:17, 11.03it/s]  5%|▍         | 242/5066 [00:23<07:16, 11.05it/s]  5%|▍         | 244/5066 [00:24<07:15, 11.06it/s]  5%|▍         | 246/5066 [00:24<07:15, 11.07it/s]  5%|▍         | 248/5066 [00:24<07:15, 11.07it/s]  5%|▍         | 250/5066 [00:24<07:15, 11.07it/s]  5%|▍         | 252/5066 [00:24<07:14, 11.07it/s]  5%|▌         | 254/5066 [00:24<07:17, 10.99it/s]  5%|▌         | 256/5066 [00:25<07:16, 11.02it/s]  5%|▌         | 258/5066 [00:25<07:15, 11.04it/s]  5%|▌         | 260/5066 [00:25<07:15, 11.04it/s]  5%|▌         | 262/5066 [00:25<07:15, 11.04it/s]  5%|▌         | 264/5066 [00:25<07:14, 11.04it/s]  5%|▌         | 266/5066 [00:26<07:14, 11.05it/s]  5%|▌         | 268/5066 [00:26<07:14, 11.05it/s]  5%|▌         | 270/5066 [00:26<07:14, 11.05it/s]  5%|▌         | 272/5066 [00:26<07:24, 10.78it/s]  5%|▌         | 274/5066 [00:26<07:25, 10.76it/s]  5%|▌         | 276/5066 [00:27<07:21, 10.84it/s]  5%|▌         | 278/5066 [00:27<07:19, 10.91it/s]  6%|▌         | 280/5066 [00:27<07:17, 10.94it/s]  6%|▌         | 282/5066 [00:27<07:15, 10.98it/s]  6%|▌         | 284/5066 [00:27<07:14, 11.00it/s]  6%|▌         | 286/5066 [00:27<07:14, 11.01it/s]  6%|▌         | 288/5066 [00:28<07:13, 11.01it/s]  6%|▌         | 290/5066 [00:28<07:13, 11.03it/s]  6%|▌         | 292/5066 [00:28<07:12, 11.04it/s]  6%|▌         | 294/5066 [00:28<07:12, 11.04it/s]  6%|▌         | 296/5066 [00:28<07:11, 11.05it/s]  6%|▌         | 298/5066 [00:29<07:11, 11.05it/s]  6%|▌         | 300/5066 [00:29<07:10, 11.06it/s]  6%|▌         | 302/5066 [00:29<07:10, 11.06it/s]  6%|▌         | 304/5066 [00:29<07:10, 11.06it/s]  6%|▌         | 306/5066 [00:29<07:10, 11.07it/s]  6%|▌         | 308/5066 [00:29<07:10, 11.05it/s]  6%|▌         | 310/5066 [00:30<07:10, 11.05it/s]  6%|▌         | 312/5066 [00:30<07:09, 11.06it/s]  6%|▌         | 314/5066 [00:30<07:10, 11.03it/s]  6%|▌         | 316/5066 [00:30<07:13, 10.96it/s]  6%|▋         | 318/5066 [00:30<07:12, 10.98it/s]  6%|▋         | 320/5066 [00:30<07:11, 11.01it/s]  6%|▋         | 322/5066 [00:31<07:10, 11.03it/s]  6%|▋         | 324/5066 [00:31<07:12, 10.97it/s]  6%|▋         | 326/5066 [00:31<07:10, 11.00it/s]  6%|▋         | 328/5066 [00:31<07:10, 11.01it/s]  7%|▋         | 330/5066 [00:31<07:13, 10.93it/s]  7%|▋         | 332/5066 [00:32<07:11, 10.97it/s]  7%|▋         | 334/5066 [00:32<07:10, 11.00it/s]  7%|▋         | 336/5066 [00:32<07:09, 11.02it/s]  7%|▋         | 338/5066 [00:32<07:08, 11.04it/s]  7%|▋         | 340/5066 [00:32<07:07, 11.05it/s]  7%|▋         | 342/5066 [00:32<07:11, 10.96it/s]  7%|▋         | 344/5066 [00:33<07:09, 10.99it/s]  7%|▋         | 346/5066 [00:33<07:09, 10.99it/s]  7%|▋         | 348/5066 [00:33<07:08, 11.01it/s]  7%|▋         | 350/5066 [00:33<07:07, 11.03it/s]  7%|▋         | 352/5066 [00:33<07:06, 11.04it/s]  7%|▋         | 354/5066 [00:34<07:06, 11.06it/s]  7%|▋         | 356/5066 [00:34<07:05, 11.06it/s]  7%|▋         | 358/5066 [00:34<07:05, 11.06it/s]  7%|▋         | 360/5066 [00:34<07:05, 11.07it/s]  7%|▋         | 362/5066 [00:34<07:04, 11.07it/s]  7%|▋         | 364/5066 [00:34<07:04, 11.08it/s]  7%|▋         | 366/5066 [00:35<07:04, 11.08it/s]  7%|▋         | 368/5066 [00:35<07:06, 11.00it/s]  7%|▋         | 370/5066 [00:35<07:05, 11.03it/s]  7%|▋         | 372/5066 [00:35<07:05, 11.04it/s]  7%|▋         | 374/5066 [00:35<07:04, 11.05it/s]  7%|▋         | 376/5066 [00:36<07:03, 11.06it/s]  7%|▋         | 378/5066 [00:36<07:03, 11.07it/s]  8%|▊         | 380/5066 [00:36<07:03, 11.07it/s]  8%|▊         | 382/5066 [00:36<07:03, 11.07it/s]  8%|▊         | 384/5066 [00:36<07:03, 11.06it/s]  8%|▊         | 386/5066 [00:36<07:06, 10.98it/s]  8%|▊         | 388/5066 [00:37<07:05, 11.00it/s]  8%|▊         | 390/5066 [00:37<07:04, 11.02it/s]  8%|▊         | 392/5066 [00:37<07:03, 11.03it/s]  8%|▊         | 394/5066 [00:37<07:02, 11.05it/s]  8%|▊         | 396/5066 [00:37<07:02, 11.05it/s]  8%|▊         | 398/5066 [00:38<07:02, 11.05it/s]  8%|▊         | 400/5066 [00:38<07:02, 11.05it/s]  8%|▊         | 402/5066 [00:38<07:01, 11.06it/s]  8%|▊         | 404/5066 [00:38<07:01, 11.06it/s]  8%|▊         | 406/5066 [00:38<07:01, 11.07it/s]  8%|▊         | 408/5066 [00:38<07:00, 11.07it/s]  8%|▊         | 410/5066 [00:39<07:00, 11.07it/s]  8%|▊         | 412/5066 [00:39<07:00, 11.07it/s]  8%|▊         | 414/5066 [00:39<07:00, 11.07it/s]  8%|▊         | 416/5066 [00:39<07:00, 11.07it/s]  8%|▊         | 418/5066 [00:39<06:59, 11.07it/s]  8%|▊         | 420/5066 [00:40<06:59, 11.07it/s]  8%|▊         | 422/5066 [00:40<06:59, 11.07it/s]  8%|▊         | 424/5066 [00:40<07:00, 11.03it/s]  8%|▊         | 426/5066 [00:40<07:00, 11.04it/s]  8%|▊         | 428/5066 [00:40<06:59, 11.05it/s]  8%|▊         | 430/5066 [00:40<06:59, 11.05it/s]  9%|▊         | 432/5066 [00:41<06:58, 11.06it/s]  9%|▊         | 434/5066 [00:41<06:58, 11.07it/s]  9%|▊         | 436/5066 [00:41<06:57, 11.08it/s]  9%|▊         | 438/5066 [00:41<06:57, 11.08it/s]  9%|▊         | 440/5066 [00:41<06:57, 11.07it/s]  9%|▊         | 442/5066 [00:42<06:57, 11.08it/s]  9%|▉         | 444/5066 [00:42<06:57, 11.07it/s]  9%|▉         | 446/5066 [00:42<06:58, 11.05it/s]  9%|▉         | 448/5066 [00:42<07:01, 10.96it/s]  9%|▉         | 450/5066 [00:42<06:59, 10.99it/s]  9%|▉         | 452/5066 [00:42<06:58, 11.02it/s]  9%|▉         | 454/5066 [00:43<06:58, 11.03it/s]  9%|▉         | 456/5066 [00:43<06:57, 11.04it/s]  9%|▉         | 458/5066 [00:43<06:57, 11.05it/s]  9%|▉         | 460/5066 [00:43<06:56, 11.05it/s]  9%|▉         | 462/5066 [00:43<06:56, 11.06it/s]  9%|▉         | 464/5066 [00:44<06:55, 11.07it/s]  9%|▉         | 466/5066 [00:44<06:55, 11.06it/s]  9%|▉         | 468/5066 [00:44<06:55, 11.07it/s]  9%|▉         | 470/5066 [00:44<06:55, 11.06it/s]  9%|▉         | 472/5066 [00:44<06:55, 11.06it/s]  9%|▉         | 474/5066 [00:44<06:55, 11.06it/s]  9%|▉         | 476/5066 [00:45<06:55, 11.06it/s]  9%|▉         | 478/5066 [00:45<06:54, 11.06it/s]  9%|▉         | 480/5066 [00:45<06:54, 11.07it/s] 10%|▉         | 482/5066 [00:45<06:54, 11.06it/s] 10%|▉         | 484/5066 [00:45<06:54, 11.06it/s] 10%|▉         | 486/5066 [00:46<06:54, 11.06it/s] 10%|▉         | 488/5066 [00:46<06:53, 11.06it/s] 10%|▉         | 490/5066 [00:46<06:53, 11.06it/s] 10%|▉         | 492/5066 [00:46<06:58, 10.93it/s] 10%|▉         | 494/5066 [00:46<06:57, 10.96it/s] 10%|▉         | 496/5066 [00:46<06:55, 10.99it/s] 10%|▉         | 498/5066 [00:47<06:54, 11.01it/s] 10%|▉         | 500/5066 [00:47<06:53, 11.03it/s]                                                  {'loss': 1.5542, 'learning_rate': 2.7039084090011843e-05, 'epoch': 0.2}
 10%|▉         | 500/5066 [00:47<06:53, 11.03it/s] 10%|▉         | 502/5066 [00:47<06:53, 11.03it/s] 10%|▉         | 504/5066 [00:47<06:53, 11.04it/s] 10%|▉         | 506/5066 [00:47<06:53, 11.04it/s] 10%|█         | 508/5066 [00:48<06:52, 11.05it/s] 10%|█         | 510/5066 [00:48<06:52, 11.05it/s] 10%|█         | 512/5066 [00:48<06:51, 11.06it/s] 10%|█         | 514/5066 [00:48<06:51, 11.07it/s] 10%|█         | 516/5066 [00:48<06:50, 11.07it/s] 10%|█         | 518/5066 [00:48<06:50, 11.07it/s] 10%|█         | 520/5066 [00:49<06:50, 11.07it/s] 10%|█         | 522/5066 [00:49<06:50, 11.07it/s] 10%|█         | 524/5066 [00:49<06:50, 11.07it/s] 10%|█         | 526/5066 [00:49<06:50, 11.07it/s] 10%|█         | 528/5066 [00:49<06:49, 11.07it/s] 10%|█         | 530/5066 [00:50<06:50, 11.05it/s] 11%|█         | 532/5066 [00:50<06:49, 11.06it/s] 11%|█         | 534/5066 [00:50<06:49, 11.06it/s] 11%|█         | 536/5066 [00:50<06:52, 10.99it/s] 11%|█         | 538/5066 [00:50<06:51, 11.01it/s] 11%|█         | 540/5066 [00:50<06:50, 11.03it/s] 11%|█         | 542/5066 [00:51<06:49, 11.04it/s] 11%|█         | 544/5066 [00:51<06:52, 10.97it/s] 11%|█         | 546/5066 [00:51<06:50, 11.01it/s] 11%|█         | 548/5066 [00:51<06:49, 11.03it/s] 11%|█         | 550/5066 [00:51<06:48, 11.05it/s] 11%|█         | 552/5066 [00:52<06:48, 11.06it/s] 11%|█         | 554/5066 [00:52<06:47, 11.07it/s] 11%|█         | 556/5066 [00:52<06:47, 11.05it/s] 11%|█         | 558/5066 [00:52<06:47, 11.05it/s] 11%|█         | 560/5066 [00:52<06:47, 11.06it/s] 11%|█         | 562/5066 [00:52<06:47, 11.06it/s] 11%|█         | 564/5066 [00:53<06:47, 11.06it/s] 11%|█         | 566/5066 [00:53<06:46, 11.06it/s] 11%|█         | 568/5066 [00:53<06:46, 11.06it/s] 11%|█▏        | 570/5066 [00:53<06:46, 11.06it/s] 11%|█▏        | 572/5066 [00:53<06:46, 11.07it/s] 11%|█▏        | 574/5066 [00:53<06:45, 11.07it/s] 11%|█▏        | 576/5066 [00:54<06:45, 11.07it/s] 11%|█▏        | 578/5066 [00:54<06:45, 11.07it/s] 11%|█▏        | 580/5066 [00:54<06:45, 11.07it/s] 11%|█▏        | 582/5066 [00:54<06:45, 11.06it/s] 12%|█▏        | 584/5066 [00:54<06:45, 11.06it/s] 12%|█▏        | 586/5066 [00:55<06:44, 11.07it/s] 12%|█▏        | 588/5066 [00:55<06:47, 11.00it/s] 12%|█▏        | 590/5066 [00:55<06:46, 11.02it/s] 12%|█▏        | 592/5066 [00:55<06:45, 11.04it/s] 12%|█▏        | 594/5066 [00:55<06:44, 11.05it/s] 12%|█▏        | 596/5066 [00:55<06:44, 11.05it/s] 12%|█▏        | 598/5066 [00:56<06:43, 11.06it/s] 12%|█▏        | 600/5066 [00:56<06:43, 11.07it/s] 12%|█▏        | 602/5066 [00:56<06:43, 11.07it/s] 12%|█▏        | 604/5066 [00:56<06:43, 11.05it/s] 12%|█▏        | 606/5066 [00:56<06:43, 11.05it/s] 12%|█▏        | 608/5066 [00:57<06:43, 11.05it/s] 12%|█▏        | 610/5066 [00:57<06:42, 11.06it/s] 12%|█▏        | 612/5066 [00:57<06:42, 11.06it/s] 12%|█▏        | 614/5066 [00:57<06:42, 11.07it/s] 12%|█▏        | 616/5066 [00:57<06:41, 11.07it/s] 12%|█▏        | 618/5066 [00:57<06:41, 11.07it/s] 12%|█▏        | 620/5066 [00:58<06:41, 11.07it/s] 12%|█▏        | 622/5066 [00:58<06:41, 11.07it/s] 12%|█▏        | 624/5066 [00:58<06:41, 11.07it/s] 12%|█▏        | 626/5066 [00:58<06:40, 11.08it/s] 12%|█▏        | 628/5066 [00:58<06:41, 11.05it/s] 12%|█▏        | 630/5066 [00:59<06:41, 11.06it/s] 12%|█▏        | 632/5066 [00:59<06:40, 11.07it/s] 13%|█▎        | 634/5066 [00:59<06:40, 11.06it/s] 13%|█▎        | 636/5066 [00:59<06:40, 11.07it/s] 13%|█▎        | 638/5066 [00:59<06:39, 11.07it/s] 13%|█▎        | 640/5066 [00:59<06:39, 11.08it/s] 13%|█▎        | 642/5066 [01:00<06:39, 11.08it/s] 13%|█▎        | 644/5066 [01:00<06:39, 11.08it/s] 13%|█▎        | 646/5066 [01:00<06:38, 11.08it/s] 13%|█▎        | 648/5066 [01:00<06:38, 11.08it/s] 13%|█▎        | 650/5066 [01:00<06:49, 10.78it/s] 13%|█▎        | 652/5066 [01:01<06:47, 10.84it/s] 13%|█▎        | 654/5066 [01:01<06:44, 10.91it/s] 13%|█▎        | 656/5066 [01:01<06:42, 10.96it/s] 13%|█▎        | 658/5066 [01:01<06:40, 10.99it/s] 13%|█▎        | 660/5066 [01:01<06:39, 11.02it/s] 13%|█▎        | 662/5066 [01:01<06:38, 11.04it/s] 13%|█▎        | 664/5066 [01:02<06:38, 11.04it/s] 13%|█▎        | 666/5066 [01:02<06:38, 11.05it/s] 13%|█▎        | 668/5066 [01:02<06:37, 11.06it/s] 13%|█▎        | 670/5066 [01:02<06:37, 11.07it/s] 13%|█▎        | 672/5066 [01:02<06:37, 11.07it/s] 13%|█▎        | 674/5066 [01:03<06:36, 11.07it/s] 13%|█▎        | 676/5066 [01:03<06:36, 11.07it/s] 13%|█▎        | 678/5066 [01:03<06:36, 11.07it/s] 13%|█▎        | 680/5066 [01:03<06:36, 11.07it/s] 13%|█▎        | 682/5066 [01:03<06:35, 11.07it/s] 14%|█▎        | 684/5066 [01:03<06:35, 11.07it/s] 14%|█▎        | 686/5066 [01:04<06:35, 11.07it/s] 14%|█▎        | 688/5066 [01:04<06:35, 11.07it/s] 14%|█▎        | 690/5066 [01:04<06:35, 11.07it/s] 14%|█▎        | 692/5066 [01:04<06:35, 11.07it/s] 14%|█▎        | 694/5066 [01:04<06:35, 11.07it/s] 14%|█▎        | 696/5066 [01:05<06:34, 11.07it/s] 14%|█▍        | 698/5066 [01:05<06:35, 11.04it/s] 14%|█▍        | 700/5066 [01:05<06:35, 11.05it/s] 14%|█▍        | 702/5066 [01:05<06:34, 11.05it/s] 14%|█▍        | 704/5066 [01:05<06:34, 11.06it/s] 14%|█▍        | 706/5066 [01:05<06:34, 11.05it/s] 14%|█▍        | 708/5066 [01:06<06:34, 11.06it/s] 14%|█▍        | 710/5066 [01:06<06:34, 11.05it/s] 14%|█▍        | 712/5066 [01:06<06:33, 11.05it/s] 14%|█▍        | 714/5066 [01:06<06:37, 10.94it/s] 14%|█▍        | 716/5066 [01:06<06:36, 10.98it/s] 14%|█▍        | 718/5066 [01:07<06:35, 11.00it/s] 14%|█▍        | 720/5066 [01:07<06:34, 11.02it/s] 14%|█▍        | 722/5066 [01:07<06:33, 11.03it/s] 14%|█▍        | 724/5066 [01:07<06:33, 11.04it/s] 14%|█▍        | 726/5066 [01:07<06:32, 11.05it/s] 14%|█▍        | 728/5066 [01:07<06:32, 11.06it/s] 14%|█▍        | 730/5066 [01:08<06:32, 11.05it/s] 14%|█▍        | 732/5066 [01:08<06:31, 11.06it/s] 14%|█▍        | 734/5066 [01:08<06:31, 11.06it/s] 15%|█▍        | 736/5066 [01:08<06:31, 11.05it/s] 15%|█▍        | 738/5066 [01:08<06:31, 11.05it/s] 15%|█▍        | 740/5066 [01:09<06:31, 11.06it/s] 15%|█▍        | 742/5066 [01:09<06:30, 11.06it/s] 15%|█▍        | 744/5066 [01:09<06:30, 11.06it/s] 15%|█▍        | 746/5066 [01:09<06:30, 11.06it/s] 15%|█▍        | 748/5066 [01:09<06:30, 11.06it/s] 15%|█▍        | 750/5066 [01:09<06:30, 11.06it/s] 15%|█▍        | 752/5066 [01:10<06:29, 11.06it/s] 15%|█▍        | 754/5066 [01:10<06:29, 11.06it/s] 15%|█▍        | 756/5066 [01:10<06:29, 11.06it/s] 15%|█▍        | 758/5066 [01:10<06:33, 10.95it/s] 15%|█▌        | 760/5066 [01:10<06:31, 10.98it/s] 15%|█▌        | 762/5066 [01:11<06:31, 11.00it/s] 15%|█▌        | 764/5066 [01:11<06:30, 11.03it/s] 15%|█▌        | 766/5066 [01:11<06:34, 10.90it/s] 15%|█▌        | 768/5066 [01:11<06:32, 10.96it/s] 15%|█▌        | 770/5066 [01:11<06:30, 11.00it/s] 15%|█▌        | 772/5066 [01:11<06:29, 11.01it/s] 15%|█▌        | 774/5066 [01:12<06:29, 11.03it/s] 15%|█▌        | 776/5066 [01:12<06:28, 11.05it/s] 15%|█▌        | 778/5066 [01:12<06:27, 11.06it/s] 15%|█▌        | 780/5066 [01:12<06:27, 11.07it/s] 15%|█▌        | 782/5066 [01:12<06:26, 11.07it/s] 15%|█▌        | 784/5066 [01:13<06:26, 11.08it/s] 16%|█▌        | 786/5066 [01:13<06:26, 11.08it/s] 16%|█▌        | 788/5066 [01:13<06:26, 11.07it/s] 16%|█▌        | 790/5066 [01:13<06:26, 11.07it/s] 16%|█▌        | 792/5066 [01:13<06:26, 11.06it/s] 16%|█▌        | 794/5066 [01:13<06:26, 11.05it/s] 16%|█▌        | 796/5066 [01:14<06:26, 11.06it/s] 16%|█▌        | 798/5066 [01:14<06:25, 11.06it/s] 16%|█▌        | 800/5066 [01:14<06:25, 11.06it/s] 16%|█▌        | 802/5066 [01:14<06:28, 10.99it/s] 16%|█▌        | 804/5066 [01:14<06:27, 11.00it/s] 16%|█▌        | 806/5066 [01:15<06:26, 11.02it/s] 16%|█▌        | 808/5066 [01:15<06:25, 11.04it/s] 16%|█▌        | 810/5066 [01:15<06:27, 10.97it/s] 16%|█▌        | 812/5066 [01:15<06:26, 11.00it/s] 16%|█▌        | 814/5066 [01:15<06:25, 11.02it/s] 16%|█▌        | 816/5066 [01:15<06:24, 11.04it/s] 16%|█▌        | 818/5066 [01:16<06:24, 11.04it/s] 16%|█▌        | 820/5066 [01:16<06:24, 11.05it/s] 16%|█▌        | 822/5066 [01:16<06:24, 11.05it/s] 16%|█▋        | 824/5066 [01:16<06:24, 11.04it/s] 16%|█▋        | 826/5066 [01:16<06:23, 11.05it/s] 16%|█▋        | 828/5066 [01:16<06:23, 11.05it/s] 16%|█▋        | 830/5066 [01:17<06:25, 10.98it/s] 16%|█▋        | 832/5066 [01:17<06:24, 11.01it/s] 16%|█▋        | 834/5066 [01:17<06:23, 11.04it/s] 17%|█▋        | 836/5066 [01:17<06:22, 11.05it/s] 17%|█▋        | 838/5066 [01:17<06:22, 11.05it/s] 17%|█▋        | 840/5066 [01:18<06:22, 11.06it/s] 17%|█▋        | 842/5066 [01:18<06:22, 11.05it/s] 17%|█▋        | 844/5066 [01:18<06:21, 11.06it/s] 17%|█▋        | 846/5066 [01:18<06:21, 11.06it/s] 17%|█▋        | 848/5066 [01:18<06:21, 11.07it/s] 17%|█▋        | 850/5066 [01:18<06:20, 11.07it/s] 17%|█▋        | 852/5066 [01:19<06:20, 11.07it/s] 17%|█▋        | 854/5066 [01:19<06:23, 11.00it/s] 17%|█▋        | 856/5066 [01:19<06:22, 11.01it/s] 17%|█▋        | 858/5066 [01:19<06:21, 11.03it/s] 17%|█▋        | 860/5066 [01:19<06:21, 11.04it/s] 17%|█▋        | 862/5066 [01:20<06:20, 11.05it/s] 17%|█▋        | 864/5066 [01:20<06:20, 11.06it/s] 17%|█▋        | 866/5066 [01:20<06:19, 11.06it/s] 17%|█▋        | 868/5066 [01:20<06:19, 11.07it/s] 17%|█▋        | 870/5066 [01:20<06:19, 11.07it/s] 17%|█▋        | 872/5066 [01:20<06:18, 11.07it/s] 17%|█▋        | 874/5066 [01:21<06:22, 10.96it/s] 17%|█▋        | 876/5066 [01:21<06:21, 10.99it/s] 17%|█▋        | 878/5066 [01:21<06:20, 11.01it/s] 17%|█▋        | 880/5066 [01:21<06:19, 11.03it/s] 17%|█▋        | 882/5066 [01:21<06:18, 11.04it/s] 17%|█▋        | 884/5066 [01:22<06:19, 11.02it/s] 17%|█▋        | 886/5066 [01:22<06:18, 11.04it/s] 18%|█▊        | 888/5066 [01:22<06:18, 11.05it/s] 18%|█▊        | 890/5066 [01:22<06:17, 11.06it/s] 18%|█▊        | 892/5066 [01:22<06:17, 11.06it/s] 18%|█▊        | 894/5066 [01:22<06:16, 11.07it/s] 18%|█▊        | 896/5066 [01:23<06:16, 11.08it/s] 18%|█▊        | 898/5066 [01:23<06:16, 11.08it/s] 18%|█▊        | 900/5066 [01:23<06:16, 11.07it/s] 18%|█▊        | 902/5066 [01:23<06:16, 11.07it/s] 18%|█▊        | 904/5066 [01:23<06:16, 11.07it/s] 18%|█▊        | 906/5066 [01:24<06:15, 11.07it/s] 18%|█▊        | 908/5066 [01:24<06:15, 11.08it/s] 18%|█▊        | 910/5066 [01:24<06:15, 11.07it/s] 18%|█▊        | 912/5066 [01:24<06:14, 11.08it/s] 18%|█▊        | 914/5066 [01:24<06:14, 11.08it/s] 18%|█▊        | 916/5066 [01:24<06:14, 11.07it/s] 18%|█▊        | 918/5066 [01:25<06:14, 11.07it/s] 18%|█▊        | 920/5066 [01:25<06:14, 11.07it/s] 18%|█▊        | 922/5066 [01:25<06:14, 11.06it/s] 18%|█▊        | 924/5066 [01:25<06:14, 11.06it/s] 18%|█▊        | 926/5066 [01:25<06:14, 11.06it/s] 18%|█▊        | 928/5066 [01:26<06:14, 11.06it/s] 18%|█▊        | 930/5066 [01:26<06:14, 11.06it/s] 18%|█▊        | 932/5066 [01:26<06:14, 11.05it/s] 18%|█▊        | 934/5066 [01:26<06:13, 11.06it/s] 18%|█▊        | 936/5066 [01:26<06:13, 11.06it/s] 19%|█▊        | 938/5066 [01:26<06:13, 11.06it/s] 19%|█▊        | 940/5066 [01:27<06:12, 11.07it/s] 19%|█▊        | 942/5066 [01:27<06:12, 11.07it/s] 19%|█▊        | 944/5066 [01:27<06:12, 11.06it/s] 19%|█▊        | 946/5066 [01:27<06:12, 11.06it/s] 19%|█▊        | 948/5066 [01:27<06:12, 11.06it/s] 19%|█▉        | 950/5066 [01:28<06:11, 11.07it/s] 19%|█▉        | 952/5066 [01:28<06:11, 11.06it/s] 19%|█▉        | 954/5066 [01:28<06:11, 11.07it/s] 19%|█▉        | 956/5066 [01:28<06:11, 11.07it/s] 19%|█▉        | 958/5066 [01:28<06:11, 11.07it/s] 19%|█▉        | 960/5066 [01:28<06:10, 11.08it/s] 19%|█▉        | 962/5066 [01:29<06:10, 11.08it/s] 19%|█▉        | 964/5066 [01:29<06:10, 11.07it/s] 19%|█▉        | 966/5066 [01:29<06:10, 11.07it/s] 19%|█▉        | 968/5066 [01:29<06:10, 11.07it/s] 19%|█▉        | 970/5066 [01:29<06:10, 11.07it/s] 19%|█▉        | 972/5066 [01:30<06:09, 11.07it/s] 19%|█▉        | 974/5066 [01:30<06:10, 11.04it/s] 19%|█▉        | 976/5066 [01:30<06:10, 11.04it/s] 19%|█▉        | 978/5066 [01:30<06:12, 10.97it/s] 19%|█▉        | 980/5066 [01:30<06:11, 11.00it/s] 19%|█▉        | 982/5066 [01:30<06:10, 11.02it/s] 19%|█▉        | 984/5066 [01:31<06:09, 11.03it/s] 19%|█▉        | 986/5066 [01:31<06:11, 10.97it/s] 20%|█▉        | 988/5066 [01:31<06:10, 10.99it/s] 20%|█▉        | 990/5066 [01:31<06:09, 11.02it/s] 20%|█▉        | 992/5066 [01:31<06:09, 11.03it/s] 20%|█▉        | 994/5066 [01:32<06:08, 11.05it/s] 20%|█▉        | 996/5066 [01:32<06:08, 11.05it/s] 20%|█▉        | 998/5066 [01:32<06:08, 11.05it/s] 20%|█▉        | 1000/5066 [01:32<06:07, 11.07it/s]                                                   {'loss': 0.5455, 'learning_rate': 2.407816818002369e-05, 'epoch': 0.39}
 20%|█▉        | 1000/5066 [01:32<06:07, 11.07it/s] 20%|█▉        | 1002/5066 [01:32<06:07, 11.06it/s] 20%|█▉        | 1004/5066 [01:32<06:07, 11.07it/s] 20%|█▉        | 1006/5066 [01:33<06:09, 10.99it/s] 20%|█▉        | 1008/5066 [01:33<06:08, 11.01it/s] 20%|█▉        | 1010/5066 [01:33<06:07, 11.03it/s] 20%|█▉        | 1012/5066 [01:33<06:06, 11.05it/s] 20%|██        | 1014/5066 [01:33<06:06, 11.04it/s] 20%|██        | 1016/5066 [01:34<06:06, 11.05it/s] 20%|██        | 1018/5066 [01:34<06:05, 11.06it/s] 20%|██        | 1020/5066 [01:34<06:05, 11.07it/s] 20%|██        | 1022/5066 [01:34<06:07, 10.99it/s] 20%|██        | 1024/5066 [01:34<06:06, 11.02it/s] 20%|██        | 1026/5066 [01:34<06:06, 11.03it/s] 20%|██        | 1028/5066 [01:35<06:05, 11.05it/s] 20%|██        | 1030/5066 [01:35<06:07, 10.98it/s] 20%|██        | 1032/5066 [01:35<06:06, 11.01it/s] 20%|██        | 1034/5066 [01:35<06:05, 11.03it/s] 20%|██        | 1036/5066 [01:35<06:04, 11.05it/s] 20%|██        | 1038/5066 [01:36<06:04, 11.06it/s] 21%|██        | 1040/5066 [01:36<06:03, 11.07it/s] 21%|██        | 1042/5066 [01:36<06:03, 11.07it/s] 21%|██        | 1044/5066 [01:36<06:03, 11.07it/s] 21%|██        | 1046/5066 [01:36<06:03, 11.07it/s] 21%|██        | 1048/5066 [01:36<06:02, 11.07it/s] 21%|██        | 1050/5066 [01:37<06:06, 10.96it/s] 21%|██        | 1052/5066 [01:37<06:05, 10.99it/s] 21%|██        | 1054/5066 [01:37<06:03, 11.02it/s] 21%|██        | 1056/5066 [01:37<06:03, 11.04it/s] 21%|██        | 1058/5066 [01:37<06:02, 11.05it/s] 21%|██        | 1060/5066 [01:37<06:01, 11.07it/s] 21%|██        | 1062/5066 [01:38<06:01, 11.08it/s] 21%|██        | 1064/5066 [01:38<06:01, 11.06it/s] 21%|██        | 1066/5066 [01:38<06:04, 10.98it/s] 21%|██        | 1068/5066 [01:38<06:03, 11.01it/s] 21%|██        | 1070/5066 [01:38<06:02, 11.02it/s] 21%|██        | 1072/5066 [01:39<06:01, 11.04it/s] 21%|██        | 1074/5066 [01:39<06:01, 11.05it/s] 21%|██        | 1076/5066 [01:39<06:00, 11.06it/s] 21%|██▏       | 1078/5066 [01:39<06:00, 11.06it/s] 21%|██▏       | 1080/5066 [01:39<06:00, 11.07it/s] 21%|██▏       | 1082/5066 [01:39<05:59, 11.07it/s] 21%|██▏       | 1084/5066 [01:40<05:59, 11.07it/s] 21%|██▏       | 1086/5066 [01:40<05:59, 11.06it/s] 21%|██▏       | 1088/5066 [01:40<05:59, 11.07it/s] 22%|██▏       | 1090/5066 [01:40<05:59, 11.07it/s] 22%|██▏       | 1092/5066 [01:40<05:59, 11.07it/s] 22%|██▏       | 1094/5066 [01:41<05:58, 11.07it/s] 22%|██▏       | 1096/5066 [01:41<05:58, 11.07it/s] 22%|██▏       | 1098/5066 [01:41<05:58, 11.07it/s] 22%|██▏       | 1100/5066 [01:41<05:58, 11.06it/s] 22%|██▏       | 1102/5066 [01:41<05:58, 11.07it/s] 22%|██▏       | 1104/5066 [01:41<05:57, 11.07it/s] 22%|██▏       | 1106/5066 [01:42<05:57, 11.08it/s] 22%|██▏       | 1108/5066 [01:42<05:57, 11.07it/s] 22%|██▏       | 1110/5066 [01:42<05:57, 11.07it/s] 22%|██▏       | 1112/5066 [01:42<05:57, 11.07it/s] 22%|██▏       | 1114/5066 [01:42<05:56, 11.07it/s] 22%|██▏       | 1116/5066 [01:43<05:56, 11.07it/s] 22%|██▏       | 1118/5066 [01:43<05:56, 11.08it/s] 22%|██▏       | 1120/5066 [01:43<05:56, 11.08it/s] 22%|██▏       | 1122/5066 [01:43<05:56, 11.08it/s] 22%|██▏       | 1124/5066 [01:43<05:56, 11.07it/s] 22%|██▏       | 1126/5066 [01:43<05:55, 11.07it/s] 22%|██▏       | 1128/5066 [01:44<05:55, 11.06it/s] 22%|██▏       | 1130/5066 [01:44<05:55, 11.07it/s] 22%|██▏       | 1132/5066 [01:44<05:55, 11.07it/s] 22%|██▏       | 1134/5066 [01:44<05:55, 11.06it/s] 22%|██▏       | 1136/5066 [01:44<05:55, 11.06it/s] 22%|██▏       | 1138/5066 [01:45<05:54, 11.07it/s] 23%|██▎       | 1140/5066 [01:45<05:56, 11.01it/s] 23%|██▎       | 1142/5066 [01:45<05:55, 11.03it/s] 23%|██▎       | 1144/5066 [01:45<05:55, 11.04it/s] 23%|██▎       | 1146/5066 [01:45<05:54, 11.06it/s] 23%|██▎       | 1148/5066 [01:45<05:54, 11.06it/s] 23%|██▎       | 1150/5066 [01:46<05:54, 11.06it/s] 23%|██▎       | 1152/5066 [01:46<05:53, 11.07it/s] 23%|██▎       | 1154/5066 [01:46<05:53, 11.07it/s] 23%|██▎       | 1156/5066 [01:46<05:53, 11.07it/s] 23%|██▎       | 1158/5066 [01:46<05:53, 11.07it/s] 23%|██▎       | 1160/5066 [01:47<05:52, 11.07it/s] 23%|██▎       | 1162/5066 [01:47<05:52, 11.07it/s] 23%|██▎       | 1164/5066 [01:47<05:52, 11.07it/s] 23%|██▎       | 1166/5066 [01:47<05:52, 11.07it/s] 23%|██▎       | 1168/5066 [01:47<05:52, 11.07it/s] 23%|██▎       | 1170/5066 [01:47<05:51, 11.08it/s] 23%|██▎       | 1172/5066 [01:48<05:51, 11.08it/s] 23%|██▎       | 1174/5066 [01:48<05:51, 11.08it/s] 23%|██▎       | 1176/5066 [01:48<05:50, 11.08it/s] 23%|██▎       | 1178/5066 [01:48<05:50, 11.08it/s] 23%|██▎       | 1180/5066 [01:48<05:50, 11.08it/s] 23%|██▎       | 1182/5066 [01:49<05:51, 11.06it/s] 23%|██▎       | 1184/5066 [01:49<05:50, 11.06it/s] 23%|██▎       | 1186/5066 [01:49<05:50, 11.07it/s] 23%|██▎       | 1188/5066 [01:49<05:50, 11.07it/s] 23%|██▎       | 1190/5066 [01:49<05:49, 11.08it/s] 24%|██▎       | 1192/5066 [01:49<05:49, 11.09it/s] 24%|██▎       | 1194/5066 [01:50<05:49, 11.09it/s] 24%|██▎       | 1196/5066 [01:50<05:49, 11.09it/s] 24%|██▎       | 1198/5066 [01:50<05:49, 11.08it/s] 24%|██▎       | 1200/5066 [01:50<05:48, 11.08it/s] 24%|██▎       | 1202/5066 [01:50<05:48, 11.08it/s] 24%|██▍       | 1204/5066 [01:51<05:48, 11.08it/s] 24%|██▍       | 1206/5066 [01:51<05:48, 11.08it/s] 24%|██▍       | 1208/5066 [01:51<05:50, 11.01it/s] 24%|██▍       | 1210/5066 [01:51<05:49, 11.03it/s] 24%|██▍       | 1212/5066 [01:51<05:49, 11.04it/s] 24%|██▍       | 1214/5066 [01:51<05:48, 11.05it/s] 24%|██▍       | 1216/5066 [01:52<05:48, 11.05it/s] 24%|██▍       | 1218/5066 [01:52<05:48, 11.05it/s] 24%|██▍       | 1220/5066 [01:52<05:47, 11.06it/s] 24%|██▍       | 1222/5066 [01:52<05:47, 11.07it/s] 24%|██▍       | 1224/5066 [01:52<05:47, 11.06it/s] 24%|██▍       | 1226/5066 [01:53<05:47, 11.06it/s] 24%|██▍       | 1228/5066 [01:53<05:46, 11.07it/s] 24%|██▍       | 1230/5066 [01:53<05:46, 11.07it/s] 24%|██▍       | 1232/5066 [01:53<05:46, 11.07it/s] 24%|██▍       | 1234/5066 [01:53<05:46, 11.07it/s] 24%|██▍       | 1236/5066 [01:53<05:45, 11.07it/s] 24%|██▍       | 1238/5066 [01:54<05:45, 11.08it/s] 24%|██▍       | 1240/5066 [01:54<05:45, 11.08it/s] 25%|██▍       | 1242/5066 [01:54<05:45, 11.08it/s] 25%|██▍       | 1244/5066 [01:54<05:44, 11.08it/s] 25%|██▍       | 1246/5066 [01:54<05:44, 11.08it/s] 25%|██▍       | 1248/5066 [01:54<05:44, 11.08it/s] 25%|██▍       | 1250/5066 [01:55<05:44, 11.08it/s] 25%|██▍       | 1252/5066 [01:55<05:47, 10.97it/s] 25%|██▍       | 1254/5066 [01:55<05:46, 11.00it/s] 25%|██▍       | 1256/5066 [01:55<05:45, 11.03it/s] 25%|██▍       | 1258/5066 [01:55<05:44, 11.04it/s] 25%|██▍       | 1260/5066 [01:56<05:44, 11.05it/s] 25%|██▍       | 1262/5066 [01:56<05:43, 11.06it/s] 25%|██▍       | 1264/5066 [01:56<05:43, 11.06it/s] 25%|██▍       | 1266/5066 [01:56<05:43, 11.06it/s] 25%|██▌       | 1268/5066 [01:56<05:43, 11.06it/s] 25%|██▌       | 1270/5066 [01:56<05:43, 11.07it/s] 25%|██▌       | 1272/5066 [01:57<05:45, 10.99it/s] 25%|██▌       | 1274/5066 [01:57<05:44, 11.02it/s] 25%|██▌       | 1276/5066 [01:57<05:43, 11.04it/s] 25%|██▌       | 1278/5066 [01:57<05:42, 11.05it/s] 25%|██▌       | 1280/5066 [01:57<05:42, 11.06it/s] 25%|██▌       | 1282/5066 [01:58<05:41, 11.07it/s] 25%|██▌       | 1284/5066 [01:58<05:41, 11.07it/s] 25%|██▌       | 1286/5066 [01:58<05:41, 11.08it/s] 25%|██▌       | 1288/5066 [01:58<05:41, 11.07it/s] 25%|██▌       | 1290/5066 [01:58<05:41, 11.06it/s] 26%|██▌       | 1292/5066 [01:58<05:40, 11.07it/s] 26%|██▌       | 1294/5066 [01:59<05:40, 11.07it/s] 26%|██▌       | 1296/5066 [01:59<05:40, 11.07it/s] 26%|██▌       | 1298/5066 [01:59<05:40, 11.08it/s] 26%|██▌       | 1300/5066 [01:59<05:39, 11.08it/s] 26%|██▌       | 1302/5066 [01:59<05:39, 11.09it/s] 26%|██▌       | 1304/5066 [02:00<05:39, 11.08it/s] 26%|██▌       | 1306/5066 [02:00<05:39, 11.08it/s] 26%|██▌       | 1308/5066 [02:00<05:39, 11.08it/s] 26%|██▌       | 1310/5066 [02:00<05:39, 11.07it/s] 26%|██▌       | 1312/5066 [02:00<05:38, 11.08it/s] 26%|██▌       | 1314/5066 [02:00<05:38, 11.08it/s] 26%|██▌       | 1316/5066 [02:01<05:38, 11.09it/s] 26%|██▌       | 1318/5066 [02:01<05:38, 11.09it/s] 26%|██▌       | 1320/5066 [02:01<05:38, 11.08it/s] 26%|██▌       | 1322/5066 [02:01<05:37, 11.08it/s] 26%|██▌       | 1324/5066 [02:01<05:37, 11.08it/s] 26%|██▌       | 1326/5066 [02:02<05:37, 11.08it/s] 26%|██▌       | 1328/5066 [02:02<05:37, 11.08it/s] 26%|██▋       | 1330/5066 [02:02<05:37, 11.08it/s] 26%|██▋       | 1332/5066 [02:02<05:40, 10.97it/s] 26%|██▋       | 1334/5066 [02:02<05:39, 11.00it/s] 26%|██▋       | 1336/5066 [02:02<05:38, 11.03it/s] 26%|██▋       | 1338/5066 [02:03<05:37, 11.05it/s] 26%|██▋       | 1340/5066 [02:03<05:36, 11.06it/s] 26%|██▋       | 1342/5066 [02:03<05:36, 11.07it/s] 27%|██▋       | 1344/5066 [02:03<05:36, 11.07it/s] 27%|██▋       | 1346/5066 [02:03<05:36, 11.06it/s] 27%|██▋       | 1348/5066 [02:04<05:35, 11.07it/s] 27%|██▋       | 1350/5066 [02:04<05:35, 11.07it/s] 27%|██▋       | 1352/5066 [02:04<05:35, 11.07it/s] 27%|██▋       | 1354/5066 [02:04<05:35, 11.07it/s] 27%|██▋       | 1356/5066 [02:04<05:35, 11.07it/s] 27%|██▋       | 1358/5066 [02:04<05:34, 11.07it/s] 27%|██▋       | 1360/5066 [02:05<05:34, 11.08it/s] 27%|██▋       | 1362/5066 [02:05<05:34, 11.08it/s] 27%|██▋       | 1364/5066 [02:05<05:34, 11.08it/s] 27%|██▋       | 1366/5066 [02:05<05:34, 11.07it/s] 27%|██▋       | 1368/5066 [02:05<05:33, 11.07it/s] 27%|██▋       | 1370/5066 [02:06<05:33, 11.08it/s] 27%|██▋       | 1372/5066 [02:06<05:33, 11.07it/s] 27%|██▋       | 1374/5066 [02:06<05:33, 11.08it/s] 27%|██▋       | 1376/5066 [02:06<05:35, 11.01it/s] 27%|██▋       | 1378/5066 [02:06<05:34, 11.03it/s] 27%|██▋       | 1380/5066 [02:06<05:33, 11.04it/s] 27%|██▋       | 1382/5066 [02:07<05:33, 11.05it/s] 27%|██▋       | 1384/5066 [02:07<05:35, 10.99it/s] 27%|██▋       | 1386/5066 [02:07<05:33, 11.02it/s] 27%|██▋       | 1388/5066 [02:07<05:33, 11.03it/s] 27%|██▋       | 1390/5066 [02:07<05:32, 11.05it/s] 27%|██▋       | 1392/5066 [02:08<05:32, 11.06it/s] 28%|██▊       | 1394/5066 [02:08<05:32, 11.06it/s] 28%|██▊       | 1396/5066 [02:08<05:31, 11.06it/s] 28%|██▊       | 1398/5066 [02:08<05:31, 11.07it/s] 28%|██▊       | 1400/5066 [02:08<05:31, 11.06it/s] 28%|██▊       | 1402/5066 [02:08<05:31, 11.06it/s] 28%|██▊       | 1404/5066 [02:09<05:30, 11.07it/s] 28%|██▊       | 1406/5066 [02:09<05:30, 11.07it/s] 28%|██▊       | 1408/5066 [02:09<05:30, 11.07it/s] 28%|██▊       | 1410/5066 [02:09<05:30, 11.08it/s] 28%|██▊       | 1412/5066 [02:09<05:29, 11.08it/s] 28%|██▊       | 1414/5066 [02:09<05:29, 11.08it/s] 28%|██▊       | 1416/5066 [02:10<05:29, 11.08it/s] 28%|██▊       | 1418/5066 [02:10<05:29, 11.08it/s] 28%|██▊       | 1420/5066 [02:10<05:29, 11.08it/s] 28%|██▊       | 1422/5066 [02:10<05:28, 11.08it/s] 28%|██▊       | 1424/5066 [02:10<05:28, 11.08it/s] 28%|██▊       | 1426/5066 [02:11<05:28, 11.08it/s] 28%|██▊       | 1428/5066 [02:11<05:30, 11.00it/s] 28%|██▊       | 1430/5066 [02:11<05:30, 11.01it/s] 28%|██▊       | 1432/5066 [02:11<05:29, 11.04it/s] 28%|██▊       | 1434/5066 [02:11<05:28, 11.05it/s] 28%|██▊       | 1436/5066 [02:11<05:28, 11.05it/s] 28%|██▊       | 1438/5066 [02:12<05:27, 11.06it/s] 28%|██▊       | 1440/5066 [02:12<05:27, 11.07it/s] 28%|██▊       | 1442/5066 [02:12<05:27, 11.08it/s] 29%|██▊       | 1444/5066 [02:12<05:26, 11.08it/s] 29%|██▊       | 1446/5066 [02:12<05:26, 11.09it/s] 29%|██▊       | 1448/5066 [02:13<05:26, 11.09it/s] 29%|██▊       | 1450/5066 [02:13<05:26, 11.09it/s] 29%|██▊       | 1452/5066 [02:13<05:25, 11.10it/s] 29%|██▊       | 1454/5066 [02:13<05:25, 11.10it/s] 29%|██▊       | 1456/5066 [02:13<05:25, 11.10it/s] 29%|██▉       | 1458/5066 [02:13<05:25, 11.10it/s] 29%|██▉       | 1460/5066 [02:14<05:25, 11.09it/s] 29%|██▉       | 1462/5066 [02:14<05:25, 11.09it/s] 29%|██▉       | 1464/5066 [02:14<05:25, 11.08it/s] 29%|██▉       | 1466/5066 [02:14<05:25, 11.07it/s] 29%|██▉       | 1468/5066 [02:14<05:24, 11.08it/s] 29%|██▉       | 1470/5066 [02:15<05:25, 11.06it/s] 29%|██▉       | 1472/5066 [02:15<05:24, 11.07it/s] 29%|██▉       | 1474/5066 [02:15<05:24, 11.07it/s] 29%|██▉       | 1476/5066 [02:15<05:24, 11.08it/s] 29%|██▉       | 1478/5066 [02:15<05:23, 11.08it/s] 29%|██▉       | 1480/5066 [02:15<05:23, 11.08it/s] 29%|██▉       | 1482/5066 [02:16<05:23, 11.08it/s] 29%|██▉       | 1484/5066 [02:16<05:23, 11.07it/s] 29%|██▉       | 1486/5066 [02:16<05:23, 11.07it/s] 29%|██▉       | 1488/5066 [02:16<05:23, 11.07it/s] 29%|██▉       | 1490/5066 [02:16<05:22, 11.07it/s] 29%|██▉       | 1492/5066 [02:17<05:22, 11.07it/s] 29%|██▉       | 1494/5066 [02:17<05:22, 11.08it/s] 30%|██▉       | 1496/5066 [02:17<05:22, 11.08it/s] 30%|██▉       | 1498/5066 [02:17<05:22, 11.07it/s] 30%|██▉       | 1500/5066 [02:17<05:21, 11.08it/s]                                                   {'loss': 0.4854, 'learning_rate': 2.111725227003553e-05, 'epoch': 0.59}
 30%|██▉       | 1500/5066 [02:17<05:21, 11.08it/s] 30%|██▉       | 1502/5066 [02:17<05:22, 11.07it/s] 30%|██▉       | 1504/5066 [02:18<05:21, 11.07it/s] 30%|██▉       | 1506/5066 [02:18<05:22, 11.06it/s] 30%|██▉       | 1508/5066 [02:18<05:21, 11.06it/s] 30%|██▉       | 1510/5066 [02:18<05:25, 10.93it/s] 30%|██▉       | 1512/5066 [02:18<05:24, 10.97it/s] 30%|██▉       | 1514/5066 [02:19<05:23, 11.00it/s] 30%|██▉       | 1516/5066 [02:19<05:21, 11.03it/s] 30%|██▉       | 1518/5066 [02:19<05:21, 11.04it/s] 30%|███       | 1520/5066 [02:19<05:20, 11.06it/s] 30%|███       | 1522/5066 [02:19<05:20, 11.06it/s] 30%|███       | 1524/5066 [02:19<05:20, 11.06it/s] 30%|███       | 1526/5066 [02:20<05:19, 11.07it/s] 30%|███       | 1528/5066 [02:20<05:19, 11.07it/s] 30%|███       | 1530/5066 [02:20<05:19, 11.07it/s] 30%|███       | 1532/5066 [02:20<05:19, 11.07it/s] 30%|███       | 1534/5066 [02:20<05:18, 11.08it/s] 30%|███       | 1536/5066 [02:21<05:18, 11.08it/s] 30%|███       | 1538/5066 [02:21<05:18, 11.07it/s] 30%|███       | 1540/5066 [02:21<05:18, 11.08it/s] 30%|███       | 1542/5066 [02:21<05:18, 11.08it/s] 30%|███       | 1544/5066 [02:21<05:18, 11.07it/s] 31%|███       | 1546/5066 [02:21<05:17, 11.08it/s] 31%|███       | 1548/5066 [02:22<05:17, 11.08it/s] 31%|███       | 1550/5066 [02:22<05:17, 11.08it/s] 31%|███       | 1552/5066 [02:22<05:17, 11.07it/s] 31%|███       | 1554/5066 [02:22<05:19, 10.99it/s] 31%|███       | 1556/5066 [02:22<05:18, 11.02it/s] 31%|███       | 1558/5066 [02:23<05:17, 11.04it/s] 31%|███       | 1560/5066 [02:23<05:17, 11.05it/s] 31%|███       | 1562/5066 [02:23<05:16, 11.06it/s] 31%|███       | 1564/5066 [02:23<05:16, 11.06it/s] 31%|███       | 1566/5066 [02:23<05:16, 11.07it/s] 31%|███       | 1568/5066 [02:23<05:15, 11.07it/s] 31%|███       | 1570/5066 [02:24<05:15, 11.07it/s] 31%|███       | 1572/5066 [02:24<05:15, 11.07it/s] 31%|███       | 1574/5066 [02:24<05:15, 11.08it/s] 31%|███       | 1576/5066 [02:24<05:14, 11.08it/s] 31%|███       | 1578/5066 [02:24<05:14, 11.09it/s] 31%|███       | 1580/5066 [02:24<05:14, 11.08it/s] 31%|███       | 1582/5066 [02:25<05:16, 11.01it/s] 31%|███▏      | 1584/5066 [02:25<05:15, 11.03it/s] 31%|███▏      | 1586/5066 [02:25<05:14, 11.05it/s] 31%|███▏      | 1588/5066 [02:25<05:14, 11.05it/s] 31%|███▏      | 1590/5066 [02:25<05:14, 11.07it/s] 31%|███▏      | 1592/5066 [02:26<05:13, 11.07it/s] 31%|███▏      | 1594/5066 [02:26<05:13, 11.07it/s] 32%|███▏      | 1596/5066 [02:26<05:13, 11.08it/s] 32%|███▏      | 1598/5066 [02:26<05:14, 11.03it/s] 32%|███▏      | 1600/5066 [02:26<05:13, 11.05it/s] 32%|███▏      | 1602/5066 [02:26<05:13, 11.06it/s] 32%|███▏      | 1604/5066 [02:27<05:12, 11.07it/s] 32%|███▏      | 1606/5066 [02:27<05:15, 10.96it/s] 32%|███▏      | 1608/5066 [02:27<05:14, 11.00it/s] 32%|███▏      | 1610/5066 [02:27<05:13, 11.03it/s] 32%|███▏      | 1612/5066 [02:27<05:12, 11.04it/s] 32%|███▏      | 1614/5066 [02:28<05:12, 11.06it/s] 32%|███▏      | 1616/5066 [02:28<05:12, 11.06it/s] 32%|███▏      | 1618/5066 [02:28<05:11, 11.06it/s] 32%|███▏      | 1620/5066 [02:28<05:11, 11.07it/s] 32%|███▏      | 1622/5066 [02:28<05:11, 11.06it/s] 32%|███▏      | 1624/5066 [02:28<05:11, 11.07it/s] 32%|███▏      | 1626/5066 [02:29<05:10, 11.07it/s] 32%|███▏      | 1628/5066 [02:29<05:10, 11.07it/s] 32%|███▏      | 1630/5066 [02:29<05:10, 11.07it/s] 32%|███▏      | 1632/5066 [02:29<05:10, 11.06it/s] 32%|███▏      | 1634/5066 [02:29<05:10, 11.06it/s] 32%|███▏      | 1636/5066 [02:30<05:10, 11.05it/s] 32%|███▏      | 1638/5066 [02:30<05:09, 11.06it/s] 32%|███▏      | 1640/5066 [02:30<05:09, 11.07it/s] 32%|███▏      | 1642/5066 [02:30<05:09, 11.07it/s] 32%|███▏      | 1644/5066 [02:30<05:09, 11.06it/s] 32%|███▏      | 1646/5066 [02:30<05:09, 11.06it/s] 33%|███▎      | 1648/5066 [02:31<05:08, 11.06it/s] 33%|███▎      | 1650/5066 [02:31<05:08, 11.06it/s] 33%|███▎      | 1652/5066 [02:31<05:08, 11.07it/s] 33%|███▎      | 1654/5066 [02:31<05:07, 11.08it/s] 33%|███▎      | 1656/5066 [02:31<05:07, 11.08it/s] 33%|███▎      | 1658/5066 [02:32<05:07, 11.08it/s] 33%|███▎      | 1660/5066 [02:32<05:07, 11.08it/s] 33%|███▎      | 1662/5066 [02:32<05:07, 11.08it/s] 33%|███▎      | 1664/5066 [02:32<05:07, 11.08it/s] 33%|███▎      | 1666/5066 [02:32<05:06, 11.08it/s] 33%|███▎      | 1668/5066 [02:32<05:06, 11.07it/s] 33%|███▎      | 1670/5066 [02:33<05:06, 11.07it/s] 33%|███▎      | 1672/5066 [02:33<05:09, 10.97it/s] 33%|███▎      | 1674/5066 [02:33<05:08, 10.98it/s] 33%|███▎      | 1676/5066 [02:33<05:07, 11.01it/s] 33%|███▎      | 1678/5066 [02:33<05:07, 11.02it/s] 33%|███▎      | 1680/5066 [02:34<05:06, 11.04it/s] 33%|███▎      | 1682/5066 [02:34<05:06, 11.05it/s] 33%|███▎      | 1684/5066 [02:34<05:05, 11.06it/s] 33%|███▎      | 1686/5066 [02:34<05:05, 11.06it/s] 33%|███▎      | 1688/5066 [02:34<05:05, 11.07it/s] 33%|███▎      | 1690/5066 [02:34<05:04, 11.07it/s] 33%|███▎      | 1692/5066 [02:35<05:04, 11.07it/s] 33%|███▎      | 1694/5066 [02:35<05:04, 11.07it/s] 33%|███▎      | 1696/5066 [02:35<05:04, 11.07it/s] 34%|███▎      | 1698/5066 [02:35<05:04, 11.07it/s] 34%|███▎      | 1700/5066 [02:35<05:03, 11.08it/s] 34%|███▎      | 1702/5066 [02:36<05:03, 11.08it/s] 34%|███▎      | 1704/5066 [02:36<05:03, 11.08it/s] 34%|███▎      | 1706/5066 [02:36<05:03, 11.08it/s] 34%|███▎      | 1708/5066 [02:36<05:03, 11.08it/s] 34%|███▍      | 1710/5066 [02:36<05:02, 11.08it/s] 34%|███▍      | 1712/5066 [02:36<05:02, 11.08it/s] 34%|███▍      | 1714/5066 [02:37<05:02, 11.07it/s] 34%|███▍      | 1716/5066 [02:37<05:02, 11.06it/s] 34%|███▍      | 1718/5066 [02:37<05:02, 11.07it/s] 34%|███▍      | 1720/5066 [02:37<05:02, 11.07it/s] 34%|███▍      | 1722/5066 [02:37<05:01, 11.08it/s] 34%|███▍      | 1724/5066 [02:38<05:01, 11.09it/s] 34%|███▍      | 1726/5066 [02:38<05:01, 11.09it/s] 34%|███▍      | 1728/5066 [02:38<05:01, 11.09it/s] 34%|███▍      | 1730/5066 [02:38<05:03, 11.00it/s] 34%|███▍      | 1732/5066 [02:38<05:02, 11.03it/s] 34%|███▍      | 1734/5066 [02:38<05:01, 11.05it/s] 34%|███▍      | 1736/5066 [02:39<05:01, 11.06it/s] 34%|███▍      | 1738/5066 [02:39<05:00, 11.07it/s] 34%|███▍      | 1740/5066 [02:39<05:02, 11.01it/s] 34%|███▍      | 1742/5066 [02:39<05:02, 10.97it/s] 34%|███▍      | 1744/5066 [02:39<05:02, 10.99it/s] 34%|███▍      | 1746/5066 [02:40<05:01, 11.02it/s] 35%|███▍      | 1748/5066 [02:40<05:00, 11.03it/s] 35%|███▍      | 1750/5066 [02:40<05:00, 11.04it/s] 35%|███▍      | 1752/5066 [02:40<04:59, 11.05it/s] 35%|███▍      | 1754/5066 [02:40<04:59, 11.06it/s] 35%|███▍      | 1756/5066 [02:40<05:04, 10.88it/s] 35%|███▍      | 1758/5066 [02:41<05:02, 10.93it/s] 35%|███▍      | 1760/5066 [02:41<05:01, 10.97it/s] 35%|███▍      | 1762/5066 [02:41<05:00, 11.00it/s] 35%|███▍      | 1764/5066 [02:41<04:59, 11.02it/s] 35%|███▍      | 1766/5066 [02:41<04:58, 11.04it/s] 35%|███▍      | 1768/5066 [02:42<04:58, 11.05it/s] 35%|███▍      | 1770/5066 [02:42<04:58, 11.06it/s] 35%|███▍      | 1772/5066 [02:42<04:57, 11.07it/s] 35%|███▌      | 1774/5066 [02:42<04:59, 10.99it/s] 35%|███▌      | 1776/5066 [02:42<04:58, 11.02it/s] 35%|███▌      | 1778/5066 [02:42<04:57, 11.04it/s] 35%|███▌      | 1780/5066 [02:43<04:57, 11.05it/s] 35%|███▌      | 1782/5066 [02:43<04:59, 10.98it/s] 35%|███▌      | 1784/5066 [02:43<04:58, 11.01it/s] 35%|███▌      | 1786/5066 [02:43<04:57, 11.02it/s] 35%|███▌      | 1788/5066 [02:43<04:57, 11.03it/s] 35%|███▌      | 1790/5066 [02:44<04:56, 11.04it/s] 35%|███▌      | 1792/5066 [02:44<04:56, 11.05it/s] 35%|███▌      | 1794/5066 [02:44<04:55, 11.07it/s] 35%|███▌      | 1796/5066 [02:44<04:55, 11.07it/s] 35%|███▌      | 1798/5066 [02:44<04:55, 11.07it/s] 36%|███▌      | 1800/5066 [02:44<04:54, 11.08it/s] 36%|███▌      | 1802/5066 [02:45<04:54, 11.08it/s] 36%|███▌      | 1804/5066 [02:45<04:57, 10.98it/s] 36%|███▌      | 1806/5066 [02:45<04:56, 11.01it/s] 36%|███▌      | 1808/5066 [02:45<04:55, 11.03it/s] 36%|███▌      | 1810/5066 [02:45<04:54, 11.04it/s] 36%|███▌      | 1812/5066 [02:46<04:54, 11.06it/s] 36%|███▌      | 1814/5066 [02:46<04:53, 11.07it/s] 36%|███▌      | 1816/5066 [02:46<04:53, 11.07it/s] 36%|███▌      | 1818/5066 [02:46<04:53, 11.07it/s] 36%|███▌      | 1820/5066 [02:46<04:53, 11.06it/s] 36%|███▌      | 1822/5066 [02:46<04:53, 11.06it/s] 36%|███▌      | 1824/5066 [02:47<04:53, 11.06it/s] 36%|███▌      | 1826/5066 [02:47<04:54, 11.00it/s] 36%|███▌      | 1828/5066 [02:47<04:53, 11.02it/s] 36%|███▌      | 1830/5066 [02:47<04:53, 11.04it/s] 36%|███▌      | 1832/5066 [02:47<04:52, 11.05it/s] 36%|███▌      | 1834/5066 [02:47<04:52, 11.06it/s] 36%|███▌      | 1836/5066 [02:48<04:51, 11.07it/s] 36%|███▋      | 1838/5066 [02:48<04:51, 11.07it/s] 36%|███▋      | 1840/5066 [02:48<04:51, 11.07it/s] 36%|███▋      | 1842/5066 [02:48<04:51, 11.08it/s] 36%|███▋      | 1844/5066 [02:48<04:50, 11.07it/s] 36%|███▋      | 1846/5066 [02:49<04:50, 11.08it/s] 36%|███▋      | 1848/5066 [02:49<04:50, 11.08it/s] 37%|███▋      | 1850/5066 [02:49<04:50, 11.08it/s] 37%|███▋      | 1852/5066 [02:49<04:50, 11.07it/s] 37%|███▋      | 1854/5066 [02:49<04:49, 11.08it/s] 37%|███▋      | 1856/5066 [02:49<04:49, 11.08it/s] 37%|███▋      | 1858/5066 [02:50<04:49, 11.09it/s] 37%|███▋      | 1860/5066 [02:50<04:49, 11.08it/s] 37%|███▋      | 1862/5066 [02:50<04:49, 11.08it/s] 37%|███▋      | 1864/5066 [02:50<04:48, 11.08it/s] 37%|███▋      | 1866/5066 [02:50<04:48, 11.08it/s] 37%|███▋      | 1868/5066 [02:51<04:48, 11.09it/s] 37%|███▋      | 1870/5066 [02:51<04:48, 11.08it/s] 37%|███▋      | 1872/5066 [02:51<04:48, 11.08it/s] 37%|███▋      | 1874/5066 [02:51<04:48, 11.07it/s] 37%|███▋      | 1876/5066 [02:51<04:48, 11.07it/s] 37%|███▋      | 1878/5066 [02:51<04:47, 11.08it/s] 37%|███▋      | 1880/5066 [02:52<04:47, 11.08it/s] 37%|███▋      | 1882/5066 [02:52<04:51, 10.93it/s] 37%|███▋      | 1884/5066 [02:52<04:51, 10.93it/s] 37%|███▋      | 1886/5066 [02:52<04:49, 10.97it/s] 37%|███▋      | 1888/5066 [02:52<04:52, 10.88it/s] 37%|███▋      | 1890/5066 [02:53<04:50, 10.94it/s] 37%|███▋      | 1892/5066 [02:53<04:49, 10.98it/s] 37%|███▋      | 1894/5066 [02:53<04:48, 11.01it/s] 37%|███▋      | 1896/5066 [02:53<04:47, 11.03it/s] 37%|███▋      | 1898/5066 [02:53<04:46, 11.05it/s] 38%|███▊      | 1900/5066 [02:53<04:46, 11.06it/s] 38%|███▊      | 1902/5066 [02:54<04:46, 11.06it/s] 38%|███▊      | 1904/5066 [02:54<04:45, 11.07it/s] 38%|███▊      | 1906/5066 [02:54<04:45, 11.06it/s] 38%|███▊      | 1908/5066 [02:54<04:45, 11.06it/s] 38%|███▊      | 1910/5066 [02:54<04:45, 11.07it/s] 38%|███▊      | 1912/5066 [02:55<04:44, 11.07it/s] 38%|███▊      | 1914/5066 [02:55<04:44, 11.08it/s] 38%|███▊      | 1916/5066 [02:55<04:44, 11.08it/s] 38%|███▊      | 1918/5066 [02:55<04:43, 11.09it/s] 38%|███▊      | 1920/5066 [02:55<04:44, 11.08it/s] 38%|███▊      | 1922/5066 [02:55<04:43, 11.08it/s] 38%|███▊      | 1924/5066 [02:56<04:43, 11.08it/s] 38%|███▊      | 1926/5066 [02:56<04:43, 11.07it/s] 38%|███▊      | 1928/5066 [02:56<04:43, 11.08it/s] 38%|███▊      | 1930/5066 [02:56<04:43, 11.08it/s] 38%|███▊      | 1932/5066 [02:56<04:42, 11.08it/s] 38%|███▊      | 1934/5066 [02:57<04:42, 11.09it/s] 38%|███▊      | 1936/5066 [02:57<04:42, 11.09it/s] 38%|███▊      | 1938/5066 [02:57<04:42, 11.09it/s] 38%|███▊      | 1940/5066 [02:57<04:42, 11.08it/s] 38%|███▊      | 1942/5066 [02:57<04:41, 11.08it/s] 38%|███▊      | 1944/5066 [02:57<04:41, 11.09it/s] 38%|███▊      | 1946/5066 [02:58<04:41, 11.09it/s] 38%|███▊      | 1948/5066 [02:58<04:41, 11.09it/s] 38%|███▊      | 1950/5066 [02:58<04:41, 11.08it/s] 39%|███▊      | 1952/5066 [02:58<04:43, 10.97it/s] 39%|███▊      | 1954/5066 [02:58<04:42, 11.00it/s] 39%|███▊      | 1956/5066 [02:59<04:42, 11.03it/s] 39%|███▊      | 1958/5066 [02:59<04:41, 11.04it/s] 39%|███▊      | 1960/5066 [02:59<04:41, 11.05it/s] 39%|███▊      | 1962/5066 [02:59<04:40, 11.06it/s] 39%|███▉      | 1964/5066 [02:59<04:40, 11.07it/s] 39%|███▉      | 1966/5066 [02:59<04:40, 11.06it/s] 39%|███▉      | 1968/5066 [03:00<04:39, 11.06it/s] 39%|███▉      | 1970/5066 [03:00<04:39, 11.07it/s] 39%|███▉      | 1972/5066 [03:00<04:39, 11.06it/s] 39%|███▉      | 1974/5066 [03:00<04:39, 11.07it/s] 39%|███▉      | 1976/5066 [03:00<04:39, 11.06it/s] 39%|███▉      | 1978/5066 [03:01<04:41, 10.97it/s] 39%|███▉      | 1980/5066 [03:01<04:40, 11.01it/s] 39%|███▉      | 1982/5066 [03:01<04:39, 11.03it/s] 39%|███▉      | 1984/5066 [03:01<04:39, 11.05it/s] 39%|███▉      | 1986/5066 [03:01<04:38, 11.05it/s] 39%|███▉      | 1988/5066 [03:01<04:38, 11.06it/s] 39%|███▉      | 1990/5066 [03:02<04:37, 11.07it/s] 39%|███▉      | 1992/5066 [03:02<04:37, 11.07it/s] 39%|███▉      | 1994/5066 [03:02<04:37, 11.07it/s] 39%|███▉      | 1996/5066 [03:02<04:38, 11.01it/s] 39%|███▉      | 1998/5066 [03:02<04:39, 10.96it/s] 39%|███▉      | 2000/5066 [03:03<04:38, 11.00it/s]                                                   {'loss': 0.4279, 'learning_rate': 1.8156336360047373e-05, 'epoch': 0.79}
 39%|███▉      | 2000/5066 [03:03<04:38, 11.00it/s] 40%|███▉      | 2002/5066 [03:03<04:38, 11.02it/s] 40%|███▉      | 2004/5066 [03:03<04:37, 11.03it/s] 40%|███▉      | 2006/5066 [03:03<04:36, 11.05it/s] 40%|███▉      | 2008/5066 [03:03<04:36, 11.06it/s] 40%|███▉      | 2010/5066 [03:03<04:35, 11.07it/s] 40%|███▉      | 2012/5066 [03:04<04:35, 11.08it/s] 40%|███▉      | 2014/5066 [03:04<04:35, 11.09it/s] 40%|███▉      | 2016/5066 [03:04<04:35, 11.09it/s] 40%|███▉      | 2018/5066 [03:04<04:35, 11.08it/s] 40%|███▉      | 2020/5066 [03:04<04:37, 10.96it/s] 40%|███▉      | 2022/5066 [03:05<04:36, 11.00it/s] 40%|███▉      | 2024/5066 [03:05<04:35, 11.03it/s] 40%|███▉      | 2026/5066 [03:05<04:35, 11.04it/s] 40%|████      | 2028/5066 [03:05<04:35, 11.04it/s] 40%|████      | 2030/5066 [03:05<04:34, 11.05it/s] 40%|████      | 2032/5066 [03:05<04:34, 11.05it/s] 40%|████      | 2034/5066 [03:06<04:34, 11.06it/s] 40%|████      | 2036/5066 [03:06<04:33, 11.07it/s] 40%|████      | 2038/5066 [03:06<04:33, 11.08it/s] 40%|████      | 2040/5066 [03:06<04:34, 11.03it/s] 40%|████      | 2042/5066 [03:06<04:35, 10.96it/s] 40%|████      | 2044/5066 [03:06<04:34, 11.00it/s] 40%|████      | 2046/5066 [03:07<04:33, 11.02it/s] 40%|████      | 2048/5066 [03:07<04:36, 10.93it/s] 40%|████      | 2050/5066 [03:07<04:34, 10.97it/s] 41%|████      | 2052/5066 [03:07<04:33, 11.01it/s] 41%|████      | 2054/5066 [03:07<04:33, 11.03it/s] 41%|████      | 2056/5066 [03:08<04:32, 11.05it/s] 41%|████      | 2058/5066 [03:08<04:31, 11.06it/s] 41%|████      | 2060/5066 [03:08<04:31, 11.06it/s] 41%|████      | 2062/5066 [03:08<04:31, 11.07it/s] 41%|████      | 2064/5066 [03:08<04:33, 10.99it/s] 41%|████      | 2066/5066 [03:08<04:32, 11.01it/s] 41%|████      | 2068/5066 [03:09<04:31, 11.03it/s] 41%|████      | 2070/5066 [03:09<04:31, 11.05it/s] 41%|████      | 2072/5066 [03:09<04:30, 11.06it/s] 41%|████      | 2074/5066 [03:09<04:30, 11.07it/s] 41%|████      | 2076/5066 [03:09<04:29, 11.08it/s] 41%|████      | 2078/5066 [03:10<04:29, 11.08it/s] 41%|████      | 2080/5066 [03:10<04:29, 11.07it/s] 41%|████      | 2082/5066 [03:10<04:29, 11.06it/s] 41%|████      | 2084/5066 [03:10<04:29, 11.06it/s] 41%|████      | 2086/5066 [03:10<04:30, 11.02it/s] 41%|████      | 2088/5066 [03:10<04:29, 11.03it/s] 41%|████▏     | 2090/5066 [03:11<04:29, 11.05it/s] 41%|████▏     | 2092/5066 [03:11<04:28, 11.06it/s] 41%|████▏     | 2094/5066 [03:11<04:28, 11.07it/s] 41%|████▏     | 2096/5066 [03:11<04:28, 11.07it/s] 41%|████▏     | 2098/5066 [03:11<04:28, 11.07it/s] 41%|████▏     | 2100/5066 [03:12<04:27, 11.07it/s] 41%|████▏     | 2102/5066 [03:12<04:27, 11.07it/s] 42%|████▏     | 2104/5066 [03:12<04:27, 11.07it/s] 42%|████▏     | 2106/5066 [03:12<04:27, 11.08it/s] 42%|████▏     | 2108/5066 [03:12<04:28, 11.00it/s] 42%|████▏     | 2110/5066 [03:12<04:28, 11.03it/s] 42%|████▏     | 2112/5066 [03:13<04:27, 11.04it/s] 42%|████▏     | 2114/5066 [03:13<04:27, 11.05it/s] 42%|████▏     | 2116/5066 [03:13<04:26, 11.06it/s] 42%|████▏     | 2118/5066 [03:13<04:26, 11.07it/s] 42%|████▏     | 2120/5066 [03:13<04:26, 11.07it/s] 42%|████▏     | 2122/5066 [03:14<04:25, 11.07it/s] 42%|████▏     | 2124/5066 [03:14<04:25, 11.08it/s] 42%|████▏     | 2126/5066 [03:14<04:25, 11.07it/s] 42%|████▏     | 2128/5066 [03:14<04:25, 11.08it/s] 42%|████▏     | 2130/5066 [03:14<04:25, 11.07it/s] 42%|████▏     | 2132/5066 [03:14<04:25, 11.07it/s] 42%|████▏     | 2134/5066 [03:15<04:24, 11.06it/s] 42%|████▏     | 2136/5066 [03:15<04:24, 11.08it/s] 42%|████▏     | 2138/5066 [03:15<04:24, 11.08it/s] 42%|████▏     | 2140/5066 [03:15<04:23, 11.09it/s] 42%|████▏     | 2142/5066 [03:15<04:23, 11.09it/s] 42%|████▏     | 2144/5066 [03:16<04:23, 11.09it/s] 42%|████▏     | 2146/5066 [03:16<04:23, 11.09it/s] 42%|████▏     | 2148/5066 [03:16<04:23, 11.09it/s] 42%|████▏     | 2150/5066 [03:16<04:23, 11.08it/s] 42%|████▏     | 2152/5066 [03:16<04:22, 11.09it/s] 43%|████▎     | 2154/5066 [03:16<04:22, 11.09it/s] 43%|████▎     | 2156/5066 [03:17<04:22, 11.09it/s] 43%|████▎     | 2158/5066 [03:17<04:22, 11.09it/s] 43%|████▎     | 2160/5066 [03:17<04:22, 11.09it/s] 43%|████▎     | 2162/5066 [03:17<04:21, 11.09it/s] 43%|████▎     | 2164/5066 [03:17<04:21, 11.09it/s] 43%|████▎     | 2166/5066 [03:18<04:21, 11.09it/s] 43%|████▎     | 2168/5066 [03:18<04:23, 11.01it/s] 43%|████▎     | 2170/5066 [03:18<04:22, 11.02it/s] 43%|████▎     | 2172/5066 [03:18<04:22, 11.03it/s] 43%|████▎     | 2174/5066 [03:18<04:21, 11.05it/s] 43%|████▎     | 2176/5066 [03:18<04:21, 11.06it/s] 43%|████▎     | 2178/5066 [03:19<04:20, 11.07it/s] 43%|████▎     | 2180/5066 [03:19<04:20, 11.06it/s] 43%|████▎     | 2182/5066 [03:19<04:20, 11.06it/s] 43%|████▎     | 2184/5066 [03:19<04:20, 11.06it/s] 43%|████▎     | 2186/5066 [03:19<04:20, 11.06it/s] 43%|████▎     | 2188/5066 [03:20<04:20, 11.07it/s] 43%|████▎     | 2190/5066 [03:20<04:19, 11.07it/s] 43%|████▎     | 2192/5066 [03:20<04:19, 11.08it/s] 43%|████▎     | 2194/5066 [03:20<04:19, 11.08it/s] 43%|████▎     | 2196/5066 [03:20<04:20, 11.01it/s] 43%|████▎     | 2198/5066 [03:20<04:20, 11.03it/s] 43%|████▎     | 2200/5066 [03:21<04:19, 11.05it/s] 43%|████▎     | 2202/5066 [03:21<04:18, 11.06it/s] 44%|████▎     | 2204/5066 [03:21<04:18, 11.07it/s] 44%|████▎     | 2206/5066 [03:21<04:18, 11.07it/s] 44%|████▎     | 2208/5066 [03:21<04:18, 11.07it/s] 44%|████▎     | 2210/5066 [03:22<04:17, 11.07it/s] 44%|████▎     | 2212/5066 [03:22<04:17, 11.08it/s] 44%|████▎     | 2214/5066 [03:22<04:17, 11.07it/s] 44%|████▎     | 2216/5066 [03:22<04:19, 11.00it/s] 44%|████▍     | 2218/5066 [03:22<04:18, 11.03it/s] 44%|████▍     | 2220/5066 [03:22<04:17, 11.05it/s] 44%|████▍     | 2222/5066 [03:23<04:17, 11.05it/s] 44%|████▍     | 2224/5066 [03:23<04:18, 10.98it/s] 44%|████▍     | 2226/5066 [03:23<04:17, 11.02it/s] 44%|████▍     | 2228/5066 [03:23<04:17, 11.04it/s] 44%|████▍     | 2230/5066 [03:23<04:16, 11.05it/s] 44%|████▍     | 2232/5066 [03:23<04:16, 11.06it/s] 44%|████▍     | 2234/5066 [03:24<04:15, 11.07it/s] 44%|████▍     | 2236/5066 [03:24<04:15, 11.07it/s] 44%|████▍     | 2238/5066 [03:24<04:15, 11.06it/s] 44%|████▍     | 2240/5066 [03:24<04:15, 11.07it/s] 44%|████▍     | 2242/5066 [03:24<04:15, 11.07it/s] 44%|████▍     | 2244/5066 [03:25<04:14, 11.07it/s] 44%|████▍     | 2246/5066 [03:25<04:14, 11.08it/s] 44%|████▍     | 2248/5066 [03:25<04:14, 11.07it/s] 44%|████▍     | 2250/5066 [03:25<04:14, 11.07it/s] 44%|████▍     | 2252/5066 [03:25<04:14, 11.07it/s] 44%|████▍     | 2254/5066 [03:25<04:13, 11.07it/s] 45%|████▍     | 2256/5066 [03:26<04:13, 11.08it/s] 45%|████▍     | 2258/5066 [03:26<04:13, 11.07it/s] 45%|████▍     | 2260/5066 [03:26<04:13, 11.08it/s] 45%|████▍     | 2262/5066 [03:26<04:13, 11.08it/s] 45%|████▍     | 2264/5066 [03:26<04:12, 11.08it/s] 45%|████▍     | 2266/5066 [03:27<04:12, 11.08it/s] 45%|████▍     | 2268/5066 [03:27<04:12, 11.08it/s] 45%|████▍     | 2270/5066 [03:27<04:12, 11.08it/s] 45%|████▍     | 2272/5066 [03:27<04:12, 11.08it/s] 45%|████▍     | 2274/5066 [03:27<04:12, 11.08it/s] 45%|████▍     | 2276/5066 [03:27<04:11, 11.08it/s] 45%|████▍     | 2278/5066 [03:28<04:11, 11.08it/s] 45%|████▌     | 2280/5066 [03:28<04:11, 11.09it/s] 45%|████▌     | 2282/5066 [03:28<04:11, 11.08it/s] 45%|████▌     | 2284/5066 [03:28<04:11, 11.08it/s] 45%|████▌     | 2286/5066 [03:28<04:10, 11.08it/s] 45%|████▌     | 2288/5066 [03:29<04:10, 11.09it/s] 45%|████▌     | 2290/5066 [03:29<04:10, 11.07it/s] 45%|████▌     | 2292/5066 [03:29<04:10, 11.08it/s] 45%|████▌     | 2294/5066 [03:29<04:10, 11.09it/s] 45%|████▌     | 2296/5066 [03:29<04:09, 11.08it/s] 45%|████▌     | 2298/5066 [03:29<04:09, 11.08it/s] 45%|████▌     | 2300/5066 [03:30<04:09, 11.08it/s] 45%|████▌     | 2302/5066 [03:30<04:09, 11.08it/s] 45%|████▌     | 2304/5066 [03:30<04:09, 11.07it/s] 46%|████▌     | 2306/5066 [03:30<04:11, 10.99it/s] 46%|████▌     | 2308/5066 [03:30<04:12, 10.94it/s] 46%|████▌     | 2310/5066 [03:31<04:11, 10.98it/s] 46%|████▌     | 2312/5066 [03:31<04:10, 11.00it/s] 46%|████▌     | 2314/5066 [03:31<04:09, 11.02it/s] 46%|████▌     | 2316/5066 [03:31<04:09, 11.04it/s] 46%|████▌     | 2318/5066 [03:31<04:08, 11.05it/s] 46%|████▌     | 2320/5066 [03:31<04:08, 11.06it/s] 46%|████▌     | 2322/5066 [03:32<04:08, 11.06it/s] 46%|████▌     | 2324/5066 [03:32<04:08, 11.03it/s] 46%|████▌     | 2326/5066 [03:32<04:08, 11.04it/s] 46%|████▌     | 2328/5066 [03:32<04:07, 11.05it/s] 46%|████▌     | 2330/5066 [03:32<04:09, 10.95it/s] 46%|████▌     | 2332/5066 [03:33<04:08, 10.99it/s] 46%|████▌     | 2334/5066 [03:33<04:07, 11.02it/s] 46%|████▌     | 2336/5066 [03:33<04:07, 11.04it/s] 46%|████▌     | 2338/5066 [03:33<04:06, 11.05it/s] 46%|████▌     | 2340/5066 [03:33<04:06, 11.06it/s] 46%|████▌     | 2342/5066 [03:33<04:06, 11.07it/s] 46%|████▋     | 2344/5066 [03:34<04:05, 11.07it/s] 46%|████▋     | 2346/5066 [03:34<04:05, 11.07it/s] 46%|████▋     | 2348/5066 [03:34<04:05, 11.08it/s] 46%|████▋     | 2350/5066 [03:34<04:07, 10.97it/s] 46%|████▋     | 2352/5066 [03:34<04:08, 10.94it/s] 46%|████▋     | 2354/5066 [03:35<04:07, 10.97it/s] 47%|████▋     | 2356/5066 [03:35<04:06, 11.01it/s] 47%|████▋     | 2358/5066 [03:35<04:05, 11.03it/s] 47%|████▋     | 2360/5066 [03:35<04:04, 11.05it/s] 47%|████▋     | 2362/5066 [03:35<04:04, 11.06it/s] 47%|████▋     | 2364/5066 [03:35<04:04, 11.07it/s] 47%|████▋     | 2366/5066 [03:36<04:03, 11.07it/s] 47%|████▋     | 2368/5066 [03:36<04:03, 11.08it/s] 47%|████▋     | 2370/5066 [03:36<04:03, 11.07it/s] 47%|████▋     | 2372/5066 [03:36<04:03, 11.07it/s] 47%|████▋     | 2374/5066 [03:36<04:03, 11.08it/s] 47%|████▋     | 2376/5066 [03:37<04:02, 11.08it/s] 47%|████▋     | 2378/5066 [03:37<04:02, 11.09it/s] 47%|████▋     | 2380/5066 [03:37<04:02, 11.09it/s] 47%|████▋     | 2382/5066 [03:37<04:02, 11.08it/s] 47%|████▋     | 2384/5066 [03:37<04:02, 11.08it/s] 47%|████▋     | 2386/5066 [03:37<04:01, 11.09it/s] 47%|████▋     | 2388/5066 [03:38<04:01, 11.09it/s] 47%|████▋     | 2390/5066 [03:38<04:01, 11.09it/s] 47%|████▋     | 2392/5066 [03:38<04:01, 11.09it/s] 47%|████▋     | 2394/5066 [03:38<04:02, 11.00it/s] 47%|████▋     | 2396/5066 [03:38<04:02, 11.02it/s] 47%|████▋     | 2398/5066 [03:39<04:01, 11.04it/s] 47%|████▋     | 2400/5066 [03:39<04:01, 11.05it/s] 47%|████▋     | 2402/5066 [03:39<04:00, 11.06it/s] 47%|████▋     | 2404/5066 [03:39<04:00, 11.07it/s] 47%|████▋     | 2406/5066 [03:39<04:00, 11.07it/s] 48%|████▊     | 2408/5066 [03:39<03:59, 11.08it/s] 48%|████▊     | 2410/5066 [03:40<03:59, 11.08it/s] 48%|████▊     | 2412/5066 [03:40<03:59, 11.08it/s] 48%|████▊     | 2414/5066 [03:40<03:59, 11.09it/s] 48%|████▊     | 2416/5066 [03:40<03:59, 11.08it/s] 48%|████▊     | 2418/5066 [03:40<03:58, 11.08it/s] 48%|████▊     | 2420/5066 [03:40<03:58, 11.09it/s] 48%|████▊     | 2422/5066 [03:41<03:58, 11.09it/s] 48%|████▊     | 2424/5066 [03:41<03:58, 11.09it/s] 48%|████▊     | 2426/5066 [03:41<03:58, 11.08it/s] 48%|████▊     | 2428/5066 [03:41<03:57, 11.09it/s] 48%|████▊     | 2430/5066 [03:41<03:57, 11.09it/s] 48%|████▊     | 2432/5066 [03:42<03:57, 11.09it/s] 48%|████▊     | 2434/5066 [03:42<03:57, 11.10it/s] 48%|████▊     | 2436/5066 [03:42<03:56, 11.10it/s] 48%|████▊     | 2438/5066 [03:42<03:57, 11.08it/s] 48%|████▊     | 2440/5066 [03:42<03:56, 11.08it/s] 48%|████▊     | 2442/5066 [03:42<03:56, 11.08it/s] 48%|████▊     | 2444/5066 [03:43<03:56, 11.09it/s] 48%|████▊     | 2446/5066 [03:43<04:00, 10.89it/s] 48%|████▊     | 2448/5066 [03:43<03:59, 10.94it/s] 48%|████▊     | 2450/5066 [03:43<03:58, 10.98it/s] 48%|████▊     | 2452/5066 [03:43<03:57, 11.00it/s] 48%|████▊     | 2454/5066 [03:44<03:56, 11.02it/s] 48%|████▊     | 2456/5066 [03:44<03:56, 11.04it/s] 49%|████▊     | 2458/5066 [03:44<03:56, 11.05it/s] 49%|████▊     | 2460/5066 [03:44<03:55, 11.06it/s] 49%|████▊     | 2462/5066 [03:44<03:58, 10.93it/s] 49%|████▊     | 2464/5066 [03:44<03:57, 10.97it/s] 49%|████▊     | 2466/5066 [03:45<03:56, 11.01it/s] 49%|████▊     | 2468/5066 [03:45<03:55, 11.03it/s] 49%|████▉     | 2470/5066 [03:45<03:55, 11.04it/s] 49%|████▉     | 2472/5066 [03:45<03:54, 11.06it/s] 49%|████▉     | 2474/5066 [03:45<03:54, 11.06it/s] 49%|████▉     | 2476/5066 [03:46<03:53, 11.07it/s] 49%|████▉     | 2478/5066 [03:46<03:53, 11.08it/s] 49%|████▉     | 2480/5066 [03:46<03:53, 11.08it/s] 49%|████▉     | 2482/5066 [03:46<03:53, 11.08it/s] 49%|████▉     | 2484/5066 [03:46<03:54, 11.00it/s] 49%|████▉     | 2486/5066 [03:46<03:54, 11.01it/s] 49%|████▉     | 2488/5066 [03:47<03:53, 11.03it/s] 49%|████▉     | 2490/5066 [03:47<03:53, 11.05it/s] 49%|████▉     | 2492/5066 [03:47<03:52, 11.07it/s] 49%|████▉     | 2494/5066 [03:47<03:52, 11.07it/s] 49%|████▉     | 2496/5066 [03:47<03:51, 11.08it/s] 49%|████▉     | 2498/5066 [03:48<03:51, 11.07it/s] 49%|████▉     | 2500/5066 [03:48<03:51, 11.08it/s]                                                   {'loss': 0.4169, 'learning_rate': 1.5195420450059218e-05, 'epoch': 0.99}
 49%|████▉     | 2500/5066 [03:48<03:51, 11.08it/s] 49%|████▉     | 2502/5066 [03:48<03:51, 11.07it/s] 49%|████▉     | 2504/5066 [03:48<03:51, 11.07it/s] 49%|████▉     | 2506/5066 [03:48<03:51, 11.07it/s] 50%|████▉     | 2508/5066 [03:48<03:51, 11.07it/s] 50%|████▉     | 2510/5066 [03:49<03:50, 11.08it/s] 50%|████▉     | 2512/5066 [03:49<03:50, 11.08it/s] 50%|████▉     | 2514/5066 [03:49<03:50, 11.08it/s] 50%|████▉     | 2516/5066 [03:49<03:50, 11.08it/s] 50%|████▉     | 2518/5066 [03:49<03:49, 11.08it/s] 50%|████▉     | 2520/5066 [03:50<03:49, 11.08it/s] 50%|████▉     | 2522/5066 [03:50<03:49, 11.08it/s] 50%|████▉     | 2524/5066 [03:50<03:49, 11.08it/s] 50%|████▉     | 2526/5066 [03:50<03:49, 11.07it/s] 50%|████▉     | 2528/5066 [03:50<03:53, 10.85it/s] 50%|████▉     | 2530/5066 [03:50<03:52, 10.89it/s] 50%|████▉     | 2532/5066 [03:51<03:51, 10.94it/s] 50%|█████     | 2534/5066 [03:51<03:42, 11.37it/s] 50%|█████     | 2536/5066 [03:51<03:44, 11.28it/s] 50%|█████     | 2538/5066 [03:51<03:45, 11.22it/s] 50%|█████     | 2540/5066 [03:51<03:45, 11.18it/s] 50%|█████     | 2542/5066 [03:52<03:46, 11.15it/s] 50%|█████     | 2544/5066 [03:52<03:46, 11.13it/s] 50%|█████     | 2546/5066 [03:52<03:46, 11.12it/s] 50%|█████     | 2548/5066 [03:52<03:46, 11.11it/s] 50%|█████     | 2550/5066 [03:52<03:47, 11.06it/s] 50%|█████     | 2552/5066 [03:52<03:47, 11.05it/s] 50%|█████     | 2554/5066 [03:53<03:47, 11.06it/s] 50%|█████     | 2556/5066 [03:53<03:46, 11.07it/s] 50%|█████     | 2558/5066 [03:53<03:46, 11.07it/s] 51%|█████     | 2560/5066 [03:53<03:46, 11.08it/s] 51%|█████     | 2562/5066 [03:53<03:45, 11.08it/s] 51%|█████     | 2564/5066 [03:54<03:45, 11.09it/s] 51%|█████     | 2566/5066 [03:54<03:45, 11.09it/s] 51%|█████     | 2568/5066 [03:54<03:45, 11.09it/s] 51%|█████     | 2570/5066 [03:54<03:46, 11.02it/s] 51%|█████     | 2572/5066 [03:54<03:45, 11.04it/s] 51%|█████     | 2574/5066 [03:54<03:47, 10.97it/s] 51%|█████     | 2576/5066 [03:55<03:46, 11.00it/s] 51%|█████     | 2578/5066 [03:55<03:47, 10.94it/s] 51%|█████     | 2580/5066 [03:55<03:47, 10.91it/s] 51%|█████     | 2582/5066 [03:55<03:46, 10.96it/s] 51%|█████     | 2584/5066 [03:55<03:45, 11.00it/s] 51%|█████     | 2586/5066 [03:56<03:44, 11.02it/s] 51%|█████     | 2588/5066 [03:56<03:44, 11.04it/s] 51%|█████     | 2590/5066 [03:56<03:44, 11.05it/s] 51%|█████     | 2592/5066 [03:56<03:43, 11.06it/s] 51%|█████     | 2594/5066 [03:56<03:43, 11.07it/s] 51%|█████     | 2596/5066 [03:56<03:45, 10.96it/s] 51%|█████▏    | 2598/5066 [03:57<03:44, 10.99it/s] 51%|█████▏    | 2600/5066 [03:57<03:43, 11.02it/s] 51%|█████▏    | 2602/5066 [03:57<03:43, 11.03it/s] 51%|█████▏    | 2604/5066 [03:57<03:43, 11.02it/s] 51%|█████▏    | 2606/5066 [03:57<03:43, 11.03it/s] 51%|█████▏    | 2608/5066 [03:58<03:42, 11.05it/s] 52%|█████▏    | 2610/5066 [03:58<03:42, 11.06it/s] 52%|█████▏    | 2612/5066 [03:58<03:41, 11.07it/s] 52%|█████▏    | 2614/5066 [03:58<03:43, 10.97it/s] 52%|█████▏    | 2616/5066 [03:58<03:42, 11.00it/s] 52%|█████▏    | 2618/5066 [03:58<03:44, 10.91it/s] 52%|█████▏    | 2620/5066 [03:59<03:43, 10.96it/s] 52%|█████▏    | 2622/5066 [03:59<03:44, 10.88it/s] 52%|█████▏    | 2624/5066 [03:59<03:45, 10.83it/s] 52%|█████▏    | 2626/5066 [03:59<03:43, 10.91it/s] 52%|█████▏    | 2628/5066 [03:59<03:42, 10.97it/s] 52%|█████▏    | 2630/5066 [04:00<03:41, 11.00it/s] 52%|█████▏    | 2632/5066 [04:00<03:40, 11.02it/s] 52%|█████▏    | 2634/5066 [04:00<03:40, 11.04it/s] 52%|█████▏    | 2636/5066 [04:00<03:39, 11.05it/s] 52%|█████▏    | 2638/5066 [04:00<03:39, 11.06it/s] 52%|█████▏    | 2640/5066 [04:00<03:43, 10.88it/s] 52%|█████▏    | 2642/5066 [04:01<03:41, 10.94it/s] 52%|█████▏    | 2644/5066 [04:01<03:41, 10.96it/s] 52%|█████▏    | 2646/5066 [04:01<03:40, 10.98it/s] 52%|█████▏    | 2648/5066 [04:01<03:39, 11.01it/s] 52%|█████▏    | 2650/5066 [04:01<03:38, 11.03it/s] 52%|█████▏    | 2652/5066 [04:02<03:40, 10.94it/s] 52%|█████▏    | 2654/5066 [04:02<03:39, 10.98it/s] 52%|█████▏    | 2656/5066 [04:02<03:38, 11.01it/s] 52%|█████▏    | 2658/5066 [04:02<03:39, 10.95it/s] 53%|█████▎    | 2660/5066 [04:02<03:38, 10.99it/s] 53%|█████▎    | 2662/5066 [04:02<03:39, 10.94it/s] 53%|█████▎    | 2664/5066 [04:03<03:38, 10.99it/s] 53%|█████▎    | 2666/5066 [04:03<03:40, 10.90it/s] 53%|█████▎    | 2668/5066 [04:03<03:40, 10.88it/s] 53%|█████▎    | 2670/5066 [04:03<03:38, 10.94it/s] 53%|█████▎    | 2672/5066 [04:03<03:37, 10.99it/s] 53%|█████▎    | 2674/5066 [04:04<03:37, 11.02it/s] 53%|█████▎    | 2676/5066 [04:04<03:36, 11.03it/s] 53%|█████▎    | 2678/5066 [04:04<03:36, 11.05it/s] 53%|█████▎    | 2680/5066 [04:04<03:35, 11.05it/s] 53%|█████▎    | 2682/5066 [04:04<03:35, 11.06it/s] 53%|█████▎    | 2684/5066 [04:04<03:38, 10.92it/s] 53%|█████▎    | 2686/5066 [04:05<03:37, 10.96it/s] 53%|█████▎    | 2688/5066 [04:05<03:36, 10.99it/s] 53%|█████▎    | 2690/5066 [04:05<03:35, 11.02it/s] 53%|█████▎    | 2692/5066 [04:05<03:34, 11.04it/s] 53%|█████▎    | 2694/5066 [04:05<03:34, 11.06it/s] 53%|█████▎    | 2696/5066 [04:06<03:34, 11.07it/s] 53%|█████▎    | 2698/5066 [04:06<03:33, 11.07it/s] 53%|█████▎    | 2700/5066 [04:06<03:33, 11.08it/s] 53%|█████▎    | 2702/5066 [04:06<03:34, 11.01it/s] 53%|█████▎    | 2704/5066 [04:06<03:34, 11.04it/s] 53%|█████▎    | 2706/5066 [04:06<03:34, 10.98it/s] 53%|█████▎    | 2708/5066 [04:07<03:34, 11.00it/s] 53%|█████▎    | 2710/5066 [04:07<03:36, 10.87it/s] 54%|█████▎    | 2712/5066 [04:07<03:37, 10.83it/s] 54%|█████▎    | 2714/5066 [04:07<03:35, 10.91it/s] 54%|█████▎    | 2716/5066 [04:07<03:34, 10.96it/s] 54%|█████▎    | 2718/5066 [04:08<03:33, 10.99it/s] 54%|█████▎    | 2720/5066 [04:08<03:32, 11.02it/s] 54%|█████▎    | 2722/5066 [04:08<03:32, 11.03it/s] 54%|█████▍    | 2724/5066 [04:08<03:32, 11.04it/s] 54%|█████▍    | 2726/5066 [04:08<03:31, 11.05it/s] 54%|█████▍    | 2728/5066 [04:08<03:32, 10.99it/s] 54%|█████▍    | 2730/5066 [04:09<03:32, 11.01it/s] 54%|█████▍    | 2732/5066 [04:09<03:31, 11.03it/s] 54%|█████▍    | 2734/5066 [04:09<03:31, 11.05it/s] 54%|█████▍    | 2736/5066 [04:09<03:30, 11.06it/s] 54%|█████▍    | 2738/5066 [04:09<03:30, 11.06it/s] 54%|█████▍    | 2740/5066 [04:10<03:30, 11.07it/s] 54%|█████▍    | 2742/5066 [04:10<03:29, 11.07it/s] 54%|█████▍    | 2744/5066 [04:10<03:29, 11.07it/s] 54%|█████▍    | 2746/5066 [04:10<03:30, 11.00it/s] 54%|█████▍    | 2748/5066 [04:10<03:30, 11.03it/s] 54%|█████▍    | 2750/5066 [04:10<03:29, 11.04it/s] 54%|█████▍    | 2752/5066 [04:11<03:29, 11.05it/s] 54%|█████▍    | 2754/5066 [04:11<03:29, 11.06it/s] 54%|█████▍    | 2756/5066 [04:11<03:30, 11.00it/s] 54%|█████▍    | 2758/5066 [04:11<03:30, 10.94it/s] 54%|█████▍    | 2760/5066 [04:11<03:29, 10.98it/s] 55%|█████▍    | 2762/5066 [04:12<03:29, 10.99it/s] 55%|█████▍    | 2764/5066 [04:12<03:28, 11.02it/s] 55%|█████▍    | 2766/5066 [04:12<03:29, 10.97it/s] 55%|█████▍    | 2768/5066 [04:12<03:28, 11.01it/s] 55%|█████▍    | 2770/5066 [04:12<03:28, 11.03it/s] 55%|█████▍    | 2772/5066 [04:12<03:27, 11.05it/s] 55%|█████▍    | 2774/5066 [04:13<03:28, 10.97it/s] 55%|█████▍    | 2776/5066 [04:13<03:28, 11.00it/s] 55%|█████▍    | 2778/5066 [04:13<03:27, 11.03it/s] 55%|█████▍    | 2780/5066 [04:13<03:28, 10.97it/s] 55%|█████▍    | 2782/5066 [04:13<03:27, 11.00it/s] 55%|█████▍    | 2784/5066 [04:14<03:26, 11.03it/s] 55%|█████▍    | 2786/5066 [04:14<03:26, 11.05it/s] 55%|█████▌    | 2788/5066 [04:14<03:27, 10.97it/s] 55%|█████▌    | 2790/5066 [04:14<03:26, 11.00it/s] 55%|█████▌    | 2792/5066 [04:14<03:26, 11.02it/s] 55%|█████▌    | 2794/5066 [04:14<03:25, 11.04it/s] 55%|█████▌    | 2796/5066 [04:15<03:26, 10.98it/s] 55%|█████▌    | 2798/5066 [04:15<03:27, 10.94it/s] 55%|█████▌    | 2800/5066 [04:15<03:28, 10.86it/s] 55%|█████▌    | 2802/5066 [04:15<03:27, 10.93it/s] 55%|█████▌    | 2804/5066 [04:15<03:26, 10.95it/s] 55%|█████▌    | 2806/5066 [04:16<03:25, 10.98it/s] 55%|█████▌    | 2808/5066 [04:16<03:25, 11.01it/s] 55%|█████▌    | 2810/5066 [04:16<03:24, 11.03it/s] 56%|█████▌    | 2812/5066 [04:16<03:26, 10.93it/s] 56%|█████▌    | 2814/5066 [04:16<03:25, 10.98it/s] 56%|█████▌    | 2816/5066 [04:16<03:25, 10.95it/s] 56%|█████▌    | 2818/5066 [04:17<03:26, 10.91it/s] 56%|█████▌    | 2820/5066 [04:17<03:24, 10.96it/s] 56%|█████▌    | 2822/5066 [04:17<03:23, 11.00it/s] 56%|█████▌    | 2824/5066 [04:17<03:23, 11.02it/s] 56%|█████▌    | 2826/5066 [04:17<03:22, 11.04it/s] 56%|█████▌    | 2828/5066 [04:18<03:22, 11.05it/s] 56%|█████▌    | 2830/5066 [04:18<03:22, 11.05it/s] 56%|█████▌    | 2832/5066 [04:18<03:21, 11.06it/s] 56%|█████▌    | 2834/5066 [04:18<03:23, 10.97it/s] 56%|█████▌    | 2836/5066 [04:18<03:24, 10.90it/s] 56%|█████▌    | 2838/5066 [04:18<03:23, 10.93it/s] 56%|█████▌    | 2840/5066 [04:19<03:26, 10.80it/s] 56%|█████▌    | 2842/5066 [04:19<03:24, 10.89it/s] 56%|█████▌    | 2844/5066 [04:19<03:24, 10.87it/s] 56%|█████▌    | 2846/5066 [04:19<03:23, 10.94it/s] 56%|█████▌    | 2848/5066 [04:19<03:23, 10.87it/s] 56%|█████▋    | 2850/5066 [04:20<03:22, 10.94it/s] 56%|█████▋    | 2852/5066 [04:20<03:21, 10.99it/s] 56%|█████▋    | 2854/5066 [04:20<03:20, 11.02it/s] 56%|█████▋    | 2856/5066 [04:20<03:20, 11.03it/s] 56%|█████▋    | 2858/5066 [04:20<03:21, 10.94it/s] 56%|█████▋    | 2860/5066 [04:20<03:21, 10.97it/s] 56%|█████▋    | 2862/5066 [04:21<03:20, 11.01it/s] 57%|█████▋    | 2864/5066 [04:21<03:19, 11.02it/s] 57%|█████▋    | 2866/5066 [04:21<03:19, 11.03it/s] 57%|█████▋    | 2868/5066 [04:21<03:19, 11.04it/s] 57%|█████▋    | 2870/5066 [04:21<03:20, 10.97it/s] 57%|█████▋    | 2872/5066 [04:22<03:19, 11.00it/s] 57%|█████▋    | 2874/5066 [04:22<03:18, 11.02it/s] 57%|█████▋    | 2876/5066 [04:22<03:19, 10.96it/s] 57%|█████▋    | 2878/5066 [04:22<03:19, 10.99it/s] 57%|█████▋    | 2880/5066 [04:22<03:18, 11.02it/s] 57%|█████▋    | 2882/5066 [04:22<03:17, 11.03it/s] 57%|█████▋    | 2884/5066 [04:23<03:18, 10.97it/s] 57%|█████▋    | 2886/5066 [04:23<03:18, 11.00it/s] 57%|█████▋    | 2888/5066 [04:23<03:17, 11.03it/s] 57%|█████▋    | 2890/5066 [04:23<03:16, 11.05it/s] 57%|█████▋    | 2892/5066 [04:23<03:16, 11.06it/s] 57%|█████▋    | 2894/5066 [04:24<03:16, 11.06it/s] 57%|█████▋    | 2896/5066 [04:24<03:16, 11.07it/s] 57%|█████▋    | 2898/5066 [04:24<03:15, 11.07it/s] 57%|█████▋    | 2900/5066 [04:24<03:15, 11.07it/s] 57%|█████▋    | 2902/5066 [04:24<03:15, 11.07it/s] 57%|█████▋    | 2904/5066 [04:24<03:15, 11.08it/s] 57%|█████▋    | 2906/5066 [04:25<03:16, 11.01it/s] 57%|█████▋    | 2908/5066 [04:25<03:15, 11.04it/s] 57%|█████▋    | 2910/5066 [04:25<03:15, 11.04it/s] 57%|█████▋    | 2912/5066 [04:25<03:17, 10.93it/s] 58%|█████▊    | 2914/5066 [04:25<03:15, 10.98it/s] 58%|█████▊    | 2916/5066 [04:26<03:15, 11.01it/s] 58%|█████▊    | 2918/5066 [04:26<03:14, 11.02it/s] 58%|█████▊    | 2920/5066 [04:26<03:14, 11.03it/s] 58%|█████▊    | 2922/5066 [04:26<03:14, 11.04it/s] 58%|█████▊    | 2924/5066 [04:26<03:13, 11.05it/s] 58%|█████▊    | 2926/5066 [04:26<03:15, 10.95it/s] 58%|█████▊    | 2928/5066 [04:27<03:16, 10.88it/s] 58%|█████▊    | 2930/5066 [04:27<03:15, 10.93it/s] 58%|█████▊    | 2932/5066 [04:27<03:15, 10.90it/s] 58%|█████▊    | 2934/5066 [04:27<03:14, 10.95it/s] 58%|█████▊    | 2936/5066 [04:27<03:13, 10.99it/s] 58%|█████▊    | 2938/5066 [04:28<03:13, 11.01it/s] 58%|█████▊    | 2940/5066 [04:28<03:12, 11.03it/s] 58%|█████▊    | 2942/5066 [04:28<03:12, 11.05it/s] 58%|█████▊    | 2944/5066 [04:28<03:12, 11.05it/s] 58%|█████▊    | 2946/5066 [04:28<03:11, 11.06it/s] 58%|█████▊    | 2948/5066 [04:28<03:11, 11.06it/s] 58%|█████▊    | 2950/5066 [04:29<03:12, 10.99it/s] 58%|█████▊    | 2952/5066 [04:29<03:11, 11.02it/s] 58%|█████▊    | 2954/5066 [04:29<03:11, 11.03it/s] 58%|█████▊    | 2956/5066 [04:29<03:10, 11.05it/s] 58%|█████▊    | 2958/5066 [04:29<03:10, 11.05it/s] 58%|█████▊    | 2960/5066 [04:30<03:10, 11.07it/s] 58%|█████▊    | 2962/5066 [04:30<03:10, 11.07it/s] 59%|█████▊    | 2964/5066 [04:30<03:10, 11.05it/s] 59%|█████▊    | 2966/5066 [04:30<03:09, 11.06it/s] 59%|█████▊    | 2968/5066 [04:30<03:09, 11.07it/s] 59%|█████▊    | 2970/5066 [04:30<03:11, 10.97it/s] 59%|█████▊    | 2972/5066 [04:31<03:10, 11.00it/s] 59%|█████▊    | 2974/5066 [04:31<03:09, 11.03it/s] 59%|█████▊    | 2976/5066 [04:31<03:10, 10.96it/s] 59%|█████▉    | 2978/5066 [04:31<03:09, 11.00it/s] 59%|█████▉    | 2980/5066 [04:31<03:09, 11.03it/s] 59%|█████▉    | 2982/5066 [04:32<03:08, 11.05it/s] 59%|█████▉    | 2984/5066 [04:32<03:08, 11.06it/s] 59%|█████▉    | 2986/5066 [04:32<03:07, 11.07it/s] 59%|█████▉    | 2988/5066 [04:32<03:07, 11.07it/s] 59%|█████▉    | 2990/5066 [04:32<03:07, 11.08it/s] 59%|█████▉    | 2992/5066 [04:32<03:07, 11.08it/s] 59%|█████▉    | 2994/5066 [04:33<03:07, 11.07it/s] 59%|█████▉    | 2996/5066 [04:33<03:06, 11.08it/s] 59%|█████▉    | 2998/5066 [04:33<03:08, 10.96it/s] 59%|█████▉    | 3000/5066 [04:33<03:07, 11.00it/s]                                                   {'loss': 0.1873, 'learning_rate': 1.2234504540071062e-05, 'epoch': 1.18}
 59%|█████▉    | 3000/5066 [04:33<03:07, 11.00it/s] 59%|█████▉    | 3002/5066 [04:33<03:07, 11.01it/s] 59%|█████▉    | 3004/5066 [04:34<03:06, 11.03it/s] 59%|█████▉    | 3006/5066 [04:34<03:06, 11.05it/s] 59%|█████▉    | 3008/5066 [04:34<03:08, 10.93it/s] 59%|█████▉    | 3010/5066 [04:34<03:07, 10.96it/s] 59%|█████▉    | 3012/5066 [04:34<03:06, 11.00it/s] 59%|█████▉    | 3014/5066 [04:34<03:06, 11.02it/s] 60%|█████▉    | 3016/5066 [04:35<03:05, 11.04it/s] 60%|█████▉    | 3018/5066 [04:35<03:06, 10.98it/s] 60%|█████▉    | 3020/5066 [04:35<03:07, 10.94it/s] 60%|█████▉    | 3022/5066 [04:35<03:06, 10.96it/s] 60%|█████▉    | 3024/5066 [04:35<03:05, 11.00it/s] 60%|█████▉    | 3026/5066 [04:36<03:05, 11.02it/s] 60%|█████▉    | 3028/5066 [04:36<03:04, 11.04it/s] 60%|█████▉    | 3030/5066 [04:36<03:04, 11.06it/s] 60%|█████▉    | 3032/5066 [04:36<03:03, 11.06it/s] 60%|█████▉    | 3034/5066 [04:36<03:05, 10.97it/s] 60%|█████▉    | 3036/5066 [04:36<03:04, 11.01it/s] 60%|█████▉    | 3038/5066 [04:37<03:03, 11.03it/s] 60%|██████    | 3040/5066 [04:37<03:03, 11.04it/s] 60%|██████    | 3042/5066 [04:37<03:03, 11.05it/s] 60%|██████    | 3044/5066 [04:37<03:02, 11.07it/s] 60%|██████    | 3046/5066 [04:37<03:02, 11.08it/s] 60%|██████    | 3048/5066 [04:37<03:02, 11.08it/s] 60%|██████    | 3050/5066 [04:38<03:01, 11.08it/s] 60%|██████    | 3052/5066 [04:38<03:06, 10.81it/s] 60%|██████    | 3054/5066 [04:38<03:04, 10.89it/s] 60%|██████    | 3056/5066 [04:38<03:03, 10.95it/s] 60%|██████    | 3058/5066 [04:38<03:02, 10.99it/s] 60%|██████    | 3060/5066 [04:39<03:02, 11.02it/s] 60%|██████    | 3062/5066 [04:39<03:03, 10.93it/s] 60%|██████    | 3064/5066 [04:39<03:03, 10.90it/s] 61%|██████    | 3066/5066 [04:39<03:02, 10.95it/s] 61%|██████    | 3068/5066 [04:39<03:01, 10.99it/s] 61%|██████    | 3070/5066 [04:40<03:01, 11.02it/s] 61%|██████    | 3072/5066 [04:40<03:00, 11.03it/s] 61%|██████    | 3074/5066 [04:40<03:00, 11.03it/s] 61%|██████    | 3076/5066 [04:40<03:00, 11.04it/s] 61%|██████    | 3078/5066 [04:40<02:59, 11.05it/s] 61%|██████    | 3080/5066 [04:40<02:59, 11.06it/s] 61%|██████    | 3082/5066 [04:41<02:59, 11.06it/s] 61%|██████    | 3084/5066 [04:41<02:59, 11.07it/s] 61%|██████    | 3086/5066 [04:41<02:58, 11.07it/s] 61%|██████    | 3088/5066 [04:41<02:58, 11.07it/s] 61%|██████    | 3090/5066 [04:41<02:58, 11.08it/s] 61%|██████    | 3092/5066 [04:41<02:58, 11.08it/s] 61%|██████    | 3094/5066 [04:42<02:57, 11.08it/s] 61%|██████    | 3096/5066 [04:42<03:00, 10.91it/s] 61%|██████    | 3098/5066 [04:42<02:59, 10.96it/s] 61%|██████    | 3100/5066 [04:42<02:58, 11.00it/s] 61%|██████    | 3102/5066 [04:42<02:58, 11.03it/s] 61%|██████▏   | 3104/5066 [04:43<02:57, 11.05it/s] 61%|██████▏   | 3106/5066 [04:43<02:59, 10.95it/s] 61%|██████▏   | 3108/5066 [04:43<02:59, 10.89it/s] 61%|██████▏   | 3110/5066 [04:43<02:58, 10.96it/s] 61%|██████▏   | 3112/5066 [04:43<02:57, 11.00it/s] 61%|██████▏   | 3114/5066 [04:43<02:56, 11.03it/s] 62%|██████▏   | 3116/5066 [04:44<02:58, 10.94it/s] 62%|██████▏   | 3118/5066 [04:44<02:58, 10.91it/s] 62%|██████▏   | 3120/5066 [04:44<02:57, 10.96it/s] 62%|██████▏   | 3122/5066 [04:44<02:57, 10.93it/s] 62%|██████▏   | 3124/5066 [04:44<02:58, 10.89it/s] 62%|██████▏   | 3126/5066 [04:45<02:57, 10.95it/s] 62%|██████▏   | 3128/5066 [04:45<02:56, 10.99it/s] 62%|██████▏   | 3130/5066 [04:45<02:55, 11.01it/s] 62%|██████▏   | 3132/5066 [04:45<02:55, 11.03it/s] 62%|██████▏   | 3134/5066 [04:45<02:54, 11.04it/s] 62%|██████▏   | 3136/5066 [04:46<02:54, 11.05it/s] 62%|██████▏   | 3138/5066 [04:46<02:54, 11.06it/s] 62%|██████▏   | 3140/5066 [04:46<02:55, 10.96it/s] 62%|██████▏   | 3142/5066 [04:46<02:55, 10.99it/s] 62%|██████▏   | 3144/5066 [04:46<02:54, 11.02it/s] 62%|██████▏   | 3146/5066 [04:46<02:54, 11.03it/s] 62%|██████▏   | 3148/5066 [04:47<02:54, 10.97it/s] 62%|██████▏   | 3150/5066 [04:47<02:55, 10.93it/s] 62%|██████▏   | 3152/5066 [04:47<02:55, 10.90it/s] 62%|██████▏   | 3154/5066 [04:47<02:54, 10.95it/s] 62%|██████▏   | 3156/5066 [04:47<02:53, 10.99it/s] 62%|██████▏   | 3158/5066 [04:48<02:53, 11.02it/s] 62%|██████▏   | 3160/5066 [04:48<02:52, 11.04it/s] 62%|██████▏   | 3162/5066 [04:48<02:52, 11.05it/s] 62%|██████▏   | 3164/5066 [04:48<02:52, 11.05it/s] 62%|██████▏   | 3166/5066 [04:48<02:53, 10.96it/s] 63%|██████▎   | 3168/5066 [04:48<02:52, 10.99it/s] 63%|██████▎   | 3170/5066 [04:49<02:52, 11.02it/s] 63%|██████▎   | 3172/5066 [04:49<02:51, 11.04it/s] 63%|██████▎   | 3174/5066 [04:49<02:51, 11.05it/s] 63%|██████▎   | 3176/5066 [04:49<02:50, 11.06it/s] 63%|██████▎   | 3178/5066 [04:49<02:50, 11.05it/s] 63%|██████▎   | 3180/5066 [04:49<02:50, 11.06it/s] 63%|██████▎   | 3182/5066 [04:50<02:50, 11.07it/s] 63%|██████▎   | 3184/5066 [04:50<02:52, 10.90it/s] 63%|██████▎   | 3186/5066 [04:50<02:51, 10.96it/s] 63%|██████▎   | 3188/5066 [04:50<02:50, 11.00it/s] 63%|██████▎   | 3190/5066 [04:50<02:51, 10.95it/s] 63%|██████▎   | 3192/5066 [04:51<02:52, 10.84it/s] 63%|██████▎   | 3194/5066 [04:51<02:53, 10.80it/s] 63%|██████▎   | 3196/5066 [04:51<02:53, 10.77it/s] 63%|██████▎   | 3198/5066 [04:51<02:51, 10.87it/s] 63%|██████▎   | 3200/5066 [04:51<02:50, 10.93it/s] 63%|██████▎   | 3202/5066 [04:52<02:49, 10.97it/s] 63%|██████▎   | 3204/5066 [04:52<02:49, 11.00it/s] 63%|██████▎   | 3206/5066 [04:52<02:50, 10.92it/s] 63%|██████▎   | 3208/5066 [04:52<02:49, 10.97it/s] 63%|██████▎   | 3210/5066 [04:52<02:48, 10.99it/s] 63%|██████▎   | 3212/5066 [04:52<02:49, 10.91it/s] 63%|██████▎   | 3214/5066 [04:53<02:48, 10.96it/s] 63%|██████▎   | 3216/5066 [04:53<02:48, 11.00it/s] 64%|██████▎   | 3218/5066 [04:53<02:47, 11.02it/s] 64%|██████▎   | 3220/5066 [04:53<02:48, 10.93it/s] 64%|██████▎   | 3222/5066 [04:53<02:48, 10.98it/s] 64%|██████▎   | 3224/5066 [04:54<02:47, 11.00it/s] 64%|██████▎   | 3226/5066 [04:54<02:46, 11.03it/s] 64%|██████▎   | 3228/5066 [04:54<02:46, 11.04it/s] 64%|██████▍   | 3230/5066 [04:54<02:48, 10.92it/s] 64%|██████▍   | 3232/5066 [04:54<02:47, 10.96it/s] 64%|██████▍   | 3234/5066 [04:54<02:46, 10.99it/s] 64%|██████▍   | 3236/5066 [04:55<02:46, 11.02it/s] 64%|██████▍   | 3238/5066 [04:55<02:46, 10.97it/s] 64%|██████▍   | 3240/5066 [04:55<02:47, 10.92it/s] 64%|██████▍   | 3242/5066 [04:55<02:46, 10.96it/s] 64%|██████▍   | 3244/5066 [04:55<02:45, 10.99it/s] 64%|██████▍   | 3246/5066 [04:56<02:45, 11.02it/s] 64%|██████▍   | 3248/5066 [04:56<02:44, 11.04it/s] 64%|██████▍   | 3250/5066 [04:56<02:44, 11.06it/s] 64%|██████▍   | 3252/5066 [04:56<02:43, 11.07it/s] 64%|██████▍   | 3254/5066 [04:56<02:43, 11.08it/s] 64%|██████▍   | 3256/5066 [04:56<02:43, 11.09it/s] 64%|██████▍   | 3258/5066 [04:57<02:44, 11.01it/s] 64%|██████▍   | 3260/5066 [04:57<02:43, 11.03it/s] 64%|██████▍   | 3262/5066 [04:57<02:43, 11.05it/s] 64%|██████▍   | 3264/5066 [04:57<02:42, 11.07it/s] 64%|██████▍   | 3266/5066 [04:57<02:43, 10.98it/s] 65%|██████▍   | 3268/5066 [04:58<02:43, 11.01it/s] 65%|██████▍   | 3270/5066 [04:58<02:42, 11.03it/s] 65%|██████▍   | 3272/5066 [04:58<02:42, 11.05it/s] 65%|██████▍   | 3274/5066 [04:58<02:42, 11.05it/s] 65%|██████▍   | 3276/5066 [04:58<02:41, 11.06it/s] 65%|██████▍   | 3278/5066 [04:58<02:41, 11.07it/s] 65%|██████▍   | 3280/5066 [04:59<02:42, 10.97it/s] 65%|██████▍   | 3282/5066 [04:59<02:43, 10.88it/s] 65%|██████▍   | 3284/5066 [04:59<02:44, 10.83it/s] 65%|██████▍   | 3286/5066 [04:59<02:43, 10.90it/s] 65%|██████▍   | 3288/5066 [04:59<02:42, 10.96it/s] 65%|██████▍   | 3290/5066 [05:00<02:41, 10.99it/s] 65%|██████▍   | 3292/5066 [05:00<02:41, 11.02it/s] 65%|██████▌   | 3294/5066 [05:00<02:40, 11.03it/s] 65%|██████▌   | 3296/5066 [05:00<02:40, 11.05it/s] 65%|██████▌   | 3298/5066 [05:00<02:39, 11.06it/s] 65%|██████▌   | 3300/5066 [05:00<02:39, 11.07it/s] 65%|██████▌   | 3302/5066 [05:01<02:42, 10.86it/s] 65%|██████▌   | 3304/5066 [05:01<02:41, 10.93it/s] 65%|██████▌   | 3306/5066 [05:01<02:40, 10.97it/s] 65%|██████▌   | 3308/5066 [05:01<02:39, 11.00it/s] 65%|██████▌   | 3310/5066 [05:01<02:41, 10.91it/s] 65%|██████▌   | 3312/5066 [05:02<02:40, 10.95it/s] 65%|██████▌   | 3314/5066 [05:02<02:39, 10.98it/s] 65%|██████▌   | 3316/5066 [05:02<02:38, 11.01it/s] 65%|██████▌   | 3318/5066 [05:02<02:38, 11.03it/s] 66%|██████▌   | 3320/5066 [05:02<02:37, 11.05it/s] 66%|██████▌   | 3322/5066 [05:02<02:39, 10.96it/s] 66%|██████▌   | 3324/5066 [05:03<02:40, 10.88it/s] 66%|██████▌   | 3326/5066 [05:03<02:39, 10.94it/s] 66%|██████▌   | 3328/5066 [05:03<02:40, 10.86it/s] 66%|██████▌   | 3330/5066 [05:03<02:42, 10.66it/s] 66%|██████▌   | 3332/5066 [05:03<02:42, 10.68it/s] 66%|██████▌   | 3334/5066 [05:04<02:42, 10.67it/s] 66%|██████▌   | 3336/5066 [05:04<02:40, 10.77it/s] 66%|██████▌   | 3338/5066 [05:04<02:39, 10.86it/s] 66%|██████▌   | 3340/5066 [05:04<02:37, 10.93it/s] 66%|██████▌   | 3342/5066 [05:04<02:37, 10.97it/s] 66%|██████▌   | 3344/5066 [05:04<02:36, 11.00it/s] 66%|██████▌   | 3346/5066 [05:05<02:36, 11.02it/s] 66%|██████▌   | 3348/5066 [05:05<02:36, 10.98it/s] 66%|██████▌   | 3350/5066 [05:05<02:37, 10.90it/s] 66%|██████▌   | 3352/5066 [05:05<02:36, 10.96it/s] 66%|██████▌   | 3354/5066 [05:05<02:35, 10.99it/s] 66%|██████▌   | 3356/5066 [05:06<02:35, 11.02it/s] 66%|██████▋   | 3358/5066 [05:06<02:34, 11.04it/s] 66%|██████▋   | 3360/5066 [05:06<02:35, 11.00it/s] 66%|██████▋   | 3362/5066 [05:06<02:34, 11.02it/s] 66%|██████▋   | 3364/5066 [05:06<02:34, 11.04it/s] 66%|██████▋   | 3366/5066 [05:06<02:33, 11.05it/s] 66%|██████▋   | 3368/5066 [05:07<02:33, 11.06it/s] 67%|██████▋   | 3370/5066 [05:07<02:34, 10.98it/s] 67%|██████▋   | 3372/5066 [05:07<02:33, 11.01it/s] 67%|██████▋   | 3374/5066 [05:07<02:33, 11.03it/s] 67%|██████▋   | 3376/5066 [05:07<02:32, 11.05it/s] 67%|██████▋   | 3378/5066 [05:08<02:32, 11.06it/s] 67%|██████▋   | 3380/5066 [05:08<02:32, 11.06it/s] 67%|██████▋   | 3382/5066 [05:08<02:32, 11.07it/s] 67%|██████▋   | 3384/5066 [05:08<02:32, 11.00it/s] 67%|██████▋   | 3386/5066 [05:08<02:32, 11.02it/s] 67%|██████▋   | 3388/5066 [05:08<02:32, 11.02it/s] 67%|██████▋   | 3390/5066 [05:09<02:31, 11.03it/s] 67%|██████▋   | 3392/5066 [05:09<02:31, 11.05it/s] 67%|██████▋   | 3394/5066 [05:09<02:31, 11.06it/s] 67%|██████▋   | 3396/5066 [05:09<02:30, 11.07it/s] 67%|██████▋   | 3398/5066 [05:09<02:30, 11.08it/s] 67%|██████▋   | 3400/5066 [05:10<02:30, 11.09it/s] 67%|██████▋   | 3402/5066 [05:10<02:31, 10.99it/s] 67%|██████▋   | 3404/5066 [05:10<02:30, 11.02it/s] 67%|██████▋   | 3406/5066 [05:10<02:30, 11.03it/s] 67%|██████▋   | 3408/5066 [05:10<02:30, 11.05it/s] 67%|██████▋   | 3410/5066 [05:10<02:29, 11.06it/s] 67%|██████▋   | 3412/5066 [05:11<02:31, 10.94it/s] 67%|██████▋   | 3414/5066 [05:11<02:30, 10.98it/s] 67%|██████▋   | 3416/5066 [05:11<02:30, 10.93it/s] 67%|██████▋   | 3418/5066 [05:11<02:30, 10.97it/s] 68%|██████▊   | 3420/5066 [05:11<02:31, 10.87it/s] 68%|██████▊   | 3422/5066 [05:12<02:30, 10.93it/s] 68%|██████▊   | 3424/5066 [05:12<02:31, 10.84it/s] 68%|██████▊   | 3426/5066 [05:12<02:30, 10.90it/s] 68%|██████▊   | 3428/5066 [05:12<02:29, 10.96it/s] 68%|██████▊   | 3430/5066 [05:12<02:28, 10.99it/s] 68%|██████▊   | 3432/5066 [05:12<02:28, 11.02it/s] 68%|██████▊   | 3434/5066 [05:13<02:28, 10.96it/s] 68%|██████▊   | 3436/5066 [05:13<02:28, 11.00it/s] 68%|██████▊   | 3438/5066 [05:13<02:27, 11.02it/s] 68%|██████▊   | 3440/5066 [05:13<02:27, 11.03it/s] 68%|██████▊   | 3442/5066 [05:13<02:27, 11.04it/s] 68%|██████▊   | 3444/5066 [05:14<02:27, 10.96it/s] 68%|██████▊   | 3446/5066 [05:14<02:27, 11.00it/s] 68%|██████▊   | 3448/5066 [05:14<02:26, 11.03it/s] 68%|██████▊   | 3450/5066 [05:14<02:26, 11.04it/s] 68%|██████▊   | 3452/5066 [05:14<02:26, 11.05it/s] 68%|██████▊   | 3454/5066 [05:14<02:27, 10.91it/s] 68%|██████▊   | 3456/5066 [05:15<02:26, 10.96it/s] 68%|██████▊   | 3458/5066 [05:15<02:26, 11.00it/s] 68%|██████▊   | 3460/5066 [05:15<02:27, 10.92it/s] 68%|██████▊   | 3462/5066 [05:15<02:26, 10.97it/s] 68%|██████▊   | 3464/5066 [05:15<02:25, 11.00it/s] 68%|██████▊   | 3466/5066 [05:16<02:25, 11.02it/s] 68%|██████▊   | 3468/5066 [05:16<02:24, 11.04it/s] 68%|██████▊   | 3470/5066 [05:16<02:24, 11.04it/s] 69%|██████▊   | 3472/5066 [05:16<02:24, 11.06it/s] 69%|██████▊   | 3474/5066 [05:16<02:24, 10.99it/s] 69%|██████▊   | 3476/5066 [05:16<02:24, 11.02it/s] 69%|██████▊   | 3478/5066 [05:17<02:25, 10.95it/s] 69%|██████▊   | 3480/5066 [05:17<02:24, 10.99it/s] 69%|██████▊   | 3482/5066 [05:17<02:23, 11.02it/s] 69%|██████▉   | 3484/5066 [05:17<02:23, 11.04it/s] 69%|██████▉   | 3486/5066 [05:17<02:23, 11.05it/s] 69%|██████▉   | 3488/5066 [05:18<02:22, 11.06it/s] 69%|██████▉   | 3490/5066 [05:18<02:24, 10.92it/s] 69%|██████▉   | 3492/5066 [05:18<02:24, 10.91it/s] 69%|██████▉   | 3494/5066 [05:18<02:23, 10.95it/s] 69%|██████▉   | 3496/5066 [05:18<02:24, 10.84it/s] 69%|██████▉   | 3498/5066 [05:18<02:23, 10.91it/s] 69%|██████▉   | 3500/5066 [05:19<02:23, 10.88it/s]                                                   {'loss': 0.2061, 'learning_rate': 9.273588630082906e-06, 'epoch': 1.38}
 69%|██████▉   | 3500/5066 [05:19<02:23, 10.88it/s] 69%|██████▉   | 3502/5066 [05:19<02:23, 10.93it/s] 69%|██████▉   | 3504/5066 [05:19<02:22, 10.98it/s] 69%|██████▉   | 3506/5066 [05:19<02:21, 11.01it/s] 69%|██████▉   | 3508/5066 [05:19<02:21, 11.03it/s] 69%|██████▉   | 3510/5066 [05:20<02:20, 11.05it/s] 69%|██████▉   | 3512/5066 [05:20<02:20, 11.06it/s] 69%|██████▉   | 3514/5066 [05:20<02:20, 11.07it/s] 69%|██████▉   | 3516/5066 [05:20<02:19, 11.07it/s] 69%|██████▉   | 3518/5066 [05:20<02:19, 11.07it/s] 69%|██████▉   | 3520/5066 [05:20<02:19, 11.08it/s] 70%|██████▉   | 3522/5066 [05:21<02:20, 11.00it/s] 70%|██████▉   | 3524/5066 [05:21<02:19, 11.03it/s] 70%|██████▉   | 3526/5066 [05:21<02:19, 11.05it/s] 70%|██████▉   | 3528/5066 [05:21<02:20, 10.94it/s] 70%|██████▉   | 3530/5066 [05:21<02:19, 10.99it/s] 70%|██████▉   | 3532/5066 [05:22<02:19, 11.02it/s] 70%|██████▉   | 3534/5066 [05:22<02:18, 11.04it/s] 70%|██████▉   | 3536/5066 [05:22<02:18, 11.06it/s] 70%|██████▉   | 3538/5066 [05:22<02:18, 11.07it/s] 70%|██████▉   | 3540/5066 [05:22<02:17, 11.08it/s] 70%|██████▉   | 3542/5066 [05:22<02:17, 11.08it/s] 70%|██████▉   | 3544/5066 [05:23<02:18, 11.00it/s] 70%|██████▉   | 3546/5066 [05:23<02:17, 11.02it/s] 70%|███████   | 3548/5066 [05:23<02:17, 11.04it/s] 70%|███████   | 3550/5066 [05:23<02:17, 11.05it/s] 70%|███████   | 3552/5066 [05:23<02:16, 11.06it/s] 70%|███████   | 3554/5066 [05:24<02:16, 11.07it/s] 70%|███████   | 3556/5066 [05:24<02:16, 11.08it/s] 70%|███████   | 3558/5066 [05:24<02:17, 10.94it/s] 70%|███████   | 3560/5066 [05:24<02:17, 10.97it/s] 70%|███████   | 3562/5066 [05:24<02:16, 11.00it/s] 70%|███████   | 3564/5066 [05:24<02:16, 11.02it/s] 70%|███████   | 3566/5066 [05:25<02:16, 10.96it/s] 70%|███████   | 3568/5066 [05:25<02:16, 11.00it/s] 70%|███████   | 3570/5066 [05:25<02:15, 11.02it/s] 71%|███████   | 3572/5066 [05:25<02:15, 11.04it/s] 71%|███████   | 3574/5066 [05:25<02:15, 11.05it/s] 71%|███████   | 3576/5066 [05:26<02:16, 10.93it/s] 71%|███████   | 3578/5066 [05:26<02:15, 10.98it/s] 71%|███████   | 3580/5066 [05:26<02:15, 11.01it/s] 71%|███████   | 3582/5066 [05:26<02:14, 11.02it/s] 71%|███████   | 3584/5066 [05:26<02:15, 10.94it/s] 71%|███████   | 3586/5066 [05:26<02:14, 10.99it/s] 71%|███████   | 3588/5066 [05:27<02:15, 10.94it/s] 71%|███████   | 3590/5066 [05:27<02:14, 10.98it/s] 71%|███████   | 3592/5066 [05:27<02:15, 10.89it/s] 71%|███████   | 3594/5066 [05:27<02:14, 10.95it/s] 71%|███████   | 3596/5066 [05:27<02:13, 10.99it/s] 71%|███████   | 3598/5066 [05:28<02:13, 11.02it/s] 71%|███████   | 3600/5066 [05:28<02:12, 11.04it/s] 71%|███████   | 3602/5066 [05:28<02:12, 11.05it/s] 71%|███████   | 3604/5066 [05:28<02:12, 11.06it/s] 71%|███████   | 3606/5066 [05:28<02:11, 11.07it/s] 71%|███████   | 3608/5066 [05:28<02:11, 11.07it/s] 71%|███████▏  | 3610/5066 [05:29<02:11, 11.07it/s] 71%|███████▏  | 3612/5066 [05:29<02:12, 10.95it/s] 71%|███████▏  | 3614/5066 [05:29<02:12, 10.99it/s] 71%|███████▏  | 3616/5066 [05:29<02:11, 11.02it/s] 71%|███████▏  | 3618/5066 [05:29<02:11, 11.04it/s] 71%|███████▏  | 3620/5066 [05:30<02:10, 11.05it/s] 71%|███████▏  | 3622/5066 [05:30<02:10, 11.06it/s] 72%|███████▏  | 3624/5066 [05:30<02:10, 11.05it/s] 72%|███████▏  | 3626/5066 [05:30<02:10, 11.06it/s] 72%|███████▏  | 3628/5066 [05:30<02:09, 11.07it/s] 72%|███████▏  | 3630/5066 [05:30<02:10, 10.98it/s] 72%|███████▏  | 3632/5066 [05:31<02:12, 10.83it/s] 72%|███████▏  | 3634/5066 [05:31<02:11, 10.91it/s] 72%|███████▏  | 3636/5066 [05:31<02:10, 10.96it/s] 72%|███████▏  | 3638/5066 [05:31<02:09, 11.00it/s] 72%|███████▏  | 3640/5066 [05:31<02:09, 11.02it/s] 72%|███████▏  | 3642/5066 [05:32<02:09, 11.04it/s] 72%|███████▏  | 3644/5066 [05:32<02:09, 10.96it/s] 72%|███████▏  | 3646/5066 [05:32<02:09, 11.00it/s] 72%|███████▏  | 3648/5066 [05:32<02:09, 10.93it/s] 72%|███████▏  | 3650/5066 [05:32<02:09, 10.97it/s] 72%|███████▏  | 3652/5066 [05:32<02:08, 11.00it/s] 72%|███████▏  | 3654/5066 [05:33<02:08, 11.02it/s] 72%|███████▏  | 3656/5066 [05:33<02:07, 11.04it/s] 72%|███████▏  | 3658/5066 [05:33<02:07, 11.05it/s] 72%|███████▏  | 3660/5066 [05:33<02:07, 11.06it/s] 72%|███████▏  | 3662/5066 [05:33<02:06, 11.06it/s] 72%|███████▏  | 3664/5066 [05:34<02:06, 11.08it/s] 72%|███████▏  | 3666/5066 [05:34<02:07, 11.01it/s] 72%|███████▏  | 3668/5066 [05:34<02:06, 11.04it/s] 72%|███████▏  | 3670/5066 [05:34<02:06, 11.06it/s] 72%|███████▏  | 3672/5066 [05:34<02:05, 11.07it/s] 73%|███████▎  | 3674/5066 [05:34<02:05, 11.08it/s] 73%|███████▎  | 3676/5066 [05:35<02:05, 11.08it/s] 73%|███████▎  | 3678/5066 [05:35<02:05, 11.08it/s] 73%|███████▎  | 3680/5066 [05:35<02:06, 10.94it/s] 73%|███████▎  | 3682/5066 [05:35<02:05, 10.98it/s] 73%|███████▎  | 3684/5066 [05:35<02:05, 11.02it/s] 73%|███████▎  | 3686/5066 [05:36<02:05, 11.03it/s] 73%|███████▎  | 3688/5066 [05:36<02:04, 11.04it/s] 73%|███████▎  | 3690/5066 [05:36<02:04, 11.06it/s] 73%|███████▎  | 3692/5066 [05:36<02:04, 11.07it/s] 73%|███████▎  | 3694/5066 [05:36<02:03, 11.07it/s] 73%|███████▎  | 3696/5066 [05:36<02:03, 11.07it/s] 73%|███████▎  | 3698/5066 [05:37<02:03, 11.08it/s] 73%|███████▎  | 3700/5066 [05:37<02:04, 10.97it/s] 73%|███████▎  | 3702/5066 [05:37<02:05, 10.85it/s] 73%|███████▎  | 3704/5066 [05:37<02:04, 10.92it/s] 73%|███████▎  | 3706/5066 [05:37<02:04, 10.97it/s] 73%|███████▎  | 3708/5066 [05:38<02:03, 10.98it/s] 73%|███████▎  | 3710/5066 [05:38<02:03, 11.01it/s] 73%|███████▎  | 3712/5066 [05:38<02:04, 10.91it/s] 73%|███████▎  | 3714/5066 [05:38<02:03, 10.96it/s] 73%|███████▎  | 3716/5066 [05:38<02:02, 10.99it/s] 73%|███████▎  | 3718/5066 [05:38<02:02, 11.01it/s] 73%|███████▎  | 3720/5066 [05:39<02:02, 11.03it/s] 73%|███████▎  | 3722/5066 [05:39<02:01, 11.05it/s] 74%|███████▎  | 3724/5066 [05:39<02:01, 11.05it/s] 74%|███████▎  | 3726/5066 [05:39<02:01, 11.06it/s] 74%|███████▎  | 3728/5066 [05:39<02:01, 11.05it/s] 74%|███████▎  | 3730/5066 [05:40<02:00, 11.05it/s] 74%|███████▎  | 3732/5066 [05:40<02:00, 11.05it/s] 74%|███████▎  | 3734/5066 [05:40<02:00, 11.06it/s] 74%|███████▎  | 3736/5066 [05:40<02:00, 11.07it/s] 74%|███████▍  | 3738/5066 [05:40<01:59, 11.08it/s] 74%|███████▍  | 3740/5066 [05:40<01:59, 11.07it/s] 74%|███████▍  | 3742/5066 [05:41<01:59, 11.07it/s] 74%|███████▍  | 3744/5066 [05:41<01:59, 11.07it/s] 74%|███████▍  | 3746/5066 [05:41<01:59, 11.07it/s] 74%|███████▍  | 3748/5066 [05:41<01:59, 11.07it/s] 74%|███████▍  | 3750/5066 [05:41<01:59, 10.99it/s] 74%|███████▍  | 3752/5066 [05:42<01:59, 11.01it/s] 74%|███████▍  | 3754/5066 [05:42<01:59, 11.02it/s] 74%|███████▍  | 3756/5066 [05:42<01:59, 10.96it/s] 74%|███████▍  | 3758/5066 [05:42<01:59, 10.99it/s] 74%|███████▍  | 3760/5066 [05:42<01:58, 11.01it/s] 74%|███████▍  | 3762/5066 [05:42<01:58, 11.03it/s] 74%|███████▍  | 3764/5066 [05:43<01:57, 11.05it/s] 74%|███████▍  | 3766/5066 [05:43<01:57, 11.05it/s] 74%|███████▍  | 3768/5066 [05:43<01:57, 11.05it/s] 74%|███████▍  | 3770/5066 [05:43<01:57, 11.05it/s] 74%|███████▍  | 3772/5066 [05:43<01:57, 11.06it/s] 74%|███████▍  | 3774/5066 [05:44<01:56, 11.06it/s] 75%|███████▍  | 3776/5066 [05:44<01:56, 11.07it/s] 75%|███████▍  | 3778/5066 [05:44<01:56, 11.07it/s] 75%|███████▍  | 3780/5066 [05:44<01:56, 11.07it/s] 75%|███████▍  | 3782/5066 [05:44<01:56, 11.06it/s] 75%|███████▍  | 3784/5066 [05:44<01:55, 11.07it/s] 75%|███████▍  | 3786/5066 [05:45<01:55, 11.07it/s] 75%|███████▍  | 3788/5066 [05:45<01:55, 11.06it/s] 75%|███████▍  | 3790/5066 [05:45<01:55, 11.06it/s] 75%|███████▍  | 3792/5066 [05:45<01:55, 11.07it/s] 75%|███████▍  | 3794/5066 [05:45<01:54, 11.07it/s] 75%|███████▍  | 3796/5066 [05:45<01:54, 11.07it/s] 75%|███████▍  | 3798/5066 [05:46<01:54, 11.06it/s] 75%|███████▌  | 3800/5066 [05:46<01:54, 11.07it/s] 75%|███████▌  | 3802/5066 [05:46<01:54, 11.07it/s] 75%|███████▌  | 3804/5066 [05:46<01:53, 11.08it/s] 75%|███████▌  | 3806/5066 [05:46<01:53, 11.07it/s] 75%|███████▌  | 3808/5066 [05:47<01:53, 11.07it/s] 75%|███████▌  | 3810/5066 [05:47<01:53, 11.06it/s] 75%|███████▌  | 3812/5066 [05:47<01:53, 11.07it/s] 75%|███████▌  | 3814/5066 [05:47<01:53, 11.06it/s] 75%|███████▌  | 3816/5066 [05:47<01:52, 11.07it/s] 75%|███████▌  | 3818/5066 [05:47<01:52, 11.08it/s] 75%|███████▌  | 3820/5066 [05:48<01:52, 11.08it/s] 75%|███████▌  | 3822/5066 [05:48<01:52, 11.08it/s] 75%|███████▌  | 3824/5066 [05:48<01:52, 11.07it/s] 76%|███████▌  | 3826/5066 [05:48<01:51, 11.07it/s] 76%|███████▌  | 3828/5066 [05:48<01:51, 11.07it/s] 76%|███████▌  | 3830/5066 [05:49<01:51, 11.07it/s] 76%|███████▌  | 3832/5066 [05:49<01:51, 11.07it/s] 76%|███████▌  | 3834/5066 [05:49<01:51, 11.06it/s] 76%|███████▌  | 3836/5066 [05:49<01:51, 11.07it/s] 76%|███████▌  | 3838/5066 [05:49<01:50, 11.07it/s] 76%|███████▌  | 3840/5066 [05:49<01:50, 11.05it/s] 76%|███████▌  | 3842/5066 [05:50<01:50, 11.04it/s] 76%|███████▌  | 3844/5066 [05:50<01:50, 11.05it/s] 76%|███████▌  | 3846/5066 [05:50<01:50, 11.06it/s] 76%|███████▌  | 3848/5066 [05:50<01:50, 11.06it/s] 76%|███████▌  | 3850/5066 [05:50<01:49, 11.07it/s] 76%|███████▌  | 3852/5066 [05:51<01:49, 11.06it/s] 76%|███████▌  | 3854/5066 [05:51<01:49, 11.07it/s] 76%|███████▌  | 3856/5066 [05:51<01:49, 11.06it/s] 76%|███████▌  | 3858/5066 [05:51<01:49, 11.06it/s] 76%|███████▌  | 3860/5066 [05:51<01:48, 11.07it/s] 76%|███████▌  | 3862/5066 [05:51<01:48, 11.07it/s] 76%|███████▋  | 3864/5066 [05:52<01:48, 11.07it/s] 76%|███████▋  | 3866/5066 [05:52<01:48, 11.07it/s] 76%|███████▋  | 3868/5066 [05:52<01:48, 11.06it/s] 76%|███████▋  | 3870/5066 [05:52<01:48, 11.07it/s] 76%|███████▋  | 3872/5066 [05:52<01:47, 11.07it/s] 76%|███████▋  | 3874/5066 [05:53<01:48, 11.03it/s] 77%|███████▋  | 3876/5066 [05:53<01:47, 11.05it/s] 77%|███████▋  | 3878/5066 [05:53<01:47, 11.05it/s] 77%|███████▋  | 3880/5066 [05:53<01:47, 11.06it/s] 77%|███████▋  | 3882/5066 [05:53<01:47, 11.06it/s] 77%|███████▋  | 3884/5066 [05:53<01:46, 11.07it/s] 77%|███████▋  | 3886/5066 [05:54<01:46, 11.07it/s] 77%|███████▋  | 3888/5066 [05:54<01:46, 11.07it/s] 77%|███████▋  | 3890/5066 [05:54<01:46, 11.00it/s] 77%|███████▋  | 3892/5066 [05:54<01:46, 11.02it/s] 77%|███████▋  | 3894/5066 [05:54<01:46, 11.04it/s] 77%|███████▋  | 3896/5066 [05:55<01:45, 11.05it/s] 77%|███████▋  | 3898/5066 [05:55<01:45, 11.05it/s] 77%|███████▋  | 3900/5066 [05:55<01:45, 11.06it/s] 77%|███████▋  | 3902/5066 [05:55<01:45, 11.06it/s] 77%|███████▋  | 3904/5066 [05:55<01:45, 11.06it/s] 77%|███████▋  | 3906/5066 [05:55<01:44, 11.06it/s] 77%|███████▋  | 3908/5066 [05:56<01:44, 11.06it/s] 77%|███████▋  | 3910/5066 [05:56<01:44, 11.05it/s] 77%|███████▋  | 3912/5066 [05:56<01:44, 11.05it/s] 77%|███████▋  | 3914/5066 [05:56<01:44, 11.05it/s] 77%|███████▋  | 3916/5066 [05:56<01:43, 11.06it/s] 77%|███████▋  | 3918/5066 [05:57<01:43, 11.06it/s] 77%|███████▋  | 3920/5066 [05:57<01:43, 11.06it/s] 77%|███████▋  | 3922/5066 [05:57<01:43, 11.06it/s] 77%|███████▋  | 3924/5066 [05:57<01:43, 11.05it/s] 77%|███████▋  | 3926/5066 [05:57<01:43, 11.05it/s] 78%|███████▊  | 3928/5066 [05:57<01:42, 11.05it/s] 78%|███████▊  | 3930/5066 [05:58<01:42, 11.06it/s] 78%|███████▊  | 3932/5066 [05:58<01:42, 11.06it/s] 78%|███████▊  | 3934/5066 [05:58<01:43, 10.95it/s] 78%|███████▊  | 3936/5066 [05:58<01:42, 10.99it/s] 78%|███████▊  | 3938/5066 [05:58<01:42, 11.00it/s] 78%|███████▊  | 3940/5066 [05:59<01:42, 11.02it/s] 78%|███████▊  | 3942/5066 [05:59<01:41, 11.03it/s] 78%|███████▊  | 3944/5066 [05:59<01:41, 11.05it/s] 78%|███████▊  | 3946/5066 [05:59<01:41, 11.06it/s] 78%|███████▊  | 3948/5066 [05:59<01:40, 11.07it/s] 78%|███████▊  | 3950/5066 [05:59<01:40, 11.08it/s] 78%|███████▊  | 3952/5066 [06:00<01:40, 11.07it/s] 78%|███████▊  | 3954/5066 [06:00<01:40, 11.08it/s] 78%|███████▊  | 3956/5066 [06:00<01:40, 11.07it/s] 78%|███████▊  | 3958/5066 [06:00<01:40, 11.07it/s] 78%|███████▊  | 3960/5066 [06:00<01:39, 11.08it/s] 78%|███████▊  | 3962/5066 [06:01<01:39, 11.06it/s] 78%|███████▊  | 3964/5066 [06:01<01:39, 11.06it/s] 78%|███████▊  | 3966/5066 [06:01<01:39, 11.06it/s] 78%|███████▊  | 3968/5066 [06:01<01:39, 11.06it/s] 78%|███████▊  | 3970/5066 [06:01<01:39, 11.07it/s] 78%|███████▊  | 3972/5066 [06:01<01:38, 11.07it/s] 78%|███████▊  | 3974/5066 [06:02<01:38, 11.06it/s] 78%|███████▊  | 3976/5066 [06:02<01:38, 11.06it/s] 79%|███████▊  | 3978/5066 [06:02<01:38, 11.07it/s] 79%|███████▊  | 3980/5066 [06:02<01:38, 11.07it/s] 79%|███████▊  | 3982/5066 [06:02<01:37, 11.07it/s] 79%|███████▊  | 3984/5066 [06:02<01:37, 11.07it/s] 79%|███████▊  | 3986/5066 [06:03<01:37, 11.06it/s] 79%|███████▊  | 3988/5066 [06:03<01:37, 11.07it/s] 79%|███████▉  | 3990/5066 [06:03<01:37, 11.07it/s] 79%|███████▉  | 3992/5066 [06:03<01:37, 11.07it/s] 79%|███████▉  | 3994/5066 [06:03<01:36, 11.08it/s] 79%|███████▉  | 3996/5066 [06:04<01:36, 11.07it/s] 79%|███████▉  | 3998/5066 [06:04<01:36, 11.07it/s] 79%|███████▉  | 4000/5066 [06:04<01:36, 11.08it/s]                                                   {'loss': 0.1751, 'learning_rate': 6.312672720094749e-06, 'epoch': 1.58}
 79%|███████▉  | 4000/5066 [06:04<01:36, 11.08it/s] 79%|███████▉  | 4002/5066 [06:04<01:36, 11.06it/s] 79%|███████▉  | 4004/5066 [06:04<01:36, 11.06it/s] 79%|███████▉  | 4006/5066 [06:04<01:35, 11.06it/s] 79%|███████▉  | 4008/5066 [06:05<01:35, 11.06it/s] 79%|███████▉  | 4010/5066 [06:05<01:35, 11.05it/s] 79%|███████▉  | 4012/5066 [06:05<01:35, 11.05it/s] 79%|███████▉  | 4014/5066 [06:05<01:35, 11.06it/s] 79%|███████▉  | 4016/5066 [06:05<01:34, 11.06it/s] 79%|███████▉  | 4018/5066 [06:06<01:34, 11.06it/s] 79%|███████▉  | 4020/5066 [06:06<01:34, 11.07it/s] 79%|███████▉  | 4022/5066 [06:06<01:34, 11.07it/s] 79%|███████▉  | 4024/5066 [06:06<01:34, 11.07it/s] 79%|███████▉  | 4026/5066 [06:06<01:33, 11.07it/s] 80%|███████▉  | 4028/5066 [06:06<01:33, 11.06it/s] 80%|███████▉  | 4030/5066 [06:07<01:33, 11.07it/s] 80%|███████▉  | 4032/5066 [06:07<01:33, 11.06it/s] 80%|███████▉  | 4034/5066 [06:07<01:33, 11.07it/s] 80%|███████▉  | 4036/5066 [06:07<01:33, 11.07it/s] 80%|███████▉  | 4038/5066 [06:07<01:32, 11.07it/s] 80%|███████▉  | 4040/5066 [06:08<01:32, 11.07it/s] 80%|███████▉  | 4042/5066 [06:08<01:32, 11.07it/s] 80%|███████▉  | 4044/5066 [06:08<01:32, 11.07it/s] 80%|███████▉  | 4046/5066 [06:08<01:32, 11.07it/s] 80%|███████▉  | 4048/5066 [06:08<01:31, 11.07it/s] 80%|███████▉  | 4050/5066 [06:08<01:31, 11.08it/s] 80%|███████▉  | 4052/5066 [06:09<01:31, 11.07it/s] 80%|████████  | 4054/5066 [06:09<01:31, 11.07it/s] 80%|████████  | 4056/5066 [06:09<01:31, 11.07it/s] 80%|████████  | 4058/5066 [06:09<01:31, 11.07it/s] 80%|████████  | 4060/5066 [06:09<01:30, 11.07it/s] 80%|████████  | 4062/5066 [06:10<01:30, 11.06it/s] 80%|████████  | 4064/5066 [06:10<01:30, 11.05it/s] 80%|████████  | 4066/5066 [06:10<01:31, 10.93it/s] 80%|████████  | 4068/5066 [06:10<01:31, 10.96it/s] 80%|████████  | 4070/5066 [06:10<01:30, 10.99it/s] 80%|████████  | 4072/5066 [06:10<01:30, 11.02it/s] 80%|████████  | 4074/5066 [06:11<01:30, 11.02it/s] 80%|████████  | 4076/5066 [06:11<01:29, 11.03it/s] 80%|████████  | 4078/5066 [06:11<01:29, 11.04it/s] 81%|████████  | 4080/5066 [06:11<01:29, 11.05it/s] 81%|████████  | 4082/5066 [06:11<01:28, 11.06it/s] 81%|████████  | 4084/5066 [06:12<01:28, 11.07it/s] 81%|████████  | 4086/5066 [06:12<01:28, 11.07it/s] 81%|████████  | 4088/5066 [06:12<01:28, 11.07it/s] 81%|████████  | 4090/5066 [06:12<01:28, 11.07it/s] 81%|████████  | 4092/5066 [06:12<01:27, 11.08it/s] 81%|████████  | 4094/5066 [06:12<01:27, 11.08it/s] 81%|████████  | 4096/5066 [06:13<01:27, 11.08it/s] 81%|████████  | 4098/5066 [06:13<01:27, 11.09it/s] 81%|████████  | 4100/5066 [06:13<01:27, 11.08it/s] 81%|████████  | 4102/5066 [06:13<01:27, 11.08it/s] 81%|████████  | 4104/5066 [06:13<01:26, 11.06it/s] 81%|████████  | 4106/5066 [06:14<01:26, 11.07it/s] 81%|████████  | 4108/5066 [06:14<01:26, 11.07it/s] 81%|████████  | 4110/5066 [06:14<01:27, 10.99it/s] 81%|████████  | 4112/5066 [06:14<01:26, 11.01it/s] 81%|████████  | 4114/5066 [06:14<01:26, 11.02it/s] 81%|████████  | 4116/5066 [06:14<01:26, 11.04it/s] 81%|████████▏ | 4118/5066 [06:15<01:26, 10.99it/s] 81%|████████▏ | 4120/5066 [06:15<01:26, 10.99it/s] 81%|████████▏ | 4122/5066 [06:15<01:25, 11.01it/s] 81%|████████▏ | 4124/5066 [06:15<01:25, 11.03it/s] 81%|████████▏ | 4126/5066 [06:15<01:25, 11.04it/s] 81%|████████▏ | 4128/5066 [06:16<01:24, 11.04it/s] 82%|████████▏ | 4130/5066 [06:16<01:24, 11.05it/s] 82%|████████▏ | 4132/5066 [06:16<01:24, 11.06it/s] 82%|████████▏ | 4134/5066 [06:16<01:24, 11.06it/s] 82%|████████▏ | 4136/5066 [06:16<01:24, 11.06it/s] 82%|████████▏ | 4138/5066 [06:16<01:23, 11.07it/s] 82%|████████▏ | 4140/5066 [06:17<01:23, 11.07it/s] 82%|████████▏ | 4142/5066 [06:17<01:23, 11.06it/s] 82%|████████▏ | 4144/5066 [06:17<01:23, 11.06it/s] 82%|████████▏ | 4146/5066 [06:17<01:23, 11.06it/s] 82%|████████▏ | 4148/5066 [06:17<01:22, 11.07it/s] 82%|████████▏ | 4150/5066 [06:18<01:22, 11.07it/s] 82%|████████▏ | 4152/5066 [06:18<01:22, 11.06it/s] 82%|████████▏ | 4154/5066 [06:18<01:22, 10.99it/s] 82%|████████▏ | 4156/5066 [06:18<01:22, 11.02it/s] 82%|████████▏ | 4158/5066 [06:18<01:22, 11.03it/s] 82%|████████▏ | 4160/5066 [06:18<01:22, 11.05it/s] 82%|████████▏ | 4162/5066 [06:19<01:21, 11.05it/s] 82%|████████▏ | 4164/5066 [06:19<01:22, 10.97it/s] 82%|████████▏ | 4166/5066 [06:19<01:21, 10.99it/s] 82%|████████▏ | 4168/5066 [06:19<01:21, 11.01it/s] 82%|████████▏ | 4170/5066 [06:19<01:21, 11.03it/s] 82%|████████▏ | 4172/5066 [06:20<01:20, 11.04it/s] 82%|████████▏ | 4174/5066 [06:20<01:20, 11.05it/s] 82%|████████▏ | 4176/5066 [06:20<01:20, 11.05it/s] 82%|████████▏ | 4178/5066 [06:20<01:20, 11.06it/s] 83%|████████▎ | 4180/5066 [06:20<01:20, 11.06it/s] 83%|████████▎ | 4182/5066 [06:20<01:19, 11.07it/s] 83%|████████▎ | 4184/5066 [06:21<01:19, 11.07it/s] 83%|████████▎ | 4186/5066 [06:21<01:19, 11.07it/s] 83%|████████▎ | 4188/5066 [06:21<01:19, 11.06it/s] 83%|████████▎ | 4190/5066 [06:21<01:19, 11.07it/s] 83%|████████▎ | 4192/5066 [06:21<01:18, 11.07it/s] 83%|████████▎ | 4194/5066 [06:22<01:18, 11.07it/s] 83%|████████▎ | 4196/5066 [06:22<01:18, 11.06it/s] 83%|████████▎ | 4198/5066 [06:22<01:18, 11.06it/s] 83%|████████▎ | 4200/5066 [06:22<01:18, 11.06it/s] 83%|████████▎ | 4202/5066 [06:22<01:18, 11.06it/s] 83%|████████▎ | 4204/5066 [06:22<01:17, 11.06it/s] 83%|████████▎ | 4206/5066 [06:23<01:17, 11.06it/s] 83%|████████▎ | 4208/5066 [06:23<01:17, 11.06it/s] 83%|████████▎ | 4210/5066 [06:23<01:17, 11.07it/s] 83%|████████▎ | 4212/5066 [06:23<01:17, 11.06it/s] 83%|████████▎ | 4214/5066 [06:23<01:17, 11.06it/s] 83%|████████▎ | 4216/5066 [06:23<01:16, 11.07it/s] 83%|████████▎ | 4218/5066 [06:24<01:16, 11.07it/s] 83%|████████▎ | 4220/5066 [06:24<01:16, 11.07it/s] 83%|████████▎ | 4222/5066 [06:24<01:16, 11.08it/s] 83%|████████▎ | 4224/5066 [06:24<01:16, 11.07it/s] 83%|████████▎ | 4226/5066 [06:24<01:16, 10.98it/s] 83%|████████▎ | 4228/5066 [06:25<01:16, 11.01it/s] 83%|████████▎ | 4230/5066 [06:25<01:15, 11.03it/s] 84%|████████▎ | 4232/5066 [06:25<01:15, 11.05it/s] 84%|████████▎ | 4234/5066 [06:25<01:15, 11.06it/s] 84%|████████▎ | 4236/5066 [06:25<01:15, 11.06it/s] 84%|████████▎ | 4238/5066 [06:25<01:14, 11.07it/s] 84%|████████▎ | 4240/5066 [06:26<01:14, 11.08it/s] 84%|████████▎ | 4242/5066 [06:26<01:14, 11.08it/s] 84%|████████▍ | 4244/5066 [06:26<01:14, 11.07it/s] 84%|████████▍ | 4246/5066 [06:26<01:14, 11.07it/s] 84%|████████▍ | 4248/5066 [06:26<01:13, 11.07it/s] 84%|████████▍ | 4250/5066 [06:27<01:13, 11.07it/s] 84%|████████▍ | 4252/5066 [06:27<01:13, 11.07it/s] 84%|████████▍ | 4254/5066 [06:27<01:13, 11.07it/s] 84%|████████▍ | 4256/5066 [06:27<01:13, 11.07it/s] 84%|████████▍ | 4258/5066 [06:27<01:13, 11.07it/s] 84%|████████▍ | 4260/5066 [06:27<01:12, 11.07it/s] 84%|████████▍ | 4262/5066 [06:28<01:12, 11.07it/s] 84%|████████▍ | 4264/5066 [06:28<01:12, 11.07it/s] 84%|████████▍ | 4266/5066 [06:28<01:12, 11.06it/s] 84%|████████▍ | 4268/5066 [06:28<01:12, 11.06it/s] 84%|████████▍ | 4270/5066 [06:28<01:11, 11.06it/s] 84%|████████▍ | 4272/5066 [06:29<01:11, 11.06it/s] 84%|████████▍ | 4274/5066 [06:29<01:11, 11.05it/s] 84%|████████▍ | 4276/5066 [06:29<01:11, 11.06it/s] 84%|████████▍ | 4278/5066 [06:29<01:11, 11.05it/s] 84%|████████▍ | 4280/5066 [06:29<01:11, 11.06it/s] 85%|████████▍ | 4282/5066 [06:29<01:10, 11.06it/s] 85%|████████▍ | 4284/5066 [06:30<01:10, 11.06it/s] 85%|████████▍ | 4286/5066 [06:30<01:10, 11.07it/s] 85%|████████▍ | 4288/5066 [06:30<01:10, 10.99it/s] 85%|████████▍ | 4290/5066 [06:30<01:10, 11.02it/s] 85%|████████▍ | 4292/5066 [06:30<01:10, 11.04it/s] 85%|████████▍ | 4294/5066 [06:31<01:09, 11.05it/s] 85%|████████▍ | 4296/5066 [06:31<01:09, 11.06it/s] 85%|████████▍ | 4298/5066 [06:31<01:09, 11.06it/s] 85%|████████▍ | 4300/5066 [06:31<01:09, 11.07it/s] 85%|████████▍ | 4302/5066 [06:31<01:09, 11.07it/s] 85%|████████▍ | 4304/5066 [06:31<01:08, 11.06it/s] 85%|████████▍ | 4306/5066 [06:32<01:08, 11.06it/s] 85%|████████▌ | 4308/5066 [06:32<01:08, 11.07it/s] 85%|████████▌ | 4310/5066 [06:32<01:08, 11.07it/s] 85%|████████▌ | 4312/5066 [06:32<01:08, 11.07it/s] 85%|████████▌ | 4314/5066 [06:32<01:07, 11.07it/s] 85%|████████▌ | 4316/5066 [06:33<01:07, 11.07it/s] 85%|████████▌ | 4318/5066 [06:33<01:07, 11.07it/s] 85%|████████▌ | 4320/5066 [06:33<01:07, 11.07it/s] 85%|████████▌ | 4322/5066 [06:33<01:07, 10.99it/s] 85%|████████▌ | 4324/5066 [06:33<01:07, 11.01it/s] 85%|████████▌ | 4326/5066 [06:33<01:07, 11.01it/s] 85%|████████▌ | 4328/5066 [06:34<01:06, 11.03it/s] 85%|████████▌ | 4330/5066 [06:34<01:06, 11.04it/s] 86%|████████▌ | 4332/5066 [06:34<01:06, 10.97it/s] 86%|████████▌ | 4334/5066 [06:34<01:06, 11.00it/s] 86%|████████▌ | 4336/5066 [06:34<01:06, 11.02it/s] 86%|████████▌ | 4338/5066 [06:35<01:05, 11.04it/s] 86%|████████▌ | 4340/5066 [06:35<01:05, 11.04it/s] 86%|████████▌ | 4342/5066 [06:35<01:05, 11.05it/s] 86%|████████▌ | 4344/5066 [06:35<01:05, 11.05it/s] 86%|████████▌ | 4346/5066 [06:35<01:05, 11.06it/s] 86%|████████▌ | 4348/5066 [06:35<01:04, 11.06it/s] 86%|████████▌ | 4350/5066 [06:36<01:04, 11.06it/s] 86%|████████▌ | 4352/5066 [06:36<01:04, 11.07it/s] 86%|████████▌ | 4354/5066 [06:36<01:04, 11.07it/s] 86%|████████▌ | 4356/5066 [06:36<01:04, 11.07it/s] 86%|████████▌ | 4358/5066 [06:36<01:04, 10.99it/s] 86%|████████▌ | 4360/5066 [06:37<01:04, 11.02it/s] 86%|████████▌ | 4362/5066 [06:37<01:03, 11.03it/s] 86%|████████▌ | 4364/5066 [06:37<01:03, 11.05it/s] 86%|████████▌ | 4366/5066 [06:37<01:03, 11.05it/s] 86%|████████▌ | 4368/5066 [06:37<01:03, 11.07it/s] 86%|████████▋ | 4370/5066 [06:37<01:02, 11.07it/s] 86%|████████▋ | 4372/5066 [06:38<01:02, 11.07it/s] 86%|████████▋ | 4374/5066 [06:38<01:03, 10.94it/s] 86%|████████▋ | 4376/5066 [06:38<01:02, 10.99it/s] 86%|████████▋ | 4378/5066 [06:38<01:02, 11.02it/s] 86%|████████▋ | 4380/5066 [06:38<01:02, 11.04it/s] 86%|████████▋ | 4382/5066 [06:39<01:01, 11.04it/s] 87%|████████▋ | 4384/5066 [06:39<01:01, 11.04it/s] 87%|████████▋ | 4386/5066 [06:39<01:01, 11.05it/s] 87%|████████▋ | 4388/5066 [06:39<01:01, 11.06it/s] 87%|████████▋ | 4390/5066 [06:39<01:01, 11.07it/s] 87%|████████▋ | 4392/5066 [06:39<01:00, 11.07it/s] 87%|████████▋ | 4394/5066 [06:40<01:00, 11.07it/s] 87%|████████▋ | 4396/5066 [06:40<01:00, 11.07it/s] 87%|████████▋ | 4398/5066 [06:40<01:00, 11.06it/s] 87%|████████▋ | 4400/5066 [06:40<01:00, 11.07it/s] 87%|████████▋ | 4402/5066 [06:40<00:59, 11.07it/s] 87%|████████▋ | 4404/5066 [06:41<00:59, 11.06it/s] 87%|████████▋ | 4406/5066 [06:41<00:59, 11.07it/s] 87%|████████▋ | 4408/5066 [06:41<00:59, 11.06it/s] 87%|████████▋ | 4410/5066 [06:41<00:59, 11.07it/s] 87%|████████▋ | 4412/5066 [06:41<00:59, 11.07it/s] 87%|████████▋ | 4414/5066 [06:41<00:58, 11.07it/s] 87%|████████▋ | 4416/5066 [06:42<00:58, 11.07it/s] 87%|████████▋ | 4418/5066 [06:42<00:58, 11.07it/s] 87%|████████▋ | 4420/5066 [06:42<00:58, 11.07it/s] 87%|████████▋ | 4422/5066 [06:42<00:58, 11.07it/s] 87%|████████▋ | 4424/5066 [06:42<00:58, 11.07it/s] 87%|████████▋ | 4426/5066 [06:42<00:57, 11.06it/s] 87%|████████▋ | 4428/5066 [06:43<00:57, 11.06it/s] 87%|████████▋ | 4430/5066 [06:43<00:57, 11.07it/s] 87%|████████▋ | 4432/5066 [06:43<00:57, 11.06it/s] 88%|████████▊ | 4434/5066 [06:43<00:57, 11.06it/s] 88%|████████▊ | 4436/5066 [06:43<00:56, 11.05it/s] 88%|████████▊ | 4438/5066 [06:44<00:56, 11.05it/s] 88%|████████▊ | 4440/5066 [06:44<00:56, 11.06it/s] 88%|████████▊ | 4442/5066 [06:44<00:56, 11.06it/s] 88%|████████▊ | 4444/5066 [06:44<00:56, 11.06it/s] 88%|████████▊ | 4446/5066 [06:44<00:56, 11.06it/s] 88%|████████▊ | 4448/5066 [06:44<00:55, 11.07it/s] 88%|████████▊ | 4450/5066 [06:45<00:55, 11.07it/s] 88%|████████▊ | 4452/5066 [06:45<00:55, 11.06it/s] 88%|████████▊ | 4454/5066 [06:45<00:55, 11.07it/s] 88%|████████▊ | 4456/5066 [06:45<00:55, 11.06it/s] 88%|████████▊ | 4458/5066 [06:45<00:54, 11.06it/s] 88%|████████▊ | 4460/5066 [06:46<00:54, 11.07it/s] 88%|████████▊ | 4462/5066 [06:46<00:54, 11.06it/s] 88%|████████▊ | 4464/5066 [06:46<00:54, 10.96it/s] 88%|████████▊ | 4466/5066 [06:46<00:54, 10.99it/s] 88%|████████▊ | 4468/5066 [06:46<00:54, 11.01it/s] 88%|████████▊ | 4470/5066 [06:46<00:54, 11.03it/s] 88%|████████▊ | 4472/5066 [06:47<00:53, 11.04it/s] 88%|████████▊ | 4474/5066 [06:47<00:53, 11.05it/s] 88%|████████▊ | 4476/5066 [06:47<00:53, 11.05it/s] 88%|████████▊ | 4478/5066 [06:47<00:53, 10.95it/s] 88%|████████▊ | 4480/5066 [06:47<00:53, 10.99it/s] 88%|████████▊ | 4482/5066 [06:48<00:53, 11.01it/s] 89%|████████▊ | 4484/5066 [06:48<00:52, 11.02it/s] 89%|████████▊ | 4486/5066 [06:48<00:52, 11.03it/s] 89%|████████▊ | 4488/5066 [06:48<00:52, 10.96it/s] 89%|████████▊ | 4490/5066 [06:48<00:52, 10.99it/s] 89%|████████▊ | 4492/5066 [06:48<00:52, 11.01it/s] 89%|████████▊ | 4494/5066 [06:49<00:51, 11.03it/s] 89%|████████▊ | 4496/5066 [06:49<00:51, 11.05it/s] 89%|████████▉ | 4498/5066 [06:49<00:51, 11.06it/s] 89%|████████▉ | 4500/5066 [06:49<00:51, 11.02it/s]                                                   {'loss': 0.1631, 'learning_rate': 3.3517568101065932e-06, 'epoch': 1.78}
 89%|████████▉ | 4500/5066 [06:49<00:51, 11.02it/s] 89%|████████▉ | 4502/5066 [06:49<00:51, 11.02it/s] 89%|████████▉ | 4504/5066 [06:50<00:50, 11.04it/s] 89%|████████▉ | 4506/5066 [06:50<00:50, 11.05it/s] 89%|████████▉ | 4508/5066 [06:50<00:50, 11.06it/s] 89%|████████▉ | 4510/5066 [06:50<00:50, 11.06it/s] 89%|████████▉ | 4512/5066 [06:50<00:50, 11.06it/s] 89%|████████▉ | 4514/5066 [06:50<00:49, 11.07it/s] 89%|████████▉ | 4516/5066 [06:51<00:49, 11.07it/s] 89%|████████▉ | 4518/5066 [06:51<00:49, 11.07it/s] 89%|████████▉ | 4520/5066 [06:51<00:49, 11.07it/s] 89%|████████▉ | 4522/5066 [06:51<00:49, 11.06it/s] 89%|████████▉ | 4524/5066 [06:51<00:48, 11.07it/s] 89%|████████▉ | 4526/5066 [06:52<00:48, 11.06it/s] 89%|████████▉ | 4528/5066 [06:52<00:48, 10.99it/s] 89%|████████▉ | 4530/5066 [06:52<00:48, 11.00it/s] 89%|████████▉ | 4532/5066 [06:52<00:48, 11.02it/s] 89%|████████▉ | 4534/5066 [06:52<00:48, 11.02it/s] 90%|████████▉ | 4536/5066 [06:52<00:48, 11.03it/s] 90%|████████▉ | 4538/5066 [06:53<00:47, 11.03it/s] 90%|████████▉ | 4540/5066 [06:53<00:47, 11.04it/s] 90%|████████▉ | 4542/5066 [06:53<00:47, 11.05it/s] 90%|████████▉ | 4544/5066 [06:53<00:47, 11.05it/s] 90%|████████▉ | 4546/5066 [06:53<00:47, 11.06it/s] 90%|████████▉ | 4548/5066 [06:54<00:46, 11.06it/s] 90%|████████▉ | 4550/5066 [06:54<00:46, 11.06it/s] 90%|████████▉ | 4552/5066 [06:54<00:46, 11.00it/s] 90%|████████▉ | 4554/5066 [06:54<00:46, 11.01it/s] 90%|████████▉ | 4556/5066 [06:54<00:46, 11.04it/s] 90%|████████▉ | 4558/5066 [06:54<00:45, 11.05it/s] 90%|█████████ | 4560/5066 [06:55<00:45, 11.06it/s] 90%|█████████ | 4562/5066 [06:55<00:45, 11.06it/s] 90%|█████████ | 4564/5066 [06:55<00:45, 11.06it/s] 90%|█████████ | 4566/5066 [06:55<00:45, 11.06it/s] 90%|█████████ | 4568/5066 [06:55<00:45, 11.07it/s] 90%|█████████ | 4570/5066 [06:56<00:44, 11.07it/s] 90%|█████████ | 4572/5066 [06:56<00:44, 11.08it/s] 90%|█████████ | 4574/5066 [06:56<00:44, 11.07it/s] 90%|█████████ | 4576/5066 [06:56<00:44, 11.07it/s] 90%|█████████ | 4578/5066 [06:56<00:44, 11.08it/s] 90%|█████████ | 4580/5066 [06:56<00:43, 11.07it/s] 90%|█████████ | 4582/5066 [06:57<00:43, 11.07it/s] 90%|█████████ | 4584/5066 [06:57<00:43, 11.07it/s] 91%|█████████ | 4586/5066 [06:57<00:43, 11.07it/s] 91%|█████████ | 4588/5066 [06:57<00:43, 11.07it/s] 91%|█████████ | 4590/5066 [06:57<00:43, 11.05it/s] 91%|█████████ | 4592/5066 [06:58<00:42, 11.06it/s] 91%|█████████ | 4594/5066 [06:58<00:42, 11.06it/s] 91%|█████████ | 4596/5066 [06:58<00:42, 10.99it/s] 91%|█████████ | 4598/5066 [06:58<00:42, 11.01it/s] 91%|█████████ | 4600/5066 [06:58<00:42, 11.03it/s] 91%|█████████ | 4602/5066 [06:58<00:42, 11.04it/s] 91%|█████████ | 4604/5066 [06:59<00:41, 11.05it/s] 91%|█████████ | 4606/5066 [06:59<00:41, 11.05it/s] 91%|█████████ | 4608/5066 [06:59<00:41, 11.06it/s] 91%|█████████ | 4610/5066 [06:59<00:41, 11.06it/s] 91%|█████████ | 4612/5066 [06:59<00:41, 11.06it/s] 91%|█████████ | 4614/5066 [07:00<00:40, 11.07it/s] 91%|█████████ | 4616/5066 [07:00<00:40, 11.05it/s] 91%|█████████ | 4618/5066 [07:00<00:40, 11.06it/s] 91%|█████████ | 4620/5066 [07:00<00:40, 11.07it/s] 91%|█████████ | 4622/5066 [07:00<00:40, 11.07it/s] 91%|█████████▏| 4624/5066 [07:00<00:39, 11.06it/s] 91%|█████████▏| 4626/5066 [07:01<00:39, 11.07it/s] 91%|█████████▏| 4628/5066 [07:01<00:39, 11.06it/s] 91%|█████████▏| 4630/5066 [07:01<00:39, 11.06it/s] 91%|█████████▏| 4632/5066 [07:01<00:39, 11.06it/s] 91%|█████████▏| 4634/5066 [07:01<00:39, 11.06it/s] 92%|█████████▏| 4636/5066 [07:01<00:38, 11.06it/s] 92%|█████████▏| 4638/5066 [07:02<00:38, 11.07it/s] 92%|█████████▏| 4640/5066 [07:02<00:38, 11.07it/s] 92%|█████████▏| 4642/5066 [07:02<00:38, 11.06it/s] 92%|█████████▏| 4644/5066 [07:02<00:38, 11.07it/s] 92%|█████████▏| 4646/5066 [07:02<00:37, 11.07it/s] 92%|█████████▏| 4648/5066 [07:03<00:37, 11.08it/s] 92%|█████████▏| 4650/5066 [07:03<00:37, 11.08it/s] 92%|█████████▏| 4652/5066 [07:03<00:37, 11.08it/s] 92%|█████████▏| 4654/5066 [07:03<00:37, 11.08it/s] 92%|█████████▏| 4656/5066 [07:03<00:36, 11.09it/s] 92%|█████████▏| 4658/5066 [07:03<00:36, 11.08it/s] 92%|█████████▏| 4660/5066 [07:04<00:36, 11.08it/s] 92%|█████████▏| 4662/5066 [07:04<00:36, 11.07it/s] 92%|█████████▏| 4664/5066 [07:04<00:36, 11.06it/s] 92%|█████████▏| 4666/5066 [07:04<00:36, 11.07it/s] 92%|█████████▏| 4668/5066 [07:04<00:35, 11.07it/s] 92%|█████████▏| 4670/5066 [07:05<00:35, 11.07it/s] 92%|█████████▏| 4672/5066 [07:05<00:35, 11.07it/s] 92%|█████████▏| 4674/5066 [07:05<00:35, 11.07it/s] 92%|█████████▏| 4676/5066 [07:05<00:35, 11.08it/s] 92%|█████████▏| 4678/5066 [07:05<00:35, 11.07it/s] 92%|█████████▏| 4680/5066 [07:05<00:34, 11.07it/s] 92%|█████████▏| 4682/5066 [07:06<00:34, 11.06it/s] 92%|█████████▏| 4684/5066 [07:06<00:34, 11.07it/s] 92%|█████████▏| 4686/5066 [07:06<00:34, 11.07it/s] 93%|█████████▎| 4688/5066 [07:06<00:34, 11.06it/s] 93%|█████████▎| 4690/5066 [07:06<00:33, 11.07it/s] 93%|█████████▎| 4692/5066 [07:07<00:33, 11.06it/s] 93%|█████████▎| 4694/5066 [07:07<00:33, 11.05it/s] 93%|█████████▎| 4696/5066 [07:07<00:33, 11.06it/s] 93%|█████████▎| 4698/5066 [07:07<00:33, 11.06it/s] 93%|█████████▎| 4700/5066 [07:07<00:33, 11.07it/s] 93%|█████████▎| 4702/5066 [07:07<00:32, 11.07it/s] 93%|█████████▎| 4704/5066 [07:08<00:32, 11.07it/s] 93%|█████████▎| 4706/5066 [07:08<00:32, 11.07it/s] 93%|█████████▎| 4708/5066 [07:08<00:32, 11.07it/s] 93%|█████████▎| 4710/5066 [07:08<00:32, 11.07it/s] 93%|█████████▎| 4712/5066 [07:08<00:31, 11.08it/s] 93%|█████████▎| 4714/5066 [07:09<00:31, 11.08it/s] 93%|█████████▎| 4716/5066 [07:09<00:31, 11.07it/s] 93%|█████████▎| 4718/5066 [07:09<00:31, 11.07it/s] 93%|█████████▎| 4720/5066 [07:09<00:31, 11.07it/s] 93%|█████████▎| 4722/5066 [07:09<00:31, 11.08it/s] 93%|█████████▎| 4724/5066 [07:09<00:30, 11.07it/s] 93%|█████████▎| 4726/5066 [07:10<00:30, 11.07it/s] 93%|█████████▎| 4728/5066 [07:10<00:30, 11.05it/s] 93%|█████████▎| 4730/5066 [07:10<00:30, 10.98it/s] 93%|█████████▎| 4732/5066 [07:10<00:30, 11.00it/s] 93%|█████████▎| 4734/5066 [07:10<00:30, 11.02it/s] 93%|█████████▎| 4736/5066 [07:11<00:29, 11.03it/s] 94%|█████████▎| 4738/5066 [07:11<00:29, 11.04it/s] 94%|█████████▎| 4740/5066 [07:11<00:29, 11.05it/s] 94%|█████████▎| 4742/5066 [07:11<00:29, 11.06it/s] 94%|█████████▎| 4744/5066 [07:11<00:29, 11.06it/s] 94%|█████████▎| 4746/5066 [07:11<00:28, 11.07it/s] 94%|█████████▎| 4748/5066 [07:12<00:28, 11.06it/s] 94%|█████████▍| 4750/5066 [07:12<00:28, 11.07it/s] 94%|█████████▍| 4752/5066 [07:12<00:28, 11.07it/s] 94%|█████████▍| 4754/5066 [07:12<00:28, 11.07it/s] 94%|█████████▍| 4756/5066 [07:12<00:28, 11.07it/s] 94%|█████████▍| 4758/5066 [07:13<00:27, 11.07it/s] 94%|█████████▍| 4760/5066 [07:13<00:27, 11.07it/s] 94%|█████████▍| 4762/5066 [07:13<00:27, 11.07it/s] 94%|█████████▍| 4764/5066 [07:13<00:27, 11.07it/s] 94%|█████████▍| 4766/5066 [07:13<00:27, 11.06it/s] 94%|█████████▍| 4768/5066 [07:13<00:26, 11.06it/s] 94%|█████████▍| 4770/5066 [07:14<00:26, 11.07it/s] 94%|█████████▍| 4772/5066 [07:14<00:26, 11.07it/s] 94%|█████████▍| 4774/5066 [07:14<00:26, 11.00it/s] 94%|█████████▍| 4776/5066 [07:14<00:26, 11.02it/s] 94%|█████████▍| 4778/5066 [07:14<00:26, 11.04it/s] 94%|█████████▍| 4780/5066 [07:15<00:25, 11.05it/s] 94%|█████████▍| 4782/5066 [07:15<00:25, 11.06it/s] 94%|█████████▍| 4784/5066 [07:15<00:25, 11.07it/s] 94%|█████████▍| 4786/5066 [07:15<00:25, 11.07it/s] 95%|█████████▍| 4788/5066 [07:15<00:25, 11.08it/s] 95%|█████████▍| 4790/5066 [07:15<00:24, 11.08it/s] 95%|█████████▍| 4792/5066 [07:16<00:24, 11.08it/s] 95%|█████████▍| 4794/5066 [07:16<00:24, 11.07it/s] 95%|█████████▍| 4796/5066 [07:16<00:24, 11.07it/s] 95%|█████████▍| 4798/5066 [07:16<00:24, 11.06it/s] 95%|█████████▍| 4800/5066 [07:16<00:24, 11.06it/s] 95%|█████████▍| 4802/5066 [07:17<00:23, 11.06it/s] 95%|█████████▍| 4804/5066 [07:17<00:23, 11.07it/s] 95%|█████████▍| 4806/5066 [07:17<00:23, 11.07it/s] 95%|█████████▍| 4808/5066 [07:17<00:23, 11.06it/s] 95%|█████████▍| 4810/5066 [07:17<00:23, 11.06it/s] 95%|█████████▍| 4812/5066 [07:17<00:22, 11.07it/s] 95%|█████████▌| 4814/5066 [07:18<00:22, 11.06it/s] 95%|█████████▌| 4816/5066 [07:18<00:22, 11.07it/s] 95%|█████████▌| 4818/5066 [07:18<00:22, 11.07it/s] 95%|█████████▌| 4820/5066 [07:18<00:22, 11.07it/s] 95%|█████████▌| 4822/5066 [07:18<00:22, 11.07it/s] 95%|█████████▌| 4824/5066 [07:18<00:21, 11.07it/s] 95%|█████████▌| 4826/5066 [07:19<00:21, 11.07it/s] 95%|█████████▌| 4828/5066 [07:19<00:21, 11.07it/s] 95%|█████████▌| 4830/5066 [07:19<00:21, 11.07it/s] 95%|█████████▌| 4832/5066 [07:19<00:21, 11.08it/s] 95%|█████████▌| 4834/5066 [07:19<00:20, 11.07it/s] 95%|█████████▌| 4836/5066 [07:20<00:20, 11.08it/s] 95%|█████████▌| 4838/5066 [07:20<00:20, 11.08it/s] 96%|█████████▌| 4840/5066 [07:20<00:20, 11.07it/s] 96%|█████████▌| 4842/5066 [07:20<00:20, 11.07it/s] 96%|█████████▌| 4844/5066 [07:20<00:20, 11.07it/s] 96%|█████████▌| 4846/5066 [07:20<00:19, 11.07it/s] 96%|█████████▌| 4848/5066 [07:21<00:19, 11.07it/s] 96%|█████████▌| 4850/5066 [07:21<00:19, 11.06it/s] 96%|█████████▌| 4852/5066 [07:21<00:19, 11.07it/s] 96%|█████████▌| 4854/5066 [07:21<00:19, 11.07it/s] 96%|█████████▌| 4856/5066 [07:21<00:18, 11.06it/s] 96%|█████████▌| 4858/5066 [07:22<00:18, 11.06it/s] 96%|█████████▌| 4860/5066 [07:22<00:18, 11.07it/s] 96%|█████████▌| 4862/5066 [07:22<00:18, 11.06it/s] 96%|█████████▌| 4864/5066 [07:22<00:18, 11.06it/s] 96%|█████████▌| 4866/5066 [07:22<00:18, 11.06it/s] 96%|█████████▌| 4868/5066 [07:22<00:17, 11.06it/s] 96%|█████████▌| 4870/5066 [07:23<00:17, 11.07it/s] 96%|█████████▌| 4872/5066 [07:23<00:17, 11.07it/s] 96%|█████████▌| 4874/5066 [07:23<00:17, 11.07it/s] 96%|█████████▌| 4876/5066 [07:23<00:17, 11.06it/s] 96%|█████████▋| 4878/5066 [07:23<00:16, 11.06it/s] 96%|█████████▋| 4880/5066 [07:24<00:16, 11.07it/s] 96%|█████████▋| 4882/5066 [07:24<00:16, 11.07it/s] 96%|█████████▋| 4884/5066 [07:24<00:16, 11.07it/s] 96%|█████████▋| 4886/5066 [07:24<00:16, 11.07it/s] 96%|█████████▋| 4888/5066 [07:24<00:16, 11.06it/s] 97%|█████████▋| 4890/5066 [07:24<00:16, 10.90it/s] 97%|█████████▋| 4892/5066 [07:25<00:15, 10.92it/s] 97%|█████████▋| 4894/5066 [07:25<00:15, 10.97it/s] 97%|█████████▋| 4896/5066 [07:25<00:15, 11.00it/s] 97%|█████████▋| 4898/5066 [07:25<00:15, 11.02it/s] 97%|█████████▋| 4900/5066 [07:25<00:15, 11.03it/s] 97%|█████████▋| 4902/5066 [07:26<00:14, 11.04it/s] 97%|█████████▋| 4904/5066 [07:26<00:14, 11.04it/s] 97%|█████████▋| 4906/5066 [07:26<00:14, 10.94it/s] 97%|█████████▋| 4908/5066 [07:26<00:14, 10.98it/s] 97%|█████████▋| 4910/5066 [07:26<00:14, 11.00it/s] 97%|█████████▋| 4912/5066 [07:26<00:13, 11.01it/s] 97%|█████████▋| 4914/5066 [07:27<00:13, 11.03it/s] 97%|█████████▋| 4916/5066 [07:27<00:13, 11.04it/s] 97%|█████████▋| 4918/5066 [07:27<00:13, 11.05it/s] 97%|█████████▋| 4920/5066 [07:27<00:13, 11.06it/s] 97%|█████████▋| 4922/5066 [07:27<00:13, 11.06it/s] 97%|█████████▋| 4924/5066 [07:28<00:12, 11.05it/s] 97%|█████████▋| 4926/5066 [07:28<00:12, 11.06it/s] 97%|█████████▋| 4928/5066 [07:28<00:12, 11.07it/s] 97%|█████████▋| 4930/5066 [07:28<00:12, 11.07it/s] 97%|█████████▋| 4932/5066 [07:28<00:12, 11.08it/s] 97%|█████████▋| 4934/5066 [07:28<00:11, 11.08it/s] 97%|█████████▋| 4936/5066 [07:29<00:11, 11.07it/s] 97%|█████████▋| 4938/5066 [07:29<00:11, 11.07it/s] 98%|█████████▊| 4940/5066 [07:29<00:11, 11.07it/s] 98%|█████████▊| 4942/5066 [07:29<00:11, 11.06it/s] 98%|█████████▊| 4944/5066 [07:29<00:11, 11.06it/s] 98%|█████████▊| 4946/5066 [07:30<00:10, 11.06it/s] 98%|█████████▊| 4948/5066 [07:30<00:10, 11.06it/s] 98%|█████████▊| 4950/5066 [07:30<00:10, 10.99it/s] 98%|█████████▊| 4952/5066 [07:30<00:10, 11.01it/s] 98%|█████████▊| 4954/5066 [07:30<00:10, 11.01it/s] 98%|█████████▊| 4956/5066 [07:30<00:09, 11.02it/s] 98%|█████████▊| 4958/5066 [07:31<00:09, 11.03it/s] 98%|█████████▊| 4960/5066 [07:31<00:09, 11.04it/s] 98%|█████████▊| 4962/5066 [07:31<00:09, 11.05it/s] 98%|█████████▊| 4964/5066 [07:31<00:09, 11.05it/s] 98%|█████████▊| 4966/5066 [07:31<00:09, 11.05it/s] 98%|█████████▊| 4968/5066 [07:32<00:08, 11.06it/s] 98%|█████████▊| 4970/5066 [07:32<00:08, 11.06it/s] 98%|█████████▊| 4972/5066 [07:32<00:08, 11.06it/s] 98%|█████████▊| 4974/5066 [07:32<00:08, 11.06it/s] 98%|█████████▊| 4976/5066 [07:32<00:08, 11.07it/s] 98%|█████████▊| 4978/5066 [07:32<00:07, 11.06it/s] 98%|█████████▊| 4980/5066 [07:33<00:07, 11.07it/s] 98%|█████████▊| 4982/5066 [07:33<00:07, 11.07it/s] 98%|█████████▊| 4984/5066 [07:33<00:07, 10.91it/s] 98%|█████████▊| 4986/5066 [07:33<00:07, 10.84it/s] 98%|█████████▊| 4988/5066 [07:33<00:07, 10.91it/s] 98%|█████████▊| 4990/5066 [07:34<00:06, 10.95it/s] 99%|█████████▊| 4992/5066 [07:34<00:06, 10.99it/s] 99%|█████████▊| 4994/5066 [07:34<00:06, 10.90it/s] 99%|█████████▊| 4996/5066 [07:34<00:06, 10.95it/s] 99%|█████████▊| 4998/5066 [07:34<00:06, 10.98it/s] 99%|█████████▊| 5000/5066 [07:34<00:05, 11.01it/s]                                                   {'loss': 0.1665, 'learning_rate': 3.9084090011843665e-07, 'epoch': 1.97}
 99%|█████████▊| 5000/5066 [07:34<00:05, 11.01it/s] 99%|█████████▊| 5002/5066 [07:35<00:05, 11.02it/s] 99%|█████████▉| 5004/5066 [07:35<00:05, 11.03it/s] 99%|█████████▉| 5006/5066 [07:35<00:05, 11.03it/s] 99%|█████████▉| 5008/5066 [07:35<00:05, 11.04it/s] 99%|█████████▉| 5010/5066 [07:35<00:05, 11.05it/s] 99%|█████████▉| 5012/5066 [07:36<00:04, 11.06it/s] 99%|█████████▉| 5014/5066 [07:36<00:04, 11.05it/s] 99%|█████████▉| 5016/5066 [07:36<00:04, 11.06it/s] 99%|█████████▉| 5018/5066 [07:36<00:04, 11.06it/s] 99%|█████████▉| 5020/5066 [07:36<00:04, 11.06it/s] 99%|█████████▉| 5022/5066 [07:36<00:03, 11.06it/s] 99%|█████████▉| 5024/5066 [07:37<00:03, 11.05it/s] 99%|█████████▉| 5026/5066 [07:37<00:03, 11.05it/s] 99%|█████████▉| 5028/5066 [07:37<00:03, 11.06it/s] 99%|█████████▉| 5030/5066 [07:37<00:03, 11.06it/s] 99%|█████████▉| 5032/5066 [07:37<00:03, 11.06it/s] 99%|█████████▉| 5034/5066 [07:38<00:02, 11.06it/s] 99%|█████████▉| 5036/5066 [07:38<00:02, 11.06it/s] 99%|█████████▉| 5038/5066 [07:38<00:02, 10.99it/s] 99%|█████████▉| 5040/5066 [07:38<00:02, 11.01it/s]100%|█████████▉| 5042/5066 [07:38<00:02, 11.03it/s]100%|█████████▉| 5044/5066 [07:38<00:01, 11.03it/s]100%|█████████▉| 5046/5066 [07:39<00:01, 11.05it/s]100%|█████████▉| 5048/5066 [07:39<00:01, 11.06it/s]100%|█████████▉| 5050/5066 [07:39<00:01, 11.06it/s]100%|█████████▉| 5052/5066 [07:39<00:01, 11.06it/s]100%|█████████▉| 5054/5066 [07:39<00:01, 10.95it/s]100%|█████████▉| 5056/5066 [07:40<00:00, 10.99it/s]100%|█████████▉| 5058/5066 [07:40<00:00, 11.01it/s]100%|█████████▉| 5060/5066 [07:40<00:00, 11.01it/s]100%|█████████▉| 5062/5066 [07:40<00:00, 11.01it/s]100%|█████████▉| 5064/5066 [07:40<00:00, 11.01it/s]100%|██████████| 5066/5066 [07:40<00:00, 11.45it/s][INFO|trainer.py:1761] 2022-07-12 23:42:20,209 >> 

Training completed. Do not forget to share your model on huggingface.co/models =)


                                                   {'train_runtime': 460.898, 'train_samples_per_second': 87.92, 'train_steps_per_second': 10.992, 'train_loss': 0.42857344546809384, 'epoch': 2.0}
100%|██████████| 5066/5066 [07:40<00:00, 11.45it/s]100%|██████████| 5066/5066 [07:40<00:00, 10.99it/s]
[INFO|trainer.py:2503] 2022-07-12 23:42:20,210 >> Saving model checkpoint to ../results/phrase_retrieval/PR-pass/qa/whaleloops/phrase-bert/finetuned
[INFO|configuration_utils.py:446] 2022-07-12 23:42:20,211 >> Configuration saved in ../results/phrase_retrieval/PR-pass/qa/whaleloops/phrase-bert/finetuned/config.json
[INFO|modeling_utils.py:1660] 2022-07-12 23:42:20,747 >> Model weights saved in ../results/phrase_retrieval/PR-pass/qa/whaleloops/phrase-bert/finetuned/pytorch_model.bin
[INFO|tokenization_utils_base.py:2123] 2022-07-12 23:42:20,747 >> tokenizer config file saved in ../results/phrase_retrieval/PR-pass/qa/whaleloops/phrase-bert/finetuned/tokenizer_config.json
[INFO|tokenization_utils_base.py:2130] 2022-07-12 23:42:20,747 >> Special tokens file saved in ../results/phrase_retrieval/PR-pass/qa/whaleloops/phrase-bert/finetuned/special_tokens_map.json
***** train metrics *****
  epoch                    =        2.0
  train_loss               =     0.4286
  train_runtime            = 0:07:40.89
  train_samples            =      20261
  train_samples_per_second =      87.92
  train_steps_per_second   =     10.992
07/12/2022 23:42:20 - INFO - __main__ - *** Evaluate ***
[INFO|trainer.py:661] 2022-07-12 23:42:20,779 >> The following columns in the evaluation set don't have a corresponding argument in `BertForQuestionAnswering.forward` and have been ignored: offset_mapping, example_id. If offset_mapping, example_id are not expected by `BertForQuestionAnswering.forward`,  you can safely ignore this message.
[INFO|trainer.py:2753] 2022-07-12 23:42:20,781 >> ***** Running Evaluation *****
[INFO|trainer.py:2755] 2022-07-12 23:42:20,782 >>   Num examples = 3013
[INFO|trainer.py:2758] 2022-07-12 23:42:20,782 >>   Batch size = 8
  0%|          | 0/377 [00:00<?, ?it/s]  1%|▏         | 5/377 [00:00<00:07, 46.52it/s]  3%|▎         | 10/377 [00:00<00:09, 40.62it/s]  4%|▍         | 15/377 [00:00<00:09, 39.03it/s]  5%|▌         | 19/377 [00:00<00:09, 38.42it/s]  6%|▌         | 23/377 [00:00<00:09, 38.05it/s]  7%|▋         | 27/377 [00:00<00:09, 36.87it/s]  8%|▊         | 31/377 [00:00<00:09, 37.01it/s]  9%|▉         | 35/377 [00:00<00:09, 37.10it/s] 10%|█         | 39/377 [00:01<00:09, 37.17it/s] 11%|█▏        | 43/377 [00:01<00:08, 37.22it/s] 12%|█▏        | 47/377 [00:01<00:08, 36.76it/s] 14%|█▎        | 51/377 [00:01<00:08, 36.93it/s] 15%|█▍        | 55/377 [00:01<00:08, 37.05it/s] 16%|█▌        | 59/377 [00:01<00:08, 37.13it/s] 17%|█▋        | 63/377 [00:01<00:08, 37.20it/s] 18%|█▊        | 67/377 [00:01<00:08, 37.20it/s] 19%|█▉        | 71/377 [00:01<00:08, 37.08it/s] 20%|█▉        | 75/377 [00:01<00:08, 37.15it/s] 21%|██        | 79/377 [00:02<00:08, 37.19it/s] 22%|██▏       | 83/377 [00:02<00:07, 37.22it/s] 23%|██▎       | 87/377 [00:02<00:07, 37.25it/s] 24%|██▍       | 91/377 [00:02<00:07, 37.25it/s] 25%|██▌       | 95/377 [00:02<00:07, 37.26it/s] 26%|██▋       | 99/377 [00:02<00:07, 37.28it/s] 27%|██▋       | 103/377 [00:02<00:07, 37.28it/s] 28%|██▊       | 107/377 [00:02<00:07, 37.28it/s] 29%|██▉       | 111/377 [00:02<00:07, 37.28it/s] 31%|███       | 115/377 [00:03<00:07, 37.29it/s] 32%|███▏      | 119/377 [00:03<00:06, 37.28it/s] 33%|███▎      | 123/377 [00:03<00:06, 37.29it/s] 34%|███▎      | 127/377 [00:03<00:06, 37.29it/s] 35%|███▍      | 131/377 [00:03<00:06, 37.29it/s] 36%|███▌      | 135/377 [00:03<00:06, 37.30it/s] 37%|███▋      | 139/377 [00:03<00:06, 37.32it/s] 38%|███▊      | 143/377 [00:03<00:06, 37.32it/s] 39%|███▉      | 147/377 [00:03<00:06, 37.32it/s] 40%|████      | 151/377 [00:04<00:06, 37.32it/s] 41%|████      | 155/377 [00:04<00:05, 37.30it/s] 42%|████▏     | 159/377 [00:04<00:05, 37.30it/s] 43%|████▎     | 163/377 [00:04<00:05, 37.30it/s] 44%|████▍     | 167/377 [00:04<00:05, 37.31it/s] 45%|████▌     | 171/377 [00:04<00:05, 37.31it/s] 46%|████▋     | 175/377 [00:04<00:05, 37.32it/s] 47%|████▋     | 179/377 [00:04<00:05, 37.33it/s] 49%|████▊     | 183/377 [00:04<00:05, 37.31it/s] 50%|████▉     | 187/377 [00:05<00:05, 37.31it/s] 51%|█████     | 191/377 [00:05<00:04, 37.29it/s] 52%|█████▏    | 195/377 [00:05<00:04, 37.28it/s] 53%|█████▎    | 199/377 [00:05<00:04, 37.28it/s] 54%|█████▍    | 203/377 [00:05<00:04, 37.27it/s] 55%|█████▍    | 207/377 [00:05<00:04, 37.27it/s] 56%|█████▌    | 211/377 [00:05<00:04, 37.28it/s] 57%|█████▋    | 215/377 [00:05<00:04, 37.28it/s] 58%|█████▊    | 219/377 [00:05<00:04, 37.29it/s] 59%|█████▉    | 223/377 [00:05<00:04, 37.29it/s] 60%|██████    | 227/377 [00:06<00:04, 37.27it/s] 61%|██████▏   | 231/377 [00:06<00:03, 37.26it/s] 62%|██████▏   | 235/377 [00:06<00:03, 37.25it/s] 63%|██████▎   | 239/377 [00:06<00:03, 37.26it/s] 64%|██████▍   | 243/377 [00:06<00:03, 37.27it/s] 66%|██████▌   | 247/377 [00:06<00:03, 37.26it/s] 67%|██████▋   | 251/377 [00:06<00:03, 37.26it/s] 68%|██████▊   | 255/377 [00:06<00:03, 37.26it/s] 69%|██████▊   | 259/377 [00:06<00:03, 37.29it/s] 70%|██████▉   | 263/377 [00:07<00:03, 37.30it/s] 71%|███████   | 267/377 [00:07<00:02, 37.31it/s] 72%|███████▏  | 271/377 [00:07<00:02, 37.32it/s] 73%|███████▎  | 275/377 [00:07<00:02, 37.33it/s] 74%|███████▍  | 279/377 [00:07<00:02, 37.32it/s] 75%|███████▌  | 283/377 [00:07<00:02, 37.32it/s] 76%|███████▌  | 287/377 [00:07<00:02, 37.30it/s] 77%|███████▋  | 291/377 [00:07<00:02, 37.31it/s] 78%|███████▊  | 295/377 [00:07<00:02, 37.33it/s] 79%|███████▉  | 299/377 [00:08<00:02, 37.33it/s] 80%|████████  | 303/377 [00:08<00:01, 37.30it/s] 81%|████████▏ | 307/377 [00:08<00:01, 37.30it/s] 82%|████████▏ | 311/377 [00:08<00:01, 37.31it/s] 84%|████████▎ | 315/377 [00:08<00:01, 37.30it/s] 85%|████████▍ | 319/377 [00:08<00:01, 37.30it/s] 86%|████████▌ | 323/377 [00:08<00:01, 37.30it/s] 87%|████████▋ | 327/377 [00:08<00:01, 37.28it/s] 88%|████████▊ | 331/377 [00:08<00:01, 37.28it/s] 89%|████████▉ | 335/377 [00:08<00:01, 37.29it/s] 90%|████████▉ | 339/377 [00:09<00:01, 37.28it/s] 91%|█████████ | 343/377 [00:09<00:00, 37.29it/s] 92%|█████████▏| 347/377 [00:09<00:00, 37.29it/s] 93%|█████████▎| 351/377 [00:09<00:00, 37.26it/s] 94%|█████████▍| 355/377 [00:09<00:00, 37.26it/s] 95%|█████████▌| 359/377 [00:09<00:00, 37.28it/s] 96%|█████████▋| 363/377 [00:09<00:00, 37.29it/s] 97%|█████████▋| 367/377 [00:09<00:00, 37.30it/s] 98%|█████████▊| 371/377 [00:09<00:00, 37.32it/s] 99%|█████████▉| 375/377 [00:10<00:00, 37.31it/s]07/12/2022 23:42:34 - INFO - utils_qa - Post-processing 3000 example predictions split into 3013 features.

  0%|          | 0/3000 [00:00<?, ?it/s][A
  1%|          | 34/3000 [00:00<00:08, 331.76it/s][A
  2%|▏         | 68/3000 [00:00<00:12, 241.02it/s][A
  3%|▎         | 102/3000 [00:00<00:10, 277.81it/s][A
  5%|▍         | 136/3000 [00:00<00:09, 297.22it/s][A
  6%|▌         | 169/3000 [00:00<00:09, 307.18it/s][A
  7%|▋         | 203/3000 [00:00<00:08, 315.73it/s][A
  8%|▊         | 236/3000 [00:00<00:08, 320.15it/s][A
  9%|▉         | 270/3000 [00:00<00:08, 325.80it/s][A
 10%|█         | 304/3000 [00:00<00:08, 328.43it/s][A
 11%|█▏        | 338/3000 [00:01<00:08, 329.17it/s][A
 12%|█▏        | 372/3000 [00:01<00:07, 332.05it/s][A
 14%|█▎        | 406/3000 [00:01<00:07, 333.97it/s][A
 15%|█▍        | 440/3000 [00:01<00:07, 332.39it/s][A
 16%|█▌        | 474/3000 [00:01<00:07, 333.23it/s][A
 17%|█▋        | 508/3000 [00:01<00:07, 333.69it/s][A
 18%|█▊        | 542/3000 [00:01<00:07, 331.22it/s][A
 19%|█▉        | 577/3000 [00:01<00:07, 335.77it/s][A
 20%|██        | 611/3000 [00:01<00:07, 335.37it/s][A
 22%|██▏       | 645/3000 [00:01<00:07, 335.38it/s][A
 23%|██▎       | 679/3000 [00:02<00:06, 336.48it/s][A
 24%|██▍       | 714/3000 [00:02<00:06, 336.94it/s][A
 25%|██▍       | 748/3000 [00:02<00:06, 330.91it/s][A
 26%|██▌       | 782/3000 [00:02<00:06, 333.55it/s][A
 27%|██▋       | 816/3000 [00:02<00:06, 335.36it/s][A
 28%|██▊       | 850/3000 [00:02<00:06, 332.00it/s][A
 30%|██▉       | 885/3000 [00:02<00:06, 334.96it/s][A
 31%|███       | 919/3000 [00:02<00:06, 335.09it/s][A
 32%|███▏      | 953/3000 [00:02<00:06, 335.07it/s][A
 33%|███▎      | 987/3000 [00:03<00:06, 332.67it/s][A
 34%|███▍      | 1021/3000 [00:03<00:05, 330.59it/s][A
 35%|███▌      | 1055/3000 [00:03<00:05, 332.10it/s][A
 36%|███▋      | 1089/3000 [00:03<00:05, 333.00it/s][A
 37%|███▋      | 1123/3000 [00:03<00:05, 333.92it/s][A
 39%|███▊      | 1157/3000 [00:03<00:05, 335.38it/s][A
 40%|███▉      | 1191/3000 [00:03<00:05, 334.52it/s][A
 41%|████      | 1225/3000 [00:03<00:05, 324.87it/s][A
 42%|████▏     | 1259/3000 [00:03<00:05, 327.03it/s][A
 43%|████▎     | 1293/3000 [00:03<00:05, 329.78it/s][A
 44%|████▍     | 1327/3000 [00:04<00:05, 330.31it/s][A
 45%|████▌     | 1361/3000 [00:04<00:04, 329.24it/s][A
 46%|████▋     | 1394/3000 [00:04<00:04, 329.32it/s][A
 48%|████▊     | 1427/3000 [00:04<00:04, 328.39it/s][A
 49%|████▊     | 1460/3000 [00:04<00:05, 264.37it/s][A
 50%|████▉     | 1494/3000 [00:04<00:05, 283.37it/s][A
 51%|█████     | 1528/3000 [00:04<00:04, 297.55it/s][A
 52%|█████▏    | 1563/3000 [00:04<00:04, 310.49it/s][A
 53%|█████▎    | 1597/3000 [00:04<00:04, 318.31it/s][A
 54%|█████▍    | 1631/3000 [00:05<00:04, 324.20it/s][A
 56%|█████▌    | 1665/3000 [00:05<00:04, 327.38it/s][A
 57%|█████▋    | 1699/3000 [00:05<00:03, 328.89it/s][A
 58%|█████▊    | 1733/3000 [00:05<00:03, 329.79it/s][A
 59%|█████▉    | 1767/3000 [00:05<00:03, 331.57it/s][A
 60%|██████    | 1801/3000 [00:05<00:03, 331.38it/s][A
 61%|██████    | 1835/3000 [00:05<00:03, 329.69it/s][A
 62%|██████▏   | 1869/3000 [00:05<00:03, 331.78it/s][A
 63%|██████▎   | 1903/3000 [00:05<00:03, 328.45it/s][A
 65%|██████▍   | 1937/3000 [00:05<00:03, 331.02it/s][A
 66%|██████▌   | 1971/3000 [00:06<00:03, 331.21it/s][A
 67%|██████▋   | 2005/3000 [00:06<00:02, 331.76it/s][A
 68%|██████▊   | 2040/3000 [00:06<00:02, 335.75it/s][A
 69%|██████▉   | 2074/3000 [00:06<00:02, 336.70it/s][A
 70%|███████   | 2108/3000 [00:06<00:02, 336.95it/s][A
 71%|███████▏  | 2142/3000 [00:06<00:02, 335.90it/s][A
 73%|███████▎  | 2176/3000 [00:06<00:02, 331.53it/s][A
 74%|███████▎  | 2210/3000 [00:06<00:02, 331.97it/s][A
 75%|███████▍  | 2244/3000 [00:06<00:02, 331.52it/s][A
 76%|███████▌  | 2278/3000 [00:06<00:02, 333.00it/s][A
 77%|███████▋  | 2312/3000 [00:07<00:02, 333.94it/s][A
 78%|███████▊  | 2346/3000 [00:07<00:01, 332.67it/s][A
 79%|███████▉  | 2380/3000 [00:07<00:01, 333.29it/s][A
 80%|████████  | 2414/3000 [00:07<00:01, 334.26it/s][A
 82%|████████▏ | 2448/3000 [00:07<00:01, 332.93it/s][A
 83%|████████▎ | 2482/3000 [00:07<00:01, 328.84it/s][A
 84%|████████▍ | 2516/3000 [00:07<00:01, 330.14it/s][A
 85%|████████▌ | 2550/3000 [00:07<00:01, 322.25it/s][A
 86%|████████▌ | 2584/3000 [00:07<00:01, 324.57it/s][A
 87%|████████▋ | 2617/3000 [00:08<00:01, 324.93it/s][A
 88%|████████▊ | 2651/3000 [00:08<00:01, 328.97it/s][A
 89%|████████▉ | 2684/3000 [00:08<00:00, 326.94it/s][A
 91%|█████████ | 2718/3000 [00:08<00:00, 329.29it/s][A
 92%|█████████▏| 2751/3000 [00:08<00:00, 327.98it/s][A
 93%|█████████▎| 2784/3000 [00:08<00:00, 327.96it/s][A
 94%|█████████▍| 2817/3000 [00:08<00:00, 263.93it/s][A
 95%|█████████▌| 2851/3000 [00:08<00:00, 282.10it/s][A
 96%|█████████▌| 2885/3000 [00:08<00:00, 296.67it/s][A
 97%|█████████▋| 2919/3000 [00:09<00:00, 306.41it/s][A
 98%|█████████▊| 2952/3000 [00:09<00:00, 312.20it/s][A
100%|█████████▉| 2985/3000 [00:09<00:00, 316.87it/s][A100%|██████████| 3000/3000 [00:09<00:00, 323.96it/s]
07/12/2022 23:42:44 - INFO - utils_qa - Saving predictions to ../results/phrase_retrieval/PR-pass/qa/whaleloops/phrase-bert/finetuned/eval_predictions.json.
07/12/2022 23:42:44 - INFO - utils_qa - Saving nbest_preds to ../results/phrase_retrieval/PR-pass/qa/whaleloops/phrase-bert/finetuned/eval_nbest_predictions.json.
07/12/2022 23:42:45 - INFO - datasets.metric - Removing /home/thang/.cache/huggingface/metrics/squad/default/default_experiment-1-0.arrow
100%|██████████| 377/377 [00:24<00:00, 15.48it/s]
***** eval metrics *****
  epoch            =     2.0
  eval_exact_match = 92.4333
  eval_f1          = 94.0135
  eval_samples     =    3013
[INFO|modelcard.py:460] 2022-07-12 23:42:51,388 >> Dropping the following result as it does not have all the necessary fields:
{'task': {'name': 'Question Answering', 'type': 'question-answering'}, 'dataset': {'name': 'PiC/phrase_retrieval PR-pass', 'type': 'PiC/phrase_retrieval', 'args': 'PR-pass'}}