diff --git "a/stderr.log" "b/stderr.log"
new file mode 100644--- /dev/null
+++ "b/stderr.log"
@@ -0,0 +1,78 @@
++ deepspeed --num_nodes=1 --num_gpus=4 --master_port 56337 --module safe_rlhf.finetune --train_datasets alpaca --model_name_or_path huggyllama/llama-7b --max_length 512 --trust_remote_code True --epochs 3 --per_device_train_batch_size 4 --per_device_eval_batch_size 4 --gradient_accumulation_steps 16 --gradient_checkpointing --learning_rate 2e-5 --lr_scheduler_type cosine --lr_warmup_ratio 0.03 --weight_decay 0.0 --seed 42 --output_dir /data/jiongxiao_wang/rlhf_attack/safe-rlhf/output/sft --log_type wandb --log_project Safe-RLHF-SFT --zero_stage 3 --bf16 True --tf32 True
+2023-12-31 20:07:06.942109: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
+2023-12-31 20:07:06.942153: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
+2023-12-31 20:07:06.943372: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
+2023-12-31 20:07:07.014180: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
+2023-12-31 20:07:07.014285: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
+2023-12-31 20:07:07.015279: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
+2023-12-31 20:07:07.017820: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
+2023-12-31 20:07:07.017846: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
+2023-12-31 20:07:07.018518: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
+2023-12-31 20:07:07.073231: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
+2023-12-31 20:07:07.073268: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
+2023-12-31 20:07:07.074177: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
+2023-12-31 20:07:08.102141: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Could not find TensorRT
+2023-12-31 20:07:08.104105: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Could not find TensorRT
+2023-12-31 20:07:08.108165: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Could not find TensorRT
+2023-12-31 20:07:08.108457: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Could not find TensorRT
+Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:02<00:02,  2.95s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:03<00:03,  3.03s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:03<00:03,  3.13s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:05<00:00,  2.53s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:05<00:00,  2.61s/it]
+Loading checkpoint shards: 100%|██████████| 2/2 [00:05<00:00,  2.53s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:05<00:00,  2.62s/it]
+Loading checkpoint shards: 100%|██████████| 2/2 [00:05<00:00,  2.62s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:05<00:00,  2.67s/it]
+You are using the legacy behaviour of the <class 'transformers.models.llama.tokenization_llama.LlamaTokenizer'>. This means that tokens that come after special tokens will not be properly handled. We recommend you to read the related pull request available at https://github.com/huggingface/transformers/pull/24565
+You are using the legacy behaviour of the <class 'transformers.models.llama.tokenization_llama.LlamaTokenizer'>. This means that tokens that come after special tokens will not be properly handled. We recommend you to read the related pull request available at https://github.com/huggingface/transformers/pull/24565
+Using pad_token, but it is not set yet.
+Using pad_token, but it is not set yet.
+You are using the legacy behaviour of the <class 'transformers.models.llama.tokenization_llama.LlamaTokenizer'>. This means that tokens that come after special tokens will not be properly handled. We recommend you to read the related pull request available at https://github.com/huggingface/transformers/pull/24565
+Using pad_token, but it is not set yet.
+Loading checkpoint shards:  50%|█████     | 1/2 [00:08<00:08,  8.76s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:12<00:00,  5.52s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:12<00:00,  6.01s/it]
+You are using the legacy behaviour of the <class 'transformers.models.llama.tokenization_llama.LlamaTokenizer'>. This means that tokens that come after special tokens will not be properly handled. We recommend you to read the related pull request available at https://github.com/huggingface/transformers/pull/24565
+Using pad_token, but it is not set yet.
+Using /data/jiongxiao_wang/.cache/torch_extensions/py310_cu117 as PyTorch extensions root...
+Using /data/jiongxiao_wang/.cache/torch_extensions/py310_cu117 as PyTorch extensions root...
+Using /data/jiongxiao_wang/.cache/torch_extensions/py310_cu117 as PyTorch extensions root...
+Using /data/jiongxiao_wang/.cache/torch_extensions/py310_cu117 as PyTorch extensions root...
+Detected CUDA files, patching ldflags
+Emitting ninja build file /data/jiongxiao_wang/.cache/torch_extensions/py310_cu117/fused_adam/build.ninja...
+Building extension module fused_adam...
+Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
+Loading extension module fused_adam...
+Loading extension module fused_adam...
+Loading extension module fused_adam...
+Loading extension module fused_adam...
+`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...
+`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...
+`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...
+wandb: Currently logged in as: jayfeather (jayfeather1024). Use `wandb login --relogin` to force relogin
+wandb: Tracking run with wandb version 0.16.1
+wandb: Run data is saved locally in /data/jiongxiao_wang/rlhf_attack/safe-rlhf/output/sft/wandb/run-20231231_200741-owu4dq7j
+wandb: Run `wandb offline` to turn off syncing.
+wandb: Syncing run sft-2023-12-31-20-07-40
+wandb: ⭐️ View project at https://wandb.ai/jayfeather1024/Safe-RLHF-SFT
+wandb: 🚀 View run at https://wandb.ai/jayfeather1024/Safe-RLHF-SFT/runs/owu4dq7j
+Training 1/3 epoch:   0%|          | 0/9753 [00:00<?, ?it/s]`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...
+Training 1/3 epoch (loss 1.6746):   0%|          | 0/9753 [00:03<?, ?it/s]Training 1/3 epoch (loss 1.6746):   0%|          | 1/9753 [00:03<10:29:03,  3.87s/it]Training 1/3 epoch (loss 1.7101):   0%|          | 1/9753 [00:04<10:29:03,  3.87s/it]Training 1/3 epoch (loss 1.7101):   0%|          | 2/9753 [00:04<5:47:24,  2.14s/it] Training 1/3 epoch (loss 1.6720):   0%|          | 2/9753 [00:05<5:47:24,  2.14s/it]Training 1/3 epoch (loss 1.6720):   0%|          | 3/9753 [00:05<3:57:27,  1.46s/it]Training 1/3 epoch (loss 1.6666):   0%|          | 3/9753 [00:06<3:57:27,  1.46s/it]Training 1/3 epoch (loss 1.6666):   0%|          | 4/9753 [00:06<3:13:16,  1.19s/it]Training 1/3 epoch (loss 1.6168):   0%|          | 4/9753 [00:06<3:13:16,  1.19s/it]Training 1/3 epoch (loss 1.6168):   0%|          | 5/9753 [00:06<2:36:41,  1.04it/s]Training 1/3 epoch (loss 1.7400):   0%|          | 5/9753 [00:07<2:36:41,  1.04it/s]Training 1/3 epoch (loss 1.7400):   0%|          | 6/9753 [00:07<2:18:27,  1.17it/s]Training 1/3 epoch (loss 1.4261):   0%|          | 6/9753 [00:08<2:18:27,  1.17it/s]Training 1/3 epoch (loss 1.4261):   0%|          | 7/9753 [00:08<2:11:27,  1.24it/s]Training 1/3 epoch (loss 1.7593):   0%|          | 7/9753 [00:08<2:11:27,  1.24it/s]Training 1/3 epoch (loss 1.7593):   0%|          | 8/9753 [00:08<1:59:15,  1.36it/s]Training 1/3 epoch (loss 1.6798):   0%|          | 8/9753 [00:09<1:59:15,  1.36it/s]Training 1/3 epoch (loss 1.6798):   0%|          | 9/9753 [00:09<1:52:15,  1.45it/s]Training 1/3 epoch (loss 1.7582):   0%|          | 9/9753 [00:10<1:52:15,  1.45it/s]Training 1/3 epoch (loss 1.7582):   0%|          | 10/9753 [00:10<1:52:41,  1.44it/s]Training 1/3 epoch (loss 1.7418):   0%|          | 10/9753 [00:10<1:52:41,  1.44it/s]Training 1/3 epoch (loss 1.7418):   0%|          | 11/9753 [00:10<1:46:48,  1.52it/s]Training 1/3 epoch (loss 1.5082):   0%|          | 11/9753 [00:11<1:46:48,  1.52it/s]Training 1/3 epoch (loss 1.5082):   0%|          | 12/9753 [00:11<1:43:50,  1.56it/s]Training 1/3 epoch (loss 1.5620):   0%|          | 12/9753 [00:11<1:43:50,  1.56it/s]Training 1/3 epoch (loss 1.5620):   0%|          | 13/9753 [00:11<1:39:00,  1.64it/s]Training 1/3 epoch (loss 1.6071):   0%|          | 13/9753 [00:12<1:39:00,  1.64it/s]Training 1/3 epoch (loss 1.6071):   0%|          | 14/9753 [00:12<1:35:40,  1.70it/s]Training 1/3 epoch (loss 1.5889):   0%|          | 14/9753 [00:12<1:35:40,  1.70it/s]Training 1/3 epoch (loss 1.5889):   0%|          | 15/9753 [00:12<1:39:25,  1.63it/s]Training 1/3 epoch (loss 1.3531):   0%|          | 15/9753 [00:13<1:39:25,  1.63it/s]Training 1/3 epoch (loss 1.3531):   0%|          | 16/9753 [00:13<1:59:25,  1.36it/s]Training 1/3 epoch (loss 1.5198):   0%|          | 16/9753 [00:14<1:59:25,  1.36it/s]Training 1/3 epoch (loss 1.5198):   0%|          | 17/9753 [00:14<1:51:53,  1.45it/s]Training 1/3 epoch (loss 1.6067):   0%|          | 17/9753 [00:15<1:51:53,  1.45it/s]Training 1/3 epoch (loss 1.6067):   0%|          | 18/9753 [00:15<1:46:00,  1.53it/s]Training 1/3 epoch (loss 1.7815):   0%|          | 18/9753 [00:15<1:46:00,  1.53it/s]Training 1/3 epoch (loss 1.7815):   0%|          | 19/9753 [00:15<1:40:23,  1.62it/s]Training 1/3 epoch (loss 1.5891):   0%|          | 19/9753 [00:16<1:40:23,  1.62it/s]Training 1/3 epoch (loss 1.5891):   0%|          | 20/9753 [00:16<1:36:36,  1.68it/s]Training 1/3 epoch (loss 1.6472):   0%|          | 20/9753 [00:16<1:36:36,  1.68it/s]Training 1/3 epoch (loss 1.6472):   0%|          | 21/9753 [00:16<1:33:58,  1.73it/s]Training 1/3 epoch (loss 1.5791):   0%|          | 21/9753 [00:17<1:33:58,  1.73it/s]Training 1/3 epoch (loss 1.5791):   0%|          | 22/9753 [00:17<1:50:54,  1.46it/s]Training 1/3 epoch (loss 1.5456):   0%|          | 22/9753 [00:18<1:50:54,  1.46it/s]Training 1/3 epoch (loss 1.5456):   0%|          | 23/9753 [00:18<1:43:54,  1.56it/s]Training 1/3 epoch (loss 1.8358):   0%|          | 23/9753 [00:18<1:43:54,  1.56it/s]Training 1/3 epoch (loss 1.8358):   0%|          | 24/9753 [00:18<1:42:59,  1.57it/s]Training 1/3 epoch (loss 1.5160):   0%|          | 24/9753 [00:19<1:42:59,  1.57it/s]Training 1/3 epoch (loss 1.5160):   0%|          | 25/9753 [00:19<1:42:45,  1.58it/s]Training 1/3 epoch (loss 1.4905):   0%|          | 25/9753 [00:20<1:42:45,  1.58it/s]Training 1/3 epoch (loss 1.4905):   0%|          | 26/9753 [00:20<1:41:13,  1.60it/s]Training 1/3 epoch (loss 1.7432):   0%|          | 26/9753 [00:20<1:41:13,  1.60it/s]Training 1/3 epoch (loss 1.7432):   0%|          | 27/9753 [00:20<1:39:53,  1.62it/s]Training 1/3 epoch (loss 1.9946):   0%|          | 27/9753 [00:21<1:39:53,  1.62it/s]Training 1/3 epoch (loss 1.9946):   0%|          | 28/9753 [00:21<1:41:06,  1.60it/s]Training 1/3 epoch (loss 1.3228):   0%|          | 28/9753 [00:21<1:41:06,  1.60it/s]Training 1/3 epoch (loss 1.3228):   0%|          | 29/9753 [00:21<1:41:27,  1.60it/s]Training 1/3 epoch (loss 1.4447):   0%|          | 29/9753 [00:22<1:41:27,  1.60it/s]Training 1/3 epoch (loss 1.4447):   0%|          | 30/9753 [00:22<1:39:47,  1.62it/s]Training 1/3 epoch (loss 1.5733):   0%|          | 30/9753 [00:23<1:39:47,  1.62it/s]Training 1/3 epoch (loss 1.5733):   0%|          | 31/9753 [00:23<1:37:30,  1.66it/s]Training 1/3 epoch (loss 1.4439):   0%|          | 31/9753 [00:23<1:37:30,  1.66it/s]Training 1/3 epoch (loss 1.4439):   0%|          | 32/9753 [00:23<1:43:56,  1.56it/s]Training 1/3 epoch (loss 1.5062):   0%|          | 32/9753 [00:24<1:43:56,  1.56it/s]Training 1/3 epoch (loss 1.5062):   0%|          | 33/9753 [00:24<1:39:42,  1.62it/s]Training 1/3 epoch (loss 1.3047):   0%|          | 33/9753 [00:25<1:39:42,  1.62it/s]Training 1/3 epoch (loss 1.3047):   0%|          | 34/9753 [00:25<1:43:06,  1.57it/s]Training 1/3 epoch (loss 1.8160):   0%|          | 34/9753 [00:25<1:43:06,  1.57it/s]Training 1/3 epoch (loss 1.8160):   0%|          | 35/9753 [00:25<1:39:19,  1.63it/s]Training 1/3 epoch (loss 1.6508):   0%|          | 35/9753 [00:26<1:39:19,  1.63it/s]Training 1/3 epoch (loss 1.6508):   0%|          | 36/9753 [00:26<1:35:53,  1.69it/s]Training 1/3 epoch (loss 1.8151):   0%|          | 36/9753 [00:26<1:35:53,  1.69it/s]Training 1/3 epoch (loss 1.8151):   0%|          | 37/9753 [00:26<1:38:35,  1.64it/s]Training 1/3 epoch (loss 1.4271):   0%|          | 37/9753 [00:27<1:38:35,  1.64it/s]Training 1/3 epoch (loss 1.4271):   0%|          | 38/9753 [00:27<1:37:20,  1.66it/s]Training 1/3 epoch (loss 1.7928):   0%|          | 38/9753 [00:27<1:37:20,  1.66it/s]Training 1/3 epoch (loss 1.7928):   0%|          | 39/9753 [00:27<1:34:10,  1.72it/s]Training 1/3 epoch (loss 1.5553):   0%|          | 39/9753 [00:28<1:34:10,  1.72it/s]Training 1/3 epoch (loss 1.5553):   0%|          | 40/9753 [00:28<1:49:04,  1.48it/s]Training 1/3 epoch (loss 1.5228):   0%|          | 40/9753 [00:29<1:49:04,  1.48it/s]Training 1/3 epoch (loss 1.5228):   0%|          | 41/9753 [00:29<1:44:28,  1.55it/s]Training 1/3 epoch (loss 1.4259):   0%|          | 41/9753 [00:29<1:44:28,  1.55it/s]Training 1/3 epoch (loss 1.4259):   0%|          | 42/9753 [00:29<1:39:41,  1.62it/s]Training 1/3 epoch (loss 1.6395):   0%|          | 42/9753 [00:30<1:39:41,  1.62it/s]Training 1/3 epoch (loss 1.6395):   0%|          | 43/9753 [00:30<1:39:26,  1.63it/s]Training 1/3 epoch (loss 1.5767):   0%|          | 43/9753 [00:31<1:39:26,  1.63it/s]Training 1/3 epoch (loss 1.5767):   0%|          | 44/9753 [00:31<1:35:29,  1.69it/s]Training 1/3 epoch (loss 1.7462):   0%|          | 44/9753 [00:31<1:35:29,  1.69it/s]Training 1/3 epoch (loss 1.7462):   0%|          | 45/9753 [00:31<1:32:58,  1.74it/s]Training 1/3 epoch (loss 1.3099):   0%|          | 45/9753 [00:32<1:32:58,  1.74it/s]Training 1/3 epoch (loss 1.3099):   0%|          | 46/9753 [00:32<1:43:36,  1.56it/s]Training 1/3 epoch (loss 1.6609):   0%|          | 46/9753 [00:32<1:43:36,  1.56it/s]Training 1/3 epoch (loss 1.6609):   0%|          | 47/9753 [00:32<1:39:26,  1.63it/s]Training 1/3 epoch (loss 1.4505):   0%|          | 47/9753 [00:33<1:39:26,  1.63it/s]Training 1/3 epoch (loss 1.4505):   0%|          | 48/9753 [00:33<1:42:12,  1.58it/s]Training 1/3 epoch (loss 1.8591):   0%|          | 48/9753 [00:34<1:42:12,  1.58it/s]Training 1/3 epoch (loss 1.8591):   1%|          | 49/9753 [00:34<1:37:41,  1.66it/s]Training 1/3 epoch (loss 1.5073):   1%|          | 49/9753 [00:34<1:37:41,  1.66it/s]Training 1/3 epoch (loss 1.5073):   1%|          | 50/9753 [00:34<1:41:29,  1.59it/s]Training 1/3 epoch (loss 1.5245):   1%|          | 50/9753 [00:35<1:41:29,  1.59it/s]Training 1/3 epoch (loss 1.5245):   1%|          | 51/9753 [00:35<1:46:59,  1.51it/s]Training 1/3 epoch (loss 1.4916):   1%|          | 51/9753 [00:36<1:46:59,  1.51it/s]Training 1/3 epoch (loss 1.4916):   1%|          | 52/9753 [00:36<1:46:59,  1.51it/s]Training 1/3 epoch (loss 1.5191):   1%|          | 52/9753 [00:36<1:46:59,  1.51it/s]Training 1/3 epoch (loss 1.5191):   1%|          | 53/9753 [00:36<1:43:13,  1.57it/s]Training 1/3 epoch (loss 1.4634):   1%|          | 53/9753 [00:37<1:43:13,  1.57it/s]Training 1/3 epoch (loss 1.4634):   1%|          | 54/9753 [00:37<1:39:50,  1.62it/s]Training 1/3 epoch (loss 1.6179):   1%|          | 54/9753 [00:38<1:39:50,  1.62it/s]Training 1/3 epoch (loss 1.6179):   1%|          | 55/9753 [00:38<1:41:00,  1.60it/s]Training 1/3 epoch (loss 1.5670):   1%|          | 55/9753 [00:38<1:41:00,  1.60it/s]Training 1/3 epoch (loss 1.5670):   1%|          | 56/9753 [00:38<1:37:35,  1.66it/s]Training 1/3 epoch (loss 1.6095):   1%|          | 56/9753 [00:39<1:37:35,  1.66it/s]Training 1/3 epoch (loss 1.6095):   1%|          | 57/9753 [00:39<1:41:52,  1.59it/s]Training 1/3 epoch (loss 1.7151):   1%|          | 57/9753 [00:39<1:41:52,  1.59it/s]Training 1/3 epoch (loss 1.7151):   1%|          | 58/9753 [00:39<1:37:17,  1.66it/s]Training 1/3 epoch (loss 1.7503):   1%|          | 58/9753 [00:40<1:37:17,  1.66it/s]Training 1/3 epoch (loss 1.7503):   1%|          | 59/9753 [00:40<1:34:03,  1.72it/s]Training 1/3 epoch (loss 1.2796):   1%|          | 59/9753 [00:41<1:34:03,  1.72it/s]Training 1/3 epoch (loss 1.2796):   1%|          | 60/9753 [00:41<1:49:01,  1.48it/s]Training 1/3 epoch (loss 1.6820):   1%|          | 60/9753 [00:41<1:49:01,  1.48it/s]Training 1/3 epoch (loss 1.6820):   1%|          | 61/9753 [00:41<1:42:49,  1.57it/s]Training 1/3 epoch (loss 1.5251):   1%|          | 61/9753 [00:42<1:42:49,  1.57it/s]Training 1/3 epoch (loss 1.5251):   1%|          | 62/9753 [00:42<1:38:18,  1.64it/s]Training 1/3 epoch (loss 1.3721):   1%|          | 62/9753 [00:43<1:38:18,  1.64it/s]Training 1/3 epoch (loss 1.3721):   1%|          | 63/9753 [00:43<1:44:51,  1.54it/s]Training 1/3 epoch (loss 1.9179):   1%|          | 63/9753 [00:43<1:44:51,  1.54it/s]Training 1/3 epoch (loss 1.9179):   1%|          | 64/9753 [00:43<1:51:37,  1.45it/s]Training 1/3 epoch (loss 1.3655):   1%|          | 64/9753 [00:44<1:51:37,  1.45it/s]Training 1/3 epoch (loss 1.3655):   1%|          | 65/9753 [00:44<1:45:01,  1.54it/s]Training 1/3 epoch (loss 1.5918):   1%|          | 65/9753 [00:45<1:45:01,  1.54it/s]Training 1/3 epoch (loss 1.5918):   1%|          | 66/9753 [00:45<1:41:08,  1.60it/s]Training 1/3 epoch (loss 1.4752):   1%|          | 66/9753 [00:45<1:41:08,  1.60it/s]Training 1/3 epoch (loss 1.4752):   1%|          | 67/9753 [00:45<1:51:46,  1.44it/s]Training 1/3 epoch (loss 1.5654):   1%|          | 67/9753 [00:46<1:51:46,  1.44it/s]Training 1/3 epoch (loss 1.5654):   1%|          | 68/9753 [00:46<1:45:14,  1.53it/s]Training 1/3 epoch (loss 1.3779):   1%|          | 68/9753 [00:46<1:45:14,  1.53it/s]Training 1/3 epoch (loss 1.3779):   1%|          | 69/9753 [00:46<1:39:44,  1.62it/s]Training 1/3 epoch (loss 1.4743):   1%|          | 69/9753 [00:47<1:39:44,  1.62it/s]Training 1/3 epoch (loss 1.4743):   1%|          | 70/9753 [00:47<1:37:28,  1.66it/s]Training 1/3 epoch (loss 1.4285):   1%|          | 70/9753 [00:48<1:37:28,  1.66it/s]Training 1/3 epoch (loss 1.4285):   1%|          | 71/9753 [00:48<1:36:32,  1.67it/s]Training 1/3 epoch (loss 1.2820):   1%|          | 71/9753 [00:48<1:36:32,  1.67it/s]Training 1/3 epoch (loss 1.2820):   1%|          | 72/9753 [00:48<1:38:21,  1.64it/s]Training 1/3 epoch (loss 1.6562):   1%|          | 72/9753 [00:49<1:38:21,  1.64it/s]Training 1/3 epoch (loss 1.6562):   1%|          | 73/9753 [00:49<1:36:37,  1.67it/s]Training 1/3 epoch (loss 1.5356):   1%|          | 73/9753 [00:50<1:36:37,  1.67it/s]Training 1/3 epoch (loss 1.5356):   1%|          | 74/9753 [00:50<1:42:26,  1.57it/s]Training 1/3 epoch (loss 1.5062):   1%|          | 74/9753 [00:50<1:42:26,  1.57it/s]Training 1/3 epoch (loss 1.5062):   1%|          | 75/9753 [00:50<1:40:43,  1.60it/s]Training 1/3 epoch (loss 1.5886):   1%|          | 75/9753 [00:51<1:40:43,  1.60it/s]Training 1/3 epoch (loss 1.5886):   1%|          | 76/9753 [00:51<1:39:02,  1.63it/s]Training 1/3 epoch (loss 1.6404):   1%|          | 76/9753 [00:51<1:39:02,  1.63it/s]Training 1/3 epoch (loss 1.6404):   1%|          | 77/9753 [00:51<1:36:34,  1.67it/s]Training 1/3 epoch (loss 1.5155):   1%|          | 77/9753 [00:52<1:36:34,  1.67it/s]Training 1/3 epoch (loss 1.5155):   1%|          | 78/9753 [00:52<1:42:27,  1.57it/s]Training 1/3 epoch (loss 1.5501):   1%|          | 78/9753 [00:53<1:42:27,  1.57it/s]Training 1/3 epoch (loss 1.5501):   1%|          | 79/9753 [00:53<1:39:59,  1.61it/s]Training 1/3 epoch (loss 1.6860):   1%|          | 79/9753 [00:53<1:39:59,  1.61it/s]Training 1/3 epoch (loss 1.6860):   1%|          | 80/9753 [00:53<1:44:34,  1.54it/s]Training 1/3 epoch (loss 1.3167):   1%|          | 80/9753 [00:54<1:44:34,  1.54it/s]Training 1/3 epoch (loss 1.3167):   1%|          | 81/9753 [00:54<1:41:51,  1.58it/s]Training 1/3 epoch (loss 1.4845):   1%|          | 81/9753 [00:55<1:41:51,  1.58it/s]Training 1/3 epoch (loss 1.4845):   1%|          | 82/9753 [00:55<1:47:16,  1.50it/s]Training 1/3 epoch (loss 1.6039):   1%|          | 82/9753 [00:55<1:47:16,  1.50it/s]Training 1/3 epoch (loss 1.6039):   1%|          | 83/9753 [00:55<1:43:39,  1.55it/s]Training 1/3 epoch (loss 1.6613):   1%|          | 83/9753 [00:56<1:43:39,  1.55it/s]Training 1/3 epoch (loss 1.6613):   1%|          | 84/9753 [00:56<1:48:02,  1.49it/s]Training 1/3 epoch (loss 1.4421):   1%|          | 84/9753 [00:57<1:48:02,  1.49it/s]Training 1/3 epoch (loss 1.4421):   1%|          | 85/9753 [00:57<1:44:10,  1.55it/s]Training 1/3 epoch (loss 1.3476):   1%|          | 85/9753 [00:57<1:44:10,  1.55it/s]Training 1/3 epoch (loss 1.3476):   1%|          | 86/9753 [00:57<1:43:08,  1.56it/s]Training 1/3 epoch (loss 1.6869):   1%|          | 86/9753 [00:58<1:43:08,  1.56it/s]Training 1/3 epoch (loss 1.6869):   1%|          | 87/9753 [00:58<1:44:13,  1.55it/s]Training 1/3 epoch (loss 1.4266):   1%|          | 87/9753 [00:59<1:44:13,  1.55it/s]Training 1/3 epoch (loss 1.4266):   1%|          | 88/9753 [00:59<1:44:08,  1.55it/s]Training 1/3 epoch (loss 1.6339):   1%|          | 88/9753 [00:59<1:44:08,  1.55it/s]Training 1/3 epoch (loss 1.6339):   1%|          | 89/9753 [00:59<1:43:39,  1.55it/s]Training 1/3 epoch (loss 1.3520):   1%|          | 89/9753 [01:00<1:43:39,  1.55it/s]Training 1/3 epoch (loss 1.3520):   1%|          | 90/9753 [01:00<1:43:40,  1.55it/s]Training 1/3 epoch (loss 1.7517):   1%|          | 90/9753 [01:00<1:43:40,  1.55it/s]Training 1/3 epoch (loss 1.7517):   1%|          | 91/9753 [01:00<1:45:22,  1.53it/s]Training 1/3 epoch (loss 1.7208):   1%|          | 91/9753 [01:01<1:45:22,  1.53it/s]Training 1/3 epoch (loss 1.7208):   1%|          | 92/9753 [01:01<1:57:55,  1.37it/s]Training 1/3 epoch (loss 1.5374):   1%|          | 92/9753 [01:02<1:57:55,  1.37it/s]Training 1/3 epoch (loss 1.5374):   1%|          | 93/9753 [01:02<1:53:01,  1.42it/s]Training 1/3 epoch (loss 1.4134):   1%|          | 93/9753 [01:03<1:53:01,  1.42it/s]Training 1/3 epoch (loss 1.4134):   1%|          | 94/9753 [01:03<1:49:12,  1.47it/s]Training 1/3 epoch (loss 1.5308):   1%|          | 94/9753 [01:03<1:49:12,  1.47it/s]Training 1/3 epoch (loss 1.5308):   1%|          | 95/9753 [01:03<1:49:20,  1.47it/s]Training 1/3 epoch (loss 1.5807):   1%|          | 95/9753 [01:04<1:49:20,  1.47it/s]Training 1/3 epoch (loss 1.5807):   1%|          | 96/9753 [01:04<1:51:26,  1.44it/s]Training 1/3 epoch (loss 1.4521):   1%|          | 96/9753 [01:05<1:51:26,  1.44it/s]Training 1/3 epoch (loss 1.4521):   1%|          | 97/9753 [01:05<1:46:41,  1.51it/s]Training 1/3 epoch (loss 1.4982):   1%|          | 97/9753 [01:05<1:46:41,  1.51it/s]Training 1/3 epoch (loss 1.4982):   1%|          | 98/9753 [01:05<1:44:24,  1.54it/s]Training 1/3 epoch (loss 1.6402):   1%|          | 98/9753 [01:06<1:44:24,  1.54it/s]Training 1/3 epoch (loss 1.6402):   1%|          | 99/9753 [01:06<1:43:02,  1.56it/s]Training 1/3 epoch (loss 1.3283):   1%|          | 99/9753 [01:07<1:43:02,  1.56it/s]Training 1/3 epoch (loss 1.3283):   1%|          | 100/9753 [01:07<1:42:35,  1.57it/s]Training 1/3 epoch (loss 1.3524):   1%|          | 100/9753 [01:07<1:42:35,  1.57it/s]Training 1/3 epoch (loss 1.3524):   1%|          | 101/9753 [01:07<1:41:58,  1.58it/s]Training 1/3 epoch (loss 1.4108):   1%|          | 101/9753 [01:08<1:41:58,  1.58it/s]Training 1/3 epoch (loss 1.4108):   1%|          | 102/9753 [01:08<1:44:25,  1.54it/s]Training 1/3 epoch (loss 1.4296):   1%|          | 102/9753 [01:08<1:44:25,  1.54it/s]Training 1/3 epoch (loss 1.4296):   1%|          | 103/9753 [01:08<1:45:46,  1.52it/s]Training 1/3 epoch (loss 1.4384):   1%|          | 103/9753 [01:09<1:45:46,  1.52it/s]Training 1/3 epoch (loss 1.4384):   1%|          | 104/9753 [01:09<1:58:34,  1.36it/s]Training 1/3 epoch (loss 1.4705):   1%|          | 104/9753 [01:10<1:58:34,  1.36it/s]Training 1/3 epoch (loss 1.4705):   1%|          | 105/9753 [01:10<1:53:39,  1.41it/s]Training 1/3 epoch (loss 1.1767):   1%|          | 105/9753 [01:11<1:53:39,  1.41it/s]Training 1/3 epoch (loss 1.1767):   1%|          | 106/9753 [01:11<1:49:19,  1.47it/s]Training 1/3 epoch (loss 1.3374):   1%|          | 106/9753 [01:11<1:49:19,  1.47it/s]Training 1/3 epoch (loss 1.3374):   1%|          | 107/9753 [01:11<1:45:52,  1.52it/s]Training 1/3 epoch (loss 1.2994):   1%|          | 107/9753 [01:12<1:45:52,  1.52it/s]Training 1/3 epoch (loss 1.2994):   1%|          | 108/9753 [01:12<1:53:21,  1.42it/s]Training 1/3 epoch (loss 1.5157):   1%|          | 108/9753 [01:13<1:53:21,  1.42it/s]Training 1/3 epoch (loss 1.5157):   1%|          | 109/9753 [01:13<1:46:50,  1.50it/s]Training 1/3 epoch (loss 1.4282):   1%|          | 109/9753 [01:13<1:46:50,  1.50it/s]Training 1/3 epoch (loss 1.4282):   1%|          | 110/9753 [01:13<1:41:23,  1.59it/s]Training 1/3 epoch (loss 1.4492):   1%|          | 110/9753 [01:14<1:41:23,  1.59it/s]Training 1/3 epoch (loss 1.4492):   1%|          | 111/9753 [01:14<1:37:32,  1.65it/s]Training 1/3 epoch (loss 1.3422):   1%|          | 111/9753 [01:15<1:37:32,  1.65it/s]Training 1/3 epoch (loss 1.3422):   1%|          | 112/9753 [01:15<1:44:33,  1.54it/s]Training 1/3 epoch (loss 1.2475):   1%|          | 112/9753 [01:15<1:44:33,  1.54it/s]Training 1/3 epoch (loss 1.2475):   1%|          | 113/9753 [01:15<1:44:27,  1.54it/s]Training 1/3 epoch (loss 1.2774):   1%|          | 113/9753 [01:16<1:44:27,  1.54it/s]Training 1/3 epoch (loss 1.2774):   1%|          | 114/9753 [01:16<1:40:05,  1.61it/s]Training 1/3 epoch (loss 1.0624):   1%|          | 114/9753 [01:16<1:40:05,  1.61it/s]Training 1/3 epoch (loss 1.0624):   1%|          | 115/9753 [01:16<1:40:59,  1.59it/s]Training 1/3 epoch (loss 1.1518):   1%|          | 115/9753 [01:17<1:40:59,  1.59it/s]Training 1/3 epoch (loss 1.1518):   1%|          | 116/9753 [01:17<1:37:03,  1.65it/s]Training 1/3 epoch (loss 1.1106):   1%|          | 116/9753 [01:17<1:37:03,  1.65it/s]Training 1/3 epoch (loss 1.1106):   1%|          | 117/9753 [01:17<1:34:29,  1.70it/s]Training 1/3 epoch (loss 1.0386):   1%|          | 117/9753 [01:18<1:34:29,  1.70it/s]Training 1/3 epoch (loss 1.0386):   1%|          | 118/9753 [01:18<1:39:31,  1.61it/s]Training 1/3 epoch (loss 1.2385):   1%|          | 118/9753 [01:19<1:39:31,  1.61it/s]Training 1/3 epoch (loss 1.2385):   1%|          | 119/9753 [01:19<1:36:28,  1.66it/s]Training 1/3 epoch (loss 1.4222):   1%|          | 119/9753 [01:19<1:36:28,  1.66it/s]Training 1/3 epoch (loss 1.4222):   1%|          | 120/9753 [01:19<1:33:46,  1.71it/s]Training 1/3 epoch (loss 1.2500):   1%|          | 120/9753 [01:20<1:33:46,  1.71it/s]Training 1/3 epoch (loss 1.2500):   1%|          | 121/9753 [01:20<1:36:24,  1.67it/s]Training 1/3 epoch (loss 1.3184):   1%|          | 121/9753 [01:20<1:36:24,  1.67it/s]Training 1/3 epoch (loss 1.3184):   1%|▏         | 122/9753 [01:20<1:34:08,  1.71it/s]Training 1/3 epoch (loss 1.2241):   1%|▏         | 122/9753 [01:21<1:34:08,  1.71it/s]Training 1/3 epoch (loss 1.2241):   1%|▏         | 123/9753 [01:21<1:36:37,  1.66it/s]Training 1/3 epoch (loss 1.5848):   1%|▏         | 123/9753 [01:22<1:36:37,  1.66it/s]Training 1/3 epoch (loss 1.5848):   1%|▏         | 124/9753 [01:22<1:40:32,  1.60it/s]Training 1/3 epoch (loss 1.2673):   1%|▏         | 124/9753 [01:22<1:40:32,  1.60it/s]Training 1/3 epoch (loss 1.2673):   1%|▏         | 125/9753 [01:22<1:39:00,  1.62it/s]Training 1/3 epoch (loss 1.5697):   1%|▏         | 125/9753 [01:23<1:39:00,  1.62it/s]Training 1/3 epoch (loss 1.5697):   1%|▏         | 126/9753 [01:23<1:35:49,  1.67it/s]Training 1/3 epoch (loss 1.3852):   1%|▏         | 126/9753 [01:24<1:35:49,  1.67it/s]Training 1/3 epoch (loss 1.3852):   1%|▏         | 127/9753 [01:24<1:34:58,  1.69it/s]Training 1/3 epoch (loss 1.0555):   1%|▏         | 127/9753 [01:24<1:34:58,  1.69it/s]Training 1/3 epoch (loss 1.0555):   1%|▏         | 128/9753 [01:24<1:46:23,  1.51it/s]Training 1/3 epoch (loss 1.3234):   1%|▏         | 128/9753 [01:25<1:46:23,  1.51it/s]Training 1/3 epoch (loss 1.3234):   1%|▏         | 129/9753 [01:25<1:44:58,  1.53it/s]Training 1/3 epoch (loss 1.0771):   1%|▏         | 129/9753 [01:26<1:44:58,  1.53it/s]Training 1/3 epoch (loss 1.0771):   1%|▏         | 130/9753 [01:26<1:39:47,  1.61it/s]Training 1/3 epoch (loss 1.2359):   1%|▏         | 130/9753 [01:26<1:39:47,  1.61it/s]Training 1/3 epoch (loss 1.2359):   1%|▏         | 131/9753 [01:26<1:39:19,  1.61it/s]Training 1/3 epoch (loss 1.2243):   1%|▏         | 131/9753 [01:27<1:39:19,  1.61it/s]Training 1/3 epoch (loss 1.2243):   1%|▏         | 132/9753 [01:27<1:40:04,  1.60it/s]Training 1/3 epoch (loss 1.3294):   1%|▏         | 132/9753 [01:27<1:40:04,  1.60it/s]Training 1/3 epoch (loss 1.3294):   1%|▏         | 133/9753 [01:27<1:38:12,  1.63it/s]Training 1/3 epoch (loss 1.1150):   1%|▏         | 133/9753 [01:28<1:38:12,  1.63it/s]Training 1/3 epoch (loss 1.1150):   1%|▏         | 134/9753 [01:28<1:36:35,  1.66it/s]Training 1/3 epoch (loss 1.2523):   1%|▏         | 134/9753 [01:29<1:36:35,  1.66it/s]Training 1/3 epoch (loss 1.2523):   1%|▏         | 135/9753 [01:29<1:37:44,  1.64it/s]Training 1/3 epoch (loss 1.4321):   1%|▏         | 135/9753 [01:29<1:37:44,  1.64it/s]Training 1/3 epoch (loss 1.4321):   1%|▏         | 136/9753 [01:29<1:35:45,  1.67it/s]Training 1/3 epoch (loss 1.3459):   1%|▏         | 136/9753 [01:30<1:35:45,  1.67it/s]Training 1/3 epoch (loss 1.3459):   1%|▏         | 137/9753 [01:30<1:39:23,  1.61it/s]Training 1/3 epoch (loss 1.3143):   1%|▏         | 137/9753 [01:30<1:39:23,  1.61it/s]Training 1/3 epoch (loss 1.3143):   1%|▏         | 138/9753 [01:30<1:36:34,  1.66it/s]Training 1/3 epoch (loss 1.3676):   1%|▏         | 138/9753 [01:31<1:36:34,  1.66it/s]Training 1/3 epoch (loss 1.3676):   1%|▏         | 139/9753 [01:31<1:39:10,  1.62it/s]Training 1/3 epoch (loss 0.9876):   1%|▏         | 139/9753 [01:32<1:39:10,  1.62it/s]Training 1/3 epoch (loss 0.9876):   1%|▏         | 140/9753 [01:32<1:36:41,  1.66it/s]Training 1/3 epoch (loss 1.4639):   1%|▏         | 140/9753 [01:32<1:36:41,  1.66it/s]Training 1/3 epoch (loss 1.4639):   1%|▏         | 141/9753 [01:32<1:39:54,  1.60it/s]Training 1/3 epoch (loss 1.5305):   1%|▏         | 141/9753 [01:33<1:39:54,  1.60it/s]Training 1/3 epoch (loss 1.5305):   1%|▏         | 142/9753 [01:33<1:37:06,  1.65it/s]Training 1/3 epoch (loss 1.2536):   1%|▏         | 142/9753 [01:34<1:37:06,  1.65it/s]Training 1/3 epoch (loss 1.2536):   1%|▏         | 143/9753 [01:34<1:41:50,  1.57it/s]Training 1/3 epoch (loss 1.2690):   1%|▏         | 143/9753 [01:34<1:41:50,  1.57it/s]Training 1/3 epoch (loss 1.2690):   1%|▏         | 144/9753 [01:34<1:46:17,  1.51it/s]Training 1/3 epoch (loss 1.3600):   1%|▏         | 144/9753 [01:35<1:46:17,  1.51it/s]Training 1/3 epoch (loss 1.3600):   1%|▏         | 145/9753 [01:35<1:50:49,  1.44it/s]Training 1/3 epoch (loss 1.1101):   1%|▏         | 145/9753 [01:36<1:50:49,  1.44it/s]Training 1/3 epoch (loss 1.1101):   1%|▏         | 146/9753 [01:36<1:48:56,  1.47it/s]Training 1/3 epoch (loss 1.3068):   1%|▏         | 146/9753 [01:36<1:48:56,  1.47it/s]Training 1/3 epoch (loss 1.3068):   2%|▏         | 147/9753 [01:36<1:44:22,  1.53it/s]Training 1/3 epoch (loss 1.2425):   2%|▏         | 147/9753 [01:37<1:44:22,  1.53it/s]Training 1/3 epoch (loss 1.2425):   2%|▏         | 148/9753 [01:37<1:57:05,  1.37it/s]Training 1/3 epoch (loss 1.1865):   2%|▏         | 148/9753 [01:38<1:57:05,  1.37it/s]Training 1/3 epoch (loss 1.1865):   2%|▏         | 149/9753 [01:38<1:49:01,  1.47it/s]Training 1/3 epoch (loss 1.1230):   2%|▏         | 149/9753 [01:38<1:49:01,  1.47it/s]Training 1/3 epoch (loss 1.1230):   2%|▏         | 150/9753 [01:38<1:44:08,  1.54it/s]Training 1/3 epoch (loss 1.1822):   2%|▏         | 150/9753 [01:39<1:44:08,  1.54it/s]Training 1/3 epoch (loss 1.1822):   2%|▏         | 151/9753 [01:39<1:40:36,  1.59it/s]Training 1/3 epoch (loss 1.2965):   2%|▏         | 151/9753 [01:40<1:40:36,  1.59it/s]Training 1/3 epoch (loss 1.2965):   2%|▏         | 152/9753 [01:40<1:42:22,  1.56it/s]Training 1/3 epoch (loss 1.0979):   2%|▏         | 152/9753 [01:40<1:42:22,  1.56it/s]Training 1/3 epoch (loss 1.0979):   2%|▏         | 153/9753 [01:40<1:39:47,  1.60it/s]Training 1/3 epoch (loss 1.3988):   2%|▏         | 153/9753 [01:41<1:39:47,  1.60it/s]Training 1/3 epoch (loss 1.3988):   2%|▏         | 154/9753 [01:41<1:44:01,  1.54it/s]Training 1/3 epoch (loss 1.1178):   2%|▏         | 154/9753 [01:41<1:44:01,  1.54it/s]Training 1/3 epoch (loss 1.1178):   2%|▏         | 155/9753 [01:41<1:40:18,  1.59it/s]Training 1/3 epoch (loss 1.1247):   2%|▏         | 155/9753 [01:42<1:40:18,  1.59it/s]Training 1/3 epoch (loss 1.1247):   2%|▏         | 156/9753 [01:42<1:46:45,  1.50it/s]Training 1/3 epoch (loss 1.3643):   2%|▏         | 156/9753 [01:43<1:46:45,  1.50it/s]Training 1/3 epoch (loss 1.3643):   2%|▏         | 157/9753 [01:43<1:48:33,  1.47it/s]Training 1/3 epoch (loss 1.3176):   2%|▏         | 157/9753 [01:43<1:48:33,  1.47it/s]Training 1/3 epoch (loss 1.3176):   2%|▏         | 158/9753 [01:43<1:42:29,  1.56it/s]Training 1/3 epoch (loss 1.2370):   2%|▏         | 158/9753 [01:44<1:42:29,  1.56it/s]Training 1/3 epoch (loss 1.2370):   2%|▏         | 159/9753 [01:44<1:38:35,  1.62it/s]Training 1/3 epoch (loss 1.1262):   2%|▏         | 159/9753 [01:45<1:38:35,  1.62it/s]Training 1/3 epoch (loss 1.1262):   2%|▏         | 160/9753 [01:45<1:46:23,  1.50it/s]Training 1/3 epoch (loss 0.9762):   2%|▏         | 160/9753 [01:45<1:46:23,  1.50it/s]Training 1/3 epoch (loss 0.9762):   2%|▏         | 161/9753 [01:45<1:41:41,  1.57it/s]Training 1/3 epoch (loss 0.8233):   2%|▏         | 161/9753 [01:46<1:41:41,  1.57it/s]Training 1/3 epoch (loss 0.8233):   2%|▏         | 162/9753 [01:46<1:40:44,  1.59it/s]Training 1/3 epoch (loss 1.4228):   2%|▏         | 162/9753 [01:47<1:40:44,  1.59it/s]Training 1/3 epoch (loss 1.4228):   2%|▏         | 163/9753 [01:47<1:36:53,  1.65it/s]Training 1/3 epoch (loss 0.9089):   2%|▏         | 163/9753 [01:47<1:36:53,  1.65it/s]Training 1/3 epoch (loss 0.9089):   2%|▏         | 164/9753 [01:47<1:41:16,  1.58it/s]Training 1/3 epoch (loss 1.1387):   2%|▏         | 164/9753 [01:48<1:41:16,  1.58it/s]Training 1/3 epoch (loss 1.1387):   2%|▏         | 165/9753 [01:48<1:36:54,  1.65it/s]Training 1/3 epoch (loss 1.1169):   2%|▏         | 165/9753 [01:48<1:36:54,  1.65it/s]Training 1/3 epoch (loss 1.1169):   2%|▏         | 166/9753 [01:48<1:40:37,  1.59it/s]Training 1/3 epoch (loss 1.0860):   2%|▏         | 166/9753 [01:49<1:40:37,  1.59it/s]Training 1/3 epoch (loss 1.0860):   2%|▏         | 167/9753 [01:49<1:40:03,  1.60it/s]Training 1/3 epoch (loss 1.1726):   2%|▏         | 167/9753 [01:50<1:40:03,  1.60it/s]Training 1/3 epoch (loss 1.1726):   2%|▏         | 168/9753 [01:50<1:36:24,  1.66it/s]Training 1/3 epoch (loss 1.1959):   2%|▏         | 168/9753 [01:50<1:36:24,  1.66it/s]Training 1/3 epoch (loss 1.1959):   2%|▏         | 169/9753 [01:50<1:34:56,  1.68it/s]Training 1/3 epoch (loss 1.3042):   2%|▏         | 169/9753 [01:51<1:34:56,  1.68it/s]Training 1/3 epoch (loss 1.3042):   2%|▏         | 170/9753 [01:51<1:32:15,  1.73it/s]Training 1/3 epoch (loss 1.4277):   2%|▏         | 170/9753 [01:51<1:32:15,  1.73it/s]Training 1/3 epoch (loss 1.4277):   2%|▏         | 171/9753 [01:51<1:32:54,  1.72it/s]Training 1/3 epoch (loss 1.0901):   2%|▏         | 171/9753 [01:52<1:32:54,  1.72it/s]Training 1/3 epoch (loss 1.0901):   2%|▏         | 172/9753 [01:52<1:35:31,  1.67it/s]Training 1/3 epoch (loss 1.3346):   2%|▏         | 172/9753 [01:53<1:35:31,  1.67it/s]Training 1/3 epoch (loss 1.3346):   2%|▏         | 173/9753 [01:53<1:39:54,  1.60it/s]Training 1/3 epoch (loss 1.3682):   2%|▏         | 173/9753 [01:53<1:39:54,  1.60it/s]Training 1/3 epoch (loss 1.3682):   2%|▏         | 174/9753 [01:53<1:42:55,  1.55it/s]Training 1/3 epoch (loss 1.3226):   2%|▏         | 174/9753 [01:54<1:42:55,  1.55it/s]Training 1/3 epoch (loss 1.3226):   2%|▏         | 175/9753 [01:54<1:47:34,  1.48it/s]Training 1/3 epoch (loss 1.2360):   2%|▏         | 175/9753 [01:55<1:47:34,  1.48it/s]Training 1/3 epoch (loss 1.2360):   2%|▏         | 176/9753 [01:55<1:53:50,  1.40it/s]Training 1/3 epoch (loss 1.3323):   2%|▏         | 176/9753 [01:56<1:53:50,  1.40it/s]Training 1/3 epoch (loss 1.3323):   2%|▏         | 177/9753 [01:56<2:04:19,  1.28it/s]Training 1/3 epoch (loss 1.1457):   2%|▏         | 177/9753 [01:56<2:04:19,  1.28it/s]Training 1/3 epoch (loss 1.1457):   2%|▏         | 178/9753 [01:56<1:57:08,  1.36it/s]Training 1/3 epoch (loss 1.3691):   2%|▏         | 178/9753 [01:57<1:57:08,  1.36it/s]Training 1/3 epoch (loss 1.3691):   2%|▏         | 179/9753 [01:57<1:54:21,  1.40it/s]Training 1/3 epoch (loss 1.1836):   2%|▏         | 179/9753 [01:58<1:54:21,  1.40it/s]Training 1/3 epoch (loss 1.1836):   2%|▏         | 180/9753 [01:58<1:52:45,  1.41it/s]Training 1/3 epoch (loss 0.9754):   2%|▏         | 180/9753 [01:58<1:52:45,  1.41it/s]Training 1/3 epoch (loss 0.9754):   2%|▏         | 181/9753 [01:58<1:51:28,  1.43it/s]Training 1/3 epoch (loss 1.1816):   2%|▏         | 181/9753 [01:59<1:51:28,  1.43it/s]Training 1/3 epoch (loss 1.1816):   2%|▏         | 182/9753 [01:59<1:49:58,  1.45it/s]Training 1/3 epoch (loss 1.3312):   2%|▏         | 182/9753 [02:00<1:49:58,  1.45it/s]Training 1/3 epoch (loss 1.3312):   2%|▏         | 183/9753 [02:00<1:49:10,  1.46it/s]Training 1/3 epoch (loss 1.1593):   2%|▏         | 183/9753 [02:00<1:49:10,  1.46it/s]Training 1/3 epoch (loss 1.1593):   2%|▏         | 184/9753 [02:00<1:48:10,  1.47it/s]Training 1/3 epoch (loss 1.2530):   2%|▏         | 184/9753 [02:01<1:48:10,  1.47it/s]Training 1/3 epoch (loss 1.2530):   2%|▏         | 185/9753 [02:01<1:48:14,  1.47it/s]Training 1/3 epoch (loss 1.0908):   2%|▏         | 185/9753 [02:02<1:48:14,  1.47it/s]Training 1/3 epoch (loss 1.0908):   2%|▏         | 186/9753 [02:02<1:48:32,  1.47it/s]Training 1/3 epoch (loss 1.2265):   2%|▏         | 186/9753 [02:03<1:48:32,  1.47it/s]Training 1/3 epoch (loss 1.2265):   2%|▏         | 187/9753 [02:03<1:58:40,  1.34it/s]Training 1/3 epoch (loss 1.1417):   2%|▏         | 187/9753 [02:03<1:58:40,  1.34it/s]Training 1/3 epoch (loss 1.1417):   2%|▏         | 188/9753 [02:03<1:54:41,  1.39it/s]Training 1/3 epoch (loss 1.3547):   2%|▏         | 188/9753 [02:04<1:54:41,  1.39it/s]Training 1/3 epoch (loss 1.3547):   2%|▏         | 189/9753 [02:04<1:48:50,  1.46it/s]Training 1/3 epoch (loss 1.4436):   2%|▏         | 189/9753 [02:05<1:48:50,  1.46it/s]Training 1/3 epoch (loss 1.4436):   2%|▏         | 190/9753 [02:05<2:00:38,  1.32it/s]Training 1/3 epoch (loss 1.1967):   2%|▏         | 190/9753 [02:06<2:00:38,  1.32it/s]Training 1/3 epoch (loss 1.1967):   2%|▏         | 191/9753 [02:06<1:53:53,  1.40it/s]Training 1/3 epoch (loss 1.0762):   2%|▏         | 191/9753 [02:06<1:53:53,  1.40it/s]Training 1/3 epoch (loss 1.0762):   2%|▏         | 192/9753 [02:06<1:51:50,  1.42it/s]Training 1/3 epoch (loss 1.3564):   2%|▏         | 192/9753 [02:07<1:51:50,  1.42it/s]Training 1/3 epoch (loss 1.3564):   2%|▏         | 193/9753 [02:07<1:52:18,  1.42it/s]Training 1/3 epoch (loss 1.1300):   2%|▏         | 193/9753 [02:08<1:52:18,  1.42it/s]Training 1/3 epoch (loss 1.1300):   2%|▏         | 194/9753 [02:08<1:46:24,  1.50it/s]Training 1/3 epoch (loss 1.0730):   2%|▏         | 194/9753 [02:08<1:46:24,  1.50it/s]Training 1/3 epoch (loss 1.0730):   2%|▏         | 195/9753 [02:08<1:40:09,  1.59it/s]Training 1/3 epoch (loss 1.2229):   2%|▏         | 195/9753 [02:09<1:40:09,  1.59it/s]Training 1/3 epoch (loss 1.2229):   2%|▏         | 196/9753 [02:09<1:36:26,  1.65it/s]Training 1/3 epoch (loss 1.1697):   2%|▏         | 196/9753 [02:09<1:36:26,  1.65it/s]Training 1/3 epoch (loss 1.1697):   2%|▏         | 197/9753 [02:09<1:33:40,  1.70it/s]Training 1/3 epoch (loss 1.0898):   2%|▏         | 197/9753 [02:10<1:33:40,  1.70it/s]Training 1/3 epoch (loss 1.0898):   2%|▏         | 198/9753 [02:10<1:35:19,  1.67it/s]Training 1/3 epoch (loss 1.2257):   2%|▏         | 198/9753 [02:10<1:35:19,  1.67it/s]Training 1/3 epoch (loss 1.2257):   2%|▏         | 199/9753 [02:10<1:33:35,  1.70it/s]Training 1/3 epoch (loss 1.1748):   2%|▏         | 199/9753 [02:11<1:33:35,  1.70it/s]Training 1/3 epoch (loss 1.1748):   2%|▏         | 200/9753 [02:11<1:34:40,  1.68it/s]Training 1/3 epoch (loss 1.1534):   2%|▏         | 200/9753 [02:12<1:34:40,  1.68it/s]Training 1/3 epoch (loss 1.1534):   2%|▏         | 201/9753 [02:12<1:36:12,  1.65it/s]Training 1/3 epoch (loss 1.1982):   2%|▏         | 201/9753 [02:12<1:36:12,  1.65it/s]Training 1/3 epoch (loss 1.1982):   2%|▏         | 202/9753 [02:12<1:33:46,  1.70it/s]Training 1/3 epoch (loss 1.4134):   2%|▏         | 202/9753 [02:13<1:33:46,  1.70it/s]Training 1/3 epoch (loss 1.4134):   2%|▏         | 203/9753 [02:13<1:33:58,  1.69it/s]Training 1/3 epoch (loss 1.1235):   2%|▏         | 203/9753 [02:13<1:33:58,  1.69it/s]Training 1/3 epoch (loss 1.1235):   2%|▏         | 204/9753 [02:13<1:32:07,  1.73it/s]Training 1/3 epoch (loss 1.2384):   2%|▏         | 204/9753 [02:14<1:32:07,  1.73it/s]Training 1/3 epoch (loss 1.2384):   2%|▏         | 205/9753 [02:14<1:45:09,  1.51it/s]Training 1/3 epoch (loss 1.0570):   2%|▏         | 205/9753 [02:15<1:45:09,  1.51it/s]Training 1/3 epoch (loss 1.0570):   2%|▏         | 206/9753 [02:15<1:56:38,  1.36it/s]Training 1/3 epoch (loss 1.2240):   2%|▏         | 206/9753 [02:16<1:56:38,  1.36it/s]Training 1/3 epoch (loss 1.2240):   2%|▏         | 207/9753 [02:16<1:53:20,  1.40it/s]Training 1/3 epoch (loss 1.2926):   2%|▏         | 207/9753 [02:16<1:53:20,  1.40it/s]Training 1/3 epoch (loss 1.2926):   2%|▏         | 208/9753 [02:16<1:55:37,  1.38it/s]Training 1/3 epoch (loss 1.2030):   2%|▏         | 208/9753 [02:17<1:55:37,  1.38it/s]Training 1/3 epoch (loss 1.2030):   2%|▏         | 209/9753 [02:17<1:46:58,  1.49it/s]Training 1/3 epoch (loss 1.1049):   2%|▏         | 209/9753 [02:18<1:46:58,  1.49it/s]Training 1/3 epoch (loss 1.1049):   2%|▏         | 210/9753 [02:18<1:42:26,  1.55it/s]Training 1/3 epoch (loss 1.1619):   2%|▏         | 210/9753 [02:18<1:42:26,  1.55it/s]Training 1/3 epoch (loss 1.1619):   2%|▏         | 211/9753 [02:18<1:42:12,  1.56it/s]Training 1/3 epoch (loss 1.1751):   2%|▏         | 211/9753 [02:19<1:42:12,  1.56it/s]Training 1/3 epoch (loss 1.1751):   2%|▏         | 212/9753 [02:19<1:38:18,  1.62it/s]Training 1/3 epoch (loss 1.2636):   2%|▏         | 212/9753 [02:20<1:38:18,  1.62it/s]Training 1/3 epoch (loss 1.2636):   2%|▏         | 213/9753 [02:20<1:45:45,  1.50it/s]Training 1/3 epoch (loss 1.1410):   2%|▏         | 213/9753 [02:20<1:45:45,  1.50it/s]Training 1/3 epoch (loss 1.1410):   2%|▏         | 214/9753 [02:20<1:40:40,  1.58it/s]Training 1/3 epoch (loss 1.2709):   2%|▏         | 214/9753 [02:21<1:40:40,  1.58it/s]Training 1/3 epoch (loss 1.2709):   2%|▏         | 215/9753 [02:21<1:40:40,  1.58it/s]Training 1/3 epoch (loss 1.1867):   2%|▏         | 215/9753 [02:22<1:40:40,  1.58it/s]Training 1/3 epoch (loss 1.1867):   2%|▏         | 216/9753 [02:22<1:51:03,  1.43it/s]Training 1/3 epoch (loss 1.3855):   2%|▏         | 216/9753 [02:22<1:51:03,  1.43it/s]Training 1/3 epoch (loss 1.3855):   2%|▏         | 217/9753 [02:22<1:45:48,  1.50it/s]Training 1/3 epoch (loss 1.1696):   2%|▏         | 217/9753 [02:23<1:45:48,  1.50it/s]Training 1/3 epoch (loss 1.1696):   2%|▏         | 218/9753 [02:23<1:42:18,  1.55it/s]Training 1/3 epoch (loss 1.1517):   2%|▏         | 218/9753 [02:24<1:42:18,  1.55it/s]Training 1/3 epoch (loss 1.1517):   2%|▏         | 219/9753 [02:24<1:51:19,  1.43it/s]Training 1/3 epoch (loss 1.1070):   2%|▏         | 219/9753 [02:24<1:51:19,  1.43it/s]Training 1/3 epoch (loss 1.1070):   2%|▏         | 220/9753 [02:24<1:51:14,  1.43it/s]Training 1/3 epoch (loss 1.0544):   2%|▏         | 220/9753 [02:25<1:51:14,  1.43it/s]Training 1/3 epoch (loss 1.0544):   2%|▏         | 221/9753 [02:25<1:51:37,  1.42it/s]Training 1/3 epoch (loss 1.0791):   2%|▏         | 221/9753 [02:26<1:51:37,  1.42it/s]Training 1/3 epoch (loss 1.0791):   2%|▏         | 222/9753 [02:26<1:50:49,  1.43it/s]Training 1/3 epoch (loss 1.1697):   2%|▏         | 222/9753 [02:26<1:50:49,  1.43it/s]Training 1/3 epoch (loss 1.1697):   2%|▏         | 223/9753 [02:26<1:50:49,  1.43it/s]Training 1/3 epoch (loss 1.0848):   2%|▏         | 223/9753 [02:27<1:50:49,  1.43it/s]Training 1/3 epoch (loss 1.0848):   2%|▏         | 224/9753 [02:27<2:02:45,  1.29it/s]Training 1/3 epoch (loss 1.1458):   2%|▏         | 224/9753 [02:28<2:02:45,  1.29it/s]Training 1/3 epoch (loss 1.1458):   2%|▏         | 225/9753 [02:28<2:00:37,  1.32it/s]Training 1/3 epoch (loss 1.2501):   2%|▏         | 225/9753 [02:29<2:00:37,  1.32it/s]Training 1/3 epoch (loss 1.2501):   2%|▏         | 226/9753 [02:29<1:57:41,  1.35it/s]Training 1/3 epoch (loss 0.8956):   2%|▏         | 226/9753 [02:29<1:57:41,  1.35it/s]Training 1/3 epoch (loss 0.8956):   2%|▏         | 227/9753 [02:29<1:51:22,  1.43it/s]Training 1/3 epoch (loss 1.3426):   2%|▏         | 227/9753 [02:30<1:51:22,  1.43it/s]Training 1/3 epoch (loss 1.3426):   2%|▏         | 228/9753 [02:30<1:45:04,  1.51it/s]Training 1/3 epoch (loss 1.1706):   2%|▏         | 228/9753 [02:31<1:45:04,  1.51it/s]Training 1/3 epoch (loss 1.1706):   2%|▏         | 229/9753 [02:31<1:41:31,  1.56it/s]Training 1/3 epoch (loss 1.1390):   2%|▏         | 229/9753 [02:31<1:41:31,  1.56it/s]Training 1/3 epoch (loss 1.1390):   2%|▏         | 230/9753 [02:31<1:39:27,  1.60it/s]Training 1/3 epoch (loss 1.4855):   2%|▏         | 230/9753 [02:32<1:39:27,  1.60it/s]Training 1/3 epoch (loss 1.4855):   2%|▏         | 231/9753 [02:32<1:40:12,  1.58it/s]Training 1/3 epoch (loss 1.2431):   2%|▏         | 231/9753 [02:32<1:40:12,  1.58it/s]Training 1/3 epoch (loss 1.2431):   2%|▏         | 232/9753 [02:32<1:37:20,  1.63it/s]Training 1/3 epoch (loss 1.0689):   2%|▏         | 232/9753 [02:33<1:37:20,  1.63it/s]Training 1/3 epoch (loss 1.0689):   2%|▏         | 233/9753 [02:33<1:36:27,  1.64it/s]Training 1/3 epoch (loss 1.1751):   2%|▏         | 233/9753 [02:34<1:36:27,  1.64it/s]Training 1/3 epoch (loss 1.1751):   2%|▏         | 234/9753 [02:34<1:35:23,  1.66it/s]Training 1/3 epoch (loss 0.9926):   2%|▏         | 234/9753 [02:34<1:35:23,  1.66it/s]Training 1/3 epoch (loss 0.9926):   2%|▏         | 235/9753 [02:34<1:34:07,  1.69it/s]Training 1/3 epoch (loss 1.1442):   2%|▏         | 235/9753 [02:35<1:34:07,  1.69it/s]Training 1/3 epoch (loss 1.1442):   2%|▏         | 236/9753 [02:35<1:33:10,  1.70it/s]Training 1/3 epoch (loss 1.2729):   2%|▏         | 236/9753 [02:35<1:33:10,  1.70it/s]Training 1/3 epoch (loss 1.2729):   2%|▏         | 237/9753 [02:35<1:32:30,  1.71it/s]Training 1/3 epoch (loss 1.3387):   2%|▏         | 237/9753 [02:36<1:32:30,  1.71it/s]Training 1/3 epoch (loss 1.3387):   2%|▏         | 238/9753 [02:36<1:36:08,  1.65it/s]Training 1/3 epoch (loss 1.2380):   2%|▏         | 238/9753 [02:37<1:36:08,  1.65it/s]Training 1/3 epoch (loss 1.2380):   2%|▏         | 239/9753 [02:37<1:36:46,  1.64it/s]Training 1/3 epoch (loss 1.0808):   2%|▏         | 239/9753 [02:38<1:36:46,  1.64it/s]Training 1/3 epoch (loss 1.0808):   2%|▏         | 240/9753 [02:38<1:59:34,  1.33it/s]Training 1/3 epoch (loss 1.2288):   2%|▏         | 240/9753 [02:38<1:59:34,  1.33it/s]Training 1/3 epoch (loss 1.2288):   2%|▏         | 241/9753 [02:38<1:50:33,  1.43it/s]Training 1/3 epoch (loss 0.9791):   2%|▏         | 241/9753 [02:39<1:50:33,  1.43it/s]Training 1/3 epoch (loss 0.9791):   2%|▏         | 242/9753 [02:39<1:43:52,  1.53it/s]Training 1/3 epoch (loss 1.2220):   2%|▏         | 242/9753 [02:39<1:43:52,  1.53it/s]Training 1/3 epoch (loss 1.2220):   2%|▏         | 243/9753 [02:39<1:39:07,  1.60it/s]Training 1/3 epoch (loss 1.1727):   2%|▏         | 243/9753 [02:40<1:39:07,  1.60it/s]Training 1/3 epoch (loss 1.1727):   3%|▎         | 244/9753 [02:40<1:49:37,  1.45it/s]Training 1/3 epoch (loss 1.0859):   3%|▎         | 244/9753 [02:41<1:49:37,  1.45it/s]Training 1/3 epoch (loss 1.0859):   3%|▎         | 245/9753 [02:41<1:44:42,  1.51it/s]Training 1/3 epoch (loss 1.2349):   3%|▎         | 245/9753 [02:41<1:44:42,  1.51it/s]Training 1/3 epoch (loss 1.2349):   3%|▎         | 246/9753 [02:41<1:43:25,  1.53it/s]Training 1/3 epoch (loss 0.9833):   3%|▎         | 246/9753 [02:42<1:43:25,  1.53it/s]Training 1/3 epoch (loss 0.9833):   3%|▎         | 247/9753 [02:42<1:40:06,  1.58it/s]Training 1/3 epoch (loss 1.1913):   3%|▎         | 247/9753 [02:43<1:40:06,  1.58it/s]Training 1/3 epoch (loss 1.1913):   3%|▎         | 248/9753 [02:43<1:38:48,  1.60it/s]Training 1/3 epoch (loss 1.1644):   3%|▎         | 248/9753 [02:43<1:38:48,  1.60it/s]Training 1/3 epoch (loss 1.1644):   3%|▎         | 249/9753 [02:43<1:37:32,  1.62it/s]Training 1/3 epoch (loss 1.2665):   3%|▎         | 249/9753 [02:44<1:37:32,  1.62it/s]Training 1/3 epoch (loss 1.2665):   3%|▎         | 250/9753 [02:44<1:36:56,  1.63it/s]Training 1/3 epoch (loss 1.2287):   3%|▎         | 250/9753 [02:45<1:36:56,  1.63it/s]Training 1/3 epoch (loss 1.2287):   3%|▎         | 251/9753 [02:45<1:45:26,  1.50it/s]Training 1/3 epoch (loss 1.2316):   3%|▎         | 251/9753 [02:45<1:45:26,  1.50it/s]Training 1/3 epoch (loss 1.2316):   3%|▎         | 252/9753 [02:45<1:40:59,  1.57it/s]Training 1/3 epoch (loss 1.3844):   3%|▎         | 252/9753 [02:46<1:40:59,  1.57it/s]Training 1/3 epoch (loss 1.3844):   3%|▎         | 253/9753 [02:46<1:36:54,  1.63it/s]Training 1/3 epoch (loss 0.9557):   3%|▎         | 253/9753 [02:46<1:36:54,  1.63it/s]Training 1/3 epoch (loss 0.9557):   3%|▎         | 254/9753 [02:46<1:34:44,  1.67it/s]Training 1/3 epoch (loss 1.1919):   3%|▎         | 254/9753 [02:47<1:34:44,  1.67it/s]Training 1/3 epoch (loss 1.1919):   3%|▎         | 255/9753 [02:47<1:32:19,  1.71it/s]Training 1/3 epoch (loss 1.1032):   3%|▎         | 255/9753 [02:48<1:32:19,  1.71it/s]Training 1/3 epoch (loss 1.1032):   3%|▎         | 256/9753 [02:48<1:43:15,  1.53it/s]Training 1/3 epoch (loss 1.1007):   3%|▎         | 256/9753 [02:48<1:43:15,  1.53it/s]Training 1/3 epoch (loss 1.1007):   3%|▎         | 257/9753 [02:48<1:38:51,  1.60it/s]Training 1/3 epoch (loss 0.9131):   3%|▎         | 257/9753 [02:49<1:38:51,  1.60it/s]Training 1/3 epoch (loss 0.9131):   3%|▎         | 258/9753 [02:49<1:37:09,  1.63it/s]Training 1/3 epoch (loss 1.1414):   3%|▎         | 258/9753 [02:49<1:37:09,  1.63it/s]Training 1/3 epoch (loss 1.1414):   3%|▎         | 259/9753 [02:49<1:40:37,  1.57it/s]Training 1/3 epoch (loss 1.0983):   3%|▎         | 259/9753 [02:50<1:40:37,  1.57it/s]Training 1/3 epoch (loss 1.0983):   3%|▎         | 260/9753 [02:50<1:49:41,  1.44it/s]Training 1/3 epoch (loss 1.1871):   3%|▎         | 260/9753 [02:51<1:49:41,  1.44it/s]Training 1/3 epoch (loss 1.1871):   3%|▎         | 261/9753 [02:51<1:45:35,  1.50it/s]Training 1/3 epoch (loss 0.9636):   3%|▎         | 261/9753 [02:52<1:45:35,  1.50it/s]Training 1/3 epoch (loss 0.9636):   3%|▎         | 262/9753 [02:52<1:44:10,  1.52it/s]Training 1/3 epoch (loss 1.1634):   3%|▎         | 262/9753 [02:52<1:44:10,  1.52it/s]Training 1/3 epoch (loss 1.1634):   3%|▎         | 263/9753 [02:52<1:38:55,  1.60it/s]Training 1/3 epoch (loss 1.1401):   3%|▎         | 263/9753 [02:53<1:38:55,  1.60it/s]Training 1/3 epoch (loss 1.1401):   3%|▎         | 264/9753 [02:53<1:35:51,  1.65it/s]Training 1/3 epoch (loss 0.9928):   3%|▎         | 264/9753 [02:53<1:35:51,  1.65it/s]Training 1/3 epoch (loss 0.9928):   3%|▎         | 265/9753 [02:53<1:33:00,  1.70it/s]Training 1/3 epoch (loss 1.2490):   3%|▎         | 265/9753 [02:54<1:33:00,  1.70it/s]Training 1/3 epoch (loss 1.2490):   3%|▎         | 266/9753 [02:54<1:35:41,  1.65it/s]Training 1/3 epoch (loss 1.0417):   3%|▎         | 266/9753 [02:54<1:35:41,  1.65it/s]Training 1/3 epoch (loss 1.0417):   3%|▎         | 267/9753 [02:54<1:33:43,  1.69it/s]Training 1/3 epoch (loss 1.1729):   3%|▎         | 267/9753 [02:55<1:33:43,  1.69it/s]Training 1/3 epoch (loss 1.1729):   3%|▎         | 268/9753 [02:55<1:32:11,  1.71it/s]Training 1/3 epoch (loss 1.1552):   3%|▎         | 268/9753 [02:56<1:32:11,  1.71it/s]Training 1/3 epoch (loss 1.1552):   3%|▎         | 269/9753 [02:56<1:44:11,  1.52it/s]Training 1/3 epoch (loss 1.0098):   3%|▎         | 269/9753 [02:56<1:44:11,  1.52it/s]Training 1/3 epoch (loss 1.0098):   3%|▎         | 270/9753 [02:56<1:39:59,  1.58it/s]Training 1/3 epoch (loss 1.2571):   3%|▎         | 270/9753 [02:57<1:39:59,  1.58it/s]Training 1/3 epoch (loss 1.2571):   3%|▎         | 271/9753 [02:57<1:37:38,  1.62it/s]Training 1/3 epoch (loss 0.7255):   3%|▎         | 271/9753 [02:58<1:37:38,  1.62it/s]Training 1/3 epoch (loss 0.7255):   3%|▎         | 272/9753 [02:58<1:57:05,  1.35it/s]Training 1/3 epoch (loss 1.0003):   3%|▎         | 272/9753 [02:59<1:57:05,  1.35it/s]Training 1/3 epoch (loss 1.0003):   3%|▎         | 273/9753 [02:59<1:55:32,  1.37it/s]Training 1/3 epoch (loss 1.1188):   3%|▎         | 273/9753 [02:59<1:55:32,  1.37it/s]Training 1/3 epoch (loss 1.1188):   3%|▎         | 274/9753 [02:59<1:47:01,  1.48it/s]Training 1/3 epoch (loss 1.0981):   3%|▎         | 274/9753 [03:00<1:47:01,  1.48it/s]Training 1/3 epoch (loss 1.0981):   3%|▎         | 275/9753 [03:00<1:41:58,  1.55it/s]Training 1/3 epoch (loss 0.9758):   3%|▎         | 275/9753 [03:00<1:41:58,  1.55it/s]Training 1/3 epoch (loss 0.9758):   3%|▎         | 276/9753 [03:00<1:42:11,  1.55it/s]Training 1/3 epoch (loss 1.1565):   3%|▎         | 276/9753 [03:01<1:42:11,  1.55it/s]Training 1/3 epoch (loss 1.1565):   3%|▎         | 277/9753 [03:01<1:38:00,  1.61it/s]Training 1/3 epoch (loss 1.1418):   3%|▎         | 277/9753 [03:02<1:38:00,  1.61it/s]Training 1/3 epoch (loss 1.1418):   3%|▎         | 278/9753 [03:02<1:36:29,  1.64it/s]Training 1/3 epoch (loss 1.1652):   3%|▎         | 278/9753 [03:02<1:36:29,  1.64it/s]Training 1/3 epoch (loss 1.1652):   3%|▎         | 279/9753 [03:02<1:38:03,  1.61it/s]Training 1/3 epoch (loss 1.0747):   3%|▎         | 279/9753 [03:03<1:38:03,  1.61it/s]Training 1/3 epoch (loss 1.0747):   3%|▎         | 280/9753 [03:03<1:34:45,  1.67it/s]Training 1/3 epoch (loss 1.2355):   3%|▎         | 280/9753 [03:03<1:34:45,  1.67it/s]Training 1/3 epoch (loss 1.2355):   3%|▎         | 281/9753 [03:03<1:32:27,  1.71it/s]Training 1/3 epoch (loss 1.3453):   3%|▎         | 281/9753 [03:04<1:32:27,  1.71it/s]Training 1/3 epoch (loss 1.3453):   3%|▎         | 282/9753 [03:04<1:30:39,  1.74it/s]Training 1/3 epoch (loss 1.0492):   3%|▎         | 282/9753 [03:04<1:30:39,  1.74it/s]Training 1/3 epoch (loss 1.0492):   3%|▎         | 283/9753 [03:04<1:30:05,  1.75it/s]Training 1/3 epoch (loss 1.2301):   3%|▎         | 283/9753 [03:05<1:30:05,  1.75it/s]Training 1/3 epoch (loss 1.2301):   3%|▎         | 284/9753 [03:05<1:37:59,  1.61it/s]Training 1/3 epoch (loss 1.1075):   3%|▎         | 284/9753 [03:06<1:37:59,  1.61it/s]Training 1/3 epoch (loss 1.1075):   3%|▎         | 285/9753 [03:06<1:49:38,  1.44it/s]Training 1/3 epoch (loss 1.0026):   3%|▎         | 285/9753 [03:07<1:49:38,  1.44it/s]Training 1/3 epoch (loss 1.0026):   3%|▎         | 286/9753 [03:07<1:43:17,  1.53it/s]Training 1/3 epoch (loss 1.0991):   3%|▎         | 286/9753 [03:07<1:43:17,  1.53it/s]Training 1/3 epoch (loss 1.0991):   3%|▎         | 287/9753 [03:07<1:38:06,  1.61it/s]Training 1/3 epoch (loss 1.2593):   3%|▎         | 287/9753 [03:08<1:38:06,  1.61it/s]Training 1/3 epoch (loss 1.2593):   3%|▎         | 288/9753 [03:08<1:42:39,  1.54it/s]Training 1/3 epoch (loss 0.9116):   3%|▎         | 288/9753 [03:09<1:42:39,  1.54it/s]Training 1/3 epoch (loss 0.9116):   3%|▎         | 289/9753 [03:09<1:43:37,  1.52it/s]Training 1/3 epoch (loss 1.0162):   3%|▎         | 289/9753 [03:09<1:43:37,  1.52it/s]Training 1/3 epoch (loss 1.0162):   3%|▎         | 290/9753 [03:09<1:46:32,  1.48it/s]Training 1/3 epoch (loss 1.1086):   3%|▎         | 290/9753 [03:10<1:46:32,  1.48it/s]Training 1/3 epoch (loss 1.1086):   3%|▎         | 291/9753 [03:10<1:42:12,  1.54it/s]Training 1/3 epoch (loss 1.1446):   3%|▎         | 291/9753 [03:10<1:42:12,  1.54it/s]Training 1/3 epoch (loss 1.1446):   3%|▎         | 292/9753 [03:10<1:37:27,  1.62it/s]Training 1/3 epoch (loss 1.3187):   3%|▎         | 292/9753 [03:11<1:37:27,  1.62it/s]Training 1/3 epoch (loss 1.3187):   3%|▎         | 293/9753 [03:11<1:34:09,  1.67it/s]Training 1/3 epoch (loss 1.1799):   3%|▎         | 293/9753 [03:11<1:34:09,  1.67it/s]Training 1/3 epoch (loss 1.1799):   3%|▎         | 294/9753 [03:11<1:31:48,  1.72it/s]Training 1/3 epoch (loss 1.1305):   3%|▎         | 294/9753 [03:12<1:31:48,  1.72it/s]Training 1/3 epoch (loss 1.1305):   3%|▎         | 295/9753 [03:12<1:29:46,  1.76it/s]Training 1/3 epoch (loss 1.1474):   3%|▎         | 295/9753 [03:13<1:29:46,  1.76it/s]Training 1/3 epoch (loss 1.1474):   3%|▎         | 296/9753 [03:13<1:29:45,  1.76it/s]Training 1/3 epoch (loss 1.1666):   3%|▎         | 296/9753 [03:13<1:29:45,  1.76it/s]Training 1/3 epoch (loss 1.1666):   3%|▎         | 297/9753 [03:13<1:29:05,  1.77it/s]Training 1/3 epoch (loss 1.1663):   3%|▎         | 297/9753 [03:14<1:29:05,  1.77it/s]Training 1/3 epoch (loss 1.1663):   3%|▎         | 298/9753 [03:14<1:32:42,  1.70it/s]Training 1/3 epoch (loss 1.1205):   3%|▎         | 298/9753 [03:14<1:32:42,  1.70it/s]Training 1/3 epoch (loss 1.1205):   3%|▎         | 299/9753 [03:14<1:31:28,  1.72it/s]Training 1/3 epoch (loss 1.1567):   3%|▎         | 299/9753 [03:15<1:31:28,  1.72it/s]Training 1/3 epoch (loss 1.1567):   3%|▎         | 300/9753 [03:15<1:42:58,  1.53it/s]Training 1/3 epoch (loss 1.1259):   3%|▎         | 300/9753 [03:16<1:42:58,  1.53it/s]Training 1/3 epoch (loss 1.1259):   3%|▎         | 301/9753 [03:16<1:37:51,  1.61it/s]Training 1/3 epoch (loss 1.1319):   3%|▎         | 301/9753 [03:16<1:37:51,  1.61it/s]Training 1/3 epoch (loss 1.1319):   3%|▎         | 302/9753 [03:16<1:37:35,  1.61it/s]Training 1/3 epoch (loss 1.0714):   3%|▎         | 302/9753 [03:17<1:37:35,  1.61it/s]Training 1/3 epoch (loss 1.0714):   3%|▎         | 303/9753 [03:17<1:42:45,  1.53it/s]Training 1/3 epoch (loss 1.1439):   3%|▎         | 303/9753 [03:18<1:42:45,  1.53it/s]Training 1/3 epoch (loss 1.1439):   3%|▎         | 304/9753 [03:18<1:56:43,  1.35it/s]Training 1/3 epoch (loss 1.2234):   3%|▎         | 304/9753 [03:19<1:56:43,  1.35it/s]Training 1/3 epoch (loss 1.2234):   3%|▎         | 305/9753 [03:19<1:57:19,  1.34it/s]Training 1/3 epoch (loss 0.9189):   3%|▎         | 305/9753 [03:20<1:57:19,  1.34it/s]Training 1/3 epoch (loss 0.9189):   3%|▎         | 306/9753 [03:20<2:05:53,  1.25it/s]Training 1/3 epoch (loss 1.1925):   3%|▎         | 306/9753 [03:20<2:05:53,  1.25it/s]Training 1/3 epoch (loss 1.1925):   3%|▎         | 307/9753 [03:20<1:55:04,  1.37it/s]Training 1/3 epoch (loss 0.9587):   3%|▎         | 307/9753 [03:21<1:55:04,  1.37it/s]Training 1/3 epoch (loss 0.9587):   3%|▎         | 308/9753 [03:21<1:48:26,  1.45it/s]Training 1/3 epoch (loss 0.9481):   3%|▎         | 308/9753 [03:22<1:48:26,  1.45it/s]Training 1/3 epoch (loss 0.9481):   3%|▎         | 309/9753 [03:22<1:47:55,  1.46it/s]Training 1/3 epoch (loss 1.1546):   3%|▎         | 309/9753 [03:22<1:47:55,  1.46it/s]Training 1/3 epoch (loss 1.1546):   3%|▎         | 310/9753 [03:22<1:43:28,  1.52it/s]Training 1/3 epoch (loss 1.2537):   3%|▎         | 310/9753 [03:23<1:43:28,  1.52it/s]Training 1/3 epoch (loss 1.2537):   3%|▎         | 311/9753 [03:23<1:40:19,  1.57it/s]Training 1/3 epoch (loss 1.3265):   3%|▎         | 311/9753 [03:23<1:40:19,  1.57it/s]Training 1/3 epoch (loss 1.3265):   3%|▎         | 312/9753 [03:23<1:37:40,  1.61it/s]Training 1/3 epoch (loss 1.0201):   3%|▎         | 312/9753 [03:24<1:37:40,  1.61it/s]Training 1/3 epoch (loss 1.0201):   3%|▎         | 313/9753 [03:24<1:36:09,  1.64it/s]Training 1/3 epoch (loss 1.1191):   3%|▎         | 313/9753 [03:25<1:36:09,  1.64it/s]Training 1/3 epoch (loss 1.1191):   3%|▎         | 314/9753 [03:25<1:43:05,  1.53it/s]Training 1/3 epoch (loss 0.9044):   3%|▎         | 314/9753 [03:25<1:43:05,  1.53it/s]Training 1/3 epoch (loss 0.9044):   3%|▎         | 315/9753 [03:25<1:47:27,  1.46it/s]Training 1/3 epoch (loss 0.8281):   3%|▎         | 315/9753 [03:26<1:47:27,  1.46it/s]Training 1/3 epoch (loss 0.8281):   3%|▎         | 316/9753 [03:26<1:43:43,  1.52it/s]Training 1/3 epoch (loss 1.1041):   3%|▎         | 316/9753 [03:27<1:43:43,  1.52it/s]Training 1/3 epoch (loss 1.1041):   3%|▎         | 317/9753 [03:27<1:47:30,  1.46it/s]Training 1/3 epoch (loss 1.0208):   3%|▎         | 317/9753 [03:27<1:47:30,  1.46it/s]Training 1/3 epoch (loss 1.0208):   3%|▎         | 318/9753 [03:27<1:45:46,  1.49it/s]Training 1/3 epoch (loss 1.0463):   3%|▎         | 318/9753 [03:28<1:45:46,  1.49it/s]Training 1/3 epoch (loss 1.0463):   3%|▎         | 319/9753 [03:28<1:43:42,  1.52it/s]Training 1/3 epoch (loss 1.1331):   3%|▎         | 319/9753 [03:29<1:43:42,  1.52it/s]Training 1/3 epoch (loss 1.1331):   3%|▎         | 320/9753 [03:29<2:02:11,  1.29it/s]Training 1/3 epoch (loss 1.2760):   3%|▎         | 320/9753 [03:30<2:02:11,  1.29it/s]Training 1/3 epoch (loss 1.2760):   3%|▎         | 321/9753 [03:30<2:00:33,  1.30it/s]Training 1/3 epoch (loss 1.1886):   3%|▎         | 321/9753 [03:31<2:00:33,  1.30it/s]Training 1/3 epoch (loss 1.1886):   3%|▎         | 322/9753 [03:31<2:07:12,  1.24it/s]Training 1/3 epoch (loss 1.2552):   3%|▎         | 322/9753 [03:31<2:07:12,  1.24it/s]Training 1/3 epoch (loss 1.2552):   3%|▎         | 323/9753 [03:31<2:04:53,  1.26it/s]Training 1/3 epoch (loss 1.1284):   3%|▎         | 323/9753 [03:32<2:04:53,  1.26it/s]Training 1/3 epoch (loss 1.1284):   3%|▎         | 324/9753 [03:32<1:58:02,  1.33it/s]Training 1/3 epoch (loss 1.4151):   3%|▎         | 324/9753 [03:33<1:58:02,  1.33it/s]Training 1/3 epoch (loss 1.4151):   3%|▎         | 325/9753 [03:33<1:54:30,  1.37it/s]Training 1/3 epoch (loss 1.2967):   3%|▎         | 325/9753 [03:34<1:54:30,  1.37it/s]Training 1/3 epoch (loss 1.2967):   3%|▎         | 326/9753 [03:34<2:06:06,  1.25it/s]Training 1/3 epoch (loss 1.0401):   3%|▎         | 326/9753 [03:34<2:06:06,  1.25it/s]Training 1/3 epoch (loss 1.0401):   3%|▎         | 327/9753 [03:34<2:01:04,  1.30it/s]Training 1/3 epoch (loss 1.1677):   3%|▎         | 327/9753 [03:35<2:01:04,  1.30it/s]Training 1/3 epoch (loss 1.1677):   3%|▎         | 328/9753 [03:35<1:54:58,  1.37it/s]Training 1/3 epoch (loss 1.1985):   3%|▎         | 328/9753 [03:36<1:54:58,  1.37it/s]Training 1/3 epoch (loss 1.1985):   3%|▎         | 329/9753 [03:36<1:52:49,  1.39it/s]Training 1/3 epoch (loss 1.0771):   3%|▎         | 329/9753 [03:37<1:52:49,  1.39it/s]Training 1/3 epoch (loss 1.0771):   3%|▎         | 330/9753 [03:37<1:53:24,  1.38it/s]Training 1/3 epoch (loss 0.9326):   3%|▎         | 330/9753 [03:37<1:53:24,  1.38it/s]Training 1/3 epoch (loss 0.9326):   3%|▎         | 331/9753 [03:37<1:49:43,  1.43it/s]Training 1/3 epoch (loss 0.9052):   3%|▎         | 331/9753 [03:38<1:49:43,  1.43it/s]Training 1/3 epoch (loss 0.9052):   3%|▎         | 332/9753 [03:38<1:51:25,  1.41it/s]Training 1/3 epoch (loss 1.0777):   3%|▎         | 332/9753 [03:39<1:51:25,  1.41it/s]Training 1/3 epoch (loss 1.0777):   3%|▎         | 333/9753 [03:39<1:49:09,  1.44it/s]Training 1/3 epoch (loss 0.9335):   3%|▎         | 333/9753 [03:39<1:49:09,  1.44it/s]Training 1/3 epoch (loss 0.9335):   3%|▎         | 334/9753 [03:39<1:47:05,  1.47it/s]Training 1/3 epoch (loss 1.0694):   3%|▎         | 334/9753 [03:40<1:47:05,  1.47it/s]Training 1/3 epoch (loss 1.0694):   3%|▎         | 335/9753 [03:40<1:45:39,  1.49it/s]Training 1/3 epoch (loss 1.0374):   3%|▎         | 335/9753 [03:41<1:45:39,  1.49it/s]Training 1/3 epoch (loss 1.0374):   3%|▎         | 336/9753 [03:41<1:51:30,  1.41it/s]Training 1/3 epoch (loss 0.8862):   3%|▎         | 336/9753 [03:41<1:51:30,  1.41it/s]Training 1/3 epoch (loss 0.8862):   3%|▎         | 337/9753 [03:41<1:49:08,  1.44it/s]Training 1/3 epoch (loss 1.1393):   3%|▎         | 337/9753 [03:42<1:49:08,  1.44it/s]Training 1/3 epoch (loss 1.1393):   3%|▎         | 338/9753 [03:42<1:47:13,  1.46it/s]Training 1/3 epoch (loss 0.9398):   3%|▎         | 338/9753 [03:43<1:47:13,  1.46it/s]Training 1/3 epoch (loss 0.9398):   3%|▎         | 339/9753 [03:43<1:45:48,  1.48it/s]Training 1/3 epoch (loss 1.1159):   3%|▎         | 339/9753 [03:43<1:45:48,  1.48it/s]Training 1/3 epoch (loss 1.1159):   3%|▎         | 340/9753 [03:43<1:45:02,  1.49it/s]Training 1/3 epoch (loss 1.0202):   3%|▎         | 340/9753 [03:44<1:45:02,  1.49it/s]Training 1/3 epoch (loss 1.0202):   3%|▎         | 341/9753 [03:44<1:43:44,  1.51it/s]Training 1/3 epoch (loss 1.2825):   3%|▎         | 341/9753 [03:45<1:43:44,  1.51it/s]Training 1/3 epoch (loss 1.2825):   4%|▎         | 342/9753 [03:45<1:44:48,  1.50it/s]Training 1/3 epoch (loss 1.1151):   4%|▎         | 342/9753 [03:45<1:44:48,  1.50it/s]Training 1/3 epoch (loss 1.1151):   4%|▎         | 343/9753 [03:45<1:46:17,  1.48it/s]Training 1/3 epoch (loss 1.2964):   4%|▎         | 343/9753 [03:46<1:46:17,  1.48it/s]Training 1/3 epoch (loss 1.2964):   4%|▎         | 344/9753 [03:46<1:46:02,  1.48it/s]Training 1/3 epoch (loss 0.9974):   4%|▎         | 344/9753 [03:47<1:46:02,  1.48it/s]Training 1/3 epoch (loss 0.9974):   4%|▎         | 345/9753 [03:47<1:45:55,  1.48it/s]Training 1/3 epoch (loss 1.0923):   4%|▎         | 345/9753 [03:47<1:45:55,  1.48it/s]Training 1/3 epoch (loss 1.0923):   4%|▎         | 346/9753 [03:47<1:50:44,  1.42it/s]Training 1/3 epoch (loss 1.2543):   4%|▎         | 346/9753 [03:48<1:50:44,  1.42it/s]Training 1/3 epoch (loss 1.2543):   4%|▎         | 347/9753 [03:48<1:47:36,  1.46it/s]Training 1/3 epoch (loss 0.8859):   4%|▎         | 347/9753 [03:49<1:47:36,  1.46it/s]Training 1/3 epoch (loss 0.8859):   4%|▎         | 348/9753 [03:49<2:00:05,  1.31it/s]Training 1/3 epoch (loss 0.9589):   4%|▎         | 348/9753 [03:50<2:00:05,  1.31it/s]Training 1/3 epoch (loss 0.9589):   4%|▎         | 349/9753 [03:50<1:58:32,  1.32it/s]Training 1/3 epoch (loss 1.1287):   4%|▎         | 349/9753 [03:50<1:58:32,  1.32it/s]Training 1/3 epoch (loss 1.1287):   4%|▎         | 350/9753 [03:50<1:53:08,  1.39it/s]Training 1/3 epoch (loss 1.0953):   4%|▎         | 350/9753 [03:51<1:53:08,  1.39it/s]Training 1/3 epoch (loss 1.0953):   4%|▎         | 351/9753 [03:51<1:48:44,  1.44it/s]Training 1/3 epoch (loss 1.2528):   4%|▎         | 351/9753 [03:52<1:48:44,  1.44it/s]Training 1/3 epoch (loss 1.2528):   4%|▎         | 352/9753 [03:52<1:55:59,  1.35it/s]Training 1/3 epoch (loss 1.1313):   4%|▎         | 352/9753 [03:53<1:55:59,  1.35it/s]Training 1/3 epoch (loss 1.1313):   4%|▎         | 353/9753 [03:53<1:49:57,  1.42it/s]Training 1/3 epoch (loss 1.1164):   4%|▎         | 353/9753 [03:53<1:49:57,  1.42it/s]Training 1/3 epoch (loss 1.1164):   4%|▎         | 354/9753 [03:53<1:44:49,  1.49it/s]Training 1/3 epoch (loss 1.0424):   4%|▎         | 354/9753 [03:54<1:44:49,  1.49it/s]Training 1/3 epoch (loss 1.0424):   4%|▎         | 355/9753 [03:54<1:43:09,  1.52it/s]Training 1/3 epoch (loss 0.9292):   4%|▎         | 355/9753 [03:54<1:43:09,  1.52it/s]Training 1/3 epoch (loss 0.9292):   4%|▎         | 356/9753 [03:54<1:43:12,  1.52it/s]Training 1/3 epoch (loss 1.1411):   4%|▎         | 356/9753 [03:55<1:43:12,  1.52it/s]Training 1/3 epoch (loss 1.1411):   4%|▎         | 357/9753 [03:55<1:37:51,  1.60it/s]Training 1/3 epoch (loss 1.3165):   4%|▎         | 357/9753 [03:56<1:37:51,  1.60it/s]Training 1/3 epoch (loss 1.3165):   4%|▎         | 358/9753 [03:56<1:36:53,  1.62it/s]Training 1/3 epoch (loss 0.8998):   4%|▎         | 358/9753 [03:56<1:36:53,  1.62it/s]Training 1/3 epoch (loss 0.8998):   4%|▎         | 359/9753 [03:56<1:34:14,  1.66it/s]Training 1/3 epoch (loss 1.3031):   4%|▎         | 359/9753 [03:57<1:34:14,  1.66it/s]Training 1/3 epoch (loss 1.3031):   4%|▎         | 360/9753 [03:57<1:38:14,  1.59it/s]Training 1/3 epoch (loss 1.3423):   4%|▎         | 360/9753 [03:57<1:38:14,  1.59it/s]Training 1/3 epoch (loss 1.3423):   4%|▎         | 361/9753 [03:57<1:34:44,  1.65it/s]Training 1/3 epoch (loss 1.0526):   4%|▎         | 361/9753 [03:58<1:34:44,  1.65it/s]Training 1/3 epoch (loss 1.0526):   4%|▎         | 362/9753 [03:58<1:33:52,  1.67it/s]Training 1/3 epoch (loss 1.2350):   4%|▎         | 362/9753 [03:59<1:33:52,  1.67it/s]Training 1/3 epoch (loss 1.2350):   4%|▎         | 363/9753 [03:59<1:39:58,  1.57it/s]Training 1/3 epoch (loss 0.8974):   4%|▎         | 363/9753 [03:59<1:39:58,  1.57it/s]Training 1/3 epoch (loss 0.8974):   4%|▎         | 364/9753 [03:59<1:36:13,  1.63it/s]Training 1/3 epoch (loss 1.1799):   4%|▎         | 364/9753 [04:00<1:36:13,  1.63it/s]Training 1/3 epoch (loss 1.1799):   4%|▎         | 365/9753 [04:00<1:34:05,  1.66it/s]Training 1/3 epoch (loss 0.8956):   4%|▎         | 365/9753 [04:00<1:34:05,  1.66it/s]Training 1/3 epoch (loss 0.8956):   4%|▍         | 366/9753 [04:00<1:31:40,  1.71it/s]Training 1/3 epoch (loss 1.1254):   4%|▍         | 366/9753 [04:01<1:31:40,  1.71it/s]Training 1/3 epoch (loss 1.1254):   4%|▍         | 367/9753 [04:01<1:29:38,  1.75it/s]Training 1/3 epoch (loss 1.2504):   4%|▍         | 367/9753 [04:02<1:29:38,  1.75it/s]Training 1/3 epoch (loss 1.2504):   4%|▍         | 368/9753 [04:02<1:35:55,  1.63it/s]Training 1/3 epoch (loss 1.0492):   4%|▍         | 368/9753 [04:02<1:35:55,  1.63it/s]Training 1/3 epoch (loss 1.0492):   4%|▍         | 369/9753 [04:02<1:37:15,  1.61it/s]Training 1/3 epoch (loss 1.0533):   4%|▍         | 369/9753 [04:03<1:37:15,  1.61it/s]Training 1/3 epoch (loss 1.0533):   4%|▍         | 370/9753 [04:03<1:35:59,  1.63it/s]Training 1/3 epoch (loss 1.0618):   4%|▍         | 370/9753 [04:03<1:35:59,  1.63it/s]Training 1/3 epoch (loss 1.0618):   4%|▍         | 371/9753 [04:03<1:37:54,  1.60it/s]Training 1/3 epoch (loss 1.0391):   4%|▍         | 371/9753 [04:04<1:37:54,  1.60it/s]Training 1/3 epoch (loss 1.0391):   4%|▍         | 372/9753 [04:04<1:34:08,  1.66it/s]Training 1/3 epoch (loss 1.0730):   4%|▍         | 372/9753 [04:05<1:34:08,  1.66it/s]Training 1/3 epoch (loss 1.0730):   4%|▍         | 373/9753 [04:05<1:43:51,  1.51it/s]Training 1/3 epoch (loss 0.7439):   4%|▍         | 373/9753 [04:05<1:43:51,  1.51it/s]Training 1/3 epoch (loss 0.7439):   4%|▍         | 374/9753 [04:05<1:42:44,  1.52it/s]Training 1/3 epoch (loss 1.0511):   4%|▍         | 374/9753 [04:06<1:42:44,  1.52it/s]Training 1/3 epoch (loss 1.0511):   4%|▍         | 375/9753 [04:06<1:56:40,  1.34it/s]Training 1/3 epoch (loss 0.9835):   4%|▍         | 375/9753 [04:07<1:56:40,  1.34it/s]Training 1/3 epoch (loss 0.9835):   4%|▍         | 376/9753 [04:07<1:55:32,  1.35it/s]Training 1/3 epoch (loss 1.0497):   4%|▍         | 376/9753 [04:08<1:55:32,  1.35it/s]Training 1/3 epoch (loss 1.0497):   4%|▍         | 377/9753 [04:08<1:49:53,  1.42it/s]Training 1/3 epoch (loss 1.0164):   4%|▍         | 377/9753 [04:08<1:49:53,  1.42it/s]Training 1/3 epoch (loss 1.0164):   4%|▍         | 378/9753 [04:08<1:48:32,  1.44it/s]Training 1/3 epoch (loss 1.1205):   4%|▍         | 378/9753 [04:09<1:48:32,  1.44it/s]Training 1/3 epoch (loss 1.1205):   4%|▍         | 379/9753 [04:09<1:42:33,  1.52it/s]Training 1/3 epoch (loss 0.8762):   4%|▍         | 379/9753 [04:10<1:42:33,  1.52it/s]Training 1/3 epoch (loss 0.8762):   4%|▍         | 380/9753 [04:10<1:54:54,  1.36it/s]Training 1/3 epoch (loss 1.0950):   4%|▍         | 380/9753 [04:11<1:54:54,  1.36it/s]Training 1/3 epoch (loss 1.0950):   4%|▍         | 381/9753 [04:11<2:00:12,  1.30it/s]Training 1/3 epoch (loss 1.1716):   4%|▍         | 381/9753 [04:11<2:00:12,  1.30it/s]Training 1/3 epoch (loss 1.1716):   4%|▍         | 382/9753 [04:11<1:51:27,  1.40it/s]Training 1/3 epoch (loss 1.3964):   4%|▍         | 382/9753 [04:12<1:51:27,  1.40it/s]Training 1/3 epoch (loss 1.3964):   4%|▍         | 383/9753 [04:12<1:49:00,  1.43it/s]Training 1/3 epoch (loss 1.2157):   4%|▍         | 383/9753 [04:13<1:49:00,  1.43it/s]Training 1/3 epoch (loss 1.2157):   4%|▍         | 384/9753 [04:13<1:50:38,  1.41it/s]Training 1/3 epoch (loss 1.1640):   4%|▍         | 384/9753 [04:13<1:50:38,  1.41it/s]Training 1/3 epoch (loss 1.1640):   4%|▍         | 385/9753 [04:13<1:44:48,  1.49it/s]Training 1/3 epoch (loss 1.0851):   4%|▍         | 385/9753 [04:14<1:44:48,  1.49it/s]Training 1/3 epoch (loss 1.0851):   4%|▍         | 386/9753 [04:14<1:47:38,  1.45it/s]Training 1/3 epoch (loss 1.1557):   4%|▍         | 386/9753 [04:15<1:47:38,  1.45it/s]Training 1/3 epoch (loss 1.1557):   4%|▍         | 387/9753 [04:15<1:44:16,  1.50it/s]Training 1/3 epoch (loss 1.0447):   4%|▍         | 387/9753 [04:15<1:44:16,  1.50it/s]Training 1/3 epoch (loss 1.0447):   4%|▍         | 388/9753 [04:15<1:40:29,  1.55it/s]Training 1/3 epoch (loss 0.9794):   4%|▍         | 388/9753 [04:16<1:40:29,  1.55it/s]Training 1/3 epoch (loss 0.9794):   4%|▍         | 389/9753 [04:16<1:37:39,  1.60it/s]Training 1/3 epoch (loss 1.2195):   4%|▍         | 389/9753 [04:16<1:37:39,  1.60it/s]Training 1/3 epoch (loss 1.2195):   4%|▍         | 390/9753 [04:16<1:35:35,  1.63it/s]Training 1/3 epoch (loss 1.1682):   4%|▍         | 390/9753 [04:17<1:35:35,  1.63it/s]Training 1/3 epoch (loss 1.1682):   4%|▍         | 391/9753 [04:17<1:41:47,  1.53it/s]Training 1/3 epoch (loss 0.9949):   4%|▍         | 391/9753 [04:18<1:41:47,  1.53it/s]Training 1/3 epoch (loss 0.9949):   4%|▍         | 392/9753 [04:18<1:39:00,  1.58it/s]Training 1/3 epoch (loss 0.9898):   4%|▍         | 392/9753 [04:19<1:39:00,  1.58it/s]Training 1/3 epoch (loss 0.9898):   4%|▍         | 393/9753 [04:19<1:45:49,  1.47it/s]Training 1/3 epoch (loss 1.0419):   4%|▍         | 393/9753 [04:19<1:45:49,  1.47it/s]Training 1/3 epoch (loss 1.0419):   4%|▍         | 394/9753 [04:19<1:41:08,  1.54it/s]Training 1/3 epoch (loss 0.9232):   4%|▍         | 394/9753 [04:20<1:41:08,  1.54it/s]Training 1/3 epoch (loss 0.9232):   4%|▍         | 395/9753 [04:20<1:47:32,  1.45it/s]Training 1/3 epoch (loss 1.2025):   4%|▍         | 395/9753 [04:20<1:47:32,  1.45it/s]Training 1/3 epoch (loss 1.2025):   4%|▍         | 396/9753 [04:20<1:40:54,  1.55it/s]Training 1/3 epoch (loss 1.0025):   4%|▍         | 396/9753 [04:21<1:40:54,  1.55it/s]Training 1/3 epoch (loss 1.0025):   4%|▍         | 397/9753 [04:21<1:36:22,  1.62it/s]Training 1/3 epoch (loss 1.1388):   4%|▍         | 397/9753 [04:22<1:36:22,  1.62it/s]Training 1/3 epoch (loss 1.1388):   4%|▍         | 398/9753 [04:22<1:33:07,  1.67it/s]Training 1/3 epoch (loss 0.9627):   4%|▍         | 398/9753 [04:22<1:33:07,  1.67it/s]Training 1/3 epoch (loss 0.9627):   4%|▍         | 399/9753 [04:22<1:47:08,  1.46it/s]Training 1/3 epoch (loss 0.8670):   4%|▍         | 399/9753 [04:23<1:47:08,  1.46it/s]Training 1/3 epoch (loss 0.8670):   4%|▍         | 400/9753 [04:23<1:54:27,  1.36it/s]Training 1/3 epoch (loss 0.9421):   4%|▍         | 400/9753 [04:24<1:54:27,  1.36it/s]Training 1/3 epoch (loss 0.9421):   4%|▍         | 401/9753 [04:24<1:49:53,  1.42it/s]Training 1/3 epoch (loss 1.2044):   4%|▍         | 401/9753 [04:25<1:49:53,  1.42it/s]Training 1/3 epoch (loss 1.2044):   4%|▍         | 402/9753 [04:25<1:43:34,  1.50it/s]Training 1/3 epoch (loss 1.2251):   4%|▍         | 402/9753 [04:25<1:43:34,  1.50it/s]Training 1/3 epoch (loss 1.2251):   4%|▍         | 403/9753 [04:25<1:47:06,  1.45it/s]Training 1/3 epoch (loss 1.2153):   4%|▍         | 403/9753 [04:26<1:47:06,  1.45it/s]Training 1/3 epoch (loss 1.2153):   4%|▍         | 404/9753 [04:26<1:44:53,  1.49it/s]Training 1/3 epoch (loss 1.1052):   4%|▍         | 404/9753 [04:27<1:44:53,  1.49it/s]Training 1/3 epoch (loss 1.1052):   4%|▍         | 405/9753 [04:27<1:41:44,  1.53it/s]Training 1/3 epoch (loss 1.4300):   4%|▍         | 405/9753 [04:27<1:41:44,  1.53it/s]Training 1/3 epoch (loss 1.4300):   4%|▍         | 406/9753 [04:27<1:38:53,  1.58it/s]Training 1/3 epoch (loss 1.1586):   4%|▍         | 406/9753 [04:28<1:38:53,  1.58it/s]Training 1/3 epoch (loss 1.1586):   4%|▍         | 407/9753 [04:28<1:48:55,  1.43it/s]Training 1/3 epoch (loss 1.0713):   4%|▍         | 407/9753 [04:29<1:48:55,  1.43it/s]Training 1/3 epoch (loss 1.0713):   4%|▍         | 408/9753 [04:29<1:46:48,  1.46it/s]Training 1/3 epoch (loss 1.0002):   4%|▍         | 408/9753 [04:29<1:46:48,  1.46it/s]Training 1/3 epoch (loss 1.0002):   4%|▍         | 409/9753 [04:29<1:44:59,  1.48it/s]Training 1/3 epoch (loss 0.8058):   4%|▍         | 409/9753 [04:30<1:44:59,  1.48it/s]Training 1/3 epoch (loss 0.8058):   4%|▍         | 410/9753 [04:30<1:40:15,  1.55it/s]Training 1/3 epoch (loss 1.1164):   4%|▍         | 410/9753 [04:30<1:40:15,  1.55it/s]Training 1/3 epoch (loss 1.1164):   4%|▍         | 411/9753 [04:30<1:37:10,  1.60it/s]Training 1/3 epoch (loss 1.4582):   4%|▍         | 411/9753 [04:31<1:37:10,  1.60it/s]Training 1/3 epoch (loss 1.4582):   4%|▍         | 412/9753 [04:31<1:38:51,  1.57it/s]Training 1/3 epoch (loss 1.1560):   4%|▍         | 412/9753 [04:32<1:38:51,  1.57it/s]Training 1/3 epoch (loss 1.1560):   4%|▍         | 413/9753 [04:32<1:44:42,  1.49it/s]Training 1/3 epoch (loss 1.2319):   4%|▍         | 413/9753 [04:32<1:44:42,  1.49it/s]Training 1/3 epoch (loss 1.2319):   4%|▍         | 414/9753 [04:32<1:40:12,  1.55it/s]Training 1/3 epoch (loss 1.1238):   4%|▍         | 414/9753 [04:33<1:40:12,  1.55it/s]Training 1/3 epoch (loss 1.1238):   4%|▍         | 415/9753 [04:33<1:38:02,  1.59it/s]Training 1/3 epoch (loss 0.9575):   4%|▍         | 415/9753 [04:34<1:38:02,  1.59it/s]Training 1/3 epoch (loss 0.9575):   4%|▍         | 416/9753 [04:34<1:43:38,  1.50it/s]Training 1/3 epoch (loss 1.4228):   4%|▍         | 416/9753 [04:34<1:43:38,  1.50it/s]Training 1/3 epoch (loss 1.4228):   4%|▍         | 417/9753 [04:34<1:44:00,  1.50it/s]Training 1/3 epoch (loss 1.0451):   4%|▍         | 417/9753 [04:35<1:44:00,  1.50it/s]Training 1/3 epoch (loss 1.0451):   4%|▍         | 418/9753 [04:35<1:42:36,  1.52it/s]Training 1/3 epoch (loss 0.9218):   4%|▍         | 418/9753 [04:36<1:42:36,  1.52it/s]Training 1/3 epoch (loss 0.9218):   4%|▍         | 419/9753 [04:36<1:38:22,  1.58it/s]Training 1/3 epoch (loss 1.1755):   4%|▍         | 419/9753 [04:37<1:38:22,  1.58it/s]Training 1/3 epoch (loss 1.1755):   4%|▍         | 420/9753 [04:37<1:52:29,  1.38it/s]Training 1/3 epoch (loss 1.0155):   4%|▍         | 420/9753 [04:37<1:52:29,  1.38it/s]Training 1/3 epoch (loss 1.0155):   4%|▍         | 421/9753 [04:37<1:45:50,  1.47it/s]Training 1/3 epoch (loss 1.0400):   4%|▍         | 421/9753 [04:38<1:45:50,  1.47it/s]Training 1/3 epoch (loss 1.0400):   4%|▍         | 422/9753 [04:38<1:40:57,  1.54it/s]Training 1/3 epoch (loss 1.1278):   4%|▍         | 422/9753 [04:38<1:40:57,  1.54it/s]Training 1/3 epoch (loss 1.1278):   4%|▍         | 423/9753 [04:38<1:38:09,  1.58it/s]Training 1/3 epoch (loss 1.2060):   4%|▍         | 423/9753 [04:39<1:38:09,  1.58it/s]Training 1/3 epoch (loss 1.2060):   4%|▍         | 424/9753 [04:39<1:35:38,  1.63it/s]Training 1/3 epoch (loss 1.2375):   4%|▍         | 424/9753 [04:40<1:35:38,  1.63it/s]Training 1/3 epoch (loss 1.2375):   4%|▍         | 425/9753 [04:40<1:41:14,  1.54it/s]Training 1/3 epoch (loss 1.0658):   4%|▍         | 425/9753 [04:40<1:41:14,  1.54it/s]Training 1/3 epoch (loss 1.0658):   4%|▍         | 426/9753 [04:40<1:38:08,  1.58it/s]Training 1/3 epoch (loss 0.9680):   4%|▍         | 426/9753 [04:41<1:38:08,  1.58it/s]Training 1/3 epoch (loss 0.9680):   4%|▍         | 427/9753 [04:41<1:39:11,  1.57it/s]Training 1/3 epoch (loss 1.0606):   4%|▍         | 427/9753 [04:42<1:39:11,  1.57it/s]Training 1/3 epoch (loss 1.0606):   4%|▍         | 428/9753 [04:42<1:38:06,  1.58it/s]Training 1/3 epoch (loss 1.1567):   4%|▍         | 428/9753 [04:42<1:38:06,  1.58it/s]Training 1/3 epoch (loss 1.1567):   4%|▍         | 429/9753 [04:42<1:40:02,  1.55it/s]Training 1/3 epoch (loss 0.9392):   4%|▍         | 429/9753 [04:43<1:40:02,  1.55it/s]Training 1/3 epoch (loss 0.9392):   4%|▍         | 430/9753 [04:43<1:47:35,  1.44it/s]Training 1/3 epoch (loss 1.0379):   4%|▍         | 430/9753 [04:44<1:47:35,  1.44it/s]Training 1/3 epoch (loss 1.0379):   4%|▍         | 431/9753 [04:44<1:44:04,  1.49it/s]Training 1/3 epoch (loss 0.9895):   4%|▍         | 431/9753 [04:44<1:44:04,  1.49it/s]Training 1/3 epoch (loss 0.9895):   4%|▍         | 432/9753 [04:44<1:45:56,  1.47it/s]Training 1/3 epoch (loss 0.8835):   4%|▍         | 432/9753 [04:45<1:45:56,  1.47it/s]Training 1/3 epoch (loss 0.8835):   4%|▍         | 433/9753 [04:45<1:41:30,  1.53it/s]Training 1/3 epoch (loss 1.2109):   4%|▍         | 433/9753 [04:45<1:41:30,  1.53it/s]Training 1/3 epoch (loss 1.2109):   4%|▍         | 434/9753 [04:45<1:38:18,  1.58it/s]Training 1/3 epoch (loss 1.1344):   4%|▍         | 434/9753 [04:46<1:38:18,  1.58it/s]Training 1/3 epoch (loss 1.1344):   4%|▍         | 435/9753 [04:46<1:35:58,  1.62it/s]Training 1/3 epoch (loss 0.9355):   4%|▍         | 435/9753 [04:47<1:35:58,  1.62it/s]Training 1/3 epoch (loss 0.9355):   4%|▍         | 436/9753 [04:47<1:36:03,  1.62it/s]Training 1/3 epoch (loss 1.0050):   4%|▍         | 436/9753 [04:47<1:36:03,  1.62it/s]Training 1/3 epoch (loss 1.0050):   4%|▍         | 437/9753 [04:47<1:34:53,  1.64it/s]Training 1/3 epoch (loss 1.2895):   4%|▍         | 437/9753 [04:48<1:34:53,  1.64it/s]Training 1/3 epoch (loss 1.2895):   4%|▍         | 438/9753 [04:48<1:34:03,  1.65it/s]Training 1/3 epoch (loss 1.0291):   4%|▍         | 438/9753 [04:48<1:34:03,  1.65it/s]Training 1/3 epoch (loss 1.0291):   5%|▍         | 439/9753 [04:48<1:32:21,  1.68it/s]Training 1/3 epoch (loss 0.9551):   5%|▍         | 439/9753 [04:49<1:32:21,  1.68it/s]Training 1/3 epoch (loss 0.9551):   5%|▍         | 440/9753 [04:49<1:31:13,  1.70it/s]Training 1/3 epoch (loss 0.9986):   5%|▍         | 440/9753 [04:50<1:31:13,  1.70it/s]Training 1/3 epoch (loss 0.9986):   5%|▍         | 441/9753 [04:50<1:30:12,  1.72it/s]Training 1/3 epoch (loss 1.1164):   5%|▍         | 441/9753 [04:50<1:30:12,  1.72it/s]Training 1/3 epoch (loss 1.1164):   5%|▍         | 442/9753 [04:50<1:29:52,  1.73it/s]Training 1/3 epoch (loss 1.0652):   5%|▍         | 442/9753 [04:51<1:29:52,  1.73it/s]Training 1/3 epoch (loss 1.0652):   5%|▍         | 443/9753 [04:51<1:31:00,  1.71it/s]Training 1/3 epoch (loss 1.2807):   5%|▍         | 443/9753 [04:51<1:31:00,  1.71it/s]Training 1/3 epoch (loss 1.2807):   5%|▍         | 444/9753 [04:51<1:38:01,  1.58it/s]Training 1/3 epoch (loss 1.2239):   5%|▍         | 444/9753 [04:52<1:38:01,  1.58it/s]Training 1/3 epoch (loss 1.2239):   5%|▍         | 445/9753 [04:52<1:38:02,  1.58it/s]Training 1/3 epoch (loss 1.1868):   5%|▍         | 445/9753 [04:53<1:38:02,  1.58it/s]Training 1/3 epoch (loss 1.1868):   5%|▍         | 446/9753 [04:53<1:45:48,  1.47it/s]Training 1/3 epoch (loss 1.0068):   5%|▍         | 446/9753 [04:54<1:45:48,  1.47it/s]Training 1/3 epoch (loss 1.0068):   5%|▍         | 447/9753 [04:54<1:43:27,  1.50it/s]Training 1/3 epoch (loss 1.0977):   5%|▍         | 447/9753 [04:54<1:43:27,  1.50it/s]Training 1/3 epoch (loss 1.0977):   5%|▍         | 448/9753 [04:54<1:45:57,  1.46it/s]Training 1/3 epoch (loss 1.0188):   5%|▍         | 448/9753 [04:55<1:45:57,  1.46it/s]Training 1/3 epoch (loss 1.0188):   5%|▍         | 449/9753 [04:55<1:45:55,  1.46it/s]Training 1/3 epoch (loss 1.1010):   5%|▍         | 449/9753 [04:56<1:45:55,  1.46it/s]Training 1/3 epoch (loss 1.1010):   5%|▍         | 450/9753 [04:56<1:49:42,  1.41it/s]Training 1/3 epoch (loss 1.2047):   5%|▍         | 450/9753 [04:56<1:49:42,  1.41it/s]Training 1/3 epoch (loss 1.2047):   5%|▍         | 451/9753 [04:56<1:51:33,  1.39it/s]Training 1/3 epoch (loss 0.9507):   5%|▍         | 451/9753 [04:57<1:51:33,  1.39it/s]Training 1/3 epoch (loss 0.9507):   5%|▍         | 452/9753 [04:57<1:48:42,  1.43it/s]Training 1/3 epoch (loss 1.1582):   5%|▍         | 452/9753 [04:58<1:48:42,  1.43it/s]Training 1/3 epoch (loss 1.1582):   5%|▍         | 453/9753 [04:58<1:46:40,  1.45it/s]Training 1/3 epoch (loss 1.1836):   5%|▍         | 453/9753 [04:58<1:46:40,  1.45it/s]Training 1/3 epoch (loss 1.1836):   5%|▍         | 454/9753 [04:58<1:44:27,  1.48it/s]Training 1/3 epoch (loss 1.2408):   5%|▍         | 454/9753 [04:59<1:44:27,  1.48it/s]Training 1/3 epoch (loss 1.2408):   5%|▍         | 455/9753 [04:59<1:42:30,  1.51it/s]Training 1/3 epoch (loss 1.1707):   5%|▍         | 455/9753 [05:00<1:42:30,  1.51it/s]Training 1/3 epoch (loss 1.1707):   5%|▍         | 456/9753 [05:00<1:55:28,  1.34it/s]Training 1/3 epoch (loss 1.0928):   5%|▍         | 456/9753 [05:01<1:55:28,  1.34it/s]Training 1/3 epoch (loss 1.0928):   5%|▍         | 457/9753 [05:01<1:51:31,  1.39it/s]Training 1/3 epoch (loss 1.2256):   5%|▍         | 457/9753 [05:01<1:51:31,  1.39it/s]Training 1/3 epoch (loss 1.2256):   5%|▍         | 458/9753 [05:01<1:43:20,  1.50it/s]Training 1/3 epoch (loss 1.1062):   5%|▍         | 458/9753 [05:02<1:43:20,  1.50it/s]Training 1/3 epoch (loss 1.1062):   5%|▍         | 459/9753 [05:02<1:41:56,  1.52it/s]Training 1/3 epoch (loss 1.3012):   5%|▍         | 459/9753 [05:03<1:41:56,  1.52it/s]Training 1/3 epoch (loss 1.3012):   5%|▍         | 460/9753 [05:03<1:43:25,  1.50it/s]Training 1/3 epoch (loss 1.1492):   5%|▍         | 460/9753 [05:03<1:43:25,  1.50it/s]Training 1/3 epoch (loss 1.1492):   5%|▍         | 461/9753 [05:03<1:38:24,  1.57it/s]Training 1/3 epoch (loss 1.1271):   5%|▍         | 461/9753 [05:04<1:38:24,  1.57it/s]Training 1/3 epoch (loss 1.1271):   5%|▍         | 462/9753 [05:04<1:33:59,  1.65it/s]Training 1/3 epoch (loss 0.9774):   5%|▍         | 462/9753 [05:04<1:33:59,  1.65it/s]Training 1/3 epoch (loss 0.9774):   5%|▍         | 463/9753 [05:04<1:31:03,  1.70it/s]Training 1/3 epoch (loss 0.9609):   5%|▍         | 463/9753 [05:05<1:31:03,  1.70it/s]Training 1/3 epoch (loss 0.9609):   5%|▍         | 464/9753 [05:05<1:36:03,  1.61it/s]Training 1/3 epoch (loss 1.2445):   5%|▍         | 464/9753 [05:05<1:36:03,  1.61it/s]Training 1/3 epoch (loss 1.2445):   5%|▍         | 465/9753 [05:05<1:32:43,  1.67it/s]Training 1/3 epoch (loss 0.9550):   5%|▍         | 465/9753 [05:06<1:32:43,  1.67it/s]Training 1/3 epoch (loss 0.9550):   5%|▍         | 466/9753 [05:06<1:34:47,  1.63it/s]Training 1/3 epoch (loss 1.1033):   5%|▍         | 466/9753 [05:07<1:34:47,  1.63it/s]Training 1/3 epoch (loss 1.1033):   5%|▍         | 467/9753 [05:07<1:37:33,  1.59it/s]Training 1/3 epoch (loss 1.2743):   5%|▍         | 467/9753 [05:07<1:37:33,  1.59it/s]Training 1/3 epoch (loss 1.2743):   5%|▍         | 468/9753 [05:07<1:36:44,  1.60it/s]Training 1/3 epoch (loss 0.9660):   5%|▍         | 468/9753 [05:08<1:36:44,  1.60it/s]Training 1/3 epoch (loss 0.9660):   5%|▍         | 469/9753 [05:08<1:35:48,  1.62it/s]Training 1/3 epoch (loss 1.1427):   5%|▍         | 469/9753 [05:09<1:35:48,  1.62it/s]Training 1/3 epoch (loss 1.1427):   5%|▍         | 470/9753 [05:09<1:34:34,  1.64it/s]Training 1/3 epoch (loss 1.0289):   5%|▍         | 470/9753 [05:09<1:34:34,  1.64it/s]Training 1/3 epoch (loss 1.0289):   5%|▍         | 471/9753 [05:09<1:31:27,  1.69it/s]Training 1/3 epoch (loss 1.2665):   5%|▍         | 471/9753 [05:10<1:31:27,  1.69it/s]Training 1/3 epoch (loss 1.2665):   5%|▍         | 472/9753 [05:10<1:31:56,  1.68it/s]Training 1/3 epoch (loss 1.3124):   5%|▍         | 472/9753 [05:10<1:31:56,  1.68it/s]Training 1/3 epoch (loss 1.3124):   5%|▍         | 473/9753 [05:10<1:35:17,  1.62it/s]Training 1/3 epoch (loss 0.9317):   5%|▍         | 473/9753 [05:11<1:35:17,  1.62it/s]Training 1/3 epoch (loss 0.9317):   5%|▍         | 474/9753 [05:11<1:35:09,  1.63it/s]Training 1/3 epoch (loss 1.1544):   5%|▍         | 474/9753 [05:12<1:35:09,  1.63it/s]Training 1/3 epoch (loss 1.1544):   5%|▍         | 475/9753 [05:12<1:35:18,  1.62it/s]Training 1/3 epoch (loss 1.0845):   5%|▍         | 475/9753 [05:12<1:35:18,  1.62it/s]Training 1/3 epoch (loss 1.0845):   5%|▍         | 476/9753 [05:12<1:31:39,  1.69it/s]Training 1/3 epoch (loss 0.9927):   5%|▍         | 476/9753 [05:13<1:31:39,  1.69it/s]Training 1/3 epoch (loss 0.9927):   5%|▍         | 477/9753 [05:13<1:29:45,  1.72it/s]Training 1/3 epoch (loss 1.3263):   5%|▍         | 477/9753 [05:13<1:29:45,  1.72it/s]Training 1/3 epoch (loss 1.3263):   5%|▍         | 478/9753 [05:13<1:34:47,  1.63it/s]Training 1/3 epoch (loss 1.0038):   5%|▍         | 478/9753 [05:14<1:34:47,  1.63it/s]Training 1/3 epoch (loss 1.0038):   5%|▍         | 479/9753 [05:14<1:32:35,  1.67it/s]Training 1/3 epoch (loss 1.1352):   5%|▍         | 479/9753 [05:15<1:32:35,  1.67it/s]Training 1/3 epoch (loss 1.1352):   5%|▍         | 480/9753 [05:15<1:36:57,  1.59it/s]Training 1/3 epoch (loss 0.8702):   5%|▍         | 480/9753 [05:15<1:36:57,  1.59it/s]Training 1/3 epoch (loss 0.8702):   5%|▍         | 481/9753 [05:15<1:34:24,  1.64it/s]Training 1/3 epoch (loss 0.9882):   5%|▍         | 481/9753 [05:16<1:34:24,  1.64it/s]Training 1/3 epoch (loss 0.9882):   5%|▍         | 482/9753 [05:16<1:39:18,  1.56it/s]Training 1/3 epoch (loss 0.9954):   5%|▍         | 482/9753 [05:16<1:39:18,  1.56it/s]Training 1/3 epoch (loss 0.9954):   5%|▍         | 483/9753 [05:16<1:35:50,  1.61it/s]Training 1/3 epoch (loss 1.1902):   5%|▍         | 483/9753 [05:17<1:35:50,  1.61it/s]Training 1/3 epoch (loss 1.1902):   5%|▍         | 484/9753 [05:17<1:33:44,  1.65it/s]Training 1/3 epoch (loss 1.0556):   5%|▍         | 484/9753 [05:18<1:33:44,  1.65it/s]Training 1/3 epoch (loss 1.0556):   5%|▍         | 485/9753 [05:18<1:31:20,  1.69it/s]Training 1/3 epoch (loss 1.0409):   5%|▍         | 485/9753 [05:18<1:31:20,  1.69it/s]Training 1/3 epoch (loss 1.0409):   5%|▍         | 486/9753 [05:18<1:37:19,  1.59it/s]Training 1/3 epoch (loss 1.0077):   5%|▍         | 486/9753 [05:19<1:37:19,  1.59it/s]Training 1/3 epoch (loss 1.0077):   5%|▍         | 487/9753 [05:19<1:34:27,  1.63it/s]Training 1/3 epoch (loss 1.3583):   5%|▍         | 487/9753 [05:19<1:34:27,  1.63it/s]Training 1/3 epoch (loss 1.3583):   5%|▌         | 488/9753 [05:19<1:33:20,  1.65it/s]Training 1/3 epoch (loss 1.0900):   5%|▌         | 488/9753 [05:20<1:33:20,  1.65it/s]Training 1/3 epoch (loss 1.0900):   5%|▌         | 489/9753 [05:20<1:35:27,  1.62it/s]Training 1/3 epoch (loss 1.0436):   5%|▌         | 489/9753 [05:21<1:35:27,  1.62it/s]Training 1/3 epoch (loss 1.0436):   5%|▌         | 490/9753 [05:21<1:38:34,  1.57it/s]Training 1/3 epoch (loss 1.1512):   5%|▌         | 490/9753 [05:21<1:38:34,  1.57it/s]Training 1/3 epoch (loss 1.1512):   5%|▌         | 491/9753 [05:21<1:34:54,  1.63it/s]Training 1/3 epoch (loss 1.2731):   5%|▌         | 491/9753 [05:22<1:34:54,  1.63it/s]Training 1/3 epoch (loss 1.2731):   5%|▌         | 492/9753 [05:22<1:33:29,  1.65it/s]Training 1/3 epoch (loss 1.1636):   5%|▌         | 492/9753 [05:23<1:33:29,  1.65it/s]Training 1/3 epoch (loss 1.1636):   5%|▌         | 493/9753 [05:23<1:45:01,  1.47it/s]Training 1/3 epoch (loss 1.1812):   5%|▌         | 493/9753 [05:24<1:45:01,  1.47it/s]Training 1/3 epoch (loss 1.1812):   5%|▌         | 494/9753 [05:24<1:48:14,  1.43it/s]Training 1/3 epoch (loss 1.0321):   5%|▌         | 494/9753 [05:24<1:48:14,  1.43it/s]Training 1/3 epoch (loss 1.0321):   5%|▌         | 495/9753 [05:24<1:41:07,  1.53it/s]Training 1/3 epoch (loss 1.2516):   5%|▌         | 495/9753 [05:25<1:41:07,  1.53it/s]Training 1/3 epoch (loss 1.2516):   5%|▌         | 496/9753 [05:25<1:42:32,  1.50it/s]Training 1/3 epoch (loss 0.9550):   5%|▌         | 496/9753 [05:25<1:42:32,  1.50it/s]Training 1/3 epoch (loss 0.9550):   5%|▌         | 497/9753 [05:25<1:43:20,  1.49it/s]Training 1/3 epoch (loss 1.2436):   5%|▌         | 497/9753 [05:26<1:43:20,  1.49it/s]Training 1/3 epoch (loss 1.2436):   5%|▌         | 498/9753 [05:26<1:41:16,  1.52it/s]Training 1/3 epoch (loss 1.1491):   5%|▌         | 498/9753 [05:27<1:41:16,  1.52it/s]Training 1/3 epoch (loss 1.1491):   5%|▌         | 499/9753 [05:27<1:38:27,  1.57it/s]Training 1/3 epoch (loss 0.8509):   5%|▌         | 499/9753 [05:27<1:38:27,  1.57it/s]Training 1/3 epoch (loss 0.8509):   5%|▌         | 500/9753 [05:27<1:37:00,  1.59it/s]Training 1/3 epoch (loss 1.0179):   5%|▌         | 500/9753 [05:28<1:37:00,  1.59it/s]Training 1/3 epoch (loss 1.0179):   5%|▌         | 501/9753 [05:28<1:33:31,  1.65it/s]Training 1/3 epoch (loss 1.2171):   5%|▌         | 501/9753 [05:28<1:33:31,  1.65it/s]Training 1/3 epoch (loss 1.2171):   5%|▌         | 502/9753 [05:28<1:32:55,  1.66it/s]Training 1/3 epoch (loss 1.0407):   5%|▌         | 502/9753 [05:29<1:32:55,  1.66it/s]Training 1/3 epoch (loss 1.0407):   5%|▌         | 503/9753 [05:29<1:32:13,  1.67it/s]Training 1/3 epoch (loss 0.9806):   5%|▌         | 503/9753 [05:30<1:32:13,  1.67it/s]Training 1/3 epoch (loss 0.9806):   5%|▌         | 504/9753 [05:30<1:39:38,  1.55it/s]Training 1/3 epoch (loss 1.1637):   5%|▌         | 504/9753 [05:30<1:39:38,  1.55it/s]Training 1/3 epoch (loss 1.1637):   5%|▌         | 505/9753 [05:30<1:38:38,  1.56it/s]Training 1/3 epoch (loss 1.1119):   5%|▌         | 505/9753 [05:31<1:38:38,  1.56it/s]Training 1/3 epoch (loss 1.1119):   5%|▌         | 506/9753 [05:31<1:41:21,  1.52it/s]Training 1/3 epoch (loss 1.0811):   5%|▌         | 506/9753 [05:32<1:41:21,  1.52it/s]Training 1/3 epoch (loss 1.0811):   5%|▌         | 507/9753 [05:32<1:38:56,  1.56it/s]Training 1/3 epoch (loss 0.9669):   5%|▌         | 507/9753 [05:32<1:38:56,  1.56it/s]Training 1/3 epoch (loss 0.9669):   5%|▌         | 508/9753 [05:32<1:36:17,  1.60it/s]Training 1/3 epoch (loss 1.0435):   5%|▌         | 508/9753 [05:33<1:36:17,  1.60it/s]Training 1/3 epoch (loss 1.0435):   5%|▌         | 509/9753 [05:33<1:34:56,  1.62it/s]Training 1/3 epoch (loss 1.1447):   5%|▌         | 509/9753 [05:34<1:34:56,  1.62it/s]Training 1/3 epoch (loss 1.1447):   5%|▌         | 510/9753 [05:34<1:35:30,  1.61it/s]Training 1/3 epoch (loss 1.1557):   5%|▌         | 510/9753 [05:34<1:35:30,  1.61it/s]Training 1/3 epoch (loss 1.1557):   5%|▌         | 511/9753 [05:34<1:36:44,  1.59it/s]Training 1/3 epoch (loss 1.0992):   5%|▌         | 511/9753 [05:35<1:36:44,  1.59it/s]Training 1/3 epoch (loss 1.0992):   5%|▌         | 512/9753 [05:35<1:39:57,  1.54it/s]Training 1/3 epoch (loss 1.1744):   5%|▌         | 512/9753 [05:36<1:39:57,  1.54it/s]Training 1/3 epoch (loss 1.1744):   5%|▌         | 513/9753 [05:36<1:41:51,  1.51it/s]Training 1/3 epoch (loss 1.2283):   5%|▌         | 513/9753 [05:36<1:41:51,  1.51it/s]Training 1/3 epoch (loss 1.2283):   5%|▌         | 514/9753 [05:36<1:38:29,  1.56it/s]Training 1/3 epoch (loss 1.0250):   5%|▌         | 514/9753 [05:37<1:38:29,  1.56it/s]Training 1/3 epoch (loss 1.0250):   5%|▌         | 515/9753 [05:37<1:43:38,  1.49it/s]Training 1/3 epoch (loss 1.2121):   5%|▌         | 515/9753 [05:38<1:43:38,  1.49it/s]Training 1/3 epoch (loss 1.2121):   5%|▌         | 516/9753 [05:38<1:38:46,  1.56it/s]Training 1/3 epoch (loss 0.8211):   5%|▌         | 516/9753 [05:38<1:38:46,  1.56it/s]Training 1/3 epoch (loss 0.8211):   5%|▌         | 517/9753 [05:38<1:35:50,  1.61it/s]Training 1/3 epoch (loss 1.0790):   5%|▌         | 517/9753 [05:39<1:35:50,  1.61it/s]Training 1/3 epoch (loss 1.0790):   5%|▌         | 518/9753 [05:39<1:32:04,  1.67it/s]Training 1/3 epoch (loss 1.2065):   5%|▌         | 518/9753 [05:39<1:32:04,  1.67it/s]Training 1/3 epoch (loss 1.2065):   5%|▌         | 519/9753 [05:39<1:35:58,  1.60it/s]Training 1/3 epoch (loss 1.0104):   5%|▌         | 519/9753 [05:40<1:35:58,  1.60it/s]Training 1/3 epoch (loss 1.0104):   5%|▌         | 520/9753 [05:40<1:39:44,  1.54it/s]Training 1/3 epoch (loss 1.0588):   5%|▌         | 520/9753 [05:41<1:39:44,  1.54it/s]Training 1/3 epoch (loss 1.0588):   5%|▌         | 521/9753 [05:41<1:35:19,  1.61it/s]Training 1/3 epoch (loss 1.1137):   5%|▌         | 521/9753 [05:41<1:35:19,  1.61it/s]Training 1/3 epoch (loss 1.1137):   5%|▌         | 522/9753 [05:41<1:32:43,  1.66it/s]Training 1/3 epoch (loss 1.2606):   5%|▌         | 522/9753 [05:42<1:32:43,  1.66it/s]Training 1/3 epoch (loss 1.2606):   5%|▌         | 523/9753 [05:42<1:36:27,  1.59it/s]Training 1/3 epoch (loss 0.8542):   5%|▌         | 523/9753 [05:42<1:36:27,  1.59it/s]Training 1/3 epoch (loss 0.8542):   5%|▌         | 524/9753 [05:42<1:37:37,  1.58it/s]Training 1/3 epoch (loss 1.0625):   5%|▌         | 524/9753 [05:43<1:37:37,  1.58it/s]Training 1/3 epoch (loss 1.0625):   5%|▌         | 525/9753 [05:43<1:39:23,  1.55it/s]Training 1/3 epoch (loss 1.2562):   5%|▌         | 525/9753 [05:44<1:39:23,  1.55it/s]Training 1/3 epoch (loss 1.2562):   5%|▌         | 526/9753 [05:44<1:39:21,  1.55it/s]Training 1/3 epoch (loss 1.1339):   5%|▌         | 526/9753 [05:45<1:39:21,  1.55it/s]Training 1/3 epoch (loss 1.1339):   5%|▌         | 527/9753 [05:45<1:45:10,  1.46it/s]Training 1/3 epoch (loss 1.1973):   5%|▌         | 527/9753 [05:45<1:45:10,  1.46it/s]Training 1/3 epoch (loss 1.1973):   5%|▌         | 528/9753 [05:45<1:48:14,  1.42it/s]Training 1/3 epoch (loss 1.2853):   5%|▌         | 528/9753 [05:46<1:48:14,  1.42it/s]Training 1/3 epoch (loss 1.2853):   5%|▌         | 529/9753 [05:46<1:46:51,  1.44it/s]Training 1/3 epoch (loss 1.0563):   5%|▌         | 529/9753 [05:47<1:46:51,  1.44it/s]Training 1/3 epoch (loss 1.0563):   5%|▌         | 530/9753 [05:47<1:44:02,  1.48it/s]Training 1/3 epoch (loss 1.0717):   5%|▌         | 530/9753 [05:47<1:44:02,  1.48it/s]Training 1/3 epoch (loss 1.0717):   5%|▌         | 531/9753 [05:47<1:43:16,  1.49it/s]Training 1/3 epoch (loss 0.8223):   5%|▌         | 531/9753 [05:48<1:43:16,  1.49it/s]Training 1/3 epoch (loss 0.8223):   5%|▌         | 532/9753 [05:48<1:40:06,  1.54it/s]Training 1/3 epoch (loss 1.4608):   5%|▌         | 532/9753 [05:48<1:40:06,  1.54it/s]Training 1/3 epoch (loss 1.4608):   5%|▌         | 533/9753 [05:48<1:38:33,  1.56it/s]Training 1/3 epoch (loss 1.3318):   5%|▌         | 533/9753 [05:49<1:38:33,  1.56it/s]Training 1/3 epoch (loss 1.3318):   5%|▌         | 534/9753 [05:49<1:38:19,  1.56it/s]Training 1/3 epoch (loss 1.0192):   5%|▌         | 534/9753 [05:50<1:38:19,  1.56it/s]Training 1/3 epoch (loss 1.0192):   5%|▌         | 535/9753 [05:50<1:36:03,  1.60it/s]Training 1/3 epoch (loss 1.1808):   5%|▌         | 535/9753 [05:50<1:36:03,  1.60it/s]Training 1/3 epoch (loss 1.1808):   5%|▌         | 536/9753 [05:50<1:33:00,  1.65it/s]Training 1/3 epoch (loss 1.1486):   5%|▌         | 536/9753 [05:51<1:33:00,  1.65it/s]Training 1/3 epoch (loss 1.1486):   6%|▌         | 537/9753 [05:51<1:33:50,  1.64it/s]Training 1/3 epoch (loss 0.9078):   6%|▌         | 537/9753 [05:51<1:33:50,  1.64it/s]Training 1/3 epoch (loss 0.9078):   6%|▌         | 538/9753 [05:51<1:30:55,  1.69it/s]Training 1/3 epoch (loss 1.1275):   6%|▌         | 538/9753 [05:52<1:30:55,  1.69it/s]Training 1/3 epoch (loss 1.1275):   6%|▌         | 539/9753 [05:52<1:33:33,  1.64it/s]Training 1/3 epoch (loss 1.0286):   6%|▌         | 539/9753 [05:53<1:33:33,  1.64it/s]Training 1/3 epoch (loss 1.0286):   6%|▌         | 540/9753 [05:53<1:37:35,  1.57it/s]Training 1/3 epoch (loss 0.9374):   6%|▌         | 540/9753 [05:53<1:37:35,  1.57it/s]Training 1/3 epoch (loss 0.9374):   6%|▌         | 541/9753 [05:53<1:35:05,  1.61it/s]Training 1/3 epoch (loss 1.0845):   6%|▌         | 541/9753 [05:54<1:35:05,  1.61it/s]Training 1/3 epoch (loss 1.0845):   6%|▌         | 542/9753 [05:54<1:32:00,  1.67it/s]Training 1/3 epoch (loss 0.9819):   6%|▌         | 542/9753 [05:55<1:32:00,  1.67it/s]Training 1/3 epoch (loss 0.9819):   6%|▌         | 543/9753 [05:55<1:31:17,  1.68it/s]Training 1/3 epoch (loss 1.0087):   6%|▌         | 543/9753 [05:55<1:31:17,  1.68it/s]Training 1/3 epoch (loss 1.0087):   6%|▌         | 544/9753 [05:55<1:47:01,  1.43it/s]Training 1/3 epoch (loss 0.9978):   6%|▌         | 544/9753 [05:56<1:47:01,  1.43it/s]Training 1/3 epoch (loss 0.9978):   6%|▌         | 545/9753 [05:56<1:48:47,  1.41it/s]Training 1/3 epoch (loss 0.9954):   6%|▌         | 545/9753 [05:57<1:48:47,  1.41it/s]Training 1/3 epoch (loss 0.9954):   6%|▌         | 546/9753 [05:57<1:42:30,  1.50it/s]Training 1/3 epoch (loss 1.1008):   6%|▌         | 546/9753 [05:57<1:42:30,  1.50it/s]Training 1/3 epoch (loss 1.1008):   6%|▌         | 547/9753 [05:57<1:36:56,  1.58it/s]Training 1/3 epoch (loss 0.9568):   6%|▌         | 547/9753 [05:58<1:36:56,  1.58it/s]Training 1/3 epoch (loss 0.9568):   6%|▌         | 548/9753 [05:58<1:34:08,  1.63it/s]Training 1/3 epoch (loss 1.0139):   6%|▌         | 548/9753 [05:59<1:34:08,  1.63it/s]Training 1/3 epoch (loss 1.0139):   6%|▌         | 549/9753 [05:59<1:36:36,  1.59it/s]Training 1/3 epoch (loss 0.9572):   6%|▌         | 549/9753 [05:59<1:36:36,  1.59it/s]Training 1/3 epoch (loss 0.9572):   6%|▌         | 550/9753 [05:59<1:32:48,  1.65it/s]Training 1/3 epoch (loss 1.0172):   6%|▌         | 550/9753 [06:00<1:32:48,  1.65it/s]Training 1/3 epoch (loss 1.0172):   6%|▌         | 551/9753 [06:00<1:36:57,  1.58it/s]Training 1/3 epoch (loss 1.0838):   6%|▌         | 551/9753 [06:00<1:36:57,  1.58it/s]Training 1/3 epoch (loss 1.0838):   6%|▌         | 552/9753 [06:00<1:34:14,  1.63it/s]Training 1/3 epoch (loss 1.2649):   6%|▌         | 552/9753 [06:01<1:34:14,  1.63it/s]Training 1/3 epoch (loss 1.2649):   6%|▌         | 553/9753 [06:01<1:31:07,  1.68it/s]Training 1/3 epoch (loss 1.0698):   6%|▌         | 553/9753 [06:01<1:31:07,  1.68it/s]Training 1/3 epoch (loss 1.0698):   6%|▌         | 554/9753 [06:01<1:30:06,  1.70it/s]Training 1/3 epoch (loss 1.0306):   6%|▌         | 554/9753 [06:02<1:30:06,  1.70it/s]Training 1/3 epoch (loss 1.0306):   6%|▌         | 555/9753 [06:02<1:32:48,  1.65it/s]Training 1/3 epoch (loss 1.3912):   6%|▌         | 555/9753 [06:03<1:32:48,  1.65it/s]Training 1/3 epoch (loss 1.3912):   6%|▌         | 556/9753 [06:03<1:30:48,  1.69it/s]Training 1/3 epoch (loss 1.0365):   6%|▌         | 556/9753 [06:03<1:30:48,  1.69it/s]Training 1/3 epoch (loss 1.0365):   6%|▌         | 557/9753 [06:03<1:29:57,  1.70it/s]Training 1/3 epoch (loss 1.3225):   6%|▌         | 557/9753 [06:04<1:29:57,  1.70it/s]Training 1/3 epoch (loss 1.3225):   6%|▌         | 558/9753 [06:04<1:30:05,  1.70it/s]Training 1/3 epoch (loss 0.8985):   6%|▌         | 558/9753 [06:04<1:30:05,  1.70it/s]Training 1/3 epoch (loss 0.8985):   6%|▌         | 559/9753 [06:04<1:30:00,  1.70it/s]Training 1/3 epoch (loss 1.1748):   6%|▌         | 559/9753 [06:05<1:30:00,  1.70it/s]Training 1/3 epoch (loss 1.1748):   6%|▌         | 560/9753 [06:05<1:34:25,  1.62it/s]Training 1/3 epoch (loss 1.0826):   6%|▌         | 560/9753 [06:06<1:34:25,  1.62it/s]Training 1/3 epoch (loss 1.0826):   6%|▌         | 561/9753 [06:06<1:32:33,  1.66it/s]Training 1/3 epoch (loss 1.2713):   6%|▌         | 561/9753 [06:06<1:32:33,  1.66it/s]Training 1/3 epoch (loss 1.2713):   6%|▌         | 562/9753 [06:06<1:33:29,  1.64it/s]Training 1/3 epoch (loss 1.0501):   6%|▌         | 562/9753 [06:07<1:33:29,  1.64it/s]Training 1/3 epoch (loss 1.0501):   6%|▌         | 563/9753 [06:07<1:31:05,  1.68it/s]Training 1/3 epoch (loss 1.0186):   6%|▌         | 563/9753 [06:07<1:31:05,  1.68it/s]Training 1/3 epoch (loss 1.0186):   6%|▌         | 564/9753 [06:07<1:30:43,  1.69it/s]Training 1/3 epoch (loss 1.0537):   6%|▌         | 564/9753 [06:08<1:30:43,  1.69it/s]Training 1/3 epoch (loss 1.0537):   6%|▌         | 565/9753 [06:08<1:29:08,  1.72it/s]Training 1/3 epoch (loss 0.9810):   6%|▌         | 565/9753 [06:09<1:29:08,  1.72it/s]Training 1/3 epoch (loss 0.9810):   6%|▌         | 566/9753 [06:09<1:30:50,  1.69it/s]Training 1/3 epoch (loss 1.0855):   6%|▌         | 566/9753 [06:09<1:30:50,  1.69it/s]Training 1/3 epoch (loss 1.0855):   6%|▌         | 567/9753 [06:09<1:29:53,  1.70it/s]Training 1/3 epoch (loss 1.1092):   6%|▌         | 567/9753 [06:10<1:29:53,  1.70it/s]Training 1/3 epoch (loss 1.1092):   6%|▌         | 568/9753 [06:10<1:41:53,  1.50it/s]Training 1/3 epoch (loss 1.2037):   6%|▌         | 568/9753 [06:11<1:41:53,  1.50it/s]Training 1/3 epoch (loss 1.2037):   6%|▌         | 569/9753 [06:11<1:36:41,  1.58it/s]Training 1/3 epoch (loss 1.2983):   6%|▌         | 569/9753 [06:11<1:36:41,  1.58it/s]Training 1/3 epoch (loss 1.2983):   6%|▌         | 570/9753 [06:11<1:33:41,  1.63it/s]Training 1/3 epoch (loss 1.2233):   6%|▌         | 570/9753 [06:12<1:33:41,  1.63it/s]Training 1/3 epoch (loss 1.2233):   6%|▌         | 571/9753 [06:12<1:44:19,  1.47it/s]Training 1/3 epoch (loss 1.3125):   6%|▌         | 571/9753 [06:13<1:44:19,  1.47it/s]Training 1/3 epoch (loss 1.3125):   6%|▌         | 572/9753 [06:13<1:38:10,  1.56it/s]Training 1/3 epoch (loss 1.0953):   6%|▌         | 572/9753 [06:13<1:38:10,  1.56it/s]Training 1/3 epoch (loss 1.0953):   6%|▌         | 573/9753 [06:13<1:34:01,  1.63it/s]Training 1/3 epoch (loss 0.9555):   6%|▌         | 573/9753 [06:14<1:34:01,  1.63it/s]Training 1/3 epoch (loss 0.9555):   6%|▌         | 574/9753 [06:14<1:30:47,  1.68it/s]Training 1/3 epoch (loss 0.8476):   6%|▌         | 574/9753 [06:15<1:30:47,  1.68it/s]Training 1/3 epoch (loss 0.8476):   6%|▌         | 575/9753 [06:15<1:44:49,  1.46it/s]Training 1/3 epoch (loss 0.9870):   6%|▌         | 575/9753 [06:15<1:44:49,  1.46it/s]Training 1/3 epoch (loss 0.9870):   6%|▌         | 576/9753 [06:15<1:45:09,  1.45it/s]Training 1/3 epoch (loss 1.0361):   6%|▌         | 576/9753 [06:16<1:45:09,  1.45it/s]Training 1/3 epoch (loss 1.0361):   6%|▌         | 577/9753 [06:16<1:41:27,  1.51it/s]Training 1/3 epoch (loss 1.1630):   6%|▌         | 577/9753 [06:17<1:41:27,  1.51it/s]Training 1/3 epoch (loss 1.1630):   6%|▌         | 578/9753 [06:17<1:39:47,  1.53it/s]Training 1/3 epoch (loss 0.9280):   6%|▌         | 578/9753 [06:17<1:39:47,  1.53it/s]Training 1/3 epoch (loss 0.9280):   6%|▌         | 579/9753 [06:17<1:36:10,  1.59it/s]Training 1/3 epoch (loss 1.1027):   6%|▌         | 579/9753 [06:18<1:36:10,  1.59it/s]Training 1/3 epoch (loss 1.1027):   6%|▌         | 580/9753 [06:18<1:32:17,  1.66it/s]Training 1/3 epoch (loss 0.8816):   6%|▌         | 580/9753 [06:18<1:32:17,  1.66it/s]Training 1/3 epoch (loss 0.8816):   6%|▌         | 581/9753 [06:18<1:29:46,  1.70it/s]Training 1/3 epoch (loss 1.0750):   6%|▌         | 581/9753 [06:19<1:29:46,  1.70it/s]Training 1/3 epoch (loss 1.0750):   6%|▌         | 582/9753 [06:19<1:27:59,  1.74it/s]Training 1/3 epoch (loss 1.2511):   6%|▌         | 582/9753 [06:19<1:27:59,  1.74it/s]Training 1/3 epoch (loss 1.2511):   6%|▌         | 583/9753 [06:19<1:29:04,  1.72it/s]Training 1/3 epoch (loss 1.0658):   6%|▌         | 583/9753 [06:20<1:29:04,  1.72it/s]Training 1/3 epoch (loss 1.0658):   6%|▌         | 584/9753 [06:20<1:28:21,  1.73it/s]Training 1/3 epoch (loss 1.1460):   6%|▌         | 584/9753 [06:20<1:28:21,  1.73it/s]Training 1/3 epoch (loss 1.1460):   6%|▌         | 585/9753 [06:20<1:27:00,  1.76it/s]Training 1/3 epoch (loss 0.9302):   6%|▌         | 585/9753 [06:21<1:27:00,  1.76it/s]Training 1/3 epoch (loss 0.9302):   6%|▌         | 586/9753 [06:21<1:27:17,  1.75it/s]Training 1/3 epoch (loss 1.0929):   6%|▌         | 586/9753 [06:22<1:27:17,  1.75it/s]Training 1/3 epoch (loss 1.0929):   6%|▌         | 587/9753 [06:22<1:28:44,  1.72it/s]Training 1/3 epoch (loss 0.8873):   6%|▌         | 587/9753 [06:22<1:28:44,  1.72it/s]Training 1/3 epoch (loss 0.8873):   6%|▌         | 588/9753 [06:22<1:27:34,  1.74it/s]Training 1/3 epoch (loss 1.1949):   6%|▌         | 588/9753 [06:23<1:27:34,  1.74it/s]Training 1/3 epoch (loss 1.1949):   6%|▌         | 589/9753 [06:23<1:26:20,  1.77it/s]Training 1/3 epoch (loss 0.9964):   6%|▌         | 589/9753 [06:23<1:26:20,  1.77it/s]Training 1/3 epoch (loss 0.9964):   6%|▌         | 590/9753 [06:23<1:27:16,  1.75it/s]Training 1/3 epoch (loss 1.0687):   6%|▌         | 590/9753 [06:24<1:27:16,  1.75it/s]Training 1/3 epoch (loss 1.0687):   6%|▌         | 591/9753 [06:24<1:30:30,  1.69it/s]Training 1/3 epoch (loss 1.0073):   6%|▌         | 591/9753 [06:25<1:30:30,  1.69it/s]Training 1/3 epoch (loss 1.0073):   6%|▌         | 592/9753 [06:25<1:34:58,  1.61it/s]Training 1/3 epoch (loss 1.2261):   6%|▌         | 592/9753 [06:25<1:34:58,  1.61it/s]Training 1/3 epoch (loss 1.2261):   6%|▌         | 593/9753 [06:25<1:32:11,  1.66it/s]Training 1/3 epoch (loss 1.1108):   6%|▌         | 593/9753 [06:26<1:32:11,  1.66it/s]Training 1/3 epoch (loss 1.1108):   6%|▌         | 594/9753 [06:26<1:30:16,  1.69it/s]Training 1/3 epoch (loss 1.0343):   6%|▌         | 594/9753 [06:26<1:30:16,  1.69it/s]Training 1/3 epoch (loss 1.0343):   6%|▌         | 595/9753 [06:26<1:33:01,  1.64it/s]Training 1/3 epoch (loss 1.1453):   6%|▌         | 595/9753 [06:27<1:33:01,  1.64it/s]Training 1/3 epoch (loss 1.1453):   6%|▌         | 596/9753 [06:27<1:31:16,  1.67it/s]Training 1/3 epoch (loss 1.2959):   6%|▌         | 596/9753 [06:28<1:31:16,  1.67it/s]Training 1/3 epoch (loss 1.2959):   6%|▌         | 597/9753 [06:28<1:29:43,  1.70it/s]Training 1/3 epoch (loss 1.1534):   6%|▌         | 597/9753 [06:28<1:29:43,  1.70it/s]Training 1/3 epoch (loss 1.1534):   6%|▌         | 598/9753 [06:28<1:28:30,  1.72it/s]Training 1/3 epoch (loss 1.1373):   6%|▌         | 598/9753 [06:29<1:28:30,  1.72it/s]Training 1/3 epoch (loss 1.1373):   6%|▌         | 599/9753 [06:29<1:31:15,  1.67it/s]Training 1/3 epoch (loss 0.9786):   6%|▌         | 599/9753 [06:29<1:31:15,  1.67it/s]Training 1/3 epoch (loss 0.9786):   6%|▌         | 600/9753 [06:29<1:29:19,  1.71it/s]Training 1/3 epoch (loss 1.0273):   6%|▌         | 600/9753 [06:30<1:29:19,  1.71it/s]Training 1/3 epoch (loss 1.0273):   6%|▌         | 601/9753 [06:30<1:31:18,  1.67it/s]Training 1/3 epoch (loss 1.1100):   6%|▌         | 601/9753 [06:31<1:31:18,  1.67it/s]Training 1/3 epoch (loss 1.1100):   6%|▌         | 602/9753 [06:31<1:30:15,  1.69it/s]Training 1/3 epoch (loss 1.0135):   6%|▌         | 602/9753 [06:31<1:30:15,  1.69it/s]Training 1/3 epoch (loss 1.0135):   6%|▌         | 603/9753 [06:31<1:28:37,  1.72it/s]Training 1/3 epoch (loss 1.1663):   6%|▌         | 603/9753 [06:32<1:28:37,  1.72it/s]Training 1/3 epoch (loss 1.1663):   6%|▌         | 604/9753 [06:32<1:29:42,  1.70it/s]Training 1/3 epoch (loss 1.1247):   6%|▌         | 604/9753 [06:32<1:29:42,  1.70it/s]Training 1/3 epoch (loss 1.1247):   6%|▌         | 605/9753 [06:32<1:31:03,  1.67it/s]Training 1/3 epoch (loss 1.2857):   6%|▌         | 605/9753 [06:33<1:31:03,  1.67it/s]Training 1/3 epoch (loss 1.2857):   6%|▌         | 606/9753 [06:33<1:29:02,  1.71it/s]Training 1/3 epoch (loss 1.2707):   6%|▌         | 606/9753 [06:33<1:29:02,  1.71it/s]Training 1/3 epoch (loss 1.2707):   6%|▌         | 607/9753 [06:33<1:30:33,  1.68it/s]Training 1/3 epoch (loss 1.2622):   6%|▌         | 607/9753 [06:34<1:30:33,  1.68it/s]Training 1/3 epoch (loss 1.2622):   6%|▌         | 608/9753 [06:34<1:46:06,  1.44it/s]Training 1/3 epoch (loss 1.2156):   6%|▌         | 608/9753 [06:35<1:46:06,  1.44it/s]Training 1/3 epoch (loss 1.2156):   6%|▌         | 609/9753 [06:35<1:42:29,  1.49it/s]Training 1/3 epoch (loss 1.2047):   6%|▌         | 609/9753 [06:36<1:42:29,  1.49it/s]Training 1/3 epoch (loss 1.2047):   6%|▋         | 610/9753 [06:36<1:41:25,  1.50it/s]Training 1/3 epoch (loss 1.0463):   6%|▋         | 610/9753 [06:36<1:41:25,  1.50it/s]Training 1/3 epoch (loss 1.0463):   6%|▋         | 611/9753 [06:36<1:42:10,  1.49it/s]Training 1/3 epoch (loss 1.2099):   6%|▋         | 611/9753 [06:37<1:42:10,  1.49it/s]Training 1/3 epoch (loss 1.2099):   6%|▋         | 612/9753 [06:37<1:42:19,  1.49it/s]Training 1/3 epoch (loss 1.1167):   6%|▋         | 612/9753 [06:38<1:42:19,  1.49it/s]Training 1/3 epoch (loss 1.1167):   6%|▋         | 613/9753 [06:38<1:42:32,  1.49it/s]Training 1/3 epoch (loss 0.9824):   6%|▋         | 613/9753 [06:38<1:42:32,  1.49it/s]Training 1/3 epoch (loss 0.9824):   6%|▋         | 614/9753 [06:38<1:37:30,  1.56it/s]Training 1/3 epoch (loss 1.1247):   6%|▋         | 614/9753 [06:39<1:37:30,  1.56it/s]Training 1/3 epoch (loss 1.1247):   6%|▋         | 615/9753 [06:39<1:35:42,  1.59it/s]Training 1/3 epoch (loss 0.9466):   6%|▋         | 615/9753 [06:39<1:35:42,  1.59it/s]Training 1/3 epoch (loss 0.9466):   6%|▋         | 616/9753 [06:39<1:32:53,  1.64it/s]Training 1/3 epoch (loss 0.8580):   6%|▋         | 616/9753 [06:40<1:32:53,  1.64it/s]Training 1/3 epoch (loss 0.8580):   6%|▋         | 617/9753 [06:40<1:32:19,  1.65it/s]Training 1/3 epoch (loss 1.1032):   6%|▋         | 617/9753 [06:41<1:32:19,  1.65it/s]Training 1/3 epoch (loss 1.1032):   6%|▋         | 618/9753 [06:41<1:30:34,  1.68it/s]Training 1/3 epoch (loss 1.2328):   6%|▋         | 618/9753 [06:41<1:30:34,  1.68it/s]Training 1/3 epoch (loss 1.2328):   6%|▋         | 619/9753 [06:41<1:29:08,  1.71it/s]Training 1/3 epoch (loss 0.8524):   6%|▋         | 619/9753 [06:42<1:29:08,  1.71it/s]Training 1/3 epoch (loss 0.8524):   6%|▋         | 620/9753 [06:42<1:32:55,  1.64it/s]Training 1/3 epoch (loss 1.1310):   6%|▋         | 620/9753 [06:42<1:32:55,  1.64it/s]Training 1/3 epoch (loss 1.1310):   6%|▋         | 621/9753 [06:42<1:33:00,  1.64it/s]Training 1/3 epoch (loss 1.0233):   6%|▋         | 621/9753 [06:43<1:33:00,  1.64it/s]Training 1/3 epoch (loss 1.0233):   6%|▋         | 622/9753 [06:43<1:34:49,  1.60it/s]Training 1/3 epoch (loss 1.1177):   6%|▋         | 622/9753 [06:44<1:34:49,  1.60it/s]Training 1/3 epoch (loss 1.1177):   6%|▋         | 623/9753 [06:44<1:33:18,  1.63it/s]Training 1/3 epoch (loss 0.9753):   6%|▋         | 623/9753 [06:44<1:33:18,  1.63it/s]Training 1/3 epoch (loss 0.9753):   6%|▋         | 624/9753 [06:44<1:37:26,  1.56it/s]Training 1/3 epoch (loss 1.1712):   6%|▋         | 624/9753 [06:45<1:37:26,  1.56it/s]Training 1/3 epoch (loss 1.1712):   6%|▋         | 625/9753 [06:45<1:41:58,  1.49it/s]Training 1/3 epoch (loss 1.2308):   6%|▋         | 625/9753 [06:46<1:41:58,  1.49it/s]Training 1/3 epoch (loss 1.2308):   6%|▋         | 626/9753 [06:46<1:46:52,  1.42it/s]Training 1/3 epoch (loss 1.0703):   6%|▋         | 626/9753 [06:47<1:46:52,  1.42it/s]Training 1/3 epoch (loss 1.0703):   6%|▋         | 627/9753 [06:47<1:42:03,  1.49it/s]Training 1/3 epoch (loss 0.9292):   6%|▋         | 627/9753 [06:47<1:42:03,  1.49it/s]Training 1/3 epoch (loss 0.9292):   6%|▋         | 628/9753 [06:47<1:39:55,  1.52it/s]Training 1/3 epoch (loss 1.1365):   6%|▋         | 628/9753 [06:48<1:39:55,  1.52it/s]Training 1/3 epoch (loss 1.1365):   6%|▋         | 629/9753 [06:48<1:37:26,  1.56it/s]Training 1/3 epoch (loss 1.1179):   6%|▋         | 629/9753 [06:48<1:37:26,  1.56it/s]Training 1/3 epoch (loss 1.1179):   6%|▋         | 630/9753 [06:48<1:35:07,  1.60it/s]Training 1/3 epoch (loss 1.1110):   6%|▋         | 630/9753 [06:49<1:35:07,  1.60it/s]Training 1/3 epoch (loss 1.1110):   6%|▋         | 631/9753 [06:49<1:32:27,  1.64it/s]Training 1/3 epoch (loss 0.9523):   6%|▋         | 631/9753 [06:50<1:32:27,  1.64it/s]Training 1/3 epoch (loss 0.9523):   6%|▋         | 632/9753 [06:50<1:36:21,  1.58it/s]Training 1/3 epoch (loss 0.9997):   6%|▋         | 632/9753 [06:50<1:36:21,  1.58it/s]Training 1/3 epoch (loss 0.9997):   6%|▋         | 633/9753 [06:50<1:33:09,  1.63it/s]Training 1/3 epoch (loss 1.1952):   6%|▋         | 633/9753 [06:51<1:33:09,  1.63it/s]Training 1/3 epoch (loss 1.1952):   7%|▋         | 634/9753 [06:51<1:33:33,  1.62it/s]Training 1/3 epoch (loss 1.2099):   7%|▋         | 634/9753 [06:51<1:33:33,  1.62it/s]Training 1/3 epoch (loss 1.2099):   7%|▋         | 635/9753 [06:51<1:31:09,  1.67it/s]Training 1/3 epoch (loss 0.9520):   7%|▋         | 635/9753 [06:52<1:31:09,  1.67it/s]Training 1/3 epoch (loss 0.9520):   7%|▋         | 636/9753 [06:52<1:29:02,  1.71it/s]Training 1/3 epoch (loss 0.8304):   7%|▋         | 636/9753 [06:52<1:29:02,  1.71it/s]Training 1/3 epoch (loss 0.8304):   7%|▋         | 637/9753 [06:52<1:27:22,  1.74it/s]Training 1/3 epoch (loss 1.0716):   7%|▋         | 637/9753 [06:53<1:27:22,  1.74it/s]Training 1/3 epoch (loss 1.0716):   7%|▋         | 638/9753 [06:53<1:29:50,  1.69it/s]Training 1/3 epoch (loss 1.1323):   7%|▋         | 638/9753 [06:54<1:29:50,  1.69it/s]Training 1/3 epoch (loss 1.1323):   7%|▋         | 639/9753 [06:54<1:32:02,  1.65it/s]Training 1/3 epoch (loss 1.1121):   7%|▋         | 639/9753 [06:55<1:32:02,  1.65it/s]Training 1/3 epoch (loss 1.1121):   7%|▋         | 640/9753 [06:55<1:43:25,  1.47it/s]Training 1/3 epoch (loss 1.2098):   7%|▋         | 640/9753 [06:55<1:43:25,  1.47it/s]Training 1/3 epoch (loss 1.2098):   7%|▋         | 641/9753 [06:55<1:40:09,  1.52it/s]Training 1/3 epoch (loss 1.0873):   7%|▋         | 641/9753 [06:56<1:40:09,  1.52it/s]Training 1/3 epoch (loss 1.0873):   7%|▋         | 642/9753 [06:56<1:34:55,  1.60it/s]Training 1/3 epoch (loss 0.9912):   7%|▋         | 642/9753 [06:56<1:34:55,  1.60it/s]Training 1/3 epoch (loss 0.9912):   7%|▋         | 643/9753 [06:56<1:31:24,  1.66it/s]Training 1/3 epoch (loss 0.8492):   7%|▋         | 643/9753 [06:57<1:31:24,  1.66it/s]Training 1/3 epoch (loss 0.8492):   7%|▋         | 644/9753 [06:57<1:33:49,  1.62it/s]Training 1/3 epoch (loss 1.0957):   7%|▋         | 644/9753 [06:58<1:33:49,  1.62it/s]Training 1/3 epoch (loss 1.0957):   7%|▋         | 645/9753 [06:58<1:43:42,  1.46it/s]Training 1/3 epoch (loss 1.2328):   7%|▋         | 645/9753 [06:59<1:43:42,  1.46it/s]Training 1/3 epoch (loss 1.2328):   7%|▋         | 646/9753 [06:59<1:47:21,  1.41it/s]Training 1/3 epoch (loss 1.1641):   7%|▋         | 646/9753 [06:59<1:47:21,  1.41it/s]Training 1/3 epoch (loss 1.1641):   7%|▋         | 647/9753 [06:59<1:52:35,  1.35it/s]Training 1/3 epoch (loss 1.1766):   7%|▋         | 647/9753 [07:00<1:52:35,  1.35it/s]Training 1/3 epoch (loss 1.1766):   7%|▋         | 648/9753 [07:00<1:49:09,  1.39it/s]Training 1/3 epoch (loss 1.0460):   7%|▋         | 648/9753 [07:01<1:49:09,  1.39it/s]Training 1/3 epoch (loss 1.0460):   7%|▋         | 649/9753 [07:01<1:45:06,  1.44it/s]Training 1/3 epoch (loss 0.9967):   7%|▋         | 649/9753 [07:01<1:45:06,  1.44it/s]Training 1/3 epoch (loss 0.9967):   7%|▋         | 650/9753 [07:01<1:44:34,  1.45it/s]Training 1/3 epoch (loss 1.2231):   7%|▋         | 650/9753 [07:02<1:44:34,  1.45it/s]Training 1/3 epoch (loss 1.2231):   7%|▋         | 651/9753 [07:02<1:44:23,  1.45it/s]Training 1/3 epoch (loss 1.0320):   7%|▋         | 651/9753 [07:03<1:44:23,  1.45it/s]Training 1/3 epoch (loss 1.0320):   7%|▋         | 652/9753 [07:03<1:41:46,  1.49it/s]Training 1/3 epoch (loss 1.0110):   7%|▋         | 652/9753 [07:03<1:41:46,  1.49it/s]Training 1/3 epoch (loss 1.0110):   7%|▋         | 653/9753 [07:03<1:39:05,  1.53it/s]Training 1/3 epoch (loss 1.0538):   7%|▋         | 653/9753 [07:04<1:39:05,  1.53it/s]Training 1/3 epoch (loss 1.0538):   7%|▋         | 654/9753 [07:04<1:37:01,  1.56it/s]Training 1/3 epoch (loss 1.0225):   7%|▋         | 654/9753 [07:04<1:37:01,  1.56it/s]Training 1/3 epoch (loss 1.0225):   7%|▋         | 655/9753 [07:04<1:35:33,  1.59it/s]Training 1/3 epoch (loss 0.8774):   7%|▋         | 655/9753 [07:05<1:35:33,  1.59it/s]Training 1/3 epoch (loss 0.8774):   7%|▋         | 656/9753 [07:05<1:47:53,  1.41it/s]Training 1/3 epoch (loss 1.1322):   7%|▋         | 656/9753 [07:06<1:47:53,  1.41it/s]Training 1/3 epoch (loss 1.1322):   7%|▋         | 657/9753 [07:06<1:44:31,  1.45it/s]Training 1/3 epoch (loss 0.9354):   7%|▋         | 657/9753 [07:07<1:44:31,  1.45it/s]Training 1/3 epoch (loss 0.9354):   7%|▋         | 658/9753 [07:07<1:40:39,  1.51it/s]Training 1/3 epoch (loss 0.8805):   7%|▋         | 658/9753 [07:07<1:40:39,  1.51it/s]Training 1/3 epoch (loss 0.8805):   7%|▋         | 659/9753 [07:07<1:38:14,  1.54it/s]Training 1/3 epoch (loss 1.1127):   7%|▋         | 659/9753 [07:08<1:38:14,  1.54it/s]Training 1/3 epoch (loss 1.1127):   7%|▋         | 660/9753 [07:08<1:37:16,  1.56it/s]Training 1/3 epoch (loss 1.3344):   7%|▋         | 660/9753 [07:08<1:37:16,  1.56it/s]Training 1/3 epoch (loss 1.3344):   7%|▋         | 661/9753 [07:08<1:37:43,  1.55it/s]Training 1/3 epoch (loss 1.0986):   7%|▋         | 661/9753 [07:09<1:37:43,  1.55it/s]Training 1/3 epoch (loss 1.0986):   7%|▋         | 662/9753 [07:09<1:37:57,  1.55it/s]Training 1/3 epoch (loss 1.0586):   7%|▋         | 662/9753 [07:10<1:37:57,  1.55it/s]Training 1/3 epoch (loss 1.0586):   7%|▋         | 663/9753 [07:10<1:38:44,  1.53it/s]Training 1/3 epoch (loss 1.2990):   7%|▋         | 663/9753 [07:11<1:38:44,  1.53it/s]Training 1/3 epoch (loss 1.2990):   7%|▋         | 664/9753 [07:11<1:44:20,  1.45it/s]Training 1/3 epoch (loss 1.1748):   7%|▋         | 664/9753 [07:11<1:44:20,  1.45it/s]Training 1/3 epoch (loss 1.1748):   7%|▋         | 665/9753 [07:11<1:42:14,  1.48it/s]Training 1/3 epoch (loss 0.9205):   7%|▋         | 665/9753 [07:12<1:42:14,  1.48it/s]Training 1/3 epoch (loss 0.9205):   7%|▋         | 666/9753 [07:12<1:38:02,  1.54it/s]Training 1/3 epoch (loss 0.9157):   7%|▋         | 666/9753 [07:12<1:38:02,  1.54it/s]Training 1/3 epoch (loss 0.9157):   7%|▋         | 667/9753 [07:12<1:36:38,  1.57it/s]Training 1/3 epoch (loss 1.2534):   7%|▋         | 667/9753 [07:13<1:36:38,  1.57it/s]Training 1/3 epoch (loss 1.2534):   7%|▋         | 668/9753 [07:13<1:39:29,  1.52it/s]Training 1/3 epoch (loss 1.3016):   7%|▋         | 668/9753 [07:14<1:39:29,  1.52it/s]Training 1/3 epoch (loss 1.3016):   7%|▋         | 669/9753 [07:14<1:36:42,  1.57it/s]Training 1/3 epoch (loss 1.0036):   7%|▋         | 669/9753 [07:14<1:36:42,  1.57it/s]Training 1/3 epoch (loss 1.0036):   7%|▋         | 670/9753 [07:14<1:34:18,  1.61it/s]Training 1/3 epoch (loss 1.2125):   7%|▋         | 670/9753 [07:15<1:34:18,  1.61it/s]Training 1/3 epoch (loss 1.2125):   7%|▋         | 671/9753 [07:15<1:35:28,  1.59it/s]Training 1/3 epoch (loss 1.1726):   7%|▋         | 671/9753 [07:16<1:35:28,  1.59it/s]Training 1/3 epoch (loss 1.1726):   7%|▋         | 672/9753 [07:16<1:37:59,  1.54it/s]Training 1/3 epoch (loss 1.2035):   7%|▋         | 672/9753 [07:16<1:37:59,  1.54it/s]Training 1/3 epoch (loss 1.2035):   7%|▋         | 673/9753 [07:16<1:38:50,  1.53it/s]Training 1/3 epoch (loss 1.1554):   7%|▋         | 673/9753 [07:17<1:38:50,  1.53it/s]Training 1/3 epoch (loss 1.1554):   7%|▋         | 674/9753 [07:17<1:33:56,  1.61it/s]Training 1/3 epoch (loss 1.0873):   7%|▋         | 674/9753 [07:17<1:33:56,  1.61it/s]Training 1/3 epoch (loss 1.0873):   7%|▋         | 675/9753 [07:17<1:34:31,  1.60it/s]Training 1/3 epoch (loss 1.1128):   7%|▋         | 675/9753 [07:18<1:34:31,  1.60it/s]Training 1/3 epoch (loss 1.1128):   7%|▋         | 676/9753 [07:18<1:34:12,  1.61it/s]Training 1/3 epoch (loss 1.0216):   7%|▋         | 676/9753 [07:19<1:34:12,  1.61it/s]Training 1/3 epoch (loss 1.0216):   7%|▋         | 677/9753 [07:19<1:39:15,  1.52it/s]Training 1/3 epoch (loss 1.1815):   7%|▋         | 677/9753 [07:19<1:39:15,  1.52it/s]Training 1/3 epoch (loss 1.1815):   7%|▋         | 678/9753 [07:19<1:37:40,  1.55it/s]Training 1/3 epoch (loss 1.0497):   7%|▋         | 678/9753 [07:20<1:37:40,  1.55it/s]Training 1/3 epoch (loss 1.0497):   7%|▋         | 679/9753 [07:20<1:36:17,  1.57it/s]Training 1/3 epoch (loss 1.0626):   7%|▋         | 679/9753 [07:21<1:36:17,  1.57it/s]Training 1/3 epoch (loss 1.0626):   7%|▋         | 680/9753 [07:21<1:35:58,  1.58it/s]Training 1/3 epoch (loss 1.3025):   7%|▋         | 680/9753 [07:21<1:35:58,  1.58it/s]Training 1/3 epoch (loss 1.3025):   7%|▋         | 681/9753 [07:21<1:42:01,  1.48it/s]Training 1/3 epoch (loss 0.8853):   7%|▋         | 681/9753 [07:22<1:42:01,  1.48it/s]Training 1/3 epoch (loss 0.8853):   7%|▋         | 682/9753 [07:22<1:49:53,  1.38it/s]Training 1/3 epoch (loss 1.2919):   7%|▋         | 682/9753 [07:23<1:49:53,  1.38it/s]Training 1/3 epoch (loss 1.2919):   7%|▋         | 683/9753 [07:23<1:45:41,  1.43it/s]Training 1/3 epoch (loss 1.1953):   7%|▋         | 683/9753 [07:24<1:45:41,  1.43it/s]Training 1/3 epoch (loss 1.1953):   7%|▋         | 684/9753 [07:24<1:42:53,  1.47it/s]Training 1/3 epoch (loss 0.9827):   7%|▋         | 684/9753 [07:24<1:42:53,  1.47it/s]Training 1/3 epoch (loss 0.9827):   7%|▋         | 685/9753 [07:24<1:40:33,  1.50it/s]Training 1/3 epoch (loss 0.9932):   7%|▋         | 685/9753 [07:25<1:40:33,  1.50it/s]Training 1/3 epoch (loss 0.9932):   7%|▋         | 686/9753 [07:25<1:38:00,  1.54it/s]Training 1/3 epoch (loss 1.1316):   7%|▋         | 686/9753 [07:25<1:38:00,  1.54it/s]Training 1/3 epoch (loss 1.1316):   7%|▋         | 687/9753 [07:25<1:36:12,  1.57it/s]Training 1/3 epoch (loss 1.1540):   7%|▋         | 687/9753 [07:26<1:36:12,  1.57it/s]Training 1/3 epoch (loss 1.1540):   7%|▋         | 688/9753 [07:26<1:44:48,  1.44it/s]Training 1/3 epoch (loss 1.0417):   7%|▋         | 688/9753 [07:27<1:44:48,  1.44it/s]Training 1/3 epoch (loss 1.0417):   7%|▋         | 689/9753 [07:27<1:39:20,  1.52it/s]Training 1/3 epoch (loss 1.0714):   7%|▋         | 689/9753 [07:27<1:39:20,  1.52it/s]Training 1/3 epoch (loss 1.0714):   7%|▋         | 690/9753 [07:27<1:35:43,  1.58it/s]Training 1/3 epoch (loss 1.1706):   7%|▋         | 690/9753 [07:28<1:35:43,  1.58it/s]Training 1/3 epoch (loss 1.1706):   7%|▋         | 691/9753 [07:28<1:32:34,  1.63it/s]Training 1/3 epoch (loss 1.1222):   7%|▋         | 691/9753 [07:29<1:32:34,  1.63it/s]Training 1/3 epoch (loss 1.1222):   7%|▋         | 692/9753 [07:29<1:33:42,  1.61it/s]Training 1/3 epoch (loss 1.0497):   7%|▋         | 692/9753 [07:29<1:33:42,  1.61it/s]Training 1/3 epoch (loss 1.0497):   7%|▋         | 693/9753 [07:29<1:39:30,  1.52it/s]Training 1/3 epoch (loss 1.2270):   7%|▋         | 693/9753 [07:30<1:39:30,  1.52it/s]Training 1/3 epoch (loss 1.2270):   7%|▋         | 694/9753 [07:30<1:38:38,  1.53it/s]Training 1/3 epoch (loss 1.0153):   7%|▋         | 694/9753 [07:31<1:38:38,  1.53it/s]Training 1/3 epoch (loss 1.0153):   7%|▋         | 695/9753 [07:31<1:34:42,  1.59it/s]Training 1/3 epoch (loss 1.0293):   7%|▋         | 695/9753 [07:31<1:34:42,  1.59it/s]Training 1/3 epoch (loss 1.0293):   7%|▋         | 696/9753 [07:31<1:32:43,  1.63it/s]Training 1/3 epoch (loss 1.0864):   7%|▋         | 696/9753 [07:32<1:32:43,  1.63it/s]Training 1/3 epoch (loss 1.0864):   7%|▋         | 697/9753 [07:32<1:30:16,  1.67it/s]Training 1/3 epoch (loss 1.0662):   7%|▋         | 697/9753 [07:32<1:30:16,  1.67it/s]Training 1/3 epoch (loss 1.0662):   7%|▋         | 698/9753 [07:32<1:30:02,  1.68it/s]Training 1/3 epoch (loss 0.8861):   7%|▋         | 698/9753 [07:33<1:30:02,  1.68it/s]Training 1/3 epoch (loss 0.8861):   7%|▋         | 699/9753 [07:33<1:27:45,  1.72it/s]Training 1/3 epoch (loss 1.1596):   7%|▋         | 699/9753 [07:34<1:27:45,  1.72it/s]Training 1/3 epoch (loss 1.1596):   7%|▋         | 700/9753 [07:34<1:30:11,  1.67it/s]Training 1/3 epoch (loss 1.1071):   7%|▋         | 700/9753 [07:34<1:30:11,  1.67it/s]Training 1/3 epoch (loss 1.1071):   7%|▋         | 701/9753 [07:34<1:29:09,  1.69it/s]Training 1/3 epoch (loss 1.0878):   7%|▋         | 701/9753 [07:35<1:29:09,  1.69it/s]Training 1/3 epoch (loss 1.0878):   7%|▋         | 702/9753 [07:35<1:27:42,  1.72it/s]Training 1/3 epoch (loss 1.2792):   7%|▋         | 702/9753 [07:35<1:27:42,  1.72it/s]Training 1/3 epoch (loss 1.2792):   7%|▋         | 703/9753 [07:35<1:26:53,  1.74it/s]Training 1/3 epoch (loss 1.2411):   7%|▋         | 703/9753 [07:36<1:26:53,  1.74it/s]Training 1/3 epoch (loss 1.2411):   7%|▋         | 704/9753 [07:36<1:44:53,  1.44it/s]Training 1/3 epoch (loss 0.8914):   7%|▋         | 704/9753 [07:37<1:44:53,  1.44it/s]Training 1/3 epoch (loss 0.8914):   7%|▋         | 705/9753 [07:37<1:51:12,  1.36it/s]Training 1/3 epoch (loss 0.9245):   7%|▋         | 705/9753 [07:38<1:51:12,  1.36it/s]Training 1/3 epoch (loss 0.9245):   7%|▋         | 706/9753 [07:38<1:43:20,  1.46it/s]Training 1/3 epoch (loss 1.2321):   7%|▋         | 706/9753 [07:38<1:43:20,  1.46it/s]Training 1/3 epoch (loss 1.2321):   7%|▋         | 707/9753 [07:38<1:41:59,  1.48it/s]Training 1/3 epoch (loss 1.0088):   7%|▋         | 707/9753 [07:39<1:41:59,  1.48it/s]Training 1/3 epoch (loss 1.0088):   7%|▋         | 708/9753 [07:39<1:52:14,  1.34it/s]Training 1/3 epoch (loss 1.1265):   7%|▋         | 708/9753 [07:40<1:52:14,  1.34it/s]Training 1/3 epoch (loss 1.1265):   7%|▋         | 709/9753 [07:40<1:46:27,  1.42it/s]Training 1/3 epoch (loss 1.1538):   7%|▋         | 709/9753 [07:40<1:46:27,  1.42it/s]Training 1/3 epoch (loss 1.1538):   7%|▋         | 710/9753 [07:40<1:42:18,  1.47it/s]Training 1/3 epoch (loss 1.1545):   7%|▋         | 710/9753 [07:41<1:42:18,  1.47it/s]Training 1/3 epoch (loss 1.1545):   7%|▋         | 711/9753 [07:41<1:38:26,  1.53it/s]Training 1/3 epoch (loss 1.1833):   7%|▋         | 711/9753 [07:42<1:38:26,  1.53it/s]Training 1/3 epoch (loss 1.1833):   7%|▋         | 712/9753 [07:42<1:46:02,  1.42it/s]Training 1/3 epoch (loss 1.1427):   7%|▋         | 712/9753 [07:42<1:46:02,  1.42it/s]Training 1/3 epoch (loss 1.1427):   7%|▋         | 713/9753 [07:42<1:40:03,  1.51it/s]Training 1/3 epoch (loss 1.0650):   7%|▋         | 713/9753 [07:43<1:40:03,  1.51it/s]Training 1/3 epoch (loss 1.0650):   7%|▋         | 714/9753 [07:43<1:34:38,  1.59it/s]Training 1/3 epoch (loss 1.0433):   7%|▋         | 714/9753 [07:44<1:34:38,  1.59it/s]Training 1/3 epoch (loss 1.0433):   7%|▋         | 715/9753 [07:44<1:33:56,  1.60it/s]Training 1/3 epoch (loss 1.1497):   7%|▋         | 715/9753 [07:44<1:33:56,  1.60it/s]Training 1/3 epoch (loss 1.1497):   7%|▋         | 716/9753 [07:44<1:33:17,  1.61it/s]Training 1/3 epoch (loss 1.1103):   7%|▋         | 716/9753 [07:45<1:33:17,  1.61it/s]Training 1/3 epoch (loss 1.1103):   7%|▋         | 717/9753 [07:45<1:30:16,  1.67it/s]Training 1/3 epoch (loss 0.9166):   7%|▋         | 717/9753 [07:45<1:30:16,  1.67it/s]Training 1/3 epoch (loss 0.9166):   7%|▋         | 718/9753 [07:45<1:30:49,  1.66it/s]Training 1/3 epoch (loss 1.1047):   7%|▋         | 718/9753 [07:46<1:30:49,  1.66it/s]Training 1/3 epoch (loss 1.1047):   7%|▋         | 719/9753 [07:46<1:30:03,  1.67it/s]Training 1/3 epoch (loss 1.0497):   7%|▋         | 719/9753 [07:47<1:30:03,  1.67it/s]Training 1/3 epoch (loss 1.0497):   7%|▋         | 720/9753 [07:47<1:33:32,  1.61it/s]Training 1/3 epoch (loss 1.0085):   7%|▋         | 720/9753 [07:47<1:33:32,  1.61it/s]Training 1/3 epoch (loss 1.0085):   7%|▋         | 721/9753 [07:47<1:34:32,  1.59it/s]Training 1/3 epoch (loss 1.0359):   7%|▋         | 721/9753 [07:48<1:34:32,  1.59it/s]Training 1/3 epoch (loss 1.0359):   7%|▋         | 722/9753 [07:48<1:32:17,  1.63it/s]Training 1/3 epoch (loss 1.0108):   7%|▋         | 722/9753 [07:48<1:32:17,  1.63it/s]Training 1/3 epoch (loss 1.0108):   7%|▋         | 723/9753 [07:48<1:29:31,  1.68it/s]Training 1/3 epoch (loss 1.0894):   7%|▋         | 723/9753 [07:49<1:29:31,  1.68it/s]Training 1/3 epoch (loss 1.0894):   7%|▋         | 724/9753 [07:49<1:27:12,  1.73it/s]Training 1/3 epoch (loss 1.1039):   7%|▋         | 724/9753 [07:50<1:27:12,  1.73it/s]Training 1/3 epoch (loss 1.1039):   7%|▋         | 725/9753 [07:50<1:31:57,  1.64it/s]Training 1/3 epoch (loss 1.3079):   7%|▋         | 725/9753 [07:50<1:31:57,  1.64it/s]Training 1/3 epoch (loss 1.3079):   7%|▋         | 726/9753 [07:50<1:29:31,  1.68it/s]Training 1/3 epoch (loss 1.1294):   7%|▋         | 726/9753 [07:51<1:29:31,  1.68it/s]Training 1/3 epoch (loss 1.1294):   7%|▋         | 727/9753 [07:51<1:28:46,  1.69it/s]Training 1/3 epoch (loss 1.0461):   7%|▋         | 727/9753 [07:51<1:28:46,  1.69it/s]Training 1/3 epoch (loss 1.0461):   7%|▋         | 728/9753 [07:51<1:26:58,  1.73it/s]Training 1/3 epoch (loss 1.0505):   7%|▋         | 728/9753 [07:52<1:26:58,  1.73it/s]Training 1/3 epoch (loss 1.0505):   7%|▋         | 729/9753 [07:52<1:29:19,  1.68it/s]Training 1/3 epoch (loss 1.0921):   7%|▋         | 729/9753 [07:52<1:29:19,  1.68it/s]Training 1/3 epoch (loss 1.0921):   7%|▋         | 730/9753 [07:52<1:27:09,  1.73it/s]Training 1/3 epoch (loss 1.2306):   7%|▋         | 730/9753 [07:53<1:27:09,  1.73it/s]Training 1/3 epoch (loss 1.2306):   7%|▋         | 731/9753 [07:53<1:26:58,  1.73it/s]Training 1/3 epoch (loss 1.1895):   7%|▋         | 731/9753 [07:54<1:26:58,  1.73it/s]Training 1/3 epoch (loss 1.1895):   8%|▊         | 732/9753 [07:54<1:25:24,  1.76it/s]Training 1/3 epoch (loss 1.2393):   8%|▊         | 732/9753 [07:54<1:25:24,  1.76it/s]Training 1/3 epoch (loss 1.2393):   8%|▊         | 733/9753 [07:54<1:30:03,  1.67it/s]Training 1/3 epoch (loss 1.2037):   8%|▊         | 733/9753 [07:55<1:30:03,  1.67it/s]Training 1/3 epoch (loss 1.2037):   8%|▊         | 734/9753 [07:55<1:30:00,  1.67it/s]Training 1/3 epoch (loss 1.0597):   8%|▊         | 734/9753 [07:56<1:30:00,  1.67it/s]Training 1/3 epoch (loss 1.0597):   8%|▊         | 735/9753 [07:56<1:38:26,  1.53it/s]Training 1/3 epoch (loss 1.4833):   8%|▊         | 735/9753 [07:57<1:38:26,  1.53it/s]Training 1/3 epoch (loss 1.4833):   8%|▊         | 736/9753 [07:57<1:54:18,  1.31it/s]Training 1/3 epoch (loss 1.2264):   8%|▊         | 736/9753 [07:57<1:54:18,  1.31it/s]Training 1/3 epoch (loss 1.2264):   8%|▊         | 737/9753 [07:57<1:45:48,  1.42it/s]Training 1/3 epoch (loss 0.9655):   8%|▊         | 737/9753 [07:58<1:45:48,  1.42it/s]Training 1/3 epoch (loss 0.9655):   8%|▊         | 738/9753 [07:58<1:39:34,  1.51it/s]Training 1/3 epoch (loss 1.1018):   8%|▊         | 738/9753 [07:58<1:39:34,  1.51it/s]Training 1/3 epoch (loss 1.1018):   8%|▊         | 739/9753 [07:58<1:37:11,  1.55it/s]Training 1/3 epoch (loss 1.1964):   8%|▊         | 739/9753 [07:59<1:37:11,  1.55it/s]Training 1/3 epoch (loss 1.1964):   8%|▊         | 740/9753 [07:59<1:39:04,  1.52it/s]Training 1/3 epoch (loss 1.0266):   8%|▊         | 740/9753 [08:00<1:39:04,  1.52it/s]Training 1/3 epoch (loss 1.0266):   8%|▊         | 741/9753 [08:00<1:34:32,  1.59it/s]Training 1/3 epoch (loss 0.9075):   8%|▊         | 741/9753 [08:00<1:34:32,  1.59it/s]Training 1/3 epoch (loss 0.9075):   8%|▊         | 742/9753 [08:00<1:39:58,  1.50it/s]Training 1/3 epoch (loss 1.0782):   8%|▊         | 742/9753 [08:01<1:39:58,  1.50it/s]Training 1/3 epoch (loss 1.0782):   8%|▊         | 743/9753 [08:01<1:35:05,  1.58it/s]Training 1/3 epoch (loss 1.1418):   8%|▊         | 743/9753 [08:01<1:35:05,  1.58it/s]Training 1/3 epoch (loss 1.1418):   8%|▊         | 744/9753 [08:01<1:31:50,  1.63it/s]Training 1/3 epoch (loss 1.0243):   8%|▊         | 744/9753 [08:02<1:31:50,  1.63it/s]Training 1/3 epoch (loss 1.0243):   8%|▊         | 745/9753 [08:02<1:29:06,  1.68it/s]Training 1/3 epoch (loss 1.1690):   8%|▊         | 745/9753 [08:03<1:29:06,  1.68it/s]Training 1/3 epoch (loss 1.1690):   8%|▊         | 746/9753 [08:03<1:27:30,  1.72it/s]Training 1/3 epoch (loss 1.0276):   8%|▊         | 746/9753 [08:03<1:27:30,  1.72it/s]Training 1/3 epoch (loss 1.0276):   8%|▊         | 747/9753 [08:03<1:29:06,  1.68it/s]Training 1/3 epoch (loss 1.3098):   8%|▊         | 747/9753 [08:04<1:29:06,  1.68it/s]Training 1/3 epoch (loss 1.3098):   8%|▊         | 748/9753 [08:04<1:36:45,  1.55it/s]Training 1/3 epoch (loss 0.9892):   8%|▊         | 748/9753 [08:05<1:36:45,  1.55it/s]Training 1/3 epoch (loss 0.9892):   8%|▊         | 749/9753 [08:05<1:33:27,  1.61it/s]Training 1/3 epoch (loss 1.1165):   8%|▊         | 749/9753 [08:05<1:33:27,  1.61it/s]Training 1/3 epoch (loss 1.1165):   8%|▊         | 750/9753 [08:05<1:31:29,  1.64it/s]Training 1/3 epoch (loss 1.2654):   8%|▊         | 750/9753 [08:06<1:31:29,  1.64it/s]Training 1/3 epoch (loss 1.2654):   8%|▊         | 751/9753 [08:06<1:29:57,  1.67it/s]Training 1/3 epoch (loss 1.0833):   8%|▊         | 751/9753 [08:06<1:29:57,  1.67it/s]Training 1/3 epoch (loss 1.0833):   8%|▊         | 752/9753 [08:06<1:36:39,  1.55it/s]Training 1/3 epoch (loss 1.1956):   8%|▊         | 752/9753 [08:07<1:36:39,  1.55it/s]Training 1/3 epoch (loss 1.1956):   8%|▊         | 753/9753 [08:07<1:42:17,  1.47it/s]Training 1/3 epoch (loss 1.0383):   8%|▊         | 753/9753 [08:08<1:42:17,  1.47it/s]Training 1/3 epoch (loss 1.0383):   8%|▊         | 754/9753 [08:08<1:37:46,  1.53it/s]Training 1/3 epoch (loss 1.0450):   8%|▊         | 754/9753 [08:08<1:37:46,  1.53it/s]Training 1/3 epoch (loss 1.0450):   8%|▊         | 755/9753 [08:08<1:34:00,  1.60it/s]Training 1/3 epoch (loss 0.7841):   8%|▊         | 755/9753 [08:09<1:34:00,  1.60it/s]Training 1/3 epoch (loss 0.7841):   8%|▊         | 756/9753 [08:09<1:30:42,  1.65it/s]Training 1/3 epoch (loss 1.1688):   8%|▊         | 756/9753 [08:10<1:30:42,  1.65it/s]Training 1/3 epoch (loss 1.1688):   8%|▊         | 757/9753 [08:10<1:31:55,  1.63it/s]Training 1/3 epoch (loss 1.0402):   8%|▊         | 757/9753 [08:10<1:31:55,  1.63it/s]Training 1/3 epoch (loss 1.0402):   8%|▊         | 758/9753 [08:10<1:44:01,  1.44it/s]Training 1/3 epoch (loss 1.0067):   8%|▊         | 758/9753 [08:11<1:44:01,  1.44it/s]Training 1/3 epoch (loss 1.0067):   8%|▊         | 759/9753 [08:11<1:42:39,  1.46it/s]Training 1/3 epoch (loss 1.1039):   8%|▊         | 759/9753 [08:12<1:42:39,  1.46it/s]Training 1/3 epoch (loss 1.1039):   8%|▊         | 760/9753 [08:12<1:37:41,  1.53it/s]Training 1/3 epoch (loss 1.0178):   8%|▊         | 760/9753 [08:12<1:37:41,  1.53it/s]Training 1/3 epoch (loss 1.0178):   8%|▊         | 761/9753 [08:12<1:33:03,  1.61it/s]Training 1/3 epoch (loss 1.2630):   8%|▊         | 761/9753 [08:13<1:33:03,  1.61it/s]Training 1/3 epoch (loss 1.2630):   8%|▊         | 762/9753 [08:13<1:29:42,  1.67it/s]Training 1/3 epoch (loss 1.2217):   8%|▊         | 762/9753 [08:13<1:29:42,  1.67it/s]Training 1/3 epoch (loss 1.2217):   8%|▊         | 763/9753 [08:13<1:27:16,  1.72it/s]Training 1/3 epoch (loss 1.1242):   8%|▊         | 763/9753 [08:14<1:27:16,  1.72it/s]Training 1/3 epoch (loss 1.1242):   8%|▊         | 764/9753 [08:14<1:26:05,  1.74it/s]Training 1/3 epoch (loss 1.1118):   8%|▊         | 764/9753 [08:14<1:26:05,  1.74it/s]Training 1/3 epoch (loss 1.1118):   8%|▊         | 765/9753 [08:14<1:28:43,  1.69it/s]Training 1/3 epoch (loss 1.1235):   8%|▊         | 765/9753 [08:15<1:28:43,  1.69it/s]Training 1/3 epoch (loss 1.1235):   8%|▊         | 766/9753 [08:15<1:27:06,  1.72it/s]Training 1/3 epoch (loss 1.0870):   8%|▊         | 766/9753 [08:16<1:27:06,  1.72it/s]Training 1/3 epoch (loss 1.0870):   8%|▊         | 767/9753 [08:16<1:25:36,  1.75it/s]Training 1/3 epoch (loss 1.3311):   8%|▊         | 767/9753 [08:16<1:25:36,  1.75it/s]Training 1/3 epoch (loss 1.3311):   8%|▊         | 768/9753 [08:16<1:30:15,  1.66it/s]Training 1/3 epoch (loss 1.1515):   8%|▊         | 768/9753 [08:17<1:30:15,  1.66it/s]Training 1/3 epoch (loss 1.1515):   8%|▊         | 769/9753 [08:17<1:28:05,  1.70it/s]Training 1/3 epoch (loss 1.1622):   8%|▊         | 769/9753 [08:17<1:28:05,  1.70it/s]Training 1/3 epoch (loss 1.1622):   8%|▊         | 770/9753 [08:17<1:26:28,  1.73it/s]Training 1/3 epoch (loss 0.7948):   8%|▊         | 770/9753 [08:18<1:26:28,  1.73it/s]Training 1/3 epoch (loss 0.7948):   8%|▊         | 771/9753 [08:18<1:25:39,  1.75it/s]Training 1/3 epoch (loss 1.4030):   8%|▊         | 771/9753 [08:19<1:25:39,  1.75it/s]Training 1/3 epoch (loss 1.4030):   8%|▊         | 772/9753 [08:19<1:28:54,  1.68it/s]Training 1/3 epoch (loss 1.2394):   8%|▊         | 772/9753 [08:19<1:28:54,  1.68it/s]Training 1/3 epoch (loss 1.2394):   8%|▊         | 773/9753 [08:19<1:32:04,  1.63it/s]Training 1/3 epoch (loss 1.1225):   8%|▊         | 773/9753 [08:20<1:32:04,  1.63it/s]Training 1/3 epoch (loss 1.1225):   8%|▊         | 774/9753 [08:20<1:35:20,  1.57it/s]Training 1/3 epoch (loss 1.0517):   8%|▊         | 774/9753 [08:20<1:35:20,  1.57it/s]Training 1/3 epoch (loss 1.0517):   8%|▊         | 775/9753 [08:20<1:31:32,  1.63it/s]Training 1/3 epoch (loss 1.2430):   8%|▊         | 775/9753 [08:21<1:31:32,  1.63it/s]Training 1/3 epoch (loss 1.2430):   8%|▊         | 776/9753 [08:21<1:38:57,  1.51it/s]Training 1/3 epoch (loss 1.0082):   8%|▊         | 776/9753 [08:22<1:38:57,  1.51it/s]Training 1/3 epoch (loss 1.0082):   8%|▊         | 777/9753 [08:22<1:33:52,  1.59it/s]Training 1/3 epoch (loss 0.8470):   8%|▊         | 777/9753 [08:22<1:33:52,  1.59it/s]Training 1/3 epoch (loss 0.8470):   8%|▊         | 778/9753 [08:22<1:31:02,  1.64it/s]Training 1/3 epoch (loss 1.0859):   8%|▊         | 778/9753 [08:23<1:31:02,  1.64it/s]Training 1/3 epoch (loss 1.0859):   8%|▊         | 779/9753 [08:23<1:28:09,  1.70it/s]Training 1/3 epoch (loss 0.9916):   8%|▊         | 779/9753 [08:24<1:28:09,  1.70it/s]Training 1/3 epoch (loss 0.9916):   8%|▊         | 780/9753 [08:24<1:42:21,  1.46it/s]Training 1/3 epoch (loss 0.8575):   8%|▊         | 780/9753 [08:25<1:42:21,  1.46it/s]Training 1/3 epoch (loss 0.8575):   8%|▊         | 781/9753 [08:25<1:52:30,  1.33it/s]Training 1/3 epoch (loss 1.1123):   8%|▊         | 781/9753 [08:25<1:52:30,  1.33it/s]Training 1/3 epoch (loss 1.1123):   8%|▊         | 782/9753 [08:25<1:43:43,  1.44it/s]Training 1/3 epoch (loss 1.2877):   8%|▊         | 782/9753 [08:26<1:43:43,  1.44it/s]Training 1/3 epoch (loss 1.2877):   8%|▊         | 783/9753 [08:26<1:38:30,  1.52it/s]Training 1/3 epoch (loss 1.2720):   8%|▊         | 783/9753 [08:27<1:38:30,  1.52it/s]Training 1/3 epoch (loss 1.2720):   8%|▊         | 784/9753 [08:27<1:40:29,  1.49it/s]Training 1/3 epoch (loss 1.0003):   8%|▊         | 784/9753 [08:27<1:40:29,  1.49it/s]Training 1/3 epoch (loss 1.0003):   8%|▊         | 785/9753 [08:27<1:35:10,  1.57it/s]Training 1/3 epoch (loss 1.0960):   8%|▊         | 785/9753 [08:28<1:35:10,  1.57it/s]Training 1/3 epoch (loss 1.0960):   8%|▊         | 786/9753 [08:28<1:31:15,  1.64it/s]Training 1/3 epoch (loss 1.2706):   8%|▊         | 786/9753 [08:28<1:31:15,  1.64it/s]Training 1/3 epoch (loss 1.2706):   8%|▊         | 787/9753 [08:28<1:28:44,  1.68it/s]Training 1/3 epoch (loss 0.9868):   8%|▊         | 787/9753 [08:29<1:28:44,  1.68it/s]Training 1/3 epoch (loss 0.9868):   8%|▊         | 788/9753 [08:29<1:29:20,  1.67it/s]Training 1/3 epoch (loss 1.0515):   8%|▊         | 788/9753 [08:29<1:29:20,  1.67it/s]Training 1/3 epoch (loss 1.0515):   8%|▊         | 789/9753 [08:29<1:27:44,  1.70it/s]Training 1/3 epoch (loss 1.0455):   8%|▊         | 789/9753 [08:30<1:27:44,  1.70it/s]Training 1/3 epoch (loss 1.0455):   8%|▊         | 790/9753 [08:30<1:26:29,  1.73it/s]Training 1/3 epoch (loss 1.1037):   8%|▊         | 790/9753 [08:31<1:26:29,  1.73it/s]Training 1/3 epoch (loss 1.1037):   8%|▊         | 791/9753 [08:31<1:28:42,  1.68it/s]Training 1/3 epoch (loss 1.0551):   8%|▊         | 791/9753 [08:31<1:28:42,  1.68it/s]Training 1/3 epoch (loss 1.0551):   8%|▊         | 792/9753 [08:31<1:39:32,  1.50it/s]Training 1/3 epoch (loss 1.0792):   8%|▊         | 792/9753 [08:32<1:39:32,  1.50it/s]Training 1/3 epoch (loss 1.0792):   8%|▊         | 793/9753 [08:32<1:43:26,  1.44it/s]Training 1/3 epoch (loss 1.1346):   8%|▊         | 793/9753 [08:33<1:43:26,  1.44it/s]Training 1/3 epoch (loss 1.1346):   8%|▊         | 794/9753 [08:33<1:37:31,  1.53it/s]Training 1/3 epoch (loss 0.9412):   8%|▊         | 794/9753 [08:33<1:37:31,  1.53it/s]Training 1/3 epoch (loss 0.9412):   8%|▊         | 795/9753 [08:33<1:36:31,  1.55it/s]Training 1/3 epoch (loss 1.0175):   8%|▊         | 795/9753 [08:34<1:36:31,  1.55it/s]Training 1/3 epoch (loss 1.0175):   8%|▊         | 796/9753 [08:34<1:34:52,  1.57it/s]Training 1/3 epoch (loss 1.1002):   8%|▊         | 796/9753 [08:35<1:34:52,  1.57it/s]Training 1/3 epoch (loss 1.1002):   8%|▊         | 797/9753 [08:35<1:34:00,  1.59it/s]Training 1/3 epoch (loss 1.0357):   8%|▊         | 797/9753 [08:36<1:34:00,  1.59it/s]Training 1/3 epoch (loss 1.0357):   8%|▊         | 798/9753 [08:36<1:48:47,  1.37it/s]Training 1/3 epoch (loss 1.1662):   8%|▊         | 798/9753 [08:36<1:48:47,  1.37it/s]Training 1/3 epoch (loss 1.1662):   8%|▊         | 799/9753 [08:36<1:44:09,  1.43it/s]Training 1/3 epoch (loss 1.1521):   8%|▊         | 799/9753 [08:37<1:44:09,  1.43it/s]Training 1/3 epoch (loss 1.1521):   8%|▊         | 800/9753 [08:37<1:46:23,  1.40it/s]Training 1/3 epoch (loss 0.9355):   8%|▊         | 800/9753 [08:38<1:46:23,  1.40it/s]Training 1/3 epoch (loss 0.9355):   8%|▊         | 801/9753 [08:38<1:42:52,  1.45it/s]Training 1/3 epoch (loss 1.0844):   8%|▊         | 801/9753 [08:38<1:42:52,  1.45it/s]Training 1/3 epoch (loss 1.0844):   8%|▊         | 802/9753 [08:38<1:40:03,  1.49it/s]Training 1/3 epoch (loss 1.2486):   8%|▊         | 802/9753 [08:39<1:40:03,  1.49it/s]Training 1/3 epoch (loss 1.2486):   8%|▊         | 803/9753 [08:39<1:40:35,  1.48it/s]Training 1/3 epoch (loss 1.2648):   8%|▊         | 803/9753 [08:40<1:40:35,  1.48it/s]Training 1/3 epoch (loss 1.2648):   8%|▊         | 804/9753 [08:40<1:39:35,  1.50it/s]Training 1/3 epoch (loss 1.2758):   8%|▊         | 804/9753 [08:40<1:39:35,  1.50it/s]Training 1/3 epoch (loss 1.2758):   8%|▊         | 805/9753 [08:40<1:37:56,  1.52it/s]Training 1/3 epoch (loss 0.9978):   8%|▊         | 805/9753 [08:41<1:37:56,  1.52it/s]Training 1/3 epoch (loss 0.9978):   8%|▊         | 806/9753 [08:41<1:36:09,  1.55it/s]Training 1/3 epoch (loss 1.0974):   8%|▊         | 806/9753 [08:41<1:36:09,  1.55it/s]Training 1/3 epoch (loss 1.0974):   8%|▊         | 807/9753 [08:41<1:34:53,  1.57it/s]Training 1/3 epoch (loss 1.2108):   8%|▊         | 807/9753 [08:42<1:34:53,  1.57it/s]Training 1/3 epoch (loss 1.2108):   8%|▊         | 808/9753 [08:42<1:31:23,  1.63it/s]Training 1/3 epoch (loss 1.2166):   8%|▊         | 808/9753 [08:42<1:31:23,  1.63it/s]Training 1/3 epoch (loss 1.2166):   8%|▊         | 809/9753 [08:42<1:28:22,  1.69it/s]Training 1/3 epoch (loss 1.1225):   8%|▊         | 809/9753 [08:43<1:28:22,  1.69it/s]Training 1/3 epoch (loss 1.1225):   8%|▊         | 810/9753 [08:43<1:26:16,  1.73it/s]Training 1/3 epoch (loss 1.0709):   8%|▊         | 810/9753 [08:44<1:26:16,  1.73it/s]Training 1/3 epoch (loss 1.0709):   8%|▊         | 811/9753 [08:44<1:31:34,  1.63it/s]Training 1/3 epoch (loss 0.9607):   8%|▊         | 811/9753 [08:44<1:31:34,  1.63it/s]Training 1/3 epoch (loss 0.9607):   8%|▊         | 812/9753 [08:44<1:31:19,  1.63it/s]Training 1/3 epoch (loss 1.1148):   8%|▊         | 812/9753 [08:45<1:31:19,  1.63it/s]Training 1/3 epoch (loss 1.1148):   8%|▊         | 813/9753 [08:45<1:28:47,  1.68it/s]Training 1/3 epoch (loss 0.8133):   8%|▊         | 813/9753 [08:46<1:28:47,  1.68it/s]Training 1/3 epoch (loss 0.8133):   8%|▊         | 814/9753 [08:46<1:29:28,  1.67it/s]Training 1/3 epoch (loss 1.2085):   8%|▊         | 814/9753 [08:46<1:29:28,  1.67it/s]Training 1/3 epoch (loss 1.2085):   8%|▊         | 815/9753 [08:46<1:31:38,  1.63it/s]Training 1/3 epoch (loss 1.1579):   8%|▊         | 815/9753 [08:47<1:31:38,  1.63it/s]Training 1/3 epoch (loss 1.1579):   8%|▊         | 816/9753 [08:47<1:34:43,  1.57it/s]Training 1/3 epoch (loss 1.0575):   8%|▊         | 816/9753 [08:47<1:34:43,  1.57it/s]Training 1/3 epoch (loss 1.0575):   8%|▊         | 817/9753 [08:47<1:32:17,  1.61it/s]Training 1/3 epoch (loss 1.1546):   8%|▊         | 817/9753 [08:48<1:32:17,  1.61it/s]Training 1/3 epoch (loss 1.1546):   8%|▊         | 818/9753 [08:48<1:31:29,  1.63it/s]Training 1/3 epoch (loss 1.0796):   8%|▊         | 818/9753 [08:49<1:31:29,  1.63it/s]Training 1/3 epoch (loss 1.0796):   8%|▊         | 819/9753 [08:49<1:30:03,  1.65it/s]Training 1/3 epoch (loss 1.0684):   8%|▊         | 819/9753 [08:49<1:30:03,  1.65it/s]Training 1/3 epoch (loss 1.0684):   8%|▊         | 820/9753 [08:49<1:32:57,  1.60it/s]Training 1/3 epoch (loss 0.8958):   8%|▊         | 820/9753 [08:50<1:32:57,  1.60it/s]Training 1/3 epoch (loss 0.8958):   8%|▊         | 821/9753 [08:50<1:29:22,  1.67it/s]Training 1/3 epoch (loss 0.8953):   8%|▊         | 821/9753 [08:50<1:29:22,  1.67it/s]Training 1/3 epoch (loss 0.8953):   8%|▊         | 822/9753 [08:50<1:27:38,  1.70it/s]Training 1/3 epoch (loss 1.2204):   8%|▊         | 822/9753 [08:51<1:27:38,  1.70it/s]Training 1/3 epoch (loss 1.2204):   8%|▊         | 823/9753 [08:51<1:25:57,  1.73it/s]Training 1/3 epoch (loss 1.0808):   8%|▊         | 823/9753 [08:52<1:25:57,  1.73it/s]Training 1/3 epoch (loss 1.0808):   8%|▊         | 824/9753 [08:52<1:29:54,  1.66it/s]Training 1/3 epoch (loss 1.1389):   8%|▊         | 824/9753 [08:52<1:29:54,  1.66it/s]Training 1/3 epoch (loss 1.1389):   8%|▊         | 825/9753 [08:52<1:30:32,  1.64it/s]Training 1/3 epoch (loss 1.0983):   8%|▊         | 825/9753 [08:53<1:30:32,  1.64it/s]Training 1/3 epoch (loss 1.0983):   8%|▊         | 826/9753 [08:53<1:36:38,  1.54it/s]Training 1/3 epoch (loss 0.9503):   8%|▊         | 826/9753 [08:54<1:36:38,  1.54it/s]Training 1/3 epoch (loss 0.9503):   8%|▊         | 827/9753 [08:54<1:35:49,  1.55it/s]Training 1/3 epoch (loss 1.1003):   8%|▊         | 827/9753 [08:54<1:35:49,  1.55it/s]Training 1/3 epoch (loss 1.1003):   8%|▊         | 828/9753 [08:54<1:37:01,  1.53it/s]Training 1/3 epoch (loss 1.0945):   8%|▊         | 828/9753 [08:55<1:37:01,  1.53it/s]Training 1/3 epoch (loss 1.0945):   8%|▊         | 829/9753 [08:55<1:36:33,  1.54it/s]Training 1/3 epoch (loss 0.9501):   8%|▊         | 829/9753 [08:55<1:36:33,  1.54it/s]Training 1/3 epoch (loss 0.9501):   9%|▊         | 830/9753 [08:55<1:32:26,  1.61it/s]Training 1/3 epoch (loss 1.0073):   9%|▊         | 830/9753 [08:56<1:32:26,  1.61it/s]Training 1/3 epoch (loss 1.0073):   9%|▊         | 831/9753 [08:56<1:39:03,  1.50it/s]Training 1/3 epoch (loss 1.2096):   9%|▊         | 831/9753 [08:57<1:39:03,  1.50it/s]Training 1/3 epoch (loss 1.2096):   9%|▊         | 832/9753 [08:57<1:40:12,  1.48it/s]Training 1/3 epoch (loss 0.8475):   9%|▊         | 832/9753 [08:58<1:40:12,  1.48it/s]Training 1/3 epoch (loss 0.8475):   9%|▊         | 833/9753 [08:58<1:38:01,  1.52it/s]Training 1/3 epoch (loss 1.0741):   9%|▊         | 833/9753 [08:58<1:38:01,  1.52it/s]Training 1/3 epoch (loss 1.0741):   9%|▊         | 834/9753 [08:58<1:33:32,  1.59it/s]Training 1/3 epoch (loss 0.9546):   9%|▊         | 834/9753 [08:59<1:33:32,  1.59it/s]Training 1/3 epoch (loss 0.9546):   9%|▊         | 835/9753 [08:59<1:29:55,  1.65it/s]Training 1/3 epoch (loss 1.1699):   9%|▊         | 835/9753 [08:59<1:29:55,  1.65it/s]Training 1/3 epoch (loss 1.1699):   9%|▊         | 836/9753 [08:59<1:27:33,  1.70it/s]Training 1/3 epoch (loss 1.1437):   9%|▊         | 836/9753 [09:00<1:27:33,  1.70it/s]Training 1/3 epoch (loss 1.1437):   9%|▊         | 837/9753 [09:00<1:25:50,  1.73it/s]Training 1/3 epoch (loss 1.0027):   9%|▊         | 837/9753 [09:00<1:25:50,  1.73it/s]Training 1/3 epoch (loss 1.0027):   9%|▊         | 838/9753 [09:00<1:24:38,  1.76it/s]Training 1/3 epoch (loss 1.2123):   9%|▊         | 838/9753 [09:01<1:24:38,  1.76it/s]Training 1/3 epoch (loss 1.2123):   9%|▊         | 839/9753 [09:01<1:23:35,  1.78it/s]Training 1/3 epoch (loss 1.1459):   9%|▊         | 839/9753 [09:01<1:23:35,  1.78it/s]Training 1/3 epoch (loss 1.1459):   9%|▊         | 840/9753 [09:01<1:23:19,  1.78it/s]Training 1/3 epoch (loss 1.0339):   9%|▊         | 840/9753 [09:02<1:23:19,  1.78it/s]Training 1/3 epoch (loss 1.0339):   9%|▊         | 841/9753 [09:02<1:27:50,  1.69it/s]Training 1/3 epoch (loss 1.0770):   9%|▊         | 841/9753 [09:03<1:27:50,  1.69it/s]Training 1/3 epoch (loss 1.0770):   9%|▊         | 842/9753 [09:03<1:41:58,  1.46it/s]Training 1/3 epoch (loss 1.2284):   9%|▊         | 842/9753 [09:04<1:41:58,  1.46it/s]Training 1/3 epoch (loss 1.2284):   9%|▊         | 843/9753 [09:04<1:36:57,  1.53it/s]Training 1/3 epoch (loss 1.0785):   9%|▊         | 843/9753 [09:04<1:36:57,  1.53it/s]Training 1/3 epoch (loss 1.0785):   9%|▊         | 844/9753 [09:04<1:38:29,  1.51it/s]Training 1/3 epoch (loss 1.0522):   9%|▊         | 844/9753 [09:05<1:38:29,  1.51it/s]Training 1/3 epoch (loss 1.0522):   9%|▊         | 845/9753 [09:05<1:37:01,  1.53it/s]Training 1/3 epoch (loss 1.1471):   9%|▊         | 845/9753 [09:06<1:37:01,  1.53it/s]Training 1/3 epoch (loss 1.1471):   9%|▊         | 846/9753 [09:06<1:38:54,  1.50it/s]Training 1/3 epoch (loss 1.0850):   9%|▊         | 846/9753 [09:06<1:38:54,  1.50it/s]Training 1/3 epoch (loss 1.0850):   9%|▊         | 847/9753 [09:06<1:35:24,  1.56it/s]Training 1/3 epoch (loss 0.9305):   9%|▊         | 847/9753 [09:07<1:35:24,  1.56it/s]Training 1/3 epoch (loss 0.9305):   9%|▊         | 848/9753 [09:07<1:49:49,  1.35it/s]Training 1/3 epoch (loss 1.1634):   9%|▊         | 848/9753 [09:08<1:49:49,  1.35it/s]Training 1/3 epoch (loss 1.1634):   9%|▊         | 849/9753 [09:08<1:41:36,  1.46it/s]Training 1/3 epoch (loss 0.7830):   9%|▊         | 849/9753 [09:09<1:41:36,  1.46it/s]Training 1/3 epoch (loss 0.7830):   9%|▊         | 850/9753 [09:09<1:48:57,  1.36it/s]Training 1/3 epoch (loss 0.9357):   9%|▊         | 850/9753 [09:09<1:48:57,  1.36it/s]Training 1/3 epoch (loss 0.9357):   9%|▊         | 851/9753 [09:09<1:41:25,  1.46it/s]Training 1/3 epoch (loss 1.0756):   9%|▊         | 851/9753 [09:10<1:41:25,  1.46it/s]Training 1/3 epoch (loss 1.0756):   9%|▊         | 852/9753 [09:10<1:35:32,  1.55it/s]Training 1/3 epoch (loss 0.9098):   9%|▊         | 852/9753 [09:10<1:35:32,  1.55it/s]Training 1/3 epoch (loss 0.9098):   9%|▊         | 853/9753 [09:10<1:32:15,  1.61it/s]Training 1/3 epoch (loss 1.0430):   9%|▊         | 853/9753 [09:11<1:32:15,  1.61it/s]Training 1/3 epoch (loss 1.0430):   9%|▉         | 854/9753 [09:11<1:30:22,  1.64it/s]Training 1/3 epoch (loss 1.0175):   9%|▉         | 854/9753 [09:11<1:30:22,  1.64it/s]Training 1/3 epoch (loss 1.0175):   9%|▉         | 855/9753 [09:11<1:28:02,  1.68it/s]Training 1/3 epoch (loss 1.0426):   9%|▉         | 855/9753 [09:12<1:28:02,  1.68it/s]Training 1/3 epoch (loss 1.0426):   9%|▉         | 856/9753 [09:12<1:34:30,  1.57it/s]Training 1/3 epoch (loss 1.2224):   9%|▉         | 856/9753 [09:13<1:34:30,  1.57it/s]Training 1/3 epoch (loss 1.2224):   9%|▉         | 857/9753 [09:13<1:34:38,  1.57it/s]Training 1/3 epoch (loss 1.0703):   9%|▉         | 857/9753 [09:13<1:34:38,  1.57it/s]Training 1/3 epoch (loss 1.0703):   9%|▉         | 858/9753 [09:13<1:30:56,  1.63it/s]Training 1/3 epoch (loss 1.0310):   9%|▉         | 858/9753 [09:14<1:30:56,  1.63it/s]Training 1/3 epoch (loss 1.0310):   9%|▉         | 859/9753 [09:14<1:30:48,  1.63it/s]Training 1/3 epoch (loss 0.9409):   9%|▉         | 859/9753 [09:15<1:30:48,  1.63it/s]Training 1/3 epoch (loss 0.9409):   9%|▉         | 860/9753 [09:15<1:30:46,  1.63it/s]Training 1/3 epoch (loss 1.1034):   9%|▉         | 860/9753 [09:15<1:30:46,  1.63it/s]Training 1/3 epoch (loss 1.1034):   9%|▉         | 861/9753 [09:15<1:28:35,  1.67it/s]Training 1/3 epoch (loss 0.8977):   9%|▉         | 861/9753 [09:16<1:28:35,  1.67it/s]Training 1/3 epoch (loss 0.8977):   9%|▉         | 862/9753 [09:16<1:26:37,  1.71it/s]Training 1/3 epoch (loss 0.9786):   9%|▉         | 862/9753 [09:16<1:26:37,  1.71it/s]Training 1/3 epoch (loss 0.9786):   9%|▉         | 863/9753 [09:16<1:24:59,  1.74it/s]Training 1/3 epoch (loss 1.2178):   9%|▉         | 863/9753 [09:17<1:24:59,  1.74it/s]Training 1/3 epoch (loss 1.2178):   9%|▉         | 864/9753 [09:17<1:31:40,  1.62it/s]Training 1/3 epoch (loss 1.2633):   9%|▉         | 864/9753 [09:18<1:31:40,  1.62it/s]Training 1/3 epoch (loss 1.2633):   9%|▉         | 865/9753 [09:18<1:35:33,  1.55it/s]Training 1/3 epoch (loss 1.1921):   9%|▉         | 865/9753 [09:18<1:35:33,  1.55it/s]Training 1/3 epoch (loss 1.1921):   9%|▉         | 866/9753 [09:18<1:31:52,  1.61it/s]Training 1/3 epoch (loss 1.1158):   9%|▉         | 866/9753 [09:19<1:31:52,  1.61it/s]Training 1/3 epoch (loss 1.1158):   9%|▉         | 867/9753 [09:19<1:34:04,  1.57it/s]Training 1/3 epoch (loss 1.2083):   9%|▉         | 867/9753 [09:19<1:34:04,  1.57it/s]Training 1/3 epoch (loss 1.2083):   9%|▉         | 868/9753 [09:19<1:33:25,  1.59it/s]Training 1/3 epoch (loss 1.0578):   9%|▉         | 868/9753 [09:20<1:33:25,  1.59it/s]Training 1/3 epoch (loss 1.0578):   9%|▉         | 869/9753 [09:20<1:37:58,  1.51it/s]Training 1/3 epoch (loss 1.2931):   9%|▉         | 869/9753 [09:21<1:37:58,  1.51it/s]Training 1/3 epoch (loss 1.2931):   9%|▉         | 870/9753 [09:21<1:34:51,  1.56it/s]Training 1/3 epoch (loss 0.9828):   9%|▉         | 870/9753 [09:21<1:34:51,  1.56it/s]Training 1/3 epoch (loss 0.9828):   9%|▉         | 871/9753 [09:21<1:31:26,  1.62it/s]Training 1/3 epoch (loss 1.0162):   9%|▉         | 871/9753 [09:22<1:31:26,  1.62it/s]Training 1/3 epoch (loss 1.0162):   9%|▉         | 872/9753 [09:22<1:29:11,  1.66it/s]Training 1/3 epoch (loss 1.0443):   9%|▉         | 872/9753 [09:23<1:29:11,  1.66it/s]Training 1/3 epoch (loss 1.0443):   9%|▉         | 873/9753 [09:23<1:27:42,  1.69it/s]Training 1/3 epoch (loss 0.9506):   9%|▉         | 873/9753 [09:23<1:27:42,  1.69it/s]Training 1/3 epoch (loss 0.9506):   9%|▉         | 874/9753 [09:23<1:30:30,  1.63it/s]Training 1/3 epoch (loss 1.1564):   9%|▉         | 874/9753 [09:24<1:30:30,  1.63it/s]Training 1/3 epoch (loss 1.1564):   9%|▉         | 875/9753 [09:24<1:44:55,  1.41it/s]Training 1/3 epoch (loss 1.2264):   9%|▉         | 875/9753 [09:25<1:44:55,  1.41it/s]Training 1/3 epoch (loss 1.2264):   9%|▉         | 876/9753 [09:25<1:47:12,  1.38it/s]Training 1/3 epoch (loss 1.2590):   9%|▉         | 876/9753 [09:25<1:47:12,  1.38it/s]Training 1/3 epoch (loss 1.2590):   9%|▉         | 877/9753 [09:25<1:42:39,  1.44it/s]Training 1/3 epoch (loss 1.1078):   9%|▉         | 877/9753 [09:26<1:42:39,  1.44it/s]Training 1/3 epoch (loss 1.1078):   9%|▉         | 878/9753 [09:26<1:39:26,  1.49it/s]Training 1/3 epoch (loss 1.0418):   9%|▉         | 878/9753 [09:27<1:39:26,  1.49it/s]Training 1/3 epoch (loss 1.0418):   9%|▉         | 879/9753 [09:27<1:37:27,  1.52it/s]Training 1/3 epoch (loss 1.2308):   9%|▉         | 879/9753 [09:27<1:37:27,  1.52it/s]Training 1/3 epoch (loss 1.2308):   9%|▉         | 880/9753 [09:27<1:41:44,  1.45it/s]Training 1/3 epoch (loss 1.1976):   9%|▉         | 880/9753 [09:28<1:41:44,  1.45it/s]Training 1/3 epoch (loss 1.1976):   9%|▉         | 881/9753 [09:28<1:39:11,  1.49it/s]Training 1/3 epoch (loss 0.8647):   9%|▉         | 881/9753 [09:29<1:39:11,  1.49it/s]Training 1/3 epoch (loss 0.8647):   9%|▉         | 882/9753 [09:29<1:36:59,  1.52it/s]Training 1/3 epoch (loss 1.0813):   9%|▉         | 882/9753 [09:29<1:36:59,  1.52it/s]Training 1/3 epoch (loss 1.0813):   9%|▉         | 883/9753 [09:29<1:36:21,  1.53it/s]Training 1/3 epoch (loss 1.2811):   9%|▉         | 883/9753 [09:30<1:36:21,  1.53it/s]Training 1/3 epoch (loss 1.2811):   9%|▉         | 884/9753 [09:30<1:32:25,  1.60it/s]Training 1/3 epoch (loss 1.0759):   9%|▉         | 884/9753 [09:31<1:32:25,  1.60it/s]Training 1/3 epoch (loss 1.0759):   9%|▉         | 885/9753 [09:31<1:29:30,  1.65it/s]Training 1/3 epoch (loss 1.3822):   9%|▉         | 885/9753 [09:31<1:29:30,  1.65it/s]Training 1/3 epoch (loss 1.3822):   9%|▉         | 886/9753 [09:31<1:27:43,  1.68it/s]Training 1/3 epoch (loss 1.0422):   9%|▉         | 886/9753 [09:32<1:27:43,  1.68it/s]Training 1/3 epoch (loss 1.0422):   9%|▉         | 887/9753 [09:32<1:32:16,  1.60it/s]Training 1/3 epoch (loss 1.0443):   9%|▉         | 887/9753 [09:32<1:32:16,  1.60it/s]Training 1/3 epoch (loss 1.0443):   9%|▉         | 888/9753 [09:32<1:33:36,  1.58it/s]Training 1/3 epoch (loss 0.9367):   9%|▉         | 888/9753 [09:33<1:33:36,  1.58it/s]Training 1/3 epoch (loss 0.9367):   9%|▉         | 889/9753 [09:33<1:31:27,  1.62it/s]Training 1/3 epoch (loss 0.9383):   9%|▉         | 889/9753 [09:34<1:31:27,  1.62it/s]Training 1/3 epoch (loss 0.9383):   9%|▉         | 890/9753 [09:34<1:28:38,  1.67it/s]Training 1/3 epoch (loss 0.9817):   9%|▉         | 890/9753 [09:34<1:28:38,  1.67it/s]Training 1/3 epoch (loss 0.9817):   9%|▉         | 891/9753 [09:34<1:33:38,  1.58it/s]Training 1/3 epoch (loss 0.8949):   9%|▉         | 891/9753 [09:35<1:33:38,  1.58it/s]Training 1/3 epoch (loss 0.8949):   9%|▉         | 892/9753 [09:35<1:30:38,  1.63it/s]Training 1/3 epoch (loss 1.0227):   9%|▉         | 892/9753 [09:35<1:30:38,  1.63it/s]Training 1/3 epoch (loss 1.0227):   9%|▉         | 893/9753 [09:35<1:27:40,  1.68it/s]Training 1/3 epoch (loss 0.9971):   9%|▉         | 893/9753 [09:36<1:27:40,  1.68it/s]Training 1/3 epoch (loss 0.9971):   9%|▉         | 894/9753 [09:36<1:31:30,  1.61it/s]Training 1/3 epoch (loss 1.2141):   9%|▉         | 894/9753 [09:37<1:31:30,  1.61it/s]Training 1/3 epoch (loss 1.2141):   9%|▉         | 895/9753 [09:37<1:32:37,  1.59it/s]Training 1/3 epoch (loss 1.1562):   9%|▉         | 895/9753 [09:37<1:32:37,  1.59it/s]Training 1/3 epoch (loss 1.1562):   9%|▉         | 896/9753 [09:37<1:35:38,  1.54it/s]Training 1/3 epoch (loss 1.2429):   9%|▉         | 896/9753 [09:38<1:35:38,  1.54it/s]Training 1/3 epoch (loss 1.2429):   9%|▉         | 897/9753 [09:38<1:31:43,  1.61it/s]Training 1/3 epoch (loss 1.0714):   9%|▉         | 897/9753 [09:39<1:31:43,  1.61it/s]Training 1/3 epoch (loss 1.0714):   9%|▉         | 898/9753 [09:39<1:32:19,  1.60it/s]Training 1/3 epoch (loss 1.0968):   9%|▉         | 898/9753 [09:39<1:32:19,  1.60it/s]Training 1/3 epoch (loss 1.0968):   9%|▉         | 899/9753 [09:39<1:31:30,  1.61it/s]Training 1/3 epoch (loss 1.3814):   9%|▉         | 899/9753 [09:40<1:31:30,  1.61it/s]Training 1/3 epoch (loss 1.3814):   9%|▉         | 900/9753 [09:40<1:35:46,  1.54it/s]Training 1/3 epoch (loss 1.0854):   9%|▉         | 900/9753 [09:41<1:35:46,  1.54it/s]Training 1/3 epoch (loss 1.0854):   9%|▉         | 901/9753 [09:41<1:43:40,  1.42it/s]Training 1/3 epoch (loss 1.2928):   9%|▉         | 901/9753 [09:42<1:43:40,  1.42it/s]Training 1/3 epoch (loss 1.2928):   9%|▉         | 902/9753 [09:42<1:52:38,  1.31it/s]Training 1/3 epoch (loss 1.1910):   9%|▉         | 902/9753 [09:42<1:52:38,  1.31it/s]Training 1/3 epoch (loss 1.1910):   9%|▉         | 903/9753 [09:42<1:44:10,  1.42it/s]Training 1/3 epoch (loss 1.1188):   9%|▉         | 903/9753 [09:43<1:44:10,  1.42it/s]Training 1/3 epoch (loss 1.1188):   9%|▉         | 904/9753 [09:43<1:37:49,  1.51it/s]Training 1/3 epoch (loss 1.0899):   9%|▉         | 904/9753 [09:43<1:37:49,  1.51it/s]Training 1/3 epoch (loss 1.0899):   9%|▉         | 905/9753 [09:43<1:34:03,  1.57it/s]Training 1/3 epoch (loss 1.1675):   9%|▉         | 905/9753 [09:44<1:34:03,  1.57it/s]Training 1/3 epoch (loss 1.1675):   9%|▉         | 906/9753 [09:44<1:31:18,  1.61it/s]Training 1/3 epoch (loss 1.0257):   9%|▉         | 906/9753 [09:45<1:31:18,  1.61it/s]Training 1/3 epoch (loss 1.0257):   9%|▉         | 907/9753 [09:45<1:29:51,  1.64it/s]Training 1/3 epoch (loss 0.9931):   9%|▉         | 907/9753 [09:45<1:29:51,  1.64it/s]Training 1/3 epoch (loss 0.9931):   9%|▉         | 908/9753 [09:45<1:29:07,  1.65it/s]Training 1/3 epoch (loss 1.2434):   9%|▉         | 908/9753 [09:46<1:29:07,  1.65it/s]Training 1/3 epoch (loss 1.2434):   9%|▉         | 909/9753 [09:46<1:30:52,  1.62it/s]Training 1/3 epoch (loss 0.9299):   9%|▉         | 909/9753 [09:46<1:30:52,  1.62it/s]Training 1/3 epoch (loss 0.9299):   9%|▉         | 910/9753 [09:46<1:32:45,  1.59it/s]Training 1/3 epoch (loss 1.0360):   9%|▉         | 910/9753 [09:47<1:32:45,  1.59it/s]Training 1/3 epoch (loss 1.0360):   9%|▉         | 911/9753 [09:47<1:33:44,  1.57it/s]Training 1/3 epoch (loss 1.0505):   9%|▉         | 911/9753 [09:48<1:33:44,  1.57it/s]Training 1/3 epoch (loss 1.0505):   9%|▉         | 912/9753 [09:48<1:38:15,  1.50it/s]Training 1/3 epoch (loss 1.0207):   9%|▉         | 912/9753 [09:48<1:38:15,  1.50it/s]Training 1/3 epoch (loss 1.0207):   9%|▉         | 913/9753 [09:48<1:33:59,  1.57it/s]Training 1/3 epoch (loss 1.1607):   9%|▉         | 913/9753 [09:49<1:33:59,  1.57it/s]Training 1/3 epoch (loss 1.1607):   9%|▉         | 914/9753 [09:49<1:30:55,  1.62it/s]Training 1/3 epoch (loss 1.0123):   9%|▉         | 914/9753 [09:50<1:30:55,  1.62it/s]Training 1/3 epoch (loss 1.0123):   9%|▉         | 915/9753 [09:50<1:28:33,  1.66it/s]Training 1/3 epoch (loss 1.1375):   9%|▉         | 915/9753 [09:50<1:28:33,  1.66it/s]Training 1/3 epoch (loss 1.1375):   9%|▉         | 916/9753 [09:50<1:33:32,  1.57it/s]Training 1/3 epoch (loss 0.9857):   9%|▉         | 916/9753 [09:51<1:33:32,  1.57it/s]Training 1/3 epoch (loss 0.9857):   9%|▉         | 917/9753 [09:51<1:31:09,  1.62it/s]Training 1/3 epoch (loss 0.9476):   9%|▉         | 917/9753 [09:51<1:31:09,  1.62it/s]Training 1/3 epoch (loss 0.9476):   9%|▉         | 918/9753 [09:51<1:28:28,  1.66it/s]Training 1/3 epoch (loss 1.0578):   9%|▉         | 918/9753 [09:52<1:28:28,  1.66it/s]Training 1/3 epoch (loss 1.0578):   9%|▉         | 919/9753 [09:52<1:31:04,  1.62it/s]Training 1/3 epoch (loss 1.0573):   9%|▉         | 919/9753 [09:53<1:31:04,  1.62it/s]Training 1/3 epoch (loss 1.0573):   9%|▉         | 920/9753 [09:53<1:28:45,  1.66it/s]Training 1/3 epoch (loss 1.1019):   9%|▉         | 920/9753 [09:53<1:28:45,  1.66it/s]Training 1/3 epoch (loss 1.1019):   9%|▉         | 921/9753 [09:53<1:32:12,  1.60it/s]Training 1/3 epoch (loss 1.3731):   9%|▉         | 921/9753 [09:54<1:32:12,  1.60it/s]Training 1/3 epoch (loss 1.3731):   9%|▉         | 922/9753 [09:54<1:30:08,  1.63it/s]Training 1/3 epoch (loss 1.1377):   9%|▉         | 922/9753 [09:54<1:30:08,  1.63it/s]Training 1/3 epoch (loss 1.1377):   9%|▉         | 923/9753 [09:54<1:28:49,  1.66it/s]Training 1/3 epoch (loss 1.1405):   9%|▉         | 923/9753 [09:55<1:28:49,  1.66it/s]Training 1/3 epoch (loss 1.1405):   9%|▉         | 924/9753 [09:55<1:27:52,  1.67it/s]Training 1/3 epoch (loss 0.8980):   9%|▉         | 924/9753 [09:56<1:27:52,  1.67it/s]Training 1/3 epoch (loss 0.8980):   9%|▉         | 925/9753 [09:56<1:26:43,  1.70it/s]Training 1/3 epoch (loss 1.1006):   9%|▉         | 925/9753 [09:56<1:26:43,  1.70it/s]Training 1/3 epoch (loss 1.1006):   9%|▉         | 926/9753 [09:56<1:26:24,  1.70it/s]Training 1/3 epoch (loss 1.1077):   9%|▉         | 926/9753 [09:57<1:26:24,  1.70it/s]Training 1/3 epoch (loss 1.1077):  10%|▉         | 927/9753 [09:57<1:35:58,  1.53it/s]Training 1/3 epoch (loss 1.2084):  10%|▉         | 927/9753 [09:58<1:35:58,  1.53it/s]Training 1/3 epoch (loss 1.2084):  10%|▉         | 928/9753 [09:58<1:40:19,  1.47it/s]Training 1/3 epoch (loss 1.1947):  10%|▉         | 928/9753 [09:59<1:40:19,  1.47it/s]Training 1/3 epoch (loss 1.1947):  10%|▉         | 929/9753 [09:59<1:44:00,  1.41it/s]Training 1/3 epoch (loss 1.2098):  10%|▉         | 929/9753 [09:59<1:44:00,  1.41it/s]Training 1/3 epoch (loss 1.2098):  10%|▉         | 930/9753 [09:59<1:44:53,  1.40it/s]Training 1/3 epoch (loss 1.0648):  10%|▉         | 930/9753 [10:00<1:44:53,  1.40it/s]Training 1/3 epoch (loss 1.0648):  10%|▉         | 931/9753 [10:00<1:38:20,  1.50it/s]Training 1/3 epoch (loss 1.1697):  10%|▉         | 931/9753 [10:00<1:38:20,  1.50it/s]Training 1/3 epoch (loss 1.1697):  10%|▉         | 932/9753 [10:00<1:36:29,  1.52it/s]Training 1/3 epoch (loss 1.0105):  10%|▉         | 932/9753 [10:01<1:36:29,  1.52it/s]Training 1/3 epoch (loss 1.0105):  10%|▉         | 933/9753 [10:01<1:32:17,  1.59it/s]Training 1/3 epoch (loss 0.9991):  10%|▉         | 933/9753 [10:02<1:32:17,  1.59it/s]Training 1/3 epoch (loss 0.9991):  10%|▉         | 934/9753 [10:02<1:31:02,  1.61it/s]Training 1/3 epoch (loss 1.2866):  10%|▉         | 934/9753 [10:02<1:31:02,  1.61it/s]Training 1/3 epoch (loss 1.2866):  10%|▉         | 935/9753 [10:02<1:28:32,  1.66it/s]Training 1/3 epoch (loss 1.1926):  10%|▉         | 935/9753 [10:03<1:28:32,  1.66it/s]Training 1/3 epoch (loss 1.1926):  10%|▉         | 936/9753 [10:03<1:31:24,  1.61it/s]Training 1/3 epoch (loss 1.2864):  10%|▉         | 936/9753 [10:03<1:31:24,  1.61it/s]Training 1/3 epoch (loss 1.2864):  10%|▉         | 937/9753 [10:03<1:29:07,  1.65it/s]Training 1/3 epoch (loss 0.9323):  10%|▉         | 937/9753 [10:04<1:29:07,  1.65it/s]Training 1/3 epoch (loss 0.9323):  10%|▉         | 938/9753 [10:04<1:32:10,  1.59it/s]Training 1/3 epoch (loss 0.8492):  10%|▉         | 938/9753 [10:05<1:32:10,  1.59it/s]Training 1/3 epoch (loss 0.8492):  10%|▉         | 939/9753 [10:05<1:28:45,  1.66it/s]Training 1/3 epoch (loss 0.7197):  10%|▉         | 939/9753 [10:05<1:28:45,  1.66it/s]Training 1/3 epoch (loss 0.7197):  10%|▉         | 940/9753 [10:05<1:31:28,  1.61it/s]Training 1/3 epoch (loss 1.1668):  10%|▉         | 940/9753 [10:06<1:31:28,  1.61it/s]Training 1/3 epoch (loss 1.1668):  10%|▉         | 941/9753 [10:06<1:29:04,  1.65it/s]Training 1/3 epoch (loss 0.9916):  10%|▉         | 941/9753 [10:06<1:29:04,  1.65it/s]Training 1/3 epoch (loss 0.9916):  10%|▉         | 942/9753 [10:06<1:28:51,  1.65it/s]Training 1/3 epoch (loss 1.0215):  10%|▉         | 942/9753 [10:07<1:28:51,  1.65it/s]Training 1/3 epoch (loss 1.0215):  10%|▉         | 943/9753 [10:07<1:26:55,  1.69it/s]Training 1/3 epoch (loss 1.1036):  10%|▉         | 943/9753 [10:08<1:26:55,  1.69it/s]Training 1/3 epoch (loss 1.1036):  10%|▉         | 944/9753 [10:08<1:34:25,  1.55it/s]Training 1/3 epoch (loss 0.8770):  10%|▉         | 944/9753 [10:08<1:34:25,  1.55it/s]Training 1/3 epoch (loss 0.8770):  10%|▉         | 945/9753 [10:08<1:34:44,  1.55it/s]Training 1/3 epoch (loss 0.8510):  10%|▉         | 945/9753 [10:09<1:34:44,  1.55it/s]Training 1/3 epoch (loss 0.8510):  10%|▉         | 946/9753 [10:09<1:34:52,  1.55it/s]Training 1/3 epoch (loss 0.8216):  10%|▉         | 946/9753 [10:10<1:34:52,  1.55it/s]Training 1/3 epoch (loss 0.8216):  10%|▉         | 947/9753 [10:10<1:38:53,  1.48it/s]Training 1/3 epoch (loss 1.0238):  10%|▉         | 947/9753 [10:10<1:38:53,  1.48it/s]Training 1/3 epoch (loss 1.0238):  10%|▉         | 948/9753 [10:10<1:36:16,  1.52it/s]Training 1/3 epoch (loss 1.0921):  10%|▉         | 948/9753 [10:11<1:36:16,  1.52it/s]Training 1/3 epoch (loss 1.0921):  10%|▉         | 949/9753 [10:11<1:32:10,  1.59it/s]Training 1/3 epoch (loss 1.2099):  10%|▉         | 949/9753 [10:12<1:32:10,  1.59it/s]Training 1/3 epoch (loss 1.2099):  10%|▉         | 950/9753 [10:12<1:28:49,  1.65it/s]Training 1/3 epoch (loss 1.0381):  10%|▉         | 950/9753 [10:12<1:28:49,  1.65it/s]Training 1/3 epoch (loss 1.0381):  10%|▉         | 951/9753 [10:12<1:26:27,  1.70it/s]Training 1/3 epoch (loss 1.0475):  10%|▉         | 951/9753 [10:13<1:26:27,  1.70it/s]Training 1/3 epoch (loss 1.0475):  10%|▉         | 952/9753 [10:13<1:28:03,  1.67it/s]Training 1/3 epoch (loss 0.9667):  10%|▉         | 952/9753 [10:13<1:28:03,  1.67it/s]Training 1/3 epoch (loss 0.9667):  10%|▉         | 953/9753 [10:13<1:26:47,  1.69it/s]Training 1/3 epoch (loss 1.1160):  10%|▉         | 953/9753 [10:14<1:26:47,  1.69it/s]Training 1/3 epoch (loss 1.1160):  10%|▉         | 954/9753 [10:14<1:25:10,  1.72it/s]Training 1/3 epoch (loss 1.0444):  10%|▉         | 954/9753 [10:14<1:25:10,  1.72it/s]Training 1/3 epoch (loss 1.0444):  10%|▉         | 955/9753 [10:14<1:27:59,  1.67it/s]Training 1/3 epoch (loss 1.1369):  10%|▉         | 955/9753 [10:15<1:27:59,  1.67it/s]Training 1/3 epoch (loss 1.1369):  10%|▉         | 956/9753 [10:15<1:28:56,  1.65it/s]Training 1/3 epoch (loss 1.2304):  10%|▉         | 956/9753 [10:16<1:28:56,  1.65it/s]Training 1/3 epoch (loss 1.2304):  10%|▉         | 957/9753 [10:16<1:27:33,  1.67it/s]Training 1/3 epoch (loss 0.8099):  10%|▉         | 957/9753 [10:16<1:27:33,  1.67it/s]Training 1/3 epoch (loss 0.8099):  10%|▉         | 958/9753 [10:16<1:25:28,  1.71it/s]Training 1/3 epoch (loss 0.9157):  10%|▉         | 958/9753 [10:17<1:25:28,  1.71it/s]Training 1/3 epoch (loss 0.9157):  10%|▉         | 959/9753 [10:17<1:24:11,  1.74it/s]Training 1/3 epoch (loss 1.2076):  10%|▉         | 959/9753 [10:18<1:24:11,  1.74it/s]Training 1/3 epoch (loss 1.2076):  10%|▉         | 960/9753 [10:18<1:32:44,  1.58it/s]Training 1/3 epoch (loss 1.0293):  10%|▉         | 960/9753 [10:18<1:32:44,  1.58it/s]Training 1/3 epoch (loss 1.0293):  10%|▉         | 961/9753 [10:18<1:30:17,  1.62it/s]Training 1/3 epoch (loss 1.3315):  10%|▉         | 961/9753 [10:19<1:30:17,  1.62it/s]Training 1/3 epoch (loss 1.3315):  10%|▉         | 962/9753 [10:19<1:28:41,  1.65it/s]Training 1/3 epoch (loss 1.2030):  10%|▉         | 962/9753 [10:19<1:28:41,  1.65it/s]Training 1/3 epoch (loss 1.2030):  10%|▉         | 963/9753 [10:19<1:29:22,  1.64it/s]Training 1/3 epoch (loss 1.1127):  10%|▉         | 963/9753 [10:20<1:29:22,  1.64it/s]Training 1/3 epoch (loss 1.1127):  10%|▉         | 964/9753 [10:20<1:33:24,  1.57it/s]Training 1/3 epoch (loss 1.2153):  10%|▉         | 964/9753 [10:21<1:33:24,  1.57it/s]Training 1/3 epoch (loss 1.2153):  10%|▉         | 965/9753 [10:21<1:39:15,  1.48it/s]Training 1/3 epoch (loss 0.8595):  10%|▉         | 965/9753 [10:21<1:39:15,  1.48it/s]Training 1/3 epoch (loss 0.8595):  10%|▉         | 966/9753 [10:21<1:37:43,  1.50it/s]Training 1/3 epoch (loss 1.0553):  10%|▉         | 966/9753 [10:22<1:37:43,  1.50it/s]Training 1/3 epoch (loss 1.0553):  10%|▉         | 967/9753 [10:22<1:32:47,  1.58it/s]Training 1/3 epoch (loss 0.9837):  10%|▉         | 967/9753 [10:23<1:32:47,  1.58it/s]Training 1/3 epoch (loss 0.9837):  10%|▉         | 968/9753 [10:23<1:31:00,  1.61it/s]Training 1/3 epoch (loss 1.0765):  10%|▉         | 968/9753 [10:23<1:31:00,  1.61it/s]Training 1/3 epoch (loss 1.0765):  10%|▉         | 969/9753 [10:23<1:33:19,  1.57it/s]Training 1/3 epoch (loss 1.1115):  10%|▉         | 969/9753 [10:24<1:33:19,  1.57it/s]Training 1/3 epoch (loss 1.1115):  10%|▉         | 970/9753 [10:24<1:34:56,  1.54it/s]Training 1/3 epoch (loss 1.4291):  10%|▉         | 970/9753 [10:25<1:34:56,  1.54it/s]Training 1/3 epoch (loss 1.4291):  10%|▉         | 971/9753 [10:25<1:31:37,  1.60it/s]Training 1/3 epoch (loss 1.0485):  10%|▉         | 971/9753 [10:25<1:31:37,  1.60it/s]Training 1/3 epoch (loss 1.0485):  10%|▉         | 972/9753 [10:25<1:33:32,  1.56it/s]Training 1/3 epoch (loss 1.1142):  10%|▉         | 972/9753 [10:26<1:33:32,  1.56it/s]Training 1/3 epoch (loss 1.1142):  10%|▉         | 973/9753 [10:26<1:30:57,  1.61it/s]Training 1/3 epoch (loss 1.1080):  10%|▉         | 973/9753 [10:27<1:30:57,  1.61it/s]Training 1/3 epoch (loss 1.1080):  10%|▉         | 974/9753 [10:27<1:35:49,  1.53it/s]Training 1/3 epoch (loss 1.1578):  10%|▉         | 974/9753 [10:27<1:35:49,  1.53it/s]Training 1/3 epoch (loss 1.1578):  10%|▉         | 975/9753 [10:27<1:32:34,  1.58it/s]Training 1/3 epoch (loss 1.1060):  10%|▉         | 975/9753 [10:28<1:32:34,  1.58it/s]Training 1/3 epoch (loss 1.1060):  10%|█         | 976/9753 [10:28<1:44:35,  1.40it/s]Training 1/3 epoch (loss 0.7988):  10%|█         | 976/9753 [10:29<1:44:35,  1.40it/s]Training 1/3 epoch (loss 0.7988):  10%|█         | 977/9753 [10:29<1:39:10,  1.47it/s]Training 1/3 epoch (loss 0.9176):  10%|█         | 977/9753 [10:29<1:39:10,  1.47it/s]Training 1/3 epoch (loss 0.9176):  10%|█         | 978/9753 [10:29<1:41:56,  1.43it/s]Training 1/3 epoch (loss 1.2103):  10%|█         | 978/9753 [10:30<1:41:56,  1.43it/s]Training 1/3 epoch (loss 1.2103):  10%|█         | 979/9753 [10:30<1:51:07,  1.32it/s]Training 1/3 epoch (loss 0.9069):  10%|█         | 979/9753 [10:31<1:51:07,  1.32it/s]Training 1/3 epoch (loss 0.9069):  10%|█         | 980/9753 [10:31<1:42:41,  1.42it/s]Training 1/3 epoch (loss 1.1290):  10%|█         | 980/9753 [10:31<1:42:41,  1.42it/s]Training 1/3 epoch (loss 1.1290):  10%|█         | 981/9753 [10:31<1:36:09,  1.52it/s]Training 1/3 epoch (loss 0.9438):  10%|█         | 981/9753 [10:32<1:36:09,  1.52it/s]Training 1/3 epoch (loss 0.9438):  10%|█         | 982/9753 [10:32<1:31:20,  1.60it/s]Training 1/3 epoch (loss 1.1533):  10%|█         | 982/9753 [10:33<1:31:20,  1.60it/s]Training 1/3 epoch (loss 1.1533):  10%|█         | 983/9753 [10:33<1:31:30,  1.60it/s]Training 1/3 epoch (loss 0.8984):  10%|█         | 983/9753 [10:33<1:31:30,  1.60it/s]Training 1/3 epoch (loss 0.8984):  10%|█         | 984/9753 [10:33<1:45:13,  1.39it/s]Training 1/3 epoch (loss 0.9800):  10%|█         | 984/9753 [10:34<1:45:13,  1.39it/s]Training 1/3 epoch (loss 0.9800):  10%|█         | 985/9753 [10:34<1:45:08,  1.39it/s]Training 1/3 epoch (loss 1.1606):  10%|█         | 985/9753 [10:35<1:45:08,  1.39it/s]Training 1/3 epoch (loss 1.1606):  10%|█         | 986/9753 [10:35<1:38:15,  1.49it/s]Training 1/3 epoch (loss 1.0643):  10%|█         | 986/9753 [10:35<1:38:15,  1.49it/s]Training 1/3 epoch (loss 1.0643):  10%|█         | 987/9753 [10:35<1:32:40,  1.58it/s]Training 1/3 epoch (loss 1.1512):  10%|█         | 987/9753 [10:36<1:32:40,  1.58it/s]Training 1/3 epoch (loss 1.1512):  10%|█         | 988/9753 [10:36<1:29:15,  1.64it/s]Training 1/3 epoch (loss 1.0864):  10%|█         | 988/9753 [10:36<1:29:15,  1.64it/s]Training 1/3 epoch (loss 1.0864):  10%|█         | 989/9753 [10:36<1:26:29,  1.69it/s]Training 1/3 epoch (loss 1.0340):  10%|█         | 989/9753 [10:37<1:26:29,  1.69it/s]Training 1/3 epoch (loss 1.0340):  10%|█         | 990/9753 [10:37<1:26:19,  1.69it/s]Training 1/3 epoch (loss 1.2468):  10%|█         | 990/9753 [10:38<1:26:19,  1.69it/s]Training 1/3 epoch (loss 1.2468):  10%|█         | 991/9753 [10:38<1:24:34,  1.73it/s]Training 1/3 epoch (loss 0.9664):  10%|█         | 991/9753 [10:38<1:24:34,  1.73it/s]Training 1/3 epoch (loss 0.9664):  10%|█         | 992/9753 [10:38<1:30:01,  1.62it/s]Training 1/3 epoch (loss 1.1369):  10%|█         | 992/9753 [10:39<1:30:01,  1.62it/s]Training 1/3 epoch (loss 1.1369):  10%|█         | 993/9753 [10:39<1:39:29,  1.47it/s]Training 1/3 epoch (loss 1.2419):  10%|█         | 993/9753 [10:40<1:39:29,  1.47it/s]Training 1/3 epoch (loss 1.2419):  10%|█         | 994/9753 [10:40<1:35:09,  1.53it/s]Training 1/3 epoch (loss 1.2063):  10%|█         | 994/9753 [10:40<1:35:09,  1.53it/s]Training 1/3 epoch (loss 1.2063):  10%|█         | 995/9753 [10:40<1:30:54,  1.61it/s]Training 1/3 epoch (loss 0.8666):  10%|█         | 995/9753 [10:41<1:30:54,  1.61it/s]Training 1/3 epoch (loss 0.8666):  10%|█         | 996/9753 [10:41<1:27:32,  1.67it/s]Training 1/3 epoch (loss 0.9635):  10%|█         | 996/9753 [10:41<1:27:32,  1.67it/s]Training 1/3 epoch (loss 0.9635):  10%|█         | 997/9753 [10:41<1:30:13,  1.62it/s]Training 1/3 epoch (loss 1.0652):  10%|█         | 997/9753 [10:42<1:30:13,  1.62it/s]Training 1/3 epoch (loss 1.0652):  10%|█         | 998/9753 [10:42<1:32:11,  1.58it/s]Training 1/3 epoch (loss 0.9590):  10%|█         | 998/9753 [10:43<1:32:11,  1.58it/s]Training 1/3 epoch (loss 0.9590):  10%|█         | 999/9753 [10:43<1:28:36,  1.65it/s]Training 1/3 epoch (loss 1.3846):  10%|█         | 999/9753 [10:43<1:28:36,  1.65it/s]Training 1/3 epoch (loss 1.3846):  10%|█         | 1000/9753 [10:43<1:30:17,  1.62it/s]Training 1/3 epoch (loss 1.0928):  10%|█         | 1000/9753 [10:44<1:30:17,  1.62it/s]Training 1/3 epoch (loss 1.0928):  10%|█         | 1001/9753 [10:44<1:34:31,  1.54it/s]Training 1/3 epoch (loss 0.8857):  10%|█         | 1001/9753 [10:45<1:34:31,  1.54it/s]Training 1/3 epoch (loss 0.8857):  10%|█         | 1002/9753 [10:45<1:41:46,  1.43it/s]Training 1/3 epoch (loss 0.9431):  10%|█         | 1002/9753 [10:45<1:41:46,  1.43it/s]Training 1/3 epoch (loss 0.9431):  10%|█         | 1003/9753 [10:45<1:37:41,  1.49it/s]Training 1/3 epoch (loss 1.0942):  10%|█         | 1003/9753 [10:46<1:37:41,  1.49it/s]Training 1/3 epoch (loss 1.0942):  10%|█         | 1004/9753 [10:46<1:33:51,  1.55it/s]Training 1/3 epoch (loss 1.1667):  10%|█         | 1004/9753 [10:47<1:33:51,  1.55it/s]Training 1/3 epoch (loss 1.1667):  10%|█         | 1005/9753 [10:47<1:36:59,  1.50it/s]Training 1/3 epoch (loss 1.0471):  10%|█         | 1005/9753 [10:47<1:36:59,  1.50it/s]Training 1/3 epoch (loss 1.0471):  10%|█         | 1006/9753 [10:47<1:32:03,  1.58it/s]Training 1/3 epoch (loss 0.9703):  10%|█         | 1006/9753 [10:48<1:32:03,  1.58it/s]Training 1/3 epoch (loss 0.9703):  10%|█         | 1007/9753 [10:48<1:28:30,  1.65it/s]Training 1/3 epoch (loss 0.7301):  10%|█         | 1007/9753 [10:49<1:28:30,  1.65it/s]Training 1/3 epoch (loss 0.7301):  10%|█         | 1008/9753 [10:49<1:32:07,  1.58it/s]Training 1/3 epoch (loss 1.1401):  10%|█         | 1008/9753 [10:49<1:32:07,  1.58it/s]Training 1/3 epoch (loss 1.1401):  10%|█         | 1009/9753 [10:49<1:28:49,  1.64it/s]Training 1/3 epoch (loss 0.9945):  10%|█         | 1009/9753 [10:50<1:28:49,  1.64it/s]Training 1/3 epoch (loss 0.9945):  10%|█         | 1010/9753 [10:50<1:37:28,  1.49it/s]Training 1/3 epoch (loss 1.1508):  10%|█         | 1010/9753 [10:51<1:37:28,  1.49it/s]Training 1/3 epoch (loss 1.1508):  10%|█         | 1011/9753 [10:51<1:38:51,  1.47it/s]Training 1/3 epoch (loss 1.1838):  10%|█         | 1011/9753 [10:51<1:38:51,  1.47it/s]Training 1/3 epoch (loss 1.1838):  10%|█         | 1012/9753 [10:51<1:33:52,  1.55it/s]Training 1/3 epoch (loss 1.2310):  10%|█         | 1012/9753 [10:52<1:33:52,  1.55it/s]Training 1/3 epoch (loss 1.2310):  10%|█         | 1013/9753 [10:52<1:38:13,  1.48it/s]Training 1/3 epoch (loss 1.2257):  10%|█         | 1013/9753 [10:53<1:38:13,  1.48it/s]Training 1/3 epoch (loss 1.2257):  10%|█         | 1014/9753 [10:53<1:37:13,  1.50it/s]Training 1/3 epoch (loss 0.9766):  10%|█         | 1014/9753 [10:53<1:37:13,  1.50it/s]Training 1/3 epoch (loss 0.9766):  10%|█         | 1015/9753 [10:53<1:32:40,  1.57it/s]Training 1/3 epoch (loss 0.9980):  10%|█         | 1015/9753 [10:54<1:32:40,  1.57it/s]Training 1/3 epoch (loss 0.9980):  10%|█         | 1016/9753 [10:54<1:30:45,  1.60it/s]Training 1/3 epoch (loss 1.1787):  10%|█         | 1016/9753 [10:54<1:30:45,  1.60it/s]Training 1/3 epoch (loss 1.1787):  10%|█         | 1017/9753 [10:54<1:30:36,  1.61it/s]Training 1/3 epoch (loss 1.1895):  10%|█         | 1017/9753 [10:55<1:30:36,  1.61it/s]Training 1/3 epoch (loss 1.1895):  10%|█         | 1018/9753 [10:55<1:27:18,  1.67it/s]Training 1/3 epoch (loss 0.9192):  10%|█         | 1018/9753 [10:56<1:27:18,  1.67it/s]Training 1/3 epoch (loss 0.9192):  10%|█         | 1019/9753 [10:56<1:29:48,  1.62it/s]Training 1/3 epoch (loss 0.9770):  10%|█         | 1019/9753 [10:56<1:29:48,  1.62it/s]Training 1/3 epoch (loss 0.9770):  10%|█         | 1020/9753 [10:56<1:27:14,  1.67it/s]Training 1/3 epoch (loss 0.9956):  10%|█         | 1020/9753 [10:57<1:27:14,  1.67it/s]Training 1/3 epoch (loss 0.9956):  10%|█         | 1021/9753 [10:57<1:24:42,  1.72it/s]Training 1/3 epoch (loss 0.9760):  10%|█         | 1021/9753 [10:57<1:24:42,  1.72it/s]Training 1/3 epoch (loss 0.9760):  10%|█         | 1022/9753 [10:57<1:23:12,  1.75it/s]Training 1/3 epoch (loss 1.0786):  10%|█         | 1022/9753 [10:58<1:23:12,  1.75it/s]Training 1/3 epoch (loss 1.0786):  10%|█         | 1023/9753 [10:58<1:21:59,  1.77it/s]Training 1/3 epoch (loss 0.9614):  10%|█         | 1023/9753 [10:58<1:21:59,  1.77it/s]Training 1/3 epoch (loss 0.9614):  10%|█         | 1024/9753 [10:58<1:26:52,  1.67it/s]Training 1/3 epoch (loss 0.9943):  10%|█         | 1024/9753 [10:59<1:26:52,  1.67it/s]Training 1/3 epoch (loss 0.9943):  11%|█         | 1025/9753 [10:59<1:28:58,  1.63it/s]Training 1/3 epoch (loss 1.0867):  11%|█         | 1025/9753 [11:00<1:28:58,  1.63it/s]Training 1/3 epoch (loss 1.0867):  11%|█         | 1026/9753 [11:00<1:27:03,  1.67it/s]Training 1/3 epoch (loss 1.1601):  11%|█         | 1026/9753 [11:00<1:27:03,  1.67it/s]Training 1/3 epoch (loss 1.1601):  11%|█         | 1027/9753 [11:00<1:25:30,  1.70it/s]Training 1/3 epoch (loss 0.9443):  11%|█         | 1027/9753 [11:01<1:25:30,  1.70it/s]Training 1/3 epoch (loss 0.9443):  11%|█         | 1028/9753 [11:01<1:26:58,  1.67it/s]Training 1/3 epoch (loss 1.0208):  11%|█         | 1028/9753 [11:01<1:26:58,  1.67it/s]Training 1/3 epoch (loss 1.0208):  11%|█         | 1029/9753 [11:01<1:30:47,  1.60it/s]Training 1/3 epoch (loss 1.0419):  11%|█         | 1029/9753 [11:02<1:30:47,  1.60it/s]Training 1/3 epoch (loss 1.0419):  11%|█         | 1030/9753 [11:02<1:37:02,  1.50it/s]Training 1/3 epoch (loss 1.0506):  11%|█         | 1030/9753 [11:03<1:37:02,  1.50it/s]Training 1/3 epoch (loss 1.0506):  11%|█         | 1031/9753 [11:03<1:31:47,  1.58it/s]Training 1/3 epoch (loss 1.1442):  11%|█         | 1031/9753 [11:03<1:31:47,  1.58it/s]Training 1/3 epoch (loss 1.1442):  11%|█         | 1032/9753 [11:03<1:33:24,  1.56it/s]Training 1/3 epoch (loss 1.1472):  11%|█         | 1032/9753 [11:04<1:33:24,  1.56it/s]Training 1/3 epoch (loss 1.1472):  11%|█         | 1033/9753 [11:04<1:29:20,  1.63it/s]Training 1/3 epoch (loss 1.2501):  11%|█         | 1033/9753 [11:05<1:29:20,  1.63it/s]Training 1/3 epoch (loss 1.2501):  11%|█         | 1034/9753 [11:05<1:32:10,  1.58it/s]Training 1/3 epoch (loss 1.1291):  11%|█         | 1034/9753 [11:05<1:32:10,  1.58it/s]Training 1/3 epoch (loss 1.1291):  11%|█         | 1035/9753 [11:05<1:29:04,  1.63it/s]Training 1/3 epoch (loss 0.9841):  11%|█         | 1035/9753 [11:06<1:29:04,  1.63it/s]Training 1/3 epoch (loss 0.9841):  11%|█         | 1036/9753 [11:06<1:30:16,  1.61it/s]Training 1/3 epoch (loss 1.1216):  11%|█         | 1036/9753 [11:07<1:30:16,  1.61it/s]Training 1/3 epoch (loss 1.1216):  11%|█         | 1037/9753 [11:07<1:31:11,  1.59it/s]Training 1/3 epoch (loss 1.0071):  11%|█         | 1037/9753 [11:07<1:31:11,  1.59it/s]Training 1/3 epoch (loss 1.0071):  11%|█         | 1038/9753 [11:07<1:31:05,  1.59it/s]Training 1/3 epoch (loss 0.9904):  11%|█         | 1038/9753 [11:08<1:31:05,  1.59it/s]Training 1/3 epoch (loss 0.9904):  11%|█         | 1039/9753 [11:08<1:32:58,  1.56it/s]Training 1/3 epoch (loss 0.9928):  11%|█         | 1039/9753 [11:09<1:32:58,  1.56it/s]Training 1/3 epoch (loss 0.9928):  11%|█         | 1040/9753 [11:09<1:38:52,  1.47it/s]Training 1/3 epoch (loss 0.8972):  11%|█         | 1040/9753 [11:09<1:38:52,  1.47it/s]Training 1/3 epoch (loss 0.8972):  11%|█         | 1041/9753 [11:09<1:39:25,  1.46it/s]Training 1/3 epoch (loss 1.1503):  11%|█         | 1041/9753 [11:10<1:39:25,  1.46it/s]Training 1/3 epoch (loss 1.1503):  11%|█         | 1042/9753 [11:10<1:38:24,  1.48it/s]Training 1/3 epoch (loss 1.0872):  11%|█         | 1042/9753 [11:11<1:38:24,  1.48it/s]Training 1/3 epoch (loss 1.0872):  11%|█         | 1043/9753 [11:11<1:36:59,  1.50it/s]Training 1/3 epoch (loss 1.2242):  11%|█         | 1043/9753 [11:11<1:36:59,  1.50it/s]Training 1/3 epoch (loss 1.2242):  11%|█         | 1044/9753 [11:11<1:37:26,  1.49it/s]Training 1/3 epoch (loss 1.0997):  11%|█         | 1044/9753 [11:12<1:37:26,  1.49it/s]Training 1/3 epoch (loss 1.0997):  11%|█         | 1045/9753 [11:12<1:39:10,  1.46it/s]Training 1/3 epoch (loss 1.2155):  11%|█         | 1045/9753 [11:13<1:39:10,  1.46it/s]Training 1/3 epoch (loss 1.2155):  11%|█         | 1046/9753 [11:13<1:33:10,  1.56it/s]Training 1/3 epoch (loss 1.0615):  11%|█         | 1046/9753 [11:13<1:33:10,  1.56it/s]Training 1/3 epoch (loss 1.0615):  11%|█         | 1047/9753 [11:13<1:29:26,  1.62it/s]Training 1/3 epoch (loss 0.8929):  11%|█         | 1047/9753 [11:14<1:29:26,  1.62it/s]Training 1/3 epoch (loss 0.8929):  11%|█         | 1048/9753 [11:14<1:26:37,  1.67it/s]Training 1/3 epoch (loss 0.8386):  11%|█         | 1048/9753 [11:14<1:26:37,  1.67it/s]Training 1/3 epoch (loss 0.8386):  11%|█         | 1049/9753 [11:14<1:24:39,  1.71it/s]Training 1/3 epoch (loss 1.0776):  11%|█         | 1049/9753 [11:15<1:24:39,  1.71it/s]Training 1/3 epoch (loss 1.0776):  11%|█         | 1050/9753 [11:15<1:25:07,  1.70it/s]Training 1/3 epoch (loss 0.9818):  11%|█         | 1050/9753 [11:15<1:25:07,  1.70it/s]Training 1/3 epoch (loss 0.9818):  11%|█         | 1051/9753 [11:15<1:24:11,  1.72it/s]Training 1/3 epoch (loss 1.1183):  11%|█         | 1051/9753 [11:16<1:24:11,  1.72it/s]Training 1/3 epoch (loss 1.1183):  11%|█         | 1052/9753 [11:16<1:29:20,  1.62it/s]Training 1/3 epoch (loss 1.1367):  11%|█         | 1052/9753 [11:17<1:29:20,  1.62it/s]Training 1/3 epoch (loss 1.1367):  11%|█         | 1053/9753 [11:17<1:35:26,  1.52it/s]Training 1/3 epoch (loss 0.8656):  11%|█         | 1053/9753 [11:17<1:35:26,  1.52it/s]Training 1/3 epoch (loss 0.8656):  11%|█         | 1054/9753 [11:17<1:32:11,  1.57it/s]Training 1/3 epoch (loss 1.1417):  11%|█         | 1054/9753 [11:18<1:32:11,  1.57it/s]Training 1/3 epoch (loss 1.1417):  11%|█         | 1055/9753 [11:18<1:32:03,  1.57it/s]Training 1/3 epoch (loss 1.1861):  11%|█         | 1055/9753 [11:19<1:32:03,  1.57it/s]Training 1/3 epoch (loss 1.1861):  11%|█         | 1056/9753 [11:19<1:39:46,  1.45it/s]Training 1/3 epoch (loss 1.1875):  11%|█         | 1056/9753 [11:19<1:39:46,  1.45it/s]Training 1/3 epoch (loss 1.1875):  11%|█         | 1057/9753 [11:19<1:35:04,  1.52it/s]Training 1/3 epoch (loss 0.8996):  11%|█         | 1057/9753 [11:20<1:35:04,  1.52it/s]Training 1/3 epoch (loss 0.8996):  11%|█         | 1058/9753 [11:20<1:31:48,  1.58it/s]Training 1/3 epoch (loss 1.2467):  11%|█         | 1058/9753 [11:21<1:31:48,  1.58it/s]Training 1/3 epoch (loss 1.2467):  11%|█         | 1059/9753 [11:21<1:29:12,  1.62it/s]Training 1/3 epoch (loss 0.8913):  11%|█         | 1059/9753 [11:21<1:29:12,  1.62it/s]Training 1/3 epoch (loss 0.8913):  11%|█         | 1060/9753 [11:21<1:26:53,  1.67it/s]Training 1/3 epoch (loss 0.9645):  11%|█         | 1060/9753 [11:22<1:26:53,  1.67it/s]Training 1/3 epoch (loss 0.9645):  11%|█         | 1061/9753 [11:22<1:24:58,  1.70it/s]Training 1/3 epoch (loss 0.9212):  11%|█         | 1061/9753 [11:22<1:24:58,  1.70it/s]Training 1/3 epoch (loss 0.9212):  11%|█         | 1062/9753 [11:22<1:28:16,  1.64it/s]Training 1/3 epoch (loss 1.1670):  11%|█         | 1062/9753 [11:23<1:28:16,  1.64it/s]Training 1/3 epoch (loss 1.1670):  11%|█         | 1063/9753 [11:23<1:27:18,  1.66it/s]Training 1/3 epoch (loss 0.8010):  11%|█         | 1063/9753 [11:24<1:27:18,  1.66it/s]Training 1/3 epoch (loss 0.8010):  11%|█         | 1064/9753 [11:24<1:25:39,  1.69it/s]Training 1/3 epoch (loss 1.1326):  11%|█         | 1064/9753 [11:24<1:25:39,  1.69it/s]Training 1/3 epoch (loss 1.1326):  11%|█         | 1065/9753 [11:24<1:24:33,  1.71it/s]Training 1/3 epoch (loss 1.1928):  11%|█         | 1065/9753 [11:25<1:24:33,  1.71it/s]Training 1/3 epoch (loss 1.1928):  11%|█         | 1066/9753 [11:25<1:28:52,  1.63it/s]Training 1/3 epoch (loss 1.1259):  11%|█         | 1066/9753 [11:25<1:28:52,  1.63it/s]Training 1/3 epoch (loss 1.1259):  11%|█         | 1067/9753 [11:25<1:33:04,  1.56it/s]Training 1/3 epoch (loss 1.1504):  11%|█         | 1067/9753 [11:26<1:33:04,  1.56it/s]Training 1/3 epoch (loss 1.1504):  11%|█         | 1068/9753 [11:26<1:30:09,  1.61it/s]Training 1/3 epoch (loss 1.0836):  11%|█         | 1068/9753 [11:27<1:30:09,  1.61it/s]Training 1/3 epoch (loss 1.0836):  11%|█         | 1069/9753 [11:27<1:27:13,  1.66it/s]Training 1/3 epoch (loss 1.0990):  11%|█         | 1069/9753 [11:27<1:27:13,  1.66it/s]Training 1/3 epoch (loss 1.0990):  11%|█         | 1070/9753 [11:27<1:24:56,  1.70it/s]Training 1/3 epoch (loss 0.9304):  11%|█         | 1070/9753 [11:28<1:24:56,  1.70it/s]Training 1/3 epoch (loss 0.9304):  11%|█         | 1071/9753 [11:28<1:23:38,  1.73it/s]Training 1/3 epoch (loss 0.8755):  11%|█         | 1071/9753 [11:28<1:23:38,  1.73it/s]Training 1/3 epoch (loss 0.8755):  11%|█         | 1072/9753 [11:28<1:27:57,  1.64it/s]Training 1/3 epoch (loss 1.0363):  11%|█         | 1072/9753 [11:29<1:27:57,  1.64it/s]Training 1/3 epoch (loss 1.0363):  11%|█         | 1073/9753 [11:29<1:26:52,  1.67it/s]Training 1/3 epoch (loss 1.1610):  11%|█         | 1073/9753 [11:30<1:26:52,  1.67it/s]Training 1/3 epoch (loss 1.1610):  11%|█         | 1074/9753 [11:30<1:25:48,  1.69it/s]Training 1/3 epoch (loss 1.1929):  11%|█         | 1074/9753 [11:30<1:25:48,  1.69it/s]Training 1/3 epoch (loss 1.1929):  11%|█         | 1075/9753 [11:30<1:39:13,  1.46it/s]Training 1/3 epoch (loss 1.2409):  11%|█         | 1075/9753 [11:31<1:39:13,  1.46it/s]Training 1/3 epoch (loss 1.2409):  11%|█         | 1076/9753 [11:31<1:34:21,  1.53it/s]Training 1/3 epoch (loss 1.1865):  11%|█         | 1076/9753 [11:32<1:34:21,  1.53it/s]Training 1/3 epoch (loss 1.1865):  11%|█         | 1077/9753 [11:32<1:35:38,  1.51it/s]Training 1/3 epoch (loss 1.1374):  11%|█         | 1077/9753 [11:32<1:35:38,  1.51it/s]Training 1/3 epoch (loss 1.1374):  11%|█         | 1078/9753 [11:32<1:32:31,  1.56it/s]Training 1/3 epoch (loss 1.1773):  11%|█         | 1078/9753 [11:33<1:32:31,  1.56it/s]Training 1/3 epoch (loss 1.1773):  11%|█         | 1079/9753 [11:33<1:30:18,  1.60it/s]Training 1/3 epoch (loss 1.0654):  11%|█         | 1079/9753 [11:34<1:30:18,  1.60it/s]Training 1/3 epoch (loss 1.0654):  11%|█         | 1080/9753 [11:34<1:30:45,  1.59it/s]Training 1/3 epoch (loss 1.1306):  11%|█         | 1080/9753 [11:34<1:30:45,  1.59it/s]Training 1/3 epoch (loss 1.1306):  11%|█         | 1081/9753 [11:34<1:30:04,  1.60it/s]Training 1/3 epoch (loss 1.1890):  11%|█         | 1081/9753 [11:35<1:30:04,  1.60it/s]Training 1/3 epoch (loss 1.1890):  11%|█         | 1082/9753 [11:35<1:35:04,  1.52it/s]Training 1/3 epoch (loss 1.1941):  11%|█         | 1082/9753 [11:35<1:35:04,  1.52it/s]Training 1/3 epoch (loss 1.1941):  11%|█         | 1083/9753 [11:35<1:32:12,  1.57it/s]Training 1/3 epoch (loss 1.0457):  11%|█         | 1083/9753 [11:36<1:32:12,  1.57it/s]Training 1/3 epoch (loss 1.0457):  11%|█         | 1084/9753 [11:36<1:28:08,  1.64it/s]Training 1/3 epoch (loss 1.1823):  11%|█         | 1084/9753 [11:37<1:28:08,  1.64it/s]Training 1/3 epoch (loss 1.1823):  11%|█         | 1085/9753 [11:37<1:26:40,  1.67it/s]Training 1/3 epoch (loss 1.1822):  11%|█         | 1085/9753 [11:37<1:26:40,  1.67it/s]Training 1/3 epoch (loss 1.1822):  11%|█         | 1086/9753 [11:37<1:25:18,  1.69it/s]Training 1/3 epoch (loss 1.2958):  11%|█         | 1086/9753 [11:38<1:25:18,  1.69it/s]Training 1/3 epoch (loss 1.2958):  11%|█         | 1087/9753 [11:38<1:23:42,  1.73it/s]Training 1/3 epoch (loss 1.1147):  11%|█         | 1087/9753 [11:38<1:23:42,  1.73it/s]Training 1/3 epoch (loss 1.1147):  11%|█         | 1088/9753 [11:38<1:27:53,  1.64it/s]Training 1/3 epoch (loss 0.9579):  11%|█         | 1088/9753 [11:39<1:27:53,  1.64it/s]Training 1/3 epoch (loss 0.9579):  11%|█         | 1089/9753 [11:39<1:25:47,  1.68it/s]Training 1/3 epoch (loss 1.1153):  11%|█         | 1089/9753 [11:40<1:25:47,  1.68it/s]Training 1/3 epoch (loss 1.1153):  11%|█         | 1090/9753 [11:40<1:23:41,  1.73it/s]Training 1/3 epoch (loss 1.1218):  11%|█         | 1090/9753 [11:40<1:23:41,  1.73it/s]Training 1/3 epoch (loss 1.1218):  11%|█         | 1091/9753 [11:40<1:23:07,  1.74it/s]Training 1/3 epoch (loss 1.0340):  11%|█         | 1091/9753 [11:41<1:23:07,  1.74it/s]Training 1/3 epoch (loss 1.0340):  11%|█         | 1092/9753 [11:41<1:22:25,  1.75it/s]Training 1/3 epoch (loss 1.0364):  11%|█         | 1092/9753 [11:41<1:22:25,  1.75it/s]Training 1/3 epoch (loss 1.0364):  11%|█         | 1093/9753 [11:41<1:29:18,  1.62it/s]Training 1/3 epoch (loss 1.1152):  11%|█         | 1093/9753 [11:42<1:29:18,  1.62it/s]Training 1/3 epoch (loss 1.1152):  11%|█         | 1094/9753 [11:42<1:27:28,  1.65it/s]Training 1/3 epoch (loss 1.0926):  11%|█         | 1094/9753 [11:43<1:27:28,  1.65it/s]Training 1/3 epoch (loss 1.0926):  11%|█         | 1095/9753 [11:43<1:28:21,  1.63it/s]Training 1/3 epoch (loss 1.3456):  11%|█         | 1095/9753 [11:43<1:28:21,  1.63it/s]Training 1/3 epoch (loss 1.3456):  11%|█         | 1096/9753 [11:43<1:30:56,  1.59it/s]Training 1/3 epoch (loss 1.0686):  11%|█         | 1096/9753 [11:44<1:30:56,  1.59it/s]Training 1/3 epoch (loss 1.0686):  11%|█         | 1097/9753 [11:44<1:29:58,  1.60it/s]Training 1/3 epoch (loss 1.3749):  11%|█         | 1097/9753 [11:44<1:29:58,  1.60it/s]Training 1/3 epoch (loss 1.3749):  11%|█▏        | 1098/9753 [11:44<1:27:29,  1.65it/s]Training 1/3 epoch (loss 0.9179):  11%|█▏        | 1098/9753 [11:45<1:27:29,  1.65it/s]Training 1/3 epoch (loss 0.9179):  11%|█▏        | 1099/9753 [11:45<1:25:06,  1.69it/s]Training 1/3 epoch (loss 0.9904):  11%|█▏        | 1099/9753 [11:46<1:25:06,  1.69it/s]Training 1/3 epoch (loss 0.9904):  11%|█▏        | 1100/9753 [11:46<1:23:28,  1.73it/s]Training 1/3 epoch (loss 1.2018):  11%|█▏        | 1100/9753 [11:46<1:23:28,  1.73it/s]Training 1/3 epoch (loss 1.2018):  11%|█▏        | 1101/9753 [11:46<1:23:11,  1.73it/s]Training 1/3 epoch (loss 1.0192):  11%|█▏        | 1101/9753 [11:47<1:23:11,  1.73it/s]Training 1/3 epoch (loss 1.0192):  11%|█▏        | 1102/9753 [11:47<1:27:41,  1.64it/s]Training 1/3 epoch (loss 1.0983):  11%|█▏        | 1102/9753 [11:47<1:27:41,  1.64it/s]Training 1/3 epoch (loss 1.0983):  11%|█▏        | 1103/9753 [11:47<1:26:33,  1.67it/s]Training 1/3 epoch (loss 1.1186):  11%|█▏        | 1103/9753 [11:48<1:26:33,  1.67it/s]Training 1/3 epoch (loss 1.1186):  11%|█▏        | 1104/9753 [11:48<1:30:23,  1.59it/s]Training 1/3 epoch (loss 0.9649):  11%|█▏        | 1104/9753 [11:49<1:30:23,  1.59it/s]Training 1/3 epoch (loss 0.9649):  11%|█▏        | 1105/9753 [11:49<1:31:46,  1.57it/s]Training 1/3 epoch (loss 0.9375):  11%|█▏        | 1105/9753 [11:50<1:31:46,  1.57it/s]Training 1/3 epoch (loss 0.9375):  11%|█▏        | 1106/9753 [11:50<1:44:19,  1.38it/s]Training 1/3 epoch (loss 1.0997):  11%|█▏        | 1106/9753 [11:50<1:44:19,  1.38it/s]Training 1/3 epoch (loss 1.0997):  11%|█▏        | 1107/9753 [11:50<1:46:08,  1.36it/s]Training 1/3 epoch (loss 1.0844):  11%|█▏        | 1107/9753 [11:51<1:46:08,  1.36it/s]Training 1/3 epoch (loss 1.0844):  11%|█▏        | 1108/9753 [11:51<1:38:35,  1.46it/s]Training 1/3 epoch (loss 1.2424):  11%|█▏        | 1108/9753 [11:52<1:38:35,  1.46it/s]Training 1/3 epoch (loss 1.2424):  11%|█▏        | 1109/9753 [11:52<1:36:43,  1.49it/s]Training 1/3 epoch (loss 1.0027):  11%|█▏        | 1109/9753 [11:52<1:36:43,  1.49it/s]Training 1/3 epoch (loss 1.0027):  11%|█▏        | 1110/9753 [11:52<1:32:11,  1.56it/s]Training 1/3 epoch (loss 1.0771):  11%|█▏        | 1110/9753 [11:53<1:32:11,  1.56it/s]Training 1/3 epoch (loss 1.0771):  11%|█▏        | 1111/9753 [11:53<1:28:35,  1.63it/s]Training 1/3 epoch (loss 0.8864):  11%|█▏        | 1111/9753 [11:53<1:28:35,  1.63it/s]Training 1/3 epoch (loss 0.8864):  11%|█▏        | 1112/9753 [11:53<1:29:29,  1.61it/s]Training 1/3 epoch (loss 0.7894):  11%|█▏        | 1112/9753 [11:54<1:29:29,  1.61it/s]Training 1/3 epoch (loss 0.7894):  11%|█▏        | 1113/9753 [11:54<1:26:12,  1.67it/s]Training 1/3 epoch (loss 0.9740):  11%|█▏        | 1113/9753 [11:55<1:26:12,  1.67it/s]Training 1/3 epoch (loss 0.9740):  11%|█▏        | 1114/9753 [11:55<1:37:41,  1.47it/s]Training 1/3 epoch (loss 1.1141):  11%|█▏        | 1114/9753 [11:55<1:37:41,  1.47it/s]Training 1/3 epoch (loss 1.1141):  11%|█▏        | 1115/9753 [11:55<1:32:57,  1.55it/s]Training 1/3 epoch (loss 0.9999):  11%|█▏        | 1115/9753 [11:56<1:32:57,  1.55it/s]Training 1/3 epoch (loss 0.9999):  11%|█▏        | 1116/9753 [11:56<1:32:03,  1.56it/s]Training 1/3 epoch (loss 1.0212):  11%|█▏        | 1116/9753 [11:57<1:32:03,  1.56it/s]Training 1/3 epoch (loss 1.0212):  11%|█▏        | 1117/9753 [11:57<1:28:27,  1.63it/s]Training 1/3 epoch (loss 1.0607):  11%|█▏        | 1117/9753 [11:57<1:28:27,  1.63it/s]Training 1/3 epoch (loss 1.0607):  11%|█▏        | 1118/9753 [11:57<1:25:43,  1.68it/s]Training 1/3 epoch (loss 1.0208):  11%|█▏        | 1118/9753 [11:58<1:25:43,  1.68it/s]Training 1/3 epoch (loss 1.0208):  11%|█▏        | 1119/9753 [11:58<1:23:46,  1.72it/s]Training 1/3 epoch (loss 0.8646):  11%|█▏        | 1119/9753 [11:58<1:23:46,  1.72it/s]Training 1/3 epoch (loss 0.8646):  11%|█▏        | 1120/9753 [11:58<1:27:45,  1.64it/s]Training 1/3 epoch (loss 1.2337):  11%|█▏        | 1120/9753 [11:59<1:27:45,  1.64it/s]Training 1/3 epoch (loss 1.2337):  11%|█▏        | 1121/9753 [11:59<1:26:19,  1.67it/s]Training 1/3 epoch (loss 1.1295):  11%|█▏        | 1121/9753 [11:59<1:26:19,  1.67it/s]Training 1/3 epoch (loss 1.1295):  12%|█▏        | 1122/9753 [11:59<1:25:00,  1.69it/s]Training 1/3 epoch (loss 0.8172):  12%|█▏        | 1122/9753 [12:00<1:25:00,  1.69it/s]Training 1/3 epoch (loss 0.8172):  12%|█▏        | 1123/9753 [12:00<1:26:16,  1.67it/s]Training 1/3 epoch (loss 1.0907):  12%|█▏        | 1123/9753 [12:01<1:26:16,  1.67it/s]Training 1/3 epoch (loss 1.0907):  12%|█▏        | 1124/9753 [12:01<1:24:14,  1.71it/s]Training 1/3 epoch (loss 1.0898):  12%|█▏        | 1124/9753 [12:02<1:24:14,  1.71it/s]Training 1/3 epoch (loss 1.0898):  12%|█▏        | 1125/9753 [12:02<1:38:36,  1.46it/s]Training 1/3 epoch (loss 0.9998):  12%|█▏        | 1125/9753 [12:02<1:38:36,  1.46it/s]Training 1/3 epoch (loss 0.9998):  12%|█▏        | 1126/9753 [12:02<1:36:48,  1.49it/s]Training 1/3 epoch (loss 1.3347):  12%|█▏        | 1126/9753 [12:03<1:36:48,  1.49it/s]Training 1/3 epoch (loss 1.3347):  12%|█▏        | 1127/9753 [12:03<1:32:04,  1.56it/s]Training 1/3 epoch (loss 0.9926):  12%|█▏        | 1127/9753 [12:03<1:32:04,  1.56it/s]Training 1/3 epoch (loss 0.9926):  12%|█▏        | 1128/9753 [12:03<1:32:21,  1.56it/s]Training 1/3 epoch (loss 1.1669):  12%|█▏        | 1128/9753 [12:04<1:32:21,  1.56it/s]Training 1/3 epoch (loss 1.1669):  12%|█▏        | 1129/9753 [12:04<1:41:43,  1.41it/s]Training 1/3 epoch (loss 1.2303):  12%|█▏        | 1129/9753 [12:05<1:41:43,  1.41it/s]Training 1/3 epoch (loss 1.2303):  12%|█▏        | 1130/9753 [12:05<1:39:15,  1.45it/s]Training 1/3 epoch (loss 1.2096):  12%|█▏        | 1130/9753 [12:06<1:39:15,  1.45it/s]Training 1/3 epoch (loss 1.2096):  12%|█▏        | 1131/9753 [12:06<1:37:04,  1.48it/s]Training 1/3 epoch (loss 1.0205):  12%|█▏        | 1131/9753 [12:06<1:37:04,  1.48it/s]Training 1/3 epoch (loss 1.0205):  12%|█▏        | 1132/9753 [12:06<1:37:15,  1.48it/s]Training 1/3 epoch (loss 1.3148):  12%|█▏        | 1132/9753 [12:07<1:37:15,  1.48it/s]Training 1/3 epoch (loss 1.3148):  12%|█▏        | 1133/9753 [12:07<1:33:14,  1.54it/s]Training 1/3 epoch (loss 1.2557):  12%|█▏        | 1133/9753 [12:08<1:33:14,  1.54it/s]Training 1/3 epoch (loss 1.2557):  12%|█▏        | 1134/9753 [12:08<1:44:42,  1.37it/s]Training 1/3 epoch (loss 1.1687):  12%|█▏        | 1134/9753 [12:08<1:44:42,  1.37it/s]Training 1/3 epoch (loss 1.1687):  12%|█▏        | 1135/9753 [12:08<1:40:22,  1.43it/s]Training 1/3 epoch (loss 1.0615):  12%|█▏        | 1135/9753 [12:09<1:40:22,  1.43it/s]Training 1/3 epoch (loss 1.0615):  12%|█▏        | 1136/9753 [12:09<1:47:46,  1.33it/s]Training 1/3 epoch (loss 1.0982):  12%|█▏        | 1136/9753 [12:10<1:47:46,  1.33it/s]Training 1/3 epoch (loss 1.0982):  12%|█▏        | 1137/9753 [12:10<1:43:10,  1.39it/s]Training 1/3 epoch (loss 1.2642):  12%|█▏        | 1137/9753 [12:10<1:43:10,  1.39it/s]Training 1/3 epoch (loss 1.2642):  12%|█▏        | 1138/9753 [12:10<1:36:04,  1.49it/s]Training 1/3 epoch (loss 0.9306):  12%|█▏        | 1138/9753 [12:11<1:36:04,  1.49it/s]Training 1/3 epoch (loss 0.9306):  12%|█▏        | 1139/9753 [12:11<1:46:36,  1.35it/s]Training 1/3 epoch (loss 1.0729):  12%|█▏        | 1139/9753 [12:12<1:46:36,  1.35it/s]Training 1/3 epoch (loss 1.0729):  12%|█▏        | 1140/9753 [12:12<1:41:54,  1.41it/s]Training 1/3 epoch (loss 1.1274):  12%|█▏        | 1140/9753 [12:13<1:41:54,  1.41it/s]Training 1/3 epoch (loss 1.1274):  12%|█▏        | 1141/9753 [12:13<1:40:05,  1.43it/s]Training 1/3 epoch (loss 1.0942):  12%|█▏        | 1141/9753 [12:13<1:40:05,  1.43it/s]Training 1/3 epoch (loss 1.0942):  12%|█▏        | 1142/9753 [12:13<1:34:29,  1.52it/s]Training 1/3 epoch (loss 1.1651):  12%|█▏        | 1142/9753 [12:14<1:34:29,  1.52it/s]Training 1/3 epoch (loss 1.1651):  12%|█▏        | 1143/9753 [12:14<1:31:14,  1.57it/s]Training 1/3 epoch (loss 1.2384):  12%|█▏        | 1143/9753 [12:14<1:31:14,  1.57it/s]Training 1/3 epoch (loss 1.2384):  12%|█▏        | 1144/9753 [12:14<1:27:42,  1.64it/s]Training 1/3 epoch (loss 1.1827):  12%|█▏        | 1144/9753 [12:15<1:27:42,  1.64it/s]Training 1/3 epoch (loss 1.1827):  12%|█▏        | 1145/9753 [12:15<1:33:59,  1.53it/s]Training 1/3 epoch (loss 1.0670):  12%|█▏        | 1145/9753 [12:16<1:33:59,  1.53it/s]Training 1/3 epoch (loss 1.0670):  12%|█▏        | 1146/9753 [12:16<1:37:43,  1.47it/s]Training 1/3 epoch (loss 1.2229):  12%|█▏        | 1146/9753 [12:16<1:37:43,  1.47it/s]Training 1/3 epoch (loss 1.2229):  12%|█▏        | 1147/9753 [12:16<1:36:16,  1.49it/s]Training 1/3 epoch (loss 1.0978):  12%|█▏        | 1147/9753 [12:17<1:36:16,  1.49it/s]Training 1/3 epoch (loss 1.0978):  12%|█▏        | 1148/9753 [12:17<1:37:04,  1.48it/s]Training 1/3 epoch (loss 0.9282):  12%|█▏        | 1148/9753 [12:18<1:37:04,  1.48it/s]Training 1/3 epoch (loss 0.9282):  12%|█▏        | 1149/9753 [12:18<1:32:13,  1.55it/s]Training 1/3 epoch (loss 1.1859):  12%|█▏        | 1149/9753 [12:18<1:32:13,  1.55it/s]Training 1/3 epoch (loss 1.1859):  12%|█▏        | 1150/9753 [12:18<1:27:57,  1.63it/s]Training 1/3 epoch (loss 1.1534):  12%|█▏        | 1150/9753 [12:19<1:27:57,  1.63it/s]Training 1/3 epoch (loss 1.1534):  12%|█▏        | 1151/9753 [12:19<1:25:14,  1.68it/s]Training 1/3 epoch (loss 0.9830):  12%|█▏        | 1151/9753 [12:20<1:25:14,  1.68it/s]Training 1/3 epoch (loss 0.9830):  12%|█▏        | 1152/9753 [12:20<1:28:43,  1.62it/s]Training 1/3 epoch (loss 0.8253):  12%|█▏        | 1152/9753 [12:20<1:28:43,  1.62it/s]Training 1/3 epoch (loss 0.8253):  12%|█▏        | 1153/9753 [12:20<1:35:36,  1.50it/s]Training 1/3 epoch (loss 1.2224):  12%|█▏        | 1153/9753 [12:21<1:35:36,  1.50it/s]Training 1/3 epoch (loss 1.2224):  12%|█▏        | 1154/9753 [12:21<1:30:49,  1.58it/s]Training 1/3 epoch (loss 0.9449):  12%|█▏        | 1154/9753 [12:21<1:30:49,  1.58it/s]Training 1/3 epoch (loss 0.9449):  12%|█▏        | 1155/9753 [12:21<1:29:24,  1.60it/s]Training 1/3 epoch (loss 1.1342):  12%|█▏        | 1155/9753 [12:22<1:29:24,  1.60it/s]Training 1/3 epoch (loss 1.1342):  12%|█▏        | 1156/9753 [12:22<1:28:10,  1.63it/s]Training 1/3 epoch (loss 1.1365):  12%|█▏        | 1156/9753 [12:23<1:28:10,  1.63it/s]Training 1/3 epoch (loss 1.1365):  12%|█▏        | 1157/9753 [12:23<1:25:13,  1.68it/s]Training 1/3 epoch (loss 1.1916):  12%|█▏        | 1157/9753 [12:23<1:25:13,  1.68it/s]Training 1/3 epoch (loss 1.1916):  12%|█▏        | 1158/9753 [12:23<1:25:25,  1.68it/s]Training 1/3 epoch (loss 1.1953):  12%|█▏        | 1158/9753 [12:24<1:25:25,  1.68it/s]Training 1/3 epoch (loss 1.1953):  12%|█▏        | 1159/9753 [12:24<1:23:46,  1.71it/s]Training 1/3 epoch (loss 0.8639):  12%|█▏        | 1159/9753 [12:24<1:23:46,  1.71it/s]Training 1/3 epoch (loss 0.8639):  12%|█▏        | 1160/9753 [12:24<1:23:42,  1.71it/s]Training 1/3 epoch (loss 1.0469):  12%|█▏        | 1160/9753 [12:25<1:23:42,  1.71it/s]Training 1/3 epoch (loss 1.0469):  12%|█▏        | 1161/9753 [12:25<1:29:52,  1.59it/s]Training 1/3 epoch (loss 1.2482):  12%|█▏        | 1161/9753 [12:26<1:29:52,  1.59it/s]Training 1/3 epoch (loss 1.2482):  12%|█▏        | 1162/9753 [12:26<1:30:42,  1.58it/s]Training 1/3 epoch (loss 0.9390):  12%|█▏        | 1162/9753 [12:26<1:30:42,  1.58it/s]Training 1/3 epoch (loss 0.9390):  12%|█▏        | 1163/9753 [12:26<1:29:28,  1.60it/s]Training 1/3 epoch (loss 1.0278):  12%|█▏        | 1163/9753 [12:27<1:29:28,  1.60it/s]Training 1/3 epoch (loss 1.0278):  12%|█▏        | 1164/9753 [12:27<1:28:24,  1.62it/s]Training 1/3 epoch (loss 1.2028):  12%|█▏        | 1164/9753 [12:27<1:28:24,  1.62it/s]Training 1/3 epoch (loss 1.2028):  12%|█▏        | 1165/9753 [12:27<1:26:22,  1.66it/s]Training 1/3 epoch (loss 1.1921):  12%|█▏        | 1165/9753 [12:28<1:26:22,  1.66it/s]Training 1/3 epoch (loss 1.1921):  12%|█▏        | 1166/9753 [12:28<1:24:30,  1.69it/s]Training 1/3 epoch (loss 1.3647):  12%|█▏        | 1166/9753 [12:29<1:24:30,  1.69it/s]Training 1/3 epoch (loss 1.3647):  12%|█▏        | 1167/9753 [12:29<1:23:56,  1.70it/s]Training 1/3 epoch (loss 1.0636):  12%|█▏        | 1167/9753 [12:29<1:23:56,  1.70it/s]Training 1/3 epoch (loss 1.0636):  12%|█▏        | 1168/9753 [12:29<1:29:07,  1.61it/s]Training 1/3 epoch (loss 1.1709):  12%|█▏        | 1168/9753 [12:30<1:29:07,  1.61it/s]Training 1/3 epoch (loss 1.1709):  12%|█▏        | 1169/9753 [12:30<1:29:17,  1.60it/s]Training 1/3 epoch (loss 1.1700):  12%|█▏        | 1169/9753 [12:31<1:29:17,  1.60it/s]Training 1/3 epoch (loss 1.1700):  12%|█▏        | 1170/9753 [12:31<1:30:22,  1.58it/s]Training 1/3 epoch (loss 1.0068):  12%|█▏        | 1170/9753 [12:32<1:30:22,  1.58it/s]Training 1/3 epoch (loss 1.0068):  12%|█▏        | 1171/9753 [12:32<1:44:32,  1.37it/s]Training 1/3 epoch (loss 1.1943):  12%|█▏        | 1171/9753 [12:32<1:44:32,  1.37it/s]Training 1/3 epoch (loss 1.1943):  12%|█▏        | 1172/9753 [12:32<1:38:50,  1.45it/s]Training 1/3 epoch (loss 0.6382):  12%|█▏        | 1172/9753 [12:33<1:38:50,  1.45it/s]Training 1/3 epoch (loss 0.6382):  12%|█▏        | 1173/9753 [12:33<1:40:18,  1.43it/s]Training 1/3 epoch (loss 1.2127):  12%|█▏        | 1173/9753 [12:34<1:40:18,  1.43it/s]Training 1/3 epoch (loss 1.2127):  12%|█▏        | 1174/9753 [12:34<1:40:42,  1.42it/s]Training 1/3 epoch (loss 1.0667):  12%|█▏        | 1174/9753 [12:34<1:40:42,  1.42it/s]Training 1/3 epoch (loss 1.0667):  12%|█▏        | 1175/9753 [12:34<1:36:27,  1.48it/s]Training 1/3 epoch (loss 0.9929):  12%|█▏        | 1175/9753 [12:35<1:36:27,  1.48it/s]Training 1/3 epoch (loss 0.9929):  12%|█▏        | 1176/9753 [12:35<1:34:12,  1.52it/s]Training 1/3 epoch (loss 0.9783):  12%|█▏        | 1176/9753 [12:36<1:34:12,  1.52it/s]Training 1/3 epoch (loss 0.9783):  12%|█▏        | 1177/9753 [12:36<1:35:22,  1.50it/s]Training 1/3 epoch (loss 1.1881):  12%|█▏        | 1177/9753 [12:36<1:35:22,  1.50it/s]Training 1/3 epoch (loss 1.1881):  12%|█▏        | 1178/9753 [12:36<1:32:45,  1.54it/s]Training 1/3 epoch (loss 1.0670):  12%|█▏        | 1178/9753 [12:37<1:32:45,  1.54it/s]Training 1/3 epoch (loss 1.0670):  12%|█▏        | 1179/9753 [12:37<1:29:39,  1.59it/s]Training 1/3 epoch (loss 1.0830):  12%|█▏        | 1179/9753 [12:37<1:29:39,  1.59it/s]Training 1/3 epoch (loss 1.0830):  12%|█▏        | 1180/9753 [12:37<1:33:17,  1.53it/s]Training 1/3 epoch (loss 0.8147):  12%|█▏        | 1180/9753 [12:38<1:33:17,  1.53it/s]Training 1/3 epoch (loss 0.8147):  12%|█▏        | 1181/9753 [12:38<1:28:59,  1.61it/s]Training 1/3 epoch (loss 0.9768):  12%|█▏        | 1181/9753 [12:39<1:28:59,  1.61it/s]Training 1/3 epoch (loss 0.9768):  12%|█▏        | 1182/9753 [12:39<1:27:16,  1.64it/s]Training 1/3 epoch (loss 1.0875):  12%|█▏        | 1182/9753 [12:39<1:27:16,  1.64it/s]Training 1/3 epoch (loss 1.0875):  12%|█▏        | 1183/9753 [12:39<1:24:34,  1.69it/s]Training 1/3 epoch (loss 1.2308):  12%|█▏        | 1183/9753 [12:40<1:24:34,  1.69it/s]Training 1/3 epoch (loss 1.2308):  12%|█▏        | 1184/9753 [12:40<1:31:38,  1.56it/s]Training 1/3 epoch (loss 1.0691):  12%|█▏        | 1184/9753 [12:40<1:31:38,  1.56it/s]Training 1/3 epoch (loss 1.0691):  12%|█▏        | 1185/9753 [12:40<1:29:28,  1.60it/s]Training 1/3 epoch (loss 1.1257):  12%|█▏        | 1185/9753 [12:41<1:29:28,  1.60it/s]Training 1/3 epoch (loss 1.1257):  12%|█▏        | 1186/9753 [12:41<1:26:23,  1.65it/s]Training 1/3 epoch (loss 0.9333):  12%|█▏        | 1186/9753 [12:42<1:26:23,  1.65it/s]Training 1/3 epoch (loss 0.9333):  12%|█▏        | 1187/9753 [12:42<1:24:03,  1.70it/s]Training 1/3 epoch (loss 1.0593):  12%|█▏        | 1187/9753 [12:42<1:24:03,  1.70it/s]Training 1/3 epoch (loss 1.0593):  12%|█▏        | 1188/9753 [12:42<1:23:13,  1.72it/s]Training 1/3 epoch (loss 1.2857):  12%|█▏        | 1188/9753 [12:43<1:23:13,  1.72it/s]Training 1/3 epoch (loss 1.2857):  12%|█▏        | 1189/9753 [12:43<1:22:01,  1.74it/s]Training 1/3 epoch (loss 1.3033):  12%|█▏        | 1189/9753 [12:43<1:22:01,  1.74it/s]Training 1/3 epoch (loss 1.3033):  12%|█▏        | 1190/9753 [12:43<1:25:25,  1.67it/s]Training 1/3 epoch (loss 1.1594):  12%|█▏        | 1190/9753 [12:44<1:25:25,  1.67it/s]Training 1/3 epoch (loss 1.1594):  12%|█▏        | 1191/9753 [12:44<1:24:11,  1.69it/s]Training 1/3 epoch (loss 1.1169):  12%|█▏        | 1191/9753 [12:44<1:24:11,  1.69it/s]Training 1/3 epoch (loss 1.1169):  12%|█▏        | 1192/9753 [12:44<1:22:32,  1.73it/s]Training 1/3 epoch (loss 1.0900):  12%|█▏        | 1192/9753 [12:45<1:22:32,  1.73it/s]Training 1/3 epoch (loss 1.0900):  12%|█▏        | 1193/9753 [12:45<1:21:31,  1.75it/s]Training 1/3 epoch (loss 1.0522):  12%|█▏        | 1193/9753 [12:46<1:21:31,  1.75it/s]Training 1/3 epoch (loss 1.0522):  12%|█▏        | 1194/9753 [12:46<1:20:34,  1.77it/s]Training 1/3 epoch (loss 0.9172):  12%|█▏        | 1194/9753 [12:46<1:20:34,  1.77it/s]Training 1/3 epoch (loss 0.9172):  12%|█▏        | 1195/9753 [12:46<1:19:57,  1.78it/s]Training 1/3 epoch (loss 1.5274):  12%|█▏        | 1195/9753 [12:47<1:19:57,  1.78it/s]Training 1/3 epoch (loss 1.5274):  12%|█▏        | 1196/9753 [12:47<1:19:27,  1.79it/s]Training 1/3 epoch (loss 1.1196):  12%|█▏        | 1196/9753 [12:47<1:19:27,  1.79it/s]Training 1/3 epoch (loss 1.1196):  12%|█▏        | 1197/9753 [12:47<1:27:35,  1.63it/s]Training 1/3 epoch (loss 1.5536):  12%|█▏        | 1197/9753 [12:48<1:27:35,  1.63it/s]Training 1/3 epoch (loss 1.5536):  12%|█▏        | 1198/9753 [12:48<1:26:06,  1.66it/s]Training 1/3 epoch (loss 1.0248):  12%|█▏        | 1198/9753 [12:49<1:26:06,  1.66it/s]Training 1/3 epoch (loss 1.0248):  12%|█▏        | 1199/9753 [12:49<1:23:36,  1.71it/s]Training 1/3 epoch (loss 0.9845):  12%|█▏        | 1199/9753 [12:49<1:23:36,  1.71it/s]Training 1/3 epoch (loss 0.9845):  12%|█▏        | 1200/9753 [12:49<1:28:57,  1.60it/s]Training 1/3 epoch (loss 1.3809):  12%|█▏        | 1200/9753 [12:50<1:28:57,  1.60it/s]Training 1/3 epoch (loss 1.3809):  12%|█▏        | 1201/9753 [12:50<1:26:05,  1.66it/s]Training 1/3 epoch (loss 1.1163):  12%|█▏        | 1201/9753 [12:50<1:26:05,  1.66it/s]Training 1/3 epoch (loss 1.1163):  12%|█▏        | 1202/9753 [12:50<1:24:23,  1.69it/s]Training 1/3 epoch (loss 1.0505):  12%|█▏        | 1202/9753 [12:51<1:24:23,  1.69it/s]Training 1/3 epoch (loss 1.0505):  12%|█▏        | 1203/9753 [12:51<1:24:00,  1.70it/s]Training 1/3 epoch (loss 1.2079):  12%|█▏        | 1203/9753 [12:52<1:24:00,  1.70it/s]Training 1/3 epoch (loss 1.2079):  12%|█▏        | 1204/9753 [12:52<1:23:55,  1.70it/s]Training 1/3 epoch (loss 1.1380):  12%|█▏        | 1204/9753 [12:52<1:23:55,  1.70it/s]Training 1/3 epoch (loss 1.1380):  12%|█▏        | 1205/9753 [12:52<1:25:30,  1.67it/s]Training 1/3 epoch (loss 0.9896):  12%|█▏        | 1205/9753 [12:53<1:25:30,  1.67it/s]Training 1/3 epoch (loss 0.9896):  12%|█▏        | 1206/9753 [12:53<1:26:50,  1.64it/s]Training 1/3 epoch (loss 0.9762):  12%|█▏        | 1206/9753 [12:53<1:26:50,  1.64it/s]Training 1/3 epoch (loss 0.9762):  12%|█▏        | 1207/9753 [12:53<1:24:31,  1.69it/s]Training 1/3 epoch (loss 0.9565):  12%|█▏        | 1207/9753 [12:54<1:24:31,  1.69it/s]Training 1/3 epoch (loss 0.9565):  12%|█▏        | 1208/9753 [12:54<1:27:01,  1.64it/s]Training 1/3 epoch (loss 0.9724):  12%|█▏        | 1208/9753 [12:55<1:27:01,  1.64it/s]Training 1/3 epoch (loss 0.9724):  12%|█▏        | 1209/9753 [12:55<1:28:05,  1.62it/s]Training 1/3 epoch (loss 1.0386):  12%|█▏        | 1209/9753 [12:55<1:28:05,  1.62it/s]Training 1/3 epoch (loss 1.0386):  12%|█▏        | 1210/9753 [12:55<1:25:29,  1.67it/s]Training 1/3 epoch (loss 1.3998):  12%|█▏        | 1210/9753 [12:56<1:25:29,  1.67it/s]Training 1/3 epoch (loss 1.3998):  12%|█▏        | 1211/9753 [12:56<1:23:57,  1.70it/s]Training 1/3 epoch (loss 1.0831):  12%|█▏        | 1211/9753 [12:56<1:23:57,  1.70it/s]Training 1/3 epoch (loss 1.0831):  12%|█▏        | 1212/9753 [12:56<1:22:26,  1.73it/s]Training 1/3 epoch (loss 1.1296):  12%|█▏        | 1212/9753 [12:57<1:22:26,  1.73it/s]Training 1/3 epoch (loss 1.1296):  12%|█▏        | 1213/9753 [12:57<1:21:29,  1.75it/s]Training 1/3 epoch (loss 0.9811):  12%|█▏        | 1213/9753 [12:57<1:21:29,  1.75it/s]Training 1/3 epoch (loss 0.9811):  12%|█▏        | 1214/9753 [12:57<1:20:39,  1.76it/s]Training 1/3 epoch (loss 0.9533):  12%|█▏        | 1214/9753 [12:58<1:20:39,  1.76it/s]Training 1/3 epoch (loss 0.9533):  12%|█▏        | 1215/9753 [12:58<1:22:54,  1.72it/s]Training 1/3 epoch (loss 1.2970):  12%|█▏        | 1215/9753 [12:59<1:22:54,  1.72it/s]Training 1/3 epoch (loss 1.2970):  12%|█▏        | 1216/9753 [12:59<1:27:01,  1.64it/s]Training 1/3 epoch (loss 1.2377):  12%|█▏        | 1216/9753 [12:59<1:27:01,  1.64it/s]Training 1/3 epoch (loss 1.2377):  12%|█▏        | 1217/9753 [12:59<1:32:07,  1.54it/s]Training 1/3 epoch (loss 1.2308):  12%|█▏        | 1217/9753 [13:00<1:32:07,  1.54it/s]Training 1/3 epoch (loss 1.2308):  12%|█▏        | 1218/9753 [13:00<1:31:50,  1.55it/s]Training 1/3 epoch (loss 1.0515):  12%|█���        | 1218/9753 [13:01<1:31:50,  1.55it/s]Training 1/3 epoch (loss 1.0515):  12%|█▏        | 1219/9753 [13:01<1:31:56,  1.55it/s]Training 1/3 epoch (loss 1.0021):  12%|█▏        | 1219/9753 [13:01<1:31:56,  1.55it/s]Training 1/3 epoch (loss 1.0021):  13%|█▎        | 1220/9753 [13:01<1:29:07,  1.60it/s]Training 1/3 epoch (loss 1.0803):  13%|█▎        | 1220/9753 [13:02<1:29:07,  1.60it/s]Training 1/3 epoch (loss 1.0803):  13%|█▎        | 1221/9753 [13:02<1:29:34,  1.59it/s]Training 1/3 epoch (loss 1.2626):  13%|█▎        | 1221/9753 [13:03<1:29:34,  1.59it/s]Training 1/3 epoch (loss 1.2626):  13%|█▎        | 1222/9753 [13:03<1:26:31,  1.64it/s]Training 1/3 epoch (loss 1.1214):  13%|█▎        | 1222/9753 [13:03<1:26:31,  1.64it/s]Training 1/3 epoch (loss 1.1214):  13%|█▎        | 1223/9753 [13:03<1:24:07,  1.69it/s]Training 1/3 epoch (loss 1.1717):  13%|█▎        | 1223/9753 [13:04<1:24:07,  1.69it/s]Training 1/3 epoch (loss 1.1717):  13%|█▎        | 1224/9753 [13:04<1:22:23,  1.73it/s]Training 1/3 epoch (loss 1.0423):  13%|█▎        | 1224/9753 [13:04<1:22:23,  1.73it/s]Training 1/3 epoch (loss 1.0423):  13%|█▎        | 1225/9753 [13:04<1:21:04,  1.75it/s]Training 1/3 epoch (loss 1.0738):  13%|█▎        | 1225/9753 [13:05<1:21:04,  1.75it/s]Training 1/3 epoch (loss 1.0738):  13%|█▎        | 1226/9753 [13:05<1:25:31,  1.66it/s]Training 1/3 epoch (loss 1.1371):  13%|█▎        | 1226/9753 [13:05<1:25:31,  1.66it/s]Training 1/3 epoch (loss 1.1371):  13%|█▎        | 1227/9753 [13:05<1:24:03,  1.69it/s]Training 1/3 epoch (loss 1.0353):  13%|█▎        | 1227/9753 [13:06<1:24:03,  1.69it/s]Training 1/3 epoch (loss 1.0353):  13%|█▎        | 1228/9753 [13:06<1:22:12,  1.73it/s]Training 1/3 epoch (loss 1.0920):  13%|█▎        | 1228/9753 [13:07<1:22:12,  1.73it/s]Training 1/3 epoch (loss 1.0920):  13%|█▎        | 1229/9753 [13:07<1:21:04,  1.75it/s]Training 1/3 epoch (loss 1.0830):  13%|█▎        | 1229/9753 [13:07<1:21:04,  1.75it/s]Training 1/3 epoch (loss 1.0830):  13%|█▎        | 1230/9753 [13:07<1:20:08,  1.77it/s]Training 1/3 epoch (loss 1.1318):  13%|█▎        | 1230/9753 [13:08<1:20:08,  1.77it/s]Training 1/3 epoch (loss 1.1318):  13%|█▎        | 1231/9753 [13:08<1:19:30,  1.79it/s]Training 1/3 epoch (loss 1.0856):  13%|█▎        | 1231/9753 [13:08<1:19:30,  1.79it/s]Training 1/3 epoch (loss 1.0856):  13%|█▎        | 1232/9753 [13:08<1:29:51,  1.58it/s]Training 1/3 epoch (loss 1.2357):  13%|█▎        | 1232/9753 [13:09<1:29:51,  1.58it/s]Training 1/3 epoch (loss 1.2357):  13%|█▎        | 1233/9753 [13:09<1:34:32,  1.50it/s]Training 1/3 epoch (loss 1.0479):  13%|█▎        | 1233/9753 [13:10<1:34:32,  1.50it/s]Training 1/3 epoch (loss 1.0479):  13%|█▎        | 1234/9753 [13:10<1:45:22,  1.35it/s]Training 1/3 epoch (loss 0.9794):  13%|█▎        | 1234/9753 [13:11<1:45:22,  1.35it/s]Training 1/3 epoch (loss 0.9794):  13%|█▎        | 1235/9753 [13:11<1:38:53,  1.44it/s]Training 1/3 epoch (loss 0.9270):  13%|█▎        | 1235/9753 [13:11<1:38:53,  1.44it/s]Training 1/3 epoch (loss 0.9270):  13%|█▎        | 1236/9753 [13:11<1:32:33,  1.53it/s]Training 1/3 epoch (loss 1.0640):  13%|█▎        | 1236/9753 [13:12<1:32:33,  1.53it/s]Training 1/3 epoch (loss 1.0640):  13%|█▎        | 1237/9753 [13:12<1:37:03,  1.46it/s]Training 1/3 epoch (loss 1.0321):  13%|█▎        | 1237/9753 [13:13<1:37:03,  1.46it/s]Training 1/3 epoch (loss 1.0321):  13%|█▎        | 1238/9753 [13:13<1:31:34,  1.55it/s]Training 1/3 epoch (loss 0.9311):  13%|█▎        | 1238/9753 [13:13<1:31:34,  1.55it/s]Training 1/3 epoch (loss 0.9311):  13%|█▎        | 1239/9753 [13:13<1:27:54,  1.61it/s]Training 1/3 epoch (loss 0.9870):  13%|█▎        | 1239/9753 [13:14<1:27:54,  1.61it/s]Training 1/3 epoch (loss 0.9870):  13%|█▎        | 1240/9753 [13:14<1:25:08,  1.67it/s]Training 1/3 epoch (loss 1.1724):  13%|█▎        | 1240/9753 [13:14<1:25:08,  1.67it/s]Training 1/3 epoch (loss 1.1724):  13%|█▎        | 1241/9753 [13:14<1:25:34,  1.66it/s]Training 1/3 epoch (loss 1.0190):  13%|█▎        | 1241/9753 [13:15<1:25:34,  1.66it/s]Training 1/3 epoch (loss 1.0190):  13%|█▎        | 1242/9753 [13:15<1:23:17,  1.70it/s]Training 1/3 epoch (loss 1.0900):  13%|█▎        | 1242/9753 [13:15<1:23:17,  1.70it/s]Training 1/3 epoch (loss 1.0900):  13%|█▎        | 1243/9753 [13:15<1:21:53,  1.73it/s]Training 1/3 epoch (loss 1.1136):  13%|█▎        | 1243/9753 [13:16<1:21:53,  1.73it/s]Training 1/3 epoch (loss 1.1136):  13%|█▎        | 1244/9753 [13:16<1:20:32,  1.76it/s]Training 1/3 epoch (loss 1.0579):  13%|█▎        | 1244/9753 [13:16<1:20:32,  1.76it/s]Training 1/3 epoch (loss 1.0579):  13%|█▎        | 1245/9753 [13:16<1:21:16,  1.74it/s]Training 1/3 epoch (loss 1.0815):  13%|█▎        | 1245/9753 [13:17<1:21:16,  1.74it/s]Training 1/3 epoch (loss 1.0815):  13%|█▎        | 1246/9753 [13:17<1:20:38,  1.76it/s]Training 1/3 epoch (loss 1.1089):  13%|█▎        | 1246/9753 [13:18<1:20:38,  1.76it/s]Training 1/3 epoch (loss 1.1089):  13%|█▎        | 1247/9753 [13:18<1:19:38,  1.78it/s]Training 1/3 epoch (loss 1.2806):  13%|█▎        | 1247/9753 [13:18<1:19:38,  1.78it/s]Training 1/3 epoch (loss 1.2806):  13%|█▎        | 1248/9753 [13:18<1:25:00,  1.67it/s]Training 1/3 epoch (loss 1.3395):  13%|█▎        | 1248/9753 [13:19<1:25:00,  1.67it/s]Training 1/3 epoch (loss 1.3395):  13%|█▎        | 1249/9753 [13:19<1:22:48,  1.71it/s]Training 1/3 epoch (loss 0.7922):  13%|█▎        | 1249/9753 [13:19<1:22:48,  1.71it/s]Training 1/3 epoch (loss 0.7922):  13%|█▎        | 1250/9753 [13:19<1:24:35,  1.68it/s]Training 1/3 epoch (loss 1.0072):  13%|█▎        | 1250/9753 [13:20<1:24:35,  1.68it/s]Training 1/3 epoch (loss 1.0072):  13%|█▎        | 1251/9753 [13:20<1:23:02,  1.71it/s]Training 1/3 epoch (loss 0.9573):  13%|█▎        | 1251/9753 [13:21<1:23:02,  1.71it/s]Training 1/3 epoch (loss 0.9573):  13%|█▎        | 1252/9753 [13:21<1:21:36,  1.74it/s]Training 1/3 epoch (loss 0.9930):  13%|█▎        | 1252/9753 [13:21<1:21:36,  1.74it/s]Training 1/3 epoch (loss 0.9930):  13%|█▎        | 1253/9753 [13:21<1:20:32,  1.76it/s]Training 1/3 epoch (loss 1.0679):  13%|█▎        | 1253/9753 [13:22<1:20:32,  1.76it/s]Training 1/3 epoch (loss 1.0679):  13%|█▎        | 1254/9753 [13:22<1:19:40,  1.78it/s]Training 1/3 epoch (loss 1.0468):  13%|█▎        | 1254/9753 [13:22<1:19:40,  1.78it/s]Training 1/3 epoch (loss 1.0468):  13%|█▎        | 1255/9753 [13:22<1:19:07,  1.79it/s]Training 1/3 epoch (loss 1.1676):  13%|█▎        | 1255/9753 [13:23<1:19:07,  1.79it/s]Training 1/3 epoch (loss 1.1676):  13%|█▎        | 1256/9753 [13:23<1:25:17,  1.66it/s]Training 1/3 epoch (loss 1.1033):  13%|█▎        | 1256/9753 [13:23<1:25:17,  1.66it/s]Training 1/3 epoch (loss 1.1033):  13%|█▎        | 1257/9753 [13:23<1:23:07,  1.70it/s]Training 1/3 epoch (loss 1.1563):  13%|█▎        | 1257/9753 [13:24<1:23:07,  1.70it/s]Training 1/3 epoch (loss 1.1563):  13%|█▎        | 1258/9753 [13:24<1:22:02,  1.73it/s]Training 1/3 epoch (loss 0.8824):  13%|█▎        | 1258/9753 [13:25<1:22:02,  1.73it/s]Training 1/3 epoch (loss 0.8824):  13%|█▎        | 1259/9753 [13:25<1:20:52,  1.75it/s]Training 1/3 epoch (loss 1.2504):  13%|█▎        | 1259/9753 [13:25<1:20:52,  1.75it/s]Training 1/3 epoch (loss 1.2504):  13%|█▎        | 1260/9753 [13:25<1:24:02,  1.68it/s]Training 1/3 epoch (loss 1.0704):  13%|█▎        | 1260/9753 [13:26<1:24:02,  1.68it/s]Training 1/3 epoch (loss 1.0704):  13%|█▎        | 1261/9753 [13:26<1:26:51,  1.63it/s]Training 1/3 epoch (loss 1.2176):  13%|█▎        | 1261/9753 [13:26<1:26:51,  1.63it/s]Training 1/3 epoch (loss 1.2176):  13%|█▎        | 1262/9753 [13:26<1:24:03,  1.68it/s]Training 1/3 epoch (loss 1.2136):  13%|█▎        | 1262/9753 [13:27<1:24:03,  1.68it/s]Training 1/3 epoch (loss 1.2136):  13%|█▎        | 1263/9753 [13:27<1:31:03,  1.55it/s]Training 1/3 epoch (loss 1.0417):  13%|█▎        | 1263/9753 [13:28<1:31:03,  1.55it/s]Training 1/3 epoch (loss 1.0417):  13%|█▎        | 1264/9753 [13:28<1:38:21,  1.44it/s]Training 1/3 epoch (loss 1.0287):  13%|█▎        | 1264/9753 [13:29<1:38:21,  1.44it/s]Training 1/3 epoch (loss 1.0287):  13%|█▎        | 1265/9753 [13:29<1:35:28,  1.48it/s]Training 1/3 epoch (loss 0.8576):  13%|█▎        | 1265/9753 [13:29<1:35:28,  1.48it/s]Training 1/3 epoch (loss 0.8576):  13%|█▎        | 1266/9753 [13:29<1:31:18,  1.55it/s]Training 1/3 epoch (loss 1.0146):  13%|█▎        | 1266/9753 [13:30<1:31:18,  1.55it/s]Training 1/3 epoch (loss 1.0146):  13%|█▎        | 1267/9753 [13:30<1:27:30,  1.62it/s]Training 1/3 epoch (loss 1.1276):  13%|█▎        | 1267/9753 [13:30<1:27:30,  1.62it/s]Training 1/3 epoch (loss 1.1276):  13%|█▎        | 1268/9753 [13:30<1:24:35,  1.67it/s]Training 1/3 epoch (loss 0.8590):  13%|█▎        | 1268/9753 [13:31<1:24:35,  1.67it/s]Training 1/3 epoch (loss 0.8590):  13%|█▎        | 1269/9753 [13:31<1:31:21,  1.55it/s]Training 1/3 epoch (loss 1.0307):  13%|█▎        | 1269/9753 [13:32<1:31:21,  1.55it/s]Training 1/3 epoch (loss 1.0307):  13%|█▎        | 1270/9753 [13:32<1:29:06,  1.59it/s]Training 1/3 epoch (loss 0.7939):  13%|█▎        | 1270/9753 [13:32<1:29:06,  1.59it/s]Training 1/3 epoch (loss 0.7939):  13%|█▎        | 1271/9753 [13:32<1:28:01,  1.61it/s]Training 1/3 epoch (loss 1.3039):  13%|█▎        | 1271/9753 [13:33<1:28:01,  1.61it/s]Training 1/3 epoch (loss 1.3039):  13%|█▎        | 1272/9753 [13:33<1:28:33,  1.60it/s]Training 1/3 epoch (loss 1.0871):  13%|█▎        | 1272/9753 [13:33<1:28:33,  1.60it/s]Training 1/3 epoch (loss 1.0871):  13%|█▎        | 1273/9753 [13:33<1:25:00,  1.66it/s]Training 1/3 epoch (loss 0.9030):  13%|█▎        | 1273/9753 [13:34<1:25:00,  1.66it/s]Training 1/3 epoch (loss 0.9030):  13%|█▎        | 1274/9753 [13:34<1:37:40,  1.45it/s]Training 1/3 epoch (loss 1.0860):  13%|█▎        | 1274/9753 [13:35<1:37:40,  1.45it/s]Training 1/3 epoch (loss 1.0860):  13%|█▎        | 1275/9753 [13:35<1:32:14,  1.53it/s]Training 1/3 epoch (loss 1.1041):  13%|█▎        | 1275/9753 [13:36<1:32:14,  1.53it/s]Training 1/3 epoch (loss 1.1041):  13%|█▎        | 1276/9753 [13:36<1:30:36,  1.56it/s]Training 1/3 epoch (loss 1.0224):  13%|█▎        | 1276/9753 [13:36<1:30:36,  1.56it/s]Training 1/3 epoch (loss 1.0224):  13%|█▎        | 1277/9753 [13:36<1:26:43,  1.63it/s]Training 1/3 epoch (loss 1.1352):  13%|█▎        | 1277/9753 [13:37<1:26:43,  1.63it/s]Training 1/3 epoch (loss 1.1352):  13%|█▎        | 1278/9753 [13:37<1:24:07,  1.68it/s]Training 1/3 epoch (loss 1.0144):  13%|█▎        | 1278/9753 [13:37<1:24:07,  1.68it/s]Training 1/3 epoch (loss 1.0144):  13%|█▎        | 1279/9753 [13:37<1:21:47,  1.73it/s]Training 1/3 epoch (loss 0.9435):  13%|█▎        | 1279/9753 [13:38<1:21:47,  1.73it/s]Training 1/3 epoch (loss 0.9435):  13%|█▎        | 1280/9753 [13:38<1:33:17,  1.51it/s]Training 1/3 epoch (loss 1.1972):  13%|█▎        | 1280/9753 [13:39<1:33:17,  1.51it/s]Training 1/3 epoch (loss 1.1972):  13%|█▎        | 1281/9753 [13:39<1:29:36,  1.58it/s]Training 1/3 epoch (loss 0.8002):  13%|█▎        | 1281/9753 [13:39<1:29:36,  1.58it/s]Training 1/3 epoch (loss 0.8002):  13%|█▎        | 1282/9753 [13:39<1:26:07,  1.64it/s]Training 1/3 epoch (loss 0.9653):  13%|█▎        | 1282/9753 [13:40<1:26:07,  1.64it/s]Training 1/3 epoch (loss 0.9653):  13%|█▎        | 1283/9753 [13:40<1:23:29,  1.69it/s]Training 1/3 epoch (loss 0.9665):  13%|█▎        | 1283/9753 [13:40<1:23:29,  1.69it/s]Training 1/3 epoch (loss 0.9665):  13%|█▎        | 1284/9753 [13:40<1:24:30,  1.67it/s]Training 1/3 epoch (loss 1.0844):  13%|█▎        | 1284/9753 [13:41<1:24:30,  1.67it/s]Training 1/3 epoch (loss 1.0844):  13%|█▎        | 1285/9753 [13:41<1:22:49,  1.70it/s]Training 1/3 epoch (loss 1.0708):  13%|█▎        | 1285/9753 [13:41<1:22:49,  1.70it/s]Training 1/3 epoch (loss 1.0708):  13%|█▎        | 1286/9753 [13:41<1:20:58,  1.74it/s]Training 1/3 epoch (loss 1.2905):  13%|█▎        | 1286/9753 [13:42<1:20:58,  1.74it/s]Training 1/3 epoch (loss 1.2905):  13%|█▎        | 1287/9753 [13:42<1:20:04,  1.76it/s]Training 1/3 epoch (loss 1.1066):  13%|█▎        | 1287/9753 [13:43<1:20:04,  1.76it/s]Training 1/3 epoch (loss 1.1066):  13%|█▎        | 1288/9753 [13:43<1:19:51,  1.77it/s]Training 1/3 epoch (loss 0.9875):  13%|█▎        | 1288/9753 [13:43<1:19:51,  1.77it/s]Training 1/3 epoch (loss 0.9875):  13%|█▎        | 1289/9753 [13:43<1:19:30,  1.77it/s]Training 1/3 epoch (loss 1.0298):  13%|█▎        | 1289/9753 [13:44<1:19:30,  1.77it/s]Training 1/3 epoch (loss 1.0298):  13%|█▎        | 1290/9753 [13:44<1:24:20,  1.67it/s]Training 1/3 epoch (loss 0.7954):  13%|█▎        | 1290/9753 [13:44<1:24:20,  1.67it/s]Training 1/3 epoch (loss 0.7954):  13%|█▎        | 1291/9753 [13:44<1:28:59,  1.58it/s]Training 1/3 epoch (loss 0.9503):  13%|█▎        | 1291/9753 [13:45<1:28:59,  1.58it/s]Training 1/3 epoch (loss 0.9503):  13%|█▎        | 1292/9753 [13:45<1:37:29,  1.45it/s]Training 1/3 epoch (loss 0.9851):  13%|█▎        | 1292/9753 [13:46<1:37:29,  1.45it/s]Training 1/3 epoch (loss 0.9851):  13%|█▎        | 1293/9753 [13:46<1:31:58,  1.53it/s]Training 1/3 epoch (loss 1.1560):  13%|█▎        | 1293/9753 [13:46<1:31:58,  1.53it/s]Training 1/3 epoch (loss 1.1560):  13%|█▎        | 1294/9753 [13:46<1:29:13,  1.58it/s]Training 1/3 epoch (loss 1.1691):  13%|█▎        | 1294/9753 [13:47<1:29:13,  1.58it/s]Training 1/3 epoch (loss 1.1691):  13%|█▎        | 1295/9753 [13:47<1:28:57,  1.58it/s]Training 1/3 epoch (loss 1.1964):  13%|█▎        | 1295/9753 [13:48<1:28:57,  1.58it/s]Training 1/3 epoch (loss 1.1964):  13%|█▎        | 1296/9753 [13:48<1:35:53,  1.47it/s]Training 1/3 epoch (loss 1.2899):  13%|█▎        | 1296/9753 [13:48<1:35:53,  1.47it/s]Training 1/3 epoch (loss 1.2899):  13%|█▎        | 1297/9753 [13:48<1:30:27,  1.56it/s]Training 1/3 epoch (loss 1.0284):  13%|█▎        | 1297/9753 [13:49<1:30:27,  1.56it/s]Training 1/3 epoch (loss 1.0284):  13%|█▎        | 1298/9753 [13:49<1:35:28,  1.48it/s]Training 1/3 epoch (loss 0.9987):  13%|█▎        | 1298/9753 [13:50<1:35:28,  1.48it/s]Training 1/3 epoch (loss 0.9987):  13%|█▎        | 1299/9753 [13:50<1:39:28,  1.42it/s]Training 1/3 epoch (loss 1.0627):  13%|█▎        | 1299/9753 [13:51<1:39:28,  1.42it/s]Training 1/3 epoch (loss 1.0627):  13%|█▎        | 1300/9753 [13:51<1:32:55,  1.52it/s]Training 1/3 epoch (loss 1.2013):  13%|█▎        | 1300/9753 [13:51<1:32:55,  1.52it/s]Training 1/3 epoch (loss 1.2013):  13%|█▎        | 1301/9753 [13:51<1:28:56,  1.58it/s]Training 1/3 epoch (loss 1.1048):  13%|█▎        | 1301/9753 [13:52<1:28:56,  1.58it/s]Training 1/3 epoch (loss 1.1048):  13%|█▎        | 1302/9753 [13:52<1:25:33,  1.65it/s]Training 1/3 epoch (loss 0.9748):  13%|█▎        | 1302/9753 [13:52<1:25:33,  1.65it/s]Training 1/3 epoch (loss 0.9748):  13%|█▎        | 1303/9753 [13:52<1:22:54,  1.70it/s]Training 1/3 epoch (loss 0.9322):  13%|█▎        | 1303/9753 [13:53<1:22:54,  1.70it/s]Training 1/3 epoch (loss 0.9322):  13%|█▎        | 1304/9753 [13:53<1:20:59,  1.74it/s]Training 1/3 epoch (loss 1.0071):  13%|█▎        | 1304/9753 [13:53<1:20:59,  1.74it/s]Training 1/3 epoch (loss 1.0071):  13%|█▎        | 1305/9753 [13:53<1:19:42,  1.77it/s]Training 1/3 epoch (loss 1.0820):  13%|█▎        | 1305/9753 [13:54<1:19:42,  1.77it/s]Training 1/3 epoch (loss 1.0820):  13%|█▎        | 1306/9753 [13:54<1:18:55,  1.78it/s]Training 1/3 epoch (loss 0.9311):  13%|█▎        | 1306/9753 [13:54<1:18:55,  1.78it/s]Training 1/3 epoch (loss 0.9311):  13%|█▎        | 1307/9753 [13:54<1:18:06,  1.80it/s]Training 1/3 epoch (loss 1.2064):  13%|█▎        | 1307/9753 [13:55<1:18:06,  1.80it/s]Training 1/3 epoch (loss 1.2064):  13%|█▎        | 1308/9753 [13:55<1:27:38,  1.61it/s]Training 1/3 epoch (loss 1.0771):  13%|█▎        | 1308/9753 [13:56<1:27:38,  1.61it/s]Training 1/3 epoch (loss 1.0771):  13%|█▎        | 1309/9753 [13:56<1:24:50,  1.66it/s]Training 1/3 epoch (loss 1.3758):  13%|█▎        | 1309/9753 [13:56<1:24:50,  1.66it/s]Training 1/3 epoch (loss 1.3758):  13%|█▎        | 1310/9753 [13:56<1:22:35,  1.70it/s]Training 1/3 epoch (loss 1.1778):  13%|█▎        | 1310/9753 [13:57<1:22:35,  1.70it/s]Training 1/3 epoch (loss 1.1778):  13%|█▎        | 1311/9753 [13:57<1:20:48,  1.74it/s]Training 1/3 epoch (loss 0.8818):  13%|█▎        | 1311/9753 [13:58<1:20:48,  1.74it/s]Training 1/3 epoch (loss 0.8818):  13%|█▎        | 1312/9753 [13:58<1:40:05,  1.41it/s]Training 1/3 epoch (loss 0.9775):  13%|█▎        | 1312/9753 [13:58<1:40:05,  1.41it/s]Training 1/3 epoch (loss 0.9775):  13%|█▎        | 1313/9753 [13:58<1:34:02,  1.50it/s]Training 1/3 epoch (loss 1.0991):  13%|█▎        | 1313/9753 [13:59<1:34:02,  1.50it/s]Training 1/3 epoch (loss 1.0991):  13%|█▎        | 1314/9753 [13:59<1:29:07,  1.58it/s]Training 1/3 epoch (loss 1.0823):  13%|█▎        | 1314/9753 [14:00<1:29:07,  1.58it/s]Training 1/3 epoch (loss 1.0823):  13%|█▎        | 1315/9753 [14:00<1:26:20,  1.63it/s]Training 1/3 epoch (loss 1.1067):  13%|█▎        | 1315/9753 [14:00<1:26:20,  1.63it/s]Training 1/3 epoch (loss 1.1067):  13%|█▎        | 1316/9753 [14:00<1:27:30,  1.61it/s]Training 1/3 epoch (loss 0.9133):  13%|█▎        | 1316/9753 [14:01<1:27:30,  1.61it/s]Training 1/3 epoch (loss 0.9133):  14%|█▎        | 1317/9753 [14:01<1:28:52,  1.58it/s]Training 1/3 epoch (loss 1.1092):  14%|█▎        | 1317/9753 [14:02<1:28:52,  1.58it/s]Training 1/3 epoch (loss 1.1092):  14%|█▎        | 1318/9753 [14:02<1:40:17,  1.40it/s]Training 1/3 epoch (loss 0.9837):  14%|█▎        | 1318/9753 [14:02<1:40:17,  1.40it/s]Training 1/3 epoch (loss 0.9837):  14%|█▎        | 1319/9753 [14:02<1:36:31,  1.46it/s]Training 1/3 epoch (loss 1.1782):  14%|█▎        | 1319/9753 [14:03<1:36:31,  1.46it/s]Training 1/3 epoch (loss 1.1782):  14%|█▎        | 1320/9753 [14:03<1:35:42,  1.47it/s]Training 1/3 epoch (loss 1.2375):  14%|█▎        | 1320/9753 [14:04<1:35:42,  1.47it/s]Training 1/3 epoch (loss 1.2375):  14%|█▎        | 1321/9753 [14:04<1:30:02,  1.56it/s]Training 1/3 epoch (loss 1.0819):  14%|█▎        | 1321/9753 [14:04<1:30:02,  1.56it/s]Training 1/3 epoch (loss 1.0819):  14%|█▎        | 1322/9753 [14:04<1:41:09,  1.39it/s]Training 1/3 epoch (loss 1.1533):  14%|█▎        | 1322/9753 [14:05<1:41:09,  1.39it/s]Training 1/3 epoch (loss 1.1533):  14%|█▎        | 1323/9753 [14:05<1:37:44,  1.44it/s]Training 1/3 epoch (loss 1.0388):  14%|█▎        | 1323/9753 [14:06<1:37:44,  1.44it/s]Training 1/3 epoch (loss 1.0388):  14%|█▎        | 1324/9753 [14:06<1:31:38,  1.53it/s]Training 1/3 epoch (loss 1.2363):  14%|█▎        | 1324/9753 [14:07<1:31:38,  1.53it/s]Training 1/3 epoch (loss 1.2363):  14%|█▎        | 1325/9753 [14:07<1:42:18,  1.37it/s]Training 1/3 epoch (loss 1.3578):  14%|█▎        | 1325/9753 [14:07<1:42:18,  1.37it/s]Training 1/3 epoch (loss 1.3578):  14%|█▎        | 1326/9753 [14:07<1:35:30,  1.47it/s]Training 1/3 epoch (loss 1.1191):  14%|█▎        | 1326/9753 [14:08<1:35:30,  1.47it/s]Training 1/3 epoch (loss 1.1191):  14%|█▎        | 1327/9753 [14:08<1:34:08,  1.49it/s]Training 1/3 epoch (loss 0.8974):  14%|█▎        | 1327/9753 [14:09<1:34:08,  1.49it/s]Training 1/3 epoch (loss 0.8974):  14%|█▎        | 1328/9753 [14:09<1:49:16,  1.28it/s]Training 1/3 epoch (loss 0.9863):  14%|█▎        | 1328/9753 [14:09<1:49:16,  1.28it/s]Training 1/3 epoch (loss 0.9863):  14%|█▎        | 1329/9753 [14:09<1:43:08,  1.36it/s]Training 1/3 epoch (loss 0.9587):  14%|█▎        | 1329/9753 [14:10<1:43:08,  1.36it/s]Training 1/3 epoch (loss 0.9587):  14%|█▎        | 1330/9753 [14:10<1:35:28,  1.47it/s]Training 1/3 epoch (loss 0.8416):  14%|█▎        | 1330/9753 [14:11<1:35:28,  1.47it/s]Training 1/3 epoch (loss 0.8416):  14%|█▎        | 1331/9753 [14:11<1:35:33,  1.47it/s]Training 1/3 epoch (loss 0.7791):  14%|█▎        | 1331/9753 [14:11<1:35:33,  1.47it/s]Training 1/3 epoch (loss 0.7791):  14%|█▎        | 1332/9753 [14:11<1:34:31,  1.48it/s]Training 1/3 epoch (loss 1.1093):  14%|█▎        | 1332/9753 [14:12<1:34:31,  1.48it/s]Training 1/3 epoch (loss 1.1093):  14%|█▎        | 1333/9753 [14:12<1:33:57,  1.49it/s]Training 1/3 epoch (loss 1.2164):  14%|█▎        | 1333/9753 [14:13<1:33:57,  1.49it/s]Training 1/3 epoch (loss 1.2164):  14%|█▎        | 1334/9753 [14:13<1:28:55,  1.58it/s]Training 1/3 epoch (loss 0.6821):  14%|█▎        | 1334/9753 [14:13<1:28:55,  1.58it/s]Training 1/3 epoch (loss 0.6821):  14%|█▎        | 1335/9753 [14:13<1:25:18,  1.64it/s]Training 1/3 epoch (loss 1.1379):  14%|█▎        | 1335/9753 [14:14<1:25:18,  1.64it/s]Training 1/3 epoch (loss 1.1379):  14%|█▎        | 1336/9753 [14:14<1:25:23,  1.64it/s]Training 1/3 epoch (loss 0.9439):  14%|█▎        | 1336/9753 [14:14<1:25:23,  1.64it/s]Training 1/3 epoch (loss 0.9439):  14%|█▎        | 1337/9753 [14:14<1:31:58,  1.53it/s]Training 1/3 epoch (loss 0.9417):  14%|█▎        | 1337/9753 [14:15<1:31:58,  1.53it/s]Training 1/3 epoch (loss 0.9417):  14%|█▎        | 1338/9753 [14:15<1:28:06,  1.59it/s]Training 1/3 epoch (loss 1.1940):  14%|█▎        | 1338/9753 [14:16<1:28:06,  1.59it/s]Training 1/3 epoch (loss 1.1940):  14%|█▎        | 1339/9753 [14:16<1:29:39,  1.56it/s]Training 1/3 epoch (loss 1.0348):  14%|█▎        | 1339/9753 [14:16<1:29:39,  1.56it/s]Training 1/3 epoch (loss 1.0348):  14%|█▎        | 1340/9753 [14:16<1:28:29,  1.58it/s]Training 1/3 epoch (loss 1.3949):  14%|█▎        | 1340/9753 [14:17<1:28:29,  1.58it/s]Training 1/3 epoch (loss 1.3949):  14%|█▎        | 1341/9753 [14:17<1:25:03,  1.65it/s]Training 1/3 epoch (loss 1.0477):  14%|█▎        | 1341/9753 [14:17<1:25:03,  1.65it/s]Training 1/3 epoch (loss 1.0477):  14%|█▍        | 1342/9753 [14:17<1:22:50,  1.69it/s]Training 1/3 epoch (loss 1.1844):  14%|█▍        | 1342/9753 [14:18<1:22:50,  1.69it/s]Training 1/3 epoch (loss 1.1844):  14%|█▍        | 1343/9753 [14:18<1:21:11,  1.73it/s]Training 1/3 epoch (loss 1.0663):  14%|█▍        | 1343/9753 [14:19<1:21:11,  1.73it/s]Training 1/3 epoch (loss 1.0663):  14%|█▍        | 1344/9753 [14:19<1:29:20,  1.57it/s]Training 1/3 epoch (loss 1.0748):  14%|█▍        | 1344/9753 [14:19<1:29:20,  1.57it/s]Training 1/3 epoch (loss 1.0748):  14%|█▍        | 1345/9753 [14:19<1:26:28,  1.62it/s]Training 1/3 epoch (loss 0.7549):  14%|█▍        | 1345/9753 [14:20<1:26:28,  1.62it/s]Training 1/3 epoch (loss 0.7549):  14%|█▍        | 1346/9753 [14:20<1:27:59,  1.59it/s]Training 1/3 epoch (loss 1.1059):  14%|█▍        | 1346/9753 [14:21<1:27:59,  1.59it/s]Training 1/3 epoch (loss 1.1059):  14%|█▍        | 1347/9753 [14:21<1:27:01,  1.61it/s]Training 1/3 epoch (loss 1.0795):  14%|█▍        | 1347/9753 [14:21<1:27:01,  1.61it/s]Training 1/3 epoch (loss 1.0795):  14%|█▍        | 1348/9753 [14:21<1:23:38,  1.67it/s]Training 1/3 epoch (loss 1.1272):  14%|█▍        | 1348/9753 [14:22<1:23:38,  1.67it/s]Training 1/3 epoch (loss 1.1272):  14%|█▍        | 1349/9753 [14:22<1:30:16,  1.55it/s]Training 1/3 epoch (loss 0.8760):  14%|█▍        | 1349/9753 [14:22<1:30:16,  1.55it/s]Training 1/3 epoch (loss 0.8760):  14%|█▍        | 1350/9753 [14:22<1:26:18,  1.62it/s]Training 1/3 epoch (loss 1.1197):  14%|█▍        | 1350/9753 [14:23<1:26:18,  1.62it/s]Training 1/3 epoch (loss 1.1197):  14%|█▍        | 1351/9753 [14:23<1:28:59,  1.57it/s]Training 1/3 epoch (loss 0.9466):  14%|█▍        | 1351/9753 [14:24<1:28:59,  1.57it/s]Training 1/3 epoch (loss 0.9466):  14%|█▍        | 1352/9753 [14:24<1:26:38,  1.62it/s]Training 1/3 epoch (loss 1.0562):  14%|█▍        | 1352/9753 [14:24<1:26:38,  1.62it/s]Training 1/3 epoch (loss 1.0562):  14%|█▍        | 1353/9753 [14:24<1:23:42,  1.67it/s]Training 1/3 epoch (loss 1.0137):  14%|█▍        | 1353/9753 [14:25<1:23:42,  1.67it/s]Training 1/3 epoch (loss 1.0137):  14%|█▍        | 1354/9753 [14:25<1:21:44,  1.71it/s]Training 1/3 epoch (loss 1.0915):  14%|█▍        | 1354/9753 [14:25<1:21:44,  1.71it/s]Training 1/3 epoch (loss 1.0915):  14%|█▍        | 1355/9753 [14:25<1:24:25,  1.66it/s]Training 1/3 epoch (loss 0.7831):  14%|█▍        | 1355/9753 [14:26<1:24:25,  1.66it/s]Training 1/3 epoch (loss 0.7831):  14%|█▍        | 1356/9753 [14:26<1:22:52,  1.69it/s]Training 1/3 epoch (loss 1.1968):  14%|█▍        | 1356/9753 [14:27<1:22:52,  1.69it/s]Training 1/3 epoch (loss 1.1968):  14%|█▍        | 1357/9753 [14:27<1:20:52,  1.73it/s]Training 1/3 epoch (loss 1.1325):  14%|█▍        | 1357/9753 [14:27<1:20:52,  1.73it/s]Training 1/3 epoch (loss 1.1325):  14%|█▍        | 1358/9753 [14:27<1:19:43,  1.76it/s]Training 1/3 epoch (loss 0.9740):  14%|█▍        | 1358/9753 [14:28<1:19:43,  1.76it/s]Training 1/3 epoch (loss 0.9740):  14%|█▍        | 1359/9753 [14:28<1:30:27,  1.55it/s]Training 1/3 epoch (loss 1.0357):  14%|█▍        | 1359/9753 [14:29<1:30:27,  1.55it/s]Training 1/3 epoch (loss 1.0357):  14%|█▍        | 1360/9753 [14:29<1:46:28,  1.31it/s]Training 1/3 epoch (loss 0.9836):  14%|█▍        | 1360/9753 [14:30<1:46:28,  1.31it/s]Training 1/3 epoch (loss 0.9836):  14%|█▍        | 1361/9753 [14:30<1:43:44,  1.35it/s]Training 1/3 epoch (loss 1.1488):  14%|█▍        | 1361/9753 [14:31<1:43:44,  1.35it/s]Training 1/3 epoch (loss 1.1488):  14%|█▍        | 1362/9753 [14:31<1:53:04,  1.24it/s]Training 1/3 epoch (loss 0.8417):  14%|█▍        | 1362/9753 [14:31<1:53:04,  1.24it/s]Training 1/3 epoch (loss 0.8417):  14%|█▍        | 1363/9753 [14:31<1:48:48,  1.29it/s]Training 1/3 epoch (loss 0.9102):  14%|█▍        | 1363/9753 [14:32<1:48:48,  1.29it/s]Training 1/3 epoch (loss 0.9102):  14%|█▍        | 1364/9753 [14:32<1:44:46,  1.33it/s]Training 1/3 epoch (loss 1.1650):  14%|█▍        | 1364/9753 [14:33<1:44:46,  1.33it/s]Training 1/3 epoch (loss 1.1650):  14%|█▍        | 1365/9753 [14:33<1:36:31,  1.45it/s]Training 1/3 epoch (loss 0.9236):  14%|█▍        | 1365/9753 [14:33<1:36:31,  1.45it/s]Training 1/3 epoch (loss 0.9236):  14%|█▍        | 1366/9753 [14:33<1:40:22,  1.39it/s]Training 1/3 epoch (loss 1.0632):  14%|█▍        | 1366/9753 [14:34<1:40:22,  1.39it/s]Training 1/3 epoch (loss 1.0632):  14%|█▍        | 1367/9753 [14:34<1:33:21,  1.50it/s]Training 1/3 epoch (loss 0.9657):  14%|█▍        | 1367/9753 [14:34<1:33:21,  1.50it/s]Training 1/3 epoch (loss 0.9657):  14%|█▍        | 1368/9753 [14:34<1:28:37,  1.58it/s]Training 1/3 epoch (loss 1.0738):  14%|█▍        | 1368/9753 [14:35<1:28:37,  1.58it/s]Training 1/3 epoch (loss 1.0738):  14%|█▍        | 1369/9753 [14:35<1:27:10,  1.60it/s]Training 1/3 epoch (loss 1.1604):  14%|█▍        | 1369/9753 [14:36<1:27:10,  1.60it/s]Training 1/3 epoch (loss 1.1604):  14%|█▍        | 1370/9753 [14:36<1:27:55,  1.59it/s]Training 1/3 epoch (loss 1.2207):  14%|█▍        | 1370/9753 [14:36<1:27:55,  1.59it/s]Training 1/3 epoch (loss 1.2207):  14%|█▍        | 1371/9753 [14:36<1:25:24,  1.64it/s]Training 1/3 epoch (loss 1.1350):  14%|█▍        | 1371/9753 [14:37<1:25:24,  1.64it/s]Training 1/3 epoch (loss 1.1350):  14%|█▍        | 1372/9753 [14:37<1:34:08,  1.48it/s]Training 1/3 epoch (loss 1.0658):  14%|█▍        | 1372/9753 [14:38<1:34:08,  1.48it/s]Training 1/3 epoch (loss 1.0658):  14%|█▍        | 1373/9753 [14:38<1:29:20,  1.56it/s]Training 1/3 epoch (loss 0.8841):  14%|█▍        | 1373/9753 [14:38<1:29:20,  1.56it/s]Training 1/3 epoch (loss 0.8841):  14%|█▍        | 1374/9753 [14:38<1:26:33,  1.61it/s]Training 1/3 epoch (loss 0.9231):  14%|█▍        | 1374/9753 [14:39<1:26:33,  1.61it/s]Training 1/3 epoch (loss 0.9231):  14%|█▍        | 1375/9753 [14:39<1:23:22,  1.67it/s]Training 1/3 epoch (loss 1.1727):  14%|█▍        | 1375/9753 [14:39<1:23:22,  1.67it/s]Training 1/3 epoch (loss 1.1727):  14%|█▍        | 1376/9753 [14:39<1:26:52,  1.61it/s]Training 1/3 epoch (loss 0.9780):  14%|█▍        | 1376/9753 [14:40<1:26:52,  1.61it/s]Training 1/3 epoch (loss 0.9780):  14%|█▍        | 1377/9753 [14:40<1:23:55,  1.66it/s]Training 1/3 epoch (loss 1.0179):  14%|█▍        | 1377/9753 [14:41<1:23:55,  1.66it/s]Training 1/3 epoch (loss 1.0179):  14%|█▍        | 1378/9753 [14:41<1:24:36,  1.65it/s]Training 1/3 epoch (loss 1.2104):  14%|█▍        | 1378/9753 [14:41<1:24:36,  1.65it/s]Training 1/3 epoch (loss 1.2104):  14%|█▍        | 1379/9753 [14:41<1:35:54,  1.46it/s]Training 1/3 epoch (loss 1.1821):  14%|█▍        | 1379/9753 [14:42<1:35:54,  1.46it/s]Training 1/3 epoch (loss 1.1821):  14%|█▍        | 1380/9753 [14:42<1:36:13,  1.45it/s]Training 1/3 epoch (loss 0.9203):  14%|█▍        | 1380/9753 [14:43<1:36:13,  1.45it/s]Training 1/3 epoch (loss 0.9203):  14%|█▍        | 1381/9753 [14:43<1:31:01,  1.53it/s]Training 1/3 epoch (loss 1.2751):  14%|█▍        | 1381/9753 [14:44<1:31:01,  1.53it/s]Training 1/3 epoch (loss 1.2751):  14%|█▍        | 1382/9753 [14:44<1:40:28,  1.39it/s]Training 1/3 epoch (loss 1.4436):  14%|█▍        | 1382/9753 [14:44<1:40:28,  1.39it/s]Training 1/3 epoch (loss 1.4436):  14%|█▍        | 1383/9753 [14:44<1:34:57,  1.47it/s]Training 1/3 epoch (loss 1.0586):  14%|█▍        | 1383/9753 [14:45<1:34:57,  1.47it/s]Training 1/3 epoch (loss 1.0586):  14%|█▍        | 1384/9753 [14:45<1:36:32,  1.44it/s]Training 1/3 epoch (loss 1.2389):  14%|█▍        | 1384/9753 [14:45<1:36:32,  1.44it/s]Training 1/3 epoch (loss 1.2389):  14%|█▍        | 1385/9753 [14:45<1:30:38,  1.54it/s]Training 1/3 epoch (loss 1.1094):  14%|█▍        | 1385/9753 [14:46<1:30:38,  1.54it/s]Training 1/3 epoch (loss 1.1094):  14%|█▍        | 1386/9753 [14:46<1:27:14,  1.60it/s]Training 1/3 epoch (loss 1.0729):  14%|█▍        | 1386/9753 [14:47<1:27:14,  1.60it/s]Training 1/3 epoch (loss 1.0729):  14%|█▍        | 1387/9753 [14:47<1:24:01,  1.66it/s]Training 1/3 epoch (loss 1.0462):  14%|█▍        | 1387/9753 [14:47<1:24:01,  1.66it/s]Training 1/3 epoch (loss 1.0462):  14%|█▍        | 1388/9753 [14:47<1:27:31,  1.59it/s]Training 1/3 epoch (loss 1.1239):  14%|█▍        | 1388/9753 [14:48<1:27:31,  1.59it/s]Training 1/3 epoch (loss 1.1239):  14%|█▍        | 1389/9753 [14:48<1:29:26,  1.56it/s]Training 1/3 epoch (loss 1.1982):  14%|█▍        | 1389/9753 [14:49<1:29:26,  1.56it/s]Training 1/3 epoch (loss 1.1982):  14%|█▍        | 1390/9753 [14:49<1:28:45,  1.57it/s]Training 1/3 epoch (loss 1.1983):  14%|█▍        | 1390/9753 [14:49<1:28:45,  1.57it/s]Training 1/3 epoch (loss 1.1983):  14%|█▍        | 1391/9753 [14:49<1:28:14,  1.58it/s]Training 1/3 epoch (loss 1.1429):  14%|█▍        | 1391/9753 [14:50<1:28:14,  1.58it/s]Training 1/3 epoch (loss 1.1429):  14%|█▍        | 1392/9753 [14:50<1:36:22,  1.45it/s]Training 1/3 epoch (loss 0.9971):  14%|█▍        | 1392/9753 [14:51<1:36:22,  1.45it/s]Training 1/3 epoch (loss 0.9971):  14%|█▍        | 1393/9753 [14:51<1:36:40,  1.44it/s]Training 1/3 epoch (loss 1.0607):  14%|█▍        | 1393/9753 [14:51<1:36:40,  1.44it/s]Training 1/3 epoch (loss 1.0607):  14%|█▍        | 1394/9753 [14:51<1:35:13,  1.46it/s]Training 1/3 epoch (loss 1.0256):  14%|█▍        | 1394/9753 [14:52<1:35:13,  1.46it/s]Training 1/3 epoch (loss 1.0256):  14%|█▍        | 1395/9753 [14:52<1:45:38,  1.32it/s]Training 1/3 epoch (loss 1.1872):  14%|█▍        | 1395/9753 [14:53<1:45:38,  1.32it/s]Training 1/3 epoch (loss 1.1872):  14%|█▍        | 1396/9753 [14:53<1:42:37,  1.36it/s]Training 1/3 epoch (loss 0.9985):  14%|█▍        | 1396/9753 [14:54<1:42:37,  1.36it/s]Training 1/3 epoch (loss 0.9985):  14%|█▍        | 1397/9753 [14:54<1:46:41,  1.31it/s]Training 1/3 epoch (loss 1.2108):  14%|█▍        | 1397/9753 [14:54<1:46:41,  1.31it/s]Training 1/3 epoch (loss 1.2108):  14%|█▍        | 1398/9753 [14:54<1:42:15,  1.36it/s]Training 1/3 epoch (loss 1.0091):  14%|█▍        | 1398/9753 [14:55<1:42:15,  1.36it/s]Training 1/3 epoch (loss 1.0091):  14%|█▍        | 1399/9753 [14:55<1:40:53,  1.38it/s]Training 1/3 epoch (loss 1.2132):  14%|█▍        | 1399/9753 [14:56<1:40:53,  1.38it/s]Training 1/3 epoch (loss 1.2132):  14%|█▍        | 1400/9753 [14:56<1:37:26,  1.43it/s]Training 1/3 epoch (loss 1.0844):  14%|█▍        | 1400/9753 [14:57<1:37:26,  1.43it/s]Training 1/3 epoch (loss 1.0844):  14%|█▍        | 1401/9753 [14:57<1:45:53,  1.31it/s]Training 1/3 epoch (loss 0.9648):  14%|█▍        | 1401/9753 [14:58<1:45:53,  1.31it/s]Training 1/3 epoch (loss 0.9648):  14%|█▍        | 1402/9753 [14:58<1:46:48,  1.30it/s]Training 1/3 epoch (loss 1.0665):  14%|█▍        | 1402/9753 [14:58<1:46:48,  1.30it/s]Training 1/3 epoch (loss 1.0665):  14%|█▍        | 1403/9753 [14:58<1:41:09,  1.38it/s]Training 1/3 epoch (loss 0.8921):  14%|█▍        | 1403/9753 [14:59<1:41:09,  1.38it/s]Training 1/3 epoch (loss 0.8921):  14%|█▍        | 1404/9753 [14:59<1:37:56,  1.42it/s]Training 1/3 epoch (loss 1.0717):  14%|█▍        | 1404/9753 [15:00<1:37:56,  1.42it/s]Training 1/3 epoch (loss 1.0717):  14%|█▍        | 1405/9753 [15:00<1:42:27,  1.36it/s]Training 1/3 epoch (loss 0.9863):  14%|█▍        | 1405/9753 [15:00<1:42:27,  1.36it/s]Training 1/3 epoch (loss 0.9863):  14%|█▍        | 1406/9753 [15:00<1:42:46,  1.35it/s]Training 1/3 epoch (loss 1.1425):  14%|█▍        | 1406/9753 [15:01<1:42:46,  1.35it/s]Training 1/3 epoch (loss 1.1425):  14%|█▍        | 1407/9753 [15:01<1:40:17,  1.39it/s]Training 1/3 epoch (loss 1.1607):  14%|█▍        | 1407/9753 [15:02<1:40:17,  1.39it/s]Training 1/3 epoch (loss 1.1607):  14%|█▍        | 1408/9753 [15:02<1:44:28,  1.33it/s]Training 1/3 epoch (loss 0.9731):  14%|█▍        | 1408/9753 [15:03<1:44:28,  1.33it/s]Training 1/3 epoch (loss 0.9731):  14%|█▍        | 1409/9753 [15:03<1:40:49,  1.38it/s]Training 1/3 epoch (loss 1.0327):  14%|█▍        | 1409/9753 [15:03<1:40:49,  1.38it/s]Training 1/3 epoch (loss 1.0327):  14%|█▍        | 1410/9753 [15:03<1:40:20,  1.39it/s]Training 1/3 epoch (loss 0.9697):  14%|█▍        | 1410/9753 [15:04<1:40:20,  1.39it/s]Training 1/3 epoch (loss 0.9697):  14%|█▍        | 1411/9753 [15:04<1:41:34,  1.37it/s]Training 1/3 epoch (loss 1.0840):  14%|█▍        | 1411/9753 [15:05<1:41:34,  1.37it/s]Training 1/3 epoch (loss 1.0840):  14%|█▍        | 1412/9753 [15:05<1:33:59,  1.48it/s]Training 1/3 epoch (loss 0.9752):  14%|█▍        | 1412/9753 [15:05<1:33:59,  1.48it/s]Training 1/3 epoch (loss 0.9752):  14%|█▍        | 1413/9753 [15:05<1:31:00,  1.53it/s]Training 1/3 epoch (loss 1.1864):  14%|█▍        | 1413/9753 [15:06<1:31:00,  1.53it/s]Training 1/3 epoch (loss 1.1864):  14%|█▍        | 1414/9753 [15:06<1:41:44,  1.37it/s]Training 1/3 epoch (loss 1.1638):  14%|█▍        | 1414/9753 [15:07<1:41:44,  1.37it/s]Training 1/3 epoch (loss 1.1638):  15%|█▍        | 1415/9753 [15:07<1:35:00,  1.46it/s]Training 1/3 epoch (loss 1.0991):  15%|█▍        | 1415/9753 [15:07<1:35:00,  1.46it/s]Training 1/3 epoch (loss 1.0991):  15%|█▍        | 1416/9753 [15:07<1:29:21,  1.55it/s]Training 1/3 epoch (loss 1.3049):  15%|█▍        | 1416/9753 [15:08<1:29:21,  1.55it/s]Training 1/3 epoch (loss 1.3049):  15%|█▍        | 1417/9753 [15:08<1:26:42,  1.60it/s]Training 1/3 epoch (loss 1.2072):  15%|█▍        | 1417/9753 [15:08<1:26:42,  1.60it/s]Training 1/3 epoch (loss 1.2072):  15%|█▍        | 1418/9753 [15:08<1:23:47,  1.66it/s]Training 1/3 epoch (loss 1.0245):  15%|█▍        | 1418/9753 [15:09<1:23:47,  1.66it/s]Training 1/3 epoch (loss 1.0245):  15%|█▍        | 1419/9753 [15:09<1:21:12,  1.71it/s]Training 1/3 epoch (loss 1.1008):  15%|█▍        | 1419/9753 [15:09<1:21:12,  1.71it/s]Training 1/3 epoch (loss 1.1008):  15%|█▍        | 1420/9753 [15:09<1:19:38,  1.74it/s]Training 1/3 epoch (loss 1.0188):  15%|█▍        | 1420/9753 [15:10<1:19:38,  1.74it/s]Training 1/3 epoch (loss 1.0188):  15%|█▍        | 1421/9753 [15:10<1:18:45,  1.76it/s]Training 1/3 epoch (loss 1.1921):  15%|█▍        | 1421/9753 [15:11<1:18:45,  1.76it/s]Training 1/3 epoch (loss 1.1921):  15%|█▍        | 1422/9753 [15:11<1:19:58,  1.74it/s]Training 1/3 epoch (loss 1.0355):  15%|█▍        | 1422/9753 [15:11<1:19:58,  1.74it/s]Training 1/3 epoch (loss 1.0355):  15%|█▍        | 1423/9753 [15:11<1:18:31,  1.77it/s]Training 1/3 epoch (loss 1.0973):  15%|█▍        | 1423/9753 [15:12<1:18:31,  1.77it/s]Training 1/3 epoch (loss 1.0973):  15%|█▍        | 1424/9753 [15:12<1:23:19,  1.67it/s]Training 1/3 epoch (loss 1.1351):  15%|█▍        | 1424/9753 [15:12<1:23:19,  1.67it/s]Training 1/3 epoch (loss 1.1351):  15%|█▍        | 1425/9753 [15:12<1:27:35,  1.58it/s]Training 1/3 epoch (loss 1.0945):  15%|█▍        | 1425/9753 [15:13<1:27:35,  1.58it/s]Training 1/3 epoch (loss 1.0945):  15%|█▍        | 1426/9753 [15:13<1:26:09,  1.61it/s]Training 1/3 epoch (loss 0.9987):  15%|█▍        | 1426/9753 [15:14<1:26:09,  1.61it/s]Training 1/3 epoch (loss 0.9987):  15%|█▍        | 1427/9753 [15:14<1:22:48,  1.68it/s]Training 1/3 epoch (loss 1.0471):  15%|█▍        | 1427/9753 [15:14<1:22:48,  1.68it/s]Training 1/3 epoch (loss 1.0471):  15%|█▍        | 1428/9753 [15:14<1:20:58,  1.71it/s]Training 1/3 epoch (loss 1.1778):  15%|█▍        | 1428/9753 [15:15<1:20:58,  1.71it/s]Training 1/3 epoch (loss 1.1778):  15%|█▍        | 1429/9753 [15:15<1:28:42,  1.56it/s]Training 1/3 epoch (loss 1.1513):  15%|█▍        | 1429/9753 [15:16<1:28:42,  1.56it/s]Training 1/3 epoch (loss 1.1513):  15%|█▍        | 1430/9753 [15:16<1:26:43,  1.60it/s]Training 1/3 epoch (loss 1.0697):  15%|█▍        | 1430/9753 [15:16<1:26:43,  1.60it/s]Training 1/3 epoch (loss 1.0697):  15%|█▍        | 1431/9753 [15:16<1:33:21,  1.49it/s]Training 1/3 epoch (loss 0.9830):  15%|█▍        | 1431/9753 [15:17<1:33:21,  1.49it/s]Training 1/3 epoch (loss 0.9830):  15%|█▍        | 1432/9753 [15:17<1:30:16,  1.54it/s]Training 1/3 epoch (loss 0.7810):  15%|█▍        | 1432/9753 [15:17<1:30:16,  1.54it/s]Training 1/3 epoch (loss 0.7810):  15%|█▍        | 1433/9753 [15:17<1:26:23,  1.61it/s]Training 1/3 epoch (loss 0.8661):  15%|█▍        | 1433/9753 [15:18<1:26:23,  1.61it/s]Training 1/3 epoch (loss 0.8661):  15%|█▍        | 1434/9753 [15:18<1:27:30,  1.58it/s]Training 1/3 epoch (loss 1.0514):  15%|█▍        | 1434/9753 [15:19<1:27:30,  1.58it/s]Training 1/3 epoch (loss 1.0514):  15%|█▍        | 1435/9753 [15:19<1:27:03,  1.59it/s]Training 1/3 epoch (loss 0.9067):  15%|█▍        | 1435/9753 [15:19<1:27:03,  1.59it/s]Training 1/3 epoch (loss 0.9067):  15%|█▍        | 1436/9753 [15:19<1:27:38,  1.58it/s]Training 1/3 epoch (loss 1.1265):  15%|█▍        | 1436/9753 [15:20<1:27:38,  1.58it/s]Training 1/3 epoch (loss 1.1265):  15%|█▍        | 1437/9753 [15:20<1:24:25,  1.64it/s]Training 1/3 epoch (loss 1.1247):  15%|█▍        | 1437/9753 [15:21<1:24:25,  1.64it/s]Training 1/3 epoch (loss 1.1247):  15%|█▍        | 1438/9753 [15:21<1:26:09,  1.61it/s]Training 1/3 epoch (loss 1.0835):  15%|█▍        | 1438/9753 [15:21<1:26:09,  1.61it/s]Training 1/3 epoch (loss 1.0835):  15%|█▍        | 1439/9753 [15:21<1:23:44,  1.65it/s]Training 1/3 epoch (loss 1.0669):  15%|█▍        | 1439/9753 [15:22<1:23:44,  1.65it/s]Training 1/3 epoch (loss 1.0669):  15%|█▍        | 1440/9753 [15:22<1:26:57,  1.59it/s]Training 1/3 epoch (loss 1.0234):  15%|█▍        | 1440/9753 [15:22<1:26:57,  1.59it/s]Training 1/3 epoch (loss 1.0234):  15%|█▍        | 1441/9753 [15:22<1:23:44,  1.65it/s]Training 1/3 epoch (loss 1.0423):  15%|█▍        | 1441/9753 [15:23<1:23:44,  1.65it/s]Training 1/3 epoch (loss 1.0423):  15%|█▍        | 1442/9753 [15:23<1:21:25,  1.70it/s]Training 1/3 epoch (loss 1.0735):  15%|█▍        | 1442/9753 [15:23<1:21:25,  1.70it/s]Training 1/3 epoch (loss 1.0735):  15%|█▍        | 1443/9753 [15:23<1:19:31,  1.74it/s]Training 1/3 epoch (loss 1.2701):  15%|█▍        | 1443/9753 [15:24<1:19:31,  1.74it/s]Training 1/3 epoch (loss 1.2701):  15%|█▍        | 1444/9753 [15:24<1:25:01,  1.63it/s]Training 1/3 epoch (loss 1.1600):  15%|█▍        | 1444/9753 [15:25<1:25:01,  1.63it/s]Training 1/3 epoch (loss 1.1600):  15%|█▍        | 1445/9753 [15:25<1:22:34,  1.68it/s]Training 1/3 epoch (loss 1.3932):  15%|█▍        | 1445/9753 [15:25<1:22:34,  1.68it/s]Training 1/3 epoch (loss 1.3932):  15%|█▍        | 1446/9753 [15:25<1:22:18,  1.68it/s]Training 1/3 epoch (loss 1.2316):  15%|█▍        | 1446/9753 [15:26<1:22:18,  1.68it/s]Training 1/3 epoch (loss 1.2316):  15%|█▍        | 1447/9753 [15:26<1:27:53,  1.57it/s]Training 1/3 epoch (loss 1.0440):  15%|█▍        | 1447/9753 [15:27<1:27:53,  1.57it/s]Training 1/3 epoch (loss 1.0440):  15%|█▍        | 1448/9753 [15:27<1:24:46,  1.63it/s]Training 1/3 epoch (loss 1.1552):  15%|█▍        | 1448/9753 [15:27<1:24:46,  1.63it/s]Training 1/3 epoch (loss 1.1552):  15%|█▍        | 1449/9753 [15:27<1:25:54,  1.61it/s]Training 1/3 epoch (loss 1.1581):  15%|█▍        | 1449/9753 [15:28<1:25:54,  1.61it/s]Training 1/3 epoch (loss 1.1581):  15%|█▍        | 1450/9753 [15:28<1:23:25,  1.66it/s]Training 1/3 epoch (loss 1.2540):  15%|█▍        | 1450/9753 [15:28<1:23:25,  1.66it/s]Training 1/3 epoch (loss 1.2540):  15%|█▍        | 1451/9753 [15:28<1:22:50,  1.67it/s]Training 1/3 epoch (loss 1.1607):  15%|█▍        | 1451/9753 [15:29<1:22:50,  1.67it/s]Training 1/3 epoch (loss 1.1607):  15%|█▍        | 1452/9753 [15:29<1:20:39,  1.72it/s]Training 1/3 epoch (loss 1.1228):  15%|█▍        | 1452/9753 [15:30<1:20:39,  1.72it/s]Training 1/3 epoch (loss 1.1228):  15%|█▍        | 1453/9753 [15:30<1:34:47,  1.46it/s]Training 1/3 epoch (loss 1.0433):  15%|█▍        | 1453/9753 [15:30<1:34:47,  1.46it/s]Training 1/3 epoch (loss 1.0433):  15%|█▍        | 1454/9753 [15:30<1:29:12,  1.55it/s]Training 1/3 epoch (loss 1.1003):  15%|█▍        | 1454/9753 [15:31<1:29:12,  1.55it/s]Training 1/3 epoch (loss 1.1003):  15%|█▍        | 1455/9753 [15:31<1:25:03,  1.63it/s]Training 1/3 epoch (loss 1.0491):  15%|█▍        | 1455/9753 [15:32<1:25:03,  1.63it/s]Training 1/3 epoch (loss 1.0491):  15%|█▍        | 1456/9753 [15:32<1:27:26,  1.58it/s]Training 1/3 epoch (loss 1.1518):  15%|█▍        | 1456/9753 [15:32<1:27:26,  1.58it/s]Training 1/3 epoch (loss 1.1518):  15%|█▍        | 1457/9753 [15:32<1:24:19,  1.64it/s]Training 1/3 epoch (loss 1.1952):  15%|█▍        | 1457/9753 [15:33<1:24:19,  1.64it/s]Training 1/3 epoch (loss 1.1952):  15%|█▍        | 1458/9753 [15:33<1:21:41,  1.69it/s]Training 1/3 epoch (loss 0.9692):  15%|█▍        | 1458/9753 [15:33<1:21:41,  1.69it/s]Training 1/3 epoch (loss 0.9692):  15%|█▍        | 1459/9753 [15:33<1:24:11,  1.64it/s]Training 1/3 epoch (loss 0.9928):  15%|█▍        | 1459/9753 [15:34<1:24:11,  1.64it/s]Training 1/3 epoch (loss 0.9928):  15%|█▍        | 1460/9753 [15:34<1:21:39,  1.69it/s]Training 1/3 epoch (loss 1.0447):  15%|█▍        | 1460/9753 [15:34<1:21:39,  1.69it/s]Training 1/3 epoch (loss 1.0447):  15%|█▍        | 1461/9753 [15:34<1:19:56,  1.73it/s]Training 1/3 epoch (loss 0.9825):  15%|█▍        | 1461/9753 [15:35<1:19:56,  1.73it/s]Training 1/3 epoch (loss 0.9825):  15%|█▍        | 1462/9753 [15:35<1:19:45,  1.73it/s]Training 1/3 epoch (loss 1.1397):  15%|█▍        | 1462/9753 [15:36<1:19:45,  1.73it/s]Training 1/3 epoch (loss 1.1397):  15%|█▌        | 1463/9753 [15:36<1:20:50,  1.71it/s]Training 1/3 epoch (loss 0.9747):  15%|█▌        | 1463/9753 [15:36<1:20:50,  1.71it/s]Training 1/3 epoch (loss 0.9747):  15%|█▌        | 1464/9753 [15:36<1:19:48,  1.73it/s]Training 1/3 epoch (loss 0.9870):  15%|█▌        | 1464/9753 [15:37<1:19:48,  1.73it/s]Training 1/3 epoch (loss 0.9870):  15%|█▌        | 1465/9753 [15:37<1:22:31,  1.67it/s]Training 1/3 epoch (loss 1.2286):  15%|█▌        | 1465/9753 [15:37<1:22:31,  1.67it/s]Training 1/3 epoch (loss 1.2286):  15%|█▌        | 1466/9753 [15:37<1:22:44,  1.67it/s]Training 1/3 epoch (loss 1.0392):  15%|█▌        | 1466/9753 [15:38<1:22:44,  1.67it/s]Training 1/3 epoch (loss 1.0392):  15%|█▌        | 1467/9753 [15:38<1:20:16,  1.72it/s]Training 1/3 epoch (loss 1.0441):  15%|█▌        | 1467/9753 [15:39<1:20:16,  1.72it/s]Training 1/3 epoch (loss 1.0441):  15%|█▌        | 1468/9753 [15:39<1:19:01,  1.75it/s]Training 1/3 epoch (loss 1.2551):  15%|█▌        | 1468/9753 [15:39<1:19:01,  1.75it/s]Training 1/3 epoch (loss 1.2551):  15%|█▌        | 1469/9753 [15:39<1:20:48,  1.71it/s]Training 1/3 epoch (loss 1.0298):  15%|█▌        | 1469/9753 [15:40<1:20:48,  1.71it/s]Training 1/3 epoch (loss 1.0298):  15%|█▌        | 1470/9753 [15:40<1:21:44,  1.69it/s]Training 1/3 epoch (loss 1.3412):  15%|█▌        | 1470/9753 [15:41<1:21:44,  1.69it/s]Training 1/3 epoch (loss 1.3412):  15%|█▌        | 1471/9753 [15:41<1:28:04,  1.57it/s]Training 1/3 epoch (loss 1.0375):  15%|█▌        | 1471/9753 [15:41<1:28:04,  1.57it/s]Training 1/3 epoch (loss 1.0375):  15%|█▌        | 1472/9753 [15:41<1:31:03,  1.52it/s]Training 1/3 epoch (loss 1.1899):  15%|█▌        | 1472/9753 [15:42<1:31:03,  1.52it/s]Training 1/3 epoch (loss 1.1899):  15%|█▌        | 1473/9753 [15:42<1:31:55,  1.50it/s]Training 1/3 epoch (loss 1.0267):  15%|█▌        | 1473/9753 [15:43<1:31:55,  1.50it/s]Training 1/3 epoch (loss 1.0267):  15%|█▌        | 1474/9753 [15:43<1:30:56,  1.52it/s]Training 1/3 epoch (loss 1.2252):  15%|█▌        | 1474/9753 [15:43<1:30:56,  1.52it/s]Training 1/3 epoch (loss 1.2252):  15%|█▌        | 1475/9753 [15:43<1:34:08,  1.47it/s]Training 1/3 epoch (loss 1.2292):  15%|█▌        | 1475/9753 [15:44<1:34:08,  1.47it/s]Training 1/3 epoch (loss 1.2292):  15%|█▌        | 1476/9753 [15:44<1:31:08,  1.51it/s]Training 1/3 epoch (loss 1.0809):  15%|█▌        | 1476/9753 [15:44<1:31:08,  1.51it/s]Training 1/3 epoch (loss 1.0809):  15%|█▌        | 1477/9753 [15:44<1:27:01,  1.58it/s]Training 1/3 epoch (loss 1.0267):  15%|█▌        | 1477/9753 [15:45<1:27:01,  1.58it/s]Training 1/3 epoch (loss 1.0267):  15%|█▌        | 1478/9753 [15:45<1:29:49,  1.54it/s]Training 1/3 epoch (loss 1.1009):  15%|█▌        | 1478/9753 [15:46<1:29:49,  1.54it/s]Training 1/3 epoch (loss 1.1009):  15%|█▌        | 1479/9753 [15:46<1:25:52,  1.61it/s]Training 1/3 epoch (loss 0.9694):  15%|█▌        | 1479/9753 [15:46<1:25:52,  1.61it/s]Training 1/3 epoch (loss 0.9694):  15%|█▌        | 1480/9753 [15:46<1:23:26,  1.65it/s]Training 1/3 epoch (loss 1.0095):  15%|█▌        | 1480/9753 [15:47<1:23:26,  1.65it/s]Training 1/3 epoch (loss 1.0095):  15%|█▌        | 1481/9753 [15:47<1:20:47,  1.71it/s]Training 1/3 epoch (loss 1.0985):  15%|█▌        | 1481/9753 [15:47<1:20:47,  1.71it/s]Training 1/3 epoch (loss 1.0985):  15%|█▌        | 1482/9753 [15:47<1:22:11,  1.68it/s]Training 1/3 epoch (loss 1.2192):  15%|█▌        | 1482/9753 [15:48<1:22:11,  1.68it/s]Training 1/3 epoch (loss 1.2192):  15%|█▌        | 1483/9753 [15:48<1:21:16,  1.70it/s]Training 1/3 epoch (loss 1.0206):  15%|█▌        | 1483/9753 [15:49<1:21:16,  1.70it/s]Training 1/3 epoch (loss 1.0206):  15%|█▌        | 1484/9753 [15:49<1:28:09,  1.56it/s]Training 1/3 epoch (loss 1.0415):  15%|█▌        | 1484/9753 [15:49<1:28:09,  1.56it/s]Training 1/3 epoch (loss 1.0415):  15%|█▌        | 1485/9753 [15:49<1:25:20,  1.61it/s]Training 1/3 epoch (loss 1.2357):  15%|█▌        | 1485/9753 [15:50<1:25:20,  1.61it/s]Training 1/3 epoch (loss 1.2357):  15%|█▌        | 1486/9753 [15:50<1:28:46,  1.55it/s]Training 1/3 epoch (loss 0.9509):  15%|█▌        | 1486/9753 [15:51<1:28:46,  1.55it/s]Training 1/3 epoch (loss 0.9509):  15%|█▌        | 1487/9753 [15:51<1:31:57,  1.50it/s]Training 1/3 epoch (loss 1.2420):  15%|█▌        | 1487/9753 [15:52<1:31:57,  1.50it/s]Training 1/3 epoch (loss 1.2420):  15%|█▌        | 1488/9753 [15:52<1:34:02,  1.46it/s]Training 1/3 epoch (loss 1.2228):  15%|█▌        | 1488/9753 [15:52<1:34:02,  1.46it/s]Training 1/3 epoch (loss 1.2228):  15%|█▌        | 1489/9753 [15:52<1:28:50,  1.55it/s]Training 1/3 epoch (loss 1.3003):  15%|█▌        | 1489/9753 [15:53<1:28:50,  1.55it/s]Training 1/3 epoch (loss 1.3003):  15%|█▌        | 1490/9753 [15:53<1:32:59,  1.48it/s]Training 1/3 epoch (loss 1.2240):  15%|█▌        | 1490/9753 [15:53<1:32:59,  1.48it/s]Training 1/3 epoch (loss 1.2240):  15%|█▌        | 1491/9753 [15:53<1:28:27,  1.56it/s]Training 1/3 epoch (loss 0.9480):  15%|█▌        | 1491/9753 [15:54<1:28:27,  1.56it/s]Training 1/3 epoch (loss 0.9480):  15%|█▌        | 1492/9753 [15:54<1:24:30,  1.63it/s]Training 1/3 epoch (loss 0.9539):  15%|█▌        | 1492/9753 [15:55<1:24:30,  1.63it/s]Training 1/3 epoch (loss 0.9539):  15%|█▌        | 1493/9753 [15:55<1:30:19,  1.52it/s]Training 1/3 epoch (loss 0.8829):  15%|█▌        | 1493/9753 [15:55<1:30:19,  1.52it/s]Training 1/3 epoch (loss 0.8829):  15%|█▌        | 1494/9753 [15:55<1:27:19,  1.58it/s]Training 1/3 epoch (loss 1.2285):  15%|█▌        | 1494/9753 [15:56<1:27:19,  1.58it/s]Training 1/3 epoch (loss 1.2285):  15%|█▌        | 1495/9753 [15:56<1:32:38,  1.49it/s]Training 1/3 epoch (loss 1.0078):  15%|█▌        | 1495/9753 [15:57<1:32:38,  1.49it/s]Training 1/3 epoch (loss 1.0078):  15%|█▌        | 1496/9753 [15:57<1:27:37,  1.57it/s]Training 1/3 epoch (loss 1.0118):  15%|█▌        | 1496/9753 [15:57<1:27:37,  1.57it/s]Training 1/3 epoch (loss 1.0118):  15%|█▌        | 1497/9753 [15:57<1:26:33,  1.59it/s]Training 1/3 epoch (loss 1.0635):  15%|█▌        | 1497/9753 [15:58<1:26:33,  1.59it/s]Training 1/3 epoch (loss 1.0635):  15%|█▌        | 1498/9753 [15:58<1:23:18,  1.65it/s]Training 1/3 epoch (loss 1.0996):  15%|█▌        | 1498/9753 [15:58<1:23:18,  1.65it/s]Training 1/3 epoch (loss 1.0996):  15%|█▌        | 1499/9753 [15:58<1:20:51,  1.70it/s]Training 1/3 epoch (loss 1.2572):  15%|█▌        | 1499/9753 [15:59<1:20:51,  1.70it/s]Training 1/3 epoch (loss 1.2572):  15%|█▌        | 1500/9753 [15:59<1:27:52,  1.57it/s]Training 1/3 epoch (loss 1.0917):  15%|█▌        | 1500/9753 [16:00<1:27:52,  1.57it/s]Training 1/3 epoch (loss 1.0917):  15%|█▌        | 1501/9753 [16:00<1:26:23,  1.59it/s]Training 1/3 epoch (loss 1.1116):  15%|█▌        | 1501/9753 [16:00<1:26:23,  1.59it/s]Training 1/3 epoch (loss 1.1116):  15%|█▌        | 1502/9753 [16:00<1:23:08,  1.65it/s]Training 1/3 epoch (loss 1.0615):  15%|█▌        | 1502/9753 [16:01<1:23:08,  1.65it/s]Training 1/3 epoch (loss 1.0615):  15%|█▌        | 1503/9753 [16:01<1:20:56,  1.70it/s]Training 1/3 epoch (loss 1.1508):  15%|█▌        | 1503/9753 [16:02<1:20:56,  1.70it/s]Training 1/3 epoch (loss 1.1508):  15%|█▌        | 1504/9753 [16:02<1:28:18,  1.56it/s]Training 1/3 epoch (loss 0.8927):  15%|█▌        | 1504/9753 [16:02<1:28:18,  1.56it/s]Training 1/3 epoch (loss 0.8927):  15%|█▌        | 1505/9753 [16:02<1:26:01,  1.60it/s]Training 1/3 epoch (loss 1.0882):  15%|█▌        | 1505/9753 [16:03<1:26:01,  1.60it/s]Training 1/3 epoch (loss 1.0882):  15%|█▌        | 1506/9753 [16:03<1:25:32,  1.61it/s]Training 1/3 epoch (loss 1.0200):  15%|█▌        | 1506/9753 [16:03<1:25:32,  1.61it/s]Training 1/3 epoch (loss 1.0200):  15%|█▌        | 1507/9753 [16:03<1:22:56,  1.66it/s]Training 1/3 epoch (loss 1.0142):  15%|█▌        | 1507/9753 [16:04<1:22:56,  1.66it/s]Training 1/3 epoch (loss 1.0142):  15%|█▌        | 1508/9753 [16:04<1:20:27,  1.71it/s]Training 1/3 epoch (loss 1.1616):  15%|█▌        | 1508/9753 [16:04<1:20:27,  1.71it/s]Training 1/3 epoch (loss 1.1616):  15%|█▌        | 1509/9753 [16:04<1:18:51,  1.74it/s]Training 1/3 epoch (loss 0.7870):  15%|█▌        | 1509/9753 [16:05<1:18:51,  1.74it/s]Training 1/3 epoch (loss 0.7870):  15%|█▌        | 1510/9753 [16:05<1:18:36,  1.75it/s]Training 1/3 epoch (loss 1.1753):  15%|█▌        | 1510/9753 [16:06<1:18:36,  1.75it/s]Training 1/3 epoch (loss 1.1753):  15%|█▌        | 1511/9753 [16:06<1:25:06,  1.61it/s]Training 1/3 epoch (loss 1.1083):  15%|█▌        | 1511/9753 [16:06<1:25:06,  1.61it/s]Training 1/3 epoch (loss 1.1083):  16%|█▌        | 1512/9753 [16:06<1:23:05,  1.65it/s]Training 1/3 epoch (loss 1.1087):  16%|█▌        | 1512/9753 [16:07<1:23:05,  1.65it/s]Training 1/3 epoch (loss 1.1087):  16%|█▌        | 1513/9753 [16:07<1:22:20,  1.67it/s]Training 1/3 epoch (loss 1.2241):  16%|█▌        | 1513/9753 [16:07<1:22:20,  1.67it/s]Training 1/3 epoch (loss 1.2241):  16%|█▌        | 1514/9753 [16:07<1:25:09,  1.61it/s]Training 1/3 epoch (loss 1.1650):  16%|█▌        | 1514/9753 [16:08<1:25:09,  1.61it/s]Training 1/3 epoch (loss 1.1650):  16%|█▌        | 1515/9753 [16:08<1:29:13,  1.54it/s]Training 1/3 epoch (loss 0.9419):  16%|█▌        | 1515/9753 [16:09<1:29:13,  1.54it/s]Training 1/3 epoch (loss 0.9419):  16%|█▌        | 1516/9753 [16:09<1:26:33,  1.59it/s]Training 1/3 epoch (loss 1.2105):  16%|█▌        | 1516/9753 [16:09<1:26:33,  1.59it/s]Training 1/3 epoch (loss 1.2105):  16%|█▌        | 1517/9753 [16:09<1:23:00,  1.65it/s]Training 1/3 epoch (loss 1.0506):  16%|█▌        | 1517/9753 [16:10<1:23:00,  1.65it/s]Training 1/3 epoch (loss 1.0506):  16%|█▌        | 1518/9753 [16:10<1:23:20,  1.65it/s]Training 1/3 epoch (loss 1.0312):  16%|█▌        | 1518/9753 [16:11<1:23:20,  1.65it/s]Training 1/3 epoch (loss 1.0312):  16%|█▌        | 1519/9753 [16:11<1:21:29,  1.68it/s]Training 1/3 epoch (loss 1.1222):  16%|█▌        | 1519/9753 [16:11<1:21:29,  1.68it/s]Training 1/3 epoch (loss 1.1222):  16%|█▌        | 1520/9753 [16:11<1:24:46,  1.62it/s]Training 1/3 epoch (loss 1.0938):  16%|█▌        | 1520/9753 [16:12<1:24:46,  1.62it/s]Training 1/3 epoch (loss 1.0938):  16%|█▌        | 1521/9753 [16:12<1:22:14,  1.67it/s]Training 1/3 epoch (loss 1.1929):  16%|█▌        | 1521/9753 [16:12<1:22:14,  1.67it/s]Training 1/3 epoch (loss 1.1929):  16%|█▌        | 1522/9753 [16:12<1:19:56,  1.72it/s]Training 1/3 epoch (loss 1.2277):  16%|█▌        | 1522/9753 [16:13<1:19:56,  1.72it/s]Training 1/3 epoch (loss 1.2277):  16%|█▌        | 1523/9753 [16:13<1:21:58,  1.67it/s]Training 1/3 epoch (loss 1.1848):  16%|█▌        | 1523/9753 [16:14<1:21:58,  1.67it/s]Training 1/3 epoch (loss 1.1848):  16%|█▌        | 1524/9753 [16:14<1:23:16,  1.65it/s]Training 1/3 epoch (loss 1.1100):  16%|█▌        | 1524/9753 [16:14<1:23:16,  1.65it/s]Training 1/3 epoch (loss 1.1100):  16%|█▌        | 1525/9753 [16:14<1:21:10,  1.69it/s]Training 1/3 epoch (loss 0.9348):  16%|█▌        | 1525/9753 [16:15<1:21:10,  1.69it/s]Training 1/3 epoch (loss 0.9348):  16%|█▌        | 1526/9753 [16:15<1:20:26,  1.70it/s]Training 1/3 epoch (loss 1.0533):  16%|█▌        | 1526/9753 [16:15<1:20:26,  1.70it/s]Training 1/3 epoch (loss 1.0533):  16%|█▌        | 1527/9753 [16:15<1:19:03,  1.73it/s]Training 1/3 epoch (loss 1.1202):  16%|█▌        | 1527/9753 [16:16<1:19:03,  1.73it/s]Training 1/3 epoch (loss 1.1202):  16%|█▌        | 1528/9753 [16:16<1:18:20,  1.75it/s]Training 1/3 epoch (loss 0.9552):  16%|█▌        | 1528/9753 [16:16<1:18:20,  1.75it/s]Training 1/3 epoch (loss 0.9552):  16%|█▌        | 1529/9753 [16:16<1:22:23,  1.66it/s]Training 1/3 epoch (loss 1.1685):  16%|█▌        | 1529/9753 [16:17<1:22:23,  1.66it/s]Training 1/3 epoch (loss 1.1685):  16%|█▌        | 1530/9753 [16:17<1:21:10,  1.69it/s]Training 1/3 epoch (loss 1.0983):  16%|█▌        | 1530/9753 [16:18<1:21:10,  1.69it/s]Training 1/3 epoch (loss 1.0983):  16%|█▌        | 1531/9753 [16:18<1:23:10,  1.65it/s]Training 1/3 epoch (loss 1.0348):  16%|█▌        | 1531/9753 [16:19<1:23:10,  1.65it/s]Training 1/3 epoch (loss 1.0348):  16%|█▌        | 1532/9753 [16:19<1:36:16,  1.42it/s]Training 1/3 epoch (loss 1.2643):  16%|█▌        | 1532/9753 [16:19<1:36:16,  1.42it/s]Training 1/3 epoch (loss 1.2643):  16%|█▌        | 1533/9753 [16:19<1:34:09,  1.45it/s]Training 1/3 epoch (loss 1.0486):  16%|█▌        | 1533/9753 [16:20<1:34:09,  1.45it/s]Training 1/3 epoch (loss 1.0486):  16%|█▌        | 1534/9753 [16:20<1:34:12,  1.45it/s]Training 1/3 epoch (loss 0.8793):  16%|█▌        | 1534/9753 [16:21<1:34:12,  1.45it/s]Training 1/3 epoch (loss 0.8793):  16%|█▌        | 1535/9753 [16:21<1:33:11,  1.47it/s]Training 1/3 epoch (loss 0.9137):  16%|█▌        | 1535/9753 [16:21<1:33:11,  1.47it/s]Training 1/3 epoch (loss 0.9137):  16%|█▌        | 1536/9753 [16:21<1:32:58,  1.47it/s]Training 1/3 epoch (loss 1.1097):  16%|█▌        | 1536/9753 [16:22<1:32:58,  1.47it/s]Training 1/3 epoch (loss 1.1097):  16%|█▌        | 1537/9753 [16:22<1:35:09,  1.44it/s]Training 1/3 epoch (loss 1.1446):  16%|█▌        | 1537/9753 [16:23<1:35:09,  1.44it/s]Training 1/3 epoch (loss 1.1446):  16%|█▌        | 1538/9753 [16:23<1:29:13,  1.53it/s]Training 1/3 epoch (loss 1.0651):  16%|█▌        | 1538/9753 [16:23<1:29:13,  1.53it/s]Training 1/3 epoch (loss 1.0651):  16%|█▌        | 1539/9753 [16:23<1:25:15,  1.61it/s]Training 1/3 epoch (loss 1.2686):  16%|█▌        | 1539/9753 [16:24<1:25:15,  1.61it/s]Training 1/3 epoch (loss 1.2686):  16%|█▌        | 1540/9753 [16:24<1:28:25,  1.55it/s]Training 1/3 epoch (loss 0.9726):  16%|█▌        | 1540/9753 [16:24<1:28:25,  1.55it/s]Training 1/3 epoch (loss 0.9726):  16%|█▌        | 1541/9753 [16:24<1:27:47,  1.56it/s]Training 1/3 epoch (loss 1.3363):  16%|█▌        | 1541/9753 [16:25<1:27:47,  1.56it/s]Training 1/3 epoch (loss 1.3363):  16%|█▌        | 1542/9753 [16:25<1:38:15,  1.39it/s]Training 1/3 epoch (loss 1.0747):  16%|█▌        | 1542/9753 [16:26<1:38:15,  1.39it/s]Training 1/3 epoch (loss 1.0747):  16%|█▌        | 1543/9753 [16:26<1:32:28,  1.48it/s]Training 1/3 epoch (loss 0.9870):  16%|█▌        | 1543/9753 [16:27<1:32:28,  1.48it/s]Training 1/3 epoch (loss 0.9870):  16%|█▌        | 1544/9753 [16:27<1:42:18,  1.34it/s]Training 1/3 epoch (loss 1.2026):  16%|█▌        | 1544/9753 [16:27<1:42:18,  1.34it/s]Training 1/3 epoch (loss 1.2026):  16%|█▌        | 1545/9753 [16:27<1:37:52,  1.40it/s]Training 1/3 epoch (loss 1.2937):  16%|█▌        | 1545/9753 [16:28<1:37:52,  1.40it/s]Training 1/3 epoch (loss 1.2937):  16%|█▌        | 1546/9753 [16:28<1:35:11,  1.44it/s]Training 1/3 epoch (loss 1.0393):  16%|█▌        | 1546/9753 [16:29<1:35:11,  1.44it/s]Training 1/3 epoch (loss 1.0393):  16%|█▌        | 1547/9753 [16:29<1:32:54,  1.47it/s]Training 1/3 epoch (loss 0.9713):  16%|█▌        | 1547/9753 [16:29<1:32:54,  1.47it/s]Training 1/3 epoch (loss 0.9713):  16%|█▌        | 1548/9753 [16:29<1:28:34,  1.54it/s]Training 1/3 epoch (loss 0.8942):  16%|█▌        | 1548/9753 [16:30<1:28:34,  1.54it/s]Training 1/3 epoch (loss 0.8942):  16%|█▌        | 1549/9753 [16:30<1:24:24,  1.62it/s]Training 1/3 epoch (loss 1.0080):  16%|█▌        | 1549/9753 [16:31<1:24:24,  1.62it/s]Training 1/3 epoch (loss 1.0080):  16%|█▌        | 1550/9753 [16:31<1:30:52,  1.50it/s]Training 1/3 epoch (loss 1.1257):  16%|█▌        | 1550/9753 [16:31<1:30:52,  1.50it/s]Training 1/3 epoch (loss 1.1257):  16%|█▌        | 1551/9753 [16:31<1:26:17,  1.58it/s]Training 1/3 epoch (loss 1.1618):  16%|█▌        | 1551/9753 [16:32<1:26:17,  1.58it/s]Training 1/3 epoch (loss 1.1618):  16%|█▌        | 1552/9753 [16:32<1:30:24,  1.51it/s]Training 1/3 epoch (loss 1.3058):  16%|█▌        | 1552/9753 [16:33<1:30:24,  1.51it/s]Training 1/3 epoch (loss 1.3058):  16%|█▌        | 1553/9753 [16:33<1:29:13,  1.53it/s]Training 1/3 epoch (loss 1.0785):  16%|█▌        | 1553/9753 [16:33<1:29:13,  1.53it/s]Training 1/3 epoch (loss 1.0785):  16%|█▌        | 1554/9753 [16:33<1:25:02,  1.61it/s]Training 1/3 epoch (loss 1.1167):  16%|█▌        | 1554/9753 [16:34<1:25:02,  1.61it/s]Training 1/3 epoch (loss 1.1167):  16%|█▌        | 1555/9753 [16:34<1:26:42,  1.58it/s]Training 1/3 epoch (loss 1.1138):  16%|█▌        | 1555/9753 [16:34<1:26:42,  1.58it/s]Training 1/3 epoch (loss 1.1138):  16%|█▌        | 1556/9753 [16:34<1:23:08,  1.64it/s]Training 1/3 epoch (loss 1.0970):  16%|█▌        | 1556/9753 [16:35<1:23:08,  1.64it/s]Training 1/3 epoch (loss 1.0970):  16%|█▌        | 1557/9753 [16:35<1:22:49,  1.65it/s]Training 1/3 epoch (loss 1.0247):  16%|█▌        | 1557/9753 [16:36<1:22:49,  1.65it/s]Training 1/3 epoch (loss 1.0247):  16%|█▌        | 1558/9753 [16:36<1:23:08,  1.64it/s]Training 1/3 epoch (loss 1.0311):  16%|█▌        | 1558/9753 [16:36<1:23:08,  1.64it/s]Training 1/3 epoch (loss 1.0311):  16%|█▌        | 1559/9753 [16:36<1:20:48,  1.69it/s]Training 1/3 epoch (loss 0.9055):  16%|█▌        | 1559/9753 [16:37<1:20:48,  1.69it/s]Training 1/3 epoch (loss 0.9055):  16%|█▌        | 1560/9753 [16:37<1:18:48,  1.73it/s]Training 1/3 epoch (loss 1.0042):  16%|█▌        | 1560/9753 [16:37<1:18:48,  1.73it/s]Training 1/3 epoch (loss 1.0042):  16%|█▌        | 1561/9753 [16:37<1:19:27,  1.72it/s]Training 1/3 epoch (loss 1.0983):  16%|█▌        | 1561/9753 [16:38<1:19:27,  1.72it/s]Training 1/3 epoch (loss 1.0983):  16%|█▌        | 1562/9753 [16:38<1:20:09,  1.70it/s]Training 1/3 epoch (loss 0.9496):  16%|█▌        | 1562/9753 [16:38<1:20:09,  1.70it/s]Training 1/3 epoch (loss 0.9496):  16%|█▌        | 1563/9753 [16:38<1:19:22,  1.72it/s]Training 1/3 epoch (loss 1.1902):  16%|█▌        | 1563/9753 [16:39<1:19:22,  1.72it/s]Training 1/3 epoch (loss 1.1902):  16%|█▌        | 1564/9753 [16:39<1:19:14,  1.72it/s]Training 1/3 epoch (loss 1.0437):  16%|█▌        | 1564/9753 [16:40<1:19:14,  1.72it/s]Training 1/3 epoch (loss 1.0437):  16%|█▌        | 1565/9753 [16:40<1:17:57,  1.75it/s]Training 1/3 epoch (loss 0.8908):  16%|█▌        | 1565/9753 [16:40<1:17:57,  1.75it/s]Training 1/3 epoch (loss 0.8908):  16%|█▌        | 1566/9753 [16:40<1:16:59,  1.77it/s]Training 1/3 epoch (loss 1.0640):  16%|█▌        | 1566/9753 [16:41<1:16:59,  1.77it/s]Training 1/3 epoch (loss 1.0640):  16%|█▌        | 1567/9753 [16:41<1:16:17,  1.79it/s]Training 1/3 epoch (loss 1.2759):  16%|█▌        | 1567/9753 [16:41<1:16:17,  1.79it/s]Training 1/3 epoch (loss 1.2759):  16%|█▌        | 1568/9753 [16:41<1:21:53,  1.67it/s]Training 1/3 epoch (loss 1.0151):  16%|█▌        | 1568/9753 [16:42<1:21:53,  1.67it/s]Training 1/3 epoch (loss 1.0151):  16%|█▌        | 1569/9753 [16:42<1:20:07,  1.70it/s]Training 1/3 epoch (loss 1.0778):  16%|█▌        | 1569/9753 [16:43<1:20:07,  1.70it/s]Training 1/3 epoch (loss 1.0778):  16%|█▌        | 1570/9753 [16:43<1:29:03,  1.53it/s]Training 1/3 epoch (loss 0.9947):  16%|█▌        | 1570/9753 [16:43<1:29:03,  1.53it/s]Training 1/3 epoch (loss 0.9947):  16%|█▌        | 1571/9753 [16:43<1:27:34,  1.56it/s]Training 1/3 epoch (loss 1.0736):  16%|█▌        | 1571/9753 [16:44<1:27:34,  1.56it/s]Training 1/3 epoch (loss 1.0736):  16%|█▌        | 1572/9753 [16:44<1:25:12,  1.60it/s]Training 1/3 epoch (loss 0.8925):  16%|█▌        | 1572/9753 [16:45<1:25:12,  1.60it/s]Training 1/3 epoch (loss 0.8925):  16%|█▌        | 1573/9753 [16:45<1:28:20,  1.54it/s]Training 1/3 epoch (loss 0.9785):  16%|█▌        | 1573/9753 [16:45<1:28:20,  1.54it/s]Training 1/3 epoch (loss 0.9785):  16%|█▌        | 1574/9753 [16:45<1:25:48,  1.59it/s]Training 1/3 epoch (loss 0.9755):  16%|█▌        | 1574/9753 [16:46<1:25:48,  1.59it/s]Training 1/3 epoch (loss 0.9755):  16%|█▌        | 1575/9753 [16:46<1:24:03,  1.62it/s]Training 1/3 epoch (loss 0.9977):  16%|█▌        | 1575/9753 [16:47<1:24:03,  1.62it/s]Training 1/3 epoch (loss 0.9977):  16%|█▌        | 1576/9753 [16:47<1:30:41,  1.50it/s]Training 1/3 epoch (loss 0.9216):  16%|█▌        | 1576/9753 [16:47<1:30:41,  1.50it/s]Training 1/3 epoch (loss 0.9216):  16%|█▌        | 1577/9753 [16:47<1:28:09,  1.55it/s]Training 1/3 epoch (loss 1.1622):  16%|█▌        | 1577/9753 [16:48<1:28:09,  1.55it/s]Training 1/3 epoch (loss 1.1622):  16%|█▌        | 1578/9753 [16:48<1:33:59,  1.45it/s]Training 1/3 epoch (loss 1.2770):  16%|█▌        | 1578/9753 [16:49<1:33:59,  1.45it/s]Training 1/3 epoch (loss 1.2770):  16%|█▌        | 1579/9753 [16:49<1:28:43,  1.54it/s]Training 1/3 epoch (loss 1.2158):  16%|█▌        | 1579/9753 [16:49<1:28:43,  1.54it/s]Training 1/3 epoch (loss 1.2158):  16%|█▌        | 1580/9753 [16:49<1:28:28,  1.54it/s]Training 1/3 epoch (loss 1.1780):  16%|█▌        | 1580/9753 [16:50<1:28:28,  1.54it/s]Training 1/3 epoch (loss 1.1780):  16%|█▌        | 1581/9753 [16:50<1:26:34,  1.57it/s]Training 1/3 epoch (loss 1.1315):  16%|█▌        | 1581/9753 [16:50<1:26:34,  1.57it/s]Training 1/3 epoch (loss 1.1315):  16%|█▌        | 1582/9753 [16:50<1:24:17,  1.62it/s]Training 1/3 epoch (loss 1.0217):  16%|█▌        | 1582/9753 [16:51<1:24:17,  1.62it/s]Training 1/3 epoch (loss 1.0217):  16%|█▌        | 1583/9753 [16:51<1:22:44,  1.65it/s]Training 1/3 epoch (loss 1.1828):  16%|█▌        | 1583/9753 [16:52<1:22:44,  1.65it/s]Training 1/3 epoch (loss 1.1828):  16%|█▌        | 1584/9753 [16:52<1:32:33,  1.47it/s]Training 1/3 epoch (loss 1.0636):  16%|█▌        | 1584/9753 [16:52<1:32:33,  1.47it/s]Training 1/3 epoch (loss 1.0636):  16%|█▋        | 1585/9753 [16:52<1:28:34,  1.54it/s]Training 1/3 epoch (loss 1.1135):  16%|█▋        | 1585/9753 [16:53<1:28:34,  1.54it/s]Training 1/3 epoch (loss 1.1135):  16%|█▋        | 1586/9753 [16:53<1:27:29,  1.56it/s]Training 1/3 epoch (loss 1.0395):  16%|█▋        | 1586/9753 [16:54<1:27:29,  1.56it/s]Training 1/3 epoch (loss 1.0395):  16%|█▋        | 1587/9753 [16:54<1:28:02,  1.55it/s]Training 1/3 epoch (loss 1.0443):  16%|█▋        | 1587/9753 [16:54<1:28:02,  1.55it/s]Training 1/3 epoch (loss 1.0443):  16%|█▋        | 1588/9753 [16:54<1:25:03,  1.60it/s]Training 1/3 epoch (loss 1.2525):  16%|█▋        | 1588/9753 [16:55<1:25:03,  1.60it/s]Training 1/3 epoch (loss 1.2525):  16%|█▋        | 1589/9753 [16:55<1:23:01,  1.64it/s]Training 1/3 epoch (loss 1.0492):  16%|█▋        | 1589/9753 [16:55<1:23:01,  1.64it/s]Training 1/3 epoch (loss 1.0492):  16%|█▋        | 1590/9753 [16:55<1:21:38,  1.67it/s]Training 1/3 epoch (loss 1.1429):  16%|█▋        | 1590/9753 [16:56<1:21:38,  1.67it/s]Training 1/3 epoch (loss 1.1429):  16%|█▋        | 1591/9753 [16:56<1:21:17,  1.67it/s]Training 1/3 epoch (loss 1.1975):  16%|█▋        | 1591/9753 [16:57<1:21:17,  1.67it/s]Training 1/3 epoch (loss 1.1975):  16%|█▋        | 1592/9753 [16:57<1:19:51,  1.70it/s]Training 1/3 epoch (loss 1.0443):  16%|█▋        | 1592/9753 [16:57<1:19:51,  1.70it/s]Training 1/3 epoch (loss 1.0443):  16%|█▋        | 1593/9753 [16:57<1:18:04,  1.74it/s]Training 1/3 epoch (loss 1.0842):  16%|█▋        | 1593/9753 [16:58<1:18:04,  1.74it/s]Training 1/3 epoch (loss 1.0842):  16%|█▋        | 1594/9753 [16:58<1:18:10,  1.74it/s]Training 1/3 epoch (loss 0.9713):  16%|█▋        | 1594/9753 [16:58<1:18:10,  1.74it/s]Training 1/3 epoch (loss 0.9713):  16%|█▋        | 1595/9753 [16:58<1:17:12,  1.76it/s]Training 1/3 epoch (loss 1.1777):  16%|█▋        | 1595/9753 [16:59<1:17:12,  1.76it/s]Training 1/3 epoch (loss 1.1777):  16%|█▋        | 1596/9753 [16:59<1:16:21,  1.78it/s]Training 1/3 epoch (loss 1.2107):  16%|█▋        | 1596/9753 [16:59<1:16:21,  1.78it/s]Training 1/3 epoch (loss 1.2107):  16%|█▋        | 1597/9753 [16:59<1:21:11,  1.67it/s]Training 1/3 epoch (loss 1.2357):  16%|█▋        | 1597/9753 [17:00<1:21:11,  1.67it/s]Training 1/3 epoch (loss 1.2357):  16%|█▋        | 1598/9753 [17:00<1:23:28,  1.63it/s]Training 1/3 epoch (loss 0.9589):  16%|█▋        | 1598/9753 [17:01<1:23:28,  1.63it/s]Training 1/3 epoch (loss 0.9589):  16%|█▋        | 1599/9753 [17:01<1:22:27,  1.65it/s]Training 1/3 epoch (loss 0.9459):  16%|█▋        | 1599/9753 [17:01<1:22:27,  1.65it/s]Training 1/3 epoch (loss 0.9459):  16%|█▋        | 1600/9753 [17:01<1:25:00,  1.60it/s]Training 1/3 epoch (loss 1.2189):  16%|█▋        | 1600/9753 [17:02<1:25:00,  1.60it/s]Training 1/3 epoch (loss 1.2189):  16%|█▋        | 1601/9753 [17:02<1:22:58,  1.64it/s]Training 1/3 epoch (loss 1.2134):  16%|█▋        | 1601/9753 [17:02<1:22:58,  1.64it/s]Training 1/3 epoch (loss 1.2134):  16%|█▋        | 1602/9753 [17:02<1:20:46,  1.68it/s]Training 1/3 epoch (loss 1.0876):  16%|█▋        | 1602/9753 [17:03<1:20:46,  1.68it/s]Training 1/3 epoch (loss 1.0876):  16%|█▋        | 1603/9753 [17:03<1:23:13,  1.63it/s]Training 1/3 epoch (loss 1.0895):  16%|█▋        | 1603/9753 [17:04<1:23:13,  1.63it/s]Training 1/3 epoch (loss 1.0895):  16%|█▋        | 1604/9753 [17:04<1:29:14,  1.52it/s]Training 1/3 epoch (loss 0.9896):  16%|█▋        | 1604/9753 [17:04<1:29:14,  1.52it/s]Training 1/3 epoch (loss 0.9896):  16%|█▋        | 1605/9753 [17:04<1:25:58,  1.58it/s]Training 1/3 epoch (loss 1.2581):  16%|█▋        | 1605/9753 [17:05<1:25:58,  1.58it/s]Training 1/3 epoch (loss 1.2581):  16%|█▋        | 1606/9753 [17:05<1:28:41,  1.53it/s]Training 1/3 epoch (loss 1.2353):  16%|█▋        | 1606/9753 [17:06<1:28:41,  1.53it/s]Training 1/3 epoch (loss 1.2353):  16%|█▋        | 1607/9753 [17:06<1:27:11,  1.56it/s]Training 1/3 epoch (loss 1.1149):  16%|█▋        | 1607/9753 [17:06<1:27:11,  1.56it/s]Training 1/3 epoch (loss 1.1149):  16%|█▋        | 1608/9753 [17:06<1:28:46,  1.53it/s]Training 1/3 epoch (loss 1.0502):  16%|█▋        | 1608/9753 [17:07<1:28:46,  1.53it/s]Training 1/3 epoch (loss 1.0502):  16%|█▋        | 1609/9753 [17:07<1:34:04,  1.44it/s]Training 1/3 epoch (loss 1.1737):  16%|█▋        | 1609/9753 [17:08<1:34:04,  1.44it/s]Training 1/3 epoch (loss 1.1737):  17%|█▋        | 1610/9753 [17:08<1:28:33,  1.53it/s]Training 1/3 epoch (loss 1.0342):  17%|█▋        | 1610/9753 [17:08<1:28:33,  1.53it/s]Training 1/3 epoch (loss 1.0342):  17%|█▋        | 1611/9753 [17:08<1:24:11,  1.61it/s]Training 1/3 epoch (loss 1.0247):  17%|█▋        | 1611/9753 [17:09<1:24:11,  1.61it/s]Training 1/3 epoch (loss 1.0247):  17%|█▋        | 1612/9753 [17:09<1:24:10,  1.61it/s]Training 1/3 epoch (loss 1.1219):  17%|█▋        | 1612/9753 [17:10<1:24:10,  1.61it/s]Training 1/3 epoch (loss 1.1219):  17%|█▋        | 1613/9753 [17:10<1:21:21,  1.67it/s]Training 1/3 epoch (loss 0.9196):  17%|█▋        | 1613/9753 [17:10<1:21:21,  1.67it/s]Training 1/3 epoch (loss 0.9196):  17%|█▋        | 1614/9753 [17:10<1:22:04,  1.65it/s]Training 1/3 epoch (loss 1.0395):  17%|█▋        | 1614/9753 [17:11<1:22:04,  1.65it/s]Training 1/3 epoch (loss 1.0395):  17%|█▋        | 1615/9753 [17:11<1:19:49,  1.70it/s]Training 1/3 epoch (loss 1.0486):  17%|█▋        | 1615/9753 [17:11<1:19:49,  1.70it/s]Training 1/3 epoch (loss 1.0486):  17%|█▋        | 1616/9753 [17:11<1:24:57,  1.60it/s]Training 1/3 epoch (loss 1.0321):  17%|█▋        | 1616/9753 [17:12<1:24:57,  1.60it/s]Training 1/3 epoch (loss 1.0321):  17%|█▋        | 1617/9753 [17:12<1:22:37,  1.64it/s]Training 1/3 epoch (loss 0.9610):  17%|█▋        | 1617/9753 [17:13<1:22:37,  1.64it/s]Training 1/3 epoch (loss 0.9610):  17%|█▋        | 1618/9753 [17:13<1:19:56,  1.70it/s]Training 1/3 epoch (loss 1.1548):  17%|█▋        | 1618/9753 [17:13<1:19:56,  1.70it/s]Training 1/3 epoch (loss 1.1548):  17%|█▋        | 1619/9753 [17:13<1:21:49,  1.66it/s]Training 1/3 epoch (loss 1.1082):  17%|█▋        | 1619/9753 [17:14<1:21:49,  1.66it/s]Training 1/3 epoch (loss 1.1082):  17%|█▋        | 1620/9753 [17:14<1:19:39,  1.70it/s]Training 1/3 epoch (loss 1.1678):  17%|█▋        | 1620/9753 [17:14<1:19:39,  1.70it/s]Training 1/3 epoch (loss 1.1678):  17%|█▋        | 1621/9753 [17:14<1:17:57,  1.74it/s]Training 1/3 epoch (loss 1.2276):  17%|█▋        | 1621/9753 [17:15<1:17:57,  1.74it/s]Training 1/3 epoch (loss 1.2276):  17%|█▋        | 1622/9753 [17:15<1:16:54,  1.76it/s]Training 1/3 epoch (loss 0.8734):  17%|█▋        | 1622/9753 [17:15<1:16:54,  1.76it/s]Training 1/3 epoch (loss 0.8734):  17%|█▋        | 1623/9753 [17:15<1:22:11,  1.65it/s]Training 1/3 epoch (loss 1.1238):  17%|█▋        | 1623/9753 [17:16<1:22:11,  1.65it/s]Training 1/3 epoch (loss 1.1238):  17%|█▋        | 1624/9753 [17:16<1:28:52,  1.52it/s]Training 1/3 epoch (loss 1.2418):  17%|█▋        | 1624/9753 [17:17<1:28:52,  1.52it/s]Training 1/3 epoch (loss 1.2418):  17%|█▋        | 1625/9753 [17:17<1:30:15,  1.50it/s]Training 1/3 epoch (loss 1.1599):  17%|█▋        | 1625/9753 [17:18<1:30:15,  1.50it/s]Training 1/3 epoch (loss 1.1599):  17%|█▋        | 1626/9753 [17:18<1:31:00,  1.49it/s]Training 1/3 epoch (loss 1.0203):  17%|█▋        | 1626/9753 [17:18<1:31:00,  1.49it/s]Training 1/3 epoch (loss 1.0203):  17%|█▋        | 1627/9753 [17:18<1:29:01,  1.52it/s]Training 1/3 epoch (loss 1.1668):  17%|█▋        | 1627/9753 [17:19<1:29:01,  1.52it/s]Training 1/3 epoch (loss 1.1668):  17%|█▋        | 1628/9753 [17:19<1:24:35,  1.60it/s]Training 1/3 epoch (loss 0.9011):  17%|█▋        | 1628/9753 [17:19<1:24:35,  1.60it/s]Training 1/3 epoch (loss 0.9011):  17%|█▋        | 1629/9753 [17:19<1:21:17,  1.67it/s]Training 1/3 epoch (loss 1.1726):  17%|█▋        | 1629/9753 [17:20<1:21:17,  1.67it/s]Training 1/3 epoch (loss 1.1726):  17%|█▋        | 1630/9753 [17:20<1:21:30,  1.66it/s]Training 1/3 epoch (loss 0.9297):  17%|█▋        | 1630/9753 [17:21<1:21:30,  1.66it/s]Training 1/3 epoch (loss 0.9297):  17%|█▋        | 1631/9753 [17:21<1:19:13,  1.71it/s]Training 1/3 epoch (loss 1.1824):  17%|█▋        | 1631/9753 [17:21<1:19:13,  1.71it/s]Training 1/3 epoch (loss 1.1824):  17%|█▋        | 1632/9753 [17:21<1:22:50,  1.63it/s]Training 1/3 epoch (loss 0.9009):  17%|█▋        | 1632/9753 [17:22<1:22:50,  1.63it/s]Training 1/3 epoch (loss 0.9009):  17%|█▋        | 1633/9753 [17:22<1:20:34,  1.68it/s]Training 1/3 epoch (loss 1.1068):  17%|█▋        | 1633/9753 [17:22<1:20:34,  1.68it/s]Training 1/3 epoch (loss 1.1068):  17%|█▋        | 1634/9753 [17:22<1:21:39,  1.66it/s]Training 1/3 epoch (loss 1.0588):  17%|█▋        | 1634/9753 [17:23<1:21:39,  1.66it/s]Training 1/3 epoch (loss 1.0588):  17%|█▋        | 1635/9753 [17:23<1:24:08,  1.61it/s]Training 1/3 epoch (loss 1.3078):  17%|█▋        | 1635/9753 [17:24<1:24:08,  1.61it/s]Training 1/3 epoch (loss 1.3078):  17%|█▋        | 1636/9753 [17:24<1:21:11,  1.67it/s]Training 1/3 epoch (loss 0.9274):  17%|█▋        | 1636/9753 [17:24<1:21:11,  1.67it/s]Training 1/3 epoch (loss 0.9274):  17%|█▋        | 1637/9753 [17:24<1:19:15,  1.71it/s]Training 1/3 epoch (loss 1.2280):  17%|█▋        | 1637/9753 [17:25<1:19:15,  1.71it/s]Training 1/3 epoch (loss 1.2280):  17%|█▋        | 1638/9753 [17:25<1:25:01,  1.59it/s]Training 1/3 epoch (loss 0.8239):  17%|█▋        | 1638/9753 [17:25<1:25:01,  1.59it/s]Training 1/3 epoch (loss 0.8239):  17%|█▋        | 1639/9753 [17:25<1:21:43,  1.65it/s]Training 1/3 epoch (loss 1.1218):  17%|█▋        | 1639/9753 [17:26<1:21:43,  1.65it/s]Training 1/3 epoch (loss 1.1218):  17%|█▋        | 1640/9753 [17:26<1:24:02,  1.61it/s]Training 1/3 epoch (loss 1.1774):  17%|█▋        | 1640/9753 [17:27<1:24:02,  1.61it/s]Training 1/3 epoch (loss 1.1774):  17%|█▋        | 1641/9753 [17:27<1:25:12,  1.59it/s]Training 1/3 epoch (loss 1.1625):  17%|█▋        | 1641/9753 [17:27<1:25:12,  1.59it/s]Training 1/3 epoch (loss 1.1625):  17%|█▋        | 1642/9753 [17:27<1:22:12,  1.64it/s]Training 1/3 epoch (loss 1.1189):  17%|█▋        | 1642/9753 [17:28<1:22:12,  1.64it/s]Training 1/3 epoch (loss 1.1189):  17%|█▋        | 1643/9753 [17:28<1:19:40,  1.70it/s]Training 1/3 epoch (loss 1.2019):  17%|█▋        | 1643/9753 [17:28<1:19:40,  1.70it/s]Training 1/3 epoch (loss 1.2019):  17%|█▋        | 1644/9753 [17:28<1:20:57,  1.67it/s]Training 1/3 epoch (loss 0.9361):  17%|█▋        | 1644/9753 [17:29<1:20:57,  1.67it/s]Training 1/3 epoch (loss 0.9361):  17%|█▋        | 1645/9753 [17:29<1:29:45,  1.51it/s]Training 1/3 epoch (loss 1.3230):  17%|█▋        | 1645/9753 [17:30<1:29:45,  1.51it/s]Training 1/3 epoch (loss 1.3230):  17%|█▋        | 1646/9753 [17:30<1:26:22,  1.56it/s]Training 1/3 epoch (loss 0.9734):  17%|█▋        | 1646/9753 [17:30<1:26:22,  1.56it/s]Training 1/3 epoch (loss 0.9734):  17%|█▋        | 1647/9753 [17:30<1:22:43,  1.63it/s]Training 1/3 epoch (loss 1.0013):  17%|█▋        | 1647/9753 [17:31<1:22:43,  1.63it/s]Training 1/3 epoch (loss 1.0013):  17%|█▋        | 1648/9753 [17:31<1:26:40,  1.56it/s]Training 1/3 epoch (loss 0.9145):  17%|█▋        | 1648/9753 [17:32<1:26:40,  1.56it/s]Training 1/3 epoch (loss 0.9145):  17%|█▋        | 1649/9753 [17:32<1:23:21,  1.62it/s]Training 1/3 epoch (loss 0.9606):  17%|█▋        | 1649/9753 [17:32<1:23:21,  1.62it/s]Training 1/3 epoch (loss 0.9606):  17%|█▋        | 1650/9753 [17:32<1:20:43,  1.67it/s]Training 1/3 epoch (loss 1.0586):  17%|█▋        | 1650/9753 [17:33<1:20:43,  1.67it/s]Training 1/3 epoch (loss 1.0586):  17%|█▋        | 1651/9753 [17:33<1:33:20,  1.45it/s]Training 1/3 epoch (loss 1.0540):  17%|█▋        | 1651/9753 [17:34<1:33:20,  1.45it/s]Training 1/3 epoch (loss 1.0540):  17%|█▋        | 1652/9753 [17:34<1:29:07,  1.52it/s]Training 1/3 epoch (loss 1.0868):  17%|█▋        | 1652/9753 [17:35<1:29:07,  1.52it/s]Training 1/3 epoch (loss 1.0868):  17%|█▋        | 1653/9753 [17:35<1:38:01,  1.38it/s]Training 1/3 epoch (loss 1.2682):  17%|█▋        | 1653/9753 [17:35<1:38:01,  1.38it/s]Training 1/3 epoch (loss 1.2682):  17%|█▋        | 1654/9753 [17:35<1:34:46,  1.42it/s]Training 1/3 epoch (loss 1.1848):  17%|█▋        | 1654/9753 [17:36<1:34:46,  1.42it/s]Training 1/3 epoch (loss 1.1848):  17%|█▋        | 1655/9753 [17:36<1:34:42,  1.43it/s]Training 1/3 epoch (loss 1.0927):  17%|█▋        | 1655/9753 [17:36<1:34:42,  1.43it/s]Training 1/3 epoch (loss 1.0927):  17%|█▋        | 1656/9753 [17:36<1:29:13,  1.51it/s]Training 1/3 epoch (loss 0.8766):  17%|█▋        | 1656/9753 [17:37<1:29:13,  1.51it/s]Training 1/3 epoch (loss 0.8766):  17%|█▋        | 1657/9753 [17:37<1:30:44,  1.49it/s]Training 1/3 epoch (loss 0.9057):  17%|█▋        | 1657/9753 [17:38<1:30:44,  1.49it/s]Training 1/3 epoch (loss 0.9057):  17%|█▋        | 1658/9753 [17:38<1:29:15,  1.51it/s]Training 1/3 epoch (loss 0.9785):  17%|█▋        | 1658/9753 [17:39<1:29:15,  1.51it/s]Training 1/3 epoch (loss 0.9785):  17%|█▋        | 1659/9753 [17:39<1:30:08,  1.50it/s]Training 1/3 epoch (loss 1.0594):  17%|█▋        | 1659/9753 [17:39<1:30:08,  1.50it/s]Training 1/3 epoch (loss 1.0594):  17%|█▋        | 1660/9753 [17:39<1:25:51,  1.57it/s]Training 1/3 epoch (loss 1.1861):  17%|█▋        | 1660/9753 [17:40<1:25:51,  1.57it/s]Training 1/3 epoch (loss 1.1861):  17%|█▋        | 1661/9753 [17:40<1:23:39,  1.61it/s]Training 1/3 epoch (loss 1.3046):  17%|█▋        | 1661/9753 [17:40<1:23:39,  1.61it/s]Training 1/3 epoch (loss 1.3046):  17%|█▋        | 1662/9753 [17:40<1:22:57,  1.63it/s]Training 1/3 epoch (loss 1.1205):  17%|█▋        | 1662/9753 [17:41<1:22:57,  1.63it/s]Training 1/3 epoch (loss 1.1205):  17%|█▋        | 1663/9753 [17:41<1:20:35,  1.67it/s]Training 1/3 epoch (loss 1.0846):  17%|█▋        | 1663/9753 [17:42<1:20:35,  1.67it/s]Training 1/3 epoch (loss 1.0846):  17%|█▋        | 1664/9753 [17:42<1:29:05,  1.51it/s]Training 1/3 epoch (loss 0.9456):  17%|█▋        | 1664/9753 [17:42<1:29:05,  1.51it/s]Training 1/3 epoch (loss 0.9456):  17%|█▋        | 1665/9753 [17:42<1:29:41,  1.50it/s]Training 1/3 epoch (loss 1.0743):  17%|█▋        | 1665/9753 [17:43<1:29:41,  1.50it/s]Training 1/3 epoch (loss 1.0743):  17%|█▋        | 1666/9753 [17:43<1:25:26,  1.58it/s]Training 1/3 epoch (loss 1.1376):  17%|█▋        | 1666/9753 [17:43<1:25:26,  1.58it/s]Training 1/3 epoch (loss 1.1376):  17%|█▋        | 1667/9753 [17:43<1:24:21,  1.60it/s]Training 1/3 epoch (loss 1.1099):  17%|█▋        | 1667/9753 [17:44<1:24:21,  1.60it/s]Training 1/3 epoch (loss 1.1099):  17%|█▋        | 1668/9753 [17:44<1:21:52,  1.65it/s]Training 1/3 epoch (loss 0.9788):  17%|█▋        | 1668/9753 [17:45<1:21:52,  1.65it/s]Training 1/3 epoch (loss 0.9788):  17%|█▋        | 1669/9753 [17:45<1:21:16,  1.66it/s]Training 1/3 epoch (loss 0.9607):  17%|█▋        | 1669/9753 [17:45<1:21:16,  1.66it/s]Training 1/3 epoch (loss 0.9607):  17%|█▋        | 1670/9753 [17:45<1:23:05,  1.62it/s]Training 1/3 epoch (loss 1.2362):  17%|█▋        | 1670/9753 [17:46<1:23:05,  1.62it/s]Training 1/3 epoch (loss 1.2362):  17%|█▋        | 1671/9753 [17:46<1:27:10,  1.55it/s]Training 1/3 epoch (loss 1.1945):  17%|█▋        | 1671/9753 [17:47<1:27:10,  1.55it/s]Training 1/3 epoch (loss 1.1945):  17%|█▋        | 1672/9753 [17:47<1:28:28,  1.52it/s]Training 1/3 epoch (loss 0.9922):  17%|█▋        | 1672/9753 [17:47<1:28:28,  1.52it/s]Training 1/3 epoch (loss 0.9922):  17%|█▋        | 1673/9753 [17:47<1:30:29,  1.49it/s]Training 1/3 epoch (loss 1.0604):  17%|█▋        | 1673/9753 [17:48<1:30:29,  1.49it/s]Training 1/3 epoch (loss 1.0604):  17%|█▋        | 1674/9753 [17:48<1:25:40,  1.57it/s]Training 1/3 epoch (loss 1.0501):  17%|█▋        | 1674/9753 [17:49<1:25:40,  1.57it/s]Training 1/3 epoch (loss 1.0501):  17%|█▋        | 1675/9753 [17:49<1:32:32,  1.45it/s]Training 1/3 epoch (loss 1.1133):  17%|█▋        | 1675/9753 [17:49<1:32:32,  1.45it/s]Training 1/3 epoch (loss 1.1133):  17%|█▋        | 1676/9753 [17:49<1:29:27,  1.50it/s]Training 1/3 epoch (loss 0.9468):  17%|█▋        | 1676/9753 [17:50<1:29:27,  1.50it/s]Training 1/3 epoch (loss 0.9468):  17%|█▋        | 1677/9753 [17:50<1:27:16,  1.54it/s]Training 1/3 epoch (loss 0.9942):  17%|█▋        | 1677/9753 [17:51<1:27:16,  1.54it/s]Training 1/3 epoch (loss 0.9942):  17%|█▋        | 1678/9753 [17:51<1:32:46,  1.45it/s]Training 1/3 epoch (loss 1.0483):  17%|█▋        | 1678/9753 [17:51<1:32:46,  1.45it/s]Training 1/3 epoch (loss 1.0483):  17%|█▋        | 1679/9753 [17:51<1:29:00,  1.51it/s]Training 1/3 epoch (loss 1.0844):  17%|█▋        | 1679/9753 [17:52<1:29:00,  1.51it/s]Training 1/3 epoch (loss 1.0844):  17%|█▋        | 1680/9753 [17:52<1:33:03,  1.45it/s]Training 1/3 epoch (loss 0.9891):  17%|█▋        | 1680/9753 [17:53<1:33:03,  1.45it/s]Training 1/3 epoch (loss 0.9891):  17%|█▋        | 1681/9753 [17:53<1:27:50,  1.53it/s]Training 1/3 epoch (loss 0.9491):  17%|█▋        | 1681/9753 [17:53<1:27:50,  1.53it/s]Training 1/3 epoch (loss 0.9491):  17%|█▋        | 1682/9753 [17:53<1:23:32,  1.61it/s]Training 1/3 epoch (loss 1.2804):  17%|█▋        | 1682/9753 [17:54<1:23:32,  1.61it/s]Training 1/3 epoch (loss 1.2804):  17%|█▋        | 1683/9753 [17:54<1:20:43,  1.67it/s]Training 1/3 epoch (loss 1.1331):  17%|█▋        | 1683/9753 [17:54<1:20:43,  1.67it/s]Training 1/3 epoch (loss 1.1331):  17%|█▋        | 1684/9753 [17:54<1:18:30,  1.71it/s]Training 1/3 epoch (loss 0.9985):  17%|█▋        | 1684/9753 [17:55<1:18:30,  1.71it/s]Training 1/3 epoch (loss 0.9985):  17%|█▋        | 1685/9753 [17:55<1:16:50,  1.75it/s]Training 1/3 epoch (loss 1.0752):  17%|█▋        | 1685/9753 [17:55<1:16:50,  1.75it/s]Training 1/3 epoch (loss 1.0752):  17%|█▋        | 1686/9753 [17:55<1:16:01,  1.77it/s]Training 1/3 epoch (loss 1.0042):  17%|█▋        | 1686/9753 [17:56<1:16:01,  1.77it/s]Training 1/3 epoch (loss 1.0042):  17%|█▋        | 1687/9753 [17:56<1:15:10,  1.79it/s]Training 1/3 epoch (loss 1.0493):  17%|█▋        | 1687/9753 [17:57<1:15:10,  1.79it/s]Training 1/3 epoch (loss 1.0493):  17%|█▋        | 1688/9753 [17:57<1:18:39,  1.71it/s]Training 1/3 epoch (loss 1.1827):  17%|█▋        | 1688/9753 [17:57<1:18:39,  1.71it/s]Training 1/3 epoch (loss 1.1827):  17%|█▋        | 1689/9753 [17:57<1:21:58,  1.64it/s]Training 1/3 epoch (loss 0.8369):  17%|█▋        | 1689/9753 [17:58<1:21:58,  1.64it/s]Training 1/3 epoch (loss 0.8369):  17%|█▋        | 1690/9753 [17:58<1:21:57,  1.64it/s]Training 1/3 epoch (loss 1.1587):  17%|█▋        | 1690/9753 [17:58<1:21:57,  1.64it/s]Training 1/3 epoch (loss 1.1587):  17%|█▋        | 1691/9753 [17:58<1:20:42,  1.66it/s]Training 1/3 epoch (loss 0.8351):  17%|█▋        | 1691/9753 [17:59<1:20:42,  1.66it/s]Training 1/3 epoch (loss 0.8351):  17%|█▋        | 1692/9753 [17:59<1:19:43,  1.69it/s]Training 1/3 epoch (loss 0.9086):  17%|█▋        | 1692/9753 [18:00<1:19:43,  1.69it/s]Training 1/3 epoch (loss 0.9086):  17%|█▋        | 1693/9753 [18:00<1:18:07,  1.72it/s]Training 1/3 epoch (loss 1.3731):  17%|█▋        | 1693/9753 [18:00<1:18:07,  1.72it/s]Training 1/3 epoch (loss 1.3731):  17%|█▋        | 1694/9753 [18:00<1:16:45,  1.75it/s]Training 1/3 epoch (loss 1.0619):  17%|█▋        | 1694/9753 [18:01<1:16:45,  1.75it/s]Training 1/3 epoch (loss 1.0619):  17%|█▋        | 1695/9753 [18:01<1:17:51,  1.73it/s]Training 1/3 epoch (loss 1.1062):  17%|█▋        | 1695/9753 [18:02<1:17:51,  1.73it/s]Training 1/3 epoch (loss 1.1062):  17%|█▋        | 1696/9753 [18:02<1:27:09,  1.54it/s]Training 1/3 epoch (loss 1.2248):  17%|█▋        | 1696/9753 [18:02<1:27:09,  1.54it/s]Training 1/3 epoch (loss 1.2248):  17%|█▋        | 1697/9753 [18:02<1:23:54,  1.60it/s]Training 1/3 epoch (loss 0.9701):  17%|█▋        | 1697/9753 [18:03<1:23:54,  1.60it/s]Training 1/3 epoch (loss 0.9701):  17%|█▋        | 1698/9753 [18:03<1:21:04,  1.66it/s]Training 1/3 epoch (loss 0.9994):  17%|█▋        | 1698/9753 [18:03<1:21:04,  1.66it/s]Training 1/3 epoch (loss 0.9994):  17%|█▋        | 1699/9753 [18:03<1:21:39,  1.64it/s]Training 1/3 epoch (loss 1.2755):  17%|█▋        | 1699/9753 [18:04<1:21:39,  1.64it/s]Training 1/3 epoch (loss 1.2755):  17%|█▋        | 1700/9753 [18:04<1:23:59,  1.60it/s]Training 1/3 epoch (loss 1.1288):  17%|█▋        | 1700/9753 [18:05<1:23:59,  1.60it/s]Training 1/3 epoch (loss 1.1288):  17%|█▋        | 1701/9753 [18:05<1:26:31,  1.55it/s]Training 1/3 epoch (loss 1.1114):  17%|█▋        | 1701/9753 [18:06<1:26:31,  1.55it/s]Training 1/3 epoch (loss 1.1114):  17%|█▋        | 1702/9753 [18:06<1:39:04,  1.35it/s]Training 1/3 epoch (loss 1.1563):  17%|█▋        | 1702/9753 [18:06<1:39:04,  1.35it/s]Training 1/3 epoch (loss 1.1563):  17%|█▋        | 1703/9753 [18:06<1:34:56,  1.41it/s]Training 1/3 epoch (loss 1.0205):  17%|█▋        | 1703/9753 [18:07<1:34:56,  1.41it/s]Training 1/3 epoch (loss 1.0205):  17%|█▋        | 1704/9753 [18:07<1:28:50,  1.51it/s]Training 1/3 epoch (loss 1.0216):  17%|█▋        | 1704/9753 [18:07<1:28:50,  1.51it/s]Training 1/3 epoch (loss 1.0216):  17%|█▋        | 1705/9753 [18:07<1:24:17,  1.59it/s]Training 1/3 epoch (loss 1.2246):  17%|█▋        | 1705/9753 [18:08<1:24:17,  1.59it/s]Training 1/3 epoch (loss 1.2246):  17%|█▋        | 1706/9753 [18:08<1:22:06,  1.63it/s]Training 1/3 epoch (loss 1.0619):  17%|█▋        | 1706/9753 [18:09<1:22:06,  1.63it/s]Training 1/3 epoch (loss 1.0619):  18%|█▊        | 1707/9753 [18:09<1:25:32,  1.57it/s]Training 1/3 epoch (loss 0.8169):  18%|█▊        | 1707/9753 [18:09<1:25:32,  1.57it/s]Training 1/3 epoch (loss 0.8169):  18%|█▊        | 1708/9753 [18:09<1:25:16,  1.57it/s]Training 1/3 epoch (loss 1.4671):  18%|█▊        | 1708/9753 [18:10<1:25:16,  1.57it/s]Training 1/3 epoch (loss 1.4671):  18%|█▊        | 1709/9753 [18:10<1:22:09,  1.63it/s]Training 1/3 epoch (loss 1.0680):  18%|█▊        | 1709/9753 [18:10<1:22:09,  1.63it/s]Training 1/3 epoch (loss 1.0680):  18%|█▊        | 1710/9753 [18:10<1:20:35,  1.66it/s]Training 1/3 epoch (loss 0.8865):  18%|█▊        | 1710/9753 [18:11<1:20:35,  1.66it/s]Training 1/3 epoch (loss 0.8865):  18%|█▊        | 1711/9753 [18:11<1:21:43,  1.64it/s]Training 1/3 epoch (loss 1.2763):  18%|█▊        | 1711/9753 [18:12<1:21:43,  1.64it/s]Training 1/3 epoch (loss 1.2763):  18%|█▊        | 1712/9753 [18:12<1:33:53,  1.43it/s]Training 1/3 epoch (loss 0.9321):  18%|█▊        | 1712/9753 [18:13<1:33:53,  1.43it/s]Training 1/3 epoch (loss 0.9321):  18%|█▊        | 1713/9753 [18:13<1:30:30,  1.48it/s]Training 1/3 epoch (loss 0.9529):  18%|█▊        | 1713/9753 [18:13<1:30:30,  1.48it/s]Training 1/3 epoch (loss 0.9529):  18%|█▊        | 1714/9753 [18:13<1:25:46,  1.56it/s]Training 1/3 epoch (loss 1.1170):  18%|█▊        | 1714/9753 [18:14<1:25:46,  1.56it/s]Training 1/3 epoch (loss 1.1170):  18%|█▊        | 1715/9753 [18:14<1:23:44,  1.60it/s]Training 1/3 epoch (loss 1.1445):  18%|█▊        | 1715/9753 [18:14<1:23:44,  1.60it/s]Training 1/3 epoch (loss 1.1445):  18%|█▊        | 1716/9753 [18:14<1:20:28,  1.66it/s]Training 1/3 epoch (loss 0.9018):  18%|█▊        | 1716/9753 [18:15<1:20:28,  1.66it/s]Training 1/3 epoch (loss 0.9018):  18%|█▊        | 1717/9753 [18:15<1:20:36,  1.66it/s]Training 1/3 epoch (loss 1.3434):  18%|█▊        | 1717/9753 [18:15<1:20:36,  1.66it/s]Training 1/3 epoch (loss 1.3434):  18%|█▊        | 1718/9753 [18:15<1:18:48,  1.70it/s]Training 1/3 epoch (loss 1.1879):  18%|█▊        | 1718/9753 [18:16<1:18:48,  1.70it/s]Training 1/3 epoch (loss 1.1879):  18%|█▊        | 1719/9753 [18:16<1:16:58,  1.74it/s]Training 1/3 epoch (loss 1.2232):  18%|█▊        | 1719/9753 [18:17<1:16:58,  1.74it/s]Training 1/3 epoch (loss 1.2232):  18%|█▊        | 1720/9753 [18:17<1:21:43,  1.64it/s]Training 1/3 epoch (loss 1.1518):  18%|█▊        | 1720/9753 [18:17<1:21:43,  1.64it/s]Training 1/3 epoch (loss 1.1518):  18%|█▊        | 1721/9753 [18:17<1:20:59,  1.65it/s]Training 1/3 epoch (loss 1.0189):  18%|█▊        | 1721/9753 [18:18<1:20:59,  1.65it/s]Training 1/3 epoch (loss 1.0189):  18%|█▊        | 1722/9753 [18:18<1:18:58,  1.69it/s]Training 1/3 epoch (loss 0.9272):  18%|█▊        | 1722/9753 [18:18<1:18:58,  1.69it/s]Training 1/3 epoch (loss 0.9272):  18%|█▊        | 1723/9753 [18:18<1:17:06,  1.74it/s]Training 1/3 epoch (loss 0.8661):  18%|█▊        | 1723/9753 [18:19<1:17:06,  1.74it/s]Training 1/3 epoch (loss 0.8661):  18%|█▊        | 1724/9753 [18:19<1:16:04,  1.76it/s]Training 1/3 epoch (loss 0.9947):  18%|█▊        | 1724/9753 [18:19<1:16:04,  1.76it/s]Training 1/3 epoch (loss 0.9947):  18%|█▊        | 1725/9753 [18:19<1:17:32,  1.73it/s]Training 1/3 epoch (loss 1.0184):  18%|█▊        | 1725/9753 [18:20<1:17:32,  1.73it/s]Training 1/3 epoch (loss 1.0184):  18%|█▊        | 1726/9753 [18:20<1:16:09,  1.76it/s]Training 1/3 epoch (loss 1.1243):  18%|█▊        | 1726/9753 [18:21<1:16:09,  1.76it/s]Training 1/3 epoch (loss 1.1243):  18%|█▊        | 1727/9753 [18:21<1:15:21,  1.78it/s]Training 1/3 epoch (loss 0.9495):  18%|█▊        | 1727/9753 [18:21<1:15:21,  1.78it/s]Training 1/3 epoch (loss 0.9495):  18%|█▊        | 1728/9753 [18:21<1:22:04,  1.63it/s]Training 1/3 epoch (loss 1.0601):  18%|█▊        | 1728/9753 [18:22<1:22:04,  1.63it/s]Training 1/3 epoch (loss 1.0601):  18%|█▊        | 1729/9753 [18:22<1:24:44,  1.58it/s]Training 1/3 epoch (loss 1.2003):  18%|█▊        | 1729/9753 [18:23<1:24:44,  1.58it/s]Training 1/3 epoch (loss 1.2003):  18%|█▊        | 1730/9753 [18:23<1:25:09,  1.57it/s]Training 1/3 epoch (loss 1.0326):  18%|█▊        | 1730/9753 [18:23<1:25:09,  1.57it/s]Training 1/3 epoch (loss 1.0326):  18%|█▊        | 1731/9753 [18:23<1:26:02,  1.55it/s]Training 1/3 epoch (loss 0.9421):  18%|█▊        | 1731/9753 [18:24<1:26:02,  1.55it/s]Training 1/3 epoch (loss 0.9421):  18%|█▊        | 1732/9753 [18:24<1:23:59,  1.59it/s]Training 1/3 epoch (loss 1.0544):  18%|█▊        | 1732/9753 [18:25<1:23:59,  1.59it/s]Training 1/3 epoch (loss 1.0544):  18%|█▊        | 1733/9753 [18:25<1:26:40,  1.54it/s]Training 1/3 epoch (loss 1.0980):  18%|█▊        | 1733/9753 [18:25<1:26:40,  1.54it/s]Training 1/3 epoch (loss 1.0980):  18%|█▊        | 1734/9753 [18:25<1:24:12,  1.59it/s]Training 1/3 epoch (loss 1.1180):  18%|█▊        | 1734/9753 [18:26<1:24:12,  1.59it/s]Training 1/3 epoch (loss 1.1180):  18%|█▊        | 1735/9753 [18:26<1:22:14,  1.62it/s]Training 1/3 epoch (loss 0.7834):  18%|█▊        | 1735/9753 [18:26<1:22:14,  1.62it/s]Training 1/3 epoch (loss 0.7834):  18%|█▊        | 1736/9753 [18:26<1:21:41,  1.64it/s]Training 1/3 epoch (loss 1.0933):  18%|█▊        | 1736/9753 [18:27<1:21:41,  1.64it/s]Training 1/3 epoch (loss 1.0933):  18%|█▊        | 1737/9753 [18:27<1:19:12,  1.69it/s]Training 1/3 epoch (loss 1.0103):  18%|█▊        | 1737/9753 [18:28<1:19:12,  1.69it/s]Training 1/3 epoch (loss 1.0103):  18%|█▊        | 1738/9753 [18:28<1:30:30,  1.48it/s]Training 1/3 epoch (loss 1.0783):  18%|█▊        | 1738/9753 [18:28<1:30:30,  1.48it/s]Training 1/3 epoch (loss 1.0783):  18%|█▊        | 1739/9753 [18:28<1:28:31,  1.51it/s]Training 1/3 epoch (loss 1.1391):  18%|█▊        | 1739/9753 [18:29<1:28:31,  1.51it/s]Training 1/3 epoch (loss 1.1391):  18%|█▊        | 1740/9753 [18:29<1:33:54,  1.42it/s]Training 1/3 epoch (loss 1.0936):  18%|█▊        | 1740/9753 [18:30<1:33:54,  1.42it/s]Training 1/3 epoch (loss 1.0936):  18%|█▊        | 1741/9753 [18:30<1:40:41,  1.33it/s]Training 1/3 epoch (loss 0.9653):  18%|█▊        | 1741/9753 [18:31<1:40:41,  1.33it/s]Training 1/3 epoch (loss 0.9653):  18%|█▊        | 1742/9753 [18:31<1:39:01,  1.35it/s]Training 1/3 epoch (loss 0.9102):  18%|█▊        | 1742/9753 [18:31<1:39:01,  1.35it/s]Training 1/3 epoch (loss 0.9102):  18%|█▊        | 1743/9753 [18:31<1:36:49,  1.38it/s]Training 1/3 epoch (loss 1.2887):  18%|█▊        | 1743/9753 [18:32<1:36:49,  1.38it/s]Training 1/3 epoch (loss 1.2887):  18%|█▊        | 1744/9753 [18:32<1:38:28,  1.36it/s]Training 1/3 epoch (loss 0.9860):  18%|█▊        | 1744/9753 [18:33<1:38:28,  1.36it/s]Training 1/3 epoch (loss 0.9860):  18%|█▊        | 1745/9753 [18:33<1:32:00,  1.45it/s]Training 1/3 epoch (loss 1.0857):  18%|█▊        | 1745/9753 [18:33<1:32:00,  1.45it/s]Training 1/3 epoch (loss 1.0857):  18%|█▊        | 1746/9753 [18:33<1:27:44,  1.52it/s]Training 1/3 epoch (loss 1.2162):  18%|█▊        | 1746/9753 [18:34<1:27:44,  1.52it/s]Training 1/3 epoch (loss 1.2162):  18%|█▊        | 1747/9753 [18:34<1:23:32,  1.60it/s]Training 1/3 epoch (loss 0.8831):  18%|█▊        | 1747/9753 [18:35<1:23:32,  1.60it/s]Training 1/3 epoch (loss 0.8831):  18%|█▊        | 1748/9753 [18:35<1:22:32,  1.62it/s]Training 1/3 epoch (loss 1.2331):  18%|█▊        | 1748/9753 [18:35<1:22:32,  1.62it/s]Training 1/3 epoch (loss 1.2331):  18%|█▊        | 1749/9753 [18:35<1:27:50,  1.52it/s]Training 1/3 epoch (loss 1.2239):  18%|█▊        | 1749/9753 [18:36<1:27:50,  1.52it/s]Training 1/3 epoch (loss 1.2239):  18%|█▊        | 1750/9753 [18:36<1:24:52,  1.57it/s]Training 1/3 epoch (loss 0.8581):  18%|█▊        | 1750/9753 [18:36<1:24:52,  1.57it/s]Training 1/3 epoch (loss 0.8581):  18%|█▊        | 1751/9753 [18:36<1:21:14,  1.64it/s]Training 1/3 epoch (loss 0.9198):  18%|█▊        | 1751/9753 [18:37<1:21:14,  1.64it/s]Training 1/3 epoch (loss 0.9198):  18%|█▊        | 1752/9753 [18:37<1:24:17,  1.58it/s]Training 1/3 epoch (loss 1.0378):  18%|█▊        | 1752/9753 [18:38<1:24:17,  1.58it/s]Training 1/3 epoch (loss 1.0378):  18%|█▊        | 1753/9753 [18:38<1:21:40,  1.63it/s]Training 1/3 epoch (loss 1.0914):  18%|█▊        | 1753/9753 [18:38<1:21:40,  1.63it/s]Training 1/3 epoch (loss 1.0914):  18%|█▊        | 1754/9753 [18:38<1:24:44,  1.57it/s]Training 1/3 epoch (loss 1.1428):  18%|█▊        | 1754/9753 [18:39<1:24:44,  1.57it/s]Training 1/3 epoch (loss 1.1428):  18%|█▊        | 1755/9753 [18:39<1:24:23,  1.58it/s]Training 1/3 epoch (loss 1.0039):  18%|█▊        | 1755/9753 [18:40<1:24:23,  1.58it/s]Training 1/3 epoch (loss 1.0039):  18%|█▊        | 1756/9753 [18:40<1:24:06,  1.58it/s]Training 1/3 epoch (loss 1.1403):  18%|█▊        | 1756/9753 [18:40<1:24:06,  1.58it/s]Training 1/3 epoch (loss 1.1403):  18%|█▊        | 1757/9753 [18:40<1:24:31,  1.58it/s]Training 1/3 epoch (loss 1.2625):  18%|█▊        | 1757/9753 [18:41<1:24:31,  1.58it/s]Training 1/3 epoch (loss 1.2625):  18%|█▊        | 1758/9753 [18:41<1:24:27,  1.58it/s]Training 1/3 epoch (loss 1.1002):  18%|█▊        | 1758/9753 [18:42<1:24:27,  1.58it/s]Training 1/3 epoch (loss 1.1002):  18%|█▊        | 1759/9753 [18:42<1:33:37,  1.42it/s]Training 1/3 epoch (loss 1.1536):  18%|█▊        | 1759/9753 [18:43<1:33:37,  1.42it/s]Training 1/3 epoch (loss 1.1536):  18%|█▊        | 1760/9753 [18:43<1:39:47,  1.33it/s]Training 1/3 epoch (loss 1.1205):  18%|█▊        | 1760/9753 [18:43<1:39:47,  1.33it/s]Training 1/3 epoch (loss 1.1205):  18%|█▊        | 1761/9753 [18:43<1:33:30,  1.42it/s]Training 1/3 epoch (loss 1.1728):  18%|█▊        | 1761/9753 [18:44<1:33:30,  1.42it/s]Training 1/3 epoch (loss 1.1728):  18%|█▊        | 1762/9753 [18:44<1:31:01,  1.46it/s]Training 1/3 epoch (loss 1.1146):  18%|█▊        | 1762/9753 [18:44<1:31:01,  1.46it/s]Training 1/3 epoch (loss 1.1146):  18%|█▊        | 1763/9753 [18:44<1:26:31,  1.54it/s]Training 1/3 epoch (loss 1.1423):  18%|█▊        | 1763/9753 [18:45<1:26:31,  1.54it/s]Training 1/3 epoch (loss 1.1423):  18%|█▊        | 1764/9753 [18:45<1:25:23,  1.56it/s]Training 1/3 epoch (loss 1.3190):  18%|█▊        | 1764/9753 [18:46<1:25:23,  1.56it/s]Training 1/3 epoch (loss 1.3190):  18%|█▊        | 1765/9753 [18:46<1:24:45,  1.57it/s]Training 1/3 epoch (loss 1.0667):  18%|█▊        | 1765/9753 [18:46<1:24:45,  1.57it/s]Training 1/3 epoch (loss 1.0667):  18%|█▊        | 1766/9753 [18:46<1:24:10,  1.58it/s]Training 1/3 epoch (loss 1.0806):  18%|█▊        | 1766/9753 [18:47<1:24:10,  1.58it/s]Training 1/3 epoch (loss 1.0806):  18%|█▊        | 1767/9753 [18:47<1:21:30,  1.63it/s]Training 1/3 epoch (loss 0.9775):  18%|█▊        | 1767/9753 [18:47<1:21:30,  1.63it/s]Training 1/3 epoch (loss 0.9775):  18%|█▊        | 1768/9753 [18:47<1:19:20,  1.68it/s]Training 1/3 epoch (loss 1.0049):  18%|█▊        | 1768/9753 [18:48<1:19:20,  1.68it/s]Training 1/3 epoch (loss 1.0049):  18%|█▊        | 1769/9753 [18:48<1:21:54,  1.62it/s]Training 1/3 epoch (loss 1.0941):  18%|█▊        | 1769/9753 [18:49<1:21:54,  1.62it/s]Training 1/3 epoch (loss 1.0941):  18%|█▊        | 1770/9753 [18:49<1:20:18,  1.66it/s]Training 1/3 epoch (loss 1.0584):  18%|█▊        | 1770/9753 [18:50<1:20:18,  1.66it/s]Training 1/3 epoch (loss 1.0584):  18%|█▊        | 1771/9753 [18:50<1:32:35,  1.44it/s]Training 1/3 epoch (loss 1.0284):  18%|█▊        | 1771/9753 [18:50<1:32:35,  1.44it/s]Training 1/3 epoch (loss 1.0284):  18%|█▊        | 1772/9753 [18:50<1:28:45,  1.50it/s]Training 1/3 epoch (loss 1.1362):  18%|█▊        | 1772/9753 [18:51<1:28:45,  1.50it/s]Training 1/3 epoch (loss 1.1362):  18%|█▊        | 1773/9753 [18:51<1:26:00,  1.55it/s]Training 1/3 epoch (loss 1.0409):  18%|█▊        | 1773/9753 [18:51<1:26:00,  1.55it/s]Training 1/3 epoch (loss 1.0409):  18%|█▊        | 1774/9753 [18:51<1:24:27,  1.57it/s]Training 1/3 epoch (loss 0.7531):  18%|█▊        | 1774/9753 [18:52<1:24:27,  1.57it/s]Training 1/3 epoch (loss 0.7531):  18%|█▊        | 1775/9753 [18:52<1:34:18,  1.41it/s]Training 1/3 epoch (loss 1.0794):  18%|█▊        | 1775/9753 [18:53<1:34:18,  1.41it/s]Training 1/3 epoch (loss 1.0794):  18%|█▊        | 1776/9753 [18:53<1:40:12,  1.33it/s]Training 1/3 epoch (loss 0.9461):  18%|█▊        | 1776/9753 [18:54<1:40:12,  1.33it/s]Training 1/3 epoch (loss 0.9461):  18%|█▊        | 1777/9753 [18:54<1:35:28,  1.39it/s]Training 1/3 epoch (loss 1.1101):  18%|█▊        | 1777/9753 [18:54<1:35:28,  1.39it/s]Training 1/3 epoch (loss 1.1101):  18%|█▊        | 1778/9753 [18:54<1:33:14,  1.43it/s]Training 1/3 epoch (loss 0.6312):  18%|█▊        | 1778/9753 [18:55<1:33:14,  1.43it/s]Training 1/3 epoch (loss 0.6312):  18%|█▊        | 1779/9753 [18:55<1:34:10,  1.41it/s]Training 1/3 epoch (loss 1.3103):  18%|█▊        | 1779/9753 [18:56<1:34:10,  1.41it/s]Training 1/3 epoch (loss 1.3103):  18%|█▊        | 1780/9753 [18:56<1:41:45,  1.31it/s]Training 1/3 epoch (loss 1.1599):  18%|█▊        | 1780/9753 [18:57<1:41:45,  1.31it/s]Training 1/3 epoch (loss 1.1599):  18%|█▊        | 1781/9753 [18:57<1:48:20,  1.23it/s]Training 1/3 epoch (loss 1.1238):  18%|█▊        | 1781/9753 [18:58<1:48:20,  1.23it/s]Training 1/3 epoch (loss 1.1238):  18%|█▊        | 1782/9753 [18:58<1:39:01,  1.34it/s]Training 1/3 epoch (loss 0.8667):  18%|█▊        | 1782/9753 [18:58<1:39:01,  1.34it/s]Training 1/3 epoch (loss 0.8667):  18%|█▊        | 1783/9753 [18:58<1:43:00,  1.29it/s]Training 1/3 epoch (loss 1.2002):  18%|█▊        | 1783/9753 [18:59<1:43:00,  1.29it/s]Training 1/3 epoch (loss 1.2002):  18%|█▊        | 1784/9753 [18:59<1:41:28,  1.31it/s]Training 1/3 epoch (loss 1.0098):  18%|█▊        | 1784/9753 [19:00<1:41:28,  1.31it/s]Training 1/3 epoch (loss 1.0098):  18%|█▊        | 1785/9753 [19:00<1:33:36,  1.42it/s]Training 1/3 epoch (loss 1.0450):  18%|█▊        | 1785/9753 [19:00<1:33:36,  1.42it/s]Training 1/3 epoch (loss 1.0450):  18%|█▊        | 1786/9753 [19:00<1:33:41,  1.42it/s]Training 1/3 epoch (loss 1.0377):  18%|█▊        | 1786/9753 [19:01<1:33:41,  1.42it/s]Training 1/3 epoch (loss 1.0377):  18%|█▊        | 1787/9753 [19:01<1:28:53,  1.49it/s]Training 1/3 epoch (loss 1.0417):  18%|█▊        | 1787/9753 [19:02<1:28:53,  1.49it/s]Training 1/3 epoch (loss 1.0417):  18%|█▊        | 1788/9753 [19:02<1:25:20,  1.56it/s]Training 1/3 epoch (loss 1.0233):  18%|█▊        | 1788/9753 [19:02<1:25:20,  1.56it/s]Training 1/3 epoch (loss 1.0233):  18%|█▊        | 1789/9753 [19:02<1:22:46,  1.60it/s]Training 1/3 epoch (loss 1.0534):  18%|█▊        | 1789/9753 [19:03<1:22:46,  1.60it/s]Training 1/3 epoch (loss 1.0534):  18%|█▊        | 1790/9753 [19:03<1:25:58,  1.54it/s]Training 1/3 epoch (loss 1.1996):  18%|█▊        | 1790/9753 [19:03<1:25:58,  1.54it/s]Training 1/3 epoch (loss 1.1996):  18%|█▊        | 1791/9753 [19:03<1:25:30,  1.55it/s]Training 1/3 epoch (loss 1.0133):  18%|█▊        | 1791/9753 [19:04<1:25:30,  1.55it/s]Training 1/3 epoch (loss 1.0133):  18%|█▊        | 1792/9753 [19:04<1:28:19,  1.50it/s]Training 1/3 epoch (loss 1.1549):  18%|█▊        | 1792/9753 [19:05<1:28:19,  1.50it/s]Training 1/3 epoch (loss 1.1549):  18%|█▊        | 1793/9753 [19:05<1:29:46,  1.48it/s]Training 1/3 epoch (loss 1.1086):  18%|█▊        | 1793/9753 [19:05<1:29:46,  1.48it/s]Training 1/3 epoch (loss 1.1086):  18%|█▊        | 1794/9753 [19:05<1:26:17,  1.54it/s]Training 1/3 epoch (loss 1.1721):  18%|█▊        | 1794/9753 [19:06<1:26:17,  1.54it/s]Training 1/3 epoch (loss 1.1721):  18%|█▊        | 1795/9753 [19:06<1:27:46,  1.51it/s]Training 1/3 epoch (loss 1.1065):  18%|█▊        | 1795/9753 [19:07<1:27:46,  1.51it/s]Training 1/3 epoch (loss 1.1065):  18%|█▊        | 1796/9753 [19:07<1:23:45,  1.58it/s]Training 1/3 epoch (loss 1.2229):  18%|█▊        | 1796/9753 [19:07<1:23:45,  1.58it/s]Training 1/3 epoch (loss 1.2229):  18%|█▊        | 1797/9753 [19:07<1:20:24,  1.65it/s]Training 1/3 epoch (loss 1.1509):  18%|█▊        | 1797/9753 [19:08<1:20:24,  1.65it/s]Training 1/3 epoch (loss 1.1509):  18%|█▊        | 1798/9753 [19:08<1:32:06,  1.44it/s]Training 1/3 epoch (loss 1.2652):  18%|█▊        | 1798/9753 [19:09<1:32:06,  1.44it/s]Training 1/3 epoch (loss 1.2652):  18%|█▊        | 1799/9753 [19:09<1:43:07,  1.29it/s]Training 1/3 epoch (loss 1.0637):  18%|█▊        | 1799/9753 [19:10<1:43:07,  1.29it/s]Training 1/3 epoch (loss 1.0637):  18%|█▊        | 1800/9753 [19:10<1:34:13,  1.41it/s]Training 1/3 epoch (loss 1.1217):  18%|█▊        | 1800/9753 [19:10<1:34:13,  1.41it/s]Training 1/3 epoch (loss 1.1217):  18%|█▊        | 1801/9753 [19:10<1:27:56,  1.51it/s]Training 1/3 epoch (loss 1.0628):  18%|█▊        | 1801/9753 [19:11<1:27:56,  1.51it/s]Training 1/3 epoch (loss 1.0628):  18%|█▊        | 1802/9753 [19:11<1:37:54,  1.35it/s]Training 1/3 epoch (loss 0.9873):  18%|█▊        | 1802/9753 [19:12<1:37:54,  1.35it/s]Training 1/3 epoch (loss 0.9873):  18%|█▊        | 1803/9753 [19:12<1:31:24,  1.45it/s]Training 1/3 epoch (loss 1.1878):  18%|█▊        | 1803/9753 [19:12<1:31:24,  1.45it/s]Training 1/3 epoch (loss 1.1878):  18%|█▊        | 1804/9753 [19:12<1:29:11,  1.49it/s]Training 1/3 epoch (loss 1.0245):  18%|█▊        | 1804/9753 [19:13<1:29:11,  1.49it/s]Training 1/3 epoch (loss 1.0245):  19%|█▊        | 1805/9753 [19:13<1:24:34,  1.57it/s]Training 1/3 epoch (loss 1.1283):  19%|█▊        | 1805/9753 [19:14<1:24:34,  1.57it/s]Training 1/3 epoch (loss 1.1283):  19%|█▊        | 1806/9753 [19:14<1:24:00,  1.58it/s]Training 1/3 epoch (loss 1.0148):  19%|█▊        | 1806/9753 [19:14<1:24:00,  1.58it/s]Training 1/3 epoch (loss 1.0148):  19%|█▊        | 1807/9753 [19:14<1:20:47,  1.64it/s]Training 1/3 epoch (loss 1.0871):  19%|█▊        | 1807/9753 [19:15<1:20:47,  1.64it/s]Training 1/3 epoch (loss 1.0871):  19%|█▊        | 1808/9753 [19:15<1:23:31,  1.59it/s]Training 1/3 epoch (loss 1.0249):  19%|█▊        | 1808/9753 [19:15<1:23:31,  1.59it/s]Training 1/3 epoch (loss 1.0249):  19%|█▊        | 1809/9753 [19:15<1:20:26,  1.65it/s]Training 1/3 epoch (loss 1.0522):  19%|█▊        | 1809/9753 [19:16<1:20:26,  1.65it/s]Training 1/3 epoch (loss 1.0522):  19%|█▊        | 1810/9753 [19:16<1:17:48,  1.70it/s]Training 1/3 epoch (loss 1.0368):  19%|█▊        | 1810/9753 [19:17<1:17:48,  1.70it/s]Training 1/3 epoch (loss 1.0368):  19%|█▊        | 1811/9753 [19:17<1:19:49,  1.66it/s]Training 1/3 epoch (loss 0.9439):  19%|█▊        | 1811/9753 [19:17<1:19:49,  1.66it/s]Training 1/3 epoch (loss 0.9439):  19%|█▊        | 1812/9753 [19:17<1:17:33,  1.71it/s]Training 1/3 epoch (loss 1.1039):  19%|█▊        | 1812/9753 [19:18<1:17:33,  1.71it/s]Training 1/3 epoch (loss 1.1039):  19%|█▊        | 1813/9753 [19:18<1:16:21,  1.73it/s]Training 1/3 epoch (loss 1.0330):  19%|█▊        | 1813/9753 [19:18<1:16:21,  1.73it/s]Training 1/3 epoch (loss 1.0330):  19%|█▊        | 1814/9753 [19:18<1:15:07,  1.76it/s]Training 1/3 epoch (loss 0.8912):  19%|█▊        | 1814/9753 [19:19<1:15:07,  1.76it/s]Training 1/3 epoch (loss 0.8912):  19%|█▊        | 1815/9753 [19:19<1:14:33,  1.77it/s]Training 1/3 epoch (loss 0.9398):  19%|█▊        | 1815/9753 [19:19<1:14:33,  1.77it/s]Training 1/3 epoch (loss 0.9398):  19%|█▊        | 1816/9753 [19:19<1:18:52,  1.68it/s]Training 1/3 epoch (loss 1.2560):  19%|█▊        | 1816/9753 [19:20<1:18:52,  1.68it/s]Training 1/3 epoch (loss 1.2560):  19%|█▊        | 1817/9753 [19:20<1:20:19,  1.65it/s]Training 1/3 epoch (loss 1.0549):  19%|█▊        | 1817/9753 [19:21<1:20:19,  1.65it/s]Training 1/3 epoch (loss 1.0549):  19%|█▊        | 1818/9753 [19:21<1:18:13,  1.69it/s]Training 1/3 epoch (loss 1.0059):  19%|█▊        | 1818/9753 [19:21<1:18:13,  1.69it/s]Training 1/3 epoch (loss 1.0059):  19%|█▊        | 1819/9753 [19:21<1:16:41,  1.72it/s]Training 1/3 epoch (loss 1.2992):  19%|█▊        | 1819/9753 [19:22<1:16:41,  1.72it/s]Training 1/3 epoch (loss 1.2992):  19%|█▊        | 1820/9753 [19:22<1:15:26,  1.75it/s]Training 1/3 epoch (loss 0.9362):  19%|█▊        | 1820/9753 [19:22<1:15:26,  1.75it/s]Training 1/3 epoch (loss 0.9362):  19%|█▊        | 1821/9753 [19:22<1:14:56,  1.76it/s]Training 1/3 epoch (loss 1.2562):  19%|█▊        | 1821/9753 [19:23<1:14:56,  1.76it/s]Training 1/3 epoch (loss 1.2562):  19%|█▊        | 1822/9753 [19:23<1:14:31,  1.77it/s]Training 1/3 epoch (loss 1.1024):  19%|█▊        | 1822/9753 [19:23<1:14:31,  1.77it/s]Training 1/3 epoch (loss 1.1024):  19%|█▊        | 1823/9753 [19:23<1:15:23,  1.75it/s]Training 1/3 epoch (loss 0.9703):  19%|█▊        | 1823/9753 [19:24<1:15:23,  1.75it/s]Training 1/3 epoch (loss 0.9703):  19%|█▊        | 1824/9753 [19:24<1:19:32,  1.66it/s]Training 1/3 epoch (loss 1.0258):  19%|█▊        | 1824/9753 [19:25<1:19:32,  1.66it/s]Training 1/3 epoch (loss 1.0258):  19%|█▊        | 1825/9753 [19:25<1:17:38,  1.70it/s]Training 1/3 epoch (loss 0.9517):  19%|█▊        | 1825/9753 [19:25<1:17:38,  1.70it/s]Training 1/3 epoch (loss 0.9517):  19%|█▊        | 1826/9753 [19:25<1:16:08,  1.74it/s]Training 1/3 epoch (loss 1.2277):  19%|█▊        | 1826/9753 [19:26<1:16:08,  1.74it/s]Training 1/3 epoch (loss 1.2277):  19%|█▊        | 1827/9753 [19:26<1:25:25,  1.55it/s]Training 1/3 epoch (loss 1.0302):  19%|█▊        | 1827/9753 [19:27<1:25:25,  1.55it/s]Training 1/3 epoch (loss 1.0302):  19%|█▊        | 1828/9753 [19:27<1:22:19,  1.60it/s]Training 1/3 epoch (loss 1.0357):  19%|█▊        | 1828/9753 [19:27<1:22:19,  1.60it/s]Training 1/3 epoch (loss 1.0357):  19%|█▉        | 1829/9753 [19:27<1:20:36,  1.64it/s]Training 1/3 epoch (loss 1.1041):  19%|█▉        | 1829/9753 [19:28<1:20:36,  1.64it/s]Training 1/3 epoch (loss 1.1041):  19%|█▉        | 1830/9753 [19:28<1:19:22,  1.66it/s]Training 1/3 epoch (loss 1.1945):  19%|█▉        | 1830/9753 [19:28<1:19:22,  1.66it/s]Training 1/3 epoch (loss 1.1945):  19%|█▉        | 1831/9753 [19:28<1:18:08,  1.69it/s]Training 1/3 epoch (loss 1.1056):  19%|█▉        | 1831/9753 [19:29<1:18:08,  1.69it/s]Training 1/3 epoch (loss 1.1056):  19%|█▉        | 1832/9753 [19:29<1:21:02,  1.63it/s]Training 1/3 epoch (loss 1.1585):  19%|█▉        | 1832/9753 [19:30<1:21:02,  1.63it/s]Training 1/3 epoch (loss 1.1585):  19%|█▉        | 1833/9753 [19:30<1:19:32,  1.66it/s]Training 1/3 epoch (loss 1.0690):  19%|█▉        | 1833/9753 [19:31<1:19:32,  1.66it/s]Training 1/3 epoch (loss 1.0690):  19%|█▉        | 1834/9753 [19:31<1:40:41,  1.31it/s]Training 1/3 epoch (loss 1.0113):  19%|█▉        | 1834/9753 [19:31<1:40:41,  1.31it/s]Training 1/3 epoch (loss 1.0113):  19%|█▉        | 1835/9753 [19:31<1:32:41,  1.42it/s]Training 1/3 epoch (loss 1.0108):  19%|█▉        | 1835/9753 [19:32<1:32:41,  1.42it/s]Training 1/3 epoch (loss 1.0108):  19%|█▉        | 1836/9753 [19:32<1:34:35,  1.39it/s]Training 1/3 epoch (loss 1.1406):  19%|█▉        | 1836/9753 [19:33<1:34:35,  1.39it/s]Training 1/3 epoch (loss 1.1406):  19%|█▉        | 1837/9753 [19:33<1:31:04,  1.45it/s]Training 1/3 epoch (loss 1.1481):  19%|█▉        | 1837/9753 [19:33<1:31:04,  1.45it/s]Training 1/3 epoch (loss 1.1481):  19%|█▉        | 1838/9753 [19:33<1:30:54,  1.45it/s]Training 1/3 epoch (loss 0.9432):  19%|█▉        | 1838/9753 [19:34<1:30:54,  1.45it/s]Training 1/3 epoch (loss 0.9432):  19%|█▉        | 1839/9753 [19:34<1:26:06,  1.53it/s]Training 1/3 epoch (loss 1.1367):  19%|█▉        | 1839/9753 [19:35<1:26:06,  1.53it/s]Training 1/3 epoch (loss 1.1367):  19%|█▉        | 1840/9753 [19:35<1:27:37,  1.51it/s]Training 1/3 epoch (loss 1.0844):  19%|█▉        | 1840/9753 [19:35<1:27:37,  1.51it/s]Training 1/3 epoch (loss 1.0844):  19%|█▉        | 1841/9753 [19:35<1:28:50,  1.48it/s]Training 1/3 epoch (loss 1.1987):  19%|█▉        | 1841/9753 [19:36<1:28:50,  1.48it/s]Training 1/3 epoch (loss 1.1987):  19%|█▉        | 1842/9753 [19:36<1:28:02,  1.50it/s]Training 1/3 epoch (loss 0.9508):  19%|█▉        | 1842/9753 [19:36<1:28:02,  1.50it/s]Training 1/3 epoch (loss 0.9508):  19%|█▉        | 1843/9753 [19:36<1:23:54,  1.57it/s]Training 1/3 epoch (loss 1.1408):  19%|█▉        | 1843/9753 [19:37<1:23:54,  1.57it/s]Training 1/3 epoch (loss 1.1408):  19%|█▉        | 1844/9753 [19:37<1:21:40,  1.61it/s]Training 1/3 epoch (loss 0.9447):  19%|█▉        | 1844/9753 [19:38<1:21:40,  1.61it/s]Training 1/3 epoch (loss 0.9447):  19%|█▉        | 1845/9753 [19:38<1:18:38,  1.68it/s]Training 1/3 epoch (loss 0.8977):  19%|█▉        | 1845/9753 [19:38<1:18:38,  1.68it/s]Training 1/3 epoch (loss 0.8977):  19%|█▉        | 1846/9753 [19:38<1:21:09,  1.62it/s]Training 1/3 epoch (loss 1.0799):  19%|█▉        | 1846/9753 [19:39<1:21:09,  1.62it/s]Training 1/3 epoch (loss 1.0799):  19%|█▉        | 1847/9753 [19:39<1:18:22,  1.68it/s]Training 1/3 epoch (loss 1.0661):  19%|█▉        | 1847/9753 [19:39<1:18:22,  1.68it/s]Training 1/3 epoch (loss 1.0661):  19%|█▉        | 1848/9753 [19:39<1:16:50,  1.71it/s]Training 1/3 epoch (loss 1.0133):  19%|█▉        | 1848/9753 [19:40<1:16:50,  1.71it/s]Training 1/3 epoch (loss 1.0133):  19%|█▉        | 1849/9753 [19:40<1:15:19,  1.75it/s]Training 1/3 epoch (loss 1.1128):  19%|█▉        | 1849/9753 [19:40<1:15:19,  1.75it/s]Training 1/3 epoch (loss 1.1128):  19%|█▉        | 1850/9753 [19:40<1:14:11,  1.78it/s]Training 1/3 epoch (loss 0.9399):  19%|█▉        | 1850/9753 [19:41<1:14:11,  1.78it/s]Training 1/3 epoch (loss 0.9399):  19%|█▉        | 1851/9753 [19:41<1:15:13,  1.75it/s]Training 1/3 epoch (loss 1.0777):  19%|█▉        | 1851/9753 [19:42<1:15:13,  1.75it/s]Training 1/3 epoch (loss 1.0777):  19%|█▉        | 1852/9753 [19:42<1:19:29,  1.66it/s]Training 1/3 epoch (loss 0.8400):  19%|█▉        | 1852/9753 [19:42<1:19:29,  1.66it/s]Training 1/3 epoch (loss 0.8400):  19%|█▉        | 1853/9753 [19:42<1:24:52,  1.55it/s]Training 1/3 epoch (loss 1.2392):  19%|█▉        | 1853/9753 [19:43<1:24:52,  1.55it/s]Training 1/3 epoch (loss 1.2392):  19%|█▉        | 1854/9753 [19:43<1:23:53,  1.57it/s]Training 1/3 epoch (loss 1.1474):  19%|█▉        | 1854/9753 [19:44<1:23:53,  1.57it/s]Training 1/3 epoch (loss 1.1474):  19%|█▉        | 1855/9753 [19:44<1:25:19,  1.54it/s]Training 1/3 epoch (loss 1.2487):  19%|█▉        | 1855/9753 [19:44<1:25:19,  1.54it/s]Training 1/3 epoch (loss 1.2487):  19%|█▉        | 1856/9753 [19:44<1:28:16,  1.49it/s]Training 1/3 epoch (loss 1.0527):  19%|█▉        | 1856/9753 [19:45<1:28:16,  1.49it/s]Training 1/3 epoch (loss 1.0527):  19%|█▉        | 1857/9753 [19:45<1:28:53,  1.48it/s]Training 1/3 epoch (loss 0.8264):  19%|█▉        | 1857/9753 [19:46<1:28:53,  1.48it/s]Training 1/3 epoch (loss 0.8264):  19%|█▉        | 1858/9753 [19:46<1:26:23,  1.52it/s]Training 1/3 epoch (loss 1.0693):  19%|█���        | 1858/9753 [19:46<1:26:23,  1.52it/s]Training 1/3 epoch (loss 1.0693):  19%|█▉        | 1859/9753 [19:46<1:24:54,  1.55it/s]Training 1/3 epoch (loss 1.0502):  19%|█▉        | 1859/9753 [19:47<1:24:54,  1.55it/s]Training 1/3 epoch (loss 1.0502):  19%|█▉        | 1860/9753 [19:47<1:23:45,  1.57it/s]Training 1/3 epoch (loss 1.1964):  19%|█▉        | 1860/9753 [19:48<1:23:45,  1.57it/s]Training 1/3 epoch (loss 1.1964):  19%|█▉        | 1861/9753 [19:48<1:20:36,  1.63it/s]Training 1/3 epoch (loss 1.0766):  19%|█▉        | 1861/9753 [19:48<1:20:36,  1.63it/s]Training 1/3 epoch (loss 1.0766):  19%|█▉        | 1862/9753 [19:48<1:18:22,  1.68it/s]Training 1/3 epoch (loss 1.2613):  19%|█▉        | 1862/9753 [19:49<1:18:22,  1.68it/s]Training 1/3 epoch (loss 1.2613):  19%|█▉        | 1863/9753 [19:49<1:21:29,  1.61it/s]Training 1/3 epoch (loss 0.9845):  19%|█▉        | 1863/9753 [19:49<1:21:29,  1.61it/s]Training 1/3 epoch (loss 0.9845):  19%|█▉        | 1864/9753 [19:49<1:21:20,  1.62it/s]Training 1/3 epoch (loss 0.9023):  19%|█▉        | 1864/9753 [19:50<1:21:20,  1.62it/s]Training 1/3 epoch (loss 0.9023):  19%|█▉        | 1865/9753 [19:50<1:21:42,  1.61it/s]Training 1/3 epoch (loss 1.0272):  19%|█▉        | 1865/9753 [19:51<1:21:42,  1.61it/s]Training 1/3 epoch (loss 1.0272):  19%|█▉        | 1866/9753 [19:51<1:21:09,  1.62it/s]Training 1/3 epoch (loss 1.0705):  19%|█▉        | 1866/9753 [19:51<1:21:09,  1.62it/s]Training 1/3 epoch (loss 1.0705):  19%|█▉        | 1867/9753 [19:51<1:21:03,  1.62it/s]Training 1/3 epoch (loss 1.1413):  19%|█▉        | 1867/9753 [19:52<1:21:03,  1.62it/s]Training 1/3 epoch (loss 1.1413):  19%|█▉        | 1868/9753 [19:52<1:18:35,  1.67it/s]Training 1/3 epoch (loss 1.1415):  19%|█▉        | 1868/9753 [19:52<1:18:35,  1.67it/s]Training 1/3 epoch (loss 1.1415):  19%|█▉        | 1869/9753 [19:52<1:16:47,  1.71it/s]Training 1/3 epoch (loss 1.0985):  19%|█▉        | 1869/9753 [19:53<1:16:47,  1.71it/s]Training 1/3 epoch (loss 1.0985):  19%|█▉        | 1870/9753 [19:53<1:16:46,  1.71it/s]Training 1/3 epoch (loss 1.0300):  19%|█▉        | 1870/9753 [19:54<1:16:46,  1.71it/s]Training 1/3 epoch (loss 1.0300):  19%|█▉        | 1871/9753 [19:54<1:21:39,  1.61it/s]Training 1/3 epoch (loss 1.1112):  19%|█▉        | 1871/9753 [19:54<1:21:39,  1.61it/s]Training 1/3 epoch (loss 1.1112):  19%|█▉        | 1872/9753 [19:54<1:26:11,  1.52it/s]Training 1/3 epoch (loss 1.0771):  19%|█▉        | 1872/9753 [19:55<1:26:11,  1.52it/s]Training 1/3 epoch (loss 1.0771):  19%|█▉        | 1873/9753 [19:55<1:23:20,  1.58it/s]Training 1/3 epoch (loss 1.0022):  19%|█▉        | 1873/9753 [19:56<1:23:20,  1.58it/s]Training 1/3 epoch (loss 1.0022):  19%|█▉        | 1874/9753 [19:56<1:20:00,  1.64it/s]Training 1/3 epoch (loss 1.1074):  19%|█▉        | 1874/9753 [19:56<1:20:00,  1.64it/s]Training 1/3 epoch (loss 1.1074):  19%|█▉        | 1875/9753 [19:56<1:17:51,  1.69it/s]Training 1/3 epoch (loss 1.0652):  19%|█▉        | 1875/9753 [19:57<1:17:51,  1.69it/s]Training 1/3 epoch (loss 1.0652):  19%|█▉        | 1876/9753 [19:57<1:18:07,  1.68it/s]Training 1/3 epoch (loss 1.2050):  19%|█▉        | 1876/9753 [19:57<1:18:07,  1.68it/s]Training 1/3 epoch (loss 1.2050):  19%|█▉        | 1877/9753 [19:57<1:16:25,  1.72it/s]Training 1/3 epoch (loss 1.1961):  19%|█▉        | 1877/9753 [19:58<1:16:25,  1.72it/s]Training 1/3 epoch (loss 1.1961):  19%|█▉        | 1878/9753 [19:58<1:15:18,  1.74it/s]Training 1/3 epoch (loss 1.0889):  19%|█▉        | 1878/9753 [19:58<1:15:18,  1.74it/s]Training 1/3 epoch (loss 1.0889):  19%|█▉        | 1879/9753 [19:58<1:14:42,  1.76it/s]Training 1/3 epoch (loss 1.1823):  19%|█▉        | 1879/9753 [19:59<1:14:42,  1.76it/s]Training 1/3 epoch (loss 1.1823):  19%|█▉        | 1880/9753 [19:59<1:20:54,  1.62it/s]Training 1/3 epoch (loss 1.3886):  19%|█▉        | 1880/9753 [20:00<1:20:54,  1.62it/s]Training 1/3 epoch (loss 1.3886):  19%|█▉        | 1881/9753 [20:00<1:23:25,  1.57it/s]Training 1/3 epoch (loss 1.0923):  19%|█▉        | 1881/9753 [20:00<1:23:25,  1.57it/s]Training 1/3 epoch (loss 1.0923):  19%|█▉        | 1882/9753 [20:00<1:19:47,  1.64it/s]Training 1/3 epoch (loss 1.0676):  19%|█▉        | 1882/9753 [20:01<1:19:47,  1.64it/s]Training 1/3 epoch (loss 1.0676):  19%|█▉        | 1883/9753 [20:01<1:17:28,  1.69it/s]Training 1/3 epoch (loss 1.3622):  19%|█▉        | 1883/9753 [20:02<1:17:28,  1.69it/s]Training 1/3 epoch (loss 1.3622):  19%|█▉        | 1884/9753 [20:02<1:19:47,  1.64it/s]Training 1/3 epoch (loss 1.3163):  19%|█▉        | 1884/9753 [20:02<1:19:47,  1.64it/s]Training 1/3 epoch (loss 1.3163):  19%|█▉        | 1885/9753 [20:02<1:17:19,  1.70it/s]Training 1/3 epoch (loss 0.9941):  19%|█▉        | 1885/9753 [20:03<1:17:19,  1.70it/s]Training 1/3 epoch (loss 0.9941):  19%|█▉        | 1886/9753 [20:03<1:15:44,  1.73it/s]Training 1/3 epoch (loss 1.0072):  19%|█▉        | 1886/9753 [20:03<1:15:44,  1.73it/s]Training 1/3 epoch (loss 1.0072):  19%|█▉        | 1887/9753 [20:03<1:17:01,  1.70it/s]Training 1/3 epoch (loss 1.1605):  19%|█▉        | 1887/9753 [20:04<1:17:01,  1.70it/s]Training 1/3 epoch (loss 1.1605):  19%|█▉        | 1888/9753 [20:04<1:23:19,  1.57it/s]Training 1/3 epoch (loss 0.7603):  19%|█▉        | 1888/9753 [20:05<1:23:19,  1.57it/s]Training 1/3 epoch (loss 0.7603):  19%|█▉        | 1889/9753 [20:05<1:21:11,  1.61it/s]Training 1/3 epoch (loss 1.2056):  19%|█▉        | 1889/9753 [20:05<1:21:11,  1.61it/s]Training 1/3 epoch (loss 1.2056):  19%|█▉        | 1890/9753 [20:05<1:21:56,  1.60it/s]Training 1/3 epoch (loss 1.0373):  19%|█▉        | 1890/9753 [20:06<1:21:56,  1.60it/s]Training 1/3 epoch (loss 1.0373):  19%|█▉        | 1891/9753 [20:06<1:20:07,  1.64it/s]Training 1/3 epoch (loss 0.9914):  19%|█▉        | 1891/9753 [20:06<1:20:07,  1.64it/s]Training 1/3 epoch (loss 0.9914):  19%|█▉        | 1892/9753 [20:06<1:18:03,  1.68it/s]Training 1/3 epoch (loss 1.0595):  19%|█▉        | 1892/9753 [20:07<1:18:03,  1.68it/s]Training 1/3 epoch (loss 1.0595):  19%|█▉        | 1893/9753 [20:07<1:17:17,  1.69it/s]Training 1/3 epoch (loss 1.1590):  19%|█▉        | 1893/9753 [20:08<1:17:17,  1.69it/s]Training 1/3 epoch (loss 1.1590):  19%|█▉        | 1894/9753 [20:08<1:25:53,  1.52it/s]Training 1/3 epoch (loss 1.0492):  19%|█▉        | 1894/9753 [20:08<1:25:53,  1.52it/s]Training 1/3 epoch (loss 1.0492):  19%|█▉        | 1895/9753 [20:08<1:22:24,  1.59it/s]Training 1/3 epoch (loss 1.1625):  19%|█▉        | 1895/9753 [20:09<1:22:24,  1.59it/s]Training 1/3 epoch (loss 1.1625):  19%|█▉        | 1896/9753 [20:09<1:20:17,  1.63it/s]Training 1/3 epoch (loss 0.9572):  19%|█▉        | 1896/9753 [20:10<1:20:17,  1.63it/s]Training 1/3 epoch (loss 0.9572):  19%|█▉        | 1897/9753 [20:10<1:22:40,  1.58it/s]Training 1/3 epoch (loss 1.0666):  19%|█▉        | 1897/9753 [20:10<1:22:40,  1.58it/s]Training 1/3 epoch (loss 1.0666):  19%|█▉        | 1898/9753 [20:10<1:20:24,  1.63it/s]Training 1/3 epoch (loss 1.1465):  19%|█▉        | 1898/9753 [20:11<1:20:24,  1.63it/s]Training 1/3 epoch (loss 1.1465):  19%|█▉        | 1899/9753 [20:11<1:25:26,  1.53it/s]Training 1/3 epoch (loss 0.9525):  19%|█▉        | 1899/9753 [20:11<1:25:26,  1.53it/s]Training 1/3 epoch (loss 0.9525):  19%|█▉        | 1900/9753 [20:11<1:23:42,  1.56it/s]Training 1/3 epoch (loss 1.1634):  19%|█▉        | 1900/9753 [20:12<1:23:42,  1.56it/s]Training 1/3 epoch (loss 1.1634):  19%|█▉        | 1901/9753 [20:12<1:22:09,  1.59it/s]Training 1/3 epoch (loss 0.8162):  19%|█▉        | 1901/9753 [20:13<1:22:09,  1.59it/s]Training 1/3 epoch (loss 0.8162):  20%|█▉        | 1902/9753 [20:13<1:20:52,  1.62it/s]Training 1/3 epoch (loss 0.6527):  20%|█▉        | 1902/9753 [20:13<1:20:52,  1.62it/s]Training 1/3 epoch (loss 0.6527):  20%|█▉        | 1903/9753 [20:13<1:19:01,  1.66it/s]Training 1/3 epoch (loss 1.0832):  20%|█▉        | 1903/9753 [20:14<1:19:01,  1.66it/s]Training 1/3 epoch (loss 1.0832):  20%|█▉        | 1904/9753 [20:14<1:24:04,  1.56it/s]Training 1/3 epoch (loss 1.1260):  20%|█▉        | 1904/9753 [20:15<1:24:04,  1.56it/s]Training 1/3 epoch (loss 1.1260):  20%|█▉        | 1905/9753 [20:15<1:26:33,  1.51it/s]Training 1/3 epoch (loss 1.0720):  20%|█▉        | 1905/9753 [20:16<1:26:33,  1.51it/s]Training 1/3 epoch (loss 1.0720):  20%|█▉        | 1906/9753 [20:16<1:36:43,  1.35it/s]Training 1/3 epoch (loss 1.0994):  20%|█▉        | 1906/9753 [20:16<1:36:43,  1.35it/s]Training 1/3 epoch (loss 1.0994):  20%|█▉        | 1907/9753 [20:16<1:30:45,  1.44it/s]Training 1/3 epoch (loss 1.1286):  20%|█▉        | 1907/9753 [20:17<1:30:45,  1.44it/s]Training 1/3 epoch (loss 1.1286):  20%|█▉        | 1908/9753 [20:17<1:25:29,  1.53it/s]Training 1/3 epoch (loss 0.9737):  20%|█▉        | 1908/9753 [20:17<1:25:29,  1.53it/s]Training 1/3 epoch (loss 0.9737):  20%|█▉        | 1909/9753 [20:17<1:24:56,  1.54it/s]Training 1/3 epoch (loss 0.9988):  20%|█▉        | 1909/9753 [20:18<1:24:56,  1.54it/s]Training 1/3 epoch (loss 0.9988):  20%|█▉        | 1910/9753 [20:18<1:21:10,  1.61it/s]Training 1/3 epoch (loss 1.2366):  20%|█▉        | 1910/9753 [20:19<1:21:10,  1.61it/s]Training 1/3 epoch (loss 1.2366):  20%|█▉        | 1911/9753 [20:19<1:24:04,  1.55it/s]Training 1/3 epoch (loss 1.2187):  20%|█▉        | 1911/9753 [20:19<1:24:04,  1.55it/s]Training 1/3 epoch (loss 1.2187):  20%|█▉        | 1912/9753 [20:19<1:21:33,  1.60it/s]Training 1/3 epoch (loss 1.0284):  20%|█▉        | 1912/9753 [20:20<1:21:33,  1.60it/s]Training 1/3 epoch (loss 1.0284):  20%|█▉        | 1913/9753 [20:20<1:20:08,  1.63it/s]Training 1/3 epoch (loss 1.3286):  20%|█▉        | 1913/9753 [20:20<1:20:08,  1.63it/s]Training 1/3 epoch (loss 1.3286):  20%|█▉        | 1914/9753 [20:20<1:22:00,  1.59it/s]Training 1/3 epoch (loss 0.7299):  20%|█▉        | 1914/9753 [20:21<1:22:00,  1.59it/s]Training 1/3 epoch (loss 0.7299):  20%|█▉        | 1915/9753 [20:21<1:25:53,  1.52it/s]Training 1/3 epoch (loss 1.1830):  20%|█▉        | 1915/9753 [20:22<1:25:53,  1.52it/s]Training 1/3 epoch (loss 1.1830):  20%|█▉        | 1916/9753 [20:22<1:25:53,  1.52it/s]Training 1/3 epoch (loss 0.8256):  20%|█▉        | 1916/9753 [20:22<1:25:53,  1.52it/s]Training 1/3 epoch (loss 0.8256):  20%|█▉        | 1917/9753 [20:22<1:22:08,  1.59it/s]Training 1/3 epoch (loss 1.1041):  20%|█▉        | 1917/9753 [20:23<1:22:08,  1.59it/s]Training 1/3 epoch (loss 1.1041):  20%|█▉        | 1918/9753 [20:23<1:19:27,  1.64it/s]Training 1/3 epoch (loss 0.9167):  20%|█▉        | 1918/9753 [20:24<1:19:27,  1.64it/s]Training 1/3 epoch (loss 0.9167):  20%|█▉        | 1919/9753 [20:24<1:17:42,  1.68it/s]Training 1/3 epoch (loss 1.2137):  20%|█▉        | 1919/9753 [20:24<1:17:42,  1.68it/s]Training 1/3 epoch (loss 1.2137):  20%|█▉        | 1920/9753 [20:24<1:22:50,  1.58it/s]Training 1/3 epoch (loss 1.3230):  20%|█▉        | 1920/9753 [20:25<1:22:50,  1.58it/s]Training 1/3 epoch (loss 1.3230):  20%|█▉        | 1921/9753 [20:25<1:27:00,  1.50it/s]Training 1/3 epoch (loss 1.1366):  20%|█▉        | 1921/9753 [20:26<1:27:00,  1.50it/s]Training 1/3 epoch (loss 1.1366):  20%|█▉        | 1922/9753 [20:26<1:30:19,  1.45it/s]Training 1/3 epoch (loss 1.0096):  20%|█▉        | 1922/9753 [20:26<1:30:19,  1.45it/s]Training 1/3 epoch (loss 1.0096):  20%|█▉        | 1923/9753 [20:26<1:30:26,  1.44it/s]Training 1/3 epoch (loss 1.0991):  20%|█▉        | 1923/9753 [20:27<1:30:26,  1.44it/s]Training 1/3 epoch (loss 1.0991):  20%|█▉        | 1924/9753 [20:27<1:26:22,  1.51it/s]Training 1/3 epoch (loss 1.1809):  20%|█▉        | 1924/9753 [20:28<1:26:22,  1.51it/s]Training 1/3 epoch (loss 1.1809):  20%|█▉        | 1925/9753 [20:28<1:22:53,  1.57it/s]Training 1/3 epoch (loss 1.0085):  20%|█▉        | 1925/9753 [20:28<1:22:53,  1.57it/s]Training 1/3 epoch (loss 1.0085):  20%|█▉        | 1926/9753 [20:28<1:20:26,  1.62it/s]Training 1/3 epoch (loss 1.1785):  20%|█▉        | 1926/9753 [20:29<1:20:26,  1.62it/s]Training 1/3 epoch (loss 1.1785):  20%|█▉        | 1927/9753 [20:29<1:18:50,  1.65it/s]Training 1/3 epoch (loss 0.9385):  20%|█▉        | 1927/9753 [20:29<1:18:50,  1.65it/s]Training 1/3 epoch (loss 0.9385):  20%|█▉        | 1928/9753 [20:29<1:20:24,  1.62it/s]Training 1/3 epoch (loss 1.0552):  20%|█▉        | 1928/9753 [20:30<1:20:24,  1.62it/s]Training 1/3 epoch (loss 1.0552):  20%|█▉        | 1929/9753 [20:30<1:20:36,  1.62it/s]Training 1/3 epoch (loss 1.1157):  20%|█▉        | 1929/9753 [20:31<1:20:36,  1.62it/s]Training 1/3 epoch (loss 1.1157):  20%|█▉        | 1930/9753 [20:31<1:20:53,  1.61it/s]Training 1/3 epoch (loss 0.9981):  20%|█▉        | 1930/9753 [20:31<1:20:53,  1.61it/s]Training 1/3 epoch (loss 0.9981):  20%|█▉        | 1931/9753 [20:31<1:21:25,  1.60it/s]Training 1/3 epoch (loss 1.0378):  20%|█▉        | 1931/9753 [20:32<1:21:25,  1.60it/s]Training 1/3 epoch (loss 1.0378):  20%|█▉        | 1932/9753 [20:32<1:31:04,  1.43it/s]Training 1/3 epoch (loss 1.0454):  20%|█▉        | 1932/9753 [20:33<1:31:04,  1.43it/s]Training 1/3 epoch (loss 1.0454):  20%|█▉        | 1933/9753 [20:33<1:28:43,  1.47it/s]Training 1/3 epoch (loss 1.0381):  20%|█▉        | 1933/9753 [20:33<1:28:43,  1.47it/s]Training 1/3 epoch (loss 1.0381):  20%|█▉        | 1934/9753 [20:33<1:27:02,  1.50it/s]Training 1/3 epoch (loss 1.2059):  20%|█▉        | 1934/9753 [20:34<1:27:02,  1.50it/s]Training 1/3 epoch (loss 1.2059):  20%|█▉        | 1935/9753 [20:34<1:25:29,  1.52it/s]Training 1/3 epoch (loss 0.8618):  20%|█▉        | 1935/9753 [20:35<1:25:29,  1.52it/s]Training 1/3 epoch (loss 0.8618):  20%|█▉        | 1936/9753 [20:35<1:29:34,  1.45it/s]Training 1/3 epoch (loss 1.0583):  20%|█▉        | 1936/9753 [20:35<1:29:34,  1.45it/s]Training 1/3 epoch (loss 1.0583):  20%|█▉        | 1937/9753 [20:35<1:27:29,  1.49it/s]Training 1/3 epoch (loss 1.1543):  20%|█▉        | 1937/9753 [20:36<1:27:29,  1.49it/s]Training 1/3 epoch (loss 1.1543):  20%|█▉        | 1938/9753 [20:36<1:26:06,  1.51it/s]Training 1/3 epoch (loss 1.1489):  20%|█▉        | 1938/9753 [20:37<1:26:06,  1.51it/s]Training 1/3 epoch (loss 1.1489):  20%|█▉        | 1939/9753 [20:37<1:24:46,  1.54it/s]Training 1/3 epoch (loss 1.1303):  20%|█▉        | 1939/9753 [20:37<1:24:46,  1.54it/s]Training 1/3 epoch (loss 1.1303):  20%|█▉        | 1940/9753 [20:37<1:21:29,  1.60it/s]Training 1/3 epoch (loss 0.9624):  20%|█▉        | 1940/9753 [20:38<1:21:29,  1.60it/s]Training 1/3 epoch (loss 0.9624):  20%|█▉        | 1941/9753 [20:38<1:19:27,  1.64it/s]Training 1/3 epoch (loss 1.0738):  20%|█▉        | 1941/9753 [20:38<1:19:27,  1.64it/s]Training 1/3 epoch (loss 1.0738):  20%|█▉        | 1942/9753 [20:38<1:18:26,  1.66it/s]Training 1/3 epoch (loss 1.0670):  20%|█▉        | 1942/9753 [20:39<1:18:26,  1.66it/s]Training 1/3 epoch (loss 1.0670):  20%|█▉        | 1943/9753 [20:39<1:20:01,  1.63it/s]Training 1/3 epoch (loss 0.9455):  20%|█▉        | 1943/9753 [20:40<1:20:01,  1.63it/s]Training 1/3 epoch (loss 0.9455):  20%|█▉        | 1944/9753 [20:40<1:21:17,  1.60it/s]Training 1/3 epoch (loss 1.0313):  20%|█▉        | 1944/9753 [20:40<1:21:17,  1.60it/s]Training 1/3 epoch (loss 1.0313):  20%|█▉        | 1945/9753 [20:40<1:20:38,  1.61it/s]Training 1/3 epoch (loss 0.9595):  20%|█▉        | 1945/9753 [20:41<1:20:38,  1.61it/s]Training 1/3 epoch (loss 0.9595):  20%|█▉        | 1946/9753 [20:41<1:20:48,  1.61it/s]Training 1/3 epoch (loss 0.9385):  20%|█▉        | 1946/9753 [20:42<1:20:48,  1.61it/s]Training 1/3 epoch (loss 0.9385):  20%|█▉        | 1947/9753 [20:42<1:26:33,  1.50it/s]Training 1/3 epoch (loss 0.8716):  20%|█▉        | 1947/9753 [20:42<1:26:33,  1.50it/s]Training 1/3 epoch (loss 0.8716):  20%|█▉        | 1948/9753 [20:42<1:28:54,  1.46it/s]Training 1/3 epoch (loss 0.9578):  20%|█▉        | 1948/9753 [20:43<1:28:54,  1.46it/s]Training 1/3 epoch (loss 0.9578):  20%|█▉        | 1949/9753 [20:43<1:27:59,  1.48it/s]Training 1/3 epoch (loss 1.1654):  20%|█▉        | 1949/9753 [20:44<1:27:59,  1.48it/s]Training 1/3 epoch (loss 1.1654):  20%|█▉        | 1950/9753 [20:44<1:27:04,  1.49it/s]Training 1/3 epoch (loss 0.9294):  20%|█▉        | 1950/9753 [20:44<1:27:04,  1.49it/s]Training 1/3 epoch (loss 0.9294):  20%|██        | 1951/9753 [20:44<1:23:22,  1.56it/s]Training 1/3 epoch (loss 0.9579):  20%|██        | 1951/9753 [20:45<1:23:22,  1.56it/s]Training 1/3 epoch (loss 0.9579):  20%|██        | 1952/9753 [20:45<1:29:45,  1.45it/s]Training 1/3 epoch (loss 1.0927):  20%|██        | 1952/9753 [20:46<1:29:45,  1.45it/s]Training 1/3 epoch (loss 1.0927):  20%|██        | 1953/9753 [20:46<1:25:23,  1.52it/s]Training 1/3 epoch (loss 0.9529):  20%|██        | 1953/9753 [20:46<1:25:23,  1.52it/s]Training 1/3 epoch (loss 0.9529):  20%|██        | 1954/9753 [20:46<1:26:11,  1.51it/s]Training 1/3 epoch (loss 1.2278):  20%|██        | 1954/9753 [20:47<1:26:11,  1.51it/s]Training 1/3 epoch (loss 1.2278):  20%|██        | 1955/9753 [20:47<1:23:16,  1.56it/s]Training 1/3 epoch (loss 1.0067):  20%|██        | 1955/9753 [20:48<1:23:16,  1.56it/s]Training 1/3 epoch (loss 1.0067):  20%|██        | 1956/9753 [20:48<1:22:50,  1.57it/s]Training 1/3 epoch (loss 0.9235):  20%|██        | 1956/9753 [20:48<1:22:50,  1.57it/s]Training 1/3 epoch (loss 0.9235):  20%|██        | 1957/9753 [20:48<1:23:07,  1.56it/s]Training 1/3 epoch (loss 1.1280):  20%|██        | 1957/9753 [20:49<1:23:07,  1.56it/s]Training 1/3 epoch (loss 1.1280):  20%|██        | 1958/9753 [20:49<1:32:06,  1.41it/s]Training 1/3 epoch (loss 1.1192):  20%|██        | 1958/9753 [20:50<1:32:06,  1.41it/s]Training 1/3 epoch (loss 1.1192):  20%|██        | 1959/9753 [20:50<1:32:40,  1.40it/s]Training 1/3 epoch (loss 1.2672):  20%|██        | 1959/9753 [20:51<1:32:40,  1.40it/s]Training 1/3 epoch (loss 1.2672):  20%|██        | 1960/9753 [20:51<1:38:09,  1.32it/s]Training 1/3 epoch (loss 1.0480):  20%|██        | 1960/9753 [20:51<1:38:09,  1.32it/s]Training 1/3 epoch (loss 1.0480):  20%|██        | 1961/9753 [20:51<1:32:53,  1.40it/s]Training 1/3 epoch (loss 1.0452):  20%|██        | 1961/9753 [20:52<1:32:53,  1.40it/s]Training 1/3 epoch (loss 1.0452):  20%|██        | 1962/9753 [20:52<1:29:33,  1.45it/s]Training 1/3 epoch (loss 1.1644):  20%|██        | 1962/9753 [20:53<1:29:33,  1.45it/s]Training 1/3 epoch (loss 1.1644):  20%|██        | 1963/9753 [20:53<1:28:46,  1.46it/s]Training 1/3 epoch (loss 0.9852):  20%|██        | 1963/9753 [20:53<1:28:46,  1.46it/s]Training 1/3 epoch (loss 0.9852):  20%|██        | 1964/9753 [20:53<1:26:57,  1.49it/s]Training 1/3 epoch (loss 0.8628):  20%|██        | 1964/9753 [20:54<1:26:57,  1.49it/s]Training 1/3 epoch (loss 0.8628):  20%|██        | 1965/9753 [20:54<1:25:38,  1.52it/s]Training 1/3 epoch (loss 1.2211):  20%|██        | 1965/9753 [20:55<1:25:38,  1.52it/s]Training 1/3 epoch (loss 1.2211):  20%|██        | 1966/9753 [20:55<1:25:30,  1.52it/s]Training 1/3 epoch (loss 1.1628):  20%|██        | 1966/9753 [20:55<1:25:30,  1.52it/s]Training 1/3 epoch (loss 1.1628):  20%|██        | 1967/9753 [20:55<1:28:13,  1.47it/s]Training 1/3 epoch (loss 0.9776):  20%|██        | 1967/9753 [20:56<1:28:13,  1.47it/s]Training 1/3 epoch (loss 0.9776):  20%|██        | 1968/9753 [20:56<1:30:55,  1.43it/s]Training 1/3 epoch (loss 1.1109):  20%|██        | 1968/9753 [20:57<1:30:55,  1.43it/s]Training 1/3 epoch (loss 1.1109):  20%|██        | 1969/9753 [20:57<1:38:04,  1.32it/s]Training 1/3 epoch (loss 1.0723):  20%|██        | 1969/9753 [20:58<1:38:04,  1.32it/s]Training 1/3 epoch (loss 1.0723):  20%|██        | 1970/9753 [20:58<1:33:11,  1.39it/s]Training 1/3 epoch (loss 1.0916):  20%|██        | 1970/9753 [20:58<1:33:11,  1.39it/s]Training 1/3 epoch (loss 1.0916):  20%|██        | 1971/9753 [20:58<1:36:56,  1.34it/s]Training 1/3 epoch (loss 1.0506):  20%|██        | 1971/9753 [20:59<1:36:56,  1.34it/s]Training 1/3 epoch (loss 1.0506):  20%|██        | 1972/9753 [20:59<1:32:43,  1.40it/s]Training 1/3 epoch (loss 1.2169):  20%|██        | 1972/9753 [21:00<1:32:43,  1.40it/s]Training 1/3 epoch (loss 1.2169):  20%|██        | 1973/9753 [21:00<1:29:17,  1.45it/s]Training 1/3 epoch (loss 1.3856):  20%|██        | 1973/9753 [21:00<1:29:17,  1.45it/s]Training 1/3 epoch (loss 1.3856):  20%|██        | 1974/9753 [21:00<1:31:49,  1.41it/s]Training 1/3 epoch (loss 1.1265):  20%|██        | 1974/9753 [21:01<1:31:49,  1.41it/s]Training 1/3 epoch (loss 1.1265):  20%|██        | 1975/9753 [21:01<1:32:17,  1.40it/s]Training 1/3 epoch (loss 1.3177):  20%|██        | 1975/9753 [21:02<1:32:17,  1.40it/s]Training 1/3 epoch (loss 1.3177):  20%|██        | 1976/9753 [21:02<1:29:54,  1.44it/s]Training 1/3 epoch (loss 1.0248):  20%|██        | 1976/9753 [21:02<1:29:54,  1.44it/s]Training 1/3 epoch (loss 1.0248):  20%|██        | 1977/9753 [21:02<1:27:51,  1.48it/s]Training 1/3 epoch (loss 1.1073):  20%|██        | 1977/9753 [21:03<1:27:51,  1.48it/s]Training 1/3 epoch (loss 1.1073):  20%|██        | 1978/9753 [21:03<1:26:19,  1.50it/s]Training 1/3 epoch (loss 1.1349):  20%|██        | 1978/9753 [21:04<1:26:19,  1.50it/s]Training 1/3 epoch (loss 1.1349):  20%|██        | 1979/9753 [21:04<1:27:04,  1.49it/s]Training 1/3 epoch (loss 1.2656):  20%|██        | 1979/9753 [21:04<1:27:04,  1.49it/s]Training 1/3 epoch (loss 1.2656):  20%|██        | 1980/9753 [21:04<1:29:29,  1.45it/s]Training 1/3 epoch (loss 0.7617):  20%|██        | 1980/9753 [21:05<1:29:29,  1.45it/s]Training 1/3 epoch (loss 0.7617):  20%|██        | 1981/9753 [21:05<1:24:24,  1.53it/s]Training 1/3 epoch (loss 0.8901):  20%|██        | 1981/9753 [21:06<1:24:24,  1.53it/s]Training 1/3 epoch (loss 0.8901):  20%|██        | 1982/9753 [21:06<1:20:35,  1.61it/s]Training 1/3 epoch (loss 0.9796):  20%|██        | 1982/9753 [21:06<1:20:35,  1.61it/s]Training 1/3 epoch (loss 0.9796):  20%|██        | 1983/9753 [21:06<1:18:08,  1.66it/s]Training 1/3 epoch (loss 0.9812):  20%|██        | 1983/9753 [21:07<1:18:08,  1.66it/s]Training 1/3 epoch (loss 0.9812):  20%|██        | 1984/9753 [21:07<1:21:30,  1.59it/s]Training 1/3 epoch (loss 1.0117):  20%|██        | 1984/9753 [21:08<1:21:30,  1.59it/s]Training 1/3 epoch (loss 1.0117):  20%|██        | 1985/9753 [21:08<1:26:10,  1.50it/s]Training 1/3 epoch (loss 1.1571):  20%|██        | 1985/9753 [21:08<1:26:10,  1.50it/s]Training 1/3 epoch (loss 1.1571):  20%|██        | 1986/9753 [21:08<1:35:10,  1.36it/s]Training 1/3 epoch (loss 1.1389):  20%|██        | 1986/9753 [21:09<1:35:10,  1.36it/s]Training 1/3 epoch (loss 1.1389):  20%|██        | 1987/9753 [21:09<1:37:14,  1.33it/s]Training 1/3 epoch (loss 0.9215):  20%|██        | 1987/9753 [21:10<1:37:14,  1.33it/s]Training 1/3 epoch (loss 0.9215):  20%|██        | 1988/9753 [21:10<1:30:42,  1.43it/s]Training 1/3 epoch (loss 0.8684):  20%|██        | 1988/9753 [21:10<1:30:42,  1.43it/s]Training 1/3 epoch (loss 0.8684):  20%|██        | 1989/9753 [21:10<1:25:11,  1.52it/s]Training 1/3 epoch (loss 1.2937):  20%|██        | 1989/9753 [21:11<1:25:11,  1.52it/s]Training 1/3 epoch (loss 1.2937):  20%|██        | 1990/9753 [21:11<1:21:17,  1.59it/s]Training 1/3 epoch (loss 1.1698):  20%|██        | 1990/9753 [21:12<1:21:17,  1.59it/s]Training 1/3 epoch (loss 1.1698):  20%|██        | 1991/9753 [21:12<1:18:21,  1.65it/s]Training 1/3 epoch (loss 0.9052):  20%|██        | 1991/9753 [21:12<1:18:21,  1.65it/s]Training 1/3 epoch (loss 0.9052):  20%|██        | 1992/9753 [21:12<1:16:57,  1.68it/s]Training 1/3 epoch (loss 1.1043):  20%|██        | 1992/9753 [21:13<1:16:57,  1.68it/s]Training 1/3 epoch (loss 1.1043):  20%|██        | 1993/9753 [21:13<1:15:37,  1.71it/s]Training 1/3 epoch (loss 1.1189):  20%|██        | 1993/9753 [21:13<1:15:37,  1.71it/s]Training 1/3 epoch (loss 1.1189):  20%|██        | 1994/9753 [21:13<1:14:32,  1.73it/s]Training 1/3 epoch (loss 1.2279):  20%|██        | 1994/9753 [21:14<1:14:32,  1.73it/s]Training 1/3 epoch (loss 1.2279):  20%|██        | 1995/9753 [21:14<1:13:52,  1.75it/s]Training 1/3 epoch (loss 1.0478):  20%|██        | 1995/9753 [21:14<1:13:52,  1.75it/s]Training 1/3 epoch (loss 1.0478):  20%|██        | 1996/9753 [21:14<1:13:43,  1.75it/s]Training 1/3 epoch (loss 1.1128):  20%|██        | 1996/9753 [21:15<1:13:43,  1.75it/s]Training 1/3 epoch (loss 1.1128):  20%|██        | 1997/9753 [21:15<1:19:58,  1.62it/s]Training 1/3 epoch (loss 1.0313):  20%|██        | 1997/9753 [21:16<1:19:58,  1.62it/s]Training 1/3 epoch (loss 1.0313):  20%|██        | 1998/9753 [21:16<1:18:05,  1.66it/s]Training 1/3 epoch (loss 1.4034):  20%|██        | 1998/9753 [21:16<1:18:05,  1.66it/s]Training 1/3 epoch (loss 1.4034):  20%|██        | 1999/9753 [21:16<1:19:58,  1.62it/s]Training 1/3 epoch (loss 0.9471):  20%|██        | 1999/9753 [21:17<1:19:58,  1.62it/s]Training 1/3 epoch (loss 0.9471):  21%|██        | 2000/9753 [21:17<1:25:59,  1.50it/s]Training 1/3 epoch (loss 1.0932):  21%|██        | 2000/9753 [21:18<1:25:59,  1.50it/s]Training 1/3 epoch (loss 1.0932):  21%|██        | 2001/9753 [21:18<1:25:45,  1.51it/s]Training 1/3 epoch (loss 1.0209):  21%|██        | 2001/9753 [21:18<1:25:45,  1.51it/s]Training 1/3 epoch (loss 1.0209):  21%|██        | 2002/9753 [21:18<1:25:55,  1.50it/s]Training 1/3 epoch (loss 0.9545):  21%|██        | 2002/9753 [21:19<1:25:55,  1.50it/s]Training 1/3 epoch (loss 0.9545):  21%|██        | 2003/9753 [21:19<1:24:29,  1.53it/s]Training 1/3 epoch (loss 1.1606):  21%|██        | 2003/9753 [21:20<1:24:29,  1.53it/s]Training 1/3 epoch (loss 1.1606):  21%|██        | 2004/9753 [21:20<1:23:20,  1.55it/s]Training 1/3 epoch (loss 0.9655):  21%|██        | 2004/9753 [21:20<1:23:20,  1.55it/s]Training 1/3 epoch (loss 0.9655):  21%|██        | 2005/9753 [21:20<1:20:18,  1.61it/s]Training 1/3 epoch (loss 1.1801):  21%|██        | 2005/9753 [21:21<1:20:18,  1.61it/s]Training 1/3 epoch (loss 1.1801):  21%|██        | 2006/9753 [21:21<1:17:50,  1.66it/s]Training 1/3 epoch (loss 1.1342):  21%|██        | 2006/9753 [21:22<1:17:50,  1.66it/s]Training 1/3 epoch (loss 1.1342):  21%|██        | 2007/9753 [21:22<1:23:20,  1.55it/s]Training 1/3 epoch (loss 0.8416):  21%|██        | 2007/9753 [21:22<1:23:20,  1.55it/s]Training 1/3 epoch (loss 0.8416):  21%|██        | 2008/9753 [21:22<1:20:24,  1.61it/s]Training 1/3 epoch (loss 1.1497):  21%|██        | 2008/9753 [21:23<1:20:24,  1.61it/s]Training 1/3 epoch (loss 1.1497):  21%|██        | 2009/9753 [21:23<1:18:59,  1.63it/s]Training 1/3 epoch (loss 1.3976):  21%|██        | 2009/9753 [21:23<1:18:59,  1.63it/s]Training 1/3 epoch (loss 1.3976):  21%|██        | 2010/9753 [21:23<1:16:56,  1.68it/s]Training 1/3 epoch (loss 1.3453):  21%|██        | 2010/9753 [21:24<1:16:56,  1.68it/s]Training 1/3 epoch (loss 1.3453):  21%|██        | 2011/9753 [21:24<1:16:27,  1.69it/s]Training 1/3 epoch (loss 1.0832):  21%|██        | 2011/9753 [21:24<1:16:27,  1.69it/s]Training 1/3 epoch (loss 1.0832):  21%|██        | 2012/9753 [21:24<1:14:55,  1.72it/s]Training 1/3 epoch (loss 0.8290):  21%|██        | 2012/9753 [21:25<1:14:55,  1.72it/s]Training 1/3 epoch (loss 0.8290):  21%|██        | 2013/9753 [21:25<1:13:51,  1.75it/s]Training 1/3 epoch (loss 0.9262):  21%|██        | 2013/9753 [21:26<1:13:51,  1.75it/s]Training 1/3 epoch (loss 0.9262):  21%|██        | 2014/9753 [21:26<1:17:03,  1.67it/s]Training 1/3 epoch (loss 0.9342):  21%|██        | 2014/9753 [21:26<1:17:03,  1.67it/s]Training 1/3 epoch (loss 0.9342):  21%|██        | 2015/9753 [21:26<1:15:54,  1.70it/s]Training 1/3 epoch (loss 1.0589):  21%|██        | 2015/9753 [21:27<1:15:54,  1.70it/s]Training 1/3 epoch (loss 1.0589):  21%|██        | 2016/9753 [21:27<1:20:13,  1.61it/s]Training 1/3 epoch (loss 1.0664):  21%|██        | 2016/9753 [21:27<1:20:13,  1.61it/s]Training 1/3 epoch (loss 1.0664):  21%|██        | 2017/9753 [21:27<1:17:39,  1.66it/s]Training 1/3 epoch (loss 1.0756):  21%|██        | 2017/9753 [21:28<1:17:39,  1.66it/s]Training 1/3 epoch (loss 1.0756):  21%|██        | 2018/9753 [21:28<1:15:58,  1.70it/s]Training 1/3 epoch (loss 1.2867):  21%|██        | 2018/9753 [21:29<1:15:58,  1.70it/s]Training 1/3 epoch (loss 1.2867):  21%|██        | 2019/9753 [21:29<1:14:26,  1.73it/s]Training 1/3 epoch (loss 0.9582):  21%|██        | 2019/9753 [21:29<1:14:26,  1.73it/s]Training 1/3 epoch (loss 0.9582):  21%|██        | 2020/9753 [21:29<1:16:47,  1.68it/s]Training 1/3 epoch (loss 1.1664):  21%|██        | 2020/9753 [21:30<1:16:47,  1.68it/s]Training 1/3 epoch (loss 1.1664):  21%|██        | 2021/9753 [21:30<1:16:51,  1.68it/s]Training 1/3 epoch (loss 1.0669):  21%|██        | 2021/9753 [21:30<1:16:51,  1.68it/s]Training 1/3 epoch (loss 1.0669):  21%|██        | 2022/9753 [21:30<1:16:37,  1.68it/s]Training 1/3 epoch (loss 1.0358):  21%|██        | 2022/9753 [21:31<1:16:37,  1.68it/s]Training 1/3 epoch (loss 1.0358):  21%|██        | 2023/9753 [21:31<1:15:57,  1.70it/s]Training 1/3 epoch (loss 1.1118):  21%|██        | 2023/9753 [21:31<1:15:57,  1.70it/s]Training 1/3 epoch (loss 1.1118):  21%|██        | 2024/9753 [21:31<1:14:49,  1.72it/s]Training 1/3 epoch (loss 1.0226):  21%|██        | 2024/9753 [21:32<1:14:49,  1.72it/s]Training 1/3 epoch (loss 1.0226):  21%|██        | 2025/9753 [21:32<1:13:44,  1.75it/s]Training 1/3 epoch (loss 0.9954):  21%|██        | 2025/9753 [21:33<1:13:44,  1.75it/s]Training 1/3 epoch (loss 0.9954):  21%|██        | 2026/9753 [21:33<1:13:52,  1.74it/s]Training 1/3 epoch (loss 0.9645):  21%|██        | 2026/9753 [21:33<1:13:52,  1.74it/s]Training 1/3 epoch (loss 0.9645):  21%|██        | 2027/9753 [21:33<1:14:07,  1.74it/s]Training 1/3 epoch (loss 1.0328):  21%|██        | 2027/9753 [21:34<1:14:07,  1.74it/s]Training 1/3 epoch (loss 1.0328):  21%|██        | 2028/9753 [21:34<1:16:37,  1.68it/s]Training 1/3 epoch (loss 1.0490):  21%|██        | 2028/9753 [21:34<1:16:37,  1.68it/s]Training 1/3 epoch (loss 1.0490):  21%|██        | 2029/9753 [21:34<1:16:28,  1.68it/s]Training 1/3 epoch (loss 1.0621):  21%|██        | 2029/9753 [21:35<1:16:28,  1.68it/s]Training 1/3 epoch (loss 1.0621):  21%|██        | 2030/9753 [21:35<1:15:08,  1.71it/s]Training 1/3 epoch (loss 1.0430):  21%|██        | 2030/9753 [21:36<1:15:08,  1.71it/s]Training 1/3 epoch (loss 1.0430):  21%|██        | 2031/9753 [21:36<1:14:02,  1.74it/s]Training 1/3 epoch (loss 1.0934):  21%|██        | 2031/9753 [21:36<1:14:02,  1.74it/s]Training 1/3 epoch (loss 1.0934):  21%|██        | 2032/9753 [21:36<1:22:59,  1.55it/s]Training 1/3 epoch (loss 1.0228):  21%|██        | 2032/9753 [21:37<1:22:59,  1.55it/s]Training 1/3 epoch (loss 1.0228):  21%|██        | 2033/9753 [21:37<1:25:04,  1.51it/s]Training 1/3 epoch (loss 1.1862):  21%|██        | 2033/9753 [21:38<1:25:04,  1.51it/s]Training 1/3 epoch (loss 1.1862):  21%|██        | 2034/9753 [21:38<1:22:05,  1.57it/s]Training 1/3 epoch (loss 0.9995):  21%|██        | 2034/9753 [21:38<1:22:05,  1.57it/s]Training 1/3 epoch (loss 0.9995):  21%|██        | 2035/9753 [21:38<1:19:23,  1.62it/s]Training 1/3 epoch (loss 1.1688):  21%|██        | 2035/9753 [21:39<1:19:23,  1.62it/s]Training 1/3 epoch (loss 1.1688):  21%|██        | 2036/9753 [21:39<1:28:55,  1.45it/s]Training 1/3 epoch (loss 1.1088):  21%|██        | 2036/9753 [21:40<1:28:55,  1.45it/s]Training 1/3 epoch (loss 1.1088):  21%|██        | 2037/9753 [21:40<1:24:50,  1.52it/s]Training 1/3 epoch (loss 1.0053):  21%|██        | 2037/9753 [21:40<1:24:50,  1.52it/s]Training 1/3 epoch (loss 1.0053):  21%|██        | 2038/9753 [21:40<1:26:01,  1.49it/s]Training 1/3 epoch (loss 0.9994):  21%|██        | 2038/9753 [21:41<1:26:01,  1.49it/s]Training 1/3 epoch (loss 0.9994):  21%|██        | 2039/9753 [21:41<1:29:15,  1.44it/s]Training 1/3 epoch (loss 1.2185):  21%|██        | 2039/9753 [21:42<1:29:15,  1.44it/s]Training 1/3 epoch (loss 1.2185):  21%|██        | 2040/9753 [21:42<1:23:57,  1.53it/s]Training 1/3 epoch (loss 1.3249):  21%|██        | 2040/9753 [21:43<1:23:57,  1.53it/s]Training 1/3 epoch (loss 1.3249):  21%|██        | 2041/9753 [21:43<1:33:31,  1.37it/s]Training 1/3 epoch (loss 1.1879):  21%|██        | 2041/9753 [21:43<1:33:31,  1.37it/s]Training 1/3 epoch (loss 1.1879):  21%|██        | 2042/9753 [21:43<1:27:23,  1.47it/s]Training 1/3 epoch (loss 1.1267):  21%|██        | 2042/9753 [21:44<1:27:23,  1.47it/s]Training 1/3 epoch (loss 1.1267):  21%|██        | 2043/9753 [21:44<1:24:04,  1.53it/s]Training 1/3 epoch (loss 1.0726):  21%|██        | 2043/9753 [21:44<1:24:04,  1.53it/s]Training 1/3 epoch (loss 1.0726):  21%|██        | 2044/9753 [21:44<1:24:40,  1.52it/s]Training 1/3 epoch (loss 1.0655):  21%|██        | 2044/9753 [21:45<1:24:40,  1.52it/s]Training 1/3 epoch (loss 1.0655):  21%|██        | 2045/9753 [21:45<1:20:26,  1.60it/s]Training 1/3 epoch (loss 1.0957):  21%|██        | 2045/9753 [21:45<1:20:26,  1.60it/s]Training 1/3 epoch (loss 1.0957):  21%|██        | 2046/9753 [21:45<1:17:51,  1.65it/s]Training 1/3 epoch (loss 0.9977):  21%|██        | 2046/9753 [21:46<1:17:51,  1.65it/s]Training 1/3 epoch (loss 0.9977):  21%|██        | 2047/9753 [21:46<1:22:44,  1.55it/s]Training 1/3 epoch (loss 1.1732):  21%|██        | 2047/9753 [21:47<1:22:44,  1.55it/s]Training 1/3 epoch (loss 1.1732):  21%|██        | 2048/9753 [21:47<1:27:34,  1.47it/s]Training 1/3 epoch (loss 1.1258):  21%|██        | 2048/9753 [21:48<1:27:34,  1.47it/s]Training 1/3 epoch (loss 1.1258):  21%|██        | 2049/9753 [21:48<1:26:50,  1.48it/s]Training 1/3 epoch (loss 1.1265):  21%|██        | 2049/9753 [21:48<1:26:50,  1.48it/s]Training 1/3 epoch (loss 1.1265):  21%|██        | 2050/9753 [21:48<1:22:40,  1.55it/s]Training 1/3 epoch (loss 1.0552):  21%|██        | 2050/9753 [21:49<1:22:40,  1.55it/s]Training 1/3 epoch (loss 1.0552):  21%|██        | 2051/9753 [21:49<1:19:14,  1.62it/s]Training 1/3 epoch (loss 1.1263):  21%|██        | 2051/9753 [21:49<1:19:14,  1.62it/s]Training 1/3 epoch (loss 1.1263):  21%|██        | 2052/9753 [21:49<1:16:57,  1.67it/s]Training 1/3 epoch (loss 1.1664):  21%|██        | 2052/9753 [21:50<1:16:57,  1.67it/s]Training 1/3 epoch (loss 1.1664):  21%|██        | 2053/9753 [21:50<1:16:11,  1.68it/s]Training 1/3 epoch (loss 1.0658):  21%|██        | 2053/9753 [21:51<1:16:11,  1.68it/s]Training 1/3 epoch (loss 1.0658):  21%|██        | 2054/9753 [21:51<1:18:37,  1.63it/s]Training 1/3 epoch (loss 1.1821):  21%|██        | 2054/9753 [21:51<1:18:37,  1.63it/s]Training 1/3 epoch (loss 1.1821):  21%|██        | 2055/9753 [21:51<1:18:03,  1.64it/s]Training 1/3 epoch (loss 1.0350):  21%|██        | 2055/9753 [21:52<1:18:03,  1.64it/s]Training 1/3 epoch (loss 1.0350):  21%|██        | 2056/9753 [21:52<1:16:20,  1.68it/s]Training 1/3 epoch (loss 0.9870):  21%|██        | 2056/9753 [21:52<1:16:20,  1.68it/s]Training 1/3 epoch (loss 0.9870):  21%|██        | 2057/9753 [21:52<1:14:43,  1.72it/s]Training 1/3 epoch (loss 1.0479):  21%|██        | 2057/9753 [21:53<1:14:43,  1.72it/s]Training 1/3 epoch (loss 1.0479):  21%|██        | 2058/9753 [21:53<1:17:53,  1.65it/s]Training 1/3 epoch (loss 1.1275):  21%|██        | 2058/9753 [21:54<1:17:53,  1.65it/s]Training 1/3 epoch (loss 1.1275):  21%|██        | 2059/9753 [21:54<1:17:06,  1.66it/s]Training 1/3 epoch (loss 0.9867):  21%|██        | 2059/9753 [21:54<1:17:06,  1.66it/s]Training 1/3 epoch (loss 0.9867):  21%|██        | 2060/9753 [21:54<1:16:46,  1.67it/s]Training 1/3 epoch (loss 1.0667):  21%|██        | 2060/9753 [21:55<1:16:46,  1.67it/s]Training 1/3 epoch (loss 1.0667):  21%|██        | 2061/9753 [21:55<1:20:32,  1.59it/s]Training 1/3 epoch (loss 1.0535):  21%|██        | 2061/9753 [21:56<1:20:32,  1.59it/s]Training 1/3 epoch (loss 1.0535):  21%|██        | 2062/9753 [21:56<1:30:03,  1.42it/s]Training 1/3 epoch (loss 1.1000):  21%|██        | 2062/9753 [21:56<1:30:03,  1.42it/s]Training 1/3 epoch (loss 1.1000):  21%|██        | 2063/9753 [21:56<1:28:12,  1.45it/s]Training 1/3 epoch (loss 1.1150):  21%|██        | 2063/9753 [21:57<1:28:12,  1.45it/s]Training 1/3 epoch (loss 1.1150):  21%|██        | 2064/9753 [21:57<1:30:00,  1.42it/s]Training 1/3 epoch (loss 1.1352):  21%|██        | 2064/9753 [21:58<1:30:00,  1.42it/s]Training 1/3 epoch (loss 1.1352):  21%|██        | 2065/9753 [21:58<1:30:26,  1.42it/s]Training 1/3 epoch (loss 1.2452):  21%|██        | 2065/9753 [21:58<1:30:26,  1.42it/s]Training 1/3 epoch (loss 1.2452):  21%|██        | 2066/9753 [21:58<1:29:13,  1.44it/s]Training 1/3 epoch (loss 1.2590):  21%|██        | 2066/9753 [21:59<1:29:13,  1.44it/s]Training 1/3 epoch (loss 1.2590):  21%|██        | 2067/9753 [21:59<1:36:38,  1.33it/s]Training 1/3 epoch (loss 1.1352):  21%|██        | 2067/9753 [22:00<1:36:38,  1.33it/s]Training 1/3 epoch (loss 1.1352):  21%|██        | 2068/9753 [22:00<1:33:19,  1.37it/s]Training 1/3 epoch (loss 0.9073):  21%|██        | 2068/9753 [22:01<1:33:19,  1.37it/s]Training 1/3 epoch (loss 0.9073):  21%|██        | 2069/9753 [22:01<1:36:32,  1.33it/s]Training 1/3 epoch (loss 1.2043):  21%|██        | 2069/9753 [22:01<1:36:32,  1.33it/s]Training 1/3 epoch (loss 1.2043):  21%|██        | 2070/9753 [22:01<1:29:19,  1.43it/s]Training 1/3 epoch (loss 1.1487):  21%|██        | 2070/9753 [22:02<1:29:19,  1.43it/s]Training 1/3 epoch (loss 1.1487):  21%|██        | 2071/9753 [22:02<1:26:27,  1.48it/s]Training 1/3 epoch (loss 1.0174):  21%|██        | 2071/9753 [22:03<1:26:27,  1.48it/s]Training 1/3 epoch (loss 1.0174):  21%|██        | 2072/9753 [22:03<1:31:32,  1.40it/s]Training 1/3 epoch (loss 1.0086):  21%|██        | 2072/9753 [22:04<1:31:32,  1.40it/s]Training 1/3 epoch (loss 1.0086):  21%|██▏       | 2073/9753 [22:04<1:33:51,  1.36it/s]Training 1/3 epoch (loss 1.0127):  21%|██▏       | 2073/9753 [22:04<1:33:51,  1.36it/s]Training 1/3 epoch (loss 1.0127):  21%|██▏       | 2074/9753 [22:04<1:27:36,  1.46it/s]Training 1/3 epoch (loss 1.0511):  21%|██▏       | 2074/9753 [22:05<1:27:36,  1.46it/s]Training 1/3 epoch (loss 1.0511):  21%|██▏       | 2075/9753 [22:05<1:22:30,  1.55it/s]Training 1/3 epoch (loss 1.0084):  21%|██▏       | 2075/9753 [22:05<1:22:30,  1.55it/s]Training 1/3 epoch (loss 1.0084):  21%|██▏       | 2076/9753 [22:05<1:18:58,  1.62it/s]Training 1/3 epoch (loss 1.1944):  21%|██▏       | 2076/9753 [22:06<1:18:58,  1.62it/s]Training 1/3 epoch (loss 1.1944):  21%|██▏       | 2077/9753 [22:06<1:16:36,  1.67it/s]Training 1/3 epoch (loss 0.9491):  21%|██▏       | 2077/9753 [22:06<1:16:36,  1.67it/s]Training 1/3 epoch (loss 0.9491):  21%|██▏       | 2078/9753 [22:06<1:15:00,  1.71it/s]Training 1/3 epoch (loss 1.0489):  21%|██▏       | 2078/9753 [22:07<1:15:00,  1.71it/s]Training 1/3 epoch (loss 1.0489):  21%|██▏       | 2079/9753 [22:07<1:15:08,  1.70it/s]Training 1/3 epoch (loss 1.0724):  21%|██▏       | 2079/9753 [22:08<1:15:08,  1.70it/s]Training 1/3 epoch (loss 1.0724):  21%|██▏       | 2080/9753 [22:08<1:25:57,  1.49it/s]Training 1/3 epoch (loss 0.9795):  21%|██▏       | 2080/9753 [22:08<1:25:57,  1.49it/s]Training 1/3 epoch (loss 0.9795):  21%|██▏       | 2081/9753 [22:08<1:22:55,  1.54it/s]Training 1/3 epoch (loss 1.4714):  21%|██▏       | 2081/9753 [22:09<1:22:55,  1.54it/s]Training 1/3 epoch (loss 1.4714):  21%|██▏       | 2082/9753 [22:09<1:24:18,  1.52it/s]Training 1/3 epoch (loss 1.0079):  21%|██▏       | 2082/9753 [22:10<1:24:18,  1.52it/s]Training 1/3 epoch (loss 1.0079):  21%|██▏       | 2083/9753 [22:10<1:32:24,  1.38it/s]Training 1/3 epoch (loss 1.1003):  21%|██▏       | 2083/9753 [22:11<1:32:24,  1.38it/s]Training 1/3 epoch (loss 1.1003):  21%|██▏       | 2084/9753 [22:11<1:26:58,  1.47it/s]Training 1/3 epoch (loss 1.1441):  21%|██▏       | 2084/9753 [22:11<1:26:58,  1.47it/s]Training 1/3 epoch (loss 1.1441):  21%|██▏       | 2085/9753 [22:11<1:23:33,  1.53it/s]Training 1/3 epoch (loss 0.9206):  21%|██▏       | 2085/9753 [22:12<1:23:33,  1.53it/s]Training 1/3 epoch (loss 0.9206):  21%|██▏       | 2086/9753 [22:12<1:22:32,  1.55it/s]Training 1/3 epoch (loss 0.9578):  21%|██▏       | 2086/9753 [22:12<1:22:32,  1.55it/s]Training 1/3 epoch (loss 0.9578):  21%|██▏       | 2087/9753 [22:12<1:19:04,  1.62it/s]Training 1/3 epoch (loss 1.1248):  21%|██▏       | 2087/9753 [22:13<1:19:04,  1.62it/s]Training 1/3 epoch (loss 1.1248):  21%|██▏       | 2088/9753 [22:13<1:16:48,  1.66it/s]Training 1/3 epoch (loss 1.2574):  21%|██▏       | 2088/9753 [22:14<1:16:48,  1.66it/s]Training 1/3 epoch (loss 1.2574):  21%|██▏       | 2089/9753 [22:14<1:17:52,  1.64it/s]Training 1/3 epoch (loss 0.9943):  21%|██▏       | 2089/9753 [22:14<1:17:52,  1.64it/s]Training 1/3 epoch (loss 0.9943):  21%|██▏       | 2090/9753 [22:14<1:16:04,  1.68it/s]Training 1/3 epoch (loss 0.9970):  21%|██▏       | 2090/9753 [22:15<1:16:04,  1.68it/s]Training 1/3 epoch (loss 0.9970):  21%|██▏       | 2091/9753 [22:15<1:21:30,  1.57it/s]Training 1/3 epoch (loss 1.1422):  21%|██▏       | 2091/9753 [22:15<1:21:30,  1.57it/s]Training 1/3 epoch (loss 1.1422):  21%|██▏       | 2092/9753 [22:15<1:20:16,  1.59it/s]Training 1/3 epoch (loss 1.1087):  21%|██▏       | 2092/9753 [22:16<1:20:16,  1.59it/s]Training 1/3 epoch (loss 1.1087):  21%|██▏       | 2093/9753 [22:16<1:17:29,  1.65it/s]Training 1/3 epoch (loss 1.0475):  21%|██▏       | 2093/9753 [22:17<1:17:29,  1.65it/s]Training 1/3 epoch (loss 1.0475):  21%|██▏       | 2094/9753 [22:17<1:15:41,  1.69it/s]Training 1/3 epoch (loss 0.9547):  21%|██▏       | 2094/9753 [22:17<1:15:41,  1.69it/s]Training 1/3 epoch (loss 0.9547):  21%|██▏       | 2095/9753 [22:17<1:14:24,  1.72it/s]Training 1/3 epoch (loss 1.0672):  21%|██▏       | 2095/9753 [22:18<1:14:24,  1.72it/s]Training 1/3 epoch (loss 1.0672):  21%|██▏       | 2096/9753 [22:18<1:18:18,  1.63it/s]Training 1/3 epoch (loss 0.8589):  21%|██▏       | 2096/9753 [22:18<1:18:18,  1.63it/s]Training 1/3 epoch (loss 0.8589):  22%|██▏       | 2097/9753 [22:18<1:16:13,  1.67it/s]Training 1/3 epoch (loss 1.0586):  22%|██▏       | 2097/9753 [22:19<1:16:13,  1.67it/s]Training 1/3 epoch (loss 1.0586):  22%|██▏       | 2098/9753 [22:19<1:15:09,  1.70it/s]Training 1/3 epoch (loss 1.1010):  22%|██▏       | 2098/9753 [22:20<1:15:09,  1.70it/s]Training 1/3 epoch (loss 1.1010):  22%|██▏       | 2099/9753 [22:20<1:21:49,  1.56it/s]Training 1/3 epoch (loss 1.2169):  22%|██▏       | 2099/9753 [22:21<1:21:49,  1.56it/s]Training 1/3 epoch (loss 1.2169):  22%|██▏       | 2100/9753 [22:21<1:31:43,  1.39it/s]Training 1/3 epoch (loss 1.1406):  22%|██▏       | 2100/9753 [22:21<1:31:43,  1.39it/s]Training 1/3 epoch (loss 1.1406):  22%|██▏       | 2101/9753 [22:21<1:30:41,  1.41it/s]Training 1/3 epoch (loss 1.1493):  22%|██▏       | 2101/9753 [22:22<1:30:41,  1.41it/s]Training 1/3 epoch (loss 1.1493):  22%|██▏       | 2102/9753 [22:22<1:26:19,  1.48it/s]Training 1/3 epoch (loss 0.9147):  22%|██▏       | 2102/9753 [22:23<1:26:19,  1.48it/s]Training 1/3 epoch (loss 0.9147):  22%|██▏       | 2103/9753 [22:23<1:34:44,  1.35it/s]Training 1/3 epoch (loss 1.0253):  22%|██▏       | 2103/9753 [22:23<1:34:44,  1.35it/s]Training 1/3 epoch (loss 1.0253):  22%|██▏       | 2104/9753 [22:23<1:28:07,  1.45it/s]Training 1/3 epoch (loss 1.1144):  22%|██▏       | 2104/9753 [22:24<1:28:07,  1.45it/s]Training 1/3 epoch (loss 1.1144):  22%|██▏       | 2105/9753 [22:24<1:23:29,  1.53it/s]Training 1/3 epoch (loss 0.9432):  22%|██▏       | 2105/9753 [22:25<1:23:29,  1.53it/s]Training 1/3 epoch (loss 0.9432):  22%|██▏       | 2106/9753 [22:25<1:19:38,  1.60it/s]Training 1/3 epoch (loss 0.8960):  22%|██▏       | 2106/9753 [22:25<1:19:38,  1.60it/s]Training 1/3 epoch (loss 0.8960):  22%|██▏       | 2107/9753 [22:25<1:18:52,  1.62it/s]Training 1/3 epoch (loss 1.1382):  22%|██▏       | 2107/9753 [22:26<1:18:52,  1.62it/s]Training 1/3 epoch (loss 1.1382):  22%|██▏       | 2108/9753 [22:26<1:20:18,  1.59it/s]Training 1/3 epoch (loss 1.0471):  22%|██▏       | 2108/9753 [22:27<1:20:18,  1.59it/s]Training 1/3 epoch (loss 1.0471):  22%|██▏       | 2109/9753 [22:27<1:26:21,  1.48it/s]Training 1/3 epoch (loss 1.1012):  22%|██▏       | 2109/9753 [22:27<1:26:21,  1.48it/s]Training 1/3 epoch (loss 1.1012):  22%|██▏       | 2110/9753 [22:27<1:21:46,  1.56it/s]Training 1/3 epoch (loss 1.1748):  22%|██▏       | 2110/9753 [22:28<1:21:46,  1.56it/s]Training 1/3 epoch (loss 1.1748):  22%|██▏       | 2111/9753 [22:28<1:19:14,  1.61it/s]Training 1/3 epoch (loss 1.0690):  22%|██▏       | 2111/9753 [22:28<1:19:14,  1.61it/s]Training 1/3 epoch (loss 1.0690):  22%|██▏       | 2112/9753 [22:28<1:23:04,  1.53it/s]Training 1/3 epoch (loss 1.1529):  22%|██▏       | 2112/9753 [22:29<1:23:04,  1.53it/s]Training 1/3 epoch (loss 1.1529):  22%|██▏       | 2113/9753 [22:29<1:22:29,  1.54it/s]Training 1/3 epoch (loss 1.2024):  22%|██▏       | 2113/9753 [22:30<1:22:29,  1.54it/s]Training 1/3 epoch (loss 1.2024):  22%|██▏       | 2114/9753 [22:30<1:20:41,  1.58it/s]Training 1/3 epoch (loss 0.9704):  22%|██▏       | 2114/9753 [22:30<1:20:41,  1.58it/s]Training 1/3 epoch (loss 0.9704):  22%|██▏       | 2115/9753 [22:30<1:17:50,  1.64it/s]Training 1/3 epoch (loss 0.9488):  22%|██▏       | 2115/9753 [22:31<1:17:50,  1.64it/s]Training 1/3 epoch (loss 0.9488):  22%|██▏       | 2116/9753 [22:31<1:15:39,  1.68it/s]Training 1/3 epoch (loss 0.9997):  22%|██▏       | 2116/9753 [22:31<1:15:39,  1.68it/s]Training 1/3 epoch (loss 0.9997):  22%|██▏       | 2117/9753 [22:31<1:14:48,  1.70it/s]Training 1/3 epoch (loss 1.1496):  22%|██▏       | 2117/9753 [22:32<1:14:48,  1.70it/s]Training 1/3 epoch (loss 1.1496):  22%|██▏       | 2118/9753 [22:32<1:17:03,  1.65it/s]Training 1/3 epoch (loss 1.1542):  22%|██▏       | 2118/9753 [22:33<1:17:03,  1.65it/s]Training 1/3 epoch (loss 1.1542):  22%|██▏       | 2119/9753 [22:33<1:21:36,  1.56it/s]Training 1/3 epoch (loss 0.9606):  22%|██▏       | 2119/9753 [22:33<1:21:36,  1.56it/s]Training 1/3 epoch (loss 0.9606):  22%|██▏       | 2120/9753 [22:33<1:23:06,  1.53it/s]Training 1/3 epoch (loss 1.1753):  22%|██▏       | 2120/9753 [22:34<1:23:06,  1.53it/s]Training 1/3 epoch (loss 1.1753):  22%|██▏       | 2121/9753 [22:34<1:25:42,  1.48it/s]Training 1/3 epoch (loss 1.0005):  22%|██▏       | 2121/9753 [22:35<1:25:42,  1.48it/s]Training 1/3 epoch (loss 1.0005):  22%|██▏       | 2122/9753 [22:35<1:27:45,  1.45it/s]Training 1/3 epoch (loss 0.9063):  22%|██▏       | 2122/9753 [22:36<1:27:45,  1.45it/s]Training 1/3 epoch (loss 0.9063):  22%|██▏       | 2123/9753 [22:36<1:33:26,  1.36it/s]Training 1/3 epoch (loss 1.1279):  22%|██▏       | 2123/9753 [22:36<1:33:26,  1.36it/s]Training 1/3 epoch (loss 1.1279):  22%|██▏       | 2124/9753 [22:36<1:31:41,  1.39it/s]Training 1/3 epoch (loss 1.3333):  22%|██▏       | 2124/9753 [22:37<1:31:41,  1.39it/s]Training 1/3 epoch (loss 1.3333):  22%|██▏       | 2125/9753 [22:37<1:30:21,  1.41it/s]Training 1/3 epoch (loss 1.0288):  22%|██▏       | 2125/9753 [22:38<1:30:21,  1.41it/s]Training 1/3 epoch (loss 1.0288):  22%|██▏       | 2126/9753 [22:38<1:34:44,  1.34it/s]Training 1/3 epoch (loss 1.1124):  22%|██▏       | 2126/9753 [22:39<1:34:44,  1.34it/s]Training 1/3 epoch (loss 1.1124):  22%|██▏       | 2127/9753 [22:39<1:30:49,  1.40it/s]Training 1/3 epoch (loss 1.3638):  22%|██▏       | 2127/9753 [22:39<1:30:49,  1.40it/s]Training 1/3 epoch (loss 1.3638):  22%|██▏       | 2128/9753 [22:39<1:29:33,  1.42it/s]Training 1/3 epoch (loss 1.1575):  22%|██▏       | 2128/9753 [22:40<1:29:33,  1.42it/s]Training 1/3 epoch (loss 1.1575):  22%|██▏       | 2129/9753 [22:40<1:26:37,  1.47it/s]Training 1/3 epoch (loss 1.0253):  22%|██▏       | 2129/9753 [22:40<1:26:37,  1.47it/s]Training 1/3 epoch (loss 1.0253):  22%|██▏       | 2130/9753 [22:40<1:21:39,  1.56it/s]Training 1/3 epoch (loss 0.9125):  22%|██▏       | 2130/9753 [22:41<1:21:39,  1.56it/s]Training 1/3 epoch (loss 0.9125):  22%|██▏       | 2131/9753 [22:41<1:19:27,  1.60it/s]Training 1/3 epoch (loss 0.9473):  22%|██▏       | 2131/9753 [22:42<1:19:27,  1.60it/s]Training 1/3 epoch (loss 0.9473):  22%|██▏       | 2132/9753 [22:42<1:17:46,  1.63it/s]Training 1/3 epoch (loss 1.0691):  22%|██▏       | 2132/9753 [22:42<1:17:46,  1.63it/s]Training 1/3 epoch (loss 1.0691):  22%|██▏       | 2133/9753 [22:42<1:26:29,  1.47it/s]Training 1/3 epoch (loss 1.1061):  22%|██▏       | 2133/9753 [22:43<1:26:29,  1.47it/s]Training 1/3 epoch (loss 1.1061):  22%|██▏       | 2134/9753 [22:43<1:21:38,  1.56it/s]Training 1/3 epoch (loss 1.0793):  22%|██▏       | 2134/9753 [22:44<1:21:38,  1.56it/s]Training 1/3 epoch (loss 1.0793):  22%|██▏       | 2135/9753 [22:44<1:19:18,  1.60it/s]Training 1/3 epoch (loss 1.1175):  22%|██▏       | 2135/9753 [22:44<1:19:18,  1.60it/s]Training 1/3 epoch (loss 1.1175):  22%|██▏       | 2136/9753 [22:44<1:17:20,  1.64it/s]Training 1/3 epoch (loss 1.1599):  22%|██▏       | 2136/9753 [22:45<1:17:20,  1.64it/s]Training 1/3 epoch (loss 1.1599):  22%|██▏       | 2137/9753 [22:45<1:19:05,  1.60it/s]Training 1/3 epoch (loss 1.1567):  22%|██▏       | 2137/9753 [22:46<1:19:05,  1.60it/s]Training 1/3 epoch (loss 1.1567):  22%|██▏       | 2138/9753 [22:46<1:24:12,  1.51it/s]Training 1/3 epoch (loss 1.1611):  22%|██▏       | 2138/9753 [22:46<1:24:12,  1.51it/s]Training 1/3 epoch (loss 1.1611):  22%|██▏       | 2139/9753 [22:46<1:25:31,  1.48it/s]Training 1/3 epoch (loss 1.1405):  22%|██▏       | 2139/9753 [22:47<1:25:31,  1.48it/s]Training 1/3 epoch (loss 1.1405):  22%|██▏       | 2140/9753 [22:47<1:26:17,  1.47it/s]Training 1/3 epoch (loss 0.8595):  22%|██▏       | 2140/9753 [22:47<1:26:17,  1.47it/s]Training 1/3 epoch (loss 0.8595):  22%|██▏       | 2141/9753 [22:47<1:22:22,  1.54it/s]Training 1/3 epoch (loss 1.1454):  22%|██▏       | 2141/9753 [22:48<1:22:22,  1.54it/s]Training 1/3 epoch (loss 1.1454):  22%|██▏       | 2142/9753 [22:48<1:21:08,  1.56it/s]Training 1/3 epoch (loss 1.0511):  22%|██▏       | 2142/9753 [22:49<1:21:08,  1.56it/s]Training 1/3 epoch (loss 1.0511):  22%|██▏       | 2143/9753 [22:49<1:18:57,  1.61it/s]Training 1/3 epoch (loss 1.1833):  22%|██▏       | 2143/9753 [22:49<1:18:57,  1.61it/s]Training 1/3 epoch (loss 1.1833):  22%|██▏       | 2144/9753 [22:49<1:22:29,  1.54it/s]Training 1/3 epoch (loss 1.0925):  22%|██▏       | 2144/9753 [22:50<1:22:29,  1.54it/s]Training 1/3 epoch (loss 1.0925):  22%|██▏       | 2145/9753 [22:50<1:20:30,  1.58it/s]Training 1/3 epoch (loss 1.0870):  22%|██▏       | 2145/9753 [22:51<1:20:30,  1.58it/s]Training 1/3 epoch (loss 1.0870):  22%|██▏       | 2146/9753 [22:51<1:23:14,  1.52it/s]Training 1/3 epoch (loss 1.0624):  22%|██▏       | 2146/9753 [22:51<1:23:14,  1.52it/s]Training 1/3 epoch (loss 1.0624):  22%|██▏       | 2147/9753 [22:51<1:25:08,  1.49it/s]Training 1/3 epoch (loss 1.2048):  22%|██▏       | 2147/9753 [22:52<1:25:08,  1.49it/s]Training 1/3 epoch (loss 1.2048):  22%|██▏       | 2148/9753 [22:52<1:27:37,  1.45it/s]Training 1/3 epoch (loss 0.9933):  22%|██▏       | 2148/9753 [22:53<1:27:37,  1.45it/s]Training 1/3 epoch (loss 0.9933):  22%|██▏       | 2149/9753 [22:53<1:25:24,  1.48it/s]Training 1/3 epoch (loss 1.2983):  22%|██▏       | 2149/9753 [22:54<1:25:24,  1.48it/s]Training 1/3 epoch (loss 1.2983):  22%|██▏       | 2150/9753 [22:54<1:27:59,  1.44it/s]Training 1/3 epoch (loss 1.1402):  22%|██▏       | 2150/9753 [22:54<1:27:59,  1.44it/s]Training 1/3 epoch (loss 1.1402):  22%|██▏       | 2151/9753 [22:54<1:23:38,  1.51it/s]Training 1/3 epoch (loss 1.1574):  22%|██▏       | 2151/9753 [22:55<1:23:38,  1.51it/s]Training 1/3 epoch (loss 1.1574):  22%|██▏       | 2152/9753 [22:55<1:27:35,  1.45it/s]Training 1/3 epoch (loss 1.2103):  22%|██▏       | 2152/9753 [22:56<1:27:35,  1.45it/s]Training 1/3 epoch (loss 1.2103):  22%|██▏       | 2153/9753 [22:56<1:29:49,  1.41it/s]Training 1/3 epoch (loss 0.9950):  22%|██▏       | 2153/9753 [22:56<1:29:49,  1.41it/s]Training 1/3 epoch (loss 0.9950):  22%|██▏       | 2154/9753 [22:56<1:28:34,  1.43it/s]Training 1/3 epoch (loss 1.2343):  22%|██▏       | 2154/9753 [22:57<1:28:34,  1.43it/s]Training 1/3 epoch (loss 1.2343):  22%|██▏       | 2155/9753 [22:57<1:28:51,  1.43it/s]Training 1/3 epoch (loss 1.1205):  22%|██▏       | 2155/9753 [22:58<1:28:51,  1.43it/s]Training 1/3 epoch (loss 1.1205):  22%|██▏       | 2156/9753 [22:58<1:30:22,  1.40it/s]Training 1/3 epoch (loss 1.1246):  22%|██▏       | 2156/9753 [22:58<1:30:22,  1.40it/s]Training 1/3 epoch (loss 1.1246):  22%|██▏       | 2157/9753 [22:58<1:27:13,  1.45it/s]Training 1/3 epoch (loss 1.1417):  22%|██▏       | 2157/9753 [22:59<1:27:13,  1.45it/s]Training 1/3 epoch (loss 1.1417):  22%|██▏       | 2158/9753 [22:59<1:22:30,  1.53it/s]Training 1/3 epoch (loss 1.2000):  22%|██▏       | 2158/9753 [23:00<1:22:30,  1.53it/s]Training 1/3 epoch (loss 1.2000):  22%|██▏       | 2159/9753 [23:00<1:22:59,  1.52it/s]Training 1/3 epoch (loss 1.0332):  22%|██▏       | 2159/9753 [23:00<1:22:59,  1.52it/s]Training 1/3 epoch (loss 1.0332):  22%|██▏       | 2160/9753 [23:00<1:24:30,  1.50it/s]Training 1/3 epoch (loss 1.1140):  22%|██▏       | 2160/9753 [23:01<1:24:30,  1.50it/s]Training 1/3 epoch (loss 1.1140):  22%|██▏       | 2161/9753 [23:01<1:20:49,  1.57it/s]Training 1/3 epoch (loss 0.9438):  22%|██▏       | 2161/9753 [23:01<1:20:49,  1.57it/s]Training 1/3 epoch (loss 0.9438):  22%|██▏       | 2162/9753 [23:01<1:18:18,  1.62it/s]Training 1/3 epoch (loss 1.0480):  22%|██▏       | 2162/9753 [23:02<1:18:18,  1.62it/s]Training 1/3 epoch (loss 1.0480):  22%|██▏       | 2163/9753 [23:02<1:17:12,  1.64it/s]Training 1/3 epoch (loss 0.9277):  22%|██▏       | 2163/9753 [23:03<1:17:12,  1.64it/s]Training 1/3 epoch (loss 0.9277):  22%|██▏       | 2164/9753 [23:03<1:21:28,  1.55it/s]Training 1/3 epoch (loss 1.0454):  22%|██▏       | 2164/9753 [23:04<1:21:28,  1.55it/s]Training 1/3 epoch (loss 1.0454):  22%|██▏       | 2165/9753 [23:04<1:32:06,  1.37it/s]Training 1/3 epoch (loss 1.0194):  22%|██▏       | 2165/9753 [23:04<1:32:06,  1.37it/s]Training 1/3 epoch (loss 1.0194):  22%|██▏       | 2166/9753 [23:04<1:25:58,  1.47it/s]Training 1/3 epoch (loss 1.0765):  22%|██▏       | 2166/9753 [23:05<1:25:58,  1.47it/s]Training 1/3 epoch (loss 1.0765):  22%|██▏       | 2167/9753 [23:05<1:22:52,  1.53it/s]Training 1/3 epoch (loss 1.0499):  22%|██▏       | 2167/9753 [23:06<1:22:52,  1.53it/s]Training 1/3 epoch (loss 1.0499):  22%|██▏       | 2168/9753 [23:06<1:28:48,  1.42it/s]Training 1/3 epoch (loss 0.9187):  22%|██▏       | 2168/9753 [23:06<1:28:48,  1.42it/s]Training 1/3 epoch (loss 0.9187):  22%|██▏       | 2169/9753 [23:06<1:28:13,  1.43it/s]Training 1/3 epoch (loss 1.0646):  22%|██▏       | 2169/9753 [23:07<1:28:13,  1.43it/s]Training 1/3 epoch (loss 1.0646):  22%|██▏       | 2170/9753 [23:07<1:25:47,  1.47it/s]Training 1/3 epoch (loss 1.1762):  22%|██▏       | 2170/9753 [23:08<1:25:47,  1.47it/s]Training 1/3 epoch (loss 1.1762):  22%|██▏       | 2171/9753 [23:08<1:21:44,  1.55it/s]Training 1/3 epoch (loss 0.9777):  22%|██▏       | 2171/9753 [23:08<1:21:44,  1.55it/s]Training 1/3 epoch (loss 0.9777):  22%|██▏       | 2172/9753 [23:08<1:19:03,  1.60it/s]Training 1/3 epoch (loss 1.1029):  22%|██▏       | 2172/9753 [23:09<1:19:03,  1.60it/s]Training 1/3 epoch (loss 1.1029):  22%|██▏       | 2173/9753 [23:09<1:17:02,  1.64it/s]Training 1/3 epoch (loss 1.1378):  22%|██▏       | 2173/9753 [23:09<1:17:02,  1.64it/s]Training 1/3 epoch (loss 1.1378):  22%|██▏       | 2174/9753 [23:09<1:22:46,  1.53it/s]Training 1/3 epoch (loss 1.2217):  22%|██▏       | 2174/9753 [23:10<1:22:46,  1.53it/s]Training 1/3 epoch (loss 1.2217):  22%|██▏       | 2175/9753 [23:10<1:24:33,  1.49it/s]Training 1/3 epoch (loss 1.3712):  22%|██▏       | 2175/9753 [23:11<1:24:33,  1.49it/s]Training 1/3 epoch (loss 1.3712):  22%|██▏       | 2176/9753 [23:11<1:27:05,  1.45it/s]Training 1/3 epoch (loss 1.1080):  22%|██▏       | 2176/9753 [23:11<1:27:05,  1.45it/s]Training 1/3 epoch (loss 1.1080):  22%|██▏       | 2177/9753 [23:11<1:22:57,  1.52it/s]Training 1/3 epoch (loss 0.9673):  22%|██▏       | 2177/9753 [23:12<1:22:57,  1.52it/s]Training 1/3 epoch (loss 0.9673):  22%|██▏       | 2178/9753 [23:12<1:25:24,  1.48it/s]Training 1/3 epoch (loss 1.1647):  22%|██▏       | 2178/9753 [23:13<1:25:24,  1.48it/s]Training 1/3 epoch (loss 1.1647):  22%|██▏       | 2179/9753 [23:13<1:21:45,  1.54it/s]Training 1/3 epoch (loss 1.0818):  22%|██▏       | 2179/9753 [23:13<1:21:45,  1.54it/s]Training 1/3 epoch (loss 1.0818):  22%|██▏       | 2180/9753 [23:13<1:20:40,  1.56it/s]Training 1/3 epoch (loss 1.0595):  22%|██▏       | 2180/9753 [23:14<1:20:40,  1.56it/s]Training 1/3 epoch (loss 1.0595):  22%|██▏       | 2181/9753 [23:14<1:19:44,  1.58it/s]Training 1/3 epoch (loss 1.2638):  22%|██▏       | 2181/9753 [23:15<1:19:44,  1.58it/s]Training 1/3 epoch (loss 1.2638):  22%|██▏       | 2182/9753 [23:15<1:18:06,  1.62it/s]Training 1/3 epoch (loss 0.9618):  22%|██▏       | 2182/9753 [23:15<1:18:06,  1.62it/s]Training 1/3 epoch (loss 0.9618):  22%|██▏       | 2183/9753 [23:15<1:16:29,  1.65it/s]Training 1/3 epoch (loss 1.1783):  22%|██▏       | 2183/9753 [23:16<1:16:29,  1.65it/s]Training 1/3 epoch (loss 1.1783):  22%|██▏       | 2184/9753 [23:16<1:17:32,  1.63it/s]Training 1/3 epoch (loss 1.2879):  22%|██▏       | 2184/9753 [23:17<1:17:32,  1.63it/s]Training 1/3 epoch (loss 1.2879):  22%|██▏       | 2185/9753 [23:17<1:21:19,  1.55it/s]Training 1/3 epoch (loss 0.7643):  22%|██▏       | 2185/9753 [23:17<1:21:19,  1.55it/s]Training 1/3 epoch (loss 0.7643):  22%|██▏       | 2186/9753 [23:17<1:32:13,  1.37it/s]Training 1/3 epoch (loss 1.0924):  22%|██▏       | 2186/9753 [23:18<1:32:13,  1.37it/s]Training 1/3 epoch (loss 1.0924):  22%|██▏       | 2187/9753 [23:18<1:34:12,  1.34it/s]Training 1/3 epoch (loss 1.0646):  22%|██▏       | 2187/9753 [23:19<1:34:12,  1.34it/s]Training 1/3 epoch (loss 1.0646):  22%|██▏       | 2188/9753 [23:19<1:27:29,  1.44it/s]Training 1/3 epoch (loss 1.1618):  22%|██▏       | 2188/9753 [23:19<1:27:29,  1.44it/s]Training 1/3 epoch (loss 1.1618):  22%|██▏       | 2189/9753 [23:19<1:25:55,  1.47it/s]Training 1/3 epoch (loss 1.0016):  22%|██▏       | 2189/9753 [23:20<1:25:55,  1.47it/s]Training 1/3 epoch (loss 1.0016):  22%|██▏       | 2190/9753 [23:20<1:21:56,  1.54it/s]Training 1/3 epoch (loss 1.3737):  22%|██▏       | 2190/9753 [23:21<1:21:56,  1.54it/s]Training 1/3 epoch (loss 1.3737):  22%|██▏       | 2191/9753 [23:21<1:31:19,  1.38it/s]Training 1/3 epoch (loss 0.9471):  22%|██▏       | 2191/9753 [23:22<1:31:19,  1.38it/s]Training 1/3 epoch (loss 0.9471):  22%|██▏       | 2192/9753 [23:22<1:35:15,  1.32it/s]Training 1/3 epoch (loss 1.0864):  22%|██▏       | 2192/9753 [23:22<1:35:15,  1.32it/s]Training 1/3 epoch (loss 1.0864):  22%|██▏       | 2193/9753 [23:22<1:30:31,  1.39it/s]Training 1/3 epoch (loss 1.0603):  22%|██▏       | 2193/9753 [23:23<1:30:31,  1.39it/s]Training 1/3 epoch (loss 1.0603):  22%|██▏       | 2194/9753 [23:23<1:25:13,  1.48it/s]Training 1/3 epoch (loss 0.8517):  22%|██▏       | 2194/9753 [23:24<1:25:13,  1.48it/s]Training 1/3 epoch (loss 0.8517):  23%|██▎       | 2195/9753 [23:24<1:20:37,  1.56it/s]Training 1/3 epoch (loss 1.2829):  23%|██▎       | 2195/9753 [23:24<1:20:37,  1.56it/s]Training 1/3 epoch (loss 1.2829):  23%|██▎       | 2196/9753 [23:24<1:19:07,  1.59it/s]Training 1/3 epoch (loss 0.9104):  23%|██▎       | 2196/9753 [23:25<1:19:07,  1.59it/s]Training 1/3 epoch (loss 0.9104):  23%|██▎       | 2197/9753 [23:25<1:16:35,  1.64it/s]Training 1/3 epoch (loss 1.2628):  23%|██▎       | 2197/9753 [23:26<1:16:35,  1.64it/s]Training 1/3 epoch (loss 1.2628):  23%|██▎       | 2198/9753 [23:26<1:26:07,  1.46it/s]Training 1/3 epoch (loss 1.0668):  23%|██▎       | 2198/9753 [23:26<1:26:07,  1.46it/s]Training 1/3 epoch (loss 1.0668):  23%|██▎       | 2199/9753 [23:26<1:22:00,  1.54it/s]Training 1/3 epoch (loss 0.9207):  23%|██▎       | 2199/9753 [23:27<1:22:00,  1.54it/s]Training 1/3 epoch (loss 0.9207):  23%|██▎       | 2200/9753 [23:27<1:18:16,  1.61it/s]Training 1/3 epoch (loss 1.0251):  23%|██▎       | 2200/9753 [23:27<1:18:16,  1.61it/s]Training 1/3 epoch (loss 1.0251):  23%|██▎       | 2201/9753 [23:27<1:15:46,  1.66it/s]Training 1/3 epoch (loss 0.9890):  23%|██▎       | 2201/9753 [23:28<1:15:46,  1.66it/s]Training 1/3 epoch (loss 0.9890):  23%|██▎       | 2202/9753 [23:28<1:21:25,  1.55it/s]Training 1/3 epoch (loss 1.1285):  23%|██▎       | 2202/9753 [23:29<1:21:25,  1.55it/s]Training 1/3 epoch (loss 1.1285):  23%|██▎       | 2203/9753 [23:29<1:18:53,  1.60it/s]Training 1/3 epoch (loss 1.0323):  23%|██▎       | 2203/9753 [23:29<1:18:53,  1.60it/s]Training 1/3 epoch (loss 1.0323):  23%|██▎       | 2204/9753 [23:29<1:16:00,  1.66it/s]Training 1/3 epoch (loss 0.9740):  23%|██▎       | 2204/9753 [23:30<1:16:00,  1.66it/s]Training 1/3 epoch (loss 0.9740):  23%|██▎       | 2205/9753 [23:30<1:17:41,  1.62it/s]Training 1/3 epoch (loss 1.0143):  23%|██▎       | 2205/9753 [23:30<1:17:41,  1.62it/s]Training 1/3 epoch (loss 1.0143):  23%|██▎       | 2206/9753 [23:30<1:15:45,  1.66it/s]Training 1/3 epoch (loss 0.7967):  23%|██▎       | 2206/9753 [23:31<1:15:45,  1.66it/s]Training 1/3 epoch (loss 0.7967):  23%|██▎       | 2207/9753 [23:31<1:19:34,  1.58it/s]Training 1/3 epoch (loss 1.1545):  23%|██▎       | 2207/9753 [23:32<1:19:34,  1.58it/s]Training 1/3 epoch (loss 1.1545):  23%|██▎       | 2208/9753 [23:32<1:22:10,  1.53it/s]Training 1/3 epoch (loss 1.0415):  23%|██▎       | 2208/9753 [23:32<1:22:10,  1.53it/s]Training 1/3 epoch (loss 1.0415):  23%|██▎       | 2209/9753 [23:32<1:18:23,  1.60it/s]Training 1/3 epoch (loss 0.9391):  23%|██▎       | 2209/9753 [23:33<1:18:23,  1.60it/s]Training 1/3 epoch (loss 0.9391):  23%|██▎       | 2210/9753 [23:33<1:15:39,  1.66it/s]Training 1/3 epoch (loss 1.1798):  23%|██▎       | 2210/9753 [23:34<1:15:39,  1.66it/s]Training 1/3 epoch (loss 1.1798):  23%|██▎       | 2211/9753 [23:34<1:21:45,  1.54it/s]Training 1/3 epoch (loss 1.2204):  23%|██▎       | 2211/9753 [23:34<1:21:45,  1.54it/s]Training 1/3 epoch (loss 1.2204):  23%|██▎       | 2212/9753 [23:34<1:18:51,  1.59it/s]Training 1/3 epoch (loss 1.0850):  23%|██▎       | 2212/9753 [23:35<1:18:51,  1.59it/s]Training 1/3 epoch (loss 1.0850):  23%|██▎       | 2213/9753 [23:35<1:17:08,  1.63it/s]Training 1/3 epoch (loss 1.0230):  23%|██▎       | 2213/9753 [23:35<1:17:08,  1.63it/s]Training 1/3 epoch (loss 1.0230):  23%|██▎       | 2214/9753 [23:35<1:14:59,  1.68it/s]Training 1/3 epoch (loss 1.0223):  23%|██▎       | 2214/9753 [23:36<1:14:59,  1.68it/s]Training 1/3 epoch (loss 1.0223):  23%|██▎       | 2215/9753 [23:36<1:16:34,  1.64it/s]Training 1/3 epoch (loss 1.1832):  23%|██▎       | 2215/9753 [23:37<1:16:34,  1.64it/s]Training 1/3 epoch (loss 1.1832):  23%|██▎       | 2216/9753 [23:37<1:16:22,  1.64it/s]Training 1/3 epoch (loss 1.0905):  23%|██▎       | 2216/9753 [23:37<1:16:22,  1.64it/s]Training 1/3 epoch (loss 1.0905):  23%|██▎       | 2217/9753 [23:37<1:21:18,  1.54it/s]Training 1/3 epoch (loss 1.2436):  23%|██▎       | 2217/9753 [23:38<1:21:18,  1.54it/s]Training 1/3 epoch (loss 1.2436):  23%|██▎       | 2218/9753 [23:38<1:23:37,  1.50it/s]Training 1/3 epoch (loss 1.0659):  23%|██▎       | 2218/9753 [23:39<1:23:37,  1.50it/s]Training 1/3 epoch (loss 1.0659):  23%|██▎       | 2219/9753 [23:39<1:22:34,  1.52it/s]Training 1/3 epoch (loss 1.1062):  23%|██▎       | 2219/9753 [23:40<1:22:34,  1.52it/s]Training 1/3 epoch (loss 1.1062):  23%|██▎       | 2220/9753 [23:40<1:32:01,  1.36it/s]Training 1/3 epoch (loss 1.1967):  23%|██▎       | 2220/9753 [23:41<1:32:01,  1.36it/s]Training 1/3 epoch (loss 1.1967):  23%|██▎       | 2221/9753 [23:41<1:39:18,  1.26it/s]Training 1/3 epoch (loss 1.2015):  23%|██▎       | 2221/9753 [23:41<1:39:18,  1.26it/s]Training 1/3 epoch (loss 1.2015):  23%|██▎       | 2222/9753 [23:41<1:30:38,  1.38it/s]Training 1/3 epoch (loss 1.0436):  23%|██▎       | 2222/9753 [23:42<1:30:38,  1.38it/s]Training 1/3 epoch (loss 1.0436):  23%|██▎       | 2223/9753 [23:42<1:29:08,  1.41it/s]Training 1/3 epoch (loss 1.0584):  23%|██▎       | 2223/9753 [23:42<1:29:08,  1.41it/s]Training 1/3 epoch (loss 1.0584):  23%|██▎       | 2224/9753 [23:42<1:28:46,  1.41it/s]Training 1/3 epoch (loss 1.0432):  23%|██▎       | 2224/9753 [23:43<1:28:46,  1.41it/s]Training 1/3 epoch (loss 1.0432):  23%|██▎       | 2225/9753 [23:43<1:34:49,  1.32it/s]Training 1/3 epoch (loss 1.2463):  23%|██▎       | 2225/9753 [23:44<1:34:49,  1.32it/s]Training 1/3 epoch (loss 1.2463):  23%|██▎       | 2226/9753 [23:44<1:27:36,  1.43it/s]Training 1/3 epoch (loss 0.9860):  23%|██▎       | 2226/9753 [23:45<1:27:36,  1.43it/s]Training 1/3 epoch (loss 0.9860):  23%|██▎       | 2227/9753 [23:45<1:35:21,  1.32it/s]Training 1/3 epoch (loss 1.0534):  23%|██▎       | 2227/9753 [23:46<1:35:21,  1.32it/s]Training 1/3 epoch (loss 1.0534):  23%|██▎       | 2228/9753 [23:46<1:41:00,  1.24it/s]Training 1/3 epoch (loss 0.7946):  23%|██▎       | 2228/9753 [23:47<1:41:00,  1.24it/s]Training 1/3 epoch (loss 0.7946):  23%|██▎       | 2229/9753 [23:47<1:42:59,  1.22it/s]Training 1/3 epoch (loss 1.4437):  23%|██▎       | 2229/9753 [23:47<1:42:59,  1.22it/s]Training 1/3 epoch (loss 1.4437):  23%|██▎       | 2230/9753 [23:47<1:36:16,  1.30it/s]Training 1/3 epoch (loss 0.9554):  23%|██▎       | 2230/9753 [23:48<1:36:16,  1.30it/s]Training 1/3 epoch (loss 0.9554):  23%|██▎       | 2231/9753 [23:48<1:34:06,  1.33it/s]Training 1/3 epoch (loss 1.0945):  23%|██▎       | 2231/9753 [23:49<1:34:06,  1.33it/s]Training 1/3 epoch (loss 1.0945):  23%|██▎       | 2232/9753 [23:49<1:32:56,  1.35it/s]Training 1/3 epoch (loss 1.1125):  23%|██▎       | 2232/9753 [23:49<1:32:56,  1.35it/s]Training 1/3 epoch (loss 1.1125):  23%|██▎       | 2233/9753 [23:49<1:34:31,  1.33it/s]Training 1/3 epoch (loss 1.3075):  23%|██▎       | 2233/9753 [23:50<1:34:31,  1.33it/s]Training 1/3 epoch (loss 1.3075):  23%|██▎       | 2234/9753 [23:50<1:36:42,  1.30it/s]Training 1/3 epoch (loss 1.1282):  23%|██▎       | 2234/9753 [23:51<1:36:42,  1.30it/s]Training 1/3 epoch (loss 1.1282):  23%|██▎       | 2235/9753 [23:51<1:35:43,  1.31it/s]Training 1/3 epoch (loss 0.9733):  23%|██▎       | 2235/9753 [23:52<1:35:43,  1.31it/s]Training 1/3 epoch (loss 0.9733):  23%|██▎       | 2236/9753 [23:52<1:33:45,  1.34it/s]Training 1/3 epoch (loss 1.0583):  23%|██▎       | 2236/9753 [23:52<1:33:45,  1.34it/s]Training 1/3 epoch (loss 1.0583):  23%|██▎       | 2237/9753 [23:52<1:26:41,  1.45it/s]Training 1/3 epoch (loss 1.1498):  23%|██▎       | 2237/9753 [23:53<1:26:41,  1.45it/s]Training 1/3 epoch (loss 1.1498):  23%|██▎       | 2238/9753 [23:53<1:24:17,  1.49it/s]Training 1/3 epoch (loss 0.9082):  23%|██▎       | 2238/9753 [23:53<1:24:17,  1.49it/s]Training 1/3 epoch (loss 0.9082):  23%|██▎       | 2239/9753 [23:53<1:20:04,  1.56it/s]Training 1/3 epoch (loss 1.2091):  23%|██▎       | 2239/9753 [23:54<1:20:04,  1.56it/s]Training 1/3 epoch (loss 1.2091):  23%|██▎       | 2240/9753 [23:54<1:22:55,  1.51it/s]Training 1/3 epoch (loss 0.9254):  23%|██▎       | 2240/9753 [23:55<1:22:55,  1.51it/s]Training 1/3 epoch (loss 0.9254):  23%|██▎       | 2241/9753 [23:55<1:19:50,  1.57it/s]Training 1/3 epoch (loss 1.1130):  23%|██▎       | 2241/9753 [23:55<1:19:50,  1.57it/s]Training 1/3 epoch (loss 1.1130):  23%|██▎       | 2242/9753 [23:55<1:17:18,  1.62it/s]Training 1/3 epoch (loss 1.0490):  23%|██▎       | 2242/9753 [23:56<1:17:18,  1.62it/s]Training 1/3 epoch (loss 1.0490):  23%|██▎       | 2243/9753 [23:56<1:15:20,  1.66it/s]Training 1/3 epoch (loss 1.0743):  23%|██▎       | 2243/9753 [23:57<1:15:20,  1.66it/s]Training 1/3 epoch (loss 1.0743):  23%|██▎       | 2244/9753 [23:57<1:21:36,  1.53it/s]Training 1/3 epoch (loss 1.1292):  23%|██▎       | 2244/9753 [23:57<1:21:36,  1.53it/s]Training 1/3 epoch (loss 1.1292):  23%|██▎       | 2245/9753 [23:57<1:19:05,  1.58it/s]Training 1/3 epoch (loss 0.9595):  23%|██▎       | 2245/9753 [23:58<1:19:05,  1.58it/s]Training 1/3 epoch (loss 0.9595):  23%|██▎       | 2246/9753 [23:58<1:16:47,  1.63it/s]Training 1/3 epoch (loss 0.8537):  23%|██▎       | 2246/9753 [23:58<1:16:47,  1.63it/s]Training 1/3 epoch (loss 0.8537):  23%|██▎       | 2247/9753 [23:58<1:18:20,  1.60it/s]Training 1/3 epoch (loss 1.0729):  23%|██▎       | 2247/9753 [23:59<1:18:20,  1.60it/s]Training 1/3 epoch (loss 1.0729):  23%|██▎       | 2248/9753 [23:59<1:15:49,  1.65it/s]Training 1/3 epoch (loss 0.9915):  23%|██▎       | 2248/9753 [24:00<1:15:49,  1.65it/s]Training 1/3 epoch (loss 0.9915):  23%|██▎       | 2249/9753 [24:00<1:14:10,  1.69it/s]Training 1/3 epoch (loss 0.8903):  23%|██▎       | 2249/9753 [24:00<1:14:10,  1.69it/s]Training 1/3 epoch (loss 0.8903):  23%|██▎       | 2250/9753 [24:00<1:12:37,  1.72it/s]Training 1/3 epoch (loss 1.2167):  23%|██▎       | 2250/9753 [24:01<1:12:37,  1.72it/s]Training 1/3 epoch (loss 1.2167):  23%|██▎       | 2251/9753 [24:01<1:11:38,  1.75it/s]Training 1/3 epoch (loss 1.2244):  23%|██▎       | 2251/9753 [24:01<1:11:38,  1.75it/s]Training 1/3 epoch (loss 1.2244):  23%|██▎       | 2252/9753 [24:01<1:14:30,  1.68it/s]Training 1/3 epoch (loss 0.8638):  23%|██▎       | 2252/9753 [24:02<1:14:30,  1.68it/s]Training 1/3 epoch (loss 0.8638):  23%|██▎       | 2253/9753 [24:02<1:23:42,  1.49it/s]Training 1/3 epoch (loss 1.2483):  23%|██▎       | 2253/9753 [24:03<1:23:42,  1.49it/s]Training 1/3 epoch (loss 1.2483):  23%|██▎       | 2254/9753 [24:03<1:19:26,  1.57it/s]Training 1/3 epoch (loss 1.2040):  23%|██▎       | 2254/9753 [24:03<1:19:26,  1.57it/s]Training 1/3 epoch (loss 1.2040):  23%|██▎       | 2255/9753 [24:03<1:19:54,  1.56it/s]Training 1/3 epoch (loss 1.1432):  23%|██▎       | 2255/9753 [24:04<1:19:54,  1.56it/s]Training 1/3 epoch (loss 1.1432):  23%|██▎       | 2256/9753 [24:04<1:23:09,  1.50it/s]Training 1/3 epoch (loss 0.8473):  23%|██▎       | 2256/9753 [24:05<1:23:09,  1.50it/s]Training 1/3 epoch (loss 0.8473):  23%|██▎       | 2257/9753 [24:05<1:19:58,  1.56it/s]Training 1/3 epoch (loss 1.0170):  23%|██▎       | 2257/9753 [24:05<1:19:58,  1.56it/s]Training 1/3 epoch (loss 1.0170):  23%|██▎       | 2258/9753 [24:05<1:23:43,  1.49it/s]Training 1/3 epoch (loss 1.0446):  23%|██▎       | 2258/9753 [24:06<1:23:43,  1.49it/s]Training 1/3 epoch (loss 1.0446):  23%|██▎       | 2259/9753 [24:06<1:19:54,  1.56it/s]Training 1/3 epoch (loss 0.9292):  23%|██▎       | 2259/9753 [24:07<1:19:54,  1.56it/s]Training 1/3 epoch (loss 0.9292):  23%|██▎       | 2260/9753 [24:07<1:21:42,  1.53it/s]Training 1/3 epoch (loss 1.0425):  23%|██▎       | 2260/9753 [24:07<1:21:42,  1.53it/s]Training 1/3 epoch (loss 1.0425):  23%|██▎       | 2261/9753 [24:07<1:18:23,  1.59it/s]Training 1/3 epoch (loss 1.2354):  23%|██▎       | 2261/9753 [24:08<1:18:23,  1.59it/s]Training 1/3 epoch (loss 1.2354):  23%|██▎       | 2262/9753 [24:08<1:24:47,  1.47it/s]Training 1/3 epoch (loss 0.9509):  23%|██▎       | 2262/9753 [24:09<1:24:47,  1.47it/s]Training 1/3 epoch (loss 0.9509):  23%|██▎       | 2263/9753 [24:09<1:20:57,  1.54it/s]Training 1/3 epoch (loss 1.1523):  23%|██▎       | 2263/9753 [24:09<1:20:57,  1.54it/s]Training 1/3 epoch (loss 1.1523):  23%|██▎       | 2264/9753 [24:09<1:16:54,  1.62it/s]Training 1/3 epoch (loss 1.0876):  23%|██▎       | 2264/9753 [24:10<1:16:54,  1.62it/s]Training 1/3 epoch (loss 1.0876):  23%|██▎       | 2265/9753 [24:10<1:15:36,  1.65it/s]Training 1/3 epoch (loss 1.1140):  23%|██▎       | 2265/9753 [24:10<1:15:36,  1.65it/s]Training 1/3 epoch (loss 1.1140):  23%|██▎       | 2266/9753 [24:10<1:13:20,  1.70it/s]Training 1/3 epoch (loss 1.0932):  23%|██▎       | 2266/9753 [24:11<1:13:20,  1.70it/s]Training 1/3 epoch (loss 1.0932):  23%|██▎       | 2267/9753 [24:11<1:25:00,  1.47it/s]Training 1/3 epoch (loss 0.9074):  23%|██▎       | 2267/9753 [24:12<1:25:00,  1.47it/s]Training 1/3 epoch (loss 0.9074):  23%|██▎       | 2268/9753 [24:12<1:20:38,  1.55it/s]Training 1/3 epoch (loss 0.9670):  23%|██▎       | 2268/9753 [24:12<1:20:38,  1.55it/s]Training 1/3 epoch (loss 0.9670):  23%|██▎       | 2269/9753 [24:12<1:18:28,  1.59it/s]Training 1/3 epoch (loss 1.0950):  23%|██▎       | 2269/9753 [24:13<1:18:28,  1.59it/s]Training 1/3 epoch (loss 1.0950):  23%|██▎       | 2270/9753 [24:13<1:23:25,  1.49it/s]Training 1/3 epoch (loss 1.3809):  23%|██▎       | 2270/9753 [24:14<1:23:25,  1.49it/s]Training 1/3 epoch (loss 1.3809):  23%|██▎       | 2271/9753 [24:14<1:19:15,  1.57it/s]Training 1/3 epoch (loss 1.1964):  23%|██▎       | 2271/9753 [24:14<1:19:15,  1.57it/s]Training 1/3 epoch (loss 1.1964):  23%|██▎       | 2272/9753 [24:14<1:20:57,  1.54it/s]Training 1/3 epoch (loss 0.8840):  23%|██▎       | 2272/9753 [24:15<1:20:57,  1.54it/s]Training 1/3 epoch (loss 0.8840):  23%|██▎       | 2273/9753 [24:15<1:20:10,  1.55it/s]Training 1/3 epoch (loss 0.9963):  23%|██▎       | 2273/9753 [24:16<1:20:10,  1.55it/s]Training 1/3 epoch (loss 0.9963):  23%|██▎       | 2274/9753 [24:16<1:18:12,  1.59it/s]Training 1/3 epoch (loss 0.8232):  23%|██▎       | 2274/9753 [24:16<1:18:12,  1.59it/s]Training 1/3 epoch (loss 0.8232):  23%|██▎       | 2275/9753 [24:16<1:18:20,  1.59it/s]Training 1/3 epoch (loss 1.1144):  23%|██▎       | 2275/9753 [24:17<1:18:20,  1.59it/s]Training 1/3 epoch (loss 1.1144):  23%|██▎       | 2276/9753 [24:17<1:15:37,  1.65it/s]Training 1/3 epoch (loss 1.1223):  23%|██▎       | 2276/9753 [24:17<1:15:37,  1.65it/s]Training 1/3 epoch (loss 1.1223):  23%|██▎       | 2277/9753 [24:17<1:13:27,  1.70it/s]Training 1/3 epoch (loss 1.1585):  23%|██▎       | 2277/9753 [24:18<1:13:27,  1.70it/s]Training 1/3 epoch (loss 1.1585):  23%|██▎       | 2278/9753 [24:18<1:15:22,  1.65it/s]Training 1/3 epoch (loss 0.9215):  23%|██▎       | 2278/9753 [24:19<1:15:22,  1.65it/s]Training 1/3 epoch (loss 0.9215):  23%|██▎       | 2279/9753 [24:19<1:13:53,  1.69it/s]Training 1/3 epoch (loss 1.2502):  23%|██▎       | 2279/9753 [24:19<1:13:53,  1.69it/s]Training 1/3 epoch (loss 1.2502):  23%|██▎       | 2280/9753 [24:19<1:14:33,  1.67it/s]Training 1/3 epoch (loss 1.0434):  23%|██▎       | 2280/9753 [24:20<1:14:33,  1.67it/s]Training 1/3 epoch (loss 1.0434):  23%|██▎       | 2281/9753 [24:20<1:23:41,  1.49it/s]Training 1/3 epoch (loss 1.2079):  23%|██▎       | 2281/9753 [24:21<1:23:41,  1.49it/s]Training 1/3 epoch (loss 1.2079):  23%|██▎       | 2282/9753 [24:21<1:19:20,  1.57it/s]Training 1/3 epoch (loss 1.0509):  23%|██▎       | 2282/9753 [24:21<1:19:20,  1.57it/s]Training 1/3 epoch (loss 1.0509):  23%|██▎       | 2283/9753 [24:21<1:18:24,  1.59it/s]Training 1/3 epoch (loss 1.0717):  23%|██▎       | 2283/9753 [24:22<1:18:24,  1.59it/s]Training 1/3 epoch (loss 1.0717):  23%|██▎       | 2284/9753 [24:22<1:21:58,  1.52it/s]Training 1/3 epoch (loss 1.0848):  23%|██▎       | 2284/9753 [24:23<1:21:58,  1.52it/s]Training 1/3 epoch (loss 1.0848):  23%|██▎       | 2285/9753 [24:23<1:23:02,  1.50it/s]Training 1/3 epoch (loss 1.0419):  23%|██▎       | 2285/9753 [24:23<1:23:02,  1.50it/s]Training 1/3 epoch (loss 1.0419):  23%|██▎       | 2286/9753 [24:23<1:18:59,  1.58it/s]Training 1/3 epoch (loss 0.9010):  23%|██▎       | 2286/9753 [24:24<1:18:59,  1.58it/s]Training 1/3 epoch (loss 0.9010):  23%|██▎       | 2287/9753 [24:24<1:15:35,  1.65it/s]Training 1/3 epoch (loss 1.1432):  23%|██▎       | 2287/9753 [24:24<1:15:35,  1.65it/s]Training 1/3 epoch (loss 1.1432):  23%|██▎       | 2288/9753 [24:24<1:19:15,  1.57it/s]Training 1/3 epoch (loss 0.8500):  23%|██▎       | 2288/9753 [24:25<1:19:15,  1.57it/s]Training 1/3 epoch (loss 0.8500):  23%|██▎       | 2289/9753 [24:25<1:16:03,  1.64it/s]Training 1/3 epoch (loss 1.2305):  23%|██▎       | 2289/9753 [24:26<1:16:03,  1.64it/s]Training 1/3 epoch (loss 1.2305):  23%|██▎       | 2290/9753 [24:26<1:16:02,  1.64it/s]Training 1/3 epoch (loss 1.0205):  23%|██▎       | 2290/9753 [24:26<1:16:02,  1.64it/s]Training 1/3 epoch (loss 1.0205):  23%|██▎       | 2291/9753 [24:26<1:16:37,  1.62it/s]Training 1/3 epoch (loss 1.3185):  23%|██▎       | 2291/9753 [24:27<1:16:37,  1.62it/s]Training 1/3 epoch (loss 1.3185):  24%|██▎       | 2292/9753 [24:27<1:18:07,  1.59it/s]Training 1/3 epoch (loss 0.8942):  24%|██▎       | 2292/9753 [24:27<1:18:07,  1.59it/s]Training 1/3 epoch (loss 0.8942):  24%|██▎       | 2293/9753 [24:27<1:15:35,  1.64it/s]Training 1/3 epoch (loss 0.9704):  24%|██▎       | 2293/9753 [24:28<1:15:35,  1.64it/s]Training 1/3 epoch (loss 0.9704):  24%|██▎       | 2294/9753 [24:28<1:13:19,  1.70it/s]Training 1/3 epoch (loss 0.8483):  24%|██▎       | 2294/9753 [24:29<1:13:19,  1.70it/s]Training 1/3 epoch (loss 0.8483):  24%|██▎       | 2295/9753 [24:29<1:23:53,  1.48it/s]Training 1/3 epoch (loss 1.0643):  24%|██▎       | 2295/9753 [24:29<1:23:53,  1.48it/s]Training 1/3 epoch (loss 1.0643):  24%|██▎       | 2296/9753 [24:29<1:24:50,  1.47it/s]Training 1/3 epoch (loss 1.0661):  24%|██▎       | 2296/9753 [24:30<1:24:50,  1.47it/s]Training 1/3 epoch (loss 1.0661):  24%|██▎       | 2297/9753 [24:30<1:22:39,  1.50it/s]Training 1/3 epoch (loss 1.0406):  24%|██▎       | 2297/9753 [24:31<1:22:39,  1.50it/s]Training 1/3 epoch (loss 1.0406):  24%|██▎       | 2298/9753 [24:31<1:18:26,  1.58it/s]Training 1/3 epoch (loss 0.9945):  24%|██▎       | 2298/9753 [24:32<1:18:26,  1.58it/s]Training 1/3 epoch (loss 0.9945):  24%|██▎       | 2299/9753 [24:32<1:26:01,  1.44it/s]Training 1/3 epoch (loss 0.9659):  24%|██▎       | 2299/9753 [24:32<1:26:01,  1.44it/s]Training 1/3 epoch (loss 0.9659):  24%|██▎       | 2300/9753 [24:32<1:22:07,  1.51it/s]Training 1/3 epoch (loss 1.1787):  24%|██▎       | 2300/9753 [24:33<1:22:07,  1.51it/s]Training 1/3 epoch (loss 1.1787):  24%|██▎       | 2301/9753 [24:33<1:18:03,  1.59it/s]Training 1/3 epoch (loss 1.0234):  24%|██▎       | 2301/9753 [24:33<1:18:03,  1.59it/s]Training 1/3 epoch (loss 1.0234):  24%|██▎       | 2302/9753 [24:33<1:17:18,  1.61it/s]Training 1/3 epoch (loss 0.9355):  24%|██▎       | 2302/9753 [24:34<1:17:18,  1.61it/s]Training 1/3 epoch (loss 0.9355):  24%|██▎       | 2303/9753 [24:34<1:16:02,  1.63it/s]Training 1/3 epoch (loss 0.9636):  24%|██▎       | 2303/9753 [24:35<1:16:02,  1.63it/s]Training 1/3 epoch (loss 0.9636):  24%|██▎       | 2304/9753 [24:35<1:18:20,  1.58it/s]Training 1/3 epoch (loss 0.9849):  24%|██▎       | 2304/9753 [24:35<1:18:20,  1.58it/s]Training 1/3 epoch (loss 0.9849):  24%|██▎       | 2305/9753 [24:35<1:15:33,  1.64it/s]Training 1/3 epoch (loss 1.1600):  24%|██▎       | 2305/9753 [24:36<1:15:33,  1.64it/s]Training 1/3 epoch (loss 1.1600):  24%|██▎       | 2306/9753 [24:36<1:18:25,  1.58it/s]Training 1/3 epoch (loss 0.8772):  24%|██▎       | 2306/9753 [24:37<1:18:25,  1.58it/s]Training 1/3 epoch (loss 0.8772):  24%|██▎       | 2307/9753 [24:37<1:25:14,  1.46it/s]Training 1/3 epoch (loss 0.9040):  24%|██▎       | 2307/9753 [24:37<1:25:14,  1.46it/s]Training 1/3 epoch (loss 0.9040):  24%|██▎       | 2308/9753 [24:37<1:21:34,  1.52it/s]Training 1/3 epoch (loss 1.0754):  24%|██▎       | 2308/9753 [24:38<1:21:34,  1.52it/s]Training 1/3 epoch (loss 1.0754):  24%|██▎       | 2309/9753 [24:38<1:27:45,  1.41it/s]Training 1/3 epoch (loss 1.0660):  24%|██▎       | 2309/9753 [24:39<1:27:45,  1.41it/s]Training 1/3 epoch (loss 1.0660):  24%|██▎       | 2310/9753 [24:39<1:21:57,  1.51it/s]Training 1/3 epoch (loss 1.2164):  24%|██▎       | 2310/9753 [24:39<1:21:57,  1.51it/s]Training 1/3 epoch (loss 1.2164):  24%|██▎       | 2311/9753 [24:39<1:18:15,  1.58it/s]Training 1/3 epoch (loss 0.8700):  24%|██▎       | 2311/9753 [24:40<1:18:15,  1.58it/s]Training 1/3 epoch (loss 0.8700):  24%|██▎       | 2312/9753 [24:40<1:15:30,  1.64it/s]Training 1/3 epoch (loss 0.9723):  24%|██▎       | 2312/9753 [24:40<1:15:30,  1.64it/s]Training 1/3 epoch (loss 0.9723):  24%|██▎       | 2313/9753 [24:40<1:13:18,  1.69it/s]Training 1/3 epoch (loss 1.1242):  24%|██▎       | 2313/9753 [24:41<1:13:18,  1.69it/s]Training 1/3 epoch (loss 1.1242):  24%|██▎       | 2314/9753 [24:41<1:18:45,  1.57it/s]Training 1/3 epoch (loss 1.0219):  24%|██▎       | 2314/9753 [24:41<1:18:45,  1.57it/s]Training 1/3 epoch (loss 1.0219):  24%|██▎       | 2315/9753 [24:41<1:15:42,  1.64it/s]Training 1/3 epoch (loss 1.2971):  24%|██▎       | 2315/9753 [24:42<1:15:42,  1.64it/s]Training 1/3 epoch (loss 1.2971):  24%|██▎       | 2316/9753 [24:42<1:17:01,  1.61it/s]Training 1/3 epoch (loss 0.8319):  24%|██▎       | 2316/9753 [24:43<1:17:01,  1.61it/s]Training 1/3 epoch (loss 0.8319):  24%|██▍       | 2317/9753 [24:43<1:17:19,  1.60it/s]Training 1/3 epoch (loss 1.1729):  24%|██▍       | 2317/9753 [24:43<1:17:19,  1.60it/s]Training 1/3 epoch (loss 1.1729):  24%|██▍       | 2318/9753 [24:43<1:20:58,  1.53it/s]Training 1/3 epoch (loss 1.1726):  24%|██▍       | 2318/9753 [24:44<1:20:58,  1.53it/s]Training 1/3 epoch (loss 1.1726):  24%|██▍       | 2319/9753 [24:44<1:31:34,  1.35it/s]Training 1/3 epoch (loss 1.2453):  24%|██▍       | 2319/9753 [24:45<1:31:34,  1.35it/s]Training 1/3 epoch (loss 1.2453):  24%|██▍       | 2320/9753 [24:45<1:29:12,  1.39it/s]Training 1/3 epoch (loss 1.0830):  24%|██▍       | 2320/9753 [24:46<1:29:12,  1.39it/s]Training 1/3 epoch (loss 1.0830):  24%|██▍       | 2321/9753 [24:46<1:23:10,  1.49it/s]Training 1/3 epoch (loss 1.0521):  24%|██▍       | 2321/9753 [24:46<1:23:10,  1.49it/s]Training 1/3 epoch (loss 1.0521):  24%|██▍       | 2322/9753 [24:46<1:18:28,  1.58it/s]Training 1/3 epoch (loss 1.2627):  24%|██▍       | 2322/9753 [24:47<1:18:28,  1.58it/s]Training 1/3 epoch (loss 1.2627):  24%|██▍       | 2323/9753 [24:47<1:15:59,  1.63it/s]Training 1/3 epoch (loss 1.1430):  24%|██▍       | 2323/9753 [24:47<1:15:59,  1.63it/s]Training 1/3 epoch (loss 1.1430):  24%|██▍       | 2324/9753 [24:47<1:17:04,  1.61it/s]Training 1/3 epoch (loss 1.1924):  24%|██▍       | 2324/9753 [24:48<1:17:04,  1.61it/s]Training 1/3 epoch (loss 1.1924):  24%|██▍       | 2325/9753 [24:48<1:15:44,  1.63it/s]Training 1/3 epoch (loss 0.7906):  24%|██▍       | 2325/9753 [24:49<1:15:44,  1.63it/s]Training 1/3 epoch (loss 0.7906):  24%|██▍       | 2326/9753 [24:49<1:17:36,  1.60it/s]Training 1/3 epoch (loss 1.0587):  24%|██▍       | 2326/9753 [24:49<1:17:36,  1.60it/s]Training 1/3 epoch (loss 1.0587):  24%|██▍       | 2327/9753 [24:49<1:19:07,  1.56it/s]Training 1/3 epoch (loss 1.1857):  24%|██▍       | 2327/9753 [24:50<1:19:07,  1.56it/s]Training 1/3 epoch (loss 1.1857):  24%|██▍       | 2328/9753 [24:50<1:15:43,  1.63it/s]Training 1/3 epoch (loss 0.9677):  24%|██▍       | 2328/9753 [24:50<1:15:43,  1.63it/s]Training 1/3 epoch (loss 0.9677):  24%|██▍       | 2329/9753 [24:50<1:13:08,  1.69it/s]Training 1/3 epoch (loss 1.0502):  24%|██▍       | 2329/9753 [24:51<1:13:08,  1.69it/s]Training 1/3 epoch (loss 1.0502):  24%|██▍       | 2330/9753 [24:51<1:12:24,  1.71it/s]Training 1/3 epoch (loss 1.1289):  24%|██▍       | 2330/9753 [24:52<1:12:24,  1.71it/s]Training 1/3 epoch (loss 1.1289):  24%|██▍       | 2331/9753 [24:52<1:10:48,  1.75it/s]Training 1/3 epoch (loss 1.2263):  24%|██▍       | 2331/9753 [24:52<1:10:48,  1.75it/s]Training 1/3 epoch (loss 1.2263):  24%|██▍       | 2332/9753 [24:52<1:11:54,  1.72it/s]Training 1/3 epoch (loss 0.8281):  24%|██▍       | 2332/9753 [24:53<1:11:54,  1.72it/s]Training 1/3 epoch (loss 0.8281):  24%|██▍       | 2333/9753 [24:53<1:13:21,  1.69it/s]Training 1/3 epoch (loss 1.1087):  24%|██▍       | 2333/9753 [24:53<1:13:21,  1.69it/s]Training 1/3 epoch (loss 1.1087):  24%|██▍       | 2334/9753 [24:53<1:12:37,  1.70it/s]Training 1/3 epoch (loss 1.2013):  24%|██▍       | 2334/9753 [24:54<1:12:37,  1.70it/s]Training 1/3 epoch (loss 1.2013):  24%|██▍       | 2335/9753 [24:54<1:18:09,  1.58it/s]Training 1/3 epoch (loss 1.3437):  24%|██▍       | 2335/9753 [24:55<1:18:09,  1.58it/s]Training 1/3 epoch (loss 1.3437):  24%|██▍       | 2336/9753 [24:55<1:25:34,  1.44it/s]Training 1/3 epoch (loss 0.8519):  24%|██▍       | 2336/9753 [24:56<1:25:34,  1.44it/s]Training 1/3 epoch (loss 0.8519):  24%|██▍       | 2337/9753 [24:56<1:22:04,  1.51it/s]Training 1/3 epoch (loss 1.1634):  24%|██▍       | 2337/9753 [24:56<1:22:04,  1.51it/s]Training 1/3 epoch (loss 1.1634):  24%|██▍       | 2338/9753 [24:56<1:18:26,  1.58it/s]Training 1/3 epoch (loss 1.1404):  24%|██▍       | 2338/9753 [24:57<1:18:26,  1.58it/s]Training 1/3 epoch (loss 1.1404):  24%|██▍       | 2339/9753 [24:57<1:15:52,  1.63it/s]Training 1/3 epoch (loss 0.9609):  24%|██▍       | 2339/9753 [24:57<1:15:52,  1.63it/s]Training 1/3 epoch (loss 0.9609):  24%|██▍       | 2340/9753 [24:57<1:14:17,  1.66it/s]Training 1/3 epoch (loss 1.3131):  24%|██▍       | 2340/9753 [24:58<1:14:17,  1.66it/s]Training 1/3 epoch (loss 1.3131):  24%|██▍       | 2341/9753 [24:58<1:16:22,  1.62it/s]Training 1/3 epoch (loss 1.2292):  24%|██▍       | 2341/9753 [24:58<1:16:22,  1.62it/s]Training 1/3 epoch (loss 1.2292):  24%|██▍       | 2342/9753 [24:58<1:14:51,  1.65it/s]Training 1/3 epoch (loss 1.0049):  24%|██▍       | 2342/9753 [24:59<1:14:51,  1.65it/s]Training 1/3 epoch (loss 1.0049):  24%|██▍       | 2343/9753 [24:59<1:15:30,  1.64it/s]Training 1/3 epoch (loss 1.1446):  24%|██▍       | 2343/9753 [25:00<1:15:30,  1.64it/s]Training 1/3 epoch (loss 1.1446):  24%|██▍       | 2344/9753 [25:00<1:14:45,  1.65it/s]Training 1/3 epoch (loss 1.0926):  24%|██▍       | 2344/9753 [25:00<1:14:45,  1.65it/s]Training 1/3 epoch (loss 1.0926):  24%|██▍       | 2345/9753 [25:00<1:21:25,  1.52it/s]Training 1/3 epoch (loss 1.2361):  24%|██▍       | 2345/9753 [25:01<1:21:25,  1.52it/s]Training 1/3 epoch (loss 1.2361):  24%|██▍       | 2346/9753 [25:01<1:20:01,  1.54it/s]Training 1/3 epoch (loss 1.2143):  24%|██▍       | 2346/9753 [25:02<1:20:01,  1.54it/s]Training 1/3 epoch (loss 1.2143):  24%|██▍       | 2347/9753 [25:02<1:17:38,  1.59it/s]Training 1/3 epoch (loss 1.1981):  24%|██▍       | 2347/9753 [25:02<1:17:38,  1.59it/s]Training 1/3 epoch (loss 1.1981):  24%|██▍       | 2348/9753 [25:02<1:14:47,  1.65it/s]Training 1/3 epoch (loss 1.0401):  24%|██▍       | 2348/9753 [25:03<1:14:47,  1.65it/s]Training 1/3 epoch (loss 1.0401):  24%|██▍       | 2349/9753 [25:03<1:14:56,  1.65it/s]Training 1/3 epoch (loss 1.1414):  24%|██▍       | 2349/9753 [25:03<1:14:56,  1.65it/s]Training 1/3 epoch (loss 1.1414):  24%|██▍       | 2350/9753 [25:03<1:16:25,  1.61it/s]Training 1/3 epoch (loss 1.0610):  24%|██▍       | 2350/9753 [25:04<1:16:25,  1.61it/s]Training 1/3 epoch (loss 1.0610):  24%|██▍       | 2351/9753 [25:04<1:16:53,  1.60it/s]Training 1/3 epoch (loss 1.0807):  24%|██▍       | 2351/9753 [25:05<1:16:53,  1.60it/s]Training 1/3 epoch (loss 1.0807):  24%|██▍       | 2352/9753 [25:05<1:19:51,  1.54it/s]Training 1/3 epoch (loss 1.1803):  24%|██▍       | 2352/9753 [25:05<1:19:51,  1.54it/s]Training 1/3 epoch (loss 1.1803):  24%|██▍       | 2353/9753 [25:05<1:20:33,  1.53it/s]Training 1/3 epoch (loss 1.1074):  24%|██▍       | 2353/9753 [25:06<1:20:33,  1.53it/s]Training 1/3 epoch (loss 1.1074):  24%|██▍       | 2354/9753 [25:06<1:20:31,  1.53it/s]Training 1/3 epoch (loss 1.0826):  24%|██▍       | 2354/9753 [25:07<1:20:31,  1.53it/s]Training 1/3 epoch (loss 1.0826):  24%|██▍       | 2355/9753 [25:07<1:17:43,  1.59it/s]Training 1/3 epoch (loss 1.0696):  24%|██▍       | 2355/9753 [25:07<1:17:43,  1.59it/s]Training 1/3 epoch (loss 1.0696):  24%|██▍       | 2356/9753 [25:07<1:16:35,  1.61it/s]Training 1/3 epoch (loss 0.8207):  24%|██▍       | 2356/9753 [25:08<1:16:35,  1.61it/s]Training 1/3 epoch (loss 0.8207):  24%|██▍       | 2357/9753 [25:08<1:14:15,  1.66it/s]Training 1/3 epoch (loss 1.2600):  24%|██▍       | 2357/9753 [25:08<1:14:15,  1.66it/s]Training 1/3 epoch (loss 1.2600):  24%|██▍       | 2358/9753 [25:08<1:12:37,  1.70it/s]Training 1/3 epoch (loss 1.1593):  24%|██▍       | 2358/9753 [25:09<1:12:37,  1.70it/s]Training 1/3 epoch (loss 1.1593):  24%|██▍       | 2359/9753 [25:09<1:13:54,  1.67it/s]Training 1/3 epoch (loss 1.0316):  24%|██▍       | 2359/9753 [25:10<1:13:54,  1.67it/s]Training 1/3 epoch (loss 1.0316):  24%|██▍       | 2360/9753 [25:10<1:12:50,  1.69it/s]Training 1/3 epoch (loss 1.2324):  24%|██▍       | 2360/9753 [25:10<1:12:50,  1.69it/s]Training 1/3 epoch (loss 1.2324):  24%|██▍       | 2361/9753 [25:10<1:14:53,  1.65it/s]Training 1/3 epoch (loss 1.1808):  24%|██▍       | 2361/9753 [25:11<1:14:53,  1.65it/s]Training 1/3 epoch (loss 1.1808):  24%|██▍       | 2362/9753 [25:11<1:13:16,  1.68it/s]Training 1/3 epoch (loss 1.0524):  24%|██▍       | 2362/9753 [25:12<1:13:16,  1.68it/s]Training 1/3 epoch (loss 1.0524):  24%|██▍       | 2363/9753 [25:12<1:23:44,  1.47it/s]Training 1/3 epoch (loss 1.0954):  24%|██▍       | 2363/9753 [25:12<1:23:44,  1.47it/s]Training 1/3 epoch (loss 1.0954):  24%|██▍       | 2364/9753 [25:12<1:19:49,  1.54it/s]Training 1/3 epoch (loss 1.2035):  24%|██▍       | 2364/9753 [25:13<1:19:49,  1.54it/s]Training 1/3 epoch (loss 1.2035):  24%|██▍       | 2365/9753 [25:13<1:17:51,  1.58it/s]Training 1/3 epoch (loss 1.1031):  24%|██▍       | 2365/9753 [25:13<1:17:51,  1.58it/s]Training 1/3 epoch (loss 1.1031):  24%|██▍       | 2366/9753 [25:13<1:15:35,  1.63it/s]Training 1/3 epoch (loss 0.9876):  24%|██▍       | 2366/9753 [25:14<1:15:35,  1.63it/s]Training 1/3 epoch (loss 0.9876):  24%|██▍       | 2367/9753 [25:14<1:16:56,  1.60it/s]Training 1/3 epoch (loss 1.1676):  24%|██▍       | 2367/9753 [25:15<1:16:56,  1.60it/s]Training 1/3 epoch (loss 1.1676):  24%|██▍       | 2368/9753 [25:15<1:19:59,  1.54it/s]Training 1/3 epoch (loss 1.0768):  24%|██▍       | 2368/9753 [25:15<1:19:59,  1.54it/s]Training 1/3 epoch (loss 1.0768):  24%|██▍       | 2369/9753 [25:15<1:17:10,  1.59it/s]Training 1/3 epoch (loss 1.2027):  24%|██▍       | 2369/9753 [25:16<1:17:10,  1.59it/s]Training 1/3 epoch (loss 1.2027):  24%|██▍       | 2370/9753 [25:16<1:15:24,  1.63it/s]Training 1/3 epoch (loss 1.0985):  24%|██▍       | 2370/9753 [25:16<1:15:24,  1.63it/s]Training 1/3 epoch (loss 1.0985):  24%|██▍       | 2371/9753 [25:16<1:12:54,  1.69it/s]Training 1/3 epoch (loss 1.1023):  24%|██▍       | 2371/9753 [25:17<1:12:54,  1.69it/s]Training 1/3 epoch (loss 1.1023):  24%|██▍       | 2372/9753 [25:17<1:17:09,  1.59it/s]Training 1/3 epoch (loss 1.1588):  24%|██▍       | 2372/9753 [25:18<1:17:09,  1.59it/s]Training 1/3 epoch (loss 1.1588):  24%|██▍       | 2373/9753 [25:18<1:16:45,  1.60it/s]Training 1/3 epoch (loss 1.1513):  24%|██▍       | 2373/9753 [25:18<1:16:45,  1.60it/s]Training 1/3 epoch (loss 1.1513):  24%|██▍       | 2374/9753 [25:18<1:13:47,  1.67it/s]Training 1/3 epoch (loss 1.2398):  24%|██▍       | 2374/9753 [25:19<1:13:47,  1.67it/s]Training 1/3 epoch (loss 1.2398):  24%|██▍       | 2375/9753 [25:19<1:13:48,  1.67it/s]Training 1/3 epoch (loss 0.9116):  24%|██▍       | 2375/9753 [25:20<1:13:48,  1.67it/s]Training 1/3 epoch (loss 0.9116):  24%|██▍       | 2376/9753 [25:20<1:23:35,  1.47it/s]Training 1/3 epoch (loss 0.9337):  24%|██▍       | 2376/9753 [25:20<1:23:35,  1.47it/s]Training 1/3 epoch (loss 0.9337):  24%|██▍       | 2377/9753 [25:20<1:19:38,  1.54it/s]Training 1/3 epoch (loss 0.8295):  24%|██▍       | 2377/9753 [25:21<1:19:38,  1.54it/s]Training 1/3 epoch (loss 0.8295):  24%|██▍       | 2378/9753 [25:21<1:15:53,  1.62it/s]Training 1/3 epoch (loss 1.1202):  24%|██▍       | 2378/9753 [25:22<1:15:53,  1.62it/s]Training 1/3 epoch (loss 1.1202):  24%|██▍       | 2379/9753 [25:22<1:13:16,  1.68it/s]Training 1/3 epoch (loss 1.0064):  24%|██▍       | 2379/9753 [25:22<1:13:16,  1.68it/s]Training 1/3 epoch (loss 1.0064):  24%|██▍       | 2380/9753 [25:22<1:11:17,  1.72it/s]Training 1/3 epoch (loss 1.0666):  24%|██▍       | 2380/9753 [25:23<1:11:17,  1.72it/s]Training 1/3 epoch (loss 1.0666):  24%|██▍       | 2381/9753 [25:23<1:11:15,  1.72it/s]Training 1/3 epoch (loss 1.0841):  24%|██▍       | 2381/9753 [25:23<1:11:15,  1.72it/s]Training 1/3 epoch (loss 1.0841):  24%|██▍       | 2382/9753 [25:23<1:10:47,  1.74it/s]Training 1/3 epoch (loss 0.8341):  24%|██▍       | 2382/9753 [25:24<1:10:47,  1.74it/s]Training 1/3 epoch (loss 0.8341):  24%|██▍       | 2383/9753 [25:24<1:16:19,  1.61it/s]Training 1/3 epoch (loss 1.0348):  24%|██▍       | 2383/9753 [25:25<1:16:19,  1.61it/s]Training 1/3 epoch (loss 1.0348):  24%|██▍       | 2384/9753 [25:25<1:19:47,  1.54it/s]Training 1/3 epoch (loss 1.2012):  24%|██▍       | 2384/9753 [25:25<1:19:47,  1.54it/s]Training 1/3 epoch (loss 1.2012):  24%|██▍       | 2385/9753 [25:25<1:16:23,  1.61it/s]Training 1/3 epoch (loss 1.1838):  24%|██▍       | 2385/9753 [25:26<1:16:23,  1.61it/s]Training 1/3 epoch (loss 1.1838):  24%|██▍       | 2386/9753 [25:26<1:19:25,  1.55it/s]Training 1/3 epoch (loss 1.1986):  24%|██▍       | 2386/9753 [25:27<1:19:25,  1.55it/s]Training 1/3 epoch (loss 1.1986):  24%|██▍       | 2387/9753 [25:27<1:17:58,  1.57it/s]Training 1/3 epoch (loss 1.0165):  24%|██▍       | 2387/9753 [25:27<1:17:58,  1.57it/s]Training 1/3 epoch (loss 1.0165):  24%|██▍       | 2388/9753 [25:27<1:28:36,  1.39it/s]Training 1/3 epoch (loss 0.9196):  24%|██▍       | 2388/9753 [25:28<1:28:36,  1.39it/s]Training 1/3 epoch (loss 0.9196):  24%|██▍       | 2389/9753 [25:28<1:34:54,  1.29it/s]Training 1/3 epoch (loss 0.9885):  24%|██▍       | 2389/9753 [25:29<1:34:54,  1.29it/s]Training 1/3 epoch (loss 0.9885):  25%|██▍       | 2390/9753 [25:29<1:27:55,  1.40it/s]Training 1/3 epoch (loss 0.8940):  25%|██▍       | 2390/9753 [25:30<1:27:55,  1.40it/s]Training 1/3 epoch (loss 0.8940):  25%|██▍       | 2391/9753 [25:30<1:24:53,  1.45it/s]Training 1/3 epoch (loss 0.9998):  25%|██▍       | 2391/9753 [25:30<1:24:53,  1.45it/s]Training 1/3 epoch (loss 0.9998):  25%|██▍       | 2392/9753 [25:30<1:19:56,  1.53it/s]Training 1/3 epoch (loss 1.2491):  25%|██▍       | 2392/9753 [25:31<1:19:56,  1.53it/s]Training 1/3 epoch (loss 1.2491):  25%|██▍       | 2393/9753 [25:31<1:16:51,  1.60it/s]Training 1/3 epoch (loss 1.2175):  25%|██▍       | 2393/9753 [25:31<1:16:51,  1.60it/s]Training 1/3 epoch (loss 1.2175):  25%|██▍       | 2394/9753 [25:31<1:15:05,  1.63it/s]Training 1/3 epoch (loss 1.2054):  25%|██▍       | 2394/9753 [25:32<1:15:05,  1.63it/s]Training 1/3 epoch (loss 1.2054):  25%|██▍       | 2395/9753 [25:32<1:13:04,  1.68it/s]Training 1/3 epoch (loss 1.2891):  25%|██▍       | 2395/9753 [25:32<1:13:04,  1.68it/s]Training 1/3 epoch (loss 1.2891):  25%|██▍       | 2396/9753 [25:32<1:11:36,  1.71it/s]Training 1/3 epoch (loss 1.0508):  25%|██▍       | 2396/9753 [25:33<1:11:36,  1.71it/s]Training 1/3 epoch (loss 1.0508):  25%|██▍       | 2397/9753 [25:33<1:10:16,  1.74it/s]Training 1/3 epoch (loss 1.2820):  25%|██▍       | 2397/9753 [25:33<1:10:16,  1.74it/s]Training 1/3 epoch (loss 1.2820):  25%|██▍       | 2398/9753 [25:33<1:09:22,  1.77it/s]Training 1/3 epoch (loss 0.9989):  25%|██▍       | 2398/9753 [25:34<1:09:22,  1.77it/s]Training 1/3 epoch (loss 0.9989):  25%|██▍       | 2399/9753 [25:34<1:11:06,  1.72it/s]Training 1/3 epoch (loss 1.0644):  25%|██▍       | 2399/9753 [25:35<1:11:06,  1.72it/s]Training 1/3 epoch (loss 1.0644):  25%|██▍       | 2400/9753 [25:35<1:15:16,  1.63it/s]Training 1/3 epoch (loss 0.9962):  25%|██▍       | 2400/9753 [25:35<1:15:16,  1.63it/s]Training 1/3 epoch (loss 0.9962):  25%|██▍       | 2401/9753 [25:35<1:13:22,  1.67it/s]Training 1/3 epoch (loss 1.2988):  25%|██▍       | 2401/9753 [25:36<1:13:22,  1.67it/s]Training 1/3 epoch (loss 1.2988):  25%|██▍       | 2402/9753 [25:36<1:12:08,  1.70it/s]Training 1/3 epoch (loss 1.0795):  25%|██▍       | 2402/9753 [25:37<1:12:08,  1.70it/s]Training 1/3 epoch (loss 1.0795):  25%|██▍       | 2403/9753 [25:37<1:13:41,  1.66it/s]Training 1/3 epoch (loss 1.0791):  25%|██▍       | 2403/9753 [25:37<1:13:41,  1.66it/s]Training 1/3 epoch (loss 1.0791):  25%|██▍       | 2404/9753 [25:37<1:18:41,  1.56it/s]Training 1/3 epoch (loss 1.1927):  25%|██▍       | 2404/9753 [25:38<1:18:41,  1.56it/s]Training 1/3 epoch (loss 1.1927):  25%|██▍       | 2405/9753 [25:38<1:17:32,  1.58it/s]Training 1/3 epoch (loss 0.8246):  25%|██▍       | 2405/9753 [25:38<1:17:32,  1.58it/s]Training 1/3 epoch (loss 0.8246):  25%|██▍       | 2406/9753 [25:38<1:17:06,  1.59it/s]Training 1/3 epoch (loss 1.1335):  25%|██▍       | 2406/9753 [25:39<1:17:06,  1.59it/s]Training 1/3 epoch (loss 1.1335):  25%|██▍       | 2407/9753 [25:39<1:18:57,  1.55it/s]Training 1/3 epoch (loss 1.0236):  25%|██▍       | 2407/9753 [25:40<1:18:57,  1.55it/s]Training 1/3 epoch (loss 1.0236):  25%|██▍       | 2408/9753 [25:40<1:18:45,  1.55it/s]Training 1/3 epoch (loss 1.0396):  25%|██▍       | 2408/9753 [25:40<1:18:45,  1.55it/s]Training 1/3 epoch (loss 1.0396):  25%|██▍       | 2409/9753 [25:40<1:19:41,  1.54it/s]Training 1/3 epoch (loss 1.1267):  25%|██▍       | 2409/9753 [25:41<1:19:41,  1.54it/s]Training 1/3 epoch (loss 1.1267):  25%|██▍       | 2410/9753 [25:41<1:20:41,  1.52it/s]Training 1/3 epoch (loss 1.0420):  25%|██▍       | 2410/9753 [25:42<1:20:41,  1.52it/s]Training 1/3 epoch (loss 1.0420):  25%|██▍       | 2411/9753 [25:42<1:22:04,  1.49it/s]Training 1/3 epoch (loss 1.3386):  25%|██▍       | 2411/9753 [25:43<1:22:04,  1.49it/s]Training 1/3 epoch (loss 1.3386):  25%|██▍       | 2412/9753 [25:43<1:21:27,  1.50it/s]Training 1/3 epoch (loss 1.2139):  25%|██▍       | 2412/9753 [25:43<1:21:27,  1.50it/s]Training 1/3 epoch (loss 1.2139):  25%|██▍       | 2413/9753 [25:43<1:24:50,  1.44it/s]Training 1/3 epoch (loss 0.9226):  25%|██▍       | 2413/9753 [25:44<1:24:50,  1.44it/s]Training 1/3 epoch (loss 0.9226):  25%|██▍       | 2414/9753 [25:44<1:22:28,  1.48it/s]Training 1/3 epoch (loss 1.1266):  25%|██▍       | 2414/9753 [25:44<1:22:28,  1.48it/s]Training 1/3 epoch (loss 1.1266):  25%|██▍       | 2415/9753 [25:44<1:19:27,  1.54it/s]Training 1/3 epoch (loss 1.1254):  25%|██▍       | 2415/9753 [25:45<1:19:27,  1.54it/s]Training 1/3 epoch (loss 1.1254):  25%|██▍       | 2416/9753 [25:45<1:23:25,  1.47it/s]Training 1/3 epoch (loss 1.1361):  25%|██▍       | 2416/9753 [25:46<1:23:25,  1.47it/s]Training 1/3 epoch (loss 1.1361):  25%|██▍       | 2417/9753 [25:46<1:25:59,  1.42it/s]Training 1/3 epoch (loss 1.0288):  25%|██▍       | 2417/9753 [25:47<1:25:59,  1.42it/s]Training 1/3 epoch (loss 1.0288):  25%|██▍       | 2418/9753 [25:47<1:22:36,  1.48it/s]Training 1/3 epoch (loss 1.0848):  25%|██▍       | 2418/9753 [25:47<1:22:36,  1.48it/s]Training 1/3 epoch (loss 1.0848):  25%|██▍       | 2419/9753 [25:47<1:18:56,  1.55it/s]Training 1/3 epoch (loss 1.0010):  25%|██▍       | 2419/9753 [25:48<1:18:56,  1.55it/s]Training 1/3 epoch (loss 1.0010):  25%|██▍       | 2420/9753 [25:48<1:17:06,  1.59it/s]Training 1/3 epoch (loss 0.9739):  25%|██▍       | 2420/9753 [25:48<1:17:06,  1.59it/s]Training 1/3 epoch (loss 0.9739):  25%|██▍       | 2421/9753 [25:48<1:15:02,  1.63it/s]Training 1/3 epoch (loss 1.1318):  25%|██▍       | 2421/9753 [25:49<1:15:02,  1.63it/s]Training 1/3 epoch (loss 1.1318):  25%|██▍       | 2422/9753 [25:49<1:12:59,  1.67it/s]Training 1/3 epoch (loss 0.8268):  25%|██▍       | 2422/9753 [25:50<1:12:59,  1.67it/s]Training 1/3 epoch (loss 0.8268):  25%|██▍       | 2423/9753 [25:50<1:18:02,  1.57it/s]Training 1/3 epoch (loss 0.9757):  25%|██▍       | 2423/9753 [25:50<1:18:02,  1.57it/s]Training 1/3 epoch (loss 0.9757):  25%|██▍       | 2424/9753 [25:50<1:15:38,  1.61it/s]Training 1/3 epoch (loss 1.0191):  25%|██▍       | 2424/9753 [25:51<1:15:38,  1.61it/s]Training 1/3 epoch (loss 1.0191):  25%|██▍       | 2425/9753 [25:51<1:20:49,  1.51it/s]Training 1/3 epoch (loss 1.1507):  25%|██▍       | 2425/9753 [25:52<1:20:49,  1.51it/s]Training 1/3 epoch (loss 1.1507):  25%|██▍       | 2426/9753 [25:52<1:30:56,  1.34it/s]Training 1/3 epoch (loss 0.9953):  25%|██▍       | 2426/9753 [25:53<1:30:56,  1.34it/s]Training 1/3 epoch (loss 0.9953):  25%|██▍       | 2427/9753 [25:53<1:28:55,  1.37it/s]Training 1/3 epoch (loss 1.2206):  25%|██▍       | 2427/9753 [25:53<1:28:55,  1.37it/s]Training 1/3 epoch (loss 1.2206):  25%|██▍       | 2428/9753 [25:53<1:23:14,  1.47it/s]Training 1/3 epoch (loss 1.0357):  25%|██▍       | 2428/9753 [25:54<1:23:14,  1.47it/s]Training 1/3 epoch (loss 1.0357):  25%|██▍       | 2429/9753 [25:54<1:19:34,  1.53it/s]Training 1/3 epoch (loss 1.2359):  25%|██▍       | 2429/9753 [25:54<1:19:34,  1.53it/s]Training 1/3 epoch (loss 1.2359):  25%|██▍       | 2430/9753 [25:54<1:20:09,  1.52it/s]Training 1/3 epoch (loss 1.0962):  25%|██▍       | 2430/9753 [25:55<1:20:09,  1.52it/s]Training 1/3 epoch (loss 1.0962):  25%|██▍       | 2431/9753 [25:55<1:18:27,  1.56it/s]Training 1/3 epoch (loss 1.0430):  25%|██▍       | 2431/9753 [25:56<1:18:27,  1.56it/s]Training 1/3 epoch (loss 1.0430):  25%|██▍       | 2432/9753 [25:56<1:23:13,  1.47it/s]Training 1/3 epoch (loss 1.0969):  25%|██▍       | 2432/9753 [25:57<1:23:13,  1.47it/s]Training 1/3 epoch (loss 1.0969):  25%|██▍       | 2433/9753 [25:57<1:28:45,  1.37it/s]Training 1/3 epoch (loss 0.9242):  25%|██▍       | 2433/9753 [25:57<1:28:45,  1.37it/s]Training 1/3 epoch (loss 0.9242):  25%|██▍       | 2434/9753 [25:57<1:22:42,  1.47it/s]Training 1/3 epoch (loss 1.1245):  25%|██▍       | 2434/9753 [25:58<1:22:42,  1.47it/s]Training 1/3 epoch (loss 1.1245):  25%|██▍       | 2435/9753 [25:58<1:19:02,  1.54it/s]Training 1/3 epoch (loss 1.0860):  25%|██▍       | 2435/9753 [25:58<1:19:02,  1.54it/s]Training 1/3 epoch (loss 1.0860):  25%|██▍       | 2436/9753 [25:58<1:17:08,  1.58it/s]Training 1/3 epoch (loss 0.7524):  25%|██▍       | 2436/9753 [25:59<1:17:08,  1.58it/s]Training 1/3 epoch (loss 0.7524):  25%|██▍       | 2437/9753 [25:59<1:17:01,  1.58it/s]Training 1/3 epoch (loss 1.1307):  25%|██▍       | 2437/9753 [26:00<1:17:01,  1.58it/s]Training 1/3 epoch (loss 1.1307):  25%|██▍       | 2438/9753 [26:00<1:15:06,  1.62it/s]Training 1/3 epoch (loss 1.0178):  25%|██▍       | 2438/9753 [26:00<1:15:06,  1.62it/s]Training 1/3 epoch (loss 1.0178):  25%|██▌       | 2439/9753 [26:00<1:16:15,  1.60it/s]Training 1/3 epoch (loss 1.2376):  25%|██▌       | 2439/9753 [26:01<1:16:15,  1.60it/s]Training 1/3 epoch (loss 1.2376):  25%|██▌       | 2440/9753 [26:01<1:17:10,  1.58it/s]Training 1/3 epoch (loss 0.8485):  25%|██▌       | 2440/9753 [26:02<1:17:10,  1.58it/s]Training 1/3 epoch (loss 0.8485):  25%|██▌       | 2441/9753 [26:02<1:17:22,  1.58it/s]Training 1/3 epoch (loss 1.1904):  25%|██▌       | 2441/9753 [26:02<1:17:22,  1.58it/s]Training 1/3 epoch (loss 1.1904):  25%|██▌       | 2442/9753 [26:02<1:17:50,  1.57it/s]Training 1/3 epoch (loss 1.1662):  25%|██▌       | 2442/9753 [26:03<1:17:50,  1.57it/s]Training 1/3 epoch (loss 1.1662):  25%|██▌       | 2443/9753 [26:03<1:17:45,  1.57it/s]Training 1/3 epoch (loss 1.1163):  25%|██▌       | 2443/9753 [26:04<1:17:45,  1.57it/s]Training 1/3 epoch (loss 1.1163):  25%|██▌       | 2444/9753 [26:04<1:19:12,  1.54it/s]Training 1/3 epoch (loss 1.0579):  25%|██▌       | 2444/9753 [26:04<1:19:12,  1.54it/s]Training 1/3 epoch (loss 1.0579):  25%|██▌       | 2445/9753 [26:04<1:20:51,  1.51it/s]Training 1/3 epoch (loss 1.0820):  25%|██▌       | 2445/9753 [26:05<1:20:51,  1.51it/s]Training 1/3 epoch (loss 1.0820):  25%|██▌       | 2446/9753 [26:05<1:19:25,  1.53it/s]Training 1/3 epoch (loss 0.9646):  25%|██▌       | 2446/9753 [26:06<1:19:25,  1.53it/s]Training 1/3 epoch (loss 0.9646):  25%|██▌       | 2447/9753 [26:06<1:23:36,  1.46it/s]Training 1/3 epoch (loss 1.0799):  25%|██▌       | 2447/9753 [26:06<1:23:36,  1.46it/s]Training 1/3 epoch (loss 1.0799):  25%|██▌       | 2448/9753 [26:06<1:26:46,  1.40it/s]Training 1/3 epoch (loss 1.0226):  25%|██▌       | 2448/9753 [26:07<1:26:46,  1.40it/s]Training 1/3 epoch (loss 1.0226):  25%|██▌       | 2449/9753 [26:07<1:32:12,  1.32it/s]Training 1/3 epoch (loss 1.1881):  25%|██▌       | 2449/9753 [26:08<1:32:12,  1.32it/s]Training 1/3 epoch (loss 1.1881):  25%|██▌       | 2450/9753 [26:08<1:27:44,  1.39it/s]Training 1/3 epoch (loss 1.0743):  25%|██▌       | 2450/9753 [26:09<1:27:44,  1.39it/s]Training 1/3 epoch (loss 1.0743):  25%|██▌       | 2451/9753 [26:09<1:24:44,  1.44it/s]Training 1/3 epoch (loss 1.0636):  25%|██▌       | 2451/9753 [26:09<1:24:44,  1.44it/s]Training 1/3 epoch (loss 1.0636):  25%|██▌       | 2452/9753 [26:09<1:34:35,  1.29it/s]Training 1/3 epoch (loss 1.2496):  25%|██▌       | 2452/9753 [26:10<1:34:35,  1.29it/s]Training 1/3 epoch (loss 1.2496):  25%|██▌       | 2453/9753 [26:10<1:31:28,  1.33it/s]Training 1/3 epoch (loss 0.9148):  25%|██▌       | 2453/9753 [26:11<1:31:28,  1.33it/s]Training 1/3 epoch (loss 0.9148):  25%|██▌       | 2454/9753 [26:11<1:28:57,  1.37it/s]Training 1/3 epoch (loss 1.1097):  25%|██▌       | 2454/9753 [26:12<1:28:57,  1.37it/s]Training 1/3 epoch (loss 1.1097):  25%|██▌       | 2455/9753 [26:12<1:26:23,  1.41it/s]Training 1/3 epoch (loss 0.9545):  25%|██▌       | 2455/9753 [26:12<1:26:23,  1.41it/s]Training 1/3 epoch (loss 0.9545):  25%|██▌       | 2456/9753 [26:12<1:21:15,  1.50it/s]Training 1/3 epoch (loss 1.1864):  25%|██▌       | 2456/9753 [26:13<1:21:15,  1.50it/s]Training 1/3 epoch (loss 1.1864):  25%|██▌       | 2457/9753 [26:13<1:16:41,  1.59it/s]Training 1/3 epoch (loss 1.0703):  25%|██▌       | 2457/9753 [26:13<1:16:41,  1.59it/s]Training 1/3 epoch (loss 1.0703):  25%|██▌       | 2458/9753 [26:13<1:13:51,  1.65it/s]Training 1/3 epoch (loss 1.0078):  25%|██▌       | 2458/9753 [26:14<1:13:51,  1.65it/s]Training 1/3 epoch (loss 1.0078):  25%|██▌       | 2459/9753 [26:14<1:15:05,  1.62it/s]Training 1/3 epoch (loss 0.9331):  25%|██▌       | 2459/9753 [26:14<1:15:05,  1.62it/s]Training 1/3 epoch (loss 0.9331):  25%|██▌       | 2460/9753 [26:14<1:14:05,  1.64it/s]Training 1/3 epoch (loss 0.9696):  25%|██▌       | 2460/9753 [26:15<1:14:05,  1.64it/s]Training 1/3 epoch (loss 0.9696):  25%|██▌       | 2461/9753 [26:15<1:12:24,  1.68it/s]Training 1/3 epoch (loss 0.8443):  25%|██▌       | 2461/9753 [26:16<1:12:24,  1.68it/s]Training 1/3 epoch (loss 0.8443):  25%|██▌       | 2462/9753 [26:16<1:10:48,  1.72it/s]Training 1/3 epoch (loss 1.3186):  25%|██▌       | 2462/9753 [26:16<1:10:48,  1.72it/s]Training 1/3 epoch (loss 1.3186):  25%|██▌       | 2463/9753 [26:16<1:09:24,  1.75it/s]Training 1/3 epoch (loss 0.9733):  25%|██▌       | 2463/9753 [26:17<1:09:24,  1.75it/s]Training 1/3 epoch (loss 0.9733):  25%|██▌       | 2464/9753 [26:17<1:13:41,  1.65it/s]Training 1/3 epoch (loss 0.9652):  25%|██▌       | 2464/9753 [26:17<1:13:41,  1.65it/s]Training 1/3 epoch (loss 0.9652):  25%|██▌       | 2465/9753 [26:17<1:11:52,  1.69it/s]Training 1/3 epoch (loss 1.1772):  25%|██▌       | 2465/9753 [26:18<1:11:52,  1.69it/s]Training 1/3 epoch (loss 1.1772):  25%|██▌       | 2466/9753 [26:18<1:12:02,  1.69it/s]Training 1/3 epoch (loss 1.0135):  25%|██▌       | 2466/9753 [26:18<1:12:02,  1.69it/s]Training 1/3 epoch (loss 1.0135):  25%|██▌       | 2467/9753 [26:18<1:10:43,  1.72it/s]Training 1/3 epoch (loss 1.0792):  25%|██▌       | 2467/9753 [26:19<1:10:43,  1.72it/s]Training 1/3 epoch (loss 1.0792):  25%|██▌       | 2468/9753 [26:19<1:10:15,  1.73it/s]Training 1/3 epoch (loss 0.9501):  25%|██▌       | 2468/9753 [26:20<1:10:15,  1.73it/s]Training 1/3 epoch (loss 0.9501):  25%|██▌       | 2469/9753 [26:20<1:12:55,  1.66it/s]Training 1/3 epoch (loss 0.9788):  25%|██▌       | 2469/9753 [26:20<1:12:55,  1.66it/s]Training 1/3 epoch (loss 0.9788):  25%|██▌       | 2470/9753 [26:20<1:11:11,  1.70it/s]Training 1/3 epoch (loss 0.9833):  25%|██▌       | 2470/9753 [26:21<1:11:11,  1.70it/s]Training 1/3 epoch (loss 0.9833):  25%|██▌       | 2471/9753 [26:21<1:09:52,  1.74it/s]Training 1/3 epoch (loss 1.1470):  25%|██▌       | 2471/9753 [26:21<1:09:52,  1.74it/s]Training 1/3 epoch (loss 1.1470):  25%|██▌       | 2472/9753 [26:21<1:12:58,  1.66it/s]Training 1/3 epoch (loss 1.0115):  25%|██▌       | 2472/9753 [26:22<1:12:58,  1.66it/s]Training 1/3 epoch (loss 1.0115):  25%|██▌       | 2473/9753 [26:22<1:21:21,  1.49it/s]Training 1/3 epoch (loss 0.9905):  25%|██▌       | 2473/9753 [26:23<1:21:21,  1.49it/s]Training 1/3 epoch (loss 0.9905):  25%|██▌       | 2474/9753 [26:23<1:19:16,  1.53it/s]Training 1/3 epoch (loss 1.1483):  25%|██▌       | 2474/9753 [26:24<1:19:16,  1.53it/s]Training 1/3 epoch (loss 1.1483):  25%|██▌       | 2475/9753 [26:24<1:21:03,  1.50it/s]Training 1/3 epoch (loss 1.0573):  25%|██▌       | 2475/9753 [26:24<1:21:03,  1.50it/s]Training 1/3 epoch (loss 1.0573):  25%|██▌       | 2476/9753 [26:24<1:19:17,  1.53it/s]Training 1/3 epoch (loss 0.8891):  25%|██▌       | 2476/9753 [26:25<1:19:17,  1.53it/s]Training 1/3 epoch (loss 0.8891):  25%|██▌       | 2477/9753 [26:25<1:18:13,  1.55it/s]Training 1/3 epoch (loss 1.1982):  25%|██▌       | 2477/9753 [26:25<1:18:13,  1.55it/s]Training 1/3 epoch (loss 1.1982):  25%|██▌       | 2478/9753 [26:25<1:17:27,  1.57it/s]Training 1/3 epoch (loss 1.1364):  25%|██▌       | 2478/9753 [26:26<1:17:27,  1.57it/s]Training 1/3 epoch (loss 1.1364):  25%|██▌       | 2479/9753 [26:26<1:14:20,  1.63it/s]Training 1/3 epoch (loss 0.8551):  25%|██▌       | 2479/9753 [26:27<1:14:20,  1.63it/s]Training 1/3 epoch (loss 0.8551):  25%|██▌       | 2480/9753 [26:27<1:16:31,  1.58it/s]Training 1/3 epoch (loss 1.0114):  25%|██▌       | 2480/9753 [26:27<1:16:31,  1.58it/s]Training 1/3 epoch (loss 1.0114):  25%|██▌       | 2481/9753 [26:27<1:15:35,  1.60it/s]Training 1/3 epoch (loss 1.3736):  25%|██▌       | 2481/9753 [26:28<1:15:35,  1.60it/s]Training 1/3 epoch (loss 1.3736):  25%|██▌       | 2482/9753 [26:28<1:16:33,  1.58it/s]Training 1/3 epoch (loss 0.7438):  25%|██▌       | 2482/9753 [26:29<1:16:33,  1.58it/s]Training 1/3 epoch (loss 0.7438):  25%|██▌       | 2483/9753 [26:29<1:14:11,  1.63it/s]Training 1/3 epoch (loss 1.0234):  25%|██▌       | 2483/9753 [26:29<1:14:11,  1.63it/s]Training 1/3 epoch (loss 1.0234):  25%|██▌       | 2484/9753 [26:29<1:11:44,  1.69it/s]Training 1/3 epoch (loss 1.1102):  25%|██▌       | 2484/9753 [26:30<1:11:44,  1.69it/s]Training 1/3 epoch (loss 1.1102):  25%|██▌       | 2485/9753 [26:30<1:10:03,  1.73it/s]Training 1/3 epoch (loss 1.1564):  25%|██▌       | 2485/9753 [26:30<1:10:03,  1.73it/s]Training 1/3 epoch (loss 1.1564):  25%|██▌       | 2486/9753 [26:30<1:10:15,  1.72it/s]Training 1/3 epoch (loss 0.8191):  25%|██▌       | 2486/9753 [26:31<1:10:15,  1.72it/s]Training 1/3 epoch (loss 0.8191):  25%|██▌       | 2487/9753 [26:31<1:10:04,  1.73it/s]Training 1/3 epoch (loss 1.0067):  25%|██▌       | 2487/9753 [26:31<1:10:04,  1.73it/s]Training 1/3 epoch (loss 1.0067):  26%|██▌       | 2488/9753 [26:31<1:08:46,  1.76it/s]Training 1/3 epoch (loss 1.1898):  26%|██▌       | 2488/9753 [26:32<1:08:46,  1.76it/s]Training 1/3 epoch (loss 1.1898):  26%|██▌       | 2489/9753 [26:32<1:08:05,  1.78it/s]Training 1/3 epoch (loss 1.1002):  26%|██▌       | 2489/9753 [26:33<1:08:05,  1.78it/s]Training 1/3 epoch (loss 1.1002):  26%|██▌       | 2490/9753 [26:33<1:10:52,  1.71it/s]Training 1/3 epoch (loss 1.0777):  26%|██▌       | 2490/9753 [26:33<1:10:52,  1.71it/s]Training 1/3 epoch (loss 1.0777):  26%|██▌       | 2491/9753 [26:33<1:10:27,  1.72it/s]Training 1/3 epoch (loss 1.0718):  26%|██▌       | 2491/9753 [26:34<1:10:27,  1.72it/s]Training 1/3 epoch (loss 1.0718):  26%|██▌       | 2492/9753 [26:34<1:09:06,  1.75it/s]Training 1/3 epoch (loss 1.1710):  26%|██▌       | 2492/9753 [26:34<1:09:06,  1.75it/s]Training 1/3 epoch (loss 1.1710):  26%|██▌       | 2493/9753 [26:34<1:11:17,  1.70it/s]Training 1/3 epoch (loss 0.9704):  26%|██▌       | 2493/9753 [26:35<1:11:17,  1.70it/s]Training 1/3 epoch (loss 0.9704):  26%|██▌       | 2494/9753 [26:35<1:10:18,  1.72it/s]Training 1/3 epoch (loss 1.0397):  26%|██▌       | 2494/9753 [26:35<1:10:18,  1.72it/s]Training 1/3 epoch (loss 1.0397):  26%|██▌       | 2495/9753 [26:35<1:09:10,  1.75it/s]Training 1/3 epoch (loss 1.0972):  26%|██▌       | 2495/9753 [26:36<1:09:10,  1.75it/s]Training 1/3 epoch (loss 1.0972):  26%|██▌       | 2496/9753 [26:36<1:15:14,  1.61it/s]Training 1/3 epoch (loss 0.9926):  26%|██▌       | 2496/9753 [26:37<1:15:14,  1.61it/s]Training 1/3 epoch (loss 0.9926):  26%|██▌       | 2497/9753 [26:37<1:16:14,  1.59it/s]Training 1/3 epoch (loss 0.8610):  26%|██▌       | 2497/9753 [26:37<1:16:14,  1.59it/s]Training 1/3 epoch (loss 0.8610):  26%|██▌       | 2498/9753 [26:37<1:13:41,  1.64it/s]Training 1/3 epoch (loss 0.9083):  26%|██▌       | 2498/9753 [26:38<1:13:41,  1.64it/s]Training 1/3 epoch (loss 0.9083):  26%|██▌       | 2499/9753 [26:38<1:12:27,  1.67it/s]Training 1/3 epoch (loss 1.1193):  26%|██▌       | 2499/9753 [26:38<1:12:27,  1.67it/s]Training 1/3 epoch (loss 1.1193):  26%|██▌       | 2500/9753 [26:38<1:10:41,  1.71it/s]Training 1/3 epoch (loss 1.3152):  26%|██▌       | 2500/9753 [26:39<1:10:41,  1.71it/s]Training 1/3 epoch (loss 1.3152):  26%|██▌       | 2501/9753 [26:39<1:22:28,  1.47it/s]Training 1/3 epoch (loss 1.1683):  26%|██▌       | 2501/9753 [26:40<1:22:28,  1.47it/s]Training 1/3 epoch (loss 1.1683):  26%|██▌       | 2502/9753 [26:40<1:18:10,  1.55it/s]Training 1/3 epoch (loss 1.1564):  26%|██▌       | 2502/9753 [26:40<1:18:10,  1.55it/s]Training 1/3 epoch (loss 1.1564):  26%|██▌       | 2503/9753 [26:40<1:15:26,  1.60it/s]Training 1/3 epoch (loss 0.9873):  26%|██▌       | 2503/9753 [26:41<1:15:26,  1.60it/s]Training 1/3 epoch (loss 0.9873):  26%|██▌       | 2504/9753 [26:41<1:13:05,  1.65it/s]Training 1/3 epoch (loss 1.3055):  26%|██▌       | 2504/9753 [26:42<1:13:05,  1.65it/s]Training 1/3 epoch (loss 1.3055):  26%|██▌       | 2505/9753 [26:42<1:23:49,  1.44it/s]Training 1/3 epoch (loss 1.0850):  26%|██▌       | 2505/9753 [26:43<1:23:49,  1.44it/s]Training 1/3 epoch (loss 1.0850):  26%|██▌       | 2506/9753 [26:43<1:19:09,  1.53it/s]Training 1/3 epoch (loss 0.8443):  26%|██▌       | 2506/9753 [26:43<1:19:09,  1.53it/s]Training 1/3 epoch (loss 0.8443):  26%|██▌       | 2507/9753 [26:43<1:17:16,  1.56it/s]Training 1/3 epoch (loss 1.0044):  26%|██▌       | 2507/9753 [26:44<1:17:16,  1.56it/s]Training 1/3 epoch (loss 1.0044):  26%|██▌       | 2508/9753 [26:44<1:14:24,  1.62it/s]Training 1/3 epoch (loss 1.0024):  26%|██▌       | 2508/9753 [26:45<1:14:24,  1.62it/s]Training 1/3 epoch (loss 1.0024):  26%|██▌       | 2509/9753 [26:45<1:23:13,  1.45it/s]Training 1/3 epoch (loss 1.2114):  26%|██▌       | 2509/9753 [26:45<1:23:13,  1.45it/s]Training 1/3 epoch (loss 1.2114):  26%|██▌       | 2510/9753 [26:45<1:18:54,  1.53it/s]Training 1/3 epoch (loss 1.1292):  26%|██▌       | 2510/9753 [26:46<1:18:54,  1.53it/s]Training 1/3 epoch (loss 1.1292):  26%|██▌       | 2511/9753 [26:46<1:26:49,  1.39it/s]Training 1/3 epoch (loss 1.0044):  26%|██▌       | 2511/9753 [26:47<1:26:49,  1.39it/s]Training 1/3 epoch (loss 1.0044):  26%|██▌       | 2512/9753 [26:47<1:25:45,  1.41it/s]Training 1/3 epoch (loss 1.1830):  26%|██▌       | 2512/9753 [26:47<1:25:45,  1.41it/s]Training 1/3 epoch (loss 1.1830):  26%|██▌       | 2513/9753 [26:47<1:20:55,  1.49it/s]Training 1/3 epoch (loss 1.2565):  26%|██▌       | 2513/9753 [26:48<1:20:55,  1.49it/s]Training 1/3 epoch (loss 1.2565):  26%|██▌       | 2514/9753 [26:48<1:16:36,  1.57it/s]Training 1/3 epoch (loss 1.1629):  26%|██▌       | 2514/9753 [26:48<1:16:36,  1.57it/s]Training 1/3 epoch (loss 1.1629):  26%|██▌       | 2515/9753 [26:48<1:17:03,  1.57it/s]Training 1/3 epoch (loss 1.0057):  26%|██▌       | 2515/9753 [26:49<1:17:03,  1.57it/s]Training 1/3 epoch (loss 1.0057):  26%|██▌       | 2516/9753 [26:49<1:14:14,  1.62it/s]Training 1/3 epoch (loss 1.1725):  26%|██▌       | 2516/9753 [26:50<1:14:14,  1.62it/s]Training 1/3 epoch (loss 1.1725):  26%|██▌       | 2517/9753 [26:50<1:12:27,  1.66it/s]Training 1/3 epoch (loss 1.0151):  26%|██▌       | 2517/9753 [26:50<1:12:27,  1.66it/s]Training 1/3 epoch (loss 1.0151):  26%|██▌       | 2518/9753 [26:50<1:17:20,  1.56it/s]Training 1/3 epoch (loss 1.0618):  26%|██▌       | 2518/9753 [26:51<1:17:20,  1.56it/s]Training 1/3 epoch (loss 1.0618):  26%|██▌       | 2519/9753 [26:51<1:15:15,  1.60it/s]Training 1/3 epoch (loss 0.9618):  26%|██▌       | 2519/9753 [26:52<1:15:15,  1.60it/s]Training 1/3 epoch (loss 0.9618):  26%|██▌       | 2520/9753 [26:52<1:18:19,  1.54it/s]Training 1/3 epoch (loss 1.2559):  26%|██▌       | 2520/9753 [26:52<1:18:19,  1.54it/s]Training 1/3 epoch (loss 1.2559):  26%|██▌       | 2521/9753 [26:52<1:15:45,  1.59it/s]Training 1/3 epoch (loss 1.0644):  26%|██▌       | 2521/9753 [26:53<1:15:45,  1.59it/s]Training 1/3 epoch (loss 1.0644):  26%|██▌       | 2522/9753 [26:53<1:12:59,  1.65it/s]Training 1/3 epoch (loss 1.0654):  26%|██▌       | 2522/9753 [26:53<1:12:59,  1.65it/s]Training 1/3 epoch (loss 1.0654):  26%|██▌       | 2523/9753 [26:53<1:15:10,  1.60it/s]Training 1/3 epoch (loss 1.0538):  26%|██▌       | 2523/9753 [26:54<1:15:10,  1.60it/s]Training 1/3 epoch (loss 1.0538):  26%|██▌       | 2524/9753 [26:54<1:13:11,  1.65it/s]Training 1/3 epoch (loss 1.0467):  26%|██▌       | 2524/9753 [26:55<1:13:11,  1.65it/s]Training 1/3 epoch (loss 1.0467):  26%|██▌       | 2525/9753 [26:55<1:16:02,  1.58it/s]Training 1/3 epoch (loss 1.1633):  26%|██▌       | 2525/9753 [26:55<1:16:02,  1.58it/s]Training 1/3 epoch (loss 1.1633):  26%|██▌       | 2526/9753 [26:55<1:13:34,  1.64it/s]Training 1/3 epoch (loss 1.1748):  26%|██▌       | 2526/9753 [26:56<1:13:34,  1.64it/s]Training 1/3 epoch (loss 1.1748):  26%|██▌       | 2527/9753 [26:56<1:14:14,  1.62it/s]Training 1/3 epoch (loss 0.7213):  26%|██▌       | 2527/9753 [26:57<1:14:14,  1.62it/s]Training 1/3 epoch (loss 0.7213):  26%|██▌       | 2528/9753 [26:57<1:22:08,  1.47it/s]Training 1/3 epoch (loss 1.1298):  26%|██▌       | 2528/9753 [26:57<1:22:08,  1.47it/s]Training 1/3 epoch (loss 1.1298):  26%|██▌       | 2529/9753 [26:57<1:17:45,  1.55it/s]Training 1/3 epoch (loss 1.1513):  26%|██▌       | 2529/9753 [26:58<1:17:45,  1.55it/s]Training 1/3 epoch (loss 1.1513):  26%|██▌       | 2530/9753 [26:58<1:15:33,  1.59it/s]Training 1/3 epoch (loss 1.0404):  26%|██▌       | 2530/9753 [26:59<1:15:33,  1.59it/s]Training 1/3 epoch (loss 1.0404):  26%|██▌       | 2531/9753 [26:59<1:16:57,  1.56it/s]Training 1/3 epoch (loss 1.0525):  26%|██▌       | 2531/9753 [26:59<1:16:57,  1.56it/s]Training 1/3 epoch (loss 1.0525):  26%|██▌       | 2532/9753 [26:59<1:17:09,  1.56it/s]Training 1/3 epoch (loss 1.1629):  26%|██▌       | 2532/9753 [27:00<1:17:09,  1.56it/s]Training 1/3 epoch (loss 1.1629):  26%|██▌       | 2533/9753 [27:00<1:14:06,  1.62it/s]Training 1/3 epoch (loss 1.0392):  26%|██▌       | 2533/9753 [27:00<1:14:06,  1.62it/s]Training 1/3 epoch (loss 1.0392):  26%|██▌       | 2534/9753 [27:00<1:17:48,  1.55it/s]Training 1/3 epoch (loss 1.2737):  26%|██▌       | 2534/9753 [27:01<1:17:48,  1.55it/s]Training 1/3 epoch (loss 1.2737):  26%|██▌       | 2535/9753 [27:01<1:27:19,  1.38it/s]Training 1/3 epoch (loss 1.1483):  26%|██▌       | 2535/9753 [27:02<1:27:19,  1.38it/s]Training 1/3 epoch (loss 1.1483):  26%|██▌       | 2536/9753 [27:02<1:21:49,  1.47it/s]Training 1/3 epoch (loss 1.1918):  26%|██▌       | 2536/9753 [27:02<1:21:49,  1.47it/s]Training 1/3 epoch (loss 1.1918):  26%|██▌       | 2537/9753 [27:02<1:17:15,  1.56it/s]Training 1/3 epoch (loss 1.1214):  26%|██▌       | 2537/9753 [27:03<1:17:15,  1.56it/s]Training 1/3 epoch (loss 1.1214):  26%|██▌       | 2538/9753 [27:03<1:14:05,  1.62it/s]Training 1/3 epoch (loss 1.0551):  26%|██▌       | 2538/9753 [27:04<1:14:05,  1.62it/s]Training 1/3 epoch (loss 1.0551):  26%|██▌       | 2539/9753 [27:04<1:15:50,  1.59it/s]Training 1/3 epoch (loss 1.1267):  26%|██▌       | 2539/9753 [27:04<1:15:50,  1.59it/s]Training 1/3 epoch (loss 1.1267):  26%|██▌       | 2540/9753 [27:04<1:13:12,  1.64it/s]Training 1/3 epoch (loss 1.0282):  26%|██▌       | 2540/9753 [27:05<1:13:12,  1.64it/s]Training 1/3 epoch (loss 1.0282):  26%|██▌       | 2541/9753 [27:05<1:11:13,  1.69it/s]Training 1/3 epoch (loss 1.3061):  26%|██▌       | 2541/9753 [27:05<1:11:13,  1.69it/s]Training 1/3 epoch (loss 1.3061):  26%|██▌       | 2542/9753 [27:05<1:14:40,  1.61it/s]Training 1/3 epoch (loss 1.1130):  26%|██▌       | 2542/9753 [27:06<1:14:40,  1.61it/s]Training 1/3 epoch (loss 1.1130):  26%|██▌       | 2543/9753 [27:06<1:12:23,  1.66it/s]Training 1/3 epoch (loss 0.9830):  26%|██▌       | 2543/9753 [27:07<1:12:23,  1.66it/s]Training 1/3 epoch (loss 0.9830):  26%|██▌       | 2544/9753 [27:07<1:16:24,  1.57it/s]Training 1/3 epoch (loss 1.0954):  26%|██▌       | 2544/9753 [27:07<1:16:24,  1.57it/s]Training 1/3 epoch (loss 1.0954):  26%|██▌       | 2545/9753 [27:07<1:14:07,  1.62it/s]Training 1/3 epoch (loss 1.1139):  26%|██▌       | 2545/9753 [27:08<1:14:07,  1.62it/s]Training 1/3 epoch (loss 1.1139):  26%|██▌       | 2546/9753 [27:08<1:12:05,  1.67it/s]Training 1/3 epoch (loss 1.1284):  26%|██▌       | 2546/9753 [27:09<1:12:05,  1.67it/s]Training 1/3 epoch (loss 1.1284):  26%|██▌       | 2547/9753 [27:09<1:13:05,  1.64it/s]Training 1/3 epoch (loss 1.0462):  26%|██▌       | 2547/9753 [27:09<1:13:05,  1.64it/s]Training 1/3 epoch (loss 1.0462):  26%|██▌       | 2548/9753 [27:09<1:14:18,  1.62it/s]Training 1/3 epoch (loss 0.8745):  26%|██▌       | 2548/9753 [27:10<1:14:18,  1.62it/s]Training 1/3 epoch (loss 0.8745):  26%|██▌       | 2549/9753 [27:10<1:11:56,  1.67it/s]Training 1/3 epoch (loss 1.1526):  26%|██▌       | 2549/9753 [27:10<1:11:56,  1.67it/s]Training 1/3 epoch (loss 1.1526):  26%|██▌       | 2550/9753 [27:10<1:14:17,  1.62it/s]Training 1/3 epoch (loss 1.0894):  26%|██▌       | 2550/9753 [27:11<1:14:17,  1.62it/s]Training 1/3 epoch (loss 1.0894):  26%|██▌       | 2551/9753 [27:11<1:16:55,  1.56it/s]Training 1/3 epoch (loss 0.9478):  26%|██▌       | 2551/9753 [27:12<1:16:55,  1.56it/s]Training 1/3 epoch (loss 0.9478):  26%|██▌       | 2552/9753 [27:12<1:18:50,  1.52it/s]Training 1/3 epoch (loss 1.2028):  26%|██▌       | 2552/9753 [27:12<1:18:50,  1.52it/s]Training 1/3 epoch (loss 1.2028):  26%|██▌       | 2553/9753 [27:13<1:21:40,  1.47it/s]Training 1/3 epoch (loss 1.3211):  26%|██▌       | 2553/9753 [27:13<1:21:40,  1.47it/s]Training 1/3 epoch (loss 1.3211):  26%|██▌       | 2554/9753 [27:13<1:19:09,  1.52it/s]Training 1/3 epoch (loss 1.0361):  26%|██▌       | 2554/9753 [27:14<1:19:09,  1.52it/s]Training 1/3 epoch (loss 1.0361):  26%|██▌       | 2555/9753 [27:14<1:15:26,  1.59it/s]Training 1/3 epoch (loss 1.0241):  26%|██▌       | 2555/9753 [27:14<1:15:26,  1.59it/s]Training 1/3 epoch (loss 1.0241):  26%|██▌       | 2556/9753 [27:14<1:21:29,  1.47it/s]Training 1/3 epoch (loss 1.0268):  26%|██▌       | 2556/9753 [27:15<1:21:29,  1.47it/s]Training 1/3 epoch (loss 1.0268):  26%|██▌       | 2557/9753 [27:15<1:17:29,  1.55it/s]Training 1/3 epoch (loss 1.0550):  26%|██▌       | 2557/9753 [27:16<1:17:29,  1.55it/s]Training 1/3 epoch (loss 1.0550):  26%|██▌       | 2558/9753 [27:16<1:14:39,  1.61it/s]Training 1/3 epoch (loss 1.2223):  26%|██▌       | 2558/9753 [27:16<1:14:39,  1.61it/s]Training 1/3 epoch (loss 1.2223):  26%|██▌       | 2559/9753 [27:16<1:12:44,  1.65it/s]Training 1/3 epoch (loss 1.0769):  26%|██▌       | 2559/9753 [27:17<1:12:44,  1.65it/s]Training 1/3 epoch (loss 1.0769):  26%|██▌       | 2560/9753 [27:17<1:15:48,  1.58it/s]Training 1/3 epoch (loss 0.9275):  26%|██▌       | 2560/9753 [27:17<1:15:48,  1.58it/s]Training 1/3 epoch (loss 0.9275):  26%|██▋       | 2561/9753 [27:17<1:15:07,  1.60it/s]Training 1/3 epoch (loss 1.0748):  26%|██▋       | 2561/9753 [27:18<1:15:07,  1.60it/s]Training 1/3 epoch (loss 1.0748):  26%|██▋       | 2562/9753 [27:18<1:12:50,  1.65it/s]Training 1/3 epoch (loss 0.8638):  26%|██▋       | 2562/9753 [27:19<1:12:50,  1.65it/s]Training 1/3 epoch (loss 0.8638):  26%|██▋       | 2563/9753 [27:19<1:16:47,  1.56it/s]Training 1/3 epoch (loss 1.2173):  26%|██▋       | 2563/9753 [27:19<1:16:47,  1.56it/s]Training 1/3 epoch (loss 1.2173):  26%|██▋       | 2564/9753 [27:19<1:13:54,  1.62it/s]Training 1/3 epoch (loss 0.9048):  26%|██▋       | 2564/9753 [27:20<1:13:54,  1.62it/s]Training 1/3 epoch (loss 0.9048):  26%|██▋       | 2565/9753 [27:20<1:12:07,  1.66it/s]Training 1/3 epoch (loss 0.9698):  26%|██▋       | 2565/9753 [27:21<1:12:07,  1.66it/s]Training 1/3 epoch (loss 0.9698):  26%|██▋       | 2566/9753 [27:21<1:15:54,  1.58it/s]Training 1/3 epoch (loss 1.1184):  26%|██▋       | 2566/9753 [27:21<1:15:54,  1.58it/s]Training 1/3 epoch (loss 1.1184):  26%|██▋       | 2567/9753 [27:21<1:13:09,  1.64it/s]Training 1/3 epoch (loss 0.9246):  26%|██▋       | 2567/9753 [27:22<1:13:09,  1.64it/s]Training 1/3 epoch (loss 0.9246):  26%|██▋       | 2568/9753 [27:22<1:19:01,  1.52it/s]Training 1/3 epoch (loss 1.0153):  26%|██▋       | 2568/9753 [27:23<1:19:01,  1.52it/s]Training 1/3 epoch (loss 1.0153):  26%|██▋       | 2569/9753 [27:23<1:16:05,  1.57it/s]Training 1/3 epoch (loss 1.0976):  26%|██▋       | 2569/9753 [27:23<1:16:05,  1.57it/s]Training 1/3 epoch (loss 1.0976):  26%|██▋       | 2570/9753 [27:23<1:13:24,  1.63it/s]Training 1/3 epoch (loss 1.0212):  26%|██▋       | 2570/9753 [27:24<1:13:24,  1.63it/s]Training 1/3 epoch (loss 1.0212):  26%|██▋       | 2571/9753 [27:24<1:11:27,  1.67it/s]Training 1/3 epoch (loss 1.0053):  26%|██▋       | 2571/9753 [27:24<1:11:27,  1.67it/s]Training 1/3 epoch (loss 1.0053):  26%|██▋       | 2572/9753 [27:24<1:09:47,  1.71it/s]Training 1/3 epoch (loss 1.0715):  26%|██▋       | 2572/9753 [27:25<1:09:47,  1.71it/s]Training 1/3 epoch (loss 1.0715):  26%|██▋       | 2573/9753 [27:25<1:09:35,  1.72it/s]Training 1/3 epoch (loss 0.9101):  26%|██▋       | 2573/9753 [27:25<1:09:35,  1.72it/s]Training 1/3 epoch (loss 0.9101):  26%|██▋       | 2574/9753 [27:25<1:12:28,  1.65it/s]Training 1/3 epoch (loss 1.3047):  26%|██▋       | 2574/9753 [27:26<1:12:28,  1.65it/s]Training 1/3 epoch (loss 1.3047):  26%|██▋       | 2575/9753 [27:26<1:16:20,  1.57it/s]Training 1/3 epoch (loss 1.1602):  26%|██▋       | 2575/9753 [27:27<1:16:20,  1.57it/s]Training 1/3 epoch (loss 1.1602):  26%|██▋       | 2576/9753 [27:27<1:22:21,  1.45it/s]Training 1/3 epoch (loss 0.9872):  26%|██▋       | 2576/9753 [27:28<1:22:21,  1.45it/s]Training 1/3 epoch (loss 0.9872):  26%|██▋       | 2577/9753 [27:28<1:24:20,  1.42it/s]Training 1/3 epoch (loss 1.0385):  26%|██▋       | 2577/9753 [27:28<1:24:20,  1.42it/s]Training 1/3 epoch (loss 1.0385):  26%|██▋       | 2578/9753 [27:28<1:24:36,  1.41it/s]Training 1/3 epoch (loss 0.8973):  26%|██▋       | 2578/9753 [27:29<1:24:36,  1.41it/s]Training 1/3 epoch (loss 0.8973):  26%|██▋       | 2579/9753 [27:29<1:19:18,  1.51it/s]Training 1/3 epoch (loss 0.9011):  26%|██▋       | 2579/9753 [27:30<1:19:18,  1.51it/s]Training 1/3 epoch (loss 0.9011):  26%|██▋       | 2580/9753 [27:30<1:17:18,  1.55it/s]Training 1/3 epoch (loss 1.1926):  26%|██▋       | 2580/9753 [27:30<1:17:18,  1.55it/s]Training 1/3 epoch (loss 1.1926):  26%|██▋       | 2581/9753 [27:30<1:17:15,  1.55it/s]Training 1/3 epoch (loss 1.2772):  26%|██▋       | 2581/9753 [27:31<1:17:15,  1.55it/s]Training 1/3 epoch (loss 1.2772):  26%|██▋       | 2582/9753 [27:31<1:14:39,  1.60it/s]Training 1/3 epoch (loss 1.1087):  26%|██▋       | 2582/9753 [27:31<1:14:39,  1.60it/s]Training 1/3 epoch (loss 1.1087):  26%|██▋       | 2583/9753 [27:31<1:14:19,  1.61it/s]Training 1/3 epoch (loss 1.0330):  26%|██▋       | 2583/9753 [27:32<1:14:19,  1.61it/s]Training 1/3 epoch (loss 1.0330):  26%|██▋       | 2584/9753 [27:32<1:14:58,  1.59it/s]Training 1/3 epoch (loss 1.1202):  26%|██▋       | 2584/9753 [27:33<1:14:58,  1.59it/s]Training 1/3 epoch (loss 1.1202):  27%|██▋       | 2585/9753 [27:33<1:17:48,  1.54it/s]Training 1/3 epoch (loss 1.0536):  27%|██▋       | 2585/9753 [27:33<1:17:48,  1.54it/s]Training 1/3 epoch (loss 1.0536):  27%|██▋       | 2586/9753 [27:33<1:15:14,  1.59it/s]Training 1/3 epoch (loss 1.1756):  27%|██▋       | 2586/9753 [27:34<1:15:14,  1.59it/s]Training 1/3 epoch (loss 1.1756):  27%|██▋       | 2587/9753 [27:34<1:12:06,  1.66it/s]Training 1/3 epoch (loss 1.0615):  27%|██▋       | 2587/9753 [27:34<1:12:06,  1.66it/s]Training 1/3 epoch (loss 1.0615):  27%|██▋       | 2588/9753 [27:34<1:10:54,  1.68it/s]Training 1/3 epoch (loss 0.9268):  27%|██▋       | 2588/9753 [27:35<1:10:54,  1.68it/s]Training 1/3 epoch (loss 0.9268):  27%|██▋       | 2589/9753 [27:35<1:09:25,  1.72it/s]Training 1/3 epoch (loss 0.9390):  27%|██▋       | 2589/9753 [27:36<1:09:25,  1.72it/s]Training 1/3 epoch (loss 0.9390):  27%|██▋       | 2590/9753 [27:36<1:14:32,  1.60it/s]Training 1/3 epoch (loss 1.2360):  27%|██▋       | 2590/9753 [27:37<1:14:32,  1.60it/s]Training 1/3 epoch (loss 1.2360):  27%|██▋       | 2591/9753 [27:37<1:23:07,  1.44it/s]Training 1/3 epoch (loss 0.8878):  27%|██▋       | 2591/9753 [27:37<1:23:07,  1.44it/s]Training 1/3 epoch (loss 0.8878):  27%|██▋       | 2592/9753 [27:37<1:22:51,  1.44it/s]Training 1/3 epoch (loss 1.2891):  27%|██▋       | 2592/9753 [27:38<1:22:51,  1.44it/s]Training 1/3 epoch (loss 1.2891):  27%|██▋       | 2593/9753 [27:38<1:24:20,  1.41it/s]Training 1/3 epoch (loss 1.0392):  27%|██▋       | 2593/9753 [27:39<1:24:20,  1.41it/s]Training 1/3 epoch (loss 1.0392):  27%|██▋       | 2594/9753 [27:39<1:18:32,  1.52it/s]Training 1/3 epoch (loss 1.3120):  27%|██▋       | 2594/9753 [27:39<1:18:32,  1.52it/s]Training 1/3 epoch (loss 1.3120):  27%|██▋       | 2595/9753 [27:39<1:14:42,  1.60it/s]Training 1/3 epoch (loss 0.9238):  27%|██▋       | 2595/9753 [27:40<1:14:42,  1.60it/s]Training 1/3 epoch (loss 0.9238):  27%|██▋       | 2596/9753 [27:40<1:13:02,  1.63it/s]Training 1/3 epoch (loss 1.1835):  27%|██▋       | 2596/9753 [27:41<1:13:02,  1.63it/s]Training 1/3 epoch (loss 1.1835):  27%|██▋       | 2597/9753 [27:41<1:22:37,  1.44it/s]Training 1/3 epoch (loss 1.1347):  27%|██▋       | 2597/9753 [27:41<1:22:37,  1.44it/s]Training 1/3 epoch (loss 1.1347):  27%|██▋       | 2598/9753 [27:41<1:19:54,  1.49it/s]Training 1/3 epoch (loss 0.9655):  27%|██▋       | 2598/9753 [27:42<1:19:54,  1.49it/s]Training 1/3 epoch (loss 0.9655):  27%|██▋       | 2599/9753 [27:42<1:20:28,  1.48it/s]Training 1/3 epoch (loss 1.0816):  27%|██▋       | 2599/9753 [27:43<1:20:28,  1.48it/s]Training 1/3 epoch (loss 1.0816):  27%|██▋       | 2600/9753 [27:43<1:21:14,  1.47it/s]Training 1/3 epoch (loss 1.0746):  27%|██▋       | 2600/9753 [27:43<1:21:14,  1.47it/s]Training 1/3 epoch (loss 1.0746):  27%|██▋       | 2601/9753 [27:43<1:20:20,  1.48it/s]Training 1/3 epoch (loss 0.7850):  27%|██▋       | 2601/9753 [27:44<1:20:20,  1.48it/s]Training 1/3 epoch (loss 0.7850):  27%|██▋       | 2602/9753 [27:44<1:18:04,  1.53it/s]Training 1/3 epoch (loss 1.1008):  27%|██▋       | 2602/9753 [27:45<1:18:04,  1.53it/s]Training 1/3 epoch (loss 1.1008):  27%|██▋       | 2603/9753 [27:45<1:26:22,  1.38it/s]Training 1/3 epoch (loss 1.1159):  27%|██▋       | 2603/9753 [27:46<1:26:22,  1.38it/s]Training 1/3 epoch (loss 1.1159):  27%|██▋       | 2604/9753 [27:46<1:33:43,  1.27it/s]Training 1/3 epoch (loss 1.0531):  27%|██▋       | 2604/9753 [27:46<1:33:43,  1.27it/s]Training 1/3 epoch (loss 1.0531):  27%|██▋       | 2605/9753 [27:46<1:25:48,  1.39it/s]Training 1/3 epoch (loss 1.0934):  27%|██▋       | 2605/9753 [27:47<1:25:48,  1.39it/s]Training 1/3 epoch (loss 1.0934):  27%|██▋       | 2606/9753 [27:47<1:19:50,  1.49it/s]Training 1/3 epoch (loss 1.0277):  27%|██▋       | 2606/9753 [27:47<1:19:50,  1.49it/s]Training 1/3 epoch (loss 1.0277):  27%|██▋       | 2607/9753 [27:47<1:15:50,  1.57it/s]Training 1/3 epoch (loss 1.1202):  27%|██▋       | 2607/9753 [27:48<1:15:50,  1.57it/s]Training 1/3 epoch (loss 1.1202):  27%|██▋       | 2608/9753 [27:48<1:17:28,  1.54it/s]Training 1/3 epoch (loss 1.1178):  27%|██▋       | 2608/9753 [27:49<1:17:28,  1.54it/s]Training 1/3 epoch (loss 1.1178):  27%|██▋       | 2609/9753 [27:49<1:15:39,  1.57it/s]Training 1/3 epoch (loss 1.1072):  27%|██▋       | 2609/9753 [27:49<1:15:39,  1.57it/s]Training 1/3 epoch (loss 1.1072):  27%|██▋       | 2610/9753 [27:49<1:16:43,  1.55it/s]Training 1/3 epoch (loss 0.9018):  27%|██▋       | 2610/9753 [27:50<1:16:43,  1.55it/s]Training 1/3 epoch (loss 0.9018):  27%|██▋       | 2611/9753 [27:50<1:14:00,  1.61it/s]Training 1/3 epoch (loss 1.0265):  27%|██▋       | 2611/9753 [27:50<1:14:00,  1.61it/s]Training 1/3 epoch (loss 1.0265):  27%|██▋       | 2612/9753 [27:50<1:14:26,  1.60it/s]Training 1/3 epoch (loss 1.0261):  27%|██▋       | 2612/9753 [27:51<1:14:26,  1.60it/s]Training 1/3 epoch (loss 1.0261):  27%|██▋       | 2613/9753 [27:51<1:11:40,  1.66it/s]Training 1/3 epoch (loss 0.9446):  27%|██▋       | 2613/9753 [27:52<1:11:40,  1.66it/s]Training 1/3 epoch (loss 0.9446):  27%|██▋       | 2614/9753 [27:52<1:09:48,  1.70it/s]Training 1/3 epoch (loss 0.9697):  27%|██▋       | 2614/9753 [27:53<1:09:48,  1.70it/s]Training 1/3 epoch (loss 0.9697):  27%|██▋       | 2615/9753 [27:53<1:22:01,  1.45it/s]Training 1/3 epoch (loss 1.0787):  27%|██▋       | 2615/9753 [27:53<1:22:01,  1.45it/s]Training 1/3 epoch (loss 1.0787):  27%|██▋       | 2616/9753 [27:53<1:23:44,  1.42it/s]Training 1/3 epoch (loss 1.2520):  27%|██▋       | 2616/9753 [27:54<1:23:44,  1.42it/s]Training 1/3 epoch (loss 1.2520):  27%|██▋       | 2617/9753 [27:54<1:18:42,  1.51it/s]Training 1/3 epoch (loss 0.9563):  27%|██▋       | 2617/9753 [27:54<1:18:42,  1.51it/s]Training 1/3 epoch (loss 0.9563):  27%|██▋       | 2618/9753 [27:54<1:15:45,  1.57it/s]Training 1/3 epoch (loss 1.0954):  27%|██▋       | 2618/9753 [27:55<1:15:45,  1.57it/s]Training 1/3 epoch (loss 1.0954):  27%|██▋       | 2619/9753 [27:55<1:14:58,  1.59it/s]Training 1/3 epoch (loss 1.1177):  27%|██▋       | 2619/9753 [27:56<1:14:58,  1.59it/s]Training 1/3 epoch (loss 1.1177):  27%|██▋       | 2620/9753 [27:56<1:12:29,  1.64it/s]Training 1/3 epoch (loss 1.2709):  27%|██▋       | 2620/9753 [27:56<1:12:29,  1.64it/s]Training 1/3 epoch (loss 1.2709):  27%|██▋       | 2621/9753 [27:56<1:16:42,  1.55it/s]Training 1/3 epoch (loss 1.0178):  27%|██▋       | 2621/9753 [27:57<1:16:42,  1.55it/s]Training 1/3 epoch (loss 1.0178):  27%|██▋       | 2622/9753 [27:57<1:14:21,  1.60it/s]Training 1/3 epoch (loss 0.8568):  27%|██▋       | 2622/9753 [27:57<1:14:21,  1.60it/s]Training 1/3 epoch (loss 0.8568):  27%|██▋       | 2623/9753 [27:57<1:11:45,  1.66it/s]Training 1/3 epoch (loss 1.1167):  27%|██▋       | 2623/9753 [27:58<1:11:45,  1.66it/s]Training 1/3 epoch (loss 1.1167):  27%|██▋       | 2624/9753 [27:58<1:15:16,  1.58it/s]Training 1/3 epoch (loss 0.9354):  27%|██▋       | 2624/9753 [27:59<1:15:16,  1.58it/s]Training 1/3 epoch (loss 0.9354):  27%|██▋       | 2625/9753 [27:59<1:12:29,  1.64it/s]Training 1/3 epoch (loss 1.0395):  27%|██▋       | 2625/9753 [27:59<1:12:29,  1.64it/s]Training 1/3 epoch (loss 1.0395):  27%|██▋       | 2626/9753 [27:59<1:10:17,  1.69it/s]Training 1/3 epoch (loss 1.4029):  27%|██▋       | 2626/9753 [28:00<1:10:17,  1.69it/s]Training 1/3 epoch (loss 1.4029):  27%|██▋       | 2627/9753 [28:00<1:11:02,  1.67it/s]Training 1/3 epoch (loss 1.0468):  27%|██▋       | 2627/9753 [28:01<1:11:02,  1.67it/s]Training 1/3 epoch (loss 1.0468):  27%|██▋       | 2628/9753 [28:01<1:14:21,  1.60it/s]Training 1/3 epoch (loss 1.3229):  27%|██▋       | 2628/9753 [28:01<1:14:21,  1.60it/s]Training 1/3 epoch (loss 1.3229):  27%|██▋       | 2629/9753 [28:01<1:16:38,  1.55it/s]Training 1/3 epoch (loss 1.0112):  27%|██▋       | 2629/9753 [28:02<1:16:38,  1.55it/s]Training 1/3 epoch (loss 1.0112):  27%|██▋       | 2630/9753 [28:02<1:20:42,  1.47it/s]Training 1/3 epoch (loss 1.0210):  27%|██▋       | 2630/9753 [28:03<1:20:42,  1.47it/s]Training 1/3 epoch (loss 1.0210):  27%|██▋       | 2631/9753 [28:03<1:18:54,  1.50it/s]Training 1/3 epoch (loss 1.1422):  27%|██▋       | 2631/9753 [28:03<1:18:54,  1.50it/s]Training 1/3 epoch (loss 1.1422):  27%|██▋       | 2632/9753 [28:03<1:16:05,  1.56it/s]Training 1/3 epoch (loss 1.1692):  27%|██▋       | 2632/9753 [28:04<1:16:05,  1.56it/s]Training 1/3 epoch (loss 1.1692):  27%|██▋       | 2633/9753 [28:04<1:13:52,  1.61it/s]Training 1/3 epoch (loss 1.1978):  27%|██▋       | 2633/9753 [28:04<1:13:52,  1.61it/s]Training 1/3 epoch (loss 1.1978):  27%|██▋       | 2634/9753 [28:04<1:12:43,  1.63it/s]Training 1/3 epoch (loss 0.7468):  27%|██▋       | 2634/9753 [28:05<1:12:43,  1.63it/s]Training 1/3 epoch (loss 0.7468):  27%|██▋       | 2635/9753 [28:05<1:17:02,  1.54it/s]Training 1/3 epoch (loss 1.0750):  27%|██▋       | 2635/9753 [28:06<1:17:02,  1.54it/s]Training 1/3 epoch (loss 1.0750):  27%|██▋       | 2636/9753 [28:06<1:18:36,  1.51it/s]Training 1/3 epoch (loss 1.0970):  27%|██▋       | 2636/9753 [28:06<1:18:36,  1.51it/s]Training 1/3 epoch (loss 1.0970):  27%|██▋       | 2637/9753 [28:06<1:15:49,  1.56it/s]Training 1/3 epoch (loss 1.1680):  27%|██▋       | 2637/9753 [28:07<1:15:49,  1.56it/s]Training 1/3 epoch (loss 1.1680):  27%|██▋       | 2638/9753 [28:07<1:13:53,  1.60it/s]Training 1/3 epoch (loss 0.8868):  27%|██▋       | 2638/9753 [28:08<1:13:53,  1.60it/s]Training 1/3 epoch (loss 0.8868):  27%|██▋       | 2639/9753 [28:08<1:16:52,  1.54it/s]Training 1/3 epoch (loss 0.9739):  27%|██▋       | 2639/9753 [28:08<1:16:52,  1.54it/s]Training 1/3 epoch (loss 0.9739):  27%|██▋       | 2640/9753 [28:08<1:19:27,  1.49it/s]Training 1/3 epoch (loss 1.0455):  27%|██▋       | 2640/9753 [28:09<1:19:27,  1.49it/s]Training 1/3 epoch (loss 1.0455):  27%|██▋       | 2641/9753 [28:09<1:23:13,  1.42it/s]Training 1/3 epoch (loss 0.9241):  27%|██▋       | 2641/9753 [28:10<1:23:13,  1.42it/s]Training 1/3 epoch (loss 0.9241):  27%|██▋       | 2642/9753 [28:10<1:20:38,  1.47it/s]Training 1/3 epoch (loss 1.0950):  27%|██▋       | 2642/9753 [28:10<1:20:38,  1.47it/s]Training 1/3 epoch (loss 1.0950):  27%|██▋       | 2643/9753 [28:10<1:17:26,  1.53it/s]Training 1/3 epoch (loss 0.9851):  27%|██▋       | 2643/9753 [28:11<1:17:26,  1.53it/s]Training 1/3 epoch (loss 0.9851):  27%|██▋       | 2644/9753 [28:11<1:15:52,  1.56it/s]Training 1/3 epoch (loss 1.1470):  27%|██▋       | 2644/9753 [28:12<1:15:52,  1.56it/s]Training 1/3 epoch (loss 1.1470):  27%|██▋       | 2645/9753 [28:12<1:19:33,  1.49it/s]Training 1/3 epoch (loss 1.2113):  27%|██▋       | 2645/9753 [28:12<1:19:33,  1.49it/s]Training 1/3 epoch (loss 1.2113):  27%|██▋       | 2646/9753 [28:12<1:21:13,  1.46it/s]Training 1/3 epoch (loss 1.2574):  27%|██▋       | 2646/9753 [28:13<1:21:13,  1.46it/s]Training 1/3 epoch (loss 1.2574):  27%|██▋       | 2647/9753 [28:13<1:17:16,  1.53it/s]Training 1/3 epoch (loss 1.2426):  27%|██▋       | 2647/9753 [28:14<1:17:16,  1.53it/s]Training 1/3 epoch (loss 1.2426):  27%|██▋       | 2648/9753 [28:14<1:14:52,  1.58it/s]Training 1/3 epoch (loss 1.0844):  27%|██▋       | 2648/9753 [28:14<1:14:52,  1.58it/s]Training 1/3 epoch (loss 1.0844):  27%|██▋       | 2649/9753 [28:14<1:12:14,  1.64it/s]Training 1/3 epoch (loss 1.0888):  27%|██▋       | 2649/9753 [28:15<1:12:14,  1.64it/s]Training 1/3 epoch (loss 1.0888):  27%|██▋       | 2650/9753 [28:15<1:22:15,  1.44it/s]Training 1/3 epoch (loss 1.0823):  27%|██▋       | 2650/9753 [28:16<1:22:15,  1.44it/s]Training 1/3 epoch (loss 1.0823):  27%|██▋       | 2651/9753 [28:16<1:18:39,  1.50it/s]Training 1/3 epoch (loss 1.1769):  27%|██▋       | 2651/9753 [28:16<1:18:39,  1.50it/s]Training 1/3 epoch (loss 1.1769):  27%|██▋       | 2652/9753 [28:16<1:14:47,  1.58it/s]Training 1/3 epoch (loss 0.9818):  27%|██▋       | 2652/9753 [28:17<1:14:47,  1.58it/s]Training 1/3 epoch (loss 0.9818):  27%|██▋       | 2653/9753 [28:17<1:19:04,  1.50it/s]Training 1/3 epoch (loss 0.9060):  27%|██▋       | 2653/9753 [28:18<1:19:04,  1.50it/s]Training 1/3 epoch (loss 0.9060):  27%|██▋       | 2654/9753 [28:18<1:17:41,  1.52it/s]Training 1/3 epoch (loss 1.2615):  27%|██▋       | 2654/9753 [28:19<1:17:41,  1.52it/s]Training 1/3 epoch (loss 1.2615):  27%|██▋       | 2655/9753 [28:19<1:26:44,  1.36it/s]Training 1/3 epoch (loss 1.1709):  27%|██▋       | 2655/9753 [28:19<1:26:44,  1.36it/s]Training 1/3 epoch (loss 1.1709):  27%|██▋       | 2656/9753 [28:19<1:25:19,  1.39it/s]Training 1/3 epoch (loss 0.9672):  27%|██▋       | 2656/9753 [28:20<1:25:19,  1.39it/s]Training 1/3 epoch (loss 0.9672):  27%|██▋       | 2657/9753 [28:20<1:19:31,  1.49it/s]Training 1/3 epoch (loss 0.9209):  27%|██▋       | 2657/9753 [28:20<1:19:31,  1.49it/s]Training 1/3 epoch (loss 0.9209):  27%|██▋       | 2658/9753 [28:20<1:15:08,  1.57it/s]Training 1/3 epoch (loss 1.0405):  27%|██▋       | 2658/9753 [28:21<1:15:08,  1.57it/s]Training 1/3 epoch (loss 1.0405):  27%|██▋       | 2659/9753 [28:21<1:12:04,  1.64it/s]Training 1/3 epoch (loss 1.2331):  27%|██▋       | 2659/9753 [28:22<1:12:04,  1.64it/s]Training 1/3 epoch (loss 1.2331):  27%|██▋       | 2660/9753 [28:22<1:14:34,  1.59it/s]Training 1/3 epoch (loss 0.9075):  27%|██▋       | 2660/9753 [28:22<1:14:34,  1.59it/s]Training 1/3 epoch (loss 0.9075):  27%|██▋       | 2661/9753 [28:22<1:16:06,  1.55it/s]Training 1/3 epoch (loss 0.9688):  27%|██▋       | 2661/9753 [28:23<1:16:06,  1.55it/s]Training 1/3 epoch (loss 0.9688):  27%|██▋       | 2662/9753 [28:23<1:19:14,  1.49it/s]Training 1/3 epoch (loss 0.8944):  27%|██▋       | 2662/9753 [28:24<1:19:14,  1.49it/s]Training 1/3 epoch (loss 0.8944):  27%|██▋       | 2663/9753 [28:24<1:20:40,  1.46it/s]Training 1/3 epoch (loss 1.2862):  27%|██▋       | 2663/9753 [28:24<1:20:40,  1.46it/s]Training 1/3 epoch (loss 1.2862):  27%|██▋       | 2664/9753 [28:24<1:21:30,  1.45it/s]Training 1/3 epoch (loss 1.1689):  27%|██▋       | 2664/9753 [28:25<1:21:30,  1.45it/s]Training 1/3 epoch (loss 1.1689):  27%|██▋       | 2665/9753 [28:25<1:22:05,  1.44it/s]Training 1/3 epoch (loss 0.9917):  27%|██▋       | 2665/9753 [28:26<1:22:05,  1.44it/s]Training 1/3 epoch (loss 0.9917):  27%|██▋       | 2666/9753 [28:26<1:18:48,  1.50it/s]Training 1/3 epoch (loss 1.0188):  27%|██▋       | 2666/9753 [28:26<1:18:48,  1.50it/s]Training 1/3 epoch (loss 1.0188):  27%|██▋       | 2667/9753 [28:26<1:15:21,  1.57it/s]Training 1/3 epoch (loss 1.2031):  27%|██▋       | 2667/9753 [28:27<1:15:21,  1.57it/s]Training 1/3 epoch (loss 1.2031):  27%|██▋       | 2668/9753 [28:27<1:13:28,  1.61it/s]Training 1/3 epoch (loss 1.1515):  27%|██▋       | 2668/9753 [28:27<1:13:28,  1.61it/s]Training 1/3 epoch (loss 1.1515):  27%|██▋       | 2669/9753 [28:27<1:11:57,  1.64it/s]Training 1/3 epoch (loss 1.0466):  27%|██▋       | 2669/9753 [28:28<1:11:57,  1.64it/s]Training 1/3 epoch (loss 1.0466):  27%|██▋       | 2670/9753 [28:28<1:12:46,  1.62it/s]Training 1/3 epoch (loss 1.1169):  27%|██▋       | 2670/9753 [28:29<1:12:46,  1.62it/s]Training 1/3 epoch (loss 1.1169):  27%|██▋       | 2671/9753 [28:29<1:11:03,  1.66it/s]Training 1/3 epoch (loss 1.0753):  27%|██▋       | 2671/9753 [28:29<1:11:03,  1.66it/s]Training 1/3 epoch (loss 1.0753):  27%|██▋       | 2672/9753 [28:29<1:15:03,  1.57it/s]Training 1/3 epoch (loss 1.2953):  27%|██▋       | 2672/9753 [28:30<1:15:03,  1.57it/s]Training 1/3 epoch (loss 1.2953):  27%|██▋       | 2673/9753 [28:30<1:13:38,  1.60it/s]Training 1/3 epoch (loss 1.1383):  27%|██▋       | 2673/9753 [28:31<1:13:38,  1.60it/s]Training 1/3 epoch (loss 1.1383):  27%|██▋       | 2674/9753 [28:31<1:15:27,  1.56it/s]Training 1/3 epoch (loss 1.2310):  27%|██▋       | 2674/9753 [28:31<1:15:27,  1.56it/s]Training 1/3 epoch (loss 1.2310):  27%|██▋       | 2675/9753 [28:31<1:19:59,  1.47it/s]Training 1/3 epoch (loss 1.2489):  27%|██▋       | 2675/9753 [28:32<1:19:59,  1.47it/s]Training 1/3 epoch (loss 1.2489):  27%|██▋       | 2676/9753 [28:32<1:15:53,  1.55it/s]Training 1/3 epoch (loss 1.1408):  27%|██▋       | 2676/9753 [28:33<1:15:53,  1.55it/s]Training 1/3 epoch (loss 1.1408):  27%|██▋       | 2677/9753 [28:33<1:13:14,  1.61it/s]Training 1/3 epoch (loss 1.0161):  27%|██▋       | 2677/9753 [28:33<1:13:14,  1.61it/s]Training 1/3 epoch (loss 1.0161):  27%|██▋       | 2678/9753 [28:33<1:17:17,  1.53it/s]Training 1/3 epoch (loss 0.9491):  27%|██▋       | 2678/9753 [28:34<1:17:17,  1.53it/s]Training 1/3 epoch (loss 0.9491):  27%|██▋       | 2679/9753 [28:34<1:19:54,  1.48it/s]Training 1/3 epoch (loss 0.8447):  27%|██▋       | 2679/9753 [28:35<1:19:54,  1.48it/s]Training 1/3 epoch (loss 0.8447):  27%|██▋       | 2680/9753 [28:35<1:27:45,  1.34it/s]Training 1/3 epoch (loss 1.1939):  27%|██▋       | 2680/9753 [28:35<1:27:45,  1.34it/s]Training 1/3 epoch (loss 1.1939):  27%|██▋       | 2681/9753 [28:35<1:21:07,  1.45it/s]Training 1/3 epoch (loss 1.0987):  27%|██▋       | 2681/9753 [28:36<1:21:07,  1.45it/s]Training 1/3 epoch (loss 1.0987):  27%|██▋       | 2682/9753 [28:36<1:17:59,  1.51it/s]Training 1/3 epoch (loss 1.1635):  27%|██▋       | 2682/9753 [28:37<1:17:59,  1.51it/s]Training 1/3 epoch (loss 1.1635):  28%|██▊       | 2683/9753 [28:37<1:26:28,  1.36it/s]Training 1/3 epoch (loss 0.9892):  28%|██▊       | 2683/9753 [28:37<1:26:28,  1.36it/s]Training 1/3 epoch (loss 0.9892):  28%|██▊       | 2684/9753 [28:37<1:20:14,  1.47it/s]Training 1/3 epoch (loss 1.0301):  28%|██▊       | 2684/9753 [28:38<1:20:14,  1.47it/s]Training 1/3 epoch (loss 1.0301):  28%|██▊       | 2685/9753 [28:38<1:15:55,  1.55it/s]Training 1/3 epoch (loss 1.1458):  28%|██▊       | 2685/9753 [28:39<1:15:55,  1.55it/s]Training 1/3 epoch (loss 1.1458):  28%|██▊       | 2686/9753 [28:39<1:16:58,  1.53it/s]Training 1/3 epoch (loss 0.8668):  28%|██▊       | 2686/9753 [28:39<1:16:58,  1.53it/s]Training 1/3 epoch (loss 0.8668):  28%|██▊       | 2687/9753 [28:39<1:13:27,  1.60it/s]Training 1/3 epoch (loss 1.0324):  28%|██▊       | 2687/9753 [28:40<1:13:27,  1.60it/s]Training 1/3 epoch (loss 1.0324):  28%|██▊       | 2688/9753 [28:40<1:15:22,  1.56it/s]Training 1/3 epoch (loss 0.8298):  28%|██▊       | 2688/9753 [28:41<1:15:22,  1.56it/s]Training 1/3 epoch (loss 0.8298):  28%|██▊       | 2689/9753 [28:41<1:12:14,  1.63it/s]Training 1/3 epoch (loss 0.9943):  28%|██▊       | 2689/9753 [28:41<1:12:14,  1.63it/s]Training 1/3 epoch (loss 0.9943):  28%|██▊       | 2690/9753 [28:41<1:12:10,  1.63it/s]Training 1/3 epoch (loss 1.0832):  28%|██▊       | 2690/9753 [28:42<1:12:10,  1.63it/s]Training 1/3 epoch (loss 1.0832):  28%|██▊       | 2691/9753 [28:42<1:23:04,  1.42it/s]Training 1/3 epoch (loss 1.0041):  28%|██▊       | 2691/9753 [28:43<1:23:04,  1.42it/s]Training 1/3 epoch (loss 1.0041):  28%|██▊       | 2692/9753 [28:43<1:20:17,  1.47it/s]Training 1/3 epoch (loss 1.0625):  28%|██▊       | 2692/9753 [28:43<1:20:17,  1.47it/s]Training 1/3 epoch (loss 1.0625):  28%|██▊       | 2693/9753 [28:43<1:17:48,  1.51it/s]Training 1/3 epoch (loss 1.3167):  28%|██▊       | 2693/9753 [28:44<1:17:48,  1.51it/s]Training 1/3 epoch (loss 1.3167):  28%|██▊       | 2694/9753 [28:44<1:16:17,  1.54it/s]Training 1/3 epoch (loss 1.0002):  28%|██▊       | 2694/9753 [28:45<1:16:17,  1.54it/s]Training 1/3 epoch (loss 1.0002):  28%|██▊       | 2695/9753 [28:45<1:17:07,  1.53it/s]Training 1/3 epoch (loss 0.8646):  28%|██▊       | 2695/9753 [28:45<1:17:07,  1.53it/s]Training 1/3 epoch (loss 0.8646):  28%|██▊       | 2696/9753 [28:45<1:16:42,  1.53it/s]Training 1/3 epoch (loss 0.9894):  28%|██▊       | 2696/9753 [28:46<1:16:42,  1.53it/s]Training 1/3 epoch (loss 0.9894):  28%|██▊       | 2697/9753 [28:46<1:15:10,  1.56it/s]Training 1/3 epoch (loss 1.0976):  28%|██▊       | 2697/9753 [28:46<1:15:10,  1.56it/s]Training 1/3 epoch (loss 1.0976):  28%|██▊       | 2698/9753 [28:46<1:13:06,  1.61it/s]Training 1/3 epoch (loss 0.9886):  28%|██▊       | 2698/9753 [28:47<1:13:06,  1.61it/s]Training 1/3 epoch (loss 0.9886):  28%|██▊       | 2699/9753 [28:47<1:12:22,  1.62it/s]Training 1/3 epoch (loss 1.0744):  28%|██▊       | 2699/9753 [28:48<1:12:22,  1.62it/s]Training 1/3 epoch (loss 1.0744):  28%|██▊       | 2700/9753 [28:48<1:10:31,  1.67it/s]Training 1/3 epoch (loss 1.1143):  28%|██▊       | 2700/9753 [28:48<1:10:31,  1.67it/s]Training 1/3 epoch (loss 1.1143):  28%|██▊       | 2701/9753 [28:48<1:13:13,  1.60it/s]Training 1/3 epoch (loss 0.9779):  28%|██▊       | 2701/9753 [28:49<1:13:13,  1.60it/s]Training 1/3 epoch (loss 0.9779):  28%|██▊       | 2702/9753 [28:49<1:15:20,  1.56it/s]Training 1/3 epoch (loss 1.0856):  28%|██▊       | 2702/9753 [28:50<1:15:20,  1.56it/s]Training 1/3 epoch (loss 1.0856):  28%|██▊       | 2703/9753 [28:50<1:14:35,  1.58it/s]Training 1/3 epoch (loss 1.1865):  28%|██▊       | 2703/9753 [28:50<1:14:35,  1.58it/s]Training 1/3 epoch (loss 1.1865):  28%|██▊       | 2704/9753 [28:50<1:17:39,  1.51it/s]Training 1/3 epoch (loss 1.0331):  28%|██▊       | 2704/9753 [28:51<1:17:39,  1.51it/s]Training 1/3 epoch (loss 1.0331):  28%|██▊       | 2705/9753 [28:51<1:14:51,  1.57it/s]Training 1/3 epoch (loss 0.8677):  28%|██▊       | 2705/9753 [28:51<1:14:51,  1.57it/s]Training 1/3 epoch (loss 0.8677):  28%|██▊       | 2706/9753 [28:51<1:12:37,  1.62it/s]Training 1/3 epoch (loss 1.2074):  28%|██▊       | 2706/9753 [28:52<1:12:37,  1.62it/s]Training 1/3 epoch (loss 1.2074):  28%|██▊       | 2707/9753 [28:52<1:11:48,  1.64it/s]Training 1/3 epoch (loss 0.9580):  28%|██▊       | 2707/9753 [28:53<1:11:48,  1.64it/s]Training 1/3 epoch (loss 0.9580):  28%|██▊       | 2708/9753 [28:53<1:16:54,  1.53it/s]Training 1/3 epoch (loss 1.1778):  28%|██▊       | 2708/9753 [28:53<1:16:54,  1.53it/s]Training 1/3 epoch (loss 1.1778):  28%|██▊       | 2709/9753 [28:53<1:14:32,  1.58it/s]Training 1/3 epoch (loss 1.1129):  28%|██▊       | 2709/9753 [28:54<1:14:32,  1.58it/s]Training 1/3 epoch (loss 1.1129):  28%|██▊       | 2710/9753 [28:54<1:13:53,  1.59it/s]Training 1/3 epoch (loss 1.0109):  28%|██▊       | 2710/9753 [28:55<1:13:53,  1.59it/s]Training 1/3 epoch (loss 1.0109):  28%|██▊       | 2711/9753 [28:55<1:15:32,  1.55it/s]Training 1/3 epoch (loss 0.9139):  28%|██▊       | 2711/9753 [28:55<1:15:32,  1.55it/s]Training 1/3 epoch (loss 0.9139):  28%|██▊       | 2712/9753 [28:55<1:14:03,  1.58it/s]Training 1/3 epoch (loss 1.1436):  28%|██▊       | 2712/9753 [28:56<1:14:03,  1.58it/s]Training 1/3 epoch (loss 1.1436):  28%|██▊       | 2713/9753 [28:56<1:25:08,  1.38it/s]Training 1/3 epoch (loss 1.2586):  28%|██▊       | 2713/9753 [28:57<1:25:08,  1.38it/s]Training 1/3 epoch (loss 1.2586):  28%|██▊       | 2714/9753 [28:57<1:23:55,  1.40it/s]Training 1/3 epoch (loss 1.2672):  28%|██▊       | 2714/9753 [28:58<1:23:55,  1.40it/s]Training 1/3 epoch (loss 1.2672):  28%|██▊       | 2715/9753 [28:58<1:29:31,  1.31it/s]Training 1/3 epoch (loss 1.2488):  28%|██▊       | 2715/9753 [28:59<1:29:31,  1.31it/s]Training 1/3 epoch (loss 1.2488):  28%|██▊       | 2716/9753 [28:59<1:28:52,  1.32it/s]Training 1/3 epoch (loss 1.2161):  28%|██▊       | 2716/9753 [28:59<1:28:52,  1.32it/s]Training 1/3 epoch (loss 1.2161):  28%|██▊       | 2717/9753 [28:59<1:23:57,  1.40it/s]Training 1/3 epoch (loss 0.8589):  28%|██▊       | 2717/9753 [29:00<1:23:57,  1.40it/s]Training 1/3 epoch (loss 0.8589):  28%|██▊       | 2718/9753 [29:00<1:18:42,  1.49it/s]Training 1/3 epoch (loss 1.0373):  28%|██▊       | 2718/9753 [29:00<1:18:42,  1.49it/s]Training 1/3 epoch (loss 1.0373):  28%|██▊       | 2719/9753 [29:00<1:18:55,  1.49it/s]Training 1/3 epoch (loss 1.2509):  28%|██▊       | 2719/9753 [29:01<1:18:55,  1.49it/s]Training 1/3 epoch (loss 1.2509):  28%|██▊       | 2720/9753 [29:01<1:21:37,  1.44it/s]Training 1/3 epoch (loss 1.1769):  28%|██▊       | 2720/9753 [29:02<1:21:37,  1.44it/s]Training 1/3 epoch (loss 1.1769):  28%|██▊       | 2721/9753 [29:02<1:16:41,  1.53it/s]Training 1/3 epoch (loss 0.9684):  28%|██▊       | 2721/9753 [29:02<1:16:41,  1.53it/s]Training 1/3 epoch (loss 0.9684):  28%|██▊       | 2722/9753 [29:02<1:13:26,  1.60it/s]Training 1/3 epoch (loss 1.0917):  28%|██▊       | 2722/9753 [29:03<1:13:26,  1.60it/s]Training 1/3 epoch (loss 1.0917):  28%|██▊       | 2723/9753 [29:03<1:16:25,  1.53it/s]Training 1/3 epoch (loss 1.0185):  28%|██▊       | 2723/9753 [29:04<1:16:25,  1.53it/s]Training 1/3 epoch (loss 1.0185):  28%|██▊       | 2724/9753 [29:04<1:14:46,  1.57it/s]Training 1/3 epoch (loss 1.1013):  28%|██▊       | 2724/9753 [29:04<1:14:46,  1.57it/s]Training 1/3 epoch (loss 1.1013):  28%|██▊       | 2725/9753 [29:04<1:19:27,  1.47it/s]Training 1/3 epoch (loss 1.1162):  28%|██▊       | 2725/9753 [29:05<1:19:27,  1.47it/s]Training 1/3 epoch (loss 1.1162):  28%|██▊       | 2726/9753 [29:05<1:19:08,  1.48it/s]Training 1/3 epoch (loss 1.1769):  28%|██▊       | 2726/9753 [29:06<1:19:08,  1.48it/s]Training 1/3 epoch (loss 1.1769):  28%|██▊       | 2727/9753 [29:06<1:15:56,  1.54it/s]Training 1/3 epoch (loss 1.1714):  28%|██▊       | 2727/9753 [29:06<1:15:56,  1.54it/s]Training 1/3 epoch (loss 1.1714):  28%|██▊       | 2728/9753 [29:06<1:13:29,  1.59it/s]Training 1/3 epoch (loss 1.3545):  28%|██▊       | 2728/9753 [29:07<1:13:29,  1.59it/s]Training 1/3 epoch (loss 1.3545):  28%|██▊       | 2729/9753 [29:07<1:12:27,  1.62it/s]Training 1/3 epoch (loss 1.1049):  28%|██▊       | 2729/9753 [29:07<1:12:27,  1.62it/s]Training 1/3 epoch (loss 1.1049):  28%|██▊       | 2730/9753 [29:07<1:13:19,  1.60it/s]Training 1/3 epoch (loss 0.8676):  28%|██▊       | 2730/9753 [29:08<1:13:19,  1.60it/s]Training 1/3 epoch (loss 0.8676):  28%|██▊       | 2731/9753 [29:08<1:14:16,  1.58it/s]Training 1/3 epoch (loss 1.2020):  28%|██▊       | 2731/9753 [29:09<1:14:16,  1.58it/s]Training 1/3 epoch (loss 1.2020):  28%|██▊       | 2732/9753 [29:09<1:16:30,  1.53it/s]Training 1/3 epoch (loss 0.9163):  28%|██▊       | 2732/9753 [29:10<1:16:30,  1.53it/s]Training 1/3 epoch (loss 0.9163):  28%|██▊       | 2733/9753 [29:10<1:19:26,  1.47it/s]Training 1/3 epoch (loss 1.0238):  28%|██▊       | 2733/9753 [29:10<1:19:26,  1.47it/s]Training 1/3 epoch (loss 1.0238):  28%|██▊       | 2734/9753 [29:10<1:24:44,  1.38it/s]Training 1/3 epoch (loss 1.0228):  28%|██▊       | 2734/9753 [29:11<1:24:44,  1.38it/s]Training 1/3 epoch (loss 1.0228):  28%|██▊       | 2735/9753 [29:11<1:18:50,  1.48it/s]Training 1/3 epoch (loss 0.8986):  28%|██▊       | 2735/9753 [29:12<1:18:50,  1.48it/s]Training 1/3 epoch (loss 0.8986):  28%|██▊       | 2736/9753 [29:12<1:19:55,  1.46it/s]Training 1/3 epoch (loss 1.1472):  28%|██▊       | 2736/9753 [29:12<1:19:55,  1.46it/s]Training 1/3 epoch (loss 1.1472):  28%|██▊       | 2737/9753 [29:12<1:16:33,  1.53it/s]Training 1/3 epoch (loss 0.9770):  28%|██▊       | 2737/9753 [29:13<1:16:33,  1.53it/s]Training 1/3 epoch (loss 0.9770):  28%|██▊       | 2738/9753 [29:13<1:18:20,  1.49it/s]Training 1/3 epoch (loss 1.0470):  28%|██▊       | 2738/9753 [29:13<1:18:20,  1.49it/s]Training 1/3 epoch (loss 1.0470):  28%|██▊       | 2739/9753 [29:13<1:14:46,  1.56it/s]Training 1/3 epoch (loss 1.0137):  28%|██▊       | 2739/9753 [29:14<1:14:46,  1.56it/s]Training 1/3 epoch (loss 1.0137):  28%|██▊       | 2740/9753 [29:14<1:12:02,  1.62it/s]Training 1/3 epoch (loss 1.0097):  28%|██▊       | 2740/9753 [29:15<1:12:02,  1.62it/s]Training 1/3 epoch (loss 1.0097):  28%|██▊       | 2741/9753 [29:15<1:11:40,  1.63it/s]Training 1/3 epoch (loss 0.9979):  28%|██▊       | 2741/9753 [29:15<1:11:40,  1.63it/s]Training 1/3 epoch (loss 0.9979):  28%|██▊       | 2742/9753 [29:15<1:15:04,  1.56it/s]Training 1/3 epoch (loss 1.0490):  28%|██▊       | 2742/9753 [29:16<1:15:04,  1.56it/s]Training 1/3 epoch (loss 1.0490):  28%|██▊       | 2743/9753 [29:16<1:12:31,  1.61it/s]Training 1/3 epoch (loss 0.8656):  28%|██▊       | 2743/9753 [29:16<1:12:31,  1.61it/s]Training 1/3 epoch (loss 0.8656):  28%|██▊       | 2744/9753 [29:16<1:11:04,  1.64it/s]Training 1/3 epoch (loss 1.1419):  28%|██▊       | 2744/9753 [29:17<1:11:04,  1.64it/s]Training 1/3 epoch (loss 1.1419):  28%|██▊       | 2745/9753 [29:17<1:14:26,  1.57it/s]Training 1/3 epoch (loss 1.1240):  28%|██▊       | 2745/9753 [29:18<1:14:26,  1.57it/s]Training 1/3 epoch (loss 1.1240):  28%|██▊       | 2746/9753 [29:18<1:12:09,  1.62it/s]Training 1/3 epoch (loss 0.8262):  28%|██▊       | 2746/9753 [29:18<1:12:09,  1.62it/s]Training 1/3 epoch (loss 0.8262):  28%|██▊       | 2747/9753 [29:18<1:12:45,  1.60it/s]Training 1/3 epoch (loss 1.0418):  28%|██▊       | 2747/9753 [29:19<1:12:45,  1.60it/s]Training 1/3 epoch (loss 1.0418):  28%|██▊       | 2748/9753 [29:19<1:13:23,  1.59it/s]Training 1/3 epoch (loss 1.2891):  28%|██▊       | 2748/9753 [29:20<1:13:23,  1.59it/s]Training 1/3 epoch (loss 1.2891):  28%|██▊       | 2749/9753 [29:20<1:12:22,  1.61it/s]Training 1/3 epoch (loss 0.8691):  28%|██▊       | 2749/9753 [29:20<1:12:22,  1.61it/s]Training 1/3 epoch (loss 0.8691):  28%|██▊       | 2750/9753 [29:20<1:10:26,  1.66it/s]Training 1/3 epoch (loss 1.0319):  28%|██▊       | 2750/9753 [29:21<1:10:26,  1.66it/s]Training 1/3 epoch (loss 1.0319):  28%|██▊       | 2751/9753 [29:21<1:14:24,  1.57it/s]Training 1/3 epoch (loss 0.8567):  28%|██▊       | 2751/9753 [29:22<1:14:24,  1.57it/s]Training 1/3 epoch (loss 0.8567):  28%|██▊       | 2752/9753 [29:22<1:15:47,  1.54it/s]Training 1/3 epoch (loss 0.8941):  28%|██▊       | 2752/9753 [29:22<1:15:47,  1.54it/s]Training 1/3 epoch (loss 0.8941):  28%|██▊       | 2753/9753 [29:22<1:20:38,  1.45it/s]Training 1/3 epoch (loss 0.9918):  28%|██▊       | 2753/9753 [29:23<1:20:38,  1.45it/s]Training 1/3 epoch (loss 0.9918):  28%|██▊       | 2754/9753 [29:23<1:15:52,  1.54it/s]Training 1/3 epoch (loss 1.1366):  28%|██▊       | 2754/9753 [29:24<1:15:52,  1.54it/s]Training 1/3 epoch (loss 1.1366):  28%|██▊       | 2755/9753 [29:24<1:12:42,  1.60it/s]Training 1/3 epoch (loss 1.1014):  28%|██▊       | 2755/9753 [29:24<1:12:42,  1.60it/s]Training 1/3 epoch (loss 1.1014):  28%|██▊       | 2756/9753 [29:24<1:11:17,  1.64it/s]Training 1/3 epoch (loss 1.0414):  28%|██▊       | 2756/9753 [29:25<1:11:17,  1.64it/s]Training 1/3 epoch (loss 1.0414):  28%|██▊       | 2757/9753 [29:25<1:10:30,  1.65it/s]Training 1/3 epoch (loss 0.9939):  28%|██▊       | 2757/9753 [29:25<1:10:30,  1.65it/s]Training 1/3 epoch (loss 0.9939):  28%|██▊       | 2758/9753 [29:25<1:09:45,  1.67it/s]Training 1/3 epoch (loss 0.8959):  28%|██▊       | 2758/9753 [29:26<1:09:45,  1.67it/s]Training 1/3 epoch (loss 0.8959):  28%|██▊       | 2759/9753 [29:26<1:08:03,  1.71it/s]Training 1/3 epoch (loss 1.0538):  28%|██▊       | 2759/9753 [29:26<1:08:03,  1.71it/s]Training 1/3 epoch (loss 1.0538):  28%|██▊       | 2760/9753 [29:26<1:10:56,  1.64it/s]Training 1/3 epoch (loss 1.1387):  28%|██▊       | 2760/9753 [29:27<1:10:56,  1.64it/s]Training 1/3 epoch (loss 1.1387):  28%|██▊       | 2761/9753 [29:27<1:14:20,  1.57it/s]Training 1/3 epoch (loss 0.9199):  28%|██▊       | 2761/9753 [29:28<1:14:20,  1.57it/s]Training 1/3 epoch (loss 0.9199):  28%|██▊       | 2762/9753 [29:28<1:16:25,  1.52it/s]Training 1/3 epoch (loss 1.0611):  28%|██▊       | 2762/9753 [29:29<1:16:25,  1.52it/s]Training 1/3 epoch (loss 1.0611):  28%|██▊       | 2763/9753 [29:29<1:18:09,  1.49it/s]Training 1/3 epoch (loss 0.8773):  28%|██▊       | 2763/9753 [29:29<1:18:09,  1.49it/s]Training 1/3 epoch (loss 0.8773):  28%|██▊       | 2764/9753 [29:29<1:20:06,  1.45it/s]Training 1/3 epoch (loss 0.8101):  28%|██▊       | 2764/9753 [29:30<1:20:06,  1.45it/s]Training 1/3 epoch (loss 0.8101):  28%|██▊       | 2765/9753 [29:30<1:23:29,  1.40it/s]Training 1/3 epoch (loss 1.1639):  28%|██▊       | 2765/9753 [29:31<1:23:29,  1.40it/s]Training 1/3 epoch (loss 1.1639):  28%|██▊       | 2766/9753 [29:31<1:21:43,  1.42it/s]Training 1/3 epoch (loss 1.0855):  28%|██▊       | 2766/9753 [29:31<1:21:43,  1.42it/s]Training 1/3 epoch (loss 1.0855):  28%|██▊       | 2767/9753 [29:31<1:21:38,  1.43it/s]Training 1/3 epoch (loss 0.9841):  28%|██▊       | 2767/9753 [29:32<1:21:38,  1.43it/s]Training 1/3 epoch (loss 0.9841):  28%|██▊       | 2768/9753 [29:32<1:22:36,  1.41it/s]Training 1/3 epoch (loss 1.0111):  28%|██▊       | 2768/9753 [29:33<1:22:36,  1.41it/s]Training 1/3 epoch (loss 1.0111):  28%|██▊       | 2769/9753 [29:33<1:17:54,  1.49it/s]Training 1/3 epoch (loss 1.0957):  28%|██▊       | 2769/9753 [29:34<1:17:54,  1.49it/s]Training 1/3 epoch (loss 1.0957):  28%|██▊       | 2770/9753 [29:34<1:20:58,  1.44it/s]Training 1/3 epoch (loss 0.9711):  28%|██▊       | 2770/9753 [29:34<1:20:58,  1.44it/s]Training 1/3 epoch (loss 0.9711):  28%|██▊       | 2771/9753 [29:34<1:19:53,  1.46it/s]Training 1/3 epoch (loss 1.0628):  28%|██▊       | 2771/9753 [29:35<1:19:53,  1.46it/s]Training 1/3 epoch (loss 1.0628):  28%|██▊       | 2772/9753 [29:35<1:26:38,  1.34it/s]Training 1/3 epoch (loss 0.9578):  28%|██▊       | 2772/9753 [29:36<1:26:38,  1.34it/s]Training 1/3 epoch (loss 0.9578):  28%|██▊       | 2773/9753 [29:36<1:23:15,  1.40it/s]Training 1/3 epoch (loss 0.9363):  28%|██▊       | 2773/9753 [29:36<1:23:15,  1.40it/s]Training 1/3 epoch (loss 0.9363):  28%|██▊       | 2774/9753 [29:36<1:18:38,  1.48it/s]Training 1/3 epoch (loss 1.1286):  28%|██▊       | 2774/9753 [29:37<1:18:38,  1.48it/s]Training 1/3 epoch (loss 1.1286):  28%|██▊       | 2775/9753 [29:37<1:14:46,  1.56it/s]Training 1/3 epoch (loss 0.9981):  28%|██▊       | 2775/9753 [29:37<1:14:46,  1.56it/s]Training 1/3 epoch (loss 0.9981):  28%|██▊       | 2776/9753 [29:37<1:11:46,  1.62it/s]Training 1/3 epoch (loss 1.2515):  28%|██▊       | 2776/9753 [29:38<1:11:46,  1.62it/s]Training 1/3 epoch (loss 1.2515):  28%|██▊       | 2777/9753 [29:38<1:09:25,  1.67it/s]Training 1/3 epoch (loss 0.9499):  28%|██▊       | 2777/9753 [29:39<1:09:25,  1.67it/s]Training 1/3 epoch (loss 0.9499):  28%|██▊       | 2778/9753 [29:39<1:12:01,  1.61it/s]Training 1/3 epoch (loss 0.9587):  28%|██▊       | 2778/9753 [29:39<1:12:01,  1.61it/s]Training 1/3 epoch (loss 0.9587):  28%|██▊       | 2779/9753 [29:39<1:13:31,  1.58it/s]Training 1/3 epoch (loss 1.0378):  28%|██▊       | 2779/9753 [29:40<1:13:31,  1.58it/s]Training 1/3 epoch (loss 1.0378):  29%|██▊       | 2780/9753 [29:40<1:10:36,  1.65it/s]Training 1/3 epoch (loss 1.1718):  29%|██▊       | 2780/9753 [29:40<1:10:36,  1.65it/s]Training 1/3 epoch (loss 1.1718):  29%|██▊       | 2781/9753 [29:40<1:10:52,  1.64it/s]Training 1/3 epoch (loss 1.1810):  29%|██▊       | 2781/9753 [29:41<1:10:52,  1.64it/s]Training 1/3 epoch (loss 1.1810):  29%|██▊       | 2782/9753 [29:41<1:09:19,  1.68it/s]Training 1/3 epoch (loss 1.1120):  29%|██▊       | 2782/9753 [29:42<1:09:19,  1.68it/s]Training 1/3 epoch (loss 1.1120):  29%|██▊       | 2783/9753 [29:42<1:07:39,  1.72it/s]Training 1/3 epoch (loss 1.0257):  29%|██▊       | 2783/9753 [29:42<1:07:39,  1.72it/s]Training 1/3 epoch (loss 1.0257):  29%|██▊       | 2784/9753 [29:42<1:11:54,  1.62it/s]Training 1/3 epoch (loss 1.1875):  29%|██▊       | 2784/9753 [29:43<1:11:54,  1.62it/s]Training 1/3 epoch (loss 1.1875):  29%|██▊       | 2785/9753 [29:43<1:11:56,  1.61it/s]Training 1/3 epoch (loss 0.9936):  29%|██▊       | 2785/9753 [29:44<1:11:56,  1.61it/s]Training 1/3 epoch (loss 0.9936):  29%|██▊       | 2786/9753 [29:44<1:12:47,  1.60it/s]Training 1/3 epoch (loss 0.9698):  29%|██▊       | 2786/9753 [29:44<1:12:47,  1.60it/s]Training 1/3 epoch (loss 0.9698):  29%|██▊       | 2787/9753 [29:44<1:15:57,  1.53it/s]Training 1/3 epoch (loss 1.1737):  29%|██▊       | 2787/9753 [29:45<1:15:57,  1.53it/s]Training 1/3 epoch (loss 1.1737):  29%|██▊       | 2788/9753 [29:45<1:19:09,  1.47it/s]Training 1/3 epoch (loss 1.1999):  29%|██▊       | 2788/9753 [29:46<1:19:09,  1.47it/s]Training 1/3 epoch (loss 1.1999):  29%|██��       | 2789/9753 [29:46<1:15:16,  1.54it/s]Training 1/3 epoch (loss 1.0430):  29%|██▊       | 2789/9753 [29:47<1:15:16,  1.54it/s]Training 1/3 epoch (loss 1.0430):  29%|██▊       | 2790/9753 [29:47<1:24:21,  1.38it/s]Training 1/3 epoch (loss 1.3076):  29%|██▊       | 2790/9753 [29:47<1:24:21,  1.38it/s]Training 1/3 epoch (loss 1.3076):  29%|██▊       | 2791/9753 [29:47<1:24:39,  1.37it/s]Training 1/3 epoch (loss 0.8983):  29%|██▊       | 2791/9753 [29:48<1:24:39,  1.37it/s]Training 1/3 epoch (loss 0.8983):  29%|██▊       | 2792/9753 [29:48<1:19:03,  1.47it/s]Training 1/3 epoch (loss 1.0429):  29%|██▊       | 2792/9753 [29:49<1:19:03,  1.47it/s]Training 1/3 epoch (loss 1.0429):  29%|██▊       | 2793/9753 [29:49<1:26:30,  1.34it/s]Training 1/3 epoch (loss 1.2635):  29%|██▊       | 2793/9753 [29:49<1:26:30,  1.34it/s]Training 1/3 epoch (loss 1.2635):  29%|██▊       | 2794/9753 [29:49<1:22:25,  1.41it/s]Training 1/3 epoch (loss 1.2160):  29%|██▊       | 2794/9753 [29:50<1:22:25,  1.41it/s]Training 1/3 epoch (loss 1.2160):  29%|██▊       | 2795/9753 [29:50<1:17:35,  1.49it/s]Training 1/3 epoch (loss 0.9495):  29%|██▊       | 2795/9753 [29:51<1:17:35,  1.49it/s]Training 1/3 epoch (loss 0.9495):  29%|██▊       | 2796/9753 [29:51<1:15:19,  1.54it/s]Training 1/3 epoch (loss 1.1462):  29%|██▊       | 2796/9753 [29:51<1:15:19,  1.54it/s]Training 1/3 epoch (loss 1.1462):  29%|██▊       | 2797/9753 [29:51<1:13:07,  1.59it/s]Training 1/3 epoch (loss 1.0306):  29%|██▊       | 2797/9753 [29:52<1:13:07,  1.59it/s]Training 1/3 epoch (loss 1.0306):  29%|██▊       | 2798/9753 [29:52<1:12:54,  1.59it/s]Training 1/3 epoch (loss 1.2161):  29%|██▊       | 2798/9753 [29:52<1:12:54,  1.59it/s]Training 1/3 epoch (loss 1.2161):  29%|██▊       | 2799/9753 [29:52<1:15:58,  1.53it/s]Training 1/3 epoch (loss 1.1371):  29%|██▊       | 2799/9753 [29:53<1:15:58,  1.53it/s]Training 1/3 epoch (loss 1.1371):  29%|██▊       | 2800/9753 [29:53<1:19:36,  1.46it/s]Training 1/3 epoch (loss 1.2365):  29%|██▊       | 2800/9753 [29:54<1:19:36,  1.46it/s]Training 1/3 epoch (loss 1.2365):  29%|██▊       | 2801/9753 [29:54<1:18:14,  1.48it/s]Training 1/3 epoch (loss 0.9840):  29%|██▊       | 2801/9753 [29:55<1:18:14,  1.48it/s]Training 1/3 epoch (loss 0.9840):  29%|██▊       | 2802/9753 [29:55<1:18:25,  1.48it/s]Training 1/3 epoch (loss 1.2479):  29%|██▊       | 2802/9753 [29:55<1:18:25,  1.48it/s]Training 1/3 epoch (loss 1.2479):  29%|██▊       | 2803/9753 [29:55<1:16:43,  1.51it/s]Training 1/3 epoch (loss 1.1381):  29%|██▊       | 2803/9753 [29:56<1:16:43,  1.51it/s]Training 1/3 epoch (loss 1.1381):  29%|██▉       | 2804/9753 [29:56<1:18:36,  1.47it/s]Training 1/3 epoch (loss 1.0670):  29%|██▉       | 2804/9753 [29:56<1:18:36,  1.47it/s]Training 1/3 epoch (loss 1.0670):  29%|██▉       | 2805/9753 [29:56<1:15:38,  1.53it/s]Training 1/3 epoch (loss 1.1129):  29%|██▉       | 2805/9753 [29:57<1:15:38,  1.53it/s]Training 1/3 epoch (loss 1.1129):  29%|██▉       | 2806/9753 [29:57<1:13:59,  1.56it/s]Training 1/3 epoch (loss 1.0726):  29%|██▉       | 2806/9753 [29:58<1:13:59,  1.56it/s]Training 1/3 epoch (loss 1.0726):  29%|██▉       | 2807/9753 [29:58<1:14:03,  1.56it/s]Training 1/3 epoch (loss 1.1475):  29%|██▉       | 2807/9753 [29:58<1:14:03,  1.56it/s]Training 1/3 epoch (loss 1.1475):  29%|██▉       | 2808/9753 [29:58<1:17:49,  1.49it/s]Training 1/3 epoch (loss 1.2501):  29%|██▉       | 2808/9753 [29:59<1:17:49,  1.49it/s]Training 1/3 epoch (loss 1.2501):  29%|██▉       | 2809/9753 [29:59<1:14:48,  1.55it/s]Training 1/3 epoch (loss 1.2483):  29%|██▉       | 2809/9753 [30:00<1:14:48,  1.55it/s]Training 1/3 epoch (loss 1.2483):  29%|██▉       | 2810/9753 [30:00<1:13:17,  1.58it/s]Training 1/3 epoch (loss 0.8100):  29%|██▉       | 2810/9753 [30:01<1:13:17,  1.58it/s]Training 1/3 epoch (loss 0.8100):  29%|██▉       | 2811/9753 [30:01<1:23:10,  1.39it/s]Training 1/3 epoch (loss 1.2083):  29%|██▉       | 2811/9753 [30:01<1:23:10,  1.39it/s]Training 1/3 epoch (loss 1.2083):  29%|██▉       | 2812/9753 [30:01<1:24:54,  1.36it/s]Training 1/3 epoch (loss 1.0423):  29%|██▉       | 2812/9753 [30:02<1:24:54,  1.36it/s]Training 1/3 epoch (loss 1.0423):  29%|██▉       | 2813/9753 [30:02<1:19:20,  1.46it/s]Training 1/3 epoch (loss 1.1006):  29%|██▉       | 2813/9753 [30:03<1:19:20,  1.46it/s]Training 1/3 epoch (loss 1.1006):  29%|██▉       | 2814/9753 [30:03<1:15:48,  1.53it/s]Training 1/3 epoch (loss 1.1990):  29%|██▉       | 2814/9753 [30:03<1:15:48,  1.53it/s]Training 1/3 epoch (loss 1.1990):  29%|██▉       | 2815/9753 [30:03<1:14:22,  1.55it/s]Training 1/3 epoch (loss 1.3775):  29%|██▉       | 2815/9753 [30:04<1:14:22,  1.55it/s]Training 1/3 epoch (loss 1.3775):  29%|██▉       | 2816/9753 [30:04<1:19:26,  1.46it/s]Training 1/3 epoch (loss 1.0912):  29%|██▉       | 2816/9753 [30:05<1:19:26,  1.46it/s]Training 1/3 epoch (loss 1.0912):  29%|██▉       | 2817/9753 [30:05<1:17:53,  1.48it/s]Training 1/3 epoch (loss 0.9443):  29%|██▉       | 2817/9753 [30:05<1:17:53,  1.48it/s]Training 1/3 epoch (loss 0.9443):  29%|██▉       | 2818/9753 [30:05<1:17:11,  1.50it/s]Training 1/3 epoch (loss 0.9599):  29%|██▉       | 2818/9753 [30:06<1:17:11,  1.50it/s]Training 1/3 epoch (loss 0.9599):  29%|██▉       | 2819/9753 [30:06<1:17:23,  1.49it/s]Training 1/3 epoch (loss 1.1087):  29%|██▉       | 2819/9753 [30:07<1:17:23,  1.49it/s]Training 1/3 epoch (loss 1.1087):  29%|██▉       | 2820/9753 [30:07<1:17:53,  1.48it/s]Training 1/3 epoch (loss 1.1606):  29%|██▉       | 2820/9753 [30:07<1:17:53,  1.48it/s]Training 1/3 epoch (loss 1.1606):  29%|██▉       | 2821/9753 [30:07<1:15:12,  1.54it/s]Training 1/3 epoch (loss 0.9651):  29%|██▉       | 2821/9753 [30:08<1:15:12,  1.54it/s]Training 1/3 epoch (loss 0.9651):  29%|██▉       | 2822/9753 [30:08<1:13:13,  1.58it/s]Training 1/3 epoch (loss 1.1654):  29%|██▉       | 2822/9753 [30:08<1:13:13,  1.58it/s]Training 1/3 epoch (loss 1.1654):  29%|██▉       | 2823/9753 [30:08<1:16:08,  1.52it/s]Training 1/3 epoch (loss 1.0379):  29%|██▉       | 2823/9753 [30:09<1:16:08,  1.52it/s]Training 1/3 epoch (loss 1.0379):  29%|██▉       | 2824/9753 [30:09<1:19:14,  1.46it/s]Training 1/3 epoch (loss 0.9654):  29%|██▉       | 2824/9753 [30:10<1:19:14,  1.46it/s]Training 1/3 epoch (loss 0.9654):  29%|██▉       | 2825/9753 [30:10<1:15:49,  1.52it/s]Training 1/3 epoch (loss 1.0844):  29%|██▉       | 2825/9753 [30:10<1:15:49,  1.52it/s]Training 1/3 epoch (loss 1.0844):  29%|██▉       | 2826/9753 [30:10<1:12:02,  1.60it/s]Training 1/3 epoch (loss 0.8300):  29%|██▉       | 2826/9753 [30:11<1:12:02,  1.60it/s]Training 1/3 epoch (loss 0.8300):  29%|██▉       | 2827/9753 [30:11<1:09:27,  1.66it/s]Training 1/3 epoch (loss 1.0138):  29%|██▉       | 2827/9753 [30:11<1:09:27,  1.66it/s]Training 1/3 epoch (loss 1.0138):  29%|██▉       | 2828/9753 [30:11<1:07:42,  1.70it/s]Training 1/3 epoch (loss 1.2041):  29%|██▉       | 2828/9753 [30:12<1:07:42,  1.70it/s]Training 1/3 epoch (loss 1.2041):  29%|██▉       | 2829/9753 [30:12<1:06:24,  1.74it/s]Training 1/3 epoch (loss 0.9783):  29%|██▉       | 2829/9753 [30:13<1:06:24,  1.74it/s]Training 1/3 epoch (loss 0.9783):  29%|██▉       | 2830/9753 [30:13<1:05:45,  1.75it/s]Training 1/3 epoch (loss 1.1842):  29%|██▉       | 2830/9753 [30:13<1:05:45,  1.75it/s]Training 1/3 epoch (loss 1.1842):  29%|██▉       | 2831/9753 [30:13<1:09:32,  1.66it/s]Training 1/3 epoch (loss 0.9269):  29%|██▉       | 2831/9753 [30:14<1:09:32,  1.66it/s]Training 1/3 epoch (loss 0.9269):  29%|██▉       | 2832/9753 [30:14<1:12:55,  1.58it/s]Training 1/3 epoch (loss 1.0430):  29%|██▉       | 2832/9753 [30:15<1:12:55,  1.58it/s]Training 1/3 epoch (loss 1.0430):  29%|██▉       | 2833/9753 [30:15<1:13:03,  1.58it/s]Training 1/3 epoch (loss 1.1079):  29%|██▉       | 2833/9753 [30:15<1:13:03,  1.58it/s]Training 1/3 epoch (loss 1.1079):  29%|██▉       | 2834/9753 [30:15<1:11:39,  1.61it/s]Training 1/3 epoch (loss 0.8719):  29%|██▉       | 2834/9753 [30:16<1:11:39,  1.61it/s]Training 1/3 epoch (loss 0.8719):  29%|██▉       | 2835/9753 [30:16<1:18:33,  1.47it/s]Training 1/3 epoch (loss 0.8832):  29%|██▉       | 2835/9753 [30:17<1:18:33,  1.47it/s]Training 1/3 epoch (loss 0.8832):  29%|██▉       | 2836/9753 [30:17<1:20:48,  1.43it/s]Training 1/3 epoch (loss 0.9104):  29%|██▉       | 2836/9753 [30:17<1:20:48,  1.43it/s]Training 1/3 epoch (loss 0.9104):  29%|██▉       | 2837/9753 [30:17<1:16:42,  1.50it/s]Training 1/3 epoch (loss 1.1328):  29%|██▉       | 2837/9753 [30:18<1:16:42,  1.50it/s]Training 1/3 epoch (loss 1.1328):  29%|██▉       | 2838/9753 [30:18<1:12:35,  1.59it/s]Training 1/3 epoch (loss 0.9659):  29%|██▉       | 2838/9753 [30:18<1:12:35,  1.59it/s]Training 1/3 epoch (loss 0.9659):  29%|██▉       | 2839/9753 [30:18<1:11:50,  1.60it/s]Training 1/3 epoch (loss 0.8842):  29%|██▉       | 2839/9753 [30:19<1:11:50,  1.60it/s]Training 1/3 epoch (loss 0.8842):  29%|██▉       | 2840/9753 [30:19<1:11:32,  1.61it/s]Training 1/3 epoch (loss 1.1314):  29%|██▉       | 2840/9753 [30:20<1:11:32,  1.61it/s]Training 1/3 epoch (loss 1.1314):  29%|██▉       | 2841/9753 [30:20<1:10:03,  1.64it/s]Training 1/3 epoch (loss 0.9965):  29%|██▉       | 2841/9753 [30:20<1:10:03,  1.64it/s]Training 1/3 epoch (loss 0.9965):  29%|██▉       | 2842/9753 [30:20<1:12:32,  1.59it/s]Training 1/3 epoch (loss 1.0666):  29%|██▉       | 2842/9753 [30:21<1:12:32,  1.59it/s]Training 1/3 epoch (loss 1.0666):  29%|██▉       | 2843/9753 [30:21<1:10:24,  1.64it/s]Training 1/3 epoch (loss 1.0408):  29%|��█▉       | 2843/9753 [30:22<1:10:24,  1.64it/s]Training 1/3 epoch (loss 1.0408):  29%|██▉       | 2844/9753 [30:22<1:10:22,  1.64it/s]Training 1/3 epoch (loss 1.1842):  29%|██▉       | 2844/9753 [30:22<1:10:22,  1.64it/s]Training 1/3 epoch (loss 1.1842):  29%|██▉       | 2845/9753 [30:22<1:08:24,  1.68it/s]Training 1/3 epoch (loss 1.1963):  29%|██▉       | 2845/9753 [30:23<1:08:24,  1.68it/s]Training 1/3 epoch (loss 1.1963):  29%|██▉       | 2846/9753 [30:23<1:07:24,  1.71it/s]Training 1/3 epoch (loss 1.1659):  29%|██▉       | 2846/9753 [30:23<1:07:24,  1.71it/s]Training 1/3 epoch (loss 1.1659):  29%|██▉       | 2847/9753 [30:23<1:06:19,  1.74it/s]Training 1/3 epoch (loss 1.0945):  29%|██▉       | 2847/9753 [30:24<1:06:19,  1.74it/s]Training 1/3 epoch (loss 1.0945):  29%|██▉       | 2848/9753 [30:24<1:10:07,  1.64it/s]Training 1/3 epoch (loss 0.8409):  29%|██▉       | 2848/9753 [30:24<1:10:07,  1.64it/s]Training 1/3 epoch (loss 0.8409):  29%|██▉       | 2849/9753 [30:24<1:08:51,  1.67it/s]Training 1/3 epoch (loss 1.0434):  29%|██▉       | 2849/9753 [30:25<1:08:51,  1.67it/s]Training 1/3 epoch (loss 1.0434):  29%|██▉       | 2850/9753 [30:25<1:13:37,  1.56it/s]Training 1/3 epoch (loss 1.0573):  29%|██▉       | 2850/9753 [30:26<1:13:37,  1.56it/s]Training 1/3 epoch (loss 1.0573):  29%|██▉       | 2851/9753 [30:26<1:10:58,  1.62it/s]Training 1/3 epoch (loss 1.2360):  29%|██▉       | 2851/9753 [30:26<1:10:58,  1.62it/s]Training 1/3 epoch (loss 1.2360):  29%|██▉       | 2852/9753 [30:26<1:10:09,  1.64it/s]Training 1/3 epoch (loss 0.9591):  29%|██▉       | 2852/9753 [30:27<1:10:09,  1.64it/s]Training 1/3 epoch (loss 0.9591):  29%|██▉       | 2853/9753 [30:27<1:20:51,  1.42it/s]Training 1/3 epoch (loss 0.9199):  29%|██▉       | 2853/9753 [30:28<1:20:51,  1.42it/s]Training 1/3 epoch (loss 0.9199):  29%|██▉       | 2854/9753 [30:28<1:15:37,  1.52it/s]Training 1/3 epoch (loss 1.1746):  29%|██▉       | 2854/9753 [30:28<1:15:37,  1.52it/s]Training 1/3 epoch (loss 1.1746):  29%|██▉       | 2855/9753 [30:28<1:11:58,  1.60it/s]Training 1/3 epoch (loss 1.0321):  29%|██▉       | 2855/9753 [30:29<1:11:58,  1.60it/s]Training 1/3 epoch (loss 1.0321):  29%|██▉       | 2856/9753 [30:29<1:14:32,  1.54it/s]Training 1/3 epoch (loss 1.1327):  29%|██▉       | 2856/9753 [30:30<1:14:32,  1.54it/s]Training 1/3 epoch (loss 1.1327):  29%|██▉       | 2857/9753 [30:30<1:11:06,  1.62it/s]Training 1/3 epoch (loss 1.0198):  29%|██▉       | 2857/9753 [30:30<1:11:06,  1.62it/s]Training 1/3 epoch (loss 1.0198):  29%|██▉       | 2858/9753 [30:30<1:09:05,  1.66it/s]Training 1/3 epoch (loss 0.9782):  29%|██▉       | 2858/9753 [30:31<1:09:05,  1.66it/s]Training 1/3 epoch (loss 0.9782):  29%|██▉       | 2859/9753 [30:31<1:07:45,  1.70it/s]Training 1/3 epoch (loss 1.1824):  29%|██▉       | 2859/9753 [30:31<1:07:45,  1.70it/s]Training 1/3 epoch (loss 1.1824):  29%|██▉       | 2860/9753 [30:31<1:07:50,  1.69it/s]Training 1/3 epoch (loss 1.3282):  29%|██▉       | 2860/9753 [30:32<1:07:50,  1.69it/s]Training 1/3 epoch (loss 1.3282):  29%|██▉       | 2861/9753 [30:32<1:09:46,  1.65it/s]Training 1/3 epoch (loss 1.0984):  29%|██▉       | 2861/9753 [30:33<1:09:46,  1.65it/s]Training 1/3 epoch (loss 1.0984):  29%|██▉       | 2862/9753 [30:33<1:08:43,  1.67it/s]Training 1/3 epoch (loss 1.1401):  29%|██▉       | 2862/9753 [30:33<1:08:43,  1.67it/s]Training 1/3 epoch (loss 1.1401):  29%|██▉       | 2863/9753 [30:33<1:07:26,  1.70it/s]Training 1/3 epoch (loss 0.8795):  29%|██▉       | 2863/9753 [30:34<1:07:26,  1.70it/s]Training 1/3 epoch (loss 0.8795):  29%|██▉       | 2864/9753 [30:34<1:10:37,  1.63it/s]Training 1/3 epoch (loss 1.1220):  29%|██▉       | 2864/9753 [30:34<1:10:37,  1.63it/s]Training 1/3 epoch (loss 1.1220):  29%|██▉       | 2865/9753 [30:34<1:08:42,  1.67it/s]Training 1/3 epoch (loss 0.8456):  29%|██▉       | 2865/9753 [30:35<1:08:42,  1.67it/s]Training 1/3 epoch (loss 0.8456):  29%|██▉       | 2866/9753 [30:35<1:06:58,  1.71it/s]Training 1/3 epoch (loss 0.9581):  29%|██▉       | 2866/9753 [30:35<1:06:58,  1.71it/s]Training 1/3 epoch (loss 0.9581):  29%|██▉       | 2867/9753 [30:35<1:05:47,  1.74it/s]Training 1/3 epoch (loss 0.8511):  29%|██▉       | 2867/9753 [30:36<1:05:47,  1.74it/s]Training 1/3 epoch (loss 0.8511):  29%|██▉       | 2868/9753 [30:36<1:04:57,  1.77it/s]Training 1/3 epoch (loss 1.0330):  29%|██▉       | 2868/9753 [30:37<1:04:57,  1.77it/s]Training 1/3 epoch (loss 1.0330):  29%|██▉       | 2869/9753 [30:37<1:04:17,  1.78it/s]Training 1/3 epoch (loss 1.2618):  29%|██▉       | 2869/9753 [30:37<1:04:17,  1.78it/s]Training 1/3 epoch (loss 1.2618):  29%|██▉       | 2870/9753 [30:37<1:04:47,  1.77it/s]Training 1/3 epoch (loss 1.2342):  29%|██▉       | 2870/9753 [30:38<1:04:47,  1.77it/s]Training 1/3 epoch (loss 1.2342):  29%|██▉       | 2871/9753 [30:38<1:08:01,  1.69it/s]Training 1/3 epoch (loss 1.2170):  29%|██▉       | 2871/9753 [30:39<1:08:01,  1.69it/s]Training 1/3 epoch (loss 1.2170):  29%|██▉       | 2872/9753 [30:39<1:16:09,  1.51it/s]Training 1/3 epoch (loss 1.1651):  29%|██▉       | 2872/9753 [30:39<1:16:09,  1.51it/s]Training 1/3 epoch (loss 1.1651):  29%|██▉       | 2873/9753 [30:39<1:15:19,  1.52it/s]Training 1/3 epoch (loss 0.9968):  29%|██▉       | 2873/9753 [30:40<1:15:19,  1.52it/s]Training 1/3 epoch (loss 0.9968):  29%|██▉       | 2874/9753 [30:40<1:14:30,  1.54it/s]Training 1/3 epoch (loss 0.6423):  29%|██▉       | 2874/9753 [30:41<1:14:30,  1.54it/s]Training 1/3 epoch (loss 0.6423):  29%|██▉       | 2875/9753 [30:41<1:13:03,  1.57it/s]Training 1/3 epoch (loss 1.1784):  29%|██▉       | 2875/9753 [30:41<1:13:03,  1.57it/s]Training 1/3 epoch (loss 1.1784):  29%|██▉       | 2876/9753 [30:41<1:15:26,  1.52it/s]Training 1/3 epoch (loss 0.9463):  29%|██▉       | 2876/9753 [30:42<1:15:26,  1.52it/s]Training 1/3 epoch (loss 0.9463):  29%|██▉       | 2877/9753 [30:42<1:11:58,  1.59it/s]Training 1/3 epoch (loss 1.0842):  29%|██▉       | 2877/9753 [30:42<1:11:58,  1.59it/s]Training 1/3 epoch (loss 1.0842):  30%|██▉       | 2878/9753 [30:42<1:13:47,  1.55it/s]Training 1/3 epoch (loss 1.0369):  30%|██▉       | 2878/9753 [30:43<1:13:47,  1.55it/s]Training 1/3 epoch (loss 1.0369):  30%|██▉       | 2879/9753 [30:43<1:21:18,  1.41it/s]Training 1/3 epoch (loss 0.9692):  30%|██▉       | 2879/9753 [30:44<1:21:18,  1.41it/s]Training 1/3 epoch (loss 0.9692):  30%|██▉       | 2880/9753 [30:44<1:21:47,  1.40it/s]Training 1/3 epoch (loss 0.9389):  30%|██▉       | 2880/9753 [30:45<1:21:47,  1.40it/s]Training 1/3 epoch (loss 0.9389):  30%|██▉       | 2881/9753 [30:45<1:18:06,  1.47it/s]Training 1/3 epoch (loss 1.0331):  30%|██▉       | 2881/9753 [30:45<1:18:06,  1.47it/s]Training 1/3 epoch (loss 1.0331):  30%|██▉       | 2882/9753 [30:45<1:16:36,  1.49it/s]Training 1/3 epoch (loss 0.9729):  30%|██▉       | 2882/9753 [30:46<1:16:36,  1.49it/s]Training 1/3 epoch (loss 0.9729):  30%|██▉       | 2883/9753 [30:46<1:14:37,  1.53it/s]Training 1/3 epoch (loss 0.9800):  30%|██▉       | 2883/9753 [30:46<1:14:37,  1.53it/s]Training 1/3 epoch (loss 0.9800):  30%|██▉       | 2884/9753 [30:46<1:11:53,  1.59it/s]Training 1/3 epoch (loss 1.1374):  30%|██▉       | 2884/9753 [30:47<1:11:53,  1.59it/s]Training 1/3 epoch (loss 1.1374):  30%|██▉       | 2885/9753 [30:47<1:09:12,  1.65it/s]Training 1/3 epoch (loss 1.1702):  30%|██▉       | 2885/9753 [30:48<1:09:12,  1.65it/s]Training 1/3 epoch (loss 1.1702):  30%|██▉       | 2886/9753 [30:48<1:07:29,  1.70it/s]Training 1/3 epoch (loss 1.0719):  30%|██▉       | 2886/9753 [30:48<1:07:29,  1.70it/s]Training 1/3 epoch (loss 1.0719):  30%|██▉       | 2887/9753 [30:48<1:09:18,  1.65it/s]Training 1/3 epoch (loss 1.3192):  30%|██▉       | 2887/9753 [30:49<1:09:18,  1.65it/s]Training 1/3 epoch (loss 1.3192):  30%|██▉       | 2888/9753 [30:49<1:13:56,  1.55it/s]Training 1/3 epoch (loss 0.9901):  30%|██▉       | 2888/9753 [30:50<1:13:56,  1.55it/s]Training 1/3 epoch (loss 0.9901):  30%|██▉       | 2889/9753 [30:50<1:11:20,  1.60it/s]Training 1/3 epoch (loss 0.9714):  30%|██▉       | 2889/9753 [30:50<1:11:20,  1.60it/s]Training 1/3 epoch (loss 0.9714):  30%|██▉       | 2890/9753 [30:50<1:08:49,  1.66it/s]Training 1/3 epoch (loss 1.1517):  30%|██▉       | 2890/9753 [30:51<1:08:49,  1.66it/s]Training 1/3 epoch (loss 1.1517):  30%|██▉       | 2891/9753 [30:51<1:10:20,  1.63it/s]Training 1/3 epoch (loss 1.1200):  30%|██▉       | 2891/9753 [30:51<1:10:20,  1.63it/s]Training 1/3 epoch (loss 1.1200):  30%|██▉       | 2892/9753 [30:51<1:10:20,  1.63it/s]Training 1/3 epoch (loss 1.0398):  30%|██▉       | 2892/9753 [30:52<1:10:20,  1.63it/s]Training 1/3 epoch (loss 1.0398):  30%|██▉       | 2893/9753 [30:52<1:09:26,  1.65it/s]Training 1/3 epoch (loss 0.9778):  30%|██▉       | 2893/9753 [30:53<1:09:26,  1.65it/s]Training 1/3 epoch (loss 0.9778):  30%|██▉       | 2894/9753 [30:53<1:20:01,  1.43it/s]Training 1/3 epoch (loss 1.1279):  30%|██▉       | 2894/9753 [30:53<1:20:01,  1.43it/s]Training 1/3 epoch (loss 1.1279):  30%|██▉       | 2895/9753 [30:53<1:15:21,  1.52it/s]Training 1/3 epoch (loss 1.0744):  30%|██▉       | 2895/9753 [30:54<1:15:21,  1.52it/s]Training 1/3 epoch (loss 1.0744):  30%|██▉       | 2896/9753 [30:54<1:16:18,  1.50it/s]Training 1/3 epoch (loss 1.1900):  30%|██▉       | 2896/9753 [30:55<1:16:18,  1.50it/s]Training 1/3 epoch (loss 1.1900):  30%|██▉       | 2897/9753 [30:55<1:12:26,  1.58it/s]Training 1/3 epoch (loss 1.0147):  30%|██▉       | 2897/9753 [30:55<1:12:26,  1.58it/s]Training 1/3 epoch (loss 1.0147):  30%|██▉       | 2898/9753 [30:55<1:09:43,  1.64it/s]Training 1/3 epoch (loss 1.1338):  30%|██▉       | 2898/9753 [30:56<1:09:43,  1.64it/s]Training 1/3 epoch (loss 1.1338):  30%|██▉       | 2899/9753 [30:56<1:10:35,  1.62it/s]Training 1/3 epoch (loss 1.0263):  30%|██▉       | 2899/9753 [30:56<1:10:35,  1.62it/s]Training 1/3 epoch (loss 1.0263):  30%|██▉       | 2900/9753 [30:56<1:10:47,  1.61it/s]Training 1/3 epoch (loss 1.1406):  30%|██▉       | 2900/9753 [30:57<1:10:47,  1.61it/s]Training 1/3 epoch (loss 1.1406):  30%|██▉       | 2901/9753 [30:57<1:18:49,  1.45it/s]Training 1/3 epoch (loss 1.1396):  30%|██▉       | 2901/9753 [30:58<1:18:49,  1.45it/s]Training 1/3 epoch (loss 1.1396):  30%|██▉       | 2902/9753 [30:58<1:14:56,  1.52it/s]Training 1/3 epoch (loss 1.0530):  30%|██▉       | 2902/9753 [30:59<1:14:56,  1.52it/s]Training 1/3 epoch (loss 1.0530):  30%|██▉       | 2903/9753 [30:59<1:15:07,  1.52it/s]Training 1/3 epoch (loss 1.1760):  30%|██▉       | 2903/9753 [30:59<1:15:07,  1.52it/s]Training 1/3 epoch (loss 1.1760):  30%|██▉       | 2904/9753 [30:59<1:20:33,  1.42it/s]Training 1/3 epoch (loss 1.0432):  30%|██▉       | 2904/9753 [31:00<1:20:33,  1.42it/s]Training 1/3 epoch (loss 1.0432):  30%|██▉       | 2905/9753 [31:00<1:18:42,  1.45it/s]Training 1/3 epoch (loss 1.1330):  30%|██▉       | 2905/9753 [31:01<1:18:42,  1.45it/s]Training 1/3 epoch (loss 1.1330):  30%|██▉       | 2906/9753 [31:01<1:18:57,  1.45it/s]Training 1/3 epoch (loss 1.2364):  30%|██▉       | 2906/9753 [31:02<1:18:57,  1.45it/s]Training 1/3 epoch (loss 1.2364):  30%|██▉       | 2907/9753 [31:02<1:28:24,  1.29it/s]Training 1/3 epoch (loss 0.7107):  30%|██▉       | 2907/9753 [31:02<1:28:24,  1.29it/s]Training 1/3 epoch (loss 0.7107):  30%|██▉       | 2908/9753 [31:02<1:22:05,  1.39it/s]Training 1/3 epoch (loss 1.1104):  30%|██▉       | 2908/9753 [31:03<1:22:05,  1.39it/s]Training 1/3 epoch (loss 1.1104):  30%|██▉       | 2909/9753 [31:03<1:17:44,  1.47it/s]Training 1/3 epoch (loss 1.2723):  30%|██▉       | 2909/9753 [31:04<1:17:44,  1.47it/s]Training 1/3 epoch (loss 1.2723):  30%|██▉       | 2910/9753 [31:04<1:25:21,  1.34it/s]Training 1/3 epoch (loss 1.1199):  30%|██▉       | 2910/9753 [31:05<1:25:21,  1.34it/s]Training 1/3 epoch (loss 1.1199):  30%|██▉       | 2911/9753 [31:05<1:29:46,  1.27it/s]Training 1/3 epoch (loss 1.1940):  30%|██▉       | 2911/9753 [31:05<1:29:46,  1.27it/s]Training 1/3 epoch (loss 1.1940):  30%|██▉       | 2912/9753 [31:05<1:26:22,  1.32it/s]Training 1/3 epoch (loss 1.1107):  30%|██▉       | 2912/9753 [31:06<1:26:22,  1.32it/s]Training 1/3 epoch (loss 1.1107):  30%|██▉       | 2913/9753 [31:06<1:24:11,  1.35it/s]Training 1/3 epoch (loss 1.0111):  30%|██▉       | 2913/9753 [31:07<1:24:11,  1.35it/s]Training 1/3 epoch (loss 1.0111):  30%|██▉       | 2914/9753 [31:07<1:18:37,  1.45it/s]Training 1/3 epoch (loss 1.1638):  30%|██▉       | 2914/9753 [31:07<1:18:37,  1.45it/s]Training 1/3 epoch (loss 1.1638):  30%|██▉       | 2915/9753 [31:07<1:13:43,  1.55it/s]Training 1/3 epoch (loss 0.9963):  30%|██▉       | 2915/9753 [31:08<1:13:43,  1.55it/s]Training 1/3 epoch (loss 0.9963):  30%|██▉       | 2916/9753 [31:08<1:10:39,  1.61it/s]Training 1/3 epoch (loss 1.2373):  30%|██▉       | 2916/9753 [31:08<1:10:39,  1.61it/s]Training 1/3 epoch (loss 1.2373):  30%|██▉       | 2917/9753 [31:08<1:09:51,  1.63it/s]Training 1/3 epoch (loss 1.2822):  30%|██▉       | 2917/9753 [31:09<1:09:51,  1.63it/s]Training 1/3 epoch (loss 1.2822):  30%|██▉       | 2918/9753 [31:09<1:07:45,  1.68it/s]Training 1/3 epoch (loss 0.9553):  30%|██▉       | 2918/9753 [31:09<1:07:45,  1.68it/s]Training 1/3 epoch (loss 0.9553):  30%|██▉       | 2919/9753 [31:09<1:06:16,  1.72it/s]Training 1/3 epoch (loss 0.8885):  30%|██▉       | 2919/9753 [31:10<1:06:16,  1.72it/s]Training 1/3 epoch (loss 0.8885):  30%|██▉       | 2920/9753 [31:10<1:11:58,  1.58it/s]Training 1/3 epoch (loss 1.1657):  30%|██▉       | 2920/9753 [31:11<1:11:58,  1.58it/s]Training 1/3 epoch (loss 1.1657):  30%|██▉       | 2921/9753 [31:11<1:11:16,  1.60it/s]Training 1/3 epoch (loss 1.1047):  30%|██▉       | 2921/9753 [31:11<1:11:16,  1.60it/s]Training 1/3 epoch (loss 1.1047):  30%|██▉       | 2922/9753 [31:11<1:12:10,  1.58it/s]Training 1/3 epoch (loss 1.0544):  30%|██▉       | 2922/9753 [31:12<1:12:10,  1.58it/s]Training 1/3 epoch (loss 1.0544):  30%|██▉       | 2923/9753 [31:12<1:10:24,  1.62it/s]Training 1/3 epoch (loss 1.0653):  30%|██▉       | 2923/9753 [31:13<1:10:24,  1.62it/s]Training 1/3 epoch (loss 1.0653):  30%|██▉       | 2924/9753 [31:13<1:09:39,  1.63it/s]Training 1/3 epoch (loss 0.9895):  30%|██▉       | 2924/9753 [31:13<1:09:39,  1.63it/s]Training 1/3 epoch (loss 0.9895):  30%|██▉       | 2925/9753 [31:13<1:10:48,  1.61it/s]Training 1/3 epoch (loss 1.0336):  30%|██▉       | 2925/9753 [31:14<1:10:48,  1.61it/s]Training 1/3 epoch (loss 1.0336):  30%|███       | 2926/9753 [31:14<1:13:01,  1.56it/s]Training 1/3 epoch (loss 1.1205):  30%|███       | 2926/9753 [31:15<1:13:01,  1.56it/s]Training 1/3 epoch (loss 1.1205):  30%|███       | 2927/9753 [31:15<1:17:49,  1.46it/s]Training 1/3 epoch (loss 0.9586):  30%|███       | 2927/9753 [31:16<1:17:49,  1.46it/s]Training 1/3 epoch (loss 0.9586):  30%|███       | 2928/9753 [31:16<1:21:01,  1.40it/s]Training 1/3 epoch (loss 0.9273):  30%|███       | 2928/9753 [31:16<1:21:01,  1.40it/s]Training 1/3 epoch (loss 0.9273):  30%|███       | 2929/9753 [31:16<1:18:56,  1.44it/s]Training 1/3 epoch (loss 1.2938):  30%|███       | 2929/9753 [31:17<1:18:56,  1.44it/s]Training 1/3 epoch (loss 1.2938):  30%|███       | 2930/9753 [31:17<1:20:12,  1.42it/s]Training 1/3 epoch (loss 1.1520):  30%|███       | 2930/9753 [31:18<1:20:12,  1.42it/s]Training 1/3 epoch (loss 1.1520):  30%|███       | 2931/9753 [31:18<1:17:35,  1.47it/s]Training 1/3 epoch (loss 1.0182):  30%|███       | 2931/9753 [31:18<1:17:35,  1.47it/s]Training 1/3 epoch (loss 1.0182):  30%|███       | 2932/9753 [31:18<1:14:24,  1.53it/s]Training 1/3 epoch (loss 1.1406):  30%|███       | 2932/9753 [31:19<1:14:24,  1.53it/s]Training 1/3 epoch (loss 1.1406):  30%|███       | 2933/9753 [31:19<1:11:20,  1.59it/s]Training 1/3 epoch (loss 1.1299):  30%|███       | 2933/9753 [31:19<1:11:20,  1.59it/s]Training 1/3 epoch (loss 1.1299):  30%|███       | 2934/9753 [31:19<1:13:39,  1.54it/s]Training 1/3 epoch (loss 0.9129):  30%|███       | 2934/9753 [31:20<1:13:39,  1.54it/s]Training 1/3 epoch (loss 0.9129):  30%|███       | 2935/9753 [31:20<1:20:03,  1.42it/s]Training 1/3 epoch (loss 1.0713):  30%|███       | 2935/9753 [31:21<1:20:03,  1.42it/s]Training 1/3 epoch (loss 1.0713):  30%|███       | 2936/9753 [31:21<1:20:58,  1.40it/s]Training 1/3 epoch (loss 1.1113):  30%|███       | 2936/9753 [31:22<1:20:58,  1.40it/s]Training 1/3 epoch (loss 1.1113):  30%|███       | 2937/9753 [31:22<1:17:50,  1.46it/s]Training 1/3 epoch (loss 1.3481):  30%|███       | 2937/9753 [31:22<1:17:50,  1.46it/s]Training 1/3 epoch (loss 1.3481):  30%|███       | 2938/9753 [31:22<1:14:23,  1.53it/s]Training 1/3 epoch (loss 1.2305):  30%|███       | 2938/9753 [31:23<1:14:23,  1.53it/s]Training 1/3 epoch (loss 1.2305):  30%|███       | 2939/9753 [31:23<1:13:36,  1.54it/s]Training 1/3 epoch (loss 0.8811):  30%|███       | 2939/9753 [31:24<1:13:36,  1.54it/s]Training 1/3 epoch (loss 0.8811):  30%|███       | 2940/9753 [31:24<1:17:51,  1.46it/s]Training 1/3 epoch (loss 1.2412):  30%|███       | 2940/9753 [31:24<1:17:51,  1.46it/s]Training 1/3 epoch (loss 1.2412):  30%|███       | 2941/9753 [31:24<1:17:57,  1.46it/s]Training 1/3 epoch (loss 1.0990):  30%|███       | 2941/9753 [31:25<1:17:57,  1.46it/s]Training 1/3 epoch (loss 1.0990):  30%|███       | 2942/9753 [31:25<1:19:33,  1.43it/s]Training 1/3 epoch (loss 1.1462):  30%|███       | 2942/9753 [31:26<1:19:33,  1.43it/s]Training 1/3 epoch (loss 1.1462):  30%|███       | 2943/9753 [31:26<1:20:51,  1.40it/s]Training 1/3 epoch (loss 1.1228):  30%|███       | 2943/9753 [31:26<1:20:51,  1.40it/s]Training 1/3 epoch (loss 1.1228):  30%|███       | 2944/9753 [31:26<1:20:49,  1.40it/s]Training 1/3 epoch (loss 1.0367):  30%|███       | 2944/9753 [31:27<1:20:49,  1.40it/s]Training 1/3 epoch (loss 1.0367):  30%|███       | 2945/9753 [31:27<1:22:30,  1.38it/s]Training 1/3 epoch (loss 0.9943):  30%|███       | 2945/9753 [31:28<1:22:30,  1.38it/s]Training 1/3 epoch (loss 0.9943):  30%|███       | 2946/9753 [31:28<1:29:07,  1.27it/s]Training 1/3 epoch (loss 1.1809):  30%|███       | 2946/9753 [31:29<1:29:07,  1.27it/s]Training 1/3 epoch (loss 1.1809):  30%|███       | 2947/9753 [31:29<1:23:28,  1.36it/s]Training 1/3 epoch (loss 1.0519):  30%|███       | 2947/9753 [31:29<1:23:28,  1.36it/s]Training 1/3 epoch (loss 1.0519):  30%|███       | 2948/9753 [31:29<1:17:31,  1.46it/s]Training 1/3 epoch (loss 1.0232):  30%|███       | 2948/9753 [31:30<1:17:31,  1.46it/s]Training 1/3 epoch (loss 1.0232):  30%|███       | 2949/9753 [31:30<1:12:50,  1.56it/s]Training 1/3 epoch (loss 1.0154):  30%|███       | 2949/9753 [31:31<1:12:50,  1.56it/s]Training 1/3 epoch (loss 1.0154):  30%|███       | 2950/9753 [31:31<1:15:41,  1.50it/s]Training 1/3 epoch (loss 1.0425):  30%|███       | 2950/9753 [31:31<1:15:41,  1.50it/s]Training 1/3 epoch (loss 1.0425):  30%|███       | 2951/9753 [31:31<1:11:48,  1.58it/s]Training 1/3 epoch (loss 1.1679):  30%|███       | 2951/9753 [31:32<1:11:48,  1.58it/s]Training 1/3 epoch (loss 1.1679):  30%|███       | 2952/9753 [31:32<1:10:27,  1.61it/s]Training 1/3 epoch (loss 0.9305):  30%|███       | 2952/9753 [31:32<1:10:27,  1.61it/s]Training 1/3 epoch (loss 0.9305):  30%|███       | 2953/9753 [31:32<1:10:19,  1.61it/s]Training 1/3 epoch (loss 0.9802):  30%|███       | 2953/9753 [31:33<1:10:19,  1.61it/s]Training 1/3 epoch (loss 0.9802):  30%|███       | 2954/9753 [31:33<1:12:48,  1.56it/s]Training 1/3 epoch (loss 1.0214):  30%|███       | 2954/9753 [31:34<1:12:48,  1.56it/s]Training 1/3 epoch (loss 1.0214):  30%|███       | 2955/9753 [31:34<1:09:35,  1.63it/s]Training 1/3 epoch (loss 1.1747):  30%|███       | 2955/9753 [31:34<1:09:35,  1.63it/s]Training 1/3 epoch (loss 1.1747):  30%|███       | 2956/9753 [31:34<1:08:15,  1.66it/s]Training 1/3 epoch (loss 1.0526):  30%|███       | 2956/9753 [31:35<1:08:15,  1.66it/s]Training 1/3 epoch (loss 1.0526):  30%|███       | 2957/9753 [31:35<1:06:31,  1.70it/s]Training 1/3 epoch (loss 0.9356):  30%|███       | 2957/9753 [31:35<1:06:31,  1.70it/s]Training 1/3 epoch (loss 0.9356):  30%|███       | 2958/9753 [31:35<1:05:13,  1.74it/s]Training 1/3 epoch (loss 1.1350):  30%|███       | 2958/9753 [31:36<1:05:13,  1.74it/s]Training 1/3 epoch (loss 1.1350):  30%|███       | 2959/9753 [31:36<1:06:25,  1.70it/s]Training 1/3 epoch (loss 0.9196):  30%|███       | 2959/9753 [31:37<1:06:25,  1.70it/s]Training 1/3 epoch (loss 0.9196):  30%|███       | 2960/9753 [31:37<1:10:45,  1.60it/s]Training 1/3 epoch (loss 1.1009):  30%|███       | 2960/9753 [31:37<1:10:45,  1.60it/s]Training 1/3 epoch (loss 1.1009):  30%|███       | 2961/9753 [31:37<1:10:04,  1.62it/s]Training 1/3 epoch (loss 1.1491):  30%|███       | 2961/9753 [31:38<1:10:04,  1.62it/s]Training 1/3 epoch (loss 1.1491):  30%|███       | 2962/9753 [31:38<1:07:48,  1.67it/s]Training 1/3 epoch (loss 0.8898):  30%|███       | 2962/9753 [31:38<1:07:48,  1.67it/s]Training 1/3 epoch (loss 0.8898):  30%|███       | 2963/9753 [31:38<1:06:09,  1.71it/s]Training 1/3 epoch (loss 1.0037):  30%|███       | 2963/9753 [31:39<1:06:09,  1.71it/s]Training 1/3 epoch (loss 1.0037):  30%|███       | 2964/9753 [31:39<1:04:56,  1.74it/s]Training 1/3 epoch (loss 1.1601):  30%|███       | 2964/9753 [31:39<1:04:56,  1.74it/s]Training 1/3 epoch (loss 1.1601):  30%|███       | 2965/9753 [31:39<1:04:00,  1.77it/s]Training 1/3 epoch (loss 0.9393):  30%|███       | 2965/9753 [31:40<1:04:00,  1.77it/s]Training 1/3 epoch (loss 0.9393):  30%|███       | 2966/9753 [31:40<1:03:25,  1.78it/s]Training 1/3 epoch (loss 0.8418):  30%|███       | 2966/9753 [31:41<1:03:25,  1.78it/s]Training 1/3 epoch (loss 0.8418):  30%|███       | 2967/9753 [31:41<1:03:40,  1.78it/s]Training 1/3 epoch (loss 0.9521):  30%|███       | 2967/9753 [31:41<1:03:40,  1.78it/s]Training 1/3 epoch (loss 0.9521):  30%|███       | 2968/9753 [31:41<1:04:13,  1.76it/s]Training 1/3 epoch (loss 1.0765):  30%|███       | 2968/9753 [31:42<1:04:13,  1.76it/s]Training 1/3 epoch (loss 1.0765):  30%|███       | 2969/9753 [31:42<1:03:40,  1.78it/s]Training 1/3 epoch (loss 1.0273):  30%|███       | 2969/9753 [31:42<1:03:40,  1.78it/s]Training 1/3 epoch (loss 1.0273):  30%|███       | 2970/9753 [31:42<1:07:18,  1.68it/s]Training 1/3 epoch (loss 0.9094):  30%|███       | 2970/9753 [31:43<1:07:18,  1.68it/s]Training 1/3 epoch (loss 0.9094):  30%|███       | 2971/9753 [31:43<1:06:31,  1.70it/s]Training 1/3 epoch (loss 1.0032):  30%|███       | 2971/9753 [31:43<1:06:31,  1.70it/s]Training 1/3 epoch (loss 1.0032):  30%|███       | 2972/9753 [31:43<1:07:00,  1.69it/s]Training 1/3 epoch (loss 1.1148):  30%|███       | 2972/9753 [31:44<1:07:00,  1.69it/s]Training 1/3 epoch (loss 1.1148):  30%|███       | 2973/9753 [31:44<1:18:25,  1.44it/s]Training 1/3 epoch (loss 0.7411):  30%|███       | 2973/9753 [31:45<1:18:25,  1.44it/s]Training 1/3 epoch (loss 0.7411):  30%|███       | 2974/9753 [31:45<1:17:12,  1.46it/s]Training 1/3 epoch (loss 1.0427):  30%|███       | 2974/9753 [31:46<1:17:12,  1.46it/s]Training 1/3 epoch (loss 1.0427):  31%|███       | 2975/9753 [31:46<1:16:04,  1.49it/s]Training 1/3 epoch (loss 0.9568):  31%|███       | 2975/9753 [31:46<1:16:04,  1.49it/s]Training 1/3 epoch (loss 0.9568):  31%|███       | 2976/9753 [31:46<1:19:18,  1.42it/s]Training 1/3 epoch (loss 0.9900):  31%|███       | 2976/9753 [31:47<1:19:18,  1.42it/s]Training 1/3 epoch (loss 0.9900):  31%|███       | 2977/9753 [31:47<1:17:29,  1.46it/s]Training 1/3 epoch (loss 1.1640):  31%|███       | 2977/9753 [31:48<1:17:29,  1.46it/s]Training 1/3 epoch (loss 1.1640):  31%|███       | 2978/9753 [31:48<1:16:07,  1.48it/s]Training 1/3 epoch (loss 0.9002):  31%|███       | 2978/9753 [31:48<1:16:07,  1.48it/s]Training 1/3 epoch (loss 0.9002):  31%|███       | 2979/9753 [31:48<1:12:57,  1.55it/s]Training 1/3 epoch (loss 1.1157):  31%|███       | 2979/9753 [31:49<1:12:57,  1.55it/s]Training 1/3 epoch (loss 1.1157):  31%|███       | 2980/9753 [31:49<1:09:43,  1.62it/s]Training 1/3 epoch (loss 1.0354):  31%|███       | 2980/9753 [31:49<1:09:43,  1.62it/s]Training 1/3 epoch (loss 1.0354):  31%|███       | 2981/9753 [31:49<1:08:05,  1.66it/s]Training 1/3 epoch (loss 1.1768):  31%|███       | 2981/9753 [31:50<1:08:05,  1.66it/s]Training 1/3 epoch (loss 1.1768):  31%|███       | 2982/9753 [31:50<1:06:22,  1.70it/s]Training 1/3 epoch (loss 0.8504):  31%|███       | 2982/9753 [31:51<1:06:22,  1.70it/s]Training 1/3 epoch (loss 0.8504):  31%|███       | 2983/9753 [31:51<1:05:04,  1.73it/s]Training 1/3 epoch (loss 1.0446):  31%|███       | 2983/9753 [31:51<1:05:04,  1.73it/s]Training 1/3 epoch (loss 1.0446):  31%|███       | 2984/9753 [31:51<1:06:21,  1.70it/s]Training 1/3 epoch (loss 0.9814):  31%|███       | 2984/9753 [31:52<1:06:21,  1.70it/s]Training 1/3 epoch (loss 0.9814):  31%|███       | 2985/9753 [31:52<1:09:31,  1.62it/s]Training 1/3 epoch (loss 0.9852):  31%|███       | 2985/9753 [31:52<1:09:31,  1.62it/s]Training 1/3 epoch (loss 0.9852):  31%|███       | 2986/9753 [31:52<1:08:04,  1.66it/s]Training 1/3 epoch (loss 0.9152):  31%|███       | 2986/9753 [31:53<1:08:04,  1.66it/s]Training 1/3 epoch (loss 0.9152):  31%|███       | 2987/9753 [31:53<1:06:49,  1.69it/s]Training 1/3 epoch (loss 1.1622):  31%|███       | 2987/9753 [31:54<1:06:49,  1.69it/s]Training 1/3 epoch (loss 1.1622):  31%|███       | 2988/9753 [31:54<1:07:21,  1.67it/s]Training 1/3 epoch (loss 1.0915):  31%|███       | 2988/9753 [31:54<1:07:21,  1.67it/s]Training 1/3 epoch (loss 1.0915):  31%|███       | 2989/9753 [31:54<1:06:52,  1.69it/s]Training 1/3 epoch (loss 1.0566):  31%|███       | 2989/9753 [31:55<1:06:52,  1.69it/s]Training 1/3 epoch (loss 1.0566):  31%|███       | 2990/9753 [31:55<1:05:29,  1.72it/s]Training 1/3 epoch (loss 1.2947):  31%|███       | 2990/9753 [31:55<1:05:29,  1.72it/s]Training 1/3 epoch (loss 1.2947):  31%|███       | 2991/9753 [31:55<1:05:32,  1.72it/s]Training 1/3 epoch (loss 1.1658):  31%|███       | 2991/9753 [31:56<1:05:32,  1.72it/s]Training 1/3 epoch (loss 1.1658):  31%|███       | 2992/9753 [31:56<1:14:49,  1.51it/s]Training 1/3 epoch (loss 0.8205):  31%|███       | 2992/9753 [31:57<1:14:49,  1.51it/s]Training 1/3 epoch (loss 0.8205):  31%|███       | 2993/9753 [31:57<1:12:29,  1.55it/s]Training 1/3 epoch (loss 1.0199):  31%|███       | 2993/9753 [31:57<1:12:29,  1.55it/s]Training 1/3 epoch (loss 1.0199):  31%|███       | 2994/9753 [31:57<1:10:28,  1.60it/s]Training 1/3 epoch (loss 0.9777):  31%|███       | 2994/9753 [31:58<1:10:28,  1.60it/s]Training 1/3 epoch (loss 0.9777):  31%|███       | 2995/9753 [31:58<1:12:57,  1.54it/s]Training 1/3 epoch (loss 1.2231):  31%|███       | 2995/9753 [31:59<1:12:57,  1.54it/s]Training 1/3 epoch (loss 1.2231):  31%|███       | 2996/9753 [31:59<1:12:05,  1.56it/s]Training 1/3 epoch (loss 0.9997):  31%|███       | 2996/9753 [31:59<1:12:05,  1.56it/s]Training 1/3 epoch (loss 0.9997):  31%|███       | 2997/9753 [31:59<1:14:02,  1.52it/s]Training 1/3 epoch (loss 0.8714):  31%|███       | 2997/9753 [32:00<1:14:02,  1.52it/s]Training 1/3 epoch (loss 0.8714):  31%|███       | 2998/9753 [32:00<1:11:46,  1.57it/s]Training 1/3 epoch (loss 1.0599):  31%|███       | 2998/9753 [32:01<1:11:46,  1.57it/s]Training 1/3 epoch (loss 1.0599):  31%|███       | 2999/9753 [32:01<1:21:40,  1.38it/s]Training 1/3 epoch (loss 1.0828):  31%|███       | 2999/9753 [32:02<1:21:40,  1.38it/s]Training 1/3 epoch (loss 1.0828):  31%|███       | 3000/9753 [32:02<1:16:39,  1.47it/s]Training 1/3 epoch (loss 1.1437):  31%|███       | 3000/9753 [32:02<1:16:39,  1.47it/s]Training 1/3 epoch (loss 1.1437):  31%|███       | 3001/9753 [32:02<1:12:31,  1.55it/s]Training 1/3 epoch (loss 1.0856):  31%|███       | 3001/9753 [32:03<1:12:31,  1.55it/s]Training 1/3 epoch (loss 1.0856):  31%|███       | 3002/9753 [32:03<1:09:26,  1.62it/s]Training 1/3 epoch (loss 1.1442):  31%|███       | 3002/9753 [32:03<1:09:26,  1.62it/s]Training 1/3 epoch (loss 1.1442):  31%|███       | 3003/9753 [32:03<1:09:36,  1.62it/s]Training 1/3 epoch (loss 1.1852):  31%|███       | 3003/9753 [32:04<1:09:36,  1.62it/s]Training 1/3 epoch (loss 1.1852):  31%|███       | 3004/9753 [32:04<1:08:09,  1.65it/s]Training 1/3 epoch (loss 1.0493):  31%|███       | 3004/9753 [32:04<1:08:09,  1.65it/s]Training 1/3 epoch (loss 1.0493):  31%|███       | 3005/9753 [32:04<1:06:27,  1.69it/s]Training 1/3 epoch (loss 1.2184):  31%|███       | 3005/9753 [32:05<1:06:27,  1.69it/s]Training 1/3 epoch (loss 1.2184):  31%|███       | 3006/9753 [32:05<1:05:12,  1.72it/s]Training 1/3 epoch (loss 0.7741):  31%|███       | 3006/9753 [32:05<1:05:12,  1.72it/s]Training 1/3 epoch (loss 0.7741):  31%|███       | 3007/9753 [32:05<1:04:15,  1.75it/s]Training 1/3 epoch (loss 1.0223):  31%|███       | 3007/9753 [32:06<1:04:15,  1.75it/s]Training 1/3 epoch (loss 1.0223):  31%|███       | 3008/9753 [32:06<1:10:12,  1.60it/s]Training 1/3 epoch (loss 0.9454):  31%|███       | 3008/9753 [32:07<1:10:12,  1.60it/s]Training 1/3 epoch (loss 0.9454):  31%|███       | 3009/9753 [32:07<1:09:09,  1.63it/s]Training 1/3 epoch (loss 1.1161):  31%|███       | 3009/9753 [32:07<1:09:09,  1.63it/s]Training 1/3 epoch (loss 1.1161):  31%|███       | 3010/9753 [32:07<1:08:59,  1.63it/s]Training 1/3 epoch (loss 1.1506):  31%|███       | 3010/9753 [32:08<1:08:59,  1.63it/s]Training 1/3 epoch (loss 1.1506):  31%|███       | 3011/9753 [32:08<1:10:58,  1.58it/s]Training 1/3 epoch (loss 0.9152):  31%|███       | 3011/9753 [32:09<1:10:58,  1.58it/s]Training 1/3 epoch (loss 0.9152):  31%|███       | 3012/9753 [32:09<1:13:59,  1.52it/s]Training 1/3 epoch (loss 0.9194):  31%|███       | 3012/9753 [32:10<1:13:59,  1.52it/s]Training 1/3 epoch (loss 0.9194):  31%|███       | 3013/9753 [32:10<1:24:33,  1.33it/s]Training 1/3 epoch (loss 0.9686):  31%|███       | 3013/9753 [32:10<1:24:33,  1.33it/s]Training 1/3 epoch (loss 0.9686):  31%|███       | 3014/9753 [32:10<1:21:45,  1.37it/s]Training 1/3 epoch (loss 1.0182):  31%|███       | 3014/9753 [32:11<1:21:45,  1.37it/s]Training 1/3 epoch (loss 1.0182):  31%|███       | 3015/9753 [32:11<1:18:01,  1.44it/s]Training 1/3 epoch (loss 1.0666):  31%|███       | 3015/9753 [32:12<1:18:01,  1.44it/s]Training 1/3 epoch (loss 1.0666):  31%|███       | 3016/9753 [32:12<1:17:21,  1.45it/s]Training 1/3 epoch (loss 0.9850):  31%|███       | 3016/9753 [32:12<1:17:21,  1.45it/s]Training 1/3 epoch (loss 0.9850):  31%|███       | 3017/9753 [32:12<1:15:07,  1.49it/s]Training 1/3 epoch (loss 0.9817):  31%|███       | 3017/9753 [32:13<1:15:07,  1.49it/s]Training 1/3 epoch (loss 0.9817):  31%|███       | 3018/9753 [32:13<1:17:58,  1.44it/s]Training 1/3 epoch (loss 1.0541):  31%|███       | 3018/9753 [32:14<1:17:58,  1.44it/s]Training 1/3 epoch (loss 1.0541):  31%|███       | 3019/9753 [32:14<1:15:34,  1.49it/s]Training 1/3 epoch (loss 1.0194):  31%|███       | 3019/9753 [32:14<1:15:34,  1.49it/s]Training 1/3 epoch (loss 1.0194):  31%|███       | 3020/9753 [32:14<1:15:11,  1.49it/s]Training 1/3 epoch (loss 0.9654):  31%|███       | 3020/9753 [32:15<1:15:11,  1.49it/s]Training 1/3 epoch (loss 0.9654):  31%|███       | 3021/9753 [32:15<1:16:04,  1.47it/s]Training 1/3 epoch (loss 1.0380):  31%|███       | 3021/9753 [32:16<1:16:04,  1.47it/s]Training 1/3 epoch (loss 1.0380):  31%|███       | 3022/9753 [32:16<1:19:51,  1.40it/s]Training 1/3 epoch (loss 1.1265):  31%|███       | 3022/9753 [32:17<1:19:51,  1.40it/s]Training 1/3 epoch (loss 1.1265):  31%|███       | 3023/9753 [32:17<1:17:16,  1.45it/s]Training 1/3 epoch (loss 1.1935):  31%|███       | 3023/9753 [32:17<1:17:16,  1.45it/s]Training 1/3 epoch (loss 1.1935):  31%|███       | 3024/9753 [32:17<1:20:13,  1.40it/s]Training 1/3 epoch (loss 1.2073):  31%|███       | 3024/9753 [32:18<1:20:13,  1.40it/s]Training 1/3 epoch (loss 1.2073):  31%|███       | 3025/9753 [32:18<1:25:15,  1.32it/s]Training 1/3 epoch (loss 0.8819):  31%|███       | 3025/9753 [32:19<1:25:15,  1.32it/s]Training 1/3 epoch (loss 0.8819):  31%|███       | 3026/9753 [32:19<1:20:50,  1.39it/s]Training 1/3 epoch (loss 1.2447):  31%|███       | 3026/9753 [32:19<1:20:50,  1.39it/s]Training 1/3 epoch (loss 1.2447):  31%|███       | 3027/9753 [32:19<1:16:02,  1.47it/s]Training 1/3 epoch (loss 1.2045):  31%|███       | 3027/9753 [32:20<1:16:02,  1.47it/s]Training 1/3 epoch (loss 1.2045):  31%|███       | 3028/9753 [32:20<1:15:24,  1.49it/s]Training 1/3 epoch (loss 1.0462):  31%|███       | 3028/9753 [32:21<1:15:24,  1.49it/s]Training 1/3 epoch (loss 1.0462):  31%|███       | 3029/9753 [32:21<1:14:53,  1.50it/s]Training 1/3 epoch (loss 1.2127):  31%|███       | 3029/9753 [32:21<1:14:53,  1.50it/s]Training 1/3 epoch (loss 1.2127):  31%|███       | 3030/9753 [32:21<1:10:58,  1.58it/s]Training 1/3 epoch (loss 1.0996):  31%|███       | 3030/9753 [32:22<1:10:58,  1.58it/s]Training 1/3 epoch (loss 1.0996):  31%|███       | 3031/9753 [32:22<1:08:26,  1.64it/s]Training 1/3 epoch (loss 1.0641):  31%|███       | 3031/9753 [32:22<1:08:26,  1.64it/s]Training 1/3 epoch (loss 1.0641):  31%|███       | 3032/9753 [32:22<1:06:52,  1.67it/s]Training 1/3 epoch (loss 1.0960):  31%|███       | 3032/9753 [32:23<1:06:52,  1.67it/s]Training 1/3 epoch (loss 1.0960):  31%|███       | 3033/9753 [32:23<1:05:31,  1.71it/s]Training 1/3 epoch (loss 1.0282):  31%|███       | 3033/9753 [32:24<1:05:31,  1.71it/s]Training 1/3 epoch (loss 1.0282):  31%|███       | 3034/9753 [32:24<1:04:23,  1.74it/s]Training 1/3 epoch (loss 0.9356):  31%|███       | 3034/9753 [32:24<1:04:23,  1.74it/s]Training 1/3 epoch (loss 0.9356):  31%|███       | 3035/9753 [32:24<1:03:44,  1.76it/s]Training 1/3 epoch (loss 1.0258):  31%|███       | 3035/9753 [32:25<1:03:44,  1.76it/s]Training 1/3 epoch (loss 1.0258):  31%|███       | 3036/9753 [32:25<1:04:50,  1.73it/s]Training 1/3 epoch (loss 1.0535):  31%|███       | 3036/9753 [32:25<1:04:50,  1.73it/s]Training 1/3 epoch (loss 1.0535):  31%|███       | 3037/9753 [32:25<1:04:06,  1.75it/s]Training 1/3 epoch (loss 1.1565):  31%|███       | 3037/9753 [32:26<1:04:06,  1.75it/s]Training 1/3 epoch (loss 1.1565):  31%|███       | 3038/9753 [32:26<1:03:43,  1.76it/s]Training 1/3 epoch (loss 0.8923):  31%|███       | 3038/9753 [32:27<1:03:43,  1.76it/s]Training 1/3 epoch (loss 0.8923):  31%|███       | 3039/9753 [32:27<1:12:02,  1.55it/s]Training 1/3 epoch (loss 1.0251):  31%|███       | 3039/9753 [32:27<1:12:02,  1.55it/s]Training 1/3 epoch (loss 1.0251):  31%|███       | 3040/9753 [32:27<1:13:45,  1.52it/s]Training 1/3 epoch (loss 1.0918):  31%|███       | 3040/9753 [32:28<1:13:45,  1.52it/s]Training 1/3 epoch (loss 1.0918):  31%|███       | 3041/9753 [32:28<1:10:22,  1.59it/s]Training 1/3 epoch (loss 1.0561):  31%|███       | 3041/9753 [32:28<1:10:22,  1.59it/s]Training 1/3 epoch (loss 1.0561):  31%|███       | 3042/9753 [32:28<1:09:18,  1.61it/s]Training 1/3 epoch (loss 1.1078):  31%|███       | 3042/9753 [32:29<1:09:18,  1.61it/s]Training 1/3 epoch (loss 1.1078):  31%|███       | 3043/9753 [32:29<1:09:20,  1.61it/s]Training 1/3 epoch (loss 0.9493):  31%|███       | 3043/9753 [32:30<1:09:20,  1.61it/s]Training 1/3 epoch (loss 0.9493):  31%|███       | 3044/9753 [32:30<1:08:19,  1.64it/s]Training 1/3 epoch (loss 0.9520):  31%|███       | 3044/9753 [32:30<1:08:19,  1.64it/s]Training 1/3 epoch (loss 0.9520):  31%|███       | 3045/9753 [32:30<1:11:02,  1.57it/s]Training 1/3 epoch (loss 1.0463):  31%|███       | 3045/9753 [32:31<1:11:02,  1.57it/s]Training 1/3 epoch (loss 1.0463):  31%|███       | 3046/9753 [32:31<1:08:50,  1.62it/s]Training 1/3 epoch (loss 1.0138):  31%|███       | 3046/9753 [32:32<1:08:50,  1.62it/s]Training 1/3 epoch (loss 1.0138):  31%|███       | 3047/9753 [32:32<1:07:19,  1.66it/s]Training 1/3 epoch (loss 1.2005):  31%|███       | 3047/9753 [32:32<1:07:19,  1.66it/s]Training 1/3 epoch (loss 1.2005):  31%|███▏      | 3048/9753 [32:32<1:06:19,  1.68it/s]Training 1/3 epoch (loss 1.0654):  31%|███▏      | 3048/9753 [32:33<1:06:19,  1.68it/s]Training 1/3 epoch (loss 1.0654):  31%|███▏      | 3049/9753 [32:33<1:05:32,  1.70it/s]Training 1/3 epoch (loss 0.9930):  31%|███▏      | 3049/9753 [32:33<1:05:32,  1.70it/s]Training 1/3 epoch (loss 0.9930):  31%|███▏      | 3050/9753 [32:33<1:04:18,  1.74it/s]Training 1/3 epoch (loss 0.7775):  31%|███▏      | 3050/9753 [32:34<1:04:18,  1.74it/s]Training 1/3 epoch (loss 0.7775):  31%|███▏      | 3051/9753 [32:34<1:05:03,  1.72it/s]Training 1/3 epoch (loss 0.9608):  31%|███▏      | 3051/9753 [32:34<1:05:03,  1.72it/s]Training 1/3 epoch (loss 0.9608):  31%|███▏      | 3052/9753 [32:34<1:09:01,  1.62it/s]Training 1/3 epoch (loss 1.0459):  31%|███▏      | 3052/9753 [32:35<1:09:01,  1.62it/s]Training 1/3 epoch (loss 1.0459):  31%|███▏      | 3053/9753 [32:35<1:09:22,  1.61it/s]Training 1/3 epoch (loss 1.1838):  31%|███▏      | 3053/9753 [32:36<1:09:22,  1.61it/s]Training 1/3 epoch (loss 1.1838):  31%|███▏      | 3054/9753 [32:36<1:09:17,  1.61it/s]Training 1/3 epoch (loss 1.0120):  31%|███▏      | 3054/9753 [32:36<1:09:17,  1.61it/s]Training 1/3 epoch (loss 1.0120):  31%|███▏      | 3055/9753 [32:36<1:09:22,  1.61it/s]Training 1/3 epoch (loss 1.0322):  31%|███▏      | 3055/9753 [32:37<1:09:22,  1.61it/s]Training 1/3 epoch (loss 1.0322):  31%|███▏      | 3056/9753 [32:37<1:13:38,  1.52it/s]Training 1/3 epoch (loss 1.0967):  31%|███▏      | 3056/9753 [32:38<1:13:38,  1.52it/s]Training 1/3 epoch (loss 1.0967):  31%|███▏      | 3057/9753 [32:38<1:14:05,  1.51it/s]Training 1/3 epoch (loss 0.9686):  31%|███▏      | 3057/9753 [32:38<1:14:05,  1.51it/s]Training 1/3 epoch (loss 0.9686):  31%|███▏      | 3058/9753 [32:38<1:12:41,  1.54it/s]Training 1/3 epoch (loss 1.0220):  31%|███▏      | 3058/9753 [32:39<1:12:41,  1.54it/s]Training 1/3 epoch (loss 1.0220):  31%|███▏      | 3059/9753 [32:39<1:13:32,  1.52it/s]Training 1/3 epoch (loss 1.3245):  31%|███▏      | 3059/9753 [32:40<1:13:32,  1.52it/s]Training 1/3 epoch (loss 1.3245):  31%|███▏      | 3060/9753 [32:40<1:12:38,  1.54it/s]Training 1/3 epoch (loss 1.2481):  31%|███▏      | 3060/9753 [32:40<1:12:38,  1.54it/s]Training 1/3 epoch (loss 1.2481):  31%|███▏      | 3061/9753 [32:40<1:12:42,  1.53it/s]Training 1/3 epoch (loss 1.0833):  31%|███▏      | 3061/9753 [32:41<1:12:42,  1.53it/s]Training 1/3 epoch (loss 1.0833):  31%|███▏      | 3062/9753 [32:41<1:13:15,  1.52it/s]Training 1/3 epoch (loss 1.3079):  31%|███▏      | 3062/9753 [32:42<1:13:15,  1.52it/s]Training 1/3 epoch (loss 1.3079):  31%|███▏      | 3063/9753 [32:42<1:12:07,  1.55it/s]Training 1/3 epoch (loss 1.1716):  31%|███▏      | 3063/9753 [32:42<1:12:07,  1.55it/s]Training 1/3 epoch (loss 1.1716):  31%|███▏      | 3064/9753 [32:42<1:10:52,  1.57it/s]Training 1/3 epoch (loss 0.8063):  31%|███▏      | 3064/9753 [32:43<1:10:52,  1.57it/s]Training 1/3 epoch (loss 0.8063):  31%|███▏      | 3065/9753 [32:43<1:10:25,  1.58it/s]Training 1/3 epoch (loss 0.9916):  31%|███▏      | 3065/9753 [32:44<1:10:25,  1.58it/s]Training 1/3 epoch (loss 0.9916):  31%|███▏      | 3066/9753 [32:44<1:09:58,  1.59it/s]Training 1/3 epoch (loss 1.1056):  31%|███▏      | 3066/9753 [32:44<1:09:58,  1.59it/s]Training 1/3 epoch (loss 1.1056):  31%|███▏      | 3067/9753 [32:44<1:07:44,  1.64it/s]Training 1/3 epoch (loss 1.2387):  31%|███▏      | 3067/9753 [32:45<1:07:44,  1.64it/s]Training 1/3 epoch (loss 1.2387):  31%|███▏      | 3068/9753 [32:45<1:11:10,  1.57it/s]Training 1/3 epoch (loss 1.0293):  31%|███▏      | 3068/9753 [32:45<1:11:10,  1.57it/s]Training 1/3 epoch (loss 1.0293):  31%|███▏      | 3069/9753 [32:45<1:09:16,  1.61it/s]Training 1/3 epoch (loss 1.1286):  31%|███▏      | 3069/9753 [32:46<1:09:16,  1.61it/s]Training 1/3 epoch (loss 1.1286):  31%|███▏      | 3070/9753 [32:46<1:10:53,  1.57it/s]Training 1/3 epoch (loss 1.0198):  31%|███▏      | 3070/9753 [32:47<1:10:53,  1.57it/s]Training 1/3 epoch (loss 1.0198):  31%|███▏      | 3071/9753 [32:47<1:08:34,  1.62it/s]Training 1/3 epoch (loss 1.2036):  31%|███▏      | 3071/9753 [32:47<1:08:34,  1.62it/s]Training 1/3 epoch (loss 1.2036):  31%|███▏      | 3072/9753 [32:47<1:12:25,  1.54it/s]Training 1/3 epoch (loss 0.9268):  31%|███▏      | 3072/9753 [32:48<1:12:25,  1.54it/s]Training 1/3 epoch (loss 0.9268):  32%|███▏      | 3073/9753 [32:48<1:15:17,  1.48it/s]Training 1/3 epoch (loss 1.1102):  32%|███▏      | 3073/9753 [32:49<1:15:17,  1.48it/s]Training 1/3 epoch (loss 1.1102):  32%|███▏      | 3074/9753 [32:49<1:13:45,  1.51it/s]Training 1/3 epoch (loss 1.1355):  32%|███▏      | 3074/9753 [32:49<1:13:45,  1.51it/s]Training 1/3 epoch (loss 1.1355):  32%|███▏      | 3075/9753 [32:49<1:12:28,  1.54it/s]Training 1/3 epoch (loss 0.9433):  32%|███▏      | 3075/9753 [32:50<1:12:28,  1.54it/s]Training 1/3 epoch (loss 0.9433):  32%|███▏      | 3076/9753 [32:50<1:11:32,  1.56it/s]Training 1/3 epoch (loss 1.1111):  32%|███▏      | 3076/9753 [32:51<1:11:32,  1.56it/s]Training 1/3 epoch (loss 1.1111):  32%|███▏      | 3077/9753 [32:51<1:12:44,  1.53it/s]Training 1/3 epoch (loss 0.9193):  32%|███▏      | 3077/9753 [32:51<1:12:44,  1.53it/s]Training 1/3 epoch (loss 0.9193):  32%|███▏      | 3078/9753 [32:51<1:12:48,  1.53it/s]Training 1/3 epoch (loss 0.8981):  32%|███▏      | 3078/9753 [32:52<1:12:48,  1.53it/s]Training 1/3 epoch (loss 0.8981):  32%|███▏      | 3079/9753 [32:52<1:13:21,  1.52it/s]Training 1/3 epoch (loss 1.0775):  32%|███▏      | 3079/9753 [32:53<1:13:21,  1.52it/s]Training 1/3 epoch (loss 1.0775):  32%|███▏      | 3080/9753 [32:53<1:12:32,  1.53it/s]Training 1/3 epoch (loss 0.9391):  32%|███▏      | 3080/9753 [32:53<1:12:32,  1.53it/s]Training 1/3 epoch (loss 0.9391):  32%|███▏      | 3081/9753 [32:53<1:11:29,  1.56it/s]Training 1/3 epoch (loss 0.9179):  32%|███▏      | 3081/9753 [32:54<1:11:29,  1.56it/s]Training 1/3 epoch (loss 0.9179):  32%|███▏      | 3082/9753 [32:54<1:12:22,  1.54it/s]Training 1/3 epoch (loss 1.1809):  32%|███▏      | 3082/9753 [32:55<1:12:22,  1.54it/s]Training 1/3 epoch (loss 1.1809):  32%|███▏      | 3083/9753 [32:55<1:11:54,  1.55it/s]Training 1/3 epoch (loss 1.0490):  32%|███▏      | 3083/9753 [32:55<1:11:54,  1.55it/s]Training 1/3 epoch (loss 1.0490):  32%|███▏      | 3084/9753 [32:55<1:10:58,  1.57it/s]Training 1/3 epoch (loss 1.1097):  32%|███▏      | 3084/9753 [32:56<1:10:58,  1.57it/s]Training 1/3 epoch (loss 1.1097):  32%|███▏      | 3085/9753 [32:56<1:13:57,  1.50it/s]Training 1/3 epoch (loss 0.8196):  32%|███▏      | 3085/9753 [32:57<1:13:57,  1.50it/s]Training 1/3 epoch (loss 0.8196):  32%|███▏      | 3086/9753 [32:57<1:13:18,  1.52it/s]Training 1/3 epoch (loss 0.8552):  32%|███▏      | 3086/9753 [32:57<1:13:18,  1.52it/s]Training 1/3 epoch (loss 0.8552):  32%|███▏      | 3087/9753 [32:57<1:12:37,  1.53it/s]Training 1/3 epoch (loss 1.1311):  32%|███▏      | 3087/9753 [32:58<1:12:37,  1.53it/s]Training 1/3 epoch (loss 1.1311):  32%|███▏      | 3088/9753 [32:58<1:16:17,  1.46it/s]Training 1/3 epoch (loss 1.0545):  32%|███▏      | 3088/9753 [32:58<1:16:17,  1.46it/s]Training 1/3 epoch (loss 1.0545):  32%|███▏      | 3089/9753 [32:58<1:12:06,  1.54it/s]Training 1/3 epoch (loss 0.9949):  32%|███▏      | 3089/9753 [32:59<1:12:06,  1.54it/s]Training 1/3 epoch (loss 0.9949):  32%|███▏      | 3090/9753 [32:59<1:08:42,  1.62it/s]Training 1/3 epoch (loss 1.2112):  32%|███▏      | 3090/9753 [33:00<1:08:42,  1.62it/s]Training 1/3 epoch (loss 1.2112):  32%|███▏      | 3091/9753 [33:00<1:06:42,  1.66it/s]Training 1/3 epoch (loss 0.9645):  32%|███▏      | 3091/9753 [33:00<1:06:42,  1.66it/s]Training 1/3 epoch (loss 0.9645):  32%|███▏      | 3092/9753 [33:00<1:05:49,  1.69it/s]Training 1/3 epoch (loss 1.1089):  32%|███▏      | 3092/9753 [33:01<1:05:49,  1.69it/s]Training 1/3 epoch (loss 1.1089):  32%|███▏      | 3093/9753 [33:01<1:16:15,  1.46it/s]Training 1/3 epoch (loss 1.2088):  32%|███▏      | 3093/9753 [33:02<1:16:15,  1.46it/s]Training 1/3 epoch (loss 1.2088):  32%|███▏      | 3094/9753 [33:02<1:12:07,  1.54it/s]Training 1/3 epoch (loss 1.0506):  32%|███▏      | 3094/9753 [33:02<1:12:07,  1.54it/s]Training 1/3 epoch (loss 1.0506):  32%|███▏      | 3095/9753 [33:02<1:08:48,  1.61it/s]Training 1/3 epoch (loss 1.1832):  32%|███▏      | 3095/9753 [33:03<1:08:48,  1.61it/s]Training 1/3 epoch (loss 1.1832):  32%|███▏      | 3096/9753 [33:03<1:06:44,  1.66it/s]Training 1/3 epoch (loss 0.8888):  32%|███▏      | 3096/9753 [33:03<1:06:44,  1.66it/s]Training 1/3 epoch (loss 0.8888):  32%|███▏      | 3097/9753 [33:03<1:05:47,  1.69it/s]Training 1/3 epoch (loss 0.8580):  32%|███▏      | 3097/9753 [33:04<1:05:47,  1.69it/s]Training 1/3 epoch (loss 0.8580):  32%|███▏      | 3098/9753 [33:04<1:04:28,  1.72it/s]Training 1/3 epoch (loss 1.0069):  32%|███▏      | 3098/9753 [33:04<1:04:28,  1.72it/s]Training 1/3 epoch (loss 1.0069):  32%|███▏      | 3099/9753 [33:04<1:03:29,  1.75it/s]Training 1/3 epoch (loss 1.0528):  32%|███▏      | 3099/9753 [33:05<1:03:29,  1.75it/s]Training 1/3 epoch (loss 1.0528):  32%|███▏      | 3100/9753 [33:05<1:02:50,  1.76it/s]Training 1/3 epoch (loss 0.9542):  32%|███▏      | 3100/9753 [33:06<1:02:50,  1.76it/s]Training 1/3 epoch (loss 0.9542):  32%|███▏      | 3101/9753 [33:06<1:06:42,  1.66it/s]Training 1/3 epoch (loss 0.8494):  32%|███▏      | 3101/9753 [33:06<1:06:42,  1.66it/s]Training 1/3 epoch (loss 0.8494):  32%|███▏      | 3102/9753 [33:06<1:08:21,  1.62it/s]Training 1/3 epoch (loss 1.0587):  32%|███▏      | 3102/9753 [33:07<1:08:21,  1.62it/s]Training 1/3 epoch (loss 1.0587):  32%|███▏      | 3103/9753 [33:07<1:08:16,  1.62it/s]Training 1/3 epoch (loss 1.0764):  32%|███▏      | 3103/9753 [33:08<1:08:16,  1.62it/s]Training 1/3 epoch (loss 1.0764):  32%|███▏      | 3104/9753 [33:08<1:10:22,  1.57it/s]Training 1/3 epoch (loss 0.9954):  32%|███▏      | 3104/9753 [33:08<1:10:22,  1.57it/s]Training 1/3 epoch (loss 0.9954):  32%|███▏      | 3105/9753 [33:08<1:08:53,  1.61it/s]Training 1/3 epoch (loss 0.9365):  32%|███▏      | 3105/9753 [33:09<1:08:53,  1.61it/s]Training 1/3 epoch (loss 0.9365):  32%|███▏      | 3106/9753 [33:09<1:15:20,  1.47it/s]Training 1/3 epoch (loss 1.0995):  32%|███▏      | 3106/9753 [33:10<1:15:20,  1.47it/s]Training 1/3 epoch (loss 1.0995):  32%|███▏      | 3107/9753 [33:10<1:13:15,  1.51it/s]Training 1/3 epoch (loss 1.1745):  32%|███▏      | 3107/9753 [33:10<1:13:15,  1.51it/s]Training 1/3 epoch (loss 1.1745):  32%|███▏      | 3108/9753 [33:10<1:09:56,  1.58it/s]Training 1/3 epoch (loss 0.9942):  32%|███▏      | 3108/9753 [33:11<1:09:56,  1.58it/s]Training 1/3 epoch (loss 0.9942):  32%|███▏      | 3109/9753 [33:11<1:07:14,  1.65it/s]Training 1/3 epoch (loss 1.2226):  32%|███▏      | 3109/9753 [33:11<1:07:14,  1.65it/s]Training 1/3 epoch (loss 1.2226):  32%|███▏      | 3110/9753 [33:11<1:06:25,  1.67it/s]Training 1/3 epoch (loss 1.1070):  32%|███▏      | 3110/9753 [33:12<1:06:25,  1.67it/s]Training 1/3 epoch (loss 1.1070):  32%|███▏      | 3111/9753 [33:12<1:09:56,  1.58it/s]Training 1/3 epoch (loss 1.3598):  32%|███▏      | 3111/9753 [33:13<1:09:56,  1.58it/s]Training 1/3 epoch (loss 1.3598):  32%|███▏      | 3112/9753 [33:13<1:18:04,  1.42it/s]Training 1/3 epoch (loss 1.2129):  32%|███▏      | 3112/9753 [33:14<1:18:04,  1.42it/s]Training 1/3 epoch (loss 1.2129):  32%|███▏      | 3113/9753 [33:14<1:18:14,  1.41it/s]Training 1/3 epoch (loss 1.1470):  32%|███▏      | 3113/9753 [33:14<1:18:14,  1.41it/s]Training 1/3 epoch (loss 1.1470):  32%|███▏      | 3114/9753 [33:14<1:23:33,  1.32it/s]Training 1/3 epoch (loss 0.8874):  32%|███▏      | 3114/9753 [33:15<1:23:33,  1.32it/s]Training 1/3 epoch (loss 0.8874):  32%|███▏      | 3115/9753 [33:15<1:17:20,  1.43it/s]Training 1/3 epoch (loss 1.0938):  32%|███▏      | 3115/9753 [33:16<1:17:20,  1.43it/s]Training 1/3 epoch (loss 1.0938):  32%|███▏      | 3116/9753 [33:16<1:19:01,  1.40it/s]Training 1/3 epoch (loss 1.0849):  32%|███▏      | 3116/9753 [33:16<1:19:01,  1.40it/s]Training 1/3 epoch (loss 1.0849):  32%|███▏      | 3117/9753 [33:16<1:14:20,  1.49it/s]Training 1/3 epoch (loss 0.9511):  32%|███▏      | 3117/9753 [33:17<1:14:20,  1.49it/s]Training 1/3 epoch (loss 0.9511):  32%|███▏      | 3118/9753 [33:17<1:10:09,  1.58it/s]Training 1/3 epoch (loss 0.8897):  32%|███▏      | 3118/9753 [33:18<1:10:09,  1.58it/s]Training 1/3 epoch (loss 0.8897):  32%|███▏      | 3119/9753 [33:18<1:18:54,  1.40it/s]Training 1/3 epoch (loss 0.8989):  32%|███▏      | 3119/9753 [33:19<1:18:54,  1.40it/s]Training 1/3 epoch (loss 0.8989):  32%|███▏      | 3120/9753 [33:19<1:18:11,  1.41it/s]Training 1/3 epoch (loss 1.0876):  32%|███▏      | 3120/9753 [33:19<1:18:11,  1.41it/s]Training 1/3 epoch (loss 1.0876):  32%|███▏      | 3121/9753 [33:19<1:13:54,  1.50it/s]Training 1/3 epoch (loss 0.6858):  32%|███▏      | 3121/9753 [33:20<1:13:54,  1.50it/s]Training 1/3 epoch (loss 0.6858):  32%|███▏      | 3122/9753 [33:20<1:21:52,  1.35it/s]Training 1/3 epoch (loss 0.9191):  32%|███▏      | 3122/9753 [33:21<1:21:52,  1.35it/s]Training 1/3 epoch (loss 0.9191):  32%|███▏      | 3123/9753 [33:21<1:16:45,  1.44it/s]Training 1/3 epoch (loss 0.8615):  32%|███▏      | 3123/9753 [33:21<1:16:45,  1.44it/s]Training 1/3 epoch (loss 0.8615):  32%|███▏      | 3124/9753 [33:21<1:11:54,  1.54it/s]Training 1/3 epoch (loss 1.1521):  32%|███▏      | 3124/9753 [33:22<1:11:54,  1.54it/s]Training 1/3 epoch (loss 1.1521):  32%|███▏      | 3125/9753 [33:22<1:09:33,  1.59it/s]Training 1/3 epoch (loss 1.2411):  32%|███▏      | 3125/9753 [33:22<1:09:33,  1.59it/s]Training 1/3 epoch (loss 1.2411):  32%|███▏      | 3126/9753 [33:22<1:07:57,  1.63it/s]Training 1/3 epoch (loss 1.1245):  32%|███▏      | 3126/9753 [33:23<1:07:57,  1.63it/s]Training 1/3 epoch (loss 1.1245):  32%|███▏      | 3127/9753 [33:23<1:06:28,  1.66it/s]Training 1/3 epoch (loss 0.8880):  32%|███▏      | 3127/9753 [33:23<1:06:28,  1.66it/s]Training 1/3 epoch (loss 0.8880):  32%|███▏      | 3128/9753 [33:23<1:06:58,  1.65it/s]Training 1/3 epoch (loss 1.1724):  32%|███▏      | 3128/9753 [33:24<1:06:58,  1.65it/s]Training 1/3 epoch (loss 1.1724):  32%|███▏      | 3129/9753 [33:24<1:16:20,  1.45it/s]Training 1/3 epoch (loss 1.0452):  32%|███▏      | 3129/9753 [33:25<1:16:20,  1.45it/s]Training 1/3 epoch (loss 1.0452):  32%|███▏      | 3130/9753 [33:25<1:14:32,  1.48it/s]Training 1/3 epoch (loss 1.0455):  32%|███▏      | 3130/9753 [33:26<1:14:32,  1.48it/s]Training 1/3 epoch (loss 1.0455):  32%|███▏      | 3131/9753 [33:26<1:10:26,  1.57it/s]Training 1/3 epoch (loss 1.0407):  32%|███▏      | 3131/9753 [33:26<1:10:26,  1.57it/s]Training 1/3 epoch (loss 1.0407):  32%|███▏      | 3132/9753 [33:26<1:09:01,  1.60it/s]Training 1/3 epoch (loss 0.9542):  32%|███▏      | 3132/9753 [33:27<1:09:01,  1.60it/s]Training 1/3 epoch (loss 0.9542):  32%|███▏      | 3133/9753 [33:27<1:08:11,  1.62it/s]Training 1/3 epoch (loss 0.9395):  32%|███▏      | 3133/9753 [33:27<1:08:11,  1.62it/s]Training 1/3 epoch (loss 0.9395):  32%|███▏      | 3134/9753 [33:27<1:08:20,  1.61it/s]Training 1/3 epoch (loss 0.8969):  32%|███▏      | 3134/9753 [33:28<1:08:20,  1.61it/s]Training 1/3 epoch (loss 0.8969):  32%|███▏      | 3135/9753 [33:28<1:07:52,  1.62it/s]Training 1/3 epoch (loss 1.2635):  32%|███▏      | 3135/9753 [33:29<1:07:52,  1.62it/s]Training 1/3 epoch (loss 1.2635):  32%|███▏      | 3136/9753 [33:29<1:11:45,  1.54it/s]Training 1/3 epoch (loss 1.0462):  32%|███▏      | 3136/9753 [33:29<1:11:45,  1.54it/s]Training 1/3 epoch (loss 1.0462):  32%|███▏      | 3137/9753 [33:29<1:10:36,  1.56it/s]Training 1/3 epoch (loss 1.1985):  32%|███▏      | 3137/9753 [33:30<1:10:36,  1.56it/s]Training 1/3 epoch (loss 1.1985):  32%|███▏      | 3138/9753 [33:30<1:10:48,  1.56it/s]Training 1/3 epoch (loss 0.9894):  32%|███▏      | 3138/9753 [33:31<1:10:48,  1.56it/s]Training 1/3 epoch (loss 0.9894):  32%|███▏      | 3139/9753 [33:31<1:09:50,  1.58it/s]Training 1/3 epoch (loss 0.9623):  32%|███▏      | 3139/9753 [33:31<1:09:50,  1.58it/s]Training 1/3 epoch (loss 0.9623):  32%|███▏      | 3140/9753 [33:31<1:09:05,  1.60it/s]Training 1/3 epoch (loss 1.2042):  32%|███▏      | 3140/9753 [33:32<1:09:05,  1.60it/s]Training 1/3 epoch (loss 1.2042):  32%|███▏      | 3141/9753 [33:32<1:10:37,  1.56it/s]Training 1/3 epoch (loss 0.6566):  32%|███▏      | 3141/9753 [33:33<1:10:37,  1.56it/s]Training 1/3 epoch (loss 0.6566):  32%|███▏      | 3142/9753 [33:33<1:15:38,  1.46it/s]Training 1/3 epoch (loss 1.1446):  32%|███▏      | 3142/9753 [33:33<1:15:38,  1.46it/s]Training 1/3 epoch (loss 1.1446):  32%|███▏      | 3143/9753 [33:33<1:13:28,  1.50it/s]Training 1/3 epoch (loss 1.1686):  32%|███▏      | 3143/9753 [33:34<1:13:28,  1.50it/s]Training 1/3 epoch (loss 1.1686):  32%|███▏      | 3144/9753 [33:34<1:12:59,  1.51it/s]Training 1/3 epoch (loss 1.1775):  32%|███▏      | 3144/9753 [33:35<1:12:59,  1.51it/s]Training 1/3 epoch (loss 1.1775):  32%|███▏      | 3145/9753 [33:35<1:11:08,  1.55it/s]Training 1/3 epoch (loss 1.0135):  32%|███▏      | 3145/9753 [33:35<1:11:08,  1.55it/s]Training 1/3 epoch (loss 1.0135):  32%|███▏      | 3146/9753 [33:35<1:10:07,  1.57it/s]Training 1/3 epoch (loss 0.9341):  32%|███▏      | 3146/9753 [33:36<1:10:07,  1.57it/s]Training 1/3 epoch (loss 0.9341):  32%|███▏      | 3147/9753 [33:36<1:14:13,  1.48it/s]Training 1/3 epoch (loss 1.2723):  32%|███▏      | 3147/9753 [33:37<1:14:13,  1.48it/s]Training 1/3 epoch (loss 1.2723):  32%|███▏      | 3148/9753 [33:37<1:12:19,  1.52it/s]Training 1/3 epoch (loss 0.9131):  32%|███▏      | 3148/9753 [33:37<1:12:19,  1.52it/s]Training 1/3 epoch (loss 0.9131):  32%|███▏      | 3149/9753 [33:37<1:11:35,  1.54it/s]Training 1/3 epoch (loss 1.2223):  32%|███▏      | 3149/9753 [33:38<1:11:35,  1.54it/s]Training 1/3 epoch (loss 1.2223):  32%|███▏      | 3150/9753 [33:38<1:10:29,  1.56it/s]Training 1/3 epoch (loss 1.0182):  32%|███▏      | 3150/9753 [33:38<1:10:29,  1.56it/s]Training 1/3 epoch (loss 1.0182):  32%|███▏      | 3151/9753 [33:38<1:12:03,  1.53it/s]Training 1/3 epoch (loss 1.1455):  32%|███▏      | 3151/9753 [33:39<1:12:03,  1.53it/s]Training 1/3 epoch (loss 1.1455):  32%|███▏      | 3152/9753 [33:39<1:15:28,  1.46it/s]Training 1/3 epoch (loss 1.1839):  32%|███▏      | 3152/9753 [33:40<1:15:28,  1.46it/s]Training 1/3 epoch (loss 1.1839):  32%|███▏      | 3153/9753 [33:40<1:13:02,  1.51it/s]Training 1/3 epoch (loss 1.1501):  32%|███▏      | 3153/9753 [33:40<1:13:02,  1.51it/s]Training 1/3 epoch (loss 1.1501):  32%|███▏      | 3154/9753 [33:40<1:11:16,  1.54it/s]Training 1/3 epoch (loss 1.1404):  32%|███▏      | 3154/9753 [33:41<1:11:16,  1.54it/s]Training 1/3 epoch (loss 1.1404):  32%|███▏      | 3155/9753 [33:41<1:10:14,  1.57it/s]Training 1/3 epoch (loss 1.1132):  32%|███▏      | 3155/9753 [33:42<1:10:14,  1.57it/s]Training 1/3 epoch (loss 1.1132):  32%|███▏      | 3156/9753 [33:42<1:09:17,  1.59it/s]Training 1/3 epoch (loss 1.0066):  32%|███▏      | 3156/9753 [33:42<1:09:17,  1.59it/s]Training 1/3 epoch (loss 1.0066):  32%|███▏      | 3157/9753 [33:42<1:08:07,  1.61it/s]Training 1/3 epoch (loss 1.1863):  32%|███▏      | 3157/9753 [33:43<1:08:07,  1.61it/s]Training 1/3 epoch (loss 1.1863):  32%|███▏      | 3158/9753 [33:43<1:17:34,  1.42it/s]Training 1/3 epoch (loss 1.0696):  32%|███▏      | 3158/9753 [33:44<1:17:34,  1.42it/s]Training 1/3 epoch (loss 1.0696):  32%|███▏      | 3159/9753 [33:44<1:14:41,  1.47it/s]Training 1/3 epoch (loss 1.1521):  32%|███▏      | 3159/9753 [33:44<1:14:41,  1.47it/s]Training 1/3 epoch (loss 1.1521):  32%|███▏      | 3160/9753 [33:44<1:12:42,  1.51it/s]Training 1/3 epoch (loss 1.1923):  32%|███▏      | 3160/9753 [33:45<1:12:42,  1.51it/s]Training 1/3 epoch (loss 1.1923):  32%|███▏      | 3161/9753 [33:45<1:09:40,  1.58it/s]Training 1/3 epoch (loss 0.8902):  32%|███▏      | 3161/9753 [33:46<1:09:40,  1.58it/s]Training 1/3 epoch (loss 0.8902):  32%|███▏      | 3162/9753 [33:46<1:09:16,  1.59it/s]Training 1/3 epoch (loss 1.1984):  32%|███▏      | 3162/9753 [33:46<1:09:16,  1.59it/s]Training 1/3 epoch (loss 1.1984):  32%|███▏      | 3163/9753 [33:46<1:06:50,  1.64it/s]Training 1/3 epoch (loss 1.0061):  32%|███▏      | 3163/9753 [33:47<1:06:50,  1.64it/s]Training 1/3 epoch (loss 1.0061):  32%|███▏      | 3164/9753 [33:47<1:09:31,  1.58it/s]Training 1/3 epoch (loss 1.0022):  32%|███▏      | 3164/9753 [33:47<1:09:31,  1.58it/s]Training 1/3 epoch (loss 1.0022):  32%|███▏      | 3165/9753 [33:47<1:08:47,  1.60it/s]Training 1/3 epoch (loss 0.9580):  32%|███▏      | 3165/9753 [33:48<1:08:47,  1.60it/s]Training 1/3 epoch (loss 0.9580):  32%|███▏      | 3166/9753 [33:48<1:07:59,  1.61it/s]Training 1/3 epoch (loss 1.1842):  32%|███▏      | 3166/9753 [33:49<1:07:59,  1.61it/s]Training 1/3 epoch (loss 1.1842):  32%|███▏      | 3167/9753 [33:49<1:11:40,  1.53it/s]Training 1/3 epoch (loss 0.9421):  32%|███▏      | 3167/9753 [33:50<1:11:40,  1.53it/s]Training 1/3 epoch (loss 0.9421):  32%|███▏      | 3168/9753 [33:50<1:23:25,  1.32it/s]Training 1/3 epoch (loss 0.8317):  32%|███▏      | 3168/9753 [33:51<1:23:25,  1.32it/s]Training 1/3 epoch (loss 0.8317):  32%|███▏      | 3169/9753 [33:51<1:20:09,  1.37it/s]Training 1/3 epoch (loss 1.0879):  32%|███▏      | 3169/9753 [33:51<1:20:09,  1.37it/s]Training 1/3 epoch (loss 1.0879):  33%|███▎      | 3170/9753 [33:51<1:16:07,  1.44it/s]Training 1/3 epoch (loss 1.0922):  33%|███▎      | 3170/9753 [33:52<1:16:07,  1.44it/s]Training 1/3 epoch (loss 1.0922):  33%|███▎      | 3171/9753 [33:52<1:12:28,  1.51it/s]Training 1/3 epoch (loss 1.2369):  33%|███▎      | 3171/9753 [33:52<1:12:28,  1.51it/s]Training 1/3 epoch (loss 1.2369):  33%|███▎      | 3172/9753 [33:52<1:11:51,  1.53it/s]Training 1/3 epoch (loss 1.0920):  33%|███▎      | 3172/9753 [33:53<1:11:51,  1.53it/s]Training 1/3 epoch (loss 1.0920):  33%|███▎      | 3173/9753 [33:53<1:09:14,  1.58it/s]Training 1/3 epoch (loss 1.1537):  33%|███▎      | 3173/9753 [33:54<1:09:14,  1.58it/s]Training 1/3 epoch (loss 1.1537):  33%|███▎      | 3174/9753 [33:54<1:12:05,  1.52it/s]Training 1/3 epoch (loss 1.1300):  33%|███▎      | 3174/9753 [33:54<1:12:05,  1.52it/s]Training 1/3 epoch (loss 1.1300):  33%|███▎      | 3175/9753 [33:54<1:15:54,  1.44it/s]Training 1/3 epoch (loss 1.0377):  33%|███▎      | 3175/9753 [33:55<1:15:54,  1.44it/s]Training 1/3 epoch (loss 1.0377):  33%|███▎      | 3176/9753 [33:55<1:12:59,  1.50it/s]Training 1/3 epoch (loss 0.9864):  33%|███▎      | 3176/9753 [33:56<1:12:59,  1.50it/s]Training 1/3 epoch (loss 0.9864):  33%|███▎      | 3177/9753 [33:56<1:10:49,  1.55it/s]Training 1/3 epoch (loss 1.0045):  33%|███▎      | 3177/9753 [33:56<1:10:49,  1.55it/s]Training 1/3 epoch (loss 1.0045):  33%|███▎      | 3178/9753 [33:56<1:08:03,  1.61it/s]Training 1/3 epoch (loss 1.1443):  33%|███▎      | 3178/9753 [33:57<1:08:03,  1.61it/s]Training 1/3 epoch (loss 1.1443):  33%|███▎      | 3179/9753 [33:57<1:06:17,  1.65it/s]Training 1/3 epoch (loss 0.9697):  33%|███▎      | 3179/9753 [33:57<1:06:17,  1.65it/s]Training 1/3 epoch (loss 0.9697):  33%|███▎      | 3180/9753 [33:57<1:04:13,  1.71it/s]Training 1/3 epoch (loss 1.0885):  33%|███▎      | 3180/9753 [33:58<1:04:13,  1.71it/s]Training 1/3 epoch (loss 1.0885):  33%|███▎      | 3181/9753 [33:58<1:03:39,  1.72it/s]Training 1/3 epoch (loss 1.0514):  33%|███▎      | 3181/9753 [33:58<1:03:39,  1.72it/s]Training 1/3 epoch (loss 1.0514):  33%|███▎      | 3182/9753 [33:58<1:03:58,  1.71it/s]Training 1/3 epoch (loss 1.0389):  33%|███▎      | 3182/9753 [33:59<1:03:58,  1.71it/s]Training 1/3 epoch (loss 1.0389):  33%|███▎      | 3183/9753 [33:59<1:05:13,  1.68it/s]Training 1/3 epoch (loss 1.1565):  33%|███▎      | 3183/9753 [34:00<1:05:13,  1.68it/s]Training 1/3 epoch (loss 1.1565):  33%|███▎      | 3184/9753 [34:00<1:15:30,  1.45it/s]Training 1/3 epoch (loss 0.8610):  33%|███▎      | 3184/9753 [34:01<1:15:30,  1.45it/s]Training 1/3 epoch (loss 0.8610):  33%|███▎      | 3185/9753 [34:01<1:12:21,  1.51it/s]Training 1/3 epoch (loss 0.9757):  33%|███▎      | 3185/9753 [34:01<1:12:21,  1.51it/s]Training 1/3 epoch (loss 0.9757):  33%|███▎      | 3186/9753 [34:01<1:12:26,  1.51it/s]Training 1/3 epoch (loss 1.0683):  33%|███▎      | 3186/9753 [34:02<1:12:26,  1.51it/s]Training 1/3 epoch (loss 1.0683):  33%|███▎      | 3187/9753 [34:02<1:09:01,  1.59it/s]Training 1/3 epoch (loss 1.0733):  33%|███▎      | 3187/9753 [34:02<1:09:01,  1.59it/s]Training 1/3 epoch (loss 1.0733):  33%|███▎      | 3188/9753 [34:02<1:08:31,  1.60it/s]Training 1/3 epoch (loss 1.0678):  33%|███▎      | 3188/9753 [34:03<1:08:31,  1.60it/s]Training 1/3 epoch (loss 1.0678):  33%|███▎      | 3189/9753 [34:03<1:06:17,  1.65it/s]Training 1/3 epoch (loss 0.9778):  33%|███▎      | 3189/9753 [34:04<1:06:17,  1.65it/s]Training 1/3 epoch (loss 0.9778):  33%|███▎      | 3190/9753 [34:04<1:04:21,  1.70it/s]Training 1/3 epoch (loss 1.0029):  33%|███▎      | 3190/9753 [34:04<1:04:21,  1.70it/s]Training 1/3 epoch (loss 1.0029):  33%|███▎      | 3191/9753 [34:04<1:04:22,  1.70it/s]Training 1/3 epoch (loss 0.8715):  33%|███▎      | 3191/9753 [34:05<1:04:22,  1.70it/s]Training 1/3 epoch (loss 0.8715):  33%|███▎      | 3192/9753 [34:05<1:03:19,  1.73it/s]Training 1/3 epoch (loss 0.9099):  33%|███▎      | 3192/9753 [34:05<1:03:19,  1.73it/s]Training 1/3 epoch (loss 0.9099):  33%|███▎      | 3193/9753 [34:05<1:02:43,  1.74it/s]Training 1/3 epoch (loss 1.2323):  33%|███▎      | 3193/9753 [34:06<1:02:43,  1.74it/s]Training 1/3 epoch (loss 1.2323):  33%|███▎      | 3194/9753 [34:06<1:01:59,  1.76it/s]Training 1/3 epoch (loss 0.9306):  33%|███▎      | 3194/9753 [34:07<1:01:59,  1.76it/s]Training 1/3 epoch (loss 0.9306):  33%|███▎      | 3195/9753 [34:07<1:13:26,  1.49it/s]Training 1/3 epoch (loss 1.2648):  33%|███▎      | 3195/9753 [34:08<1:13:26,  1.49it/s]Training 1/3 epoch (loss 1.2648):  33%|███▎      | 3196/9753 [34:08<1:21:14,  1.35it/s]Training 1/3 epoch (loss 0.9652):  33%|███▎      | 3196/9753 [34:08<1:21:14,  1.35it/s]Training 1/3 epoch (loss 0.9652):  33%|███▎      | 3197/9753 [34:08<1:15:30,  1.45it/s]Training 1/3 epoch (loss 1.1114):  33%|███▎      | 3197/9753 [34:09<1:15:30,  1.45it/s]Training 1/3 epoch (loss 1.1114):  33%|███▎      | 3198/9753 [34:09<1:10:56,  1.54it/s]Training 1/3 epoch (loss 1.0771):  33%|███▎      | 3198/9753 [34:09<1:10:56,  1.54it/s]Training 1/3 epoch (loss 1.0771):  33%|███▎      | 3199/9753 [34:09<1:12:21,  1.51it/s]Training 1/3 epoch (loss 0.9406):  33%|███▎      | 3199/9753 [34:10<1:12:21,  1.51it/s]Training 1/3 epoch (loss 0.9406):  33%|███▎      | 3200/9753 [34:10<1:14:39,  1.46it/s]Training 1/3 epoch (loss 0.9671):  33%|███▎      | 3200/9753 [34:11<1:14:39,  1.46it/s]Training 1/3 epoch (loss 0.9671):  33%|███▎      | 3201/9753 [34:11<1:10:40,  1.55it/s]Training 1/3 epoch (loss 0.7441):  33%|███▎      | 3201/9753 [34:11<1:10:40,  1.55it/s]Training 1/3 epoch (loss 0.7441):  33%|███▎      | 3202/9753 [34:11<1:07:49,  1.61it/s]Training 1/3 epoch (loss 1.1921):  33%|███▎      | 3202/9753 [34:12<1:07:49,  1.61it/s]Training 1/3 epoch (loss 1.1921):  33%|███▎      | 3203/9753 [34:12<1:08:42,  1.59it/s]Training 1/3 epoch (loss 1.1559):  33%|███▎      | 3203/9753 [34:13<1:08:42,  1.59it/s]Training 1/3 epoch (loss 1.1559):  33%|███▎      | 3204/9753 [34:13<1:07:40,  1.61it/s]Training 1/3 epoch (loss 1.0992):  33%|███▎      | 3204/9753 [34:13<1:07:40,  1.61it/s]Training 1/3 epoch (loss 1.0992):  33%|███▎      | 3205/9753 [34:13<1:07:07,  1.63it/s]Training 1/3 epoch (loss 0.9121):  33%|███▎      | 3205/9753 [34:14<1:07:07,  1.63it/s]Training 1/3 epoch (loss 0.9121):  33%|███▎      | 3206/9753 [34:14<1:10:15,  1.55it/s]Training 1/3 epoch (loss 1.2530):  33%|███▎      | 3206/9753 [34:14<1:10:15,  1.55it/s]Training 1/3 epoch (loss 1.2530):  33%|███▎      | 3207/9753 [34:14<1:08:07,  1.60it/s]Training 1/3 epoch (loss 0.9726):  33%|███▎      | 3207/9753 [34:15<1:08:07,  1.60it/s]Training 1/3 epoch (loss 0.9726):  33%|███▎      | 3208/9753 [34:15<1:10:34,  1.55it/s]Training 1/3 epoch (loss 1.0352):  33%|███▎      | 3208/9753 [34:16<1:10:34,  1.55it/s]Training 1/3 epoch (loss 1.0352):  33%|███▎      | 3209/9753 [34:16<1:12:28,  1.50it/s]Training 1/3 epoch (loss 1.0652):  33%|███▎      | 3209/9753 [34:16<1:12:28,  1.50it/s]Training 1/3 epoch (loss 1.0652):  33%|███▎      | 3210/9753 [34:16<1:11:59,  1.51it/s]Training 1/3 epoch (loss 1.2381):  33%|███▎      | 3210/9753 [34:17<1:11:59,  1.51it/s]Training 1/3 epoch (loss 1.2381):  33%|███▎      | 3211/9753 [34:17<1:13:18,  1.49it/s]Training 1/3 epoch (loss 1.0300):  33%|███▎      | 3211/9753 [34:18<1:13:18,  1.49it/s]Training 1/3 epoch (loss 1.0300):  33%|███▎      | 3212/9753 [34:18<1:11:32,  1.52it/s]Training 1/3 epoch (loss 0.9761):  33%|███▎      | 3212/9753 [34:18<1:11:32,  1.52it/s]Training 1/3 epoch (loss 0.9761):  33%|███▎      | 3213/9753 [34:18<1:08:47,  1.58it/s]Training 1/3 epoch (loss 0.9497):  33%|███▎      | 3213/9753 [34:19<1:08:47,  1.58it/s]Training 1/3 epoch (loss 0.9497):  33%|███▎      | 3214/9753 [34:19<1:06:18,  1.64it/s]Training 1/3 epoch (loss 1.1530):  33%|███▎      | 3214/9753 [34:20<1:06:18,  1.64it/s]Training 1/3 epoch (loss 1.1530):  33%|███▎      | 3215/9753 [34:20<1:07:10,  1.62it/s]Training 1/3 epoch (loss 1.0951):  33%|███▎      | 3215/9753 [34:20<1:07:10,  1.62it/s]Training 1/3 epoch (loss 1.0951):  33%|███▎      | 3216/9753 [34:20<1:10:05,  1.55it/s]Training 1/3 epoch (loss 1.0290):  33%|███▎      | 3216/9753 [34:21<1:10:05,  1.55it/s]Training 1/3 epoch (loss 1.0290):  33%|███▎      | 3217/9753 [34:21<1:07:26,  1.62it/s]Training 1/3 epoch (loss 1.1444):  33%|███▎      | 3217/9753 [34:21<1:07:26,  1.62it/s]Training 1/3 epoch (loss 1.1444):  33%|███▎      | 3218/9753 [34:21<1:05:52,  1.65it/s]Training 1/3 epoch (loss 1.1567):  33%|███▎      | 3218/9753 [34:22<1:05:52,  1.65it/s]Training 1/3 epoch (loss 1.1567):  33%|███▎      | 3219/9753 [34:22<1:04:39,  1.68it/s]Training 1/3 epoch (loss 1.0927):  33%|███▎      | 3219/9753 [34:23<1:04:39,  1.68it/s]Training 1/3 epoch (loss 1.0927):  33%|███▎      | 3220/9753 [34:23<1:06:34,  1.64it/s]Training 1/3 epoch (loss 0.9754):  33%|███▎      | 3220/9753 [34:23<1:06:34,  1.64it/s]Training 1/3 epoch (loss 0.9754):  33%|███▎      | 3221/9753 [34:23<1:10:05,  1.55it/s]Training 1/3 epoch (loss 1.3590):  33%|███▎      | 3221/9753 [34:24<1:10:05,  1.55it/s]Training 1/3 epoch (loss 1.3590):  33%|███▎      | 3222/9753 [34:24<1:07:16,  1.62it/s]Training 1/3 epoch (loss 1.1836):  33%|███▎      | 3222/9753 [34:25<1:07:16,  1.62it/s]Training 1/3 epoch (loss 1.1836):  33%|███▎      | 3223/9753 [34:25<1:08:07,  1.60it/s]Training 1/3 epoch (loss 0.9122):  33%|███▎      | 3223/9753 [34:25<1:08:07,  1.60it/s]Training 1/3 epoch (loss 0.9122):  33%|███▎      | 3224/9753 [34:25<1:06:02,  1.65it/s]Training 1/3 epoch (loss 1.1774):  33%|███▎      | 3224/9753 [34:26<1:06:02,  1.65it/s]Training 1/3 epoch (loss 1.1774):  33%|███▎      | 3225/9753 [34:26<1:11:13,  1.53it/s]Training 1/3 epoch (loss 1.1509):  33%|███▎      | 3225/9753 [34:27<1:11:13,  1.53it/s]Training 1/3 epoch (loss 1.1509):  33%|███▎      | 3226/9753 [34:27<1:18:03,  1.39it/s]Training 1/3 epoch (loss 0.9551):  33%|███▎      | 3226/9753 [34:27<1:18:03,  1.39it/s]Training 1/3 epoch (loss 0.9551):  33%|███▎      | 3227/9753 [34:27<1:12:45,  1.49it/s]Training 1/3 epoch (loss 1.0300):  33%|███▎      | 3227/9753 [34:28<1:12:45,  1.49it/s]Training 1/3 epoch (loss 1.0300):  33%|███▎      | 3228/9753 [34:28<1:14:23,  1.46it/s]Training 1/3 epoch (loss 0.8513):  33%|███▎      | 3228/9753 [34:29<1:14:23,  1.46it/s]Training 1/3 epoch (loss 0.8513):  33%|███▎      | 3229/9753 [34:29<1:10:47,  1.54it/s]Training 1/3 epoch (loss 1.0397):  33%|███▎      | 3229/9753 [34:29<1:10:47,  1.54it/s]Training 1/3 epoch (loss 1.0397):  33%|███▎      | 3230/9753 [34:29<1:09:11,  1.57it/s]Training 1/3 epoch (loss 1.1757):  33%|███▎      | 3230/9753 [34:30<1:09:11,  1.57it/s]Training 1/3 epoch (loss 1.1757):  33%|███▎      | 3231/9753 [34:30<1:07:06,  1.62it/s]Training 1/3 epoch (loss 1.1211):  33%|███▎      | 3231/9753 [34:31<1:07:06,  1.62it/s]Training 1/3 epoch (loss 1.1211):  33%|███▎      | 3232/9753 [34:31<1:13:53,  1.47it/s]Training 1/3 epoch (loss 0.9948):  33%|███▎      | 3232/9753 [34:31<1:13:53,  1.47it/s]Training 1/3 epoch (loss 0.9948):  33%|███▎      | 3233/9753 [34:31<1:10:54,  1.53it/s]Training 1/3 epoch (loss 1.1268):  33%|███▎      | 3233/9753 [34:32<1:10:54,  1.53it/s]Training 1/3 epoch (loss 1.1268):  33%|███▎      | 3234/9753 [34:32<1:09:16,  1.57it/s]Training 1/3 epoch (loss 1.1126):  33%|███▎      | 3234/9753 [34:32<1:09:16,  1.57it/s]Training 1/3 epoch (loss 1.1126):  33%|███▎      | 3235/9753 [34:32<1:06:32,  1.63it/s]Training 1/3 epoch (loss 0.9898):  33%|███▎      | 3235/9753 [34:33<1:06:32,  1.63it/s]Training 1/3 epoch (loss 0.9898):  33%|███▎      | 3236/9753 [34:33<1:07:59,  1.60it/s]Training 1/3 epoch (loss 0.9199):  33%|███▎      | 3236/9753 [34:34<1:07:59,  1.60it/s]Training 1/3 epoch (loss 0.9199):  33%|███▎      | 3237/9753 [34:34<1:10:44,  1.54it/s]Training 1/3 epoch (loss 0.9217):  33%|███▎      | 3237/9753 [34:34<1:10:44,  1.54it/s]Training 1/3 epoch (loss 0.9217):  33%|███▎      | 3238/9753 [34:34<1:07:50,  1.60it/s]Training 1/3 epoch (loss 1.0249):  33%|███▎      | 3238/9753 [34:35<1:07:50,  1.60it/s]Training 1/3 epoch (loss 1.0249):  33%|███▎      | 3239/9753 [34:35<1:06:53,  1.62it/s]Training 1/3 epoch (loss 0.8888):  33%|███▎      | 3239/9753 [34:35<1:06:53,  1.62it/s]Training 1/3 epoch (loss 0.8888):  33%|███▎      | 3240/9753 [34:35<1:05:03,  1.67it/s]Training 1/3 epoch (loss 0.9801):  33%|███▎      | 3240/9753 [34:36<1:05:03,  1.67it/s]Training 1/3 epoch (loss 0.9801):  33%|███▎      | 3241/9753 [34:36<1:05:55,  1.65it/s]Training 1/3 epoch (loss 1.3046):  33%|███▎      | 3241/9753 [34:37<1:05:55,  1.65it/s]Training 1/3 epoch (loss 1.3046):  33%|███▎      | 3242/9753 [34:37<1:04:45,  1.68it/s]Training 1/3 epoch (loss 0.9728):  33%|███▎      | 3242/9753 [34:37<1:04:45,  1.68it/s]Training 1/3 epoch (loss 0.9728):  33%|███▎      | 3243/9753 [34:37<1:05:02,  1.67it/s]Training 1/3 epoch (loss 0.9995):  33%|███▎      | 3243/9753 [34:38<1:05:02,  1.67it/s]Training 1/3 epoch (loss 0.9995):  33%|███▎      | 3244/9753 [34:38<1:03:33,  1.71it/s]Training 1/3 epoch (loss 1.2489):  33%|███▎      | 3244/9753 [34:38<1:03:33,  1.71it/s]Training 1/3 epoch (loss 1.2489):  33%|███▎      | 3245/9753 [34:38<1:06:50,  1.62it/s]Training 1/3 epoch (loss 1.0686):  33%|███▎      | 3245/9753 [34:39<1:06:50,  1.62it/s]Training 1/3 epoch (loss 1.0686):  33%|███▎      | 3246/9753 [34:39<1:05:33,  1.65it/s]Training 1/3 epoch (loss 0.8177):  33%|███▎      | 3246/9753 [34:40<1:05:33,  1.65it/s]Training 1/3 epoch (loss 0.8177):  33%|███▎      | 3247/9753 [34:40<1:12:58,  1.49it/s]Training 1/3 epoch (loss 1.0224):  33%|███▎      | 3247/9753 [34:41<1:12:58,  1.49it/s]Training 1/3 epoch (loss 1.0224):  33%|███▎      | 3248/9753 [34:41<1:24:20,  1.29it/s]Training 1/3 epoch (loss 1.1135):  33%|███▎      | 3248/9753 [34:41<1:24:20,  1.29it/s]Training 1/3 epoch (loss 1.1135):  33%|███▎      | 3249/9753 [34:41<1:17:40,  1.40it/s]Training 1/3 epoch (loss 0.8620):  33%|███▎      | 3249/9753 [34:42<1:17:40,  1.40it/s]Training 1/3 epoch (loss 0.8620):  33%|███▎      | 3250/9753 [34:42<1:12:25,  1.50it/s]Training 1/3 epoch (loss 1.7822):  33%|███▎      | 3250/9753 [34:43<1:12:25,  1.50it/s]Training 1/3 epoch (loss 1.7822):  33%|███▎      | 3251/9753 [34:43<1:09:14,  1.57it/s]Training 2/3 epoch (loss 0.9136):  33%|███▎      | 3251/9753 [34:43<1:09:14,  1.57it/s]Training 2/3 epoch (loss 0.9136):  33%|███▎      | 3252/9753 [34:43<1:08:06,  1.59it/s]Training 2/3 epoch (loss 0.9543):  33%|███▎      | 3252/9753 [34:44<1:08:06,  1.59it/s]Training 2/3 epoch (loss 0.9543):  33%|███▎      | 3253/9753 [34:44<1:08:06,  1.59it/s]Training 2/3 epoch (loss 1.1234):  33%|███▎      | 3253/9753 [34:44<1:08:06,  1.59it/s]Training 2/3 epoch (loss 1.1234):  33%|███▎      | 3254/9753 [34:44<1:09:21,  1.56it/s]Training 2/3 epoch (loss 0.9678):  33%|███▎      | 3254/9753 [34:45<1:09:21,  1.56it/s]Training 2/3 epoch (loss 0.9678):  33%|███▎      | 3255/9753 [34:45<1:14:48,  1.45it/s]Training 2/3 epoch (loss 0.9689):  33%|███▎      | 3255/9753 [34:46<1:14:48,  1.45it/s]Training 2/3 epoch (loss 0.9689):  33%|███▎      | 3256/9753 [34:46<1:11:14,  1.52it/s]Training 2/3 epoch (loss 1.1519):  33%|███▎      | 3256/9753 [34:46<1:11:14,  1.52it/s]Training 2/3 epoch (loss 1.1519):  33%|███▎      | 3257/9753 [34:46<1:08:40,  1.58it/s]Training 2/3 epoch (loss 0.8900):  33%|███▎      | 3257/9753 [34:47<1:08:40,  1.58it/s]Training 2/3 epoch (loss 0.8900):  33%|███▎      | 3258/9753 [34:47<1:09:55,  1.55it/s]Training 2/3 epoch (loss 1.2029):  33%|███▎      | 3258/9753 [34:48<1:09:55,  1.55it/s]Training 2/3 epoch (loss 1.2029):  33%|███▎      | 3259/9753 [34:48<1:07:24,  1.61it/s]Training 2/3 epoch (loss 1.0119):  33%|███▎      | 3259/9753 [34:48<1:07:24,  1.61it/s]Training 2/3 epoch (loss 1.0119):  33%|███▎      | 3260/9753 [34:48<1:06:54,  1.62it/s]Training 2/3 epoch (loss 1.1026):  33%|███▎      | 3260/9753 [34:49<1:06:54,  1.62it/s]Training 2/3 epoch (loss 1.1026):  33%|███▎      | 3261/9753 [34:49<1:10:29,  1.54it/s]Training 2/3 epoch (loss 1.0555):  33%|███▎      | 3261/9753 [34:50<1:10:29,  1.54it/s]Training 2/3 epoch (loss 1.0555):  33%|███▎      | 3262/9753 [34:50<1:08:37,  1.58it/s]Training 2/3 epoch (loss 0.8862):  33%|███▎      | 3262/9753 [34:50<1:08:37,  1.58it/s]Training 2/3 epoch (loss 0.8862):  33%|███▎      | 3263/9753 [34:50<1:07:53,  1.59it/s]Training 2/3 epoch (loss 0.8283):  33%|███▎      | 3263/9753 [34:51<1:07:53,  1.59it/s]Training 2/3 epoch (loss 0.8283):  33%|███▎      | 3264/9753 [34:51<1:10:43,  1.53it/s]Training 2/3 epoch (loss 0.8697):  33%|███▎      | 3264/9753 [34:52<1:10:43,  1.53it/s]Training 2/3 epoch (loss 0.8697):  33%|███▎      | 3265/9753 [34:52<1:07:36,  1.60it/s]Training 2/3 epoch (loss 0.9092):  33%|███▎      | 3265/9753 [34:52<1:07:36,  1.60it/s]Training 2/3 epoch (loss 0.9092):  33%|███▎      | 3266/9753 [34:52<1:08:42,  1.57it/s]Training 2/3 epoch (loss 0.8889):  33%|███▎      | 3266/9753 [34:53<1:08:42,  1.57it/s]Training 2/3 epoch (loss 0.8889):  33%|███▎      | 3267/9753 [34:53<1:17:37,  1.39it/s]Training 2/3 epoch (loss 0.9313):  33%|███▎      | 3267/9753 [34:54<1:17:37,  1.39it/s]Training 2/3 epoch (loss 0.9313):  34%|███▎      | 3268/9753 [34:54<1:13:01,  1.48it/s]Training 2/3 epoch (loss 1.1775):  34%|███▎      | 3268/9753 [34:54<1:13:01,  1.48it/s]Training 2/3 epoch (loss 1.1775):  34%|███▎      | 3269/9753 [34:54<1:10:37,  1.53it/s]Training 2/3 epoch (loss 1.1042):  34%|███▎      | 3269/9753 [34:55<1:10:37,  1.53it/s]Training 2/3 epoch (loss 1.1042):  34%|███▎      | 3270/9753 [34:55<1:07:10,  1.61it/s]Training 2/3 epoch (loss 0.8927):  34%|███▎      | 3270/9753 [34:55<1:07:10,  1.61it/s]Training 2/3 epoch (loss 0.8927):  34%|███▎      | 3271/9753 [34:55<1:05:05,  1.66it/s]Training 2/3 epoch (loss 1.1493):  34%|███▎      | 3271/9753 [34:56<1:05:05,  1.66it/s]Training 2/3 epoch (loss 1.1493):  34%|███▎      | 3272/9753 [34:56<1:03:19,  1.71it/s]Training 2/3 epoch (loss 1.0301):  34%|███▎      | 3272/9753 [34:57<1:03:19,  1.71it/s]Training 2/3 epoch (loss 1.0301):  34%|███▎      | 3273/9753 [34:57<1:14:43,  1.45it/s]Training 2/3 epoch (loss 0.8777):  34%|███▎      | 3273/9753 [34:57<1:14:43,  1.45it/s]Training 2/3 epoch (loss 0.8777):  34%|███▎      | 3274/9753 [34:57<1:10:29,  1.53it/s]Training 2/3 epoch (loss 1.2853):  34%|███▎      | 3274/9753 [34:58<1:10:29,  1.53it/s]Training 2/3 epoch (loss 1.2853):  34%|███▎      | 3275/9753 [34:58<1:09:09,  1.56it/s]Training 2/3 epoch (loss 1.0700):  34%|███▎      | 3275/9753 [34:59<1:09:09,  1.56it/s]Training 2/3 epoch (loss 1.0700):  34%|███▎      | 3276/9753 [34:59<1:08:44,  1.57it/s]Training 2/3 epoch (loss 0.8544):  34%|███▎      | 3276/9753 [34:59<1:08:44,  1.57it/s]Training 2/3 epoch (loss 0.8544):  34%|███▎      | 3277/9753 [34:59<1:06:39,  1.62it/s]Training 2/3 epoch (loss 1.0101):  34%|███▎      | 3277/9753 [35:00<1:06:39,  1.62it/s]Training 2/3 epoch (loss 1.0101):  34%|███▎      | 3278/9753 [35:00<1:05:44,  1.64it/s]Training 2/3 epoch (loss 1.1592):  34%|███▎      | 3278/9753 [35:00<1:05:44,  1.64it/s]Training 2/3 epoch (loss 1.1592):  34%|███▎      | 3279/9753 [35:00<1:06:49,  1.61it/s]Training 2/3 epoch (loss 0.6432):  34%|███▎      | 3279/9753 [35:01<1:06:49,  1.61it/s]Training 2/3 epoch (loss 0.6432):  34%|███▎      | 3280/9753 [35:01<1:12:14,  1.49it/s]Training 2/3 epoch (loss 1.0312):  34%|███▎      | 3280/9753 [35:02<1:12:14,  1.49it/s]Training 2/3 epoch (loss 1.0312):  34%|███▎      | 3281/9753 [35:02<1:10:15,  1.54it/s]Training 2/3 epoch (loss 1.0837):  34%|███▎      | 3281/9753 [35:02<1:10:15,  1.54it/s]Training 2/3 epoch (loss 1.0837):  34%|███▎      | 3282/9753 [35:02<1:07:26,  1.60it/s]Training 2/3 epoch (loss 0.7984):  34%|███▎      | 3282/9753 [35:03<1:07:26,  1.60it/s]Training 2/3 epoch (loss 0.7984):  34%|███▎      | 3283/9753 [35:03<1:07:32,  1.60it/s]Training 2/3 epoch (loss 0.8969):  34%|███▎      | 3283/9753 [35:04<1:07:32,  1.60it/s]Training 2/3 epoch (loss 0.8969):  34%|███▎      | 3284/9753 [35:04<1:05:39,  1.64it/s]Training 2/3 epoch (loss 0.7462):  34%|███▎      | 3284/9753 [35:04<1:05:39,  1.64it/s]Training 2/3 epoch (loss 0.7462):  34%|███▎      | 3285/9753 [35:04<1:08:25,  1.58it/s]Training 2/3 epoch (loss 1.1987):  34%|███▎      | 3285/9753 [35:05<1:08:25,  1.58it/s]Training 2/3 epoch (loss 1.1987):  34%|███▎      | 3286/9753 [35:05<1:06:30,  1.62it/s]Training 2/3 epoch (loss 0.9683):  34%|███▎      | 3286/9753 [35:05<1:06:30,  1.62it/s]Training 2/3 epoch (loss 0.9683):  34%|███▎      | 3287/9753 [35:05<1:04:29,  1.67it/s]Training 2/3 epoch (loss 1.3030):  34%|███▎      | 3287/9753 [35:06<1:04:29,  1.67it/s]Training 2/3 epoch (loss 1.3030):  34%|███▎      | 3288/9753 [35:06<1:05:46,  1.64it/s]Training 2/3 epoch (loss 0.8807):  34%|███▎      | 3288/9753 [35:07<1:05:46,  1.64it/s]Training 2/3 epoch (loss 0.8807):  34%|███▎      | 3289/9753 [35:07<1:05:01,  1.66it/s]Training 2/3 epoch (loss 0.9085):  34%|███▎      | 3289/9753 [35:07<1:05:01,  1.66it/s]Training 2/3 epoch (loss 0.9085):  34%|███▎      | 3290/9753 [35:07<1:03:30,  1.70it/s]Training 2/3 epoch (loss 1.0208):  34%|███▎      | 3290/9753 [35:08<1:03:30,  1.70it/s]Training 2/3 epoch (loss 1.0208):  34%|███▎      | 3291/9753 [35:08<1:13:19,  1.47it/s]Training 2/3 epoch (loss 0.9623):  34%|███▎      | 3291/9753 [35:09<1:13:19,  1.47it/s]Training 2/3 epoch (loss 0.9623):  34%|███▍      | 3292/9753 [35:09<1:10:10,  1.53it/s]Training 2/3 epoch (loss 0.9044):  34%|███▍      | 3292/9753 [35:09<1:10:10,  1.53it/s]Training 2/3 epoch (loss 0.9044):  34%|███▍      | 3293/9753 [35:09<1:07:04,  1.61it/s]Training 2/3 epoch (loss 1.0785):  34%|███▍      | 3293/9753 [35:10<1:07:04,  1.61it/s]Training 2/3 epoch (loss 1.0785):  34%|███▍      | 3294/9753 [35:10<1:08:22,  1.57it/s]Training 2/3 epoch (loss 0.9515):  34%|███▍      | 3294/9753 [35:11<1:08:22,  1.57it/s]Training 2/3 epoch (loss 0.9515):  34%|███▍      | 3295/9753 [35:11<1:06:35,  1.62it/s]Training 2/3 epoch (loss 0.9724):  34%|███▍      | 3295/9753 [35:11<1:06:35,  1.62it/s]Training 2/3 epoch (loss 0.9724):  34%|███▍      | 3296/9753 [35:11<1:09:44,  1.54it/s]Training 2/3 epoch (loss 0.9159):  34%|███▍      | 3296/9753 [35:12<1:09:44,  1.54it/s]Training 2/3 epoch (loss 0.9159):  34%|███▍      | 3297/9753 [35:12<1:15:00,  1.43it/s]Training 2/3 epoch (loss 1.0354):  34%|███▍      | 3297/9753 [35:13<1:15:00,  1.43it/s]Training 2/3 epoch (loss 1.0354):  34%|███▍      | 3298/9753 [35:13<1:11:26,  1.51it/s]Training 2/3 epoch (loss 0.8618):  34%|███▍      | 3298/9753 [35:13<1:11:26,  1.51it/s]Training 2/3 epoch (loss 0.8618):  34%|███▍      | 3299/9753 [35:13<1:08:48,  1.56it/s]Training 2/3 epoch (loss 0.9750):  34%|███▍      | 3299/9753 [35:14<1:08:48,  1.56it/s]Training 2/3 epoch (loss 0.9750):  34%|███▍      | 3300/9753 [35:14<1:06:58,  1.61it/s]Training 2/3 epoch (loss 1.0647):  34%|███▍      | 3300/9753 [35:14<1:06:58,  1.61it/s]Training 2/3 epoch (loss 1.0647):  34%|███▍      | 3301/9753 [35:14<1:09:45,  1.54it/s]Training 2/3 epoch (loss 1.0696):  34%|███▍      | 3301/9753 [35:15<1:09:45,  1.54it/s]Training 2/3 epoch (loss 1.0696):  34%|███▍      | 3302/9753 [35:15<1:13:53,  1.46it/s]Training 2/3 epoch (loss 0.8917):  34%|███▍      | 3302/9753 [35:16<1:13:53,  1.46it/s]Training 2/3 epoch (loss 0.8917):  34%|███▍      | 3303/9753 [35:16<1:13:47,  1.46it/s]Training 2/3 epoch (loss 1.0105):  34%|███▍      | 3303/9753 [35:17<1:13:47,  1.46it/s]Training 2/3 epoch (loss 1.0105):  34%|███▍      | 3304/9753 [35:17<1:10:59,  1.51it/s]Training 2/3 epoch (loss 0.8104):  34%|███▍      | 3304/9753 [35:17<1:10:59,  1.51it/s]Training 2/3 epoch (loss 0.8104):  34%|███▍      | 3305/9753 [35:17<1:09:16,  1.55it/s]Training 2/3 epoch (loss 1.0825):  34%|███▍      | 3305/9753 [35:18<1:09:16,  1.55it/s]Training 2/3 epoch (loss 1.0825):  34%|███▍      | 3306/9753 [35:18<1:10:14,  1.53it/s]Training 2/3 epoch (loss 0.8980):  34%|███▍      | 3306/9753 [35:18<1:10:14,  1.53it/s]Training 2/3 epoch (loss 0.8980):  34%|███▍      | 3307/9753 [35:18<1:08:02,  1.58it/s]Training 2/3 epoch (loss 1.1157):  34%|███▍      | 3307/9753 [35:19<1:08:02,  1.58it/s]Training 2/3 epoch (loss 1.1157):  34%|███▍      | 3308/9753 [35:19<1:11:31,  1.50it/s]Training 2/3 epoch (loss 1.0115):  34%|███▍      | 3308/9753 [35:20<1:11:31,  1.50it/s]Training 2/3 epoch (loss 1.0115):  34%|███▍      | 3309/9753 [35:20<1:08:21,  1.57it/s]Training 2/3 epoch (loss 0.7121):  34%|███▍      | 3309/9753 [35:20<1:08:21,  1.57it/s]Training 2/3 epoch (loss 0.7121):  34%|███▍      | 3310/9753 [35:20<1:06:27,  1.62it/s]Training 2/3 epoch (loss 0.7441):  34%|███▍      | 3310/9753 [35:21<1:06:27,  1.62it/s]Training 2/3 epoch (loss 0.7441):  34%|███▍      | 3311/9753 [35:21<1:15:42,  1.42it/s]Training 2/3 epoch (loss 1.0529):  34%|███▍      | 3311/9753 [35:22<1:15:42,  1.42it/s]Training 2/3 epoch (loss 1.0529):  34%|███▍      | 3312/9753 [35:22<1:16:12,  1.41it/s]Training 2/3 epoch (loss 0.8813):  34%|███▍      | 3312/9753 [35:23<1:16:12,  1.41it/s]Training 2/3 epoch (loss 0.8813):  34%|███▍      | 3313/9753 [35:23<1:12:20,  1.48it/s]Training 2/3 epoch (loss 0.7359):  34%|███▍      | 3313/9753 [35:23<1:12:20,  1.48it/s]Training 2/3 epoch (loss 0.7359):  34%|███▍      | 3314/9753 [35:23<1:14:48,  1.43it/s]Training 2/3 epoch (loss 1.0652):  34%|███▍      | 3314/9753 [35:24<1:14:48,  1.43it/s]Training 2/3 epoch (loss 1.0652):  34%|███▍      | 3315/9753 [35:24<1:13:53,  1.45it/s]Training 2/3 epoch (loss 0.8966):  34%|███▍      | 3315/9753 [35:25<1:13:53,  1.45it/s]Training 2/3 epoch (loss 0.8966):  34%|███▍      | 3316/9753 [35:25<1:10:05,  1.53it/s]Training 2/3 epoch (loss 0.9497):  34%|███▍      | 3316/9753 [35:25<1:10:05,  1.53it/s]Training 2/3 epoch (loss 0.9497):  34%|███▍      | 3317/9753 [35:25<1:07:45,  1.58it/s]Training 2/3 epoch (loss 1.0219):  34%|███▍      | 3317/9753 [35:26<1:07:45,  1.58it/s]Training 2/3 epoch (loss 1.0219):  34%|███▍      | 3318/9753 [35:26<1:14:27,  1.44it/s]Training 2/3 epoch (loss 0.8998):  34%|███▍      | 3318/9753 [35:27<1:14:27,  1.44it/s]Training 2/3 epoch (loss 0.8998):  34%|███▍      | 3319/9753 [35:27<1:10:37,  1.52it/s]Training 2/3 epoch (loss 0.7450):  34%|███▍      | 3319/9753 [35:27<1:10:37,  1.52it/s]Training 2/3 epoch (loss 0.7450):  34%|███▍      | 3320/9753 [35:27<1:06:57,  1.60it/s]Training 2/3 epoch (loss 0.7938):  34%|███▍      | 3320/9753 [35:28<1:06:57,  1.60it/s]Training 2/3 epoch (loss 0.7938):  34%|███▍      | 3321/9753 [35:28<1:05:07,  1.65it/s]Training 2/3 epoch (loss 0.9285):  34%|███▍      | 3321/9753 [35:28<1:05:07,  1.65it/s]Training 2/3 epoch (loss 0.9285):  34%|███▍      | 3322/9753 [35:28<1:04:12,  1.67it/s]Training 2/3 epoch (loss 0.8362):  34%|███▍      | 3322/9753 [35:29<1:04:12,  1.67it/s]Training 2/3 epoch (loss 0.8362):  34%|███▍      | 3323/9753 [35:29<1:05:59,  1.62it/s]Training 2/3 epoch (loss 1.0104):  34%|███▍      | 3323/9753 [35:29<1:05:59,  1.62it/s]Training 2/3 epoch (loss 1.0104):  34%|███▍      | 3324/9753 [35:29<1:04:05,  1.67it/s]Training 2/3 epoch (loss 1.0646):  34%|███▍      | 3324/9753 [35:30<1:04:05,  1.67it/s]Training 2/3 epoch (loss 1.0646):  34%|███▍      | 3325/9753 [35:30<1:06:09,  1.62it/s]Training 2/3 epoch (loss 1.0036):  34%|███▍      | 3325/9753 [35:31<1:06:09,  1.62it/s]Training 2/3 epoch (loss 1.0036):  34%|███▍      | 3326/9753 [35:31<1:04:12,  1.67it/s]Training 2/3 epoch (loss 0.9677):  34%|███▍      | 3326/9753 [35:31<1:04:12,  1.67it/s]Training 2/3 epoch (loss 0.9677):  34%|███▍      | 3327/9753 [35:31<1:02:31,  1.71it/s]Training 2/3 epoch (loss 0.8319):  34%|███▍      | 3327/9753 [35:32<1:02:31,  1.71it/s]Training 2/3 epoch (loss 0.8319):  34%|███▍      | 3328/9753 [35:32<1:05:26,  1.64it/s]Training 2/3 epoch (loss 1.0222):  34%|███▍      | 3328/9753 [35:33<1:05:26,  1.64it/s]Training 2/3 epoch (loss 1.0222):  34%|███▍      | 3329/9753 [35:33<1:09:34,  1.54it/s]Training 2/3 epoch (loss 0.9774):  34%|███▍      | 3329/9753 [35:33<1:09:34,  1.54it/s]Training 2/3 epoch (loss 0.9774):  34%|███▍      | 3330/9753 [35:33<1:07:48,  1.58it/s]Training 2/3 epoch (loss 1.1565):  34%|███▍      | 3330/9753 [35:34<1:07:48,  1.58it/s]Training 2/3 epoch (loss 1.1565):  34%|███▍      | 3331/9753 [35:34<1:07:01,  1.60it/s]Training 2/3 epoch (loss 0.7346):  34%|███▍      | 3331/9753 [35:34<1:07:01,  1.60it/s]Training 2/3 epoch (loss 0.7346):  34%|███▍      | 3332/9753 [35:34<1:05:24,  1.64it/s]Training 2/3 epoch (loss 1.0461):  34%|███▍      | 3332/9753 [35:35<1:05:24,  1.64it/s]Training 2/3 epoch (loss 1.0461):  34%|███▍      | 3333/9753 [35:35<1:08:27,  1.56it/s]Training 2/3 epoch (loss 1.0501):  34%|███▍      | 3333/9753 [35:36<1:08:27,  1.56it/s]Training 2/3 epoch (loss 1.0501):  34%|███▍      | 3334/9753 [35:36<1:05:26,  1.63it/s]Training 2/3 epoch (loss 0.9716):  34%|███▍      | 3334/9753 [35:36<1:05:26,  1.63it/s]Training 2/3 epoch (loss 0.9716):  34%|███▍      | 3335/9753 [35:36<1:03:54,  1.67it/s]Training 2/3 epoch (loss 0.8942):  34%|███▍      | 3335/9753 [35:37<1:03:54,  1.67it/s]Training 2/3 epoch (loss 0.8942):  34%|███▍      | 3336/9753 [35:37<1:02:19,  1.72it/s]Training 2/3 epoch (loss 0.8776):  34%|███▍      | 3336/9753 [35:37<1:02:19,  1.72it/s]Training 2/3 epoch (loss 0.8776):  34%|███▍      | 3337/9753 [35:37<1:02:07,  1.72it/s]Training 2/3 epoch (loss 1.0607):  34%|███▍      | 3337/9753 [35:38<1:02:07,  1.72it/s]Training 2/3 epoch (loss 1.0607):  34%|███▍      | 3338/9753 [35:38<1:05:07,  1.64it/s]Training 2/3 epoch (loss 0.8693):  34%|███▍      | 3338/9753 [35:39<1:05:07,  1.64it/s]Training 2/3 epoch (loss 0.8693):  34%|███▍      | 3339/9753 [35:39<1:03:27,  1.68it/s]Training 2/3 epoch (loss 1.2030):  34%|███▍      | 3339/9753 [35:39<1:03:27,  1.68it/s]Training 2/3 epoch (loss 1.2030):  34%|███▍      | 3340/9753 [35:39<1:02:01,  1.72it/s]Training 2/3 epoch (loss 0.8152):  34%|███▍      | 3340/9753 [35:40<1:02:01,  1.72it/s]Training 2/3 epoch (loss 0.8152):  34%|███▍      | 3341/9753 [35:40<1:00:56,  1.75it/s]Training 2/3 epoch (loss 1.2216):  34%|███▍      | 3341/9753 [35:40<1:00:56,  1.75it/s]Training 2/3 epoch (loss 1.2216):  34%|███▍      | 3342/9753 [35:40<1:02:51,  1.70it/s]Training 2/3 epoch (loss 1.2660):  34%|███▍      | 3342/9753 [35:41<1:02:51,  1.70it/s]Training 2/3 epoch (loss 1.2660):  34%|███▍      | 3343/9753 [35:41<1:12:47,  1.47it/s]Training 2/3 epoch (loss 1.0920):  34%|███▍      | 3343/9753 [35:42<1:12:47,  1.47it/s]Training 2/3 epoch (loss 1.0920):  34%|███▍      | 3344/9753 [35:42<1:13:50,  1.45it/s]Training 2/3 epoch (loss 0.9714):  34%|███▍      | 3344/9753 [35:42<1:13:50,  1.45it/s]Training 2/3 epoch (loss 0.9714):  34%|███▍      | 3345/9753 [35:42<1:09:24,  1.54it/s]Training 2/3 epoch (loss 1.0579):  34%|███▍      | 3345/9753 [35:43<1:09:24,  1.54it/s]Training 2/3 epoch (loss 1.0579):  34%|███▍      | 3346/9753 [35:43<1:08:32,  1.56it/s]Training 2/3 epoch (loss 0.9714):  34%|███▍      | 3346/9753 [35:44<1:08:32,  1.56it/s]Training 2/3 epoch (loss 0.9714):  34%|███▍      | 3347/9753 [35:44<1:05:49,  1.62it/s]Training 2/3 epoch (loss 0.9665):  34%|███▍      | 3347/9753 [35:44<1:05:49,  1.62it/s]Training 2/3 epoch (loss 0.9665):  34%|███▍      | 3348/9753 [35:44<1:03:34,  1.68it/s]Training 2/3 epoch (loss 1.0964):  34%|███▍      | 3348/9753 [35:45<1:03:34,  1.68it/s]Training 2/3 epoch (loss 1.0964):  34%|███▍      | 3349/9753 [35:45<1:04:10,  1.66it/s]Training 2/3 epoch (loss 1.2101):  34%|███▍      | 3349/9753 [35:45<1:04:10,  1.66it/s]Training 2/3 epoch (loss 1.2101):  34%|███▍      | 3350/9753 [35:45<1:03:17,  1.69it/s]Training 2/3 epoch (loss 0.8792):  34%|███▍      | 3350/9753 [35:46<1:03:17,  1.69it/s]Training 2/3 epoch (loss 0.8792):  34%|███▍      | 3351/9753 [35:46<1:03:50,  1.67it/s]Training 2/3 epoch (loss 0.8479):  34%|███▍      | 3351/9753 [35:47<1:03:50,  1.67it/s]Training 2/3 epoch (loss 0.8479):  34%|███▍      | 3352/9753 [35:47<1:03:19,  1.68it/s]Training 2/3 epoch (loss 1.0930):  34%|███▍      | 3352/9753 [35:47<1:03:19,  1.68it/s]Training 2/3 epoch (loss 1.0930):  34%|███▍      | 3353/9753 [35:47<1:05:58,  1.62it/s]Training 2/3 epoch (loss 1.0773):  34%|███▍      | 3353/9753 [35:48<1:05:58,  1.62it/s]Training 2/3 epoch (loss 1.0773):  34%|███▍      | 3354/9753 [35:48<1:06:27,  1.60it/s]Training 2/3 epoch (loss 1.0824):  34%|███▍      | 3354/9753 [35:49<1:06:27,  1.60it/s]Training 2/3 epoch (loss 1.0824):  34%|███▍      | 3355/9753 [35:49<1:14:28,  1.43it/s]Training 2/3 epoch (loss 1.0808):  34%|███▍      | 3355/9753 [35:49<1:14:28,  1.43it/s]Training 2/3 epoch (loss 1.0808):  34%|███▍      | 3356/9753 [35:49<1:11:25,  1.49it/s]Training 2/3 epoch (loss 0.7106):  34%|███▍      | 3356/9753 [35:50<1:11:25,  1.49it/s]Training 2/3 epoch (loss 0.7106):  34%|███▍      | 3357/9753 [35:50<1:07:27,  1.58it/s]Training 2/3 epoch (loss 0.8857):  34%|███▍      | 3357/9753 [35:50<1:07:27,  1.58it/s]Training 2/3 epoch (loss 0.8857):  34%|███▍      | 3358/9753 [35:50<1:04:52,  1.64it/s]Training 2/3 epoch (loss 0.9260):  34%|███▍      | 3358/9753 [35:51<1:04:52,  1.64it/s]Training 2/3 epoch (loss 0.9260):  34%|███▍      | 3359/9753 [35:51<1:10:09,  1.52it/s]Training 2/3 epoch (loss 1.0921):  34%|███▍      | 3359/9753 [35:52<1:10:09,  1.52it/s]Training 2/3 epoch (loss 1.0921):  34%|███▍      | 3360/9753 [35:52<1:12:26,  1.47it/s]Training 2/3 epoch (loss 1.0324):  34%|███▍      | 3360/9753 [35:53<1:12:26,  1.47it/s]Training 2/3 epoch (loss 1.0324):  34%|███▍      | 3361/9753 [35:53<1:09:29,  1.53it/s]Training 2/3 epoch (loss 1.0566):  34%|███▍      | 3361/9753 [35:53<1:09:29,  1.53it/s]Training 2/3 epoch (loss 1.0566):  34%|███▍      | 3362/9753 [35:53<1:07:29,  1.58it/s]Training 2/3 epoch (loss 0.7425):  34%|███▍      | 3362/9753 [35:54<1:07:29,  1.58it/s]Training 2/3 epoch (loss 0.7425):  34%|███▍      | 3363/9753 [35:54<1:05:52,  1.62it/s]Training 2/3 epoch (loss 0.8493):  34%|███▍      | 3363/9753 [35:54<1:05:52,  1.62it/s]Training 2/3 epoch (loss 0.8493):  34%|███▍      | 3364/9753 [35:54<1:03:33,  1.68it/s]Training 2/3 epoch (loss 0.8177):  34%|███▍      | 3364/9753 [35:55<1:03:33,  1.68it/s]Training 2/3 epoch (loss 0.8177):  35%|███▍      | 3365/9753 [35:55<1:01:52,  1.72it/s]Training 2/3 epoch (loss 0.5902):  35%|███▍      | 3365/9753 [35:55<1:01:52,  1.72it/s]Training 2/3 epoch (loss 0.5902):  35%|███▍      | 3366/9753 [35:55<1:03:52,  1.67it/s]Training 2/3 epoch (loss 0.7089):  35%|███▍      | 3366/9753 [35:56<1:03:52,  1.67it/s]Training 2/3 epoch (loss 0.7089):  35%|███▍      | 3367/9753 [35:56<1:02:00,  1.72it/s]Training 2/3 epoch (loss 0.7264):  35%|███▍      | 3367/9753 [35:57<1:02:00,  1.72it/s]Training 2/3 epoch (loss 0.7264):  35%|███▍      | 3368/9753 [35:57<1:00:58,  1.75it/s]Training 2/3 epoch (loss 0.7029):  35%|███▍      | 3368/9753 [35:57<1:00:58,  1.75it/s]Training 2/3 epoch (loss 0.7029):  35%|███▍      | 3369/9753 [35:57<1:04:36,  1.65it/s]Training 2/3 epoch (loss 0.8905):  35%|███▍      | 3369/9753 [35:58<1:04:36,  1.65it/s]Training 2/3 epoch (loss 0.8905):  35%|███▍      | 3370/9753 [35:58<1:03:14,  1.68it/s]Training 2/3 epoch (loss 1.0316):  35%|███▍      | 3370/9753 [35:58<1:03:14,  1.68it/s]Training 2/3 epoch (loss 1.0316):  35%|███▍      | 3371/9753 [35:58<1:01:30,  1.73it/s]Training 2/3 epoch (loss 0.8946):  35%|███▍      | 3371/9753 [35:59<1:01:30,  1.73it/s]Training 2/3 epoch (loss 0.8946):  35%|███▍      | 3372/9753 [35:59<1:03:19,  1.68it/s]Training 2/3 epoch (loss 0.9766):  35%|███▍      | 3372/9753 [36:00<1:03:19,  1.68it/s]Training 2/3 epoch (loss 0.9766):  35%|███▍      | 3373/9753 [36:00<1:02:02,  1.71it/s]Training 2/3 epoch (loss 0.8948):  35%|███▍      | 3373/9753 [36:00<1:02:02,  1.71it/s]Training 2/3 epoch (loss 0.8948):  35%|███▍      | 3374/9753 [36:00<1:03:40,  1.67it/s]Training 2/3 epoch (loss 1.2382):  35%|███▍      | 3374/9753 [36:01<1:03:40,  1.67it/s]Training 2/3 epoch (loss 1.2382):  35%|███▍      | 3375/9753 [36:01<1:06:17,  1.60it/s]Training 2/3 epoch (loss 0.9101):  35%|███▍      | 3375/9753 [36:02<1:06:17,  1.60it/s]Training 2/3 epoch (loss 0.9101):  35%|███▍      | 3376/9753 [36:02<1:09:22,  1.53it/s]Training 2/3 epoch (loss 1.0870):  35%|███▍      | 3376/9753 [36:02<1:09:22,  1.53it/s]Training 2/3 epoch (loss 1.0870):  35%|███▍      | 3377/9753 [36:02<1:06:08,  1.61it/s]Training 2/3 epoch (loss 0.9992):  35%|███▍      | 3377/9753 [36:03<1:06:08,  1.61it/s]Training 2/3 epoch (loss 0.9992):  35%|███▍      | 3378/9753 [36:03<1:04:43,  1.64it/s]Training 2/3 epoch (loss 0.6919):  35%|███▍      | 3378/9753 [36:03<1:04:43,  1.64it/s]Training 2/3 epoch (loss 0.6919):  35%|███▍      | 3379/9753 [36:03<1:07:27,  1.57it/s]Training 2/3 epoch (loss 0.7973):  35%|███▍      | 3379/9753 [36:04<1:07:27,  1.57it/s]Training 2/3 epoch (loss 0.7973):  35%|███▍      | 3380/9753 [36:04<1:07:13,  1.58it/s]Training 2/3 epoch (loss 0.6793):  35%|███▍      | 3380/9753 [36:05<1:07:13,  1.58it/s]Training 2/3 epoch (loss 0.6793):  35%|███▍      | 3381/9753 [36:05<1:04:16,  1.65it/s]Training 2/3 epoch (loss 0.8584):  35%|███▍      | 3381/9753 [36:05<1:04:16,  1.65it/s]Training 2/3 epoch (loss 0.8584):  35%|███▍      | 3382/9753 [36:05<1:04:12,  1.65it/s]Training 2/3 epoch (loss 0.8618):  35%|███▍      | 3382/9753 [36:06<1:04:12,  1.65it/s]Training 2/3 epoch (loss 0.8618):  35%|███▍      | 3383/9753 [36:06<1:05:27,  1.62it/s]Training 2/3 epoch (loss 0.9599):  35%|███▍      | 3383/9753 [36:06<1:05:27,  1.62it/s]Training 2/3 epoch (loss 0.9599):  35%|███▍      | 3384/9753 [36:06<1:04:42,  1.64it/s]Training 2/3 epoch (loss 0.7317):  35%|███▍      | 3384/9753 [36:07<1:04:42,  1.64it/s]Training 2/3 epoch (loss 0.7317):  35%|███▍      | 3385/9753 [36:07<1:03:41,  1.67it/s]Training 2/3 epoch (loss 0.8395):  35%|███▍      | 3385/9753 [36:08<1:03:41,  1.67it/s]Training 2/3 epoch (loss 0.8395):  35%|███▍      | 3386/9753 [36:08<1:04:04,  1.66it/s]Training 2/3 epoch (loss 0.9179):  35%|███▍      | 3386/9753 [36:08<1:04:04,  1.66it/s]Training 2/3 epoch (loss 0.9179):  35%|███▍      | 3387/9753 [36:08<1:02:12,  1.71it/s]Training 2/3 epoch (loss 0.9869):  35%|███▍      | 3387/9753 [36:09<1:02:12,  1.71it/s]Training 2/3 epoch (loss 0.9869):  35%|███▍      | 3388/9753 [36:09<1:05:45,  1.61it/s]Training 2/3 epoch (loss 0.9233):  35%|███▍      | 3388/9753 [36:09<1:05:45,  1.61it/s]Training 2/3 epoch (loss 0.9233):  35%|███▍      | 3389/9753 [36:09<1:03:57,  1.66it/s]Training 2/3 epoch (loss 0.9802):  35%|███▍      | 3389/9753 [36:10<1:03:57,  1.66it/s]Training 2/3 epoch (loss 0.9802):  35%|███▍      | 3390/9753 [36:10<1:05:33,  1.62it/s]Training 2/3 epoch (loss 0.6237):  35%|███▍      | 3390/9753 [36:11<1:05:33,  1.62it/s]Training 2/3 epoch (loss 0.6237):  35%|███▍      | 3391/9753 [36:11<1:03:25,  1.67it/s]Training 2/3 epoch (loss 1.0662):  35%|███▍      | 3391/9753 [36:11<1:03:25,  1.67it/s]Training 2/3 epoch (loss 1.0662):  35%|███▍      | 3392/9753 [36:11<1:09:27,  1.53it/s]Training 2/3 epoch (loss 1.0829):  35%|███▍      | 3392/9753 [36:12<1:09:27,  1.53it/s]Training 2/3 epoch (loss 1.0829):  35%|███▍      | 3393/9753 [36:12<1:06:28,  1.59it/s]Training 2/3 epoch (loss 0.9797):  35%|███▍      | 3393/9753 [36:13<1:06:28,  1.59it/s]Training 2/3 epoch (loss 0.9797):  35%|███▍      | 3394/9753 [36:13<1:08:25,  1.55it/s]Training 2/3 epoch (loss 0.7666):  35%|███▍      | 3394/9753 [36:13<1:08:25,  1.55it/s]Training 2/3 epoch (loss 0.7666):  35%|███▍      | 3395/9753 [36:13<1:06:12,  1.60it/s]Training 2/3 epoch (loss 0.9515):  35%|███▍      | 3395/9753 [36:14<1:06:12,  1.60it/s]Training 2/3 epoch (loss 0.9515):  35%|███▍      | 3396/9753 [36:14<1:09:37,  1.52it/s]Training 2/3 epoch (loss 0.8589):  35%|███▍      | 3396/9753 [36:15<1:09:37,  1.52it/s]Training 2/3 epoch (loss 0.8589):  35%|███▍      | 3397/9753 [36:15<1:08:32,  1.55it/s]Training 2/3 epoch (loss 1.0586):  35%|███▍      | 3397/9753 [36:15<1:08:32,  1.55it/s]Training 2/3 epoch (loss 1.0586):  35%|███▍      | 3398/9753 [36:15<1:05:47,  1.61it/s]Training 2/3 epoch (loss 0.9822):  35%|███▍      | 3398/9753 [36:16<1:05:47,  1.61it/s]Training 2/3 epoch (loss 0.9822):  35%|███▍      | 3399/9753 [36:16<1:14:18,  1.43it/s]Training 2/3 epoch (loss 0.8771):  35%|███▍      | 3399/9753 [36:17<1:14:18,  1.43it/s]Training 2/3 epoch (loss 0.8771):  35%|███▍      | 3400/9753 [36:17<1:09:51,  1.52it/s]Training 2/3 epoch (loss 0.6616):  35%|███▍      | 3400/9753 [36:17<1:09:51,  1.52it/s]Training 2/3 epoch (loss 0.6616):  35%|███▍      | 3401/9753 [36:17<1:06:54,  1.58it/s]Training 2/3 epoch (loss 0.8041):  35%|███▍      | 3401/9753 [36:18<1:06:54,  1.58it/s]Training 2/3 epoch (loss 0.8041):  35%|███▍      | 3402/9753 [36:18<1:04:22,  1.64it/s]Training 2/3 epoch (loss 0.9893):  35%|███▍      | 3402/9753 [36:18<1:04:22,  1.64it/s]Training 2/3 epoch (loss 0.9893):  35%|███▍      | 3403/9753 [36:18<1:06:18,  1.60it/s]Training 2/3 epoch (loss 0.7353):  35%|███▍      | 3403/9753 [36:19<1:06:18,  1.60it/s]Training 2/3 epoch (loss 0.7353):  35%|███▍      | 3404/9753 [36:19<1:04:18,  1.65it/s]Training 2/3 epoch (loss 1.0413):  35%|███▍      | 3404/9753 [36:20<1:04:18,  1.65it/s]Training 2/3 epoch (loss 1.0413):  35%|███▍      | 3405/9753 [36:20<1:06:29,  1.59it/s]Training 2/3 epoch (loss 0.7303):  35%|███▍      | 3405/9753 [36:20<1:06:29,  1.59it/s]Training 2/3 epoch (loss 0.7303):  35%|███▍      | 3406/9753 [36:20<1:08:24,  1.55it/s]Training 2/3 epoch (loss 0.9349):  35%|███▍      | 3406/9753 [36:21<1:08:24,  1.55it/s]Training 2/3 epoch (loss 0.9349):  35%|███▍      | 3407/9753 [36:21<1:13:17,  1.44it/s]Training 2/3 epoch (loss 1.1060):  35%|███▍      | 3407/9753 [36:22<1:13:17,  1.44it/s]Training 2/3 epoch (loss 1.1060):  35%|███▍      | 3408/9753 [36:22<1:20:17,  1.32it/s]Training 2/3 epoch (loss 0.9341):  35%|███▍      | 3408/9753 [36:23<1:20:17,  1.32it/s]Training 2/3 epoch (loss 0.9341):  35%|███▍      | 3409/9753 [36:23<1:16:53,  1.38it/s]Training 2/3 epoch (loss 0.8380):  35%|███▍      | 3409/9753 [36:23<1:16:53,  1.38it/s]Training 2/3 epoch (loss 0.8380):  35%|███▍      | 3410/9753 [36:23<1:12:08,  1.47it/s]Training 2/3 epoch (loss 0.8331):  35%|███▍      | 3410/9753 [36:24<1:12:08,  1.47it/s]Training 2/3 epoch (loss 0.8331):  35%|███▍      | 3411/9753 [36:24<1:10:15,  1.50it/s]Training 2/3 epoch (loss 0.7351):  35%|███▍      | 3411/9753 [36:24<1:10:15,  1.50it/s]Training 2/3 epoch (loss 0.7351):  35%|███▍      | 3412/9753 [36:24<1:07:15,  1.57it/s]Training 2/3 epoch (loss 0.5891):  35%|███▍      | 3412/9753 [36:25<1:07:15,  1.57it/s]Training 2/3 epoch (loss 0.5891):  35%|███▍      | 3413/9753 [36:25<1:06:43,  1.58it/s]Training 2/3 epoch (loss 1.1289):  35%|███▍      | 3413/9753 [36:26<1:06:43,  1.58it/s]Training 2/3 epoch (loss 1.1289):  35%|███▌      | 3414/9753 [36:26<1:04:17,  1.64it/s]Training 2/3 epoch (loss 0.5862):  35%|███▌      | 3414/9753 [36:26<1:04:17,  1.64it/s]Training 2/3 epoch (loss 0.5862):  35%|███▌      | 3415/9753 [36:26<1:07:17,  1.57it/s]Training 2/3 epoch (loss 0.8349):  35%|███▌      | 3415/9753 [36:27<1:07:17,  1.57it/s]Training 2/3 epoch (loss 0.8349):  35%|███▌      | 3416/9753 [36:27<1:04:39,  1.63it/s]Training 2/3 epoch (loss 0.9162):  35%|███▌      | 3416/9753 [36:28<1:04:39,  1.63it/s]Training 2/3 epoch (loss 0.9162):  35%|███▌      | 3417/9753 [36:28<1:06:59,  1.58it/s]Training 2/3 epoch (loss 0.8145):  35%|███▌      | 3417/9753 [36:28<1:06:59,  1.58it/s]Training 2/3 epoch (loss 0.8145):  35%|███▌      | 3418/9753 [36:28<1:06:32,  1.59it/s]Training 2/3 epoch (loss 0.9241):  35%|███▌      | 3418/9753 [36:29<1:06:32,  1.59it/s]Training 2/3 epoch (loss 0.9241):  35%|███▌      | 3419/9753 [36:29<1:04:25,  1.64it/s]Training 2/3 epoch (loss 0.9023):  35%|███▌      | 3419/9753 [36:29<1:04:25,  1.64it/s]Training 2/3 epoch (loss 0.9023):  35%|███▌      | 3420/9753 [36:29<1:03:23,  1.66it/s]Training 2/3 epoch (loss 0.7454):  35%|███▌      | 3420/9753 [36:30<1:03:23,  1.66it/s]Training 2/3 epoch (loss 0.7454):  35%|███▌      | 3421/9753 [36:30<1:01:44,  1.71it/s]Training 2/3 epoch (loss 1.0534):  35%|███▌      | 3421/9753 [36:30<1:01:44,  1.71it/s]Training 2/3 epoch (loss 1.0534):  35%|███▌      | 3422/9753 [36:30<1:02:03,  1.70it/s]Training 2/3 epoch (loss 0.7967):  35%|███▌      | 3422/9753 [36:31<1:02:03,  1.70it/s]Training 2/3 epoch (loss 0.7967):  35%|███▌      | 3423/9753 [36:31<1:03:44,  1.66it/s]Training 2/3 epoch (loss 1.0653):  35%|███▌      | 3423/9753 [36:32<1:03:44,  1.66it/s]Training 2/3 epoch (loss 1.0653):  35%|███▌      | 3424/9753 [36:32<1:09:31,  1.52it/s]Training 2/3 epoch (loss 0.9948):  35%|███▌      | 3424/9753 [36:33<1:09:31,  1.52it/s]Training 2/3 epoch (loss 0.9948):  35%|███▌      | 3425/9753 [36:33<1:08:29,  1.54it/s]Training 2/3 epoch (loss 1.0342):  35%|███▌      | 3425/9753 [36:33<1:08:29,  1.54it/s]Training 2/3 epoch (loss 1.0342):  35%|███▌      | 3426/9753 [36:33<1:09:41,  1.51it/s]Training 2/3 epoch (loss 0.9936):  35%|███▌      | 3426/9753 [36:34<1:09:41,  1.51it/s]Training 2/3 epoch (loss 0.9936):  35%|███▌      | 3427/9753 [36:34<1:06:49,  1.58it/s]Training 2/3 epoch (loss 1.1016):  35%|███▌      | 3427/9753 [36:35<1:06:49,  1.58it/s]Training 2/3 epoch (loss 1.1016):  35%|███▌      | 3428/9753 [36:35<1:15:02,  1.40it/s]Training 2/3 epoch (loss 0.6793):  35%|███▌      | 3428/9753 [36:35<1:15:02,  1.40it/s]Training 2/3 epoch (loss 0.6793):  35%|███▌      | 3429/9753 [36:35<1:10:25,  1.50it/s]Training 2/3 epoch (loss 0.9644):  35%|███▌      | 3429/9753 [36:36<1:10:25,  1.50it/s]Training 2/3 epoch (loss 0.9644):  35%|███▌      | 3430/9753 [36:36<1:09:15,  1.52it/s]Training 2/3 epoch (loss 0.8157):  35%|███▌      | 3430/9753 [36:36<1:09:15,  1.52it/s]Training 2/3 epoch (loss 0.8157):  35%|███▌      | 3431/9753 [36:36<1:06:32,  1.58it/s]Training 2/3 epoch (loss 0.6663):  35%|███▌      | 3431/9753 [36:37<1:06:32,  1.58it/s]Training 2/3 epoch (loss 0.6663):  35%|███▌      | 3432/9753 [36:37<1:05:53,  1.60it/s]Training 2/3 epoch (loss 0.8688):  35%|███▌      | 3432/9753 [36:38<1:05:53,  1.60it/s]Training 2/3 epoch (loss 0.8688):  35%|███▌      | 3433/9753 [36:38<1:03:57,  1.65it/s]Training 2/3 epoch (loss 1.0128):  35%|███▌      | 3433/9753 [36:38<1:03:57,  1.65it/s]Training 2/3 epoch (loss 1.0128):  35%|███▌      | 3434/9753 [36:38<1:03:10,  1.67it/s]Training 2/3 epoch (loss 0.8265):  35%|███▌      | 3434/9753 [36:39<1:03:10,  1.67it/s]Training 2/3 epoch (loss 0.8265):  35%|███▌      | 3435/9753 [36:39<1:01:35,  1.71it/s]Training 2/3 epoch (loss 0.9640):  35%|███▌      | 3435/9753 [36:39<1:01:35,  1.71it/s]Training 2/3 epoch (loss 0.9640):  35%|███▌      | 3436/9753 [36:39<1:02:12,  1.69it/s]Training 2/3 epoch (loss 0.6955):  35%|███▌      | 3436/9753 [36:40<1:02:12,  1.69it/s]Training 2/3 epoch (loss 0.6955):  35%|███▌      | 3437/9753 [36:40<1:01:06,  1.72it/s]Training 2/3 epoch (loss 0.9508):  35%|███▌      | 3437/9753 [36:41<1:01:06,  1.72it/s]Training 2/3 epoch (loss 0.9508):  35%|███▌      | 3438/9753 [36:41<1:10:58,  1.48it/s]Training 2/3 epoch (loss 0.6969):  35%|███▌      | 3438/9753 [36:41<1:10:58,  1.48it/s]Training 2/3 epoch (loss 0.6969):  35%|███▌      | 3439/9753 [36:41<1:08:00,  1.55it/s]Training 2/3 epoch (loss 1.0722):  35%|███▌      | 3439/9753 [36:42<1:08:00,  1.55it/s]Training 2/3 epoch (loss 1.0722):  35%|███▌      | 3440/9753 [36:42<1:09:11,  1.52it/s]Training 2/3 epoch (loss 1.1125):  35%|███▌      | 3440/9753 [36:43<1:09:11,  1.52it/s]Training 2/3 epoch (loss 1.1125):  35%|███▌      | 3441/9753 [36:43<1:16:37,  1.37it/s]Training 2/3 epoch (loss 0.8143):  35%|███▌      | 3441/9753 [36:44<1:16:37,  1.37it/s]Training 2/3 epoch (loss 0.8143):  35%|███▌      | 3442/9753 [36:44<1:12:45,  1.45it/s]Training 2/3 epoch (loss 0.6631):  35%|███▌      | 3442/9753 [36:44<1:12:45,  1.45it/s]Training 2/3 epoch (loss 0.6631):  35%|███▌      | 3443/9753 [36:44<1:08:13,  1.54it/s]Training 2/3 epoch (loss 0.9625):  35%|███▌      | 3443/9753 [36:45<1:08:13,  1.54it/s]Training 2/3 epoch (loss 0.9625):  35%|███▌      | 3444/9753 [36:45<1:10:11,  1.50it/s]Training 2/3 epoch (loss 0.8850):  35%|███▌      | 3444/9753 [36:45<1:10:11,  1.50it/s]Training 2/3 epoch (loss 0.8850):  35%|███▌      | 3445/9753 [36:45<1:07:41,  1.55it/s]Training 2/3 epoch (loss 0.6973):  35%|███▌      | 3445/9753 [36:46<1:07:41,  1.55it/s]Training 2/3 epoch (loss 0.6973):  35%|███▌      | 3446/9753 [36:46<1:04:39,  1.63it/s]Training 2/3 epoch (loss 0.7713):  35%|███▌      | 3446/9753 [36:47<1:04:39,  1.63it/s]Training 2/3 epoch (loss 0.7713):  35%|███▌      | 3447/9753 [36:47<1:02:30,  1.68it/s]Training 2/3 epoch (loss 0.8521):  35%|███▌      | 3447/9753 [36:47<1:02:30,  1.68it/s]Training 2/3 epoch (loss 0.8521):  35%|███▌      | 3448/9753 [36:47<1:01:01,  1.72it/s]Training 2/3 epoch (loss 0.8215):  35%|███▌      | 3448/9753 [36:48<1:01:01,  1.72it/s]Training 2/3 epoch (loss 0.8215):  35%|███▌      | 3449/9753 [36:48<1:02:17,  1.69it/s]Training 2/3 epoch (loss 0.8856):  35%|███▌      | 3449/9753 [36:48<1:02:17,  1.69it/s]Training 2/3 epoch (loss 0.8856):  35%|███▌      | 3450/9753 [36:48<1:01:40,  1.70it/s]Training 2/3 epoch (loss 0.7415):  35%|███▌      | 3450/9753 [36:49<1:01:40,  1.70it/s]Training 2/3 epoch (loss 0.7415):  35%|███▌      | 3451/9753 [36:49<1:02:29,  1.68it/s]Training 2/3 epoch (loss 0.7986):  35%|███▌      | 3451/9753 [36:49<1:02:29,  1.68it/s]Training 2/3 epoch (loss 0.7986):  35%|███▌      | 3452/9753 [36:49<1:03:30,  1.65it/s]Training 2/3 epoch (loss 0.9276):  35%|███▌      | 3452/9753 [36:50<1:03:30,  1.65it/s]Training 2/3 epoch (loss 0.9276):  35%|███▌      | 3453/9753 [36:50<1:02:00,  1.69it/s]Training 2/3 epoch (loss 0.9453):  35%|███▌      | 3453/9753 [36:51<1:02:00,  1.69it/s]Training 2/3 epoch (loss 0.9453):  35%|███▌      | 3454/9753 [36:51<1:02:23,  1.68it/s]Training 2/3 epoch (loss 0.7534):  35%|███▌      | 3454/9753 [36:51<1:02:23,  1.68it/s]Training 2/3 epoch (loss 0.7534):  35%|███▌      | 3455/9753 [36:51<1:03:44,  1.65it/s]Training 2/3 epoch (loss 0.9554):  35%|███▌      | 3455/9753 [36:52<1:03:44,  1.65it/s]Training 2/3 epoch (loss 0.9554):  35%|███▌      | 3456/9753 [36:52<1:17:04,  1.36it/s]Training 2/3 epoch (loss 0.7548):  35%|███▌      | 3456/9753 [36:53<1:17:04,  1.36it/s]Training 2/3 epoch (loss 0.7548):  35%|███▌      | 3457/9753 [36:53<1:22:19,  1.27it/s]Training 2/3 epoch (loss 0.8847):  35%|███▌      | 3457/9753 [36:54<1:22:19,  1.27it/s]Training 2/3 epoch (loss 0.8847):  35%|███▌      | 3458/9753 [36:54<1:17:45,  1.35it/s]Training 2/3 epoch (loss 0.9844):  35%|███▌      | 3458/9753 [36:55<1:17:45,  1.35it/s]Training 2/3 epoch (loss 0.9844):  35%|███▌      | 3459/9753 [36:55<1:14:44,  1.40it/s]Training 2/3 epoch (loss 0.8162):  35%|███▌      | 3459/9753 [36:55<1:14:44,  1.40it/s]Training 2/3 epoch (loss 0.8162):  35%|███▌      | 3460/9753 [36:55<1:09:54,  1.50it/s]Training 2/3 epoch (loss 0.6841):  35%|███▌      | 3460/9753 [36:56<1:09:54,  1.50it/s]Training 2/3 epoch (loss 0.6841):  35%|███▌      | 3461/9753 [36:56<1:08:07,  1.54it/s]Training 2/3 epoch (loss 0.7841):  35%|███▌      | 3461/9753 [36:56<1:08:07,  1.54it/s]Training 2/3 epoch (loss 0.7841):  35%|███▌      | 3462/9753 [36:56<1:08:21,  1.53it/s]Training 2/3 epoch (loss 0.7377):  35%|███▌      | 3462/9753 [36:57<1:08:21,  1.53it/s]Training 2/3 epoch (loss 0.7377):  36%|███▌      | 3463/9753 [36:57<1:06:37,  1.57it/s]Training 2/3 epoch (loss 0.9980):  36%|███▌      | 3463/9753 [36:58<1:06:37,  1.57it/s]Training 2/3 epoch (loss 0.9980):  36%|███▌      | 3464/9753 [36:58<1:10:24,  1.49it/s]Training 2/3 epoch (loss 0.7729):  36%|███▌      | 3464/9753 [36:58<1:10:24,  1.49it/s]Training 2/3 epoch (loss 0.7729):  36%|███▌      | 3465/9753 [36:58<1:08:13,  1.54it/s]Training 2/3 epoch (loss 0.8592):  36%|███▌      | 3465/9753 [36:59<1:08:13,  1.54it/s]Training 2/3 epoch (loss 0.8592):  36%|███▌      | 3466/9753 [36:59<1:08:32,  1.53it/s]Training 2/3 epoch (loss 0.7847):  36%|███▌      | 3466/9753 [37:00<1:08:32,  1.53it/s]Training 2/3 epoch (loss 0.7847):  36%|███▌      | 3467/9753 [37:00<1:15:02,  1.40it/s]Training 2/3 epoch (loss 0.9960):  36%|███▌      | 3467/9753 [37:00<1:15:02,  1.40it/s]Training 2/3 epoch (loss 0.9960):  36%|███▌      | 3468/9753 [37:00<1:12:07,  1.45it/s]Training 2/3 epoch (loss 0.8699):  36%|███▌      | 3468/9753 [37:01<1:12:07,  1.45it/s]Training 2/3 epoch (loss 0.8699):  36%|███▌      | 3469/9753 [37:01<1:10:29,  1.49it/s]Training 2/3 epoch (loss 0.8079):  36%|███▌      | 3469/9753 [37:02<1:10:29,  1.49it/s]Training 2/3 epoch (loss 0.8079):  36%|███▌      | 3470/9753 [37:02<1:16:13,  1.37it/s]Training 2/3 epoch (loss 0.6772):  36%|███▌      | 3470/9753 [37:03<1:16:13,  1.37it/s]Training 2/3 epoch (loss 0.6772):  36%|███▌      | 3471/9753 [37:03<1:15:00,  1.40it/s]Training 2/3 epoch (loss 0.7467):  36%|███▌      | 3471/9753 [37:03<1:15:00,  1.40it/s]Training 2/3 epoch (loss 0.7467):  36%|███▌      | 3472/9753 [37:03<1:18:25,  1.33it/s]Training 2/3 epoch (loss 0.7411):  36%|███▌      | 3472/9753 [37:04<1:18:25,  1.33it/s]Training 2/3 epoch (loss 0.7411):  36%|███▌      | 3473/9753 [37:04<1:12:34,  1.44it/s]Training 2/3 epoch (loss 0.8345):  36%|███▌      | 3473/9753 [37:05<1:12:34,  1.44it/s]Training 2/3 epoch (loss 0.8345):  36%|███▌      | 3474/9753 [37:05<1:09:33,  1.50it/s]Training 2/3 epoch (loss 0.8114):  36%|███▌      | 3474/9753 [37:05<1:09:33,  1.50it/s]Training 2/3 epoch (loss 0.8114):  36%|███▌      | 3475/9753 [37:05<1:13:58,  1.41it/s]Training 2/3 epoch (loss 0.7328):  36%|███▌      | 3475/9753 [37:06<1:13:58,  1.41it/s]Training 2/3 epoch (loss 0.7328):  36%|███▌      | 3476/9753 [37:06<1:10:05,  1.49it/s]Training 2/3 epoch (loss 0.8874):  36%|███▌      | 3476/9753 [37:07<1:10:05,  1.49it/s]Training 2/3 epoch (loss 0.8874):  36%|███▌      | 3477/9753 [37:07<1:06:28,  1.57it/s]Training 2/3 epoch (loss 0.4397):  36%|███▌      | 3477/9753 [37:07<1:06:28,  1.57it/s]Training 2/3 epoch (loss 0.4397):  36%|███▌      | 3478/9753 [37:07<1:05:49,  1.59it/s]Training 2/3 epoch (loss 0.9719):  36%|███▌      | 3478/9753 [37:08<1:05:49,  1.59it/s]Training 2/3 epoch (loss 0.9719):  36%|███▌      | 3479/9753 [37:08<1:03:50,  1.64it/s]Training 2/3 epoch (loss 0.8382):  36%|███▌      | 3479/9753 [37:08<1:03:50,  1.64it/s]Training 2/3 epoch (loss 0.8382):  36%|███▌      | 3480/9753 [37:08<1:03:38,  1.64it/s]Training 2/3 epoch (loss 0.8093):  36%|███▌      | 3480/9753 [37:09<1:03:38,  1.64it/s]Training 2/3 epoch (loss 0.8093):  36%|███▌      | 3481/9753 [37:09<1:03:36,  1.64it/s]Training 2/3 epoch (loss 0.9608):  36%|███▌      | 3481/9753 [37:10<1:03:36,  1.64it/s]Training 2/3 epoch (loss 0.9608):  36%|███▌      | 3482/9753 [37:10<1:04:14,  1.63it/s]Training 2/3 epoch (loss 0.8581):  36%|███▌      | 3482/9753 [37:10<1:04:14,  1.63it/s]Training 2/3 epoch (loss 0.8581):  36%|███▌      | 3483/9753 [37:10<1:03:04,  1.66it/s]Training 2/3 epoch (loss 0.6727):  36%|███▌      | 3483/9753 [37:11<1:03:04,  1.66it/s]Training 2/3 epoch (loss 0.6727):  36%|███▌      | 3484/9753 [37:11<1:03:24,  1.65it/s]Training 2/3 epoch (loss 0.6570):  36%|███▌      | 3484/9753 [37:11<1:03:24,  1.65it/s]Training 2/3 epoch (loss 0.6570):  36%|███▌      | 3485/9753 [37:11<1:03:44,  1.64it/s]Training 2/3 epoch (loss 0.7006):  36%|███▌      | 3485/9753 [37:12<1:03:44,  1.64it/s]Training 2/3 epoch (loss 0.7006):  36%|███▌      | 3486/9753 [37:12<1:03:40,  1.64it/s]Training 2/3 epoch (loss 0.8356):  36%|███▌      | 3486/9753 [37:13<1:03:40,  1.64it/s]Training 2/3 epoch (loss 0.8356):  36%|███▌      | 3487/9753 [37:13<1:02:58,  1.66it/s]Training 2/3 epoch (loss 0.8842):  36%|███▌      | 3487/9753 [37:13<1:02:58,  1.66it/s]Training 2/3 epoch (loss 0.8842):  36%|███▌      | 3488/9753 [37:13<1:09:15,  1.51it/s]Training 2/3 epoch (loss 0.8401):  36%|███▌      | 3488/9753 [37:14<1:09:15,  1.51it/s]Training 2/3 epoch (loss 0.8401):  36%|███▌      | 3489/9753 [37:14<1:10:19,  1.48it/s]Training 2/3 epoch (loss 0.8967):  36%|███▌      | 3489/9753 [37:15<1:10:19,  1.48it/s]Training 2/3 epoch (loss 0.8967):  36%|███▌      | 3490/9753 [37:15<1:08:56,  1.51it/s]Training 2/3 epoch (loss 0.6652):  36%|███▌      | 3490/9753 [37:16<1:08:56,  1.51it/s]Training 2/3 epoch (loss 0.6652):  36%|███▌      | 3491/9753 [37:16<1:17:42,  1.34it/s]Training 2/3 epoch (loss 0.7974):  36%|███▌      | 3491/9753 [37:16<1:17:42,  1.34it/s]Training 2/3 epoch (loss 0.7974):  36%|███▌      | 3492/9753 [37:16<1:11:46,  1.45it/s]Training 2/3 epoch (loss 0.5747):  36%|███▌      | 3492/9753 [37:17<1:11:46,  1.45it/s]Training 2/3 epoch (loss 0.5747):  36%|███▌      | 3493/9753 [37:17<1:08:12,  1.53it/s]Training 2/3 epoch (loss 0.8397):  36%|███▌      | 3493/9753 [37:17<1:08:12,  1.53it/s]Training 2/3 epoch (loss 0.8397):  36%|███▌      | 3494/9753 [37:17<1:05:10,  1.60it/s]Training 2/3 epoch (loss 0.7485):  36%|███▌      | 3494/9753 [37:18<1:05:10,  1.60it/s]Training 2/3 epoch (loss 0.7485):  36%|███▌      | 3495/9753 [37:18<1:12:18,  1.44it/s]Training 2/3 epoch (loss 0.7314):  36%|███▌      | 3495/9753 [37:19<1:12:18,  1.44it/s]Training 2/3 epoch (loss 0.7314):  36%|███▌      | 3496/9753 [37:19<1:08:40,  1.52it/s]Training 2/3 epoch (loss 0.7620):  36%|███▌      | 3496/9753 [37:19<1:08:40,  1.52it/s]Training 2/3 epoch (loss 0.7620):  36%|███▌      | 3497/9753 [37:19<1:07:10,  1.55it/s]Training 2/3 epoch (loss 0.6167):  36%|███▌      | 3497/9753 [37:20<1:07:10,  1.55it/s]Training 2/3 epoch (loss 0.6167):  36%|███▌      | 3498/9753 [37:20<1:04:56,  1.61it/s]Training 2/3 epoch (loss 0.8314):  36%|███▌      | 3498/9753 [37:21<1:04:56,  1.61it/s]Training 2/3 epoch (loss 0.8314):  36%|███▌      | 3499/9753 [37:21<1:03:36,  1.64it/s]Training 2/3 epoch (loss 0.7828):  36%|███▌      | 3499/9753 [37:21<1:03:36,  1.64it/s]Training 2/3 epoch (loss 0.7828):  36%|███▌      | 3500/9753 [37:21<1:03:51,  1.63it/s]Training 2/3 epoch (loss 0.9030):  36%|███▌      | 3500/9753 [37:22<1:03:51,  1.63it/s]Training 2/3 epoch (loss 0.9030):  36%|███▌      | 3501/9753 [37:22<1:04:24,  1.62it/s]Training 2/3 epoch (loss 0.8544):  36%|███▌      | 3501/9753 [37:23<1:04:24,  1.62it/s]Training 2/3 epoch (loss 0.8544):  36%|███▌      | 3502/9753 [37:23<1:09:56,  1.49it/s]Training 2/3 epoch (loss 0.6715):  36%|███▌      | 3502/9753 [37:23<1:09:56,  1.49it/s]Training 2/3 epoch (loss 0.6715):  36%|███▌      | 3503/9753 [37:23<1:07:26,  1.54it/s]Training 2/3 epoch (loss 0.9684):  36%|███▌      | 3503/9753 [37:24<1:07:26,  1.54it/s]Training 2/3 epoch (loss 0.9684):  36%|███▌      | 3504/9753 [37:24<1:10:34,  1.48it/s]Training 2/3 epoch (loss 0.4982):  36%|███▌      | 3504/9753 [37:25<1:10:34,  1.48it/s]Training 2/3 epoch (loss 0.4982):  36%|███▌      | 3505/9753 [37:25<1:10:29,  1.48it/s]Training 2/3 epoch (loss 0.6566):  36%|███▌      | 3505/9753 [37:25<1:10:29,  1.48it/s]Training 2/3 epoch (loss 0.6566):  36%|███▌      | 3506/9753 [37:25<1:10:09,  1.48it/s]Training 2/3 epoch (loss 0.7839):  36%|███▌      | 3506/9753 [37:26<1:10:09,  1.48it/s]Training 2/3 epoch (loss 0.7839):  36%|███▌      | 3507/9753 [37:26<1:10:47,  1.47it/s]Training 2/3 epoch (loss 0.5687):  36%|███▌      | 3507/9753 [37:27<1:10:47,  1.47it/s]Training 2/3 epoch (loss 0.5687):  36%|███▌      | 3508/9753 [37:27<1:07:38,  1.54it/s]Training 2/3 epoch (loss 0.5586):  36%|███▌      | 3508/9753 [37:27<1:07:38,  1.54it/s]Training 2/3 epoch (loss 0.5586):  36%|███▌      | 3509/9753 [37:27<1:06:29,  1.57it/s]Training 2/3 epoch (loss 0.7446):  36%|███▌      | 3509/9753 [37:28<1:06:29,  1.57it/s]Training 2/3 epoch (loss 0.7446):  36%|███▌      | 3510/9753 [37:28<1:07:55,  1.53it/s]Training 2/3 epoch (loss 0.6834):  36%|███▌      | 3510/9753 [37:29<1:07:55,  1.53it/s]Training 2/3 epoch (loss 0.6834):  36%|███▌      | 3511/9753 [37:29<1:13:18,  1.42it/s]Training 2/3 epoch (loss 0.6716):  36%|███▌      | 3511/9753 [37:29<1:13:18,  1.42it/s]Training 2/3 epoch (loss 0.6716):  36%|███▌      | 3512/9753 [37:29<1:11:26,  1.46it/s]Training 2/3 epoch (loss 0.5450):  36%|███▌      | 3512/9753 [37:30<1:11:26,  1.46it/s]Training 2/3 epoch (loss 0.5450):  36%|███▌      | 3513/9753 [37:30<1:11:08,  1.46it/s]Training 2/3 epoch (loss 0.8035):  36%|███▌      | 3513/9753 [37:31<1:11:08,  1.46it/s]Training 2/3 epoch (loss 0.8035):  36%|███▌      | 3514/9753 [37:31<1:07:39,  1.54it/s]Training 2/3 epoch (loss 0.6610):  36%|███▌      | 3514/9753 [37:31<1:07:39,  1.54it/s]Training 2/3 epoch (loss 0.6610):  36%|███▌      | 3515/9753 [37:31<1:04:51,  1.60it/s]Training 2/3 epoch (loss 0.5077):  36%|███▌      | 3515/9753 [37:32<1:04:51,  1.60it/s]Training 2/3 epoch (loss 0.5077):  36%|███▌      | 3516/9753 [37:32<1:02:28,  1.66it/s]Training 2/3 epoch (loss 0.8756):  36%|███▌      | 3516/9753 [37:32<1:02:28,  1.66it/s]Training 2/3 epoch (loss 0.8756):  36%|███▌      | 3517/9753 [37:32<1:03:32,  1.64it/s]Training 2/3 epoch (loss 0.5791):  36%|███▌      | 3517/9753 [37:33<1:03:32,  1.64it/s]Training 2/3 epoch (loss 0.5791):  36%|███▌      | 3518/9753 [37:33<1:02:28,  1.66it/s]Training 2/3 epoch (loss 0.7024):  36%|███▌      | 3518/9753 [37:34<1:02:28,  1.66it/s]Training 2/3 epoch (loss 0.7024):  36%|███▌      | 3519/9753 [37:34<1:03:27,  1.64it/s]Training 2/3 epoch (loss 0.7440):  36%|███▌      | 3519/9753 [37:34<1:03:27,  1.64it/s]Training 2/3 epoch (loss 0.7440):  36%|███▌      | 3520/9753 [37:34<1:15:08,  1.38it/s]Training 2/3 epoch (loss 0.6088):  36%|███▌      | 3520/9753 [37:35<1:15:08,  1.38it/s]Training 2/3 epoch (loss 0.6088):  36%|███▌      | 3521/9753 [37:35<1:10:42,  1.47it/s]Training 2/3 epoch (loss 0.8163):  36%|███▌      | 3521/9753 [37:36<1:10:42,  1.47it/s]Training 2/3 epoch (loss 0.8163):  36%|███▌      | 3522/9753 [37:36<1:07:59,  1.53it/s]Training 2/3 epoch (loss 0.3448):  36%|███▌      | 3522/9753 [37:37<1:07:59,  1.53it/s]Training 2/3 epoch (loss 0.3448):  36%|███▌      | 3523/9753 [37:37<1:15:47,  1.37it/s]Training 2/3 epoch (loss 0.6056):  36%|███▌      | 3523/9753 [37:37<1:15:47,  1.37it/s]Training 2/3 epoch (loss 0.6056):  36%|███▌      | 3524/9753 [37:37<1:14:21,  1.40it/s]Training 2/3 epoch (loss 0.6467):  36%|███▌      | 3524/9753 [37:38<1:14:21,  1.40it/s]Training 2/3 epoch (loss 0.6467):  36%|███▌      | 3525/9753 [37:38<1:09:10,  1.50it/s]Training 2/3 epoch (loss 0.7686):  36%|███▌      | 3525/9753 [37:38<1:09:10,  1.50it/s]Training 2/3 epoch (loss 0.7686):  36%|███▌      | 3526/9753 [37:38<1:06:08,  1.57it/s]Training 2/3 epoch (loss 0.5826):  36%|███▌      | 3526/9753 [37:39<1:06:08,  1.57it/s]Training 2/3 epoch (loss 0.5826):  36%|███▌      | 3527/9753 [37:39<1:06:44,  1.55it/s]Training 2/3 epoch (loss 0.5423):  36%|███▌      | 3527/9753 [37:40<1:06:44,  1.55it/s]Training 2/3 epoch (loss 0.5423):  36%|███▌      | 3528/9753 [37:40<1:04:02,  1.62it/s]Training 2/3 epoch (loss 0.7620):  36%|███▌      | 3528/9753 [37:40<1:04:02,  1.62it/s]Training 2/3 epoch (loss 0.7620):  36%|███▌      | 3529/9753 [37:40<1:02:43,  1.65it/s]Training 2/3 epoch (loss 0.8296):  36%|███▌      | 3529/9753 [37:41<1:02:43,  1.65it/s]Training 2/3 epoch (loss 0.8296):  36%|███▌      | 3530/9753 [37:41<1:04:26,  1.61it/s]Training 2/3 epoch (loss 0.5589):  36%|███▌      | 3530/9753 [37:41<1:04:26,  1.61it/s]Training 2/3 epoch (loss 0.5589):  36%|███▌      | 3531/9753 [37:41<1:02:54,  1.65it/s]Training 2/3 epoch (loss 0.7041):  36%|███▌      | 3531/9753 [37:42<1:02:54,  1.65it/s]Training 2/3 epoch (loss 0.7041):  36%|███▌      | 3532/9753 [37:42<1:01:21,  1.69it/s]Training 2/3 epoch (loss 0.7457):  36%|███▌      | 3532/9753 [37:43<1:01:21,  1.69it/s]Training 2/3 epoch (loss 0.7457):  36%|███▌      | 3533/9753 [37:43<1:00:04,  1.73it/s]Training 2/3 epoch (loss 0.7095):  36%|███▌      | 3533/9753 [37:43<1:00:04,  1.73it/s]Training 2/3 epoch (loss 0.7095):  36%|███▌      | 3534/9753 [37:43<59:35,  1.74it/s]  Training 2/3 epoch (loss 0.8499):  36%|███▌      | 3534/9753 [37:44<59:35,  1.74it/s]Training 2/3 epoch (loss 0.8499):  36%|███▌      | 3535/9753 [37:44<1:04:28,  1.61it/s]Training 2/3 epoch (loss 0.5774):  36%|███▌      | 3535/9753 [37:45<1:04:28,  1.61it/s]Training 2/3 epoch (loss 0.5774):  36%|███▋      | 3536/9753 [37:45<1:16:01,  1.36it/s]Training 2/3 epoch (loss 0.6249):  36%|███▋      | 3536/9753 [37:45<1:16:01,  1.36it/s]Training 2/3 epoch (loss 0.6249):  36%|███▋      | 3537/9753 [37:45<1:10:47,  1.46it/s]Training 2/3 epoch (loss 0.5415):  36%|███▋      | 3537/9753 [37:46<1:10:47,  1.46it/s]Training 2/3 epoch (loss 0.5415):  36%|███▋      | 3538/9753 [37:46<1:06:16,  1.56it/s]Training 2/3 epoch (loss 0.8021):  36%|███▋      | 3538/9753 [37:46<1:06:16,  1.56it/s]Training 2/3 epoch (loss 0.8021):  36%|███▋      | 3539/9753 [37:46<1:04:29,  1.61it/s]Training 2/3 epoch (loss 0.5958):  36%|███▋      | 3539/9753 [37:47<1:04:29,  1.61it/s]Training 2/3 epoch (loss 0.5958):  36%|███▋      | 3540/9753 [37:47<1:05:43,  1.58it/s]Training 2/3 epoch (loss 0.6143):  36%|███▋      | 3540/9753 [37:48<1:05:43,  1.58it/s]Training 2/3 epoch (loss 0.6143):  36%|███▋      | 3541/9753 [37:48<1:08:11,  1.52it/s]Training 2/3 epoch (loss 0.7327):  36%|███▋      | 3541/9753 [37:48<1:08:11,  1.52it/s]Training 2/3 epoch (loss 0.7327):  36%|███▋      | 3542/9753 [37:48<1:05:52,  1.57it/s]Training 2/3 epoch (loss 0.6535):  36%|███▋      | 3542/9753 [37:49<1:05:52,  1.57it/s]Training 2/3 epoch (loss 0.6535):  36%|███▋      | 3543/9753 [37:49<1:03:43,  1.62it/s]Training 2/3 epoch (loss 0.8334):  36%|███▋      | 3543/9753 [37:50<1:03:43,  1.62it/s]Training 2/3 epoch (loss 0.8334):  36%|███▋      | 3544/9753 [37:50<1:01:59,  1.67it/s]Training 2/3 epoch (loss 0.8824):  36%|███▋      | 3544/9753 [37:50<1:01:59,  1.67it/s]Training 2/3 epoch (loss 0.8824):  36%|███▋      | 3545/9753 [37:50<1:01:01,  1.70it/s]Training 2/3 epoch (loss 0.5018):  36%|███▋      | 3545/9753 [37:51<1:01:01,  1.70it/s]Training 2/3 epoch (loss 0.5018):  36%|███▋      | 3546/9753 [37:51<1:00:03,  1.72it/s]Training 2/3 epoch (loss 0.8136):  36%|███▋      | 3546/9753 [37:51<1:00:03,  1.72it/s]Training 2/3 epoch (loss 0.8136):  36%|███▋      | 3547/9753 [37:51<1:00:36,  1.71it/s]Training 2/3 epoch (loss 0.8452):  36%|███▋      | 3547/9753 [37:52<1:00:36,  1.71it/s]Training 2/3 epoch (loss 0.8452):  36%|███▋      | 3548/9753 [37:52<1:00:00,  1.72it/s]Training 2/3 epoch (loss 0.7467):  36%|███▋      | 3548/9753 [37:53<1:00:00,  1.72it/s]Training 2/3 epoch (loss 0.7467):  36%|███▋      | 3549/9753 [37:53<1:02:11,  1.66it/s]Training 2/3 epoch (loss 0.7597):  36%|███▋      | 3549/9753 [37:53<1:02:11,  1.66it/s]Training 2/3 epoch (loss 0.7597):  36%|███▋      | 3550/9753 [37:53<1:01:27,  1.68it/s]Training 2/3 epoch (loss 0.8839):  36%|███▋      | 3550/9753 [37:54<1:01:27,  1.68it/s]Training 2/3 epoch (loss 0.8839):  36%|███▋      | 3551/9753 [37:54<1:10:06,  1.47it/s]Training 2/3 epoch (loss 0.7102):  36%|███▋      | 3551/9753 [37:55<1:10:06,  1.47it/s]Training 2/3 epoch (loss 0.7102):  36%|███▋      | 3552/9753 [37:55<1:13:30,  1.41it/s]Training 2/3 epoch (loss 0.6821):  36%|███▋      | 3552/9753 [37:55<1:13:30,  1.41it/s]Training 2/3 epoch (loss 0.6821):  36%|███▋      | 3553/9753 [37:55<1:11:41,  1.44it/s]Training 2/3 epoch (loss 0.7797):  36%|███▋      | 3553/9753 [37:56<1:11:41,  1.44it/s]Training 2/3 epoch (loss 0.7797):  36%|███▋      | 3554/9753 [37:56<1:11:54,  1.44it/s]Training 2/3 epoch (loss 0.7078):  36%|███▋      | 3554/9753 [37:57<1:11:54,  1.44it/s]Training 2/3 epoch (loss 0.7078):  36%|███▋      | 3555/9753 [37:57<1:14:58,  1.38it/s]Training 2/3 epoch (loss 0.8237):  36%|███▋      | 3555/9753 [37:58<1:14:58,  1.38it/s]Training 2/3 epoch (loss 0.8237):  36%|███▋      | 3556/9753 [37:58<1:15:16,  1.37it/s]Training 2/3 epoch (loss 0.6600):  36%|███▋      | 3556/9753 [37:59<1:15:16,  1.37it/s]Training 2/3 epoch (loss 0.6600):  36%|███▋      | 3557/9753 [37:59<1:21:37,  1.27it/s]Training 2/3 epoch (loss 0.6715):  36%|███▋      | 3557/9753 [37:59<1:21:37,  1.27it/s]Training 2/3 epoch (loss 0.6715):  36%|███▋      | 3558/9753 [37:59<1:17:34,  1.33it/s]Training 2/3 epoch (loss 0.6334):  36%|███▋      | 3558/9753 [38:00<1:17:34,  1.33it/s]Training 2/3 epoch (loss 0.6334):  36%|███▋      | 3559/9753 [38:00<1:14:16,  1.39it/s]Training 2/3 epoch (loss 0.5643):  36%|███▋      | 3559/9753 [38:01<1:14:16,  1.39it/s]Training 2/3 epoch (loss 0.5643):  37%|███▋      | 3560/9753 [38:01<1:12:36,  1.42it/s]Training 2/3 epoch (loss 0.7839):  37%|███▋      | 3560/9753 [38:01<1:12:36,  1.42it/s]Training 2/3 epoch (loss 0.7839):  37%|███▋      | 3561/9753 [38:01<1:08:29,  1.51it/s]Training 2/3 epoch (loss 0.9464):  37%|███▋      | 3561/9753 [38:02<1:08:29,  1.51it/s]Training 2/3 epoch (loss 0.9464):  37%|███▋      | 3562/9753 [38:02<1:05:11,  1.58it/s]Training 2/3 epoch (loss 0.9190):  37%|███▋      | 3562/9753 [38:02<1:05:11,  1.58it/s]Training 2/3 epoch (loss 0.9190):  37%|███▋      | 3563/9753 [38:02<1:02:33,  1.65it/s]Training 2/3 epoch (loss 0.6572):  37%|███▋      | 3563/9753 [38:03<1:02:33,  1.65it/s]Training 2/3 epoch (loss 0.6572):  37%|███▋      | 3564/9753 [38:03<1:00:55,  1.69it/s]Training 2/3 epoch (loss 0.7225):  37%|███▋      | 3564/9753 [38:04<1:00:55,  1.69it/s]Training 2/3 epoch (loss 0.7225):  37%|███▋      | 3565/9753 [38:04<1:05:00,  1.59it/s]Training 2/3 epoch (loss 0.5506):  37%|███▋      | 3565/9753 [38:04<1:05:00,  1.59it/s]Training 2/3 epoch (loss 0.5506):  37%|███▋      | 3566/9753 [38:04<1:07:21,  1.53it/s]Training 2/3 epoch (loss 0.4424):  37%|███▋      | 3566/9753 [38:05<1:07:21,  1.53it/s]Training 2/3 epoch (loss 0.4424):  37%|███▋      | 3567/9753 [38:05<1:04:42,  1.59it/s]Training 2/3 epoch (loss 0.7186):  37%|███▋      | 3567/9753 [38:06<1:04:42,  1.59it/s]Training 2/3 epoch (loss 0.7186):  37%|███▋      | 3568/9753 [38:06<1:09:58,  1.47it/s]Training 2/3 epoch (loss 0.6692):  37%|███▋      | 3568/9753 [38:06<1:09:58,  1.47it/s]Training 2/3 epoch (loss 0.6692):  37%|███▋      | 3569/9753 [38:06<1:07:03,  1.54it/s]Training 2/3 epoch (loss 0.5756):  37%|███▋      | 3569/9753 [38:07<1:07:03,  1.54it/s]Training 2/3 epoch (loss 0.5756):  37%|███▋      | 3570/9753 [38:07<1:05:06,  1.58it/s]Training 2/3 epoch (loss 0.5772):  37%|███▋      | 3570/9753 [38:08<1:05:06,  1.58it/s]Training 2/3 epoch (loss 0.5772):  37%|███▋      | 3571/9753 [38:08<1:13:00,  1.41it/s]Training 2/3 epoch (loss 0.9440):  37%|███▋      | 3571/9753 [38:08<1:13:00,  1.41it/s]Training 2/3 epoch (loss 0.9440):  37%|███▋      | 3572/9753 [38:08<1:11:50,  1.43it/s]Training 2/3 epoch (loss 0.9679):  37%|███▋      | 3572/9753 [38:09<1:11:50,  1.43it/s]Training 2/3 epoch (loss 0.9679):  37%|███▋      | 3573/9753 [38:09<1:16:53,  1.34it/s]Training 2/3 epoch (loss 0.8190):  37%|███▋      | 3573/9753 [38:10<1:16:53,  1.34it/s]Training 2/3 epoch (loss 0.8190):  37%|███▋      | 3574/9753 [38:10<1:15:02,  1.37it/s]Training 2/3 epoch (loss 0.5873):  37%|███▋      | 3574/9753 [38:10<1:15:02,  1.37it/s]Training 2/3 epoch (loss 0.5873):  37%|███▋      | 3575/9753 [38:10<1:09:24,  1.48it/s]Training 2/3 epoch (loss 0.9688):  37%|███▋      | 3575/9753 [38:11<1:09:24,  1.48it/s]Training 2/3 epoch (loss 0.9688):  37%|███▋      | 3576/9753 [38:11<1:08:19,  1.51it/s]Training 2/3 epoch (loss 0.8634):  37%|███▋      | 3576/9753 [38:12<1:08:19,  1.51it/s]Training 2/3 epoch (loss 0.8634):  37%|███▋      | 3577/9753 [38:12<1:16:47,  1.34it/s]Training 2/3 epoch (loss 0.5313):  37%|███▋      | 3577/9753 [38:13<1:16:47,  1.34it/s]Training 2/3 epoch (loss 0.5313):  37%|███▋      | 3578/9753 [38:13<1:12:45,  1.41it/s]Training 2/3 epoch (loss 0.6847):  37%|███▋      | 3578/9753 [38:13<1:12:45,  1.41it/s]Training 2/3 epoch (loss 0.6847):  37%|███▋      | 3579/9753 [38:13<1:08:57,  1.49it/s]Training 2/3 epoch (loss 0.7501):  37%|███▋      | 3579/9753 [38:14<1:08:57,  1.49it/s]Training 2/3 epoch (loss 0.7501):  37%|███▋      | 3580/9753 [38:14<1:10:06,  1.47it/s]Training 2/3 epoch (loss 0.7371):  37%|███▋      | 3580/9753 [38:15<1:10:06,  1.47it/s]Training 2/3 epoch (loss 0.7371):  37%|███▋      | 3581/9753 [38:15<1:10:30,  1.46it/s]Training 2/3 epoch (loss 0.5957):  37%|███▋      | 3581/9753 [38:15<1:10:30,  1.46it/s]Training 2/3 epoch (loss 0.5957):  37%|███▋      | 3582/9753 [38:15<1:07:19,  1.53it/s]Training 2/3 epoch (loss 0.6149):  37%|███▋      | 3582/9753 [38:16<1:07:19,  1.53it/s]Training 2/3 epoch (loss 0.6149):  37%|███▋      | 3583/9753 [38:16<1:08:05,  1.51it/s]Training 2/3 epoch (loss 0.6260):  37%|███▋      | 3583/9753 [38:17<1:08:05,  1.51it/s]Training 2/3 epoch (loss 0.6260):  37%|███▋      | 3584/9753 [38:17<1:10:49,  1.45it/s]Training 2/3 epoch (loss 0.5220):  37%|███▋      | 3584/9753 [38:17<1:10:49,  1.45it/s]Training 2/3 epoch (loss 0.5220):  37%|███▋      | 3585/9753 [38:17<1:07:37,  1.52it/s]Training 2/3 epoch (loss 0.5938):  37%|███▋      | 3585/9753 [38:18<1:07:37,  1.52it/s]Training 2/3 epoch (loss 0.5938):  37%|███▋      | 3586/9753 [38:18<1:05:14,  1.58it/s]Training 2/3 epoch (loss 0.5980):  37%|███▋      | 3586/9753 [38:18<1:05:14,  1.58it/s]Training 2/3 epoch (loss 0.5980):  37%|███▋      | 3587/9753 [38:18<1:03:34,  1.62it/s]Training 2/3 epoch (loss 0.5803):  37%|███▋      | 3587/9753 [38:19<1:03:34,  1.62it/s]Training 2/3 epoch (loss 0.5803):  37%|███▋      | 3588/9753 [38:19<1:02:32,  1.64it/s]Training 2/3 epoch (loss 0.6514):  37%|███▋      | 3588/9753 [38:20<1:02:32,  1.64it/s]Training 2/3 epoch (loss 0.6514):  37%|███▋      | 3589/9753 [38:20<1:02:59,  1.63it/s]Training 2/3 epoch (loss 0.4592):  37%|███▋      | 3589/9753 [38:20<1:02:59,  1.63it/s]Training 2/3 epoch (loss 0.4592):  37%|███▋      | 3590/9753 [38:20<1:01:55,  1.66it/s]Training 2/3 epoch (loss 0.6441):  37%|███▋      | 3590/9753 [38:21<1:01:55,  1.66it/s]Training 2/3 epoch (loss 0.6441):  37%|███▋      | 3591/9753 [38:21<1:03:31,  1.62it/s]Training 2/3 epoch (loss 0.5739):  37%|███▋      | 3591/9753 [38:21<1:03:31,  1.62it/s]Training 2/3 epoch (loss 0.5739):  37%|███▋      | 3592/9753 [38:21<1:03:38,  1.61it/s]Training 2/3 epoch (loss 0.9367):  37%|███▋      | 3592/9753 [38:22<1:03:38,  1.61it/s]Training 2/3 epoch (loss 0.9367):  37%|███▋      | 3593/9753 [38:22<1:06:03,  1.55it/s]Training 2/3 epoch (loss 0.7737):  37%|███▋      | 3593/9753 [38:23<1:06:03,  1.55it/s]Training 2/3 epoch (loss 0.7737):  37%|███▋      | 3594/9753 [38:23<1:08:49,  1.49it/s]Training 2/3 epoch (loss 0.7738):  37%|███▋      | 3594/9753 [38:23<1:08:49,  1.49it/s]Training 2/3 epoch (loss 0.7738):  37%|███▋      | 3595/9753 [38:23<1:07:06,  1.53it/s]Training 2/3 epoch (loss 0.5055):  37%|███▋      | 3595/9753 [38:24<1:07:06,  1.53it/s]Training 2/3 epoch (loss 0.5055):  37%|███▋      | 3596/9753 [38:24<1:05:50,  1.56it/s]Training 2/3 epoch (loss 0.7217):  37%|███▋      | 3596/9753 [38:25<1:05:50,  1.56it/s]Training 2/3 epoch (loss 0.7217):  37%|███▋      | 3597/9753 [38:25<1:08:32,  1.50it/s]Training 2/3 epoch (loss 0.8548):  37%|███▋      | 3597/9753 [38:25<1:08:32,  1.50it/s]Training 2/3 epoch (loss 0.8548):  37%|███▋      | 3598/9753 [38:25<1:07:06,  1.53it/s]Training 2/3 epoch (loss 0.6355):  37%|███▋      | 3598/9753 [38:26<1:07:06,  1.53it/s]Training 2/3 epoch (loss 0.6355):  37%|███▋      | 3599/9753 [38:26<1:16:16,  1.34it/s]Training 2/3 epoch (loss 0.5391):  37%|███▋      | 3599/9753 [38:27<1:16:16,  1.34it/s]Training 2/3 epoch (loss 0.5391):  37%|███▋      | 3600/9753 [38:27<1:19:28,  1.29it/s]Training 2/3 epoch (loss 0.8045):  37%|███▋      | 3600/9753 [38:28<1:19:28,  1.29it/s]Training 2/3 epoch (loss 0.8045):  37%|███▋      | 3601/9753 [38:28<1:14:06,  1.38it/s]Training 2/3 epoch (loss 0.7512):  37%|███▋      | 3601/9753 [38:28<1:14:06,  1.38it/s]Training 2/3 epoch (loss 0.7512):  37%|███▋      | 3602/9753 [38:28<1:10:38,  1.45it/s]Training 2/3 epoch (loss 0.8141):  37%|███▋      | 3602/9753 [38:29<1:10:38,  1.45it/s]Training 2/3 epoch (loss 0.8141):  37%|███▋      | 3603/9753 [38:29<1:10:55,  1.45it/s]Training 2/3 epoch (loss 0.7650):  37%|███▋      | 3603/9753 [38:30<1:10:55,  1.45it/s]Training 2/3 epoch (loss 0.7650):  37%|███▋      | 3604/9753 [38:30<1:07:39,  1.51it/s]Training 2/3 epoch (loss 0.6971):  37%|███▋      | 3604/9753 [38:30<1:07:39,  1.51it/s]Training 2/3 epoch (loss 0.6971):  37%|███▋      | 3605/9753 [38:30<1:04:59,  1.58it/s]Training 2/3 epoch (loss 0.6994):  37%|███▋      | 3605/9753 [38:31<1:04:59,  1.58it/s]Training 2/3 epoch (loss 0.6994):  37%|███▋      | 3606/9753 [38:31<1:05:53,  1.55it/s]Training 2/3 epoch (loss 0.5981):  37%|███▋      | 3606/9753 [38:32<1:05:53,  1.55it/s]Training 2/3 epoch (loss 0.5981):  37%|███▋      | 3607/9753 [38:32<1:07:06,  1.53it/s]Training 2/3 epoch (loss 0.3856):  37%|███▋      | 3607/9753 [38:32<1:07:06,  1.53it/s]Training 2/3 epoch (loss 0.3856):  37%|███▋      | 3608/9753 [38:32<1:04:37,  1.58it/s]Training 2/3 epoch (loss 0.7657):  37%|███▋      | 3608/9753 [38:33<1:04:37,  1.58it/s]Training 2/3 epoch (loss 0.7657):  37%|███▋      | 3609/9753 [38:33<1:04:37,  1.58it/s]Training 2/3 epoch (loss 0.6209):  37%|███▋      | 3609/9753 [38:33<1:04:37,  1.58it/s]Training 2/3 epoch (loss 0.6209):  37%|███▋      | 3610/9753 [38:33<1:03:31,  1.61it/s]Training 2/3 epoch (loss 0.8299):  37%|███▋      | 3610/9753 [38:34<1:03:31,  1.61it/s]Training 2/3 epoch (loss 0.8299):  37%|███▋      | 3611/9753 [38:34<1:06:35,  1.54it/s]Training 2/3 epoch (loss 0.8192):  37%|███▋      | 3611/9753 [38:35<1:06:35,  1.54it/s]Training 2/3 epoch (loss 0.8192):  37%|███▋      | 3612/9753 [38:35<1:04:18,  1.59it/s]Training 2/3 epoch (loss 0.6710):  37%|███▋      | 3612/9753 [38:35<1:04:18,  1.59it/s]Training 2/3 epoch (loss 0.6710):  37%|███▋      | 3613/9753 [38:35<1:03:20,  1.62it/s]Training 2/3 epoch (loss 0.8604):  37%|███▋      | 3613/9753 [38:36<1:03:20,  1.62it/s]Training 2/3 epoch (loss 0.8604):  37%|███▋      | 3614/9753 [38:36<1:07:14,  1.52it/s]Training 2/3 epoch (loss 0.4755):  37%|███▋      | 3614/9753 [38:37<1:07:14,  1.52it/s]Training 2/3 epoch (loss 0.4755):  37%|███▋      | 3615/9753 [38:37<1:04:41,  1.58it/s]Training 2/3 epoch (loss 0.7076):  37%|███▋      | 3615/9753 [38:37<1:04:41,  1.58it/s]Training 2/3 epoch (loss 0.7076):  37%|███▋      | 3616/9753 [38:37<1:07:15,  1.52it/s]Training 2/3 epoch (loss 0.5375):  37%|███▋      | 3616/9753 [38:38<1:07:15,  1.52it/s]Training 2/3 epoch (loss 0.5375):  37%|███▋      | 3617/9753 [38:38<1:04:48,  1.58it/s]Training 2/3 epoch (loss 0.7366):  37%|███▋      | 3617/9753 [38:39<1:04:48,  1.58it/s]Training 2/3 epoch (loss 0.7366):  37%|███▋      | 3618/9753 [38:39<1:02:21,  1.64it/s]Training 2/3 epoch (loss 0.7167):  37%|███▋      | 3618/9753 [38:39<1:02:21,  1.64it/s]Training 2/3 epoch (loss 0.7167):  37%|███▋      | 3619/9753 [38:39<1:02:39,  1.63it/s]Training 2/3 epoch (loss 0.7240):  37%|███▋      | 3619/9753 [38:40<1:02:39,  1.63it/s]Training 2/3 epoch (loss 0.7240):  37%|███▋      | 3620/9753 [38:40<1:04:37,  1.58it/s]Training 2/3 epoch (loss 0.6806):  37%|███▋      | 3620/9753 [38:40<1:04:37,  1.58it/s]Training 2/3 epoch (loss 0.6806):  37%|███▋      | 3621/9753 [38:40<1:03:29,  1.61it/s]Training 2/3 epoch (loss 0.6031):  37%|███▋      | 3621/9753 [38:41<1:03:29,  1.61it/s]Training 2/3 epoch (loss 0.6031):  37%|███▋      | 3622/9753 [38:41<1:05:42,  1.56it/s]Training 2/3 epoch (loss 0.6636):  37%|███▋      | 3622/9753 [38:42<1:05:42,  1.56it/s]Training 2/3 epoch (loss 0.6636):  37%|███▋      | 3623/9753 [38:42<1:04:39,  1.58it/s]Training 2/3 epoch (loss 0.6541):  37%|███▋      | 3623/9753 [38:43<1:04:39,  1.58it/s]Training 2/3 epoch (loss 0.6541):  37%|███▋      | 3624/9753 [38:43<1:10:24,  1.45it/s]Training 2/3 epoch (loss 0.5128):  37%|███▋      | 3624/9753 [38:43<1:10:24,  1.45it/s]Training 2/3 epoch (loss 0.5128):  37%|███▋      | 3625/9753 [38:43<1:11:19,  1.43it/s]Training 2/3 epoch (loss 0.7586):  37%|███▋      | 3625/9753 [38:44<1:11:19,  1.43it/s]Training 2/3 epoch (loss 0.7586):  37%|███▋      | 3626/9753 [38:44<1:19:40,  1.28it/s]Training 2/3 epoch (loss 0.6767):  37%|███▋      | 3626/9753 [38:45<1:19:40,  1.28it/s]Training 2/3 epoch (loss 0.6767):  37%|███▋      | 3627/9753 [38:45<1:20:27,  1.27it/s]Training 2/3 epoch (loss 0.6565):  37%|███▋      | 3627/9753 [38:46<1:20:27,  1.27it/s]Training 2/3 epoch (loss 0.6565):  37%|███▋      | 3628/9753 [38:46<1:17:25,  1.32it/s]Training 2/3 epoch (loss 0.6995):  37%|███▋      | 3628/9753 [38:46<1:17:25,  1.32it/s]Training 2/3 epoch (loss 0.6995):  37%|███▋      | 3629/9753 [38:46<1:15:25,  1.35it/s]Training 2/3 epoch (loss 0.6535):  37%|███▋      | 3629/9753 [38:47<1:15:25,  1.35it/s]Training 2/3 epoch (loss 0.6535):  37%|███▋      | 3630/9753 [38:47<1:13:25,  1.39it/s]Training 2/3 epoch (loss 0.6927):  37%|███▋      | 3630/9753 [38:48<1:13:25,  1.39it/s]Training 2/3 epoch (loss 0.6927):  37%|███▋      | 3631/9753 [38:48<1:19:17,  1.29it/s]Training 2/3 epoch (loss 0.7132):  37%|███▋      | 3631/9753 [38:49<1:19:17,  1.29it/s]Training 2/3 epoch (loss 0.7132):  37%|███▋      | 3632/9753 [38:49<1:25:42,  1.19it/s]Training 2/3 epoch (loss 0.8319):  37%|███▋      | 3632/9753 [38:50<1:25:42,  1.19it/s]Training 2/3 epoch (loss 0.8319):  37%|███▋      | 3633/9753 [38:50<1:18:14,  1.30it/s]Training 2/3 epoch (loss 0.8152):  37%|███▋      | 3633/9753 [38:50<1:18:14,  1.30it/s]Training 2/3 epoch (loss 0.8152):  37%|███▋      | 3634/9753 [38:50<1:14:08,  1.38it/s]Training 2/3 epoch (loss 0.7810):  37%|███▋      | 3634/9753 [38:51<1:14:08,  1.38it/s]Training 2/3 epoch (loss 0.7810):  37%|███▋      | 3635/9753 [38:51<1:09:14,  1.47it/s]Training 2/3 epoch (loss 0.6969):  37%|███▋      | 3635/9753 [38:51<1:09:14,  1.47it/s]Training 2/3 epoch (loss 0.6969):  37%|███▋      | 3636/9753 [38:51<1:05:31,  1.56it/s]Training 2/3 epoch (loss 0.7739):  37%|███▋      | 3636/9753 [38:52<1:05:31,  1.56it/s]Training 2/3 epoch (loss 0.7739):  37%|███▋      | 3637/9753 [38:52<1:06:49,  1.53it/s]Training 2/3 epoch (loss 0.8819):  37%|███▋      | 3637/9753 [38:53<1:06:49,  1.53it/s]Training 2/3 epoch (loss 0.8819):  37%|███▋      | 3638/9753 [38:53<1:05:13,  1.56it/s]Training 2/3 epoch (loss 0.4256):  37%|███▋      | 3638/9753 [38:53<1:05:13,  1.56it/s]Training 2/3 epoch (loss 0.4256):  37%|███▋      | 3639/9753 [38:53<1:02:51,  1.62it/s]Training 2/3 epoch (loss 0.6131):  37%|███▋      | 3639/9753 [38:54<1:02:51,  1.62it/s]Training 2/3 epoch (loss 0.6131):  37%|███▋      | 3640/9753 [38:54<1:00:53,  1.67it/s]Training 2/3 epoch (loss 0.8746):  37%|███▋      | 3640/9753 [38:54<1:00:53,  1.67it/s]Training 2/3 epoch (loss 0.8746):  37%|███▋      | 3641/9753 [38:54<59:33,  1.71it/s]  Training 2/3 epoch (loss 0.7848):  37%|███▋      | 3641/9753 [38:55<59:33,  1.71it/s]Training 2/3 epoch (loss 0.7848):  37%|███▋      | 3642/9753 [38:55<1:03:17,  1.61it/s]Training 2/3 epoch (loss 0.6234):  37%|███▋      | 3642/9753 [38:56<1:03:17,  1.61it/s]Training 2/3 epoch (loss 0.6234):  37%|███▋      | 3643/9753 [38:56<1:01:56,  1.64it/s]Training 2/3 epoch (loss 0.6339):  37%|███▋      | 3643/9753 [38:56<1:01:56,  1.64it/s]Training 2/3 epoch (loss 0.6339):  37%|███▋      | 3644/9753 [38:56<1:06:44,  1.53it/s]Training 2/3 epoch (loss 0.6653):  37%|███▋      | 3644/9753 [38:57<1:06:44,  1.53it/s]Training 2/3 epoch (loss 0.6653):  37%|███▋      | 3645/9753 [38:57<1:03:43,  1.60it/s]Training 2/3 epoch (loss 0.6250):  37%|███▋      | 3645/9753 [38:58<1:03:43,  1.60it/s]Training 2/3 epoch (loss 0.6250):  37%|███▋      | 3646/9753 [38:58<1:07:53,  1.50it/s]Training 2/3 epoch (loss 0.6190):  37%|███▋      | 3646/9753 [38:58<1:07:53,  1.50it/s]Training 2/3 epoch (loss 0.6190):  37%|███▋      | 3647/9753 [38:58<1:04:23,  1.58it/s]Training 2/3 epoch (loss 0.6023):  37%|███▋      | 3647/9753 [38:59<1:04:23,  1.58it/s]Training 2/3 epoch (loss 0.6023):  37%|███▋      | 3648/9753 [38:59<1:06:25,  1.53it/s]Training 2/3 epoch (loss 0.7648):  37%|███▋      | 3648/9753 [38:59<1:06:25,  1.53it/s]Training 2/3 epoch (loss 0.7648):  37%|███▋      | 3649/9753 [38:59<1:03:49,  1.59it/s]Training 2/3 epoch (loss 0.6842):  37%|███▋      | 3649/9753 [39:00<1:03:49,  1.59it/s]Training 2/3 epoch (loss 0.6842):  37%|███▋      | 3650/9753 [39:00<1:11:51,  1.42it/s]Training 2/3 epoch (loss 0.5002):  37%|███▋      | 3650/9753 [39:01<1:11:51,  1.42it/s]Training 2/3 epoch (loss 0.5002):  37%|███▋      | 3651/9753 [39:01<1:12:29,  1.40it/s]Training 2/3 epoch (loss 0.5525):  37%|███▋      | 3651/9753 [39:02<1:12:29,  1.40it/s]Training 2/3 epoch (loss 0.5525):  37%|███▋      | 3652/9753 [39:02<1:08:14,  1.49it/s]Training 2/3 epoch (loss 0.6726):  37%|███▋      | 3652/9753 [39:02<1:08:14,  1.49it/s]Training 2/3 epoch (loss 0.6726):  37%|███▋      | 3653/9753 [39:02<1:04:25,  1.58it/s]Training 2/3 epoch (loss 0.9471):  37%|███▋      | 3653/9753 [39:03<1:04:25,  1.58it/s]Training 2/3 epoch (loss 0.9471):  37%|███▋      | 3654/9753 [39:03<1:07:05,  1.51it/s]Training 2/3 epoch (loss 0.7982):  37%|███▋      | 3654/9753 [39:04<1:07:05,  1.51it/s]Training 2/3 epoch (loss 0.7982):  37%|███▋      | 3655/9753 [39:04<1:06:03,  1.54it/s]Training 2/3 epoch (loss 0.7306):  37%|███▋      | 3655/9753 [39:04<1:06:03,  1.54it/s]Training 2/3 epoch (loss 0.7306):  37%|███▋      | 3656/9753 [39:04<1:04:55,  1.57it/s]Training 2/3 epoch (loss 0.9609):  37%|███▋      | 3656/9753 [39:05<1:04:55,  1.57it/s]Training 2/3 epoch (loss 0.9609):  37%|███▋      | 3657/9753 [39:05<1:03:47,  1.59it/s]Training 2/3 epoch (loss 0.8547):  37%|███▋      | 3657/9753 [39:06<1:03:47,  1.59it/s]Training 2/3 epoch (loss 0.8547):  38%|███▊      | 3658/9753 [39:06<1:09:41,  1.46it/s]Training 2/3 epoch (loss 0.7050):  38%|███▊      | 3658/9753 [39:06<1:09:41,  1.46it/s]Training 2/3 epoch (loss 0.7050):  38%|███▊      | 3659/9753 [39:06<1:08:55,  1.47it/s]Training 2/3 epoch (loss 0.5710):  38%|███▊      | 3659/9753 [39:07<1:08:55,  1.47it/s]Training 2/3 epoch (loss 0.5710):  38%|███▊      | 3660/9753 [39:07<1:07:22,  1.51it/s]Training 2/3 epoch (loss 0.4699):  38%|███▊      | 3660/9753 [39:07<1:07:22,  1.51it/s]Training 2/3 epoch (loss 0.4699):  38%|███▊      | 3661/9753 [39:07<1:04:04,  1.58it/s]Training 2/3 epoch (loss 0.6704):  38%|███▊      | 3661/9753 [39:08<1:04:04,  1.58it/s]Training 2/3 epoch (loss 0.6704):  38%|███▊      | 3662/9753 [39:08<1:02:23,  1.63it/s]Training 2/3 epoch (loss 0.9912):  38%|███▊      | 3662/9753 [39:09<1:02:23,  1.63it/s]Training 2/3 epoch (loss 0.9912):  38%|███▊      | 3663/9753 [39:09<1:04:10,  1.58it/s]Training 2/3 epoch (loss 0.6937):  38%|███▊      | 3663/9753 [39:10<1:04:10,  1.58it/s]Training 2/3 epoch (loss 0.6937):  38%|███▊      | 3664/9753 [39:10<1:11:20,  1.42it/s]Training 2/3 epoch (loss 0.6565):  38%|███▊      | 3664/9753 [39:10<1:11:20,  1.42it/s]Training 2/3 epoch (loss 0.6565):  38%|███▊      | 3665/9753 [39:10<1:07:13,  1.51it/s]Training 2/3 epoch (loss 0.6771):  38%|███▊      | 3665/9753 [39:11<1:07:13,  1.51it/s]Training 2/3 epoch (loss 0.6771):  38%|███▊      | 3666/9753 [39:11<1:05:22,  1.55it/s]Training 2/3 epoch (loss 0.5403):  38%|███▊      | 3666/9753 [39:11<1:05:22,  1.55it/s]Training 2/3 epoch (loss 0.5403):  38%|███▊      | 3667/9753 [39:11<1:04:35,  1.57it/s]Training 2/3 epoch (loss 1.0561):  38%|███▊      | 3667/9753 [39:12<1:04:35,  1.57it/s]Training 2/3 epoch (loss 1.0561):  38%|███▊      | 3668/9753 [39:12<1:06:20,  1.53it/s]Training 2/3 epoch (loss 0.7634):  38%|███▊      | 3668/9753 [39:13<1:06:20,  1.53it/s]Training 2/3 epoch (loss 0.7634):  38%|███▊      | 3669/9753 [39:13<1:06:05,  1.53it/s]Training 2/3 epoch (loss 0.5650):  38%|███▊      | 3669/9753 [39:13<1:06:05,  1.53it/s]Training 2/3 epoch (loss 0.5650):  38%|███▊      | 3670/9753 [39:13<1:03:16,  1.60it/s]Training 2/3 epoch (loss 0.7150):  38%|███▊      | 3670/9753 [39:14<1:03:16,  1.60it/s]Training 2/3 epoch (loss 0.7150):  38%|███▊      | 3671/9753 [39:14<1:12:08,  1.41it/s]Training 2/3 epoch (loss 0.6080):  38%|███▊      | 3671/9753 [39:15<1:12:08,  1.41it/s]Training 2/3 epoch (loss 0.6080):  38%|███▊      | 3672/9753 [39:15<1:07:26,  1.50it/s]Training 2/3 epoch (loss 0.6655):  38%|███▊      | 3672/9753 [39:15<1:07:26,  1.50it/s]Training 2/3 epoch (loss 0.6655):  38%|███▊      | 3673/9753 [39:15<1:04:09,  1.58it/s]Training 2/3 epoch (loss 0.5946):  38%|███▊      | 3673/9753 [39:16<1:04:09,  1.58it/s]Training 2/3 epoch (loss 0.5946):  38%|███▊      | 3674/9753 [39:16<1:01:37,  1.64it/s]Training 2/3 epoch (loss 0.7564):  38%|███▊      | 3674/9753 [39:16<1:01:37,  1.64it/s]Training 2/3 epoch (loss 0.7564):  38%|███▊      | 3675/9753 [39:16<1:01:34,  1.64it/s]Training 2/3 epoch (loss 0.7830):  38%|███▊      | 3675/9753 [39:17<1:01:34,  1.64it/s]Training 2/3 epoch (loss 0.7830):  38%|███▊      | 3676/9753 [39:17<1:05:55,  1.54it/s]Training 2/3 epoch (loss 0.6013):  38%|███▊      | 3676/9753 [39:18<1:05:55,  1.54it/s]Training 2/3 epoch (loss 0.6013):  38%|███▊      | 3677/9753 [39:18<1:05:38,  1.54it/s]Training 2/3 epoch (loss 0.6249):  38%|███▊      | 3677/9753 [39:18<1:05:38,  1.54it/s]Training 2/3 epoch (loss 0.6249):  38%|███▊      | 3678/9753 [39:18<1:04:44,  1.56it/s]Training 2/3 epoch (loss 0.7647):  38%|███▊      | 3678/9753 [39:19<1:04:44,  1.56it/s]Training 2/3 epoch (loss 0.7647):  38%|███▊      | 3679/9753 [39:19<1:04:22,  1.57it/s]Training 2/3 epoch (loss 0.7877):  38%|███▊      | 3679/9753 [39:20<1:04:22,  1.57it/s]Training 2/3 epoch (loss 0.7877):  38%|███▊      | 3680/9753 [39:20<1:09:50,  1.45it/s]Training 2/3 epoch (loss 0.6565):  38%|███▊      | 3680/9753 [39:21<1:09:50,  1.45it/s]Training 2/3 epoch (loss 0.6565):  38%|███▊      | 3681/9753 [39:21<1:14:04,  1.37it/s]Training 2/3 epoch (loss 0.7112):  38%|███▊      | 3681/9753 [39:21<1:14:04,  1.37it/s]Training 2/3 epoch (loss 0.7112):  38%|███▊      | 3682/9753 [39:21<1:10:17,  1.44it/s]Training 2/3 epoch (loss 0.6150):  38%|███▊      | 3682/9753 [39:22<1:10:17,  1.44it/s]Training 2/3 epoch (loss 0.6150):  38%|███▊      | 3683/9753 [39:22<1:05:49,  1.54it/s]Training 2/3 epoch (loss 0.4808):  38%|███▊      | 3683/9753 [39:22<1:05:49,  1.54it/s]Training 2/3 epoch (loss 0.4808):  38%|███▊      | 3684/9753 [39:22<1:02:41,  1.61it/s]Training 2/3 epoch (loss 0.8252):  38%|███▊      | 3684/9753 [39:23<1:02:41,  1.61it/s]Training 2/3 epoch (loss 0.8252):  38%|███▊      | 3685/9753 [39:23<1:00:49,  1.66it/s]Training 2/3 epoch (loss 0.7359):  38%|███▊      | 3685/9753 [39:24<1:00:49,  1.66it/s]Training 2/3 epoch (loss 0.7359):  38%|███▊      | 3686/9753 [39:24<59:28,  1.70it/s]  Training 2/3 epoch (loss 0.6575):  38%|███▊      | 3686/9753 [39:24<59:28,  1.70it/s]Training 2/3 epoch (loss 0.6575):  38%|███▊      | 3687/9753 [39:24<59:15,  1.71it/s]Training 2/3 epoch (loss 0.7494):  38%|███▊      | 3687/9753 [39:25<59:15,  1.71it/s]Training 2/3 epoch (loss 0.7494):  38%|███▊      | 3688/9753 [39:25<58:39,  1.72it/s]Training 2/3 epoch (loss 0.9015):  38%|███▊      | 3688/9753 [39:25<58:39,  1.72it/s]Training 2/3 epoch (loss 0.9015):  38%|███▊      | 3689/9753 [39:25<57:53,  1.75it/s]Training 2/3 epoch (loss 0.5977):  38%|███▊      | 3689/9753 [39:26<57:53,  1.75it/s]Training 2/3 epoch (loss 0.5977):  38%|███▊      | 3690/9753 [39:26<57:07,  1.77it/s]Training 2/3 epoch (loss 0.6415):  38%|███▊      | 3690/9753 [39:26<57:07,  1.77it/s]Training 2/3 epoch (loss 0.6415):  38%|███▊      | 3691/9753 [39:26<56:39,  1.78it/s]Training 2/3 epoch (loss 0.6357):  38%|███▊      | 3691/9753 [39:27<56:39,  1.78it/s]Training 2/3 epoch (loss 0.6357):  38%|███▊      | 3692/9753 [39:27<56:16,  1.80it/s]Training 2/3 epoch (loss 0.6912):  38%|███▊      | 3692/9753 [39:27<56:16,  1.80it/s]Training 2/3 epoch (loss 0.6912):  38%|███▊      | 3693/9753 [39:27<55:58,  1.80it/s]Training 2/3 epoch (loss 0.7485):  38%|███▊      | 3693/9753 [39:28<55:58,  1.80it/s]Training 2/3 epoch (loss 0.7485):  38%|███▊      | 3694/9753 [39:28<56:34,  1.79it/s]Training 2/3 epoch (loss 0.9650):  38%|███▊      | 3694/9753 [39:29<56:34,  1.79it/s]Training 2/3 epoch (loss 0.9650):  38%|███▊      | 3695/9753 [39:29<1:01:37,  1.64it/s]Training 2/3 epoch (loss 0.8324):  38%|███▊      | 3695/9753 [39:30<1:01:37,  1.64it/s]Training 2/3 epoch (loss 0.8324):  38%|███▊      | 3696/9753 [39:30<1:06:21,  1.52it/s]Training 2/3 epoch (loss 0.8582):  38%|███▊      | 3696/9753 [39:30<1:06:21,  1.52it/s]Training 2/3 epoch (loss 0.8582):  38%|███▊      | 3697/9753 [39:30<1:10:40,  1.43it/s]Training 2/3 epoch (loss 0.6634):  38%|███▊      | 3697/9753 [39:31<1:10:40,  1.43it/s]Training 2/3 epoch (loss 0.6634):  38%|███▊      | 3698/9753 [39:31<1:07:17,  1.50it/s]Training 2/3 epoch (loss 0.4518):  38%|███▊      | 3698/9753 [39:31<1:07:17,  1.50it/s]Training 2/3 epoch (loss 0.4518):  38%|███▊      | 3699/9753 [39:31<1:03:40,  1.58it/s]Training 2/3 epoch (loss 0.6481):  38%|███▊      | 3699/9753 [39:32<1:03:40,  1.58it/s]Training 2/3 epoch (loss 0.6481):  38%|███▊      | 3700/9753 [39:32<1:04:08,  1.57it/s]Training 2/3 epoch (loss 0.8097):  38%|███▊      | 3700/9753 [39:33<1:04:08,  1.57it/s]Training 2/3 epoch (loss 0.8097):  38%|███▊      | 3701/9753 [39:33<1:05:44,  1.53it/s]Training 2/3 epoch (loss 0.8221):  38%|███▊      | 3701/9753 [39:33<1:05:44,  1.53it/s]Training 2/3 epoch (loss 0.8221):  38%|███▊      | 3702/9753 [39:33<1:06:45,  1.51it/s]Training 2/3 epoch (loss 0.6757):  38%|███▊      | 3702/9753 [39:34<1:06:45,  1.51it/s]Training 2/3 epoch (loss 0.6757):  38%|███▊      | 3703/9753 [39:34<1:03:59,  1.58it/s]Training 2/3 epoch (loss 0.5175):  38%|███▊      | 3703/9753 [39:35<1:03:59,  1.58it/s]Training 2/3 epoch (loss 0.5175):  38%|███▊      | 3704/9753 [39:35<1:02:05,  1.62it/s]Training 2/3 epoch (loss 0.7770):  38%|███▊      | 3704/9753 [39:35<1:02:05,  1.62it/s]Training 2/3 epoch (loss 0.7770):  38%|███▊      | 3705/9753 [39:35<1:00:37,  1.66it/s]Training 2/3 epoch (loss 0.8348):  38%|███▊      | 3705/9753 [39:36<1:00:37,  1.66it/s]Training 2/3 epoch (loss 0.8348):  38%|███▊      | 3706/9753 [39:36<59:54,  1.68it/s]  Training 2/3 epoch (loss 0.8714):  38%|███▊      | 3706/9753 [39:37<59:54,  1.68it/s]Training 2/3 epoch (loss 0.8714):  38%|███▊      | 3707/9753 [39:37<1:09:21,  1.45it/s]Training 2/3 epoch (loss 0.8242):  38%|███▊      | 3707/9753 [39:37<1:09:21,  1.45it/s]Training 2/3 epoch (loss 0.8242):  38%|███▊      | 3708/9753 [39:37<1:08:39,  1.47it/s]Training 2/3 epoch (loss 0.8411):  38%|███▊      | 3708/9753 [39:38<1:08:39,  1.47it/s]Training 2/3 epoch (loss 0.8411):  38%|███▊      | 3709/9753 [39:38<1:04:52,  1.55it/s]Training 2/3 epoch (loss 0.7515):  38%|███▊      | 3709/9753 [39:39<1:04:52,  1.55it/s]Training 2/3 epoch (loss 0.7515):  38%|███▊      | 3710/9753 [39:39<1:04:13,  1.57it/s]Training 2/3 epoch (loss 0.9317):  38%|███▊      | 3710/9753 [39:39<1:04:13,  1.57it/s]Training 2/3 epoch (loss 0.9317):  38%|███▊      | 3711/9753 [39:39<1:05:48,  1.53it/s]Training 2/3 epoch (loss 0.7374):  38%|███▊      | 3711/9753 [39:40<1:05:48,  1.53it/s]Training 2/3 epoch (loss 0.7374):  38%|███▊      | 3712/9753 [39:40<1:06:51,  1.51it/s]Training 2/3 epoch (loss 0.6693):  38%|███▊      | 3712/9753 [39:40<1:06:51,  1.51it/s]Training 2/3 epoch (loss 0.6693):  38%|███▊      | 3713/9753 [39:40<1:03:32,  1.58it/s]Training 2/3 epoch (loss 0.6287):  38%|███▊      | 3713/9753 [39:41<1:03:32,  1.58it/s]Training 2/3 epoch (loss 0.6287):  38%|███▊      | 3714/9753 [39:41<1:01:28,  1.64it/s]Training 2/3 epoch (loss 0.6769):  38%|███▊      | 3714/9753 [39:42<1:01:28,  1.64it/s]Training 2/3 epoch (loss 0.6769):  38%|███▊      | 3715/9753 [39:42<1:00:23,  1.67it/s]Training 2/3 epoch (loss 0.8216):  38%|███▊      | 3715/9753 [39:42<1:00:23,  1.67it/s]Training 2/3 epoch (loss 0.8216):  38%|███▊      | 3716/9753 [39:42<59:49,  1.68it/s]  Training 2/3 epoch (loss 0.6874):  38%|███▊      | 3716/9753 [39:43<59:49,  1.68it/s]Training 2/3 epoch (loss 0.6874):  38%|███▊      | 3717/9753 [39:43<1:02:15,  1.62it/s]Training 2/3 epoch (loss 0.7398):  38%|███▊      | 3717/9753 [39:44<1:02:15,  1.62it/s]Training 2/3 epoch (loss 0.7398):  38%|███▊      | 3718/9753 [39:44<1:03:51,  1.58it/s]Training 2/3 epoch (loss 0.9111):  38%|███▊      | 3718/9753 [39:44<1:03:51,  1.58it/s]Training 2/3 epoch (loss 0.9111):  38%|███▊      | 3719/9753 [39:44<1:04:54,  1.55it/s]Training 2/3 epoch (loss 0.6400):  38%|███▊      | 3719/9753 [39:45<1:04:54,  1.55it/s]Training 2/3 epoch (loss 0.6400):  38%|███▊      | 3720/9753 [39:45<1:04:03,  1.57it/s]Training 2/3 epoch (loss 0.7474):  38%|███▊      | 3720/9753 [39:45<1:04:03,  1.57it/s]Training 2/3 epoch (loss 0.7474):  38%|███▊      | 3721/9753 [39:45<1:02:39,  1.60it/s]Training 2/3 epoch (loss 0.6138):  38%|███▊      | 3721/9753 [39:46<1:02:39,  1.60it/s]Training 2/3 epoch (loss 0.6138):  38%|███▊      | 3722/9753 [39:46<1:00:24,  1.66it/s]Training 2/3 epoch (loss 0.8693):  38%|███▊      | 3722/9753 [39:47<1:00:24,  1.66it/s]Training 2/3 epoch (loss 0.8693):  38%|███▊      | 3723/9753 [39:47<1:00:35,  1.66it/s]Training 2/3 epoch (loss 0.9436):  38%|███▊      | 3723/9753 [39:47<1:00:35,  1.66it/s]Training 2/3 epoch (loss 0.9436):  38%|███▊      | 3724/9753 [39:47<1:02:24,  1.61it/s]Training 2/3 epoch (loss 0.4988):  38%|███▊      | 3724/9753 [39:48<1:02:24,  1.61it/s]Training 2/3 epoch (loss 0.4988):  38%|███▊      | 3725/9753 [39:48<1:02:15,  1.61it/s]Training 2/3 epoch (loss 0.8537):  38%|███▊      | 3725/9753 [39:48<1:02:15,  1.61it/s]Training 2/3 epoch (loss 0.8537):  38%|███▊      | 3726/9753 [39:48<1:02:14,  1.61it/s]Training 2/3 epoch (loss 0.6872):  38%|███▊      | 3726/9753 [39:49<1:02:14,  1.61it/s]Training 2/3 epoch (loss 0.6872):  38%|███▊      | 3727/9753 [39:49<1:00:01,  1.67it/s]Training 2/3 epoch (loss 0.6456):  38%|███▊      | 3727/9753 [39:50<1:00:01,  1.67it/s]Training 2/3 epoch (loss 0.6456):  38%|███▊      | 3728/9753 [39:50<1:02:29,  1.61it/s]Training 2/3 epoch (loss 0.9981):  38%|███▊      | 3728/9753 [39:50<1:02:29,  1.61it/s]Training 2/3 epoch (loss 0.9981):  38%|███▊      | 3729/9753 [39:50<1:04:34,  1.55it/s]Training 2/3 epoch (loss 0.5775):  38%|███▊      | 3729/9753 [39:51<1:04:34,  1.55it/s]Training 2/3 epoch (loss 0.5775):  38%|███▊      | 3730/9753 [39:51<1:02:12,  1.61it/s]Training 2/3 epoch (loss 0.6643):  38%|███▊      | 3730/9753 [39:51<1:02:12,  1.61it/s]Training 2/3 epoch (loss 0.6643):  38%|███▊      | 3731/9753 [39:51<1:00:04,  1.67it/s]Training 2/3 epoch (loss 0.5722):  38%|███▊      | 3731/9753 [39:52<1:00:04,  1.67it/s]Training 2/3 epoch (loss 0.5722):  38%|███▊      | 3732/9753 [39:52<59:10,  1.70it/s]  Training 2/3 epoch (loss 0.6818):  38%|███▊      | 3732/9753 [39:53<59:10,  1.70it/s]Training 2/3 epoch (loss 0.6818):  38%|███▊      | 3733/9753 [39:53<1:03:07,  1.59it/s]Training 2/3 epoch (loss 0.6787):  38%|███▊      | 3733/9753 [39:53<1:03:07,  1.59it/s]Training 2/3 epoch (loss 0.6787):  38%|███▊      | 3734/9753 [39:53<1:01:16,  1.64it/s]Training 2/3 epoch (loss 0.7252):  38%|███▊      | 3734/9753 [39:54<1:01:16,  1.64it/s]Training 2/3 epoch (loss 0.7252):  38%|███▊      | 3735/9753 [39:54<59:51,  1.68it/s]  Training 2/3 epoch (loss 0.6740):  38%|███▊      | 3735/9753 [39:54<59:51,  1.68it/s]Training 2/3 epoch (loss 0.6740):  38%|███▊      | 3736/9753 [39:54<58:39,  1.71it/s]Training 2/3 epoch (loss 0.6404):  38%|███▊      | 3736/9753 [39:55<58:39,  1.71it/s]Training 2/3 epoch (loss 0.6404):  38%|███▊      | 3737/9753 [39:55<1:02:20,  1.61it/s]Training 2/3 epoch (loss 0.6761):  38%|███▊      | 3737/9753 [39:56<1:02:20,  1.61it/s]Training 2/3 epoch (loss 0.6761):  38%|███▊      | 3738/9753 [39:56<1:00:57,  1.64it/s]Training 2/3 epoch (loss 0.9880):  38%|███▊      | 3738/9753 [39:56<1:00:57,  1.64it/s]Training 2/3 epoch (loss 0.9880):  38%|███▊      | 3739/9753 [39:56<1:00:32,  1.66it/s]Training 2/3 epoch (loss 0.6855):  38%|███▊      | 3739/9753 [39:57<1:00:32,  1.66it/s]Training 2/3 epoch (loss 0.6855):  38%|███▊      | 3740/9753 [39:57<1:01:34,  1.63it/s]Training 2/3 epoch (loss 0.8203):  38%|███▊      | 3740/9753 [39:58<1:01:34,  1.63it/s]Training 2/3 epoch (loss 0.8203):  38%|███▊      | 3741/9753 [39:58<1:02:52,  1.59it/s]Training 2/3 epoch (loss 0.7009):  38%|███▊      | 3741/9753 [39:58<1:02:52,  1.59it/s]Training 2/3 epoch (loss 0.7009):  38%|███▊      | 3742/9753 [39:58<1:01:05,  1.64it/s]Training 2/3 epoch (loss 0.9443):  38%|███▊      | 3742/9753 [39:59<1:01:05,  1.64it/s]Training 2/3 epoch (loss 0.9443):  38%|███▊      | 3743/9753 [39:59<1:00:01,  1.67it/s]Training 2/3 epoch (loss 0.8327):  38%|███▊      | 3743/9753 [40:00<1:00:01,  1.67it/s]Training 2/3 epoch (loss 0.8327):  38%|███▊      | 3744/9753 [40:00<1:11:20,  1.40it/s]Training 2/3 epoch (loss 0.7836):  38%|███▊      | 3744/9753 [40:01<1:11:20,  1.40it/s]Training 2/3 epoch (loss 0.7836):  38%|███▊      | 3745/9753 [40:01<1:12:40,  1.38it/s]Training 2/3 epoch (loss 0.6176):  38%|███▊      | 3745/9753 [40:01<1:12:40,  1.38it/s]Training 2/3 epoch (loss 0.6176):  38%|███▊      | 3746/9753 [40:01<1:07:53,  1.47it/s]Training 2/3 epoch (loss 0.7121):  38%|███▊      | 3746/9753 [40:02<1:07:53,  1.47it/s]Training 2/3 epoch (loss 0.7121):  38%|███▊      | 3747/9753 [40:02<1:04:34,  1.55it/s]Training 2/3 epoch (loss 0.5666):  38%|███▊      | 3747/9753 [40:02<1:04:34,  1.55it/s]Training 2/3 epoch (loss 0.5666):  38%|███▊      | 3748/9753 [40:02<1:05:56,  1.52it/s]Training 2/3 epoch (loss 0.9156):  38%|███▊      | 3748/9753 [40:03<1:05:56,  1.52it/s]Training 2/3 epoch (loss 0.9156):  38%|███▊      | 3749/9753 [40:03<1:03:20,  1.58it/s]Training 2/3 epoch (loss 0.4842):  38%|███▊      | 3749/9753 [40:04<1:03:20,  1.58it/s]Training 2/3 epoch (loss 0.4842):  38%|███▊      | 3750/9753 [40:04<1:01:56,  1.62it/s]Training 2/3 epoch (loss 0.5000):  38%|███▊      | 3750/9753 [40:04<1:01:56,  1.62it/s]Training 2/3 epoch (loss 0.5000):  38%|███▊      | 3751/9753 [40:04<1:00:57,  1.64it/s]Training 2/3 epoch (loss 0.5819):  38%|███▊      | 3751/9753 [40:05<1:00:57,  1.64it/s]Training 2/3 epoch (loss 0.5819):  38%|███▊      | 3752/9753 [40:05<59:56,  1.67it/s]  Training 2/3 epoch (loss 0.7028):  38%|███▊      | 3752/9753 [40:05<59:56,  1.67it/s]Training 2/3 epoch (loss 0.7028):  38%|███▊      | 3753/9753 [40:05<58:50,  1.70it/s]Training 2/3 epoch (loss 0.6031):  38%|███▊      | 3753/9753 [40:06<58:50,  1.70it/s]Training 2/3 epoch (loss 0.6031):  38%|███▊      | 3754/9753 [40:06<58:08,  1.72it/s]Training 2/3 epoch (loss 0.7250):  38%|███▊      | 3754/9753 [40:07<58:08,  1.72it/s]Training 2/3 epoch (loss 0.7250):  39%|███▊      | 3755/9753 [40:07<1:02:05,  1.61it/s]Training 2/3 epoch (loss 0.8672):  39%|███▊      | 3755/9753 [40:07<1:02:05,  1.61it/s]Training 2/3 epoch (loss 0.8672):  39%|███▊      | 3756/9753 [40:07<1:01:57,  1.61it/s]Training 2/3 epoch (loss 0.8121):  39%|███▊      | 3756/9753 [40:08<1:01:57,  1.61it/s]Training 2/3 epoch (loss 0.8121):  39%|███▊      | 3757/9753 [40:08<1:05:10,  1.53it/s]Training 2/3 epoch (loss 0.6260):  39%|███▊      | 3757/9753 [40:08<1:05:10,  1.53it/s]Training 2/3 epoch (loss 0.6260):  39%|███▊      | 3758/9753 [40:08<1:03:58,  1.56it/s]Training 2/3 epoch (loss 0.5948):  39%|███▊      | 3758/9753 [40:09<1:03:58,  1.56it/s]Training 2/3 epoch (loss 0.5948):  39%|███▊      | 3759/9753 [40:09<1:01:30,  1.62it/s]Training 2/3 epoch (loss 0.6116):  39%|███▊      | 3759/9753 [40:10<1:01:30,  1.62it/s]Training 2/3 epoch (loss 0.6116):  39%|███▊      | 3760/9753 [40:10<1:03:59,  1.56it/s]Training 2/3 epoch (loss 0.8092):  39%|███▊      | 3760/9753 [40:10<1:03:59,  1.56it/s]Training 2/3 epoch (loss 0.8092):  39%|███▊      | 3761/9753 [40:10<1:02:24,  1.60it/s]Training 2/3 epoch (loss 0.8608):  39%|███▊      | 3761/9753 [40:11<1:02:24,  1.60it/s]Training 2/3 epoch (loss 0.8608):  39%|███▊      | 3762/9753 [40:11<1:01:39,  1.62it/s]Training 2/3 epoch (loss 0.7514):  39%|███▊      | 3762/9753 [40:11<1:01:39,  1.62it/s]Training 2/3 epoch (loss 0.7514):  39%|███▊      | 3763/9753 [40:11<59:49,  1.67it/s]  Training 2/3 epoch (loss 0.8313):  39%|███▊      | 3763/9753 [40:12<59:49,  1.67it/s]Training 2/3 epoch (loss 0.8313):  39%|███▊      | 3764/9753 [40:12<1:02:47,  1.59it/s]Training 2/3 epoch (loss 0.9200):  39%|███▊      | 3764/9753 [40:13<1:02:47,  1.59it/s]Training 2/3 epoch (loss 0.9200):  39%|███▊      | 3765/9753 [40:13<1:01:11,  1.63it/s]Training 2/3 epoch (loss 0.7025):  39%|███▊      | 3765/9753 [40:13<1:01:11,  1.63it/s]Training 2/3 epoch (loss 0.7025):  39%|███▊      | 3766/9753 [40:13<1:05:02,  1.53it/s]Training 2/3 epoch (loss 0.8238):  39%|███▊      | 3766/9753 [40:14<1:05:02,  1.53it/s]Training 2/3 epoch (loss 0.8238):  39%|███▊      | 3767/9753 [40:14<1:02:38,  1.59it/s]Training 2/3 epoch (loss 0.5537):  39%|███▊      | 3767/9753 [40:15<1:02:38,  1.59it/s]Training 2/3 epoch (loss 0.5537):  39%|███▊      | 3768/9753 [40:15<1:01:05,  1.63it/s]Training 2/3 epoch (loss 0.6093):  39%|███▊      | 3768/9753 [40:15<1:01:05,  1.63it/s]Training 2/3 epoch (loss 0.6093):  39%|███▊      | 3769/9753 [40:15<59:11,  1.68it/s]  Training 2/3 epoch (loss 0.8543):  39%|███▊      | 3769/9753 [40:16<59:11,  1.68it/s]Training 2/3 epoch (loss 0.8543):  39%|███▊      | 3770/9753 [40:16<1:01:38,  1.62it/s]Training 2/3 epoch (loss 0.6992):  39%|███▊      | 3770/9753 [40:17<1:01:38,  1.62it/s]Training 2/3 epoch (loss 0.6992):  39%|███▊      | 3771/9753 [40:17<1:03:57,  1.56it/s]Training 2/3 epoch (loss 0.6758):  39%|███▊      | 3771/9753 [40:17<1:03:57,  1.56it/s]Training 2/3 epoch (loss 0.6758):  39%|███▊      | 3772/9753 [40:17<1:01:35,  1.62it/s]Training 2/3 epoch (loss 0.6759):  39%|███▊      | 3772/9753 [40:18<1:01:35,  1.62it/s]Training 2/3 epoch (loss 0.6759):  39%|███▊      | 3773/9753 [40:18<59:48,  1.67it/s]  Training 2/3 epoch (loss 0.8916):  39%|███▊      | 3773/9753 [40:18<59:48,  1.67it/s]Training 2/3 epoch (loss 0.8916):  39%|███▊      | 3774/9753 [40:18<1:01:25,  1.62it/s]Training 2/3 epoch (loss 0.3930):  39%|███▊      | 3774/9753 [40:19<1:01:25,  1.62it/s]Training 2/3 epoch (loss 0.3930):  39%|███▊      | 3775/9753 [40:19<1:00:27,  1.65it/s]Training 2/3 epoch (loss 0.7348):  39%|███▊      | 3775/9753 [40:20<1:00:27,  1.65it/s]Training 2/3 epoch (loss 0.7348):  39%|███▊      | 3776/9753 [40:20<1:04:45,  1.54it/s]Training 2/3 epoch (loss 0.7473):  39%|███▊      | 3776/9753 [40:20<1:04:45,  1.54it/s]Training 2/3 epoch (loss 0.7473):  39%|███▊      | 3777/9753 [40:20<1:02:54,  1.58it/s]Training 2/3 epoch (loss 0.8591):  39%|███▊      | 3777/9753 [40:21<1:02:54,  1.58it/s]Training 2/3 epoch (loss 0.8591):  39%|███▊      | 3778/9753 [40:21<1:05:26,  1.52it/s]Training 2/3 epoch (loss 0.8187):  39%|███▊      | 3778/9753 [40:22<1:05:26,  1.52it/s]Training 2/3 epoch (loss 0.8187):  39%|███▊      | 3779/9753 [40:22<1:03:24,  1.57it/s]Training 2/3 epoch (loss 0.9037):  39%|███▊      | 3779/9753 [40:22<1:03:24,  1.57it/s]Training 2/3 epoch (loss 0.9037):  39%|███▉      | 3780/9753 [40:22<1:02:19,  1.60it/s]Training 2/3 epoch (loss 0.7052):  39%|███▉      | 3780/9753 [40:23<1:02:19,  1.60it/s]Training 2/3 epoch (loss 0.7052):  39%|███▉      | 3781/9753 [40:23<1:01:17,  1.62it/s]Training 2/3 epoch (loss 0.7193):  39%|███▉      | 3781/9753 [40:23<1:01:17,  1.62it/s]Training 2/3 epoch (loss 0.7193):  39%|███▉      | 3782/9753 [40:23<1:01:44,  1.61it/s]Training 2/3 epoch (loss 0.4711):  39%|███▉      | 3782/9753 [40:24<1:01:44,  1.61it/s]Training 2/3 epoch (loss 0.4711):  39%|███▉      | 3783/9753 [40:24<59:37,  1.67it/s]  Training 2/3 epoch (loss 0.9982):  39%|███▉      | 3783/9753 [40:24<59:37,  1.67it/s]Training 2/3 epoch (loss 0.9982):  39%|███▉      | 3784/9753 [40:24<58:35,  1.70it/s]Training 2/3 epoch (loss 0.9673):  39%|███▉      | 3784/9753 [40:25<58:35,  1.70it/s]Training 2/3 epoch (loss 0.9673):  39%|███▉      | 3785/9753 [40:25<58:10,  1.71it/s]Training 2/3 epoch (loss 0.5358):  39%|███▉      | 3785/9753 [40:26<58:10,  1.71it/s]Training 2/3 epoch (loss 0.5358):  39%|███▉      | 3786/9753 [40:26<57:03,  1.74it/s]Training 2/3 epoch (loss 0.6332):  39%|███▉      | 3786/9753 [40:26<57:03,  1.74it/s]Training 2/3 epoch (loss 0.6332):  39%|███▉      | 3787/9753 [40:26<56:21,  1.76it/s]Training 2/3 epoch (loss 0.7779):  39%|███▉      | 3787/9753 [40:27<56:21,  1.76it/s]Training 2/3 epoch (loss 0.7779):  39%|███▉      | 3788/9753 [40:27<57:59,  1.71it/s]Training 2/3 epoch (loss 0.6041):  39%|███▉      | 3788/9753 [40:27<57:59,  1.71it/s]Training 2/3 epoch (loss 0.6041):  39%|███▉      | 3789/9753 [40:27<57:04,  1.74it/s]Training 2/3 epoch (loss 0.8547):  39%|███▉      | 3789/9753 [40:28<57:04,  1.74it/s]Training 2/3 epoch (loss 0.8547):  39%|███▉      | 3790/9753 [40:28<59:55,  1.66it/s]Training 2/3 epoch (loss 0.7271):  39%|███▉      | 3790/9753 [40:29<59:55,  1.66it/s]Training 2/3 epoch (loss 0.7271):  39%|███▉      | 3791/9753 [40:29<1:03:09,  1.57it/s]Training 2/3 epoch (loss 0.4362):  39%|███▉      | 3791/9753 [40:29<1:03:09,  1.57it/s]Training 2/3 epoch (loss 0.4362):  39%|███▉      | 3792/9753 [40:29<1:05:43,  1.51it/s]Training 2/3 epoch (loss 0.7102):  39%|███▉      | 3792/9753 [40:30<1:05:43,  1.51it/s]Training 2/3 epoch (loss 0.7102):  39%|███▉      | 3793/9753 [40:30<1:02:54,  1.58it/s]Training 2/3 epoch (loss 0.6473):  39%|███▉      | 3793/9753 [40:31<1:02:54,  1.58it/s]Training 2/3 epoch (loss 0.6473):  39%|███▉      | 3794/9753 [40:31<1:01:22,  1.62it/s]Training 2/3 epoch (loss 0.5635):  39%|███▉      | 3794/9753 [40:31<1:01:22,  1.62it/s]Training 2/3 epoch (loss 0.5635):  39%|███▉      | 3795/9753 [40:31<1:06:54,  1.48it/s]Training 2/3 epoch (loss 0.7322):  39%|███▉      | 3795/9753 [40:32<1:06:54,  1.48it/s]Training 2/3 epoch (loss 0.7322):  39%|███▉      | 3796/9753 [40:32<1:08:54,  1.44it/s]Training 2/3 epoch (loss 0.5809):  39%|███▉      | 3796/9753 [40:33<1:08:54,  1.44it/s]Training 2/3 epoch (loss 0.5809):  39%|███▉      | 3797/9753 [40:33<1:05:17,  1.52it/s]Training 2/3 epoch (loss 0.7189):  39%|███▉      | 3797/9753 [40:33<1:05:17,  1.52it/s]Training 2/3 epoch (loss 0.7189):  39%|███▉      | 3798/9753 [40:33<1:02:12,  1.60it/s]Training 2/3 epoch (loss 0.6415):  39%|███▉      | 3798/9753 [40:34<1:02:12,  1.60it/s]Training 2/3 epoch (loss 0.6415):  39%|███▉      | 3799/9753 [40:34<1:00:35,  1.64it/s]Training 2/3 epoch (loss 0.7321):  39%|███▉      | 3799/9753 [40:34<1:00:35,  1.64it/s]Training 2/3 epoch (loss 0.7321):  39%|███▉      | 3800/9753 [40:34<1:01:49,  1.60it/s]Training 2/3 epoch (loss 0.5483):  39%|███▉      | 3800/9753 [40:35<1:01:49,  1.60it/s]Training 2/3 epoch (loss 0.5483):  39%|███▉      | 3801/9753 [40:35<59:33,  1.67it/s]  Training 2/3 epoch (loss 0.7829):  39%|███▉      | 3801/9753 [40:36<59:33,  1.67it/s]Training 2/3 epoch (loss 0.7829):  39%|███▉      | 3802/9753 [40:36<1:02:34,  1.59it/s]Training 2/3 epoch (loss 0.5965):  39%|███▉      | 3802/9753 [40:36<1:02:34,  1.59it/s]Training 2/3 epoch (loss 0.5965):  39%|███▉      | 3803/9753 [40:36<1:01:01,  1.63it/s]Training 2/3 epoch (loss 0.8813):  39%|███▉      | 3803/9753 [40:37<1:01:01,  1.63it/s]Training 2/3 epoch (loss 0.8813):  39%|███▉      | 3804/9753 [40:37<58:58,  1.68it/s]  Training 2/3 epoch (loss 0.6315):  39%|███▉      | 3804/9753 [40:37<58:58,  1.68it/s]Training 2/3 epoch (loss 0.6315):  39%|███▉      | 3805/9753 [40:37<58:18,  1.70it/s]Training 2/3 epoch (loss 0.7417):  39%|███▉      | 3805/9753 [40:38<58:18,  1.70it/s]Training 2/3 epoch (loss 0.7417):  39%|███▉      | 3806/9753 [40:38<1:00:17,  1.64it/s]Training 2/3 epoch (loss 1.0876):  39%|███▉      | 3806/9753 [40:39<1:00:17,  1.64it/s]Training 2/3 epoch (loss 1.0876):  39%|███▉      | 3807/9753 [40:39<59:10,  1.67it/s]  Training 2/3 epoch (loss 0.7206):  39%|███▉      | 3807/9753 [40:39<59:10,  1.67it/s]Training 2/3 epoch (loss 0.7206):  39%|███▉      | 3808/9753 [40:39<1:02:43,  1.58it/s]Training 2/3 epoch (loss 0.8779):  39%|███▉      | 3808/9753 [40:40<1:02:43,  1.58it/s]Training 2/3 epoch (loss 0.8779):  39%|███▉      | 3809/9753 [40:40<1:01:00,  1.62it/s]Training 2/3 epoch (loss 0.5701):  39%|███▉      | 3809/9753 [40:41<1:01:00,  1.62it/s]Training 2/3 epoch (loss 0.5701):  39%|███▉      | 3810/9753 [40:41<59:51,  1.65it/s]  Training 2/3 epoch (loss 0.7957):  39%|███▉      | 3810/9753 [40:41<59:51,  1.65it/s]Training 2/3 epoch (loss 0.7957):  39%|███▉      | 3811/9753 [40:41<58:22,  1.70it/s]Training 2/3 epoch (loss 0.6703):  39%|███▉      | 3811/9753 [40:42<58:22,  1.70it/s]Training 2/3 epoch (loss 0.6703):  39%|███▉      | 3812/9753 [40:42<57:11,  1.73it/s]Training 2/3 epoch (loss 0.9271):  39%|███▉      | 3812/9753 [40:42<57:11,  1.73it/s]Training 2/3 epoch (loss 0.9271):  39%|███▉      | 3813/9753 [40:42<57:41,  1.72it/s]Training 2/3 epoch (loss 0.7750):  39%|███▉      | 3813/9753 [40:43<57:41,  1.72it/s]Training 2/3 epoch (loss 0.7750):  39%|███▉      | 3814/9753 [40:43<56:41,  1.75it/s]Training 2/3 epoch (loss 0.6559):  39%|███▉      | 3814/9753 [40:43<56:41,  1.75it/s]Training 2/3 epoch (loss 0.6559):  39%|███▉      | 3815/9753 [40:43<56:49,  1.74it/s]Training 2/3 epoch (loss 0.6868):  39%|███▉      | 3815/9753 [40:44<56:49,  1.74it/s]Training 2/3 epoch (loss 0.6868):  39%|███▉      | 3816/9753 [40:44<56:15,  1.76it/s]Training 2/3 epoch (loss 0.6249):  39%|███▉      | 3816/9753 [40:45<56:15,  1.76it/s]Training 2/3 epoch (loss 0.6249):  39%|███▉      | 3817/9753 [40:45<57:57,  1.71it/s]Training 2/3 epoch (loss 0.8048):  39%|███▉      | 3817/9753 [40:45<57:57,  1.71it/s]Training 2/3 epoch (loss 0.8048):  39%|███▉      | 3818/9753 [40:45<57:15,  1.73it/s]Training 2/3 epoch (loss 0.7967):  39%|███▉      | 3818/9753 [40:46<57:15,  1.73it/s]Training 2/3 epoch (loss 0.7967):  39%|███▉      | 3819/9753 [40:46<1:05:01,  1.52it/s]Training 2/3 epoch (loss 0.7794):  39%|███▉      | 3819/9753 [40:47<1:05:01,  1.52it/s]Training 2/3 epoch (loss 0.7794):  39%|███▉      | 3820/9753 [40:47<1:02:02,  1.59it/s]Training 2/3 epoch (loss 0.5919):  39%|███▉      | 3820/9753 [40:47<1:02:02,  1.59it/s]Training 2/3 epoch (loss 0.5919):  39%|███▉      | 3821/9753 [40:47<59:54,  1.65it/s]  Training 2/3 epoch (loss 0.9598):  39%|███▉      | 3821/9753 [40:48<59:54,  1.65it/s]Training 2/3 epoch (loss 0.9598):  39%|███▉      | 3822/9753 [40:48<1:06:43,  1.48it/s]Training 2/3 epoch (loss 0.8439):  39%|███▉      | 3822/9753 [40:48<1:06:43,  1.48it/s]Training 2/3 epoch (loss 0.8439):  39%|███▉      | 3823/9753 [40:48<1:03:31,  1.56it/s]Training 2/3 epoch (loss 0.6693):  39%|███▉      | 3823/9753 [40:49<1:03:31,  1.56it/s]Training 2/3 epoch (loss 0.6693):  39%|███▉      | 3824/9753 [40:49<1:04:38,  1.53it/s]Training 2/3 epoch (loss 0.6442):  39%|███▉      | 3824/9753 [40:50<1:04:38,  1.53it/s]Training 2/3 epoch (loss 0.6442):  39%|███▉      | 3825/9753 [40:50<1:01:41,  1.60it/s]Training 2/3 epoch (loss 0.6089):  39%|███▉      | 3825/9753 [40:51<1:01:41,  1.60it/s]Training 2/3 epoch (loss 0.6089):  39%|███▉      | 3826/9753 [40:51<1:09:56,  1.41it/s]Training 2/3 epoch (loss 0.6016):  39%|███▉      | 3826/9753 [40:51<1:09:56,  1.41it/s]Training 2/3 epoch (loss 0.6016):  39%|███▉      | 3827/9753 [40:51<1:06:28,  1.49it/s]Training 2/3 epoch (loss 0.6273):  39%|███▉      | 3827/9753 [40:52<1:06:28,  1.49it/s]Training 2/3 epoch (loss 0.6273):  39%|███▉      | 3828/9753 [40:52<1:06:10,  1.49it/s]Training 2/3 epoch (loss 0.7471):  39%|███▉      | 3828/9753 [40:53<1:06:10,  1.49it/s]Training 2/3 epoch (loss 0.7471):  39%|███▉      | 3829/9753 [40:53<1:05:57,  1.50it/s]Training 2/3 epoch (loss 0.4955):  39%|███▉      | 3829/9753 [40:53<1:05:57,  1.50it/s]Training 2/3 epoch (loss 0.4955):  39%|███▉      | 3830/9753 [40:53<1:03:11,  1.56it/s]Training 2/3 epoch (loss 0.7340):  39%|███▉      | 3830/9753 [40:54<1:03:11,  1.56it/s]Training 2/3 epoch (loss 0.7340):  39%|███▉      | 3831/9753 [40:54<1:00:55,  1.62it/s]Training 2/3 epoch (loss 0.5473):  39%|███▉      | 3831/9753 [40:54<1:00:55,  1.62it/s]Training 2/3 epoch (loss 0.5473):  39%|███▉      | 3832/9753 [40:54<59:20,  1.66it/s]  Training 2/3 epoch (loss 0.7480):  39%|███▉      | 3832/9753 [40:55<59:20,  1.66it/s]Training 2/3 epoch (loss 0.7480):  39%|███▉      | 3833/9753 [40:55<58:38,  1.68it/s]Training 2/3 epoch (loss 0.7514):  39%|███▉      | 3833/9753 [40:55<58:38,  1.68it/s]Training 2/3 epoch (loss 0.7514):  39%|███▉      | 3834/9753 [40:55<58:33,  1.68it/s]Training 2/3 epoch (loss 0.7616):  39%|███▉      | 3834/9753 [40:56<58:33,  1.68it/s]Training 2/3 epoch (loss 0.7616):  39%|███▉      | 3835/9753 [40:56<58:01,  1.70it/s]Training 2/3 epoch (loss 0.8238):  39%|███▉      | 3835/9753 [40:57<58:01,  1.70it/s]Training 2/3 epoch (loss 0.8238):  39%|███▉      | 3836/9753 [40:57<57:16,  1.72it/s]Training 2/3 epoch (loss 0.5110):  39%|███▉      | 3836/9753 [40:57<57:16,  1.72it/s]Training 2/3 epoch (loss 0.5110):  39%|███▉      | 3837/9753 [40:57<57:37,  1.71it/s]Training 2/3 epoch (loss 0.8070):  39%|███▉      | 3837/9753 [40:58<57:37,  1.71it/s]Training 2/3 epoch (loss 0.8070):  39%|███▉      | 3838/9753 [40:58<57:43,  1.71it/s]Training 2/3 epoch (loss 0.5186):  39%|███▉      | 3838/9753 [40:58<57:43,  1.71it/s]Training 2/3 epoch (loss 0.5186):  39%|███▉      | 3839/9753 [40:58<56:32,  1.74it/s]Training 2/3 epoch (loss 0.6890):  39%|███▉      | 3839/9753 [40:59<56:32,  1.74it/s]Training 2/3 epoch (loss 0.6890):  39%|███▉      | 3840/9753 [40:59<59:46,  1.65it/s]Training 2/3 epoch (loss 0.5096):  39%|███▉      | 3840/9753 [41:00<59:46,  1.65it/s]Training 2/3 epoch (loss 0.5096):  39%|███▉      | 3841/9753 [41:00<58:16,  1.69it/s]Training 2/3 epoch (loss 0.6669):  39%|███▉      | 3841/9753 [41:00<58:16,  1.69it/s]Training 2/3 epoch (loss 0.6669):  39%|███▉      | 3842/9753 [41:00<57:02,  1.73it/s]Training 2/3 epoch (loss 0.6407):  39%|███▉      | 3842/9753 [41:01<57:02,  1.73it/s]Training 2/3 epoch (loss 0.6407):  39%|███▉      | 3843/9753 [41:01<56:09,  1.75it/s]Training 2/3 epoch (loss 0.8290):  39%|███▉      | 3843/9753 [41:01<56:09,  1.75it/s]Training 2/3 epoch (loss 0.8290):  39%|███▉      | 3844/9753 [41:01<55:41,  1.77it/s]Training 2/3 epoch (loss 0.6023):  39%|███▉      | 3844/9753 [41:02<55:41,  1.77it/s]Training 2/3 epoch (loss 0.6023):  39%|███▉      | 3845/9753 [41:02<55:07,  1.79it/s]Training 2/3 epoch (loss 0.6634):  39%|███▉      | 3845/9753 [41:02<55:07,  1.79it/s]Training 2/3 epoch (loss 0.6634):  39%|███▉      | 3846/9753 [41:02<57:28,  1.71it/s]Training 2/3 epoch (loss 0.8106):  39%|███▉      | 3846/9753 [41:03<57:28,  1.71it/s]Training 2/3 epoch (loss 0.8106):  39%|███▉      | 3847/9753 [41:03<57:01,  1.73it/s]Training 2/3 epoch (loss 0.9354):  39%|███▉      | 3847/9753 [41:03<57:01,  1.73it/s]Training 2/3 epoch (loss 0.9354):  39%|███▉      | 3848/9753 [41:03<56:02,  1.76it/s]Training 2/3 epoch (loss 0.6533):  39%|███▉      | 3848/9753 [41:04<56:02,  1.76it/s]Training 2/3 epoch (loss 0.6533):  39%|███▉      | 3849/9753 [41:04<55:29,  1.77it/s]Training 2/3 epoch (loss 0.6786):  39%|███▉      | 3849/9753 [41:05<55:29,  1.77it/s]Training 2/3 epoch (loss 0.6786):  39%|███▉      | 3850/9753 [41:05<57:17,  1.72it/s]Training 2/3 epoch (loss 0.5405):  39%|███▉      | 3850/9753 [41:05<57:17,  1.72it/s]Training 2/3 epoch (loss 0.5405):  39%|███▉      | 3851/9753 [41:05<56:43,  1.73it/s]Training 2/3 epoch (loss 0.6210):  39%|███▉      | 3851/9753 [41:06<56:43,  1.73it/s]Training 2/3 epoch (loss 0.6210):  39%|███▉      | 3852/9753 [41:06<58:05,  1.69it/s]Training 2/3 epoch (loss 0.6677):  39%|███▉      | 3852/9753 [41:06<58:05,  1.69it/s]Training 2/3 epoch (loss 0.6677):  40%|███▉      | 3853/9753 [41:06<58:02,  1.69it/s]Training 2/3 epoch (loss 0.6534):  40%|███▉      | 3853/9753 [41:07<58:02,  1.69it/s]Training 2/3 epoch (loss 0.6534):  40%|███▉      | 3854/9753 [41:07<56:43,  1.73it/s]Training 2/3 epoch (loss 0.7347):  40%|███▉      | 3854/9753 [41:08<56:43,  1.73it/s]Training 2/3 epoch (loss 0.7347):  40%|███▉      | 3855/9753 [41:08<57:36,  1.71it/s]Training 2/3 epoch (loss 0.7243):  40%|███▉      | 3855/9753 [41:08<57:36,  1.71it/s]Training 2/3 epoch (loss 0.7243):  40%|███▉      | 3856/9753 [41:08<1:03:02,  1.56it/s]Training 2/3 epoch (loss 0.7499):  40%|███▉      | 3856/9753 [41:09<1:03:02,  1.56it/s]Training 2/3 epoch (loss 0.7499):  40%|███▉      | 3857/9753 [41:09<1:01:13,  1.61it/s]Training 2/3 epoch (loss 0.7319):  40%|███▉      | 3857/9753 [41:10<1:01:13,  1.61it/s]Training 2/3 epoch (loss 0.7319):  40%|███▉      | 3858/9753 [41:10<1:01:05,  1.61it/s]Training 2/3 epoch (loss 0.7496):  40%|███▉      | 3858/9753 [41:10<1:01:05,  1.61it/s]Training 2/3 epoch (loss 0.7496):  40%|███▉      | 3859/9753 [41:10<1:05:37,  1.50it/s]Training 2/3 epoch (loss 0.8839):  40%|███▉      | 3859/9753 [41:11<1:05:37,  1.50it/s]Training 2/3 epoch (loss 0.8839):  40%|███▉      | 3860/9753 [41:11<1:02:39,  1.57it/s]Training 2/3 epoch (loss 0.8265):  40%|███▉      | 3860/9753 [41:11<1:02:39,  1.57it/s]Training 2/3 epoch (loss 0.8265):  40%|███▉      | 3861/9753 [41:11<1:00:53,  1.61it/s]Training 2/3 epoch (loss 0.5656):  40%|███▉      | 3861/9753 [41:12<1:00:53,  1.61it/s]Training 2/3 epoch (loss 0.5656):  40%|███▉      | 3862/9753 [41:12<1:00:14,  1.63it/s]Training 2/3 epoch (loss 0.8805):  40%|███▉      | 3862/9753 [41:13<1:00:14,  1.63it/s]Training 2/3 epoch (loss 0.8805):  40%|███▉      | 3863/9753 [41:13<1:00:18,  1.63it/s]Training 2/3 epoch (loss 0.7762):  40%|███▉      | 3863/9753 [41:13<1:00:18,  1.63it/s]Training 2/3 epoch (loss 0.7762):  40%|███▉      | 3864/9753 [41:13<1:01:36,  1.59it/s]Training 2/3 epoch (loss 0.3807):  40%|███▉      | 3864/9753 [41:14<1:01:36,  1.59it/s]Training 2/3 epoch (loss 0.3807):  40%|███▉      | 3865/9753 [41:14<59:07,  1.66it/s]  Training 2/3 epoch (loss 0.8448):  40%|███▉      | 3865/9753 [41:14<59:07,  1.66it/s]Training 2/3 epoch (loss 0.8448):  40%|███▉      | 3866/9753 [41:14<58:19,  1.68it/s]Training 2/3 epoch (loss 0.5995):  40%|███▉      | 3866/9753 [41:15<58:19,  1.68it/s]Training 2/3 epoch (loss 0.5995):  40%|███▉      | 3867/9753 [41:15<56:55,  1.72it/s]Training 2/3 epoch (loss 0.5734):  40%|███▉      | 3867/9753 [41:16<56:55,  1.72it/s]Training 2/3 epoch (loss 0.5734):  40%|███▉      | 3868/9753 [41:16<56:45,  1.73it/s]Training 2/3 epoch (loss 0.6410):  40%|███▉      | 3868/9753 [41:16<56:45,  1.73it/s]Training 2/3 epoch (loss 0.6410):  40%|███▉      | 3869/9753 [41:16<55:53,  1.75it/s]Training 2/3 epoch (loss 0.7952):  40%|███▉      | 3869/9753 [41:17<55:53,  1.75it/s]Training 2/3 epoch (loss 0.7952):  40%|███▉      | 3870/9753 [41:17<55:11,  1.78it/s]Training 2/3 epoch (loss 0.5465):  40%|███▉      | 3870/9753 [41:17<55:11,  1.78it/s]Training 2/3 epoch (loss 0.5465):  40%|███▉      | 3871/9753 [41:17<57:35,  1.70it/s]Training 2/3 epoch (loss 0.8070):  40%|███▉      | 3871/9753 [41:18<57:35,  1.70it/s]Training 2/3 epoch (loss 0.8070):  40%|███▉      | 3872/9753 [41:18<1:01:56,  1.58it/s]Training 2/3 epoch (loss 0.6894):  40%|███▉      | 3872/9753 [41:19<1:01:56,  1.58it/s]Training 2/3 epoch (loss 0.6894):  40%|███▉      | 3873/9753 [41:19<1:02:26,  1.57it/s]Training 2/3 epoch (loss 0.7091):  40%|███▉      | 3873/9753 [41:19<1:02:26,  1.57it/s]Training 2/3 epoch (loss 0.7091):  40%|███▉      | 3874/9753 [41:19<1:01:03,  1.60it/s]Training 2/3 epoch (loss 0.6150):  40%|███▉      | 3874/9753 [41:20<1:01:03,  1.60it/s]Training 2/3 epoch (loss 0.6150):  40%|███▉      | 3875/9753 [41:20<59:40,  1.64it/s]  Training 2/3 epoch (loss 0.8833):  40%|███▉      | 3875/9753 [41:21<59:40,  1.64it/s]Training 2/3 epoch (loss 0.8833):  40%|███▉      | 3876/9753 [41:21<1:02:32,  1.57it/s]Training 2/3 epoch (loss 0.8857):  40%|███▉      | 3876/9753 [41:21<1:02:32,  1.57it/s]Training 2/3 epoch (loss 0.8857):  40%|███▉      | 3877/9753 [41:21<1:04:51,  1.51it/s]Training 2/3 epoch (loss 0.6773):  40%|███▉      | 3877/9753 [41:22<1:04:51,  1.51it/s]Training 2/3 epoch (loss 0.6773):  40%|███▉      | 3878/9753 [41:22<1:02:07,  1.58it/s]Training 2/3 epoch (loss 0.5340):  40%|███▉      | 3878/9753 [41:22<1:02:07,  1.58it/s]Training 2/3 epoch (loss 0.5340):  40%|███▉      | 3879/9753 [41:22<59:30,  1.65it/s]  Training 2/3 epoch (loss 0.7031):  40%|███▉      | 3879/9753 [41:23<59:30,  1.65it/s]Training 2/3 epoch (loss 0.7031):  40%|███▉      | 3880/9753 [41:23<57:45,  1.69it/s]Training 2/3 epoch (loss 0.7505):  40%|███▉      | 3880/9753 [41:24<57:45,  1.69it/s]Training 2/3 epoch (loss 0.7505):  40%|███▉      | 3881/9753 [41:24<56:36,  1.73it/s]Training 2/3 epoch (loss 0.7835):  40%|███▉      | 3881/9753 [41:24<56:36,  1.73it/s]Training 2/3 epoch (loss 0.7835):  40%|███▉      | 3882/9753 [41:24<55:47,  1.75it/s]Training 2/3 epoch (loss 0.5137):  40%|███▉      | 3882/9753 [41:25<55:47,  1.75it/s]Training 2/3 epoch (loss 0.5137):  40%|███▉      | 3883/9753 [41:25<58:52,  1.66it/s]Training 2/3 epoch (loss 0.6550):  40%|███▉      | 3883/9753 [41:25<58:52,  1.66it/s]Training 2/3 epoch (loss 0.6550):  40%|███▉      | 3884/9753 [41:25<57:57,  1.69it/s]Training 2/3 epoch (loss 0.5872):  40%|███▉      | 3884/9753 [41:26<57:57,  1.69it/s]Training 2/3 epoch (loss 0.5872):  40%|███▉      | 3885/9753 [41:26<58:08,  1.68it/s]Training 2/3 epoch (loss 0.6942):  40%|███▉      | 3885/9753 [41:26<58:08,  1.68it/s]Training 2/3 epoch (loss 0.6942):  40%|███▉      | 3886/9753 [41:26<57:18,  1.71it/s]Training 2/3 epoch (loss 0.6808):  40%|███▉      | 3886/9753 [41:27<57:18,  1.71it/s]Training 2/3 epoch (loss 0.6808):  40%|███▉      | 3887/9753 [41:27<56:31,  1.73it/s]Training 2/3 epoch (loss 0.5588):  40%|███▉      | 3887/9753 [41:28<56:31,  1.73it/s]Training 2/3 epoch (loss 0.5588):  40%|███▉      | 3888/9753 [41:28<1:00:04,  1.63it/s]Training 2/3 epoch (loss 0.7736):  40%|███▉      | 3888/9753 [41:28<1:00:04,  1.63it/s]Training 2/3 epoch (loss 0.7736):  40%|███▉      | 3889/9753 [41:28<59:34,  1.64it/s]  Training 2/3 epoch (loss 0.8683):  40%|███▉      | 3889/9753 [41:29<59:34,  1.64it/s]Training 2/3 epoch (loss 0.8683):  40%|███▉      | 3890/9753 [41:29<1:00:20,  1.62it/s]Training 2/3 epoch (loss 0.7711):  40%|███▉      | 3890/9753 [41:30<1:00:20,  1.62it/s]Training 2/3 epoch (loss 0.7711):  40%|███▉      | 3891/9753 [41:30<1:03:29,  1.54it/s]Training 2/3 epoch (loss 0.8061):  40%|███▉      | 3891/9753 [41:30<1:03:29,  1.54it/s]Training 2/3 epoch (loss 0.8061):  40%|███▉      | 3892/9753 [41:30<1:01:52,  1.58it/s]Training 2/3 epoch (loss 0.6436):  40%|███▉      | 3892/9753 [41:31<1:01:52,  1.58it/s]Training 2/3 epoch (loss 0.6436):  40%|███▉      | 3893/9753 [41:31<59:28,  1.64it/s]  Training 2/3 epoch (loss 0.6456):  40%|███▉      | 3893/9753 [41:31<59:28,  1.64it/s]Training 2/3 epoch (loss 0.6456):  40%|███▉      | 3894/9753 [41:31<57:46,  1.69it/s]Training 2/3 epoch (loss 0.6381):  40%|███▉      | 3894/9753 [41:32<57:46,  1.69it/s]Training 2/3 epoch (loss 0.6381):  40%|███▉      | 3895/9753 [41:32<59:15,  1.65it/s]Training 2/3 epoch (loss 0.6393):  40%|███▉      | 3895/9753 [41:33<59:15,  1.65it/s]Training 2/3 epoch (loss 0.6393):  40%|███▉      | 3896/9753 [41:33<1:05:51,  1.48it/s]Training 2/3 epoch (loss 0.9050):  40%|███▉      | 3896/9753 [41:33<1:05:51,  1.48it/s]Training 2/3 epoch (loss 0.9050):  40%|███▉      | 3897/9753 [41:33<1:04:43,  1.51it/s]Training 2/3 epoch (loss 0.8364):  40%|███▉      | 3897/9753 [41:34<1:04:43,  1.51it/s]Training 2/3 epoch (loss 0.8364):  40%|███▉      | 3898/9753 [41:34<1:06:28,  1.47it/s]Training 2/3 epoch (loss 0.7105):  40%|███▉      | 3898/9753 [41:35<1:06:28,  1.47it/s]Training 2/3 epoch (loss 0.7105):  40%|███▉      | 3899/9753 [41:35<1:03:00,  1.55it/s]Training 2/3 epoch (loss 0.5849):  40%|███▉      | 3899/9753 [41:35<1:03:00,  1.55it/s]Training 2/3 epoch (loss 0.5849):  40%|███▉      | 3900/9753 [41:35<1:00:34,  1.61it/s]Training 2/3 epoch (loss 0.6804):  40%|███▉      | 3900/9753 [41:36<1:00:34,  1.61it/s]Training 2/3 epoch (loss 0.6804):  40%|███▉      | 3901/9753 [41:36<1:00:11,  1.62it/s]Training 2/3 epoch (loss 0.7506):  40%|███▉      | 3901/9753 [41:37<1:00:11,  1.62it/s]Training 2/3 epoch (loss 0.7506):  40%|████      | 3902/9753 [41:37<1:01:02,  1.60it/s]Training 2/3 epoch (loss 0.4867):  40%|████      | 3902/9753 [41:37<1:01:02,  1.60it/s]Training 2/3 epoch (loss 0.4867):  40%|████      | 3903/9753 [41:37<59:21,  1.64it/s]  Training 2/3 epoch (loss 0.6322):  40%|████      | 3903/9753 [41:38<59:21,  1.64it/s]Training 2/3 epoch (loss 0.6322):  40%|████      | 3904/9753 [41:38<1:01:33,  1.58it/s]Training 2/3 epoch (loss 0.5791):  40%|████      | 3904/9753 [41:38<1:01:33,  1.58it/s]Training 2/3 epoch (loss 0.5791):  40%|████      | 3905/9753 [41:38<59:20,  1.64it/s]  Training 2/3 epoch (loss 0.5969):  40%|████      | 3905/9753 [41:39<59:20,  1.64it/s]Training 2/3 epoch (loss 0.5969):  40%|████      | 3906/9753 [41:39<57:36,  1.69it/s]Training 2/3 epoch (loss 0.5910):  40%|████      | 3906/9753 [41:40<57:36,  1.69it/s]Training 2/3 epoch (loss 0.5910):  40%|████      | 3907/9753 [41:40<1:00:55,  1.60it/s]Training 2/3 epoch (loss 0.7670):  40%|████      | 3907/9753 [41:40<1:00:55,  1.60it/s]Training 2/3 epoch (loss 0.7670):  40%|████      | 3908/9753 [41:40<59:36,  1.63it/s]  Training 2/3 epoch (loss 0.6167):  40%|████      | 3908/9753 [41:41<59:36,  1.63it/s]Training 2/3 epoch (loss 0.6167):  40%|████      | 3909/9753 [41:41<57:41,  1.69it/s]Training 2/3 epoch (loss 0.5262):  40%|████      | 3909/9753 [41:41<57:41,  1.69it/s]Training 2/3 epoch (loss 0.5262):  40%|████      | 3910/9753 [41:41<56:19,  1.73it/s]Training 2/3 epoch (loss 0.5123):  40%|████      | 3910/9753 [41:42<56:19,  1.73it/s]Training 2/3 epoch (loss 0.5123):  40%|████      | 3911/9753 [41:42<55:19,  1.76it/s]Training 2/3 epoch (loss 1.0136):  40%|████      | 3911/9753 [41:42<55:19,  1.76it/s]Training 2/3 epoch (loss 1.0136):  40%|████      | 3912/9753 [41:42<55:11,  1.76it/s]Training 2/3 epoch (loss 0.6824):  40%|████      | 3912/9753 [41:43<55:11,  1.76it/s]Training 2/3 epoch (loss 0.6824):  40%|████      | 3913/9753 [41:43<54:48,  1.78it/s]Training 2/3 epoch (loss 0.6550):  40%|████      | 3913/9753 [41:44<54:48,  1.78it/s]Training 2/3 epoch (loss 0.6550):  40%|████      | 3914/9753 [41:44<54:32,  1.78it/s]Training 2/3 epoch (loss 0.8704):  40%|████      | 3914/9753 [41:44<54:32,  1.78it/s]Training 2/3 epoch (loss 0.8704):  40%|████      | 3915/9753 [41:44<56:55,  1.71it/s]Training 2/3 epoch (loss 0.7777):  40%|████      | 3915/9753 [41:45<56:55,  1.71it/s]Training 2/3 epoch (loss 0.7777):  40%|████      | 3916/9753 [41:45<56:12,  1.73it/s]Training 2/3 epoch (loss 0.5003):  40%|████      | 3916/9753 [41:45<56:12,  1.73it/s]Training 2/3 epoch (loss 0.5003):  40%|████      | 3917/9753 [41:45<55:18,  1.76it/s]Training 2/3 epoch (loss 0.5010):  40%|████      | 3917/9753 [41:46<55:18,  1.76it/s]Training 2/3 epoch (loss 0.5010):  40%|████      | 3918/9753 [41:46<54:57,  1.77it/s]Training 2/3 epoch (loss 0.9679):  40%|████      | 3918/9753 [41:47<54:57,  1.77it/s]Training 2/3 epoch (loss 0.9679):  40%|████      | 3919/9753 [41:47<58:07,  1.67it/s]Training 2/3 epoch (loss 0.8569):  40%|████      | 3919/9753 [41:47<58:07,  1.67it/s]Training 2/3 epoch (loss 0.8569):  40%|████      | 3920/9753 [41:47<1:01:47,  1.57it/s]Training 2/3 epoch (loss 0.6841):  40%|████      | 3920/9753 [41:48<1:01:47,  1.57it/s]Training 2/3 epoch (loss 0.6841):  40%|████      | 3921/9753 [41:48<59:44,  1.63it/s]  Training 2/3 epoch (loss 0.8424):  40%|████      | 3921/9753 [41:48<59:44,  1.63it/s]Training 2/3 epoch (loss 0.8424):  40%|████      | 3922/9753 [41:48<1:00:28,  1.61it/s]Training 2/3 epoch (loss 0.7616):  40%|████      | 3922/9753 [41:49<1:00:28,  1.61it/s]Training 2/3 epoch (loss 0.7616):  40%|████      | 3923/9753 [41:49<58:44,  1.65it/s]  Training 2/3 epoch (loss 0.7795):  40%|████      | 3923/9753 [41:50<58:44,  1.65it/s]Training 2/3 epoch (loss 0.7795):  40%|████      | 3924/9753 [41:50<1:00:28,  1.61it/s]Training 2/3 epoch (loss 0.7283):  40%|████      | 3924/9753 [41:50<1:00:28,  1.61it/s]Training 2/3 epoch (loss 0.7283):  40%|████      | 3925/9753 [41:50<58:24,  1.66it/s]  Training 2/3 epoch (loss 0.7321):  40%|████      | 3925/9753 [41:51<58:24,  1.66it/s]Training 2/3 epoch (loss 0.7321):  40%|████      | 3926/9753 [41:51<59:12,  1.64it/s]Training 2/3 epoch (loss 0.7606):  40%|████      | 3926/9753 [41:52<59:12,  1.64it/s]Training 2/3 epoch (loss 0.7606):  40%|████      | 3927/9753 [41:52<59:45,  1.62it/s]Training 2/3 epoch (loss 0.6973):  40%|████      | 3927/9753 [41:52<59:45,  1.62it/s]Training 2/3 epoch (loss 0.6973):  40%|████      | 3928/9753 [41:52<1:02:27,  1.55it/s]Training 2/3 epoch (loss 0.8142):  40%|████      | 3928/9753 [41:53<1:02:27,  1.55it/s]Training 2/3 epoch (loss 0.8142):  40%|████      | 3929/9753 [41:53<1:03:04,  1.54it/s]Training 2/3 epoch (loss 0.5793):  40%|████      | 3929/9753 [41:54<1:03:04,  1.54it/s]Training 2/3 epoch (loss 0.5793):  40%|████      | 3930/9753 [41:54<1:03:10,  1.54it/s]Training 2/3 epoch (loss 0.8088):  40%|████      | 3930/9753 [41:54<1:03:10,  1.54it/s]Training 2/3 epoch (loss 0.8088):  40%|████      | 3931/9753 [41:54<1:03:33,  1.53it/s]Training 2/3 epoch (loss 0.8613):  40%|████      | 3931/9753 [41:55<1:03:33,  1.53it/s]Training 2/3 epoch (loss 0.8613):  40%|████      | 3932/9753 [41:55<1:07:36,  1.43it/s]Training 2/3 epoch (loss 0.5479):  40%|████      | 3932/9753 [41:56<1:07:36,  1.43it/s]Training 2/3 epoch (loss 0.5479):  40%|████      | 3933/9753 [41:56<1:10:22,  1.38it/s]Training 2/3 epoch (loss 0.7582):  40%|████      | 3933/9753 [41:56<1:10:22,  1.38it/s]Training 2/3 epoch (loss 0.7582):  40%|████      | 3934/9753 [41:56<1:09:20,  1.40it/s]Training 2/3 epoch (loss 0.7525):  40%|████      | 3934/9753 [41:57<1:09:20,  1.40it/s]Training 2/3 epoch (loss 0.7525):  40%|████      | 3935/9753 [41:57<1:07:43,  1.43it/s]Training 2/3 epoch (loss 0.5930):  40%|████      | 3935/9753 [41:58<1:07:43,  1.43it/s]Training 2/3 epoch (loss 0.5930):  40%|████      | 3936/9753 [41:58<1:10:42,  1.37it/s]Training 2/3 epoch (loss 0.7039):  40%|████      | 3936/9753 [41:59<1:10:42,  1.37it/s]Training 2/3 epoch (loss 0.7039):  40%|████      | 3937/9753 [41:59<1:08:31,  1.41it/s]Training 2/3 epoch (loss 0.7725):  40%|████      | 3937/9753 [41:59<1:08:31,  1.41it/s]Training 2/3 epoch (loss 0.7725):  40%|████      | 3938/9753 [41:59<1:06:42,  1.45it/s]Training 2/3 epoch (loss 0.8042):  40%|████      | 3938/9753 [42:00<1:06:42,  1.45it/s]Training 2/3 epoch (loss 0.8042):  40%|████      | 3939/9753 [42:00<1:07:14,  1.44it/s]Training 2/3 epoch (loss 0.6727):  40%|████      | 3939/9753 [42:01<1:07:14,  1.44it/s]Training 2/3 epoch (loss 0.6727):  40%|████      | 3940/9753 [42:01<1:05:20,  1.48it/s]Training 2/3 epoch (loss 0.5351):  40%|████      | 3940/9753 [42:01<1:05:20,  1.48it/s]Training 2/3 epoch (loss 0.5351):  40%|████      | 3941/9753 [42:01<1:04:48,  1.49it/s]Training 2/3 epoch (loss 0.8421):  40%|████      | 3941/9753 [42:02<1:04:48,  1.49it/s]Training 2/3 epoch (loss 0.8421):  40%|████      | 3942/9753 [42:02<1:04:49,  1.49it/s]Training 2/3 epoch (loss 0.6232):  40%|████      | 3942/9753 [42:03<1:04:49,  1.49it/s]Training 2/3 epoch (loss 0.6232):  40%|████      | 3943/9753 [42:03<1:05:00,  1.49it/s]Training 2/3 epoch (loss 0.7822):  40%|████      | 3943/9753 [42:03<1:05:00,  1.49it/s]Training 2/3 epoch (loss 0.7822):  40%|████      | 3944/9753 [42:03<1:07:39,  1.43it/s]Training 2/3 epoch (loss 0.9677):  40%|████      | 3944/9753 [42:04<1:07:39,  1.43it/s]Training 2/3 epoch (loss 0.9677):  40%|████      | 3945/9753 [42:04<1:06:33,  1.45it/s]Training 2/3 epoch (loss 0.7057):  40%|████      | 3945/9753 [42:05<1:06:33,  1.45it/s]Training 2/3 epoch (loss 0.7057):  40%|████      | 3946/9753 [42:05<1:06:10,  1.46it/s]Training 2/3 epoch (loss 0.6268):  40%|████      | 3946/9753 [42:05<1:06:10,  1.46it/s]Training 2/3 epoch (loss 0.6268):  40%|████      | 3947/9753 [42:05<1:05:22,  1.48it/s]Training 2/3 epoch (loss 0.8046):  40%|████      | 3947/9753 [42:06<1:05:22,  1.48it/s]Training 2/3 epoch (loss 0.8046):  40%|████      | 3948/9753 [42:06<1:05:13,  1.48it/s]Training 2/3 epoch (loss 0.7124):  40%|████      | 3948/9753 [42:07<1:05:13,  1.48it/s]Training 2/3 epoch (loss 0.7124):  40%|████      | 3949/9753 [42:07<1:04:48,  1.49it/s]Training 2/3 epoch (loss 0.4637):  40%|████      | 3949/9753 [42:07<1:04:48,  1.49it/s]Training 2/3 epoch (loss 0.4637):  41%|████      | 3950/9753 [42:07<1:04:12,  1.51it/s]Training 2/3 epoch (loss 0.6072):  41%|████      | 3950/9753 [42:08<1:04:12,  1.51it/s]Training 2/3 epoch (loss 0.6072):  41%|████      | 3951/9753 [42:08<1:03:51,  1.51it/s]Training 2/3 epoch (loss 0.7050):  41%|████      | 3951/9753 [42:09<1:03:51,  1.51it/s]Training 2/3 epoch (loss 0.7050):  41%|████      | 3952/9753 [42:09<1:07:30,  1.43it/s]Training 2/3 epoch (loss 0.6671):  41%|████      | 3952/9753 [42:09<1:07:30,  1.43it/s]Training 2/3 epoch (loss 0.6671):  41%|████      | 3953/9753 [42:09<1:06:39,  1.45it/s]Training 2/3 epoch (loss 0.8789):  41%|████      | 3953/9753 [42:10<1:06:39,  1.45it/s]Training 2/3 epoch (loss 0.8789):  41%|████      | 3954/9753 [42:10<1:06:37,  1.45it/s]Training 2/3 epoch (loss 0.9172):  41%|████      | 3954/9753 [42:11<1:06:37,  1.45it/s]Training 2/3 epoch (loss 0.9172):  41%|████      | 3955/9753 [42:11<1:11:47,  1.35it/s]Training 2/3 epoch (loss 0.6038):  41%|████      | 3955/9753 [42:12<1:11:47,  1.35it/s]Training 2/3 epoch (loss 0.6038):  41%|████      | 3956/9753 [42:12<1:14:29,  1.30it/s]Training 2/3 epoch (loss 0.5656):  41%|████      | 3956/9753 [42:12<1:14:29,  1.30it/s]Training 2/3 epoch (loss 0.5656):  41%|████      | 3957/9753 [42:12<1:11:59,  1.34it/s]Training 2/3 epoch (loss 0.8088):  41%|████      | 3957/9753 [42:14<1:11:59,  1.34it/s]Training 2/3 epoch (loss 0.8088):  41%|████      | 3958/9753 [42:14<1:21:09,  1.19it/s]Training 2/3 epoch (loss 0.5456):  41%|████      | 3958/9753 [42:14<1:21:09,  1.19it/s]Training 2/3 epoch (loss 0.5456):  41%|████      | 3959/9753 [42:14<1:21:56,  1.18it/s]Training 2/3 epoch (loss 0.8685):  41%|████      | 3959/9753 [42:15<1:21:56,  1.18it/s]Training 2/3 epoch (loss 0.8685):  41%|████      | 3960/9753 [42:15<1:14:36,  1.29it/s]Training 2/3 epoch (loss 0.7342):  41%|████      | 3960/9753 [42:16<1:14:36,  1.29it/s]Training 2/3 epoch (loss 0.7342):  41%|████      | 3961/9753 [42:16<1:08:23,  1.41it/s]Training 2/3 epoch (loss 0.7103):  41%|████      | 3961/9753 [42:16<1:08:23,  1.41it/s]Training 2/3 epoch (loss 0.7103):  41%|████      | 3962/9753 [42:16<1:04:45,  1.49it/s]Training 2/3 epoch (loss 0.7865):  41%|████      | 3962/9753 [42:17<1:04:45,  1.49it/s]Training 2/3 epoch (loss 0.7865):  41%|████      | 3963/9753 [42:17<1:09:20,  1.39it/s]Training 2/3 epoch (loss 0.7964):  41%|████      | 3963/9753 [42:18<1:09:20,  1.39it/s]Training 2/3 epoch (loss 0.7964):  41%|████      | 3964/9753 [42:18<1:05:33,  1.47it/s]Training 2/3 epoch (loss 0.6213):  41%|████      | 3964/9753 [42:18<1:05:33,  1.47it/s]Training 2/3 epoch (loss 0.6213):  41%|████      | 3965/9753 [42:18<1:01:45,  1.56it/s]Training 2/3 epoch (loss 0.5656):  41%|████      | 3965/9753 [42:19<1:01:45,  1.56it/s]Training 2/3 epoch (loss 0.5656):  41%|████      | 3966/9753 [42:19<1:02:17,  1.55it/s]Training 2/3 epoch (loss 0.7928):  41%|████      | 3966/9753 [42:19<1:02:17,  1.55it/s]Training 2/3 epoch (loss 0.7928):  41%|████      | 3967/9753 [42:19<1:01:51,  1.56it/s]Training 2/3 epoch (loss 0.7132):  41%|████      | 3967/9753 [42:20<1:01:51,  1.56it/s]Training 2/3 epoch (loss 0.7132):  41%|████      | 3968/9753 [42:20<1:03:52,  1.51it/s]Training 2/3 epoch (loss 0.5991):  41%|████      | 3968/9753 [42:21<1:03:52,  1.51it/s]Training 2/3 epoch (loss 0.5991):  41%|████      | 3969/9753 [42:21<1:02:14,  1.55it/s]Training 2/3 epoch (loss 0.6890):  41%|████      | 3969/9753 [42:21<1:02:14,  1.55it/s]Training 2/3 epoch (loss 0.6890):  41%|████      | 3970/9753 [42:21<1:00:51,  1.58it/s]Training 2/3 epoch (loss 0.4966):  41%|████      | 3970/9753 [42:22<1:00:51,  1.58it/s]Training 2/3 epoch (loss 0.4966):  41%|████      | 3971/9753 [42:22<59:52,  1.61it/s]  Training 2/3 epoch (loss 0.7050):  41%|████      | 3971/9753 [42:23<59:52,  1.61it/s]Training 2/3 epoch (loss 0.7050):  41%|████      | 3972/9753 [42:23<1:01:45,  1.56it/s]Training 2/3 epoch (loss 0.6874):  41%|████      | 3972/9753 [42:23<1:01:45,  1.56it/s]Training 2/3 epoch (loss 0.6874):  41%|████      | 3973/9753 [42:23<1:01:03,  1.58it/s]Training 2/3 epoch (loss 0.6738):  41%|████      | 3973/9753 [42:24<1:01:03,  1.58it/s]Training 2/3 epoch (loss 0.6738):  41%|████      | 3974/9753 [42:24<58:48,  1.64it/s]  Training 2/3 epoch (loss 0.7263):  41%|████      | 3974/9753 [42:24<58:48,  1.64it/s]Training 2/3 epoch (loss 0.7263):  41%|████      | 3975/9753 [42:24<56:58,  1.69it/s]Training 2/3 epoch (loss 0.6634):  41%|████      | 3975/9753 [42:25<56:58,  1.69it/s]Training 2/3 epoch (loss 0.6634):  41%|████      | 3976/9753 [42:25<59:25,  1.62it/s]Training 2/3 epoch (loss 0.8726):  41%|████      | 3976/9753 [42:26<59:25,  1.62it/s]Training 2/3 epoch (loss 0.8726):  41%|████      | 3977/9753 [42:26<58:11,  1.65it/s]Training 2/3 epoch (loss 0.8148):  41%|████      | 3977/9753 [42:26<58:11,  1.65it/s]Training 2/3 epoch (loss 0.8148):  41%|████      | 3978/9753 [42:26<57:00,  1.69it/s]Training 2/3 epoch (loss 0.5496):  41%|████      | 3978/9753 [42:27<57:00,  1.69it/s]Training 2/3 epoch (loss 0.5496):  41%|████      | 3979/9753 [42:27<55:51,  1.72it/s]Training 2/3 epoch (loss 0.6239):  41%|████      | 3979/9753 [42:27<55:51,  1.72it/s]Training 2/3 epoch (loss 0.6239):  41%|████      | 3980/9753 [42:27<57:16,  1.68it/s]Training 2/3 epoch (loss 0.6884):  41%|████      | 3980/9753 [42:28<57:16,  1.68it/s]Training 2/3 epoch (loss 0.6884):  41%|████      | 3981/9753 [42:28<56:03,  1.72it/s]Training 2/3 epoch (loss 0.9129):  41%|████      | 3981/9753 [42:28<56:03,  1.72it/s]Training 2/3 epoch (loss 0.9129):  41%|████      | 3982/9753 [42:28<55:45,  1.72it/s]Training 2/3 epoch (loss 0.6326):  41%|████      | 3982/9753 [42:29<55:45,  1.72it/s]Training 2/3 epoch (loss 0.6326):  41%|████      | 3983/9753 [42:29<54:57,  1.75it/s]Training 2/3 epoch (loss 0.8995):  41%|████      | 3983/9753 [42:30<54:57,  1.75it/s]Training 2/3 epoch (loss 0.8995):  41%|████      | 3984/9753 [42:30<1:01:19,  1.57it/s]Training 2/3 epoch (loss 0.8737):  41%|████      | 3984/9753 [42:30<1:01:19,  1.57it/s]Training 2/3 epoch (loss 0.8737):  41%|████      | 3985/9753 [42:30<1:01:08,  1.57it/s]Training 2/3 epoch (loss 0.5810):  41%|████      | 3985/9753 [42:31<1:01:08,  1.57it/s]Training 2/3 epoch (loss 0.5810):  41%|████      | 3986/9753 [42:31<1:06:32,  1.44it/s]Training 2/3 epoch (loss 1.0402):  41%|████      | 3986/9753 [42:32<1:06:32,  1.44it/s]Training 2/3 epoch (loss 1.0402):  41%|████      | 3987/9753 [42:32<1:12:20,  1.33it/s]Training 2/3 epoch (loss 0.8358):  41%|████      | 3987/9753 [42:33<1:12:20,  1.33it/s]Training 2/3 epoch (loss 0.8358):  41%|████      | 3988/9753 [42:33<1:08:06,  1.41it/s]Training 2/3 epoch (loss 0.5638):  41%|████      | 3988/9753 [42:33<1:08:06,  1.41it/s]Training 2/3 epoch (loss 0.5638):  41%|████      | 3989/9753 [42:33<1:04:58,  1.48it/s]Training 2/3 epoch (loss 0.7491):  41%|████      | 3989/9753 [42:34<1:04:58,  1.48it/s]Training 2/3 epoch (loss 0.7491):  41%|████      | 3990/9753 [42:34<1:03:03,  1.52it/s]Training 2/3 epoch (loss 0.7768):  41%|████      | 3990/9753 [42:35<1:03:03,  1.52it/s]Training 2/3 epoch (loss 0.7768):  41%|████      | 3991/9753 [42:35<1:05:01,  1.48it/s]Training 2/3 epoch (loss 0.6727):  41%|████      | 3991/9753 [42:35<1:05:01,  1.48it/s]Training 2/3 epoch (loss 0.6727):  41%|████      | 3992/9753 [42:35<1:03:16,  1.52it/s]Training 2/3 epoch (loss 0.5723):  41%|████      | 3992/9753 [42:36<1:03:16,  1.52it/s]Training 2/3 epoch (loss 0.5723):  41%|████      | 3993/9753 [42:36<1:05:41,  1.46it/s]Training 2/3 epoch (loss 0.5512):  41%|████      | 3993/9753 [42:37<1:05:41,  1.46it/s]Training 2/3 epoch (loss 0.5512):  41%|████      | 3994/9753 [42:37<1:03:59,  1.50it/s]Training 2/3 epoch (loss 0.7081):  41%|████      | 3994/9753 [42:37<1:03:59,  1.50it/s]Training 2/3 epoch (loss 0.7081):  41%|████      | 3995/9753 [42:37<1:02:29,  1.54it/s]Training 2/3 epoch (loss 0.5619):  41%|████      | 3995/9753 [42:38<1:02:29,  1.54it/s]Training 2/3 epoch (loss 0.5619):  41%|████      | 3996/9753 [42:38<1:01:57,  1.55it/s]Training 2/3 epoch (loss 0.7902):  41%|████      | 3996/9753 [42:39<1:01:57,  1.55it/s]Training 2/3 epoch (loss 0.7902):  41%|████      | 3997/9753 [42:39<1:01:13,  1.57it/s]Training 2/3 epoch (loss 0.6720):  41%|████      | 3997/9753 [42:39<1:01:13,  1.57it/s]Training 2/3 epoch (loss 0.6720):  41%|████      | 3998/9753 [42:39<1:01:52,  1.55it/s]Training 2/3 epoch (loss 0.8038):  41%|████      | 3998/9753 [42:40<1:01:52,  1.55it/s]Training 2/3 epoch (loss 0.8038):  41%|████      | 3999/9753 [42:40<1:06:06,  1.45it/s]Training 2/3 epoch (loss 0.6212):  41%|████      | 3999/9753 [42:41<1:06:06,  1.45it/s]Training 2/3 epoch (loss 0.6212):  41%|████      | 4000/9753 [42:41<1:07:46,  1.41it/s]Training 2/3 epoch (loss 0.7353):  41%|████      | 4000/9753 [42:41<1:07:46,  1.41it/s]Training 2/3 epoch (loss 0.7353):  41%|████      | 4001/9753 [42:41<1:05:05,  1.47it/s]Training 2/3 epoch (loss 0.9270):  41%|████      | 4001/9753 [42:42<1:05:05,  1.47it/s]Training 2/3 epoch (loss 0.9270):  41%|████      | 4002/9753 [42:42<1:02:38,  1.53it/s]Training 2/3 epoch (loss 0.6980):  41%|████      | 4002/9753 [42:43<1:02:38,  1.53it/s]Training 2/3 epoch (loss 0.6980):  41%|████      | 4003/9753 [42:43<1:01:56,  1.55it/s]Training 2/3 epoch (loss 0.8084):  41%|████      | 4003/9753 [42:43<1:01:56,  1.55it/s]Training 2/3 epoch (loss 0.8084):  41%|████      | 4004/9753 [42:43<1:06:33,  1.44it/s]Training 2/3 epoch (loss 0.7413):  41%|████      | 4004/9753 [42:44<1:06:33,  1.44it/s]Training 2/3 epoch (loss 0.7413):  41%|████      | 4005/9753 [42:44<1:04:32,  1.48it/s]Training 2/3 epoch (loss 0.7106):  41%|████      | 4005/9753 [42:45<1:04:32,  1.48it/s]Training 2/3 epoch (loss 0.7106):  41%|████      | 4006/9753 [42:45<1:03:18,  1.51it/s]Training 2/3 epoch (loss 0.4997):  41%|████      | 4006/9753 [42:45<1:03:18,  1.51it/s]Training 2/3 epoch (loss 0.4997):  41%|████      | 4007/9753 [42:45<1:02:04,  1.54it/s]Training 2/3 epoch (loss 0.7678):  41%|████      | 4007/9753 [42:46<1:02:04,  1.54it/s]Training 2/3 epoch (loss 0.7678):  41%|████      | 4008/9753 [42:46<1:03:35,  1.51it/s]Training 2/3 epoch (loss 0.7362):  41%|████      | 4008/9753 [42:47<1:03:35,  1.51it/s]Training 2/3 epoch (loss 0.7362):  41%|████      | 4009/9753 [42:47<1:10:01,  1.37it/s]Training 2/3 epoch (loss 0.5636):  41%|████      | 4009/9753 [42:48<1:10:01,  1.37it/s]Training 2/3 epoch (loss 0.5636):  41%|████      | 4010/9753 [42:48<1:08:04,  1.41it/s]Training 2/3 epoch (loss 0.6646):  41%|████      | 4010/9753 [42:48<1:08:04,  1.41it/s]Training 2/3 epoch (loss 0.6646):  41%|████      | 4011/9753 [42:48<1:05:25,  1.46it/s]Training 2/3 epoch (loss 0.7196):  41%|████      | 4011/9753 [42:49<1:05:25,  1.46it/s]Training 2/3 epoch (loss 0.7196):  41%|████      | 4012/9753 [42:49<1:03:21,  1.51it/s]Training 2/3 epoch (loss 0.6838):  41%|████      | 4012/9753 [42:49<1:03:21,  1.51it/s]Training 2/3 epoch (loss 0.6838):  41%|████      | 4013/9753 [42:49<1:01:38,  1.55it/s]Training 2/3 epoch (loss 0.7339):  41%|████      | 4013/9753 [42:50<1:01:38,  1.55it/s]Training 2/3 epoch (loss 0.7339):  41%|████      | 4014/9753 [42:50<1:00:54,  1.57it/s]Training 2/3 epoch (loss 0.8122):  41%|████      | 4014/9753 [42:51<1:00:54,  1.57it/s]Training 2/3 epoch (loss 0.8122):  41%|████      | 4015/9753 [42:51<1:00:24,  1.58it/s]Training 2/3 epoch (loss 0.7876):  41%|████      | 4015/9753 [42:51<1:00:24,  1.58it/s]Training 2/3 epoch (loss 0.7876):  41%|████      | 4016/9753 [42:51<1:06:30,  1.44it/s]Training 2/3 epoch (loss 0.6470):  41%|████      | 4016/9753 [42:53<1:06:30,  1.44it/s]Training 2/3 epoch (loss 0.6470):  41%|████      | 4017/9753 [42:53<1:21:50,  1.17it/s]Training 2/3 epoch (loss 0.6709):  41%|████      | 4017/9753 [42:53<1:21:50,  1.17it/s]Training 2/3 epoch (loss 0.6709):  41%|████      | 4018/9753 [42:53<1:15:27,  1.27it/s]Training 2/3 epoch (loss 0.6540):  41%|████      | 4018/9753 [42:54<1:15:27,  1.27it/s]Training 2/3 epoch (loss 0.6540):  41%|████      | 4019/9753 [42:54<1:10:35,  1.35it/s]Training 2/3 epoch (loss 0.7603):  41%|████      | 4019/9753 [42:55<1:10:35,  1.35it/s]Training 2/3 epoch (loss 0.7603):  41%|████      | 4020/9753 [42:55<1:07:08,  1.42it/s]Training 2/3 epoch (loss 0.7792):  41%|████      | 4020/9753 [42:55<1:07:08,  1.42it/s]Training 2/3 epoch (loss 0.7792):  41%|████      | 4021/9753 [42:55<1:04:44,  1.48it/s]Training 2/3 epoch (loss 0.4923):  41%|████      | 4021/9753 [42:56<1:04:44,  1.48it/s]Training 2/3 epoch (loss 0.4923):  41%|████      | 4022/9753 [42:56<1:03:09,  1.51it/s]Training 2/3 epoch (loss 0.8977):  41%|████      | 4022/9753 [42:56<1:03:09,  1.51it/s]Training 2/3 epoch (loss 0.8977):  41%|████      | 4023/9753 [42:57<1:04:24,  1.48it/s]Training 2/3 epoch (loss 0.7750):  41%|████      | 4023/9753 [42:57<1:04:24,  1.48it/s]Training 2/3 epoch (loss 0.7750):  41%|████▏     | 4024/9753 [42:57<1:06:17,  1.44it/s]Training 2/3 epoch (loss 0.7496):  41%|████▏     | 4024/9753 [42:58<1:06:17,  1.44it/s]Training 2/3 epoch (loss 0.7496):  41%|████▏     | 4025/9753 [42:58<1:06:36,  1.43it/s]Training 2/3 epoch (loss 0.6529):  41%|████▏     | 4025/9753 [42:59<1:06:36,  1.43it/s]Training 2/3 epoch (loss 0.6529):  41%|████▏     | 4026/9753 [42:59<1:04:26,  1.48it/s]Training 2/3 epoch (loss 0.9158):  41%|████▏     | 4026/9753 [42:59<1:04:26,  1.48it/s]Training 2/3 epoch (loss 0.9158):  41%|████▏     | 4027/9753 [42:59<1:07:14,  1.42it/s]Training 2/3 epoch (loss 0.5558):  41%|████▏     | 4027/9753 [43:00<1:07:14,  1.42it/s]Training 2/3 epoch (loss 0.5558):  41%|████▏     | 4028/9753 [43:00<1:04:07,  1.49it/s]Training 2/3 epoch (loss 0.4259):  41%|████▏     | 4028/9753 [43:01<1:04:07,  1.49it/s]Training 2/3 epoch (loss 0.4259):  41%|████▏     | 4029/9753 [43:01<1:02:21,  1.53it/s]Training 2/3 epoch (loss 0.5592):  41%|████▏     | 4029/9753 [43:01<1:02:21,  1.53it/s]Training 2/3 epoch (loss 0.5592):  41%|████▏     | 4030/9753 [43:01<1:02:05,  1.54it/s]Training 2/3 epoch (loss 0.6893):  41%|████▏     | 4030/9753 [43:02<1:02:05,  1.54it/s]Training 2/3 epoch (loss 0.6893):  41%|████▏     | 4031/9753 [43:02<1:10:01,  1.36it/s]Training 2/3 epoch (loss 0.6148):  41%|████▏     | 4031/9753 [43:03<1:10:01,  1.36it/s]Training 2/3 epoch (loss 0.6148):  41%|████▏     | 4032/9753 [43:03<1:19:43,  1.20it/s]Training 2/3 epoch (loss 0.5699):  41%|████▏     | 4032/9753 [43:04<1:19:43,  1.20it/s]Training 2/3 epoch (loss 0.5699):  41%|████▏     | 4033/9753 [43:04<1:14:13,  1.28it/s]Training 2/3 epoch (loss 0.8616):  41%|████▏     | 4033/9753 [43:04<1:14:13,  1.28it/s]Training 2/3 epoch (loss 0.8616):  41%|████▏     | 4034/9753 [43:04<1:10:03,  1.36it/s]Training 2/3 epoch (loss 0.8946):  41%|████▏     | 4034/9753 [43:05<1:10:03,  1.36it/s]Training 2/3 epoch (loss 0.8946):  41%|████▏     | 4035/9753 [43:05<1:06:23,  1.44it/s]Training 2/3 epoch (loss 0.6443):  41%|████▏     | 4035/9753 [43:06<1:06:23,  1.44it/s]Training 2/3 epoch (loss 0.6443):  41%|████▏     | 4036/9753 [43:06<1:03:38,  1.50it/s]Training 2/3 epoch (loss 0.7003):  41%|████▏     | 4036/9753 [43:06<1:03:38,  1.50it/s]Training 2/3 epoch (loss 0.7003):  41%|████▏     | 4037/9753 [43:06<1:01:33,  1.55it/s]Training 2/3 epoch (loss 0.8044):  41%|████▏     | 4037/9753 [43:07<1:01:33,  1.55it/s]Training 2/3 epoch (loss 0.8044):  41%|████▏     | 4038/9753 [43:07<1:00:12,  1.58it/s]Training 2/3 epoch (loss 0.7124):  41%|████▏     | 4038/9753 [43:07<1:00:12,  1.58it/s]Training 2/3 epoch (loss 0.7124):  41%|████▏     | 4039/9753 [43:07<59:48,  1.59it/s]  Training 2/3 epoch (loss 0.6838):  41%|████▏     | 4039/9753 [43:08<59:48,  1.59it/s]Training 2/3 epoch (loss 0.6838):  41%|████▏     | 4040/9753 [43:08<58:37,  1.62it/s]Training 2/3 epoch (loss 0.8186):  41%|████▏     | 4040/9753 [43:09<58:37,  1.62it/s]Training 2/3 epoch (loss 0.8186):  41%|████▏     | 4041/9753 [43:09<57:24,  1.66it/s]Training 2/3 epoch (loss 0.8412):  41%|████▏     | 4041/9753 [43:09<57:24,  1.66it/s]Training 2/3 epoch (loss 0.8412):  41%|████▏     | 4042/9753 [43:09<57:58,  1.64it/s]Training 2/3 epoch (loss 0.7477):  41%|████▏     | 4042/9753 [43:10<57:58,  1.64it/s]Training 2/3 epoch (loss 0.7477):  41%|████▏     | 4043/9753 [43:10<1:04:14,  1.48it/s]Training 2/3 epoch (loss 0.7856):  41%|████▏     | 4043/9753 [43:11<1:04:14,  1.48it/s]Training 2/3 epoch (loss 0.7856):  41%|████▏     | 4044/9753 [43:11<1:07:53,  1.40it/s]Training 2/3 epoch (loss 0.8288):  41%|████▏     | 4044/9753 [43:12<1:07:53,  1.40it/s]Training 2/3 epoch (loss 0.8288):  41%|████▏     | 4045/9753 [43:12<1:05:33,  1.45it/s]Training 2/3 epoch (loss 0.5729):  41%|████▏     | 4045/9753 [43:12<1:05:33,  1.45it/s]Training 2/3 epoch (loss 0.5729):  41%|████▏     | 4046/9753 [43:12<1:03:47,  1.49it/s]Training 2/3 epoch (loss 0.6305):  41%|████▏     | 4046/9753 [43:13<1:03:47,  1.49it/s]Training 2/3 epoch (loss 0.6305):  41%|████▏     | 4047/9753 [43:13<1:02:14,  1.53it/s]Training 2/3 epoch (loss 0.6494):  41%|████▏     | 4047/9753 [43:14<1:02:14,  1.53it/s]Training 2/3 epoch (loss 0.6494):  42%|████▏     | 4048/9753 [43:14<1:04:49,  1.47it/s]Training 2/3 epoch (loss 0.6308):  42%|████▏     | 4048/9753 [43:14<1:04:49,  1.47it/s]Training 2/3 epoch (loss 0.6308):  42%|████▏     | 4049/9753 [43:14<1:12:00,  1.32it/s]Training 2/3 epoch (loss 0.8565):  42%|████▏     | 4049/9753 [43:15<1:12:00,  1.32it/s]Training 2/3 epoch (loss 0.8565):  42%|████▏     | 4050/9753 [43:15<1:07:35,  1.41it/s]Training 2/3 epoch (loss 0.7089):  42%|████▏     | 4050/9753 [43:16<1:07:35,  1.41it/s]Training 2/3 epoch (loss 0.7089):  42%|████▏     | 4051/9753 [43:16<1:03:20,  1.50it/s]Training 2/3 epoch (loss 0.4652):  42%|████▏     | 4051/9753 [43:16<1:03:20,  1.50it/s]Training 2/3 epoch (loss 0.4652):  42%|████▏     | 4052/9753 [43:16<1:00:09,  1.58it/s]Training 2/3 epoch (loss 0.5340):  42%|████▏     | 4052/9753 [43:17<1:00:09,  1.58it/s]Training 2/3 epoch (loss 0.5340):  42%|████▏     | 4053/9753 [43:17<58:03,  1.64it/s]  Training 2/3 epoch (loss 0.7598):  42%|████▏     | 4053/9753 [43:17<58:03,  1.64it/s]Training 2/3 epoch (loss 0.7598):  42%|████▏     | 4054/9753 [43:17<58:36,  1.62it/s]Training 2/3 epoch (loss 0.9010):  42%|████▏     | 4054/9753 [43:18<58:36,  1.62it/s]Training 2/3 epoch (loss 0.9010):  42%|████▏     | 4055/9753 [43:18<1:00:22,  1.57it/s]Training 2/3 epoch (loss 0.9077):  42%|████▏     | 4055/9753 [43:19<1:00:22,  1.57it/s]Training 2/3 epoch (loss 0.9077):  42%|████▏     | 4056/9753 [43:19<58:45,  1.62it/s]  Training 2/3 epoch (loss 0.6935):  42%|████▏     | 4056/9753 [43:19<58:45,  1.62it/s]Training 2/3 epoch (loss 0.6935):  42%|████▏     | 4057/9753 [43:19<57:17,  1.66it/s]Training 2/3 epoch (loss 0.7452):  42%|████▏     | 4057/9753 [43:20<57:17,  1.66it/s]Training 2/3 epoch (loss 0.7452):  42%|████▏     | 4058/9753 [43:20<58:55,  1.61it/s]Training 2/3 epoch (loss 0.8006):  42%|████▏     | 4058/9753 [43:20<58:55,  1.61it/s]Training 2/3 epoch (loss 0.8006):  42%|████▏     | 4059/9753 [43:20<59:13,  1.60it/s]Training 2/3 epoch (loss 0.8470):  42%|████▏     | 4059/9753 [43:21<59:13,  1.60it/s]Training 2/3 epoch (loss 0.8470):  42%|████▏     | 4060/9753 [43:21<59:15,  1.60it/s]Training 2/3 epoch (loss 0.7293):  42%|████▏     | 4060/9753 [43:22<59:15,  1.60it/s]Training 2/3 epoch (loss 0.7293):  42%|████▏     | 4061/9753 [43:22<57:08,  1.66it/s]Training 2/3 epoch (loss 0.7579):  42%|████▏     | 4061/9753 [43:22<57:08,  1.66it/s]Training 2/3 epoch (loss 0.7579):  42%|████▏     | 4062/9753 [43:22<59:42,  1.59it/s]Training 2/3 epoch (loss 0.6133):  42%|████▏     | 4062/9753 [43:23<59:42,  1.59it/s]Training 2/3 epoch (loss 0.6133):  42%|████▏     | 4063/9753 [43:23<59:21,  1.60it/s]Training 2/3 epoch (loss 0.6339):  42%|████▏     | 4063/9753 [43:24<59:21,  1.60it/s]Training 2/3 epoch (loss 0.6339):  42%|████▏     | 4064/9753 [43:24<1:01:23,  1.54it/s]Training 2/3 epoch (loss 0.3902):  42%|████▏     | 4064/9753 [43:24<1:01:23,  1.54it/s]Training 2/3 epoch (loss 0.3902):  42%|████▏     | 4065/9753 [43:24<58:33,  1.62it/s]  Training 2/3 epoch (loss 0.8204):  42%|████▏     | 4065/9753 [43:25<58:33,  1.62it/s]Training 2/3 epoch (loss 0.8204):  42%|████▏     | 4066/9753 [43:25<59:41,  1.59it/s]Training 2/3 epoch (loss 0.7932):  42%|████▏     | 4066/9753 [43:25<59:41,  1.59it/s]Training 2/3 epoch (loss 0.7932):  42%|████▏     | 4067/9753 [43:25<57:57,  1.63it/s]Training 2/3 epoch (loss 0.6125):  42%|████▏     | 4067/9753 [43:26<57:57,  1.63it/s]Training 2/3 epoch (loss 0.6125):  42%|████▏     | 4068/9753 [43:26<58:26,  1.62it/s]Training 2/3 epoch (loss 0.7628):  42%|████▏     | 4068/9753 [43:27<58:26,  1.62it/s]Training 2/3 epoch (loss 0.7628):  42%|████▏     | 4069/9753 [43:27<58:44,  1.61it/s]Training 2/3 epoch (loss 0.6626):  42%|████▏     | 4069/9753 [43:27<58:44,  1.61it/s]Training 2/3 epoch (loss 0.6626):  42%|████▏     | 4070/9753 [43:27<58:58,  1.61it/s]Training 2/3 epoch (loss 0.7796):  42%|████▏     | 4070/9753 [43:28<58:58,  1.61it/s]Training 2/3 epoch (loss 0.7796):  42%|████▏     | 4071/9753 [43:28<1:01:29,  1.54it/s]Training 2/3 epoch (loss 0.5701):  42%|████▏     | 4071/9753 [43:29<1:01:29,  1.54it/s]Training 2/3 epoch (loss 0.5701):  42%|████▏     | 4072/9753 [43:29<1:00:04,  1.58it/s]Training 2/3 epoch (loss 0.5213):  42%|████▏     | 4072/9753 [43:29<1:00:04,  1.58it/s]Training 2/3 epoch (loss 0.5213):  42%|████▏     | 4073/9753 [43:29<58:43,  1.61it/s]  Training 2/3 epoch (loss 0.8508):  42%|████▏     | 4073/9753 [43:30<58:43,  1.61it/s]Training 2/3 epoch (loss 0.8508):  42%|████▏     | 4074/9753 [43:30<58:39,  1.61it/s]Training 2/3 epoch (loss 0.7029):  42%|████▏     | 4074/9753 [43:31<58:39,  1.61it/s]Training 2/3 epoch (loss 0.7029):  42%|████▏     | 4075/9753 [43:31<1:00:02,  1.58it/s]Training 2/3 epoch (loss 0.6797):  42%|████▏     | 4075/9753 [43:31<1:00:02,  1.58it/s]Training 2/3 epoch (loss 0.6797):  42%|████▏     | 4076/9753 [43:31<1:00:04,  1.58it/s]Training 2/3 epoch (loss 0.7028):  42%|████▏     | 4076/9753 [43:32<1:00:04,  1.58it/s]Training 2/3 epoch (loss 0.7028):  42%|████▏     | 4077/9753 [43:32<1:04:38,  1.46it/s]Training 2/3 epoch (loss 0.6605):  42%|████▏     | 4077/9753 [43:33<1:04:38,  1.46it/s]Training 2/3 epoch (loss 0.6605):  42%|████▏     | 4078/9753 [43:33<1:04:10,  1.47it/s]Training 2/3 epoch (loss 0.8015):  42%|████▏     | 4078/9753 [43:33<1:04:10,  1.47it/s]Training 2/3 epoch (loss 0.8015):  42%|████▏     | 4079/9753 [43:33<1:03:56,  1.48it/s]Training 2/3 epoch (loss 0.7049):  42%|████▏     | 4079/9753 [43:34<1:03:56,  1.48it/s]Training 2/3 epoch (loss 0.7049):  42%|████▏     | 4080/9753 [43:34<1:07:12,  1.41it/s]Training 2/3 epoch (loss 0.5312):  42%|████▏     | 4080/9753 [43:35<1:07:12,  1.41it/s]Training 2/3 epoch (loss 0.5312):  42%|████▏     | 4081/9753 [43:35<1:04:43,  1.46it/s]Training 2/3 epoch (loss 0.6655):  42%|████▏     | 4081/9753 [43:35<1:04:43,  1.46it/s]Training 2/3 epoch (loss 0.6655):  42%|████▏     | 4082/9753 [43:35<1:06:24,  1.42it/s]Training 2/3 epoch (loss 0.8479):  42%|████▏     | 4082/9753 [43:36<1:06:24,  1.42it/s]Training 2/3 epoch (loss 0.8479):  42%|████▏     | 4083/9753 [43:36<1:04:21,  1.47it/s]Training 2/3 epoch (loss 0.4394):  42%|████▏     | 4083/9753 [43:37<1:04:21,  1.47it/s]Training 2/3 epoch (loss 0.4394):  42%|████▏     | 4084/9753 [43:37<1:03:49,  1.48it/s]Training 2/3 epoch (loss 0.6709):  42%|████▏     | 4084/9753 [43:37<1:03:49,  1.48it/s]Training 2/3 epoch (loss 0.6709):  42%|████▏     | 4085/9753 [43:37<1:02:30,  1.51it/s]Training 2/3 epoch (loss 0.4782):  42%|████▏     | 4085/9753 [43:38<1:02:30,  1.51it/s]Training 2/3 epoch (loss 0.4782):  42%|████▏     | 4086/9753 [43:38<1:01:26,  1.54it/s]Training 2/3 epoch (loss 0.7680):  42%|████▏     | 4086/9753 [43:39<1:01:26,  1.54it/s]Training 2/3 epoch (loss 0.7680):  42%|████▏     | 4087/9753 [43:39<1:01:03,  1.55it/s]Training 2/3 epoch (loss 0.7582):  42%|████▏     | 4087/9753 [43:39<1:01:03,  1.55it/s]Training 2/3 epoch (loss 0.7582):  42%|████▏     | 4088/9753 [43:39<1:00:45,  1.55it/s]Training 2/3 epoch (loss 0.5720):  42%|████▏     | 4088/9753 [43:40<1:00:45,  1.55it/s]Training 2/3 epoch (loss 0.5720):  42%|████▏     | 4089/9753 [43:40<1:00:09,  1.57it/s]Training 2/3 epoch (loss 0.8396):  42%|████▏     | 4089/9753 [43:41<1:00:09,  1.57it/s]Training 2/3 epoch (loss 0.8396):  42%|████▏     | 4090/9753 [43:41<59:12,  1.59it/s]  Training 2/3 epoch (loss 0.7031):  42%|████▏     | 4090/9753 [43:41<59:12,  1.59it/s]Training 2/3 epoch (loss 0.7031):  42%|████▏     | 4091/9753 [43:41<58:09,  1.62it/s]Training 2/3 epoch (loss 0.6782):  42%|████▏     | 4091/9753 [43:42<58:09,  1.62it/s]Training 2/3 epoch (loss 0.6782):  42%|████▏     | 4092/9753 [43:42<59:20,  1.59it/s]Training 2/3 epoch (loss 0.7831):  42%|████▏     | 4092/9753 [43:43<59:20,  1.59it/s]Training 2/3 epoch (loss 0.7831):  42%|████▏     | 4093/9753 [43:43<1:07:14,  1.40it/s]Training 2/3 epoch (loss 0.8623):  42%|████▏     | 4093/9753 [43:43<1:07:14,  1.40it/s]Training 2/3 epoch (loss 0.8623):  42%|████▏     | 4094/9753 [43:43<1:03:05,  1.50it/s]Training 2/3 epoch (loss 0.6942):  42%|████▏     | 4094/9753 [43:44<1:03:05,  1.50it/s]Training 2/3 epoch (loss 0.6942):  42%|████▏     | 4095/9753 [43:44<1:03:23,  1.49it/s]Training 2/3 epoch (loss 0.6247):  42%|████▏     | 4095/9753 [43:45<1:03:23,  1.49it/s]Training 2/3 epoch (loss 0.6247):  42%|████▏     | 4096/9753 [43:45<1:05:42,  1.43it/s]Training 2/3 epoch (loss 0.8145):  42%|████▏     | 4096/9753 [43:45<1:05:42,  1.43it/s]Training 2/3 epoch (loss 0.8145):  42%|████▏     | 4097/9753 [43:45<1:05:54,  1.43it/s]Training 2/3 epoch (loss 0.7654):  42%|████▏     | 4097/9753 [43:46<1:05:54,  1.43it/s]Training 2/3 epoch (loss 0.7654):  42%|████▏     | 4098/9753 [43:46<1:02:16,  1.51it/s]Training 2/3 epoch (loss 0.6249):  42%|████▏     | 4098/9753 [43:47<1:02:16,  1.51it/s]Training 2/3 epoch (loss 0.6249):  42%|████▏     | 4099/9753 [43:47<1:07:07,  1.40it/s]Training 2/3 epoch (loss 0.6474):  42%|████▏     | 4099/9753 [43:47<1:07:07,  1.40it/s]Training 2/3 epoch (loss 0.6474):  42%|████▏     | 4100/9753 [43:47<1:02:22,  1.51it/s]Training 2/3 epoch (loss 0.5258):  42%|████▏     | 4100/9753 [43:48<1:02:22,  1.51it/s]Training 2/3 epoch (loss 0.5258):  42%|████▏     | 4101/9753 [43:48<1:07:40,  1.39it/s]Training 2/3 epoch (loss 0.4713):  42%|████▏     | 4101/9753 [43:49<1:07:40,  1.39it/s]Training 2/3 epoch (loss 0.4713):  42%|████▏     | 4102/9753 [43:49<1:03:16,  1.49it/s]Training 2/3 epoch (loss 0.5262):  42%|████▏     | 4102/9753 [43:49<1:03:16,  1.49it/s]Training 2/3 epoch (loss 0.5262):  42%|████▏     | 4103/9753 [43:49<59:46,  1.58it/s]  Training 2/3 epoch (loss 0.5998):  42%|████▏     | 4103/9753 [43:50<59:46,  1.58it/s]Training 2/3 epoch (loss 0.5998):  42%|████▏     | 4104/9753 [43:50<57:54,  1.63it/s]Training 2/3 epoch (loss 0.7145):  42%|████▏     | 4104/9753 [43:50<57:54,  1.63it/s]Training 2/3 epoch (loss 0.7145):  42%|████▏     | 4105/9753 [43:50<56:46,  1.66it/s]Training 2/3 epoch (loss 0.5857):  42%|████▏     | 4105/9753 [43:51<56:46,  1.66it/s]Training 2/3 epoch (loss 0.5857):  42%|████▏     | 4106/9753 [43:51<55:03,  1.71it/s]Training 2/3 epoch (loss 0.7279):  42%|████▏     | 4106/9753 [43:52<55:03,  1.71it/s]Training 2/3 epoch (loss 0.7279):  42%|████▏     | 4107/9753 [43:52<59:11,  1.59it/s]Training 2/3 epoch (loss 0.7467):  42%|████▏     | 4107/9753 [43:52<59:11,  1.59it/s]Training 2/3 epoch (loss 0.7467):  42%|████▏     | 4108/9753 [43:52<1:00:26,  1.56it/s]Training 2/3 epoch (loss 0.6799):  42%|████▏     | 4108/9753 [43:53<1:00:26,  1.56it/s]Training 2/3 epoch (loss 0.6799):  42%|████▏     | 4109/9753 [43:53<58:02,  1.62it/s]  Training 2/3 epoch (loss 0.7628):  42%|████▏     | 4109/9753 [43:54<58:02,  1.62it/s]Training 2/3 epoch (loss 0.7628):  42%|████▏     | 4110/9753 [43:54<57:31,  1.63it/s]Training 2/3 epoch (loss 0.5821):  42%|████▏     | 4110/9753 [43:54<57:31,  1.63it/s]Training 2/3 epoch (loss 0.5821):  42%|████▏     | 4111/9753 [43:54<57:34,  1.63it/s]Training 2/3 epoch (loss 0.6355):  42%|████▏     | 4111/9753 [43:55<57:34,  1.63it/s]Training 2/3 epoch (loss 0.6355):  42%|████▏     | 4112/9753 [43:55<59:19,  1.58it/s]Training 2/3 epoch (loss 0.5374):  42%|████▏     | 4112/9753 [43:55<59:19,  1.58it/s]Training 2/3 epoch (loss 0.5374):  42%|████▏     | 4113/9753 [43:55<56:53,  1.65it/s]Training 2/3 epoch (loss 0.5570):  42%|████▏     | 4113/9753 [43:56<56:53,  1.65it/s]Training 2/3 epoch (loss 0.5570):  42%|████▏     | 4114/9753 [43:56<54:51,  1.71it/s]Training 2/3 epoch (loss 0.7460):  42%|████▏     | 4114/9753 [43:57<54:51,  1.71it/s]Training 2/3 epoch (loss 0.7460):  42%|████▏     | 4115/9753 [43:57<55:40,  1.69it/s]Training 2/3 epoch (loss 0.9649):  42%|████▏     | 4115/9753 [43:57<55:40,  1.69it/s]Training 2/3 epoch (loss 0.9649):  42%|████▏     | 4116/9753 [43:57<59:09,  1.59it/s]Training 2/3 epoch (loss 0.8448):  42%|████▏     | 4116/9753 [43:58<59:09,  1.59it/s]Training 2/3 epoch (loss 0.8448):  42%|████▏     | 4117/9753 [43:58<57:43,  1.63it/s]Training 2/3 epoch (loss 0.7955):  42%|████▏     | 4117/9753 [43:59<57:43,  1.63it/s]Training 2/3 epoch (loss 0.7955):  42%|████▏     | 4118/9753 [43:59<1:00:13,  1.56it/s]Training 2/3 epoch (loss 0.8327):  42%|████▏     | 4118/9753 [43:59<1:00:13,  1.56it/s]Training 2/3 epoch (loss 0.8327):  42%|████▏     | 4119/9753 [43:59<1:00:07,  1.56it/s]Training 2/3 epoch (loss 0.6916):  42%|████▏     | 4119/9753 [44:00<1:00:07,  1.56it/s]Training 2/3 epoch (loss 0.6916):  42%|████▏     | 4120/9753 [44:00<1:04:14,  1.46it/s]Training 2/3 epoch (loss 0.8340):  42%|████▏     | 4120/9753 [44:01<1:04:14,  1.46it/s]Training 2/3 epoch (loss 0.8340):  42%|████▏     | 4121/9753 [44:01<1:02:41,  1.50it/s]Training 2/3 epoch (loss 0.6295):  42%|████▏     | 4121/9753 [44:01<1:02:41,  1.50it/s]Training 2/3 epoch (loss 0.6295):  42%|████▏     | 4122/9753 [44:01<1:01:19,  1.53it/s]Training 2/3 epoch (loss 0.6620):  42%|████▏     | 4122/9753 [44:02<1:01:19,  1.53it/s]Training 2/3 epoch (loss 0.6620):  42%|████▏     | 4123/9753 [44:02<1:00:32,  1.55it/s]Training 2/3 epoch (loss 0.7405):  42%|████▏     | 4123/9753 [44:02<1:00:32,  1.55it/s]Training 2/3 epoch (loss 0.7405):  42%|████▏     | 4124/9753 [44:02<1:00:06,  1.56it/s]Training 2/3 epoch (loss 0.6659):  42%|████▏     | 4124/9753 [44:03<1:00:06,  1.56it/s]Training 2/3 epoch (loss 0.6659):  42%|████▏     | 4125/9753 [44:03<1:01:31,  1.52it/s]Training 2/3 epoch (loss 0.8163):  42%|████▏     | 4125/9753 [44:04<1:01:31,  1.52it/s]Training 2/3 epoch (loss 0.8163):  42%|████▏     | 4126/9753 [44:04<1:09:46,  1.34it/s]Training 2/3 epoch (loss 0.9009):  42%|████▏     | 4126/9753 [44:05<1:09:46,  1.34it/s]Training 2/3 epoch (loss 0.9009):  42%|████▏     | 4127/9753 [44:05<1:10:30,  1.33it/s]Training 2/3 epoch (loss 0.8793):  42%|████▏     | 4127/9753 [44:06<1:10:30,  1.33it/s]Training 2/3 epoch (loss 0.8793):  42%|████▏     | 4128/9753 [44:06<1:10:09,  1.34it/s]Training 2/3 epoch (loss 0.6694):  42%|████▏     | 4128/9753 [44:06<1:10:09,  1.34it/s]Training 2/3 epoch (loss 0.6694):  42%|████▏     | 4129/9753 [44:06<1:06:21,  1.41it/s]Training 2/3 epoch (loss 0.5622):  42%|████▏     | 4129/9753 [44:07<1:06:21,  1.41it/s]Training 2/3 epoch (loss 0.5622):  42%|████▏     | 4130/9753 [44:07<1:02:28,  1.50it/s]Training 2/3 epoch (loss 0.7837):  42%|████▏     | 4130/9753 [44:07<1:02:28,  1.50it/s]Training 2/3 epoch (loss 0.7837):  42%|████▏     | 4131/9753 [44:07<59:09,  1.58it/s]  Training 2/3 epoch (loss 0.8517):  42%|████▏     | 4131/9753 [44:08<59:09,  1.58it/s]Training 2/3 epoch (loss 0.8517):  42%|████▏     | 4132/9753 [44:08<56:48,  1.65it/s]Training 2/3 epoch (loss 0.4421):  42%|████▏     | 4132/9753 [44:08<56:48,  1.65it/s]Training 2/3 epoch (loss 0.4421):  42%|████▏     | 4133/9753 [44:08<55:07,  1.70it/s]Training 2/3 epoch (loss 0.7999):  42%|████▏     | 4133/9753 [44:09<55:07,  1.70it/s]Training 2/3 epoch (loss 0.7999):  42%|████▏     | 4134/9753 [44:09<55:11,  1.70it/s]Training 2/3 epoch (loss 0.8970):  42%|████▏     | 4134/9753 [44:10<55:11,  1.70it/s]Training 2/3 epoch (loss 0.8970):  42%|████▏     | 4135/9753 [44:10<54:11,  1.73it/s]Training 2/3 epoch (loss 0.7091):  42%|████▏     | 4135/9753 [44:10<54:11,  1.73it/s]Training 2/3 epoch (loss 0.7091):  42%|████▏     | 4136/9753 [44:10<53:33,  1.75it/s]Training 2/3 epoch (loss 0.8847):  42%|████▏     | 4136/9753 [44:11<53:33,  1.75it/s]Training 2/3 epoch (loss 0.8847):  42%|████▏     | 4137/9753 [44:11<53:17,  1.76it/s]Training 2/3 epoch (loss 0.6875):  42%|████▏     | 4137/9753 [44:11<53:17,  1.76it/s]Training 2/3 epoch (loss 0.6875):  42%|████▏     | 4138/9753 [44:11<56:40,  1.65it/s]Training 2/3 epoch (loss 0.7001):  42%|████▏     | 4138/9753 [44:12<56:40,  1.65it/s]Training 2/3 epoch (loss 0.7001):  42%|████▏     | 4139/9753 [44:12<57:51,  1.62it/s]Training 2/3 epoch (loss 0.6797):  42%|████▏     | 4139/9753 [44:13<57:51,  1.62it/s]Training 2/3 epoch (loss 0.6797):  42%|████▏     | 4140/9753 [44:13<58:13,  1.61it/s]Training 2/3 epoch (loss 0.4507):  42%|████▏     | 4140/9753 [44:13<58:13,  1.61it/s]Training 2/3 epoch (loss 0.4507):  42%|████▏     | 4141/9753 [44:13<57:26,  1.63it/s]Training 2/3 epoch (loss 0.6457):  42%|████▏     | 4141/9753 [44:14<57:26,  1.63it/s]Training 2/3 epoch (loss 0.6457):  42%|████▏     | 4142/9753 [44:14<59:59,  1.56it/s]Training 2/3 epoch (loss 0.5707):  42%|████▏     | 4142/9753 [44:15<59:59,  1.56it/s]Training 2/3 epoch (loss 0.5707):  42%|████▏     | 4143/9753 [44:15<58:11,  1.61it/s]Training 2/3 epoch (loss 0.6461):  42%|████▏     | 4143/9753 [44:15<58:11,  1.61it/s]Training 2/3 epoch (loss 0.6461):  42%|████▏     | 4144/9753 [44:15<1:00:07,  1.55it/s]Training 2/3 epoch (loss 0.5914):  42%|████▏     | 4144/9753 [44:16<1:00:07,  1.55it/s]Training 2/3 epoch (loss 0.5914):  42%|████▏     | 4145/9753 [44:16<1:01:40,  1.52it/s]Training 2/3 epoch (loss 0.6914):  42%|████▏     | 4145/9753 [44:17<1:01:40,  1.52it/s]Training 2/3 epoch (loss 0.6914):  43%|████▎     | 4146/9753 [44:17<1:01:09,  1.53it/s]Training 2/3 epoch (loss 0.6366):  43%|████▎     | 4146/9753 [44:17<1:01:09,  1.53it/s]Training 2/3 epoch (loss 0.6366):  43%|████▎     | 4147/9753 [44:17<59:30,  1.57it/s]  Training 2/3 epoch (loss 0.8173):  43%|████▎     | 4147/9753 [44:18<59:30,  1.57it/s]Training 2/3 epoch (loss 0.8173):  43%|████▎     | 4148/9753 [44:18<58:06,  1.61it/s]Training 2/3 epoch (loss 0.8785):  43%|████▎     | 4148/9753 [44:18<58:06,  1.61it/s]Training 2/3 epoch (loss 0.8785):  43%|████▎     | 4149/9753 [44:18<59:00,  1.58it/s]Training 2/3 epoch (loss 0.8521):  43%|████▎     | 4149/9753 [44:19<59:00,  1.58it/s]Training 2/3 epoch (loss 0.8521):  43%|████▎     | 4150/9753 [44:19<59:31,  1.57it/s]Training 2/3 epoch (loss 0.9541):  43%|████▎     | 4150/9753 [44:20<59:31,  1.57it/s]Training 2/3 epoch (loss 0.9541):  43%|████▎     | 4151/9753 [44:20<1:01:49,  1.51it/s]Training 2/3 epoch (loss 0.7659):  43%|████▎     | 4151/9753 [44:21<1:01:49,  1.51it/s]Training 2/3 epoch (loss 0.7659):  43%|████▎     | 4152/9753 [44:21<1:06:29,  1.40it/s]Training 2/3 epoch (loss 0.8138):  43%|████▎     | 4152/9753 [44:22<1:06:29,  1.40it/s]Training 2/3 epoch (loss 0.8138):  43%|████▎     | 4153/9753 [44:22<1:12:01,  1.30it/s]Training 2/3 epoch (loss 0.7816):  43%|████▎     | 4153/9753 [44:22<1:12:01,  1.30it/s]Training 2/3 epoch (loss 0.7816):  43%|████▎     | 4154/9753 [44:22<1:06:58,  1.39it/s]Training 2/3 epoch (loss 0.6857):  43%|████▎     | 4154/9753 [44:23<1:06:58,  1.39it/s]Training 2/3 epoch (loss 0.6857):  43%|████▎     | 4155/9753 [44:23<1:02:54,  1.48it/s]Training 2/3 epoch (loss 0.8231):  43%|████▎     | 4155/9753 [44:23<1:02:54,  1.48it/s]Training 2/3 epoch (loss 0.8231):  43%|████▎     | 4156/9753 [44:23<1:00:19,  1.55it/s]Training 2/3 epoch (loss 0.7570):  43%|████▎     | 4156/9753 [44:24<1:00:19,  1.55it/s]Training 2/3 epoch (loss 0.7570):  43%|████▎     | 4157/9753 [44:24<59:48,  1.56it/s]  Training 2/3 epoch (loss 0.6527):  43%|████▎     | 4157/9753 [44:24<59:48,  1.56it/s]Training 2/3 epoch (loss 0.6527):  43%|████▎     | 4158/9753 [44:24<58:50,  1.58it/s]Training 2/3 epoch (loss 0.6081):  43%|████▎     | 4158/9753 [44:25<58:50,  1.58it/s]Training 2/3 epoch (loss 0.6081):  43%|████▎     | 4159/9753 [44:25<58:04,  1.61it/s]Training 2/3 epoch (loss 0.8224):  43%|████▎     | 4159/9753 [44:26<58:04,  1.61it/s]Training 2/3 epoch (loss 0.8224):  43%|████▎     | 4160/9753 [44:26<1:01:40,  1.51it/s]Training 2/3 epoch (loss 0.6189):  43%|████▎     | 4160/9753 [44:26<1:01:40,  1.51it/s]Training 2/3 epoch (loss 0.6189):  43%|████▎     | 4161/9753 [44:26<1:00:34,  1.54it/s]Training 2/3 epoch (loss 0.6820):  43%|████▎     | 4161/9753 [44:27<1:00:34,  1.54it/s]Training 2/3 epoch (loss 0.6820):  43%|████▎     | 4162/9753 [44:27<1:01:17,  1.52it/s]Training 2/3 epoch (loss 0.6853):  43%|████▎     | 4162/9753 [44:28<1:01:17,  1.52it/s]Training 2/3 epoch (loss 0.6853):  43%|████▎     | 4163/9753 [44:28<1:00:15,  1.55it/s]Training 2/3 epoch (loss 0.5804):  43%|████▎     | 4163/9753 [44:28<1:00:15,  1.55it/s]Training 2/3 epoch (loss 0.5804):  43%|████▎     | 4164/9753 [44:28<57:42,  1.61it/s]  Training 2/3 epoch (loss 0.7029):  43%|████▎     | 4164/9753 [44:29<57:42,  1.61it/s]Training 2/3 epoch (loss 0.7029):  43%|████▎     | 4165/9753 [44:29<55:50,  1.67it/s]Training 2/3 epoch (loss 0.6021):  43%|████▎     | 4165/9753 [44:29<55:50,  1.67it/s]Training 2/3 epoch (loss 0.6021):  43%|████▎     | 4166/9753 [44:29<54:31,  1.71it/s]Training 2/3 epoch (loss 0.7866):  43%|████▎     | 4166/9753 [44:30<54:31,  1.71it/s]Training 2/3 epoch (loss 0.7866):  43%|████▎     | 4167/9753 [44:30<57:32,  1.62it/s]Training 2/3 epoch (loss 0.6864):  43%|████▎     | 4167/9753 [44:31<57:32,  1.62it/s]Training 2/3 epoch (loss 0.6864):  43%|████▎     | 4168/9753 [44:31<56:09,  1.66it/s]Training 2/3 epoch (loss 0.5573):  43%|████▎     | 4168/9753 [44:31<56:09,  1.66it/s]Training 2/3 epoch (loss 0.5573):  43%|████▎     | 4169/9753 [44:31<54:36,  1.70it/s]Training 2/3 epoch (loss 0.7059):  43%|████▎     | 4169/9753 [44:32<54:36,  1.70it/s]Training 2/3 epoch (loss 0.7059):  43%|████▎     | 4170/9753 [44:32<56:14,  1.65it/s]Training 2/3 epoch (loss 0.6215):  43%|████▎     | 4170/9753 [44:32<56:14,  1.65it/s]Training 2/3 epoch (loss 0.6215):  43%|████▎     | 4171/9753 [44:32<55:14,  1.68it/s]Training 2/3 epoch (loss 0.7595):  43%|████▎     | 4171/9753 [44:33<55:14,  1.68it/s]Training 2/3 epoch (loss 0.7595):  43%|████▎     | 4172/9753 [44:33<57:01,  1.63it/s]Training 2/3 epoch (loss 0.8765):  43%|████▎     | 4172/9753 [44:34<57:01,  1.63it/s]Training 2/3 epoch (loss 0.8765):  43%|████▎     | 4173/9753 [44:34<55:38,  1.67it/s]Training 2/3 epoch (loss 0.7073):  43%|████▎     | 4173/9753 [44:34<55:38,  1.67it/s]Training 2/3 epoch (loss 0.7073):  43%|████▎     | 4174/9753 [44:34<54:57,  1.69it/s]Training 2/3 epoch (loss 0.7522):  43%|████▎     | 4174/9753 [44:35<54:57,  1.69it/s]Training 2/3 epoch (loss 0.7522):  43%|████▎     | 4175/9753 [44:35<53:51,  1.73it/s]Training 2/3 epoch (loss 0.5613):  43%|████▎     | 4175/9753 [44:35<53:51,  1.73it/s]Training 2/3 epoch (loss 0.5613):  43%|████▎     | 4176/9753 [44:35<56:41,  1.64it/s]Training 2/3 epoch (loss 0.6840):  43%|████▎     | 4176/9753 [44:36<56:41,  1.64it/s]Training 2/3 epoch (loss 0.6840):  43%|████▎     | 4177/9753 [44:36<55:03,  1.69it/s]Training 2/3 epoch (loss 0.7456):  43%|████▎     | 4177/9753 [44:37<55:03,  1.69it/s]Training 2/3 epoch (loss 0.7456):  43%|████▎     | 4178/9753 [44:37<59:07,  1.57it/s]Training 2/3 epoch (loss 0.6012):  43%|████▎     | 4178/9753 [44:37<59:07,  1.57it/s]Training 2/3 epoch (loss 0.6012):  43%|████▎     | 4179/9753 [44:37<57:24,  1.62it/s]Training 2/3 epoch (loss 0.6760):  43%|████▎     | 4179/9753 [44:38<57:24,  1.62it/s]Training 2/3 epoch (loss 0.6760):  43%|████▎     | 4180/9753 [44:38<1:01:03,  1.52it/s]Training 2/3 epoch (loss 0.9094):  43%|████▎     | 4180/9753 [44:39<1:01:03,  1.52it/s]Training 2/3 epoch (loss 0.9094):  43%|████▎     | 4181/9753 [44:39<1:02:35,  1.48it/s]Training 2/3 epoch (loss 0.6982):  43%|████▎     | 4181/9753 [44:39<1:02:35,  1.48it/s]Training 2/3 epoch (loss 0.6982):  43%|████▎     | 4182/9753 [44:39<59:13,  1.57it/s]  Training 2/3 epoch (loss 0.7639):  43%|████▎     | 4182/9753 [44:40<59:13,  1.57it/s]Training 2/3 epoch (loss 0.7639):  43%|████▎     | 4183/9753 [44:40<58:24,  1.59it/s]Training 2/3 epoch (loss 0.4839):  43%|████▎     | 4183/9753 [44:41<58:24,  1.59it/s]Training 2/3 epoch (loss 0.4839):  43%|████▎     | 4184/9753 [44:41<56:28,  1.64it/s]Training 2/3 epoch (loss 0.6279):  43%|████▎     | 4184/9753 [44:41<56:28,  1.64it/s]Training 2/3 epoch (loss 0.6279):  43%|████▎     | 4185/9753 [44:41<55:28,  1.67it/s]Training 2/3 epoch (loss 0.8711):  43%|████▎     | 4185/9753 [44:42<55:28,  1.67it/s]Training 2/3 epoch (loss 0.8711):  43%|████▎     | 4186/9753 [44:42<54:03,  1.72it/s]Training 2/3 epoch (loss 0.8371):  43%|████▎     | 4186/9753 [44:42<54:03,  1.72it/s]Training 2/3 epoch (loss 0.8371):  43%|████▎     | 4187/9753 [44:42<55:39,  1.67it/s]Training 2/3 epoch (loss 0.9587):  43%|████▎     | 4187/9753 [44:43<55:39,  1.67it/s]Training 2/3 epoch (loss 0.9587):  43%|████▎     | 4188/9753 [44:43<54:29,  1.70it/s]Training 2/3 epoch (loss 0.6107):  43%|████▎     | 4188/9753 [44:44<54:29,  1.70it/s]Training 2/3 epoch (loss 0.6107):  43%|████▎     | 4189/9753 [44:44<56:22,  1.64it/s]Training 2/3 epoch (loss 0.5374):  43%|████▎     | 4189/9753 [44:44<56:22,  1.64it/s]Training 2/3 epoch (loss 0.5374):  43%|████▎     | 4190/9753 [44:44<54:40,  1.70it/s]Training 2/3 epoch (loss 0.4485):  43%|████▎     | 4190/9753 [44:45<54:40,  1.70it/s]Training 2/3 epoch (loss 0.4485):  43%|████▎     | 4191/9753 [44:45<56:08,  1.65it/s]Training 2/3 epoch (loss 0.7383):  43%|████▎     | 4191/9753 [44:45<56:08,  1.65it/s]Training 2/3 epoch (loss 0.7383):  43%|████▎     | 4192/9753 [44:45<58:39,  1.58it/s]Training 2/3 epoch (loss 0.6327):  43%|████▎     | 4192/9753 [44:46<58:39,  1.58it/s]Training 2/3 epoch (loss 0.6327):  43%|████▎     | 4193/9753 [44:46<58:57,  1.57it/s]Training 2/3 epoch (loss 0.5756):  43%|████▎     | 4193/9753 [44:47<58:57,  1.57it/s]Training 2/3 epoch (loss 0.5756):  43%|████▎     | 4194/9753 [44:47<56:47,  1.63it/s]Training 2/3 epoch (loss 0.8734):  43%|████▎     | 4194/9753 [44:47<56:47,  1.63it/s]Training 2/3 epoch (loss 0.8734):  43%|████▎     | 4195/9753 [44:47<57:08,  1.62it/s]Training 2/3 epoch (loss 0.4896):  43%|████▎     | 4195/9753 [44:48<57:08,  1.62it/s]Training 2/3 epoch (loss 0.4896):  43%|████▎     | 4196/9753 [44:48<57:47,  1.60it/s]Training 2/3 epoch (loss 0.5267):  43%|████▎     | 4196/9753 [44:49<57:47,  1.60it/s]Training 2/3 epoch (loss 0.5267):  43%|████▎     | 4197/9753 [44:49<58:08,  1.59it/s]Training 2/3 epoch (loss 0.5342):  43%|████▎     | 4197/9753 [44:49<58:08,  1.59it/s]Training 2/3 epoch (loss 0.5342):  43%|████▎     | 4198/9753 [44:49<1:01:09,  1.51it/s]Training 2/3 epoch (loss 0.7752):  43%|████▎     | 4198/9753 [44:50<1:01:09,  1.51it/s]Training 2/3 epoch (loss 0.7752):  43%|████▎     | 4199/9753 [44:50<58:51,  1.57it/s]  Training 2/3 epoch (loss 0.5727):  43%|████▎     | 4199/9753 [44:50<58:51,  1.57it/s]Training 2/3 epoch (loss 0.5727):  43%|████▎     | 4200/9753 [44:50<56:36,  1.64it/s]Training 2/3 epoch (loss 0.8497):  43%|████▎     | 4200/9753 [44:51<56:36,  1.64it/s]Training 2/3 epoch (loss 0.8497):  43%|████▎     | 4201/9753 [44:51<54:59,  1.68it/s]Training 2/3 epoch (loss 0.6536):  43%|████▎     | 4201/9753 [44:51<54:59,  1.68it/s]Training 2/3 epoch (loss 0.6536):  43%|████▎     | 4202/9753 [44:51<53:43,  1.72it/s]Training 2/3 epoch (loss 0.5893):  43%|████▎     | 4202/9753 [44:52<53:43,  1.72it/s]Training 2/3 epoch (loss 0.5893):  43%|████▎     | 4203/9753 [44:52<54:44,  1.69it/s]Training 2/3 epoch (loss 0.6072):  43%|████▎     | 4203/9753 [44:53<54:44,  1.69it/s]Training 2/3 epoch (loss 0.6072):  43%|████▎     | 4204/9753 [44:53<53:58,  1.71it/s]Training 2/3 epoch (loss 0.6601):  43%|████▎     | 4204/9753 [44:53<53:58,  1.71it/s]Training 2/3 epoch (loss 0.6601):  43%|████▎     | 4205/9753 [44:53<53:05,  1.74it/s]Training 2/3 epoch (loss 0.7320):  43%|████▎     | 4205/9753 [44:54<53:05,  1.74it/s]Training 2/3 epoch (loss 0.7320):  43%|████▎     | 4206/9753 [44:54<55:35,  1.66it/s]Training 2/3 epoch (loss 0.6749):  43%|████▎     | 4206/9753 [44:54<55:35,  1.66it/s]Training 2/3 epoch (loss 0.6749):  43%|████▎     | 4207/9753 [44:54<56:06,  1.65it/s]Training 2/3 epoch (loss 0.7002):  43%|████▎     | 4207/9753 [44:55<56:06,  1.65it/s]Training 2/3 epoch (loss 0.7002):  43%|███���▎     | 4208/9753 [44:55<58:42,  1.57it/s]Training 2/3 epoch (loss 0.4539):  43%|████▎     | 4208/9753 [44:56<58:42,  1.57it/s]Training 2/3 epoch (loss 0.4539):  43%|████▎     | 4209/9753 [44:56<58:13,  1.59it/s]Training 2/3 epoch (loss 0.5439):  43%|████▎     | 4209/9753 [44:56<58:13,  1.59it/s]Training 2/3 epoch (loss 0.5439):  43%|████▎     | 4210/9753 [44:56<58:27,  1.58it/s]Training 2/3 epoch (loss 0.8670):  43%|████▎     | 4210/9753 [44:57<58:27,  1.58it/s]Training 2/3 epoch (loss 0.8670):  43%|████▎     | 4211/9753 [44:57<59:01,  1.57it/s]Training 2/3 epoch (loss 0.6668):  43%|████▎     | 4211/9753 [44:58<59:01,  1.57it/s]Training 2/3 epoch (loss 0.6668):  43%|████▎     | 4212/9753 [44:58<58:48,  1.57it/s]Training 2/3 epoch (loss 0.7057):  43%|████▎     | 4212/9753 [44:58<58:48,  1.57it/s]Training 2/3 epoch (loss 0.7057):  43%|████▎     | 4213/9753 [44:58<58:29,  1.58it/s]Training 2/3 epoch (loss 0.8080):  43%|████▎     | 4213/9753 [44:59<58:29,  1.58it/s]Training 2/3 epoch (loss 0.8080):  43%|████▎     | 4214/9753 [44:59<58:27,  1.58it/s]Training 2/3 epoch (loss 0.6929):  43%|████▎     | 4214/9753 [45:00<58:27,  1.58it/s]Training 2/3 epoch (loss 0.6929):  43%|████▎     | 4215/9753 [45:00<59:23,  1.55it/s]Training 2/3 epoch (loss 0.9132):  43%|████▎     | 4215/9753 [45:01<59:23,  1.55it/s]Training 2/3 epoch (loss 0.9132):  43%|████▎     | 4216/9753 [45:01<1:04:49,  1.42it/s]Training 2/3 epoch (loss 0.5358):  43%|████▎     | 4216/9753 [45:01<1:04:49,  1.42it/s]Training 2/3 epoch (loss 0.5358):  43%|████▎     | 4217/9753 [45:01<1:03:29,  1.45it/s]Training 2/3 epoch (loss 0.7243):  43%|████▎     | 4217/9753 [45:02<1:03:29,  1.45it/s]Training 2/3 epoch (loss 0.7243):  43%|████▎     | 4218/9753 [45:02<1:01:49,  1.49it/s]Training 2/3 epoch (loss 0.6332):  43%|████▎     | 4218/9753 [45:02<1:01:49,  1.49it/s]Training 2/3 epoch (loss 0.6332):  43%|████▎     | 4219/9753 [45:02<1:01:05,  1.51it/s]Training 2/3 epoch (loss 0.6667):  43%|████▎     | 4219/9753 [45:03<1:01:05,  1.51it/s]Training 2/3 epoch (loss 0.6667):  43%|████▎     | 4220/9753 [45:03<1:03:19,  1.46it/s]Training 2/3 epoch (loss 0.8110):  43%|████▎     | 4220/9753 [45:04<1:03:19,  1.46it/s]Training 2/3 epoch (loss 0.8110):  43%|████▎     | 4221/9753 [45:04<1:03:35,  1.45it/s]Training 2/3 epoch (loss 0.9743):  43%|████▎     | 4221/9753 [45:04<1:03:35,  1.45it/s]Training 2/3 epoch (loss 0.9743):  43%|████▎     | 4222/9753 [45:04<1:01:05,  1.51it/s]Training 2/3 epoch (loss 0.6842):  43%|████▎     | 4222/9753 [45:05<1:01:05,  1.51it/s]Training 2/3 epoch (loss 0.6842):  43%|████▎     | 4223/9753 [45:05<1:01:06,  1.51it/s]Training 2/3 epoch (loss 0.5179):  43%|████▎     | 4223/9753 [45:06<1:01:06,  1.51it/s]Training 2/3 epoch (loss 0.5179):  43%|████▎     | 4224/9753 [45:06<1:02:16,  1.48it/s]Training 2/3 epoch (loss 0.7173):  43%|████▎     | 4224/9753 [45:07<1:02:16,  1.48it/s]Training 2/3 epoch (loss 0.7173):  43%|████▎     | 4225/9753 [45:07<1:03:43,  1.45it/s]Training 2/3 epoch (loss 0.6128):  43%|████▎     | 4225/9753 [45:07<1:03:43,  1.45it/s]Training 2/3 epoch (loss 0.6128):  43%|████▎     | 4226/9753 [45:07<1:00:47,  1.52it/s]Training 2/3 epoch (loss 0.8019):  43%|████▎     | 4226/9753 [45:08<1:00:47,  1.52it/s]Training 2/3 epoch (loss 0.8019):  43%|████▎     | 4227/9753 [45:08<1:03:19,  1.45it/s]Training 2/3 epoch (loss 0.3675):  43%|████▎     | 4227/9753 [45:09<1:03:19,  1.45it/s]Training 2/3 epoch (loss 0.3675):  43%|████▎     | 4228/9753 [45:09<1:01:32,  1.50it/s]Training 2/3 epoch (loss 0.6559):  43%|████▎     | 4228/9753 [45:09<1:01:32,  1.50it/s]Training 2/3 epoch (loss 0.6559):  43%|████▎     | 4229/9753 [45:09<1:05:06,  1.41it/s]Training 2/3 epoch (loss 0.8148):  43%|████▎     | 4229/9753 [45:10<1:05:06,  1.41it/s]Training 2/3 epoch (loss 0.8148):  43%|████▎     | 4230/9753 [45:10<1:10:43,  1.30it/s]Training 2/3 epoch (loss 0.5820):  43%|████▎     | 4230/9753 [45:11<1:10:43,  1.30it/s]Training 2/3 epoch (loss 0.5820):  43%|████▎     | 4231/9753 [45:11<1:05:34,  1.40it/s]Training 2/3 epoch (loss 0.8376):  43%|████▎     | 4231/9753 [45:11<1:05:34,  1.40it/s]Training 2/3 epoch (loss 0.8376):  43%|████▎     | 4232/9753 [45:11<1:01:52,  1.49it/s]Training 2/3 epoch (loss 0.3909):  43%|████▎     | 4232/9753 [45:12<1:01:52,  1.49it/s]Training 2/3 epoch (loss 0.3909):  43%|████▎     | 4233/9753 [45:12<59:14,  1.55it/s]  Training 2/3 epoch (loss 0.8090):  43%|████▎     | 4233/9753 [45:13<59:14,  1.55it/s]Training 2/3 epoch (loss 0.8090):  43%|████▎     | 4234/9753 [45:13<59:01,  1.56it/s]Training 2/3 epoch (loss 0.5971):  43%|████▎     | 4234/9753 [45:14<59:01,  1.56it/s]Training 2/3 epoch (loss 0.5971):  43%|████▎     | 4235/9753 [45:14<1:07:11,  1.37it/s]Training 2/3 epoch (loss 0.6863):  43%|████▎     | 4235/9753 [45:14<1:07:11,  1.37it/s]Training 2/3 epoch (loss 0.6863):  43%|████▎     | 4236/9753 [45:14<1:06:44,  1.38it/s]Training 2/3 epoch (loss 0.7108):  43%|████▎     | 4236/9753 [45:15<1:06:44,  1.38it/s]Training 2/3 epoch (loss 0.7108):  43%|████▎     | 4237/9753 [45:15<1:02:21,  1.47it/s]Training 2/3 epoch (loss 0.6532):  43%|████▎     | 4237/9753 [45:15<1:02:21,  1.47it/s]Training 2/3 epoch (loss 0.6532):  43%|████▎     | 4238/9753 [45:15<58:49,  1.56it/s]  Training 2/3 epoch (loss 0.8025):  43%|████▎     | 4238/9753 [45:16<58:49,  1.56it/s]Training 2/3 epoch (loss 0.8025):  43%|████▎     | 4239/9753 [45:16<56:40,  1.62it/s]Training 2/3 epoch (loss 0.5979):  43%|████▎     | 4239/9753 [45:17<56:40,  1.62it/s]Training 2/3 epoch (loss 0.5979):  43%|████▎     | 4240/9753 [45:17<58:16,  1.58it/s]Training 2/3 epoch (loss 0.7815):  43%|████▎     | 4240/9753 [45:17<58:16,  1.58it/s]Training 2/3 epoch (loss 0.7815):  43%|████▎     | 4241/9753 [45:17<56:37,  1.62it/s]Training 2/3 epoch (loss 0.8934):  43%|████▎     | 4241/9753 [45:18<56:37,  1.62it/s]Training 2/3 epoch (loss 0.8934):  43%|████▎     | 4242/9753 [45:18<55:01,  1.67it/s]Training 2/3 epoch (loss 0.7294):  43%|████▎     | 4242/9753 [45:18<55:01,  1.67it/s]Training 2/3 epoch (loss 0.7294):  44%|████▎     | 4243/9753 [45:18<54:15,  1.69it/s]Training 2/3 epoch (loss 0.8239):  44%|████▎     | 4243/9753 [45:19<54:15,  1.69it/s]Training 2/3 epoch (loss 0.8239):  44%|████▎     | 4244/9753 [45:19<1:01:02,  1.50it/s]Training 2/3 epoch (loss 0.7802):  44%|████▎     | 4244/9753 [45:20<1:01:02,  1.50it/s]Training 2/3 epoch (loss 0.7802):  44%|████▎     | 4245/9753 [45:20<58:33,  1.57it/s]  Training 2/3 epoch (loss 0.7207):  44%|████▎     | 4245/9753 [45:20<58:33,  1.57it/s]Training 2/3 epoch (loss 0.7207):  44%|████▎     | 4246/9753 [45:20<56:11,  1.63it/s]Training 2/3 epoch (loss 0.5382):  44%|████▎     | 4246/9753 [45:21<56:11,  1.63it/s]Training 2/3 epoch (loss 0.5382):  44%|████▎     | 4247/9753 [45:21<54:14,  1.69it/s]Training 2/3 epoch (loss 0.5982):  44%|████▎     | 4247/9753 [45:21<54:14,  1.69it/s]Training 2/3 epoch (loss 0.5982):  44%|████▎     | 4248/9753 [45:21<56:11,  1.63it/s]Training 2/3 epoch (loss 0.7326):  44%|████▎     | 4248/9753 [45:22<56:11,  1.63it/s]Training 2/3 epoch (loss 0.7326):  44%|████▎     | 4249/9753 [45:22<57:10,  1.60it/s]Training 2/3 epoch (loss 0.5718):  44%|████▎     | 4249/9753 [45:23<57:10,  1.60it/s]Training 2/3 epoch (loss 0.5718):  44%|████▎     | 4250/9753 [45:23<55:09,  1.66it/s]Training 2/3 epoch (loss 0.9607):  44%|████▎     | 4250/9753 [45:23<55:09,  1.66it/s]Training 2/3 epoch (loss 0.9607):  44%|████▎     | 4251/9753 [45:23<56:12,  1.63it/s]Training 2/3 epoch (loss 0.6633):  44%|████▎     | 4251/9753 [45:24<56:12,  1.63it/s]Training 2/3 epoch (loss 0.6633):  44%|████▎     | 4252/9753 [45:24<58:46,  1.56it/s]Training 2/3 epoch (loss 0.6166):  44%|████▎     | 4252/9753 [45:25<58:46,  1.56it/s]Training 2/3 epoch (loss 0.6166):  44%|████▎     | 4253/9753 [45:25<1:03:25,  1.45it/s]Training 2/3 epoch (loss 0.6694):  44%|████▎     | 4253/9753 [45:25<1:03:25,  1.45it/s]Training 2/3 epoch (loss 0.6694):  44%|████▎     | 4254/9753 [45:25<1:00:25,  1.52it/s]Training 2/3 epoch (loss 0.7220):  44%|████▎     | 4254/9753 [45:26<1:00:25,  1.52it/s]Training 2/3 epoch (loss 0.7220):  44%|████▎     | 4255/9753 [45:26<58:15,  1.57it/s]  Training 2/3 epoch (loss 0.8989):  44%|████▎     | 4255/9753 [45:27<58:15,  1.57it/s]Training 2/3 epoch (loss 0.8989):  44%|████▎     | 4256/9753 [45:27<1:03:58,  1.43it/s]Training 2/3 epoch (loss 0.6982):  44%|████▎     | 4256/9753 [45:27<1:03:58,  1.43it/s]Training 2/3 epoch (loss 0.6982):  44%|████▎     | 4257/9753 [45:27<1:00:05,  1.52it/s]Training 2/3 epoch (loss 0.5395):  44%|████▎     | 4257/9753 [45:28<1:00:05,  1.52it/s]Training 2/3 epoch (loss 0.5395):  44%|████▎     | 4258/9753 [45:28<57:06,  1.60it/s]  Training 2/3 epoch (loss 0.5502):  44%|████▎     | 4258/9753 [45:29<57:06,  1.60it/s]Training 2/3 epoch (loss 0.5502):  44%|████▎     | 4259/9753 [45:29<55:14,  1.66it/s]Training 2/3 epoch (loss 0.7948):  44%|████▎     | 4259/9753 [45:29<55:14,  1.66it/s]Training 2/3 epoch (loss 0.7948):  44%|████▎     | 4260/9753 [45:29<53:47,  1.70it/s]Training 2/3 epoch (loss 0.7311):  44%|████▎     | 4260/9753 [45:30<53:47,  1.70it/s]Training 2/3 epoch (loss 0.7311):  44%|████▎     | 4261/9753 [45:30<59:33,  1.54it/s]Training 2/3 epoch (loss 0.7920):  44%|████▎     | 4261/9753 [45:31<59:33,  1.54it/s]Training 2/3 epoch (loss 0.7920):  44%|████▎     | 4262/9753 [45:31<1:00:53,  1.50it/s]Training 2/3 epoch (loss 0.8381):  44%|████▎     | 4262/9753 [45:31<1:00:53,  1.50it/s]Training 2/3 epoch (loss 0.8381):  44%|████▎     | 4263/9753 [45:31<58:25,  1.57it/s]  Training 2/3 epoch (loss 0.8134):  44%|████▎     | 4263/9753 [45:32<58:25,  1.57it/s]Training 2/3 epoch (loss 0.8134):  44%|████▎     | 4264/9753 [45:32<1:02:18,  1.47it/s]Training 2/3 epoch (loss 0.9472):  44%|████▎     | 4264/9753 [45:33<1:02:18,  1.47it/s]Training 2/3 epoch (loss 0.9472):  44%|████▎     | 4265/9753 [45:33<1:02:36,  1.46it/s]Training 2/3 epoch (loss 0.6608):  44%|████▎     | 4265/9753 [45:33<1:02:36,  1.46it/s]Training 2/3 epoch (loss 0.6608):  44%|████▎     | 4266/9753 [45:33<1:01:11,  1.49it/s]Training 2/3 epoch (loss 0.6108):  44%|████▎     | 4266/9753 [45:34<1:01:11,  1.49it/s]Training 2/3 epoch (loss 0.6108):  44%|████▍     | 4267/9753 [45:34<59:58,  1.52it/s]  Training 2/3 epoch (loss 0.8457):  44%|████▍     | 4267/9753 [45:34<59:58,  1.52it/s]Training 2/3 epoch (loss 0.8457):  44%|████▍     | 4268/9753 [45:34<58:53,  1.55it/s]Training 2/3 epoch (loss 0.7860):  44%|████▍     | 4268/9753 [45:35<58:53,  1.55it/s]Training 2/3 epoch (loss 0.7860):  44%|████▍     | 4269/9753 [45:35<56:25,  1.62it/s]Training 2/3 epoch (loss 0.5140):  44%|████▍     | 4269/9753 [45:36<56:25,  1.62it/s]Training 2/3 epoch (loss 0.5140):  44%|████▍     | 4270/9753 [45:36<57:14,  1.60it/s]Training 2/3 epoch (loss 0.6730):  44%|████▍     | 4270/9753 [45:36<57:14,  1.60it/s]Training 2/3 epoch (loss 0.6730):  44%|████▍     | 4271/9753 [45:36<55:20,  1.65it/s]Training 2/3 epoch (loss 0.5594):  44%|████▍     | 4271/9753 [45:37<55:20,  1.65it/s]Training 2/3 epoch (loss 0.5594):  44%|████▍     | 4272/9753 [45:37<57:26,  1.59it/s]Training 2/3 epoch (loss 0.6348):  44%|████▍     | 4272/9753 [45:38<57:26,  1.59it/s]Training 2/3 epoch (loss 0.6348):  44%|████▍     | 4273/9753 [45:38<56:45,  1.61it/s]Training 2/3 epoch (loss 0.6185):  44%|████▍     | 4273/9753 [45:38<56:45,  1.61it/s]Training 2/3 epoch (loss 0.6185):  44%|████▍     | 4274/9753 [45:38<56:23,  1.62it/s]Training 2/3 epoch (loss 0.5913):  44%|████▍     | 4274/9753 [45:39<56:23,  1.62it/s]Training 2/3 epoch (loss 0.5913):  44%|████▍     | 4275/9753 [45:39<56:07,  1.63it/s]Training 2/3 epoch (loss 0.6720):  44%|████▍     | 4275/9753 [45:39<56:07,  1.63it/s]Training 2/3 epoch (loss 0.6720):  44%|████▍     | 4276/9753 [45:39<58:11,  1.57it/s]Training 2/3 epoch (loss 0.6311):  44%|████▍     | 4276/9753 [45:40<58:11,  1.57it/s]Training 2/3 epoch (loss 0.6311):  44%|████▍     | 4277/9753 [45:40<56:22,  1.62it/s]Training 2/3 epoch (loss 0.7617):  44%|████▍     | 4277/9753 [45:41<56:22,  1.62it/s]Training 2/3 epoch (loss 0.7617):  44%|████▍     | 4278/9753 [45:41<55:14,  1.65it/s]Training 2/3 epoch (loss 0.6455):  44%|████▍     | 4278/9753 [45:41<55:14,  1.65it/s]Training 2/3 epoch (loss 0.6455):  44%|████▍     | 4279/9753 [45:41<56:17,  1.62it/s]Training 2/3 epoch (loss 0.6661):  44%|████▍     | 4279/9753 [45:42<56:17,  1.62it/s]Training 2/3 epoch (loss 0.6661):  44%|████▍     | 4280/9753 [45:42<58:57,  1.55it/s]Training 2/3 epoch (loss 0.7594):  44%|████▍     | 4280/9753 [45:43<58:57,  1.55it/s]Training 2/3 epoch (loss 0.7594):  44%|████▍     | 4281/9753 [45:43<1:03:40,  1.43it/s]Training 2/3 epoch (loss 0.7430):  44%|████▍     | 4281/9753 [45:43<1:03:40,  1.43it/s]Training 2/3 epoch (loss 0.7430):  44%|████▍     | 4282/9753 [45:43<1:01:19,  1.49it/s]Training 2/3 epoch (loss 0.8748):  44%|████▍     | 4282/9753 [45:44<1:01:19,  1.49it/s]Training 2/3 epoch (loss 0.8748):  44%|████▍     | 4283/9753 [45:44<1:01:33,  1.48it/s]Training 2/3 epoch (loss 0.6591):  44%|████▍     | 4283/9753 [45:45<1:01:33,  1.48it/s]Training 2/3 epoch (loss 0.6591):  44%|████▍     | 4284/9753 [45:45<58:10,  1.57it/s]  Training 2/3 epoch (loss 0.7448):  44%|████▍     | 4284/9753 [45:45<58:10,  1.57it/s]Training 2/3 epoch (loss 0.7448):  44%|████▍     | 4285/9753 [45:45<59:18,  1.54it/s]Training 2/3 epoch (loss 0.7684):  44%|████▍     | 4285/9753 [45:46<59:18,  1.54it/s]Training 2/3 epoch (loss 0.7684):  44%|████▍     | 4286/9753 [45:46<57:08,  1.59it/s]Training 2/3 epoch (loss 0.6238):  44%|████▍     | 4286/9753 [45:47<57:08,  1.59it/s]Training 2/3 epoch (loss 0.6238):  44%|████▍     | 4287/9753 [45:47<57:43,  1.58it/s]Training 2/3 epoch (loss 0.5780):  44%|████▍     | 4287/9753 [45:47<57:43,  1.58it/s]Training 2/3 epoch (loss 0.5780):  44%|████▍     | 4288/9753 [45:47<1:00:18,  1.51it/s]Training 2/3 epoch (loss 0.6013):  44%|████▍     | 4288/9753 [45:48<1:00:18,  1.51it/s]Training 2/3 epoch (loss 0.6013):  44%|████▍     | 4289/9753 [45:48<57:55,  1.57it/s]  Training 2/3 epoch (loss 0.6667):  44%|████▍     | 4289/9753 [45:48<57:55,  1.57it/s]Training 2/3 epoch (loss 0.6667):  44%|████▍     | 4290/9753 [45:48<57:39,  1.58it/s]Training 2/3 epoch (loss 0.5106):  44%|████▍     | 4290/9753 [45:49<57:39,  1.58it/s]Training 2/3 epoch (loss 0.5106):  44%|████▍     | 4291/9753 [45:49<55:49,  1.63it/s]Training 2/3 epoch (loss 0.6119):  44%|████▍     | 4291/9753 [45:50<55:49,  1.63it/s]Training 2/3 epoch (loss 0.6119):  44%|████▍     | 4292/9753 [45:50<56:19,  1.62it/s]Training 2/3 epoch (loss 0.8263):  44%|████▍     | 4292/9753 [45:50<56:19,  1.62it/s]Training 2/3 epoch (loss 0.8263):  44%|████▍     | 4293/9753 [45:50<54:36,  1.67it/s]Training 2/3 epoch (loss 0.6729):  44%|████▍     | 4293/9753 [45:51<54:36,  1.67it/s]Training 2/3 epoch (loss 0.6729):  44%|████▍     | 4294/9753 [45:51<53:27,  1.70it/s]Training 2/3 epoch (loss 0.8116):  44%|████▍     | 4294/9753 [45:51<53:27,  1.70it/s]Training 2/3 epoch (loss 0.8116):  44%|████▍     | 4295/9753 [45:51<55:37,  1.64it/s]Training 2/3 epoch (loss 0.7814):  44%|████▍     | 4295/9753 [45:52<55:37,  1.64it/s]Training 2/3 epoch (loss 0.7814):  44%|████▍     | 4296/9753 [45:52<58:16,  1.56it/s]Training 2/3 epoch (loss 0.5861):  44%|████▍     | 4296/9753 [45:53<58:16,  1.56it/s]Training 2/3 epoch (loss 0.5861):  44%|████▍     | 4297/9753 [45:53<55:56,  1.63it/s]Training 2/3 epoch (loss 0.5928):  44%|████▍     | 4297/9753 [45:53<55:56,  1.63it/s]Training 2/3 epoch (loss 0.5928):  44%|████▍     | 4298/9753 [45:53<54:40,  1.66it/s]Training 2/3 epoch (loss 0.4344):  44%|████▍     | 4298/9753 [45:54<54:40,  1.66it/s]Training 2/3 epoch (loss 0.4344):  44%|████▍     | 4299/9753 [45:54<53:37,  1.69it/s]Training 2/3 epoch (loss 0.4684):  44%|████▍     | 4299/9753 [45:54<53:37,  1.69it/s]Training 2/3 epoch (loss 0.4684):  44%|████▍     | 4300/9753 [45:54<52:48,  1.72it/s]Training 2/3 epoch (loss 0.6016):  44%|████▍     | 4300/9753 [45:55<52:48,  1.72it/s]Training 2/3 epoch (loss 0.6016):  44%|████▍     | 4301/9753 [45:55<53:33,  1.70it/s]Training 2/3 epoch (loss 0.4618):  44%|████▍     | 4301/9753 [45:56<53:33,  1.70it/s]Training 2/3 epoch (loss 0.4618):  44%|████▍     | 4302/9753 [45:56<52:56,  1.72it/s]Training 2/3 epoch (loss 0.7084):  44%|████▍     | 4302/9753 [45:56<52:56,  1.72it/s]Training 2/3 epoch (loss 0.7084):  44%|████▍     | 4303/9753 [45:56<55:40,  1.63it/s]Training 2/3 epoch (loss 0.8425):  44%|████▍     | 4303/9753 [45:57<55:40,  1.63it/s]Training 2/3 epoch (loss 0.8425):  44%|████▍     | 4304/9753 [45:57<1:03:54,  1.42it/s]Training 2/3 epoch (loss 0.5083):  44%|████▍     | 4304/9753 [45:58<1:03:54,  1.42it/s]Training 2/3 epoch (loss 0.5083):  44%|████▍     | 4305/9753 [45:58<1:01:23,  1.48it/s]Training 2/3 epoch (loss 0.7920):  44%|████▍     | 4305/9753 [45:58<1:01:23,  1.48it/s]Training 2/3 epoch (loss 0.7920):  44%|████▍     | 4306/9753 [45:58<59:51,  1.52it/s]  Training 2/3 epoch (loss 0.8500):  44%|████▍     | 4306/9753 [45:59<59:51,  1.52it/s]Training 2/3 epoch (loss 0.8500):  44%|████▍     | 4307/9753 [45:59<1:00:56,  1.49it/s]Training 2/3 epoch (loss 0.8476):  44%|████▍     | 4307/9753 [46:00<1:00:56,  1.49it/s]Training 2/3 epoch (loss 0.8476):  44%|████▍     | 4308/9753 [46:00<1:00:46,  1.49it/s]Training 2/3 epoch (loss 0.5901):  44%|████▍     | 4308/9753 [46:00<1:00:46,  1.49it/s]Training 2/3 epoch (loss 0.5901):  44%|████▍     | 4309/9753 [46:00<59:20,  1.53it/s]  Training 2/3 epoch (loss 0.7179):  44%|████▍     | 4309/9753 [46:01<59:20,  1.53it/s]Training 2/3 epoch (loss 0.7179):  44%|████▍     | 4310/9753 [46:01<58:13,  1.56it/s]Training 2/3 epoch (loss 0.4499):  44%|████▍     | 4310/9753 [46:02<58:13,  1.56it/s]Training 2/3 epoch (loss 0.4499):  44%|████▍     | 4311/9753 [46:02<57:26,  1.58it/s]Training 2/3 epoch (loss 0.6194):  44%|████▍     | 4311/9753 [46:02<57:26,  1.58it/s]Training 2/3 epoch (loss 0.6194):  44%|████▍     | 4312/9753 [46:02<56:12,  1.61it/s]Training 2/3 epoch (loss 0.6169):  44%|████▍     | 4312/9753 [46:03<56:12,  1.61it/s]Training 2/3 epoch (loss 0.6169):  44%|████▍     | 4313/9753 [46:03<55:47,  1.63it/s]Training 2/3 epoch (loss 0.7075):  44%|████▍     | 4313/9753 [46:03<55:47,  1.63it/s]Training 2/3 epoch (loss 0.7075):  44%|████▍     | 4314/9753 [46:03<54:06,  1.68it/s]Training 2/3 epoch (loss 0.4434):  44%|████▍     | 4314/9753 [46:04<54:06,  1.68it/s]Training 2/3 epoch (loss 0.4434):  44%|████▍     | 4315/9753 [46:04<52:46,  1.72it/s]Training 2/3 epoch (loss 0.7384):  44%|████▍     | 4315/9753 [46:04<52:46,  1.72it/s]Training 2/3 epoch (loss 0.7384):  44%|████▍     | 4316/9753 [46:04<52:13,  1.74it/s]Training 2/3 epoch (loss 0.7520):  44%|████▍     | 4316/9753 [46:05<52:13,  1.74it/s]Training 2/3 epoch (loss 0.7520):  44%|████▍     | 4317/9753 [46:05<54:47,  1.65it/s]Training 2/3 epoch (loss 0.7719):  44%|████▍     | 4317/9753 [46:06<54:47,  1.65it/s]Training 2/3 epoch (loss 0.7719):  44%|████▍     | 4318/9753 [46:06<56:27,  1.60it/s]Training 2/3 epoch (loss 0.7769):  44%|████▍     | 4318/9753 [46:06<56:27,  1.60it/s]Training 2/3 epoch (loss 0.7769):  44%|████▍     | 4319/9753 [46:06<54:51,  1.65it/s]Training 2/3 epoch (loss 0.8368):  44%|████▍     | 4319/9753 [46:07<54:51,  1.65it/s]Training 2/3 epoch (loss 0.8368):  44%|████▍     | 4320/9753 [46:07<58:23,  1.55it/s]Training 2/3 epoch (loss 0.7675):  44%|████▍     | 4320/9753 [46:08<58:23,  1.55it/s]Training 2/3 epoch (loss 0.7675):  44%|████▍     | 4321/9753 [46:08<57:39,  1.57it/s]Training 2/3 epoch (loss 0.5444):  44%|████▍     | 4321/9753 [46:08<57:39,  1.57it/s]Training 2/3 epoch (loss 0.5444):  44%|████▍     | 4322/9753 [46:08<57:02,  1.59it/s]Training 2/3 epoch (loss 0.4339):  44%|████▍     | 4322/9753 [46:09<57:02,  1.59it/s]Training 2/3 epoch (loss 0.4339):  44%|████▍     | 4323/9753 [46:09<56:36,  1.60it/s]Training 2/3 epoch (loss 0.6159):  44%|████▍     | 4323/9753 [46:10<56:36,  1.60it/s]Training 2/3 epoch (loss 0.6159):  44%|████▍     | 4324/9753 [46:10<56:20,  1.61it/s]Training 2/3 epoch (loss 0.6966):  44%|████▍     | 4324/9753 [46:10<56:20,  1.61it/s]Training 2/3 epoch (loss 0.6966):  44%|████▍     | 4325/9753 [46:10<56:16,  1.61it/s]Training 2/3 epoch (loss 0.9309):  44%|████▍     | 4325/9753 [46:11<56:16,  1.61it/s]Training 2/3 epoch (loss 0.9309):  44%|████▍     | 4326/9753 [46:11<1:04:46,  1.40it/s]Training 2/3 epoch (loss 0.7398):  44%|████▍     | 4326/9753 [46:12<1:04:46,  1.40it/s]Training 2/3 epoch (loss 0.7398):  44%|████▍     | 4327/9753 [46:12<1:02:30,  1.45it/s]Training 2/3 epoch (loss 0.8979):  44%|████▍     | 4327/9753 [46:12<1:02:30,  1.45it/s]Training 2/3 epoch (loss 0.8979):  44%|████▍     | 4328/9753 [46:12<1:02:21,  1.45it/s]Training 2/3 epoch (loss 0.7846):  44%|████▍     | 4328/9753 [46:13<1:02:21,  1.45it/s]Training 2/3 epoch (loss 0.7846):  44%|████▍     | 4329/9753 [46:13<1:00:13,  1.50it/s]Training 2/3 epoch (loss 0.8231):  44%|████▍     | 4329/9753 [46:14<1:00:13,  1.50it/s]Training 2/3 epoch (loss 0.8231):  44%|████▍     | 4330/9753 [46:14<57:56,  1.56it/s]  Training 2/3 epoch (loss 0.8230):  44%|████▍     | 4330/9753 [46:14<57:56,  1.56it/s]Training 2/3 epoch (loss 0.8230):  44%|████▍     | 4331/9753 [46:14<57:41,  1.57it/s]Training 2/3 epoch (loss 0.6865):  44%|████▍     | 4331/9753 [46:15<57:41,  1.57it/s]Training 2/3 epoch (loss 0.6865):  44%|████▍     | 4332/9753 [46:15<56:48,  1.59it/s]Training 2/3 epoch (loss 0.8307):  44%|████▍     | 4332/9753 [46:16<56:48,  1.59it/s]Training 2/3 epoch (loss 0.8307):  44%|████▍     | 4333/9753 [46:16<59:23,  1.52it/s]Training 2/3 epoch (loss 0.6509):  44%|████▍     | 4333/9753 [46:16<59:23,  1.52it/s]Training 2/3 epoch (loss 0.6509):  44%|████▍     | 4334/9753 [46:16<58:08,  1.55it/s]Training 2/3 epoch (loss 0.6339):  44%|████▍     | 4334/9753 [46:17<58:08,  1.55it/s]Training 2/3 epoch (loss 0.6339):  44%|████▍     | 4335/9753 [46:17<55:41,  1.62it/s]Training 2/3 epoch (loss 0.7813):  44%|████▍     | 4335/9753 [46:17<55:41,  1.62it/s]Training 2/3 epoch (loss 0.7813):  44%|████▍     | 4336/9753 [46:17<58:35,  1.54it/s]Training 2/3 epoch (loss 0.7766):  44%|████▍     | 4336/9753 [46:18<58:35,  1.54it/s]Training 2/3 epoch (loss 0.7766):  44%|████▍     | 4337/9753 [46:18<56:32,  1.60it/s]Training 2/3 epoch (loss 0.8534):  44%|████▍     | 4337/9753 [46:19<56:32,  1.60it/s]Training 2/3 epoch (loss 0.8534):  44%|████▍     | 4338/9753 [46:19<54:48,  1.65it/s]Training 2/3 epoch (loss 0.7923):  44%|████▍     | 4338/9753 [46:19<54:48,  1.65it/s]Training 2/3 epoch (loss 0.7923):  44%|████▍     | 4339/9753 [46:19<53:48,  1.68it/s]Training 2/3 epoch (loss 0.6245):  44%|████▍     | 4339/9753 [46:20<53:48,  1.68it/s]Training 2/3 epoch (loss 0.6245):  44%|████▍     | 4340/9753 [46:20<53:17,  1.69it/s]Training 2/3 epoch (loss 0.6326):  44%|████▍     | 4340/9753 [46:20<53:17,  1.69it/s]Training 2/3 epoch (loss 0.6326):  45%|████▍     | 4341/9753 [46:20<52:52,  1.71it/s]Training 2/3 epoch (loss 0.7182):  45%|████▍     | 4341/9753 [46:21<52:52,  1.71it/s]Training 2/3 epoch (loss 0.7182):  45%|████▍     | 4342/9753 [46:21<52:27,  1.72it/s]Training 2/3 epoch (loss 0.6142):  45%|████▍     | 4342/9753 [46:21<52:27,  1.72it/s]Training 2/3 epoch (loss 0.6142):  45%|████▍     | 4343/9753 [46:21<51:55,  1.74it/s]Training 2/3 epoch (loss 0.7642):  45%|████▍     | 4343/9753 [46:22<51:55,  1.74it/s]Training 2/3 epoch (loss 0.7642):  45%|████▍     | 4344/9753 [46:22<56:15,  1.60it/s]Training 2/3 epoch (loss 0.7640):  45%|████▍     | 4344/9753 [46:23<56:15,  1.60it/s]Training 2/3 epoch (loss 0.7640):  45%|████▍     | 4345/9753 [46:23<55:29,  1.62it/s]Training 2/3 epoch (loss 0.8177):  45%|████▍     | 4345/9753 [46:23<55:29,  1.62it/s]Training 2/3 epoch (loss 0.8177):  45%|████▍     | 4346/9753 [46:23<56:00,  1.61it/s]Training 2/3 epoch (loss 0.9626):  45%|████▍     | 4346/9753 [46:24<56:00,  1.61it/s]Training 2/3 epoch (loss 0.9626):  45%|████▍     | 4347/9753 [46:24<58:18,  1.55it/s]Training 2/3 epoch (loss 0.6963):  45%|████▍     | 4347/9753 [46:25<58:18,  1.55it/s]Training 2/3 epoch (loss 0.6963):  45%|████▍     | 4348/9753 [46:25<57:36,  1.56it/s]Training 2/3 epoch (loss 0.9085):  45%|████▍     | 4348/9753 [46:25<57:36,  1.56it/s]Training 2/3 epoch (loss 0.9085):  45%|████▍     | 4349/9753 [46:25<55:55,  1.61it/s]Training 2/3 epoch (loss 0.4496):  45%|████▍     | 4349/9753 [46:26<55:55,  1.61it/s]Training 2/3 epoch (loss 0.4496):  45%|████▍     | 4350/9753 [46:26<54:31,  1.65it/s]Training 2/3 epoch (loss 0.6550):  45%|████▍     | 4350/9753 [46:26<54:31,  1.65it/s]Training 2/3 epoch (loss 0.6550):  45%|████▍     | 4351/9753 [46:26<53:22,  1.69it/s]Training 2/3 epoch (loss 0.8852):  45%|████▍     | 4351/9753 [46:27<53:22,  1.69it/s]Training 2/3 epoch (loss 0.8852):  45%|████▍     | 4352/9753 [46:27<56:27,  1.59it/s]Training 2/3 epoch (loss 0.6703):  45%|████▍     | 4352/9753 [46:28<56:27,  1.59it/s]Training 2/3 epoch (loss 0.6703):  45%|████▍     | 4353/9753 [46:28<57:37,  1.56it/s]Training 2/3 epoch (loss 0.5433):  45%|████▍     | 4353/9753 [46:28<57:37,  1.56it/s]Training 2/3 epoch (loss 0.5433):  45%|████▍     | 4354/9753 [46:28<55:56,  1.61it/s]Training 2/3 epoch (loss 0.5887):  45%|████▍     | 4354/9753 [46:29<55:56,  1.61it/s]Training 2/3 epoch (loss 0.5887):  45%|████▍     | 4355/9753 [46:29<54:06,  1.66it/s]Training 2/3 epoch (loss 0.5219):  45%|████▍     | 4355/9753 [46:30<54:06,  1.66it/s]Training 2/3 epoch (loss 0.5219):  45%|████▍     | 4356/9753 [46:30<54:38,  1.65it/s]Training 2/3 epoch (loss 0.6359):  45%|████▍     | 4356/9753 [46:31<54:38,  1.65it/s]Training 2/3 epoch (loss 0.6359):  45%|████▍     | 4357/9753 [46:31<1:02:54,  1.43it/s]Training 2/3 epoch (loss 0.7187):  45%|████▍     | 4357/9753 [46:31<1:02:54,  1.43it/s]Training 2/3 epoch (loss 0.7187):  45%|████▍     | 4358/9753 [46:31<1:04:22,  1.40it/s]Training 2/3 epoch (loss 0.6049):  45%|████▍     | 4358/9753 [46:32<1:04:22,  1.40it/s]Training 2/3 epoch (loss 0.6049):  45%|████▍     | 4359/9753 [46:32<1:00:31,  1.49it/s]Training 2/3 epoch (loss 0.8092):  45%|████▍     | 4359/9753 [46:33<1:00:31,  1.49it/s]Training 2/3 epoch (loss 0.8092):  45%|████▍     | 4360/9753 [46:33<59:32,  1.51it/s]  Training 2/3 epoch (loss 0.6095):  45%|████▍     | 4360/9753 [46:33<59:32,  1.51it/s]Training 2/3 epoch (loss 0.6095):  45%|████▍     | 4361/9753 [46:33<56:50,  1.58it/s]Training 2/3 epoch (loss 0.7378):  45%|████▍     | 4361/9753 [46:34<56:50,  1.58it/s]Training 2/3 epoch (loss 0.7378):  45%|████▍     | 4362/9753 [46:34<54:37,  1.64it/s]Training 2/3 epoch (loss 0.6115):  45%|████▍     | 4362/9753 [46:34<54:37,  1.64it/s]Training 2/3 epoch (loss 0.6115):  45%|████▍     | 4363/9753 [46:34<54:45,  1.64it/s]Training 2/3 epoch (loss 0.4405):  45%|████▍     | 4363/9753 [46:35<54:45,  1.64it/s]Training 2/3 epoch (loss 0.4405):  45%|████▍     | 4364/9753 [46:35<53:29,  1.68it/s]Training 2/3 epoch (loss 0.5407):  45%|████▍     | 4364/9753 [46:36<53:29,  1.68it/s]Training 2/3 epoch (loss 0.5407):  45%|████▍     | 4365/9753 [46:36<1:00:46,  1.48it/s]Training 2/3 epoch (loss 0.6793):  45%|████▍     | 4365/9753 [46:36<1:00:46,  1.48it/s]Training 2/3 epoch (loss 0.6793):  45%|████▍     | 4366/9753 [46:36<57:48,  1.55it/s]  Training 2/3 epoch (loss 0.6406):  45%|████▍     | 4366/9753 [46:37<57:48,  1.55it/s]Training 2/3 epoch (loss 0.6406):  45%|████▍     | 4367/9753 [46:37<57:05,  1.57it/s]Training 2/3 epoch (loss 0.6344):  45%|████▍     | 4367/9753 [46:38<57:05,  1.57it/s]Training 2/3 epoch (loss 0.6344):  45%|████▍     | 4368/9753 [46:38<58:41,  1.53it/s]Training 2/3 epoch (loss 0.6420):  45%|████▍     | 4368/9753 [46:38<58:41,  1.53it/s]Training 2/3 epoch (loss 0.6420):  45%|████▍     | 4369/9753 [46:38<56:57,  1.58it/s]Training 2/3 epoch (loss 0.5582):  45%|████▍     | 4369/9753 [46:39<56:57,  1.58it/s]Training 2/3 epoch (loss 0.5582):  45%|████▍     | 4370/9753 [46:39<56:24,  1.59it/s]Training 2/3 epoch (loss 0.5359):  45%|████▍     | 4370/9753 [46:39<56:24,  1.59it/s]Training 2/3 epoch (loss 0.5359):  45%|████▍     | 4371/9753 [46:39<56:03,  1.60it/s]Training 2/3 epoch (loss 0.6780):  45%|████▍     | 4371/9753 [46:40<56:03,  1.60it/s]Training 2/3 epoch (loss 0.6780):  45%|████▍     | 4372/9753 [46:40<56:01,  1.60it/s]Training 2/3 epoch (loss 0.8257):  45%|████▍     | 4372/9753 [46:41<56:01,  1.60it/s]Training 2/3 epoch (loss 0.8257):  45%|████▍     | 4373/9753 [46:41<55:47,  1.61it/s]Training 2/3 epoch (loss 0.4044):  45%|████▍     | 4373/9753 [46:41<55:47,  1.61it/s]Training 2/3 epoch (loss 0.4044):  45%|████▍     | 4374/9753 [46:41<56:42,  1.58it/s]Training 2/3 epoch (loss 0.6604):  45%|████▍     | 4374/9753 [46:42<56:42,  1.58it/s]Training 2/3 epoch (loss 0.6604):  45%|████▍     | 4375/9753 [46:42<56:22,  1.59it/s]Training 2/3 epoch (loss 0.7739):  45%|████▍     | 4375/9753 [46:43<56:22,  1.59it/s]Training 2/3 epoch (loss 0.7739):  45%|████▍     | 4376/9753 [46:43<1:04:44,  1.38it/s]Training 2/3 epoch (loss 0.6621):  45%|████▍     | 4376/9753 [46:43<1:04:44,  1.38it/s]Training 2/3 epoch (loss 0.6621):  45%|████▍     | 4377/9753 [46:43<1:03:27,  1.41it/s]Training 2/3 epoch (loss 0.6440):  45%|████▍     | 4377/9753 [46:44<1:03:27,  1.41it/s]Training 2/3 epoch (loss 0.6440):  45%|████▍     | 4378/9753 [46:44<1:01:07,  1.47it/s]Training 2/3 epoch (loss 0.5085):  45%|████▍     | 4378/9753 [46:45<1:01:07,  1.47it/s]Training 2/3 epoch (loss 0.5085):  45%|████▍     | 4379/9753 [46:45<1:01:07,  1.47it/s]Training 2/3 epoch (loss 0.8412):  45%|████▍     | 4379/9753 [46:46<1:01:07,  1.47it/s]Training 2/3 epoch (loss 0.8412):  45%|████▍     | 4380/9753 [46:46<1:06:27,  1.35it/s]Training 2/3 epoch (loss 0.8022):  45%|████▍     | 4380/9753 [46:46<1:06:27,  1.35it/s]Training 2/3 epoch (loss 0.8022):  45%|████▍     | 4381/9753 [46:46<1:03:46,  1.40it/s]Training 2/3 epoch (loss 0.8127):  45%|████▍     | 4381/9753 [46:47<1:03:46,  1.40it/s]Training 2/3 epoch (loss 0.8127):  45%|████▍     | 4382/9753 [46:47<1:02:36,  1.43it/s]Training 2/3 epoch (loss 0.7293):  45%|████▍     | 4382/9753 [46:48<1:02:36,  1.43it/s]Training 2/3 epoch (loss 0.7293):  45%|████▍     | 4383/9753 [46:48<1:01:26,  1.46it/s]Training 2/3 epoch (loss 0.8841):  45%|████▍     | 4383/9753 [46:48<1:01:26,  1.46it/s]Training 2/3 epoch (loss 0.8841):  45%|████▍     | 4384/9753 [46:48<1:01:43,  1.45it/s]Training 2/3 epoch (loss 0.9458):  45%|████▍     | 4384/9753 [46:49<1:01:43,  1.45it/s]Training 2/3 epoch (loss 0.9458):  45%|████▍     | 4385/9753 [46:49<1:07:11,  1.33it/s]Training 2/3 epoch (loss 0.6924):  45%|████▍     | 4385/9753 [46:50<1:07:11,  1.33it/s]Training 2/3 epoch (loss 0.6924):  45%|████▍     | 4386/9753 [46:50<1:04:07,  1.39it/s]Training 2/3 epoch (loss 0.7540):  45%|████▍     | 4386/9753 [46:51<1:04:07,  1.39it/s]Training 2/3 epoch (loss 0.7540):  45%|████▍     | 4387/9753 [46:51<1:03:58,  1.40it/s]Training 2/3 epoch (loss 0.7711):  45%|████▍     | 4387/9753 [46:51<1:03:58,  1.40it/s]Training 2/3 epoch (loss 0.7711):  45%|████▍     | 4388/9753 [46:51<1:01:25,  1.46it/s]Training 2/3 epoch (loss 0.8030):  45%|████▍     | 4388/9753 [46:52<1:01:25,  1.46it/s]Training 2/3 epoch (loss 0.8030):  45%|████▌     | 4389/9753 [46:52<58:47,  1.52it/s]  Training 2/3 epoch (loss 0.6363):  45%|████▌     | 4389/9753 [46:53<58:47,  1.52it/s]Training 2/3 epoch (loss 0.6363):  45%|████▌     | 4390/9753 [46:53<1:06:25,  1.35it/s]Training 2/3 epoch (loss 0.6711):  45%|████▌     | 4390/9753 [46:53<1:06:25,  1.35it/s]Training 2/3 epoch (loss 0.6711):  45%|████▌     | 4391/9753 [46:53<1:03:15,  1.41it/s]Training 2/3 epoch (loss 0.7157):  45%|████▌     | 4391/9753 [46:54<1:03:15,  1.41it/s]Training 2/3 epoch (loss 0.7157):  45%|████▌     | 4392/9753 [46:54<1:01:41,  1.45it/s]Training 2/3 epoch (loss 0.6394):  45%|████▌     | 4392/9753 [46:55<1:01:41,  1.45it/s]Training 2/3 epoch (loss 0.6394):  45%|████▌     | 4393/9753 [46:55<59:40,  1.50it/s]  Training 2/3 epoch (loss 0.7890):  45%|████▌     | 4393/9753 [46:55<59:40,  1.50it/s]Training 2/3 epoch (loss 0.7890):  45%|████▌     | 4394/9753 [46:55<58:28,  1.53it/s]Training 2/3 epoch (loss 0.8469):  45%|████▌     | 4394/9753 [46:56<58:28,  1.53it/s]Training 2/3 epoch (loss 0.8469):  45%|████▌     | 4395/9753 [46:56<57:44,  1.55it/s]Training 2/3 epoch (loss 0.6902):  45%|████▌     | 4395/9753 [46:57<57:44,  1.55it/s]Training 2/3 epoch (loss 0.6902):  45%|████▌     | 4396/9753 [46:57<1:02:01,  1.44it/s]Training 2/3 epoch (loss 0.7275):  45%|████▌     | 4396/9753 [46:57<1:02:01,  1.44it/s]Training 2/3 epoch (loss 0.7275):  45%|████▌     | 4397/9753 [46:57<1:04:20,  1.39it/s]Training 2/3 epoch (loss 0.7618):  45%|████▌     | 4397/9753 [46:58<1:04:20,  1.39it/s]Training 2/3 epoch (loss 0.7618):  45%|████▌     | 4398/9753 [46:58<1:03:12,  1.41it/s]Training 2/3 epoch (loss 0.6478):  45%|████▌     | 4398/9753 [46:59<1:03:12,  1.41it/s]Training 2/3 epoch (loss 0.6478):  45%|████▌     | 4399/9753 [46:59<1:02:10,  1.44it/s]Training 2/3 epoch (loss 0.4147):  45%|████▌     | 4399/9753 [47:00<1:02:10,  1.44it/s]Training 2/3 epoch (loss 0.4147):  45%|████▌     | 4400/9753 [47:00<1:04:08,  1.39it/s]Training 2/3 epoch (loss 0.6235):  45%|████▌     | 4400/9753 [47:00<1:04:08,  1.39it/s]Training 2/3 epoch (loss 0.6235):  45%|████▌     | 4401/9753 [47:00<1:01:45,  1.44it/s]Training 2/3 epoch (loss 0.7536):  45%|████▌     | 4401/9753 [47:01<1:01:45,  1.44it/s]Training 2/3 epoch (loss 0.7536):  45%|████▌     | 4402/9753 [47:01<59:48,  1.49it/s]  Training 2/3 epoch (loss 0.6549):  45%|████▌     | 4402/9753 [47:01<59:48,  1.49it/s]Training 2/3 epoch (loss 0.6549):  45%|████▌     | 4403/9753 [47:01<58:25,  1.53it/s]Training 2/3 epoch (loss 0.4419):  45%|████▌     | 4403/9753 [47:02<58:25,  1.53it/s]Training 2/3 epoch (loss 0.4419):  45%|████▌     | 4404/9753 [47:02<1:02:25,  1.43it/s]Training 2/3 epoch (loss 0.8598):  45%|████▌     | 4404/9753 [47:03<1:02:25,  1.43it/s]Training 2/3 epoch (loss 0.8598):  45%|████▌     | 4405/9753 [47:03<58:50,  1.51it/s]  Training 2/3 epoch (loss 0.5677):  45%|████▌     | 4405/9753 [47:03<58:50,  1.51it/s]Training 2/3 epoch (loss 0.5677):  45%|████▌     | 4406/9753 [47:03<57:22,  1.55it/s]Training 2/3 epoch (loss 0.8059):  45%|████▌     | 4406/9753 [47:04<57:22,  1.55it/s]Training 2/3 epoch (loss 0.8059):  45%|████▌     | 4407/9753 [47:04<56:06,  1.59it/s]Training 2/3 epoch (loss 0.6274):  45%|████▌     | 4407/9753 [47:05<56:06,  1.59it/s]Training 2/3 epoch (loss 0.6274):  45%|████▌     | 4408/9753 [47:05<53:58,  1.65it/s]Training 2/3 epoch (loss 0.7325):  45%|████▌     | 4408/9753 [47:05<53:58,  1.65it/s]Training 2/3 epoch (loss 0.7325):  45%|████▌     | 4409/9753 [47:05<53:34,  1.66it/s]Training 2/3 epoch (loss 0.7475):  45%|████▌     | 4409/9753 [47:06<53:34,  1.66it/s]Training 2/3 epoch (loss 0.7475):  45%|████▌     | 4410/9753 [47:06<52:13,  1.71it/s]Training 2/3 epoch (loss 0.5146):  45%|████▌     | 4410/9753 [47:06<52:13,  1.71it/s]Training 2/3 epoch (loss 0.5146):  45%|████▌     | 4411/9753 [47:06<51:11,  1.74it/s]Training 2/3 epoch (loss 0.7806):  45%|████▌     | 4411/9753 [47:07<51:11,  1.74it/s]Training 2/3 epoch (loss 0.7806):  45%|████▌     | 4412/9753 [47:07<54:22,  1.64it/s]Training 2/3 epoch (loss 0.8087):  45%|████▌     | 4412/9753 [47:08<54:22,  1.64it/s]Training 2/3 epoch (loss 0.8087):  45%|████▌     | 4413/9753 [47:08<54:42,  1.63it/s]Training 2/3 epoch (loss 0.6642):  45%|████▌     | 4413/9753 [47:08<54:42,  1.63it/s]Training 2/3 epoch (loss 0.6642):  45%|████▌     | 4414/9753 [47:08<53:29,  1.66it/s]Training 2/3 epoch (loss 0.5302):  45%|████▌     | 4414/9753 [47:09<53:29,  1.66it/s]Training 2/3 epoch (loss 0.5302):  45%|████▌     | 4415/9753 [47:09<53:06,  1.68it/s]Training 2/3 epoch (loss 0.7831):  45%|████▌     | 4415/9753 [47:09<53:06,  1.68it/s]Training 2/3 epoch (loss 0.7831):  45%|████▌     | 4416/9753 [47:09<55:10,  1.61it/s]Training 2/3 epoch (loss 0.8365):  45%|████▌     | 4416/9753 [47:10<55:10,  1.61it/s]Training 2/3 epoch (loss 0.8365):  45%|████▌     | 4417/9753 [47:10<53:27,  1.66it/s]Training 2/3 epoch (loss 0.9426):  45%|████▌     | 4417/9753 [47:11<53:27,  1.66it/s]Training 2/3 epoch (loss 0.9426):  45%|████▌     | 4418/9753 [47:11<52:15,  1.70it/s]Training 2/3 epoch (loss 0.6888):  45%|████▌     | 4418/9753 [47:11<52:15,  1.70it/s]Training 2/3 epoch (loss 0.6888):  45%|████▌     | 4419/9753 [47:11<51:24,  1.73it/s]Training 2/3 epoch (loss 0.8759):  45%|████▌     | 4419/9753 [47:12<51:24,  1.73it/s]Training 2/3 epoch (loss 0.8759):  45%|████▌     | 4420/9753 [47:12<50:41,  1.75it/s]Training 2/3 epoch (loss 0.7272):  45%|████▌     | 4420/9753 [47:12<50:41,  1.75it/s]Training 2/3 epoch (loss 0.7272):  45%|████▌     | 4421/9753 [47:12<51:36,  1.72it/s]Training 2/3 epoch (loss 0.5920):  45%|████▌     | 4421/9753 [47:13<51:36,  1.72it/s]Training 2/3 epoch (loss 0.5920):  45%|████▌     | 4422/9753 [47:13<1:00:45,  1.46it/s]Training 2/3 epoch (loss 0.8955):  45%|████▌     | 4422/9753 [47:14<1:00:45,  1.46it/s]Training 2/3 epoch (loss 0.8955):  45%|████▌     | 4423/9753 [47:14<57:16,  1.55it/s]  Training 2/3 epoch (loss 0.2645):  45%|████▌     | 4423/9753 [47:14<57:16,  1.55it/s]Training 2/3 epoch (loss 0.2645):  45%|████▌     | 4424/9753 [47:14<57:20,  1.55it/s]Training 2/3 epoch (loss 0.8724):  45%|████▌     | 4424/9753 [47:15<57:20,  1.55it/s]Training 2/3 epoch (loss 0.8724):  45%|████▌     | 4425/9753 [47:15<57:53,  1.53it/s]Training 2/3 epoch (loss 0.6561):  45%|████▌     | 4425/9753 [47:16<57:53,  1.53it/s]Training 2/3 epoch (loss 0.6561):  45%|████▌     | 4426/9753 [47:16<55:29,  1.60it/s]Training 2/3 epoch (loss 0.6095):  45%|████▌     | 4426/9753 [47:16<55:29,  1.60it/s]Training 2/3 epoch (loss 0.6095):  45%|████▌     | 4427/9753 [47:16<53:34,  1.66it/s]Training 2/3 epoch (loss 0.6151):  45%|████▌     | 4427/9753 [47:17<53:34,  1.66it/s]Training 2/3 epoch (loss 0.6151):  45%|████▌     | 4428/9753 [47:17<54:39,  1.62it/s]Training 2/3 epoch (loss 0.8096):  45%|████▌     | 4428/9753 [47:17<54:39,  1.62it/s]Training 2/3 epoch (loss 0.8096):  45%|████▌     | 4429/9753 [47:17<53:17,  1.67it/s]Training 2/3 epoch (loss 0.6878):  45%|████▌     | 4429/9753 [47:18<53:17,  1.67it/s]Training 2/3 epoch (loss 0.6878):  45%|████▌     | 4430/9753 [47:18<51:53,  1.71it/s]Training 2/3 epoch (loss 0.7473):  45%|████▌     | 4430/9753 [47:19<51:53,  1.71it/s]Training 2/3 epoch (loss 0.7473):  45%|████▌     | 4431/9753 [47:19<54:16,  1.63it/s]Training 2/3 epoch (loss 0.4987):  45%|████▌     | 4431/9753 [47:19<54:16,  1.63it/s]Training 2/3 epoch (loss 0.4987):  45%|████▌     | 4432/9753 [47:19<56:16,  1.58it/s]Training 2/3 epoch (loss 0.4580):  45%|████▌     | 4432/9753 [47:20<56:16,  1.58it/s]Training 2/3 epoch (loss 0.4580):  45%|████▌     | 4433/9753 [47:20<54:44,  1.62it/s]Training 2/3 epoch (loss 0.6756):  45%|████▌     | 4433/9753 [47:20<54:44,  1.62it/s]Training 2/3 epoch (loss 0.6756):  45%|████▌     | 4434/9753 [47:20<53:01,  1.67it/s]Training 2/3 epoch (loss 0.8867):  45%|████▌     | 4434/9753 [47:21<53:01,  1.67it/s]Training 2/3 epoch (loss 0.8867):  45%|████▌     | 4435/9753 [47:21<54:49,  1.62it/s]Training 2/3 epoch (loss 0.6178):  45%|████▌     | 4435/9753 [47:22<54:49,  1.62it/s]Training 2/3 epoch (loss 0.6178):  45%|████▌     | 4436/9753 [47:22<53:56,  1.64it/s]Training 2/3 epoch (loss 0.5025):  45%|████▌     | 4436/9753 [47:22<53:56,  1.64it/s]Training 2/3 epoch (loss 0.5025):  45%|████▌     | 4437/9753 [47:22<53:10,  1.67it/s]Training 2/3 epoch (loss 0.6446):  45%|████▌     | 4437/9753 [47:23<53:10,  1.67it/s]Training 2/3 epoch (loss 0.6446):  46%|████▌     | 4438/9753 [47:23<52:32,  1.69it/s]Training 2/3 epoch (loss 0.6006):  46%|████▌     | 4438/9753 [47:23<52:32,  1.69it/s]Training 2/3 epoch (loss 0.6006):  46%|████▌     | 4439/9753 [47:23<52:49,  1.68it/s]Training 2/3 epoch (loss 0.8751):  46%|████▌     | 4439/9753 [47:24<52:49,  1.68it/s]Training 2/3 epoch (loss 0.8751):  46%|████▌     | 4440/9753 [47:24<52:24,  1.69it/s]Training 2/3 epoch (loss 1.0063):  46%|████▌     | 4440/9753 [47:25<52:24,  1.69it/s]Training 2/3 epoch (loss 1.0063):  46%|████▌     | 4441/9753 [47:25<54:40,  1.62it/s]Training 2/3 epoch (loss 0.8329):  46%|████▌     | 4441/9753 [47:25<54:40,  1.62it/s]Training 2/3 epoch (loss 0.8329):  46%|████▌     | 4442/9753 [47:25<53:36,  1.65it/s]Training 2/3 epoch (loss 0.7743):  46%|████▌     | 4442/9753 [47:26<53:36,  1.65it/s]Training 2/3 epoch (loss 0.7743):  46%|████▌     | 4443/9753 [47:26<52:46,  1.68it/s]Training 2/3 epoch (loss 0.6252):  46%|████▌     | 4443/9753 [47:26<52:46,  1.68it/s]Training 2/3 epoch (loss 0.6252):  46%|████▌     | 4444/9753 [47:26<51:55,  1.70it/s]Training 2/3 epoch (loss 0.7103):  46%|████▌     | 4444/9753 [47:27<51:55,  1.70it/s]Training 2/3 epoch (loss 0.7103):  46%|████▌     | 4445/9753 [47:27<51:23,  1.72it/s]Training 2/3 epoch (loss 0.4387):  46%|████▌     | 4445/9753 [47:28<51:23,  1.72it/s]Training 2/3 epoch (loss 0.4387):  46%|████▌     | 4446/9753 [47:28<50:44,  1.74it/s]Training 2/3 epoch (loss 1.0986):  46%|████▌     | 4446/9753 [47:28<50:44,  1.74it/s]Training 2/3 epoch (loss 1.0986):  46%|████▌     | 4447/9753 [47:28<50:06,  1.76it/s]Training 2/3 epoch (loss 0.8442):  46%|████▌     | 4447/9753 [47:29<50:06,  1.76it/s]Training 2/3 epoch (loss 0.8442):  46%|████▌     | 4448/9753 [47:29<59:05,  1.50it/s]Training 2/3 epoch (loss 1.0539):  46%|████▌     | 4448/9753 [47:30<59:05,  1.50it/s]Training 2/3 epoch (loss 1.0539):  46%|████▌     | 4449/9753 [47:30<56:09,  1.57it/s]Training 2/3 epoch (loss 0.6119):  46%|████▌     | 4449/9753 [47:30<56:09,  1.57it/s]Training 2/3 epoch (loss 0.6119):  46%|████▌     | 4450/9753 [47:30<53:50,  1.64it/s]Training 2/3 epoch (loss 0.6732):  46%|████▌     | 4450/9753 [47:31<53:50,  1.64it/s]Training 2/3 epoch (loss 0.6732):  46%|████▌     | 4451/9753 [47:31<53:03,  1.67it/s]Training 2/3 epoch (loss 0.9822):  46%|████▌     | 4451/9753 [47:31<53:03,  1.67it/s]Training 2/3 epoch (loss 0.9822):  46%|████▌     | 4452/9753 [47:31<51:34,  1.71it/s]Training 2/3 epoch (loss 0.6881):  46%|████▌     | 4452/9753 [47:32<51:34,  1.71it/s]Training 2/3 epoch (loss 0.6881):  46%|████▌     | 4453/9753 [47:32<50:30,  1.75it/s]Training 2/3 epoch (loss 0.6051):  46%|████▌     | 4453/9753 [47:32<50:30,  1.75it/s]Training 2/3 epoch (loss 0.6051):  46%|████▌     | 4454/9753 [47:32<49:51,  1.77it/s]Training 2/3 epoch (loss 0.7039):  46%|████▌     | 4454/9753 [47:33<49:51,  1.77it/s]Training 2/3 epoch (loss 0.7039):  46%|████▌     | 4455/9753 [47:33<49:16,  1.79it/s]Training 2/3 epoch (loss 0.7647):  46%|████▌     | 4455/9753 [47:33<49:16,  1.79it/s]Training 2/3 epoch (loss 0.7647):  46%|████▌     | 4456/9753 [47:33<49:36,  1.78it/s]Training 2/3 epoch (loss 0.6740):  46%|████▌     | 4456/9753 [47:34<49:36,  1.78it/s]Training 2/3 epoch (loss 0.6740):  46%|████▌     | 4457/9753 [47:34<49:55,  1.77it/s]Training 2/3 epoch (loss 0.5456):  46%|████▌     | 4457/9753 [47:35<49:55,  1.77it/s]Training 2/3 epoch (loss 0.5456):  46%|████▌     | 4458/9753 [47:35<49:34,  1.78it/s]Training 2/3 epoch (loss 0.7582):  46%|████▌     | 4458/9753 [47:35<49:34,  1.78it/s]Training 2/3 epoch (loss 0.7582):  46%|████▌     | 4459/9753 [47:35<52:07,  1.69it/s]Training 2/3 epoch (loss 0.6441):  46%|████▌     | 4459/9753 [47:36<52:07,  1.69it/s]Training 2/3 epoch (loss 0.6441):  46%|████▌     | 4460/9753 [47:36<53:19,  1.65it/s]Training 2/3 epoch (loss 0.5373):  46%|████▌     | 4460/9753 [47:36<53:19,  1.65it/s]Training 2/3 epoch (loss 0.5373):  46%|████▌     | 4461/9753 [47:36<51:48,  1.70it/s]Training 2/3 epoch (loss 1.0061):  46%|████▌     | 4461/9753 [47:37<51:48,  1.70it/s]Training 2/3 epoch (loss 1.0061):  46%|████▌     | 4462/9753 [47:37<50:43,  1.74it/s]Training 2/3 epoch (loss 0.7558):  46%|████▌     | 4462/9753 [47:37<50:43,  1.74it/s]Training 2/3 epoch (loss 0.7558):  46%|████▌     | 4463/9753 [47:37<49:59,  1.76it/s]Training 2/3 epoch (loss 0.7728):  46%|████▌     | 4463/9753 [47:38<49:59,  1.76it/s]Training 2/3 epoch (loss 0.7728):  46%|████▌     | 4464/9753 [47:38<52:40,  1.67it/s]Training 2/3 epoch (loss 0.6786):  46%|████▌     | 4464/9753 [47:39<52:40,  1.67it/s]Training 2/3 epoch (loss 0.6786):  46%|████▌     | 4465/9753 [47:39<51:25,  1.71it/s]Training 2/3 epoch (loss 0.6197):  46%|████▌     | 4465/9753 [47:39<51:25,  1.71it/s]Training 2/3 epoch (loss 0.6197):  46%|████▌     | 4466/9753 [47:39<52:18,  1.68it/s]Training 2/3 epoch (loss 0.6542):  46%|████▌     | 4466/9753 [47:40<52:18,  1.68it/s]Training 2/3 epoch (loss 0.6542):  46%|████▌     | 4467/9753 [47:40<51:00,  1.73it/s]Training 2/3 epoch (loss 0.9785):  46%|████▌     | 4467/9753 [47:41<51:00,  1.73it/s]Training 2/3 epoch (loss 0.9785):  46%|████▌     | 4468/9753 [47:41<54:27,  1.62it/s]Training 2/3 epoch (loss 0.8607):  46%|████▌     | 4468/9753 [47:41<54:27,  1.62it/s]Training 2/3 epoch (loss 0.8607):  46%|████▌     | 4469/9753 [47:41<55:06,  1.60it/s]Training 2/3 epoch (loss 0.7457):  46%|████▌     | 4469/9753 [47:42<55:06,  1.60it/s]Training 2/3 epoch (loss 0.7457):  46%|████▌     | 4470/9753 [47:42<55:46,  1.58it/s]Training 2/3 epoch (loss 0.7416):  46%|████▌     | 4470/9753 [47:42<55:46,  1.58it/s]Training 2/3 epoch (loss 0.7416):  46%|████▌     | 4471/9753 [47:42<54:16,  1.62it/s]Training 2/3 epoch (loss 0.7242):  46%|████▌     | 4471/9753 [47:43<54:16,  1.62it/s]Training 2/3 epoch (loss 0.7242):  46%|████▌     | 4472/9753 [47:43<54:39,  1.61it/s]Training 2/3 epoch (loss 0.9019):  46%|████▌     | 4472/9753 [47:44<54:39,  1.61it/s]Training 2/3 epoch (loss 0.9019):  46%|████▌     | 4473/9753 [47:44<53:05,  1.66it/s]Training 2/3 epoch (loss 0.7743):  46%|████▌     | 4473/9753 [47:44<53:05,  1.66it/s]Training 2/3 epoch (loss 0.7743):  46%|████▌     | 4474/9753 [47:44<51:33,  1.71it/s]Training 2/3 epoch (loss 0.7766):  46%|████▌     | 4474/9753 [47:45<51:33,  1.71it/s]Training 2/3 epoch (loss 0.7766):  46%|████▌     | 4475/9753 [47:45<50:36,  1.74it/s]Training 2/3 epoch (loss 0.4907):  46%|████▌     | 4475/9753 [47:45<50:36,  1.74it/s]Training 2/3 epoch (loss 0.4907):  46%|████▌     | 4476/9753 [47:45<49:53,  1.76it/s]Training 2/3 epoch (loss 0.5769):  46%|████▌     | 4476/9753 [47:46<49:53,  1.76it/s]Training 2/3 epoch (loss 0.5769):  46%|████▌     | 4477/9753 [47:46<52:34,  1.67it/s]Training 2/3 epoch (loss 0.7834):  46%|████▌     | 4477/9753 [47:47<52:34,  1.67it/s]Training 2/3 epoch (loss 0.7834):  46%|████▌     | 4478/9753 [47:47<51:29,  1.71it/s]Training 2/3 epoch (loss 0.5941):  46%|████▌     | 4478/9753 [47:47<51:29,  1.71it/s]Training 2/3 epoch (loss 0.5941):  46%|████▌     | 4479/9753 [47:47<50:21,  1.75it/s]Training 2/3 epoch (loss 0.6479):  46%|████▌     | 4479/9753 [47:48<50:21,  1.75it/s]Training 2/3 epoch (loss 0.6479):  46%|████▌     | 4480/9753 [47:48<52:54,  1.66it/s]Training 2/3 epoch (loss 0.6398):  46%|████▌     | 4480/9753 [47:48<52:54,  1.66it/s]Training 2/3 epoch (loss 0.6398):  46%|████▌     | 4481/9753 [47:48<51:32,  1.70it/s]Training 2/3 epoch (loss 0.5849):  46%|████▌     | 4481/9753 [47:49<51:32,  1.70it/s]Training 2/3 epoch (loss 0.5849):  46%|████▌     | 4482/9753 [47:49<50:23,  1.74it/s]Training 2/3 epoch (loss 0.6950):  46%|████▌     | 4482/9753 [47:49<50:23,  1.74it/s]Training 2/3 epoch (loss 0.6950):  46%|████▌     | 4483/9753 [47:49<52:48,  1.66it/s]Training 2/3 epoch (loss 0.8371):  46%|████▌     | 4483/9753 [47:50<52:48,  1.66it/s]Training 2/3 epoch (loss 0.8371):  46%|████▌     | 4484/9753 [47:50<56:19,  1.56it/s]Training 2/3 epoch (loss 0.7096):  46%|████▌     | 4484/9753 [47:51<56:19,  1.56it/s]Training 2/3 epoch (loss 0.7096):  46%|████▌     | 4485/9753 [47:51<1:03:22,  1.39it/s]Training 2/3 epoch (loss 0.5672):  46%|████▌     | 4485/9753 [47:52<1:03:22,  1.39it/s]Training 2/3 epoch (loss 0.5672):  46%|████▌     | 4486/9753 [47:52<59:53,  1.47it/s]  Training 2/3 epoch (loss 0.5991):  46%|████▌     | 4486/9753 [47:52<59:53,  1.47it/s]Training 2/3 epoch (loss 0.5991):  46%|████▌     | 4487/9753 [47:52<56:19,  1.56it/s]Training 2/3 epoch (loss 0.7809):  46%|████▌     | 4487/9753 [47:53<56:19,  1.56it/s]Training 2/3 epoch (loss 0.7809):  46%|████▌     | 4488/9753 [47:53<59:26,  1.48it/s]Training 2/3 epoch (loss 0.5900):  46%|████▌     | 4488/9753 [47:54<59:26,  1.48it/s]Training 2/3 epoch (loss 0.5900):  46%|████▌     | 4489/9753 [47:54<56:06,  1.56it/s]Training 2/3 epoch (loss 0.6507):  46%|████▌     | 4489/9753 [47:54<56:06,  1.56it/s]Training 2/3 epoch (loss 0.6507):  46%|████▌     | 4490/9753 [47:54<53:46,  1.63it/s]Training 2/3 epoch (loss 0.5836):  46%|████▌     | 4490/9753 [47:55<53:46,  1.63it/s]Training 2/3 epoch (loss 0.5836):  46%|████▌     | 4491/9753 [47:55<52:06,  1.68it/s]Training 2/3 epoch (loss 0.7191):  46%|████▌     | 4491/9753 [47:55<52:06,  1.68it/s]Training 2/3 epoch (loss 0.7191):  46%|████▌     | 4492/9753 [47:55<52:31,  1.67it/s]Training 2/3 epoch (loss 0.4527):  46%|████▌     | 4492/9753 [47:56<52:31,  1.67it/s]Training 2/3 epoch (loss 0.4527):  46%|████▌     | 4493/9753 [47:56<51:05,  1.72it/s]Training 2/3 epoch (loss 0.6409):  46%|████▌     | 4493/9753 [47:56<51:05,  1.72it/s]Training 2/3 epoch (loss 0.6409):  46%|████▌     | 4494/9753 [47:56<50:09,  1.75it/s]Training 2/3 epoch (loss 0.6080):  46%|████▌     | 4494/9753 [47:57<50:09,  1.75it/s]Training 2/3 epoch (loss 0.6080):  46%|████▌     | 4495/9753 [47:57<49:23,  1.77it/s]Training 2/3 epoch (loss 0.6958):  46%|████▌     | 4495/9753 [47:58<49:23,  1.77it/s]Training 2/3 epoch (loss 0.6958):  46%|████▌     | 4496/9753 [47:58<52:49,  1.66it/s]Training 2/3 epoch (loss 0.6929):  46%|████▌     | 4496/9753 [47:58<52:49,  1.66it/s]Training 2/3 epoch (loss 0.6929):  46%|████▌     | 4497/9753 [47:58<51:29,  1.70it/s]Training 2/3 epoch (loss 0.6780):  46%|████▌     | 4497/9753 [47:59<51:29,  1.70it/s]Training 2/3 epoch (loss 0.6780):  46%|████▌     | 4498/9753 [47:59<50:22,  1.74it/s]Training 2/3 epoch (loss 0.9343):  46%|████▌     | 4498/9753 [47:59<50:22,  1.74it/s]Training 2/3 epoch (loss 0.9343):  46%|████▌     | 4499/9753 [47:59<49:35,  1.77it/s]Training 2/3 epoch (loss 0.8607):  46%|████▌     | 4499/9753 [48:00<49:35,  1.77it/s]Training 2/3 epoch (loss 0.8607):  46%|████▌     | 4500/9753 [48:00<49:03,  1.78it/s]Training 2/3 epoch (loss 0.5210):  46%|████▌     | 4500/9753 [48:00<49:03,  1.78it/s]Training 2/3 epoch (loss 0.5210):  46%|████▌     | 4501/9753 [48:00<50:56,  1.72it/s]Training 2/3 epoch (loss 0.5356):  46%|████▌     | 4501/9753 [48:01<50:56,  1.72it/s]Training 2/3 epoch (loss 0.5356):  46%|████▌     | 4502/9753 [48:01<49:50,  1.76it/s]Training 2/3 epoch (loss 0.6131):  46%|████▌     | 4502/9753 [48:02<49:50,  1.76it/s]Training 2/3 epoch (loss 0.6131):  46%|████▌     | 4503/9753 [48:02<49:16,  1.78it/s]Training 2/3 epoch (loss 0.5186):  46%|████▌     | 4503/9753 [48:02<49:16,  1.78it/s]Training 2/3 epoch (loss 0.5186):  46%|████▌     | 4504/9753 [48:02<48:48,  1.79it/s]Training 2/3 epoch (loss 0.6373):  46%|████▌     | 4504/9753 [48:03<48:48,  1.79it/s]Training 2/3 epoch (loss 0.6373):  46%|████▌     | 4505/9753 [48:03<48:21,  1.81it/s]Training 2/3 epoch (loss 0.4209):  46%|████▌     | 4505/9753 [48:03<48:21,  1.81it/s]Training 2/3 epoch (loss 0.4209):  46%|████▌     | 4506/9753 [48:03<48:02,  1.82it/s]Training 2/3 epoch (loss 0.9706):  46%|████▌     | 4506/9753 [48:04<48:02,  1.82it/s]Training 2/3 epoch (loss 0.9706):  46%|████▌     | 4507/9753 [48:04<51:50,  1.69it/s]Training 2/3 epoch (loss 0.8153):  46%|████▌     | 4507/9753 [48:04<51:50,  1.69it/s]Training 2/3 epoch (loss 0.8153):  46%|████▌     | 4508/9753 [48:04<50:42,  1.72it/s]Training 2/3 epoch (loss 0.6763):  46%|████▌     | 4508/9753 [48:05<50:42,  1.72it/s]Training 2/3 epoch (loss 0.6763):  46%|████▌     | 4509/9753 [48:05<49:48,  1.75it/s]Training 2/3 epoch (loss 0.5717):  46%|████▌     | 4509/9753 [48:06<49:48,  1.75it/s]Training 2/3 epoch (loss 0.5717):  46%|████▌     | 4510/9753 [48:06<49:26,  1.77it/s]Training 2/3 epoch (loss 0.9771):  46%|████▌     | 4510/9753 [48:06<49:26,  1.77it/s]Training 2/3 epoch (loss 0.9771):  46%|████▋     | 4511/9753 [48:06<51:18,  1.70it/s]Training 2/3 epoch (loss 0.7051):  46%|████▋     | 4511/9753 [48:07<51:18,  1.70it/s]Training 2/3 epoch (loss 0.7051):  46%|████▋     | 4512/9753 [48:07<56:30,  1.55it/s]Training 2/3 epoch (loss 0.9214):  46%|████▋     | 4512/9753 [48:07<56:30,  1.55it/s]Training 2/3 epoch (loss 0.9214):  46%|████▋     | 4513/9753 [48:07<53:59,  1.62it/s]Training 2/3 epoch (loss 0.8907):  46%|████▋     | 4513/9753 [48:08<53:59,  1.62it/s]Training 2/3 epoch (loss 0.8907):  46%|████▋     | 4514/9753 [48:08<57:44,  1.51it/s]Training 2/3 epoch (loss 0.6731):  46%|████▋     | 4514/9753 [48:09<57:44,  1.51it/s]Training 2/3 epoch (loss 0.6731):  46%|████▋     | 4515/9753 [48:09<58:22,  1.50it/s]Training 2/3 epoch (loss 0.7502):  46%|████▋     | 4515/9753 [48:10<58:22,  1.50it/s]Training 2/3 epoch (loss 0.7502):  46%|████▋     | 4516/9753 [48:10<57:11,  1.53it/s]Training 2/3 epoch (loss 0.4500):  46%|████▋     | 4516/9753 [48:10<57:11,  1.53it/s]Training 2/3 epoch (loss 0.4500):  46%|████▋     | 4517/9753 [48:10<54:26,  1.60it/s]Training 2/3 epoch (loss 0.6489):  46%|████▋     | 4517/9753 [48:11<54:26,  1.60it/s]Training 2/3 epoch (loss 0.6489):  46%|████▋     | 4518/9753 [48:11<52:24,  1.66it/s]Training 2/3 epoch (loss 0.8089):  46%|████▋     | 4518/9753 [48:11<52:24,  1.66it/s]Training 2/3 epoch (loss 0.8089):  46%|████▋     | 4519/9753 [48:11<51:18,  1.70it/s]Training 2/3 epoch (loss 0.6218):  46%|████▋     | 4519/9753 [48:12<51:18,  1.70it/s]Training 2/3 epoch (loss 0.6218):  46%|████▋     | 4520/9753 [48:12<55:35,  1.57it/s]Training 2/3 epoch (loss 0.6111):  46%|████▋     | 4520/9753 [48:13<55:35,  1.57it/s]Training 2/3 epoch (loss 0.6111):  46%|████▋     | 4521/9753 [48:13<54:22,  1.60it/s]Training 2/3 epoch (loss 0.5657):  46%|████▋     | 4521/9753 [48:13<54:22,  1.60it/s]Training 2/3 epoch (loss 0.5657):  46%|████▋     | 4522/9753 [48:13<53:11,  1.64it/s]Training 2/3 epoch (loss 0.8911):  46%|████▋     | 4522/9753 [48:14<53:11,  1.64it/s]Training 2/3 epoch (loss 0.8911):  46%|████▋     | 4523/9753 [48:14<53:52,  1.62it/s]Training 2/3 epoch (loss 0.6700):  46%|████▋     | 4523/9753 [48:14<53:52,  1.62it/s]Training 2/3 epoch (loss 0.6700):  46%|████▋     | 4524/9753 [48:14<51:56,  1.68it/s]Training 2/3 epoch (loss 0.6108):  46%|████▋     | 4524/9753 [48:15<51:56,  1.68it/s]Training 2/3 epoch (loss 0.6108):  46%|████▋     | 4525/9753 [48:15<59:57,  1.45it/s]Training 2/3 epoch (loss 0.6889):  46%|████▋     | 4525/9753 [48:16<59:57,  1.45it/s]Training 2/3 epoch (loss 0.6889):  46%|████▋     | 4526/9753 [48:16<56:37,  1.54it/s]Training 2/3 epoch (loss 0.7571):  46%|████▋     | 4526/9753 [48:16<56:37,  1.54it/s]Training 2/3 epoch (loss 0.7571):  46%|████▋     | 4527/9753 [48:16<55:26,  1.57it/s]Training 2/3 epoch (loss 0.7050):  46%|████▋     | 4527/9753 [48:17<55:26,  1.57it/s]Training 2/3 epoch (loss 0.7050):  46%|████▋     | 4528/9753 [48:17<56:38,  1.54it/s]Training 2/3 epoch (loss 0.6557):  46%|████▋     | 4528/9753 [48:18<56:38,  1.54it/s]Training 2/3 epoch (loss 0.6557):  46%|████▋     | 4529/9753 [48:18<54:07,  1.61it/s]Training 2/3 epoch (loss 0.5597):  46%|████▋     | 4529/9753 [48:18<54:07,  1.61it/s]Training 2/3 epoch (loss 0.5597):  46%|████▋     | 4530/9753 [48:18<52:04,  1.67it/s]Training 2/3 epoch (loss 0.6203):  46%|████▋     | 4530/9753 [48:19<52:04,  1.67it/s]Training 2/3 epoch (loss 0.6203):  46%|████▋     | 4531/9753 [48:19<54:58,  1.58it/s]Training 2/3 epoch (loss 0.7135):  46%|████▋     | 4531/9753 [48:19<54:58,  1.58it/s]Training 2/3 epoch (loss 0.7135):  46%|████▋     | 4532/9753 [48:19<53:19,  1.63it/s]Training 2/3 epoch (loss 0.3904):  46%|████▋     | 4532/9753 [48:20<53:19,  1.63it/s]Training 2/3 epoch (loss 0.3904):  46%|████▋     | 4533/9753 [48:20<51:33,  1.69it/s]Training 2/3 epoch (loss 0.6559):  46%|████▋     | 4533/9753 [48:21<51:33,  1.69it/s]Training 2/3 epoch (loss 0.6559):  46%|████▋     | 4534/9753 [48:21<50:31,  1.72it/s]Training 2/3 epoch (loss 0.6019):  46%|████▋     | 4534/9753 [48:21<50:31,  1.72it/s]Training 2/3 epoch (loss 0.6019):  46%|████▋     | 4535/9753 [48:21<51:19,  1.69it/s]Training 2/3 epoch (loss 0.7467):  46%|████▋     | 4535/9753 [48:22<51:19,  1.69it/s]Training 2/3 epoch (loss 0.7467):  47%|████▋     | 4536/9753 [48:22<51:37,  1.68it/s]Training 2/3 epoch (loss 0.7067):  47%|████▋     | 4536/9753 [48:22<51:37,  1.68it/s]Training 2/3 epoch (loss 0.7067):  47%|████▋     | 4537/9753 [48:22<51:40,  1.68it/s]Training 2/3 epoch (loss 0.7678):  47%|████▋     | 4537/9753 [48:23<51:40,  1.68it/s]Training 2/3 epoch (loss 0.7678):  47%|████▋     | 4538/9753 [48:23<50:21,  1.73it/s]Training 2/3 epoch (loss 0.6742):  47%|████▋     | 4538/9753 [48:23<50:21,  1.73it/s]Training 2/3 epoch (loss 0.6742):  47%|████▋     | 4539/9753 [48:23<49:55,  1.74it/s]Training 2/3 epoch (loss 0.6450):  47%|████▋     | 4539/9753 [48:24<49:55,  1.74it/s]Training 2/3 epoch (loss 0.6450):  47%|████▋     | 4540/9753 [48:24<49:13,  1.76it/s]Training 2/3 epoch (loss 0.7138):  47%|████▋     | 4540/9753 [48:25<49:13,  1.76it/s]Training 2/3 epoch (loss 0.7138):  47%|████▋     | 4541/9753 [48:25<52:25,  1.66it/s]Training 2/3 epoch (loss 0.4188):  47%|████▋     | 4541/9753 [48:25<52:25,  1.66it/s]Training 2/3 epoch (loss 0.4188):  47%|████▋     | 4542/9753 [48:25<54:43,  1.59it/s]Training 2/3 epoch (loss 0.6381):  47%|████▋     | 4542/9753 [48:26<54:43,  1.59it/s]Training 2/3 epoch (loss 0.6381):  47%|████▋     | 4543/9753 [48:26<59:47,  1.45it/s]Training 2/3 epoch (loss 0.4930):  47%|████▋     | 4543/9753 [48:27<59:47,  1.45it/s]Training 2/3 epoch (loss 0.4930):  47%|████▋     | 4544/9753 [48:27<1:00:48,  1.43it/s]Training 2/3 epoch (loss 0.7404):  47%|████▋     | 4544/9753 [48:28<1:00:48,  1.43it/s]Training 2/3 epoch (loss 0.7404):  47%|████▋     | 4545/9753 [48:28<58:12,  1.49it/s]  Training 2/3 epoch (loss 0.8588):  47%|████▋     | 4545/9753 [48:28<58:12,  1.49it/s]Training 2/3 epoch (loss 0.8588):  47%|████▋     | 4546/9753 [48:28<56:53,  1.53it/s]Training 2/3 epoch (loss 0.8735):  47%|████▋     | 4546/9753 [48:29<56:53,  1.53it/s]Training 2/3 epoch (loss 0.8735):  47%|████▋     | 4547/9753 [48:29<56:47,  1.53it/s]Training 2/3 epoch (loss 0.6320):  47%|████▋     | 4547/9753 [48:29<56:47,  1.53it/s]Training 2/3 epoch (loss 0.6320):  47%|████▋     | 4548/9753 [48:29<54:01,  1.61it/s]Training 2/3 epoch (loss 0.6008):  47%|████▋     | 4548/9753 [48:30<54:01,  1.61it/s]Training 2/3 epoch (loss 0.6008):  47%|████▋     | 4549/9753 [48:30<57:22,  1.51it/s]Training 2/3 epoch (loss 0.6822):  47%|████▋     | 4549/9753 [48:31<57:22,  1.51it/s]Training 2/3 epoch (loss 0.6822):  47%|████▋     | 4550/9753 [48:31<1:00:04,  1.44it/s]Training 2/3 epoch (loss 0.6747):  47%|████▋     | 4550/9753 [48:31<1:00:04,  1.44it/s]Training 2/3 epoch (loss 0.6747):  47%|████▋     | 4551/9753 [48:31<56:49,  1.53it/s]  Training 2/3 epoch (loss 0.8431):  47%|████▋     | 4551/9753 [48:32<56:49,  1.53it/s]Training 2/3 epoch (loss 0.8431):  47%|████▋     | 4552/9753 [48:32<53:58,  1.61it/s]Training 2/3 epoch (loss 0.6785):  47%|████▋     | 4552/9753 [48:33<53:58,  1.61it/s]Training 2/3 epoch (loss 0.6785):  47%|████▋     | 4553/9753 [48:33<52:03,  1.66it/s]Training 2/3 epoch (loss 0.6011):  47%|████▋     | 4553/9753 [48:33<52:03,  1.66it/s]Training 2/3 epoch (loss 0.6011):  47%|████▋     | 4554/9753 [48:33<50:32,  1.71it/s]Training 2/3 epoch (loss 0.5789):  47%|████▋     | 4554/9753 [48:34<50:32,  1.71it/s]Training 2/3 epoch (loss 0.5789):  47%|████▋     | 4555/9753 [48:34<49:28,  1.75it/s]Training 2/3 epoch (loss 0.6211):  47%|████▋     | 4555/9753 [48:34<49:28,  1.75it/s]Training 2/3 epoch (loss 0.6211):  47%|████▋     | 4556/9753 [48:34<50:47,  1.71it/s]Training 2/3 epoch (loss 0.6458):  47%|████▋     | 4556/9753 [48:35<50:47,  1.71it/s]Training 2/3 epoch (loss 0.6458):  47%|████▋     | 4557/9753 [48:35<51:37,  1.68it/s]Training 2/3 epoch (loss 0.5177):  47%|████▋     | 4557/9753 [48:35<51:37,  1.68it/s]Training 2/3 epoch (loss 0.5177):  47%|████▋     | 4558/9753 [48:35<51:28,  1.68it/s]Training 2/3 epoch (loss 0.9005):  47%|████▋     | 4558/9753 [48:36<51:28,  1.68it/s]Training 2/3 epoch (loss 0.9005):  47%|████▋     | 4559/9753 [48:36<56:57,  1.52it/s]Training 2/3 epoch (loss 0.5358):  47%|████▋     | 4559/9753 [48:37<56:57,  1.52it/s]Training 2/3 epoch (loss 0.5358):  47%|████▋     | 4560/9753 [48:37<58:51,  1.47it/s]Training 2/3 epoch (loss 0.8937):  47%|████▋     | 4560/9753 [48:38<58:51,  1.47it/s]Training 2/3 epoch (loss 0.8937):  47%|████▋     | 4561/9753 [48:38<57:06,  1.52it/s]Training 2/3 epoch (loss 0.8248):  47%|████▋     | 4561/9753 [48:38<57:06,  1.52it/s]Training 2/3 epoch (loss 0.8248):  47%|████▋     | 4562/9753 [48:38<56:04,  1.54it/s]Training 2/3 epoch (loss 0.6607):  47%|████▋     | 4562/9753 [48:39<56:04,  1.54it/s]Training 2/3 epoch (loss 0.6607):  47%|████▋     | 4563/9753 [48:39<1:02:24,  1.39it/s]Training 2/3 epoch (loss 0.6944):  47%|████▋     | 4563/9753 [48:40<1:02:24,  1.39it/s]Training 2/3 epoch (loss 0.6944):  47%|████▋     | 4564/9753 [48:40<58:14,  1.48it/s]  Training 2/3 epoch (loss 0.7775):  47%|████▋     | 4564/9753 [48:40<58:14,  1.48it/s]Training 2/3 epoch (loss 0.7775):  47%|████▋     | 4565/9753 [48:40<55:01,  1.57it/s]Training 2/3 epoch (loss 0.7290):  47%|████▋     | 4565/9753 [48:41<55:01,  1.57it/s]Training 2/3 epoch (loss 0.7290):  47%|████▋     | 4566/9753 [48:41<52:48,  1.64it/s]Training 2/3 epoch (loss 0.6923):  47%|████▋     | 4566/9753 [48:41<52:48,  1.64it/s]Training 2/3 epoch (loss 0.6923):  47%|████▋     | 4567/9753 [48:41<53:06,  1.63it/s]Training 2/3 epoch (loss 0.5207):  47%|████▋     | 4567/9753 [48:42<53:06,  1.63it/s]Training 2/3 epoch (loss 0.5207):  47%|████▋     | 4568/9753 [48:42<56:28,  1.53it/s]Training 2/3 epoch (loss 0.7741):  47%|████▋     | 4568/9753 [48:43<56:28,  1.53it/s]Training 2/3 epoch (loss 0.7741):  47%|████▋     | 4569/9753 [48:43<1:02:57,  1.37it/s]Training 2/3 epoch (loss 0.5495):  47%|████▋     | 4569/9753 [48:44<1:02:57,  1.37it/s]Training 2/3 epoch (loss 0.5495):  47%|████▋     | 4570/9753 [48:44<1:00:30,  1.43it/s]Training 2/3 epoch (loss 0.9376):  47%|████▋     | 4570/9753 [48:44<1:00:30,  1.43it/s]Training 2/3 epoch (loss 0.9376):  47%|████▋     | 4571/9753 [48:44<59:00,  1.46it/s]  Training 2/3 epoch (loss 0.7766):  47%|████▋     | 4571/9753 [48:45<59:00,  1.46it/s]Training 2/3 epoch (loss 0.7766):  47%|████▋     | 4572/9753 [48:45<56:55,  1.52it/s]Training 2/3 epoch (loss 0.6708):  47%|████▋     | 4572/9753 [48:46<56:55,  1.52it/s]Training 2/3 epoch (loss 0.6708):  47%|████▋     | 4573/9753 [48:46<1:02:59,  1.37it/s]Training 2/3 epoch (loss 0.8172):  47%|████▋     | 4573/9753 [48:46<1:02:59,  1.37it/s]Training 2/3 epoch (loss 0.8172):  47%|████▋     | 4574/9753 [48:46<1:00:59,  1.42it/s]Training 2/3 epoch (loss 0.6162):  47%|████▋     | 4574/9753 [48:47<1:00:59,  1.42it/s]Training 2/3 epoch (loss 0.6162):  47%|████▋     | 4575/9753 [48:47<57:36,  1.50it/s]  Training 2/3 epoch (loss 0.7212):  47%|████▋     | 4575/9753 [48:48<57:36,  1.50it/s]Training 2/3 epoch (loss 0.7212):  47%|████▋     | 4576/9753 [48:48<1:06:52,  1.29it/s]Training 2/3 epoch (loss 0.7538):  47%|████▋     | 4576/9753 [48:49<1:06:52,  1.29it/s]Training 2/3 epoch (loss 0.7538):  47%|████▋     | 4577/9753 [48:49<1:01:50,  1.39it/s]Training 2/3 epoch (loss 0.7696):  47%|████▋     | 4577/9753 [48:49<1:01:50,  1.39it/s]Training 2/3 epoch (loss 0.7696):  47%|████▋     | 4578/9753 [48:49<1:00:04,  1.44it/s]Training 2/3 epoch (loss 0.4663):  47%|████▋     | 4578/9753 [48:50<1:00:04,  1.44it/s]Training 2/3 epoch (loss 0.4663):  47%|████▋     | 4579/9753 [48:50<1:05:04,  1.33it/s]Training 2/3 epoch (loss 0.5595):  47%|████▋     | 4579/9753 [48:51<1:05:04,  1.33it/s]Training 2/3 epoch (loss 0.5595):  47%|████▋     | 4580/9753 [48:51<1:01:46,  1.40it/s]Training 2/3 epoch (loss 0.5389):  47%|████▋     | 4580/9753 [48:51<1:01:46,  1.40it/s]Training 2/3 epoch (loss 0.5389):  47%|████▋     | 4581/9753 [48:51<57:25,  1.50it/s]  Training 2/3 epoch (loss 0.5814):  47%|████▋     | 4581/9753 [48:52<57:25,  1.50it/s]Training 2/3 epoch (loss 0.5814):  47%|████▋     | 4582/9753 [48:52<57:44,  1.49it/s]Training 2/3 epoch (loss 0.5119):  47%|████▋     | 4582/9753 [48:53<57:44,  1.49it/s]Training 2/3 epoch (loss 0.5119):  47%|████▋     | 4583/9753 [48:53<57:17,  1.50it/s]Training 2/3 epoch (loss 0.8072):  47%|████▋     | 4583/9753 [48:53<57:17,  1.50it/s]Training 2/3 epoch (loss 0.8072):  47%|████▋     | 4584/9753 [48:53<57:10,  1.51it/s]Training 2/3 epoch (loss 0.8125):  47%|████▋     | 4584/9753 [48:54<57:10,  1.51it/s]Training 2/3 epoch (loss 0.8125):  47%|████▋     | 4585/9753 [48:54<54:13,  1.59it/s]Training 2/3 epoch (loss 0.2416):  47%|████▋     | 4585/9753 [48:54<54:13,  1.59it/s]Training 2/3 epoch (loss 0.2416):  47%|████▋     | 4586/9753 [48:54<52:09,  1.65it/s]Training 2/3 epoch (loss 0.8313):  47%|████▋     | 4586/9753 [48:55<52:09,  1.65it/s]Training 2/3 epoch (loss 0.8313):  47%|████▋     | 4587/9753 [48:55<51:42,  1.66it/s]Training 2/3 epoch (loss 0.5136):  47%|████▋     | 4587/9753 [48:56<51:42,  1.66it/s]Training 2/3 epoch (loss 0.5136):  47%|████▋     | 4588/9753 [48:56<56:09,  1.53it/s]Training 2/3 epoch (loss 0.5104):  47%|████▋     | 4588/9753 [48:56<56:09,  1.53it/s]Training 2/3 epoch (loss 0.5104):  47%|████▋     | 4589/9753 [48:56<53:58,  1.59it/s]Training 2/3 epoch (loss 0.9562):  47%|████▋     | 4589/9753 [48:57<53:58,  1.59it/s]Training 2/3 epoch (loss 0.9562):  47%|████▋     | 4590/9753 [48:57<54:51,  1.57it/s]Training 2/3 epoch (loss 0.7333):  47%|████▋     | 4590/9753 [48:58<54:51,  1.57it/s]Training 2/3 epoch (loss 0.7333):  47%|████▋     | 4591/9753 [48:58<54:44,  1.57it/s]Training 2/3 epoch (loss 0.9651):  47%|████▋     | 4591/9753 [48:58<54:44,  1.57it/s]Training 2/3 epoch (loss 0.9651):  47%|████▋     | 4592/9753 [48:58<56:48,  1.51it/s]Training 2/3 epoch (loss 0.5601):  47%|████▋     | 4592/9753 [48:59<56:48,  1.51it/s]Training 2/3 epoch (loss 0.5601):  47%|████▋     | 4593/9753 [48:59<54:33,  1.58it/s]Training 2/3 epoch (loss 0.6854):  47%|████▋     | 4593/9753 [49:00<54:33,  1.58it/s]Training 2/3 epoch (loss 0.6854):  47%|████▋     | 4594/9753 [49:00<52:46,  1.63it/s]Training 2/3 epoch (loss 0.6520):  47%|████▋     | 4594/9753 [49:00<52:46,  1.63it/s]Training 2/3 epoch (loss 0.6520):  47%|████▋     | 4595/9753 [49:00<53:16,  1.61it/s]Training 2/3 epoch (loss 0.7026):  47%|████▋     | 4595/9753 [49:01<53:16,  1.61it/s]Training 2/3 epoch (loss 0.7026):  47%|████▋     | 4596/9753 [49:01<52:04,  1.65it/s]Training 2/3 epoch (loss 0.3959):  47%|████▋     | 4596/9753 [49:01<52:04,  1.65it/s]Training 2/3 epoch (loss 0.3959):  47%|████▋     | 4597/9753 [49:01<53:04,  1.62it/s]Training 2/3 epoch (loss 0.7773):  47%|████▋     | 4597/9753 [49:02<53:04,  1.62it/s]Training 2/3 epoch (loss 0.7773):  47%|████▋     | 4598/9753 [49:02<52:42,  1.63it/s]Training 2/3 epoch (loss 0.5743):  47%|████▋     | 4598/9753 [49:03<52:42,  1.63it/s]Training 2/3 epoch (loss 0.5743):  47%|████▋     | 4599/9753 [49:03<52:18,  1.64it/s]Training 2/3 epoch (loss 0.8457):  47%|████▋     | 4599/9753 [49:03<52:18,  1.64it/s]Training 2/3 epoch (loss 0.8457):  47%|████▋     | 4600/9753 [49:03<56:00,  1.53it/s]Training 2/3 epoch (loss 0.5402):  47%|████▋     | 4600/9753 [49:04<56:00,  1.53it/s]Training 2/3 epoch (loss 0.5402):  47%|████▋     | 4601/9753 [49:04<54:20,  1.58it/s]Training 2/3 epoch (loss 0.8008):  47%|████▋     | 4601/9753 [49:05<54:20,  1.58it/s]Training 2/3 epoch (loss 0.8008):  47%|████▋     | 4602/9753 [49:05<55:42,  1.54it/s]Training 2/3 epoch (loss 0.4734):  47%|████▋     | 4602/9753 [49:05<55:42,  1.54it/s]Training 2/3 epoch (loss 0.4734):  47%|████▋     | 4603/9753 [49:05<54:51,  1.56it/s]Training 2/3 epoch (loss 0.6213):  47%|████▋     | 4603/9753 [49:06<54:51,  1.56it/s]Training 2/3 epoch (loss 0.6213):  47%|████▋     | 4604/9753 [49:06<52:59,  1.62it/s]Training 2/3 epoch (loss 0.6669):  47%|████▋     | 4604/9753 [49:06<52:59,  1.62it/s]Training 2/3 epoch (loss 0.6669):  47%|████▋     | 4605/9753 [49:06<51:29,  1.67it/s]Training 2/3 epoch (loss 0.7474):  47%|████▋     | 4605/9753 [49:07<51:29,  1.67it/s]Training 2/3 epoch (loss 0.7474):  47%|████��     | 4606/9753 [49:07<52:35,  1.63it/s]Training 2/3 epoch (loss 0.4129):  47%|████▋     | 4606/9753 [49:08<52:35,  1.63it/s]Training 2/3 epoch (loss 0.4129):  47%|████▋     | 4607/9753 [49:08<51:26,  1.67it/s]Training 2/3 epoch (loss 0.7319):  47%|████▋     | 4607/9753 [49:08<51:26,  1.67it/s]Training 2/3 epoch (loss 0.7319):  47%|████▋     | 4608/9753 [49:08<53:49,  1.59it/s]Training 2/3 epoch (loss 0.7099):  47%|████▋     | 4608/9753 [49:09<53:49,  1.59it/s]Training 2/3 epoch (loss 0.7099):  47%|████▋     | 4609/9753 [49:09<52:16,  1.64it/s]Training 2/3 epoch (loss 0.7136):  47%|████▋     | 4609/9753 [49:10<52:16,  1.64it/s]Training 2/3 epoch (loss 0.7136):  47%|████▋     | 4610/9753 [49:10<57:57,  1.48it/s]Training 2/3 epoch (loss 0.7573):  47%|████▋     | 4610/9753 [49:11<57:57,  1.48it/s]Training 2/3 epoch (loss 0.7573):  47%|████▋     | 4611/9753 [49:11<1:04:08,  1.34it/s]Training 2/3 epoch (loss 0.6015):  47%|████▋     | 4611/9753 [49:11<1:04:08,  1.34it/s]Training 2/3 epoch (loss 0.6015):  47%|████▋     | 4612/9753 [49:11<1:00:34,  1.41it/s]Training 2/3 epoch (loss 0.8183):  47%|████▋     | 4612/9753 [49:12<1:00:34,  1.41it/s]Training 2/3 epoch (loss 0.8183):  47%|████▋     | 4613/9753 [49:12<1:05:47,  1.30it/s]Training 2/3 epoch (loss 0.5769):  47%|████▋     | 4613/9753 [49:13<1:05:47,  1.30it/s]Training 2/3 epoch (loss 0.5769):  47%|████▋     | 4614/9753 [49:13<1:01:23,  1.40it/s]Training 2/3 epoch (loss 0.4905):  47%|████▋     | 4614/9753 [49:13<1:01:23,  1.40it/s]Training 2/3 epoch (loss 0.4905):  47%|████▋     | 4615/9753 [49:13<58:27,  1.46it/s]  Training 2/3 epoch (loss 0.7458):  47%|████▋     | 4615/9753 [49:14<58:27,  1.46it/s]Training 2/3 epoch (loss 0.7458):  47%|████▋     | 4616/9753 [49:14<56:11,  1.52it/s]Training 2/3 epoch (loss 0.6153):  47%|████▋     | 4616/9753 [49:15<56:11,  1.52it/s]Training 2/3 epoch (loss 0.6153):  47%|████▋     | 4617/9753 [49:15<1:00:22,  1.42it/s]Training 2/3 epoch (loss 0.6426):  47%|████▋     | 4617/9753 [49:15<1:00:22,  1.42it/s]Training 2/3 epoch (loss 0.6426):  47%|████▋     | 4618/9753 [49:15<58:27,  1.46it/s]  Training 2/3 epoch (loss 0.6671):  47%|████▋     | 4618/9753 [49:16<58:27,  1.46it/s]Training 2/3 epoch (loss 0.6671):  47%|████▋     | 4619/9753 [49:16<57:45,  1.48it/s]Training 2/3 epoch (loss 0.6289):  47%|████▋     | 4619/9753 [49:17<57:45,  1.48it/s]Training 2/3 epoch (loss 0.6289):  47%|████▋     | 4620/9753 [49:17<56:25,  1.52it/s]Training 2/3 epoch (loss 0.7487):  47%|████▋     | 4620/9753 [49:17<56:25,  1.52it/s]Training 2/3 epoch (loss 0.7487):  47%|████▋     | 4621/9753 [49:17<55:51,  1.53it/s]Training 2/3 epoch (loss 0.8558):  47%|████▋     | 4621/9753 [49:18<55:51,  1.53it/s]Training 2/3 epoch (loss 0.8558):  47%|████▋     | 4622/9753 [49:18<54:29,  1.57it/s]Training 2/3 epoch (loss 0.7787):  47%|████▋     | 4622/9753 [49:19<54:29,  1.57it/s]Training 2/3 epoch (loss 0.7787):  47%|████▋     | 4623/9753 [49:19<59:42,  1.43it/s]Training 2/3 epoch (loss 0.6896):  47%|████▋     | 4623/9753 [49:19<59:42,  1.43it/s]Training 2/3 epoch (loss 0.6896):  47%|████▋     | 4624/9753 [49:19<1:00:38,  1.41it/s]Training 2/3 epoch (loss 0.5490):  47%|████▋     | 4624/9753 [49:20<1:00:38,  1.41it/s]Training 2/3 epoch (loss 0.5490):  47%|████▋     | 4625/9753 [49:20<58:26,  1.46it/s]  Training 2/3 epoch (loss 0.5384):  47%|████▋     | 4625/9753 [49:21<58:26,  1.46it/s]Training 2/3 epoch (loss 0.5384):  47%|████▋     | 4626/9753 [49:21<56:41,  1.51it/s]Training 2/3 epoch (loss 0.7240):  47%|████▋     | 4626/9753 [49:21<56:41,  1.51it/s]Training 2/3 epoch (loss 0.7240):  47%|████▋     | 4627/9753 [49:21<55:27,  1.54it/s]Training 2/3 epoch (loss 0.4985):  47%|████▋     | 4627/9753 [49:22<55:27,  1.54it/s]Training 2/3 epoch (loss 0.4985):  47%|████▋     | 4628/9753 [49:22<54:33,  1.57it/s]Training 2/3 epoch (loss 0.7090):  47%|████▋     | 4628/9753 [49:23<54:33,  1.57it/s]Training 2/3 epoch (loss 0.7090):  47%|████▋     | 4629/9753 [49:23<54:52,  1.56it/s]Training 2/3 epoch (loss 0.9723):  47%|████▋     | 4629/9753 [49:23<54:52,  1.56it/s]Training 2/3 epoch (loss 0.9723):  47%|████▋     | 4630/9753 [49:23<1:00:38,  1.41it/s]Training 2/3 epoch (loss 0.9162):  47%|████▋     | 4630/9753 [49:24<1:00:38,  1.41it/s]Training 2/3 epoch (loss 0.9162):  47%|████▋     | 4631/9753 [49:24<59:56,  1.42it/s]  Training 2/3 epoch (loss 0.5785):  47%|████▋     | 4631/9753 [49:25<59:56,  1.42it/s]Training 2/3 epoch (loss 0.5785):  47%|████▋     | 4632/9753 [49:25<56:18,  1.52it/s]Training 2/3 epoch (loss 0.9309):  47%|███���▋     | 4632/9753 [49:26<56:18,  1.52it/s]Training 2/3 epoch (loss 0.9309):  48%|████▊     | 4633/9753 [49:26<1:02:19,  1.37it/s]Training 2/3 epoch (loss 1.0018):  48%|████▊     | 4633/9753 [49:26<1:02:19,  1.37it/s]Training 2/3 epoch (loss 1.0018):  48%|████▊     | 4634/9753 [49:26<59:34,  1.43it/s]  Training 2/3 epoch (loss 0.6971):  48%|████▊     | 4634/9753 [49:27<59:34,  1.43it/s]Training 2/3 epoch (loss 0.6971):  48%|████▊     | 4635/9753 [49:27<1:01:36,  1.38it/s]Training 2/3 epoch (loss 0.8643):  48%|████▊     | 4635/9753 [49:28<1:01:36,  1.38it/s]Training 2/3 epoch (loss 0.8643):  48%|████▊     | 4636/9753 [49:28<59:10,  1.44it/s]  Training 2/3 epoch (loss 0.6958):  48%|████▊     | 4636/9753 [49:28<59:10,  1.44it/s]Training 2/3 epoch (loss 0.6958):  48%|████▊     | 4637/9753 [49:28<58:31,  1.46it/s]Training 2/3 epoch (loss 0.7242):  48%|████▊     | 4637/9753 [49:29<58:31,  1.46it/s]Training 2/3 epoch (loss 0.7242):  48%|████▊     | 4638/9753 [49:29<56:54,  1.50it/s]Training 2/3 epoch (loss 0.6261):  48%|████▊     | 4638/9753 [49:29<56:54,  1.50it/s]Training 2/3 epoch (loss 0.6261):  48%|████▊     | 4639/9753 [49:29<54:46,  1.56it/s]Training 2/3 epoch (loss 0.7286):  48%|████▊     | 4639/9753 [49:30<54:46,  1.56it/s]Training 2/3 epoch (loss 0.7286):  48%|████▊     | 4640/9753 [49:30<56:37,  1.51it/s]Training 2/3 epoch (loss 0.6796):  48%|████▊     | 4640/9753 [49:31<56:37,  1.51it/s]Training 2/3 epoch (loss 0.6796):  48%|████▊     | 4641/9753 [49:31<54:21,  1.57it/s]Training 2/3 epoch (loss 0.8000):  48%|████▊     | 4641/9753 [49:31<54:21,  1.57it/s]Training 2/3 epoch (loss 0.8000):  48%|████▊     | 4642/9753 [49:31<52:47,  1.61it/s]Training 2/3 epoch (loss 0.8355):  48%|████▊     | 4642/9753 [49:32<52:47,  1.61it/s]Training 2/3 epoch (loss 0.8355):  48%|████▊     | 4643/9753 [49:32<54:47,  1.55it/s]Training 2/3 epoch (loss 0.6458):  48%|████▊     | 4643/9753 [49:33<54:47,  1.55it/s]Training 2/3 epoch (loss 0.6458):  48%|████▊     | 4644/9753 [49:33<55:53,  1.52it/s]Training 2/3 epoch (loss 0.6183):  48%|████▊     | 4644/9753 [49:33<55:53,  1.52it/s]Training 2/3 epoch (loss 0.6183):  48%|████▊     | 4645/9753 [49:33<53:49,  1.58it/s]Training 2/3 epoch (loss 0.5921):  48%|████▊     | 4645/9753 [49:34<53:49,  1.58it/s]Training 2/3 epoch (loss 0.5921):  48%|████▊     | 4646/9753 [49:34<1:01:02,  1.39it/s]Training 2/3 epoch (loss 0.7894):  48%|████▊     | 4646/9753 [49:35<1:01:02,  1.39it/s]Training 2/3 epoch (loss 0.7894):  48%|████▊     | 4647/9753 [49:35<57:43,  1.47it/s]  Training 2/3 epoch (loss 0.6534):  48%|████▊     | 4647/9753 [49:36<57:43,  1.47it/s]Training 2/3 epoch (loss 0.6534):  48%|████▊     | 4648/9753 [49:36<59:56,  1.42it/s]Training 2/3 epoch (loss 0.8432):  48%|████▊     | 4648/9753 [49:36<59:56,  1.42it/s]Training 2/3 epoch (loss 0.8432):  48%|████▊     | 4649/9753 [49:36<56:37,  1.50it/s]Training 2/3 epoch (loss 0.5986):  48%|████▊     | 4649/9753 [49:37<56:37,  1.50it/s]Training 2/3 epoch (loss 0.5986):  48%|████▊     | 4650/9753 [49:37<56:01,  1.52it/s]Training 2/3 epoch (loss 0.8928):  48%|████▊     | 4650/9753 [49:37<56:01,  1.52it/s]Training 2/3 epoch (loss 0.8928):  48%|████▊     | 4651/9753 [49:37<53:53,  1.58it/s]Training 2/3 epoch (loss 0.5599):  48%|████▊     | 4651/9753 [49:38<53:53,  1.58it/s]Training 2/3 epoch (loss 0.5599):  48%|████▊     | 4652/9753 [49:38<1:00:26,  1.41it/s]Training 2/3 epoch (loss 0.6677):  48%|████▊     | 4652/9753 [49:39<1:00:26,  1.41it/s]Training 2/3 epoch (loss 0.6677):  48%|████▊     | 4653/9753 [49:39<1:00:32,  1.40it/s]Training 2/3 epoch (loss 0.6979):  48%|████▊     | 4653/9753 [49:40<1:00:32,  1.40it/s]Training 2/3 epoch (loss 0.6979):  48%|████▊     | 4654/9753 [49:40<56:53,  1.49it/s]  Training 2/3 epoch (loss 0.5986):  48%|████▊     | 4654/9753 [49:40<56:53,  1.49it/s]Training 2/3 epoch (loss 0.5986):  48%|████▊     | 4655/9753 [49:40<54:52,  1.55it/s]Training 2/3 epoch (loss 0.6435):  48%|████▊     | 4655/9753 [49:41<54:52,  1.55it/s]Training 2/3 epoch (loss 0.6435):  48%|████▊     | 4656/9753 [49:41<1:00:50,  1.40it/s]Training 2/3 epoch (loss 0.7358):  48%|████▊     | 4656/9753 [49:42<1:00:50,  1.40it/s]Training 2/3 epoch (loss 0.7358):  48%|████▊     | 4657/9753 [49:42<59:29,  1.43it/s]  Training 2/3 epoch (loss 0.7310):  48%|████▊     | 4657/9753 [49:42<59:29,  1.43it/s]Training 2/3 epoch (loss 0.7310):  48%|████▊     | 4658/9753 [49:42<56:19,  1.51it/s]Training 2/3 epoch (loss 0.8051):  48%|████▊     | 4658/9753 [49:43<56:19,  1.51it/s]Training 2/3 epoch (loss 0.8051):  48%|██��█▊     | 4659/9753 [49:43<55:16,  1.54it/s]Training 2/3 epoch (loss 0.4812):  48%|████▊     | 4659/9753 [49:43<55:16,  1.54it/s]Training 2/3 epoch (loss 0.4812):  48%|████▊     | 4660/9753 [49:43<52:32,  1.62it/s]Training 2/3 epoch (loss 0.7205):  48%|████▊     | 4660/9753 [49:44<52:32,  1.62it/s]Training 2/3 epoch (loss 0.7205):  48%|████▊     | 4661/9753 [49:44<54:53,  1.55it/s]Training 2/3 epoch (loss 0.6131):  48%|████▊     | 4661/9753 [49:45<54:53,  1.55it/s]Training 2/3 epoch (loss 0.6131):  48%|████▊     | 4662/9753 [49:45<57:35,  1.47it/s]Training 2/3 epoch (loss 0.7366):  48%|████▊     | 4662/9753 [49:45<57:35,  1.47it/s]Training 2/3 epoch (loss 0.7366):  48%|████▊     | 4663/9753 [49:45<54:47,  1.55it/s]Training 2/3 epoch (loss 0.6117):  48%|████▊     | 4663/9753 [49:46<54:47,  1.55it/s]Training 2/3 epoch (loss 0.6117):  48%|████▊     | 4664/9753 [49:46<54:09,  1.57it/s]Training 2/3 epoch (loss 0.8651):  48%|████▊     | 4664/9753 [49:47<54:09,  1.57it/s]Training 2/3 epoch (loss 0.8651):  48%|████▊     | 4665/9753 [49:47<1:01:22,  1.38it/s]Training 2/3 epoch (loss 0.6562):  48%|████▊     | 4665/9753 [49:48<1:01:22,  1.38it/s]Training 2/3 epoch (loss 0.6562):  48%|████▊     | 4666/9753 [49:48<57:50,  1.47it/s]  Training 2/3 epoch (loss 0.6951):  48%|████▊     | 4666/9753 [49:48<57:50,  1.47it/s]Training 2/3 epoch (loss 0.6951):  48%|████▊     | 4667/9753 [49:48<56:19,  1.50it/s]Training 2/3 epoch (loss 1.0331):  48%|████▊     | 4667/9753 [49:49<56:19,  1.50it/s]Training 2/3 epoch (loss 1.0331):  48%|████▊     | 4668/9753 [49:49<55:32,  1.53it/s]Training 2/3 epoch (loss 0.8226):  48%|████▊     | 4668/9753 [49:50<55:32,  1.53it/s]Training 2/3 epoch (loss 0.8226):  48%|████▊     | 4669/9753 [49:50<55:05,  1.54it/s]Training 2/3 epoch (loss 0.6969):  48%|████▊     | 4669/9753 [49:50<55:05,  1.54it/s]Training 2/3 epoch (loss 0.6969):  48%|████▊     | 4670/9753 [49:50<54:35,  1.55it/s]Training 2/3 epoch (loss 0.6706):  48%|████▊     | 4670/9753 [49:51<54:35,  1.55it/s]Training 2/3 epoch (loss 0.6706):  48%|████▊     | 4671/9753 [49:51<55:11,  1.53it/s]Training 2/3 epoch (loss 0.7712):  48%|████▊     | 4671/9753 [49:52<55:11,  1.53it/s]Training 2/3 epoch (loss 0.7712):  48%|████▊     | 4672/9753 [49:52<57:50,  1.46it/s]Training 2/3 epoch (loss 0.8154):  48%|████▊     | 4672/9753 [49:52<57:50,  1.46it/s]Training 2/3 epoch (loss 0.8154):  48%|████▊     | 4673/9753 [49:52<56:26,  1.50it/s]Training 2/3 epoch (loss 0.5797):  48%|████▊     | 4673/9753 [49:53<56:26,  1.50it/s]Training 2/3 epoch (loss 0.5797):  48%|████▊     | 4674/9753 [49:53<54:27,  1.55it/s]Training 2/3 epoch (loss 0.7701):  48%|████▊     | 4674/9753 [49:53<54:27,  1.55it/s]Training 2/3 epoch (loss 0.7701):  48%|████▊     | 4675/9753 [49:53<53:00,  1.60it/s]Training 2/3 epoch (loss 0.7398):  48%|████▊     | 4675/9753 [49:54<53:00,  1.60it/s]Training 2/3 epoch (loss 0.7398):  48%|████▊     | 4676/9753 [49:54<55:56,  1.51it/s]Training 2/3 epoch (loss 0.7353):  48%|████▊     | 4676/9753 [49:55<55:56,  1.51it/s]Training 2/3 epoch (loss 0.7353):  48%|████▊     | 4677/9753 [49:55<54:59,  1.54it/s]Training 2/3 epoch (loss 0.4880):  48%|████▊     | 4677/9753 [49:55<54:59,  1.54it/s]Training 2/3 epoch (loss 0.4880):  48%|████▊     | 4678/9753 [49:55<52:38,  1.61it/s]Training 2/3 epoch (loss 0.7428):  48%|████▊     | 4678/9753 [49:56<52:38,  1.61it/s]Training 2/3 epoch (loss 0.7428):  48%|████▊     | 4679/9753 [49:56<51:09,  1.65it/s]Training 2/3 epoch (loss 0.7600):  48%|████▊     | 4679/9753 [49:57<51:09,  1.65it/s]Training 2/3 epoch (loss 0.7600):  48%|████▊     | 4680/9753 [49:57<56:19,  1.50it/s]Training 2/3 epoch (loss 0.7352):  48%|████▊     | 4680/9753 [49:57<56:19,  1.50it/s]Training 2/3 epoch (loss 0.7352):  48%|████▊     | 4681/9753 [49:57<55:16,  1.53it/s]Training 2/3 epoch (loss 0.7432):  48%|████▊     | 4681/9753 [49:58<55:16,  1.53it/s]Training 2/3 epoch (loss 0.7432):  48%|████▊     | 4682/9753 [49:58<59:06,  1.43it/s]Training 2/3 epoch (loss 0.5714):  48%|████▊     | 4682/9753 [49:59<59:06,  1.43it/s]Training 2/3 epoch (loss 0.5714):  48%|████▊     | 4683/9753 [49:59<56:28,  1.50it/s]Training 2/3 epoch (loss 0.3378):  48%|████▊     | 4683/9753 [49:59<56:28,  1.50it/s]Training 2/3 epoch (loss 0.3378):  48%|████▊     | 4684/9753 [49:59<54:41,  1.54it/s]Training 2/3 epoch (loss 0.4866):  48%|████▊     | 4684/9753 [50:00<54:41,  1.54it/s]Training 2/3 epoch (loss 0.4866):  48%|████▊     | 4685/9753 [50:00<55:45,  1.51it/s]Training 2/3 epoch (loss 0.7263):  48%|████▊     | 4685/9753 [50:01<55:45,  1.51it/s]Training 2/3 epoch (loss 0.7263):  48%|████▊     | 4686/9753 [50:01<55:36,  1.52it/s]Training 2/3 epoch (loss 0.4909):  48%|████▊     | 4686/9753 [50:01<55:36,  1.52it/s]Training 2/3 epoch (loss 0.4909):  48%|████▊     | 4687/9753 [50:01<55:51,  1.51it/s]Training 2/3 epoch (loss 0.7700):  48%|████▊     | 4687/9753 [50:02<55:51,  1.51it/s]Training 2/3 epoch (loss 0.7700):  48%|████▊     | 4688/9753 [50:02<57:23,  1.47it/s]Training 2/3 epoch (loss 0.6947):  48%|████▊     | 4688/9753 [50:03<57:23,  1.47it/s]Training 2/3 epoch (loss 0.6947):  48%|████▊     | 4689/9753 [50:03<58:01,  1.45it/s]Training 2/3 epoch (loss 0.6524):  48%|████▊     | 4689/9753 [50:03<58:01,  1.45it/s]Training 2/3 epoch (loss 0.6524):  48%|████▊     | 4690/9753 [50:03<56:00,  1.51it/s]Training 2/3 epoch (loss 0.6251):  48%|████▊     | 4690/9753 [50:04<56:00,  1.51it/s]Training 2/3 epoch (loss 0.6251):  48%|████▊     | 4691/9753 [50:04<54:16,  1.55it/s]Training 2/3 epoch (loss 0.6298):  48%|████▊     | 4691/9753 [50:05<54:16,  1.55it/s]Training 2/3 epoch (loss 0.6298):  48%|████▊     | 4692/9753 [50:05<53:29,  1.58it/s]Training 2/3 epoch (loss 0.6833):  48%|████▊     | 4692/9753 [50:05<53:29,  1.58it/s]Training 2/3 epoch (loss 0.6833):  48%|████▊     | 4693/9753 [50:05<52:40,  1.60it/s]Training 2/3 epoch (loss 0.6596):  48%|████▊     | 4693/9753 [50:06<52:40,  1.60it/s]Training 2/3 epoch (loss 0.6596):  48%|████▊     | 4694/9753 [50:06<50:40,  1.66it/s]Training 2/3 epoch (loss 0.9801):  48%|████▊     | 4694/9753 [50:06<50:40,  1.66it/s]Training 2/3 epoch (loss 0.9801):  48%|████▊     | 4695/9753 [50:06<53:18,  1.58it/s]Training 2/3 epoch (loss 0.8421):  48%|████▊     | 4695/9753 [50:07<53:18,  1.58it/s]Training 2/3 epoch (loss 0.8421):  48%|████▊     | 4696/9753 [50:07<51:16,  1.64it/s]Training 2/3 epoch (loss 1.0164):  48%|████▊     | 4696/9753 [50:08<51:16,  1.64it/s]Training 2/3 epoch (loss 1.0164):  48%|████▊     | 4697/9753 [50:08<50:35,  1.67it/s]Training 2/3 epoch (loss 0.7703):  48%|████▊     | 4697/9753 [50:08<50:35,  1.67it/s]Training 2/3 epoch (loss 0.7703):  48%|████▊     | 4698/9753 [50:08<53:42,  1.57it/s]Training 2/3 epoch (loss 0.5974):  48%|████▊     | 4698/9753 [50:09<53:42,  1.57it/s]Training 2/3 epoch (loss 0.5974):  48%|████▊     | 4699/9753 [50:09<51:56,  1.62it/s]Training 2/3 epoch (loss 0.7821):  48%|████▊     | 4699/9753 [50:09<51:56,  1.62it/s]Training 2/3 epoch (loss 0.7821):  48%|████▊     | 4700/9753 [50:09<52:30,  1.60it/s]Training 2/3 epoch (loss 0.7788):  48%|████▊     | 4700/9753 [50:10<52:30,  1.60it/s]Training 2/3 epoch (loss 0.7788):  48%|████▊     | 4701/9753 [50:10<51:10,  1.65it/s]Training 2/3 epoch (loss 0.8798):  48%|████▊     | 4701/9753 [50:11<51:10,  1.65it/s]Training 2/3 epoch (loss 0.8798):  48%|████▊     | 4702/9753 [50:11<52:09,  1.61it/s]Training 2/3 epoch (loss 0.7188):  48%|████▊     | 4702/9753 [50:11<52:09,  1.61it/s]Training 2/3 epoch (loss 0.7188):  48%|████▊     | 4703/9753 [50:11<52:59,  1.59it/s]Training 2/3 epoch (loss 0.8838):  48%|████▊     | 4703/9753 [50:12<52:59,  1.59it/s]Training 2/3 epoch (loss 0.8838):  48%|████▊     | 4704/9753 [50:12<1:04:35,  1.30it/s]Training 2/3 epoch (loss 0.5686):  48%|████▊     | 4704/9753 [50:13<1:04:35,  1.30it/s]Training 2/3 epoch (loss 0.5686):  48%|████▊     | 4705/9753 [50:13<1:00:33,  1.39it/s]Training 2/3 epoch (loss 0.6727):  48%|████▊     | 4705/9753 [50:14<1:00:33,  1.39it/s]Training 2/3 epoch (loss 0.6727):  48%|████▊     | 4706/9753 [50:14<57:54,  1.45it/s]  Training 2/3 epoch (loss 0.5026):  48%|████▊     | 4706/9753 [50:14<57:54,  1.45it/s]Training 2/3 epoch (loss 0.5026):  48%|████▊     | 4707/9753 [50:14<56:05,  1.50it/s]Training 2/3 epoch (loss 0.8301):  48%|████▊     | 4707/9753 [50:15<56:05,  1.50it/s]Training 2/3 epoch (loss 0.8301):  48%|████▊     | 4708/9753 [50:15<55:18,  1.52it/s]Training 2/3 epoch (loss 0.7647):  48%|████▊     | 4708/9753 [50:16<55:18,  1.52it/s]Training 2/3 epoch (loss 0.7647):  48%|████▊     | 4709/9753 [50:16<54:09,  1.55it/s]Training 2/3 epoch (loss 0.6400):  48%|████▊     | 4709/9753 [50:16<54:09,  1.55it/s]Training 2/3 epoch (loss 0.6400):  48%|████▊     | 4710/9753 [50:16<54:06,  1.55it/s]Training 2/3 epoch (loss 0.5467):  48%|████▊     | 4710/9753 [50:17<54:06,  1.55it/s]Training 2/3 epoch (loss 0.5467):  48%|████▊     | 4711/9753 [50:17<53:43,  1.56it/s]Training 2/3 epoch (loss 0.6073):  48%|████▊     | 4711/9753 [50:17<53:43,  1.56it/s]Training 2/3 epoch (loss 0.6073):  48%|████▊     | 4712/9753 [50:17<52:36,  1.60it/s]Training 2/3 epoch (loss 0.6458):  48%|████▊     | 4712/9753 [50:18<52:36,  1.60it/s]Training 2/3 epoch (loss 0.6458):  48%|████▊     | 4713/9753 [50:18<51:20,  1.64it/s]Training 2/3 epoch (loss 0.7938):  48%|████▊     | 4713/9753 [50:19<51:20,  1.64it/s]Training 2/3 epoch (loss 0.7938):  48%|████▊     | 4714/9753 [50:19<51:14,  1.64it/s]Training 2/3 epoch (loss 0.5117):  48%|████▊     | 4714/9753 [50:19<51:14,  1.64it/s]Training 2/3 epoch (loss 0.5117):  48%|████▊     | 4715/9753 [50:19<50:03,  1.68it/s]Training 2/3 epoch (loss 0.5558):  48%|████▊     | 4715/9753 [50:20<50:03,  1.68it/s]Training 2/3 epoch (loss 0.5558):  48%|████▊     | 4716/9753 [50:20<51:11,  1.64it/s]Training 2/3 epoch (loss 0.8041):  48%|████▊     | 4716/9753 [50:20<51:11,  1.64it/s]Training 2/3 epoch (loss 0.8041):  48%|████▊     | 4717/9753 [50:20<51:02,  1.64it/s]Training 2/3 epoch (loss 0.6150):  48%|████▊     | 4717/9753 [50:21<51:02,  1.64it/s]Training 2/3 epoch (loss 0.6150):  48%|████▊     | 4718/9753 [50:21<49:31,  1.69it/s]Training 2/3 epoch (loss 0.6716):  48%|████▊     | 4718/9753 [50:21<49:31,  1.69it/s]Training 2/3 epoch (loss 0.6716):  48%|████▊     | 4719/9753 [50:21<48:32,  1.73it/s]Training 2/3 epoch (loss 0.8697):  48%|████▊     | 4719/9753 [50:22<48:32,  1.73it/s]Training 2/3 epoch (loss 0.8697):  48%|████▊     | 4720/9753 [50:22<52:41,  1.59it/s]Training 2/3 epoch (loss 0.6697):  48%|████▊     | 4720/9753 [50:23<52:41,  1.59it/s]Training 2/3 epoch (loss 0.6697):  48%|████▊     | 4721/9753 [50:23<52:24,  1.60it/s]Training 2/3 epoch (loss 0.9618):  48%|████▊     | 4721/9753 [50:24<52:24,  1.60it/s]Training 2/3 epoch (loss 0.9618):  48%|████▊     | 4722/9753 [50:24<57:16,  1.46it/s]Training 2/3 epoch (loss 0.6607):  48%|████▊     | 4722/9753 [50:24<57:16,  1.46it/s]Training 2/3 epoch (loss 0.6607):  48%|████▊     | 4723/9753 [50:24<57:24,  1.46it/s]Training 2/3 epoch (loss 0.7969):  48%|████▊     | 4723/9753 [50:25<57:24,  1.46it/s]Training 2/3 epoch (loss 0.7969):  48%|████▊     | 4724/9753 [50:25<58:20,  1.44it/s]Training 2/3 epoch (loss 0.6664):  48%|████▊     | 4724/9753 [50:26<58:20,  1.44it/s]Training 2/3 epoch (loss 0.6664):  48%|████▊     | 4725/9753 [50:26<58:35,  1.43it/s]Training 2/3 epoch (loss 0.8889):  48%|████▊     | 4725/9753 [50:27<58:35,  1.43it/s]Training 2/3 epoch (loss 0.8889):  48%|████▊     | 4726/9753 [50:27<1:00:55,  1.38it/s]Training 2/3 epoch (loss 0.8021):  48%|████▊     | 4726/9753 [50:27<1:00:55,  1.38it/s]Training 2/3 epoch (loss 0.8021):  48%|████▊     | 4727/9753 [50:27<59:36,  1.41it/s]  Training 2/3 epoch (loss 0.6601):  48%|████▊     | 4727/9753 [50:28<59:36,  1.41it/s]Training 2/3 epoch (loss 0.6601):  48%|████▊     | 4728/9753 [50:28<57:09,  1.47it/s]Training 2/3 epoch (loss 0.6845):  48%|████▊     | 4728/9753 [50:29<57:09,  1.47it/s]Training 2/3 epoch (loss 0.6845):  48%|████▊     | 4729/9753 [50:29<58:57,  1.42it/s]Training 2/3 epoch (loss 0.6996):  48%|████▊     | 4729/9753 [50:29<58:57,  1.42it/s]Training 2/3 epoch (loss 0.6996):  48%|████▊     | 4730/9753 [50:29<55:33,  1.51it/s]Training 2/3 epoch (loss 0.5532):  48%|████▊     | 4730/9753 [50:30<55:33,  1.51it/s]Training 2/3 epoch (loss 0.5532):  49%|████▊     | 4731/9753 [50:30<53:56,  1.55it/s]Training 2/3 epoch (loss 0.6204):  49%|████▊     | 4731/9753 [50:30<53:56,  1.55it/s]Training 2/3 epoch (loss 0.6204):  49%|████▊     | 4732/9753 [50:30<52:09,  1.60it/s]Training 2/3 epoch (loss 0.7573):  49%|████▊     | 4732/9753 [50:31<52:09,  1.60it/s]Training 2/3 epoch (loss 0.7573):  49%|████▊     | 4733/9753 [50:31<52:51,  1.58it/s]Training 2/3 epoch (loss 0.6533):  49%|████▊     | 4733/9753 [50:32<52:51,  1.58it/s]Training 2/3 epoch (loss 0.6533):  49%|████▊     | 4734/9753 [50:32<51:24,  1.63it/s]Training 2/3 epoch (loss 0.7377):  49%|████▊     | 4734/9753 [50:32<51:24,  1.63it/s]Training 2/3 epoch (loss 0.7377):  49%|████▊     | 4735/9753 [50:32<56:15,  1.49it/s]Training 2/3 epoch (loss 0.6192):  49%|████▊     | 4735/9753 [50:33<56:15,  1.49it/s]Training 2/3 epoch (loss 0.6192):  49%|████▊     | 4736/9753 [50:33<59:27,  1.41it/s]Training 2/3 epoch (loss 0.8062):  49%|████▊     | 4736/9753 [50:34<59:27,  1.41it/s]Training 2/3 epoch (loss 0.8062):  49%|████▊     | 4737/9753 [50:34<1:01:28,  1.36it/s]Training 2/3 epoch (loss 0.6521):  49%|████▊     | 4737/9753 [50:35<1:01:28,  1.36it/s]Training 2/3 epoch (loss 0.6521):  49%|████▊     | 4738/9753 [50:35<1:01:50,  1.35it/s]Training 2/3 epoch (loss 0.8437):  49%|████▊     | 4738/9753 [50:35<1:01:50,  1.35it/s]Training 2/3 epoch (loss 0.8437):  49%|████▊     | 4739/9753 [50:35<1:00:37,  1.38it/s]Training 2/3 epoch (loss 0.8342):  49%|████▊     | 4739/9753 [50:36<1:00:37,  1.38it/s]Training 2/3 epoch (loss 0.8342):  49%|████▊     | 4740/9753 [50:36<57:42,  1.45it/s]  Training 2/3 epoch (loss 1.0503):  49%|████▊     | 4740/9753 [50:37<57:42,  1.45it/s]Training 2/3 epoch (loss 1.0503):  49%|████▊     | 4741/9753 [50:37<1:00:21,  1.38it/s]Training 2/3 epoch (loss 0.7628):  49%|████▊     | 4741/9753 [50:37<1:00:21,  1.38it/s]Training 2/3 epoch (loss 0.7628):  49%|████▊     | 4742/9753 [50:37<57:52,  1.44it/s]  Training 2/3 epoch (loss 0.5786):  49%|████▊     | 4742/9753 [50:38<57:52,  1.44it/s]Training 2/3 epoch (loss 0.5786):  49%|████▊     | 4743/9753 [50:38<56:00,  1.49it/s]Training 2/3 epoch (loss 0.6205):  49%|████▊     | 4743/9753 [50:39<56:00,  1.49it/s]Training 2/3 epoch (loss 0.6205):  49%|████▊     | 4744/9753 [50:39<59:22,  1.41it/s]Training 2/3 epoch (loss 0.4959):  49%|████▊     | 4744/9753 [50:39<59:22,  1.41it/s]Training 2/3 epoch (loss 0.4959):  49%|████▊     | 4745/9753 [50:39<55:58,  1.49it/s]Training 2/3 epoch (loss 0.8159):  49%|████▊     | 4745/9753 [50:40<55:58,  1.49it/s]Training 2/3 epoch (loss 0.8159):  49%|████▊     | 4746/9753 [50:40<57:35,  1.45it/s]Training 2/3 epoch (loss 0.6458):  49%|████▊     | 4746/9753 [50:41<57:35,  1.45it/s]Training 2/3 epoch (loss 0.6458):  49%|████▊     | 4747/9753 [50:41<54:13,  1.54it/s]Training 2/3 epoch (loss 0.7245):  49%|████▊     | 4747/9753 [50:41<54:13,  1.54it/s]Training 2/3 epoch (loss 0.7245):  49%|████▊     | 4748/9753 [50:41<53:56,  1.55it/s]Training 2/3 epoch (loss 0.6221):  49%|████▊     | 4748/9753 [50:42<53:56,  1.55it/s]Training 2/3 epoch (loss 0.6221):  49%|████▊     | 4749/9753 [50:42<52:13,  1.60it/s]Training 2/3 epoch (loss 0.6052):  49%|████▊     | 4749/9753 [50:43<52:13,  1.60it/s]Training 2/3 epoch (loss 0.6052):  49%|████▊     | 4750/9753 [50:43<50:55,  1.64it/s]Training 2/3 epoch (loss 0.8619):  49%|████▊     | 4750/9753 [50:43<50:55,  1.64it/s]Training 2/3 epoch (loss 0.8619):  49%|████▊     | 4751/9753 [50:43<55:00,  1.52it/s]Training 2/3 epoch (loss 0.7608):  49%|████▊     | 4751/9753 [50:44<55:00,  1.52it/s]Training 2/3 epoch (loss 0.7608):  49%|████▊     | 4752/9753 [50:44<58:07,  1.43it/s]Training 2/3 epoch (loss 0.6307):  49%|████▊     | 4752/9753 [50:45<58:07,  1.43it/s]Training 2/3 epoch (loss 0.6307):  49%|████▊     | 4753/9753 [50:45<55:10,  1.51it/s]Training 2/3 epoch (loss 0.6719):  49%|████▊     | 4753/9753 [50:45<55:10,  1.51it/s]Training 2/3 epoch (loss 0.6719):  49%|████▊     | 4754/9753 [50:45<53:43,  1.55it/s]Training 2/3 epoch (loss 0.8499):  49%|████▊     | 4754/9753 [50:46<53:43,  1.55it/s]Training 2/3 epoch (loss 0.8499):  49%|████▉     | 4755/9753 [50:46<54:14,  1.54it/s]Training 2/3 epoch (loss 0.5170):  49%|████▉     | 4755/9753 [50:47<54:14,  1.54it/s]Training 2/3 epoch (loss 0.5170):  49%|████▉     | 4756/9753 [50:47<53:42,  1.55it/s]Training 2/3 epoch (loss 0.7214):  49%|████▉     | 4756/9753 [50:47<53:42,  1.55it/s]Training 2/3 epoch (loss 0.7214):  49%|████▉     | 4757/9753 [50:47<53:13,  1.56it/s]Training 2/3 epoch (loss 0.7423):  49%|████▉     | 4757/9753 [50:48<53:13,  1.56it/s]Training 2/3 epoch (loss 0.7423):  49%|████▉     | 4758/9753 [50:48<51:39,  1.61it/s]Training 2/3 epoch (loss 0.5189):  49%|████▉     | 4758/9753 [50:48<51:39,  1.61it/s]Training 2/3 epoch (loss 0.5189):  49%|████▉     | 4759/9753 [50:48<50:30,  1.65it/s]Training 2/3 epoch (loss 0.6903):  49%|████▉     | 4759/9753 [50:49<50:30,  1.65it/s]Training 2/3 epoch (loss 0.6903):  49%|████▉     | 4760/9753 [50:49<49:33,  1.68it/s]Training 2/3 epoch (loss 0.3748):  49%|████▉     | 4760/9753 [50:50<49:33,  1.68it/s]Training 2/3 epoch (loss 0.3748):  49%|████▉     | 4761/9753 [50:50<49:25,  1.68it/s]Training 2/3 epoch (loss 0.8436):  49%|████▉     | 4761/9753 [50:50<49:25,  1.68it/s]Training 2/3 epoch (loss 0.8436):  49%|████▉     | 4762/9753 [50:50<52:32,  1.58it/s]Training 2/3 epoch (loss 0.6711):  49%|████▉     | 4762/9753 [50:51<52:32,  1.58it/s]Training 2/3 epoch (loss 0.6711):  49%|████▉     | 4763/9753 [50:51<50:58,  1.63it/s]Training 2/3 epoch (loss 0.7528):  49%|████▉     | 4763/9753 [50:51<50:58,  1.63it/s]Training 2/3 epoch (loss 0.7528):  49%|████▉     | 4764/9753 [50:51<50:30,  1.65it/s]Training 2/3 epoch (loss 0.8650):  49%|████▉     | 4764/9753 [50:52<50:30,  1.65it/s]Training 2/3 epoch (loss 0.8650):  49%|████▉     | 4765/9753 [50:52<52:02,  1.60it/s]Training 2/3 epoch (loss 0.8170):  49%|████▉     | 4765/9753 [50:53<52:02,  1.60it/s]Training 2/3 epoch (loss 0.8170):  49%|████▉     | 4766/9753 [50:53<55:11,  1.51it/s]Training 2/3 epoch (loss 0.6237):  49%|████▉     | 4766/9753 [50:53<55:11,  1.51it/s]Training 2/3 epoch (loss 0.6237):  49%|████▉     | 4767/9753 [50:53<54:12,  1.53it/s]Training 2/3 epoch (loss 0.7085):  49%|████▉     | 4767/9753 [50:54<54:12,  1.53it/s]Training 2/3 epoch (loss 0.7085):  49%|████▉     | 4768/9753 [50:54<55:41,  1.49it/s]Training 2/3 epoch (loss 0.7333):  49%|████▉     | 4768/9753 [50:55<55:41,  1.49it/s]Training 2/3 epoch (loss 0.7333):  49%|████▉     | 4769/9753 [50:55<55:50,  1.49it/s]Training 2/3 epoch (loss 0.5765):  49%|████▉     | 4769/9753 [50:55<55:50,  1.49it/s]Training 2/3 epoch (loss 0.5765):  49%|████▉     | 4770/9753 [50:55<53:54,  1.54it/s]Training 2/3 epoch (loss 0.7150):  49%|████▉     | 4770/9753 [50:56<53:54,  1.54it/s]Training 2/3 epoch (loss 0.7150):  49%|████▉     | 4771/9753 [50:56<53:30,  1.55it/s]Training 2/3 epoch (loss 0.6777):  49%|████▉     | 4771/9753 [50:57<53:30,  1.55it/s]Training 2/3 epoch (loss 0.6777):  49%|████▉     | 4772/9753 [50:57<54:37,  1.52it/s]Training 2/3 epoch (loss 0.7047):  49%|████▉     | 4772/9753 [50:57<54:37,  1.52it/s]Training 2/3 epoch (loss 0.7047):  49%|████▉     | 4773/9753 [50:57<54:00,  1.54it/s]Training 2/3 epoch (loss 0.8707):  49%|████▉     | 4773/9753 [50:58<54:00,  1.54it/s]Training 2/3 epoch (loss 0.8707):  49%|████▉     | 4774/9753 [50:58<55:13,  1.50it/s]Training 2/3 epoch (loss 0.8129):  49%|████▉     | 4774/9753 [50:59<55:13,  1.50it/s]Training 2/3 epoch (loss 0.8129):  49%|████▉     | 4775/9753 [50:59<54:12,  1.53it/s]Training 2/3 epoch (loss 0.7144):  49%|████▉     | 4775/9753 [50:59<54:12,  1.53it/s]Training 2/3 epoch (loss 0.7144):  49%|████▉     | 4776/9753 [50:59<52:21,  1.58it/s]Training 2/3 epoch (loss 0.6353):  49%|████▉     | 4776/9753 [51:00<52:21,  1.58it/s]Training 2/3 epoch (loss 0.6353):  49%|████▉     | 4777/9753 [51:00<51:46,  1.60it/s]Training 2/3 epoch (loss 0.6673):  49%|████▉     | 4777/9753 [51:00<51:46,  1.60it/s]Training 2/3 epoch (loss 0.6673):  49%|████▉     | 4778/9753 [51:00<50:30,  1.64it/s]Training 2/3 epoch (loss 0.7508):  49%|████▉     | 4778/9753 [51:01<50:30,  1.64it/s]Training 2/3 epoch (loss 0.7508):  49%|████▉     | 4779/9753 [51:01<49:09,  1.69it/s]Training 2/3 epoch (loss 0.5554):  49%|████▉     | 4779/9753 [51:02<49:09,  1.69it/s]Training 2/3 epoch (loss 0.5554):  49%|████▉     | 4780/9753 [51:02<50:05,  1.65it/s]Training 2/3 epoch (loss 0.8241):  49%|████▉     | 4780/9753 [51:02<50:05,  1.65it/s]Training 2/3 epoch (loss 0.8241):  49%|████▉     | 4781/9753 [51:02<48:47,  1.70it/s]Training 2/3 epoch (loss 0.8144):  49%|████▉     | 4781/9753 [51:03<48:47,  1.70it/s]Training 2/3 epoch (loss 0.8144):  49%|████▉     | 4782/9753 [51:03<49:58,  1.66it/s]Training 2/3 epoch (loss 0.5908):  49%|████▉     | 4782/9753 [51:04<49:58,  1.66it/s]Training 2/3 epoch (loss 0.5908):  49%|████▉     | 4783/9753 [51:04<57:18,  1.45it/s]Training 2/3 epoch (loss 0.8331):  49%|████▉     | 4783/9753 [51:04<57:18,  1.45it/s]Training 2/3 epoch (loss 0.8331):  49%|████▉     | 4784/9753 [51:04<58:47,  1.41it/s]Training 2/3 epoch (loss 0.5665):  49%|████▉     | 4784/9753 [51:05<58:47,  1.41it/s]Training 2/3 epoch (loss 0.5665):  49%|████▉     | 4785/9753 [51:05<58:04,  1.43it/s]Training 2/3 epoch (loss 0.6292):  49%|████▉     | 4785/9753 [51:06<58:04,  1.43it/s]Training 2/3 epoch (loss 0.6292):  49%|████▉     | 4786/9753 [51:06<58:15,  1.42it/s]Training 2/3 epoch (loss 0.3535):  49%|████▉     | 4786/9753 [51:06<58:15,  1.42it/s]Training 2/3 epoch (loss 0.3535):  49%|████▉     | 4787/9753 [51:06<55:53,  1.48it/s]Training 2/3 epoch (loss 0.7415):  49%|████▉     | 4787/9753 [51:07<55:53,  1.48it/s]Training 2/3 epoch (loss 0.7415):  49%|████▉     | 4788/9753 [51:07<58:06,  1.42it/s]Training 2/3 epoch (loss 0.7953):  49%|████▉     | 4788/9753 [51:08<58:06,  1.42it/s]Training 2/3 epoch (loss 0.7953):  49%|████▉     | 4789/9753 [51:08<57:04,  1.45it/s]Training 2/3 epoch (loss 0.6308):  49%|████▉     | 4789/9753 [51:08<57:04,  1.45it/s]Training 2/3 epoch (loss 0.6308):  49%|████▉     | 4790/9753 [51:08<53:52,  1.54it/s]Training 2/3 epoch (loss 0.8178):  49%|████▉     | 4790/9753 [51:09<53:52,  1.54it/s]Training 2/3 epoch (loss 0.8178):  49%|████▉     | 4791/9753 [51:09<55:05,  1.50it/s]Training 2/3 epoch (loss 0.5062):  49%|████▉     | 4791/9753 [51:10<55:05,  1.50it/s]Training 2/3 epoch (loss 0.5062):  49%|████▉     | 4792/9753 [51:10<54:09,  1.53it/s]Training 2/3 epoch (loss 0.8760):  49%|████▉     | 4792/9753 [51:11<54:09,  1.53it/s]Training 2/3 epoch (loss 0.8760):  49%|████▉     | 4793/9753 [51:11<1:00:04,  1.38it/s]Training 2/3 epoch (loss 0.6003):  49%|████▉     | 4793/9753 [51:11<1:00:04,  1.38it/s]Training 2/3 epoch (loss 0.6003):  49%|████▉     | 4794/9753 [51:11<56:14,  1.47it/s]  Training 2/3 epoch (loss 0.6950):  49%|████▉     | 4794/9753 [51:12<56:14,  1.47it/s]Training 2/3 epoch (loss 0.6950):  49%|████▉     | 4795/9753 [51:12<1:01:34,  1.34it/s]Training 2/3 epoch (loss 0.7656):  49%|████▉     | 4795/9753 [51:13<1:01:34,  1.34it/s]Training 2/3 epoch (loss 0.7656):  49%|████▉     | 4796/9753 [51:13<59:56,  1.38it/s]  Training 2/3 epoch (loss 0.9287):  49%|████▉     | 4796/9753 [51:14<59:56,  1.38it/s]Training 2/3 epoch (loss 0.9287):  49%|████▉     | 4797/9753 [51:14<58:31,  1.41it/s]Training 2/3 epoch (loss 0.7015):  49%|████▉     | 4797/9753 [51:14<58:31,  1.41it/s]Training 2/3 epoch (loss 0.7015):  49%|████▉     | 4798/9753 [51:14<57:49,  1.43it/s]Training 2/3 epoch (loss 0.6344):  49%|████▉     | 4798/9753 [51:15<57:49,  1.43it/s]Training 2/3 epoch (loss 0.6344):  49%|████▉     | 4799/9753 [51:15<56:00,  1.47it/s]Training 2/3 epoch (loss 0.5085):  49%|████▉     | 4799/9753 [51:16<56:00,  1.47it/s]Training 2/3 epoch (loss 0.5085):  49%|████▉     | 4800/9753 [51:16<57:41,  1.43it/s]Training 2/3 epoch (loss 0.7312):  49%|████▉     | 4800/9753 [51:16<57:41,  1.43it/s]Training 2/3 epoch (loss 0.7312):  49%|████▉     | 4801/9753 [51:16<1:00:38,  1.36it/s]Training 2/3 epoch (loss 0.8135):  49%|████▉     | 4801/9753 [51:17<1:00:38,  1.36it/s]Training 2/3 epoch (loss 0.8135):  49%|████▉     | 4802/9753 [51:17<58:12,  1.42it/s]  Training 2/3 epoch (loss 0.8596):  49%|████▉     | 4802/9753 [51:18<58:12,  1.42it/s]Training 2/3 epoch (loss 0.8596):  49%|████▉     | 4803/9753 [51:18<56:56,  1.45it/s]Training 2/3 epoch (loss 0.9665):  49%|████▉     | 4803/9753 [51:18<56:56,  1.45it/s]Training 2/3 epoch (loss 0.9665):  49%|████▉     | 4804/9753 [51:18<56:34,  1.46it/s]Training 2/3 epoch (loss 0.5752):  49%|████▉     | 4804/9753 [51:19<56:34,  1.46it/s]Training 2/3 epoch (loss 0.5752):  49%|████▉     | 4805/9753 [51:19<56:24,  1.46it/s]Training 2/3 epoch (loss 0.7749):  49%|████▉     | 4805/9753 [51:20<56:24,  1.46it/s]Training 2/3 epoch (loss 0.7749):  49%|████▉     | 4806/9753 [51:20<56:57,  1.45it/s]Training 2/3 epoch (loss 0.6776):  49%|████▉     | 4806/9753 [51:20<56:57,  1.45it/s]Training 2/3 epoch (loss 0.6776):  49%|████▉     | 4807/9753 [51:20<55:21,  1.49it/s]Training 2/3 epoch (loss 0.6324):  49%|████▉     | 4807/9753 [51:21<55:21,  1.49it/s]Training 2/3 epoch (loss 0.6324):  49%|████▉     | 4808/9753 [51:21<54:35,  1.51it/s]Training 2/3 epoch (loss 0.7353):  49%|████▉     | 4808/9753 [51:22<54:35,  1.51it/s]Training 2/3 epoch (loss 0.7353):  49%|████▉     | 4809/9753 [51:22<53:45,  1.53it/s]Training 2/3 epoch (loss 0.6252):  49%|████▉     | 4809/9753 [51:22<53:45,  1.53it/s]Training 2/3 epoch (loss 0.6252):  49%|████▉     | 4810/9753 [51:22<53:06,  1.55it/s]Training 2/3 epoch (loss 0.5190):  49%|████▉     | 4810/9753 [51:23<53:06,  1.55it/s]Training 2/3 epoch (loss 0.5190):  49%|████▉     | 4811/9753 [51:23<52:42,  1.56it/s]Training 2/3 epoch (loss 0.6737):  49%|████▉     | 4811/9753 [51:24<52:42,  1.56it/s]Training 2/3 epoch (loss 0.6737):  49%|████▉     | 4812/9753 [51:24<52:55,  1.56it/s]Training 2/3 epoch (loss 0.7036):  49%|████▉     | 4812/9753 [51:24<52:55,  1.56it/s]Training 2/3 epoch (loss 0.7036):  49%|████▉     | 4813/9753 [51:24<52:32,  1.57it/s]Training 2/3 epoch (loss 0.6589):  49%|████▉     | 4813/9753 [51:25<52:32,  1.57it/s]Training 2/3 epoch (loss 0.6589):  49%|████▉     | 4814/9753 [51:25<52:09,  1.58it/s]Training 2/3 epoch (loss 0.8407):  49%|████▉     | 4814/9753 [51:25<52:09,  1.58it/s]Training 2/3 epoch (loss 0.8407):  49%|████▉     | 4815/9753 [51:25<52:00,  1.58it/s]Training 2/3 epoch (loss 0.6197):  49%|████▉     | 4815/9753 [51:26<52:00,  1.58it/s]Training 2/3 epoch (loss 0.6197):  49%|████▉     | 4816/9753 [51:26<53:17,  1.54it/s]Training 2/3 epoch (loss 0.4123):  49%|████▉     | 4816/9753 [51:27<53:17,  1.54it/s]Training 2/3 epoch (loss 0.4123):  49%|████▉     | 4817/9753 [51:27<51:04,  1.61it/s]Training 2/3 epoch (loss 0.6672):  49%|████▉     | 4817/9753 [51:27<51:04,  1.61it/s]Training 2/3 epoch (loss 0.6672):  49%|████▉     | 4818/9753 [51:27<49:37,  1.66it/s]Training 2/3 epoch (loss 0.8750):  49%|████▉     | 4818/9753 [51:28<49:37,  1.66it/s]Training 2/3 epoch (loss 0.8750):  49%|████▉     | 4819/9753 [51:28<50:02,  1.64it/s]Training 2/3 epoch (loss 0.7120):  49%|████▉     | 4819/9753 [51:28<50:02,  1.64it/s]Training 2/3 epoch (loss 0.7120):  49%|████▉     | 4820/9753 [51:28<48:58,  1.68it/s]Training 2/3 epoch (loss 0.7522):  49%|████▉     | 4820/9753 [51:29<48:58,  1.68it/s]Training 2/3 epoch (loss 0.7522):  49%|████▉     | 4821/9753 [51:29<54:41,  1.50it/s]Training 2/3 epoch (loss 0.5974):  49%|████▉     | 4821/9753 [51:30<54:41,  1.50it/s]Training 2/3 epoch (loss 0.5974):  49%|████▉     | 4822/9753 [51:30<55:39,  1.48it/s]Training 2/3 epoch (loss 0.6674):  49%|████▉     | 4822/9753 [51:31<55:39,  1.48it/s]Training 2/3 epoch (loss 0.6674):  49%|████▉     | 4823/9753 [51:31<53:03,  1.55it/s]Training 2/3 epoch (loss 0.4375):  49%|████▉     | 4823/9753 [51:31<53:03,  1.55it/s]Training 2/3 epoch (loss 0.4375):  49%|████▉     | 4824/9753 [51:31<52:50,  1.55it/s]Training 2/3 epoch (loss 0.6948):  49%|████▉     | 4824/9753 [51:32<52:50,  1.55it/s]Training 2/3 epoch (loss 0.6948):  49%|████▉     | 4825/9753 [51:32<50:39,  1.62it/s]Training 2/3 epoch (loss 0.5815):  49%|████▉     | 4825/9753 [51:32<50:39,  1.62it/s]Training 2/3 epoch (loss 0.5815):  49%|████▉     | 4826/9753 [51:32<49:14,  1.67it/s]Training 2/3 epoch (loss 0.5923):  49%|████▉     | 4826/9753 [51:33<49:14,  1.67it/s]Training 2/3 epoch (loss 0.5923):  49%|████▉     | 4827/9753 [51:33<53:03,  1.55it/s]Training 2/3 epoch (loss 0.5992):  49%|████▉     | 4827/9753 [51:34<53:03,  1.55it/s]Training 2/3 epoch (loss 0.5992):  50%|████▉     | 4828/9753 [51:34<51:55,  1.58it/s]Training 2/3 epoch (loss 0.8138):  50%|████▉     | 4828/9753 [51:34<51:55,  1.58it/s]Training 2/3 epoch (loss 0.8138):  50%|████▉     | 4829/9753 [51:34<55:44,  1.47it/s]Training 2/3 epoch (loss 0.8777):  50%|████▉     | 4829/9753 [51:35<55:44,  1.47it/s]Training 2/3 epoch (loss 0.8777):  50%|████▉     | 4830/9753 [51:35<53:13,  1.54it/s]Training 2/3 epoch (loss 0.8277):  50%|████▉     | 4830/9753 [51:36<53:13,  1.54it/s]Training 2/3 epoch (loss 0.8277):  50%|████▉     | 4831/9753 [51:36<52:32,  1.56it/s]Training 2/3 epoch (loss 0.6955):  50%|████▉     | 4831/9753 [51:36<52:32,  1.56it/s]Training 2/3 epoch (loss 0.6955):  50%|████▉     | 4832/9753 [51:36<54:36,  1.50it/s]Training 2/3 epoch (loss 0.6960):  50%|████▉     | 4832/9753 [51:37<54:36,  1.50it/s]Training 2/3 epoch (loss 0.6960):  50%|████▉     | 4833/9753 [51:37<52:21,  1.57it/s]Training 2/3 epoch (loss 0.5438):  50%|████▉     | 4833/9753 [51:38<52:21,  1.57it/s]Training 2/3 epoch (loss 0.5438):  50%|████▉     | 4834/9753 [51:38<51:03,  1.61it/s]Training 2/3 epoch (loss 0.8382):  50%|████▉     | 4834/9753 [51:38<51:03,  1.61it/s]Training 2/3 epoch (loss 0.8382):  50%|████▉     | 4835/9753 [51:38<53:11,  1.54it/s]Training 2/3 epoch (loss 0.6505):  50%|████▉     | 4835/9753 [51:39<53:11,  1.54it/s]Training 2/3 epoch (loss 0.6505):  50%|████▉     | 4836/9753 [51:39<51:10,  1.60it/s]Training 2/3 epoch (loss 0.8528):  50%|████▉     | 4836/9753 [51:39<51:10,  1.60it/s]Training 2/3 epoch (loss 0.8528):  50%|████▉     | 4837/9753 [51:39<51:50,  1.58it/s]Training 2/3 epoch (loss 0.7624):  50%|████▉     | 4837/9753 [51:40<51:50,  1.58it/s]Training 2/3 epoch (loss 0.7624):  50%|████▉     | 4838/9753 [51:40<53:16,  1.54it/s]Training 2/3 epoch (loss 0.6372):  50%|████▉     | 4838/9753 [51:41<53:16,  1.54it/s]Training 2/3 epoch (loss 0.6372):  50%|████▉     | 4839/9753 [51:41<54:10,  1.51it/s]Training 2/3 epoch (loss 0.6531):  50%|████▉     | 4839/9753 [51:42<54:10,  1.51it/s]Training 2/3 epoch (loss 0.6531):  50%|████▉     | 4840/9753 [51:42<54:51,  1.49it/s]Training 2/3 epoch (loss 0.5207):  50%|████▉     | 4840/9753 [51:42<54:51,  1.49it/s]Training 2/3 epoch (loss 0.5207):  50%|████▉     | 4841/9753 [51:42<52:16,  1.57it/s]Training 2/3 epoch (loss 0.6922):  50%|████▉     | 4841/9753 [51:43<52:16,  1.57it/s]Training 2/3 epoch (loss 0.6922):  50%|████▉     | 4842/9753 [51:43<51:42,  1.58it/s]Training 2/3 epoch (loss 0.8746):  50%|████▉     | 4842/9753 [51:43<51:42,  1.58it/s]Training 2/3 epoch (loss 0.8746):  50%|████▉     | 4843/9753 [51:43<50:55,  1.61it/s]Training 2/3 epoch (loss 0.7048):  50%|████▉     | 4843/9753 [51:44<50:55,  1.61it/s]Training 2/3 epoch (loss 0.7048):  50%|████▉     | 4844/9753 [51:44<50:07,  1.63it/s]Training 2/3 epoch (loss 0.7331):  50%|████▉     | 4844/9753 [51:45<50:07,  1.63it/s]Training 2/3 epoch (loss 0.7331):  50%|████▉     | 4845/9753 [51:45<50:28,  1.62it/s]Training 2/3 epoch (loss 0.5579):  50%|████▉     | 4845/9753 [51:45<50:28,  1.62it/s]Training 2/3 epoch (loss 0.5579):  50%|████▉     | 4846/9753 [51:45<50:31,  1.62it/s]Training 2/3 epoch (loss 0.7762):  50%|████▉     | 4846/9753 [51:46<50:31,  1.62it/s]Training 2/3 epoch (loss 0.7762):  50%|████▉     | 4847/9753 [51:46<49:52,  1.64it/s]Training 2/3 epoch (loss 0.9310):  50%|████▉     | 4847/9753 [51:47<49:52,  1.64it/s]Training 2/3 epoch (loss 0.9310):  50%|████▉     | 4848/9753 [51:47<55:11,  1.48it/s]Training 2/3 epoch (loss 0.9123):  50%|████▉     | 4848/9753 [51:47<55:11,  1.48it/s]Training 2/3 epoch (loss 0.9123):  50%|████▉     | 4849/9753 [51:47<55:31,  1.47it/s]Training 2/3 epoch (loss 0.5566):  50%|████▉     | 4849/9753 [51:48<55:31,  1.47it/s]Training 2/3 epoch (loss 0.5566):  50%|████▉     | 4850/9753 [51:48<54:51,  1.49it/s]Training 2/3 epoch (loss 0.4980):  50%|████▉     | 4850/9753 [51:48<54:51,  1.49it/s]Training 2/3 epoch (loss 0.4980):  50%|████▉     | 4851/9753 [51:48<52:43,  1.55it/s]Training 2/3 epoch (loss 0.8021):  50%|████▉     | 4851/9753 [51:49<52:43,  1.55it/s]Training 2/3 epoch (loss 0.8021):  50%|████▉     | 4852/9753 [51:49<51:07,  1.60it/s]Training 2/3 epoch (loss 0.7464):  50%|████▉     | 4852/9753 [51:50<51:07,  1.60it/s]Training 2/3 epoch (loss 0.7464):  50%|████▉     | 4853/9753 [51:50<51:09,  1.60it/s]Training 2/3 epoch (loss 0.8101):  50%|████▉     | 4853/9753 [51:50<51:09,  1.60it/s]Training 2/3 epoch (loss 0.8101):  50%|████▉     | 4854/9753 [51:50<53:16,  1.53it/s]Training 2/3 epoch (loss 0.6891):  50%|████▉     | 4854/9753 [51:51<53:16,  1.53it/s]Training 2/3 epoch (loss 0.6891):  50%|████▉     | 4855/9753 [51:51<54:48,  1.49it/s]Training 2/3 epoch (loss 0.6693):  50%|████▉     | 4855/9753 [51:52<54:48,  1.49it/s]Training 2/3 epoch (loss 0.6693):  50%|████▉     | 4856/9753 [51:52<55:55,  1.46it/s]Training 2/3 epoch (loss 0.9847):  50%|████▉     | 4856/9753 [51:53<55:55,  1.46it/s]Training 2/3 epoch (loss 0.9847):  50%|████▉     | 4857/9753 [51:53<58:02,  1.41it/s]Training 2/3 epoch (loss 0.9079):  50%|████▉     | 4857/9753 [51:53<58:02,  1.41it/s]Training 2/3 epoch (loss 0.9079):  50%|████▉     | 4858/9753 [51:53<55:14,  1.48it/s]Training 2/3 epoch (loss 0.7245):  50%|████▉     | 4858/9753 [51:54<55:14,  1.48it/s]Training 2/3 epoch (loss 0.7245):  50%|████▉     | 4859/9753 [51:54<55:27,  1.47it/s]Training 2/3 epoch (loss 0.7719):  50%|████▉     | 4859/9753 [51:55<55:27,  1.47it/s]Training 2/3 epoch (loss 0.7719):  50%|████▉     | 4860/9753 [51:55<58:53,  1.38it/s]Training 2/3 epoch (loss 0.7474):  50%|████▉     | 4860/9753 [51:55<58:53,  1.38it/s]Training 2/3 epoch (loss 0.7474):  50%|████▉     | 4861/9753 [51:55<55:49,  1.46it/s]Training 2/3 epoch (loss 0.5846):  50%|████▉     | 4861/9753 [51:56<55:49,  1.46it/s]Training 2/3 epoch (loss 0.5846):  50%|████▉     | 4862/9753 [51:56<53:30,  1.52it/s]Training 2/3 epoch (loss 0.6699):  50%|████▉     | 4862/9753 [51:57<53:30,  1.52it/s]Training 2/3 epoch (loss 0.6699):  50%|████▉     | 4863/9753 [51:57<53:49,  1.51it/s]Training 2/3 epoch (loss 0.7289):  50%|████▉     | 4863/9753 [51:57<53:49,  1.51it/s]Training 2/3 epoch (loss 0.7289):  50%|████▉     | 4864/9753 [51:57<55:18,  1.47it/s]Training 2/3 epoch (loss 0.4949):  50%|████▉     | 4864/9753 [51:58<55:18,  1.47it/s]Training 2/3 epoch (loss 0.4949):  50%|████▉     | 4865/9753 [51:58<55:18,  1.47it/s]Training 2/3 epoch (loss 0.6498):  50%|████▉     | 4865/9753 [51:59<55:18,  1.47it/s]Training 2/3 epoch (loss 0.6498):  50%|████▉     | 4866/9753 [51:59<53:00,  1.54it/s]Training 2/3 epoch (loss 0.5717):  50%|████▉     | 4866/9753 [51:59<53:00,  1.54it/s]Training 2/3 epoch (loss 0.5717):  50%|████▉     | 4867/9753 [51:59<52:26,  1.55it/s]Training 2/3 epoch (loss 0.7057):  50%|████▉     | 4867/9753 [52:00<52:26,  1.55it/s]Training 2/3 epoch (loss 0.7057):  50%|████▉     | 4868/9753 [52:00<51:18,  1.59it/s]Training 2/3 epoch (loss 0.6058):  50%|████▉     | 4868/9753 [52:00<51:18,  1.59it/s]Training 2/3 epoch (loss 0.6058):  50%|████▉     | 4869/9753 [52:00<50:02,  1.63it/s]Training 2/3 epoch (loss 0.8124):  50%|████▉     | 4869/9753 [52:01<50:02,  1.63it/s]Training 2/3 epoch (loss 0.8124):  50%|████▉     | 4870/9753 [52:01<52:02,  1.56it/s]Training 2/3 epoch (loss 0.6811):  50%|████▉     | 4870/9753 [52:02<52:02,  1.56it/s]Training 2/3 epoch (loss 0.6811):  50%|████▉     | 4871/9753 [52:02<51:09,  1.59it/s]Training 2/3 epoch (loss 0.7819):  50%|████▉     | 4871/9753 [52:02<51:09,  1.59it/s]Training 2/3 epoch (loss 0.7819):  50%|████▉     | 4872/9753 [52:02<50:09,  1.62it/s]Training 2/3 epoch (loss 0.6344):  50%|████▉     | 4872/9753 [52:03<50:09,  1.62it/s]Training 2/3 epoch (loss 0.6344):  50%|████▉     | 4873/9753 [52:03<50:30,  1.61it/s]Training 2/3 epoch (loss 0.5486):  50%|████▉     | 4873/9753 [52:04<50:30,  1.61it/s]Training 2/3 epoch (loss 0.5486):  50%|████▉     | 4874/9753 [52:04<53:37,  1.52it/s]Training 2/3 epoch (loss 0.7225):  50%|████▉     | 4874/9753 [52:04<53:37,  1.52it/s]Training 2/3 epoch (loss 0.7225):  50%|████▉     | 4875/9753 [52:04<58:57,  1.38it/s]Training 2/3 epoch (loss 0.9723):  50%|████▉     | 4875/9753 [52:05<58:57,  1.38it/s]Training 2/3 epoch (loss 0.9723):  50%|████▉     | 4876/9753 [52:05<57:31,  1.41it/s]Training 2/3 epoch (loss 0.6848):  50%|████▉     | 4876/9753 [52:06<57:31,  1.41it/s]Training 2/3 epoch (loss 0.6848):  50%|█████     | 4877/9753 [52:06<56:43,  1.43it/s]Training 2/3 epoch (loss 0.7721):  50%|█████     | 4877/9753 [52:06<56:43,  1.43it/s]Training 2/3 epoch (loss 0.7721):  50%|█████     | 4878/9753 [52:06<55:46,  1.46it/s]Training 2/3 epoch (loss 0.8620):  50%|█████     | 4878/9753 [52:07<55:46,  1.46it/s]Training 2/3 epoch (loss 0.8620):  50%|█████     | 4879/9753 [52:07<54:30,  1.49it/s]Training 2/3 epoch (loss 0.4241):  50%|█████     | 4879/9753 [52:08<54:30,  1.49it/s]Training 2/3 epoch (loss 0.4241):  50%|█████     | 4880/9753 [52:08<56:15,  1.44it/s]Training 2/3 epoch (loss 0.8293):  50%|█████     | 4880/9753 [52:09<56:15,  1.44it/s]Training 2/3 epoch (loss 0.8293):  50%|█████     | 4881/9753 [52:09<55:44,  1.46it/s]Training 2/3 epoch (loss 0.5535):  50%|█████     | 4881/9753 [52:09<55:44,  1.46it/s]Training 2/3 epoch (loss 0.5535):  50%|█████     | 4882/9753 [52:09<53:21,  1.52it/s]Training 2/3 epoch (loss 0.5991):  50%|█████     | 4882/9753 [52:10<53:21,  1.52it/s]Training 2/3 epoch (loss 0.5991):  50%|█████     | 4883/9753 [52:10<51:25,  1.58it/s]Training 2/3 epoch (loss 0.5758):  50%|█████     | 4883/9753 [52:10<51:25,  1.58it/s]Training 2/3 epoch (loss 0.5758):  50%|█████     | 4884/9753 [52:10<50:01,  1.62it/s]Training 2/3 epoch (loss 0.6631):  50%|█████     | 4884/9753 [52:11<50:01,  1.62it/s]Training 2/3 epoch (loss 0.6631):  50%|█████     | 4885/9753 [52:11<50:27,  1.61it/s]Training 2/3 epoch (loss 0.6712):  50%|█████     | 4885/9753 [52:12<50:27,  1.61it/s]Training 2/3 epoch (loss 0.6712):  50%|█████     | 4886/9753 [52:12<52:28,  1.55it/s]Training 2/3 epoch (loss 0.8396):  50%|█████     | 4886/9753 [52:12<52:28,  1.55it/s]Training 2/3 epoch (loss 0.8396):  50%|█████     | 4887/9753 [52:12<50:36,  1.60it/s]Training 2/3 epoch (loss 0.6595):  50%|█████     | 4887/9753 [52:13<50:36,  1.60it/s]Training 2/3 epoch (loss 0.6595):  50%|█████     | 4888/9753 [52:13<48:59,  1.66it/s]Training 2/3 epoch (loss 0.8940):  50%|█████     | 4888/9753 [52:13<48:59,  1.66it/s]Training 2/3 epoch (loss 0.8940):  50%|█████     | 4889/9753 [52:13<51:56,  1.56it/s]Training 2/3 epoch (loss 0.4450):  50%|█████     | 4889/9753 [52:14<51:56,  1.56it/s]Training 2/3 epoch (loss 0.4450):  50%|█████     | 4890/9753 [52:14<49:58,  1.62it/s]Training 2/3 epoch (loss 0.5806):  50%|█████     | 4890/9753 [52:15<49:58,  1.62it/s]Training 2/3 epoch (loss 0.5806):  50%|█████     | 4891/9753 [52:15<51:15,  1.58it/s]Training 2/3 epoch (loss 0.9240):  50%|█████     | 4891/9753 [52:15<51:15,  1.58it/s]Training 2/3 epoch (loss 0.9240):  50%|█████     | 4892/9753 [52:15<51:46,  1.56it/s]Training 2/3 epoch (loss 0.6551):  50%|█████     | 4892/9753 [52:16<51:46,  1.56it/s]Training 2/3 epoch (loss 0.6551):  50%|█████     | 4893/9753 [52:16<49:33,  1.63it/s]Training 2/3 epoch (loss 0.7628):  50%|█████     | 4893/9753 [52:16<49:33,  1.63it/s]Training 2/3 epoch (loss 0.7628):  50%|█████     | 4894/9753 [52:16<48:05,  1.68it/s]Training 2/3 epoch (loss 0.9077):  50%|█████     | 4894/9753 [52:17<48:05,  1.68it/s]Training 2/3 epoch (loss 0.9077):  50%|█████     | 4895/9753 [52:17<48:31,  1.67it/s]Training 2/3 epoch (loss 0.6002):  50%|█████     | 4895/9753 [52:18<48:31,  1.67it/s]Training 2/3 epoch (loss 0.6002):  50%|█████     | 4896/9753 [52:18<56:42,  1.43it/s]Training 2/3 epoch (loss 0.7336):  50%|█████     | 4896/9753 [52:19<56:42,  1.43it/s]Training 2/3 epoch (loss 0.7336):  50%|█████     | 4897/9753 [52:19<54:14,  1.49it/s]Training 2/3 epoch (loss 0.5908):  50%|█████     | 4897/9753 [52:19<54:14,  1.49it/s]Training 2/3 epoch (loss 0.5908):  50%|█████     | 4898/9753 [52:19<51:15,  1.58it/s]Training 2/3 epoch (loss 0.5846):  50%|█████     | 4898/9753 [52:20<51:15,  1.58it/s]Training 2/3 epoch (loss 0.5846):  50%|█████     | 4899/9753 [52:20<49:45,  1.63it/s]Training 2/3 epoch (loss 0.4048):  50%|█████     | 4899/9753 [52:20<49:45,  1.63it/s]Training 2/3 epoch (loss 0.4048):  50%|█████     | 4900/9753 [52:20<48:10,  1.68it/s]Training 2/3 epoch (loss 0.5970):  50%|█████     | 4900/9753 [52:21<48:10,  1.68it/s]Training 2/3 epoch (loss 0.5970):  50%|█████     | 4901/9753 [52:21<46:54,  1.72it/s]Training 2/3 epoch (loss 0.7304):  50%|█████     | 4901/9753 [52:22<46:54,  1.72it/s]Training 2/3 epoch (loss 0.7304):  50%|█████     | 4902/9753 [52:22<54:42,  1.48it/s]Training 2/3 epoch (loss 0.7016):  50%|█████     | 4902/9753 [52:22<54:42,  1.48it/s]Training 2/3 epoch (loss 0.7016):  50%|█████     | 4903/9753 [52:22<52:43,  1.53it/s]Training 2/3 epoch (loss 0.8218):  50%|█████     | 4903/9753 [52:23<52:43,  1.53it/s]Training 2/3 epoch (loss 0.8218):  50%|█████     | 4904/9753 [52:23<58:37,  1.38it/s]Training 2/3 epoch (loss 0.8307):  50%|█████     | 4904/9753 [52:24<58:37,  1.38it/s]Training 2/3 epoch (loss 0.8307):  50%|█████     | 4905/9753 [52:24<56:44,  1.42it/s]Training 2/3 epoch (loss 0.6936):  50%|█████     | 4905/9753 [52:25<56:44,  1.42it/s]Training 2/3 epoch (loss 0.6936):  50%|█████     | 4906/9753 [52:25<56:55,  1.42it/s]Training 2/3 epoch (loss 0.7588):  50%|█████     | 4906/9753 [52:25<56:55,  1.42it/s]Training 2/3 epoch (loss 0.7588):  50%|█████     | 4907/9753 [52:25<53:44,  1.50it/s]Training 2/3 epoch (loss 0.6446):  50%|█████     | 4907/9753 [52:26<53:44,  1.50it/s]Training 2/3 epoch (loss 0.6446):  50%|█████     | 4908/9753 [52:26<54:05,  1.49it/s]Training 2/3 epoch (loss 0.5287):  50%|█████     | 4908/9753 [52:26<54:05,  1.49it/s]Training 2/3 epoch (loss 0.5287):  50%|█████     | 4909/9753 [52:26<52:54,  1.53it/s]Training 2/3 epoch (loss 0.6459):  50%|█████     | 4909/9753 [52:27<52:54,  1.53it/s]Training 2/3 epoch (loss 0.6459):  50%|█████     | 4910/9753 [52:27<53:17,  1.51it/s]Training 2/3 epoch (loss 0.5377):  50%|█████     | 4910/9753 [52:28<53:17,  1.51it/s]Training 2/3 epoch (loss 0.5377):  50%|█████     | 4911/9753 [52:28<51:07,  1.58it/s]Training 2/3 epoch (loss 0.7554):  50%|█████     | 4911/9753 [52:28<51:07,  1.58it/s]Training 2/3 epoch (loss 0.7554):  50%|█████     | 4912/9753 [52:28<52:34,  1.53it/s]Training 2/3 epoch (loss 0.8465):  50%|█████     | 4912/9753 [52:29<52:34,  1.53it/s]Training 2/3 epoch (loss 0.8465):  50%|█████     | 4913/9753 [52:29<51:05,  1.58it/s]Training 2/3 epoch (loss 0.6764):  50%|█████     | 4913/9753 [52:30<51:05,  1.58it/s]Training 2/3 epoch (loss 0.6764):  50%|█████     | 4914/9753 [52:30<48:57,  1.65it/s]Training 2/3 epoch (loss 0.5967):  50%|█████     | 4914/9753 [52:30<48:57,  1.65it/s]Training 2/3 epoch (loss 0.5967):  50%|█████     | 4915/9753 [52:30<49:55,  1.62it/s]Training 2/3 epoch (loss 0.6448):  50%|█████     | 4915/9753 [52:31<49:55,  1.62it/s]Training 2/3 epoch (loss 0.6448):  50%|█████     | 4916/9753 [52:31<50:51,  1.59it/s]Training 2/3 epoch (loss 0.6416):  50%|█████     | 4916/9753 [52:31<50:51,  1.59it/s]Training 2/3 epoch (loss 0.6416):  50%|█████     | 4917/9753 [52:31<48:50,  1.65it/s]Training 2/3 epoch (loss 0.8120):  50%|█████     | 4917/9753 [52:32<48:50,  1.65it/s]Training 2/3 epoch (loss 0.8120):  50%|█████     | 4918/9753 [52:32<48:29,  1.66it/s]Training 2/3 epoch (loss 0.6648):  50%|█████     | 4918/9753 [52:33<48:29,  1.66it/s]Training 2/3 epoch (loss 0.6648):  50%|█████     | 4919/9753 [52:33<47:15,  1.71it/s]Training 2/3 epoch (loss 0.6630):  50%|█████     | 4919/9753 [52:33<47:15,  1.71it/s]Training 2/3 epoch (loss 0.6630):  50%|█████     | 4920/9753 [52:33<46:46,  1.72it/s]Training 2/3 epoch (loss 0.6379):  50%|█████     | 4920/9753 [52:34<46:46,  1.72it/s]Training 2/3 epoch (loss 0.6379):  50%|█████     | 4921/9753 [52:34<47:42,  1.69it/s]Training 2/3 epoch (loss 0.9089):  50%|█████     | 4921/9753 [52:34<47:42,  1.69it/s]Training 2/3 epoch (loss 0.9089):  50%|█████     | 4922/9753 [52:34<50:15,  1.60it/s]Training 2/3 epoch (loss 0.9125):  50%|█████     | 4922/9753 [52:35<50:15,  1.60it/s]Training 2/3 epoch (loss 0.9125):  50%|█████     | 4923/9753 [52:35<50:30,  1.59it/s]Training 2/3 epoch (loss 0.6582):  50%|█████     | 4923/9753 [52:36<50:30,  1.59it/s]Training 2/3 epoch (loss 0.6582):  50%|█████     | 4924/9753 [52:36<51:00,  1.58it/s]Training 2/3 epoch (loss 0.6499):  50%|█████     | 4924/9753 [52:36<51:00,  1.58it/s]Training 2/3 epoch (loss 0.6499):  50%|█████     | 4925/9753 [52:36<49:01,  1.64it/s]Training 2/3 epoch (loss 0.7204):  50%|█████     | 4925/9753 [52:37<49:01,  1.64it/s]Training 2/3 epoch (loss 0.7204):  51%|█████     | 4926/9753 [52:37<53:08,  1.51it/s]Training 2/3 epoch (loss 0.7520):  51%|█████     | 4926/9753 [52:38<53:08,  1.51it/s]Training 2/3 epoch (loss 0.7520):  51%|█████     | 4927/9753 [52:38<51:21,  1.57it/s]Training 2/3 epoch (loss 0.4921):  51%|█████     | 4927/9753 [52:38<51:21,  1.57it/s]Training 2/3 epoch (loss 0.4921):  51%|█████     | 4928/9753 [52:38<53:11,  1.51it/s]Training 2/3 epoch (loss 0.5896):  51%|█████     | 4928/9753 [52:39<53:11,  1.51it/s]Training 2/3 epoch (loss 0.5896):  51%|█████     | 4929/9753 [52:39<55:45,  1.44it/s]Training 2/3 epoch (loss 0.6389):  51%|█████     | 4929/9753 [52:40<55:45,  1.44it/s]Training 2/3 epoch (loss 0.6389):  51%|█████     | 4930/9753 [52:40<53:13,  1.51it/s]Training 2/3 epoch (loss 0.7473):  51%|█████     | 4930/9753 [52:40<53:13,  1.51it/s]Training 2/3 epoch (loss 0.7473):  51%|█████     | 4931/9753 [52:40<52:35,  1.53it/s]Training 2/3 epoch (loss 0.6847):  51%|█████     | 4931/9753 [52:41<52:35,  1.53it/s]Training 2/3 epoch (loss 0.6847):  51%|█████     | 4932/9753 [52:41<50:22,  1.59it/s]Training 2/3 epoch (loss 0.5641):  51%|█████     | 4932/9753 [52:41<50:22,  1.59it/s]Training 2/3 epoch (loss 0.5641):  51%|█████     | 4933/9753 [52:41<48:29,  1.66it/s]Training 2/3 epoch (loss 0.9067):  51%|█████     | 4933/9753 [52:42<48:29,  1.66it/s]Training 2/3 epoch (loss 0.9067):  51%|█████     | 4934/9753 [52:42<47:13,  1.70it/s]Training 2/3 epoch (loss 0.7712):  51%|█████     | 4934/9753 [52:43<47:13,  1.70it/s]Training 2/3 epoch (loss 0.7712):  51%|█████     | 4935/9753 [52:43<46:11,  1.74it/s]Training 2/3 epoch (loss 0.5393):  51%|█████     | 4935/9753 [52:43<46:11,  1.74it/s]Training 2/3 epoch (loss 0.5393):  51%|█████     | 4936/9753 [52:43<45:28,  1.77it/s]Training 2/3 epoch (loss 0.6801):  51%|█████     | 4936/9753 [52:44<45:28,  1.77it/s]Training 2/3 epoch (loss 0.6801):  51%|█████     | 4937/9753 [52:44<45:06,  1.78it/s]Training 2/3 epoch (loss 0.6899):  51%|█████     | 4937/9753 [52:44<45:06,  1.78it/s]Training 2/3 epoch (loss 0.6899):  51%|█████     | 4938/9753 [52:44<44:33,  1.80it/s]Training 2/3 epoch (loss 0.8059):  51%|█████     | 4938/9753 [52:45<44:33,  1.80it/s]Training 2/3 epoch (loss 0.8059):  51%|█████     | 4939/9753 [52:45<46:34,  1.72it/s]Training 2/3 epoch (loss 0.8179):  51%|█████     | 4939/9753 [52:45<46:34,  1.72it/s]Training 2/3 epoch (loss 0.8179):  51%|█████     | 4940/9753 [52:45<46:34,  1.72it/s]Training 2/3 epoch (loss 0.4873):  51%|█████     | 4940/9753 [52:46<46:34,  1.72it/s]Training 2/3 epoch (loss 0.4873):  51%|█████     | 4941/9753 [52:46<47:25,  1.69it/s]Training 2/3 epoch (loss 0.6403):  51%|█████     | 4941/9753 [52:47<47:25,  1.69it/s]Training 2/3 epoch (loss 0.6403):  51%|█████     | 4942/9753 [52:47<46:28,  1.73it/s]Training 2/3 epoch (loss 0.4829):  51%|█████     | 4942/9753 [52:47<46:28,  1.73it/s]Training 2/3 epoch (loss 0.4829):  51%|█████     | 4943/9753 [52:47<46:24,  1.73it/s]Training 2/3 epoch (loss 0.5757):  51%|█████     | 4943/9753 [52:48<46:24,  1.73it/s]Training 2/3 epoch (loss 0.5757):  51%|█████     | 4944/9753 [52:48<48:49,  1.64it/s]Training 2/3 epoch (loss 0.9754):  51%|█████     | 4944/9753 [52:48<48:49,  1.64it/s]Training 2/3 epoch (loss 0.9754):  51%|█████     | 4945/9753 [52:48<47:32,  1.69it/s]Training 2/3 epoch (loss 0.6067):  51%|█████     | 4945/9753 [52:49<47:32,  1.69it/s]Training 2/3 epoch (loss 0.6067):  51%|█████     | 4946/9753 [52:49<48:01,  1.67it/s]Training 2/3 epoch (loss 0.6647):  51%|█████     | 4946/9753 [52:50<48:01,  1.67it/s]Training 2/3 epoch (loss 0.6647):  51%|█████     | 4947/9753 [52:50<49:56,  1.60it/s]Training 2/3 epoch (loss 0.8889):  51%|█████     | 4947/9753 [52:50<49:56,  1.60it/s]Training 2/3 epoch (loss 0.8889):  51%|█████     | 4948/9753 [52:50<48:26,  1.65it/s]Training 2/3 epoch (loss 0.4977):  51%|█████     | 4948/9753 [52:51<48:26,  1.65it/s]Training 2/3 epoch (loss 0.4977):  51%|█████     | 4949/9753 [52:51<48:35,  1.65it/s]Training 2/3 epoch (loss 0.5938):  51%|█████     | 4949/9753 [52:51<48:35,  1.65it/s]Training 2/3 epoch (loss 0.5938):  51%|█████     | 4950/9753 [52:51<49:23,  1.62it/s]Training 2/3 epoch (loss 0.9022):  51%|█████     | 4950/9753 [52:52<49:23,  1.62it/s]Training 2/3 epoch (loss 0.9022):  51%|█████     | 4951/9753 [52:52<51:39,  1.55it/s]Training 2/3 epoch (loss 0.8158):  51%|█████     | 4951/9753 [52:53<51:39,  1.55it/s]Training 2/3 epoch (loss 0.8158):  51%|█████     | 4952/9753 [52:53<54:07,  1.48it/s]Training 2/3 epoch (loss 0.8890):  51%|█████     | 4952/9753 [52:54<54:07,  1.48it/s]Training 2/3 epoch (loss 0.8890):  51%|█████     | 4953/9753 [52:54<1:00:34,  1.32it/s]Training 2/3 epoch (loss 0.7434):  51%|█████     | 4953/9753 [52:55<1:00:34,  1.32it/s]Training 2/3 epoch (loss 0.7434):  51%|█████     | 4954/9753 [52:55<58:56,  1.36it/s]  Training 2/3 epoch (loss 0.6336):  51%|█████     | 4954/9753 [52:55<58:56,  1.36it/s]Training 2/3 epoch (loss 0.6336):  51%|█████     | 4955/9753 [52:55<57:01,  1.40it/s]Training 2/3 epoch (loss 0.6952):  51%|█████     | 4955/9753 [52:56<57:01,  1.40it/s]Training 2/3 epoch (loss 0.6952):  51%|█████     | 4956/9753 [52:56<55:27,  1.44it/s]Training 2/3 epoch (loss 0.9039):  51%|█████     | 4956/9753 [52:57<55:27,  1.44it/s]Training 2/3 epoch (loss 0.9039):  51%|█████     | 4957/9753 [52:57<54:42,  1.46it/s]Training 2/3 epoch (loss 0.7854):  51%|█████     | 4957/9753 [52:57<54:42,  1.46it/s]Training 2/3 epoch (loss 0.7854):  51%|█████     | 4958/9753 [52:57<55:43,  1.43it/s]Training 2/3 epoch (loss 0.5346):  51%|█████     | 4958/9753 [52:58<55:43,  1.43it/s]Training 2/3 epoch (loss 0.5346):  51%|█████     | 4959/9753 [52:58<55:40,  1.44it/s]Training 2/3 epoch (loss 1.0028):  51%|█████     | 4959/9753 [52:59<55:40,  1.44it/s]Training 2/3 epoch (loss 1.0028):  51%|█████     | 4960/9753 [52:59<58:39,  1.36it/s]Training 2/3 epoch (loss 0.6854):  51%|█████     | 4960/9753 [52:59<58:39,  1.36it/s]Training 2/3 epoch (loss 0.6854):  51%|█████     | 4961/9753 [52:59<57:13,  1.40it/s]Training 2/3 epoch (loss 0.6097):  51%|█████     | 4961/9753 [53:00<57:13,  1.40it/s]Training 2/3 epoch (loss 0.6097):  51%|█████     | 4962/9753 [53:00<57:07,  1.40it/s]Training 2/3 epoch (loss 0.9222):  51%|█████     | 4962/9753 [53:01<57:07,  1.40it/s]Training 2/3 epoch (loss 0.9222):  51%|█████     | 4963/9753 [53:01<1:00:29,  1.32it/s]Training 2/3 epoch (loss 0.5233):  51%|█████     | 4963/9753 [53:02<1:00:29,  1.32it/s]Training 2/3 epoch (loss 0.5233):  51%|█████     | 4964/9753 [53:02<57:45,  1.38it/s]  Training 2/3 epoch (loss 0.6038):  51%|█████     | 4964/9753 [53:02<57:45,  1.38it/s]Training 2/3 epoch (loss 0.6038):  51%|█████     | 4965/9753 [53:02<54:13,  1.47it/s]Training 2/3 epoch (loss 0.7068):  51%|█████     | 4965/9753 [53:03<54:13,  1.47it/s]Training 2/3 epoch (loss 0.7068):  51%|█████     | 4966/9753 [53:03<52:40,  1.51it/s]Training 2/3 epoch (loss 0.7228):  51%|█████     | 4966/9753 [53:03<52:40,  1.51it/s]Training 2/3 epoch (loss 0.7228):  51%|█████     | 4967/9753 [53:03<51:09,  1.56it/s]Training 2/3 epoch (loss 0.5265):  51%|█████     | 4967/9753 [53:04<51:09,  1.56it/s]Training 2/3 epoch (loss 0.5265):  51%|█████     | 4968/9753 [53:04<51:47,  1.54it/s]Training 2/3 epoch (loss 0.8211):  51%|█████     | 4968/9753 [53:05<51:47,  1.54it/s]Training 2/3 epoch (loss 0.8211):  51%|█████     | 4969/9753 [53:05<50:50,  1.57it/s]Training 2/3 epoch (loss 0.6927):  51%|█████     | 4969/9753 [53:05<50:50,  1.57it/s]Training 2/3 epoch (loss 0.6927):  51%|█████     | 4970/9753 [53:05<49:43,  1.60it/s]Training 2/3 epoch (loss 0.9145):  51%|█████     | 4970/9753 [53:06<49:43,  1.60it/s]Training 2/3 epoch (loss 0.9145):  51%|█████     | 4971/9753 [53:06<52:14,  1.53it/s]Training 2/3 epoch (loss 0.7477):  51%|█████     | 4971/9753 [53:07<52:14,  1.53it/s]Training 2/3 epoch (loss 0.7477):  51%|█████     | 4972/9753 [53:07<52:41,  1.51it/s]Training 2/3 epoch (loss 0.6071):  51%|█████     | 4972/9753 [53:07<52:41,  1.51it/s]Training 2/3 epoch (loss 0.6071):  51%|█████     | 4973/9753 [53:07<52:46,  1.51it/s]Training 2/3 epoch (loss 0.6147):  51%|█████     | 4973/9753 [53:08<52:46,  1.51it/s]Training 2/3 epoch (loss 0.6147):  51%|█████     | 4974/9753 [53:08<52:28,  1.52it/s]Training 2/3 epoch (loss 0.5507):  51%|█████     | 4974/9753 [53:09<52:28,  1.52it/s]Training 2/3 epoch (loss 0.5507):  51%|█████     | 4975/9753 [53:09<52:11,  1.53it/s]Training 2/3 epoch (loss 0.4664):  51%|█████     | 4975/9753 [53:10<52:11,  1.53it/s]Training 2/3 epoch (loss 0.4664):  51%|█████     | 4976/9753 [53:10<55:41,  1.43it/s]Training 2/3 epoch (loss 0.6841):  51%|█████     | 4976/9753 [53:10<55:41,  1.43it/s]Training 2/3 epoch (loss 0.6841):  51%|█████     | 4977/9753 [53:10<53:34,  1.49it/s]Training 2/3 epoch (loss 0.7569):  51%|█████     | 4977/9753 [53:11<53:34,  1.49it/s]Training 2/3 epoch (loss 0.7569):  51%|█████     | 4978/9753 [53:11<53:12,  1.50it/s]Training 2/3 epoch (loss 0.5834):  51%|█████     | 4978/9753 [53:11<53:12,  1.50it/s]Training 2/3 epoch (loss 0.5834):  51%|█████     | 4979/9753 [53:11<53:41,  1.48it/s]Training 2/3 epoch (loss 0.7163):  51%|█████     | 4979/9753 [53:12<53:41,  1.48it/s]Training 2/3 epoch (loss 0.7163):  51%|█████     | 4980/9753 [53:12<54:43,  1.45it/s]Training 2/3 epoch (loss 0.8949):  51%|█████     | 4980/9753 [53:13<54:43,  1.45it/s]Training 2/3 epoch (loss 0.8949):  51%|█████     | 4981/9753 [53:13<54:13,  1.47it/s]Training 2/3 epoch (loss 0.6212):  51%|█████     | 4981/9753 [53:14<54:13,  1.47it/s]Training 2/3 epoch (loss 0.6212):  51%|█████     | 4982/9753 [53:14<53:32,  1.49it/s]Training 2/3 epoch (loss 0.5541):  51%|█████     | 4982/9753 [53:14<53:32,  1.49it/s]Training 2/3 epoch (loss 0.5541):  51%|█████     | 4983/9753 [53:14<51:08,  1.55it/s]Training 2/3 epoch (loss 0.6231):  51%|█████     | 4983/9753 [53:15<51:08,  1.55it/s]Training 2/3 epoch (loss 0.6231):  51%|█████     | 4984/9753 [53:15<52:31,  1.51it/s]Training 2/3 epoch (loss 0.6052):  51%|█████     | 4984/9753 [53:15<52:31,  1.51it/s]Training 2/3 epoch (loss 0.6052):  51%|█████     | 4985/9753 [53:15<50:23,  1.58it/s]Training 2/3 epoch (loss 0.6318):  51%|█████     | 4985/9753 [53:16<50:23,  1.58it/s]Training 2/3 epoch (loss 0.6318):  51%|█████     | 4986/9753 [53:16<49:44,  1.60it/s]Training 2/3 epoch (loss 0.4074):  51%|█████     | 4986/9753 [53:17<49:44,  1.60it/s]Training 2/3 epoch (loss 0.4074):  51%|█████     | 4987/9753 [53:17<49:00,  1.62it/s]Training 2/3 epoch (loss 0.5592):  51%|█████     | 4987/9753 [53:17<49:00,  1.62it/s]Training 2/3 epoch (loss 0.5592):  51%|█████     | 4988/9753 [53:17<47:42,  1.66it/s]Training 2/3 epoch (loss 0.6320):  51%|█████     | 4988/9753 [53:18<47:42,  1.66it/s]Training 2/3 epoch (loss 0.6320):  51%|█████     | 4989/9753 [53:18<53:55,  1.47it/s]Training 2/3 epoch (loss 0.7197):  51%|█████     | 4989/9753 [53:19<53:55,  1.47it/s]Training 2/3 epoch (loss 0.7197):  51%|█████     | 4990/9753 [53:19<51:33,  1.54it/s]Training 2/3 epoch (loss 0.7851):  51%|█████     | 4990/9753 [53:19<51:33,  1.54it/s]Training 2/3 epoch (loss 0.7851):  51%|█████     | 4991/9753 [53:19<53:10,  1.49it/s]Training 2/3 epoch (loss 0.7646):  51%|█████     | 4991/9753 [53:20<53:10,  1.49it/s]Training 2/3 epoch (loss 0.7646):  51%|█████     | 4992/9753 [53:20<1:00:01,  1.32it/s]Training 2/3 epoch (loss 0.5713):  51%|█████     | 4992/9753 [53:21<1:00:01,  1.32it/s]Training 2/3 epoch (loss 0.5713):  51%|█████     | 4993/9753 [53:21<57:42,  1.37it/s]  Training 2/3 epoch (loss 0.5674):  51%|█████     | 4993/9753 [53:22<57:42,  1.37it/s]Training 2/3 epoch (loss 0.5674):  51%|█████     | 4994/9753 [53:22<55:16,  1.44it/s]Training 2/3 epoch (loss 0.9120):  51%|█████     | 4994/9753 [53:22<55:16,  1.44it/s]Training 2/3 epoch (loss 0.9120):  51%|█████     | 4995/9753 [53:22<52:03,  1.52it/s]Training 2/3 epoch (loss 0.6441):  51%|█████     | 4995/9753 [53:23<52:03,  1.52it/s]Training 2/3 epoch (loss 0.6441):  51%|█████     | 4996/9753 [53:23<49:30,  1.60it/s]Training 2/3 epoch (loss 0.7525):  51%|█████     | 4996/9753 [53:23<49:30,  1.60it/s]Training 2/3 epoch (loss 0.7525):  51%|█████     | 4997/9753 [53:23<47:49,  1.66it/s]Training 2/3 epoch (loss 0.8044):  51%|█████     | 4997/9753 [53:24<47:49,  1.66it/s]Training 2/3 epoch (loss 0.8044):  51%|█████     | 4998/9753 [53:24<46:29,  1.70it/s]Training 2/3 epoch (loss 0.5910):  51%|█████     | 4998/9753 [53:24<46:29,  1.70it/s]Training 2/3 epoch (loss 0.5910):  51%|█████▏    | 4999/9753 [53:24<46:50,  1.69it/s]Training 2/3 epoch (loss 0.6301):  51%|█████▏    | 4999/9753 [53:25<46:50,  1.69it/s]Training 2/3 epoch (loss 0.6301):  51%|█████▏    | 5000/9753 [53:25<50:39,  1.56it/s]Training 2/3 epoch (loss 0.8054):  51%|█████▏    | 5000/9753 [53:26<50:39,  1.56it/s]Training 2/3 epoch (loss 0.8054):  51%|█████▏    | 5001/9753 [53:26<49:21,  1.60it/s]Training 2/3 epoch (loss 0.5178):  51%|█████▏    | 5001/9753 [53:26<49:21,  1.60it/s]Training 2/3 epoch (loss 0.5178):  51%|█████▏    | 5002/9753 [53:26<47:41,  1.66it/s]Training 2/3 epoch (loss 0.6296):  51%|█████▏    | 5002/9753 [53:27<47:41,  1.66it/s]Training 2/3 epoch (loss 0.6296):  51%|█████▏    | 5003/9753 [53:27<49:36,  1.60it/s]Training 2/3 epoch (loss 0.6509):  51%|█████▏    | 5003/9753 [53:27<49:36,  1.60it/s]Training 2/3 epoch (loss 0.6509):  51%|█████▏    | 5004/9753 [53:27<48:14,  1.64it/s]Training 2/3 epoch (loss 0.7012):  51%|█████▏    | 5004/9753 [53:28<48:14,  1.64it/s]Training 2/3 epoch (loss 0.7012):  51%|█████▏    | 5005/9753 [53:28<50:09,  1.58it/s]Training 2/3 epoch (loss 0.8281):  51%|█████▏    | 5005/9753 [53:29<50:09,  1.58it/s]Training 2/3 epoch (loss 0.8281):  51%|█████▏    | 5006/9753 [53:29<48:44,  1.62it/s]Training 2/3 epoch (loss 0.6109):  51%|█████▏    | 5006/9753 [53:29<48:44,  1.62it/s]Training 2/3 epoch (loss 0.6109):  51%|█████▏    | 5007/9753 [53:29<48:06,  1.64it/s]Training 2/3 epoch (loss 0.7625):  51%|█████▏    | 5007/9753 [53:30<48:06,  1.64it/s]Training 2/3 epoch (loss 0.7625):  51%|█████▏    | 5008/9753 [53:30<50:48,  1.56it/s]Training 2/3 epoch (loss 0.7952):  51%|█████▏    | 5008/9753 [53:31<50:48,  1.56it/s]Training 2/3 epoch (loss 0.7952):  51%|█████▏    | 5009/9753 [53:31<49:03,  1.61it/s]Training 2/3 epoch (loss 0.8103):  51%|█████▏    | 5009/9753 [53:31<49:03,  1.61it/s]Training 2/3 epoch (loss 0.8103):  51%|█████▏    | 5010/9753 [53:31<54:27,  1.45it/s]Training 2/3 epoch (loss 0.7824):  51%|█████▏    | 5010/9753 [53:32<54:27,  1.45it/s]Training 2/3 epoch (loss 0.7824):  51%|█████▏    | 5011/9753 [53:32<55:10,  1.43it/s]Training 2/3 epoch (loss 0.6671):  51%|█████▏    | 5011/9753 [53:33<55:10,  1.43it/s]Training 2/3 epoch (loss 0.6671):  51%|█████▏    | 5012/9753 [53:33<52:00,  1.52it/s]Training 2/3 epoch (loss 0.7963):  51%|█████▏    | 5012/9753 [53:33<52:00,  1.52it/s]Training 2/3 epoch (loss 0.7963):  51%|█████▏    | 5013/9753 [53:33<50:09,  1.57it/s]Training 2/3 epoch (loss 0.6952):  51%|█████▏    | 5013/9753 [53:34<50:09,  1.57it/s]Training 2/3 epoch (loss 0.6952):  51%|█████▏    | 5014/9753 [53:34<47:58,  1.65it/s]Training 2/3 epoch (loss 0.7424):  51%|█████▏    | 5014/9753 [53:35<47:58,  1.65it/s]Training 2/3 epoch (loss 0.7424):  51%|█████▏    | 5015/9753 [53:35<49:21,  1.60it/s]Training 2/3 epoch (loss 1.0091):  51%|█████▏    | 5015/9753 [53:35<49:21,  1.60it/s]Training 2/3 epoch (loss 1.0091):  51%|█████▏    | 5016/9753 [53:35<50:09,  1.57it/s]Training 2/3 epoch (loss 0.6659):  51%|█████▏    | 5016/9753 [53:36<50:09,  1.57it/s]Training 2/3 epoch (loss 0.6659):  51%|█████▏    | 5017/9753 [53:36<49:06,  1.61it/s]Training 2/3 epoch (loss 0.5788):  51%|█████▏    | 5017/9753 [53:36<49:06,  1.61it/s]Training 2/3 epoch (loss 0.5788):  51%|█████▏    | 5018/9753 [53:36<47:21,  1.67it/s]Training 2/3 epoch (loss 0.6231):  51%|█████▏    | 5018/9753 [53:37<47:21,  1.67it/s]Training 2/3 epoch (loss 0.6231):  51%|█████▏    | 5019/9753 [53:37<46:07,  1.71it/s]Training 2/3 epoch (loss 0.6755):  51%|█████▏    | 5019/9753 [53:38<46:07,  1.71it/s]Training 2/3 epoch (loss 0.6755):  51%|█████▏    | 5020/9753 [53:38<46:35,  1.69it/s]Training 2/3 epoch (loss 0.7985):  51%|█████▏    | 5020/9753 [53:38<46:35,  1.69it/s]Training 2/3 epoch (loss 0.7985):  51%|█████▏    | 5021/9753 [53:38<45:55,  1.72it/s]Training 2/3 epoch (loss 0.8169):  51%|█████▏    | 5021/9753 [53:39<45:55,  1.72it/s]Training 2/3 epoch (loss 0.8169):  51%|█████▏    | 5022/9753 [53:39<53:17,  1.48it/s]Training 2/3 epoch (loss 0.6316):  51%|█████▏    | 5022/9753 [53:40<53:17,  1.48it/s]Training 2/3 epoch (loss 0.6316):  52%|█████▏    | 5023/9753 [53:40<51:47,  1.52it/s]Training 2/3 epoch (loss 0.8339):  52%|█████▏    | 5023/9753 [53:40<51:47,  1.52it/s]Training 2/3 epoch (loss 0.8339):  52%|█████▏    | 5024/9753 [53:40<53:34,  1.47it/s]Training 2/3 epoch (loss 0.6397):  52%|█████▏    | 5024/9753 [53:41<53:34,  1.47it/s]Training 2/3 epoch (loss 0.6397):  52%|█████▏    | 5025/9753 [53:41<51:47,  1.52it/s]Training 2/3 epoch (loss 0.5021):  52%|█████▏    | 5025/9753 [53:42<51:47,  1.52it/s]Training 2/3 epoch (loss 0.5021):  52%|█████▏    | 5026/9753 [53:42<57:13,  1.38it/s]Training 2/3 epoch (loss 0.7184):  52%|█████▏    | 5026/9753 [53:43<57:13,  1.38it/s]Training 2/3 epoch (loss 0.7184):  52%|█████▏    | 5027/9753 [53:43<56:55,  1.38it/s]Training 2/3 epoch (loss 0.5992):  52%|█████▏    | 5027/9753 [53:43<56:55,  1.38it/s]Training 2/3 epoch (loss 0.5992):  52%|█████▏    | 5028/9753 [53:43<55:08,  1.43it/s]Training 2/3 epoch (loss 0.7780):  52%|█████▏    | 5028/9753 [53:44<55:08,  1.43it/s]Training 2/3 epoch (loss 0.7780):  52%|█████▏    | 5029/9753 [53:44<54:38,  1.44it/s]Training 2/3 epoch (loss 0.2959):  52%|█████▏    | 5029/9753 [53:45<54:38,  1.44it/s]Training 2/3 epoch (loss 0.2959):  52%|█████▏    | 5030/9753 [53:45<55:36,  1.42it/s]Training 2/3 epoch (loss 1.0128):  52%|█████▏    | 5030/9753 [53:46<55:36,  1.42it/s]Training 2/3 epoch (loss 1.0128):  52%|█████▏    | 5031/9753 [53:46<1:01:01,  1.29it/s]Training 2/3 epoch (loss 0.8699):  52%|█████▏    | 5031/9753 [53:46<1:01:01,  1.29it/s]Training 2/3 epoch (loss 0.8699):  52%|█████▏    | 5032/9753 [53:46<1:03:27,  1.24it/s]Training 2/3 epoch (loss 0.8064):  52%|█████▏    | 5032/9753 [53:47<1:03:27,  1.24it/s]Training 2/3 epoch (loss 0.8064):  52%|█████▏    | 5033/9753 [53:47<1:00:44,  1.30it/s]Training 2/3 epoch (loss 0.5770):  52%|█████▏    | 5033/9753 [53:48<1:00:44,  1.30it/s]Training 2/3 epoch (loss 0.5770):  52%|█████▏    | 5034/9753 [53:48<1:01:21,  1.28it/s]Training 2/3 epoch (loss 0.8907):  52%|█████▏    | 5034/9753 [53:49<1:01:21,  1.28it/s]Training 2/3 epoch (loss 0.8907):  52%|█████▏    | 5035/9753 [53:49<1:00:19,  1.30it/s]Training 2/3 epoch (loss 0.6249):  52%|█████▏    | 5035/9753 [53:49<1:00:19,  1.30it/s]Training 2/3 epoch (loss 0.6249):  52%|█████▏    | 5036/9753 [53:49<58:32,  1.34it/s]  Training 2/3 epoch (loss 0.7391):  52%|█████▏    | 5036/9753 [53:50<58:32,  1.34it/s]Training 2/3 epoch (loss 0.7391):  52%|█████▏    | 5037/9753 [53:50<58:03,  1.35it/s]Training 2/3 epoch (loss 0.5729):  52%|█████▏    | 5037/9753 [53:51<58:03,  1.35it/s]Training 2/3 epoch (loss 0.5729):  52%|█████▏    | 5038/9753 [53:51<56:13,  1.40it/s]Training 2/3 epoch (loss 0.5706):  52%|█████▏    | 5038/9753 [53:51<56:13,  1.40it/s]Training 2/3 epoch (loss 0.5706):  52%|█████▏    | 5039/9753 [53:51<54:22,  1.45it/s]Training 2/3 epoch (loss 0.6443):  52%|█████▏    | 5039/9753 [53:52<54:22,  1.45it/s]Training 2/3 epoch (loss 0.6443):  52%|█████▏    | 5040/9753 [53:52<55:57,  1.40it/s]Training 2/3 epoch (loss 0.6652):  52%|█████▏    | 5040/9753 [53:53<55:57,  1.40it/s]Training 2/3 epoch (loss 0.6652):  52%|█████▏    | 5041/9753 [53:53<55:27,  1.42it/s]Training 2/3 epoch (loss 0.8653):  52%|█████▏    | 5041/9753 [53:53<55:27,  1.42it/s]Training 2/3 epoch (loss 0.8653):  52%|█████▏    | 5042/9753 [53:53<54:54,  1.43it/s]Training 2/3 epoch (loss 0.5578):  52%|█████▏    | 5042/9753 [53:54<54:54,  1.43it/s]Training 2/3 epoch (loss 0.5578):  52%|█████▏    | 5043/9753 [53:54<54:21,  1.44it/s]Training 2/3 epoch (loss 0.8287):  52%|█████▏    | 5043/9753 [53:55<54:21,  1.44it/s]Training 2/3 epoch (loss 0.8287):  52%|█████▏    | 5044/9753 [53:55<54:53,  1.43it/s]Training 2/3 epoch (loss 0.7420):  52%|█████▏    | 5044/9753 [53:56<54:53,  1.43it/s]Training 2/3 epoch (loss 0.7420):  52%|█████▏    | 5045/9753 [53:56<54:33,  1.44it/s]Training 2/3 epoch (loss 0.7698):  52%|█████▏    | 5045/9753 [53:56<54:33,  1.44it/s]Training 2/3 epoch (loss 0.7698):  52%|█████▏    | 5046/9753 [53:56<54:44,  1.43it/s]Training 2/3 epoch (loss 0.6373):  52%|█████▏    | 5046/9753 [53:57<54:44,  1.43it/s]Training 2/3 epoch (loss 0.6373):  52%|█████▏    | 5047/9753 [53:57<54:21,  1.44it/s]Training 2/3 epoch (loss 0.8043):  52%|█████▏    | 5047/9753 [53:58<54:21,  1.44it/s]Training 2/3 epoch (loss 0.8043):  52%|█████▏    | 5048/9753 [53:58<54:27,  1.44it/s]Training 2/3 epoch (loss 0.8293):  52%|█████▏    | 5048/9753 [53:59<54:27,  1.44it/s]Training 2/3 epoch (loss 0.8293):  52%|█████▏    | 5049/9753 [53:59<58:47,  1.33it/s]Training 2/3 epoch (loss 0.9439):  52%|█████▏    | 5049/9753 [53:59<58:47,  1.33it/s]Training 2/3 epoch (loss 0.9439):  52%|█████▏    | 5050/9753 [53:59<57:18,  1.37it/s]Training 2/3 epoch (loss 0.6037):  52%|█████▏    | 5050/9753 [54:00<57:18,  1.37it/s]Training 2/3 epoch (loss 0.6037):  52%|█████▏    | 5051/9753 [54:00<55:31,  1.41it/s]Training 2/3 epoch (loss 0.7261):  52%|█████▏    | 5051/9753 [54:00<55:31,  1.41it/s]Training 2/3 epoch (loss 0.7261):  52%|█████▏    | 5052/9753 [54:00<53:18,  1.47it/s]Training 2/3 epoch (loss 0.7545):  52%|█████▏    | 5052/9753 [54:01<53:18,  1.47it/s]Training 2/3 epoch (loss 0.7545):  52%|█████▏    | 5053/9753 [54:01<59:22,  1.32it/s]Training 2/3 epoch (loss 0.6722):  52%|█████▏    | 5053/9753 [54:02<59:22,  1.32it/s]Training 2/3 epoch (loss 0.6722):  52%|█████▏    | 5054/9753 [54:02<57:45,  1.36it/s]Training 2/3 epoch (loss 0.7956):  52%|█████▏    | 5054/9753 [54:03<57:45,  1.36it/s]Training 2/3 epoch (loss 0.7956):  52%|█████▏    | 5055/9753 [54:03<56:24,  1.39it/s]Training 2/3 epoch (loss 0.5373):  52%|█████▏    | 5055/9753 [54:04<56:24,  1.39it/s]Training 2/3 epoch (loss 0.5373):  52%|█████▏    | 5056/9753 [54:04<58:20,  1.34it/s]Training 2/3 epoch (loss 0.6943):  52%|█████▏    | 5056/9753 [54:04<58:20,  1.34it/s]Training 2/3 epoch (loss 0.6943):  52%|█████▏    | 5057/9753 [54:04<56:49,  1.38it/s]Training 2/3 epoch (loss 0.7333):  52%|█████▏    | 5057/9753 [54:05<56:49,  1.38it/s]Training 2/3 epoch (loss 0.7333):  52%|█████▏    | 5058/9753 [54:05<55:43,  1.40it/s]Training 2/3 epoch (loss 0.6973):  52%|█████▏    | 5058/9753 [54:06<55:43,  1.40it/s]Training 2/3 epoch (loss 0.6973):  52%|█████▏    | 5059/9753 [54:06<54:51,  1.43it/s]Training 2/3 epoch (loss 0.6993):  52%|█████▏    | 5059/9753 [54:06<54:51,  1.43it/s]Training 2/3 epoch (loss 0.6993):  52%|█████▏    | 5060/9753 [54:06<54:18,  1.44it/s]Training 2/3 epoch (loss 0.5516):  52%|█████▏    | 5060/9753 [54:07<54:18,  1.44it/s]Training 2/3 epoch (loss 0.5516):  52%|█████▏    | 5061/9753 [54:07<54:05,  1.45it/s]Training 2/3 epoch (loss 0.6777):  52%|█████▏    | 5061/9753 [54:08<54:05,  1.45it/s]Training 2/3 epoch (loss 0.6777):  52%|█████▏    | 5062/9753 [54:08<53:51,  1.45it/s]Training 2/3 epoch (loss 0.5685):  52%|█████▏    | 5062/9753 [54:08<53:51,  1.45it/s]Training 2/3 epoch (loss 0.5685):  52%|█████▏    | 5063/9753 [54:08<52:32,  1.49it/s]Training 2/3 epoch (loss 0.6196):  52%|█████▏    | 5063/9753 [54:09<52:32,  1.49it/s]Training 2/3 epoch (loss 0.6196):  52%|█████▏    | 5064/9753 [54:09<50:25,  1.55it/s]Training 2/3 epoch (loss 0.5075):  52%|█████▏    | 5064/9753 [54:09<50:25,  1.55it/s]Training 2/3 epoch (loss 0.5075):  52%|█████▏    | 5065/9753 [54:09<48:05,  1.62it/s]Training 2/3 epoch (loss 0.5075):  52%|█████▏    | 5065/9753 [54:10<48:05,  1.62it/s]Training 2/3 epoch (loss 0.5075):  52%|█████▏    | 5066/9753 [54:10<46:25,  1.68it/s]Training 2/3 epoch (loss 0.6126):  52%|█████▏    | 5066/9753 [54:11<46:25,  1.68it/s]Training 2/3 epoch (loss 0.6126):  52%|█████▏    | 5067/9753 [54:11<48:23,  1.61it/s]Training 2/3 epoch (loss 0.9178):  52%|█████▏    | 5067/9753 [54:11<48:23,  1.61it/s]Training 2/3 epoch (loss 0.9178):  52%|█████▏    | 5068/9753 [54:11<48:26,  1.61it/s]Training 2/3 epoch (loss 0.6459):  52%|█████▏    | 5068/9753 [54:12<48:26,  1.61it/s]Training 2/3 epoch (loss 0.6459):  52%|█████▏    | 5069/9753 [54:12<46:47,  1.67it/s]Training 2/3 epoch (loss 0.7108):  52%|█████▏    | 5069/9753 [54:12<46:47,  1.67it/s]Training 2/3 epoch (loss 0.7108):  52%|█████▏    | 5070/9753 [54:12<45:59,  1.70it/s]Training 2/3 epoch (loss 0.8733):  52%|█████▏    | 5070/9753 [54:13<45:59,  1.70it/s]Training 2/3 epoch (loss 0.8733):  52%|█████▏    | 5071/9753 [54:13<45:25,  1.72it/s]Training 2/3 epoch (loss 0.5383):  52%|█████▏    | 5071/9753 [54:14<45:25,  1.72it/s]Training 2/3 epoch (loss 0.5383):  52%|█████▏    | 5072/9753 [54:14<47:45,  1.63it/s]Training 2/3 epoch (loss 0.9431):  52%|█████▏    | 5072/9753 [54:14<47:45,  1.63it/s]Training 2/3 epoch (loss 0.9431):  52%|█████▏    | 5073/9753 [54:14<46:27,  1.68it/s]Training 2/3 epoch (loss 0.7871):  52%|█████▏    | 5073/9753 [54:15<46:27,  1.68it/s]Training 2/3 epoch (loss 0.7871):  52%|█████▏    | 5074/9753 [54:15<46:10,  1.69it/s]Training 2/3 epoch (loss 0.4878):  52%|█████▏    | 5074/9753 [54:15<46:10,  1.69it/s]Training 2/3 epoch (loss 0.4878):  52%|█████▏    | 5075/9753 [54:15<45:08,  1.73it/s]Training 2/3 epoch (loss 0.6658):  52%|█████▏    | 5075/9753 [54:16<45:08,  1.73it/s]Training 2/3 epoch (loss 0.6658):  52%|█████▏    | 5076/9753 [54:16<44:32,  1.75it/s]Training 2/3 epoch (loss 0.6033):  52%|█████▏    | 5076/9753 [54:16<44:32,  1.75it/s]Training 2/3 epoch (loss 0.6033):  52%|█████▏    | 5077/9753 [54:16<43:56,  1.77it/s]Training 2/3 epoch (loss 0.8148):  52%|█████▏    | 5077/9753 [54:17<43:56,  1.77it/s]Training 2/3 epoch (loss 0.8148):  52%|█████▏    | 5078/9753 [54:17<49:37,  1.57it/s]Training 2/3 epoch (loss 0.6536):  52%|█████▏    | 5078/9753 [54:18<49:37,  1.57it/s]Training 2/3 epoch (loss 0.6536):  52%|█████▏    | 5079/9753 [54:18<47:35,  1.64it/s]Training 2/3 epoch (loss 0.6823):  52%|█████▏    | 5079/9753 [54:18<47:35,  1.64it/s]Training 2/3 epoch (loss 0.6823):  52%|█████▏    | 5080/9753 [54:18<46:19,  1.68it/s]Training 2/3 epoch (loss 0.7222):  52%|█████▏    | 5080/9753 [54:19<46:19,  1.68it/s]Training 2/3 epoch (loss 0.7222):  52%|█████▏    | 5081/9753 [54:19<45:11,  1.72it/s]Training 2/3 epoch (loss 0.7700):  52%|█████▏    | 5081/9753 [54:19<45:11,  1.72it/s]Training 2/3 epoch (loss 0.7700):  52%|█████▏    | 5082/9753 [54:19<44:29,  1.75it/s]Training 2/3 epoch (loss 0.7442):  52%|█████▏    | 5082/9753 [54:20<44:29,  1.75it/s]Training 2/3 epoch (loss 0.7442):  52%|█████▏    | 5083/9753 [54:20<46:25,  1.68it/s]Training 2/3 epoch (loss 0.6497):  52%|█████▏    | 5083/9753 [54:21<46:25,  1.68it/s]Training 2/3 epoch (loss 0.6497):  52%|█████▏    | 5084/9753 [54:21<46:04,  1.69it/s]Training 2/3 epoch (loss 0.7614):  52%|█████▏    | 5084/9753 [54:21<46:04,  1.69it/s]Training 2/3 epoch (loss 0.7614):  52%|█████▏    | 5085/9753 [54:21<51:25,  1.51it/s]Training 2/3 epoch (loss 0.6199):  52%|█████▏    | 5085/9753 [54:22<51:25,  1.51it/s]Training 2/3 epoch (loss 0.6199):  52%|█████▏    | 5086/9753 [54:22<48:55,  1.59it/s]Training 2/3 epoch (loss 0.7008):  52%|█████▏    | 5086/9753 [54:23<48:55,  1.59it/s]Training 2/3 epoch (loss 0.7008):  52%|█████▏    | 5087/9753 [54:23<51:46,  1.50it/s]Training 2/3 epoch (loss 0.7901):  52%|█████▏    | 5087/9753 [54:24<51:46,  1.50it/s]Training 2/3 epoch (loss 0.7901):  52%|█████▏    | 5088/9753 [54:24<55:11,  1.41it/s]Training 2/3 epoch (loss 0.8053):  52%|█████▏    | 5088/9753 [54:24<55:11,  1.41it/s]Training 2/3 epoch (loss 0.8053):  52%|█████▏    | 5089/9753 [54:24<54:51,  1.42it/s]Training 2/3 epoch (loss 0.5373):  52%|█████▏    | 5089/9753 [54:25<54:51,  1.42it/s]Training 2/3 epoch (loss 0.5373):  52%|█████▏    | 5090/9753 [54:25<51:37,  1.51it/s]Training 2/3 epoch (loss 0.8158):  52%|█████▏    | 5090/9753 [54:25<51:37,  1.51it/s]Training 2/3 epoch (loss 0.8158):  52%|█████▏    | 5091/9753 [54:25<49:48,  1.56it/s]Training 2/3 epoch (loss 0.7942):  52%|█████▏    | 5091/9753 [54:26<49:48,  1.56it/s]Training 2/3 epoch (loss 0.7942):  52%|█████▏    | 5092/9753 [54:26<50:57,  1.52it/s]Training 2/3 epoch (loss 0.9088):  52%|█████▏    | 5092/9753 [54:27<50:57,  1.52it/s]Training 2/3 epoch (loss 0.9088):  52%|█████▏    | 5093/9753 [54:27<51:01,  1.52it/s]Training 2/3 epoch (loss 0.6100):  52%|█████▏    | 5093/9753 [54:27<51:01,  1.52it/s]Training 2/3 epoch (loss 0.6100):  52%|█████▏    | 5094/9753 [54:27<48:58,  1.59it/s]Training 2/3 epoch (loss 0.7422):  52%|█████▏    | 5094/9753 [54:28<48:58,  1.59it/s]Training 2/3 epoch (loss 0.7422):  52%|█████▏    | 5095/9753 [54:28<47:43,  1.63it/s]Training 2/3 epoch (loss 0.5645):  52%|█████▏    | 5095/9753 [54:29<47:43,  1.63it/s]Training 2/3 epoch (loss 0.5645):  52%|█████▏    | 5096/9753 [54:29<46:06,  1.68it/s]Training 2/3 epoch (loss 0.5858):  52%|█████▏    | 5096/9753 [54:29<46:06,  1.68it/s]Training 2/3 epoch (loss 0.5858):  52%|█████▏    | 5097/9753 [54:29<47:59,  1.62it/s]Training 2/3 epoch (loss 0.6601):  52%|█████▏    | 5097/9753 [54:30<47:59,  1.62it/s]Training 2/3 epoch (loss 0.6601):  52%|█████▏    | 5098/9753 [54:30<46:20,  1.67it/s]Training 2/3 epoch (loss 0.6590):  52%|█████▏    | 5098/9753 [54:30<46:20,  1.67it/s]Training 2/3 epoch (loss 0.6590):  52%|█████▏    | 5099/9753 [54:30<45:22,  1.71it/s]Training 2/3 epoch (loss 0.7288):  52%|█████▏    | 5099/9753 [54:31<45:22,  1.71it/s]Training 2/3 epoch (loss 0.7288):  52%|█████▏    | 5100/9753 [54:31<44:30,  1.74it/s]Training 2/3 epoch (loss 0.5542):  52%|█████▏    | 5100/9753 [54:31<44:30,  1.74it/s]Training 2/3 epoch (loss 0.5542):  52%|█████▏    | 5101/9753 [54:31<43:51,  1.77it/s]Training 2/3 epoch (loss 0.7426):  52%|█████▏    | 5101/9753 [54:32<43:51,  1.77it/s]Training 2/3 epoch (loss 0.7426):  52%|█████▏    | 5102/9753 [54:32<44:23,  1.75it/s]Training 2/3 epoch (loss 0.6388):  52%|█████▏    | 5102/9753 [54:33<44:23,  1.75it/s]Training 2/3 epoch (loss 0.6388):  52%|█████▏    | 5103/9753 [54:33<46:49,  1.66it/s]Training 2/3 epoch (loss 0.5194):  52%|█████▏    | 5103/9753 [54:34<46:49,  1.66it/s]Training 2/3 epoch (loss 0.5194):  52%|█████▏    | 5104/9753 [54:34<53:12,  1.46it/s]Training 2/3 epoch (loss 0.9070):  52%|█████▏    | 5104/9753 [54:34<53:12,  1.46it/s]Training 2/3 epoch (loss 0.9070):  52%|█████▏    | 5105/9753 [54:34<51:39,  1.50it/s]Training 2/3 epoch (loss 0.8746):  52%|█████▏    | 5105/9753 [54:35<51:39,  1.50it/s]Training 2/3 epoch (loss 0.8746):  52%|█████▏    | 5106/9753 [54:35<51:03,  1.52it/s]Training 2/3 epoch (loss 0.9620):  52%|█████▏    | 5106/9753 [54:35<51:03,  1.52it/s]Training 2/3 epoch (loss 0.9620):  52%|█████▏    | 5107/9753 [54:35<48:51,  1.58it/s]Training 2/3 epoch (loss 0.7417):  52%|█████▏    | 5107/9753 [54:36<48:51,  1.58it/s]Training 2/3 epoch (loss 0.7417):  52%|█████▏    | 5108/9753 [54:36<50:03,  1.55it/s]Training 2/3 epoch (loss 0.4893):  52%|█████▏    | 5108/9753 [54:37<50:03,  1.55it/s]Training 2/3 epoch (loss 0.4893):  52%|█████▏    | 5109/9753 [54:37<49:27,  1.57it/s]Training 2/3 epoch (loss 0.7936):  52%|███���█▏    | 5109/9753 [54:37<49:27,  1.57it/s]Training 2/3 epoch (loss 0.7936):  52%|█████▏    | 5110/9753 [54:37<47:27,  1.63it/s]Training 2/3 epoch (loss 0.6254):  52%|█████▏    | 5110/9753 [54:38<47:27,  1.63it/s]Training 2/3 epoch (loss 0.6254):  52%|█████▏    | 5111/9753 [54:38<46:13,  1.67it/s]Training 2/3 epoch (loss 0.8302):  52%|█████▏    | 5111/9753 [54:38<46:13,  1.67it/s]Training 2/3 epoch (loss 0.8302):  52%|█████▏    | 5112/9753 [54:38<45:05,  1.72it/s]Training 2/3 epoch (loss 0.7130):  52%|█████▏    | 5112/9753 [54:39<45:05,  1.72it/s]Training 2/3 epoch (loss 0.7130):  52%|█████▏    | 5113/9753 [54:39<44:26,  1.74it/s]Training 2/3 epoch (loss 0.9421):  52%|█████▏    | 5113/9753 [54:40<44:26,  1.74it/s]Training 2/3 epoch (loss 0.9421):  52%|█████▏    | 5114/9753 [54:40<46:22,  1.67it/s]Training 2/3 epoch (loss 0.6330):  52%|█████▏    | 5114/9753 [54:40<46:22,  1.67it/s]Training 2/3 epoch (loss 0.6330):  52%|█████▏    | 5115/9753 [54:40<45:45,  1.69it/s]Training 2/3 epoch (loss 0.4710):  52%|█████▏    | 5115/9753 [54:41<45:45,  1.69it/s]Training 2/3 epoch (loss 0.4710):  52%|█████▏    | 5116/9753 [54:41<46:35,  1.66it/s]Training 2/3 epoch (loss 0.6613):  52%|█████▏    | 5116/9753 [54:41<46:35,  1.66it/s]Training 2/3 epoch (loss 0.6613):  52%|█████▏    | 5117/9753 [54:41<45:26,  1.70it/s]Training 2/3 epoch (loss 0.7270):  52%|█████▏    | 5117/9753 [54:42<45:26,  1.70it/s]Training 2/3 epoch (loss 0.7270):  52%|█████▏    | 5118/9753 [54:42<44:39,  1.73it/s]Training 2/3 epoch (loss 0.8503):  52%|█████▏    | 5118/9753 [54:42<44:39,  1.73it/s]Training 2/3 epoch (loss 0.8503):  52%|█████▏    | 5119/9753 [54:42<43:57,  1.76it/s]Training 2/3 epoch (loss 0.7461):  52%|█████▏    | 5119/9753 [54:43<43:57,  1.76it/s]Training 2/3 epoch (loss 0.7461):  52%|█████▏    | 5120/9753 [54:43<46:31,  1.66it/s]Training 2/3 epoch (loss 0.8298):  52%|█████▏    | 5120/9753 [54:44<46:31,  1.66it/s]Training 2/3 epoch (loss 0.8298):  53%|█████▎    | 5121/9753 [54:44<46:36,  1.66it/s]Training 2/3 epoch (loss 0.7273):  53%|█████▎    | 5121/9753 [54:44<46:36,  1.66it/s]Training 2/3 epoch (loss 0.7273):  53%|█████▎    | 5122/9753 [54:44<49:01,  1.57it/s]Training 2/3 epoch (loss 0.6442):  53%|█████▎    | 5122/9753 [54:45<49:01,  1.57it/s]Training 2/3 epoch (loss 0.6442):  53%|█████▎    | 5123/9753 [54:45<48:23,  1.59it/s]Training 2/3 epoch (loss 0.7049):  53%|█████▎    | 5123/9753 [54:46<48:23,  1.59it/s]Training 2/3 epoch (loss 0.7049):  53%|█████▎    | 5124/9753 [54:46<47:20,  1.63it/s]Training 2/3 epoch (loss 0.6247):  53%|█████▎    | 5124/9753 [54:46<47:20,  1.63it/s]Training 2/3 epoch (loss 0.6247):  53%|█████▎    | 5125/9753 [54:46<46:08,  1.67it/s]Training 2/3 epoch (loss 0.7085):  53%|█████▎    | 5125/9753 [54:47<46:08,  1.67it/s]Training 2/3 epoch (loss 0.7085):  53%|█████▎    | 5126/9753 [54:47<45:03,  1.71it/s]Training 2/3 epoch (loss 0.8181):  53%|█████▎    | 5126/9753 [54:47<45:03,  1.71it/s]Training 2/3 epoch (loss 0.8181):  53%|█████▎    | 5127/9753 [54:47<45:26,  1.70it/s]Training 2/3 epoch (loss 0.6814):  53%|█████▎    | 5127/9753 [54:48<45:26,  1.70it/s]Training 2/3 epoch (loss 0.6814):  53%|█████▎    | 5128/9753 [54:48<44:29,  1.73it/s]Training 2/3 epoch (loss 0.7642):  53%|█████▎    | 5128/9753 [54:48<44:29,  1.73it/s]Training 2/3 epoch (loss 0.7642):  53%|█████▎    | 5129/9753 [54:48<43:45,  1.76it/s]Training 2/3 epoch (loss 0.7088):  53%|█████▎    | 5129/9753 [54:49<43:45,  1.76it/s]Training 2/3 epoch (loss 0.7088):  53%|█████▎    | 5130/9753 [54:49<43:27,  1.77it/s]Training 2/3 epoch (loss 0.9895):  53%|█████▎    | 5130/9753 [54:50<43:27,  1.77it/s]Training 2/3 epoch (loss 0.9895):  53%|█████▎    | 5131/9753 [54:50<46:56,  1.64it/s]Training 2/3 epoch (loss 1.0812):  53%|█████▎    | 5131/9753 [54:50<46:56,  1.64it/s]Training 2/3 epoch (loss 1.0812):  53%|█████▎    | 5132/9753 [54:50<47:59,  1.60it/s]Training 2/3 epoch (loss 0.5274):  53%|█████▎    | 5132/9753 [54:51<47:59,  1.60it/s]Training 2/3 epoch (loss 0.5274):  53%|█████▎    | 5133/9753 [54:51<46:19,  1.66it/s]Training 2/3 epoch (loss 0.5568):  53%|█████▎    | 5133/9753 [54:51<46:19,  1.66it/s]Training 2/3 epoch (loss 0.5568):  53%|█████▎    | 5134/9753 [54:51<45:03,  1.71it/s]Training 2/3 epoch (loss 0.9149):  53%|█████▎    | 5134/9753 [54:52<45:03,  1.71it/s]Training 2/3 epoch (loss 0.9149):  53%|█████▎    | 5135/9753 [54:52<46:37,  1.65it/s]Training 2/3 epoch (loss 0.8235):  53%|█████▎    | 5135/9753 [54:53<46:37,  1.65it/s]Training 2/3 epoch (loss 0.8235):  53%|█████▎    | 5136/9753 [54:53<48:10,  1.60it/s]Training 2/3 epoch (loss 0.6377):  53%|█████▎    | 5136/9753 [54:53<48:10,  1.60it/s]Training 2/3 epoch (loss 0.6377):  53%|█████▎    | 5137/9753 [54:53<46:41,  1.65it/s]Training 2/3 epoch (loss 0.7528):  53%|█████▎    | 5137/9753 [54:54<46:41,  1.65it/s]Training 2/3 epoch (loss 0.7528):  53%|█████▎    | 5138/9753 [54:54<46:45,  1.65it/s]Training 2/3 epoch (loss 0.5557):  53%|█████▎    | 5138/9753 [54:55<46:45,  1.65it/s]Training 2/3 epoch (loss 0.5557):  53%|█████▎    | 5139/9753 [54:55<46:28,  1.65it/s]Training 2/3 epoch (loss 0.3730):  53%|█████▎    | 5139/9753 [54:55<46:28,  1.65it/s]Training 2/3 epoch (loss 0.3730):  53%|█████▎    | 5140/9753 [54:55<45:02,  1.71it/s]Training 2/3 epoch (loss 0.9782):  53%|█████▎    | 5140/9753 [54:56<45:02,  1.71it/s]Training 2/3 epoch (loss 0.9782):  53%|█████▎    | 5141/9753 [54:56<45:27,  1.69it/s]Training 2/3 epoch (loss 0.7116):  53%|█████▎    | 5141/9753 [54:56<45:27,  1.69it/s]Training 2/3 epoch (loss 0.7116):  53%|█████▎    | 5142/9753 [54:56<44:32,  1.73it/s]Training 2/3 epoch (loss 0.5179):  53%|█████▎    | 5142/9753 [54:57<44:32,  1.73it/s]Training 2/3 epoch (loss 0.5179):  53%|█████▎    | 5143/9753 [54:57<43:40,  1.76it/s]Training 2/3 epoch (loss 0.6602):  53%|█████▎    | 5143/9753 [54:57<43:40,  1.76it/s]Training 2/3 epoch (loss 0.6602):  53%|█████▎    | 5144/9753 [54:57<43:11,  1.78it/s]Training 2/3 epoch (loss 0.8397):  53%|█████▎    | 5144/9753 [54:58<43:11,  1.78it/s]Training 2/3 epoch (loss 0.8397):  53%|█████▎    | 5145/9753 [54:58<48:17,  1.59it/s]Training 2/3 epoch (loss 0.7112):  53%|█████▎    | 5145/9753 [54:59<48:17,  1.59it/s]Training 2/3 epoch (loss 0.7112):  53%|█████▎    | 5146/9753 [54:59<46:19,  1.66it/s]Training 2/3 epoch (loss 0.7919):  53%|█████▎    | 5146/9753 [54:59<46:19,  1.66it/s]Training 2/3 epoch (loss 0.7919):  53%|█████▎    | 5147/9753 [54:59<45:13,  1.70it/s]Training 2/3 epoch (loss 0.6260):  53%|█████▎    | 5147/9753 [55:00<45:13,  1.70it/s]Training 2/3 epoch (loss 0.6260):  53%|█████▎    | 5148/9753 [55:00<46:15,  1.66it/s]Training 2/3 epoch (loss 0.6056):  53%|█████▎    | 5148/9753 [55:00<46:15,  1.66it/s]Training 2/3 epoch (loss 0.6056):  53%|█████▎    | 5149/9753 [55:00<45:10,  1.70it/s]Training 2/3 epoch (loss 0.8180):  53%|█████▎    | 5149/9753 [55:01<45:10,  1.70it/s]Training 2/3 epoch (loss 0.8180):  53%|█████▎    | 5150/9753 [55:01<47:46,  1.61it/s]Training 2/3 epoch (loss 0.6598):  53%|█████▎    | 5150/9753 [55:02<47:46,  1.61it/s]Training 2/3 epoch (loss 0.6598):  53%|█████▎    | 5151/9753 [55:02<46:48,  1.64it/s]Training 2/3 epoch (loss 0.8167):  53%|█████▎    | 5151/9753 [55:02<46:48,  1.64it/s]Training 2/3 epoch (loss 0.8167):  53%|█████▎    | 5152/9753 [55:02<48:21,  1.59it/s]Training 2/3 epoch (loss 0.3292):  53%|█████▎    | 5152/9753 [55:03<48:21,  1.59it/s]Training 2/3 epoch (loss 0.3292):  53%|█████▎    | 5153/9753 [55:03<46:32,  1.65it/s]Training 2/3 epoch (loss 0.3183):  53%|█████▎    | 5153/9753 [55:03<46:32,  1.65it/s]Training 2/3 epoch (loss 0.3183):  53%|█████▎    | 5154/9753 [55:03<45:07,  1.70it/s]Training 2/3 epoch (loss 0.8071):  53%|█████▎    | 5154/9753 [55:04<45:07,  1.70it/s]Training 2/3 epoch (loss 0.8071):  53%|█████▎    | 5155/9753 [55:04<45:12,  1.70it/s]Training 2/3 epoch (loss 0.8277):  53%|█████▎    | 5155/9753 [55:05<45:12,  1.70it/s]Training 2/3 epoch (loss 0.8277):  53%|█████▎    | 5156/9753 [55:05<47:44,  1.60it/s]Training 2/3 epoch (loss 0.7585):  53%|█████▎    | 5156/9753 [55:06<47:44,  1.60it/s]Training 2/3 epoch (loss 0.7585):  53%|█████▎    | 5157/9753 [55:06<54:16,  1.41it/s]Training 2/3 epoch (loss 0.6362):  53%|█████▎    | 5157/9753 [55:06<54:16,  1.41it/s]Training 2/3 epoch (loss 0.6362):  53%|█████▎    | 5158/9753 [55:06<52:02,  1.47it/s]Training 2/3 epoch (loss 0.7156):  53%|█████▎    | 5158/9753 [55:07<52:02,  1.47it/s]Training 2/3 epoch (loss 0.7156):  53%|█████▎    | 5159/9753 [55:07<49:34,  1.54it/s]Training 2/3 epoch (loss 0.5952):  53%|█████▎    | 5159/9753 [55:07<49:34,  1.54it/s]Training 2/3 epoch (loss 0.5952):  53%|█████▎    | 5160/9753 [55:07<49:29,  1.55it/s]Training 2/3 epoch (loss 0.5587):  53%|█████▎    | 5160/9753 [55:08<49:29,  1.55it/s]Training 2/3 epoch (loss 0.5587):  53%|█████▎    | 5161/9753 [55:08<47:57,  1.60it/s]Training 2/3 epoch (loss 0.9984):  53%|█████▎    | 5161/9753 [55:09<47:57,  1.60it/s]Training 2/3 epoch (loss 0.9984):  53%|█████▎    | 5162/9753 [55:09<49:46,  1.54it/s]Training 2/3 epoch (loss 0.8092):  53%|█████▎    | 5162/9753 [55:09<49:46,  1.54it/s]Training 2/3 epoch (loss 0.8092):  53%|█████▎    | 5163/9753 [55:09<48:51,  1.57it/s]Training 2/3 epoch (loss 0.5877):  53%|█████▎    | 5163/9753 [55:10<48:51,  1.57it/s]Training 2/3 epoch (loss 0.5877):  53%|█████▎    | 5164/9753 [55:10<47:28,  1.61it/s]Training 2/3 epoch (loss 0.9012):  53%|█████▎    | 5164/9753 [55:11<47:28,  1.61it/s]Training 2/3 epoch (loss 0.9012):  53%|█████▎    | 5165/9753 [55:11<48:47,  1.57it/s]Training 2/3 epoch (loss 0.4518):  53%|█████▎    | 5165/9753 [55:11<48:47,  1.57it/s]Training 2/3 epoch (loss 0.4518):  53%|█████▎    | 5166/9753 [55:11<51:49,  1.48it/s]Training 2/3 epoch (loss 0.8210):  53%|█████▎    | 5166/9753 [55:12<51:49,  1.48it/s]Training 2/3 epoch (loss 0.8210):  53%|█████▎    | 5167/9753 [55:12<52:16,  1.46it/s]Training 2/3 epoch (loss 0.4004):  53%|█████▎    | 5167/9753 [55:13<52:16,  1.46it/s]Training 2/3 epoch (loss 0.4004):  53%|█████▎    | 5168/9753 [55:13<52:35,  1.45it/s]Training 2/3 epoch (loss 0.6343):  53%|█████▎    | 5168/9753 [55:13<52:35,  1.45it/s]Training 2/3 epoch (loss 0.6343):  53%|█████▎    | 5169/9753 [55:13<49:26,  1.55it/s]Training 2/3 epoch (loss 0.6051):  53%|█████▎    | 5169/9753 [55:14<49:26,  1.55it/s]Training 2/3 epoch (loss 0.6051):  53%|█████▎    | 5170/9753 [55:14<47:09,  1.62it/s]Training 2/3 epoch (loss 0.7709):  53%|█████▎    | 5170/9753 [55:14<47:09,  1.62it/s]Training 2/3 epoch (loss 0.7709):  53%|█████▎    | 5171/9753 [55:14<45:58,  1.66it/s]Training 2/3 epoch (loss 0.9226):  53%|█████▎    | 5171/9753 [55:15<45:58,  1.66it/s]Training 2/3 epoch (loss 0.9226):  53%|█████▎    | 5172/9753 [55:15<47:18,  1.61it/s]Training 2/3 epoch (loss 0.7709):  53%|█████▎    | 5172/9753 [55:16<47:18,  1.61it/s]Training 2/3 epoch (loss 0.7709):  53%|█████▎    | 5173/9753 [55:16<48:55,  1.56it/s]Training 2/3 epoch (loss 0.6566):  53%|█████▎    | 5173/9753 [55:16<48:55,  1.56it/s]Training 2/3 epoch (loss 0.6566):  53%|█████▎    | 5174/9753 [55:16<49:49,  1.53it/s]Training 2/3 epoch (loss 0.7561):  53%|█████▎    | 5174/9753 [55:17<49:49,  1.53it/s]Training 2/3 epoch (loss 0.7561):  53%|█████▎    | 5175/9753 [55:17<47:53,  1.59it/s]Training 2/3 epoch (loss 0.7263):  53%|█████▎    | 5175/9753 [55:18<47:53,  1.59it/s]Training 2/3 epoch (loss 0.7263):  53%|█████▎    | 5176/9753 [55:18<45:53,  1.66it/s]Training 2/3 epoch (loss 0.5183):  53%|█████▎    | 5176/9753 [55:18<45:53,  1.66it/s]Training 2/3 epoch (loss 0.5183):  53%|█████▎    | 5177/9753 [55:18<44:24,  1.72it/s]Training 2/3 epoch (loss 0.7783):  53%|█████▎    | 5177/9753 [55:19<44:24,  1.72it/s]Training 2/3 epoch (loss 0.7783):  53%|█████▎    | 5178/9753 [55:19<43:23,  1.76it/s]Training 2/3 epoch (loss 0.4946):  53%|█████▎    | 5178/9753 [55:19<43:23,  1.76it/s]Training 2/3 epoch (loss 0.4946):  53%|█████▎    | 5179/9753 [55:19<42:41,  1.79it/s]Training 2/3 epoch (loss 0.7208):  53%|█████▎    | 5179/9753 [55:20<42:41,  1.79it/s]Training 2/3 epoch (loss 0.7208):  53%|█████▎    | 5180/9753 [55:20<42:19,  1.80it/s]Training 2/3 epoch (loss 0.6879):  53%|█████▎    | 5180/9753 [55:20<42:19,  1.80it/s]Training 2/3 epoch (loss 0.6879):  53%|█████▎    | 5181/9753 [55:20<41:59,  1.81it/s]Training 2/3 epoch (loss 0.7001):  53%|█████▎    | 5181/9753 [55:21<41:59,  1.81it/s]Training 2/3 epoch (loss 0.7001):  53%|█████▎    | 5182/9753 [55:21<42:10,  1.81it/s]Training 2/3 epoch (loss 0.7122):  53%|█████▎    | 5182/9753 [55:22<42:10,  1.81it/s]Training 2/3 epoch (loss 0.7122):  53%|█████▎    | 5183/9753 [55:22<48:37,  1.57it/s]Training 2/3 epoch (loss 0.6929):  53%|█████▎    | 5183/9753 [55:22<48:37,  1.57it/s]Training 2/3 epoch (loss 0.6929):  53%|█████▎    | 5184/9753 [55:22<50:32,  1.51it/s]Training 2/3 epoch (loss 0.7563):  53%|█████▎    | 5184/9753 [55:23<50:32,  1.51it/s]Training 2/3 epoch (loss 0.7563):  53%|█████▎    | 5185/9753 [55:23<48:49,  1.56it/s]Training 2/3 epoch (loss 0.7789):  53%|█████▎    | 5185/9753 [55:24<48:49,  1.56it/s]Training 2/3 epoch (loss 0.7789):  53%|█████▎    | 5186/9753 [55:24<46:30,  1.64it/s]Training 2/3 epoch (loss 0.5068):  53%|█████▎    | 5186/9753 [55:24<46:30,  1.64it/s]Training 2/3 epoch (loss 0.5068):  53%|█████▎    | 5187/9753 [55:24<45:02,  1.69it/s]Training 2/3 epoch (loss 0.5788):  53%|█████▎    | 5187/9753 [55:25<45:02,  1.69it/s]Training 2/3 epoch (loss 0.5788):  53%|█████▎    | 5188/9753 [55:25<43:49,  1.74it/s]Training 2/3 epoch (loss 0.8479):  53%|█████▎    | 5188/9753 [55:25<43:49,  1.74it/s]Training 2/3 epoch (loss 0.8479):  53%|█████▎    | 5189/9753 [55:25<44:01,  1.73it/s]Training 2/3 epoch (loss 0.7495):  53%|█████▎    | 5189/9753 [55:26<44:01,  1.73it/s]Training 2/3 epoch (loss 0.7495):  53%|█████▎    | 5190/9753 [55:26<43:23,  1.75it/s]Training 2/3 epoch (loss 0.6237):  53%|█████▎    | 5190/9753 [55:26<43:23,  1.75it/s]Training 2/3 epoch (loss 0.6237):  53%|█████▎    | 5191/9753 [55:26<42:43,  1.78it/s]Training 2/3 epoch (loss 0.5183):  53%|█████▎    | 5191/9753 [55:27<42:43,  1.78it/s]Training 2/3 epoch (loss 0.5183):  53%|█████▎    | 5192/9753 [55:27<43:35,  1.74it/s]Training 2/3 epoch (loss 0.7889):  53%|█████▎    | 5192/9753 [55:27<43:35,  1.74it/s]Training 2/3 epoch (loss 0.7889):  53%|█████▎    | 5193/9753 [55:27<43:04,  1.76it/s]Training 2/3 epoch (loss 0.6450):  53%|█████▎    | 5193/9753 [55:28<43:04,  1.76it/s]Training 2/3 epoch (loss 0.6450):  53%|█████▎    | 5194/9753 [55:28<43:07,  1.76it/s]Training 2/3 epoch (loss 0.5902):  53%|█████▎    | 5194/9753 [55:29<43:07,  1.76it/s]Training 2/3 epoch (loss 0.5902):  53%|█████▎    | 5195/9753 [55:29<43:54,  1.73it/s]Training 2/3 epoch (loss 0.5333):  53%|█████▎    | 5195/9753 [55:29<43:54,  1.73it/s]Training 2/3 epoch (loss 0.5333):  53%|█████▎    | 5196/9753 [55:29<43:09,  1.76it/s]Training 2/3 epoch (loss 0.6529):  53%|█████▎    | 5196/9753 [55:30<43:09,  1.76it/s]Training 2/3 epoch (loss 0.6529):  53%|█████▎    | 5197/9753 [55:30<44:11,  1.72it/s]Training 2/3 epoch (loss 0.5510):  53%|█████▎    | 5197/9753 [55:31<44:11,  1.72it/s]Training 2/3 epoch (loss 0.5510):  53%|█████▎    | 5198/9753 [55:31<48:12,  1.57it/s]Training 2/3 epoch (loss 0.5215):  53%|█████▎    | 5198/9753 [55:31<48:12,  1.57it/s]Training 2/3 epoch (loss 0.5215):  53%|█████▎    | 5199/9753 [55:31<50:01,  1.52it/s]Training 2/3 epoch (loss 0.4948):  53%|█████▎    | 5199/9753 [55:32<50:01,  1.52it/s]Training 2/3 epoch (loss 0.4948):  53%|█████▎    | 5200/9753 [55:32<52:14,  1.45it/s]Training 2/3 epoch (loss 0.7355):  53%|█████▎    | 5200/9753 [55:33<52:14,  1.45it/s]Training 2/3 epoch (loss 0.7355):  53%|█████▎    | 5201/9753 [55:33<50:38,  1.50it/s]Training 2/3 epoch (loss 0.5720):  53%|█████▎    | 5201/9753 [55:33<50:38,  1.50it/s]Training 2/3 epoch (loss 0.5720):  53%|█████▎    | 5202/9753 [55:33<47:47,  1.59it/s]Training 2/3 epoch (loss 0.5579):  53%|█████▎    | 5202/9753 [55:34<47:47,  1.59it/s]Training 2/3 epoch (loss 0.5579):  53%|█████▎    | 5203/9753 [55:34<48:13,  1.57it/s]Training 2/3 epoch (loss 0.5879):  53%|█████▎    | 5203/9753 [55:34<48:13,  1.57it/s]Training 2/3 epoch (loss 0.5879):  53%|█████▎    | 5204/9753 [55:34<46:00,  1.65it/s]Training 2/3 epoch (loss 0.5406):  53%|█████▎    | 5204/9753 [55:35<46:00,  1.65it/s]Training 2/3 epoch (loss 0.5406):  53%|█████▎    | 5205/9753 [55:35<47:31,  1.60it/s]Training 2/3 epoch (loss 1.0240):  53%|█████▎    | 5205/9753 [55:36<47:31,  1.60it/s]Training 2/3 epoch (loss 1.0240):  53%|█████▎    | 5206/9753 [55:36<46:13,  1.64it/s]Training 2/3 epoch (loss 0.6683):  53%|█████▎    | 5206/9753 [55:36<46:13,  1.64it/s]Training 2/3 epoch (loss 0.6683):  53%|█████▎    | 5207/9753 [55:36<46:31,  1.63it/s]Training 2/3 epoch (loss 0.5956):  53%|█████▎    | 5207/9753 [55:37<46:31,  1.63it/s]Training 2/3 epoch (loss 0.5956):  53%|█████▎    | 5208/9753 [55:37<47:01,  1.61it/s]Training 2/3 epoch (loss 0.7020):  53%|█████▎    | 5208/9753 [55:38<47:01,  1.61it/s]Training 2/3 epoch (loss 0.7020):  53%|█████▎    | 5209/9753 [55:38<52:08,  1.45it/s]Training 2/3 epoch (loss 0.6767):  53%|█████▎    | 5209/9753 [55:38<52:08,  1.45it/s]Training 2/3 epoch (loss 0.6767):  53%|█████▎    | 5210/9753 [55:38<52:37,  1.44it/s]Training 2/3 epoch (loss 0.9899):  53%|█████▎    | 5210/9753 [55:39<52:37,  1.44it/s]Training 2/3 epoch (loss 0.9899):  53%|█████▎    | 5211/9753 [55:39<55:21,  1.37it/s]Training 2/3 epoch (loss 0.7302):  53%|█████▎    | 5211/9753 [55:40<55:21,  1.37it/s]Training 2/3 epoch (loss 0.7302):  53%|█████▎    | 5212/9753 [55:40<51:52,  1.46it/s]Training 2/3 epoch (loss 0.5826):  53%|█████▎    | 5212/9753 [55:40<51:52,  1.46it/s]Training 2/3 epoch (loss 0.5826):  53%|█████▎    | 5213/9753 [55:40<49:57,  1.51it/s]Training 2/3 epoch (loss 0.8320):  53%|█████▎    | 5213/9753 [55:41<49:57,  1.51it/s]Training 2/3 epoch (loss 0.8320):  53%|██��██▎    | 5214/9753 [55:41<49:14,  1.54it/s]Training 2/3 epoch (loss 0.4875):  53%|█████▎    | 5214/9753 [55:42<49:14,  1.54it/s]Training 2/3 epoch (loss 0.4875):  53%|█████▎    | 5215/9753 [55:42<47:51,  1.58it/s]Training 2/3 epoch (loss 0.5445):  53%|█████▎    | 5215/9753 [55:42<47:51,  1.58it/s]Training 2/3 epoch (loss 0.5445):  53%|█████▎    | 5216/9753 [55:42<49:12,  1.54it/s]Training 2/3 epoch (loss 0.8075):  53%|█████▎    | 5216/9753 [55:43<49:12,  1.54it/s]Training 2/3 epoch (loss 0.8075):  53%|█████▎    | 5217/9753 [55:43<48:17,  1.57it/s]Training 2/3 epoch (loss 0.7833):  53%|█████▎    | 5217/9753 [55:44<48:17,  1.57it/s]Training 2/3 epoch (loss 0.7833):  54%|█████▎    | 5218/9753 [55:44<48:50,  1.55it/s]Training 2/3 epoch (loss 0.5366):  54%|█████▎    | 5218/9753 [55:44<48:50,  1.55it/s]Training 2/3 epoch (loss 0.5366):  54%|█████▎    | 5219/9753 [55:44<46:32,  1.62it/s]Training 2/3 epoch (loss 0.7767):  54%|█████▎    | 5219/9753 [55:45<46:32,  1.62it/s]Training 2/3 epoch (loss 0.7767):  54%|█████▎    | 5220/9753 [55:45<51:45,  1.46it/s]Training 2/3 epoch (loss 0.7660):  54%|█████▎    | 5220/9753 [55:46<51:45,  1.46it/s]Training 2/3 epoch (loss 0.7660):  54%|█████▎    | 5221/9753 [55:46<48:42,  1.55it/s]Training 2/3 epoch (loss 0.7957):  54%|█████▎    | 5221/9753 [55:46<48:42,  1.55it/s]Training 2/3 epoch (loss 0.7957):  54%|█████▎    | 5222/9753 [55:46<51:17,  1.47it/s]Training 2/3 epoch (loss 0.6568):  54%|█████▎    | 5222/9753 [55:47<51:17,  1.47it/s]Training 2/3 epoch (loss 0.6568):  54%|█████▎    | 5223/9753 [55:47<49:04,  1.54it/s]Training 2/3 epoch (loss 0.7598):  54%|█████▎    | 5223/9753 [55:47<49:04,  1.54it/s]Training 2/3 epoch (loss 0.7598):  54%|█████▎    | 5224/9753 [55:47<46:37,  1.62it/s]Training 2/3 epoch (loss 0.8652):  54%|█████▎    | 5224/9753 [55:48<46:37,  1.62it/s]Training 2/3 epoch (loss 0.8652):  54%|█████▎    | 5225/9753 [55:48<47:57,  1.57it/s]Training 2/3 epoch (loss 0.7296):  54%|█████▎    | 5225/9753 [55:49<47:57,  1.57it/s]Training 2/3 epoch (loss 0.7296):  54%|█████▎    | 5226/9753 [55:49<48:51,  1.54it/s]Training 2/3 epoch (loss 0.9188):  54%|█████▎    | 5226/9753 [55:49<48:51,  1.54it/s]Training 2/3 epoch (loss 0.9188):  54%|█████▎    | 5227/9753 [55:49<47:33,  1.59it/s]Training 2/3 epoch (loss 0.7611):  54%|█████▎    | 5227/9753 [55:50<47:33,  1.59it/s]Training 2/3 epoch (loss 0.7611):  54%|█████▎    | 5228/9753 [55:50<46:51,  1.61it/s]Training 2/3 epoch (loss 0.7056):  54%|█████▎    | 5228/9753 [55:51<46:51,  1.61it/s]Training 2/3 epoch (loss 0.7056):  54%|█████▎    | 5229/9753 [55:51<45:19,  1.66it/s]Training 2/3 epoch (loss 0.8108):  54%|█████▎    | 5229/9753 [55:51<45:19,  1.66it/s]Training 2/3 epoch (loss 0.8108):  54%|█████▎    | 5230/9753 [55:51<45:43,  1.65it/s]Training 2/3 epoch (loss 0.8852):  54%|█████▎    | 5230/9753 [55:52<45:43,  1.65it/s]Training 2/3 epoch (loss 0.8852):  54%|█████▎    | 5231/9753 [55:52<48:17,  1.56it/s]Training 2/3 epoch (loss 0.3923):  54%|█████▎    | 5231/9753 [55:53<48:17,  1.56it/s]Training 2/3 epoch (loss 0.3923):  54%|█████▎    | 5232/9753 [55:53<49:06,  1.53it/s]Training 2/3 epoch (loss 0.4878):  54%|█████▎    | 5232/9753 [55:53<49:06,  1.53it/s]Training 2/3 epoch (loss 0.4878):  54%|█████▎    | 5233/9753 [55:53<46:49,  1.61it/s]Training 2/3 epoch (loss 0.6373):  54%|█████▎    | 5233/9753 [55:54<46:49,  1.61it/s]Training 2/3 epoch (loss 0.6373):  54%|█████▎    | 5234/9753 [55:54<45:04,  1.67it/s]Training 2/3 epoch (loss 0.6478):  54%|█████▎    | 5234/9753 [55:54<45:04,  1.67it/s]Training 2/3 epoch (loss 0.6478):  54%|█████▎    | 5235/9753 [55:54<43:49,  1.72it/s]Training 2/3 epoch (loss 0.6704):  54%|█████▎    | 5235/9753 [55:55<43:49,  1.72it/s]Training 2/3 epoch (loss 0.6704):  54%|█████▎    | 5236/9753 [55:55<47:35,  1.58it/s]Training 2/3 epoch (loss 0.7502):  54%|█████▎    | 5236/9753 [55:56<47:35,  1.58it/s]Training 2/3 epoch (loss 0.7502):  54%|█████▎    | 5237/9753 [55:56<53:19,  1.41it/s]Training 2/3 epoch (loss 0.8852):  54%|█████▎    | 5237/9753 [55:57<53:19,  1.41it/s]Training 2/3 epoch (loss 0.8852):  54%|█████▎    | 5238/9753 [55:57<54:58,  1.37it/s]Training 2/3 epoch (loss 0.5417):  54%|█████▎    | 5238/9753 [55:57<54:58,  1.37it/s]Training 2/3 epoch (loss 0.5417):  54%|█████▎    | 5239/9753 [55:57<51:07,  1.47it/s]Training 2/3 epoch (loss 0.5123):  54%|█████▎    | 5239/9753 [55:58<51:07,  1.47it/s]Training 2/3 epoch (loss 0.5123):  54%|█████▎    | 5240/9753 [55:58<47:56,  1.57it/s]Training 2/3 epoch (loss 0.9678):  54%|█████▎    | 5240/9753 [55:58<47:56,  1.57it/s]Training 2/3 epoch (loss 0.9678):  54%|█████▎    | 5241/9753 [55:58<45:51,  1.64it/s]Training 2/3 epoch (loss 0.8840):  54%|█████▎    | 5241/9753 [55:59<45:51,  1.64it/s]Training 2/3 epoch (loss 0.8840):  54%|█████▎    | 5242/9753 [55:59<44:17,  1.70it/s]Training 2/3 epoch (loss 0.5524):  54%|█████▎    | 5242/9753 [55:59<44:17,  1.70it/s]Training 2/3 epoch (loss 0.5524):  54%|█████▍    | 5243/9753 [55:59<43:07,  1.74it/s]Training 2/3 epoch (loss 0.6887):  54%|█████▍    | 5243/9753 [56:00<43:07,  1.74it/s]Training 2/3 epoch (loss 0.6887):  54%|█████▍    | 5244/9753 [56:00<42:22,  1.77it/s]Training 2/3 epoch (loss 0.6468):  54%|█████▍    | 5244/9753 [56:00<42:22,  1.77it/s]Training 2/3 epoch (loss 0.6468):  54%|█████▍    | 5245/9753 [56:00<41:53,  1.79it/s]Training 2/3 epoch (loss 0.7148):  54%|█████▍    | 5245/9753 [56:01<41:53,  1.79it/s]Training 2/3 epoch (loss 0.7148):  54%|█████▍    | 5246/9753 [56:01<41:39,  1.80it/s]Training 2/3 epoch (loss 0.6734):  54%|█████▍    | 5246/9753 [56:02<41:39,  1.80it/s]Training 2/3 epoch (loss 0.6734):  54%|█████▍    | 5247/9753 [56:02<41:49,  1.80it/s]Training 2/3 epoch (loss 0.7673):  54%|█████▍    | 5247/9753 [56:02<41:49,  1.80it/s]Training 2/3 epoch (loss 0.7673):  54%|█████▍    | 5248/9753 [56:02<48:24,  1.55it/s]Training 2/3 epoch (loss 0.6559):  54%|█████▍    | 5248/9753 [56:03<48:24,  1.55it/s]Training 2/3 epoch (loss 0.6559):  54%|█████▍    | 5249/9753 [56:03<46:41,  1.61it/s]Training 2/3 epoch (loss 1.0200):  54%|█████▍    | 5249/9753 [56:04<46:41,  1.61it/s]Training 2/3 epoch (loss 1.0200):  54%|█████▍    | 5250/9753 [56:04<47:00,  1.60it/s]Training 2/3 epoch (loss 0.6388):  54%|█████▍    | 5250/9753 [56:04<47:00,  1.60it/s]Training 2/3 epoch (loss 0.6388):  54%|█████▍    | 5251/9753 [56:04<45:25,  1.65it/s]Training 2/3 epoch (loss 0.6713):  54%|█████▍    | 5251/9753 [56:05<45:25,  1.65it/s]Training 2/3 epoch (loss 0.6713):  54%|█████▍    | 5252/9753 [56:05<44:09,  1.70it/s]Training 2/3 epoch (loss 0.7070):  54%|█████▍    | 5252/9753 [56:05<44:09,  1.70it/s]Training 2/3 epoch (loss 0.7070):  54%|█████▍    | 5253/9753 [56:05<43:02,  1.74it/s]Training 2/3 epoch (loss 0.5975):  54%|█████▍    | 5253/9753 [56:06<43:02,  1.74it/s]Training 2/3 epoch (loss 0.5975):  54%|█████▍    | 5254/9753 [56:06<42:23,  1.77it/s]Training 2/3 epoch (loss 0.5979):  54%|█████▍    | 5254/9753 [56:06<42:23,  1.77it/s]Training 2/3 epoch (loss 0.5979):  54%|█████▍    | 5255/9753 [56:06<42:34,  1.76it/s]Training 2/3 epoch (loss 0.5143):  54%|█████▍    | 5255/9753 [56:07<42:34,  1.76it/s]Training 2/3 epoch (loss 0.5143):  54%|█████▍    | 5256/9753 [56:07<42:19,  1.77it/s]Training 2/3 epoch (loss 0.7945):  54%|█████▍    | 5256/9753 [56:07<42:19,  1.77it/s]Training 2/3 epoch (loss 0.7945):  54%|█████▍    | 5257/9753 [56:07<41:55,  1.79it/s]Training 2/3 epoch (loss 0.7824):  54%|█████▍    | 5257/9753 [56:08<41:55,  1.79it/s]Training 2/3 epoch (loss 0.7824):  54%|█████▍    | 5258/9753 [56:08<45:46,  1.64it/s]Training 2/3 epoch (loss 0.5402):  54%|█████▍    | 5258/9753 [56:09<45:46,  1.64it/s]Training 2/3 epoch (loss 0.5402):  54%|█████▍    | 5259/9753 [56:09<44:25,  1.69it/s]Training 2/3 epoch (loss 0.7281):  54%|█████▍    | 5259/9753 [56:09<44:25,  1.69it/s]Training 2/3 epoch (loss 0.7281):  54%|█████▍    | 5260/9753 [56:09<44:00,  1.70it/s]Training 2/3 epoch (loss 0.9472):  54%|█████▍    | 5260/9753 [56:10<44:00,  1.70it/s]Training 2/3 epoch (loss 0.9472):  54%|█████▍    | 5261/9753 [56:10<43:09,  1.73it/s]Training 2/3 epoch (loss 0.8449):  54%|█████▍    | 5261/9753 [56:10<43:09,  1.73it/s]Training 2/3 epoch (loss 0.8449):  54%|█████▍    | 5262/9753 [56:10<43:04,  1.74it/s]Training 2/3 epoch (loss 0.7240):  54%|█████▍    | 5262/9753 [56:11<43:04,  1.74it/s]Training 2/3 epoch (loss 0.7240):  54%|█████▍    | 5263/9753 [56:11<42:18,  1.77it/s]Training 2/3 epoch (loss 0.4773):  54%|█████▍    | 5263/9753 [56:12<42:18,  1.77it/s]Training 2/3 epoch (loss 0.4773):  54%|█████▍    | 5264/9753 [56:12<44:41,  1.67it/s]Training 2/3 epoch (loss 0.5824):  54%|█████▍    | 5264/9753 [56:12<44:41,  1.67it/s]Training 2/3 epoch (loss 0.5824):  54%|█████▍    | 5265/9753 [56:12<45:48,  1.63it/s]Training 2/3 epoch (loss 0.6441):  54%|█████▍    | 5265/9753 [56:13<45:48,  1.63it/s]Training 2/3 epoch (loss 0.6441):  54%|█████▍    | 5266/9753 [56:13<44:38,  1.68it/s]Training 2/3 epoch (loss 0.7184):  54%|█████▍    | 5266/9753 [56:13<44:38,  1.68it/s]Training 2/3 epoch (loss 0.7184):  54%|█████▍    | 5267/9753 [56:13<43:38,  1.71it/s]Training 2/3 epoch (loss 0.5617):  54%|█████▍    | 5267/9753 [56:14<43:38,  1.71it/s]Training 2/3 epoch (loss 0.5617):  54%|█████▍    | 5268/9753 [56:14<42:52,  1.74it/s]Training 2/3 epoch (loss 0.7542):  54%|█████▍    | 5268/9753 [56:15<42:52,  1.74it/s]Training 2/3 epoch (loss 0.7542):  54%|█████▍    | 5269/9753 [56:15<42:15,  1.77it/s]Training 2/3 epoch (loss 0.8085):  54%|█████▍    | 5269/9753 [56:15<42:15,  1.77it/s]Training 2/3 epoch (loss 0.8085):  54%|█████▍    | 5270/9753 [56:15<41:46,  1.79it/s]Training 2/3 epoch (loss 0.4815):  54%|█████▍    | 5270/9753 [56:16<41:46,  1.79it/s]Training 2/3 epoch (loss 0.4815):  54%|█████▍    | 5271/9753 [56:16<43:30,  1.72it/s]Training 2/3 epoch (loss 0.7456):  54%|█████▍    | 5271/9753 [56:16<43:30,  1.72it/s]Training 2/3 epoch (loss 0.7456):  54%|█████▍    | 5272/9753 [56:16<43:02,  1.73it/s]Training 2/3 epoch (loss 0.7477):  54%|█████▍    | 5272/9753 [56:17<43:02,  1.73it/s]Training 2/3 epoch (loss 0.7477):  54%|█████▍    | 5273/9753 [56:17<42:43,  1.75it/s]Training 2/3 epoch (loss 0.7437):  54%|█████▍    | 5273/9753 [56:17<42:43,  1.75it/s]Training 2/3 epoch (loss 0.7437):  54%|█████▍    | 5274/9753 [56:17<42:15,  1.77it/s]Training 2/3 epoch (loss 0.6618):  54%|█████▍    | 5274/9753 [56:18<42:15,  1.77it/s]Training 2/3 epoch (loss 0.6618):  54%|█████▍    | 5275/9753 [56:18<41:49,  1.78it/s]Training 2/3 epoch (loss 0.5976):  54%|█████▍    | 5275/9753 [56:18<41:49,  1.78it/s]Training 2/3 epoch (loss 0.5976):  54%|█████▍    | 5276/9753 [56:18<41:34,  1.79it/s]Training 2/3 epoch (loss 0.6654):  54%|█████▍    | 5276/9753 [56:19<41:34,  1.79it/s]Training 2/3 epoch (loss 0.6654):  54%|█████▍    | 5277/9753 [56:19<41:16,  1.81it/s]Training 2/3 epoch (loss 0.5941):  54%|█████▍    | 5277/9753 [56:20<41:16,  1.81it/s]Training 2/3 epoch (loss 0.5941):  54%|█████▍    | 5278/9753 [56:20<41:16,  1.81it/s]Training 2/3 epoch (loss 0.7175):  54%|█████▍    | 5278/9753 [56:20<41:16,  1.81it/s]Training 2/3 epoch (loss 0.7175):  54%|█████▍    | 5279/9753 [56:20<42:34,  1.75it/s]Training 2/3 epoch (loss 0.6663):  54%|█████▍    | 5279/9753 [56:21<42:34,  1.75it/s]Training 2/3 epoch (loss 0.6663):  54%|█████▍    | 5280/9753 [56:21<45:39,  1.63it/s]Training 2/3 epoch (loss 0.6483):  54%|█████▍    | 5280/9753 [56:21<45:39,  1.63it/s]Training 2/3 epoch (loss 0.6483):  54%|█████▍    | 5281/9753 [56:21<44:20,  1.68it/s]Training 2/3 epoch (loss 0.6652):  54%|█████▍    | 5281/9753 [56:22<44:20,  1.68it/s]Training 2/3 epoch (loss 0.6652):  54%|█████▍    | 5282/9753 [56:22<43:24,  1.72it/s]Training 2/3 epoch (loss 0.8011):  54%|█████▍    | 5282/9753 [56:23<43:24,  1.72it/s]Training 2/3 epoch (loss 0.8011):  54%|█████▍    | 5283/9753 [56:23<44:28,  1.67it/s]Training 2/3 epoch (loss 0.6859):  54%|█████▍    | 5283/9753 [56:23<44:28,  1.67it/s]Training 2/3 epoch (loss 0.6859):  54%|█████▍    | 5284/9753 [56:23<45:47,  1.63it/s]Training 2/3 epoch (loss 0.7524):  54%|█████▍    | 5284/9753 [56:24<45:47,  1.63it/s]Training 2/3 epoch (loss 0.7524):  54%|█████▍    | 5285/9753 [56:24<44:45,  1.66it/s]Training 2/3 epoch (loss 0.6281):  54%|█████▍    | 5285/9753 [56:24<44:45,  1.66it/s]Training 2/3 epoch (loss 0.6281):  54%|█████▍    | 5286/9753 [56:24<43:27,  1.71it/s]Training 2/3 epoch (loss 0.7943):  54%|█████▍    | 5286/9753 [56:25<43:27,  1.71it/s]Training 2/3 epoch (loss 0.7943):  54%|█████▍    | 5287/9753 [56:25<48:30,  1.53it/s]Training 2/3 epoch (loss 0.5129):  54%|█████▍    | 5287/9753 [56:26<48:30,  1.53it/s]Training 2/3 epoch (loss 0.5129):  54%|█████▍    | 5288/9753 [56:26<46:22,  1.60it/s]Training 2/3 epoch (loss 0.7063):  54%|█████▍    | 5288/9753 [56:26<46:22,  1.60it/s]Training 2/3 epoch (loss 0.7063):  54%|█████▍    | 5289/9753 [56:26<47:26,  1.57it/s]Training 2/3 epoch (loss 0.6471):  54%|█████▍    | 5289/9753 [56:27<47:26,  1.57it/s]Training 2/3 epoch (loss 0.6471):  54%|█████▍    | 5290/9753 [56:27<49:37,  1.50it/s]Training 2/3 epoch (loss 0.8174):  54%|█████▍    | 5290/9753 [56:28<49:37,  1.50it/s]Training 2/3 epoch (loss 0.8174):  54%|█████▍    | 5291/9753 [56:28<46:55,  1.58it/s]Training 2/3 epoch (loss 0.9032):  54%|█████▍    | 5291/9753 [56:29<46:55,  1.58it/s]Training 2/3 epoch (loss 0.9032):  54%|█████▍    | 5292/9753 [56:29<53:07,  1.40it/s]Training 2/3 epoch (loss 0.5062):  54%|█████▍    | 5292/9753 [56:29<53:07,  1.40it/s]Training 2/3 epoch (loss 0.5062):  54%|█████▍    | 5293/9753 [56:29<49:37,  1.50it/s]Training 2/3 epoch (loss 0.7969):  54%|█████▍    | 5293/9753 [56:30<49:37,  1.50it/s]Training 2/3 epoch (loss 0.7969):  54%|█████▍    | 5294/9753 [56:30<47:16,  1.57it/s]Training 2/3 epoch (loss 0.7207):  54%|█████▍    | 5294/9753 [56:30<47:16,  1.57it/s]Training 2/3 epoch (loss 0.7207):  54%|█████▍    | 5295/9753 [56:30<47:58,  1.55it/s]Training 2/3 epoch (loss 0.5785):  54%|█████▍    | 5295/9753 [56:31<47:58,  1.55it/s]Training 2/3 epoch (loss 0.5785):  54%|█████▍    | 5296/9753 [56:31<48:30,  1.53it/s]Training 2/3 epoch (loss 0.7504):  54%|█████▍    | 5296/9753 [56:32<48:30,  1.53it/s]Training 2/3 epoch (loss 0.7504):  54%|█████▍    | 5297/9753 [56:32<46:19,  1.60it/s]Training 2/3 epoch (loss 0.6589):  54%|█████▍    | 5297/9753 [56:32<46:19,  1.60it/s]Training 2/3 epoch (loss 0.6589):  54%|█████▍    | 5298/9753 [56:32<49:08,  1.51it/s]Training 2/3 epoch (loss 0.8194):  54%|█████▍    | 5298/9753 [56:33<49:08,  1.51it/s]Training 2/3 epoch (loss 0.8194):  54%|█████▍    | 5299/9753 [56:33<48:26,  1.53it/s]Training 2/3 epoch (loss 0.8778):  54%|█████▍    | 5299/9753 [56:34<48:26,  1.53it/s]Training 2/3 epoch (loss 0.8778):  54%|█████▍    | 5300/9753 [56:34<48:06,  1.54it/s]Training 2/3 epoch (loss 0.6981):  54%|█████▍    | 5300/9753 [56:34<48:06,  1.54it/s]Training 2/3 epoch (loss 0.6981):  54%|█████▍    | 5301/9753 [56:34<46:14,  1.60it/s]Training 2/3 epoch (loss 0.6476):  54%|█████▍    | 5301/9753 [56:35<46:14,  1.60it/s]Training 2/3 epoch (loss 0.6476):  54%|█████▍    | 5302/9753 [56:35<45:12,  1.64it/s]Training 2/3 epoch (loss 0.7052):  54%|█████▍    | 5302/9753 [56:35<45:12,  1.64it/s]Training 2/3 epoch (loss 0.7052):  54%|█████▍    | 5303/9753 [56:35<44:30,  1.67it/s]Training 2/3 epoch (loss 0.8618):  54%|█████▍    | 5303/9753 [56:36<44:30,  1.67it/s]Training 2/3 epoch (loss 0.8618):  54%|█████▍    | 5304/9753 [56:36<44:43,  1.66it/s]Training 2/3 epoch (loss 0.6663):  54%|█████▍    | 5304/9753 [56:37<44:43,  1.66it/s]Training 2/3 epoch (loss 0.6663):  54%|█████▍    | 5305/9753 [56:37<45:50,  1.62it/s]Training 2/3 epoch (loss 0.8536):  54%|█████▍    | 5305/9753 [56:37<45:50,  1.62it/s]Training 2/3 epoch (loss 0.8536):  54%|█████▍    | 5306/9753 [56:37<46:26,  1.60it/s]Training 2/3 epoch (loss 0.5621):  54%|█████▍    | 5306/9753 [56:38<46:26,  1.60it/s]Training 2/3 epoch (loss 0.5621):  54%|█████▍    | 5307/9753 [56:38<45:07,  1.64it/s]Training 2/3 epoch (loss 0.7194):  54%|█████▍    | 5307/9753 [56:38<45:07,  1.64it/s]Training 2/3 epoch (loss 0.7194):  54%|█████▍    | 5308/9753 [56:38<44:14,  1.67it/s]Training 2/3 epoch (loss 0.7034):  54%|█████▍    | 5308/9753 [56:39<44:14,  1.67it/s]Training 2/3 epoch (loss 0.7034):  54%|█████▍    | 5309/9753 [56:39<45:03,  1.64it/s]Training 2/3 epoch (loss 0.7580):  54%|█████▍    | 5309/9753 [56:40<45:03,  1.64it/s]Training 2/3 epoch (loss 0.7580):  54%|█████▍    | 5310/9753 [56:40<44:14,  1.67it/s]Training 2/3 epoch (loss 0.5806):  54%|█████▍    | 5310/9753 [56:40<44:14,  1.67it/s]Training 2/3 epoch (loss 0.5806):  54%|█████▍    | 5311/9753 [56:40<43:33,  1.70it/s]Training 2/3 epoch (loss 0.7080):  54%|█████▍    | 5311/9753 [56:41<43:33,  1.70it/s]Training 2/3 epoch (loss 0.7080):  54%|█████▍    | 5312/9753 [56:41<49:24,  1.50it/s]Training 2/3 epoch (loss 0.7694):  54%|█████▍    | 5312/9753 [56:42<49:24,  1.50it/s]Training 2/3 epoch (loss 0.7694):  54%|█████▍    | 5313/9753 [56:42<53:48,  1.38it/s]Training 2/3 epoch (loss 0.6504):  54%|█████▍    | 5313/9753 [56:43<53:48,  1.38it/s]Training 2/3 epoch (loss 0.6504):  54%|█████▍    | 5314/9753 [56:43<51:34,  1.43it/s]Training 2/3 epoch (loss 0.8056):  54%|█████▍    | 5314/9753 [56:43<51:34,  1.43it/s]Training 2/3 epoch (loss 0.8056):  54%|█████▍    | 5315/9753 [56:43<48:41,  1.52it/s]Training 2/3 epoch (loss 0.7044):  54%|█████▍    | 5315/9753 [56:44<48:41,  1.52it/s]Training 2/3 epoch (loss 0.7044):  55%|█████▍    | 5316/9753 [56:44<49:27,  1.50it/s]Training 2/3 epoch (loss 0.8911):  55%|█████▍    | 5316/9753 [56:44<49:27,  1.50it/s]Training 2/3 epoch (loss 0.8911):  55%|█████▍    | 5317/9753 [56:44<49:22,  1.50it/s]Training 2/3 epoch (loss 0.9166):  55%|█████▍    | 5317/9753 [56:45<49:22,  1.50it/s]Training 2/3 epoch (loss 0.9166):  55%|█████▍    | 5318/9753 [56:45<54:08,  1.37it/s]Training 2/3 epoch (loss 0.8229):  55%|█████▍    | 5318/9753 [56:46<54:08,  1.37it/s]Training 2/3 epoch (loss 0.8229):  55%|█████▍    | 5319/9753 [56:46<52:35,  1.41it/s]Training 2/3 epoch (loss 0.6503):  55%|█████▍    | 5319/9753 [56:47<52:35,  1.41it/s]Training 2/3 epoch (loss 0.6503):  55%|█████▍    | 5320/9753 [56:47<54:31,  1.36it/s]Training 2/3 epoch (loss 0.7907):  55%|█████▍    | 5320/9753 [56:47<54:31,  1.36it/s]Training 2/3 epoch (loss 0.7907):  55%|█████▍    | 5321/9753 [56:47<50:38,  1.46it/s]Training 2/3 epoch (loss 0.8305):  55%|█████▍    | 5321/9753 [56:48<50:38,  1.46it/s]Training 2/3 epoch (loss 0.8305):  55%|█████▍    | 5322/9753 [56:48<49:38,  1.49it/s]Training 2/3 epoch (loss 0.4971):  55%|█████▍    | 5322/9753 [56:49<49:38,  1.49it/s]Training 2/3 epoch (loss 0.4971):  55%|█████▍    | 5323/9753 [56:49<52:28,  1.41it/s]Training 2/3 epoch (loss 0.5775):  55%|█████▍    | 5323/9753 [56:50<52:28,  1.41it/s]Training 2/3 epoch (loss 0.5775):  55%|█████▍    | 5324/9753 [56:50<53:53,  1.37it/s]Training 2/3 epoch (loss 0.7218):  55%|█████▍    | 5324/9753 [56:50<53:53,  1.37it/s]Training 2/3 epoch (loss 0.7218):  55%|█████▍    | 5325/9753 [56:50<50:22,  1.47it/s]Training 2/3 epoch (loss 0.6632):  55%|█████▍    | 5325/9753 [56:51<50:22,  1.47it/s]Training 2/3 epoch (loss 0.6632):  55%|█████▍    | 5326/9753 [56:51<47:22,  1.56it/s]Training 2/3 epoch (loss 0.6313):  55%|█████▍    | 5326/9753 [56:51<47:22,  1.56it/s]Training 2/3 epoch (loss 0.6313):  55%|█████▍    | 5327/9753 [56:51<45:16,  1.63it/s]Training 2/3 epoch (loss 0.7758):  55%|█████▍    | 5327/9753 [56:52<45:16,  1.63it/s]Training 2/3 epoch (loss 0.7758):  55%|█████▍    | 5328/9753 [56:52<47:29,  1.55it/s]Training 2/3 epoch (loss 0.5493):  55%|█████▍    | 5328/9753 [56:53<47:29,  1.55it/s]Training 2/3 epoch (loss 0.5493):  55%|█████▍    | 5329/9753 [56:53<46:24,  1.59it/s]Training 2/3 epoch (loss 0.6813):  55%|█████▍    | 5329/9753 [56:53<46:24,  1.59it/s]Training 2/3 epoch (loss 0.6813):  55%|█████▍    | 5330/9753 [56:53<45:07,  1.63it/s]Training 2/3 epoch (loss 0.8184):  55%|█████▍    | 5330/9753 [56:54<45:07,  1.63it/s]Training 2/3 epoch (loss 0.8184):  55%|█████▍    | 5331/9753 [56:54<47:43,  1.54it/s]Training 2/3 epoch (loss 0.5970):  55%|█████▍    | 5331/9753 [56:54<47:43,  1.54it/s]Training 2/3 epoch (loss 0.5970):  55%|█████▍    | 5332/9753 [56:54<46:16,  1.59it/s]Training 2/3 epoch (loss 1.0108):  55%|█████▍    | 5332/9753 [56:55<46:16,  1.59it/s]Training 2/3 epoch (loss 1.0108):  55%|█████▍    | 5333/9753 [56:55<47:13,  1.56it/s]Training 2/3 epoch (loss 0.7079):  55%|█████▍    | 5333/9753 [56:56<47:13,  1.56it/s]Training 2/3 epoch (loss 0.7079):  55%|█████▍    | 5334/9753 [56:56<52:14,  1.41it/s]Training 2/3 epoch (loss 0.6349):  55%|█████▍    | 5334/9753 [56:57<52:14,  1.41it/s]Training 2/3 epoch (loss 0.6349):  55%|█████▍    | 5335/9753 [56:57<49:14,  1.50it/s]Training 2/3 epoch (loss 0.8347):  55%|█████▍    | 5335/9753 [56:57<49:14,  1.50it/s]Training 2/3 epoch (loss 0.8347):  55%|█████▍    | 5336/9753 [56:57<47:49,  1.54it/s]Training 2/3 epoch (loss 0.6457):  55%|█████▍    | 5336/9753 [56:58<47:49,  1.54it/s]Training 2/3 epoch (loss 0.6457):  55%|█████▍    | 5337/9753 [56:58<47:45,  1.54it/s]Training 2/3 epoch (loss 0.6729):  55%|█████▍    | 5337/9753 [56:58<47:45,  1.54it/s]Training 2/3 epoch (loss 0.6729):  55%|█████▍    | 5338/9753 [56:58<46:16,  1.59it/s]Training 2/3 epoch (loss 0.6613):  55%|█████▍    | 5338/9753 [56:59<46:16,  1.59it/s]Training 2/3 epoch (loss 0.6613):  55%|█████▍    | 5339/9753 [56:59<45:40,  1.61it/s]Training 2/3 epoch (loss 0.7945):  55%|█████▍    | 5339/9753 [57:00<45:40,  1.61it/s]Training 2/3 epoch (loss 0.7945):  55%|█████▍    | 5340/9753 [57:00<47:50,  1.54it/s]Training 2/3 epoch (loss 0.5336):  55%|█████▍    | 5340/9753 [57:00<47:50,  1.54it/s]Training 2/3 epoch (loss 0.5336):  55%|█████▍    | 5341/9753 [57:00<46:22,  1.59it/s]Training 2/3 epoch (loss 0.6116):  55%|█████▍    | 5341/9753 [57:01<46:22,  1.59it/s]Training 2/3 epoch (loss 0.6116):  55%|█████▍    | 5342/9753 [57:01<49:52,  1.47it/s]Training 2/3 epoch (loss 0.7954):  55%|█████▍    | 5342/9753 [57:02<49:52,  1.47it/s]Training 2/3 epoch (loss 0.7954):  55%|█████▍    | 5343/9753 [57:02<48:31,  1.51it/s]Training 2/3 epoch (loss 0.7005):  55%|█████▍    | 5343/9753 [57:02<48:31,  1.51it/s]Training 2/3 epoch (loss 0.7005):  55%|█████▍    | 5344/9753 [57:02<49:53,  1.47it/s]Training 2/3 epoch (loss 0.6916):  55%|█████▍    | 5344/9753 [57:03<49:53,  1.47it/s]Training 2/3 epoch (loss 0.6916):  55%|█████▍    | 5345/9753 [57:03<48:00,  1.53it/s]Training 2/3 epoch (loss 0.6191):  55%|█████▍    | 5345/9753 [57:04<48:00,  1.53it/s]Training 2/3 epoch (loss 0.6191):  55%|█████▍    | 5346/9753 [57:04<46:04,  1.59it/s]Training 2/3 epoch (loss 0.7305):  55%|█████▍    | 5346/9753 [57:04<46:04,  1.59it/s]Training 2/3 epoch (loss 0.7305):  55%|█████▍    | 5347/9753 [57:04<44:44,  1.64it/s]Training 2/3 epoch (loss 0.5429):  55%|█████▍    | 5347/9753 [57:05<44:44,  1.64it/s]Training 2/3 epoch (loss 0.5429):  55%|█████▍    | 5348/9753 [57:05<43:54,  1.67it/s]Training 2/3 epoch (loss 0.5716):  55%|█████▍    | 5348/9753 [57:05<43:54,  1.67it/s]Training 2/3 epoch (loss 0.5716):  55%|█████▍    | 5349/9753 [57:05<43:08,  1.70it/s]Training 2/3 epoch (loss 0.6756):  55%|█████▍    | 5349/9753 [57:06<43:08,  1.70it/s]Training 2/3 epoch (loss 0.6756):  55%|█████▍    | 5350/9753 [57:06<47:10,  1.56it/s]Training 2/3 epoch (loss 0.8948):  55%|█████▍    | 5350/9753 [57:07<47:10,  1.56it/s]Training 2/3 epoch (loss 0.8948):  55%|█████▍    | 5351/9753 [57:07<53:29,  1.37it/s]Training 2/3 epoch (loss 0.8290):  55%|█████▍    | 5351/9753 [57:08<53:29,  1.37it/s]Training 2/3 epoch (loss 0.8290):  55%|█████▍    | 5352/9753 [57:08<51:46,  1.42it/s]Training 2/3 epoch (loss 0.7089):  55%|█████▍    | 5352/9753 [57:08<51:46,  1.42it/s]Training 2/3 epoch (loss 0.7089):  55%|█████▍    | 5353/9753 [57:08<49:46,  1.47it/s]Training 2/3 epoch (loss 0.5765):  55%|█████▍    | 5353/9753 [57:09<49:46,  1.47it/s]Training 2/3 epoch (loss 0.5765):  55%|█████▍    | 5354/9753 [57:09<54:28,  1.35it/s]Training 2/3 epoch (loss 0.6173):  55%|█████▍    | 5354/9753 [57:10<54:28,  1.35it/s]Training 2/3 epoch (loss 0.6173):  55%|█████▍    | 5355/9753 [57:10<51:02,  1.44it/s]Training 2/3 epoch (loss 0.5756):  55%|█████▍    | 5355/9753 [57:10<51:02,  1.44it/s]Training 2/3 epoch (loss 0.5756):  55%|█████▍    | 5356/9753 [57:10<48:00,  1.53it/s]Training 2/3 epoch (loss 0.4876):  55%|█████▍    | 5356/9753 [57:11<48:00,  1.53it/s]Training 2/3 epoch (loss 0.4876):  55%|█████▍    | 5357/9753 [57:11<45:59,  1.59it/s]Training 2/3 epoch (loss 0.6747):  55%|█████▍    | 5357/9753 [57:11<45:59,  1.59it/s]Training 2/3 epoch (loss 0.6747):  55%|█████▍    | 5358/9753 [57:11<45:34,  1.61it/s]Training 2/3 epoch (loss 0.7528):  55%|█████▍    | 5358/9753 [57:12<45:34,  1.61it/s]Training 2/3 epoch (loss 0.7528):  55%|█████▍    | 5359/9753 [57:12<46:13,  1.58it/s]Training 2/3 epoch (loss 0.7227):  55%|█████▍    | 5359/9753 [57:13<46:13,  1.58it/s]Training 2/3 epoch (loss 0.7227):  55%|█████▍    | 5360/9753 [57:13<52:56,  1.38it/s]Training 2/3 epoch (loss 0.6826):  55%|█████▍    | 5360/9753 [57:14<52:56,  1.38it/s]Training 2/3 epoch (loss 0.6826):  55%|█████▍    | 5361/9753 [57:14<50:00,  1.46it/s]Training 2/3 epoch (loss 0.7902):  55%|█████▍    | 5361/9753 [57:14<50:00,  1.46it/s]Training 2/3 epoch (loss 0.7902):  55%|█████▍    | 5362/9753 [57:14<47:46,  1.53it/s]Training 2/3 epoch (loss 0.6560):  55%|█████▍    | 5362/9753 [57:15<47:46,  1.53it/s]Training 2/3 epoch (loss 0.6560):  55%|█████▍    | 5363/9753 [57:15<46:08,  1.59it/s]Training 2/3 epoch (loss 0.8269):  55%|█████▍    | 5363/9753 [57:15<46:08,  1.59it/s]Training 2/3 epoch (loss 0.8269):  55%|█████▍    | 5364/9753 [57:15<46:06,  1.59it/s]Training 2/3 epoch (loss 0.8399):  55%|█████▍    | 5364/9753 [57:16<46:06,  1.59it/s]Training 2/3 epoch (loss 0.8399):  55%|█████▌    | 5365/9753 [57:16<44:57,  1.63it/s]Training 2/3 epoch (loss 0.5218):  55%|█████▌    | 5365/9753 [57:17<44:57,  1.63it/s]Training 2/3 epoch (loss 0.5218):  55%|█████▌    | 5366/9753 [57:17<43:25,  1.68it/s]Training 2/3 epoch (loss 0.5436):  55%|█████▌    | 5366/9753 [57:17<43:25,  1.68it/s]Training 2/3 epoch (loss 0.5436):  55%|█████▌    | 5367/9753 [57:17<42:28,  1.72it/s]Training 2/3 epoch (loss 0.5879):  55%|█████▌    | 5367/9753 [57:18<42:28,  1.72it/s]Training 2/3 epoch (loss 0.5879):  55%|█████▌    | 5368/9753 [57:18<41:39,  1.75it/s]Training 2/3 epoch (loss 0.7892):  55%|█████▌    | 5368/9753 [57:18<41:39,  1.75it/s]Training 2/3 epoch (loss 0.7892):  55%|█████▌    | 5369/9753 [57:18<41:22,  1.77it/s]Training 2/3 epoch (loss 0.7267):  55%|█████▌    | 5369/9753 [57:19<41:22,  1.77it/s]Training 2/3 epoch (loss 0.7267):  55%|█████▌    | 5370/9753 [57:19<42:50,  1.70it/s]Training 2/3 epoch (loss 0.6409):  55%|█████▌    | 5370/9753 [57:19<42:50,  1.70it/s]Training 2/3 epoch (loss 0.6409):  55%|█████▌    | 5371/9753 [57:19<42:28,  1.72it/s]Training 2/3 epoch (loss 0.7864):  55%|█████▌    | 5371/9753 [57:20<42:28,  1.72it/s]Training 2/3 epoch (loss 0.7864):  55%|█████▌    | 5372/9753 [57:20<43:48,  1.67it/s]Training 2/3 epoch (loss 0.5158):  55%|█████▌    | 5372/9753 [57:21<43:48,  1.67it/s]Training 2/3 epoch (loss 0.5158):  55%|█████▌    | 5373/9753 [57:21<42:56,  1.70it/s]Training 2/3 epoch (loss 0.6142):  55%|█████▌    | 5373/9753 [57:21<42:56,  1.70it/s]Training 2/3 epoch (loss 0.6142):  55%|█████▌    | 5374/9753 [57:21<47:05,  1.55it/s]Training 2/3 epoch (loss 0.7374):  55%|█████▌    | 5374/9753 [57:22<47:05,  1.55it/s]Training 2/3 epoch (loss 0.7374):  55%|█████▌    | 5375/9753 [57:22<46:54,  1.56it/s]Training 2/3 epoch (loss 1.0141):  55%|█████▌    | 5375/9753 [57:23<46:54,  1.56it/s]Training 2/3 epoch (loss 1.0141):  55%|█████▌    | 5376/9753 [57:23<51:29,  1.42it/s]Training 2/3 epoch (loss 0.6360):  55%|█████▌    | 5376/9753 [57:24<51:29,  1.42it/s]Training 2/3 epoch (loss 0.6360):  55%|█████▌    | 5377/9753 [57:24<54:56,  1.33it/s]Training 2/3 epoch (loss 0.7390):  55%|█████▌    | 5377/9753 [57:24<54:56,  1.33it/s]Training 2/3 epoch (loss 0.7390):  55%|█████▌    | 5378/9753 [57:24<52:54,  1.38it/s]Training 2/3 epoch (loss 0.8826):  55%|█████▌    | 5378/9753 [57:25<52:54,  1.38it/s]Training 2/3 epoch (loss 0.8826):  55%|█████▌    | 5379/9753 [57:25<50:23,  1.45it/s]Training 2/3 epoch (loss 0.7109):  55%|█████▌    | 5379/9753 [57:26<50:23,  1.45it/s]Training 2/3 epoch (loss 0.7109):  55%|█████▌    | 5380/9753 [57:26<48:59,  1.49it/s]Training 2/3 epoch (loss 0.5626):  55%|█████▌    | 5380/9753 [57:26<48:59,  1.49it/s]Training 2/3 epoch (loss 0.5626):  55%|█████▌    | 5381/9753 [57:26<46:15,  1.58it/s]Training 2/3 epoch (loss 0.5986):  55%|█████▌    | 5381/9753 [57:27<46:15,  1.58it/s]Training 2/3 epoch (loss 0.5986):  55%|█████▌    | 5382/9753 [57:27<44:41,  1.63it/s]Training 2/3 epoch (loss 0.5858):  55%|█████▌    | 5382/9753 [57:27<44:41,  1.63it/s]Training 2/3 epoch (loss 0.5858):  55%|█████▌    | 5383/9753 [57:27<43:29,  1.67it/s]Training 2/3 epoch (loss 0.7465):  55%|█████▌    | 5383/9753 [57:28<43:29,  1.67it/s]Training 2/3 epoch (loss 0.7465):  55%|█████▌    | 5384/9753 [57:28<49:05,  1.48it/s]Training 2/3 epoch (loss 0.6475):  55%|█████▌    | 5384/9753 [57:29<49:05,  1.48it/s]Training 2/3 epoch (loss 0.6475):  55%|█████▌    | 5385/9753 [57:29<46:28,  1.57it/s]Training 2/3 epoch (loss 0.7069):  55%|█████▌    | 5385/9753 [57:29<46:28,  1.57it/s]Training 2/3 epoch (loss 0.7069):  55%|█████▌    | 5386/9753 [57:29<45:03,  1.62it/s]Training 2/3 epoch (loss 0.7596):  55%|█████▌    | 5386/9753 [57:30<45:03,  1.62it/s]Training 2/3 epoch (loss 0.7596):  55%|█████▌    | 5387/9753 [57:30<43:49,  1.66it/s]Training 2/3 epoch (loss 0.7269):  55%|█████▌    | 5387/9753 [57:31<43:49,  1.66it/s]Training 2/3 epoch (loss 0.7269):  55%|█████▌    | 5388/9753 [57:31<44:48,  1.62it/s]Training 2/3 epoch (loss 0.8052):  55%|█████▌    | 5388/9753 [57:31<44:48,  1.62it/s]Training 2/3 epoch (loss 0.8052):  55%|█████▌    | 5389/9753 [57:31<46:41,  1.56it/s]Training 2/3 epoch (loss 0.8422):  55%|█████▌    | 5389/9753 [57:32<46:41,  1.56it/s]Training 2/3 epoch (loss 0.8422):  55%|█████▌    | 5390/9753 [57:32<46:27,  1.57it/s]Training 2/3 epoch (loss 0.8998):  55%|█████▌    | 5390/9753 [57:33<46:27,  1.57it/s]Training 2/3 epoch (loss 0.8998):  55%|█████▌    | 5391/9753 [57:33<48:19,  1.50it/s]Training 2/3 epoch (loss 0.4549):  55%|█████▌    | 5391/9753 [57:33<48:19,  1.50it/s]Training 2/3 epoch (loss 0.4549):  55%|█████▌    | 5392/9753 [57:33<51:08,  1.42it/s]Training 2/3 epoch (loss 0.7695):  55%|█████▌    | 5392/9753 [57:34<51:08,  1.42it/s]Training 2/3 epoch (loss 0.7695):  55%|█████▌    | 5393/9753 [57:34<50:28,  1.44it/s]Training 2/3 epoch (loss 0.7012):  55%|█████▌    | 5393/9753 [57:35<50:28,  1.44it/s]Training 2/3 epoch (loss 0.7012):  55%|█████▌    | 5394/9753 [57:35<50:06,  1.45it/s]Training 2/3 epoch (loss 0.8731):  55%|█████▌    | 5394/9753 [57:35<50:06,  1.45it/s]Training 2/3 epoch (loss 0.8731):  55%|█████▌    | 5395/9753 [57:35<49:02,  1.48it/s]Training 2/3 epoch (loss 0.6662):  55%|█████▌    | 5395/9753 [57:36<49:02,  1.48it/s]Training 2/3 epoch (loss 0.6662):  55%|█████▌    | 5396/9753 [57:36<47:51,  1.52it/s]Training 2/3 epoch (loss 0.7144):  55%|█████▌    | 5396/9753 [57:37<47:51,  1.52it/s]Training 2/3 epoch (loss 0.7144):  55%|█████▌    | 5397/9753 [57:37<48:16,  1.50it/s]Training 2/3 epoch (loss 0.6830):  55%|█████▌    | 5397/9753 [57:37<48:16,  1.50it/s]Training 2/3 epoch (loss 0.6830):  55%|█████▌    | 5398/9753 [57:37<49:43,  1.46it/s]Training 2/3 epoch (loss 0.9541):  55%|█████▌    | 5398/9753 [57:38<49:43,  1.46it/s]Training 2/3 epoch (loss 0.9541):  55%|█████▌    | 5399/9753 [57:38<50:36,  1.43it/s]Training 2/3 epoch (loss 0.6305):  55%|█████▌    | 5399/9753 [57:39<50:36,  1.43it/s]Training 2/3 epoch (loss 0.6305):  55%|█████▌    | 5400/9753 [57:39<47:46,  1.52it/s]Training 2/3 epoch (loss 1.0137):  55%|█████▌    | 5400/9753 [57:39<47:46,  1.52it/s]Training 2/3 epoch (loss 1.0137):  55%|█████▌    | 5401/9753 [57:39<49:17,  1.47it/s]Training 2/3 epoch (loss 0.8076):  55%|█████▌    | 5401/9753 [57:40<49:17,  1.47it/s]Training 2/3 epoch (loss 0.8076):  55%|█████▌    | 5402/9753 [57:40<47:29,  1.53it/s]Training 2/3 epoch (loss 0.8846):  55%|█████▌    | 5402/9753 [57:41<47:29,  1.53it/s]Training 2/3 epoch (loss 0.8846):  55%|█████▌    | 5403/9753 [57:41<50:09,  1.45it/s]Training 2/3 epoch (loss 0.8243):  55%|█████▌    | 5403/9753 [57:42<50:09,  1.45it/s]Training 2/3 epoch (loss 0.8243):  55%|█████▌    | 5404/9753 [57:42<50:16,  1.44it/s]Training 2/3 epoch (loss 0.9718):  55%|█████▌    | 5404/9753 [57:42<50:16,  1.44it/s]Training 2/3 epoch (loss 0.9718):  55%|█████▌    | 5405/9753 [57:42<47:49,  1.52it/s]Training 2/3 epoch (loss 0.8366):  55%|█████▌    | 5405/9753 [57:43<47:49,  1.52it/s]Training 2/3 epoch (loss 0.8366):  55%|█████▌    | 5406/9753 [57:43<45:37,  1.59it/s]Training 2/3 epoch (loss 0.6880):  55%|█████▌    | 5406/9753 [57:43<45:37,  1.59it/s]Training 2/3 epoch (loss 0.6880):  55%|█████▌    | 5407/9753 [57:43<46:05,  1.57it/s]Training 2/3 epoch (loss 0.7902):  55%|█████▌    | 5407/9753 [57:44<46:05,  1.57it/s]Training 2/3 epoch (loss 0.7902):  55%|█████▌    | 5408/9753 [57:44<49:04,  1.48it/s]Training 2/3 epoch (loss 0.8090):  55%|█████▌    | 5408/9753 [57:45<49:04,  1.48it/s]Training 2/3 epoch (loss 0.8090):  55%|█████▌    | 5409/9753 [57:45<46:39,  1.55it/s]Training 2/3 epoch (loss 0.7824):  55%|█████▌    | 5409/9753 [57:45<46:39,  1.55it/s]Training 2/3 epoch (loss 0.7824):  55%|█████▌    | 5410/9753 [57:45<46:11,  1.57it/s]Training 2/3 epoch (loss 0.6306):  55%|█████▌    | 5410/9753 [57:46<46:11,  1.57it/s]Training 2/3 epoch (loss 0.6306):  55%|█████▌    | 5411/9753 [57:46<44:35,  1.62it/s]Training 2/3 epoch (loss 0.7064):  55%|█████▌    | 5411/9753 [57:46<44:35,  1.62it/s]Training 2/3 epoch (loss 0.7064):  55%|█████▌    | 5412/9753 [57:46<43:05,  1.68it/s]Training 2/3 epoch (loss 0.6324):  55%|█████▌    | 5412/9753 [57:47<43:05,  1.68it/s]Training 2/3 epoch (loss 0.6324):  56%|█████▌    | 5413/9753 [57:47<42:02,  1.72it/s]Training 2/3 epoch (loss 0.7456):  56%|█████▌    | 5413/9753 [57:47<42:02,  1.72it/s]Training 2/3 epoch (loss 0.7456):  56%|█████▌    | 5414/9753 [57:47<41:24,  1.75it/s]Training 2/3 epoch (loss 0.6917):  56%|█████▌    | 5414/9753 [57:48<41:24,  1.75it/s]Training 2/3 epoch (loss 0.6917):  56%|█████▌    | 5415/9753 [57:48<43:41,  1.65it/s]Training 2/3 epoch (loss 0.8494):  56%|█████▌    | 5415/9753 [57:49<43:41,  1.65it/s]Training 2/3 epoch (loss 0.8494):  56%|█████▌    | 5416/9753 [57:49<50:20,  1.44it/s]Training 2/3 epoch (loss 0.6489):  56%|█████▌    | 5416/9753 [57:50<50:20,  1.44it/s]Training 2/3 epoch (loss 0.6489):  56%|█████▌    | 5417/9753 [57:50<49:13,  1.47it/s]Training 2/3 epoch (loss 0.8081):  56%|█████▌    | 5417/9753 [57:50<49:13,  1.47it/s]Training 2/3 epoch (loss 0.8081):  56%|█████▌    | 5418/9753 [57:50<48:10,  1.50it/s]Training 2/3 epoch (loss 0.7385):  56%|█████▌    | 5418/9753 [57:51<48:10,  1.50it/s]Training 2/3 epoch (loss 0.7385):  56%|█████▌    | 5419/9753 [57:51<50:47,  1.42it/s]Training 2/3 epoch (loss 0.6707):  56%|█████▌    | 5419/9753 [57:52<50:47,  1.42it/s]Training 2/3 epoch (loss 0.6707):  56%|█████▌    | 5420/9753 [57:52<49:46,  1.45it/s]Training 2/3 epoch (loss 0.7440):  56%|█████▌    | 5420/9753 [57:52<49:46,  1.45it/s]Training 2/3 epoch (loss 0.7440):  56%|█████▌    | 5421/9753 [57:52<48:14,  1.50it/s]Training 2/3 epoch (loss 0.8256):  56%|█████▌    | 5421/9753 [57:53<48:14,  1.50it/s]Training 2/3 epoch (loss 0.8256):  56%|█████▌    | 5422/9753 [57:53<46:00,  1.57it/s]Training 2/3 epoch (loss 0.5403):  56%|█████▌    | 5422/9753 [57:54<46:00,  1.57it/s]Training 2/3 epoch (loss 0.5403):  56%|█���███▌    | 5423/9753 [57:54<44:24,  1.63it/s]Training 2/3 epoch (loss 0.6963):  56%|█████▌    | 5423/9753 [57:54<44:24,  1.63it/s]Training 2/3 epoch (loss 0.6963):  56%|█████▌    | 5424/9753 [57:54<47:12,  1.53it/s]Training 2/3 epoch (loss 0.7716):  56%|█████▌    | 5424/9753 [57:55<47:12,  1.53it/s]Training 2/3 epoch (loss 0.7716):  56%|█████▌    | 5425/9753 [57:55<49:28,  1.46it/s]Training 2/3 epoch (loss 0.6713):  56%|█████▌    | 5425/9753 [57:56<49:28,  1.46it/s]Training 2/3 epoch (loss 0.6713):  56%|█████▌    | 5426/9753 [57:56<50:24,  1.43it/s]Training 2/3 epoch (loss 0.9053):  56%|█████▌    | 5426/9753 [57:56<50:24,  1.43it/s]Training 2/3 epoch (loss 0.9053):  56%|█████▌    | 5427/9753 [57:56<47:42,  1.51it/s]Training 2/3 epoch (loss 0.5040):  56%|█████▌    | 5427/9753 [57:57<47:42,  1.51it/s]Training 2/3 epoch (loss 0.5040):  56%|█████▌    | 5428/9753 [57:57<47:01,  1.53it/s]Training 2/3 epoch (loss 0.5488):  56%|█████▌    | 5428/9753 [57:58<47:01,  1.53it/s]Training 2/3 epoch (loss 0.5488):  56%|█████▌    | 5429/9753 [57:58<47:59,  1.50it/s]Training 2/3 epoch (loss 0.6762):  56%|█████▌    | 5429/9753 [57:58<47:59,  1.50it/s]Training 2/3 epoch (loss 0.6762):  56%|█████▌    | 5430/9753 [57:58<45:35,  1.58it/s]Training 2/3 epoch (loss 0.7045):  56%|█████▌    | 5430/9753 [57:59<45:35,  1.58it/s]Training 2/3 epoch (loss 0.7045):  56%|█████▌    | 5431/9753 [57:59<44:50,  1.61it/s]Training 2/3 epoch (loss 0.7351):  56%|█████▌    | 5431/9753 [57:59<44:50,  1.61it/s]Training 2/3 epoch (loss 0.7351):  56%|█████▌    | 5432/9753 [57:59<44:14,  1.63it/s]Training 2/3 epoch (loss 0.9747):  56%|█████▌    | 5432/9753 [58:00<44:14,  1.63it/s]Training 2/3 epoch (loss 0.9747):  56%|█████▌    | 5433/9753 [58:00<42:54,  1.68it/s]Training 2/3 epoch (loss 0.6381):  56%|█████▌    | 5433/9753 [58:01<42:54,  1.68it/s]Training 2/3 epoch (loss 0.6381):  56%|█████▌    | 5434/9753 [58:01<41:49,  1.72it/s]Training 2/3 epoch (loss 0.8038):  56%|█████▌    | 5434/9753 [58:01<41:49,  1.72it/s]Training 2/3 epoch (loss 0.8038):  56%|█████▌    | 5435/9753 [58:01<41:58,  1.71it/s]Training 2/3 epoch (loss 0.8211):  56%|█████▌    | 5435/9753 [58:02<41:58,  1.71it/s]Training 2/3 epoch (loss 0.8211):  56%|█████▌    | 5436/9753 [58:02<43:33,  1.65it/s]Training 2/3 epoch (loss 0.4597):  56%|█████▌    | 5436/9753 [58:03<43:33,  1.65it/s]Training 2/3 epoch (loss 0.4597):  56%|█████▌    | 5437/9753 [58:03<49:43,  1.45it/s]Training 2/3 epoch (loss 0.7360):  56%|█████▌    | 5437/9753 [58:03<49:43,  1.45it/s]Training 2/3 epoch (loss 0.7360):  56%|█████▌    | 5438/9753 [58:03<51:43,  1.39it/s]Training 2/3 epoch (loss 0.6984):  56%|█████▌    | 5438/9753 [58:04<51:43,  1.39it/s]Training 2/3 epoch (loss 0.6984):  56%|█████▌    | 5439/9753 [58:04<48:25,  1.48it/s]Training 2/3 epoch (loss 0.7377):  56%|█████▌    | 5439/9753 [58:05<48:25,  1.48it/s]Training 2/3 epoch (loss 0.7377):  56%|█████▌    | 5440/9753 [58:05<51:10,  1.40it/s]Training 2/3 epoch (loss 0.5518):  56%|█████▌    | 5440/9753 [58:05<51:10,  1.40it/s]Training 2/3 epoch (loss 0.5518):  56%|█████▌    | 5441/9753 [58:05<48:22,  1.49it/s]Training 2/3 epoch (loss 0.8261):  56%|█████▌    | 5441/9753 [58:06<48:22,  1.49it/s]Training 2/3 epoch (loss 0.8261):  56%|█████▌    | 5442/9753 [58:06<53:14,  1.35it/s]Training 2/3 epoch (loss 0.6818):  56%|█████▌    | 5442/9753 [58:07<53:14,  1.35it/s]Training 2/3 epoch (loss 0.6818):  56%|█████▌    | 5443/9753 [58:07<52:35,  1.37it/s]Training 2/3 epoch (loss 0.7420):  56%|█████▌    | 5443/9753 [58:08<52:35,  1.37it/s]Training 2/3 epoch (loss 0.7420):  56%|█████▌    | 5444/9753 [58:08<49:41,  1.45it/s]Training 2/3 epoch (loss 0.7389):  56%|█████▌    | 5444/9753 [58:08<49:41,  1.45it/s]Training 2/3 epoch (loss 0.7389):  56%|█████▌    | 5445/9753 [58:08<46:42,  1.54it/s]Training 2/3 epoch (loss 0.5254):  56%|█████▌    | 5445/9753 [58:09<46:42,  1.54it/s]Training 2/3 epoch (loss 0.5254):  56%|█████▌    | 5446/9753 [58:09<44:34,  1.61it/s]Training 2/3 epoch (loss 0.9392):  56%|█████▌    | 5446/9753 [58:09<44:34,  1.61it/s]Training 2/3 epoch (loss 0.9392):  56%|█████▌    | 5447/9753 [58:09<44:04,  1.63it/s]Training 2/3 epoch (loss 0.4470):  56%|█████▌    | 5447/9753 [58:10<44:04,  1.63it/s]Training 2/3 epoch (loss 0.4470):  56%|█████▌    | 5448/9753 [58:10<42:53,  1.67it/s]Training 2/3 epoch (loss 1.0031):  56%|█████▌    | 5448/9753 [58:11<42:53,  1.67it/s]Training 2/3 epoch (loss 1.0031):  56%|█████▌    | 5449/9753 [58:11<48:22,  1.48it/s]Training 2/3 epoch (loss 0.7835):  56%|█████▌    | 5449/9753 [58:11<48:22,  1.48it/s]Training 2/3 epoch (loss 0.7835):  56%|█████▌    | 5450/9753 [58:11<46:14,  1.55it/s]Training 2/3 epoch (loss 0.5930):  56%|█████▌    | 5450/9753 [58:12<46:14,  1.55it/s]Training 2/3 epoch (loss 0.5930):  56%|█████▌    | 5451/9753 [58:12<44:07,  1.62it/s]Training 2/3 epoch (loss 0.5722):  56%|█████▌    | 5451/9753 [58:12<44:07,  1.62it/s]Training 2/3 epoch (loss 0.5722):  56%|█████▌    | 5452/9753 [58:12<42:43,  1.68it/s]Training 2/3 epoch (loss 0.6118):  56%|█████▌    | 5452/9753 [58:13<42:43,  1.68it/s]Training 2/3 epoch (loss 0.6118):  56%|█████▌    | 5453/9753 [58:13<45:44,  1.57it/s]Training 2/3 epoch (loss 0.7771):  56%|█████▌    | 5453/9753 [58:14<45:44,  1.57it/s]Training 2/3 epoch (loss 0.7771):  56%|█████▌    | 5454/9753 [58:14<43:53,  1.63it/s]Training 2/3 epoch (loss 0.5580):  56%|█████▌    | 5454/9753 [58:14<43:53,  1.63it/s]Training 2/3 epoch (loss 0.5580):  56%|█████▌    | 5455/9753 [58:14<42:36,  1.68it/s]Training 2/3 epoch (loss 0.7239):  56%|█████▌    | 5455/9753 [58:15<42:36,  1.68it/s]Training 2/3 epoch (loss 0.7239):  56%|█████▌    | 5456/9753 [58:15<46:17,  1.55it/s]Training 2/3 epoch (loss 0.4941):  56%|█████▌    | 5456/9753 [58:16<46:17,  1.55it/s]Training 2/3 epoch (loss 0.4941):  56%|█████▌    | 5457/9753 [58:16<45:46,  1.56it/s]Training 2/3 epoch (loss 0.5641):  56%|█████▌    | 5457/9753 [58:16<45:46,  1.56it/s]Training 2/3 epoch (loss 0.5641):  56%|█████▌    | 5458/9753 [58:16<47:01,  1.52it/s]Training 2/3 epoch (loss 0.7925):  56%|█████▌    | 5458/9753 [58:17<47:01,  1.52it/s]Training 2/3 epoch (loss 0.7925):  56%|█████▌    | 5459/9753 [58:17<45:18,  1.58it/s]Training 2/3 epoch (loss 0.6414):  56%|█████▌    | 5459/9753 [58:17<45:18,  1.58it/s]Training 2/3 epoch (loss 0.6414):  56%|█████▌    | 5460/9753 [58:17<44:12,  1.62it/s]Training 2/3 epoch (loss 0.5073):  56%|█████▌    | 5460/9753 [58:18<44:12,  1.62it/s]Training 2/3 epoch (loss 0.5073):  56%|█████▌    | 5461/9753 [58:18<43:18,  1.65it/s]Training 2/3 epoch (loss 0.8598):  56%|█████▌    | 5461/9753 [58:19<43:18,  1.65it/s]Training 2/3 epoch (loss 0.8598):  56%|█████▌    | 5462/9753 [58:19<46:52,  1.53it/s]Training 2/3 epoch (loss 0.8927):  56%|█████▌    | 5462/9753 [58:19<46:52,  1.53it/s]Training 2/3 epoch (loss 0.8927):  56%|█████▌    | 5463/9753 [58:19<45:18,  1.58it/s]Training 2/3 epoch (loss 0.7739):  56%|█████▌    | 5463/9753 [58:20<45:18,  1.58it/s]Training 2/3 epoch (loss 0.7739):  56%|█████▌    | 5464/9753 [58:20<43:53,  1.63it/s]Training 2/3 epoch (loss 0.6573):  56%|█████▌    | 5464/9753 [58:21<43:53,  1.63it/s]Training 2/3 epoch (loss 0.6573):  56%|█████▌    | 5465/9753 [58:21<42:37,  1.68it/s]Training 2/3 epoch (loss 0.6348):  56%|█████▌    | 5465/9753 [58:21<42:37,  1.68it/s]Training 2/3 epoch (loss 0.6348):  56%|█████▌    | 5466/9753 [58:21<43:16,  1.65it/s]Training 2/3 epoch (loss 0.8076):  56%|█████▌    | 5466/9753 [58:22<43:16,  1.65it/s]Training 2/3 epoch (loss 0.8076):  56%|█████▌    | 5467/9753 [58:22<43:33,  1.64it/s]Training 2/3 epoch (loss 0.8555):  56%|█████▌    | 5467/9753 [58:23<43:33,  1.64it/s]Training 2/3 epoch (loss 0.8555):  56%|█████▌    | 5468/9753 [58:23<45:48,  1.56it/s]Training 2/3 epoch (loss 0.9544):  56%|█████▌    | 5468/9753 [58:23<45:48,  1.56it/s]Training 2/3 epoch (loss 0.9544):  56%|█████▌    | 5469/9753 [58:23<46:11,  1.55it/s]Training 2/3 epoch (loss 0.6848):  56%|█████▌    | 5469/9753 [58:24<46:11,  1.55it/s]Training 2/3 epoch (loss 0.6848):  56%|█████▌    | 5470/9753 [58:24<44:00,  1.62it/s]Training 2/3 epoch (loss 0.6874):  56%|█████▌    | 5470/9753 [58:25<44:00,  1.62it/s]Training 2/3 epoch (loss 0.6874):  56%|█████▌    | 5471/9753 [58:25<49:02,  1.46it/s]Training 2/3 epoch (loss 0.9253):  56%|█████▌    | 5471/9753 [58:26<49:02,  1.46it/s]Training 2/3 epoch (loss 0.9253):  56%|█████▌    | 5472/9753 [58:26<56:54,  1.25it/s]Training 2/3 epoch (loss 0.7935):  56%|█████▌    | 5472/9753 [58:26<56:54,  1.25it/s]Training 2/3 epoch (loss 0.7935):  56%|█████▌    | 5473/9753 [58:26<52:35,  1.36it/s]Training 2/3 epoch (loss 0.7640):  56%|█████▌    | 5473/9753 [58:27<52:35,  1.36it/s]Training 2/3 epoch (loss 0.7640):  56%|█████▌    | 5474/9753 [58:27<51:21,  1.39it/s]Training 2/3 epoch (loss 0.6562):  56%|█████▌    | 5474/9753 [58:27<51:21,  1.39it/s]Training 2/3 epoch (loss 0.6562):  56%|█████▌    | 5475/9753 [58:27<47:39,  1.50it/s]Training 2/3 epoch (loss 0.7327):  56%|█████▌    | 5475/9753 [58:28<47:39,  1.50it/s]Training 2/3 epoch (loss 0.7327):  56%|█████▌    | 5476/9753 [58:28<52:00,  1.37it/s]Training 2/3 epoch (loss 0.7743):  56%|█████▌    | 5476/9753 [58:29<52:00,  1.37it/s]Training 2/3 epoch (loss 0.7743):  56%|█████▌    | 5477/9753 [58:29<48:01,  1.48it/s]Training 2/3 epoch (loss 0.7054):  56%|█████▌    | 5477/9753 [58:30<48:01,  1.48it/s]Training 2/3 epoch (loss 0.7054):  56%|█████▌    | 5478/9753 [58:30<52:27,  1.36it/s]Training 2/3 epoch (loss 0.7795):  56%|█████▌    | 5478/9753 [58:31<52:27,  1.36it/s]Training 2/3 epoch (loss 0.7795):  56%|█████▌    | 5479/9753 [58:31<55:53,  1.27it/s]Training 2/3 epoch (loss 0.5399):  56%|█████▌    | 5479/9753 [58:31<55:53,  1.27it/s]Training 2/3 epoch (loss 0.5399):  56%|█████▌    | 5480/9753 [58:31<57:12,  1.24it/s]Training 2/3 epoch (loss 1.0961):  56%|█████▌    | 5480/9753 [58:32<57:12,  1.24it/s]Training 2/3 epoch (loss 1.0961):  56%|█████▌    | 5481/9753 [58:32<52:46,  1.35it/s]Training 2/3 epoch (loss 0.5136):  56%|█████▌    | 5481/9753 [58:33<52:46,  1.35it/s]Training 2/3 epoch (loss 0.5136):  56%|█████▌    | 5482/9753 [58:33<50:34,  1.41it/s]Training 2/3 epoch (loss 0.6835):  56%|█████▌    | 5482/9753 [58:33<50:34,  1.41it/s]Training 2/3 epoch (loss 0.6835):  56%|█████▌    | 5483/9753 [58:33<47:50,  1.49it/s]Training 2/3 epoch (loss 0.7951):  56%|█████▌    | 5483/9753 [58:34<47:50,  1.49it/s]Training 2/3 epoch (loss 0.7951):  56%|█████▌    | 5484/9753 [58:34<46:36,  1.53it/s]Training 2/3 epoch (loss 0.9388):  56%|█████▌    | 5484/9753 [58:34<46:36,  1.53it/s]Training 2/3 epoch (loss 0.9388):  56%|█████▌    | 5485/9753 [58:34<44:49,  1.59it/s]Training 2/3 epoch (loss 0.6613):  56%|█████▌    | 5485/9753 [58:35<44:49,  1.59it/s]Training 2/3 epoch (loss 0.6613):  56%|█████▌    | 5486/9753 [58:35<43:11,  1.65it/s]Training 2/3 epoch (loss 0.7006):  56%|█████▌    | 5486/9753 [58:36<43:11,  1.65it/s]Training 2/3 epoch (loss 0.7006):  56%|█████▋    | 5487/9753 [58:36<45:09,  1.57it/s]Training 2/3 epoch (loss 0.7140):  56%|█████▋    | 5487/9753 [58:36<45:09,  1.57it/s]Training 2/3 epoch (loss 0.7140):  56%|█████▋    | 5488/9753 [58:36<46:24,  1.53it/s]Training 2/3 epoch (loss 0.8932):  56%|█████▋    | 5488/9753 [58:37<46:24,  1.53it/s]Training 2/3 epoch (loss 0.8932):  56%|█████▋    | 5489/9753 [58:37<45:40,  1.56it/s]Training 2/3 epoch (loss 0.4797):  56%|█████▋    | 5489/9753 [58:38<45:40,  1.56it/s]Training 2/3 epoch (loss 0.4797):  56%|█████▋    | 5490/9753 [58:38<43:45,  1.62it/s]Training 2/3 epoch (loss 0.5925):  56%|█████▋    | 5490/9753 [58:38<43:45,  1.62it/s]Training 2/3 epoch (loss 0.5925):  56%|█████▋    | 5491/9753 [58:38<42:47,  1.66it/s]Training 2/3 epoch (loss 0.4301):  56%|█████▋    | 5491/9753 [58:39<42:47,  1.66it/s]Training 2/3 epoch (loss 0.4301):  56%|█████▋    | 5492/9753 [58:39<41:54,  1.69it/s]Training 2/3 epoch (loss 0.7259):  56%|█████▋    | 5492/9753 [58:39<41:54,  1.69it/s]Training 2/3 epoch (loss 0.7259):  56%|█████▋    | 5493/9753 [58:39<41:11,  1.72it/s]Training 2/3 epoch (loss 0.7481):  56%|█████▋    | 5493/9753 [58:40<41:11,  1.72it/s]Training 2/3 epoch (loss 0.7481):  56%|█████▋    | 5494/9753 [58:40<41:13,  1.72it/s]Training 2/3 epoch (loss 0.7316):  56%|█████▋    | 5494/9753 [58:41<41:13,  1.72it/s]Training 2/3 epoch (loss 0.7316):  56%|█████▋    | 5495/9753 [58:41<45:15,  1.57it/s]Training 2/3 epoch (loss 0.8376):  56%|█████▋    | 5495/9753 [58:41<45:15,  1.57it/s]Training 2/3 epoch (loss 0.8376):  56%|█████▋    | 5496/9753 [58:41<44:08,  1.61it/s]Training 2/3 epoch (loss 0.7031):  56%|█████▋    | 5496/9753 [58:42<44:08,  1.61it/s]Training 2/3 epoch (loss 0.7031):  56%|█████▋    | 5497/9753 [58:42<43:04,  1.65it/s]Training 2/3 epoch (loss 0.5506):  56%|█████▋    | 5497/9753 [58:42<43:04,  1.65it/s]Training 2/3 epoch (loss 0.5506):  56%|█████▋    | 5498/9753 [58:42<44:04,  1.61it/s]Training 2/3 epoch (loss 0.7022):  56%|█████▋    | 5498/9753 [58:43<44:04,  1.61it/s]Training 2/3 epoch (loss 0.7022):  56%|█████▋    | 5499/9753 [58:43<43:03,  1.65it/s]Training 2/3 epoch (loss 0.6330):  56%|█████▋    | 5499/9753 [58:44<43:03,  1.65it/s]Training 2/3 epoch (loss 0.6330):  56%|█████▋    | 5500/9753 [58:44<42:21,  1.67it/s]Training 2/3 epoch (loss 0.5825):  56%|█████▋    | 5500/9753 [58:44<42:21,  1.67it/s]Training 2/3 epoch (loss 0.5825):  56%|█████▋    | 5501/9753 [58:44<41:32,  1.71it/s]Training 2/3 epoch (loss 0.8334):  56%|█████▋    | 5501/9753 [58:45<41:32,  1.71it/s]Training 2/3 epoch (loss 0.8334):  56%|█████▋    | 5502/9753 [58:45<40:43,  1.74it/s]Training 2/3 epoch (loss 0.9355):  56%|█████▋    | 5502/9753 [58:45<40:43,  1.74it/s]Training 2/3 epoch (loss 0.9355):  56%|█████▋    | 5503/9753 [58:45<42:00,  1.69it/s]Training 2/3 epoch (loss 0.5462):  56%|█████▋    | 5503/9753 [58:46<42:00,  1.69it/s]Training 2/3 epoch (loss 0.5462):  56%|█████▋    | 5504/9753 [58:46<50:08,  1.41it/s]Training 2/3 epoch (loss 0.9023):  56%|█████▋    | 5504/9753 [58:47<50:08,  1.41it/s]Training 2/3 epoch (loss 0.9023):  56%|█████▋    | 5505/9753 [58:47<47:28,  1.49it/s]Training 2/3 epoch (loss 0.6976):  56%|█████▋    | 5505/9753 [58:48<47:28,  1.49it/s]Training 2/3 epoch (loss 0.6976):  56%|█████▋    | 5506/9753 [58:48<46:11,  1.53it/s]Training 2/3 epoch (loss 0.8128):  56%|█████▋    | 5506/9753 [58:48<46:11,  1.53it/s]Training 2/3 epoch (loss 0.8128):  56%|█████▋    | 5507/9753 [58:48<44:47,  1.58it/s]Training 2/3 epoch (loss 0.4386):  56%|█████▋    | 5507/9753 [58:49<44:47,  1.58it/s]Training 2/3 epoch (loss 0.4386):  56%|█████▋    | 5508/9753 [58:49<43:06,  1.64it/s]Training 2/3 epoch (loss 0.7216):  56%|█████▋    | 5508/9753 [58:49<43:06,  1.64it/s]Training 2/3 epoch (loss 0.7216):  56%|█████▋    | 5509/9753 [58:49<45:24,  1.56it/s]Training 2/3 epoch (loss 0.6305):  56%|█████▋    | 5509/9753 [58:50<45:24,  1.56it/s]Training 2/3 epoch (loss 0.6305):  56%|█████▋    | 5510/9753 [58:50<43:36,  1.62it/s]Training 2/3 epoch (loss 0.5677):  56%|█████▋    | 5510/9753 [58:51<43:36,  1.62it/s]Training 2/3 epoch (loss 0.5677):  57%|█████▋    | 5511/9753 [58:51<44:36,  1.59it/s]Training 2/3 epoch (loss 0.7603):  57%|█████▋    | 5511/9753 [58:51<44:36,  1.59it/s]Training 2/3 epoch (loss 0.7603):  57%|█████▋    | 5512/9753 [58:51<43:12,  1.64it/s]Training 2/3 epoch (loss 0.9184):  57%|█████▋    | 5512/9753 [58:52<43:12,  1.64it/s]Training 2/3 epoch (loss 0.9184):  57%|█████▋    | 5513/9753 [58:52<47:40,  1.48it/s]Training 2/3 epoch (loss 0.6434):  57%|█████▋    | 5513/9753 [58:53<47:40,  1.48it/s]Training 2/3 epoch (loss 0.6434):  57%|█████▋    | 5514/9753 [58:53<45:37,  1.55it/s]Training 2/3 epoch (loss 0.7217):  57%|█████▋    | 5514/9753 [58:53<45:37,  1.55it/s]Training 2/3 epoch (loss 0.7217):  57%|█████▋    | 5515/9753 [58:53<43:56,  1.61it/s]Training 2/3 epoch (loss 0.6308):  57%|█████▋    | 5515/9753 [58:54<43:56,  1.61it/s]Training 2/3 epoch (loss 0.6308):  57%|█████▋    | 5516/9753 [58:54<44:00,  1.60it/s]Training 2/3 epoch (loss 0.7265):  57%|█████▋    | 5516/9753 [58:54<44:00,  1.60it/s]Training 2/3 epoch (loss 0.7265):  57%|█████▋    | 5517/9753 [58:54<42:38,  1.66it/s]Training 2/3 epoch (loss 0.8304):  57%|█████▋    | 5517/9753 [58:55<42:38,  1.66it/s]Training 2/3 epoch (loss 0.8304):  57%|█████▋    | 5518/9753 [58:55<49:01,  1.44it/s]Training 2/3 epoch (loss 0.4461):  57%|█████▋    | 5518/9753 [58:56<49:01,  1.44it/s]Training 2/3 epoch (loss 0.4461):  57%|█████▋    | 5519/9753 [58:56<47:26,  1.49it/s]Training 2/3 epoch (loss 0.5090):  57%|█████▋    | 5519/9753 [58:57<47:26,  1.49it/s]Training 2/3 epoch (loss 0.5090):  57%|█████▋    | 5520/9753 [58:57<49:12,  1.43it/s]Training 2/3 epoch (loss 0.8203):  57%|█████▋    | 5520/9753 [58:57<49:12,  1.43it/s]Training 2/3 epoch (loss 0.8203):  57%|█████▋    | 5521/9753 [58:57<51:35,  1.37it/s]Training 2/3 epoch (loss 0.8981):  57%|█████▋    | 5521/9753 [58:58<51:35,  1.37it/s]Training 2/3 epoch (loss 0.8981):  57%|█████▋    | 5522/9753 [58:58<48:17,  1.46it/s]Training 2/3 epoch (loss 0.8653):  57%|█████▋    | 5522/9753 [58:59<48:17,  1.46it/s]Training 2/3 epoch (loss 0.8653):  57%|█████▋    | 5523/9753 [58:59<45:32,  1.55it/s]Training 2/3 epoch (loss 0.5324):  57%|█████▋    | 5523/9753 [58:59<45:32,  1.55it/s]Training 2/3 epoch (loss 0.5324):  57%|█████▋    | 5524/9753 [58:59<44:56,  1.57it/s]Training 2/3 epoch (loss 0.6147):  57%|█████▋    | 5524/9753 [59:00<44:56,  1.57it/s]Training 2/3 epoch (loss 0.6147):  57%|█████▋    | 5525/9753 [59:00<44:13,  1.59it/s]Training 2/3 epoch (loss 0.4915):  57%|█████▋    | 5525/9753 [59:00<44:13,  1.59it/s]Training 2/3 epoch (loss 0.4915):  57%|█████▋    | 5526/9753 [59:00<44:09,  1.60it/s]Training 2/3 epoch (loss 0.6693):  57%|█████▋    | 5526/9753 [59:01<44:09,  1.60it/s]Training 2/3 epoch (loss 0.6693):  57%|█████▋    | 5527/9753 [59:01<42:44,  1.65it/s]Training 2/3 epoch (loss 0.7394):  57%|��████▋    | 5527/9753 [59:02<42:44,  1.65it/s]Training 2/3 epoch (loss 0.7394):  57%|█████▋    | 5528/9753 [59:02<42:18,  1.66it/s]Training 2/3 epoch (loss 0.8216):  57%|█████▋    | 5528/9753 [59:02<42:18,  1.66it/s]Training 2/3 epoch (loss 0.8216):  57%|█████▋    | 5529/9753 [59:02<43:44,  1.61it/s]Training 2/3 epoch (loss 0.6761):  57%|█████▋    | 5529/9753 [59:03<43:44,  1.61it/s]Training 2/3 epoch (loss 0.6761):  57%|█████▋    | 5530/9753 [59:03<42:39,  1.65it/s]Training 2/3 epoch (loss 0.7295):  57%|█████▋    | 5530/9753 [59:03<42:39,  1.65it/s]Training 2/3 epoch (loss 0.7295):  57%|█████▋    | 5531/9753 [59:03<42:37,  1.65it/s]Training 2/3 epoch (loss 0.7230):  57%|█████▋    | 5531/9753 [59:04<42:37,  1.65it/s]Training 2/3 epoch (loss 0.7230):  57%|█████▋    | 5532/9753 [59:04<47:24,  1.48it/s]Training 2/3 epoch (loss 0.8578):  57%|█████▋    | 5532/9753 [59:05<47:24,  1.48it/s]Training 2/3 epoch (loss 0.8578):  57%|█████▋    | 5533/9753 [59:05<45:09,  1.56it/s]Training 2/3 epoch (loss 0.7310):  57%|█████▋    | 5533/9753 [59:05<45:09,  1.56it/s]Training 2/3 epoch (loss 0.7310):  57%|█████▋    | 5534/9753 [59:05<44:29,  1.58it/s]Training 2/3 epoch (loss 0.6738):  57%|█████▋    | 5534/9753 [59:06<44:29,  1.58it/s]Training 2/3 epoch (loss 0.6738):  57%|█████▋    | 5535/9753 [59:06<46:25,  1.51it/s]Training 2/3 epoch (loss 0.7337):  57%|█████▋    | 5535/9753 [59:07<46:25,  1.51it/s]Training 2/3 epoch (loss 0.7337):  57%|█████▋    | 5536/9753 [59:07<49:55,  1.41it/s]Training 2/3 epoch (loss 0.6135):  57%|█████▋    | 5536/9753 [59:08<49:55,  1.41it/s]Training 2/3 epoch (loss 0.6135):  57%|█████▋    | 5537/9753 [59:08<46:58,  1.50it/s]Training 2/3 epoch (loss 0.4451):  57%|█████▋    | 5537/9753 [59:08<46:58,  1.50it/s]Training 2/3 epoch (loss 0.4451):  57%|█████▋    | 5538/9753 [59:08<44:24,  1.58it/s]Training 2/3 epoch (loss 0.7272):  57%|█████▋    | 5538/9753 [59:09<44:24,  1.58it/s]Training 2/3 epoch (loss 0.7272):  57%|█████▋    | 5539/9753 [59:09<43:30,  1.61it/s]Training 2/3 epoch (loss 0.4664):  57%|█████▋    | 5539/9753 [59:09<43:30,  1.61it/s]Training 2/3 epoch (loss 0.4664):  57%|█████▋    | 5540/9753 [59:09<42:33,  1.65it/s]Training 2/3 epoch (loss 0.9217):  57%|█████▋    | 5540/9753 [59:10<42:33,  1.65it/s]Training 2/3 epoch (loss 0.9217):  57%|█████▋    | 5541/9753 [59:10<43:12,  1.62it/s]Training 2/3 epoch (loss 0.7200):  57%|█████▋    | 5541/9753 [59:11<43:12,  1.62it/s]Training 2/3 epoch (loss 0.7200):  57%|█████▋    | 5542/9753 [59:11<44:03,  1.59it/s]Training 2/3 epoch (loss 0.9112):  57%|█████▋    | 5542/9753 [59:11<44:03,  1.59it/s]Training 2/3 epoch (loss 0.9112):  57%|█████▋    | 5543/9753 [59:11<44:54,  1.56it/s]Training 2/3 epoch (loss 0.5888):  57%|█████▋    | 5543/9753 [59:12<44:54,  1.56it/s]Training 2/3 epoch (loss 0.5888):  57%|█████▋    | 5544/9753 [59:12<43:20,  1.62it/s]Training 2/3 epoch (loss 0.5387):  57%|█████▋    | 5544/9753 [59:12<43:20,  1.62it/s]Training 2/3 epoch (loss 0.5387):  57%|█████▋    | 5545/9753 [59:12<41:46,  1.68it/s]Training 2/3 epoch (loss 0.6271):  57%|█████▋    | 5545/9753 [59:13<41:46,  1.68it/s]Training 2/3 epoch (loss 0.6271):  57%|█████▋    | 5546/9753 [59:13<46:46,  1.50it/s]Training 2/3 epoch (loss 0.7298):  57%|█████▋    | 5546/9753 [59:14<46:46,  1.50it/s]Training 2/3 epoch (loss 0.7298):  57%|█████▋    | 5547/9753 [59:14<47:15,  1.48it/s]Training 2/3 epoch (loss 0.6688):  57%|█████▋    | 5547/9753 [59:14<47:15,  1.48it/s]Training 2/3 epoch (loss 0.6688):  57%|█████▋    | 5548/9753 [59:14<46:23,  1.51it/s]Training 2/3 epoch (loss 0.7363):  57%|█████▋    | 5548/9753 [59:15<46:23,  1.51it/s]Training 2/3 epoch (loss 0.7363):  57%|█████▋    | 5549/9753 [59:15<44:04,  1.59it/s]Training 2/3 epoch (loss 0.8095):  57%|█████▋    | 5549/9753 [59:16<44:04,  1.59it/s]Training 2/3 epoch (loss 0.8095):  57%|█████▋    | 5550/9753 [59:16<48:22,  1.45it/s]Training 2/3 epoch (loss 0.6972):  57%|█████▋    | 5550/9753 [59:16<48:22,  1.45it/s]Training 2/3 epoch (loss 0.6972):  57%|█████▋    | 5551/9753 [59:16<45:48,  1.53it/s]Training 2/3 epoch (loss 0.7110):  57%|█████▋    | 5551/9753 [59:17<45:48,  1.53it/s]Training 2/3 epoch (loss 0.7110):  57%|█████▋    | 5552/9753 [59:17<46:18,  1.51it/s]Training 2/3 epoch (loss 0.7564):  57%|█████▋    | 5552/9753 [59:18<46:18,  1.51it/s]Training 2/3 epoch (loss 0.7564):  57%|█████▋    | 5553/9753 [59:18<45:02,  1.55it/s]Training 2/3 epoch (loss 0.6477):  57%|█████▋    | 5553/9753 [59:18<45:02,  1.55it/s]Training 2/3 epoch (loss 0.6477):  57%|█████▋    | 5554/9753 [59:18<43:54,  1.59it/s]Training 2/3 epoch (loss 0.5099):  57%|█████▋    | 5554/9753 [59:19<43:54,  1.59it/s]Training 2/3 epoch (loss 0.5099):  57%|█████▋    | 5555/9753 [59:19<42:49,  1.63it/s]Training 2/3 epoch (loss 0.5668):  57%|█████▋    | 5555/9753 [59:19<42:49,  1.63it/s]Training 2/3 epoch (loss 0.5668):  57%|█████▋    | 5556/9753 [59:19<41:55,  1.67it/s]Training 2/3 epoch (loss 0.7367):  57%|█████▋    | 5556/9753 [59:20<41:55,  1.67it/s]Training 2/3 epoch (loss 0.7367):  57%|█████▋    | 5557/9753 [59:20<44:48,  1.56it/s]Training 2/3 epoch (loss 0.5591):  57%|█████▋    | 5557/9753 [59:21<44:48,  1.56it/s]Training 2/3 epoch (loss 0.5591):  57%|█████▋    | 5558/9753 [59:21<48:40,  1.44it/s]Training 2/3 epoch (loss 0.5523):  57%|█████▋    | 5558/9753 [59:22<48:40,  1.44it/s]Training 2/3 epoch (loss 0.5523):  57%|█████▋    | 5559/9753 [59:22<46:11,  1.51it/s]Training 2/3 epoch (loss 0.7348):  57%|█████▋    | 5559/9753 [59:22<46:11,  1.51it/s]Training 2/3 epoch (loss 0.7348):  57%|█████▋    | 5560/9753 [59:22<49:11,  1.42it/s]Training 2/3 epoch (loss 0.5206):  57%|█████▋    | 5560/9753 [59:23<49:11,  1.42it/s]Training 2/3 epoch (loss 0.5206):  57%|█████▋    | 5561/9753 [59:23<46:22,  1.51it/s]Training 2/3 epoch (loss 0.6900):  57%|█████▋    | 5561/9753 [59:24<46:22,  1.51it/s]Training 2/3 epoch (loss 0.6900):  57%|█████▋    | 5562/9753 [59:24<43:59,  1.59it/s]Training 2/3 epoch (loss 0.4136):  57%|█████▋    | 5562/9753 [59:24<43:59,  1.59it/s]Training 2/3 epoch (loss 0.4136):  57%|█████▋    | 5563/9753 [59:24<42:33,  1.64it/s]Training 2/3 epoch (loss 0.7227):  57%|█████▋    | 5563/9753 [59:25<42:33,  1.64it/s]Training 2/3 epoch (loss 0.7227):  57%|█████▋    | 5564/9753 [59:25<41:33,  1.68it/s]Training 2/3 epoch (loss 0.7913):  57%|█████▋    | 5564/9753 [59:25<41:33,  1.68it/s]Training 2/3 epoch (loss 0.7913):  57%|█████▋    | 5565/9753 [59:25<44:36,  1.56it/s]Training 2/3 epoch (loss 0.6727):  57%|█████▋    | 5565/9753 [59:26<44:36,  1.56it/s]Training 2/3 epoch (loss 0.6727):  57%|█████▋    | 5566/9753 [59:26<42:49,  1.63it/s]Training 2/3 epoch (loss 0.8129):  57%|█████▋    | 5566/9753 [59:27<42:49,  1.63it/s]Training 2/3 epoch (loss 0.8129):  57%|█████▋    | 5567/9753 [59:27<43:20,  1.61it/s]Training 2/3 epoch (loss 0.3657):  57%|█████▋    | 5567/9753 [59:27<43:20,  1.61it/s]Training 2/3 epoch (loss 0.3657):  57%|█████▋    | 5568/9753 [59:27<46:29,  1.50it/s]Training 2/3 epoch (loss 0.7840):  57%|█████▋    | 5568/9753 [59:28<46:29,  1.50it/s]Training 2/3 epoch (loss 0.7840):  57%|█████▋    | 5569/9753 [59:28<47:20,  1.47it/s]Training 2/3 epoch (loss 0.9263):  57%|█████▋    | 5569/9753 [59:29<47:20,  1.47it/s]Training 2/3 epoch (loss 0.9263):  57%|█████▋    | 5570/9753 [59:29<52:26,  1.33it/s]Training 2/3 epoch (loss 0.8776):  57%|█████▋    | 5570/9753 [59:30<52:26,  1.33it/s]Training 2/3 epoch (loss 0.8776):  57%|█████▋    | 5571/9753 [59:30<48:33,  1.44it/s]Training 2/3 epoch (loss 0.7642):  57%|█████▋    | 5571/9753 [59:30<48:33,  1.44it/s]Training 2/3 epoch (loss 0.7642):  57%|█████▋    | 5572/9753 [59:30<45:27,  1.53it/s]Training 2/3 epoch (loss 0.6694):  57%|█████▋    | 5572/9753 [59:31<45:27,  1.53it/s]Training 2/3 epoch (loss 0.6694):  57%|█████▋    | 5573/9753 [59:31<43:14,  1.61it/s]Training 2/3 epoch (loss 0.8373):  57%|█████▋    | 5573/9753 [59:31<43:14,  1.61it/s]Training 2/3 epoch (loss 0.8373):  57%|█████▋    | 5574/9753 [59:31<42:04,  1.66it/s]Training 2/3 epoch (loss 0.7267):  57%|█████▋    | 5574/9753 [59:32<42:04,  1.66it/s]Training 2/3 epoch (loss 0.7267):  57%|█████▋    | 5575/9753 [59:32<42:35,  1.63it/s]Training 2/3 epoch (loss 0.8537):  57%|█████▋    | 5575/9753 [59:32<42:35,  1.63it/s]Training 2/3 epoch (loss 0.8537):  57%|█████▋    | 5576/9753 [59:32<41:44,  1.67it/s]Training 2/3 epoch (loss 0.4174):  57%|█████▋    | 5576/9753 [59:33<41:44,  1.67it/s]Training 2/3 epoch (loss 0.4174):  57%|█████▋    | 5577/9753 [59:33<42:39,  1.63it/s]Training 2/3 epoch (loss 0.6915):  57%|█████▋    | 5577/9753 [59:34<42:39,  1.63it/s]Training 2/3 epoch (loss 0.6915):  57%|█████▋    | 5578/9753 [59:34<43:30,  1.60it/s]Training 2/3 epoch (loss 0.8005):  57%|█████▋    | 5578/9753 [59:34<43:30,  1.60it/s]Training 2/3 epoch (loss 0.8005):  57%|█████▋    | 5579/9753 [59:34<41:51,  1.66it/s]Training 2/3 epoch (loss 0.5293):  57%|█████▋    | 5579/9753 [59:35<41:51,  1.66it/s]Training 2/3 epoch (loss 0.5293):  57%|█████▋    | 5580/9753 [59:35<40:41,  1.71it/s]Training 2/3 epoch (loss 0.7140):  57%|█████▋    | 5580/9753 [59:35<40:41,  1.71it/s]Training 2/3 epoch (loss 0.7140):  57%|█████▋    | 5581/9753 [59:35<40:28,  1.72it/s]Training 2/3 epoch (loss 0.6426):  57%|█████▋    | 5581/9753 [59:36<40:28,  1.72it/s]Training 2/3 epoch (loss 0.6426):  57%|█████▋    | 5582/9753 [59:36<39:45,  1.75it/s]Training 2/3 epoch (loss 0.8485):  57%|█████▋    | 5582/9753 [59:37<39:45,  1.75it/s]Training 2/3 epoch (loss 0.8485):  57%|█████▋    | 5583/9753 [59:37<40:15,  1.73it/s]Training 2/3 epoch (loss 0.4756):  57%|█████▋    | 5583/9753 [59:37<40:15,  1.73it/s]Training 2/3 epoch (loss 0.4756):  57%|█████▋    | 5584/9753 [59:37<43:56,  1.58it/s]Training 2/3 epoch (loss 0.7767):  57%|█████▋    | 5584/9753 [59:38<43:56,  1.58it/s]Training 2/3 epoch (loss 0.7767):  57%|█████▋    | 5585/9753 [59:38<42:40,  1.63it/s]Training 2/3 epoch (loss 0.8393):  57%|█████▋    | 5585/9753 [59:39<42:40,  1.63it/s]Training 2/3 epoch (loss 0.8393):  57%|█████▋    | 5586/9753 [59:39<45:02,  1.54it/s]Training 2/3 epoch (loss 1.0142):  57%|█████▋    | 5586/9753 [59:39<45:02,  1.54it/s]Training 2/3 epoch (loss 1.0142):  57%|█████▋    | 5587/9753 [59:39<46:33,  1.49it/s]Training 2/3 epoch (loss 0.4895):  57%|█████▋    | 5587/9753 [59:40<46:33,  1.49it/s]Training 2/3 epoch (loss 0.4895):  57%|█████▋    | 5588/9753 [59:40<44:33,  1.56it/s]Training 2/3 epoch (loss 0.6906):  57%|█████▋    | 5588/9753 [59:40<44:33,  1.56it/s]Training 2/3 epoch (loss 0.6906):  57%|█████▋    | 5589/9753 [59:40<43:06,  1.61it/s]Training 2/3 epoch (loss 0.7517):  57%|█████▋    | 5589/9753 [59:41<43:06,  1.61it/s]Training 2/3 epoch (loss 0.7517):  57%|█████▋    | 5590/9753 [59:41<41:43,  1.66it/s]Training 2/3 epoch (loss 0.3759):  57%|█████▋    | 5590/9753 [59:42<41:43,  1.66it/s]Training 2/3 epoch (loss 0.3759):  57%|█████▋    | 5591/9753 [59:42<40:56,  1.69it/s]Training 2/3 epoch (loss 0.9777):  57%|█████▋    | 5591/9753 [59:42<40:56,  1.69it/s]Training 2/3 epoch (loss 0.9777):  57%|█████▋    | 5592/9753 [59:42<42:02,  1.65it/s]Training 2/3 epoch (loss 0.8657):  57%|█████▋    | 5592/9753 [59:43<42:02,  1.65it/s]Training 2/3 epoch (loss 0.8657):  57%|█████▋    | 5593/9753 [59:43<41:19,  1.68it/s]Training 2/3 epoch (loss 0.6950):  57%|█████▋    | 5593/9753 [59:43<41:19,  1.68it/s]Training 2/3 epoch (loss 0.6950):  57%|█████▋    | 5594/9753 [59:43<41:55,  1.65it/s]Training 2/3 epoch (loss 0.7788):  57%|█████▋    | 5594/9753 [59:44<41:55,  1.65it/s]Training 2/3 epoch (loss 0.7788):  57%|█████▋    | 5595/9753 [59:44<41:23,  1.67it/s]Training 2/3 epoch (loss 0.8035):  57%|█████▋    | 5595/9753 [59:45<41:23,  1.67it/s]Training 2/3 epoch (loss 0.8035):  57%|█████▋    | 5596/9753 [59:45<45:29,  1.52it/s]Training 2/3 epoch (loss 0.8509):  57%|█████▋    | 5596/9753 [59:45<45:29,  1.52it/s]Training 2/3 epoch (loss 0.8509):  57%|█████▋    | 5597/9753 [59:45<45:48,  1.51it/s]Training 2/3 epoch (loss 0.9869):  57%|█████▋    | 5597/9753 [59:46<45:48,  1.51it/s]Training 2/3 epoch (loss 0.9869):  57%|█████▋    | 5598/9753 [59:46<45:30,  1.52it/s]Training 2/3 epoch (loss 0.7867):  57%|█████▋    | 5598/9753 [59:47<45:30,  1.52it/s]Training 2/3 epoch (loss 0.7867):  57%|█████▋    | 5599/9753 [59:47<45:17,  1.53it/s]Training 2/3 epoch (loss 0.6714):  57%|█████▋    | 5599/9753 [59:48<45:17,  1.53it/s]Training 2/3 epoch (loss 0.6714):  57%|█████▋    | 5600/9753 [59:48<47:59,  1.44it/s]Training 2/3 epoch (loss 0.7714):  57%|█████▋    | 5600/9753 [59:48<47:59,  1.44it/s]Training 2/3 epoch (loss 0.7714):  57%|█████▋    | 5601/9753 [59:48<47:39,  1.45it/s]Training 2/3 epoch (loss 0.6368):  57%|█████▋    | 5601/9753 [59:49<47:39,  1.45it/s]Training 2/3 epoch (loss 0.6368):  57%|█████▋    | 5602/9753 [59:49<47:08,  1.47it/s]Training 2/3 epoch (loss 0.7608):  57%|█████▋    | 5602/9753 [59:49<47:08,  1.47it/s]Training 2/3 epoch (loss 0.7608):  57%|█████▋    | 5603/9753 [59:49<45:54,  1.51it/s]Training 2/3 epoch (loss 0.8395):  57%|█████▋    | 5603/9753 [59:50<45:54,  1.51it/s]Training 2/3 epoch (loss 0.8395):  57%|█████▋    | 5604/9753 [59:50<45:16,  1.53it/s]Training 2/3 epoch (loss 0.7449):  57%|█████▋    | 5604/9753 [59:51<45:16,  1.53it/s]Training 2/3 epoch (loss 0.7449):  57%|█████▋    | 5605/9753 [59:51<44:45,  1.54it/s]Training 2/3 epoch (loss 0.7345):  57%|█████▋    | 5605/9753 [59:51<44:45,  1.54it/s]Training 2/3 epoch (loss 0.7345):  57%|█████▋    | 5606/9753 [59:51<44:07,  1.57it/s]Training 2/3 epoch (loss 0.7141):  57%|█████▋    | 5606/9753 [59:52<44:07,  1.57it/s]Training 2/3 epoch (loss 0.7141):  57%|█████▋    | 5607/9753 [59:52<44:02,  1.57it/s]Training 2/3 epoch (loss 0.5192):  57%|█████▋    | 5607/9753 [59:53<44:02,  1.57it/s]Training 2/3 epoch (loss 0.5192):  58%|█████▊    | 5608/9753 [59:53<44:13,  1.56it/s]Training 2/3 epoch (loss 0.5910):  58%|█████▊    | 5608/9753 [59:53<44:13,  1.56it/s]Training 2/3 epoch (loss 0.5910):  58%|█████▊    | 5609/9753 [59:53<44:20,  1.56it/s]Training 2/3 epoch (loss 0.7960):  58%|█████▊    | 5609/9753 [59:54<44:20,  1.56it/s]Training 2/3 epoch (loss 0.7960):  58%|█████▊    | 5610/9753 [59:54<44:23,  1.56it/s]Training 2/3 epoch (loss 0.7472):  58%|█████▊    | 5610/9753 [59:55<44:23,  1.56it/s]Training 2/3 epoch (loss 0.7472):  58%|█████▊    | 5611/9753 [59:55<44:28,  1.55it/s]Training 2/3 epoch (loss 0.8377):  58%|█████▊    | 5611/9753 [59:55<44:28,  1.55it/s]Training 2/3 epoch (loss 0.8377):  58%|█████▊    | 5612/9753 [59:55<44:58,  1.53it/s]Training 2/3 epoch (loss 0.8424):  58%|█████▊    | 5612/9753 [59:56<44:58,  1.53it/s]Training 2/3 epoch (loss 0.8424):  58%|█████▊    | 5613/9753 [59:56<44:43,  1.54it/s]Training 2/3 epoch (loss 0.6393):  58%|█████▊    | 5613/9753 [59:57<44:43,  1.54it/s]Training 2/3 epoch (loss 0.6393):  58%|█████▊    | 5614/9753 [59:57<49:10,  1.40it/s]Training 2/3 epoch (loss 0.7313):  58%|█████▊    | 5614/9753 [59:57<49:10,  1.40it/s]Training 2/3 epoch (loss 0.7313):  58%|█████▊    | 5615/9753 [59:57<46:06,  1.50it/s]Training 2/3 epoch (loss 0.6894):  58%|█████▊    | 5615/9753 [59:58<46:06,  1.50it/s]Training 2/3 epoch (loss 0.6894):  58%|█████▊    | 5616/9753 [59:58<47:02,  1.47it/s]Training 2/3 epoch (loss 0.6193):  58%|█████▊    | 5616/9753 [59:59<47:02,  1.47it/s]Training 2/3 epoch (loss 0.6193):  58%|█████▊    | 5617/9753 [59:59<44:24,  1.55it/s]Training 2/3 epoch (loss 0.6079):  58%|█████▊    | 5617/9753 [59:59<44:24,  1.55it/s]Training 2/3 epoch (loss 0.6079):  58%|█████▊    | 5618/9753 [59:59<44:10,  1.56it/s]Training 2/3 epoch (loss 0.7010):  58%|█████▊    | 5618/9753 [1:00:00<44:10,  1.56it/s]Training 2/3 epoch (loss 0.7010):  58%|█████▊    | 5619/9753 [1:00:00<42:22,  1.63it/s]Training 2/3 epoch (loss 0.6334):  58%|█████▊    | 5619/9753 [1:00:00<42:22,  1.63it/s]Training 2/3 epoch (loss 0.6334):  58%|█████▊    | 5620/9753 [1:00:00<41:03,  1.68it/s]Training 2/3 epoch (loss 0.7487):  58%|█████▊    | 5620/9753 [1:00:01<41:03,  1.68it/s]Training 2/3 epoch (loss 0.7487):  58%|█████▊    | 5621/9753 [1:00:01<40:15,  1.71it/s]Training 2/3 epoch (loss 0.6864):  58%|█████▊    | 5621/9753 [1:00:02<40:15,  1.71it/s]Training 2/3 epoch (loss 0.6864):  58%|█████▊    | 5622/9753 [1:00:02<41:13,  1.67it/s]Training 2/3 epoch (loss 0.7721):  58%|█████▊    | 5622/9753 [1:00:02<41:13,  1.67it/s]Training 2/3 epoch (loss 0.7721):  58%|█████▊    | 5623/9753 [1:00:02<43:38,  1.58it/s]Training 2/3 epoch (loss 0.7086):  58%|█████▊    | 5623/9753 [1:00:03<43:38,  1.58it/s]Training 2/3 epoch (loss 0.7086):  58%|█████▊    | 5624/9753 [1:00:03<43:27,  1.58it/s]Training 2/3 epoch (loss 0.7973):  58%|█████▊    | 5624/9753 [1:00:03<43:27,  1.58it/s]Training 2/3 epoch (loss 0.7973):  58%|█████▊    | 5625/9753 [1:00:03<42:15,  1.63it/s]Training 2/3 epoch (loss 0.9154):  58%|█████▊    | 5625/9753 [1:00:04<42:15,  1.63it/s]Training 2/3 epoch (loss 0.9154):  58%|█████▊    | 5626/9753 [1:00:04<42:37,  1.61it/s]Training 2/3 epoch (loss 0.5138):  58%|█████▊    | 5626/9753 [1:00:05<42:37,  1.61it/s]Training 2/3 epoch (loss 0.5138):  58%|█████▊    | 5627/9753 [1:00:05<47:46,  1.44it/s]Training 2/3 epoch (loss 0.4324):  58%|█████▊    | 5627/9753 [1:00:06<47:46,  1.44it/s]Training 2/3 epoch (loss 0.4324):  58%|█████▊    | 5628/9753 [1:00:06<45:55,  1.50it/s]Training 2/3 epoch (loss 0.5495):  58%|█████▊    | 5628/9753 [1:00:06<45:55,  1.50it/s]Training 2/3 epoch (loss 0.5495):  58%|█████▊    | 5629/9753 [1:00:06<44:10,  1.56it/s]Training 2/3 epoch (loss 0.7132):  58%|█████▊    | 5629/9753 [1:00:07<44:10,  1.56it/s]Training 2/3 epoch (loss 0.7132):  58%|█████▊    | 5630/9753 [1:00:07<42:38,  1.61it/s]Training 2/3 epoch (loss 0.6310):  58%|█████▊    | 5630/9753 [1:00:07<42:38,  1.61it/s]Training 2/3 epoch (loss 0.6310):  58%|█████▊    | 5631/9753 [1:00:07<41:42,  1.65it/s]Training 2/3 epoch (loss 0.7355):  58%|█████▊    | 5631/9753 [1:00:08<41:42,  1.65it/s]Training 2/3 epoch (loss 0.7355):  58%|█████▊    | 5632/9753 [1:00:08<44:41,  1.54it/s]Training 2/3 epoch (loss 0.7526):  58%|█████▊    | 5632/9753 [1:00:09<44:41,  1.54it/s]Training 2/3 epoch (loss 0.7526):  58%|█████▊    | 5633/9753 [1:00:09<44:36,  1.54it/s]Training 2/3 epoch (loss 0.4316):  58%|█████▊    | 5633/9753 [1:00:09<44:36,  1.54it/s]Training 2/3 epoch (loss 0.4316):  58%|█████▊    | 5634/9753 [1:00:09<47:13,  1.45it/s]Training 2/3 epoch (loss 0.5102):  58%|█████▊    | 5634/9753 [1:00:10<47:13,  1.45it/s]Training 2/3 epoch (loss 0.5102):  58%|█████▊    | 5635/9753 [1:00:10<46:58,  1.46it/s]Training 2/3 epoch (loss 0.7340):  58%|█████▊    | 5635/9753 [1:00:11<46:58,  1.46it/s]Training 2/3 epoch (loss 0.7340):  58%|█████▊    | 5636/9753 [1:00:11<44:35,  1.54it/s]Training 2/3 epoch (loss 0.9444):  58%|█████▊    | 5636/9753 [1:00:11<44:35,  1.54it/s]Training 2/3 epoch (loss 0.9444):  58%|█████▊    | 5637/9753 [1:00:11<45:28,  1.51it/s]Training 2/3 epoch (loss 0.8423):  58%|█████▊    | 5637/9753 [1:00:12<45:28,  1.51it/s]Training 2/3 epoch (loss 0.8423):  58%|█████▊    | 5638/9753 [1:00:12<45:58,  1.49it/s]Training 2/3 epoch (loss 0.7859):  58%|█████▊    | 5638/9753 [1:00:13<45:58,  1.49it/s]Training 2/3 epoch (loss 0.7859):  58%|█████▊    | 5639/9753 [1:00:13<50:31,  1.36it/s]Training 2/3 epoch (loss 0.6257):  58%|█████▊    | 5639/9753 [1:00:14<50:31,  1.36it/s]Training 2/3 epoch (loss 0.6257):  58%|█████▊    | 5640/9753 [1:00:14<53:38,  1.28it/s]Training 2/3 epoch (loss 0.5483):  58%|█████▊    | 5640/9753 [1:00:14<53:38,  1.28it/s]Training 2/3 epoch (loss 0.5483):  58%|█████▊    | 5641/9753 [1:00:14<49:17,  1.39it/s]Training 2/3 epoch (loss 0.5949):  58%|█████▊    | 5641/9753 [1:00:15<49:17,  1.39it/s]Training 2/3 epoch (loss 0.5949):  58%|█████▊    | 5642/9753 [1:00:15<47:13,  1.45it/s]Training 2/3 epoch (loss 0.6121):  58%|█████▊    | 5642/9753 [1:00:16<47:13,  1.45it/s]Training 2/3 epoch (loss 0.6121):  58%|█████▊    | 5643/9753 [1:00:16<44:31,  1.54it/s]Training 2/3 epoch (loss 0.7278):  58%|█████▊    | 5643/9753 [1:00:16<44:31,  1.54it/s]Training 2/3 epoch (loss 0.7278):  58%|█████▊    | 5644/9753 [1:00:16<42:21,  1.62it/s]Training 2/3 epoch (loss 0.8352):  58%|█████▊    | 5644/9753 [1:00:17<42:21,  1.62it/s]Training 2/3 epoch (loss 0.8352):  58%|█████▊    | 5645/9753 [1:00:17<41:40,  1.64it/s]Training 2/3 epoch (loss 0.8469):  58%|█████▊    | 5645/9753 [1:00:17<41:40,  1.64it/s]Training 2/3 epoch (loss 0.8469):  58%|█████▊    | 5646/9753 [1:00:17<40:23,  1.69it/s]Training 2/3 epoch (loss 0.7647):  58%|█████▊    | 5646/9753 [1:00:18<40:23,  1.69it/s]Training 2/3 epoch (loss 0.7647):  58%|█████▊    | 5647/9753 [1:00:18<39:34,  1.73it/s]Training 2/3 epoch (loss 0.7397):  58%|█████▊    | 5647/9753 [1:00:19<39:34,  1.73it/s]Training 2/3 epoch (loss 0.7397):  58%|█████▊    | 5648/9753 [1:00:19<41:36,  1.64it/s]Training 2/3 epoch (loss 0.7047):  58%|█████▊    | 5648/9753 [1:00:19<41:36,  1.64it/s]Training 2/3 epoch (loss 0.7047):  58%|█████▊    | 5649/9753 [1:00:19<40:34,  1.69it/s]Training 2/3 epoch (loss 0.7072):  58%|█████▊    | 5649/9753 [1:00:20<40:34,  1.69it/s]Training 2/3 epoch (loss 0.7072):  58%|█████▊    | 5650/9753 [1:00:20<41:12,  1.66it/s]Training 2/3 epoch (loss 0.7203):  58%|█████▊    | 5650/9753 [1:00:20<41:12,  1.66it/s]Training 2/3 epoch (loss 0.7203):  58%|█████▊    | 5651/9753 [1:00:20<40:11,  1.70it/s]Training 2/3 epoch (loss 0.5945):  58%|█████▊    | 5651/9753 [1:00:21<40:11,  1.70it/s]Training 2/3 epoch (loss 0.5945):  58%|█████▊    | 5652/9753 [1:00:21<39:27,  1.73it/s]Training 2/3 epoch (loss 0.6652):  58%|█████▊    | 5652/9753 [1:00:21<39:27,  1.73it/s]Training 2/3 epoch (loss 0.6652):  58%|█████▊    | 5653/9753 [1:00:21<38:51,  1.76it/s]Training 2/3 epoch (loss 0.6447):  58%|█████▊    | 5653/9753 [1:00:22<38:51,  1.76it/s]Training 2/3 epoch (loss 0.6447):  58%|█████▊    | 5654/9753 [1:00:22<38:22,  1.78it/s]Training 2/3 epoch (loss 0.8304):  58%|█████▊    | 5654/9753 [1:00:23<38:22,  1.78it/s]Training 2/3 epoch (loss 0.8304):  58%|█████▊    | 5655/9753 [1:00:23<40:53,  1.67it/s]Training 2/3 epoch (loss 0.7376):  58%|█████▊    | 5655/9753 [1:00:23<40:53,  1.67it/s]Training 2/3 epoch (loss 0.7376):  58%|█████▊    | 5656/9753 [1:00:23<39:48,  1.72it/s]Training 2/3 epoch (loss 0.4833):  58%|█████▊    | 5656/9753 [1:00:24<39:48,  1.72it/s]Training 2/3 epoch (loss 0.4833):  58%|█████▊    | 5657/9753 [1:00:24<39:05,  1.75it/s]Training 2/3 epoch (loss 0.6740):  58%|█████▊    | 5657/9753 [1:00:24<39:05,  1.75it/s]Training 2/3 epoch (loss 0.6740):  58%|█████▊    | 5658/9753 [1:00:24<40:16,  1.69it/s]Training 2/3 epoch (loss 0.7465):  58%|█████▊    | 5658/9753 [1:00:25<40:16,  1.69it/s]Training 2/3 epoch (loss 0.7465):  58%|█████▊    | 5659/9753 [1:00:25<40:59,  1.66it/s]Training 2/3 epoch (loss 0.6920):  58%|█████▊    | 5659/9753 [1:00:26<40:59,  1.66it/s]Training 2/3 epoch (loss 0.6920):  58%|█████▊    | 5660/9753 [1:00:26<40:15,  1.69it/s]Training 2/3 epoch (loss 0.8123):  58%|█████▊    | 5660/9753 [1:00:26<40:15,  1.69it/s]Training 2/3 epoch (loss 0.8123):  58%|█████▊    | 5661/9753 [1:00:26<40:40,  1.68it/s]Training 2/3 epoch (loss 0.7280):  58%|█████▊    | 5661/9753 [1:00:27<40:40,  1.68it/s]Training 2/3 epoch (loss 0.7280):  58%|█████▊    | 5662/9753 [1:00:27<41:39,  1.64it/s]Training 2/3 epoch (loss 1.0141):  58%|█████▊    | 5662/9753 [1:00:27<41:39,  1.64it/s]Training 2/3 epoch (loss 1.0141):  58%|█████▊    | 5663/9753 [1:00:27<42:24,  1.61it/s]Training 2/3 epoch (loss 0.8363):  58%|█████▊    | 5663/9753 [1:00:28<42:24,  1.61it/s]Training 2/3 epoch (loss 0.8363):  58%|█████▊    | 5664/9753 [1:00:28<48:19,  1.41it/s]Training 2/3 epoch (loss 0.6480):  58%|█████▊    | 5664/9753 [1:00:29<48:19,  1.41it/s]Training 2/3 epoch (loss 0.6480):  58%|█████▊    | 5665/9753 [1:00:29<48:19,  1.41it/s]Training 2/3 epoch (loss 0.8197):  58%|█████▊    | 5665/9753 [1:00:30<48:19,  1.41it/s]Training 2/3 epoch (loss 0.8197):  58%|█████▊    | 5666/9753 [1:00:30<48:02,  1.42it/s]Training 2/3 epoch (loss 0.7295):  58%|█████▊    | 5666/9753 [1:00:30<48:02,  1.42it/s]Training 2/3 epoch (loss 0.7295):  58%|█████▊    | 5667/9753 [1:00:30<47:58,  1.42it/s]Training 2/3 epoch (loss 0.7463):  58%|█████▊    | 5667/9753 [1:00:31<47:58,  1.42it/s]Training 2/3 epoch (loss 0.7463):  58%|█████▊    | 5668/9753 [1:00:31<48:08,  1.41it/s]Training 2/3 epoch (loss 0.6950):  58%|█████▊    | 5668/9753 [1:00:32<48:08,  1.41it/s]Training 2/3 epoch (loss 0.6950):  58%|█████▊    | 5669/9753 [1:00:32<47:29,  1.43it/s]Training 2/3 epoch (loss 0.7319):  58%|█████▊    | 5669/9753 [1:00:32<47:29,  1.43it/s]Training 2/3 epoch (loss 0.7319):  58%|█████▊    | 5670/9753 [1:00:32<46:23,  1.47it/s]Training 2/3 epoch (loss 0.5753):  58%|█████▊    | 5670/9753 [1:00:33<46:23,  1.47it/s]Training 2/3 epoch (loss 0.5753):  58%|█████▊    | 5671/9753 [1:00:33<45:27,  1.50it/s]Training 2/3 epoch (loss 0.5828):  58%|█████▊    | 5671/9753 [1:00:34<45:27,  1.50it/s]Training 2/3 epoch (loss 0.5828):  58%|█████▊    | 5672/9753 [1:00:34<44:32,  1.53it/s]Training 2/3 epoch (loss 0.7492):  58%|█████▊    | 5672/9753 [1:00:34<44:32,  1.53it/s]Training 2/3 epoch (loss 0.7492):  58%|█████▊    | 5673/9753 [1:00:34<44:30,  1.53it/s]Training 2/3 epoch (loss 0.5478):  58%|█████▊    | 5673/9753 [1:00:35<44:30,  1.53it/s]Training 2/3 epoch (loss 0.5478):  58%|█████▊    | 5674/9753 [1:00:35<45:58,  1.48it/s]Training 2/3 epoch (loss 0.5435):  58%|█████▊    | 5674/9753 [1:00:36<45:58,  1.48it/s]Training 2/3 epoch (loss 0.5435):  58%|█████▊    | 5675/9753 [1:00:36<45:35,  1.49it/s]Training 2/3 epoch (loss 0.7114):  58%|█████▊    | 5675/9753 [1:00:37<45:35,  1.49it/s]Training 2/3 epoch (loss 0.7114):  58%|█████▊    | 5676/9753 [1:00:37<48:12,  1.41it/s]Training 2/3 epoch (loss 0.8024):  58%|█████▊    | 5676/9753 [1:00:38<48:12,  1.41it/s]Training 2/3 epoch (loss 0.8024):  58%|█████▊    | 5677/9753 [1:00:38<53:15,  1.28it/s]Training 2/3 epoch (loss 0.6740):  58%|█████▊    | 5677/9753 [1:00:38<53:15,  1.28it/s]Training 2/3 epoch (loss 0.6740):  58%|█████▊    | 5678/9753 [1:00:38<50:52,  1.34it/s]Training 2/3 epoch (loss 0.6970):  58%|█████▊    | 5678/9753 [1:00:39<50:52,  1.34it/s]Training 2/3 epoch (loss 0.6970):  58%|█████▊    | 5679/9753 [1:00:39<49:08,  1.38it/s]Training 2/3 epoch (loss 0.6455):  58%|█████▊    | 5679/9753 [1:00:40<49:08,  1.38it/s]Training 2/3 epoch (loss 0.6455):  58%|█████▊    | 5680/9753 [1:00:40<50:28,  1.34it/s]Training 2/3 epoch (loss 0.8333):  58%|█████▊    | 5680/9753 [1:00:40<50:28,  1.34it/s]Training 2/3 epoch (loss 0.8333):  58%|█████▊    | 5681/9753 [1:00:40<49:04,  1.38it/s]Training 2/3 epoch (loss 0.6069):  58%|█████▊    | 5681/9753 [1:00:41<49:04,  1.38it/s]Training 2/3 epoch (loss 0.6069):  58%|█████▊    | 5682/9753 [1:00:41<47:19,  1.43it/s]Training 2/3 epoch (loss 0.7187):  58%|█████▊    | 5682/9753 [1:00:42<47:19,  1.43it/s]Training 2/3 epoch (loss 0.7187):  58%|█████▊    | 5683/9753 [1:00:42<45:55,  1.48it/s]Training 2/3 epoch (loss 0.8119):  58%|█████▊    | 5683/9753 [1:00:42<45:55,  1.48it/s]Training 2/3 epoch (loss 0.8119):  58%|█████▊    | 5684/9753 [1:00:42<48:30,  1.40it/s]Training 2/3 epoch (loss 0.5395):  58%|█████▊    | 5684/9753 [1:00:43<48:30,  1.40it/s]Training 2/3 epoch (loss 0.5395):  58%|█████▊    | 5685/9753 [1:00:43<47:12,  1.44it/s]Training 2/3 epoch (loss 0.7086):  58%|█████▊    | 5685/9753 [1:00:44<47:12,  1.44it/s]Training 2/3 epoch (loss 0.7086):  58%|█████▊    | 5686/9753 [1:00:44<46:24,  1.46it/s]Training 2/3 epoch (loss 0.7814):  58%|█████▊    | 5686/9753 [1:00:44<46:24,  1.46it/s]Training 2/3 epoch (loss 0.7814):  58%|█████▊    | 5687/9753 [1:00:44<45:55,  1.48it/s]Training 2/3 epoch (loss 0.4108):  58%|█████▊    | 5687/9753 [1:00:45<45:55,  1.48it/s]Training 2/3 epoch (loss 0.4108):  58%|█████▊    | 5688/9753 [1:00:45<45:33,  1.49it/s]Training 2/3 epoch (loss 0.6697):  58%|█████▊    | 5688/9753 [1:00:46<45:33,  1.49it/s]Training 2/3 epoch (loss 0.6697):  58%|█████▊    | 5689/9753 [1:00:46<45:13,  1.50it/s]Training 2/3 epoch (loss 0.6955):  58%|█████▊    | 5689/9753 [1:00:46<45:13,  1.50it/s]Training 2/3 epoch (loss 0.6955):  58%|█████▊    | 5690/9753 [1:00:46<45:00,  1.50it/s]Training 2/3 epoch (loss 0.7969):  58%|█████▊    | 5690/9753 [1:00:47<45:00,  1.50it/s]Training 2/3 epoch (loss 0.7969):  58%|█████▊    | 5691/9753 [1:00:47<44:55,  1.51it/s]Training 2/3 epoch (loss 0.4435):  58%|█████▊    | 5691/9753 [1:00:48<44:55,  1.51it/s]Training 2/3 epoch (loss 0.4435):  58%|█████▊    | 5692/9753 [1:00:48<44:52,  1.51it/s]Training 2/3 epoch (loss 0.7672):  58%|█████▊    | 5692/9753 [1:00:48<44:52,  1.51it/s]Training 2/3 epoch (loss 0.7672):  58%|█████▊    | 5693/9753 [1:00:48<44:44,  1.51it/s]Training 2/3 epoch (loss 0.6476):  58%|█████▊    | 5693/9753 [1:00:49<44:44,  1.51it/s]Training 2/3 epoch (loss 0.6476):  58%|█████▊    | 5694/9753 [1:00:49<44:24,  1.52it/s]Training 2/3 epoch (loss 0.6758):  58%|█████▊    | 5694/9753 [1:00:50<44:24,  1.52it/s]Training 2/3 epoch (loss 0.6758):  58%|█████▊    | 5695/9753 [1:00:50<42:35,  1.59it/s]Training 2/3 epoch (loss 0.7073):  58%|█████▊    | 5695/9753 [1:00:50<42:35,  1.59it/s]Training 2/3 epoch (loss 0.7073):  58%|█████▊    | 5696/9753 [1:00:50<44:49,  1.51it/s]Training 2/3 epoch (loss 0.7981):  58%|█████▊    | 5696/9753 [1:00:51<44:49,  1.51it/s]Training 2/3 epoch (loss 0.7981):  58%|█████▊    | 5697/9753 [1:00:51<42:51,  1.58it/s]Training 2/3 epoch (loss 0.6066):  58%|█████▊    | 5697/9753 [1:00:52<42:51,  1.58it/s]Training 2/3 epoch (loss 0.6066):  58%|█████▊    | 5698/9753 [1:00:52<44:37,  1.51it/s]Training 2/3 epoch (loss 0.6827):  58%|█████▊    | 5698/9753 [1:00:52<44:37,  1.51it/s]Training 2/3 epoch (loss 0.6827):  58%|█████▊    | 5699/9753 [1:00:52<42:58,  1.57it/s]Training 2/3 epoch (loss 0.5824):  58%|█████▊    | 5699/9753 [1:00:53<42:58,  1.57it/s]Training 2/3 epoch (loss 0.5824):  58%|█████▊    | 5700/9753 [1:00:53<47:07,  1.43it/s]Training 2/3 epoch (loss 0.8407):  58%|█████▊    | 5700/9753 [1:00:54<47:07,  1.43it/s]Training 2/3 epoch (loss 0.8407):  58%|█████▊    | 5701/9753 [1:00:54<44:28,  1.52it/s]Training 2/3 epoch (loss 0.8031):  58%|█████▊    | 5701/9753 [1:00:54<44:28,  1.52it/s]Training 2/3 epoch (loss 0.8031):  58%|█████▊    | 5702/9753 [1:00:54<42:44,  1.58it/s]Training 2/3 epoch (loss 0.7332):  58%|█████▊    | 5702/9753 [1:00:55<42:44,  1.58it/s]Training 2/3 epoch (loss 0.7332):  58%|█████▊    | 5703/9753 [1:00:55<48:33,  1.39it/s]Training 2/3 epoch (loss 0.8111):  58%|█████▊    | 5703/9753 [1:00:56<48:33,  1.39it/s]Training 2/3 epoch (loss 0.8111):  58%|█████▊    | 5704/9753 [1:00:56<46:22,  1.46it/s]Training 2/3 epoch (loss 0.5602):  58%|█████▊    | 5704/9753 [1:00:56<46:22,  1.46it/s]Training 2/3 epoch (loss 0.5602):  58%|█████▊    | 5705/9753 [1:00:56<46:06,  1.46it/s]Training 2/3 epoch (loss 0.6425):  58%|█████▊    | 5705/9753 [1:00:57<46:06,  1.46it/s]Training 2/3 epoch (loss 0.6425):  59%|█████▊    | 5706/9753 [1:00:57<44:59,  1.50it/s]Training 2/3 epoch (loss 0.5158):  59%|█████▊    | 5706/9753 [1:00:58<44:59,  1.50it/s]Training 2/3 epoch (loss 0.5158):  59%|█████▊    | 5707/9753 [1:00:58<43:35,  1.55it/s]Training 2/3 epoch (loss 0.5638):  59%|█████▊    | 5707/9753 [1:00:58<43:35,  1.55it/s]Training 2/3 epoch (loss 0.5638):  59%|█████▊    | 5708/9753 [1:00:58<42:16,  1.59it/s]Training 2/3 epoch (loss 0.6459):  59%|█████▊    | 5708/9753 [1:00:59<42:16,  1.59it/s]Training 2/3 epoch (loss 0.6459):  59%|█████▊    | 5709/9753 [1:00:59<41:16,  1.63it/s]Training 2/3 epoch (loss 0.6390):  59%|█████▊    | 5709/9753 [1:00:59<41:16,  1.63it/s]Training 2/3 epoch (loss 0.6390):  59%|█████▊    | 5710/9753 [1:00:59<42:42,  1.58it/s]Training 2/3 epoch (loss 0.6266):  59%|█████▊    | 5710/9753 [1:01:00<42:42,  1.58it/s]Training 2/3 epoch (loss 0.6266):  59%|█████▊    | 5711/9753 [1:01:00<42:38,  1.58it/s]Training 2/3 epoch (loss 0.7036):  59%|█████▊    | 5711/9753 [1:01:01<42:38,  1.58it/s]Training 2/3 epoch (loss 0.7036):  59%|█████▊    | 5712/9753 [1:01:01<43:55,  1.53it/s]Training 2/3 epoch (loss 0.4293):  59%|█████▊    | 5712/9753 [1:01:01<43:55,  1.53it/s]Training 2/3 epoch (loss 0.4293):  59%|█████▊    | 5713/9753 [1:01:01<42:02,  1.60it/s]Training 2/3 epoch (loss 0.8981):  59%|█████▊    | 5713/9753 [1:01:02<42:02,  1.60it/s]Training 2/3 epoch (loss 0.8981):  59%|█████▊    | 5714/9753 [1:01:02<40:32,  1.66it/s]Training 2/3 epoch (loss 0.6620):  59%|█████▊    | 5714/9753 [1:01:02<40:32,  1.66it/s]Training 2/3 epoch (loss 0.6620):  59%|█████▊    | 5715/9753 [1:01:02<39:38,  1.70it/s]Training 2/3 epoch (loss 0.6216):  59%|█████▊    | 5715/9753 [1:01:03<39:38,  1.70it/s]Training 2/3 epoch (loss 0.6216):  59%|█████▊    | 5716/9753 [1:01:03<38:50,  1.73it/s]Training 2/3 epoch (loss 0.7088):  59%|█████▊    | 5716/9753 [1:01:04<38:50,  1.73it/s]Training 2/3 epoch (loss 0.7088):  59%|█████▊    | 5717/9753 [1:01:04<39:21,  1.71it/s]Training 2/3 epoch (loss 0.5887):  59%|█████▊    | 5717/9753 [1:01:04<39:21,  1.71it/s]Training 2/3 epoch (loss 0.5887):  59%|█████▊    | 5718/9753 [1:01:04<39:21,  1.71it/s]Training 2/3 epoch (loss 0.7399):  59%|█████▊    | 5718/9753 [1:01:05<39:21,  1.71it/s]Training 2/3 epoch (loss 0.7399):  59%|█████▊    | 5719/9753 [1:01:05<39:52,  1.69it/s]Training 2/3 epoch (loss 0.6593):  59%|█████▊    | 5719/9753 [1:01:05<39:52,  1.69it/s]Training 2/3 epoch (loss 0.6593):  59%|█████▊    | 5720/9753 [1:01:05<41:40,  1.61it/s]Training 2/3 epoch (loss 0.5020):  59%|█████▊    | 5720/9753 [1:01:06<41:40,  1.61it/s]Training 2/3 epoch (loss 0.5020):  59%|█████▊    | 5721/9753 [1:01:06<40:28,  1.66it/s]Training 2/3 epoch (loss 0.6104):  59%|█████▊    | 5721/9753 [1:01:07<40:28,  1.66it/s]Training 2/3 epoch (loss 0.6104):  59%|█████▊    | 5722/9753 [1:01:07<39:49,  1.69it/s]Training 2/3 epoch (loss 0.8375):  59%|█████▊    | 5722/9753 [1:01:07<39:49,  1.69it/s]Training 2/3 epoch (loss 0.8375):  59%|█████▊    | 5723/9753 [1:01:07<41:14,  1.63it/s]Training 2/3 epoch (loss 0.7201):  59%|█████▊    | 5723/9753 [1:01:08<41:14,  1.63it/s]Training 2/3 epoch (loss 0.7201):  59%|█████▊    | 5724/9753 [1:01:08<45:16,  1.48it/s]Training 2/3 epoch (loss 0.5326):  59%|█████▊    | 5724/9753 [1:01:09<45:16,  1.48it/s]Training 2/3 epoch (loss 0.5326):  59%|█████▊    | 5725/9753 [1:01:09<45:14,  1.48it/s]Training 2/3 epoch (loss 0.8777):  59%|█████▊    | 5725/9753 [1:01:09<45:14,  1.48it/s]Training 2/3 epoch (loss 0.8777):  59%|█████▊    | 5726/9753 [1:01:09<45:19,  1.48it/s]Training 2/3 epoch (loss 0.6844):  59%|█████▊    | 5726/9753 [1:01:10<45:19,  1.48it/s]Training 2/3 epoch (loss 0.6844):  59%|█████▊    | 5727/9753 [1:01:10<44:45,  1.50it/s]Training 2/3 epoch (loss 0.4655):  59%|█████▊    | 5727/9753 [1:01:11<44:45,  1.50it/s]Training 2/3 epoch (loss 0.4655):  59%|█████▊    | 5728/9753 [1:01:11<45:31,  1.47it/s]Training 2/3 epoch (loss 0.7991):  59%|█████▊    | 5728/9753 [1:01:11<45:31,  1.47it/s]Training 2/3 epoch (loss 0.7991):  59%|█████▊    | 5729/9753 [1:01:11<42:56,  1.56it/s]Training 2/3 epoch (loss 0.7855):  59%|█████▊    | 5729/9753 [1:01:12<42:56,  1.56it/s]Training 2/3 epoch (loss 0.7855):  59%|█████▉    | 5730/9753 [1:01:12<41:07,  1.63it/s]Training 2/3 epoch (loss 0.4904):  59%|█████▉    | 5730/9753 [1:01:12<41:07,  1.63it/s]Training 2/3 epoch (loss 0.4904):  59%|█████▉    | 5731/9753 [1:01:12<39:44,  1.69it/s]Training 2/3 epoch (loss 0.7123):  59%|█████▉    | 5731/9753 [1:01:13<39:44,  1.69it/s]Training 2/3 epoch (loss 0.7123):  59%|█████▉    | 5732/9753 [1:01:13<40:23,  1.66it/s]Training 2/3 epoch (loss 1.0968):  59%|█████▉    | 5732/9753 [1:01:14<40:23,  1.66it/s]Training 2/3 epoch (loss 1.0968):  59%|█████▉    | 5733/9753 [1:01:14<41:58,  1.60it/s]Training 2/3 epoch (loss 0.3431):  59%|█████▉    | 5733/9753 [1:01:14<41:58,  1.60it/s]Training 2/3 epoch (loss 0.3431):  59%|█████▉    | 5734/9753 [1:01:14<40:50,  1.64it/s]Training 2/3 epoch (loss 0.6480):  59%|█████▉    | 5734/9753 [1:01:15<40:50,  1.64it/s]Training 2/3 epoch (loss 0.6480):  59%|█████▉    | 5735/9753 [1:01:15<39:43,  1.69it/s]Training 2/3 epoch (loss 0.6959):  59%|█████▉    | 5735/9753 [1:01:15<39:43,  1.69it/s]Training 2/3 epoch (loss 0.6959):  59%|█████▉    | 5736/9753 [1:01:15<38:48,  1.73it/s]Training 2/3 epoch (loss 0.8838):  59%|█████▉    | 5736/9753 [1:01:16<38:48,  1.73it/s]Training 2/3 epoch (loss 0.8838):  59%|█████▉    | 5737/9753 [1:01:16<38:39,  1.73it/s]Training 2/3 epoch (loss 0.4159):  59%|█████▉    | 5737/9753 [1:01:17<38:39,  1.73it/s]Training 2/3 epoch (loss 0.4159):  59%|█████▉    | 5738/9753 [1:01:17<38:27,  1.74it/s]Training 2/3 epoch (loss 0.5901):  59%|█████▉    | 5738/9753 [1:01:17<38:27,  1.74it/s]Training 2/3 epoch (loss 0.5901):  59%|█████▉    | 5739/9753 [1:01:17<37:46,  1.77it/s]Training 2/3 epoch (loss 0.7975):  59%|█████▉    | 5739/9753 [1:01:18<37:46,  1.77it/s]Training 2/3 epoch (loss 0.7975):  59%|█████▉    | 5740/9753 [1:01:18<37:29,  1.78it/s]Training 2/3 epoch (loss 0.7676):  59%|█████▉    | 5740/9753 [1:01:18<37:29,  1.78it/s]Training 2/3 epoch (loss 0.7676):  59%|█████▉    | 5741/9753 [1:01:18<39:10,  1.71it/s]Training 2/3 epoch (loss 0.7706):  59%|█████▉    | 5741/9753 [1:01:19<39:10,  1.71it/s]Training 2/3 epoch (loss 0.7706):  59%|█████▉    | 5742/9753 [1:01:19<38:53,  1.72it/s]Training 2/3 epoch (loss 0.7803):  59%|█████▉    | 5742/9753 [1:01:19<38:53,  1.72it/s]Training 2/3 epoch (loss 0.7803):  59%|█████▉    | 5743/9753 [1:01:19<38:16,  1.75it/s]Training 2/3 epoch (loss 0.7993):  59%|█████▉    | 5743/9753 [1:01:20<38:16,  1.75it/s]Training 2/3 epoch (loss 0.7993):  59%|█████▉    | 5744/9753 [1:01:20<41:52,  1.60it/s]Training 2/3 epoch (loss 0.5208):  59%|█████▉    | 5744/9753 [1:01:21<41:52,  1.60it/s]Training 2/3 epoch (loss 0.5208):  59%|█████▉    | 5745/9753 [1:01:21<40:39,  1.64it/s]Training 2/3 epoch (loss 0.6865):  59%|█████▉    | 5745/9753 [1:01:21<40:39,  1.64it/s]Training 2/3 epoch (loss 0.6865):  59%|█████▉    | 5746/9753 [1:01:21<40:08,  1.66it/s]Training 2/3 epoch (loss 0.7454):  59%|█████▉    | 5746/9753 [1:01:22<40:08,  1.66it/s]Training 2/3 epoch (loss 0.7454):  59%|█████▉    | 5747/9753 [1:01:22<44:49,  1.49it/s]Training 2/3 epoch (loss 0.7102):  59%|█████▉    | 5747/9753 [1:01:23<44:49,  1.49it/s]Training 2/3 epoch (loss 0.7102):  59%|█████▉    | 5748/9753 [1:01:23<45:12,  1.48it/s]Training 2/3 epoch (loss 0.6148):  59%|█████▉    | 5748/9753 [1:01:23<45:12,  1.48it/s]Training 2/3 epoch (loss 0.6148):  59%|█████▉    | 5749/9753 [1:01:23<42:43,  1.56it/s]Training 2/3 epoch (loss 0.5888):  59%|█████▉    | 5749/9753 [1:01:24<42:43,  1.56it/s]Training 2/3 epoch (loss 0.5888):  59%|█████▉    | 5750/9753 [1:01:24<41:21,  1.61it/s]Training 2/3 epoch (loss 0.8361):  59%|█████▉    | 5750/9753 [1:01:24<41:21,  1.61it/s]Training 2/3 epoch (loss 0.8361):  59%|█████▉    | 5751/9753 [1:01:24<40:01,  1.67it/s]Training 2/3 epoch (loss 1.0148):  59%|█████▉    | 5751/9753 [1:01:25<40:01,  1.67it/s]Training 2/3 epoch (loss 1.0148):  59%|█████▉    | 5752/9753 [1:01:25<46:06,  1.45it/s]Training 2/3 epoch (loss 0.7881):  59%|█████▉    | 5752/9753 [1:01:26<46:06,  1.45it/s]Training 2/3 epoch (loss 0.7881):  59%|█████▉    | 5753/9753 [1:01:26<43:27,  1.53it/s]Training 2/3 epoch (loss 0.7795):  59%|█████▉    | 5753/9753 [1:01:27<43:27,  1.53it/s]Training 2/3 epoch (loss 0.7795):  59%|█████▉    | 5754/9753 [1:01:27<42:00,  1.59it/s]Training 2/3 epoch (loss 0.6474):  59%|█████▉    | 5754/9753 [1:01:27<42:00,  1.59it/s]Training 2/3 epoch (loss 0.6474):  59%|█████▉    | 5755/9753 [1:01:27<40:26,  1.65it/s]Training 2/3 epoch (loss 1.0594):  59%|█████▉    | 5755/9753 [1:01:28<40:26,  1.65it/s]Training 2/3 epoch (loss 1.0594):  59%|█████▉    | 5756/9753 [1:01:28<46:07,  1.44it/s]Training 2/3 epoch (loss 0.5308):  59%|█████▉    | 5756/9753 [1:01:29<46:07,  1.44it/s]Training 2/3 epoch (loss 0.5308):  59%|█████▉    | 5757/9753 [1:01:29<43:39,  1.53it/s]Training 2/3 epoch (loss 0.4778):  59%|█████▉    | 5757/9753 [1:01:29<43:39,  1.53it/s]Training 2/3 epoch (loss 0.4778):  59%|█████▉    | 5758/9753 [1:01:29<42:29,  1.57it/s]Training 2/3 epoch (loss 0.6676):  59%|█████▉    | 5758/9753 [1:01:30<42:29,  1.57it/s]Training 2/3 epoch (loss 0.6676):  59%|█████▉    | 5759/9753 [1:01:30<40:57,  1.63it/s]Training 2/3 epoch (loss 0.7734):  59%|█████▉    | 5759/9753 [1:01:31<40:57,  1.63it/s]Training 2/3 epoch (loss 0.7734):  59%|█████▉    | 5760/9753 [1:01:31<48:18,  1.38it/s]Training 2/3 epoch (loss 0.8033):  59%|█████▉    | 5760/9753 [1:01:31<48:18,  1.38it/s]Training 2/3 epoch (loss 0.8033):  59%|█████▉    | 5761/9753 [1:01:31<45:23,  1.47it/s]Training 2/3 epoch (loss 0.7635):  59%|█████▉    | 5761/9753 [1:01:32<45:23,  1.47it/s]Training 2/3 epoch (loss 0.7635):  59%|█████▉    | 5762/9753 [1:01:32<48:47,  1.36it/s]Training 2/3 epoch (loss 0.5841):  59%|█████▉    | 5762/9753 [1:01:33<48:47,  1.36it/s]Training 2/3 epoch (loss 0.5841):  59%|█████▉    | 5763/9753 [1:01:33<45:25,  1.46it/s]Training 2/3 epoch (loss 0.9108):  59%|█████▉    | 5763/9753 [1:01:33<45:25,  1.46it/s]Training 2/3 epoch (loss 0.9108):  59%|█████▉    | 5764/9753 [1:01:33<44:53,  1.48it/s]Training 2/3 epoch (loss 0.7596):  59%|█████▉    | 5764/9753 [1:01:34<44:53,  1.48it/s]Training 2/3 epoch (loss 0.7596):  59%|█████▉    | 5765/9753 [1:01:34<42:41,  1.56it/s]Training 2/3 epoch (loss 0.9013):  59%|█████▉    | 5765/9753 [1:01:35<42:41,  1.56it/s]Training 2/3 epoch (loss 0.9013):  59%|█████▉    | 5766/9753 [1:01:35<42:54,  1.55it/s]Training 2/3 epoch (loss 0.5198):  59%|█████▉    | 5766/9753 [1:01:35<42:54,  1.55it/s]Training 2/3 epoch (loss 0.5198):  59%|█████▉    | 5767/9753 [1:01:35<41:00,  1.62it/s]Training 2/3 epoch (loss 0.7449):  59%|█████▉    | 5767/9753 [1:01:36<41:00,  1.62it/s]Training 2/3 epoch (loss 0.7449):  59%|█████▉    | 5768/9753 [1:01:36<39:43,  1.67it/s]Training 2/3 epoch (loss 0.8267):  59%|█████▉    | 5768/9753 [1:01:36<39:43,  1.67it/s]Training 2/3 epoch (loss 0.8267):  59%|█████▉    | 5769/9753 [1:01:36<41:52,  1.59it/s]Training 2/3 epoch (loss 0.7543):  59%|█████▉    | 5769/9753 [1:01:37<41:52,  1.59it/s]Training 2/3 epoch (loss 0.7543):  59%|█████▉    | 5770/9753 [1:01:37<40:46,  1.63it/s]Training 2/3 epoch (loss 0.6329):  59%|█████▉    | 5770/9753 [1:01:38<40:46,  1.63it/s]Training 2/3 epoch (loss 0.6329):  59%|█████▉    | 5771/9753 [1:01:38<42:39,  1.56it/s]Training 2/3 epoch (loss 0.8054):  59%|█████▉    | 5771/9753 [1:01:38<42:39,  1.56it/s]Training 2/3 epoch (loss 0.8054):  59%|█████▉    | 5772/9753 [1:01:38<41:28,  1.60it/s]Training 2/3 epoch (loss 0.7037):  59%|█████▉    | 5772/9753 [1:01:39<41:28,  1.60it/s]Training 2/3 epoch (loss 0.7037):  59%|█████▉    | 5773/9753 [1:01:39<40:03,  1.66it/s]Training 2/3 epoch (loss 0.7455):  59%|█████▉    | 5773/9753 [1:01:39<40:03,  1.66it/s]Training 2/3 epoch (loss 0.7455):  59%|█████▉    | 5774/9753 [1:01:39<40:59,  1.62it/s]Training 2/3 epoch (loss 0.6680):  59%|█████▉    | 5774/9753 [1:01:40<40:59,  1.62it/s]Training 2/3 epoch (loss 0.6680):  59%|█████▉    | 5775/9753 [1:01:40<40:04,  1.65it/s]Training 2/3 epoch (loss 0.7814):  59%|█████▉    | 5775/9753 [1:01:41<40:04,  1.65it/s]Training 2/3 epoch (loss 0.7814):  59%|█████▉    | 5776/9753 [1:01:41<44:20,  1.49it/s]Training 2/3 epoch (loss 0.7306):  59%|█████▉    | 5776/9753 [1:01:41<44:20,  1.49it/s]Training 2/3 epoch (loss 0.7306):  59%|█████▉    | 5777/9753 [1:01:41<42:25,  1.56it/s]Training 2/3 epoch (loss 0.8846):  59%|█████▉    | 5777/9753 [1:01:42<42:25,  1.56it/s]Training 2/3 epoch (loss 0.8846):  59%|█████▉    | 5778/9753 [1:01:42<42:13,  1.57it/s]Training 2/3 epoch (loss 0.4432):  59%|█████▉    | 5778/9753 [1:01:43<42:13,  1.57it/s]Training 2/3 epoch (loss 0.4432):  59%|█████▉    | 5779/9753 [1:01:43<43:33,  1.52it/s]Training 2/3 epoch (loss 0.6289):  59%|█████▉    | 5779/9753 [1:01:43<43:33,  1.52it/s]Training 2/3 epoch (loss 0.6289):  59%|█████▉    | 5780/9753 [1:01:43<41:34,  1.59it/s]Training 2/3 epoch (loss 0.7893):  59%|█████▉    | 5780/9753 [1:01:44<41:34,  1.59it/s]Training 2/3 epoch (loss 0.7893):  59%|█████▉    | 5781/9753 [1:01:44<40:41,  1.63it/s]Training 2/3 epoch (loss 0.7390):  59%|█████▉    | 5781/9753 [1:01:45<40:41,  1.63it/s]Training 2/3 epoch (loss 0.7390):  59%|█████▉    | 5782/9753 [1:01:45<41:19,  1.60it/s]Training 2/3 epoch (loss 0.7438):  59%|█████▉    | 5782/9753 [1:01:45<41:19,  1.60it/s]Training 2/3 epoch (loss 0.7438):  59%|█████▉    | 5783/9753 [1:01:45<41:53,  1.58it/s]Training 2/3 epoch (loss 0.7810):  59%|█████▉    | 5783/9753 [1:01:46<41:53,  1.58it/s]Training 2/3 epoch (loss 0.7810):  59%|█████▉    | 5784/9753 [1:01:46<40:25,  1.64it/s]Training 2/3 epoch (loss 0.5897):  59%|█████▉    | 5784/9753 [1:01:46<40:25,  1.64it/s]Training 2/3 epoch (loss 0.5897):  59%|█████▉    | 5785/9753 [1:01:46<42:19,  1.56it/s]Training 2/3 epoch (loss 0.9298):  59%|█████▉    | 5785/9753 [1:01:47<42:19,  1.56it/s]Training 2/3 epoch (loss 0.9298):  59%|█████▉    | 5786/9753 [1:01:47<47:43,  1.39it/s]Training 2/3 epoch (loss 0.7752):  59%|█████▉    | 5786/9753 [1:01:48<47:43,  1.39it/s]Training 2/3 epoch (loss 0.7752):  59%|█████▉    | 5787/9753 [1:01:48<44:33,  1.48it/s]Training 2/3 epoch (loss 0.7264):  59%|█████▉    | 5787/9753 [1:01:48<44:33,  1.48it/s]Training 2/3 epoch (loss 0.7264):  59%|█████▉    | 5788/9753 [1:01:48<42:10,  1.57it/s]Training 2/3 epoch (loss 0.7448):  59%|█████▉    | 5788/9753 [1:01:49<42:10,  1.57it/s]Training 2/3 epoch (loss 0.7448):  59%|█████▉    | 5789/9753 [1:01:49<40:22,  1.64it/s]Training 2/3 epoch (loss 0.7521):  59%|█████▉    | 5789/9753 [1:01:50<40:22,  1.64it/s]Training 2/3 epoch (loss 0.7521):  59%|█████▉    | 5790/9753 [1:01:50<41:23,  1.60it/s]Training 2/3 epoch (loss 0.7118):  59%|█████▉    | 5790/9753 [1:01:50<41:23,  1.60it/s]Training 2/3 epoch (loss 0.7118):  59%|█████▉    | 5791/9753 [1:01:50<39:58,  1.65it/s]Training 2/3 epoch (loss 0.6919):  59%|█████▉    | 5791/9753 [1:01:51<39:58,  1.65it/s]Training 2/3 epoch (loss 0.6919):  59%|█████▉    | 5792/9753 [1:01:51<41:32,  1.59it/s]Training 2/3 epoch (loss 0.9650):  59%|█████▉    | 5792/9753 [1:01:52<41:32,  1.59it/s]Training 2/3 epoch (loss 0.9650):  59%|█████▉    | 5793/9753 [1:01:52<42:41,  1.55it/s]Training 2/3 epoch (loss 0.6375):  59%|█████▉    | 5793/9753 [1:01:52<42:41,  1.55it/s]Training 2/3 epoch (loss 0.6375):  59%|█████▉    | 5794/9753 [1:01:52<40:55,  1.61it/s]Training 2/3 epoch (loss 0.6262):  59%|█████▉    | 5794/9753 [1:01:53<40:55,  1.61it/s]Training 2/3 epoch (loss 0.6262):  59%|█████▉    | 5795/9753 [1:01:53<39:52,  1.65it/s]Training 2/3 epoch (loss 0.6945):  59%|█████▉    | 5795/9753 [1:01:53<39:52,  1.65it/s]Training 2/3 epoch (loss 0.6945):  59%|█████▉    | 5796/9753 [1:01:53<38:47,  1.70it/s]Training 2/3 epoch (loss 0.7705):  59%|█████▉    | 5796/9753 [1:01:54<38:47,  1.70it/s]Training 2/3 epoch (loss 0.7705):  59%|█████▉    | 5797/9753 [1:01:54<38:04,  1.73it/s]Training 2/3 epoch (loss 0.8478):  59%|█████▉    | 5797/9753 [1:01:54<38:04,  1.73it/s]Training 2/3 epoch (loss 0.8478):  59%|█████▉    | 5798/9753 [1:01:54<38:48,  1.70it/s]Training 2/3 epoch (loss 0.7627):  59%|█████▉    | 5798/9753 [1:01:55<38:48,  1.70it/s]Training 2/3 epoch (loss 0.7627):  59%|█████▉    | 5799/9753 [1:01:55<39:23,  1.67it/s]Training 2/3 epoch (loss 0.3708):  59%|█████▉    | 5799/9753 [1:01:56<39:23,  1.67it/s]Training 2/3 epoch (loss 0.3708):  59%|█████▉    | 5800/9753 [1:01:56<38:27,  1.71it/s]Training 2/3 epoch (loss 0.8844):  59%|█████▉    | 5800/9753 [1:01:56<38:27,  1.71it/s]Training 2/3 epoch (loss 0.8844):  59%|█████▉    | 5801/9753 [1:01:56<39:49,  1.65it/s]Training 2/3 epoch (loss 0.7652):  59%|█████▉    | 5801/9753 [1:01:57<39:49,  1.65it/s]Training 2/3 epoch (loss 0.7652):  59%|█████▉    | 5802/9753 [1:01:57<41:35,  1.58it/s]Training 2/3 epoch (loss 0.6933):  59%|█████▉    | 5802/9753 [1:01:58<41:35,  1.58it/s]Training 2/3 epoch (loss 0.6933):  59%|█████▉    | 5803/9753 [1:01:58<42:49,  1.54it/s]Training 2/3 epoch (loss 0.9172):  59%|█████▉    | 5803/9753 [1:01:58<42:49,  1.54it/s]Training 2/3 epoch (loss 0.9172):  60%|█████▉    | 5804/9753 [1:01:58<43:54,  1.50it/s]Training 2/3 epoch (loss 1.0160):  60%|█████▉    | 5804/9753 [1:01:59<43:54,  1.50it/s]Training 2/3 epoch (loss 1.0160):  60%|█████▉    | 5805/9753 [1:01:59<42:27,  1.55it/s]Training 2/3 epoch (loss 0.6893):  60%|█████▉    | 5805/9753 [1:02:00<42:27,  1.55it/s]Training 2/3 epoch (loss 0.6893):  60%|█████▉    | 5806/9753 [1:02:00<40:39,  1.62it/s]Training 2/3 epoch (loss 0.6519):  60%|█████▉    | 5806/9753 [1:02:00<40:39,  1.62it/s]Training 2/3 epoch (loss 0.6519):  60%|█████▉    | 5807/9753 [1:02:00<43:57,  1.50it/s]Training 2/3 epoch (loss 0.7263):  60%|█████▉    | 5807/9753 [1:02:01<43:57,  1.50it/s]Training 2/3 epoch (loss 0.7263):  60%|█████▉    | 5808/9753 [1:02:01<44:28,  1.48it/s]Training 2/3 epoch (loss 0.6895):  60%|█████▉    | 5808/9753 [1:02:02<44:28,  1.48it/s]Training 2/3 epoch (loss 0.6895):  60%|█████▉    | 5809/9753 [1:02:02<42:02,  1.56it/s]Training 2/3 epoch (loss 0.7309):  60%|█████▉    | 5809/9753 [1:02:02<42:02,  1.56it/s]Training 2/3 epoch (loss 0.7309):  60%|█████▉    | 5810/9753 [1:02:02<40:15,  1.63it/s]Training 2/3 epoch (loss 0.7749):  60%|█████▉    | 5810/9753 [1:02:03<40:15,  1.63it/s]Training 2/3 epoch (loss 0.7749):  60%|█████▉    | 5811/9753 [1:02:03<39:06,  1.68it/s]Training 2/3 epoch (loss 0.5120):  60%|█████▉    | 5811/9753 [1:02:03<39:06,  1.68it/s]Training 2/3 epoch (loss 0.5120):  60%|█████▉    | 5812/9753 [1:02:03<39:05,  1.68it/s]Training 2/3 epoch (loss 0.7312):  60%|█████▉    | 5812/9753 [1:02:04<39:05,  1.68it/s]Training 2/3 epoch (loss 0.7312):  60%|█████▉    | 5813/9753 [1:02:04<38:21,  1.71it/s]Training 2/3 epoch (loss 0.5712):  60%|█████▉    | 5813/9753 [1:02:05<38:21,  1.71it/s]Training 2/3 epoch (loss 0.5712):  60%|█████▉    | 5814/9753 [1:02:05<40:47,  1.61it/s]Training 2/3 epoch (loss 0.7819):  60%|█████▉    | 5814/9753 [1:02:05<40:47,  1.61it/s]Training 2/3 epoch (loss 0.7819):  60%|█████▉    | 5815/9753 [1:02:05<39:19,  1.67it/s]Training 2/3 epoch (loss 0.5076):  60%|█████▉    | 5815/9753 [1:02:06<39:19,  1.67it/s]Training 2/3 epoch (loss 0.5076):  60%|█████▉    | 5816/9753 [1:02:06<38:20,  1.71it/s]Training 2/3 epoch (loss 0.5667):  60%|█████▉    | 5816/9753 [1:02:06<38:20,  1.71it/s]Training 2/3 epoch (loss 0.5667):  60%|█████▉    | 5817/9753 [1:02:06<40:35,  1.62it/s]Training 2/3 epoch (loss 0.9133):  60%|█████▉    | 5817/9753 [1:02:07<40:35,  1.62it/s]Training 2/3 epoch (loss 0.9133):  60%|█████▉    | 5818/9753 [1:02:07<39:11,  1.67it/s]Training 2/3 epoch (loss 0.5094):  60%|█████▉    | 5818/9753 [1:02:08<39:11,  1.67it/s]Training 2/3 epoch (loss 0.5094):  60%|█████▉    | 5819/9753 [1:02:08<42:28,  1.54it/s]Training 2/3 epoch (loss 0.6317):  60%|█████▉    | 5819/9753 [1:02:08<42:28,  1.54it/s]Training 2/3 epoch (loss 0.6317):  60%|█████▉    | 5820/9753 [1:02:08<40:46,  1.61it/s]Training 2/3 epoch (loss 0.6282):  60%|█████▉    | 5820/9753 [1:02:09<40:46,  1.61it/s]Training 2/3 epoch (loss 0.6282):  60%|█████▉    | 5821/9753 [1:02:09<39:24,  1.66it/s]Training 2/3 epoch (loss 0.6098):  60%|█████▉    | 5821/9753 [1:02:09<39:24,  1.66it/s]Training 2/3 epoch (loss 0.6098):  60%|█████▉    | 5822/9753 [1:02:09<38:30,  1.70it/s]Training 2/3 epoch (loss 0.7295):  60%|█████▉    | 5822/9753 [1:02:10<38:30,  1.70it/s]Training 2/3 epoch (loss 0.7295):  60%|█████▉    | 5823/9753 [1:02:10<37:51,  1.73it/s]Training 2/3 epoch (loss 0.6903):  60%|█████▉    | 5823/9753 [1:02:11<37:51,  1.73it/s]Training 2/3 epoch (loss 0.6903):  60%|█████▉    | 5824/9753 [1:02:11<39:55,  1.64it/s]Training 2/3 epoch (loss 0.5732):  60%|█████▉    | 5824/9753 [1:02:11<39:55,  1.64it/s]Training 2/3 epoch (loss 0.5732):  60%|█████▉    | 5825/9753 [1:02:11<40:01,  1.64it/s]Training 2/3 epoch (loss 0.9679):  60%|█████▉    | 5825/9753 [1:02:12<40:01,  1.64it/s]Training 2/3 epoch (loss 0.9679):  60%|█████▉    | 5826/9753 [1:02:12<40:56,  1.60it/s]Training 2/3 epoch (loss 0.9140):  60%|█████▉    | 5826/9753 [1:02:12<40:56,  1.60it/s]Training 2/3 epoch (loss 0.9140):  60%|█████▉    | 5827/9753 [1:02:12<40:23,  1.62it/s]Training 2/3 epoch (loss 0.7040):  60%|█████▉    | 5827/9753 [1:02:13<40:23,  1.62it/s]Training 2/3 epoch (loss 0.7040):  60%|█████▉    | 5828/9753 [1:02:13<42:22,  1.54it/s]Training 2/3 epoch (loss 0.7264):  60%|█████▉    | 5828/9753 [1:02:14<42:22,  1.54it/s]Training 2/3 epoch (loss 0.7264):  60%|█████▉    | 5829/9753 [1:02:14<41:59,  1.56it/s]Training 2/3 epoch (loss 0.5902):  60%|█████▉    | 5829/9753 [1:02:14<41:59,  1.56it/s]Training 2/3 epoch (loss 0.5902):  60%|█████▉    | 5830/9753 [1:02:14<40:31,  1.61it/s]Training 2/3 epoch (loss 0.5429):  60%|█████▉    | 5830/9753 [1:02:15<40:31,  1.61it/s]Training 2/3 epoch (loss 0.5429):  60%|█████▉    | 5831/9753 [1:02:15<40:35,  1.61it/s]Training 2/3 epoch (loss 0.8142):  60%|█████▉    | 5831/9753 [1:02:16<40:35,  1.61it/s]Training 2/3 epoch (loss 0.8142):  60%|█████▉    | 5832/9753 [1:02:16<41:54,  1.56it/s]Training 2/3 epoch (loss 0.8966):  60%|█████▉    | 5832/9753 [1:02:16<41:54,  1.56it/s]Training 2/3 epoch (loss 0.8966):  60%|█████▉    | 5833/9753 [1:02:16<42:31,  1.54it/s]Training 2/3 epoch (loss 0.7751):  60%|█████▉    | 5833/9753 [1:02:17<42:31,  1.54it/s]Training 2/3 epoch (loss 0.7751):  60%|█████▉    | 5834/9753 [1:02:17<41:56,  1.56it/s]Training 2/3 epoch (loss 0.7301):  60%|█████▉    | 5834/9753 [1:02:18<41:56,  1.56it/s]Training 2/3 epoch (loss 0.7301):  60%|█████▉    | 5835/9753 [1:02:18<41:38,  1.57it/s]Training 2/3 epoch (loss 0.7555):  60%|█████▉    | 5835/9753 [1:02:18<41:38,  1.57it/s]Training 2/3 epoch (loss 0.7555):  60%|█████▉    | 5836/9753 [1:02:18<43:46,  1.49it/s]Training 2/3 epoch (loss 0.7148):  60%|█████▉    | 5836/9753 [1:02:19<43:46,  1.49it/s]Training 2/3 epoch (loss 0.7148):  60%|█████▉    | 5837/9753 [1:02:19<42:57,  1.52it/s]Training 2/3 epoch (loss 0.6456):  60%|█████▉    | 5837/9753 [1:02:20<42:57,  1.52it/s]Training 2/3 epoch (loss 0.6456):  60%|█████▉    | 5838/9753 [1:02:20<40:58,  1.59it/s]Training 2/3 epoch (loss 0.7048):  60%|█████▉    | 5838/9753 [1:02:20<40:58,  1.59it/s]Training 2/3 epoch (loss 0.7048):  60%|█████▉    | 5839/9753 [1:02:20<40:03,  1.63it/s]Training 2/3 epoch (loss 0.6667):  60%|█████▉    | 5839/9753 [1:02:21<40:03,  1.63it/s]Training 2/3 epoch (loss 0.6667):  60%|█████▉    | 5840/9753 [1:02:21<41:35,  1.57it/s]Training 2/3 epoch (loss 0.6929):  60%|█████▉    | 5840/9753 [1:02:22<41:35,  1.57it/s]Training 2/3 epoch (loss 0.6929):  60%|█████▉    | 5841/9753 [1:02:22<43:22,  1.50it/s]Training 2/3 epoch (loss 0.9593):  60%|█████▉    | 5841/9753 [1:02:22<43:22,  1.50it/s]Training 2/3 epoch (loss 0.9593):  60%|█████▉    | 5842/9753 [1:02:22<47:13,  1.38it/s]Training 2/3 epoch (loss 0.4611):  60%|█████▉    | 5842/9753 [1:02:23<47:13,  1.38it/s]Training 2/3 epoch (loss 0.4611):  60%|█████▉    | 5843/9753 [1:02:23<44:11,  1.47it/s]Training 2/3 epoch (loss 0.9678):  60%|█████▉    | 5843/9753 [1:02:24<44:11,  1.47it/s]Training 2/3 epoch (loss 0.9678):  60%|█████▉    | 5844/9753 [1:02:24<45:29,  1.43it/s]Training 2/3 epoch (loss 0.5541):  60%|█████▉    | 5844/9753 [1:02:24<45:29,  1.43it/s]Training 2/3 epoch (loss 0.5541):  60%|█████▉    | 5845/9753 [1:02:24<42:55,  1.52it/s]Training 2/3 epoch (loss 0.7678):  60%|█████▉    | 5845/9753 [1:02:25<42:55,  1.52it/s]Training 2/3 epoch (loss 0.7678):  60%|█████▉    | 5846/9753 [1:02:25<40:47,  1.60it/s]Training 2/3 epoch (loss 0.6346):  60%|█████▉    | 5846/9753 [1:02:25<40:47,  1.60it/s]Training 2/3 epoch (loss 0.6346):  60%|█████▉    | 5847/9753 [1:02:25<40:00,  1.63it/s]Training 2/3 epoch (loss 0.8441):  60%|█████▉    | 5847/9753 [1:02:26<40:00,  1.63it/s]Training 2/3 epoch (loss 0.8441):  60%|█████▉    | 5848/9753 [1:02:26<45:12,  1.44it/s]Training 2/3 epoch (loss 0.7797):  60%|█████▉    | 5848/9753 [1:02:27<45:12,  1.44it/s]Training 2/3 epoch (loss 0.7797):  60%|█████▉    | 5849/9753 [1:02:27<42:32,  1.53it/s]Training 2/3 epoch (loss 0.6422):  60%|█████▉    | 5849/9753 [1:02:27<42:32,  1.53it/s]Training 2/3 epoch (loss 0.6422):  60%|█████▉    | 5850/9753 [1:02:27<42:16,  1.54it/s]Training 2/3 epoch (loss 0.6415):  60%|█████▉    | 5850/9753 [1:02:28<42:16,  1.54it/s]Training 2/3 epoch (loss 0.6415):  60%|█████▉    | 5851/9753 [1:02:28<42:15,  1.54it/s]Training 2/3 epoch (loss 0.6899):  60%|█████▉    | 5851/9753 [1:02:29<42:15,  1.54it/s]Training 2/3 epoch (loss 0.6899):  60%|██████    | 5852/9753 [1:02:29<41:36,  1.56it/s]Training 2/3 epoch (loss 0.3779):  60%|██████    | 5852/9753 [1:02:29<41:36,  1.56it/s]Training 2/3 epoch (loss 0.3779):  60%|██████    | 5853/9753 [1:02:29<39:58,  1.63it/s]Training 2/3 epoch (loss 0.8262):  60%|██████    | 5853/9753 [1:02:30<39:58,  1.63it/s]Training 2/3 epoch (loss 0.8262):  60%|██████    | 5854/9753 [1:02:30<44:54,  1.45it/s]Training 2/3 epoch (loss 0.8557):  60%|██████    | 5854/9753 [1:02:31<44:54,  1.45it/s]Training 2/3 epoch (loss 0.8557):  60%|██████    | 5855/9753 [1:02:31<48:54,  1.33it/s]Training 2/3 epoch (loss 0.6301):  60%|██████    | 5855/9753 [1:02:32<48:54,  1.33it/s]Training 2/3 epoch (loss 0.6301):  60%|██████    | 5856/9753 [1:02:32<47:45,  1.36it/s]Training 2/3 epoch (loss 0.6574):  60%|██████    | 5856/9753 [1:02:32<47:45,  1.36it/s]Training 2/3 epoch (loss 0.6574):  60%|██████    | 5857/9753 [1:02:32<44:16,  1.47it/s]Training 2/3 epoch (loss 0.7709):  60%|██████    | 5857/9753 [1:02:33<44:16,  1.47it/s]Training 2/3 epoch (loss 0.7709):  60%|██████    | 5858/9753 [1:02:33<41:53,  1.55it/s]Training 2/3 epoch (loss 0.6971):  60%|██████    | 5858/9753 [1:02:33<41:53,  1.55it/s]Training 2/3 epoch (loss 0.6971):  60%|██████    | 5859/9753 [1:02:33<40:07,  1.62it/s]Training 2/3 epoch (loss 0.6700):  60%|██████    | 5859/9753 [1:02:34<40:07,  1.62it/s]Training 2/3 epoch (loss 0.6700):  60%|██████    | 5860/9753 [1:02:34<38:45,  1.67it/s]Training 2/3 epoch (loss 0.8344):  60%|██████    | 5860/9753 [1:02:35<38:45,  1.67it/s]Training 2/3 epoch (loss 0.8344):  60%|██████    | 5861/9753 [1:02:35<38:55,  1.67it/s]Training 2/3 epoch (loss 0.5598):  60%|██████    | 5861/9753 [1:02:35<38:55,  1.67it/s]Training 2/3 epoch (loss 0.5598):  60%|██████    | 5862/9753 [1:02:35<37:55,  1.71it/s]Training 2/3 epoch (loss 0.6994):  60%|██████    | 5862/9753 [1:02:36<37:55,  1.71it/s]Training 2/3 epoch (loss 0.6994):  60%|██████    | 5863/9753 [1:02:36<37:41,  1.72it/s]Training 2/3 epoch (loss 0.4440):  60%|██████    | 5863/9753 [1:02:36<37:41,  1.72it/s]Training 2/3 epoch (loss 0.4440):  60%|██████    | 5864/9753 [1:02:36<37:04,  1.75it/s]Training 2/3 epoch (loss 0.6764):  60%|██████    | 5864/9753 [1:02:37<37:04,  1.75it/s]Training 2/3 epoch (loss 0.6764):  60%|██████    | 5865/9753 [1:02:37<36:40,  1.77it/s]Training 2/3 epoch (loss 0.6796):  60%|██████    | 5865/9753 [1:02:38<36:40,  1.77it/s]Training 2/3 epoch (loss 0.6796):  60%|██████    | 5866/9753 [1:02:38<43:51,  1.48it/s]Training 2/3 epoch (loss 0.8265):  60%|██████    | 5866/9753 [1:02:38<43:51,  1.48it/s]Training 2/3 epoch (loss 0.8265):  60%|██████    | 5867/9753 [1:02:38<45:01,  1.44it/s]Training 2/3 epoch (loss 0.8473):  60%|██████    | 5867/9753 [1:02:39<45:01,  1.44it/s]Training 2/3 epoch (loss 0.8473):  60%|██████    | 5868/9753 [1:02:39<42:12,  1.53it/s]Training 2/3 epoch (loss 0.5829):  60%|██████    | 5868/9753 [1:02:40<42:12,  1.53it/s]Training 2/3 epoch (loss 0.5829):  60%|██████    | 5869/9753 [1:02:40<40:30,  1.60it/s]Training 2/3 epoch (loss 0.7674):  60%|██████    | 5869/9753 [1:02:40<40:30,  1.60it/s]Training 2/3 epoch (loss 0.7674):  60%|██████    | 5870/9753 [1:02:40<40:12,  1.61it/s]Training 2/3 epoch (loss 0.7612):  60%|██████    | 5870/9753 [1:02:41<40:12,  1.61it/s]Training 2/3 epoch (loss 0.7612):  60%|██████    | 5871/9753 [1:02:41<38:43,  1.67it/s]Training 2/3 epoch (loss 0.8063):  60%|██████    | 5871/9753 [1:02:42<38:43,  1.67it/s]Training 2/3 epoch (loss 0.8063):  60%|██████    | 5872/9753 [1:02:42<43:17,  1.49it/s]Training 2/3 epoch (loss 0.6739):  60%|██████    | 5872/9753 [1:02:42<43:17,  1.49it/s]Training 2/3 epoch (loss 0.6739):  60%|██████    | 5873/9753 [1:02:42<41:25,  1.56it/s]Training 2/3 epoch (loss 0.5616):  60%|██████    | 5873/9753 [1:02:43<41:25,  1.56it/s]Training 2/3 epoch (loss 0.5616):  60%|██████    | 5874/9753 [1:02:43<39:40,  1.63it/s]Training 2/3 epoch (loss 0.7729):  60%|██████    | 5874/9753 [1:02:43<39:40,  1.63it/s]Training 2/3 epoch (loss 0.7729):  60%|██████    | 5875/9753 [1:02:43<39:07,  1.65it/s]Training 2/3 epoch (loss 0.5411):  60%|██████    | 5875/9753 [1:02:44<39:07,  1.65it/s]Training 2/3 epoch (loss 0.5411):  60%|██████    | 5876/9753 [1:02:44<38:13,  1.69it/s]Training 2/3 epoch (loss 0.6728):  60%|██████    | 5876/9753 [1:02:44<38:13,  1.69it/s]Training 2/3 epoch (loss 0.6728):  60%|██████    | 5877/9753 [1:02:44<37:21,  1.73it/s]Training 2/3 epoch (loss 1.0932):  60%|██████    | 5877/9753 [1:02:45<37:21,  1.73it/s]Training 2/3 epoch (loss 1.0932):  60%|██████    | 5878/9753 [1:02:45<37:59,  1.70it/s]Training 2/3 epoch (loss 0.7856):  60%|██████    | 5878/9753 [1:02:46<37:59,  1.70it/s]Training 2/3 epoch (loss 0.7856):  60%|██████    | 5879/9753 [1:02:46<39:55,  1.62it/s]Training 2/3 epoch (loss 0.9791):  60%|██████    | 5879/9753 [1:02:46<39:55,  1.62it/s]Training 2/3 epoch (loss 0.9791):  60%|██████    | 5880/9753 [1:02:46<40:35,  1.59it/s]Training 2/3 epoch (loss 0.7561):  60%|██████    | 5880/9753 [1:02:47<40:35,  1.59it/s]Training 2/3 epoch (loss 0.7561):  60%|██████    | 5881/9753 [1:02:47<42:02,  1.54it/s]Training 2/3 epoch (loss 0.6936):  60%|██████    | 5881/9753 [1:02:48<42:02,  1.54it/s]Training 2/3 epoch (loss 0.6936):  60%|██████    | 5882/9753 [1:02:48<40:23,  1.60it/s]Training 2/3 epoch (loss 0.7184):  60%|██████    | 5882/9753 [1:02:48<40:23,  1.60it/s]Training 2/3 epoch (loss 0.7184):  60%|██████    | 5883/9753 [1:02:48<38:53,  1.66it/s]Training 2/3 epoch (loss 0.7169):  60%|██████    | 5883/9753 [1:02:49<38:53,  1.66it/s]Training 2/3 epoch (loss 0.7169):  60%|██████    | 5884/9753 [1:02:49<37:46,  1.71it/s]Training 2/3 epoch (loss 0.7647):  60%|██████    | 5884/9753 [1:02:49<37:46,  1.71it/s]Training 2/3 epoch (loss 0.7647):  60%|██████    | 5885/9753 [1:02:49<37:03,  1.74it/s]Training 2/3 epoch (loss 0.3899):  60%|██████    | 5885/9753 [1:02:50<37:03,  1.74it/s]Training 2/3 epoch (loss 0.3899):  60%|██████    | 5886/9753 [1:02:50<39:34,  1.63it/s]Training 2/3 epoch (loss 0.7097):  60%|██████    | 5886/9753 [1:02:51<39:34,  1.63it/s]Training 2/3 epoch (loss 0.7097):  60%|██████    | 5887/9753 [1:02:51<40:17,  1.60it/s]Training 2/3 epoch (loss 0.6071):  60%|██████    | 5887/9753 [1:02:51<40:17,  1.60it/s]Training 2/3 epoch (loss 0.6071):  60%|██████    | 5888/9753 [1:02:51<41:23,  1.56it/s]Training 2/3 epoch (loss 0.7408):  60%|██████    | 5888/9753 [1:02:52<41:23,  1.56it/s]Training 2/3 epoch (loss 0.7408):  60%|██████    | 5889/9753 [1:02:52<39:37,  1.63it/s]Training 2/3 epoch (loss 0.5730):  60%|██████    | 5889/9753 [1:02:53<39:37,  1.63it/s]Training 2/3 epoch (loss 0.5730):  60%|██████    | 5890/9753 [1:02:53<40:06,  1.61it/s]Training 2/3 epoch (loss 0.5959):  60%|██████    | 5890/9753 [1:02:53<40:06,  1.61it/s]Training 2/3 epoch (loss 0.5959):  60%|██████    | 5891/9753 [1:02:53<38:57,  1.65it/s]Training 2/3 epoch (loss 0.7465):  60%|██████    | 5891/9753 [1:02:54<38:57,  1.65it/s]Training 2/3 epoch (loss 0.7465):  60%|██████    | 5892/9753 [1:02:54<41:11,  1.56it/s]Training 2/3 epoch (loss 0.6163):  60%|██████    | 5892/9753 [1:02:54<41:11,  1.56it/s]Training 2/3 epoch (loss 0.6163):  60%|██████    | 5893/9753 [1:02:54<40:10,  1.60it/s]Training 2/3 epoch (loss 0.6913):  60%|██████    | 5893/9753 [1:02:55<40:10,  1.60it/s]Training 2/3 epoch (loss 0.6913):  60%|██████    | 5894/9753 [1:02:55<38:45,  1.66it/s]Training 2/3 epoch (loss 0.7324):  60%|██████    | 5894/9753 [1:02:55<38:45,  1.66it/s]Training 2/3 epoch (loss 0.7324):  60%|██████    | 5895/9753 [1:02:55<37:55,  1.70it/s]Training 2/3 epoch (loss 0.7337):  60%|██████    | 5895/9753 [1:02:56<37:55,  1.70it/s]Training 2/3 epoch (loss 0.7337):  60%|██████    | 5896/9753 [1:02:56<39:53,  1.61it/s]Training 2/3 epoch (loss 0.8351):  60%|██████    | 5896/9753 [1:02:57<39:53,  1.61it/s]Training 2/3 epoch (loss 0.8351):  60%|██████    | 5897/9753 [1:02:57<40:32,  1.59it/s]Training 2/3 epoch (loss 0.7913):  60%|██████    | 5897/9753 [1:02:57<40:32,  1.59it/s]Training 2/3 epoch (loss 0.7913):  60%|██████    | 5898/9753 [1:02:57<38:57,  1.65it/s]Training 2/3 epoch (loss 0.8716):  60%|██████    | 5898/9753 [1:02:58<38:57,  1.65it/s]Training 2/3 epoch (loss 0.8716):  60%|██████    | 5899/9753 [1:02:58<37:52,  1.70it/s]Training 2/3 epoch (loss 0.6169):  60%|██████    | 5899/9753 [1:02:58<37:52,  1.70it/s]Training 2/3 epoch (loss 0.6169):  60%|██████    | 5900/9753 [1:02:58<37:12,  1.73it/s]Training 2/3 epoch (loss 0.7558):  60%|██████    | 5900/9753 [1:02:59<37:12,  1.73it/s]Training 2/3 epoch (loss 0.7558):  61%|██████    | 5901/9753 [1:02:59<43:07,  1.49it/s]Training 2/3 epoch (loss 0.7183):  61%|██████    | 5901/9753 [1:03:00<43:07,  1.49it/s]Training 2/3 epoch (loss 0.7183):  61%|██████    | 5902/9753 [1:03:00<41:13,  1.56it/s]Training 2/3 epoch (loss 0.8005):  61%|██████    | 5902/9753 [1:03:00<41:13,  1.56it/s]Training 2/3 epoch (loss 0.8005):  61%|██████    | 5903/9753 [1:03:00<39:20,  1.63it/s]Training 2/3 epoch (loss 0.7731):  61%|██████    | 5903/9753 [1:03:01<39:20,  1.63it/s]Training 2/3 epoch (loss 0.7731):  61%|██████    | 5904/9753 [1:03:01<44:20,  1.45it/s]Training 2/3 epoch (loss 0.5686):  61%|██████    | 5904/9753 [1:03:02<44:20,  1.45it/s]Training 2/3 epoch (loss 0.5686):  61%|██████    | 5905/9753 [1:03:02<43:12,  1.48it/s]Training 2/3 epoch (loss 0.8983):  61%|██████    | 5905/9753 [1:03:03<43:12,  1.48it/s]Training 2/3 epoch (loss 0.8983):  61%|██████    | 5906/9753 [1:03:03<47:34,  1.35it/s]Training 2/3 epoch (loss 0.7031):  61%|██████    | 5906/9753 [1:03:03<47:34,  1.35it/s]Training 2/3 epoch (loss 0.7031):  61%|██████    | 5907/9753 [1:03:03<44:10,  1.45it/s]Training 2/3 epoch (loss 0.6186):  61%|██████    | 5907/9753 [1:03:04<44:10,  1.45it/s]Training 2/3 epoch (loss 0.6186):  61%|██████    | 5908/9753 [1:03:04<41:22,  1.55it/s]Training 2/3 epoch (loss 0.6229):  61%|██████    | 5908/9753 [1:03:05<41:22,  1.55it/s]Training 2/3 epoch (loss 0.6229):  61%|██████    | 5909/9753 [1:03:05<39:21,  1.63it/s]Training 2/3 epoch (loss 0.5741):  61%|██████    | 5909/9753 [1:03:05<39:21,  1.63it/s]Training 2/3 epoch (loss 0.5741):  61%|██████    | 5910/9753 [1:03:05<38:00,  1.68it/s]Training 2/3 epoch (loss 0.9288):  61%|██████    | 5910/9753 [1:03:06<38:00,  1.68it/s]Training 2/3 epoch (loss 0.9288):  61%|██████    | 5911/9753 [1:03:06<39:38,  1.61it/s]Training 2/3 epoch (loss 0.4111):  61%|██████    | 5911/9753 [1:03:06<39:38,  1.61it/s]Training 2/3 epoch (loss 0.4111):  61%|██████    | 5912/9753 [1:03:06<39:48,  1.61it/s]Training 2/3 epoch (loss 0.5560):  61%|██████    | 5912/9753 [1:03:07<39:48,  1.61it/s]Training 2/3 epoch (loss 0.5560):  61%|██████    | 5913/9753 [1:03:07<40:42,  1.57it/s]Training 2/3 epoch (loss 0.6461):  61%|██████    | 5913/9753 [1:03:08<40:42,  1.57it/s]Training 2/3 epoch (loss 0.6461):  61%|██████    | 5914/9753 [1:03:08<40:49,  1.57it/s]Training 2/3 epoch (loss 0.9906):  61%|██████    | 5914/9753 [1:03:08<40:49,  1.57it/s]Training 2/3 epoch (loss 0.9906):  61%|██████    | 5915/9753 [1:03:08<41:00,  1.56it/s]Training 2/3 epoch (loss 0.7930):  61%|██████    | 5915/9753 [1:03:09<41:00,  1.56it/s]Training 2/3 epoch (loss 0.7930):  61%|██████    | 5916/9753 [1:03:09<41:14,  1.55it/s]Training 2/3 epoch (loss 0.5464):  61%|██████    | 5916/9753 [1:03:10<41:14,  1.55it/s]Training 2/3 epoch (loss 0.5464):  61%|██████    | 5917/9753 [1:03:10<39:21,  1.62it/s]Training 2/3 epoch (loss 0.7499):  61%|██████    | 5917/9753 [1:03:10<39:21,  1.62it/s]Training 2/3 epoch (loss 0.7499):  61%|██████    | 5918/9753 [1:03:10<38:20,  1.67it/s]Training 2/3 epoch (loss 0.8870):  61%|██████    | 5918/9753 [1:03:11<38:20,  1.67it/s]Training 2/3 epoch (loss 0.8870):  61%|██████    | 5919/9753 [1:03:11<37:25,  1.71it/s]Training 2/3 epoch (loss 0.9051):  61%|██████    | 5919/9753 [1:03:11<37:25,  1.71it/s]Training 2/3 epoch (loss 0.9051):  61%|██████    | 5920/9753 [1:03:11<39:09,  1.63it/s]Training 2/3 epoch (loss 0.6871):  61%|██████    | 5920/9753 [1:03:12<39:09,  1.63it/s]Training 2/3 epoch (loss 0.6871):  61%|██████    | 5921/9753 [1:03:12<38:30,  1.66it/s]Training 2/3 epoch (loss 0.7005):  61%|██████    | 5921/9753 [1:03:12<38:30,  1.66it/s]Training 2/3 epoch (loss 0.7005):  61%|██████    | 5922/9753 [1:03:12<37:20,  1.71it/s]Training 2/3 epoch (loss 0.6950):  61%|██████    | 5922/9753 [1:03:13<37:20,  1.71it/s]Training 2/3 epoch (loss 0.6950):  61%|██████    | 5923/9753 [1:03:13<36:37,  1.74it/s]Training 2/3 epoch (loss 0.9604):  61%|██████    | 5923/9753 [1:03:14<36:37,  1.74it/s]Training 2/3 epoch (loss 0.9604):  61%|██████    | 5924/9753 [1:03:14<36:13,  1.76it/s]Training 2/3 epoch (loss 0.8010):  61%|██████    | 5924/9753 [1:03:14<36:13,  1.76it/s]Training 2/3 epoch (loss 0.8010):  61%|██████    | 5925/9753 [1:03:14<38:06,  1.67it/s]Training 2/3 epoch (loss 0.8594):  61%|██████    | 5925/9753 [1:03:15<38:06,  1.67it/s]Training 2/3 epoch (loss 0.8594):  61%|██████    | 5926/9753 [1:03:15<40:34,  1.57it/s]Training 2/3 epoch (loss 0.9950):  61%|██████    | 5926/9753 [1:03:16<40:34,  1.57it/s]Training 2/3 epoch (loss 0.9950):  61%|██████    | 5927/9753 [1:03:16<39:06,  1.63it/s]Training 2/3 epoch (loss 0.6969):  61%|██████    | 5927/9753 [1:03:16<39:06,  1.63it/s]Training 2/3 epoch (loss 0.6969):  61%|██████    | 5928/9753 [1:03:16<37:50,  1.68it/s]Training 2/3 epoch (loss 0.7363):  61%|██████    | 5928/9753 [1:03:17<37:50,  1.68it/s]Training 2/3 epoch (loss 0.7363):  61%|██████    | 5929/9753 [1:03:17<40:02,  1.59it/s]Training 2/3 epoch (loss 0.6167):  61%|██████    | 5929/9753 [1:03:17<40:02,  1.59it/s]Training 2/3 epoch (loss 0.6167):  61%|██████    | 5930/9753 [1:03:17<41:15,  1.54it/s]Training 2/3 epoch (loss 0.5109):  61%|██████    | 5930/9753 [1:03:18<41:15,  1.54it/s]Training 2/3 epoch (loss 0.5109):  61%|██████    | 5931/9753 [1:03:18<45:51,  1.39it/s]Training 2/3 epoch (loss 0.8472):  61%|██████    | 5931/9753 [1:03:19<45:51,  1.39it/s]Training 2/3 epoch (loss 0.8472):  61%|██████    | 5932/9753 [1:03:19<43:12,  1.47it/s]Training 2/3 epoch (loss 0.6998):  61%|██████    | 5932/9753 [1:03:20<43:12,  1.47it/s]Training 2/3 epoch (loss 0.6998):  61%|██████    | 5933/9753 [1:03:20<41:31,  1.53it/s]Training 2/3 epoch (loss 0.8096):  61%|██████    | 5933/9753 [1:03:20<41:31,  1.53it/s]Training 2/3 epoch (loss 0.8096):  61%|██████    | 5934/9753 [1:03:20<46:13,  1.38it/s]Training 2/3 epoch (loss 0.5488):  61%|██████    | 5934/9753 [1:03:21<46:13,  1.38it/s]Training 2/3 epoch (loss 0.5488):  61%|██████    | 5935/9753 [1:03:21<43:29,  1.46it/s]Training 2/3 epoch (loss 0.6680):  61%|██████    | 5935/9753 [1:03:22<43:29,  1.46it/s]Training 2/3 epoch (loss 0.6680):  61%|██████    | 5936/9753 [1:03:22<43:28,  1.46it/s]Training 2/3 epoch (loss 0.7831):  61%|██████    | 5936/9753 [1:03:22<43:28,  1.46it/s]Training 2/3 epoch (loss 0.7831):  61%|██████    | 5937/9753 [1:03:22<43:33,  1.46it/s]Training 2/3 epoch (loss 0.4223):  61%|██████    | 5937/9753 [1:03:23<43:33,  1.46it/s]Training 2/3 epoch (loss 0.4223):  61%|██████    | 5938/9753 [1:03:23<41:06,  1.55it/s]Training 2/3 epoch (loss 0.7017):  61%|██████    | 5938/9753 [1:03:24<41:06,  1.55it/s]Training 2/3 epoch (loss 0.7017):  61%|██████    | 5939/9753 [1:03:24<39:21,  1.61it/s]Training 2/3 epoch (loss 0.4803):  61%|██████    | 5939/9753 [1:03:24<39:21,  1.61it/s]Training 2/3 epoch (loss 0.4803):  61%|██████    | 5940/9753 [1:03:24<37:57,  1.67it/s]Training 2/3 epoch (loss 0.7113):  61%|██████    | 5940/9753 [1:03:25<37:57,  1.67it/s]Training 2/3 epoch (loss 0.7113):  61%|██████    | 5941/9753 [1:03:25<38:33,  1.65it/s]Training 2/3 epoch (loss 0.8389):  61%|██████    | 5941/9753 [1:03:26<38:33,  1.65it/s]Training 2/3 epoch (loss 0.8389):  61%|██████    | 5942/9753 [1:03:26<44:19,  1.43it/s]Training 2/3 epoch (loss 0.6144):  61%|██████    | 5942/9753 [1:03:26<44:19,  1.43it/s]Training 2/3 epoch (loss 0.6144):  61%|██████    | 5943/9753 [1:03:26<41:44,  1.52it/s]Training 2/3 epoch (loss 0.7095):  61%|██████    | 5943/9753 [1:03:27<41:44,  1.52it/s]Training 2/3 epoch (loss 0.7095):  61%|██████    | 5944/9753 [1:03:27<39:48,  1.59it/s]Training 2/3 epoch (loss 0.6859):  61%|██████    | 5944/9753 [1:03:27<39:48,  1.59it/s]Training 2/3 epoch (loss 0.6859):  61%|██████    | 5945/9753 [1:03:27<38:17,  1.66it/s]Training 2/3 epoch (loss 0.6438):  61%|██████    | 5945/9753 [1:03:28<38:17,  1.66it/s]Training 2/3 epoch (loss 0.6438):  61%|██████    | 5946/9753 [1:03:28<38:29,  1.65it/s]Training 2/3 epoch (loss 0.5458):  61%|██████    | 5946/9753 [1:03:28<38:29,  1.65it/s]Training 2/3 epoch (loss 0.5458):  61%|██████    | 5947/9753 [1:03:28<37:44,  1.68it/s]Training 2/3 epoch (loss 0.6164):  61%|██████    | 5947/9753 [1:03:29<37:44,  1.68it/s]Training 2/3 epoch (loss 0.6164):  61%|██████    | 5948/9753 [1:03:29<36:54,  1.72it/s]Training 2/3 epoch (loss 0.6828):  61%|██████    | 5948/9753 [1:03:30<36:54,  1.72it/s]Training 2/3 epoch (loss 0.6828):  61%|██████    | 5949/9753 [1:03:30<36:25,  1.74it/s]Training 2/3 epoch (loss 0.5449):  61%|██████    | 5949/9753 [1:03:30<36:25,  1.74it/s]Training 2/3 epoch (loss 0.5449):  61%|██████    | 5950/9753 [1:03:30<36:57,  1.71it/s]Training 2/3 epoch (loss 0.7621):  61%|██████    | 5950/9753 [1:03:31<36:57,  1.71it/s]Training 2/3 epoch (loss 0.7621):  61%|██████    | 5951/9753 [1:03:31<36:27,  1.74it/s]Training 2/3 epoch (loss 0.6544):  61%|██████    | 5951/9753 [1:03:32<36:27,  1.74it/s]Training 2/3 epoch (loss 0.6544):  61%|██████    | 5952/9753 [1:03:32<41:35,  1.52it/s]Training 2/3 epoch (loss 0.6004):  61%|██████    | 5952/9753 [1:03:32<41:35,  1.52it/s]Training 2/3 epoch (loss 0.6004):  61%|██████    | 5953/9753 [1:03:32<41:49,  1.51it/s]Training 2/3 epoch (loss 0.6912):  61%|██████    | 5953/9753 [1:03:33<41:49,  1.51it/s]Training 2/3 epoch (loss 0.6912):  61%|██████    | 5954/9753 [1:03:33<40:31,  1.56it/s]Training 2/3 epoch (loss 0.8699):  61%|██████    | 5954/9753 [1:03:33<40:31,  1.56it/s]Training 2/3 epoch (loss 0.8699):  61%|██████    | 5955/9753 [1:03:33<39:04,  1.62it/s]Training 2/3 epoch (loss 0.6518):  61%|██████    | 5955/9753 [1:03:34<39:04,  1.62it/s]Training 2/3 epoch (loss 0.6518):  61%|██████    | 5956/9753 [1:03:34<38:14,  1.65it/s]Training 2/3 epoch (loss 0.4566):  61%|██████    | 5956/9753 [1:03:35<38:14,  1.65it/s]Training 2/3 epoch (loss 0.4566):  61%|██████    | 5957/9753 [1:03:35<37:29,  1.69it/s]Training 2/3 epoch (loss 0.9094):  61%|██████    | 5957/9753 [1:03:35<37:29,  1.69it/s]Training 2/3 epoch (loss 0.9094):  61%|██████    | 5958/9753 [1:03:35<38:03,  1.66it/s]Training 2/3 epoch (loss 0.6779):  61%|██████    | 5958/9753 [1:03:36<38:03,  1.66it/s]Training 2/3 epoch (loss 0.6779):  61%|██████    | 5959/9753 [1:03:36<40:27,  1.56it/s]Training 2/3 epoch (loss 0.8464):  61%|██████    | 5959/9753 [1:03:36<40:27,  1.56it/s]Training 2/3 epoch (loss 0.8464):  61%|██████    | 5960/9753 [1:03:36<39:17,  1.61it/s]Training 2/3 epoch (loss 0.7213):  61%|██████    | 5960/9753 [1:03:37<39:17,  1.61it/s]Training 2/3 epoch (loss 0.7213):  61%|██████    | 5961/9753 [1:03:37<38:40,  1.63it/s]Training 2/3 epoch (loss 0.7486):  61%|██████    | 5961/9753 [1:03:38<38:40,  1.63it/s]Training 2/3 epoch (loss 0.7486):  61%|██████    | 5962/9753 [1:03:38<39:03,  1.62it/s]Training 2/3 epoch (loss 0.5602):  61%|██████    | 5962/9753 [1:03:38<39:03,  1.62it/s]Training 2/3 epoch (loss 0.5602):  61%|██████    | 5963/9753 [1:03:38<38:02,  1.66it/s]Training 2/3 epoch (loss 0.8690):  61%|██████    | 5963/9753 [1:03:39<38:02,  1.66it/s]Training 2/3 epoch (loss 0.8690):  61%|██████    | 5964/9753 [1:03:39<43:48,  1.44it/s]Training 2/3 epoch (loss 0.8381):  61%|██████    | 5964/9753 [1:03:40<43:48,  1.44it/s]Training 2/3 epoch (loss 0.8381):  61%|██████    | 5965/9753 [1:03:40<43:05,  1.46it/s]Training 2/3 epoch (loss 0.9355):  61%|██████    | 5965/9753 [1:03:41<43:05,  1.46it/s]Training 2/3 epoch (loss 0.9355):  61%|██████    | 5966/9753 [1:03:41<45:22,  1.39it/s]Training 2/3 epoch (loss 0.9235):  61%|██████    | 5966/9753 [1:03:41<45:22,  1.39it/s]Training 2/3 epoch (loss 0.9235):  61%|██████    | 5967/9753 [1:03:41<44:27,  1.42it/s]Training 2/3 epoch (loss 0.7960):  61%|██████    | 5967/9753 [1:03:42<44:27,  1.42it/s]Training 2/3 epoch (loss 0.7960):  61%|██████    | 5968/9753 [1:03:42<44:19,  1.42it/s]Training 2/3 epoch (loss 0.4776):  61%|██████    | 5968/9753 [1:03:43<44:19,  1.42it/s]Training 2/3 epoch (loss 0.4776):  61%|██████    | 5969/9753 [1:03:43<41:34,  1.52it/s]Training 2/3 epoch (loss 0.6613):  61%|██████    | 5969/9753 [1:03:43<41:34,  1.52it/s]Training 2/3 epoch (loss 0.6613):  61%|██████    | 5970/9753 [1:03:43<40:51,  1.54it/s]Training 2/3 epoch (loss 0.8845):  61%|██████    | 5970/9753 [1:03:44<40:51,  1.54it/s]Training 2/3 epoch (loss 0.8845):  61%|██████    | 5971/9753 [1:03:44<39:50,  1.58it/s]Training 2/3 epoch (loss 0.7938):  61%|██████    | 5971/9753 [1:03:44<39:50,  1.58it/s]Training 2/3 epoch (loss 0.7938):  61%|██████    | 5972/9753 [1:03:44<38:51,  1.62it/s]Training 2/3 epoch (loss 0.5251):  61%|██████    | 5972/9753 [1:03:45<38:51,  1.62it/s]Training 2/3 epoch (loss 0.5251):  61%|██████    | 5973/9753 [1:03:45<38:01,  1.66it/s]Training 2/3 epoch (loss 0.7843):  61%|██████    | 5973/9753 [1:03:46<38:01,  1.66it/s]Training 2/3 epoch (loss 0.7843):  61%|██████▏   | 5974/9753 [1:03:46<40:08,  1.57it/s]Training 2/3 epoch (loss 0.5463):  61%|██████▏   | 5974/9753 [1:03:46<40:08,  1.57it/s]Training 2/3 epoch (loss 0.5463):  61%|██████▏   | 5975/9753 [1:03:46<39:50,  1.58it/s]Training 2/3 epoch (loss 0.7683):  61%|██████▏   | 5975/9753 [1:03:47<39:50,  1.58it/s]Training 2/3 epoch (loss 0.7683):  61%|██████▏   | 5976/9753 [1:03:47<42:17,  1.49it/s]Training 2/3 epoch (loss 0.7603):  61%|██████▏   | 5976/9753 [1:03:48<42:17,  1.49it/s]Training 2/3 epoch (loss 0.7603):  61%|██████▏   | 5977/9753 [1:03:48<41:45,  1.51it/s]Training 2/3 epoch (loss 0.7039):  61%|██████▏   | 5977/9753 [1:03:48<41:45,  1.51it/s]Training 2/3 epoch (loss 0.7039):  61%|██████▏   | 5978/9753 [1:03:48<39:59,  1.57it/s]Training 2/3 epoch (loss 0.8178):  61%|██████▏   | 5978/9753 [1:03:49<39:59,  1.57it/s]Training 2/3 epoch (loss 0.8178):  61%|██████▏   | 5979/9753 [1:03:49<38:18,  1.64it/s]Training 2/3 epoch (loss 0.7325):  61%|██████▏   | 5979/9753 [1:03:49<38:18,  1.64it/s]Training 2/3 epoch (loss 0.7325):  61%|██████▏   | 5980/9753 [1:03:49<37:07,  1.69it/s]Training 2/3 epoch (loss 0.8208):  61%|██████▏   | 5980/9753 [1:03:50<37:07,  1.69it/s]Training 2/3 epoch (loss 0.8208):  61%|██████▏   | 5981/9753 [1:03:50<36:21,  1.73it/s]Training 2/3 epoch (loss 0.5802):  61%|██████▏   | 5981/9753 [1:03:50<36:21,  1.73it/s]Training 2/3 epoch (loss 0.5802):  61%|██████▏   | 5982/9753 [1:03:50<37:04,  1.70it/s]Training 2/3 epoch (loss 0.8620):  61%|██████▏   | 5982/9753 [1:03:51<37:04,  1.70it/s]Training 2/3 epoch (loss 0.8620):  61%|██████▏   | 5983/9753 [1:03:51<36:36,  1.72it/s]Training 2/3 epoch (loss 0.6524):  61%|██████▏   | 5983/9753 [1:03:52<36:36,  1.72it/s]Training 2/3 epoch (loss 0.6524):  61%|██████▏   | 5984/9753 [1:03:52<38:17,  1.64it/s]Training 2/3 epoch (loss 0.6366):  61%|██████▏   | 5984/9753 [1:03:53<38:17,  1.64it/s]Training 2/3 epoch (loss 0.6366):  61%|██████▏   | 5985/9753 [1:03:53<41:24,  1.52it/s]Training 2/3 epoch (loss 0.7231):  61%|██████▏   | 5985/9753 [1:03:53<41:24,  1.52it/s]Training 2/3 epoch (loss 0.7231):  61%|██████▏   | 5986/9753 [1:03:53<39:33,  1.59it/s]Training 2/3 epoch (loss 0.6745):  61%|██████▏   | 5986/9753 [1:03:54<39:33,  1.59it/s]Training 2/3 epoch (loss 0.6745):  61%|██████▏   | 5987/9753 [1:03:54<38:12,  1.64it/s]Training 2/3 epoch (loss 0.8467):  61%|██████▏   | 5987/9753 [1:03:54<38:12,  1.64it/s]Training 2/3 epoch (loss 0.8467):  61%|██████▏   | 5988/9753 [1:03:54<37:07,  1.69it/s]Training 2/3 epoch (loss 0.7301):  61%|██████▏   | 5988/9753 [1:03:55<37:07,  1.69it/s]Training 2/3 epoch (loss 0.7301):  61%|██████▏   | 5989/9753 [1:03:55<38:35,  1.63it/s]Training 2/3 epoch (loss 0.6441):  61%|██████▏   | 5989/9753 [1:03:55<38:35,  1.63it/s]Training 2/3 epoch (loss 0.6441):  61%|██████▏   | 5990/9753 [1:03:55<37:28,  1.67it/s]Training 2/3 epoch (loss 0.6129):  61%|██████▏   | 5990/9753 [1:03:56<37:28,  1.67it/s]Training 2/3 epoch (loss 0.6129):  61%|██████▏   | 5991/9753 [1:03:56<36:47,  1.70it/s]Training 2/3 epoch (loss 0.5422):  61%|██████▏   | 5991/9753 [1:03:57<36:47,  1.70it/s]Training 2/3 epoch (loss 0.5422):  61%|██████▏   | 5992/9753 [1:03:57<37:18,  1.68it/s]Training 2/3 epoch (loss 0.7295):  61%|██████▏   | 5992/9753 [1:03:57<37:18,  1.68it/s]Training 2/3 epoch (loss 0.7295):  61%|██████▏   | 5993/9753 [1:03:57<39:43,  1.58it/s]Training 2/3 epoch (loss 0.6702):  61%|██████▏   | 5993/9753 [1:03:58<39:43,  1.58it/s]Training 2/3 epoch (loss 0.6702):  61%|██████▏   | 5994/9753 [1:03:58<38:46,  1.62it/s]Training 2/3 epoch (loss 0.5029):  61%|██████▏   | 5994/9753 [1:03:58<38:46,  1.62it/s]Training 2/3 epoch (loss 0.5029):  61%|██████▏   | 5995/9753 [1:03:58<37:52,  1.65it/s]Training 2/3 epoch (loss 0.8752):  61%|██████▏   | 5995/9753 [1:03:59<37:52,  1.65it/s]Training 2/3 epoch (loss 0.8752):  61%|██████▏   | 5996/9753 [1:03:59<39:34,  1.58it/s]Training 2/3 epoch (loss 0.8166):  61%|██████▏   | 5996/9753 [1:04:00<39:34,  1.58it/s]Training 2/3 epoch (loss 0.8166):  61%|██████▏   | 5997/9753 [1:04:00<38:15,  1.64it/s]Training 2/3 epoch (loss 0.4268):  61%|██████▏   | 5997/9753 [1:04:00<38:15,  1.64it/s]Training 2/3 epoch (loss 0.4268):  61%|██████▏   | 5998/9753 [1:04:00<37:10,  1.68it/s]Training 2/3 epoch (loss 0.7753):  61%|██████▏   | 5998/9753 [1:04:01<37:10,  1.68it/s]Training 2/3 epoch (loss 0.7753):  62%|██████▏   | 5999/9753 [1:04:01<37:32,  1.67it/s]Training 2/3 epoch (loss 0.8061):  62%|██████▏   | 5999/9753 [1:04:02<37:32,  1.67it/s]Training 2/3 epoch (loss 0.8061):  62%|██████▏   | 6000/9753 [1:04:02<39:07,  1.60it/s]Training 2/3 epoch (loss 0.5366):  62%|██████▏   | 6000/9753 [1:04:02<39:07,  1.60it/s]Training 2/3 epoch (loss 0.5366):  62%|██████▏   | 6001/9753 [1:04:02<37:54,  1.65it/s]Training 2/3 epoch (loss 0.6623):  62%|██████▏   | 6001/9753 [1:04:03<37:54,  1.65it/s]Training 2/3 epoch (loss 0.6623):  62%|██████▏   | 6002/9753 [1:04:03<39:36,  1.58it/s]Training 2/3 epoch (loss 0.4467):  62%|██████▏   | 6002/9753 [1:04:03<39:36,  1.58it/s]Training 2/3 epoch (loss 0.4467):  62%|██████▏   | 6003/9753 [1:04:03<37:58,  1.65it/s]Training 2/3 epoch (loss 0.6114):  62%|██████▏   | 6003/9753 [1:04:04<37:58,  1.65it/s]Training 2/3 epoch (loss 0.6114):  62%|██████▏   | 6004/9753 [1:04:04<41:39,  1.50it/s]Training 2/3 epoch (loss 0.5721):  62%|██████▏   | 6004/9753 [1:04:05<41:39,  1.50it/s]Training 2/3 epoch (loss 0.5721):  62%|██████▏   | 6005/9753 [1:04:05<39:22,  1.59it/s]Training 2/3 epoch (loss 0.7406):  62%|██████▏   | 6005/9753 [1:04:05<39:22,  1.59it/s]Training 2/3 epoch (loss 0.7406):  62%|██████▏   | 6006/9753 [1:04:05<38:01,  1.64it/s]Training 2/3 epoch (loss 0.8938):  62%|██████▏   | 6006/9753 [1:04:06<38:01,  1.64it/s]Training 2/3 epoch (loss 0.8938):  62%|██████▏   | 6007/9753 [1:04:06<37:29,  1.67it/s]Training 2/3 epoch (loss 0.7589):  62%|██████▏   | 6007/9753 [1:04:06<37:29,  1.67it/s]Training 2/3 epoch (loss 0.7589):  62%|██████▏   | 6008/9753 [1:04:06<37:08,  1.68it/s]Training 2/3 epoch (loss 0.7086):  62%|██████▏   | 6008/9753 [1:04:07<37:08,  1.68it/s]Training 2/3 epoch (loss 0.7086):  62%|██████▏   | 6009/9753 [1:04:07<36:34,  1.71it/s]Training 2/3 epoch (loss 0.4742):  62%|██████▏   | 6009/9753 [1:04:08<36:34,  1.71it/s]Training 2/3 epoch (loss 0.4742):  62%|██████▏   | 6010/9753 [1:04:08<35:56,  1.74it/s]Training 2/3 epoch (loss 0.6927):  62%|██████▏   | 6010/9753 [1:04:08<35:56,  1.74it/s]Training 2/3 epoch (loss 0.6927):  62%|██████▏   | 6011/9753 [1:04:08<36:13,  1.72it/s]Training 2/3 epoch (loss 0.7332):  62%|██████▏   | 6011/9753 [1:04:09<36:13,  1.72it/s]Training 2/3 epoch (loss 0.7332):  62%|██████▏   | 6012/9753 [1:04:09<36:54,  1.69it/s]Training 2/3 epoch (loss 0.6072):  62%|██████▏   | 6012/9753 [1:04:09<36:54,  1.69it/s]Training 2/3 epoch (loss 0.6072):  62%|██████▏   | 6013/9753 [1:04:09<36:10,  1.72it/s]Training 2/3 epoch (loss 0.7444):  62%|██████▏   | 6013/9753 [1:04:10<36:10,  1.72it/s]Training 2/3 epoch (loss 0.7444):  62%|██████▏   | 6014/9753 [1:04:10<35:31,  1.75it/s]Training 2/3 epoch (loss 0.5642):  62%|██████▏   | 6014/9753 [1:04:11<35:31,  1.75it/s]Training 2/3 epoch (loss 0.5642):  62%|██████▏   | 6015/9753 [1:04:11<37:59,  1.64it/s]Training 2/3 epoch (loss 0.4304):  62%|██████▏   | 6015/9753 [1:04:11<37:59,  1.64it/s]Training 2/3 epoch (loss 0.4304):  62%|██████▏   | 6016/9753 [1:04:11<42:23,  1.47it/s]Training 2/3 epoch (loss 0.8425):  62%|██████▏   | 6016/9753 [1:04:12<42:23,  1.47it/s]Training 2/3 epoch (loss 0.8425):  62%|██████▏   | 6017/9753 [1:04:12<40:01,  1.56it/s]Training 2/3 epoch (loss 0.6469):  62%|██████▏   | 6017/9753 [1:04:13<40:01,  1.56it/s]Training 2/3 epoch (loss 0.6469):  62%|██████▏   | 6018/9753 [1:04:13<40:20,  1.54it/s]Training 2/3 epoch (loss 0.6428):  62%|██████▏   | 6018/9753 [1:04:13<40:20,  1.54it/s]Training 2/3 epoch (loss 0.6428):  62%|██████▏   | 6019/9753 [1:04:13<38:58,  1.60it/s]Training 2/3 epoch (loss 0.5558):  62%|██████▏   | 6019/9753 [1:04:14<38:58,  1.60it/s]Training 2/3 epoch (loss 0.5558):  62%|██████▏   | 6020/9753 [1:04:14<37:29,  1.66it/s]Training 2/3 epoch (loss 0.7341):  62%|██████▏   | 6020/9753 [1:04:15<37:29,  1.66it/s]Training 2/3 epoch (loss 0.7341):  62%|██████▏   | 6021/9753 [1:04:15<40:06,  1.55it/s]Training 2/3 epoch (loss 0.7196):  62%|██████▏   | 6021/9753 [1:04:15<40:06,  1.55it/s]Training 2/3 epoch (loss 0.7196):  62%|██████▏   | 6022/9753 [1:04:15<40:16,  1.54it/s]Training 2/3 epoch (loss 0.7383):  62%|██████▏   | 6022/9753 [1:04:16<40:16,  1.54it/s]Training 2/3 epoch (loss 0.7383):  62%|██████▏   | 6023/9753 [1:04:16<44:55,  1.38it/s]Training 2/3 epoch (loss 0.6694):  62%|██████▏   | 6023/9753 [1:04:17<44:55,  1.38it/s]Training 2/3 epoch (loss 0.6694):  62%|██████▏   | 6024/9753 [1:04:17<42:44,  1.45it/s]Training 2/3 epoch (loss 0.5863):  62%|██████▏   | 6024/9753 [1:04:17<42:44,  1.45it/s]Training 2/3 epoch (loss 0.5863):  62%|██████▏   | 6025/9753 [1:04:17<40:27,  1.54it/s]Training 2/3 epoch (loss 0.7290):  62%|██████▏   | 6025/9753 [1:04:18<40:27,  1.54it/s]Training 2/3 epoch (loss 0.7290):  62%|██████▏   | 6026/9753 [1:04:18<38:34,  1.61it/s]Training 2/3 epoch (loss 0.5952):  62%|██████▏   | 6026/9753 [1:04:18<38:34,  1.61it/s]Training 2/3 epoch (loss 0.5952):  62%|██████▏   | 6027/9753 [1:04:18<37:08,  1.67it/s]Training 2/3 epoch (loss 0.7288):  62%|██████▏   | 6027/9753 [1:04:19<37:08,  1.67it/s]Training 2/3 epoch (loss 0.7288):  62%|██████▏   | 6028/9753 [1:04:19<36:21,  1.71it/s]Training 2/3 epoch (loss 0.7083):  62%|██████▏   | 6028/9753 [1:04:20<36:21,  1.71it/s]Training 2/3 epoch (loss 0.7083):  62%|██████▏   | 6029/9753 [1:04:20<37:57,  1.64it/s]Training 2/3 epoch (loss 0.6416):  62%|██████▏   | 6029/9753 [1:04:20<37:57,  1.64it/s]Training 2/3 epoch (loss 0.6416):  62%|██████▏   | 6030/9753 [1:04:20<38:52,  1.60it/s]Training 2/3 epoch (loss 0.7230):  62%|██████▏   | 6030/9753 [1:04:21<38:52,  1.60it/s]Training 2/3 epoch (loss 0.7230):  62%|██████▏   | 6031/9753 [1:04:21<37:33,  1.65it/s]Training 2/3 epoch (loss 0.8024):  62%|██████▏   | 6031/9753 [1:04:22<37:33,  1.65it/s]Training 2/3 epoch (loss 0.8024):  62%|██████▏   | 6032/9753 [1:04:22<40:02,  1.55it/s]Training 2/3 epoch (loss 0.8317):  62%|██████▏   | 6032/9753 [1:04:22<40:02,  1.55it/s]Training 2/3 epoch (loss 0.8317):  62%|██████▏   | 6033/9753 [1:04:22<38:43,  1.60it/s]Training 2/3 epoch (loss 0.7789):  62%|██████▏   | 6033/9753 [1:04:23<38:43,  1.60it/s]Training 2/3 epoch (loss 0.7789):  62%|██████▏   | 6034/9753 [1:04:23<37:24,  1.66it/s]Training 2/3 epoch (loss 0.7734):  62%|██████▏   | 6034/9753 [1:04:23<37:24,  1.66it/s]Training 2/3 epoch (loss 0.7734):  62%|██████▏   | 6035/9753 [1:04:23<37:14,  1.66it/s]Training 2/3 epoch (loss 0.8546):  62%|██████▏   | 6035/9753 [1:04:24<37:14,  1.66it/s]Training 2/3 epoch (loss 0.8546):  62%|██████▏   | 6036/9753 [1:04:24<37:19,  1.66it/s]Training 2/3 epoch (loss 0.6566):  62%|██████▏   | 6036/9753 [1:04:24<37:19,  1.66it/s]Training 2/3 epoch (loss 0.6566):  62%|██████▏   | 6037/9753 [1:04:24<37:50,  1.64it/s]Training 2/3 epoch (loss 0.6925):  62%|██████▏   | 6037/9753 [1:04:25<37:50,  1.64it/s]Training 2/3 epoch (loss 0.6925):  62%|██████▏   | 6038/9753 [1:04:25<39:45,  1.56it/s]Training 2/3 epoch (loss 0.8261):  62%|██████▏   | 6038/9753 [1:04:26<39:45,  1.56it/s]Training 2/3 epoch (loss 0.8261):  62%|██████▏   | 6039/9753 [1:04:26<41:47,  1.48it/s]Training 2/3 epoch (loss 0.6612):  62%|██████▏   | 6039/9753 [1:04:26<41:47,  1.48it/s]Training 2/3 epoch (loss 0.6612):  62%|��█████▏   | 6040/9753 [1:04:26<39:21,  1.57it/s]Training 2/3 epoch (loss 0.7592):  62%|██████▏   | 6040/9753 [1:04:27<39:21,  1.57it/s]Training 2/3 epoch (loss 0.7592):  62%|██████▏   | 6041/9753 [1:04:27<44:04,  1.40it/s]Training 2/3 epoch (loss 1.0598):  62%|██████▏   | 6041/9753 [1:04:28<44:04,  1.40it/s]Training 2/3 epoch (loss 1.0598):  62%|██████▏   | 6042/9753 [1:04:28<44:31,  1.39it/s]Training 2/3 epoch (loss 0.4982):  62%|██████▏   | 6042/9753 [1:04:29<44:31,  1.39it/s]Training 2/3 epoch (loss 0.4982):  62%|██████▏   | 6043/9753 [1:04:29<41:48,  1.48it/s]Training 2/3 epoch (loss 0.8039):  62%|██████▏   | 6043/9753 [1:04:30<41:48,  1.48it/s]Training 2/3 epoch (loss 0.8039):  62%|██████▏   | 6044/9753 [1:04:30<46:00,  1.34it/s]Training 2/3 epoch (loss 0.7436):  62%|██████▏   | 6044/9753 [1:04:30<46:00,  1.34it/s]Training 2/3 epoch (loss 0.7436):  62%|██████▏   | 6045/9753 [1:04:30<43:14,  1.43it/s]Training 2/3 epoch (loss 0.7899):  62%|██████▏   | 6045/9753 [1:04:31<43:14,  1.43it/s]Training 2/3 epoch (loss 0.7899):  62%|██████▏   | 6046/9753 [1:04:31<40:37,  1.52it/s]Training 2/3 epoch (loss 0.6193):  62%|██████▏   | 6046/9753 [1:04:31<40:37,  1.52it/s]Training 2/3 epoch (loss 0.6193):  62%|██████▏   | 6047/9753 [1:04:31<38:55,  1.59it/s]Training 2/3 epoch (loss 0.8316):  62%|██████▏   | 6047/9753 [1:04:32<38:55,  1.59it/s]Training 2/3 epoch (loss 0.8316):  62%|██████▏   | 6048/9753 [1:04:32<39:59,  1.54it/s]Training 2/3 epoch (loss 0.7397):  62%|██████▏   | 6048/9753 [1:04:33<39:59,  1.54it/s]Training 2/3 epoch (loss 0.7397):  62%|██████▏   | 6049/9753 [1:04:33<39:33,  1.56it/s]Training 2/3 epoch (loss 0.9813):  62%|██████▏   | 6049/9753 [1:04:33<39:33,  1.56it/s]Training 2/3 epoch (loss 0.9813):  62%|██████▏   | 6050/9753 [1:04:33<41:12,  1.50it/s]Training 2/3 epoch (loss 0.7026):  62%|██████▏   | 6050/9753 [1:04:34<41:12,  1.50it/s]Training 2/3 epoch (loss 0.7026):  62%|██████▏   | 6051/9753 [1:04:34<39:02,  1.58it/s]Training 2/3 epoch (loss 0.8865):  62%|██████▏   | 6051/9753 [1:04:35<39:02,  1.58it/s]Training 2/3 epoch (loss 0.8865):  62%|██████▏   | 6052/9753 [1:04:35<38:47,  1.59it/s]Training 2/3 epoch (loss 0.5804):  62%|██████▏   | 6052/9753 [1:04:35<38:47,  1.59it/s]Training 2/3 epoch (loss 0.5804):  62%|██████▏   | 6053/9753 [1:04:35<39:17,  1.57it/s]Training 2/3 epoch (loss 0.9059):  62%|██████▏   | 6053/9753 [1:04:36<39:17,  1.57it/s]Training 2/3 epoch (loss 0.9059):  62%|██████▏   | 6054/9753 [1:04:36<38:28,  1.60it/s]Training 2/3 epoch (loss 0.8048):  62%|██████▏   | 6054/9753 [1:04:36<38:28,  1.60it/s]Training 2/3 epoch (loss 0.8048):  62%|██████▏   | 6055/9753 [1:04:36<40:08,  1.54it/s]Training 2/3 epoch (loss 0.6775):  62%|██████▏   | 6055/9753 [1:04:37<40:08,  1.54it/s]Training 2/3 epoch (loss 0.6775):  62%|██████▏   | 6056/9753 [1:04:37<38:28,  1.60it/s]Training 2/3 epoch (loss 0.6589):  62%|██████▏   | 6056/9753 [1:04:38<38:28,  1.60it/s]Training 2/3 epoch (loss 0.6589):  62%|██████▏   | 6057/9753 [1:04:38<37:20,  1.65it/s]Training 2/3 epoch (loss 0.7111):  62%|██████▏   | 6057/9753 [1:04:38<37:20,  1.65it/s]Training 2/3 epoch (loss 0.7111):  62%|██████▏   | 6058/9753 [1:04:38<36:45,  1.68it/s]Training 2/3 epoch (loss 0.8091):  62%|██████▏   | 6058/9753 [1:04:39<36:45,  1.68it/s]Training 2/3 epoch (loss 0.8091):  62%|██████▏   | 6059/9753 [1:04:39<39:14,  1.57it/s]Training 2/3 epoch (loss 0.9235):  62%|██████▏   | 6059/9753 [1:04:39<39:14,  1.57it/s]Training 2/3 epoch (loss 0.9235):  62%|██████▏   | 6060/9753 [1:04:39<38:06,  1.61it/s]Training 2/3 epoch (loss 0.8525):  62%|██████▏   | 6060/9753 [1:04:40<38:06,  1.61it/s]Training 2/3 epoch (loss 0.8525):  62%|██████▏   | 6061/9753 [1:04:40<37:09,  1.66it/s]Training 2/3 epoch (loss 0.4689):  62%|██████▏   | 6061/9753 [1:04:41<37:09,  1.66it/s]Training 2/3 epoch (loss 0.4689):  62%|██████▏   | 6062/9753 [1:04:41<42:56,  1.43it/s]Training 2/3 epoch (loss 0.8448):  62%|██████▏   | 6062/9753 [1:04:42<42:56,  1.43it/s]Training 2/3 epoch (loss 0.8448):  62%|██████▏   | 6063/9753 [1:04:42<43:48,  1.40it/s]Training 2/3 epoch (loss 0.5985):  62%|██████▏   | 6063/9753 [1:04:42<43:48,  1.40it/s]Training 2/3 epoch (loss 0.5985):  62%|██████▏   | 6064/9753 [1:04:42<43:43,  1.41it/s]Training 2/3 epoch (loss 0.7248):  62%|██████▏   | 6064/9753 [1:04:43<43:43,  1.41it/s]Training 2/3 epoch (loss 0.7248):  62%|██████▏   | 6065/9753 [1:04:43<41:02,  1.50it/s]Training 2/3 epoch (loss 0.8437):  62%|██████▏   | 6065/9753 [1:04:44<41:02,  1.50it/s]Training 2/3 epoch (loss 0.8437):  62%|██████▏   | 6066/9753 [1:04:44<39:05,  1.57it/s]Training 2/3 epoch (loss 1.0194):  62%|██████▏   | 6066/9753 [1:04:44<39:05,  1.57it/s]Training 2/3 epoch (loss 1.0194):  62%|██████▏   | 6067/9753 [1:04:44<39:56,  1.54it/s]Training 2/3 epoch (loss 0.7813):  62%|██████▏   | 6067/9753 [1:04:45<39:56,  1.54it/s]Training 2/3 epoch (loss 0.7813):  62%|██████▏   | 6068/9753 [1:04:45<39:42,  1.55it/s]Training 2/3 epoch (loss 0.5487):  62%|██████▏   | 6068/9753 [1:04:45<39:42,  1.55it/s]Training 2/3 epoch (loss 0.5487):  62%|██████▏   | 6069/9753 [1:04:45<37:53,  1.62it/s]Training 2/3 epoch (loss 0.6698):  62%|██████▏   | 6069/9753 [1:04:46<37:53,  1.62it/s]Training 2/3 epoch (loss 0.6698):  62%|██████▏   | 6070/9753 [1:04:46<36:50,  1.67it/s]Training 2/3 epoch (loss 0.8078):  62%|██████▏   | 6070/9753 [1:04:47<36:50,  1.67it/s]Training 2/3 epoch (loss 0.8078):  62%|██████▏   | 6071/9753 [1:04:47<36:02,  1.70it/s]Training 2/3 epoch (loss 0.7726):  62%|██████▏   | 6071/9753 [1:04:47<36:02,  1.70it/s]Training 2/3 epoch (loss 0.7726):  62%|██████▏   | 6072/9753 [1:04:47<35:23,  1.73it/s]Training 2/3 epoch (loss 0.6426):  62%|██████▏   | 6072/9753 [1:04:48<35:23,  1.73it/s]Training 2/3 epoch (loss 0.6426):  62%|██████▏   | 6073/9753 [1:04:48<35:01,  1.75it/s]Training 2/3 epoch (loss 0.8783):  62%|██████▏   | 6073/9753 [1:04:48<35:01,  1.75it/s]Training 2/3 epoch (loss 0.8783):  62%|██████▏   | 6074/9753 [1:04:48<36:50,  1.66it/s]Training 2/3 epoch (loss 0.7902):  62%|██████▏   | 6074/9753 [1:04:49<36:50,  1.66it/s]Training 2/3 epoch (loss 0.7902):  62%|██████▏   | 6075/9753 [1:04:49<39:55,  1.54it/s]Training 2/3 epoch (loss 0.5567):  62%|██████▏   | 6075/9753 [1:04:50<39:55,  1.54it/s]Training 2/3 epoch (loss 0.5567):  62%|██████▏   | 6076/9753 [1:04:50<38:06,  1.61it/s]Training 2/3 epoch (loss 0.6704):  62%|██████▏   | 6076/9753 [1:04:50<38:06,  1.61it/s]Training 2/3 epoch (loss 0.6704):  62%|██████▏   | 6077/9753 [1:04:50<36:42,  1.67it/s]Training 2/3 epoch (loss 0.5612):  62%|██████▏   | 6077/9753 [1:04:51<36:42,  1.67it/s]Training 2/3 epoch (loss 0.5612):  62%|██████▏   | 6078/9753 [1:04:51<35:43,  1.71it/s]Training 2/3 epoch (loss 0.6430):  62%|██████▏   | 6078/9753 [1:04:51<35:43,  1.71it/s]Training 2/3 epoch (loss 0.6430):  62%|██████▏   | 6079/9753 [1:04:51<35:02,  1.75it/s]Training 2/3 epoch (loss 0.8648):  62%|██████▏   | 6079/9753 [1:04:52<35:02,  1.75it/s]Training 2/3 epoch (loss 0.8648):  62%|██████▏   | 6080/9753 [1:04:52<37:09,  1.65it/s]Training 2/3 epoch (loss 0.6899):  62%|██████▏   | 6080/9753 [1:04:53<37:09,  1.65it/s]Training 2/3 epoch (loss 0.6899):  62%|██████▏   | 6081/9753 [1:04:53<36:37,  1.67it/s]Training 2/3 epoch (loss 0.8286):  62%|██████▏   | 6081/9753 [1:04:53<36:37,  1.67it/s]Training 2/3 epoch (loss 0.8286):  62%|██████▏   | 6082/9753 [1:04:53<38:09,  1.60it/s]Training 2/3 epoch (loss 0.5323):  62%|██████▏   | 6082/9753 [1:04:54<38:09,  1.60it/s]Training 2/3 epoch (loss 0.5323):  62%|██████▏   | 6083/9753 [1:04:54<37:02,  1.65it/s]Training 2/3 epoch (loss 0.6626):  62%|██████▏   | 6083/9753 [1:04:54<37:02,  1.65it/s]Training 2/3 epoch (loss 0.6626):  62%|██████▏   | 6084/9753 [1:04:54<37:27,  1.63it/s]Training 2/3 epoch (loss 0.8226):  62%|██████▏   | 6084/9753 [1:04:55<37:27,  1.63it/s]Training 2/3 epoch (loss 0.8226):  62%|██████▏   | 6085/9753 [1:04:55<36:55,  1.66it/s]Training 2/3 epoch (loss 0.6188):  62%|██████▏   | 6085/9753 [1:04:56<36:55,  1.66it/s]Training 2/3 epoch (loss 0.6188):  62%|██████▏   | 6086/9753 [1:04:56<40:51,  1.50it/s]Training 2/3 epoch (loss 0.5094):  62%|██████▏   | 6086/9753 [1:04:57<40:51,  1.50it/s]Training 2/3 epoch (loss 0.5094):  62%|██████▏   | 6087/9753 [1:04:57<42:12,  1.45it/s]Training 2/3 epoch (loss 0.5815):  62%|██████▏   | 6087/9753 [1:04:57<42:12,  1.45it/s]Training 2/3 epoch (loss 0.5815):  62%|██████▏   | 6088/9753 [1:04:57<40:05,  1.52it/s]Training 2/3 epoch (loss 0.7304):  62%|██████▏   | 6088/9753 [1:04:58<40:05,  1.52it/s]Training 2/3 epoch (loss 0.7304):  62%|██████▏   | 6089/9753 [1:04:58<38:19,  1.59it/s]Training 2/3 epoch (loss 0.5235):  62%|██████▏   | 6089/9753 [1:04:58<38:19,  1.59it/s]Training 2/3 epoch (loss 0.5235):  62%|██████▏   | 6090/9753 [1:04:58<37:00,  1.65it/s]Training 2/3 epoch (loss 0.5605):  62%|██████▏   | 6090/9753 [1:04:59<37:00,  1.65it/s]Training 2/3 epoch (loss 0.5605):  62%|██████▏   | 6091/9753 [1:04:59<36:23,  1.68it/s]Training 2/3 epoch (loss 0.8083):  62%|██████▏   | 6091/9753 [1:04:59<36:23,  1.68it/s]Training 2/3 epoch (loss 0.8083):  62%|██████▏   | 6092/9753 [1:04:59<35:42,  1.71it/s]Training 2/3 epoch (loss 0.7309):  62%|██████▏   | 6092/9753 [1:05:00<35:42,  1.71it/s]Training 2/3 epoch (loss 0.7309):  62%|██████▏   | 6093/9753 [1:05:00<37:25,  1.63it/s]Training 2/3 epoch (loss 0.6839):  62%|██████▏   | 6093/9753 [1:05:01<37:25,  1.63it/s]Training 2/3 epoch (loss 0.6839):  62%|██████▏   | 6094/9753 [1:05:01<36:14,  1.68it/s]Training 2/3 epoch (loss 0.6725):  62%|██████▏   | 6094/9753 [1:05:01<36:14,  1.68it/s]Training 2/3 epoch (loss 0.6725):  62%|██████▏   | 6095/9753 [1:05:01<35:52,  1.70it/s]Training 2/3 epoch (loss 0.6741):  62%|██████▏   | 6095/9753 [1:05:02<35:52,  1.70it/s]Training 2/3 epoch (loss 0.6741):  63%|██████▎   | 6096/9753 [1:05:02<37:40,  1.62it/s]Training 2/3 epoch (loss 0.8430):  63%|██████▎   | 6096/9753 [1:05:02<37:40,  1.62it/s]Training 2/3 epoch (loss 0.8430):  63%|██████▎   | 6097/9753 [1:05:02<36:40,  1.66it/s]Training 2/3 epoch (loss 0.8461):  63%|██████▎   | 6097/9753 [1:05:03<36:40,  1.66it/s]Training 2/3 epoch (loss 0.8461):  63%|██████▎   | 6098/9753 [1:05:03<35:51,  1.70it/s]Training 2/3 epoch (loss 0.7514):  63%|██████▎   | 6098/9753 [1:05:04<35:51,  1.70it/s]Training 2/3 epoch (loss 0.7514):  63%|██████▎   | 6099/9753 [1:05:04<35:06,  1.73it/s]Training 2/3 epoch (loss 0.4438):  63%|██████▎   | 6099/9753 [1:05:04<35:06,  1.73it/s]Training 2/3 epoch (loss 0.4438):  63%|██████▎   | 6100/9753 [1:05:04<34:26,  1.77it/s]Training 2/3 epoch (loss 0.7927):  63%|██████▎   | 6100/9753 [1:05:05<34:26,  1.77it/s]Training 2/3 epoch (loss 0.7927):  63%|██████▎   | 6101/9753 [1:05:05<37:24,  1.63it/s]Training 2/3 epoch (loss 0.7066):  63%|██████▎   | 6101/9753 [1:05:05<37:24,  1.63it/s]Training 2/3 epoch (loss 0.7066):  63%|██████▎   | 6102/9753 [1:05:05<36:08,  1.68it/s]Training 2/3 epoch (loss 0.7431):  63%|██████▎   | 6102/9753 [1:05:06<36:08,  1.68it/s]Training 2/3 epoch (loss 0.7431):  63%|██████▎   | 6103/9753 [1:05:06<36:19,  1.67it/s]Training 2/3 epoch (loss 0.6670):  63%|██████▎   | 6103/9753 [1:05:07<36:19,  1.67it/s]Training 2/3 epoch (loss 0.6670):  63%|██████▎   | 6104/9753 [1:05:07<42:06,  1.44it/s]Training 2/3 epoch (loss 0.5705):  63%|██████▎   | 6104/9753 [1:05:07<42:06,  1.44it/s]Training 2/3 epoch (loss 0.5705):  63%|██████▎   | 6105/9753 [1:05:07<39:20,  1.55it/s]Training 2/3 epoch (loss 0.7251):  63%|██████▎   | 6105/9753 [1:05:08<39:20,  1.55it/s]Training 2/3 epoch (loss 0.7251):  63%|██████▎   | 6106/9753 [1:05:08<37:28,  1.62it/s]Training 2/3 epoch (loss 0.7295):  63%|██████▎   | 6106/9753 [1:05:09<37:28,  1.62it/s]Training 2/3 epoch (loss 0.7295):  63%|██████▎   | 6107/9753 [1:05:09<38:48,  1.57it/s]Training 2/3 epoch (loss 0.7031):  63%|██████▎   | 6107/9753 [1:05:09<38:48,  1.57it/s]Training 2/3 epoch (loss 0.7031):  63%|██████▎   | 6108/9753 [1:05:09<37:00,  1.64it/s]Training 2/3 epoch (loss 0.7529):  63%|██████▎   | 6108/9753 [1:05:10<37:00,  1.64it/s]Training 2/3 epoch (loss 0.7529):  63%|██████▎   | 6109/9753 [1:05:10<35:57,  1.69it/s]Training 2/3 epoch (loss 0.6257):  63%|██████▎   | 6109/9753 [1:05:10<35:57,  1.69it/s]Training 2/3 epoch (loss 0.6257):  63%|██████▎   | 6110/9753 [1:05:10<35:14,  1.72it/s]Training 2/3 epoch (loss 0.8693):  63%|██████▎   | 6110/9753 [1:05:11<35:14,  1.72it/s]Training 2/3 epoch (loss 0.8693):  63%|██████▎   | 6111/9753 [1:05:11<35:15,  1.72it/s]Training 2/3 epoch (loss 0.9463):  63%|██████▎   | 6111/9753 [1:05:12<35:15,  1.72it/s]Training 2/3 epoch (loss 0.9463):  63%|██████▎   | 6112/9753 [1:05:12<38:41,  1.57it/s]Training 2/3 epoch (loss 0.7135):  63%|██████▎   | 6112/9753 [1:05:12<38:41,  1.57it/s]Training 2/3 epoch (loss 0.7135):  63%|██████▎   | 6113/9753 [1:05:12<37:32,  1.62it/s]Training 2/3 epoch (loss 0.6590):  63%|██████▎   | 6113/9753 [1:05:13<37:32,  1.62it/s]Training 2/3 epoch (loss 0.6590):  63%|██████▎   | 6114/9753 [1:05:13<36:11,  1.68it/s]Training 2/3 epoch (loss 0.5945):  63%|██████▎   | 6114/9753 [1:05:13<36:11,  1.68it/s]Training 2/3 epoch (loss 0.5945):  63%|██████▎   | 6115/9753 [1:05:13<35:22,  1.71it/s]Training 2/3 epoch (loss 0.6795):  63%|██████▎   | 6115/9753 [1:05:14<35:22,  1.71it/s]Training 2/3 epoch (loss 0.6795):  63%|██████▎   | 6116/9753 [1:05:14<34:33,  1.75it/s]Training 2/3 epoch (loss 0.4356):  63%|██████▎   | 6116/9753 [1:05:14<34:33,  1.75it/s]Training 2/3 epoch (loss 0.4356):  63%|██████▎   | 6117/9753 [1:05:14<34:05,  1.78it/s]Training 2/3 epoch (loss 0.6148):  63%|██████▎   | 6117/9753 [1:05:15<34:05,  1.78it/s]Training 2/3 epoch (loss 0.6148):  63%|██████▎   | 6118/9753 [1:05:15<33:37,  1.80it/s]Training 2/3 epoch (loss 0.4155):  63%|██████▎   | 6118/9753 [1:05:16<33:37,  1.80it/s]Training 2/3 epoch (loss 0.4155):  63%|██████▎   | 6119/9753 [1:05:16<33:18,  1.82it/s]Training 2/3 epoch (loss 0.6076):  63%|██████▎   | 6119/9753 [1:05:16<33:18,  1.82it/s]Training 2/3 epoch (loss 0.6076):  63%|██████▎   | 6120/9753 [1:05:16<33:08,  1.83it/s]Training 2/3 epoch (loss 0.9555):  63%|██████▎   | 6120/9753 [1:05:17<33:08,  1.83it/s]Training 2/3 epoch (loss 0.9555):  63%|██████▎   | 6121/9753 [1:05:17<33:05,  1.83it/s]Training 2/3 epoch (loss 1.0086):  63%|██████▎   | 6121/9753 [1:05:17<33:05,  1.83it/s]Training 2/3 epoch (loss 1.0086):  63%|██████▎   | 6122/9753 [1:05:17<33:23,  1.81it/s]Training 2/3 epoch (loss 0.9213):  63%|██████▎   | 6122/9753 [1:05:18<33:23,  1.81it/s]Training 2/3 epoch (loss 0.9213):  63%|██████▎   | 6123/9753 [1:05:18<38:12,  1.58it/s]Training 2/3 epoch (loss 0.8101):  63%|██████▎   | 6123/9753 [1:05:19<38:12,  1.58it/s]Training 2/3 epoch (loss 0.8101):  63%|██████▎   | 6124/9753 [1:05:19<38:17,  1.58it/s]Training 2/3 epoch (loss 0.7227):  63%|██████▎   | 6124/9753 [1:05:19<38:17,  1.58it/s]Training 2/3 epoch (loss 0.7227):  63%|██████▎   | 6125/9753 [1:05:19<38:12,  1.58it/s]Training 2/3 epoch (loss 0.3944):  63%|██████▎   | 6125/9753 [1:05:20<38:12,  1.58it/s]Training 2/3 epoch (loss 0.3944):  63%|██████▎   | 6126/9753 [1:05:20<36:55,  1.64it/s]Training 2/3 epoch (loss 0.8876):  63%|██████▎   | 6126/9753 [1:05:21<36:55,  1.64it/s]Training 2/3 epoch (loss 0.8876):  63%|██████▎   | 6127/9753 [1:05:21<38:36,  1.57it/s]Training 2/3 epoch (loss 0.5908):  63%|██████▎   | 6127/9753 [1:05:21<38:36,  1.57it/s]Training 2/3 epoch (loss 0.5908):  63%|██████▎   | 6128/9753 [1:05:21<40:34,  1.49it/s]Training 2/3 epoch (loss 0.5969):  63%|██████▎   | 6128/9753 [1:05:22<40:34,  1.49it/s]Training 2/3 epoch (loss 0.5969):  63%|██████▎   | 6129/9753 [1:05:22<40:24,  1.49it/s]Training 2/3 epoch (loss 0.7163):  63%|██████▎   | 6129/9753 [1:05:23<40:24,  1.49it/s]Training 2/3 epoch (loss 0.7163):  63%|██████▎   | 6130/9753 [1:05:23<43:44,  1.38it/s]Training 2/3 epoch (loss 0.6255):  63%|██████▎   | 6130/9753 [1:05:23<43:44,  1.38it/s]Training 2/3 epoch (loss 0.6255):  63%|██████▎   | 6131/9753 [1:05:23<40:54,  1.48it/s]Training 2/3 epoch (loss 0.5176):  63%|██████▎   | 6131/9753 [1:05:24<40:54,  1.48it/s]Training 2/3 epoch (loss 0.5176):  63%|██████▎   | 6132/9753 [1:05:24<39:50,  1.51it/s]Training 2/3 epoch (loss 0.7443):  63%|██████▎   | 6132/9753 [1:05:25<39:50,  1.51it/s]Training 2/3 epoch (loss 0.7443):  63%|██████▎   | 6133/9753 [1:05:25<39:10,  1.54it/s]Training 2/3 epoch (loss 0.6548):  63%|██████▎   | 6133/9753 [1:05:25<39:10,  1.54it/s]Training 2/3 epoch (loss 0.6548):  63%|██████▎   | 6134/9753 [1:05:25<38:21,  1.57it/s]Training 2/3 epoch (loss 0.6637):  63%|██████▎   | 6134/9753 [1:05:26<38:21,  1.57it/s]Training 2/3 epoch (loss 0.6637):  63%|██████▎   | 6135/9753 [1:05:26<37:20,  1.61it/s]Training 2/3 epoch (loss 0.7659):  63%|██████▎   | 6135/9753 [1:05:26<37:20,  1.61it/s]Training 2/3 epoch (loss 0.7659):  63%|██████▎   | 6136/9753 [1:05:26<36:19,  1.66it/s]Training 2/3 epoch (loss 0.6743):  63%|██████▎   | 6136/9753 [1:05:27<36:19,  1.66it/s]Training 2/3 epoch (loss 0.6743):  63%|██████▎   | 6137/9753 [1:05:27<35:41,  1.69it/s]Training 2/3 epoch (loss 0.8009):  63%|██████▎   | 6137/9753 [1:05:28<35:41,  1.69it/s]Training 2/3 epoch (loss 0.8009):  63%|██████▎   | 6138/9753 [1:05:28<37:03,  1.63it/s]Training 2/3 epoch (loss 1.0233):  63%|██████▎   | 6138/9753 [1:05:28<37:03,  1.63it/s]Training 2/3 epoch (loss 1.0233):  63%|██████▎   | 6139/9753 [1:05:28<39:07,  1.54it/s]Training 2/3 epoch (loss 0.6852):  63%|██████▎   | 6139/9753 [1:05:29<39:07,  1.54it/s]Training 2/3 epoch (loss 0.6852):  63%|██████▎   | 6140/9753 [1:05:29<38:00,  1.58it/s]Training 2/3 epoch (loss 0.6285):  63%|██████▎   | 6140/9753 [1:05:29<38:00,  1.58it/s]Training 2/3 epoch (loss 0.6285):  63%|██████▎   | 6141/9753 [1:05:29<36:28,  1.65it/s]Training 2/3 epoch (loss 0.9082):  63%|██████▎   | 6141/9753 [1:05:30<36:28,  1.65it/s]Training 2/3 epoch (loss 0.9082):  63%|██████▎   | 6142/9753 [1:05:30<37:22,  1.61it/s]Training 2/3 epoch (loss 0.8428):  63%|██████▎   | 6142/9753 [1:05:31<37:22,  1.61it/s]Training 2/3 epoch (loss 0.8428):  63%|██████▎   | 6143/9753 [1:05:31<37:12,  1.62it/s]Training 2/3 epoch (loss 0.4423):  63%|██████▎   | 6143/9753 [1:05:31<37:12,  1.62it/s]Training 2/3 epoch (loss 0.4423):  63%|██████▎   | 6144/9753 [1:05:31<38:59,  1.54it/s]Training 2/3 epoch (loss 0.7493):  63%|██████▎   | 6144/9753 [1:05:32<38:59,  1.54it/s]Training 2/3 epoch (loss 0.7493):  63%|██████▎   | 6145/9753 [1:05:32<43:50,  1.37it/s]Training 2/3 epoch (loss 0.7326):  63%|██████▎   | 6145/9753 [1:05:33<43:50,  1.37it/s]Training 2/3 epoch (loss 0.7326):  63%|██████▎   | 6146/9753 [1:05:33<40:47,  1.47it/s]Training 2/3 epoch (loss 0.6458):  63%|██████▎   | 6146/9753 [1:05:33<40:47,  1.47it/s]Training 2/3 epoch (loss 0.6458):  63%|██████▎   | 6147/9753 [1:05:33<38:26,  1.56it/s]Training 2/3 epoch (loss 0.8586):  63%|██████▎   | 6147/9753 [1:05:34<38:26,  1.56it/s]Training 2/3 epoch (loss 0.8586):  63%|██████▎   | 6148/9753 [1:05:34<36:39,  1.64it/s]Training 2/3 epoch (loss 0.7284):  63%|██████▎   | 6148/9753 [1:05:35<36:39,  1.64it/s]Training 2/3 epoch (loss 0.7284):  63%|██████▎   | 6149/9753 [1:05:35<35:33,  1.69it/s]Training 2/3 epoch (loss 0.9096):  63%|██████▎   | 6149/9753 [1:05:35<35:33,  1.69it/s]Training 2/3 epoch (loss 0.9096):  63%|██████▎   | 6150/9753 [1:05:35<36:35,  1.64it/s]Training 2/3 epoch (loss 0.6783):  63%|██████▎   | 6150/9753 [1:05:36<36:35,  1.64it/s]Training 2/3 epoch (loss 0.6783):  63%|██████▎   | 6151/9753 [1:05:36<36:57,  1.62it/s]Training 2/3 epoch (loss 0.7619):  63%|██████▎   | 6151/9753 [1:05:37<36:57,  1.62it/s]Training 2/3 epoch (loss 0.7619):  63%|██████▎   | 6152/9753 [1:05:37<41:14,  1.46it/s]Training 2/3 epoch (loss 0.7805):  63%|██████▎   | 6152/9753 [1:05:37<41:14,  1.46it/s]Training 2/3 epoch (loss 0.7805):  63%|██████▎   | 6153/9753 [1:05:37<38:53,  1.54it/s]Training 2/3 epoch (loss 0.5903):  63%|██████▎   | 6153/9753 [1:05:38<38:53,  1.54it/s]Training 2/3 epoch (loss 0.5903):  63%|██████▎   | 6154/9753 [1:05:38<38:08,  1.57it/s]Training 2/3 epoch (loss 0.9486):  63%|██████▎   | 6154/9753 [1:05:39<38:08,  1.57it/s]Training 2/3 epoch (loss 0.9486):  63%|██████▎   | 6155/9753 [1:05:39<40:25,  1.48it/s]Training 2/3 epoch (loss 0.6594):  63%|██████▎   | 6155/9753 [1:05:39<40:25,  1.48it/s]Training 2/3 epoch (loss 0.6594):  63%|██████▎   | 6156/9753 [1:05:39<38:15,  1.57it/s]Training 2/3 epoch (loss 0.7397):  63%|██████▎   | 6156/9753 [1:05:40<38:15,  1.57it/s]Training 2/3 epoch (loss 0.7397):  63%|██████▎   | 6157/9753 [1:05:40<36:30,  1.64it/s]Training 2/3 epoch (loss 0.8619):  63%|██████▎   | 6157/9753 [1:05:41<36:30,  1.64it/s]Training 2/3 epoch (loss 0.8619):  63%|██████▎   | 6158/9753 [1:05:41<41:58,  1.43it/s]Training 2/3 epoch (loss 0.3277):  63%|██████▎   | 6158/9753 [1:05:41<41:58,  1.43it/s]Training 2/3 epoch (loss 0.3277):  63%|██████▎   | 6159/9753 [1:05:41<39:19,  1.52it/s]Training 2/3 epoch (loss 0.7412):  63%|██████▎   | 6159/9753 [1:05:42<39:19,  1.52it/s]Training 2/3 epoch (loss 0.7412):  63%|██████▎   | 6160/9753 [1:05:42<39:53,  1.50it/s]Training 2/3 epoch (loss 0.9914):  63%|██████▎   | 6160/9753 [1:05:43<39:53,  1.50it/s]Training 2/3 epoch (loss 0.9914):  63%|██████▎   | 6161/9753 [1:05:43<44:12,  1.35it/s]Training 2/3 epoch (loss 0.7654):  63%|██████▎   | 6161/9753 [1:05:44<44:12,  1.35it/s]Training 2/3 epoch (loss 0.7654):  63%|██████▎   | 6162/9753 [1:05:44<49:20,  1.21it/s]Training 2/3 epoch (loss 0.7837):  63%|██████▎   | 6162/9753 [1:05:44<49:20,  1.21it/s]Training 2/3 epoch (loss 0.7837):  63%|██████▎   | 6163/9753 [1:05:44<44:49,  1.33it/s]Training 2/3 epoch (loss 0.7912):  63%|██████▎   | 6163/9753 [1:05:45<44:49,  1.33it/s]Training 2/3 epoch (loss 0.7912):  63%|██████▎   | 6164/9753 [1:05:45<43:43,  1.37it/s]Training 2/3 epoch (loss 0.5583):  63%|██████▎   | 6164/9753 [1:05:46<43:43,  1.37it/s]Training 2/3 epoch (loss 0.5583):  63%|██████▎   | 6165/9753 [1:05:46<41:11,  1.45it/s]Training 2/3 epoch (loss 0.6966):  63%|██████▎   | 6165/9753 [1:05:46<41:11,  1.45it/s]Training 2/3 epoch (loss 0.6966):  63%|██████▎   | 6166/9753 [1:05:46<38:40,  1.55it/s]Training 2/3 epoch (loss 0.5893):  63%|██████▎   | 6166/9753 [1:05:47<38:40,  1.55it/s]Training 2/3 epoch (loss 0.5893):  63%|██████▎   | 6167/9753 [1:05:47<37:11,  1.61it/s]Training 2/3 epoch (loss 0.9215):  63%|██████▎   | 6167/9753 [1:05:47<37:11,  1.61it/s]Training 2/3 epoch (loss 0.9215):  63%|██████▎   | 6168/9753 [1:05:47<37:10,  1.61it/s]Training 2/3 epoch (loss 0.8058):  63%|██████▎   | 6168/9753 [1:05:48<37:10,  1.61it/s]Training 2/3 epoch (loss 0.8058):  63%|██████▎   | 6169/9753 [1:05:48<35:57,  1.66it/s]Training 2/3 epoch (loss 0.5668):  63%|██████▎   | 6169/9753 [1:05:48<35:57,  1.66it/s]Training 2/3 epoch (loss 0.5668):  63%|██████▎   | 6170/9753 [1:05:48<35:08,  1.70it/s]Training 2/3 epoch (loss 0.5803):  63%|██████▎   | 6170/9753 [1:05:49<35:08,  1.70it/s]Training 2/3 epoch (loss 0.5803):  63%|██████▎   | 6171/9753 [1:05:49<37:08,  1.61it/s]Training 2/3 epoch (loss 0.9173):  63%|██████▎   | 6171/9753 [1:05:50<37:08,  1.61it/s]Training 2/3 epoch (loss 0.9173):  63%|██████▎   | 6172/9753 [1:05:50<36:26,  1.64it/s]Training 2/3 epoch (loss 0.6777):  63%|██████▎   | 6172/9753 [1:05:50<36:26,  1.64it/s]Training 2/3 epoch (loss 0.6777):  63%|██████▎   | 6173/9753 [1:05:50<36:56,  1.62it/s]Training 2/3 epoch (loss 0.6734):  63%|██████▎   | 6173/9753 [1:05:51<36:56,  1.62it/s]Training 2/3 epoch (loss 0.6734):  63%|██████▎   | 6174/9753 [1:05:51<36:22,  1.64it/s]Training 2/3 epoch (loss 0.7306):  63%|██████▎   | 6174/9753 [1:05:52<36:22,  1.64it/s]Training 2/3 epoch (loss 0.7306):  63%|██████▎   | 6175/9753 [1:05:52<36:00,  1.66it/s]Training 2/3 epoch (loss 0.5293):  63%|██████▎   | 6175/9753 [1:05:52<36:00,  1.66it/s]Training 2/3 epoch (loss 0.5293):  63%|██████▎   | 6176/9753 [1:05:52<37:34,  1.59it/s]Training 2/3 epoch (loss 0.7450):  63%|██████▎   | 6176/9753 [1:05:53<37:34,  1.59it/s]Training 2/3 epoch (loss 0.7450):  63%|██████▎   | 6177/9753 [1:05:53<37:28,  1.59it/s]Training 2/3 epoch (loss 0.7836):  63%|██████▎   | 6177/9753 [1:05:54<37:28,  1.59it/s]Training 2/3 epoch (loss 0.7836):  63%|██████▎   | 6178/9753 [1:05:54<39:32,  1.51it/s]Training 2/3 epoch (loss 0.5977):  63%|██████▎   | 6178/9753 [1:05:54<39:32,  1.51it/s]Training 2/3 epoch (loss 0.5977):  63%|██████▎   | 6179/9753 [1:05:54<37:45,  1.58it/s]Training 2/3 epoch (loss 0.5904):  63%|██████▎   | 6179/9753 [1:05:55<37:45,  1.58it/s]Training 2/3 epoch (loss 0.5904):  63%|██████▎   | 6180/9753 [1:05:55<37:32,  1.59it/s]Training 2/3 epoch (loss 1.0088):  63%|██████▎   | 6180/9753 [1:05:56<37:32,  1.59it/s]Training 2/3 epoch (loss 1.0088):  63%|██████▎   | 6181/9753 [1:05:56<38:12,  1.56it/s]Training 2/3 epoch (loss 0.8564):  63%|██████▎   | 6181/9753 [1:05:56<38:12,  1.56it/s]Training 2/3 epoch (loss 0.8564):  63%|██████▎   | 6182/9753 [1:05:56<37:13,  1.60it/s]Training 2/3 epoch (loss 0.6112):  63%|██████▎   | 6182/9753 [1:05:57<37:13,  1.60it/s]Training 2/3 epoch (loss 0.6112):  63%|██████▎   | 6183/9753 [1:05:57<36:42,  1.62it/s]Training 2/3 epoch (loss 0.8071):  63%|██████▎   | 6183/9753 [1:05:57<36:42,  1.62it/s]Training 2/3 epoch (loss 0.8071):  63%|██████▎   | 6184/9753 [1:05:57<35:50,  1.66it/s]Training 2/3 epoch (loss 0.9147):  63%|██████▎   | 6184/9753 [1:05:58<35:50,  1.66it/s]Training 2/3 epoch (loss 0.9147):  63%|██████▎   | 6185/9753 [1:05:58<37:21,  1.59it/s]Training 2/3 epoch (loss 0.6555):  63%|██████▎   | 6185/9753 [1:05:59<37:21,  1.59it/s]Training 2/3 epoch (loss 0.6555):  63%|██████▎   | 6186/9753 [1:05:59<41:05,  1.45it/s]Training 2/3 epoch (loss 0.7572):  63%|██████▎   | 6186/9753 [1:06:00<41:05,  1.45it/s]Training 2/3 epoch (loss 0.7572):  63%|██████▎   | 6187/9753 [1:06:00<41:39,  1.43it/s]Training 2/3 epoch (loss 0.6893):  63%|██████▎   | 6187/9753 [1:06:00<41:39,  1.43it/s]Training 2/3 epoch (loss 0.6893):  63%|██████▎   | 6188/9753 [1:06:00<40:29,  1.47it/s]Training 2/3 epoch (loss 0.9526):  63%|██████▎   | 6188/9753 [1:06:01<40:29,  1.47it/s]Training 2/3 epoch (loss 0.9526):  63%|██████▎   | 6189/9753 [1:06:01<38:43,  1.53it/s]Training 2/3 epoch (loss 0.8536):  63%|██████▎   | 6189/9753 [1:06:01<38:43,  1.53it/s]Training 2/3 epoch (loss 0.8536):  63%|██████▎   | 6190/9753 [1:06:01<36:56,  1.61it/s]Training 2/3 epoch (loss 0.5886):  63%|██████��   | 6190/9753 [1:06:02<36:56,  1.61it/s]Training 2/3 epoch (loss 0.5886):  63%|██████▎   | 6191/9753 [1:06:02<38:27,  1.54it/s]Training 2/3 epoch (loss 0.9054):  63%|██████▎   | 6191/9753 [1:06:03<38:27,  1.54it/s]Training 2/3 epoch (loss 0.9054):  63%|██████▎   | 6192/9753 [1:06:03<39:22,  1.51it/s]Training 2/3 epoch (loss 0.7974):  63%|██████▎   | 6192/9753 [1:06:03<39:22,  1.51it/s]Training 2/3 epoch (loss 0.7974):  63%|██████▎   | 6193/9753 [1:06:03<38:11,  1.55it/s]Training 2/3 epoch (loss 0.7283):  63%|██████▎   | 6193/9753 [1:06:04<38:11,  1.55it/s]Training 2/3 epoch (loss 0.7283):  64%|██████▎   | 6194/9753 [1:06:04<36:52,  1.61it/s]Training 2/3 epoch (loss 0.6244):  64%|██████▎   | 6194/9753 [1:06:04<36:52,  1.61it/s]Training 2/3 epoch (loss 0.6244):  64%|██████▎   | 6195/9753 [1:06:04<35:38,  1.66it/s]Training 2/3 epoch (loss 0.7004):  64%|██████▎   | 6195/9753 [1:06:05<35:38,  1.66it/s]Training 2/3 epoch (loss 0.7004):  64%|██████▎   | 6196/9753 [1:06:05<38:16,  1.55it/s]Training 2/3 epoch (loss 0.6462):  64%|██████▎   | 6196/9753 [1:06:06<38:16,  1.55it/s]Training 2/3 epoch (loss 0.6462):  64%|██████▎   | 6197/9753 [1:06:06<43:05,  1.38it/s]Training 2/3 epoch (loss 0.6819):  64%|██████▎   | 6197/9753 [1:06:07<43:05,  1.38it/s]Training 2/3 epoch (loss 0.6819):  64%|██████▎   | 6198/9753 [1:06:07<41:16,  1.44it/s]Training 2/3 epoch (loss 0.6838):  64%|██████▎   | 6198/9753 [1:06:07<41:16,  1.44it/s]Training 2/3 epoch (loss 0.6838):  64%|██████▎   | 6199/9753 [1:06:07<38:38,  1.53it/s]Training 2/3 epoch (loss 0.7345):  64%|██████▎   | 6199/9753 [1:06:08<38:38,  1.53it/s]Training 2/3 epoch (loss 0.7345):  64%|██████▎   | 6200/9753 [1:06:08<36:44,  1.61it/s]Training 2/3 epoch (loss 0.7069):  64%|██████▎   | 6200/9753 [1:06:09<36:44,  1.61it/s]Training 2/3 epoch (loss 0.7069):  64%|██████▎   | 6201/9753 [1:06:09<38:27,  1.54it/s]Training 2/3 epoch (loss 0.6491):  64%|██████▎   | 6201/9753 [1:06:09<38:27,  1.54it/s]Training 2/3 epoch (loss 0.6491):  64%|██████▎   | 6202/9753 [1:06:09<36:39,  1.61it/s]Training 2/3 epoch (loss 0.8251):  64%|██████▎   | 6202/9753 [1:06:10<36:39,  1.61it/s]Training 2/3 epoch (loss 0.8251):  64%|██████▎   | 6203/9753 [1:06:10<36:12,  1.63it/s]Training 2/3 epoch (loss 0.4802):  64%|██████▎   | 6203/9753 [1:06:10<36:12,  1.63it/s]Training 2/3 epoch (loss 0.4802):  64%|██████▎   | 6204/9753 [1:06:10<36:11,  1.63it/s]Training 2/3 epoch (loss 0.6261):  64%|██████▎   | 6204/9753 [1:06:11<36:11,  1.63it/s]Training 2/3 epoch (loss 0.6261):  64%|██████▎   | 6205/9753 [1:06:11<37:32,  1.57it/s]Training 2/3 epoch (loss 0.6416):  64%|██████▎   | 6205/9753 [1:06:12<37:32,  1.57it/s]Training 2/3 epoch (loss 0.6416):  64%|██████▎   | 6206/9753 [1:06:12<36:01,  1.64it/s]Training 2/3 epoch (loss 0.7233):  64%|██████▎   | 6206/9753 [1:06:12<36:01,  1.64it/s]Training 2/3 epoch (loss 0.7233):  64%|██████▎   | 6207/9753 [1:06:12<35:24,  1.67it/s]Training 2/3 epoch (loss 0.6552):  64%|██████▎   | 6207/9753 [1:06:13<35:24,  1.67it/s]Training 2/3 epoch (loss 0.6552):  64%|██████▎   | 6208/9753 [1:06:13<36:49,  1.60it/s]Training 2/3 epoch (loss 0.5102):  64%|██████▎   | 6208/9753 [1:06:13<36:49,  1.60it/s]Training 2/3 epoch (loss 0.5102):  64%|██████▎   | 6209/9753 [1:06:13<35:34,  1.66it/s]Training 2/3 epoch (loss 0.8190):  64%|██████▎   | 6209/9753 [1:06:14<35:34,  1.66it/s]Training 2/3 epoch (loss 0.8190):  64%|██████▎   | 6210/9753 [1:06:14<35:58,  1.64it/s]Training 2/3 epoch (loss 0.6179):  64%|██████▎   | 6210/9753 [1:06:15<35:58,  1.64it/s]Training 2/3 epoch (loss 0.6179):  64%|██████▎   | 6211/9753 [1:06:15<35:21,  1.67it/s]Training 2/3 epoch (loss 0.7985):  64%|██████▎   | 6211/9753 [1:06:15<35:21,  1.67it/s]Training 2/3 epoch (loss 0.7985):  64%|██████▎   | 6212/9753 [1:06:15<35:25,  1.67it/s]Training 2/3 epoch (loss 0.6877):  64%|██████▎   | 6212/9753 [1:06:16<35:25,  1.67it/s]Training 2/3 epoch (loss 0.6877):  64%|██████▎   | 6213/9753 [1:06:16<34:40,  1.70it/s]Training 2/3 epoch (loss 0.5733):  64%|██████▎   | 6213/9753 [1:06:16<34:40,  1.70it/s]Training 2/3 epoch (loss 0.5733):  64%|██████▎   | 6214/9753 [1:06:16<34:08,  1.73it/s]Training 2/3 epoch (loss 0.5821):  64%|██████▎   | 6214/9753 [1:06:17<34:08,  1.73it/s]Training 2/3 epoch (loss 0.5821):  64%|██████▎   | 6215/9753 [1:06:17<33:36,  1.75it/s]Training 2/3 epoch (loss 0.7256):  64%|██████▎   | 6215/9753 [1:06:17<33:36,  1.75it/s]Training 2/3 epoch (loss 0.7256):  64%|██████▎   | 6216/9753 [1:06:17<33:13,  1.77it/s]Training 2/3 epoch (loss 0.6065):  64%|██████▎   | 6216/9753 [1:06:18<33:13,  1.77it/s]Training 2/3 epoch (loss 0.6065):  64%|██████▎   | 6217/9753 [1:06:18<33:00,  1.79it/s]Training 2/3 epoch (loss 0.4912):  64%|██████▎   | 6217/9753 [1:06:18<33:00,  1.79it/s]Training 2/3 epoch (loss 0.4912):  64%|██████▍   | 6218/9753 [1:06:18<33:09,  1.78it/s]Training 2/3 epoch (loss 0.6354):  64%|██████▍   | 6218/9753 [1:06:19<33:09,  1.78it/s]Training 2/3 epoch (loss 0.6354):  64%|██████▍   | 6219/9753 [1:06:19<33:26,  1.76it/s]Training 2/3 epoch (loss 0.7543):  64%|██████▍   | 6219/9753 [1:06:20<33:26,  1.76it/s]Training 2/3 epoch (loss 0.7543):  64%|██████▍   | 6220/9753 [1:06:20<33:03,  1.78it/s]Training 2/3 epoch (loss 0.7412):  64%|██████▍   | 6220/9753 [1:06:20<33:03,  1.78it/s]Training 2/3 epoch (loss 0.7412):  64%|██████▍   | 6221/9753 [1:06:20<34:32,  1.70it/s]Training 2/3 epoch (loss 0.6452):  64%|██████▍   | 6221/9753 [1:06:21<34:32,  1.70it/s]Training 2/3 epoch (loss 0.6452):  64%|██████▍   | 6222/9753 [1:06:21<34:07,  1.72it/s]Training 2/3 epoch (loss 0.6874):  64%|██████▍   | 6222/9753 [1:06:21<34:07,  1.72it/s]Training 2/3 epoch (loss 0.6874):  64%|██████▍   | 6223/9753 [1:06:21<34:15,  1.72it/s]Training 2/3 epoch (loss 0.8264):  64%|██████▍   | 6223/9753 [1:06:22<34:15,  1.72it/s]Training 2/3 epoch (loss 0.8264):  64%|██████▍   | 6224/9753 [1:06:22<42:28,  1.38it/s]Training 2/3 epoch (loss 0.4495):  64%|██████▍   | 6224/9753 [1:06:23<42:28,  1.38it/s]Training 2/3 epoch (loss 0.4495):  64%|██████▍   | 6225/9753 [1:06:23<42:11,  1.39it/s]Training 2/3 epoch (loss 0.6572):  64%|██████▍   | 6225/9753 [1:06:24<42:11,  1.39it/s]Training 2/3 epoch (loss 0.6572):  64%|██████▍   | 6226/9753 [1:06:24<40:01,  1.47it/s]Training 2/3 epoch (loss 0.5469):  64%|██████▍   | 6226/9753 [1:06:24<40:01,  1.47it/s]Training 2/3 epoch (loss 0.5469):  64%|██████▍   | 6227/9753 [1:06:24<38:14,  1.54it/s]Training 2/3 epoch (loss 0.6538):  64%|██████▍   | 6227/9753 [1:06:25<38:14,  1.54it/s]Training 2/3 epoch (loss 0.6538):  64%|██████▍   | 6228/9753 [1:06:25<36:24,  1.61it/s]Training 2/3 epoch (loss 0.7865):  64%|██████▍   | 6228/9753 [1:06:25<36:24,  1.61it/s]Training 2/3 epoch (loss 0.7865):  64%|██████▍   | 6229/9753 [1:06:25<35:48,  1.64it/s]Training 2/3 epoch (loss 0.5496):  64%|██████▍   | 6229/9753 [1:06:26<35:48,  1.64it/s]Training 2/3 epoch (loss 0.5496):  64%|██████▍   | 6230/9753 [1:06:26<35:13,  1.67it/s]Training 2/3 epoch (loss 0.7821):  64%|██████▍   | 6230/9753 [1:06:27<35:13,  1.67it/s]Training 2/3 epoch (loss 0.7821):  64%|██████▍   | 6231/9753 [1:06:27<34:21,  1.71it/s]Training 2/3 epoch (loss 0.6891):  64%|██████▍   | 6231/9753 [1:06:27<34:21,  1.71it/s]Training 2/3 epoch (loss 0.6891):  64%|██████▍   | 6232/9753 [1:06:27<33:40,  1.74it/s]Training 2/3 epoch (loss 0.7838):  64%|██████▍   | 6232/9753 [1:06:28<33:40,  1.74it/s]Training 2/3 epoch (loss 0.7838):  64%|██████▍   | 6233/9753 [1:06:28<33:10,  1.77it/s]Training 2/3 epoch (loss 0.5992):  64%|██████▍   | 6233/9753 [1:06:28<33:10,  1.77it/s]Training 2/3 epoch (loss 0.5992):  64%|██████▍   | 6234/9753 [1:06:28<32:53,  1.78it/s]Training 2/3 epoch (loss 0.7108):  64%|██████▍   | 6234/9753 [1:06:29<32:53,  1.78it/s]Training 2/3 epoch (loss 0.7108):  64%|██████▍   | 6235/9753 [1:06:29<33:53,  1.73it/s]Training 2/3 epoch (loss 0.7316):  64%|██████▍   | 6235/9753 [1:06:30<33:53,  1.73it/s]Training 2/3 epoch (loss 0.7316):  64%|██████▍   | 6236/9753 [1:06:30<35:43,  1.64it/s]Training 2/3 epoch (loss 0.5679):  64%|██████▍   | 6236/9753 [1:06:30<35:43,  1.64it/s]Training 2/3 epoch (loss 0.5679):  64%|██████▍   | 6237/9753 [1:06:30<34:55,  1.68it/s]Training 2/3 epoch (loss 0.5131):  64%|██████▍   | 6237/9753 [1:06:31<34:55,  1.68it/s]Training 2/3 epoch (loss 0.5131):  64%|██████▍   | 6238/9753 [1:06:31<34:49,  1.68it/s]Training 2/3 epoch (loss 0.7305):  64%|██████▍   | 6238/9753 [1:06:31<34:49,  1.68it/s]Training 2/3 epoch (loss 0.7305):  64%|██████▍   | 6239/9753 [1:06:31<35:06,  1.67it/s]Training 2/3 epoch (loss 0.7507):  64%|██████▍   | 6239/9753 [1:06:32<35:06,  1.67it/s]Training 2/3 epoch (loss 0.7507):  64%|██████▍   | 6240/9753 [1:06:32<37:09,  1.58it/s]Training 2/3 epoch (loss 0.5648):  64%|██████▍   | 6240/9753 [1:06:33<37:09,  1.58it/s]Training 2/3 epoch (loss 0.5648):  64%|██████▍   | 6241/9753 [1:06:33<35:37,  1.64it/s]Training 2/3 epoch (loss 0.9409):  64%|██████▍   | 6241/9753 [1:06:33<35:37,  1.64it/s]Training 2/3 epoch (loss 0.9409):  64%|██████▍   | 6242/9753 [1:06:33<34:31,  1.70it/s]Training 2/3 epoch (loss 0.8589):  64%|██████▍   | 6242/9753 [1:06:34<34:31,  1.70it/s]Training 2/3 epoch (loss 0.8589):  64%|██████▍   | 6243/9753 [1:06:34<36:22,  1.61it/s]Training 2/3 epoch (loss 0.4444):  64%|██████▍   | 6243/9753 [1:06:34<36:22,  1.61it/s]Training 2/3 epoch (loss 0.4444):  64%|██████▍   | 6244/9753 [1:06:34<35:24,  1.65it/s]Training 2/3 epoch (loss 0.7011):  64%|██████▍   | 6244/9753 [1:06:35<35:24,  1.65it/s]Training 2/3 epoch (loss 0.7011):  64%|██████▍   | 6245/9753 [1:06:35<34:21,  1.70it/s]Training 2/3 epoch (loss 0.7388):  64%|██████▍   | 6245/9753 [1:06:36<34:21,  1.70it/s]Training 2/3 epoch (loss 0.7388):  64%|██████▍   | 6246/9753 [1:06:36<35:20,  1.65it/s]Training 2/3 epoch (loss 0.9758):  64%|██████▍   | 6246/9753 [1:06:36<35:20,  1.65it/s]Training 2/3 epoch (loss 0.9758):  64%|██████▍   | 6247/9753 [1:06:36<35:14,  1.66it/s]Training 2/3 epoch (loss 0.6981):  64%|██████▍   | 6247/9753 [1:06:37<35:14,  1.66it/s]Training 2/3 epoch (loss 0.6981):  64%|██████▍   | 6248/9753 [1:06:37<36:43,  1.59it/s]Training 2/3 epoch (loss 0.4759):  64%|██████▍   | 6248/9753 [1:06:37<36:43,  1.59it/s]Training 2/3 epoch (loss 0.4759):  64%|██████▍   | 6249/9753 [1:06:37<36:02,  1.62it/s]Training 2/3 epoch (loss 0.7677):  64%|██████▍   | 6249/9753 [1:06:38<36:02,  1.62it/s]Training 2/3 epoch (loss 0.7677):  64%|██████▍   | 6250/9753 [1:06:38<41:13,  1.42it/s]Training 2/3 epoch (loss 0.7197):  64%|██████▍   | 6250/9753 [1:06:39<41:13,  1.42it/s]Training 2/3 epoch (loss 0.7197):  64%|██████▍   | 6251/9753 [1:06:39<38:55,  1.50it/s]Training 2/3 epoch (loss 0.7999):  64%|██████▍   | 6251/9753 [1:06:39<38:55,  1.50it/s]Training 2/3 epoch (loss 0.7999):  64%|██████▍   | 6252/9753 [1:06:39<36:51,  1.58it/s]Training 2/3 epoch (loss 0.7570):  64%|██████▍   | 6252/9753 [1:06:40<36:51,  1.58it/s]Training 2/3 epoch (loss 0.7570):  64%|██████▍   | 6253/9753 [1:06:40<35:41,  1.63it/s]Training 2/3 epoch (loss 0.7194):  64%|██████▍   | 6253/9753 [1:06:41<35:41,  1.63it/s]Training 2/3 epoch (loss 0.7194):  64%|██████▍   | 6254/9753 [1:06:41<36:13,  1.61it/s]Training 2/3 epoch (loss 0.7940):  64%|██████▍   | 6254/9753 [1:06:41<36:13,  1.61it/s]Training 2/3 epoch (loss 0.7940):  64%|██████▍   | 6255/9753 [1:06:41<35:36,  1.64it/s]Training 2/3 epoch (loss 0.6541):  64%|██████▍   | 6255/9753 [1:06:42<35:36,  1.64it/s]Training 2/3 epoch (loss 0.6541):  64%|██████▍   | 6256/9753 [1:06:42<37:03,  1.57it/s]Training 2/3 epoch (loss 0.8955):  64%|██████▍   | 6256/9753 [1:06:43<37:03,  1.57it/s]Training 2/3 epoch (loss 0.8955):  64%|██████▍   | 6257/9753 [1:06:43<35:43,  1.63it/s]Training 2/3 epoch (loss 0.4910):  64%|██████▍   | 6257/9753 [1:06:43<35:43,  1.63it/s]Training 2/3 epoch (loss 0.4910):  64%|██████▍   | 6258/9753 [1:06:43<34:35,  1.68it/s]Training 2/3 epoch (loss 0.6588):  64%|██████▍   | 6258/9753 [1:06:44<34:35,  1.68it/s]Training 2/3 epoch (loss 0.6588):  64%|██████▍   | 6259/9753 [1:06:44<34:57,  1.67it/s]Training 2/3 epoch (loss 0.6233):  64%|██████▍   | 6259/9753 [1:06:44<34:57,  1.67it/s]Training 2/3 epoch (loss 0.6233):  64%|██████▍   | 6260/9753 [1:06:44<34:03,  1.71it/s]Training 2/3 epoch (loss 0.7935):  64%|██████▍   | 6260/9753 [1:06:45<34:03,  1.71it/s]Training 2/3 epoch (loss 0.7935):  64%|██████▍   | 6261/9753 [1:06:45<34:04,  1.71it/s]Training 2/3 epoch (loss 0.8478):  64%|██████▍   | 6261/9753 [1:06:45<34:04,  1.71it/s]Training 2/3 epoch (loss 0.8478):  64%|██████▍   | 6262/9753 [1:06:45<35:06,  1.66it/s]Training 2/3 epoch (loss 0.4761):  64%|██████▍   | 6262/9753 [1:06:46<35:06,  1.66it/s]Training 2/3 epoch (loss 0.4761):  64%|██████▍   | 6263/9753 [1:06:46<35:39,  1.63it/s]Training 2/3 epoch (loss 0.6636):  64%|██████▍   | 6263/9753 [1:06:47<35:39,  1.63it/s]Training 2/3 epoch (loss 0.6636):  64%|██████▍   | 6264/9753 [1:06:47<41:07,  1.41it/s]Training 2/3 epoch (loss 0.6222):  64%|██████▍   | 6264/9753 [1:06:48<41:07,  1.41it/s]Training 2/3 epoch (loss 0.6222):  64%|██████▍   | 6265/9753 [1:06:48<38:44,  1.50it/s]Training 2/3 epoch (loss 0.6897):  64%|██████▍   | 6265/9753 [1:06:48<38:44,  1.50it/s]Training 2/3 epoch (loss 0.6897):  64%|██████▍   | 6266/9753 [1:06:48<36:58,  1.57it/s]Training 2/3 epoch (loss 0.7386):  64%|██████▍   | 6266/9753 [1:06:49<36:58,  1.57it/s]Training 2/3 epoch (loss 0.7386):  64%|██████▍   | 6267/9753 [1:06:49<36:43,  1.58it/s]Training 2/3 epoch (loss 0.6345):  64%|██████▍   | 6267/9753 [1:06:49<36:43,  1.58it/s]Training 2/3 epoch (loss 0.6345):  64%|██████▍   | 6268/9753 [1:06:49<35:12,  1.65it/s]Training 2/3 epoch (loss 0.7887):  64%|██████▍   | 6268/9753 [1:06:50<35:12,  1.65it/s]Training 2/3 epoch (loss 0.7887):  64%|██████▍   | 6269/9753 [1:06:50<36:59,  1.57it/s]Training 2/3 epoch (loss 0.7474):  64%|██████▍   | 6269/9753 [1:06:51<36:59,  1.57it/s]Training 2/3 epoch (loss 0.7474):  64%|██████▍   | 6270/9753 [1:06:51<35:20,  1.64it/s]Training 2/3 epoch (loss 0.5814):  64%|██████▍   | 6270/9753 [1:06:51<35:20,  1.64it/s]Training 2/3 epoch (loss 0.5814):  64%|██████▍   | 6271/9753 [1:06:51<35:31,  1.63it/s]Training 2/3 epoch (loss 0.6875):  64%|██████▍   | 6271/9753 [1:06:52<35:31,  1.63it/s]Training 2/3 epoch (loss 0.6875):  64%|██████▍   | 6272/9753 [1:06:52<39:06,  1.48it/s]Training 2/3 epoch (loss 0.7185):  64%|██████▍   | 6272/9753 [1:06:53<39:06,  1.48it/s]Training 2/3 epoch (loss 0.7185):  64%|██████▍   | 6273/9753 [1:06:53<39:59,  1.45it/s]Training 2/3 epoch (loss 0.6461):  64%|██████▍   | 6273/9753 [1:06:53<39:59,  1.45it/s]Training 2/3 epoch (loss 0.6461):  64%|██████▍   | 6274/9753 [1:06:53<38:00,  1.53it/s]Training 2/3 epoch (loss 0.8227):  64%|██████▍   | 6274/9753 [1:06:54<38:00,  1.53it/s]Training 2/3 epoch (loss 0.8227):  64%|██████▍   | 6275/9753 [1:06:54<37:02,  1.56it/s]Training 2/3 epoch (loss 0.8919):  64%|██████▍   | 6275/9753 [1:06:55<37:02,  1.56it/s]Training 2/3 epoch (loss 0.8919):  64%|██████▍   | 6276/9753 [1:06:55<40:56,  1.42it/s]Training 2/3 epoch (loss 0.5252):  64%|██████▍   | 6276/9753 [1:06:55<40:56,  1.42it/s]Training 2/3 epoch (loss 0.5252):  64%|██████▍   | 6277/9753 [1:06:55<39:24,  1.47it/s]Training 2/3 epoch (loss 0.9379):  64%|██████▍   | 6277/9753 [1:06:56<39:24,  1.47it/s]Training 2/3 epoch (loss 0.9379):  64%|██████▍   | 6278/9753 [1:06:56<37:13,  1.56it/s]Training 2/3 epoch (loss 0.9605):  64%|██████▍   | 6278/9753 [1:06:57<37:13,  1.56it/s]Training 2/3 epoch (loss 0.9605):  64%|██████▍   | 6279/9753 [1:06:57<37:25,  1.55it/s]Training 2/3 epoch (loss 0.7141):  64%|██████▍   | 6279/9753 [1:06:57<37:25,  1.55it/s]Training 2/3 epoch (loss 0.7141):  64%|██████▍   | 6280/9753 [1:06:57<37:30,  1.54it/s]Training 2/3 epoch (loss 0.8268):  64%|██████▍   | 6280/9753 [1:06:58<37:30,  1.54it/s]Training 2/3 epoch (loss 0.8268):  64%|██████▍   | 6281/9753 [1:06:58<35:41,  1.62it/s]Training 2/3 epoch (loss 0.7737):  64%|██████▍   | 6281/9753 [1:06:58<35:41,  1.62it/s]Training 2/3 epoch (loss 0.7737):  64%|██████▍   | 6282/9753 [1:06:58<34:33,  1.67it/s]Training 2/3 epoch (loss 0.7652):  64%|██████▍   | 6282/9753 [1:06:59<34:33,  1.67it/s]Training 2/3 epoch (loss 0.7652):  64%|██████▍   | 6283/9753 [1:06:59<33:56,  1.70it/s]Training 2/3 epoch (loss 0.8175):  64%|██████▍   | 6283/9753 [1:06:59<33:56,  1.70it/s]Training 2/3 epoch (loss 0.8175):  64%|██████▍   | 6284/9753 [1:06:59<33:22,  1.73it/s]Training 2/3 epoch (loss 0.6934):  64%|██████▍   | 6284/9753 [1:07:00<33:22,  1.73it/s]Training 2/3 epoch (loss 0.6934):  64%|██████▍   | 6285/9753 [1:07:00<32:52,  1.76it/s]Training 2/3 epoch (loss 0.6229):  64%|██████▍   | 6285/9753 [1:07:01<32:52,  1.76it/s]Training 2/3 epoch (loss 0.6229):  64%|██████▍   | 6286/9753 [1:07:01<32:34,  1.77it/s]Training 2/3 epoch (loss 0.4953):  64%|██████▍   | 6286/9753 [1:07:01<32:34,  1.77it/s]Training 2/3 epoch (loss 0.4953):  64%|██████▍   | 6287/9753 [1:07:01<33:12,  1.74it/s]Training 2/3 epoch (loss 0.7292):  64%|██████▍   | 6287/9753 [1:07:02<33:12,  1.74it/s]Training 2/3 epoch (loss 0.7292):  64%|██████▍   | 6288/9753 [1:07:02<35:24,  1.63it/s]Training 2/3 epoch (loss 0.9310):  64%|██████▍   | 6288/9753 [1:07:02<35:24,  1.63it/s]Training 2/3 epoch (loss 0.9310):  64%|██████▍   | 6289/9753 [1:07:02<34:25,  1.68it/s]Training 2/3 epoch (loss 0.4713):  64%|██████▍   | 6289/9753 [1:07:03<34:25,  1.68it/s]Training 2/3 epoch (loss 0.4713):  64%|██████▍   | 6290/9753 [1:07:03<38:15,  1.51it/s]Training 2/3 epoch (loss 0.6285):  64%|██████▍   | 6290/9753 [1:07:04<38:15,  1.51it/s]Training 2/3 epoch (loss 0.6285):  65%|██████▍   | 6291/9753 [1:07:04<36:42,  1.57it/s]Training 2/3 epoch (loss 0.7370):  65%|██████▍   | 6291/9753 [1:07:04<36:42,  1.57it/s]Training 2/3 epoch (loss 0.7370):  65%|██████▍   | 6292/9753 [1:07:04<35:17,  1.63it/s]Training 2/3 epoch (loss 0.6838):  65%|██████▍   | 6292/9753 [1:07:05<35:17,  1.63it/s]Training 2/3 epoch (loss 0.6838):  65%|██████▍   | 6293/9753 [1:07:05<35:00,  1.65it/s]Training 2/3 epoch (loss 0.8158):  65%|██████▍   | 6293/9753 [1:07:06<35:00,  1.65it/s]Training 2/3 epoch (loss 0.8158):  65%|██████▍   | 6294/9753 [1:07:06<34:15,  1.68it/s]Training 2/3 epoch (loss 0.5928):  65%|██████▍   | 6294/9753 [1:07:06<34:15,  1.68it/s]Training 2/3 epoch (loss 0.5928):  65%|██████▍   | 6295/9753 [1:07:06<33:32,  1.72it/s]Training 2/3 epoch (loss 0.6976):  65%|██████▍   | 6295/9753 [1:07:07<33:32,  1.72it/s]Training 2/3 epoch (loss 0.6976):  65%|██████▍   | 6296/9753 [1:07:07<35:17,  1.63it/s]Training 2/3 epoch (loss 0.6674):  65%|██████▍   | 6296/9753 [1:07:07<35:17,  1.63it/s]Training 2/3 epoch (loss 0.6674):  65%|██████▍   | 6297/9753 [1:07:07<34:40,  1.66it/s]Training 2/3 epoch (loss 0.6148):  65%|██████▍   | 6297/9753 [1:07:08<34:40,  1.66it/s]Training 2/3 epoch (loss 0.6148):  65%|██████▍   | 6298/9753 [1:07:08<33:39,  1.71it/s]Training 2/3 epoch (loss 0.8657):  65%|██████▍   | 6298/9753 [1:07:08<33:39,  1.71it/s]Training 2/3 epoch (loss 0.8657):  65%|██████▍   | 6299/9753 [1:07:08<33:15,  1.73it/s]Training 2/3 epoch (loss 0.7174):  65%|██████▍   | 6299/9753 [1:07:09<33:15,  1.73it/s]Training 2/3 epoch (loss 0.7174):  65%|██████▍   | 6300/9753 [1:07:09<32:47,  1.76it/s]Training 2/3 epoch (loss 0.5127):  65%|██████▍   | 6300/9753 [1:07:10<32:47,  1.76it/s]Training 2/3 epoch (loss 0.5127):  65%|██████▍   | 6301/9753 [1:07:10<32:12,  1.79it/s]Training 2/3 epoch (loss 0.4758):  65%|██████▍   | 6301/9753 [1:07:10<32:12,  1.79it/s]Training 2/3 epoch (loss 0.4758):  65%|██████▍   | 6302/9753 [1:07:10<32:38,  1.76it/s]Training 2/3 epoch (loss 0.6786):  65%|██████▍   | 6302/9753 [1:07:11<32:38,  1.76it/s]Training 2/3 epoch (loss 0.6786):  65%|██████▍   | 6303/9753 [1:07:11<34:14,  1.68it/s]Training 2/3 epoch (loss 0.6448):  65%|██████▍   | 6303/9753 [1:07:12<34:14,  1.68it/s]Training 2/3 epoch (loss 0.6448):  65%|██████▍   | 6304/9753 [1:07:12<36:11,  1.59it/s]Training 2/3 epoch (loss 0.8343):  65%|██████▍   | 6304/9753 [1:07:12<36:11,  1.59it/s]Training 2/3 epoch (loss 0.8343):  65%|██████▍   | 6305/9753 [1:07:12<35:03,  1.64it/s]Training 2/3 epoch (loss 0.6239):  65%|██████▍   | 6305/9753 [1:07:13<35:03,  1.64it/s]Training 2/3 epoch (loss 0.6239):  65%|██████▍   | 6306/9753 [1:07:13<34:03,  1.69it/s]Training 2/3 epoch (loss 0.6888):  65%|██████▍   | 6306/9753 [1:07:13<34:03,  1.69it/s]Training 2/3 epoch (loss 0.6888):  65%|██████▍   | 6307/9753 [1:07:13<33:18,  1.72it/s]Training 2/3 epoch (loss 0.7579):  65%|██████▍   | 6307/9753 [1:07:14<33:18,  1.72it/s]Training 2/3 epoch (loss 0.7579):  65%|██████▍   | 6308/9753 [1:07:14<33:55,  1.69it/s]Training 2/3 epoch (loss 0.6328):  65%|██████▍   | 6308/9753 [1:07:14<33:55,  1.69it/s]Training 2/3 epoch (loss 0.6328):  65%|██████▍   | 6309/9753 [1:07:14<34:09,  1.68it/s]Training 2/3 epoch (loss 0.7101):  65%|██████▍   | 6309/9753 [1:07:15<34:09,  1.68it/s]Training 2/3 epoch (loss 0.7101):  65%|██████▍   | 6310/9753 [1:07:15<34:32,  1.66it/s]Training 2/3 epoch (loss 0.8416):  65%|██████▍   | 6310/9753 [1:07:16<34:32,  1.66it/s]Training 2/3 epoch (loss 0.8416):  65%|██████▍   | 6311/9753 [1:07:16<33:56,  1.69it/s]Training 2/3 epoch (loss 0.7896):  65%|██████▍   | 6311/9753 [1:07:16<33:56,  1.69it/s]Training 2/3 epoch (loss 0.7896):  65%|██████▍   | 6312/9753 [1:07:16<33:34,  1.71it/s]Training 2/3 epoch (loss 0.7595):  65%|██████▍   | 6312/9753 [1:07:17<33:34,  1.71it/s]Training 2/3 epoch (loss 0.7595):  65%|██████▍   | 6313/9753 [1:07:17<34:41,  1.65it/s]Training 2/3 epoch (loss 0.8057):  65%|██████▍   | 6313/9753 [1:07:17<34:41,  1.65it/s]Training 2/3 epoch (loss 0.8057):  65%|██████▍   | 6314/9753 [1:07:17<33:42,  1.70it/s]Training 2/3 epoch (loss 0.9279):  65%|██████▍   | 6314/9753 [1:07:18<33:42,  1.70it/s]Training 2/3 epoch (loss 0.9279):  65%|██████▍   | 6315/9753 [1:07:18<34:04,  1.68it/s]Training 2/3 epoch (loss 0.4474):  65%|██████▍   | 6315/9753 [1:07:19<34:04,  1.68it/s]Training 2/3 epoch (loss 0.4474):  65%|██████▍   | 6316/9753 [1:07:19<33:42,  1.70it/s]Training 2/3 epoch (loss 0.5348):  65%|██████▍   | 6316/9753 [1:07:19<33:42,  1.70it/s]Training 2/3 epoch (loss 0.5348):  65%|██████▍   | 6317/9753 [1:07:19<34:00,  1.68it/s]Training 2/3 epoch (loss 0.7740):  65%|██████▍   | 6317/9753 [1:07:20<34:00,  1.68it/s]Training 2/3 epoch (loss 0.7740):  65%|██████▍   | 6318/9753 [1:07:20<33:18,  1.72it/s]Training 2/3 epoch (loss 0.8995):  65%|██████▍   | 6318/9753 [1:07:20<33:18,  1.72it/s]Training 2/3 epoch (loss 0.8995):  65%|██████▍   | 6319/9753 [1:07:20<35:27,  1.61it/s]Training 2/3 epoch (loss 0.6509):  65%|██████▍   | 6319/9753 [1:07:21<35:27,  1.61it/s]Training 2/3 epoch (loss 0.6509):  65%|██████▍   | 6320/9753 [1:07:21<37:04,  1.54it/s]Training 2/3 epoch (loss 0.9160):  65%|██████▍   | 6320/9753 [1:07:22<37:04,  1.54it/s]Training 2/3 epoch (loss 0.9160):  65%|██████▍   | 6321/9753 [1:07:22<37:35,  1.52it/s]Training 2/3 epoch (loss 0.5967):  65%|██████▍   | 6321/9753 [1:07:22<37:35,  1.52it/s]Training 2/3 epoch (loss 0.5967):  65%|██████▍   | 6322/9753 [1:07:22<36:01,  1.59it/s]Training 2/3 epoch (loss 0.8855):  65%|██████▍   | 6322/9753 [1:07:23<36:01,  1.59it/s]Training 2/3 epoch (loss 0.8855):  65%|██████▍   | 6323/9753 [1:07:23<35:26,  1.61it/s]Training 2/3 epoch (loss 0.6924):  65%|██████▍   | 6323/9753 [1:07:24<35:26,  1.61it/s]Training 2/3 epoch (loss 0.6924):  65%|██████▍   | 6324/9753 [1:07:24<37:13,  1.54it/s]Training 2/3 epoch (loss 0.7915):  65%|██████▍   | 6324/9753 [1:07:24<37:13,  1.54it/s]Training 2/3 epoch (loss 0.7915):  65%|██████▍   | 6325/9753 [1:07:24<35:53,  1.59it/s]Training 2/3 epoch (loss 0.7281):  65%|██████▍   | 6325/9753 [1:07:25<35:53,  1.59it/s]Training 2/3 epoch (loss 0.7281):  65%|██████▍   | 6326/9753 [1:07:25<34:45,  1.64it/s]Training 2/3 epoch (loss 0.5520):  65%|██████▍   | 6326/9753 [1:07:25<34:45,  1.64it/s]Training 2/3 epoch (loss 0.5520):  65%|██████▍   | 6327/9753 [1:07:25<33:59,  1.68it/s]Training 2/3 epoch (loss 0.8226):  65%|██████▍   | 6327/9753 [1:07:26<33:59,  1.68it/s]Training 2/3 epoch (loss 0.8226):  65%|██████▍   | 6328/9753 [1:07:26<35:58,  1.59it/s]Training 2/3 epoch (loss 0.5899):  65%|██████▍   | 6328/9753 [1:07:27<35:58,  1.59it/s]Training 2/3 epoch (loss 0.5899):  65%|██████▍   | 6329/9753 [1:07:27<38:09,  1.50it/s]Training 2/3 epoch (loss 0.5776):  65%|██████▍   | 6329/9753 [1:07:28<38:09,  1.50it/s]Training 2/3 epoch (loss 0.5776):  65%|██████▍   | 6330/9753 [1:07:28<40:14,  1.42it/s]Training 2/3 epoch (loss 0.6988):  65%|██████▍   | 6330/9753 [1:07:29<40:14,  1.42it/s]Training 2/3 epoch (loss 0.6988):  65%|██████▍   | 6331/9753 [1:07:29<43:11,  1.32it/s]Training 2/3 epoch (loss 0.6500):  65%|██████▍   | 6331/9753 [1:07:29<43:11,  1.32it/s]Training 2/3 epoch (loss 0.6500):  65%|██████▍   | 6332/9753 [1:07:29<39:53,  1.43it/s]Training 2/3 epoch (loss 0.5673):  65%|██████▍   | 6332/9753 [1:07:30<39:53,  1.43it/s]Training 2/3 epoch (loss 0.5673):  65%|██████▍   | 6333/9753 [1:07:30<38:33,  1.48it/s]Training 2/3 epoch (loss 0.8310):  65%|██████▍   | 6333/9753 [1:07:30<38:33,  1.48it/s]Training 2/3 epoch (loss 0.8310):  65%|██████▍   | 6334/9753 [1:07:30<38:33,  1.48it/s]Training 2/3 epoch (loss 0.7698):  65%|██████▍   | 6334/9753 [1:07:31<38:33,  1.48it/s]Training 2/3 epoch (loss 0.7698):  65%|██████▍   | 6335/9753 [1:07:31<39:36,  1.44it/s]Training 2/3 epoch (loss 0.8910):  65%|██████▍   | 6335/9753 [1:07:32<39:36,  1.44it/s]Training 2/3 epoch (loss 0.8910):  65%|██████▍   | 6336/9753 [1:07:32<41:58,  1.36it/s]Training 2/3 epoch (loss 0.5590):  65%|██████▍   | 6336/9753 [1:07:33<41:58,  1.36it/s]Training 2/3 epoch (loss 0.5590):  65%|██████▍   | 6337/9753 [1:07:33<38:55,  1.46it/s]Training 2/3 epoch (loss 0.5419):  65%|██████▍   | 6337/9753 [1:07:33<38:55,  1.46it/s]Training 2/3 epoch (loss 0.5419):  65%|██████▍   | 6338/9753 [1:07:33<36:40,  1.55it/s]Training 2/3 epoch (loss 0.8423):  65%|██████▍   | 6338/9753 [1:07:34<36:40,  1.55it/s]Training 2/3 epoch (loss 0.8423):  65%|██████▍   | 6339/9753 [1:07:34<35:12,  1.62it/s]Training 2/3 epoch (loss 0.7594):  65%|██████▍   | 6339/9753 [1:07:34<35:12,  1.62it/s]Training 2/3 epoch (loss 0.7594):  65%|██████▌   | 6340/9753 [1:07:34<34:02,  1.67it/s]Training 2/3 epoch (loss 0.7142):  65%|██████▌   | 6340/9753 [1:07:35<34:02,  1.67it/s]Training 2/3 epoch (loss 0.7142):  65%|██████▌   | 6341/9753 [1:07:35<33:12,  1.71it/s]Training 2/3 epoch (loss 0.9547):  65%|██████▌   | 6341/9753 [1:07:35<33:12,  1.71it/s]Training 2/3 epoch (loss 0.9547):  65%|██████▌   | 6342/9753 [1:07:35<32:41,  1.74it/s]Training 2/3 epoch (loss 0.6522):  65%|██████▌   | 6342/9753 [1:07:36<32:41,  1.74it/s]Training 2/3 epoch (loss 0.6522):  65%|██████▌   | 6343/9753 [1:07:36<32:40,  1.74it/s]Training 2/3 epoch (loss 0.6576):  65%|██████▌   | 6343/9753 [1:07:37<32:40,  1.74it/s]Training 2/3 epoch (loss 0.6576):  65%|██████▌   | 6344/9753 [1:07:37<38:15,  1.49it/s]Training 2/3 epoch (loss 0.7529):  65%|██████▌   | 6344/9753 [1:07:37<38:15,  1.49it/s]Training 2/3 epoch (loss 0.7529):  65%|██████▌   | 6345/9753 [1:07:37<36:18,  1.56it/s]Training 2/3 epoch (loss 0.5856):  65%|██████▌   | 6345/9753 [1:07:38<36:18,  1.56it/s]Training 2/3 epoch (loss 0.5856):  65%|██████▌   | 6346/9753 [1:07:38<34:41,  1.64it/s]Training 2/3 epoch (loss 0.8123):  65%|██████▌   | 6346/9753 [1:07:38<34:41,  1.64it/s]Training 2/3 epoch (loss 0.8123):  65%|██████▌   | 6347/9753 [1:07:38<33:41,  1.69it/s]Training 2/3 epoch (loss 0.5602):  65%|██████▌   | 6347/9753 [1:07:39<33:41,  1.69it/s]Training 2/3 epoch (loss 0.5602):  65%|██████▌   | 6348/9753 [1:07:39<33:25,  1.70it/s]Training 2/3 epoch (loss 0.4807):  65%|██████▌   | 6348/9753 [1:07:40<33:25,  1.70it/s]Training 2/3 epoch (loss 0.4807):  65%|██████▌   | 6349/9753 [1:07:40<32:47,  1.73it/s]Training 2/3 epoch (loss 0.7037):  65%|██████▌   | 6349/9753 [1:07:40<32:47,  1.73it/s]Training 2/3 epoch (loss 0.7037):  65%|██████▌   | 6350/9753 [1:07:40<32:13,  1.76it/s]Training 2/3 epoch (loss 0.5948):  65%|██████▌   | 6350/9753 [1:07:41<32:13,  1.76it/s]Training 2/3 epoch (loss 0.5948):  65%|██████▌   | 6351/9753 [1:07:41<31:55,  1.78it/s]Training 2/3 epoch (loss 0.6703):  65%|██████▌   | 6351/9753 [1:07:41<31:55,  1.78it/s]Training 2/3 epoch (loss 0.6703):  65%|██████▌   | 6352/9753 [1:07:41<36:14,  1.56it/s]Training 2/3 epoch (loss 0.4891):  65%|██████▌   | 6352/9753 [1:07:42<36:14,  1.56it/s]Training 2/3 epoch (loss 0.4891):  65%|██████▌   | 6353/9753 [1:07:42<36:16,  1.56it/s]Training 2/3 epoch (loss 0.8089):  65%|██████▌   | 6353/9753 [1:07:43<36:16,  1.56it/s]Training 2/3 epoch (loss 0.8089):  65%|██████▌   | 6354/9753 [1:07:43<35:39,  1.59it/s]Training 2/3 epoch (loss 0.7194):  65%|██████▌   | 6354/9753 [1:07:43<35:39,  1.59it/s]Training 2/3 epoch (loss 0.7194):  65%|██████▌   | 6355/9753 [1:07:43<34:15,  1.65it/s]Training 2/3 epoch (loss 0.6752):  65%|██████▌   | 6355/9753 [1:07:44<34:15,  1.65it/s]Training 2/3 epoch (loss 0.6752):  65%|██████▌   | 6356/9753 [1:07:44<33:59,  1.67it/s]Training 2/3 epoch (loss 0.6368):  65%|██████▌   | 6356/9753 [1:07:45<33:59,  1.67it/s]Training 2/3 epoch (loss 0.6368):  65%|██████▌   | 6357/9753 [1:07:45<37:33,  1.51it/s]Training 2/3 epoch (loss 0.7248):  65%|██████▌   | 6357/9753 [1:07:45<37:33,  1.51it/s]Training 2/3 epoch (loss 0.7248):  65%|██████▌   | 6358/9753 [1:07:45<36:36,  1.55it/s]Training 2/3 epoch (loss 0.7274):  65%|██████▌   | 6358/9753 [1:07:46<36:36,  1.55it/s]Training 2/3 epoch (loss 0.7274):  65%|██████▌   | 6359/9753 [1:07:46<35:11,  1.61it/s]Training 2/3 epoch (loss 0.6931):  65%|██████▌   | 6359/9753 [1:07:46<35:11,  1.61it/s]Training 2/3 epoch (loss 0.6931):  65%|██████▌   | 6360/9753 [1:07:46<33:58,  1.66it/s]Training 2/3 epoch (loss 0.9242):  65%|██████▌   | 6360/9753 [1:07:47<33:58,  1.66it/s]Training 2/3 epoch (loss 0.9242):  65%|██████▌   | 6361/9753 [1:07:47<33:34,  1.68it/s]Training 2/3 epoch (loss 0.8118):  65%|██████▌   | 6361/9753 [1:07:48<33:34,  1.68it/s]Training 2/3 epoch (loss 0.8118):  65%|██████▌   | 6362/9753 [1:07:48<35:17,  1.60it/s]Training 2/3 epoch (loss 0.9440):  65%|██████▌   | 6362/9753 [1:07:49<35:17,  1.60it/s]Training 2/3 epoch (loss 0.9440):  65%|██████▌   | 6363/9753 [1:07:49<39:32,  1.43it/s]Training 2/3 epoch (loss 0.7619):  65%|██████▌   | 6363/9753 [1:07:49<39:32,  1.43it/s]Training 2/3 epoch (loss 0.7619):  65%|██████▌   | 6364/9753 [1:07:49<39:33,  1.43it/s]Training 2/3 epoch (loss 0.8322):  65%|██████▌   | 6364/9753 [1:07:50<39:33,  1.43it/s]Training 2/3 epoch (loss 0.8322):  65%|██████▌   | 6365/9753 [1:07:50<42:12,  1.34it/s]Training 2/3 epoch (loss 0.4665):  65%|██████▌   | 6365/9753 [1:07:51<42:12,  1.34it/s]Training 2/3 epoch (loss 0.4665):  65%|██████▌   | 6366/9753 [1:07:51<39:18,  1.44it/s]Training 2/3 epoch (loss 0.8003):  65%|██████▌   | 6366/9753 [1:07:51<39:18,  1.44it/s]Training 2/3 epoch (loss 0.8003):  65%|██████▌   | 6367/9753 [1:07:51<40:15,  1.40it/s]Training 2/3 epoch (loss 0.7277):  65%|██████▌   | 6367/9753 [1:07:52<40:15,  1.40it/s]Training 2/3 epoch (loss 0.7277):  65%|██████▌   | 6368/9753 [1:07:52<40:00,  1.41it/s]Training 2/3 epoch (loss 0.4932):  65%|██████▌   | 6368/9753 [1:07:53<40:00,  1.41it/s]Training 2/3 epoch (loss 0.4932):  65%|██████▌   | 6369/9753 [1:07:53<39:46,  1.42it/s]Training 2/3 epoch (loss 0.6590):  65%|██████▌   | 6369/9753 [1:07:54<39:46,  1.42it/s]Training 2/3 epoch (loss 0.6590):  65%|██████▌   | 6370/9753 [1:07:54<43:06,  1.31it/s]Training 2/3 epoch (loss 0.5164):  65%|██████▌   | 6370/9753 [1:07:54<43:06,  1.31it/s]Training 2/3 epoch (loss 0.5164):  65%|██████▌   | 6371/9753 [1:07:54<39:43,  1.42it/s]Training 2/3 epoch (loss 0.5600):  65%|██████▌   | 6371/9753 [1:07:55<39:43,  1.42it/s]Training 2/3 epoch (loss 0.5600):  65%|██████▌   | 6372/9753 [1:07:55<37:26,  1.51it/s]Training 2/3 epoch (loss 0.4273):  65%|██████▌   | 6372/9753 [1:07:56<37:26,  1.51it/s]Training 2/3 epoch (loss 0.4273):  65%|██████▌   | 6373/9753 [1:07:56<41:22,  1.36it/s]Training 2/3 epoch (loss 0.5338):  65%|██████▌   | 6373/9753 [1:07:56<41:22,  1.36it/s]Training 2/3 epoch (loss 0.5338):  65%|██████▌   | 6374/9753 [1:07:56<38:43,  1.45it/s]Training 2/3 epoch (loss 0.4460):  65%|██████▌   | 6374/9753 [1:07:57<38:43,  1.45it/s]Training 2/3 epoch (loss 0.4460):  65%|██████▌   | 6375/9753 [1:07:57<36:32,  1.54it/s]Training 2/3 epoch (loss 0.7854):  65%|██████▌   | 6375/9753 [1:07:57<36:32,  1.54it/s]Training 2/3 epoch (loss 0.7854):  65%|██████▌   | 6376/9753 [1:07:57<34:58,  1.61it/s]Training 2/3 epoch (loss 0.8572):  65%|██████▌   | 6376/9753 [1:07:58<34:58,  1.61it/s]Training 2/3 epoch (loss 0.8572):  65%|██████▌   | 6377/9753 [1:07:58<33:57,  1.66it/s]Training 2/3 epoch (loss 0.6736):  65%|██████▌   | 6377/9753 [1:07:59<33:57,  1.66it/s]Training 2/3 epoch (loss 0.6736):  65%|██████▌   | 6378/9753 [1:07:59<33:02,  1.70it/s]Training 2/3 epoch (loss 0.6922):  65%|██████▌   | 6378/9753 [1:07:59<33:02,  1.70it/s]Training 2/3 epoch (loss 0.6922):  65%|██████▌   | 6379/9753 [1:07:59<32:35,  1.73it/s]Training 2/3 epoch (loss 0.8610):  65%|██████▌   | 6379/9753 [1:08:00<32:35,  1.73it/s]Training 2/3 epoch (loss 0.8610):  65%|██████▌   | 6380/9753 [1:08:00<37:55,  1.48it/s]Training 2/3 epoch (loss 0.7900):  65%|██████▌   | 6380/9753 [1:08:01<37:55,  1.48it/s]Training 2/3 epoch (loss 0.7900):  65%|██████▌   | 6381/9753 [1:08:01<36:58,  1.52it/s]Training 2/3 epoch (loss 0.6626):  65%|██████▌   | 6381/9753 [1:08:01<36:58,  1.52it/s]Training 2/3 epoch (loss 0.6626):  65%|██████▌   | 6382/9753 [1:08:01<35:07,  1.60it/s]Training 2/3 epoch (loss 0.7273):  65%|██████▌   | 6382/9753 [1:08:02<35:07,  1.60it/s]Training 2/3 epoch (loss 0.7273):  65%|██████▌   | 6383/9753 [1:08:02<34:31,  1.63it/s]Training 2/3 epoch (loss 0.5607):  65%|██████▌   | 6383/9753 [1:08:03<34:31,  1.63it/s]Training 2/3 epoch (loss 0.5607):  65%|██████▌   | 6384/9753 [1:08:03<36:25,  1.54it/s]Training 2/3 epoch (loss 0.5766):  65%|██████▌   | 6384/9753 [1:08:03<36:25,  1.54it/s]Training 2/3 epoch (loss 0.5766):  65%|██████▌   | 6385/9753 [1:08:03<35:01,  1.60it/s]Training 2/3 epoch (loss 0.6140):  65%|██████▌   | 6385/9753 [1:08:04<35:01,  1.60it/s]Training 2/3 epoch (loss 0.6140):  65%|██████▌   | 6386/9753 [1:08:04<33:47,  1.66it/s]Training 2/3 epoch (loss 0.9829):  65%|██████▌   | 6386/9753 [1:08:04<33:47,  1.66it/s]Training 2/3 epoch (loss 0.9829):  65%|██████▌   | 6387/9753 [1:08:04<32:56,  1.70it/s]Training 2/3 epoch (loss 0.7067):  65%|██████▌   | 6387/9753 [1:08:05<32:56,  1.70it/s]Training 2/3 epoch (loss 0.7067):  65%|██████▌   | 6388/9753 [1:08:05<32:43,  1.71it/s]Training 2/3 epoch (loss 0.9307):  65%|██████▌   | 6388/9753 [1:08:05<32:43,  1.71it/s]Training 2/3 epoch (loss 0.9307):  66%|██████▌   | 6389/9753 [1:08:05<33:16,  1.68it/s]Training 2/3 epoch (loss 0.7088):  66%|██████▌   | 6389/9753 [1:08:06<33:16,  1.68it/s]Training 2/3 epoch (loss 0.7088):  66%|██████▌   | 6390/9753 [1:08:06<33:06,  1.69it/s]Training 2/3 epoch (loss 0.6776):  66%|██████▌   | 6390/9753 [1:08:07<33:06,  1.69it/s]Training 2/3 epoch (loss 0.6776):  66%|██████▌   | 6391/9753 [1:08:07<32:25,  1.73it/s]Training 2/3 epoch (loss 0.9037):  66%|██████▌   | 6391/9753 [1:08:07<32:25,  1.73it/s]Training 2/3 epoch (loss 0.9037):  66%|██████▌   | 6392/9753 [1:08:07<33:32,  1.67it/s]Training 2/3 epoch (loss 0.4038):  66%|██████▌   | 6392/9753 [1:08:08<33:32,  1.67it/s]Training 2/3 epoch (loss 0.4038):  66%|██████▌   | 6393/9753 [1:08:08<36:11,  1.55it/s]Training 2/3 epoch (loss 0.5696):  66%|██████▌   | 6393/9753 [1:08:08<36:11,  1.55it/s]Training 2/3 epoch (loss 0.5696):  66%|██████▌   | 6394/9753 [1:08:08<34:55,  1.60it/s]Training 2/3 epoch (loss 0.7366):  66%|██████▌   | 6394/9753 [1:08:09<34:55,  1.60it/s]Training 2/3 epoch (loss 0.7366):  66%|██████▌   | 6395/9753 [1:08:09<34:31,  1.62it/s]Training 2/3 epoch (loss 0.8102):  66%|██████▌   | 6395/9753 [1:08:10<34:31,  1.62it/s]Training 2/3 epoch (loss 0.8102):  66%|██████▌   | 6396/9753 [1:08:10<33:30,  1.67it/s]Training 2/3 epoch (loss 0.5974):  66%|██████▌   | 6396/9753 [1:08:10<33:30,  1.67it/s]Training 2/3 epoch (loss 0.5974):  66%|██████▌   | 6397/9753 [1:08:10<33:13,  1.68it/s]Training 2/3 epoch (loss 0.7318):  66%|██████▌   | 6397/9753 [1:08:11<33:13,  1.68it/s]Training 2/3 epoch (loss 0.7318):  66%|██████▌   | 6398/9753 [1:08:11<35:25,  1.58it/s]Training 2/3 epoch (loss 0.9901):  66%|██████▌   | 6398/9753 [1:08:12<35:25,  1.58it/s]Training 2/3 epoch (loss 0.9901):  66%|██████▌   | 6399/9753 [1:08:12<34:53,  1.60it/s]Training 2/3 epoch (loss 0.5114):  66%|██████▌   | 6399/9753 [1:08:12<34:53,  1.60it/s]Training 2/3 epoch (loss 0.5114):  66%|██████▌   | 6400/9753 [1:08:12<36:02,  1.55it/s]Training 2/3 epoch (loss 0.8704):  66%|██████▌   | 6400/9753 [1:08:13<36:02,  1.55it/s]Training 2/3 epoch (loss 0.8704):  66%|██████▌   | 6401/9753 [1:08:13<34:56,  1.60it/s]Training 2/3 epoch (loss 0.6682):  66%|██████▌   | 6401/9753 [1:08:13<34:56,  1.60it/s]Training 2/3 epoch (loss 0.6682):  66%|██████▌   | 6402/9753 [1:08:13<35:38,  1.57it/s]Training 2/3 epoch (loss 0.8956):  66%|██████▌   | 6402/9753 [1:08:14<35:38,  1.57it/s]Training 2/3 epoch (loss 0.8956):  66%|██████▌   | 6403/9753 [1:08:14<34:51,  1.60it/s]Training 2/3 epoch (loss 0.8066):  66%|██████▌   | 6403/9753 [1:08:15<34:51,  1.60it/s]Training 2/3 epoch (loss 0.8066):  66%|██████▌   | 6404/9753 [1:08:15<33:56,  1.64it/s]Training 2/3 epoch (loss 0.8836):  66%|██████▌   | 6404/9753 [1:08:15<33:56,  1.64it/s]Training 2/3 epoch (loss 0.8836):  66%|██████▌   | 6405/9753 [1:08:15<33:06,  1.69it/s]Training 2/3 epoch (loss 0.7616):  66%|██████▌   | 6405/9753 [1:08:16<33:06,  1.69it/s]Training 2/3 epoch (loss 0.7616):  66%|██████▌   | 6406/9753 [1:08:16<32:43,  1.70it/s]Training 2/3 epoch (loss 0.7321):  66%|██████▌   | 6406/9753 [1:08:16<32:43,  1.70it/s]Training 2/3 epoch (loss 0.7321):  66%|██████▌   | 6407/9753 [1:08:16<32:09,  1.73it/s]Training 2/3 epoch (loss 0.6039):  66%|██████▌   | 6407/9753 [1:08:17<32:09,  1.73it/s]Training 2/3 epoch (loss 0.6039):  66%|██████▌   | 6408/9753 [1:08:17<31:38,  1.76it/s]Training 2/3 epoch (loss 0.9070):  66%|██████▌   | 6408/9753 [1:08:18<31:38,  1.76it/s]Training 2/3 epoch (loss 0.9070):  66%|██████▌   | 6409/9753 [1:08:18<36:49,  1.51it/s]Training 2/3 epoch (loss 0.7497):  66%|██████▌   | 6409/9753 [1:08:18<36:49,  1.51it/s]Training 2/3 epoch (loss 0.7497):  66%|██████▌   | 6410/9753 [1:08:18<35:34,  1.57it/s]Training 2/3 epoch (loss 0.8882):  66%|██████▌   | 6410/9753 [1:08:19<35:34,  1.57it/s]Training 2/3 epoch (loss 0.8882):  66%|██████▌   | 6411/9753 [1:08:19<34:27,  1.62it/s]Training 2/3 epoch (loss 0.7399):  66%|██████▌   | 6411/9753 [1:08:19<34:27,  1.62it/s]Training 2/3 epoch (loss 0.7399):  66%|██████▌   | 6412/9753 [1:08:19<33:22,  1.67it/s]Training 2/3 epoch (loss 0.6132):  66%|██████▌   | 6412/9753 [1:08:20<33:22,  1.67it/s]Training 2/3 epoch (loss 0.6132):  66%|██████▌   | 6413/9753 [1:08:20<33:56,  1.64it/s]Training 2/3 epoch (loss 0.6084):  66%|██████▌   | 6413/9753 [1:08:21<33:56,  1.64it/s]Training 2/3 epoch (loss 0.6084):  66%|██████▌   | 6414/9753 [1:08:21<33:12,  1.68it/s]Training 2/3 epoch (loss 0.6369):  66%|██████▌   | 6414/9753 [1:08:21<33:12,  1.68it/s]Training 2/3 epoch (loss 0.6369):  66%|██████▌   | 6415/9753 [1:08:21<34:10,  1.63it/s]Training 2/3 epoch (loss 0.6349):  66%|██████▌   | 6415/9753 [1:08:22<34:10,  1.63it/s]Training 2/3 epoch (loss 0.6349):  66%|██████▌   | 6416/9753 [1:08:22<35:13,  1.58it/s]Training 2/3 epoch (loss 0.5211):  66%|██████▌   | 6416/9753 [1:08:23<35:13,  1.58it/s]Training 2/3 epoch (loss 0.5211):  66%|██████▌   | 6417/9753 [1:08:23<33:57,  1.64it/s]Training 2/3 epoch (loss 0.7962):  66%|██████▌   | 6417/9753 [1:08:23<33:57,  1.64it/s]Training 2/3 epoch (loss 0.7962):  66%|██████▌   | 6418/9753 [1:08:23<35:16,  1.58it/s]Training 2/3 epoch (loss 0.7236):  66%|██████▌   | 6418/9753 [1:08:24<35:16,  1.58it/s]Training 2/3 epoch (loss 0.7236):  66%|██████▌   | 6419/9753 [1:08:24<38:42,  1.44it/s]Training 2/3 epoch (loss 0.5374):  66%|██████▌   | 6419/9753 [1:08:25<38:42,  1.44it/s]Training 2/3 epoch (loss 0.5374):  66%|██████▌   | 6420/9753 [1:08:25<37:25,  1.48it/s]Training 2/3 epoch (loss 0.7812):  66%|██████▌   | 6420/9753 [1:08:25<37:25,  1.48it/s]Training 2/3 epoch (loss 0.7812):  66%|██████▌   | 6421/9753 [1:08:25<35:29,  1.56it/s]Training 2/3 epoch (loss 0.8205):  66%|██████▌   | 6421/9753 [1:08:26<35:29,  1.56it/s]Training 2/3 epoch (loss 0.8205):  66%|██████▌   | 6422/9753 [1:08:26<34:05,  1.63it/s]Training 2/3 epoch (loss 0.8830):  66%|██████▌   | 6422/9753 [1:08:26<34:05,  1.63it/s]Training 2/3 epoch (loss 0.8830):  66%|██████▌   | 6423/9753 [1:08:26<34:30,  1.61it/s]Training 2/3 epoch (loss 0.7696):  66%|██████▌   | 6423/9753 [1:08:27<34:30,  1.61it/s]Training 2/3 epoch (loss 0.7696):  66%|██████▌   | 6424/9753 [1:08:27<33:48,  1.64it/s]Training 2/3 epoch (loss 0.9257):  66%|██████▌   | 6424/9753 [1:08:28<33:48,  1.64it/s]Training 2/3 epoch (loss 0.9257):  66%|██████▌   | 6425/9753 [1:08:28<35:37,  1.56it/s]Training 2/3 epoch (loss 0.8247):  66%|██████▌   | 6425/9753 [1:08:29<35:37,  1.56it/s]Training 2/3 epoch (loss 0.8247):  66%|██████▌   | 6426/9753 [1:08:29<37:25,  1.48it/s]Training 2/3 epoch (loss 0.6755):  66%|██████▌   | 6426/9753 [1:08:29<37:25,  1.48it/s]Training 2/3 epoch (loss 0.6755):  66%|██████▌   | 6427/9753 [1:08:29<35:52,  1.55it/s]Training 2/3 epoch (loss 0.5533):  66%|██████▌   | 6427/9753 [1:08:30<35:52,  1.55it/s]Training 2/3 epoch (loss 0.5533):  66%|██████▌   | 6428/9753 [1:08:30<34:17,  1.62it/s]Training 2/3 epoch (loss 0.5762):  66%|██████▌   | 6428/9753 [1:08:30<34:17,  1.62it/s]Training 2/3 epoch (loss 0.5762):  66%|██████▌   | 6429/9753 [1:08:30<33:06,  1.67it/s]Training 2/3 epoch (loss 0.6655):  66%|██████▌   | 6429/9753 [1:08:31<33:06,  1.67it/s]Training 2/3 epoch (loss 0.6655):  66%|██████▌   | 6430/9753 [1:08:31<32:22,  1.71it/s]Training 2/3 epoch (loss 0.4471):  66%|██████▌   | 6430/9753 [1:08:31<32:22,  1.71it/s]Training 2/3 epoch (loss 0.4471):  66%|██████▌   | 6431/9753 [1:08:31<31:43,  1.75it/s]Training 2/3 epoch (loss 0.7600):  66%|██████▌   | 6431/9753 [1:08:32<31:43,  1.75it/s]Training 2/3 epoch (loss 0.7600):  66%|██████▌   | 6432/9753 [1:08:32<33:42,  1.64it/s]Training 2/3 epoch (loss 0.6739):  66%|██████▌   | 6432/9753 [1:08:33<33:42,  1.64it/s]Training 2/3 epoch (loss 0.6739):  66%|██████▌   | 6433/9753 [1:08:33<33:01,  1.68it/s]Training 2/3 epoch (loss 0.6992):  66%|██████▌   | 6433/9753 [1:08:33<33:01,  1.68it/s]Training 2/3 epoch (loss 0.6992):  66%|██████▌   | 6434/9753 [1:08:33<32:14,  1.72it/s]Training 2/3 epoch (loss 0.8978):  66%|██████▌   | 6434/9753 [1:08:34<32:14,  1.72it/s]Training 2/3 epoch (loss 0.8978):  66%|██████▌   | 6435/9753 [1:08:34<34:37,  1.60it/s]Training 2/3 epoch (loss 0.5220):  66%|██████▌   | 6435/9753 [1:08:35<34:37,  1.60it/s]Training 2/3 epoch (loss 0.5220):  66%|██████▌   | 6436/9753 [1:08:35<38:50,  1.42it/s]Training 2/3 epoch (loss 0.6652):  66%|██████▌   | 6436/9753 [1:08:36<38:50,  1.42it/s]Training 2/3 epoch (loss 0.6652):  66%|██████▌   | 6437/9753 [1:08:36<40:25,  1.37it/s]Training 2/3 epoch (loss 0.6975):  66%|██████▌   | 6437/9753 [1:08:36<40:25,  1.37it/s]Training 2/3 epoch (loss 0.6975):  66%|██████▌   | 6438/9753 [1:08:36<41:54,  1.32it/s]Training 2/3 epoch (loss 0.7698):  66%|██████▌   | 6438/9753 [1:08:37<41:54,  1.32it/s]Training 2/3 epoch (loss 0.7698):  66%|██████▌   | 6439/9753 [1:08:37<39:49,  1.39it/s]Training 2/3 epoch (loss 0.5825):  66%|██████▌   | 6439/9753 [1:08:38<39:49,  1.39it/s]Training 2/3 epoch (loss 0.5825):  66%|██████▌   | 6440/9753 [1:08:38<37:04,  1.49it/s]Training 2/3 epoch (loss 0.6780):  66%|██████▌   | 6440/9753 [1:08:38<37:04,  1.49it/s]Training 2/3 epoch (loss 0.6780):  66%|██████▌   | 6441/9753 [1:08:38<35:11,  1.57it/s]Training 2/3 epoch (loss 0.6506):  66%|█████���▌   | 6441/9753 [1:08:39<35:11,  1.57it/s]Training 2/3 epoch (loss 0.6506):  66%|██████▌   | 6442/9753 [1:08:39<34:35,  1.60it/s]Training 2/3 epoch (loss 0.4916):  66%|██████▌   | 6442/9753 [1:08:39<34:35,  1.60it/s]Training 2/3 epoch (loss 0.4916):  66%|██████▌   | 6443/9753 [1:08:39<33:29,  1.65it/s]Training 2/3 epoch (loss 0.4728):  66%|██████▌   | 6443/9753 [1:08:40<33:29,  1.65it/s]Training 2/3 epoch (loss 0.4728):  66%|██████▌   | 6444/9753 [1:08:40<36:21,  1.52it/s]Training 2/3 epoch (loss 0.8190):  66%|██████▌   | 6444/9753 [1:08:41<36:21,  1.52it/s]Training 2/3 epoch (loss 0.8190):  66%|██████▌   | 6445/9753 [1:08:41<36:11,  1.52it/s]Training 2/3 epoch (loss 0.5810):  66%|██████▌   | 6445/9753 [1:08:42<36:11,  1.52it/s]Training 2/3 epoch (loss 0.5810):  66%|██████▌   | 6446/9753 [1:08:42<40:02,  1.38it/s]Training 2/3 epoch (loss 0.9494):  66%|██████▌   | 6446/9753 [1:08:42<40:02,  1.38it/s]Training 2/3 epoch (loss 0.9494):  66%|██████▌   | 6447/9753 [1:08:42<42:57,  1.28it/s]Training 2/3 epoch (loss 0.6241):  66%|██████▌   | 6447/9753 [1:08:43<42:57,  1.28it/s]Training 2/3 epoch (loss 0.6241):  66%|██████▌   | 6448/9753 [1:08:43<41:46,  1.32it/s]Training 2/3 epoch (loss 0.7629):  66%|██████▌   | 6448/9753 [1:08:44<41:46,  1.32it/s]Training 2/3 epoch (loss 0.7629):  66%|██████▌   | 6449/9753 [1:08:44<38:30,  1.43it/s]Training 2/3 epoch (loss 0.6184):  66%|██████▌   | 6449/9753 [1:08:44<38:30,  1.43it/s]Training 2/3 epoch (loss 0.6184):  66%|██████▌   | 6450/9753 [1:08:44<38:23,  1.43it/s]Training 2/3 epoch (loss 0.6189):  66%|██████▌   | 6450/9753 [1:08:45<38:23,  1.43it/s]Training 2/3 epoch (loss 0.6189):  66%|██████▌   | 6451/9753 [1:08:45<36:30,  1.51it/s]Training 2/3 epoch (loss 0.5706):  66%|██████▌   | 6451/9753 [1:08:46<36:30,  1.51it/s]Training 2/3 epoch (loss 0.5706):  66%|██████▌   | 6452/9753 [1:08:46<34:43,  1.58it/s]Training 2/3 epoch (loss 0.4379):  66%|██████▌   | 6452/9753 [1:08:46<34:43,  1.58it/s]Training 2/3 epoch (loss 0.4379):  66%|██████▌   | 6453/9753 [1:08:46<33:31,  1.64it/s]Training 2/3 epoch (loss 0.8601):  66%|██████▌   | 6453/9753 [1:08:47<33:31,  1.64it/s]Training 2/3 epoch (loss 0.8601):  66%|██████▌   | 6454/9753 [1:08:47<33:43,  1.63it/s]Training 2/3 epoch (loss 0.8594):  66%|██████▌   | 6454/9753 [1:08:47<33:43,  1.63it/s]Training 2/3 epoch (loss 0.8594):  66%|██████▌   | 6455/9753 [1:08:47<33:31,  1.64it/s]Training 2/3 epoch (loss 0.8317):  66%|██████▌   | 6455/9753 [1:08:48<33:31,  1.64it/s]Training 2/3 epoch (loss 0.8317):  66%|██████▌   | 6456/9753 [1:08:48<33:32,  1.64it/s]Training 2/3 epoch (loss 0.4892):  66%|██████▌   | 6456/9753 [1:08:49<33:32,  1.64it/s]Training 2/3 epoch (loss 0.4892):  66%|██████▌   | 6457/9753 [1:08:49<35:00,  1.57it/s]Training 2/3 epoch (loss 0.8821):  66%|██████▌   | 6457/9753 [1:08:49<35:00,  1.57it/s]Training 2/3 epoch (loss 0.8821):  66%|██████▌   | 6458/9753 [1:08:49<33:59,  1.62it/s]Training 2/3 epoch (loss 0.7413):  66%|██████▌   | 6458/9753 [1:08:50<33:59,  1.62it/s]Training 2/3 epoch (loss 0.7413):  66%|██████▌   | 6459/9753 [1:08:50<35:06,  1.56it/s]Training 2/3 epoch (loss 0.6720):  66%|██████▌   | 6459/9753 [1:08:51<35:06,  1.56it/s]Training 2/3 epoch (loss 0.6720):  66%|██████▌   | 6460/9753 [1:08:51<36:16,  1.51it/s]Training 2/3 epoch (loss 0.7365):  66%|██████▌   | 6460/9753 [1:08:51<36:16,  1.51it/s]Training 2/3 epoch (loss 0.7365):  66%|██████▌   | 6461/9753 [1:08:51<36:14,  1.51it/s]Training 2/3 epoch (loss 0.8987):  66%|██████▌   | 6461/9753 [1:08:52<36:14,  1.51it/s]Training 2/3 epoch (loss 0.8987):  66%|██████▋   | 6462/9753 [1:08:52<36:27,  1.50it/s]Training 2/3 epoch (loss 0.7402):  66%|██████▋   | 6462/9753 [1:08:53<36:27,  1.50it/s]Training 2/3 epoch (loss 0.7402):  66%|██████▋   | 6463/9753 [1:08:53<35:40,  1.54it/s]Training 2/3 epoch (loss 0.6376):  66%|██████▋   | 6463/9753 [1:08:53<35:40,  1.54it/s]Training 2/3 epoch (loss 0.6376):  66%|██████▋   | 6464/9753 [1:08:53<37:34,  1.46it/s]Training 2/3 epoch (loss 0.7319):  66%|██████▋   | 6464/9753 [1:08:54<37:34,  1.46it/s]Training 2/3 epoch (loss 0.7319):  66%|██████▋   | 6465/9753 [1:08:54<35:37,  1.54it/s]Training 2/3 epoch (loss 0.6719):  66%|██████▋   | 6465/9753 [1:08:55<35:37,  1.54it/s]Training 2/3 epoch (loss 0.6719):  66%|██████▋   | 6466/9753 [1:08:55<35:24,  1.55it/s]Training 2/3 epoch (loss 0.6437):  66%|██████▋   | 6466/9753 [1:08:55<35:24,  1.55it/s]Training 2/3 epoch (loss 0.6437):  66%|██████▋   | 6467/9753 [1:08:55<34:12,  1.60it/s]Training 2/3 epoch (loss 0.5694):  66%|██████▋   | 6467/9753 [1:08:56<34:12,  1.60it/s]Training 2/3 epoch (loss 0.5694):  66%|██████▋   | 6468/9753 [1:08:56<33:10,  1.65it/s]Training 2/3 epoch (loss 0.8059):  66%|██████▋   | 6468/9753 [1:08:56<33:10,  1.65it/s]Training 2/3 epoch (loss 0.8059):  66%|██████▋   | 6469/9753 [1:08:56<32:40,  1.68it/s]Training 2/3 epoch (loss 0.7772):  66%|██████▋   | 6469/9753 [1:08:57<32:40,  1.68it/s]Training 2/3 epoch (loss 0.7772):  66%|██████▋   | 6470/9753 [1:08:57<32:04,  1.71it/s]Training 2/3 epoch (loss 0.7271):  66%|██████▋   | 6470/9753 [1:08:57<32:04,  1.71it/s]Training 2/3 epoch (loss 0.7271):  66%|██████▋   | 6471/9753 [1:08:57<32:52,  1.66it/s]Training 2/3 epoch (loss 0.6096):  66%|██████▋   | 6471/9753 [1:08:58<32:52,  1.66it/s]Training 2/3 epoch (loss 0.6096):  66%|██████▋   | 6472/9753 [1:08:58<34:43,  1.57it/s]Training 2/3 epoch (loss 0.8471):  66%|██████▋   | 6472/9753 [1:08:59<34:43,  1.57it/s]Training 2/3 epoch (loss 0.8471):  66%|██████▋   | 6473/9753 [1:08:59<33:27,  1.63it/s]Training 2/3 epoch (loss 0.7883):  66%|██████▋   | 6473/9753 [1:08:59<33:27,  1.63it/s]Training 2/3 epoch (loss 0.7883):  66%|██████▋   | 6474/9753 [1:08:59<33:50,  1.62it/s]Training 2/3 epoch (loss 0.5768):  66%|██████▋   | 6474/9753 [1:09:00<33:50,  1.62it/s]Training 2/3 epoch (loss 0.5768):  66%|██████▋   | 6475/9753 [1:09:00<32:52,  1.66it/s]Training 2/3 epoch (loss 0.9981):  66%|██████▋   | 6475/9753 [1:09:01<32:52,  1.66it/s]Training 2/3 epoch (loss 0.9981):  66%|██████▋   | 6476/9753 [1:09:01<35:31,  1.54it/s]Training 2/3 epoch (loss 0.9321):  66%|██████▋   | 6476/9753 [1:09:02<35:31,  1.54it/s]Training 2/3 epoch (loss 0.9321):  66%|██████▋   | 6477/9753 [1:09:02<38:48,  1.41it/s]Training 2/3 epoch (loss 0.5647):  66%|██████▋   | 6477/9753 [1:09:02<38:48,  1.41it/s]Training 2/3 epoch (loss 0.5647):  66%|██████▋   | 6478/9753 [1:09:02<36:29,  1.50it/s]Training 2/3 epoch (loss 0.7224):  66%|██████▋   | 6478/9753 [1:09:03<36:29,  1.50it/s]Training 2/3 epoch (loss 0.7224):  66%|██████▋   | 6479/9753 [1:09:03<37:00,  1.47it/s]Training 2/3 epoch (loss 0.4371):  66%|██████▋   | 6479/9753 [1:09:04<37:00,  1.47it/s]Training 2/3 epoch (loss 0.4371):  66%|██████▋   | 6480/9753 [1:09:04<37:21,  1.46it/s]Training 2/3 epoch (loss 0.6854):  66%|██████▋   | 6480/9753 [1:09:04<37:21,  1.46it/s]Training 2/3 epoch (loss 0.6854):  66%|██████▋   | 6481/9753 [1:09:04<35:40,  1.53it/s]Training 2/3 epoch (loss 0.8902):  66%|██████▋   | 6481/9753 [1:09:05<35:40,  1.53it/s]Training 2/3 epoch (loss 0.8902):  66%|██████▋   | 6482/9753 [1:09:05<34:10,  1.60it/s]Training 2/3 epoch (loss 0.7973):  66%|██████▋   | 6482/9753 [1:09:05<34:10,  1.60it/s]Training 2/3 epoch (loss 0.7973):  66%|██████▋   | 6483/9753 [1:09:05<35:00,  1.56it/s]Training 2/3 epoch (loss 0.7317):  66%|██████▋   | 6483/9753 [1:09:06<35:00,  1.56it/s]Training 2/3 epoch (loss 0.7317):  66%|██████▋   | 6484/9753 [1:09:06<33:48,  1.61it/s]Training 2/3 epoch (loss 0.7365):  66%|██████▋   | 6484/9753 [1:09:07<33:48,  1.61it/s]Training 2/3 epoch (loss 0.7365):  66%|██████▋   | 6485/9753 [1:09:07<33:24,  1.63it/s]Training 2/3 epoch (loss 0.6591):  66%|██████▋   | 6485/9753 [1:09:07<33:24,  1.63it/s]Training 2/3 epoch (loss 0.6591):  67%|██████▋   | 6486/9753 [1:09:07<32:25,  1.68it/s]Training 2/3 epoch (loss 0.7449):  67%|██████▋   | 6486/9753 [1:09:08<32:25,  1.68it/s]Training 2/3 epoch (loss 0.7449):  67%|██████▋   | 6487/9753 [1:09:08<33:09,  1.64it/s]Training 2/3 epoch (loss 0.6405):  67%|██████▋   | 6487/9753 [1:09:08<33:09,  1.64it/s]Training 2/3 epoch (loss 0.6405):  67%|██████▋   | 6488/9753 [1:09:08<34:39,  1.57it/s]Training 2/3 epoch (loss 0.5785):  67%|██████▋   | 6488/9753 [1:09:09<34:39,  1.57it/s]Training 2/3 epoch (loss 0.5785):  67%|██████▋   | 6489/9753 [1:09:09<33:14,  1.64it/s]Training 2/3 epoch (loss 0.7731):  67%|██████▋   | 6489/9753 [1:09:10<33:14,  1.64it/s]Training 2/3 epoch (loss 0.7731):  67%|██████▋   | 6490/9753 [1:09:10<32:40,  1.66it/s]Training 2/3 epoch (loss 0.5811):  67%|██████▋   | 6490/9753 [1:09:10<32:40,  1.66it/s]Training 2/3 epoch (loss 0.5811):  67%|██████▋   | 6491/9753 [1:09:10<31:54,  1.70it/s]Training 2/3 epoch (loss 0.6453):  67%|██████▋   | 6491/9753 [1:09:11<31:54,  1.70it/s]Training 2/3 epoch (loss 0.6453):  67%|██████▋   | 6492/9753 [1:09:11<32:19,  1.68it/s]Training 2/3 epoch (loss 0.8085):  67%|██████▋   | 6492/9753 [1:09:11<32:19,  1.68it/s]Training 2/3 epoch (loss 0.8085):  67%|██████▋   | 6493/9753 [1:09:11<31:57,  1.70it/s]Training 2/3 epoch (loss 0.6034):  67%|██████▋   | 6493/9753 [1:09:12<31:57,  1.70it/s]Training 2/3 epoch (loss 0.6034):  67%|██████▋   | 6494/9753 [1:09:12<32:26,  1.67it/s]Training 2/3 epoch (loss 0.5404):  67%|██████▋   | 6494/9753 [1:09:12<32:26,  1.67it/s]Training 2/3 epoch (loss 0.5404):  67%|██████▋   | 6495/9753 [1:09:12<31:51,  1.70it/s]Training 2/3 epoch (loss 0.9633):  67%|██████▋   | 6495/9753 [1:09:13<31:51,  1.70it/s]Training 2/3 epoch (loss 0.9633):  67%|██████▋   | 6496/9753 [1:09:13<35:30,  1.53it/s]Training 2/3 epoch (loss 0.6983):  67%|██████▋   | 6496/9753 [1:09:14<35:30,  1.53it/s]Training 2/3 epoch (loss 0.6983):  67%|██████▋   | 6497/9753 [1:09:14<34:17,  1.58it/s]Training 2/3 epoch (loss 0.5072):  67%|██████▋   | 6497/9753 [1:09:15<34:17,  1.58it/s]Training 2/3 epoch (loss 0.5072):  67%|██████▋   | 6498/9753 [1:09:15<37:33,  1.44it/s]Training 2/3 epoch (loss 0.6956):  67%|██████▋   | 6498/9753 [1:09:16<37:33,  1.44it/s]Training 2/3 epoch (loss 0.6956):  67%|██████▋   | 6499/9753 [1:09:16<40:59,  1.32it/s]Training 2/3 epoch (loss 0.7640):  67%|██████▋   | 6499/9753 [1:09:16<40:59,  1.32it/s]Training 2/3 epoch (loss 0.7640):  67%|██████▋   | 6500/9753 [1:09:16<37:43,  1.44it/s]Training 2/3 epoch (loss 0.3530):  67%|██████▋   | 6500/9753 [1:09:17<37:43,  1.44it/s]Training 2/3 epoch (loss 0.3530):  67%|██████▋   | 6501/9753 [1:09:17<40:55,  1.32it/s]Training 2/3 epoch (loss 0.9431):  67%|██████▋   | 6501/9753 [1:09:18<40:55,  1.32it/s]Training 2/3 epoch (loss 0.9431):  67%|██████▋   | 6502/9753 [1:09:18<37:37,  1.44it/s]Training 3/3 epoch (loss 0.4676):  67%|██████▋   | 6502/9753 [1:09:18<37:37,  1.44it/s]Training 3/3 epoch (loss 0.4676):  67%|██████▋   | 6503/9753 [1:09:18<35:12,  1.54it/s]Training 3/3 epoch (loss 0.5810):  67%|██████▋   | 6503/9753 [1:09:19<35:12,  1.54it/s]Training 3/3 epoch (loss 0.5810):  67%|██████▋   | 6504/9753 [1:09:19<33:54,  1.60it/s]Training 3/3 epoch (loss 0.8260):  67%|██████▋   | 6504/9753 [1:09:19<33:54,  1.60it/s]Training 3/3 epoch (loss 0.8260):  67%|██████▋   | 6505/9753 [1:09:19<34:27,  1.57it/s]Training 3/3 epoch (loss 0.6952):  67%|██████▋   | 6505/9753 [1:09:20<34:27,  1.57it/s]Training 3/3 epoch (loss 0.6952):  67%|██████▋   | 6506/9753 [1:09:20<36:49,  1.47it/s]Training 3/3 epoch (loss 0.7140):  67%|██████▋   | 6506/9753 [1:09:21<36:49,  1.47it/s]Training 3/3 epoch (loss 0.7140):  67%|██████▋   | 6507/9753 [1:09:21<34:41,  1.56it/s]Training 3/3 epoch (loss 0.8341):  67%|██████▋   | 6507/9753 [1:09:21<34:41,  1.56it/s]Training 3/3 epoch (loss 0.8341):  67%|██████▋   | 6508/9753 [1:09:21<33:18,  1.62it/s]Training 3/3 epoch (loss 0.7542):  67%|██████▋   | 6508/9753 [1:09:22<33:18,  1.62it/s]Training 3/3 epoch (loss 0.7542):  67%|██████▋   | 6509/9753 [1:09:22<34:03,  1.59it/s]Training 3/3 epoch (loss 0.8990):  67%|██████▋   | 6509/9753 [1:09:22<34:03,  1.59it/s]Training 3/3 epoch (loss 0.8990):  67%|██████▋   | 6510/9753 [1:09:22<32:55,  1.64it/s]Training 3/3 epoch (loss 0.6865):  67%|██████▋   | 6510/9753 [1:09:23<32:55,  1.64it/s]Training 3/3 epoch (loss 0.6865):  67%|██████▋   | 6511/9753 [1:09:23<31:56,  1.69it/s]Training 3/3 epoch (loss 0.7156):  67%|██████▋   | 6511/9753 [1:09:24<31:56,  1.69it/s]Training 3/3 epoch (loss 0.7156):  67%|██████▋   | 6512/9753 [1:09:24<35:44,  1.51it/s]Training 3/3 epoch (loss 0.6755):  67%|██████▋   | 6512/9753 [1:09:24<35:44,  1.51it/s]Training 3/3 epoch (loss 0.6755):  67%|██████▋   | 6513/9753 [1:09:24<34:33,  1.56it/s]Training 3/3 epoch (loss 0.4856):  67%|██████▋   | 6513/9753 [1:09:25<34:33,  1.56it/s]Training 3/3 epoch (loss 0.4856):  67%|██████▋   | 6514/9753 [1:09:25<33:54,  1.59it/s]Training 3/3 epoch (loss 0.5168):  67%|██████▋   | 6514/9753 [1:09:26<33:54,  1.59it/s]Training 3/3 epoch (loss 0.5168):  67%|██████▋   | 6515/9753 [1:09:26<32:46,  1.65it/s]Training 3/3 epoch (loss 0.4286):  67%|██████▋   | 6515/9753 [1:09:26<32:46,  1.65it/s]Training 3/3 epoch (loss 0.4286):  67%|██████▋   | 6516/9753 [1:09:26<31:49,  1.70it/s]Training 3/3 epoch (loss 0.6488):  67%|██████▋   | 6516/9753 [1:09:27<31:49,  1.70it/s]Training 3/3 epoch (loss 0.6488):  67%|██████▋   | 6517/9753 [1:09:27<33:02,  1.63it/s]Training 3/3 epoch (loss 0.5838):  67%|██████▋   | 6517/9753 [1:09:28<33:02,  1.63it/s]Training 3/3 epoch (loss 0.5838):  67%|██████▋   | 6518/9753 [1:09:28<37:47,  1.43it/s]Training 3/3 epoch (loss 0.6472):  67%|██████▋   | 6518/9753 [1:09:28<37:47,  1.43it/s]Training 3/3 epoch (loss 0.6472):  67%|██████▋   | 6519/9753 [1:09:28<35:45,  1.51it/s]Training 3/3 epoch (loss 0.9109):  67%|██████▋   | 6519/9753 [1:09:29<35:45,  1.51it/s]Training 3/3 epoch (loss 0.9109):  67%|██████▋   | 6520/9753 [1:09:29<34:15,  1.57it/s]Training 3/3 epoch (loss 0.7197):  67%|██████▋   | 6520/9753 [1:09:29<34:15,  1.57it/s]Training 3/3 epoch (loss 0.7197):  67%|██████▋   | 6521/9753 [1:09:29<32:59,  1.63it/s]Training 3/3 epoch (loss 0.5636):  67%|██████▋   | 6521/9753 [1:09:30<32:59,  1.63it/s]Training 3/3 epoch (loss 0.5636):  67%|██████▋   | 6522/9753 [1:09:30<32:07,  1.68it/s]Training 3/3 epoch (loss 0.8403):  67%|██████▋   | 6522/9753 [1:09:31<32:07,  1.68it/s]Training 3/3 epoch (loss 0.8403):  67%|██████▋   | 6523/9753 [1:09:31<31:17,  1.72it/s]Training 3/3 epoch (loss 0.6986):  67%|██████▋   | 6523/9753 [1:09:31<31:17,  1.72it/s]Training 3/3 epoch (loss 0.6986):  67%|██████▋   | 6524/9753 [1:09:31<37:03,  1.45it/s]Training 3/3 epoch (loss 0.4305):  67%|██████▋   | 6524/9753 [1:09:32<37:03,  1.45it/s]Training 3/3 epoch (loss 0.4305):  67%|██████▋   | 6525/9753 [1:09:32<34:48,  1.55it/s]Training 3/3 epoch (loss 0.9286):  67%|██████▋   | 6525/9753 [1:09:33<34:48,  1.55it/s]Training 3/3 epoch (loss 0.9286):  67%|██████▋   | 6526/9753 [1:09:33<34:14,  1.57it/s]Training 3/3 epoch (loss 0.7806):  67%|██████▋   | 6526/9753 [1:09:33<34:14,  1.57it/s]Training 3/3 epoch (loss 0.7806):  67%|██████▋   | 6527/9753 [1:09:33<33:50,  1.59it/s]Training 3/3 epoch (loss 0.5114):  67%|██████▋   | 6527/9753 [1:09:34<33:50,  1.59it/s]Training 3/3 epoch (loss 0.5114):  67%|██████▋   | 6528/9753 [1:09:34<35:22,  1.52it/s]Training 3/3 epoch (loss 0.6416):  67%|██████▋   | 6528/9753 [1:09:35<35:22,  1.52it/s]Training 3/3 epoch (loss 0.6416):  67%|██████▋   | 6529/9753 [1:09:35<34:11,  1.57it/s]Training 3/3 epoch (loss 0.7311):  67%|██████▋   | 6529/9753 [1:09:35<34:11,  1.57it/s]Training 3/3 epoch (loss 0.7311):  67%|██████▋   | 6530/9753 [1:09:35<34:17,  1.57it/s]Training 3/3 epoch (loss 0.3602):  67%|██████▋   | 6530/9753 [1:09:36<34:17,  1.57it/s]Training 3/3 epoch (loss 0.3602):  67%|██████▋   | 6531/9753 [1:09:36<34:16,  1.57it/s]Training 3/3 epoch (loss 0.7843):  67%|██████▋   | 6531/9753 [1:09:36<34:16,  1.57it/s]Training 3/3 epoch (loss 0.7843):  67%|██████▋   | 6532/9753 [1:09:36<33:43,  1.59it/s]Training 3/3 epoch (loss 0.8138):  67%|██████▋   | 6532/9753 [1:09:37<33:43,  1.59it/s]Training 3/3 epoch (loss 0.8138):  67%|██████▋   | 6533/9753 [1:09:37<32:45,  1.64it/s]Training 3/3 epoch (loss 0.5115):  67%|██████▋   | 6533/9753 [1:09:38<32:45,  1.64it/s]Training 3/3 epoch (loss 0.5115):  67%|██████▋   | 6534/9753 [1:09:38<32:53,  1.63it/s]Training 3/3 epoch (loss 0.6146):  67%|██████▋   | 6534/9753 [1:09:38<32:53,  1.63it/s]Training 3/3 epoch (loss 0.6146):  67%|██████▋   | 6535/9753 [1:09:38<32:09,  1.67it/s]Training 3/3 epoch (loss 0.5192):  67%|██████▋   | 6535/9753 [1:09:39<32:09,  1.67it/s]Training 3/3 epoch (loss 0.5192):  67%|██████▋   | 6536/9753 [1:09:39<33:43,  1.59it/s]Training 3/3 epoch (loss 0.7807):  67%|██████▋   | 6536/9753 [1:09:39<33:43,  1.59it/s]Training 3/3 epoch (loss 0.7807):  67%|██████▋   | 6537/9753 [1:09:39<32:53,  1.63it/s]Training 3/3 epoch (loss 0.6325):  67%|██████▋   | 6537/9753 [1:09:40<32:53,  1.63it/s]Training 3/3 epoch (loss 0.6325):  67%|██████▋   | 6538/9753 [1:09:40<31:52,  1.68it/s]Training 3/3 epoch (loss 0.9212):  67%|██████▋   | 6538/9753 [1:09:41<31:52,  1.68it/s]Training 3/3 epoch (loss 0.9212):  67%|██████▋   | 6539/9753 [1:09:41<32:48,  1.63it/s]Training 3/3 epoch (loss 0.6171):  67%|██████▋   | 6539/9753 [1:09:41<32:48,  1.63it/s]Training 3/3 epoch (loss 0.6171):  67%|██████▋   | 6540/9753 [1:09:41<32:23,  1.65it/s]Training 3/3 epoch (loss 0.5328):  67%|██████▋   | 6540/9753 [1:09:42<32:23,  1.65it/s]Training 3/3 epoch (loss 0.5328):  67%|██████▋   | 6541/9753 [1:09:42<31:27,  1.70it/s]Training 3/3 epoch (loss 0.7204):  67%|██████▋   | 6541/9753 [1:09:43<31:27,  1.70it/s]Training 3/3 epoch (loss 0.7204):  67%|██████▋   | 6542/9753 [1:09:43<36:24,  1.47it/s]Training 3/3 epoch (loss 0.7138):  67%|██████▋   | 6542/9753 [1:09:43<36:24,  1.47it/s]Training 3/3 epoch (loss 0.7138):  67%|██████▋   | 6543/9753 [1:09:43<34:46,  1.54it/s]Training 3/3 epoch (loss 0.6107):  67%|██████▋   | 6543/9753 [1:09:44<34:46,  1.54it/s]Training 3/3 epoch (loss 0.6107):  67%|██████▋   | 6544/9753 [1:09:44<35:10,  1.52it/s]Training 3/3 epoch (loss 0.7311):  67%|██████▋   | 6544/9753 [1:09:45<35:10,  1.52it/s]Training 3/3 epoch (loss 0.7311):  67%|██████▋   | 6545/9753 [1:09:45<34:45,  1.54it/s]Training 3/3 epoch (loss 0.5965):  67%|██████▋   | 6545/9753 [1:09:45<34:45,  1.54it/s]Training 3/3 epoch (loss 0.5965):  67%|██████▋   | 6546/9753 [1:09:45<33:05,  1.62it/s]Training 3/3 epoch (loss 0.5935):  67%|██████▋   | 6546/9753 [1:09:46<33:05,  1.62it/s]Training 3/3 epoch (loss 0.5935):  67%|██████▋   | 6547/9753 [1:09:46<33:13,  1.61it/s]Training 3/3 epoch (loss 0.7133):  67%|██████▋   | 6547/9753 [1:09:47<33:13,  1.61it/s]Training 3/3 epoch (loss 0.7133):  67%|██████▋   | 6548/9753 [1:09:47<36:27,  1.46it/s]Training 3/3 epoch (loss 0.7178):  67%|██████▋   | 6548/9753 [1:09:47<36:27,  1.46it/s]Training 3/3 epoch (loss 0.7178):  67%|██████▋   | 6549/9753 [1:09:47<34:32,  1.55it/s]Training 3/3 epoch (loss 0.5164):  67%|██████▋   | 6549/9753 [1:09:48<34:32,  1.55it/s]Training 3/3 epoch (loss 0.5164):  67%|██████▋   | 6550/9753 [1:09:48<33:52,  1.58it/s]Training 3/3 epoch (loss 0.4976):  67%|██████▋   | 6550/9753 [1:09:49<33:52,  1.58it/s]Training 3/3 epoch (loss 0.4976):  67%|██████▋   | 6551/9753 [1:09:49<36:39,  1.46it/s]Training 3/3 epoch (loss 0.8301):  67%|██████▋   | 6551/9753 [1:09:49<36:39,  1.46it/s]Training 3/3 epoch (loss 0.8301):  67%|██████▋   | 6552/9753 [1:09:49<38:33,  1.38it/s]Training 3/3 epoch (loss 0.8572):  67%|██████▋   | 6552/9753 [1:09:50<38:33,  1.38it/s]Training 3/3 epoch (loss 0.8572):  67%|██████▋   | 6553/9753 [1:09:50<40:32,  1.32it/s]Training 3/3 epoch (loss 0.5778):  67%|██████▋   | 6553/9753 [1:09:51<40:32,  1.32it/s]Training 3/3 epoch (loss 0.5778):  67%|██████▋   | 6554/9753 [1:09:51<39:46,  1.34it/s]Training 3/3 epoch (loss 0.6984):  67%|██████▋   | 6554/9753 [1:09:52<39:46,  1.34it/s]Training 3/3 epoch (loss 0.6984):  67%|██████▋   | 6555/9753 [1:09:52<37:30,  1.42it/s]Training 3/3 epoch (loss 0.5378):  67%|██████▋   | 6555/9753 [1:09:52<37:30,  1.42it/s]Training 3/3 epoch (loss 0.5378):  67%|██████▋   | 6556/9753 [1:09:52<35:33,  1.50it/s]Training 3/3 epoch (loss 0.7786):  67%|██████▋   | 6556/9753 [1:09:53<35:33,  1.50it/s]Training 3/3 epoch (loss 0.7786):  67%|██████▋   | 6557/9753 [1:09:53<36:10,  1.47it/s]Training 3/3 epoch (loss 0.5280):  67%|██████▋   | 6557/9753 [1:09:53<36:10,  1.47it/s]Training 3/3 epoch (loss 0.5280):  67%|██████▋   | 6558/9753 [1:09:53<35:27,  1.50it/s]Training 3/3 epoch (loss 0.7907):  67%|██████▋   | 6558/9753 [1:09:54<35:27,  1.50it/s]Training 3/3 epoch (loss 0.7907):  67%|██████▋   | 6559/9753 [1:09:54<36:11,  1.47it/s]Training 3/3 epoch (loss 0.5802):  67%|██████▋   | 6559/9753 [1:09:55<36:11,  1.47it/s]Training 3/3 epoch (loss 0.5802):  67%|██████▋   | 6560/9753 [1:09:55<36:06,  1.47it/s]Training 3/3 epoch (loss 0.3556):  67%|██████▋   | 6560/9753 [1:09:55<36:06,  1.47it/s]Training 3/3 epoch (loss 0.3556):  67%|██████▋   | 6561/9753 [1:09:55<34:10,  1.56it/s]Training 3/3 epoch (loss 0.4661):  67%|██████▋   | 6561/9753 [1:09:56<34:10,  1.56it/s]Training 3/3 epoch (loss 0.4661):  67%|██████▋   | 6562/9753 [1:09:56<38:06,  1.40it/s]Training 3/3 epoch (loss 0.6808):  67%|██████▋   | 6562/9753 [1:09:57<38:06,  1.40it/s]Training 3/3 epoch (loss 0.6808):  67%|██████▋   | 6563/9753 [1:09:57<35:43,  1.49it/s]Training 3/3 epoch (loss 0.5291):  67%|██████▋   | 6563/9753 [1:09:57<35:43,  1.49it/s]Training 3/3 epoch (loss 0.5291):  67%|██████▋   | 6564/9753 [1:09:57<33:39,  1.58it/s]Training 3/3 epoch (loss 0.5132):  67%|██████▋   | 6564/9753 [1:09:58<33:39,  1.58it/s]Training 3/3 epoch (loss 0.5132):  67%|██████▋   | 6565/9753 [1:09:58<35:09,  1.51it/s]Training 3/3 epoch (loss 0.6871):  67%|██████▋   | 6565/9753 [1:09:59<35:09,  1.51it/s]Training 3/3 epoch (loss 0.6871):  67%|██████▋   | 6566/9753 [1:09:59<35:00,  1.52it/s]Training 3/3 epoch (loss 0.5730):  67%|██████▋   | 6566/9753 [1:09:59<35:00,  1.52it/s]Training 3/3 epoch (loss 0.5730):  67%|████��█▋   | 6567/9753 [1:09:59<33:44,  1.57it/s]Training 3/3 epoch (loss 0.6431):  67%|██████▋   | 6567/9753 [1:10:00<33:44,  1.57it/s]Training 3/3 epoch (loss 0.6431):  67%|██████▋   | 6568/9753 [1:10:00<33:09,  1.60it/s]Training 3/3 epoch (loss 0.7364):  67%|██████▋   | 6568/9753 [1:10:01<33:09,  1.60it/s]Training 3/3 epoch (loss 0.7364):  67%|██████▋   | 6569/9753 [1:10:01<36:38,  1.45it/s]Training 3/3 epoch (loss 0.5780):  67%|██████▋   | 6569/9753 [1:10:01<36:38,  1.45it/s]Training 3/3 epoch (loss 0.5780):  67%|██████▋   | 6570/9753 [1:10:01<34:45,  1.53it/s]Training 3/3 epoch (loss 0.3689):  67%|██████▋   | 6570/9753 [1:10:02<34:45,  1.53it/s]Training 3/3 epoch (loss 0.3689):  67%|██████▋   | 6571/9753 [1:10:02<33:03,  1.60it/s]Training 3/3 epoch (loss 0.4070):  67%|██████▋   | 6571/9753 [1:10:03<33:03,  1.60it/s]Training 3/3 epoch (loss 0.4070):  67%|██████▋   | 6572/9753 [1:10:03<37:52,  1.40it/s]Training 3/3 epoch (loss 0.6455):  67%|██████▋   | 6572/9753 [1:10:03<37:52,  1.40it/s]Training 3/3 epoch (loss 0.6455):  67%|██████▋   | 6573/9753 [1:10:03<35:43,  1.48it/s]Training 3/3 epoch (loss 0.6271):  67%|██████▋   | 6573/9753 [1:10:04<35:43,  1.48it/s]Training 3/3 epoch (loss 0.6271):  67%|██████▋   | 6574/9753 [1:10:04<35:15,  1.50it/s]Training 3/3 epoch (loss 0.5839):  67%|██████▋   | 6574/9753 [1:10:05<35:15,  1.50it/s]Training 3/3 epoch (loss 0.5839):  67%|██████▋   | 6575/9753 [1:10:05<33:21,  1.59it/s]Training 3/3 epoch (loss 0.8159):  67%|██████▋   | 6575/9753 [1:10:05<33:21,  1.59it/s]Training 3/3 epoch (loss 0.8159):  67%|██████▋   | 6576/9753 [1:10:05<36:14,  1.46it/s]Training 3/3 epoch (loss 0.7331):  67%|██████▋   | 6576/9753 [1:10:06<36:14,  1.46it/s]Training 3/3 epoch (loss 0.7331):  67%|██████▋   | 6577/9753 [1:10:06<34:15,  1.54it/s]Training 3/3 epoch (loss 0.6052):  67%|██████▋   | 6577/9753 [1:10:07<34:15,  1.54it/s]Training 3/3 epoch (loss 0.6052):  67%|██████▋   | 6578/9753 [1:10:07<32:33,  1.63it/s]Training 3/3 epoch (loss 0.4748):  67%|██████▋   | 6578/9753 [1:10:07<32:33,  1.63it/s]Training 3/3 epoch (loss 0.4748):  67%|██████▋   | 6579/9753 [1:10:07<31:22,  1.69it/s]Training 3/3 epoch (loss 0.7352):  67%|██████▋   | 6579/9753 [1:10:08<31:22,  1.69it/s]Training 3/3 epoch (loss 0.7352):  67%|██████▋   | 6580/9753 [1:10:08<33:07,  1.60it/s]Training 3/3 epoch (loss 0.6550):  67%|██████▋   | 6580/9753 [1:10:08<33:07,  1.60it/s]Training 3/3 epoch (loss 0.6550):  67%|██████▋   | 6581/9753 [1:10:08<32:14,  1.64it/s]Training 3/3 epoch (loss 0.8061):  67%|██████▋   | 6581/9753 [1:10:09<32:14,  1.64it/s]Training 3/3 epoch (loss 0.8061):  67%|██████▋   | 6582/9753 [1:10:09<31:45,  1.66it/s]Training 3/3 epoch (loss 0.4116):  67%|██████▋   | 6582/9753 [1:10:10<31:45,  1.66it/s]Training 3/3 epoch (loss 0.4116):  67%|██████▋   | 6583/9753 [1:10:10<30:53,  1.71it/s]Training 3/3 epoch (loss 0.6998):  67%|██████▋   | 6583/9753 [1:10:10<30:53,  1.71it/s]Training 3/3 epoch (loss 0.6998):  68%|██████▊   | 6584/9753 [1:10:10<32:41,  1.62it/s]Training 3/3 epoch (loss 0.7120):  68%|██████▊   | 6584/9753 [1:10:11<32:41,  1.62it/s]Training 3/3 epoch (loss 0.7120):  68%|██████▊   | 6585/9753 [1:10:11<31:29,  1.68it/s]Training 3/3 epoch (loss 0.6079):  68%|██████▊   | 6585/9753 [1:10:11<31:29,  1.68it/s]Training 3/3 epoch (loss 0.6079):  68%|██████▊   | 6586/9753 [1:10:11<30:49,  1.71it/s]Training 3/3 epoch (loss 0.5668):  68%|██████▊   | 6586/9753 [1:10:12<30:49,  1.71it/s]Training 3/3 epoch (loss 0.5668):  68%|██████▊   | 6587/9753 [1:10:12<30:18,  1.74it/s]Training 3/3 epoch (loss 0.6422):  68%|██████▊   | 6587/9753 [1:10:12<30:18,  1.74it/s]Training 3/3 epoch (loss 0.6422):  68%|██████▊   | 6588/9753 [1:10:12<30:18,  1.74it/s]Training 3/3 epoch (loss 0.6721):  68%|██████▊   | 6588/9753 [1:10:13<30:18,  1.74it/s]Training 3/3 epoch (loss 0.6721):  68%|██████▊   | 6589/9753 [1:10:13<32:06,  1.64it/s]Training 3/3 epoch (loss 0.5089):  68%|██████▊   | 6589/9753 [1:10:14<32:06,  1.64it/s]Training 3/3 epoch (loss 0.5089):  68%|██████▊   | 6590/9753 [1:10:14<31:19,  1.68it/s]Training 3/3 epoch (loss 0.8906):  68%|██████▊   | 6590/9753 [1:10:14<31:19,  1.68it/s]Training 3/3 epoch (loss 0.8906):  68%|██████▊   | 6591/9753 [1:10:14<30:36,  1.72it/s]Training 3/3 epoch (loss 0.4845):  68%|██████▊   | 6591/9753 [1:10:15<30:36,  1.72it/s]Training 3/3 epoch (loss 0.4845):  68%|██████▊   | 6592/9753 [1:10:15<32:08,  1.64it/s]Training 3/3 epoch (loss 0.8655):  68%|██████▊   | 6592/9753 [1:10:16<32:08,  1.64it/s]Training 3/3 epoch (loss 0.8655):  68%|██████▊   | 6593/9753 [1:10:16<32:28,  1.62it/s]Training 3/3 epoch (loss 0.9633):  68%|██████▊   | 6593/9753 [1:10:16<32:28,  1.62it/s]Training 3/3 epoch (loss 0.9633):  68%|██████▊   | 6594/9753 [1:10:16<36:53,  1.43it/s]Training 3/3 epoch (loss 0.7809):  68%|██████▊   | 6594/9753 [1:10:17<36:53,  1.43it/s]Training 3/3 epoch (loss 0.7809):  68%|██████▊   | 6595/9753 [1:10:17<35:04,  1.50it/s]Training 3/3 epoch (loss 0.6187):  68%|██████▊   | 6595/9753 [1:10:18<35:04,  1.50it/s]Training 3/3 epoch (loss 0.6187):  68%|██████▊   | 6596/9753 [1:10:18<34:05,  1.54it/s]Training 3/3 epoch (loss 0.7596):  68%|██████▊   | 6596/9753 [1:10:18<34:05,  1.54it/s]Training 3/3 epoch (loss 0.7596):  68%|██████▊   | 6597/9753 [1:10:18<33:35,  1.57it/s]Training 3/3 epoch (loss 0.5878):  68%|██████▊   | 6597/9753 [1:10:19<33:35,  1.57it/s]Training 3/3 epoch (loss 0.5878):  68%|██████▊   | 6598/9753 [1:10:19<32:11,  1.63it/s]Training 3/3 epoch (loss 0.5609):  68%|██████▊   | 6598/9753 [1:10:19<32:11,  1.63it/s]Training 3/3 epoch (loss 0.5609):  68%|██████▊   | 6599/9753 [1:10:19<31:19,  1.68it/s]Training 3/3 epoch (loss 0.6723):  68%|██████▊   | 6599/9753 [1:10:20<31:19,  1.68it/s]Training 3/3 epoch (loss 0.6723):  68%|██████▊   | 6600/9753 [1:10:20<31:30,  1.67it/s]Training 3/3 epoch (loss 0.8903):  68%|██████▊   | 6600/9753 [1:10:21<31:30,  1.67it/s]Training 3/3 epoch (loss 0.8903):  68%|██████▊   | 6601/9753 [1:10:21<31:00,  1.69it/s]Training 3/3 epoch (loss 0.5550):  68%|██████▊   | 6601/9753 [1:10:21<31:00,  1.69it/s]Training 3/3 epoch (loss 0.5550):  68%|██████▊   | 6602/9753 [1:10:21<30:51,  1.70it/s]Training 3/3 epoch (loss 0.5365):  68%|██████▊   | 6602/9753 [1:10:22<30:51,  1.70it/s]Training 3/3 epoch (loss 0.5365):  68%|██████▊   | 6603/9753 [1:10:22<30:16,  1.73it/s]Training 3/3 epoch (loss 0.8124):  68%|██████▊   | 6603/9753 [1:10:22<30:16,  1.73it/s]Training 3/3 epoch (loss 0.8124):  68%|██████▊   | 6604/9753 [1:10:22<31:23,  1.67it/s]Training 3/3 epoch (loss 0.7902):  68%|██████▊   | 6604/9753 [1:10:23<31:23,  1.67it/s]Training 3/3 epoch (loss 0.7902):  68%|██████▊   | 6605/9753 [1:10:23<32:15,  1.63it/s]Training 3/3 epoch (loss 0.8093):  68%|██████▊   | 6605/9753 [1:10:24<32:15,  1.63it/s]Training 3/3 epoch (loss 0.8093):  68%|██████▊   | 6606/9753 [1:10:24<36:14,  1.45it/s]Training 3/3 epoch (loss 0.8064):  68%|██████▊   | 6606/9753 [1:10:24<36:14,  1.45it/s]Training 3/3 epoch (loss 0.8064):  68%|██████▊   | 6607/9753 [1:10:24<34:51,  1.50it/s]Training 3/3 epoch (loss 0.3589):  68%|██████▊   | 6607/9753 [1:10:25<34:51,  1.50it/s]Training 3/3 epoch (loss 0.3589):  68%|██████▊   | 6608/9753 [1:10:25<34:59,  1.50it/s]Training 3/3 epoch (loss 0.5720):  68%|██████▊   | 6608/9753 [1:10:26<34:59,  1.50it/s]Training 3/3 epoch (loss 0.5720):  68%|██████▊   | 6609/9753 [1:10:26<33:17,  1.57it/s]Training 3/3 epoch (loss 0.6996):  68%|██████▊   | 6609/9753 [1:10:26<33:17,  1.57it/s]Training 3/3 epoch (loss 0.6996):  68%|██████▊   | 6610/9753 [1:10:26<35:23,  1.48it/s]Training 3/3 epoch (loss 0.7730):  68%|██████▊   | 6610/9753 [1:10:27<35:23,  1.48it/s]Training 3/3 epoch (loss 0.7730):  68%|██████▊   | 6611/9753 [1:10:27<33:16,  1.57it/s]Training 3/3 epoch (loss 0.7212):  68%|██████▊   | 6611/9753 [1:10:28<33:16,  1.57it/s]Training 3/3 epoch (loss 0.7212):  68%|██████▊   | 6612/9753 [1:10:28<32:00,  1.64it/s]Training 3/3 epoch (loss 0.7602):  68%|██████▊   | 6612/9753 [1:10:28<32:00,  1.64it/s]Training 3/3 epoch (loss 0.7602):  68%|██████▊   | 6613/9753 [1:10:28<31:05,  1.68it/s]Training 3/3 epoch (loss 0.4141):  68%|██████▊   | 6613/9753 [1:10:29<31:05,  1.68it/s]Training 3/3 epoch (loss 0.4141):  68%|██████▊   | 6614/9753 [1:10:29<30:19,  1.73it/s]Training 3/3 epoch (loss 0.5206):  68%|██████▊   | 6614/9753 [1:10:29<30:19,  1.73it/s]Training 3/3 epoch (loss 0.5206):  68%|██████▊   | 6615/9753 [1:10:29<30:04,  1.74it/s]Training 3/3 epoch (loss 0.4125):  68%|██████▊   | 6615/9753 [1:10:30<30:04,  1.74it/s]Training 3/3 epoch (loss 0.4125):  68%|██████▊   | 6616/9753 [1:10:30<29:35,  1.77it/s]Training 3/3 epoch (loss 0.2801):  68%|██████▊   | 6616/9753 [1:10:30<29:35,  1.77it/s]Training 3/3 epoch (loss 0.2801):  68%|██████▊   | 6617/9753 [1:10:30<30:51,  1.69it/s]Training 3/3 epoch (loss 0.4029):  68%|██████▊   | 6617/9753 [1:10:31<30:51,  1.69it/s]Training 3/3 epoch (loss 0.4029):  68%|██████▊   | 6618/9753 [1:10:31<30:10,  1.73it/s]Training 3/3 epoch (loss 0.4003):  68%|██████▊   | 6618/9753 [1:10:32<30:10,  1.73it/s]Training 3/3 epoch (loss 0.4003):  68%|██████▊   | 6619/9753 [1:10:32<29:49,  1.75it/s]Training 3/3 epoch (loss 0.4320):  68%|██████▊   | 6619/9753 [1:10:32<29:49,  1.75it/s]Training 3/3 epoch (loss 0.4320):  68%|██████▊   | 6620/9753 [1:10:32<31:46,  1.64it/s]Training 3/3 epoch (loss 0.5637):  68%|██████▊   | 6620/9753 [1:10:33<31:46,  1.64it/s]Training 3/3 epoch (loss 0.5637):  68%|██████▊   | 6621/9753 [1:10:33<31:04,  1.68it/s]Training 3/3 epoch (loss 0.7017):  68%|██████▊   | 6621/9753 [1:10:33<31:04,  1.68it/s]Training 3/3 epoch (loss 0.7017):  68%|██████▊   | 6622/9753 [1:10:33<30:15,  1.72it/s]Training 3/3 epoch (loss 0.5766):  68%|██████▊   | 6622/9753 [1:10:34<30:15,  1.72it/s]Training 3/3 epoch (loss 0.5766):  68%|██████▊   | 6623/9753 [1:10:34<31:03,  1.68it/s]Training 3/3 epoch (loss 0.6696):  68%|██████▊   | 6623/9753 [1:10:35<31:03,  1.68it/s]Training 3/3 epoch (loss 0.6696):  68%|██████▊   | 6624/9753 [1:10:35<32:37,  1.60it/s]Training 3/3 epoch (loss 0.6396):  68%|██████▊   | 6624/9753 [1:10:35<32:37,  1.60it/s]Training 3/3 epoch (loss 0.6396):  68%|██████▊   | 6625/9753 [1:10:35<32:46,  1.59it/s]Training 3/3 epoch (loss 0.9012):  68%|██████▊   | 6625/9753 [1:10:36<32:46,  1.59it/s]Training 3/3 epoch (loss 0.9012):  68%|██████▊   | 6626/9753 [1:10:36<33:16,  1.57it/s]Training 3/3 epoch (loss 0.5625):  68%|██████▊   | 6626/9753 [1:10:37<33:16,  1.57it/s]Training 3/3 epoch (loss 0.5625):  68%|██████▊   | 6627/9753 [1:10:37<32:26,  1.61it/s]Training 3/3 epoch (loss 0.6637):  68%|██████▊   | 6627/9753 [1:10:37<32:26,  1.61it/s]Training 3/3 epoch (loss 0.6637):  68%|██████▊   | 6628/9753 [1:10:37<31:17,  1.66it/s]Training 3/3 epoch (loss 0.6280):  68%|██████▊   | 6628/9753 [1:10:38<31:17,  1.66it/s]Training 3/3 epoch (loss 0.6280):  68%|██████▊   | 6629/9753 [1:10:38<31:01,  1.68it/s]Training 3/3 epoch (loss 0.4662):  68%|██████▊   | 6629/9753 [1:10:38<31:01,  1.68it/s]Training 3/3 epoch (loss 0.4662):  68%|██████▊   | 6630/9753 [1:10:38<32:37,  1.60it/s]Training 3/3 epoch (loss 0.4822):  68%|██████▊   | 6630/9753 [1:10:39<32:37,  1.60it/s]Training 3/3 epoch (loss 0.4822):  68%|██████▊   | 6631/9753 [1:10:39<32:44,  1.59it/s]Training 3/3 epoch (loss 0.4115):  68%|██████▊   | 6631/9753 [1:10:40<32:44,  1.59it/s]Training 3/3 epoch (loss 0.4115):  68%|██████▊   | 6632/9753 [1:10:40<31:31,  1.65it/s]Training 3/3 epoch (loss 0.5374):  68%|██████▊   | 6632/9753 [1:10:40<31:31,  1.65it/s]Training 3/3 epoch (loss 0.5374):  68%|██████▊   | 6633/9753 [1:10:40<31:28,  1.65it/s]Training 3/3 epoch (loss 0.5601):  68%|██████▊   | 6633/9753 [1:10:41<31:28,  1.65it/s]Training 3/3 epoch (loss 0.5601):  68%|██████▊   | 6634/9753 [1:10:41<31:57,  1.63it/s]Training 3/3 epoch (loss 0.6667):  68%|██████▊   | 6634/9753 [1:10:41<31:57,  1.63it/s]Training 3/3 epoch (loss 0.6667):  68%|██████▊   | 6635/9753 [1:10:41<31:38,  1.64it/s]Training 3/3 epoch (loss 0.4001):  68%|██████▊   | 6635/9753 [1:10:42<31:38,  1.64it/s]Training 3/3 epoch (loss 0.4001):  68%|██████▊   | 6636/9753 [1:10:42<30:53,  1.68it/s]Training 3/3 epoch (loss 0.5336):  68%|██████▊   | 6636/9753 [1:10:43<30:53,  1.68it/s]Training 3/3 epoch (loss 0.5336):  68%|██████▊   | 6637/9753 [1:10:43<31:08,  1.67it/s]Training 3/3 epoch (loss 0.5191):  68%|██████▊   | 6637/9753 [1:10:43<31:08,  1.67it/s]Training 3/3 epoch (loss 0.5191):  68%|██████▊   | 6638/9753 [1:10:43<30:32,  1.70it/s]Training 3/3 epoch (loss 0.6832):  68%|██████▊   | 6638/9753 [1:10:44<30:32,  1.70it/s]Training 3/3 epoch (loss 0.6832):  68%|██████▊   | 6639/9753 [1:10:44<31:44,  1.64it/s]Training 3/3 epoch (loss 0.6361):  68%|██████▊   | 6639/9753 [1:10:44<31:44,  1.64it/s]Training 3/3 epoch (loss 0.6361):  68%|██████▊   | 6640/9753 [1:10:44<32:47,  1.58it/s]Training 3/3 epoch (loss 0.6759):  68%|██████▊   | 6640/9753 [1:10:45<32:47,  1.58it/s]Training 3/3 epoch (loss 0.6759):  68%|██████▊   | 6641/9753 [1:10:45<33:13,  1.56it/s]Training 3/3 epoch (loss 0.3860):  68%|██████▊   | 6641/9753 [1:10:46<33:13,  1.56it/s]Training 3/3 epoch (loss 0.3860):  68%|██████▊   | 6642/9753 [1:10:46<31:56,  1.62it/s]Training 3/3 epoch (loss 0.7777):  68%|██████▊   | 6642/9753 [1:10:46<31:56,  1.62it/s]Training 3/3 epoch (loss 0.7777):  68%|██████▊   | 6643/9753 [1:10:46<32:34,  1.59it/s]Training 3/3 epoch (loss 0.6931):  68%|██████▊   | 6643/9753 [1:10:47<32:34,  1.59it/s]Training 3/3 epoch (loss 0.6931):  68%|██████▊   | 6644/9753 [1:10:47<31:32,  1.64it/s]Training 3/3 epoch (loss 0.7620):  68%|██████▊   | 6644/9753 [1:10:48<31:32,  1.64it/s]Training 3/3 epoch (loss 0.7620):  68%|██████▊   | 6645/9753 [1:10:48<33:03,  1.57it/s]Training 3/3 epoch (loss 0.3714):  68%|██████▊   | 6645/9753 [1:10:48<33:03,  1.57it/s]Training 3/3 epoch (loss 0.3714):  68%|██████▊   | 6646/9753 [1:10:48<32:20,  1.60it/s]Training 3/3 epoch (loss 0.6480):  68%|██████▊   | 6646/9753 [1:10:49<32:20,  1.60it/s]Training 3/3 epoch (loss 0.6480):  68%|██████▊   | 6647/9753 [1:10:49<34:00,  1.52it/s]Training 3/3 epoch (loss 0.5958):  68%|██████▊   | 6647/9753 [1:10:50<34:00,  1.52it/s]Training 3/3 epoch (loss 0.5958):  68%|██████▊   | 6648/9753 [1:10:50<33:31,  1.54it/s]Training 3/3 epoch (loss 0.7202):  68%|██████▊   | 6648/9753 [1:10:50<33:31,  1.54it/s]Training 3/3 epoch (loss 0.7202):  68%|██████▊   | 6649/9753 [1:10:50<32:13,  1.61it/s]Training 3/3 epoch (loss 0.6718):  68%|██████▊   | 6649/9753 [1:10:51<32:13,  1.61it/s]Training 3/3 epoch (loss 0.6718):  68%|██████▊   | 6650/9753 [1:10:51<36:26,  1.42it/s]Training 3/3 epoch (loss 0.5463):  68%|██████▊   | 6650/9753 [1:10:52<36:26,  1.42it/s]Training 3/3 epoch (loss 0.5463):  68%|██████▊   | 6651/9753 [1:10:52<34:16,  1.51it/s]Training 3/3 epoch (loss 0.2765):  68%|██████▊   | 6651/9753 [1:10:52<34:16,  1.51it/s]Training 3/3 epoch (loss 0.2765):  68%|██████▊   | 6652/9753 [1:10:52<32:47,  1.58it/s]Training 3/3 epoch (loss 0.4285):  68%|██████▊   | 6652/9753 [1:10:53<32:47,  1.58it/s]Training 3/3 epoch (loss 0.4285):  68%|██████▊   | 6653/9753 [1:10:53<31:27,  1.64it/s]Training 3/3 epoch (loss 0.6884):  68%|██████▊   | 6653/9753 [1:10:53<31:27,  1.64it/s]Training 3/3 epoch (loss 0.6884):  68%|██████▊   | 6654/9753 [1:10:53<32:20,  1.60it/s]Training 3/3 epoch (loss 0.3538):  68%|██████▊   | 6654/9753 [1:10:54<32:20,  1.60it/s]Training 3/3 epoch (loss 0.3538):  68%|██████▊   | 6655/9753 [1:10:54<31:20,  1.65it/s]Training 3/3 epoch (loss 0.6903):  68%|██████▊   | 6655/9753 [1:10:55<31:20,  1.65it/s]Training 3/3 epoch (loss 0.6903):  68%|██████▊   | 6656/9753 [1:10:55<34:22,  1.50it/s]Training 3/3 epoch (loss 0.3526):  68%|██████▊   | 6656/9753 [1:10:55<34:22,  1.50it/s]Training 3/3 epoch (loss 0.3526):  68%|██████▊   | 6657/9753 [1:10:55<32:40,  1.58it/s]Training 3/3 epoch (loss 0.6942):  68%|██████▊   | 6657/9753 [1:10:56<32:40,  1.58it/s]Training 3/3 epoch (loss 0.6942):  68%|██████▊   | 6658/9753 [1:10:56<34:21,  1.50it/s]Training 3/3 epoch (loss 0.8102):  68%|██████▊   | 6658/9753 [1:10:57<34:21,  1.50it/s]Training 3/3 epoch (loss 0.8102):  68%|██████▊   | 6659/9753 [1:10:57<34:47,  1.48it/s]Training 3/3 epoch (loss 0.5928):  68%|██████▊   | 6659/9753 [1:10:57<34:47,  1.48it/s]Training 3/3 epoch (loss 0.5928):  68%|██████▊   | 6660/9753 [1:10:57<33:07,  1.56it/s]Training 3/3 epoch (loss 0.4655):  68%|██████▊   | 6660/9753 [1:10:58<33:07,  1.56it/s]Training 3/3 epoch (loss 0.4655):  68%|██████▊   | 6661/9753 [1:10:58<31:51,  1.62it/s]Training 3/3 epoch (loss 0.6279):  68%|██████▊   | 6661/9753 [1:10:58<31:51,  1.62it/s]Training 3/3 epoch (loss 0.6279):  68%|██████▊   | 6662/9753 [1:10:58<31:55,  1.61it/s]Training 3/3 epoch (loss 0.4308):  68%|██████▊   | 6662/9753 [1:10:59<31:55,  1.61it/s]Training 3/3 epoch (loss 0.4308):  68%|██████▊   | 6663/9753 [1:10:59<31:34,  1.63it/s]Training 3/3 epoch (loss 0.3590):  68%|██████▊   | 6663/9753 [1:11:00<31:34,  1.63it/s]Training 3/3 epoch (loss 0.3590):  68%|██████▊   | 6664/9753 [1:11:00<32:15,  1.60it/s]Training 3/3 epoch (loss 0.7588):  68%|██████▊   | 6664/9753 [1:11:01<32:15,  1.60it/s]Training 3/3 epoch (loss 0.7588):  68%|██████▊   | 6665/9753 [1:11:01<36:54,  1.39it/s]Training 3/3 epoch (loss 0.3743):  68%|██████▊   | 6665/9753 [1:11:02<36:54,  1.39it/s]Training 3/3 epoch (loss 0.3743):  68%|██████▊   | 6666/9753 [1:11:02<39:14,  1.31it/s]Training 3/3 epoch (loss 0.5330):  68%|██████▊   | 6666/9753 [1:11:02<39:14,  1.31it/s]Training 3/3 epoch (loss 0.5330):  68%|██████▊   | 6667/9753 [1:11:02<39:49,  1.29it/s]Training 3/3 epoch (loss 0.5881):  68%|██████▊   | 6667/9753 [1:11:03<39:49,  1.29it/s]Training 3/3 epoch (loss 0.5881):  68%|██████▊   | 6668/9753 [1:11:03<40:37,  1.27it/s]Training 3/3 epoch (loss 0.5667):  68%|██████▊   | 6668/9753 [1:11:04<40:37,  1.27it/s]Training 3/3 epoch (loss 0.5667):  68%|██████▊   | 6669/9753 [1:11:04<38:17,  1.34it/s]Training 3/3 epoch (loss 0.6629):  68%|██████▊   | 6669/9753 [1:11:04<38:17,  1.34it/s]Training 3/3 epoch (loss 0.6629):  68%|██████▊   | 6670/9753 [1:11:04<35:29,  1.45it/s]Training 3/3 epoch (loss 0.4828):  68%|██████▊   | 6670/9753 [1:11:05<35:29,  1.45it/s]Training 3/3 epoch (loss 0.4828):  68%|██████▊   | 6671/9753 [1:11:05<34:39,  1.48it/s]Training 3/3 epoch (loss 0.4341):  68%|██████▊   | 6671/9753 [1:11:06<34:39,  1.48it/s]Training 3/3 epoch (loss 0.4341):  68%|██████▊   | 6672/9753 [1:11:06<37:35,  1.37it/s]Training 3/3 epoch (loss 0.6995):  68%|██████▊   | 6672/9753 [1:11:06<37:35,  1.37it/s]Training 3/3 epoch (loss 0.6995):  68%|██████▊   | 6673/9753 [1:11:06<35:51,  1.43it/s]Training 3/3 epoch (loss 0.4842):  68%|██████▊   | 6673/9753 [1:11:07<35:51,  1.43it/s]Training 3/3 epoch (loss 0.4842):  68%|██████▊   | 6674/9753 [1:11:07<35:16,  1.45it/s]Training 3/3 epoch (loss 0.7397):  68%|██████▊   | 6674/9753 [1:11:08<35:16,  1.45it/s]Training 3/3 epoch (loss 0.7397):  68%|██████▊   | 6675/9753 [1:11:08<34:53,  1.47it/s]Training 3/3 epoch (loss 0.6379):  68%|██████▊   | 6675/9753 [1:11:08<34:53,  1.47it/s]Training 3/3 epoch (loss 0.6379):  68%|██████▊   | 6676/9753 [1:11:08<33:57,  1.51it/s]Training 3/3 epoch (loss 0.6391):  68%|██████▊   | 6676/9753 [1:11:09<33:57,  1.51it/s]Training 3/3 epoch (loss 0.6391):  68%|██████▊   | 6677/9753 [1:11:09<34:12,  1.50it/s]Training 3/3 epoch (loss 0.7608):  68%|██████▊   | 6677/9753 [1:11:10<34:12,  1.50it/s]Training 3/3 epoch (loss 0.7608):  68%|██████▊   | 6678/9753 [1:11:10<32:50,  1.56it/s]Training 3/3 epoch (loss 0.8561):  68%|██████▊   | 6678/9753 [1:11:11<32:50,  1.56it/s]Training 3/3 epoch (loss 0.8561):  68%|██████▊   | 6679/9753 [1:11:11<36:52,  1.39it/s]Training 3/3 epoch (loss 0.3476):  68%|██████▊   | 6679/9753 [1:11:11<36:52,  1.39it/s]Training 3/3 epoch (loss 0.3476):  68%|██████▊   | 6680/9753 [1:11:11<34:28,  1.49it/s]Training 3/3 epoch (loss 0.5672):  68%|██████▊   | 6680/9753 [1:11:12<34:28,  1.49it/s]Training 3/3 epoch (loss 0.5672):  69%|██████▊   | 6681/9753 [1:11:12<34:11,  1.50it/s]Training 3/3 epoch (loss 0.4529):  69%|██████▊   | 6681/9753 [1:11:12<34:11,  1.50it/s]Training 3/3 epoch (loss 0.4529):  69%|██████▊   | 6682/9753 [1:11:12<32:31,  1.57it/s]Training 3/3 epoch (loss 0.3969):  69%|██████▊   | 6682/9753 [1:11:13<32:31,  1.57it/s]Training 3/3 epoch (loss 0.3969):  69%|██████▊   | 6683/9753 [1:11:13<32:05,  1.59it/s]Training 3/3 epoch (loss 0.6340):  69%|██████▊   | 6683/9753 [1:11:14<32:05,  1.59it/s]Training 3/3 epoch (loss 0.6340):  69%|██████▊   | 6684/9753 [1:11:14<31:07,  1.64it/s]Training 3/3 epoch (loss 0.6683):  69%|██████▊   | 6684/9753 [1:11:14<31:07,  1.64it/s]Training 3/3 epoch (loss 0.6683):  69%|██████▊   | 6685/9753 [1:11:14<30:47,  1.66it/s]Training 3/3 epoch (loss 0.4923):  69%|██████▊   | 6685/9753 [1:11:15<30:47,  1.66it/s]Training 3/3 epoch (loss 0.4923):  69%|██████▊   | 6686/9753 [1:11:15<30:01,  1.70it/s]Training 3/3 epoch (loss 0.6500):  69%|██████▊   | 6686/9753 [1:11:15<30:01,  1.70it/s]Training 3/3 epoch (loss 0.6500):  69%|██████▊   | 6687/9753 [1:11:15<30:37,  1.67it/s]Training 3/3 epoch (loss 0.3574):  69%|██████▊   | 6687/9753 [1:11:16<30:37,  1.67it/s]Training 3/3 epoch (loss 0.3574):  69%|██████▊   | 6688/9753 [1:11:16<32:07,  1.59it/s]Training 3/3 epoch (loss 0.6683):  69%|██████▊   | 6688/9753 [1:11:17<32:07,  1.59it/s]Training 3/3 epoch (loss 0.6683):  69%|██████▊   | 6689/9753 [1:11:17<36:08,  1.41it/s]Training 3/3 epoch (loss 0.3650):  69%|██████▊   | 6689/9753 [1:11:17<36:08,  1.41it/s]Training 3/3 epoch (loss 0.3650):  69%|██████▊   | 6690/9753 [1:11:17<34:00,  1.50it/s]Training 3/3 epoch (loss 0.7392):  69%|██████▊   | 6690/9753 [1:11:18<34:00,  1.50it/s]Training 3/3 epoch (loss 0.7392):  69%|██████▊   | 6691/9753 [1:11:18<32:22,  1.58it/s]Training 3/3 epoch (loss 0.8830):  69%|██████▊   | 6691/9753 [1:11:19<32:22,  1.58it/s]Training 3/3 epoch (loss 0.8830):  69%|██████▊   | 6692/9753 [1:11:19<36:20,  1.40it/s]Training 3/3 epoch (loss 0.5315):  69%|██████▊   | 6692/9753 [1:11:20<36:20,  1.40it/s]Training 3/3 epoch (loss 0.5315):  69%|██████▊   | 6693/9753 [1:11:20<34:17,  1.49it/s]Training 3/3 epoch (loss 0.3493):  69%|██████▊   | 6693/9753 [1:11:20<34:17,  1.49it/s]Training 3/3 epoch (loss 0.3493):  69%|██████▊   | 6694/9753 [1:11:20<32:56,  1.55it/s]Training 3/3 epoch (loss 0.6314):  69%|██████▊   | 6694/9753 [1:11:21<32:56,  1.55it/s]Training 3/3 epoch (loss 0.6314):  69%|██████▊   | 6695/9753 [1:11:21<34:19,  1.49it/s]Training 3/3 epoch (loss 0.6490):  69%|██████▊   | 6695/9753 [1:11:21<34:19,  1.49it/s]Training 3/3 epoch (loss 0.6490):  69%|██████▊   | 6696/9753 [1:11:21<33:00,  1.54it/s]Training 3/3 epoch (loss 0.4273):  69%|██████▊   | 6696/9753 [1:11:22<33:00,  1.54it/s]Training 3/3 epoch (loss 0.4273):  69%|██████▊   | 6697/9753 [1:11:22<31:40,  1.61it/s]Training 3/3 epoch (loss 0.4371):  69%|██████▊   | 6697/9753 [1:11:23<31:40,  1.61it/s]Training 3/3 epoch (loss 0.4371):  69%|██████▊   | 6698/9753 [1:11:23<30:48,  1.65it/s]Training 3/3 epoch (loss 0.5357):  69%|██████▊   | 6698/9753 [1:11:23<30:48,  1.65it/s]Training 3/3 epoch (loss 0.5357):  69%|██████▊   | 6699/9753 [1:11:23<29:58,  1.70it/s]Training 3/3 epoch (loss 0.5270):  69%|██████▊   | 6699/9753 [1:11:24<29:58,  1.70it/s]Training 3/3 epoch (loss 0.5270):  69%|██████▊   | 6700/9753 [1:11:24<30:34,  1.66it/s]Training 3/3 epoch (loss 0.5856):  69%|██████▊   | 6700/9753 [1:11:24<30:34,  1.66it/s]Training 3/3 epoch (loss 0.5856):  69%|██████▊   | 6701/9753 [1:11:24<30:02,  1.69it/s]Training 3/3 epoch (loss 0.3948):  69%|██████▊   | 6701/9753 [1:11:25<30:02,  1.69it/s]Training 3/3 epoch (loss 0.3948):  69%|██████▊   | 6702/9753 [1:11:25<30:22,  1.67it/s]Training 3/3 epoch (loss 0.5231):  69%|██████▊   | 6702/9753 [1:11:26<30:22,  1.67it/s]Training 3/3 epoch (loss 0.5231):  69%|██████▊   | 6703/9753 [1:11:26<30:40,  1.66it/s]Training 3/3 epoch (loss 0.6230):  69%|██████▊   | 6703/9753 [1:11:26<30:40,  1.66it/s]Training 3/3 epoch (loss 0.6230):  69%|██████▊   | 6704/9753 [1:11:26<31:59,  1.59it/s]Training 3/3 epoch (loss 0.5915):  69%|██████▊   | 6704/9753 [1:11:27<31:59,  1.59it/s]Training 3/3 epoch (loss 0.5915):  69%|██████▊   | 6705/9753 [1:11:27<31:28,  1.61it/s]Training 3/3 epoch (loss 0.4615):  69%|██████▊   | 6705/9753 [1:11:27<31:28,  1.61it/s]Training 3/3 epoch (loss 0.4615):  69%|██████▉   | 6706/9753 [1:11:27<30:30,  1.66it/s]Training 3/3 epoch (loss 0.6970):  69%|██████▉   | 6706/9753 [1:11:28<30:30,  1.66it/s]Training 3/3 epoch (loss 0.6970):  69%|██████▉   | 6707/9753 [1:11:28<34:17,  1.48it/s]Training 3/3 epoch (loss 0.4825):  69%|██████▉   | 6707/9753 [1:11:29<34:17,  1.48it/s]Training 3/3 epoch (loss 0.4825):  69%|██████▉   | 6708/9753 [1:11:29<37:49,  1.34it/s]Training 3/3 epoch (loss 0.5761):  69%|██████▉   | 6708/9753 [1:11:30<37:49,  1.34it/s]Training 3/3 epoch (loss 0.5761):  69%|██████▉   | 6709/9753 [1:11:30<37:04,  1.37it/s]Training 3/3 epoch (loss 0.7204):  69%|██████▉   | 6709/9753 [1:11:30<37:04,  1.37it/s]Training 3/3 epoch (loss 0.7204):  69%|██████▉   | 6710/9753 [1:11:30<35:24,  1.43it/s]Training 3/3 epoch (loss 0.5120):  69%|██████▉   | 6710/9753 [1:11:31<35:24,  1.43it/s]Training 3/3 epoch (loss 0.5120):  69%|██████▉   | 6711/9753 [1:11:31<33:02,  1.53it/s]Training 3/3 epoch (loss 0.3464):  69%|██████▉   | 6711/9753 [1:11:32<33:02,  1.53it/s]Training 3/3 epoch (loss 0.3464):  69%|██████▉   | 6712/9753 [1:11:32<31:55,  1.59it/s]Training 3/3 epoch (loss 0.4791):  69%|██████▉   | 6712/9753 [1:11:32<31:55,  1.59it/s]Training 3/3 epoch (loss 0.4791):  69%|██████▉   | 6713/9753 [1:11:32<32:03,  1.58it/s]Training 3/3 epoch (loss 0.4072):  69%|██████▉   | 6713/9753 [1:11:33<32:03,  1.58it/s]Training 3/3 epoch (loss 0.4072):  69%|██████▉   | 6714/9753 [1:11:33<31:12,  1.62it/s]Training 3/3 epoch (loss 0.7416):  69%|██████▉   | 6714/9753 [1:11:34<31:12,  1.62it/s]Training 3/3 epoch (loss 0.7416):  69%|██████▉   | 6715/9753 [1:11:34<33:13,  1.52it/s]Training 3/3 epoch (loss 0.4989):  69%|██████▉   | 6715/9753 [1:11:34<33:13,  1.52it/s]Training 3/3 epoch (loss 0.4989):  69%|██████▉   | 6716/9753 [1:11:34<31:52,  1.59it/s]Training 3/3 epoch (loss 0.5734):  69%|██████▉   | 6716/9753 [1:11:35<31:52,  1.59it/s]Training 3/3 epoch (loss 0.5734):  69%|██████▉   | 6717/9753 [1:11:35<31:43,  1.60it/s]Training 3/3 epoch (loss 0.5109):  69%|██████▉   | 6717/9753 [1:11:36<31:43,  1.60it/s]Training 3/3 epoch (loss 0.5109):  69%|██████▉   | 6718/9753 [1:11:36<34:56,  1.45it/s]Training 3/3 epoch (loss 0.6810):  69%|██████▉   | 6718/9753 [1:11:36<34:56,  1.45it/s]Training 3/3 epoch (loss 0.6810):  69%|██████▉   | 6719/9753 [1:11:36<33:13,  1.52it/s]Training 3/3 epoch (loss 0.6007):  69%|██████▉   | 6719/9753 [1:11:37<33:13,  1.52it/s]Training 3/3 epoch (loss 0.6007):  69%|██████▉   | 6720/9753 [1:11:37<34:01,  1.49it/s]Training 3/3 epoch (loss 0.5360):  69%|██████▉   | 6720/9753 [1:11:38<34:01,  1.49it/s]Training 3/3 epoch (loss 0.5360):  69%|██████▉   | 6721/9753 [1:11:38<36:20,  1.39it/s]Training 3/3 epoch (loss 0.3594):  69%|██████▉   | 6721/9753 [1:11:38<36:20,  1.39it/s]Training 3/3 epoch (loss 0.3594):  69%|██████▉   | 6722/9753 [1:11:38<34:23,  1.47it/s]Training 3/3 epoch (loss 0.5136):  69%|██████▉   | 6722/9753 [1:11:39<34:23,  1.47it/s]Training 3/3 epoch (loss 0.5136):  69%|██████▉   | 6723/9753 [1:11:39<34:22,  1.47it/s]Training 3/3 epoch (loss 0.4559):  69%|██████▉   | 6723/9753 [1:11:40<34:22,  1.47it/s]Training 3/3 epoch (loss 0.4559):  69%|██████▉   | 6724/9753 [1:11:40<32:41,  1.54it/s]Training 3/3 epoch (loss 0.5481):  69%|██████▉   | 6724/9753 [1:11:40<32:41,  1.54it/s]Training 3/3 epoch (loss 0.5481):  69%|██████▉   | 6725/9753 [1:11:40<31:51,  1.58it/s]Training 3/3 epoch (loss 0.5294):  69%|██████▉   | 6725/9753 [1:11:41<31:51,  1.58it/s]Training 3/3 epoch (loss 0.5294):  69%|██████▉   | 6726/9753 [1:11:41<34:28,  1.46it/s]Training 3/3 epoch (loss 0.4033):  69%|██████▉   | 6726/9753 [1:11:42<34:28,  1.46it/s]Training 3/3 epoch (loss 0.4033):  69%|██████▉   | 6727/9753 [1:11:42<33:01,  1.53it/s]Training 3/3 epoch (loss 0.5334):  69%|██████▉   | 6727/9753 [1:11:42<33:01,  1.53it/s]Training 3/3 epoch (loss 0.5334):  69%|██████▉   | 6728/9753 [1:11:42<31:34,  1.60it/s]Training 3/3 epoch (loss 0.2219):  69%|██████▉   | 6728/9753 [1:11:43<31:34,  1.60it/s]Training 3/3 epoch (loss 0.2219):  69%|██████▉   | 6729/9753 [1:11:43<30:55,  1.63it/s]Training 3/3 epoch (loss 0.6419):  69%|██████▉   | 6729/9753 [1:11:43<30:55,  1.63it/s]Training 3/3 epoch (loss 0.6419):  69%|██████▉   | 6730/9753 [1:11:43<30:00,  1.68it/s]Training 3/3 epoch (loss 0.5575):  69%|██████▉   | 6730/9753 [1:11:44<30:00,  1.68it/s]Training 3/3 epoch (loss 0.5575):  69%|██████▉   | 6731/9753 [1:11:44<29:41,  1.70it/s]Training 3/3 epoch (loss 0.5066):  69%|██████▉   | 6731/9753 [1:11:44<29:41,  1.70it/s]Training 3/3 epoch (loss 0.5066):  69%|██████▉   | 6732/9753 [1:11:44<29:27,  1.71it/s]Training 3/3 epoch (loss 0.5536):  69%|██████▉   | 6732/9753 [1:11:45<29:27,  1.71it/s]Training 3/3 epoch (loss 0.5536):  69%|██████▉   | 6733/9753 [1:11:45<29:57,  1.68it/s]Training 3/3 epoch (loss 0.5411):  69%|██████▉   | 6733/9753 [1:11:46<29:57,  1.68it/s]Training 3/3 epoch (loss 0.5411):  69%|██████▉   | 6734/9753 [1:11:46<29:31,  1.70it/s]Training 3/3 epoch (loss 0.3287):  69%|██████▉   | 6734/9753 [1:11:46<29:31,  1.70it/s]Training 3/3 epoch (loss 0.3287):  69%|██████▉   | 6735/9753 [1:11:46<29:18,  1.72it/s]Training 3/3 epoch (loss 0.3440):  69%|██████▉   | 6735/9753 [1:11:47<29:18,  1.72it/s]Training 3/3 epoch (loss 0.3440):  69%|██████▉   | 6736/9753 [1:11:47<30:59,  1.62it/s]Training 3/3 epoch (loss 0.4416):  69%|██████▉   | 6736/9753 [1:11:47<30:59,  1.62it/s]Training 3/3 epoch (loss 0.4416):  69%|██████▉   | 6737/9753 [1:11:47<30:12,  1.66it/s]Training 3/3 epoch (loss 0.5806):  69%|██████▉   | 6737/9753 [1:11:48<30:12,  1.66it/s]Training 3/3 epoch (loss 0.5806):  69%|██████▉   | 6738/9753 [1:11:48<29:25,  1.71it/s]Training 3/3 epoch (loss 0.5154):  69%|██████▉   | 6738/9753 [1:11:48<29:25,  1.71it/s]Training 3/3 epoch (loss 0.5154):  69%|██████▉   | 6739/9753 [1:11:48<28:52,  1.74it/s]Training 3/3 epoch (loss 0.5979):  69%|██████▉   | 6739/9753 [1:11:49<28:52,  1.74it/s]Training 3/3 epoch (loss 0.5979):  69%|██████▉   | 6740/9753 [1:11:49<29:48,  1.69it/s]Training 3/3 epoch (loss 0.6569):  69%|██████▉   | 6740/9753 [1:11:50<29:48,  1.69it/s]Training 3/3 epoch (loss 0.6569):  69%|██████▉   | 6741/9753 [1:11:50<30:02,  1.67it/s]Training 3/3 epoch (loss 0.4129):  69%|██████▉   | 6741/9753 [1:11:51<30:02,  1.67it/s]Training 3/3 epoch (loss 0.4129):  69%|██████▉   | 6742/9753 [1:11:51<35:00,  1.43it/s]Training 3/3 epoch (loss 0.5357):  69%|██████▉   | 6742/9753 [1:11:51<35:00,  1.43it/s]Training 3/3 epoch (loss 0.5357):  69%|██████▉   | 6743/9753 [1:11:51<33:00,  1.52it/s]Training 3/3 epoch (loss 0.3607):  69%|██████▉   | 6743/9753 [1:11:52<33:00,  1.52it/s]Training 3/3 epoch (loss 0.3607):  69%|██████▉   | 6744/9753 [1:11:52<31:25,  1.60it/s]Training 3/3 epoch (loss 0.5865):  69%|██████▉   | 6744/9753 [1:11:52<31:25,  1.60it/s]Training 3/3 epoch (loss 0.5865):  69%|██████▉   | 6745/9753 [1:11:52<30:15,  1.66it/s]Training 3/3 epoch (loss 0.5235):  69%|██████▉   | 6745/9753 [1:11:53<30:15,  1.66it/s]Training 3/3 epoch (loss 0.5235):  69%|██████▉   | 6746/9753 [1:11:53<34:06,  1.47it/s]Training 3/3 epoch (loss 0.4909):  69%|██████▉   | 6746/9753 [1:11:54<34:06,  1.47it/s]Training 3/3 epoch (loss 0.4909):  69%|██████▉   | 6747/9753 [1:11:54<32:16,  1.55it/s]Training 3/3 epoch (loss 0.4718):  69%|██████▉   | 6747/9753 [1:11:54<32:16,  1.55it/s]Training 3/3 epoch (loss 0.4718):  69%|██████▉   | 6748/9753 [1:11:54<31:49,  1.57it/s]Training 3/3 epoch (loss 0.4058):  69%|██████▉   | 6748/9753 [1:11:55<31:49,  1.57it/s]Training 3/3 epoch (loss 0.4058):  69%|██████▉   | 6749/9753 [1:11:55<30:45,  1.63it/s]Training 3/3 epoch (loss 0.6225):  69%|██████▉   | 6749/9753 [1:11:56<30:45,  1.63it/s]Training 3/3 epoch (loss 0.6225):  69%|██████▉   | 6750/9753 [1:11:56<30:31,  1.64it/s]Training 3/3 epoch (loss 0.5344):  69%|██████▉   | 6750/9753 [1:11:56<30:31,  1.64it/s]Training 3/3 epoch (loss 0.5344):  69%|██████▉   | 6751/9753 [1:11:56<30:03,  1.66it/s]Training 3/3 epoch (loss 0.6347):  69%|██████▉   | 6751/9753 [1:11:57<30:03,  1.66it/s]Training 3/3 epoch (loss 0.6347):  69%|██████▉   | 6752/9753 [1:11:57<31:41,  1.58it/s]Training 3/3 epoch (loss 0.6370):  69%|██████▉   | 6752/9753 [1:11:58<31:41,  1.58it/s]Training 3/3 epoch (loss 0.6370):  69%|██████▉   | 6753/9753 [1:11:58<33:36,  1.49it/s]Training 3/3 epoch (loss 0.4037):  69%|██████▉   | 6753/9753 [1:11:58<33:36,  1.49it/s]Training 3/3 epoch (loss 0.4037):  69%|██████▉   | 6754/9753 [1:11:58<31:45,  1.57it/s]Training 3/3 epoch (loss 0.6719):  69%|██████▉   | 6754/9753 [1:11:59<31:45,  1.57it/s]Training 3/3 epoch (loss 0.6719):  69%|██████▉   | 6755/9753 [1:11:59<30:30,  1.64it/s]Training 3/3 epoch (loss 0.3127):  69%|██████▉   | 6755/9753 [1:11:59<30:30,  1.64it/s]Training 3/3 epoch (loss 0.3127):  69%|██████▉   | 6756/9753 [1:11:59<29:58,  1.67it/s]Training 3/3 epoch (loss 0.3211):  69%|██████▉   | 6756/9753 [1:12:00<29:58,  1.67it/s]Training 3/3 epoch (loss 0.3211):  69%|██████▉   | 6757/9753 [1:12:00<29:07,  1.71it/s]Training 3/3 epoch (loss 0.5672):  69%|██████▉   | 6757/9753 [1:12:00<29:07,  1.71it/s]Training 3/3 epoch (loss 0.5672):  69%|██████▉   | 6758/9753 [1:12:00<30:26,  1.64it/s]Training 3/3 epoch (loss 0.2932):  69%|██████▉   | 6758/9753 [1:12:01<30:26,  1.64it/s]Training 3/3 epoch (loss 0.2932):  69%|██████▉   | 6759/9753 [1:12:01<29:53,  1.67it/s]Training 3/3 epoch (loss 0.3113):  69%|██████▉   | 6759/9753 [1:12:02<29:53,  1.67it/s]Training 3/3 epoch (loss 0.3113):  69%|██████▉   | 6760/9753 [1:12:02<29:43,  1.68it/s]Training 3/3 epoch (loss 0.4875):  69%|██████▉   | 6760/9753 [1:12:02<29:43,  1.68it/s]Training 3/3 epoch (loss 0.4875):  69%|██████▉   | 6761/9753 [1:12:02<30:55,  1.61it/s]Training 3/3 epoch (loss 0.3975):  69%|██████▉   | 6761/9753 [1:12:03<30:55,  1.61it/s]Training 3/3 epoch (loss 0.3975):  69%|██████▉   | 6762/9753 [1:12:03<33:52,  1.47it/s]Training 3/3 epoch (loss 0.3909):  69%|██████▉   | 6762/9753 [1:12:04<33:52,  1.47it/s]Training 3/3 epoch (loss 0.3909):  69%|██████▉   | 6763/9753 [1:12:04<32:34,  1.53it/s]Training 3/3 epoch (loss 0.2967):  69%|██████▉   | 6763/9753 [1:12:04<32:34,  1.53it/s]Training 3/3 epoch (loss 0.2967):  69%|██████▉   | 6764/9753 [1:12:04<32:06,  1.55it/s]Training 3/3 epoch (loss 0.5619):  69%|██████▉   | 6764/9753 [1:12:05<32:06,  1.55it/s]Training 3/3 epoch (loss 0.5619):  69%|██████▉   | 6765/9753 [1:12:05<30:37,  1.63it/s]Training 3/3 epoch (loss 0.4028):  69%|██████▉   | 6765/9753 [1:12:05<30:37,  1.63it/s]Training 3/3 epoch (loss 0.4028):  69%|██████▉   | 6766/9753 [1:12:05<29:33,  1.68it/s]Training 3/3 epoch (loss 0.2827):  69%|██████▉   | 6766/9753 [1:12:06<29:33,  1.68it/s]Training 3/3 epoch (loss 0.2827):  69%|██████▉   | 6767/9753 [1:12:06<28:52,  1.72it/s]Training 3/3 epoch (loss 0.6374):  69%|██████▉   | 6767/9753 [1:12:07<28:52,  1.72it/s]Training 3/3 epoch (loss 0.6374):  69%|██████▉   | 6768/9753 [1:12:07<31:37,  1.57it/s]Training 3/3 epoch (loss 0.3143):  69%|██████▉   | 6768/9753 [1:12:07<31:37,  1.57it/s]Training 3/3 epoch (loss 0.3143):  69%|██████▉   | 6769/9753 [1:12:07<30:40,  1.62it/s]Training 3/3 epoch (loss 0.3874):  69%|██████▉   | 6769/9753 [1:12:08<30:40,  1.62it/s]Training 3/3 epoch (loss 0.3874):  69%|██████▉   | 6770/9753 [1:12:08<29:35,  1.68it/s]Training 3/3 epoch (loss 0.4744):  69%|██████▉   | 6770/9753 [1:12:09<29:35,  1.68it/s]Training 3/3 epoch (loss 0.4744):  69%|██████▉   | 6771/9753 [1:12:09<33:03,  1.50it/s]Training 3/3 epoch (loss 0.3325):  69%|██████▉   | 6771/9753 [1:12:09<33:03,  1.50it/s]Training 3/3 epoch (loss 0.3325):  69%|██████▉   | 6772/9753 [1:12:09<31:27,  1.58it/s]Training 3/3 epoch (loss 0.5094):  69%|██████▉   | 6772/9753 [1:12:10<31:27,  1.58it/s]Training 3/3 epoch (loss 0.5094):  69%|██████▉   | 6773/9753 [1:12:10<30:30,  1.63it/s]Training 3/3 epoch (loss 0.1698):  69%|██████▉   | 6773/9753 [1:12:11<30:30,  1.63it/s]Training 3/3 epoch (loss 0.1698):  69%|██████▉   | 6774/9753 [1:12:11<35:00,  1.42it/s]Training 3/3 epoch (loss 0.3251):  69%|██████▉   | 6774/9753 [1:12:12<35:00,  1.42it/s]Training 3/3 epoch (loss 0.3251):  69%|██████▉   | 6775/9753 [1:12:12<36:22,  1.36it/s]Training 3/3 epoch (loss 0.3153):  69%|██████▉   | 6775/9753 [1:12:12<36:22,  1.36it/s]Training 3/3 epoch (loss 0.3153):  69%|██████▉   | 6776/9753 [1:12:12<36:27,  1.36it/s]Training 3/3 epoch (loss 0.4540):  69%|██████▉   | 6776/9753 [1:12:13<36:27,  1.36it/s]Training 3/3 epoch (loss 0.4540):  69%|██████▉   | 6777/9753 [1:12:13<36:51,  1.35it/s]Training 3/3 epoch (loss 0.3184):  69%|██████▉   | 6777/9753 [1:12:14<36:51,  1.35it/s]Training 3/3 epoch (loss 0.3184):  69%|██████▉   | 6778/9753 [1:12:14<35:00,  1.42it/s]Training 3/3 epoch (loss 0.2056):  69%|██████▉   | 6778/9753 [1:12:14<35:00,  1.42it/s]Training 3/3 epoch (loss 0.2056):  70%|██████▉   | 6779/9753 [1:12:14<32:35,  1.52it/s]Training 3/3 epoch (loss 0.4452):  70%|██████▉   | 6779/9753 [1:12:15<32:35,  1.52it/s]Training 3/3 epoch (loss 0.4452):  70%|██████▉   | 6780/9753 [1:12:15<31:22,  1.58it/s]Training 3/3 epoch (loss 0.5150):  70%|██████▉   | 6780/9753 [1:12:15<31:22,  1.58it/s]Training 3/3 epoch (loss 0.5150):  70%|██████▉   | 6781/9753 [1:12:15<31:32,  1.57it/s]Training 3/3 epoch (loss 0.2753):  70%|██████▉   | 6781/9753 [1:12:16<31:32,  1.57it/s]Training 3/3 epoch (loss 0.2753):  70%|██████▉   | 6782/9753 [1:12:16<34:38,  1.43it/s]Training 3/3 epoch (loss 0.3177):  70%|██████▉   | 6782/9753 [1:12:17<34:38,  1.43it/s]Training 3/3 epoch (loss 0.3177):  70%|██████▉   | 6783/9753 [1:12:17<32:24,  1.53it/s]Training 3/3 epoch (loss 0.3840):  70%|██████▉   | 6783/9753 [1:12:18<32:24,  1.53it/s]Training 3/3 epoch (loss 0.3840):  70%|██████▉   | 6784/9753 [1:12:18<33:09,  1.49it/s]Training 3/3 epoch (loss 0.3888):  70%|██████▉   | 6784/9753 [1:12:18<33:09,  1.49it/s]Training 3/3 epoch (loss 0.3888):  70%|██████▉   | 6785/9753 [1:12:18<31:32,  1.57it/s]Training 3/3 epoch (loss 0.5501):  70%|██████▉   | 6785/9753 [1:12:19<31:32,  1.57it/s]Training 3/3 epoch (loss 0.5501):  70%|██████▉   | 6786/9753 [1:12:19<32:57,  1.50it/s]Training 3/3 epoch (loss 0.2580):  70%|██████▉   | 6786/9753 [1:12:20<32:57,  1.50it/s]Training 3/3 epoch (loss 0.2580):  70%|██████▉   | 6787/9753 [1:12:20<35:57,  1.38it/s]Training 3/3 epoch (loss 0.4144):  70%|██████▉   | 6787/9753 [1:12:20<35:57,  1.38it/s]Training 3/3 epoch (loss 0.4144):  70%|██████▉   | 6788/9753 [1:12:20<33:24,  1.48it/s]Training 3/3 epoch (loss 0.2822):  70%|██████▉   | 6788/9753 [1:12:21<33:24,  1.48it/s]Training 3/3 epoch (loss 0.2822):  70%|██████▉   | 6789/9753 [1:12:21<31:26,  1.57it/s]Training 3/3 epoch (loss 0.4926):  70%|██████▉   | 6789/9753 [1:12:21<31:26,  1.57it/s]Training 3/3 epoch (loss 0.4926):  70%|██████▉   | 6790/9753 [1:12:21<30:52,  1.60it/s]Training 3/3 epoch (loss 0.4041):  70%|██████▉   | 6790/9753 [1:12:22<30:52,  1.60it/s]Training 3/3 epoch (loss 0.4041):  70%|██████▉   | 6791/9753 [1:12:22<31:27,  1.57it/s]Training 3/3 epoch (loss 0.3410):  70%|██████▉   | 6791/9753 [1:12:23<31:27,  1.57it/s]Training 3/3 epoch (loss 0.3410):  70%|██████▉   | 6792/9753 [1:12:23<32:41,  1.51it/s]Training 3/3 epoch (loss 0.4078):  70%|██████▉   | 6792/9753 [1:12:23<32:41,  1.51it/s]Training 3/3 epoch (loss 0.4078):  70%|██████▉   | 6793/9753 [1:12:23<31:29,  1.57it/s]Training 3/3 epoch (loss 0.3767):  70%|██████▉   | 6793/9753 [1:12:24<31:29,  1.57it/s]Training 3/3 epoch (loss 0.3767):  70%|██████▉   | 6794/9753 [1:12:24<30:11,  1.63it/s]Training 3/3 epoch (loss 0.4715):  70%|██████▉   | 6794/9753 [1:12:24<30:11,  1.63it/s]Training 3/3 epoch (loss 0.4715):  70%|██████▉   | 6795/9753 [1:12:24<29:11,  1.69it/s]Training 3/3 epoch (loss 0.5841):  70%|██████▉   | 6795/9753 [1:12:25<29:11,  1.69it/s]Training 3/3 epoch (loss 0.5841):  70%|██████▉   | 6796/9753 [1:12:25<28:35,  1.72it/s]Training 3/3 epoch (loss 0.2033):  70%|██████▉   | 6796/9753 [1:12:26<28:35,  1.72it/s]Training 3/3 epoch (loss 0.2033):  70%|██████▉   | 6797/9753 [1:12:26<28:02,  1.76it/s]Training 3/3 epoch (loss 0.5318):  70%|██████▉   | 6797/9753 [1:12:26<28:02,  1.76it/s]Training 3/3 epoch (loss 0.5318):  70%|██████▉   | 6798/9753 [1:12:26<27:56,  1.76it/s]Training 3/3 epoch (loss 0.5972):  70%|██████▉   | 6798/9753 [1:12:27<27:56,  1.76it/s]Training 3/3 epoch (loss 0.5972):  70%|██████▉   | 6799/9753 [1:12:27<27:43,  1.78it/s]Training 3/3 epoch (loss 0.4663):  70%|██████▉   | 6799/9753 [1:12:27<27:43,  1.78it/s]Training 3/3 epoch (loss 0.4663):  70%|██████▉   | 6800/9753 [1:12:27<30:48,  1.60it/s]Training 3/3 epoch (loss 0.4264):  70%|██████▉   | 6800/9753 [1:12:28<30:48,  1.60it/s]Training 3/3 epoch (loss 0.4264):  70%|██████▉   | 6801/9753 [1:12:28<30:52,  1.59it/s]Training 3/3 epoch (loss 0.5793):  70%|██████▉   | 6801/9753 [1:12:29<30:52,  1.59it/s]Training 3/3 epoch (loss 0.5793):  70%|██████▉   | 6802/9753 [1:12:29<33:39,  1.46it/s]Training 3/3 epoch (loss 0.3639):  70%|██████▉   | 6802/9753 [1:12:29<33:39,  1.46it/s]Training 3/3 epoch (loss 0.3639):  70%|██████▉   | 6803/9753 [1:12:29<31:39,  1.55it/s]Training 3/3 epoch (loss 0.3818):  70%|██████▉   | 6803/9753 [1:12:30<31:39,  1.55it/s]Training 3/3 epoch (loss 0.3818):  70%|██████▉   | 6804/9753 [1:12:30<31:07,  1.58it/s]Training 3/3 epoch (loss 0.5597):  70%|██████▉   | 6804/9753 [1:12:31<31:07,  1.58it/s]Training 3/3 epoch (loss 0.5597):  70%|██████▉   | 6805/9753 [1:12:31<32:24,  1.52it/s]Training 3/3 epoch (loss 0.3943):  70%|██████▉   | 6805/9753 [1:12:32<32:24,  1.52it/s]Training 3/3 epoch (loss 0.3943):  70%|██████▉   | 6806/9753 [1:12:32<33:53,  1.45it/s]Training 3/3 epoch (loss 0.4762):  70%|██████▉   | 6806/9753 [1:12:32<33:53,  1.45it/s]Training 3/3 epoch (loss 0.4762):  70%|██████▉   | 6807/9753 [1:12:32<34:02,  1.44it/s]Training 3/3 epoch (loss 0.4060):  70%|██████▉   | 6807/9753 [1:12:33<34:02,  1.44it/s]Training 3/3 epoch (loss 0.4060):  70%|██████▉   | 6808/9753 [1:12:33<37:04,  1.32it/s]Training 3/3 epoch (loss 0.3407):  70%|██████▉   | 6808/9753 [1:12:34<37:04,  1.32it/s]Training 3/3 epoch (loss 0.3407):  70%|██████▉   | 6809/9753 [1:12:34<34:19,  1.43it/s]Training 3/3 epoch (loss 0.3897):  70%|██████▉   | 6809/9753 [1:12:34<34:19,  1.43it/s]Training 3/3 epoch (loss 0.3897):  70%|██████▉   | 6810/9753 [1:12:34<32:11,  1.52it/s]Training 3/3 epoch (loss 0.2934):  70%|██████▉   | 6810/9753 [1:12:35<32:11,  1.52it/s]Training 3/3 epoch (loss 0.2934):  70%|██████▉   | 6811/9753 [1:12:35<31:59,  1.53it/s]Training 3/3 epoch (loss 0.4571):  70%|██████▉   | 6811/9753 [1:12:35<31:59,  1.53it/s]Training 3/3 epoch (loss 0.4571):  70%|██████▉   | 6812/9753 [1:12:35<31:01,  1.58it/s]Training 3/3 epoch (loss 0.5972):  70%|██████▉   | 6812/9753 [1:12:36<31:01,  1.58it/s]Training 3/3 epoch (loss 0.5972):  70%|██████▉   | 6813/9753 [1:12:36<29:54,  1.64it/s]Training 3/3 epoch (loss 0.5420):  70%|██████▉   | 6813/9753 [1:12:37<29:54,  1.64it/s]Training 3/3 epoch (loss 0.5420):  70%|██████▉   | 6814/9753 [1:12:37<30:06,  1.63it/s]Training 3/3 epoch (loss 0.3820):  70%|██████▉   | 6814/9753 [1:12:37<30:06,  1.63it/s]Training 3/3 epoch (loss 0.3820):  70%|██████▉   | 6815/9753 [1:12:37<29:12,  1.68it/s]Training 3/3 epoch (loss 0.4096):  70%|██████▉   | 6815/9753 [1:12:38<29:12,  1.68it/s]Training 3/3 epoch (loss 0.4096):  70%|██████▉   | 6816/9753 [1:12:38<32:41,  1.50it/s]Training 3/3 epoch (loss 0.3645):  70%|██████▉   | 6816/9753 [1:12:39<32:41,  1.50it/s]Training 3/3 epoch (loss 0.3645):  70%|██████▉   | 6817/9753 [1:12:39<33:26,  1.46it/s]Training 3/3 epoch (loss 0.1788):  70%|██████▉   | 6817/9753 [1:12:39<33:26,  1.46it/s]Training 3/3 epoch (loss 0.1788):  70%|███���██▉   | 6818/9753 [1:12:39<31:48,  1.54it/s]Training 3/3 epoch (loss 0.4557):  70%|██████▉   | 6818/9753 [1:12:40<31:48,  1.54it/s]Training 3/3 epoch (loss 0.4557):  70%|██████▉   | 6819/9753 [1:12:40<31:49,  1.54it/s]Training 3/3 epoch (loss 0.3700):  70%|██████▉   | 6819/9753 [1:12:41<31:49,  1.54it/s]Training 3/3 epoch (loss 0.3700):  70%|██████▉   | 6820/9753 [1:12:41<30:27,  1.60it/s]Training 3/3 epoch (loss 0.2643):  70%|██████▉   | 6820/9753 [1:12:41<30:27,  1.60it/s]Training 3/3 epoch (loss 0.2643):  70%|██████▉   | 6821/9753 [1:12:41<29:43,  1.64it/s]Training 3/3 epoch (loss 0.2802):  70%|██████▉   | 6821/9753 [1:12:42<29:43,  1.64it/s]Training 3/3 epoch (loss 0.2802):  70%|██████▉   | 6822/9753 [1:12:42<33:46,  1.45it/s]Training 3/3 epoch (loss 0.6287):  70%|██████▉   | 6822/9753 [1:12:43<33:46,  1.45it/s]Training 3/3 epoch (loss 0.6287):  70%|██████▉   | 6823/9753 [1:12:43<33:18,  1.47it/s]Training 3/3 epoch (loss 0.7707):  70%|██████▉   | 6823/9753 [1:12:44<33:18,  1.47it/s]Training 3/3 epoch (loss 0.7707):  70%|██████▉   | 6824/9753 [1:12:44<35:44,  1.37it/s]Training 3/3 epoch (loss 0.4932):  70%|██████▉   | 6824/9753 [1:12:44<35:44,  1.37it/s]Training 3/3 epoch (loss 0.4932):  70%|██████▉   | 6825/9753 [1:12:44<35:08,  1.39it/s]Training 3/3 epoch (loss 0.2927):  70%|██████▉   | 6825/9753 [1:12:45<35:08,  1.39it/s]Training 3/3 epoch (loss 0.2927):  70%|██████▉   | 6826/9753 [1:12:45<32:37,  1.50it/s]Training 3/3 epoch (loss 0.5854):  70%|██████▉   | 6826/9753 [1:12:45<32:37,  1.50it/s]Training 3/3 epoch (loss 0.5854):  70%|██████▉   | 6827/9753 [1:12:45<32:00,  1.52it/s]Training 3/3 epoch (loss 0.5631):  70%|██████▉   | 6827/9753 [1:12:46<32:00,  1.52it/s]Training 3/3 epoch (loss 0.5631):  70%|███████   | 6828/9753 [1:12:46<35:59,  1.35it/s]Training 3/3 epoch (loss 0.3023):  70%|███████   | 6828/9753 [1:12:47<35:59,  1.35it/s]Training 3/3 epoch (loss 0.3023):  70%|███████   | 6829/9753 [1:12:47<34:25,  1.42it/s]Training 3/3 epoch (loss 0.3162):  70%|███████   | 6829/9753 [1:12:48<34:25,  1.42it/s]Training 3/3 epoch (loss 0.3162):  70%|███████   | 6830/9753 [1:12:48<32:17,  1.51it/s]Training 3/3 epoch (loss 0.4401):  70%|███████   | 6830/9753 [1:12:48<32:17,  1.51it/s]Training 3/3 epoch (loss 0.4401):  70%|███████   | 6831/9753 [1:12:48<32:43,  1.49it/s]Training 3/3 epoch (loss 0.4930):  70%|███████   | 6831/9753 [1:12:49<32:43,  1.49it/s]Training 3/3 epoch (loss 0.4930):  70%|███████   | 6832/9753 [1:12:49<34:37,  1.41it/s]Training 3/3 epoch (loss 0.3379):  70%|███████   | 6832/9753 [1:12:50<34:37,  1.41it/s]Training 3/3 epoch (loss 0.3379):  70%|███████   | 6833/9753 [1:12:50<32:19,  1.51it/s]Training 3/3 epoch (loss 0.3769):  70%|███████   | 6833/9753 [1:12:50<32:19,  1.51it/s]Training 3/3 epoch (loss 0.3769):  70%|███████   | 6834/9753 [1:12:50<32:04,  1.52it/s]Training 3/3 epoch (loss 0.2968):  70%|███████   | 6834/9753 [1:12:51<32:04,  1.52it/s]Training 3/3 epoch (loss 0.2968):  70%|███████   | 6835/9753 [1:12:51<31:16,  1.55it/s]Training 3/3 epoch (loss 0.2890):  70%|███████   | 6835/9753 [1:12:51<31:16,  1.55it/s]Training 3/3 epoch (loss 0.2890):  70%|███████   | 6836/9753 [1:12:51<29:48,  1.63it/s]Training 3/3 epoch (loss 0.3337):  70%|███████   | 6836/9753 [1:12:52<29:48,  1.63it/s]Training 3/3 epoch (loss 0.3337):  70%|███████   | 6837/9753 [1:12:52<28:47,  1.69it/s]Training 3/3 epoch (loss 0.3697):  70%|███████   | 6837/9753 [1:12:52<28:47,  1.69it/s]Training 3/3 epoch (loss 0.3697):  70%|███████   | 6838/9753 [1:12:52<28:02,  1.73it/s]Training 3/3 epoch (loss 0.3418):  70%|███████   | 6838/9753 [1:12:53<28:02,  1.73it/s]Training 3/3 epoch (loss 0.3418):  70%|███████   | 6839/9753 [1:12:53<27:31,  1.76it/s]Training 3/3 epoch (loss 0.3855):  70%|███████   | 6839/9753 [1:12:54<27:31,  1.76it/s]Training 3/3 epoch (loss 0.3855):  70%|███████   | 6840/9753 [1:12:54<27:49,  1.74it/s]Training 3/3 epoch (loss 0.2125):  70%|███████   | 6840/9753 [1:12:54<27:49,  1.74it/s]Training 3/3 epoch (loss 0.2125):  70%|███████   | 6841/9753 [1:12:54<27:23,  1.77it/s]Training 3/3 epoch (loss 0.3467):  70%|███████   | 6841/9753 [1:12:55<27:23,  1.77it/s]Training 3/3 epoch (loss 0.3467):  70%|███████   | 6842/9753 [1:12:55<27:49,  1.74it/s]Training 3/3 epoch (loss 0.3084):  70%|███████   | 6842/9753 [1:12:55<27:49,  1.74it/s]Training 3/3 epoch (loss 0.3084):  70%|███████   | 6843/9753 [1:12:55<27:46,  1.75it/s]Training 3/3 epoch (loss 0.6057):  70%|███████   | 6843/9753 [1:12:56<27:46,  1.75it/s]Training 3/3 epoch (loss 0.6057):  70%|███████   | 6844/9753 [1:12:56<29:08,  1.66it/s]Training 3/3 epoch (loss 0.4562):  70%|███████   | 6844/9753 [1:12:57<29:08,  1.66it/s]Training 3/3 epoch (loss 0.4562):  70%|███████   | 6845/9753 [1:12:57<29:54,  1.62it/s]Training 3/3 epoch (loss 0.3594):  70%|███████   | 6845/9753 [1:12:57<29:54,  1.62it/s]Training 3/3 epoch (loss 0.3594):  70%|███████   | 6846/9753 [1:12:57<29:01,  1.67it/s]Training 3/3 epoch (loss 0.2297):  70%|███████   | 6846/9753 [1:12:58<29:01,  1.67it/s]Training 3/3 epoch (loss 0.2297):  70%|███████   | 6847/9753 [1:12:58<28:12,  1.72it/s]Training 3/3 epoch (loss 0.4618):  70%|███████   | 6847/9753 [1:12:59<28:12,  1.72it/s]Training 3/3 epoch (loss 0.4618):  70%|███████   | 6848/9753 [1:12:59<31:41,  1.53it/s]Training 3/3 epoch (loss 0.5261):  70%|███████   | 6848/9753 [1:12:59<31:41,  1.53it/s]Training 3/3 epoch (loss 0.5261):  70%|███████   | 6849/9753 [1:12:59<30:43,  1.57it/s]Training 3/3 epoch (loss 0.4048):  70%|███████   | 6849/9753 [1:13:00<30:43,  1.57it/s]Training 3/3 epoch (loss 0.4048):  70%|███████   | 6850/9753 [1:13:00<35:00,  1.38it/s]Training 3/3 epoch (loss 0.2860):  70%|███████   | 6850/9753 [1:13:01<35:00,  1.38it/s]Training 3/3 epoch (loss 0.2860):  70%|███████   | 6851/9753 [1:13:01<34:19,  1.41it/s]Training 3/3 epoch (loss 0.5201):  70%|███████   | 6851/9753 [1:13:01<34:19,  1.41it/s]Training 3/3 epoch (loss 0.5201):  70%|███████   | 6852/9753 [1:13:01<32:13,  1.50it/s]Training 3/3 epoch (loss 0.4747):  70%|███████   | 6852/9753 [1:13:02<32:13,  1.50it/s]Training 3/3 epoch (loss 0.4747):  70%|███████   | 6853/9753 [1:13:02<30:52,  1.57it/s]Training 3/3 epoch (loss 0.5253):  70%|███████   | 6853/9753 [1:13:03<30:52,  1.57it/s]Training 3/3 epoch (loss 0.5253):  70%|███████   | 6854/9753 [1:13:03<31:35,  1.53it/s]Training 3/3 epoch (loss 0.4963):  70%|███████   | 6854/9753 [1:13:03<31:35,  1.53it/s]Training 3/3 epoch (loss 0.4963):  70%|███████   | 6855/9753 [1:13:03<30:02,  1.61it/s]Training 3/3 epoch (loss 0.4194):  70%|███████   | 6855/9753 [1:13:04<30:02,  1.61it/s]Training 3/3 epoch (loss 0.4194):  70%|███████   | 6856/9753 [1:13:04<29:00,  1.66it/s]Training 3/3 epoch (loss 0.4695):  70%|███████   | 6856/9753 [1:13:04<29:00,  1.66it/s]Training 3/3 epoch (loss 0.4695):  70%|███████   | 6857/9753 [1:13:04<29:39,  1.63it/s]Training 3/3 epoch (loss 0.3623):  70%|███████   | 6857/9753 [1:13:05<29:39,  1.63it/s]Training 3/3 epoch (loss 0.3623):  70%|███████   | 6858/9753 [1:13:05<29:42,  1.62it/s]Training 3/3 epoch (loss 0.0986):  70%|███████   | 6858/9753 [1:13:05<29:42,  1.62it/s]Training 3/3 epoch (loss 0.0986):  70%|███████   | 6859/9753 [1:13:05<28:46,  1.68it/s]Training 3/3 epoch (loss 0.4945):  70%|███████   | 6859/9753 [1:13:06<28:46,  1.68it/s]Training 3/3 epoch (loss 0.4945):  70%|███████   | 6860/9753 [1:13:06<28:44,  1.68it/s]Training 3/3 epoch (loss 0.3537):  70%|███████   | 6860/9753 [1:13:07<28:44,  1.68it/s]Training 3/3 epoch (loss 0.3537):  70%|███████   | 6861/9753 [1:13:07<28:19,  1.70it/s]Training 3/3 epoch (loss 0.5448):  70%|███████   | 6861/9753 [1:13:07<28:19,  1.70it/s]Training 3/3 epoch (loss 0.5448):  70%|███████   | 6862/9753 [1:13:07<29:43,  1.62it/s]Training 3/3 epoch (loss 0.4229):  70%|███████   | 6862/9753 [1:13:08<29:43,  1.62it/s]Training 3/3 epoch (loss 0.4229):  70%|███████   | 6863/9753 [1:13:08<28:43,  1.68it/s]Training 3/3 epoch (loss 0.4010):  70%|███████   | 6863/9753 [1:13:09<28:43,  1.68it/s]Training 3/3 epoch (loss 0.4010):  70%|███████   | 6864/9753 [1:13:09<29:49,  1.61it/s]Training 3/3 epoch (loss 0.5148):  70%|███████   | 6864/9753 [1:13:09<29:49,  1.61it/s]Training 3/3 epoch (loss 0.5148):  70%|███████   | 6865/9753 [1:13:09<31:04,  1.55it/s]Training 3/3 epoch (loss 0.2412):  70%|███████   | 6865/9753 [1:13:10<31:04,  1.55it/s]Training 3/3 epoch (loss 0.2412):  70%|███████   | 6866/9753 [1:13:10<29:35,  1.63it/s]Training 3/3 epoch (loss 0.3857):  70%|███████   | 6866/9753 [1:13:10<29:35,  1.63it/s]Training 3/3 epoch (loss 0.3857):  70%|███████   | 6867/9753 [1:13:10<29:08,  1.65it/s]Training 3/3 epoch (loss 0.2609):  70%|███████   | 6867/9753 [1:13:11<29:08,  1.65it/s]Training 3/3 epoch (loss 0.2609):  70%|███████   | 6868/9753 [1:13:11<28:15,  1.70it/s]Training 3/3 epoch (loss 0.3799):  70%|███████   | 6868/9753 [1:13:11<28:15,  1.70it/s]Training 3/3 epoch (loss 0.3799):  70%|███████   | 6869/9753 [1:13:11<27:37,  1.74it/s]Training 3/3 epoch (loss 0.3648):  70%|███████   | 6869/9753 [1:13:12<27:37,  1.74it/s]Training 3/3 epoch (loss 0.3648):  70%|███████   | 6870/9753 [1:13:12<27:36,  1.74it/s]Training 3/3 epoch (loss 0.4074):  70%|███████   | 6870/9753 [1:13:13<27:36,  1.74it/s]Training 3/3 epoch (loss 0.4074):  70%|███████   | 6871/9753 [1:13:13<28:25,  1.69it/s]Training 3/3 epoch (loss 0.4163):  70%|███████   | 6871/9753 [1:13:13<28:25,  1.69it/s]Training 3/3 epoch (loss 0.4163):  70%|███████   | 6872/9753 [1:13:13<27:57,  1.72it/s]Training 3/3 epoch (loss 0.3130):  70%|███████   | 6872/9753 [1:13:14<27:57,  1.72it/s]Training 3/3 epoch (loss 0.3130):  70%|███████   | 6873/9753 [1:13:14<28:53,  1.66it/s]Training 3/3 epoch (loss 0.3828):  70%|███████   | 6873/9753 [1:13:14<28:53,  1.66it/s]Training 3/3 epoch (loss 0.3828):  70%|███████   | 6874/9753 [1:13:14<27:57,  1.72it/s]Training 3/3 epoch (loss 0.4081):  70%|███████   | 6874/9753 [1:13:15<27:57,  1.72it/s]Training 3/3 epoch (loss 0.4081):  70%|███████   | 6875/9753 [1:13:15<31:07,  1.54it/s]Training 3/3 epoch (loss 0.2881):  70%|███████   | 6875/9753 [1:13:16<31:07,  1.54it/s]Training 3/3 epoch (loss 0.2881):  71%|███████   | 6876/9753 [1:13:16<31:15,  1.53it/s]Training 3/3 epoch (loss 0.5112):  71%|███████   | 6876/9753 [1:13:17<31:15,  1.53it/s]Training 3/3 epoch (loss 0.5112):  71%|███████   | 6877/9753 [1:13:17<35:13,  1.36it/s]Training 3/3 epoch (loss 0.4370):  71%|███████   | 6877/9753 [1:13:18<35:13,  1.36it/s]Training 3/3 epoch (loss 0.4370):  71%|███████   | 6878/9753 [1:13:18<34:57,  1.37it/s]Training 3/3 epoch (loss 0.3434):  71%|███████   | 6878/9753 [1:13:18<34:57,  1.37it/s]Training 3/3 epoch (loss 0.3434):  71%|███████   | 6879/9753 [1:13:18<33:16,  1.44it/s]Training 3/3 epoch (loss 0.4053):  71%|███████   | 6879/9753 [1:13:19<33:16,  1.44it/s]Training 3/3 epoch (loss 0.4053):  71%|███████   | 6880/9753 [1:13:19<34:54,  1.37it/s]Training 3/3 epoch (loss 0.3168):  71%|███████   | 6880/9753 [1:13:20<34:54,  1.37it/s]Training 3/3 epoch (loss 0.3168):  71%|███████   | 6881/9753 [1:13:20<32:48,  1.46it/s]Training 3/3 epoch (loss 0.4716):  71%|███████   | 6881/9753 [1:13:21<32:48,  1.46it/s]Training 3/3 epoch (loss 0.4716):  71%|███████   | 6882/9753 [1:13:21<36:53,  1.30it/s]Training 3/3 epoch (loss 0.5090):  71%|███████   | 6882/9753 [1:13:21<36:53,  1.30it/s]Training 3/3 epoch (loss 0.5090):  71%|███████   | 6883/9753 [1:13:21<39:36,  1.21it/s]Training 3/3 epoch (loss 0.5608):  71%|███████   | 6883/9753 [1:13:22<39:36,  1.21it/s]Training 3/3 epoch (loss 0.5608):  71%|███████   | 6884/9753 [1:13:22<39:06,  1.22it/s]Training 3/3 epoch (loss 0.4529):  71%|███████   | 6884/9753 [1:13:23<39:06,  1.22it/s]Training 3/3 epoch (loss 0.4529):  71%|███████   | 6885/9753 [1:13:23<36:58,  1.29it/s]Training 3/3 epoch (loss 0.4571):  71%|███████   | 6885/9753 [1:13:23<36:58,  1.29it/s]Training 3/3 epoch (loss 0.4571):  71%|███████   | 6886/9753 [1:13:23<33:58,  1.41it/s]Training 3/3 epoch (loss 0.3532):  71%|███████   | 6886/9753 [1:13:24<33:58,  1.41it/s]Training 3/3 epoch (loss 0.3532):  71%|███████   | 6887/9753 [1:13:24<31:36,  1.51it/s]Training 3/3 epoch (loss 0.5164):  71%|███████   | 6887/9753 [1:13:25<31:36,  1.51it/s]Training 3/3 epoch (loss 0.5164):  71%|███████   | 6888/9753 [1:13:25<33:45,  1.41it/s]Training 3/3 epoch (loss 0.5834):  71%|███████   | 6888/9753 [1:13:25<33:45,  1.41it/s]Training 3/3 epoch (loss 0.5834):  71%|███████   | 6889/9753 [1:13:25<32:40,  1.46it/s]Training 3/3 epoch (loss 0.1657):  71%|███████   | 6889/9753 [1:13:26<32:40,  1.46it/s]Training 3/3 epoch (loss 0.1657):  71%|███████   | 6890/9753 [1:13:26<30:59,  1.54it/s]Training 3/3 epoch (loss 0.3301):  71%|███████   | 6890/9753 [1:13:27<30:59,  1.54it/s]Training 3/3 epoch (loss 0.3301):  71%|███████   | 6891/9753 [1:13:27<29:39,  1.61it/s]Training 3/3 epoch (loss 0.5672):  71%|███████   | 6891/9753 [1:13:27<29:39,  1.61it/s]Training 3/3 epoch (loss 0.5672):  71%|███████   | 6892/9753 [1:13:27<28:40,  1.66it/s]Training 3/3 epoch (loss 0.4707):  71%|███████   | 6892/9753 [1:13:28<28:40,  1.66it/s]Training 3/3 epoch (loss 0.4707):  71%|███████   | 6893/9753 [1:13:28<30:09,  1.58it/s]Training 3/3 epoch (loss 0.3267):  71%|███████   | 6893/9753 [1:13:28<30:09,  1.58it/s]Training 3/3 epoch (loss 0.3267):  71%|███████   | 6894/9753 [1:13:28<29:15,  1.63it/s]Training 3/3 epoch (loss 0.3398):  71%|███████   | 6894/9753 [1:13:29<29:15,  1.63it/s]Training 3/3 epoch (loss 0.3398):  71%|███████   | 6895/9753 [1:13:29<31:18,  1.52it/s]Training 3/3 epoch (loss 0.3898):  71%|███████   | 6895/9753 [1:13:30<31:18,  1.52it/s]Training 3/3 epoch (loss 0.3898):  71%|███████   | 6896/9753 [1:13:30<31:41,  1.50it/s]Training 3/3 epoch (loss 0.3762):  71%|███████   | 6896/9753 [1:13:31<31:41,  1.50it/s]Training 3/3 epoch (loss 0.3762):  71%|███████   | 6897/9753 [1:13:31<33:06,  1.44it/s]Training 3/3 epoch (loss 0.2630):  71%|███████   | 6897/9753 [1:13:31<33:06,  1.44it/s]Training 3/3 epoch (loss 0.2630):  71%|███████   | 6898/9753 [1:13:31<31:09,  1.53it/s]Training 3/3 epoch (loss 0.3307):  71%|███████   | 6898/9753 [1:13:32<31:09,  1.53it/s]Training 3/3 epoch (loss 0.3307):  71%|███████   | 6899/9753 [1:13:32<29:44,  1.60it/s]Training 3/3 epoch (loss 0.4550):  71%|███████   | 6899/9753 [1:13:32<29:44,  1.60it/s]Training 3/3 epoch (loss 0.4550):  71%|███████   | 6900/9753 [1:13:32<28:35,  1.66it/s]Training 3/3 epoch (loss 0.4935):  71%|███████   | 6900/9753 [1:13:33<28:35,  1.66it/s]Training 3/3 epoch (loss 0.4935):  71%|███████   | 6901/9753 [1:13:33<32:42,  1.45it/s]Training 3/3 epoch (loss 0.2801):  71%|███████   | 6901/9753 [1:13:34<32:42,  1.45it/s]Training 3/3 epoch (loss 0.2801):  71%|███████   | 6902/9753 [1:13:34<33:03,  1.44it/s]Training 3/3 epoch (loss 0.3207):  71%|███████   | 6902/9753 [1:13:34<33:03,  1.44it/s]Training 3/3 epoch (loss 0.3207):  71%|███████   | 6903/9753 [1:13:34<31:16,  1.52it/s]Training 3/3 epoch (loss 0.3184):  71%|███████   | 6903/9753 [1:13:35<31:16,  1.52it/s]Training 3/3 epoch (loss 0.3184):  71%|███████   | 6904/9753 [1:13:35<29:38,  1.60it/s]Training 3/3 epoch (loss 0.7904):  71%|███████   | 6904/9753 [1:13:36<29:38,  1.60it/s]Training 3/3 epoch (loss 0.7904):  71%|███████   | 6905/9753 [1:13:36<30:56,  1.53it/s]Training 3/3 epoch (loss 0.4523):  71%|███████   | 6905/9753 [1:13:36<30:56,  1.53it/s]Training 3/3 epoch (loss 0.4523):  71%|███████   | 6906/9753 [1:13:36<30:38,  1.55it/s]Training 3/3 epoch (loss 0.4444):  71%|███████   | 6906/9753 [1:13:37<30:38,  1.55it/s]Training 3/3 epoch (loss 0.4444):  71%|███████   | 6907/9753 [1:13:37<30:39,  1.55it/s]Training 3/3 epoch (loss 0.6374):  71%|███████   | 6907/9753 [1:13:38<30:39,  1.55it/s]Training 3/3 epoch (loss 0.6374):  71%|███████   | 6908/9753 [1:13:38<29:30,  1.61it/s]Training 3/3 epoch (loss 0.5820):  71%|███████   | 6908/9753 [1:13:38<29:30,  1.61it/s]Training 3/3 epoch (loss 0.5820):  71%|███████   | 6909/9753 [1:13:38<32:03,  1.48it/s]Training 3/3 epoch (loss 0.3854):  71%|███████   | 6909/9753 [1:13:39<32:03,  1.48it/s]Training 3/3 epoch (loss 0.3854):  71%|███████   | 6910/9753 [1:13:39<31:25,  1.51it/s]Training 3/3 epoch (loss 0.3183):  71%|███████   | 6910/9753 [1:13:40<31:25,  1.51it/s]Training 3/3 epoch (loss 0.3183):  71%|███████   | 6911/9753 [1:13:40<30:40,  1.54it/s]Training 3/3 epoch (loss 0.2451):  71%|███████   | 6911/9753 [1:13:40<30:40,  1.54it/s]Training 3/3 epoch (loss 0.2451):  71%|███████   | 6912/9753 [1:13:40<30:54,  1.53it/s]Training 3/3 epoch (loss 0.4369):  71%|███████   | 6912/9753 [1:13:41<30:54,  1.53it/s]Training 3/3 epoch (loss 0.4369):  71%|███████   | 6913/9753 [1:13:41<29:25,  1.61it/s]Training 3/3 epoch (loss 0.6567):  71%|███████   | 6913/9753 [1:13:41<29:25,  1.61it/s]Training 3/3 epoch (loss 0.6567):  71%|███████   | 6914/9753 [1:13:41<29:29,  1.60it/s]Training 3/3 epoch (loss 0.4041):  71%|███████   | 6914/9753 [1:13:42<29:29,  1.60it/s]Training 3/3 epoch (loss 0.4041):  71%|███████   | 6915/9753 [1:13:42<30:58,  1.53it/s]Training 3/3 epoch (loss 0.3326):  71%|███████   | 6915/9753 [1:13:43<30:58,  1.53it/s]Training 3/3 epoch (loss 0.3326):  71%|███████   | 6916/9753 [1:13:43<29:31,  1.60it/s]Training 3/3 epoch (loss 0.3509):  71%|███████   | 6916/9753 [1:13:43<29:31,  1.60it/s]Training 3/3 epoch (loss 0.3509):  71%|███████   | 6917/9753 [1:13:43<28:45,  1.64it/s]Training 3/3 epoch (loss 0.2853):  71%|███████   | 6917/9753 [1:13:44<28:45,  1.64it/s]Training 3/3 epoch (loss 0.2853):  71%|███████   | 6918/9753 [1:13:44<28:21,  1.67it/s]Training 3/3 epoch (loss 0.6897):  71%|███████   | 6918/9753 [1:13:45<28:21,  1.67it/s]Training 3/3 epoch (loss 0.6897):  71%|███████   | 6919/9753 [1:13:45<28:58,  1.63it/s]Training 3/3 epoch (loss 0.5441):  71%|███████   | 6919/9753 [1:13:45<28:58,  1.63it/s]Training 3/3 epoch (loss 0.5441):  71%|███████   | 6920/9753 [1:13:45<28:54,  1.63it/s]Training 3/3 epoch (loss 0.3062):  71%|███████   | 6920/9753 [1:13:46<28:54,  1.63it/s]Training 3/3 epoch (loss 0.3062):  71%|███████   | 6921/9753 [1:13:46<28:09,  1.68it/s]Training 3/3 epoch (loss 0.3756):  71%|███████   | 6921/9753 [1:13:47<28:09,  1.68it/s]Training 3/3 epoch (loss 0.3756):  71%|███████   | 6922/9753 [1:13:47<32:36,  1.45it/s]Training 3/3 epoch (loss 0.3426):  71%|███████   | 6922/9753 [1:13:47<32:36,  1.45it/s]Training 3/3 epoch (loss 0.3426):  71%|███████   | 6923/9753 [1:13:47<30:33,  1.54it/s]Training 3/3 epoch (loss 0.3743):  71%|███████   | 6923/9753 [1:13:48<30:33,  1.54it/s]Training 3/3 epoch (loss 0.3743):  71%|███████   | 6924/9753 [1:13:48<29:12,  1.61it/s]Training 3/3 epoch (loss 0.3158):  71%|███████   | 6924/9753 [1:13:48<29:12,  1.61it/s]Training 3/3 epoch (loss 0.3158):  71%|███████   | 6925/9753 [1:13:48<28:06,  1.68it/s]Training 3/3 epoch (loss 0.4160):  71%|███████   | 6925/9753 [1:13:49<28:06,  1.68it/s]Training 3/3 epoch (loss 0.4160):  71%|███████   | 6926/9753 [1:13:49<27:32,  1.71it/s]Training 3/3 epoch (loss 0.5027):  71%|███████   | 6926/9753 [1:13:50<27:32,  1.71it/s]Training 3/3 epoch (loss 0.5027):  71%|███████   | 6927/9753 [1:13:50<29:06,  1.62it/s]Training 3/3 epoch (loss 0.2630):  71%|███████   | 6927/9753 [1:13:50<29:06,  1.62it/s]Training 3/3 epoch (loss 0.2630):  71%|███████   | 6928/9753 [1:13:50<30:05,  1.56it/s]Training 3/3 epoch (loss 0.3628):  71%|███████   | 6928/9753 [1:13:51<30:05,  1.56it/s]Training 3/3 epoch (loss 0.3628):  71%|███████   | 6929/9753 [1:13:51<29:54,  1.57it/s]Training 3/3 epoch (loss 0.4998):  71%|███████   | 6929/9753 [1:13:51<29:54,  1.57it/s]Training 3/3 epoch (loss 0.4998):  71%|███████   | 6930/9753 [1:13:51<29:07,  1.62it/s]Training 3/3 epoch (loss 0.4822):  71%|███████   | 6930/9753 [1:13:52<29:07,  1.62it/s]Training 3/3 epoch (loss 0.4822):  71%|███████   | 6931/9753 [1:13:52<29:36,  1.59it/s]Training 3/3 epoch (loss 0.4630):  71%|███████   | 6931/9753 [1:13:53<29:36,  1.59it/s]Training 3/3 epoch (loss 0.4630):  71%|███████   | 6932/9753 [1:13:53<31:43,  1.48it/s]Training 3/3 epoch (loss 0.4302):  71%|███████   | 6932/9753 [1:13:53<31:43,  1.48it/s]Training 3/3 epoch (loss 0.4302):  71%|███████   | 6933/9753 [1:13:53<30:49,  1.53it/s]Training 3/3 epoch (loss 0.3315):  71%|███████   | 6933/9753 [1:13:54<30:49,  1.53it/s]Training 3/3 epoch (loss 0.3315):  71%|███████   | 6934/9753 [1:13:54<29:18,  1.60it/s]Training 3/3 epoch (loss 0.2782):  71%|███████   | 6934/9753 [1:13:55<29:18,  1.60it/s]Training 3/3 epoch (loss 0.2782):  71%|███████   | 6935/9753 [1:13:55<28:12,  1.67it/s]Training 3/3 epoch (loss 0.5024):  71%|███████   | 6935/9753 [1:13:55<28:12,  1.67it/s]Training 3/3 epoch (loss 0.5024):  71%|███████   | 6936/9753 [1:13:55<27:30,  1.71it/s]Training 3/3 epoch (loss 0.3955):  71%|███████   | 6936/9753 [1:13:56<27:30,  1.71it/s]Training 3/3 epoch (loss 0.3955):  71%|███████   | 6937/9753 [1:13:56<26:57,  1.74it/s]Training 3/3 epoch (loss 0.4245):  71%|███████   | 6937/9753 [1:13:56<26:57,  1.74it/s]Training 3/3 epoch (loss 0.4245):  71%|███████   | 6938/9753 [1:13:56<26:59,  1.74it/s]Training 3/3 epoch (loss 0.5156):  71%|███████   | 6938/9753 [1:13:57<26:59,  1.74it/s]Training 3/3 epoch (loss 0.5156):  71%|███████   | 6939/9753 [1:13:57<26:47,  1.75it/s]Training 3/3 epoch (loss 0.6037):  71%|███████   | 6939/9753 [1:13:57<26:47,  1.75it/s]Training 3/3 epoch (loss 0.6037):  71%|███████   | 6940/9753 [1:13:57<26:36,  1.76it/s]Training 3/3 epoch (loss 0.2911):  71%|███████   | 6940/9753 [1:13:58<26:36,  1.76it/s]Training 3/3 epoch (loss 0.2911):  71%|███████   | 6941/9753 [1:13:58<26:18,  1.78it/s]Training 3/3 epoch (loss 0.3817):  71%|███████   | 6941/9753 [1:13:58<26:18,  1.78it/s]Training 3/3 epoch (loss 0.3817):  71%|███████   | 6942/9753 [1:13:58<26:06,  1.79it/s]Training 3/3 epoch (loss 0.3337):  71%|███████   | 6942/9753 [1:13:59<26:06,  1.79it/s]Training 3/3 epoch (loss 0.3337):  71%|███████   | 6943/9753 [1:13:59<25:55,  1.81it/s]Training 3/3 epoch (loss 0.4114):  71%|██��████   | 6943/9753 [1:14:00<25:55,  1.81it/s]Training 3/3 epoch (loss 0.4114):  71%|███████   | 6944/9753 [1:14:00<27:45,  1.69it/s]Training 3/3 epoch (loss 0.4638):  71%|███████   | 6944/9753 [1:14:00<27:45,  1.69it/s]Training 3/3 epoch (loss 0.4638):  71%|███████   | 6945/9753 [1:14:00<27:28,  1.70it/s]Training 3/3 epoch (loss 0.7162):  71%|███████   | 6945/9753 [1:14:01<27:28,  1.70it/s]Training 3/3 epoch (loss 0.7162):  71%|███████   | 6946/9753 [1:14:01<29:24,  1.59it/s]Training 3/3 epoch (loss 0.5173):  71%|███████   | 6946/9753 [1:14:02<29:24,  1.59it/s]Training 3/3 epoch (loss 0.5173):  71%|███████   | 6947/9753 [1:14:02<29:19,  1.60it/s]Training 3/3 epoch (loss 0.5698):  71%|███████   | 6947/9753 [1:14:02<29:19,  1.60it/s]Training 3/3 epoch (loss 0.5698):  71%|███████   | 6948/9753 [1:14:02<31:45,  1.47it/s]Training 3/3 epoch (loss 0.4030):  71%|███████   | 6948/9753 [1:14:03<31:45,  1.47it/s]Training 3/3 epoch (loss 0.4030):  71%|███████   | 6949/9753 [1:14:03<30:22,  1.54it/s]Training 3/3 epoch (loss 0.1562):  71%|███████   | 6949/9753 [1:14:04<30:22,  1.54it/s]Training 3/3 epoch (loss 0.1562):  71%|███████▏  | 6950/9753 [1:14:04<28:52,  1.62it/s]Training 3/3 epoch (loss 0.3718):  71%|███████▏  | 6950/9753 [1:14:04<28:52,  1.62it/s]Training 3/3 epoch (loss 0.3718):  71%|███████▏  | 6951/9753 [1:14:04<29:12,  1.60it/s]Training 3/3 epoch (loss 0.5390):  71%|███████▏  | 6951/9753 [1:14:05<29:12,  1.60it/s]Training 3/3 epoch (loss 0.5390):  71%|███████▏  | 6952/9753 [1:14:05<30:01,  1.55it/s]Training 3/3 epoch (loss 0.5105):  71%|███████▏  | 6952/9753 [1:14:06<30:01,  1.55it/s]Training 3/3 epoch (loss 0.5105):  71%|███████▏  | 6953/9753 [1:14:06<30:15,  1.54it/s]Training 3/3 epoch (loss 0.3784):  71%|███████▏  | 6953/9753 [1:14:06<30:15,  1.54it/s]Training 3/3 epoch (loss 0.3784):  71%|███████▏  | 6954/9753 [1:14:06<29:02,  1.61it/s]Training 3/3 epoch (loss 0.1709):  71%|███████▏  | 6954/9753 [1:14:07<29:02,  1.61it/s]Training 3/3 epoch (loss 0.1709):  71%|███████▏  | 6955/9753 [1:14:07<28:11,  1.65it/s]Training 3/3 epoch (loss 0.4468):  71%|███████▏  | 6955/9753 [1:14:07<28:11,  1.65it/s]Training 3/3 epoch (loss 0.4468):  71%|███████▏  | 6956/9753 [1:14:07<27:31,  1.69it/s]Training 3/3 epoch (loss 0.5105):  71%|███████▏  | 6956/9753 [1:14:08<27:31,  1.69it/s]Training 3/3 epoch (loss 0.5105):  71%|███████▏  | 6957/9753 [1:14:08<27:14,  1.71it/s]Training 3/3 epoch (loss 0.6166):  71%|███████▏  | 6957/9753 [1:14:09<27:14,  1.71it/s]Training 3/3 epoch (loss 0.6166):  71%|███████▏  | 6958/9753 [1:14:09<31:48,  1.46it/s]Training 3/3 epoch (loss 0.5676):  71%|███████▏  | 6958/9753 [1:14:09<31:48,  1.46it/s]Training 3/3 epoch (loss 0.5676):  71%|███████▏  | 6959/9753 [1:14:09<31:37,  1.47it/s]Training 3/3 epoch (loss 0.5117):  71%|███████▏  | 6959/9753 [1:14:10<31:37,  1.47it/s]Training 3/3 epoch (loss 0.5117):  71%|███████▏  | 6960/9753 [1:14:10<31:56,  1.46it/s]Training 3/3 epoch (loss 0.4247):  71%|███████▏  | 6960/9753 [1:14:11<31:56,  1.46it/s]Training 3/3 epoch (loss 0.4247):  71%|███████▏  | 6961/9753 [1:14:11<31:10,  1.49it/s]Training 3/3 epoch (loss 0.5449):  71%|███████▏  | 6961/9753 [1:14:11<31:10,  1.49it/s]Training 3/3 epoch (loss 0.5449):  71%|███████▏  | 6962/9753 [1:14:11<31:25,  1.48it/s]Training 3/3 epoch (loss 0.4056):  71%|███████▏  | 6962/9753 [1:14:12<31:25,  1.48it/s]Training 3/3 epoch (loss 0.4056):  71%|███████▏  | 6963/9753 [1:14:12<30:02,  1.55it/s]Training 3/3 epoch (loss 0.4258):  71%|███████▏  | 6963/9753 [1:14:13<30:02,  1.55it/s]Training 3/3 epoch (loss 0.4258):  71%|███████▏  | 6964/9753 [1:14:13<28:43,  1.62it/s]Training 3/3 epoch (loss 0.3557):  71%|███████▏  | 6964/9753 [1:14:13<28:43,  1.62it/s]Training 3/3 epoch (loss 0.3557):  71%|███████▏  | 6965/9753 [1:14:13<27:48,  1.67it/s]Training 3/3 epoch (loss 0.4374):  71%|███████▏  | 6965/9753 [1:14:14<27:48,  1.67it/s]Training 3/3 epoch (loss 0.4374):  71%|███████▏  | 6966/9753 [1:14:14<27:17,  1.70it/s]Training 3/3 epoch (loss 0.4839):  71%|███████▏  | 6966/9753 [1:14:14<27:17,  1.70it/s]Training 3/3 epoch (loss 0.4839):  71%|███████▏  | 6967/9753 [1:14:14<26:50,  1.73it/s]Training 3/3 epoch (loss 0.4550):  71%|███████▏  | 6967/9753 [1:14:15<26:50,  1.73it/s]Training 3/3 epoch (loss 0.4550):  71%|███████▏  | 6968/9753 [1:14:15<28:01,  1.66it/s]Training 3/3 epoch (loss 0.4325):  71%|███████▏  | 6968/9753 [1:14:16<28:01,  1.66it/s]Training 3/3 epoch (loss 0.4325):  71%|███████▏  | 6969/9753 [1:14:16<28:58,  1.60it/s]Training 3/3 epoch (loss 0.5756):  71%|███████▏  | 6969/9753 [1:14:16<28:58,  1.60it/s]Training 3/3 epoch (loss 0.5756):  71%|███████▏  | 6970/9753 [1:14:16<29:02,  1.60it/s]Training 3/3 epoch (loss 0.4052):  71%|███████▏  | 6970/9753 [1:14:17<29:02,  1.60it/s]Training 3/3 epoch (loss 0.4052):  71%|███████▏  | 6971/9753 [1:14:17<28:34,  1.62it/s]Training 3/3 epoch (loss 0.4681):  71%|███████▏  | 6971/9753 [1:14:17<28:34,  1.62it/s]Training 3/3 epoch (loss 0.4681):  71%|███████▏  | 6972/9753 [1:14:17<28:09,  1.65it/s]Training 3/3 epoch (loss 0.3517):  71%|███████▏  | 6972/9753 [1:14:18<28:09,  1.65it/s]Training 3/3 epoch (loss 0.3517):  71%|███████▏  | 6973/9753 [1:14:18<27:29,  1.69it/s]Training 3/3 epoch (loss 0.5369):  71%|███████▏  | 6973/9753 [1:14:19<27:29,  1.69it/s]Training 3/3 epoch (loss 0.5369):  72%|███████▏  | 6974/9753 [1:14:19<27:54,  1.66it/s]Training 3/3 epoch (loss 0.6066):  72%|███████▏  | 6974/9753 [1:14:19<27:54,  1.66it/s]Training 3/3 epoch (loss 0.6066):  72%|███████▏  | 6975/9753 [1:14:19<28:49,  1.61it/s]Training 3/3 epoch (loss 0.2920):  72%|███████▏  | 6975/9753 [1:14:20<28:49,  1.61it/s]Training 3/3 epoch (loss 0.2920):  72%|███████▏  | 6976/9753 [1:14:20<30:30,  1.52it/s]Training 3/3 epoch (loss 0.5840):  72%|███████▏  | 6976/9753 [1:14:21<30:30,  1.52it/s]Training 3/3 epoch (loss 0.5840):  72%|███████▏  | 6977/9753 [1:14:21<29:54,  1.55it/s]Training 3/3 epoch (loss 0.4274):  72%|███████▏  | 6977/9753 [1:14:21<29:54,  1.55it/s]Training 3/3 epoch (loss 0.4274):  72%|███████▏  | 6978/9753 [1:14:21<28:43,  1.61it/s]Training 3/3 epoch (loss 0.3707):  72%|███████▏  | 6978/9753 [1:14:22<28:43,  1.61it/s]Training 3/3 epoch (loss 0.3707):  72%|███████▏  | 6979/9753 [1:14:22<27:46,  1.66it/s]Training 3/3 epoch (loss 0.6851):  72%|███████▏  | 6979/9753 [1:14:22<27:46,  1.66it/s]Training 3/3 epoch (loss 0.6851):  72%|███████▏  | 6980/9753 [1:14:22<28:53,  1.60it/s]Training 3/3 epoch (loss 0.3194):  72%|███████▏  | 6980/9753 [1:14:23<28:53,  1.60it/s]Training 3/3 epoch (loss 0.3194):  72%|███████▏  | 6981/9753 [1:14:23<28:01,  1.65it/s]Training 3/3 epoch (loss 0.3531):  72%|███████▏  | 6981/9753 [1:14:23<28:01,  1.65it/s]Training 3/3 epoch (loss 0.3531):  72%|███████▏  | 6982/9753 [1:14:23<27:10,  1.70it/s]Training 3/3 epoch (loss 0.3354):  72%|███████▏  | 6982/9753 [1:14:24<27:10,  1.70it/s]Training 3/3 epoch (loss 0.3354):  72%|███████▏  | 6983/9753 [1:14:24<26:51,  1.72it/s]Training 3/3 epoch (loss 0.4720):  72%|███████▏  | 6983/9753 [1:14:25<26:51,  1.72it/s]Training 3/3 epoch (loss 0.4720):  72%|███████▏  | 6984/9753 [1:14:25<28:46,  1.60it/s]Training 3/3 epoch (loss 0.3508):  72%|███████▏  | 6984/9753 [1:14:25<28:46,  1.60it/s]Training 3/3 epoch (loss 0.3508):  72%|███████▏  | 6985/9753 [1:14:25<28:08,  1.64it/s]Training 3/3 epoch (loss 0.4283):  72%|███████▏  | 6985/9753 [1:14:26<28:08,  1.64it/s]Training 3/3 epoch (loss 0.4283):  72%|███████▏  | 6986/9753 [1:14:26<27:33,  1.67it/s]Training 3/3 epoch (loss 0.4032):  72%|███████▏  | 6986/9753 [1:14:26<27:33,  1.67it/s]Training 3/3 epoch (loss 0.4032):  72%|███████▏  | 6987/9753 [1:14:26<26:55,  1.71it/s]Training 3/3 epoch (loss 0.4025):  72%|███████▏  | 6987/9753 [1:14:27<26:55,  1.71it/s]Training 3/3 epoch (loss 0.4025):  72%|███████▏  | 6988/9753 [1:14:27<28:42,  1.61it/s]Training 3/3 epoch (loss 0.4122):  72%|███████▏  | 6988/9753 [1:14:28<28:42,  1.61it/s]Training 3/3 epoch (loss 0.4122):  72%|███████▏  | 6989/9753 [1:14:28<28:02,  1.64it/s]Training 3/3 epoch (loss 0.6782):  72%|███████▏  | 6989/9753 [1:14:28<28:02,  1.64it/s]Training 3/3 epoch (loss 0.6782):  72%|███████▏  | 6990/9753 [1:14:28<27:46,  1.66it/s]Training 3/3 epoch (loss 0.3798):  72%|███████▏  | 6990/9753 [1:14:29<27:46,  1.66it/s]Training 3/3 epoch (loss 0.3798):  72%|███████▏  | 6991/9753 [1:14:29<28:16,  1.63it/s]Training 3/3 epoch (loss 0.6660):  72%|███████▏  | 6991/9753 [1:14:30<28:16,  1.63it/s]Training 3/3 epoch (loss 0.6660):  72%|███████▏  | 6992/9753 [1:14:30<31:13,  1.47it/s]Training 3/3 epoch (loss 0.3659):  72%|███████▏  | 6992/9753 [1:14:30<31:13,  1.47it/s]Training 3/3 epoch (loss 0.3659):  72%|███████▏  | 6993/9753 [1:14:30<31:29,  1.46it/s]Training 3/3 epoch (loss 0.6074):  72%|███████▏  | 6993/9753 [1:14:31<31:29,  1.46it/s]Training 3/3 epoch (loss 0.6074):  72%|███████▏  | 6994/9753 [1:14:31<32:36,  1.41it/s]Training 3/3 epoch (loss 0.5688):  72%|███████▏  | 6994/9753 [1:14:32<32:36,  1.41it/s]Training 3/3 epoch (loss 0.5688):  72%|███████▏  | 6995/9753 [1:14:32<34:42,  1.32it/s]Training 3/3 epoch (loss 0.5440):  72%|███████▏  | 6995/9753 [1:14:33<34:42,  1.32it/s]Training 3/3 epoch (loss 0.5440):  72%|███████▏  | 6996/9753 [1:14:33<35:49,  1.28it/s]Training 3/3 epoch (loss 0.3360):  72%|███████▏  | 6996/9753 [1:14:34<35:49,  1.28it/s]Training 3/3 epoch (loss 0.3360):  72%|███████▏  | 6997/9753 [1:14:34<32:38,  1.41it/s]Training 3/3 epoch (loss 0.3578):  72%|███████▏  | 6997/9753 [1:14:34<32:38,  1.41it/s]Training 3/3 epoch (loss 0.3578):  72%|███████▏  | 6998/9753 [1:14:34<30:28,  1.51it/s]Training 3/3 epoch (loss 0.3049):  72%|███████▏  | 6998/9753 [1:14:35<30:28,  1.51it/s]Training 3/3 epoch (loss 0.3049):  72%|███████▏  | 6999/9753 [1:14:35<32:52,  1.40it/s]Training 3/3 epoch (loss 0.5966):  72%|███████▏  | 6999/9753 [1:14:36<32:52,  1.40it/s]Training 3/3 epoch (loss 0.5966):  72%|███████▏  | 7000/9753 [1:14:36<31:26,  1.46it/s]Training 3/3 epoch (loss 0.2354):  72%|███████▏  | 7000/9753 [1:14:36<31:26,  1.46it/s]Training 3/3 epoch (loss 0.2354):  72%|███████▏  | 7001/9753 [1:14:36<29:30,  1.55it/s]Training 3/3 epoch (loss 0.2441):  72%|███████▏  | 7001/9753 [1:14:37<29:30,  1.55it/s]Training 3/3 epoch (loss 0.2441):  72%|███████▏  | 7002/9753 [1:14:37<28:06,  1.63it/s]Training 3/3 epoch (loss 0.2891):  72%|███████▏  | 7002/9753 [1:14:37<28:06,  1.63it/s]Training 3/3 epoch (loss 0.2891):  72%|███████▏  | 7003/9753 [1:14:37<27:06,  1.69it/s]Training 3/3 epoch (loss 0.3036):  72%|███████▏  | 7003/9753 [1:14:38<27:06,  1.69it/s]Training 3/3 epoch (loss 0.3036):  72%|███████▏  | 7004/9753 [1:14:38<26:25,  1.73it/s]Training 3/3 epoch (loss 0.2826):  72%|███████▏  | 7004/9753 [1:14:38<26:25,  1.73it/s]Training 3/3 epoch (loss 0.2826):  72%|███████▏  | 7005/9753 [1:14:38<25:56,  1.77it/s]Training 3/3 epoch (loss 0.4622):  72%|███████▏  | 7005/9753 [1:14:39<25:56,  1.77it/s]Training 3/3 epoch (loss 0.4622):  72%|███████▏  | 7006/9753 [1:14:39<27:52,  1.64it/s]Training 3/3 epoch (loss 0.5882):  72%|███████▏  | 7006/9753 [1:14:40<27:52,  1.64it/s]Training 3/3 epoch (loss 0.5882):  72%|███████▏  | 7007/9753 [1:14:40<27:27,  1.67it/s]Training 3/3 epoch (loss 0.5025):  72%|███████▏  | 7007/9753 [1:14:40<27:27,  1.67it/s]Training 3/3 epoch (loss 0.5025):  72%|███████▏  | 7008/9753 [1:14:40<30:30,  1.50it/s]Training 3/3 epoch (loss 0.2937):  72%|███████▏  | 7008/9753 [1:14:41<30:30,  1.50it/s]Training 3/3 epoch (loss 0.2937):  72%|███████▏  | 7009/9753 [1:14:41<29:10,  1.57it/s]Training 3/3 epoch (loss 0.2831):  72%|███████▏  | 7009/9753 [1:14:41<29:10,  1.57it/s]Training 3/3 epoch (loss 0.2831):  72%|███████▏  | 7010/9753 [1:14:41<27:50,  1.64it/s]Training 3/3 epoch (loss 0.2975):  72%|███████▏  | 7010/9753 [1:14:42<27:50,  1.64it/s]Training 3/3 epoch (loss 0.2975):  72%|███████▏  | 7011/9753 [1:14:42<26:57,  1.70it/s]Training 3/3 epoch (loss 0.4753):  72%|███████▏  | 7011/9753 [1:14:43<26:57,  1.70it/s]Training 3/3 epoch (loss 0.4753):  72%|███████▏  | 7012/9753 [1:14:43<26:38,  1.72it/s]Training 3/3 epoch (loss 0.5658):  72%|███████▏  | 7012/9753 [1:14:43<26:38,  1.72it/s]Training 3/3 epoch (loss 0.5658):  72%|███████▏  | 7013/9753 [1:14:43<26:44,  1.71it/s]Training 3/3 epoch (loss 0.4178):  72%|███████▏  | 7013/9753 [1:14:44<26:44,  1.71it/s]Training 3/3 epoch (loss 0.4178):  72%|███████▏  | 7014/9753 [1:14:44<26:17,  1.74it/s]Training 3/3 epoch (loss 0.4745):  72%|███████▏  | 7014/9753 [1:14:44<26:17,  1.74it/s]Training 3/3 epoch (loss 0.4745):  72%|███████▏  | 7015/9753 [1:14:44<27:46,  1.64it/s]Training 3/3 epoch (loss 0.6092):  72%|███████▏  | 7015/9753 [1:14:45<27:46,  1.64it/s]Training 3/3 epoch (loss 0.6092):  72%|███████▏  | 7016/9753 [1:14:45<26:57,  1.69it/s]Training 3/3 epoch (loss 0.4927):  72%|███████▏  | 7016/9753 [1:14:46<26:57,  1.69it/s]Training 3/3 epoch (loss 0.4927):  72%|███████▏  | 7017/9753 [1:14:46<29:07,  1.57it/s]Training 3/3 epoch (loss 0.4773):  72%|��██████▏  | 7017/9753 [1:14:46<29:07,  1.57it/s]Training 3/3 epoch (loss 0.4773):  72%|███████▏  | 7018/9753 [1:14:46<29:03,  1.57it/s]Training 3/3 epoch (loss 0.3082):  72%|███████▏  | 7018/9753 [1:14:47<29:03,  1.57it/s]Training 3/3 epoch (loss 0.3082):  72%|███████▏  | 7019/9753 [1:14:47<28:10,  1.62it/s]Training 3/3 epoch (loss 0.2847):  72%|███████▏  | 7019/9753 [1:14:47<28:10,  1.62it/s]Training 3/3 epoch (loss 0.2847):  72%|███████▏  | 7020/9753 [1:14:47<27:21,  1.66it/s]Training 3/3 epoch (loss 0.5599):  72%|███████▏  | 7020/9753 [1:14:48<27:21,  1.66it/s]Training 3/3 epoch (loss 0.5599):  72%|███████▏  | 7021/9753 [1:14:48<28:12,  1.61it/s]Training 3/3 epoch (loss 0.4264):  72%|███████▏  | 7021/9753 [1:14:49<28:12,  1.61it/s]Training 3/3 epoch (loss 0.4264):  72%|███████▏  | 7022/9753 [1:14:49<29:20,  1.55it/s]Training 3/3 epoch (loss 0.3859):  72%|███████▏  | 7022/9753 [1:14:49<29:20,  1.55it/s]Training 3/3 epoch (loss 0.3859):  72%|███████▏  | 7023/9753 [1:14:49<28:12,  1.61it/s]Training 3/3 epoch (loss 0.3223):  72%|███████▏  | 7023/9753 [1:14:50<28:12,  1.61it/s]Training 3/3 epoch (loss 0.3223):  72%|███████▏  | 7024/9753 [1:14:50<29:02,  1.57it/s]Training 3/3 epoch (loss 0.5590):  72%|███████▏  | 7024/9753 [1:14:51<29:02,  1.57it/s]Training 3/3 epoch (loss 0.5590):  72%|███████▏  | 7025/9753 [1:14:51<29:06,  1.56it/s]Training 3/3 epoch (loss 0.1836):  72%|███████▏  | 7025/9753 [1:14:51<29:06,  1.56it/s]Training 3/3 epoch (loss 0.1836):  72%|███████▏  | 7026/9753 [1:14:51<28:28,  1.60it/s]Training 3/3 epoch (loss 0.4818):  72%|███████▏  | 7026/9753 [1:14:52<28:28,  1.60it/s]Training 3/3 epoch (loss 0.4818):  72%|███████▏  | 7027/9753 [1:14:52<28:23,  1.60it/s]Training 3/3 epoch (loss 0.4377):  72%|███████▏  | 7027/9753 [1:14:53<28:23,  1.60it/s]Training 3/3 epoch (loss 0.4377):  72%|███████▏  | 7028/9753 [1:14:53<27:45,  1.64it/s]Training 3/3 epoch (loss 0.5728):  72%|███████▏  | 7028/9753 [1:14:53<27:45,  1.64it/s]Training 3/3 epoch (loss 0.5728):  72%|███████▏  | 7029/9753 [1:14:53<29:12,  1.55it/s]Training 3/3 epoch (loss 0.5193):  72%|███████▏  | 7029/9753 [1:14:54<29:12,  1.55it/s]Training 3/3 epoch (loss 0.5193):  72%|███████▏  | 7030/9753 [1:14:54<28:23,  1.60it/s]Training 3/3 epoch (loss 0.5545):  72%|███████▏  | 7030/9753 [1:14:54<28:23,  1.60it/s]Training 3/3 epoch (loss 0.5545):  72%|███████▏  | 7031/9753 [1:14:54<28:02,  1.62it/s]Training 3/3 epoch (loss 0.4140):  72%|███████▏  | 7031/9753 [1:14:55<28:02,  1.62it/s]Training 3/3 epoch (loss 0.4140):  72%|███████▏  | 7032/9753 [1:14:55<27:35,  1.64it/s]Training 3/3 epoch (loss 0.4002):  72%|███████▏  | 7032/9753 [1:14:56<27:35,  1.64it/s]Training 3/3 epoch (loss 0.4002):  72%|███████▏  | 7033/9753 [1:14:56<28:56,  1.57it/s]Training 3/3 epoch (loss 0.2295):  72%|███████▏  | 7033/9753 [1:14:56<28:56,  1.57it/s]Training 3/3 epoch (loss 0.2295):  72%|███████▏  | 7034/9753 [1:14:56<27:42,  1.64it/s]Training 3/3 epoch (loss 0.5747):  72%|███████▏  | 7034/9753 [1:14:57<27:42,  1.64it/s]Training 3/3 epoch (loss 0.5747):  72%|███████▏  | 7035/9753 [1:14:57<27:15,  1.66it/s]Training 3/3 epoch (loss 0.6357):  72%|███████▏  | 7035/9753 [1:14:57<27:15,  1.66it/s]Training 3/3 epoch (loss 0.6357):  72%|███████▏  | 7036/9753 [1:14:57<26:48,  1.69it/s]Training 3/3 epoch (loss 0.2243):  72%|███████▏  | 7036/9753 [1:14:58<26:48,  1.69it/s]Training 3/3 epoch (loss 0.2243):  72%|███████▏  | 7037/9753 [1:14:58<26:12,  1.73it/s]Training 3/3 epoch (loss 0.2959):  72%|███████▏  | 7037/9753 [1:14:58<26:12,  1.73it/s]Training 3/3 epoch (loss 0.2959):  72%|███████▏  | 7038/9753 [1:14:58<25:41,  1.76it/s]Training 3/3 epoch (loss 0.5249):  72%|███████▏  | 7038/9753 [1:14:59<25:41,  1.76it/s]Training 3/3 epoch (loss 0.5249):  72%|███████▏  | 7039/9753 [1:14:59<26:26,  1.71it/s]Training 3/3 epoch (loss 0.3294):  72%|███████▏  | 7039/9753 [1:15:00<26:26,  1.71it/s]Training 3/3 epoch (loss 0.3294):  72%|███████▏  | 7040/9753 [1:15:00<27:38,  1.64it/s]Training 3/3 epoch (loss 0.5848):  72%|███████▏  | 7040/9753 [1:15:00<27:38,  1.64it/s]Training 3/3 epoch (loss 0.5848):  72%|███████▏  | 7041/9753 [1:15:00<28:09,  1.61it/s]Training 3/3 epoch (loss 0.4312):  72%|███████▏  | 7041/9753 [1:15:01<28:09,  1.61it/s]Training 3/3 epoch (loss 0.4312):  72%|███████▏  | 7042/9753 [1:15:01<29:06,  1.55it/s]Training 3/3 epoch (loss 0.1901):  72%|███████▏  | 7042/9753 [1:15:02<29:06,  1.55it/s]Training 3/3 epoch (loss 0.1901):  72%|███████▏  | 7043/9753 [1:15:02<28:04,  1.61it/s]Training 3/3 epoch (loss 0.4135):  72%|███████▏  | 7043/9753 [1:15:02<28:04,  1.61it/s]Training 3/3 epoch (loss 0.4135):  72%|███████▏  | 7044/9753 [1:15:02<27:00,  1.67it/s]Training 3/3 epoch (loss 0.3674):  72%|███████▏  | 7044/9753 [1:15:03<27:00,  1.67it/s]Training 3/3 epoch (loss 0.3674):  72%|███████▏  | 7045/9753 [1:15:03<26:47,  1.68it/s]Training 3/3 epoch (loss 0.3689):  72%|███████▏  | 7045/9753 [1:15:04<26:47,  1.68it/s]Training 3/3 epoch (loss 0.3689):  72%|███████▏  | 7046/9753 [1:15:04<29:36,  1.52it/s]Training 3/3 epoch (loss 0.4794):  72%|███████▏  | 7046/9753 [1:15:04<29:36,  1.52it/s]Training 3/3 epoch (loss 0.4794):  72%|███████▏  | 7047/9753 [1:15:04<30:43,  1.47it/s]Training 3/3 epoch (loss 0.2746):  72%|███████▏  | 7047/9753 [1:15:05<30:43,  1.47it/s]Training 3/3 epoch (loss 0.2746):  72%|███████▏  | 7048/9753 [1:15:05<29:11,  1.54it/s]Training 3/3 epoch (loss 0.3903):  72%|███████▏  | 7048/9753 [1:15:05<29:11,  1.54it/s]Training 3/3 epoch (loss 0.3903):  72%|███████▏  | 7049/9753 [1:15:05<27:46,  1.62it/s]Training 3/3 epoch (loss 0.3361):  72%|███████▏  | 7049/9753 [1:15:06<27:46,  1.62it/s]Training 3/3 epoch (loss 0.3361):  72%|███████▏  | 7050/9753 [1:15:06<27:10,  1.66it/s]Training 3/3 epoch (loss 0.4807):  72%|███████▏  | 7050/9753 [1:15:07<27:10,  1.66it/s]Training 3/3 epoch (loss 0.4807):  72%|███████▏  | 7051/9753 [1:15:07<27:51,  1.62it/s]Training 3/3 epoch (loss 0.3263):  72%|███████▏  | 7051/9753 [1:15:07<27:51,  1.62it/s]Training 3/3 epoch (loss 0.3263):  72%|███████▏  | 7052/9753 [1:15:07<26:46,  1.68it/s]Training 3/3 epoch (loss 0.5292):  72%|███████▏  | 7052/9753 [1:15:08<26:46,  1.68it/s]Training 3/3 epoch (loss 0.5292):  72%|███████▏  | 7053/9753 [1:15:08<28:00,  1.61it/s]Training 3/3 epoch (loss 0.2534):  72%|███████▏  | 7053/9753 [1:15:09<28:00,  1.61it/s]Training 3/3 epoch (loss 0.2534):  72%|███████▏  | 7054/9753 [1:15:09<27:13,  1.65it/s]Training 3/3 epoch (loss 0.5398):  72%|███████▏  | 7054/9753 [1:15:09<27:13,  1.65it/s]Training 3/3 epoch (loss 0.5398):  72%|███████▏  | 7055/9753 [1:15:09<26:29,  1.70it/s]Training 3/3 epoch (loss 0.3395):  72%|███████▏  | 7055/9753 [1:15:10<26:29,  1.70it/s]Training 3/3 epoch (loss 0.3395):  72%|███████▏  | 7056/9753 [1:15:10<27:57,  1.61it/s]Training 3/3 epoch (loss 0.4576):  72%|███████▏  | 7056/9753 [1:15:10<27:57,  1.61it/s]Training 3/3 epoch (loss 0.4576):  72%|███████▏  | 7057/9753 [1:15:10<28:10,  1.59it/s]Training 3/3 epoch (loss 0.6908):  72%|███████▏  | 7057/9753 [1:15:11<28:10,  1.59it/s]Training 3/3 epoch (loss 0.6908):  72%|███████▏  | 7058/9753 [1:15:11<27:17,  1.65it/s]Training 3/3 epoch (loss 0.4281):  72%|███████▏  | 7058/9753 [1:15:12<27:17,  1.65it/s]Training 3/3 epoch (loss 0.4281):  72%|███████▏  | 7059/9753 [1:15:12<26:46,  1.68it/s]Training 3/3 epoch (loss 0.4931):  72%|███████▏  | 7059/9753 [1:15:12<26:46,  1.68it/s]Training 3/3 epoch (loss 0.4931):  72%|███████▏  | 7060/9753 [1:15:12<26:22,  1.70it/s]Training 3/3 epoch (loss 0.3971):  72%|███████▏  | 7060/9753 [1:15:13<26:22,  1.70it/s]Training 3/3 epoch (loss 0.3971):  72%|███████▏  | 7061/9753 [1:15:13<26:13,  1.71it/s]Training 3/3 epoch (loss 0.4510):  72%|███████▏  | 7061/9753 [1:15:13<26:13,  1.71it/s]Training 3/3 epoch (loss 0.4510):  72%|███████▏  | 7062/9753 [1:15:13<25:42,  1.74it/s]Training 3/3 epoch (loss 0.3296):  72%|███████▏  | 7062/9753 [1:15:14<25:42,  1.74it/s]Training 3/3 epoch (loss 0.3296):  72%|███████▏  | 7063/9753 [1:15:14<25:19,  1.77it/s]Training 3/3 epoch (loss 0.6121):  72%|███████▏  | 7063/9753 [1:15:14<25:19,  1.77it/s]Training 3/3 epoch (loss 0.6121):  72%|███████▏  | 7064/9753 [1:15:14<26:11,  1.71it/s]Training 3/3 epoch (loss 0.4854):  72%|███████▏  | 7064/9753 [1:15:15<26:11,  1.71it/s]Training 3/3 epoch (loss 0.4854):  72%|███████▏  | 7065/9753 [1:15:15<25:47,  1.74it/s]Training 3/3 epoch (loss 0.3665):  72%|███████▏  | 7065/9753 [1:15:16<25:47,  1.74it/s]Training 3/3 epoch (loss 0.3665):  72%|███████▏  | 7066/9753 [1:15:16<25:47,  1.74it/s]Training 3/3 epoch (loss 0.3410):  72%|███████▏  | 7066/9753 [1:15:16<25:47,  1.74it/s]Training 3/3 epoch (loss 0.3410):  72%|███████▏  | 7067/9753 [1:15:16<25:30,  1.76it/s]Training 3/3 epoch (loss 0.3824):  72%|███████▏  | 7067/9753 [1:15:17<25:30,  1.76it/s]Training 3/3 epoch (loss 0.3824):  72%|███████▏  | 7068/9753 [1:15:17<26:09,  1.71it/s]Training 3/3 epoch (loss 0.4997):  72%|███████▏  | 7068/9753 [1:15:17<26:09,  1.71it/s]Training 3/3 epoch (loss 0.4997):  72%|███████▏  | 7069/9753 [1:15:17<25:59,  1.72it/s]Training 3/3 epoch (loss 0.5129):  72%|███████▏  | 7069/9753 [1:15:18<25:59,  1.72it/s]Training 3/3 epoch (loss 0.5129):  72%|███████▏  | 7070/9753 [1:15:18<29:31,  1.51it/s]Training 3/3 epoch (loss 0.5107):  72%|███████▏  | 7070/9753 [1:15:19<29:31,  1.51it/s]Training 3/3 epoch (loss 0.5107):  73%|███████▎  | 7071/9753 [1:15:19<28:00,  1.60it/s]Training 3/3 epoch (loss 0.2593):  73%|███████▎  | 7071/9753 [1:15:19<28:00,  1.60it/s]Training 3/3 epoch (loss 0.2593):  73%|███████▎  | 7072/9753 [1:15:19<28:45,  1.55it/s]Training 3/3 epoch (loss 0.6665):  73%|███████▎  | 7072/9753 [1:15:20<28:45,  1.55it/s]Training 3/3 epoch (loss 0.6665):  73%|███████▎  | 7073/9753 [1:15:20<31:09,  1.43it/s]Training 3/3 epoch (loss 0.4073):  73%|███████▎  | 7073/9753 [1:15:21<31:09,  1.43it/s]Training 3/3 epoch (loss 0.4073):  73%|███████▎  | 7074/9753 [1:15:21<29:20,  1.52it/s]Training 3/3 epoch (loss 0.3595):  73%|███████▎  | 7074/9753 [1:15:21<29:20,  1.52it/s]Training 3/3 epoch (loss 0.3595):  73%|███████▎  | 7075/9753 [1:15:21<27:46,  1.61it/s]Training 3/3 epoch (loss 0.3420):  73%|███████▎  | 7075/9753 [1:15:22<27:46,  1.61it/s]Training 3/3 epoch (loss 0.3420):  73%|███████▎  | 7076/9753 [1:15:22<26:43,  1.67it/s]Training 3/3 epoch (loss 0.3788):  73%|███████▎  | 7076/9753 [1:15:23<26:43,  1.67it/s]Training 3/3 epoch (loss 0.3788):  73%|███████▎  | 7077/9753 [1:15:23<30:38,  1.46it/s]Training 3/3 epoch (loss 0.3218):  73%|███████▎  | 7077/9753 [1:15:23<30:38,  1.46it/s]Training 3/3 epoch (loss 0.3218):  73%|███████▎  | 7078/9753 [1:15:23<28:58,  1.54it/s]Training 3/3 epoch (loss 0.3558):  73%|███████▎  | 7078/9753 [1:15:24<28:58,  1.54it/s]Training 3/3 epoch (loss 0.3558):  73%|███████▎  | 7079/9753 [1:15:24<28:14,  1.58it/s]Training 3/3 epoch (loss 0.4001):  73%|███████▎  | 7079/9753 [1:15:24<28:14,  1.58it/s]Training 3/3 epoch (loss 0.4001):  73%|███████▎  | 7080/9753 [1:15:24<28:03,  1.59it/s]Training 3/3 epoch (loss 0.2954):  73%|███████▎  | 7080/9753 [1:15:25<28:03,  1.59it/s]Training 3/3 epoch (loss 0.2954):  73%|███████▎  | 7081/9753 [1:15:25<27:16,  1.63it/s]Training 3/3 epoch (loss 0.4568):  73%|███████▎  | 7081/9753 [1:15:26<27:16,  1.63it/s]Training 3/3 epoch (loss 0.4568):  73%|███████▎  | 7082/9753 [1:15:26<26:24,  1.69it/s]Training 3/3 epoch (loss 0.2944):  73%|███████▎  | 7082/9753 [1:15:26<26:24,  1.69it/s]Training 3/3 epoch (loss 0.2944):  73%|███████▎  | 7083/9753 [1:15:26<25:50,  1.72it/s]Training 3/3 epoch (loss 0.4501):  73%|███████▎  | 7083/9753 [1:15:27<25:50,  1.72it/s]Training 3/3 epoch (loss 0.4501):  73%|███████▎  | 7084/9753 [1:15:27<25:27,  1.75it/s]Training 3/3 epoch (loss 0.4440):  73%|███████▎  | 7084/9753 [1:15:27<25:27,  1.75it/s]Training 3/3 epoch (loss 0.4440):  73%|███████▎  | 7085/9753 [1:15:27<25:53,  1.72it/s]Training 3/3 epoch (loss 0.5046):  73%|███████▎  | 7085/9753 [1:15:28<25:53,  1.72it/s]Training 3/3 epoch (loss 0.5046):  73%|███████▎  | 7086/9753 [1:15:28<25:45,  1.73it/s]Training 3/3 epoch (loss 0.5352):  73%|███████▎  | 7086/9753 [1:15:28<25:45,  1.73it/s]Training 3/3 epoch (loss 0.5352):  73%|███████▎  | 7087/9753 [1:15:28<25:19,  1.76it/s]Training 3/3 epoch (loss 0.2733):  73%|███████▎  | 7087/9753 [1:15:29<25:19,  1.76it/s]Training 3/3 epoch (loss 0.2733):  73%|███████▎  | 7088/9753 [1:15:29<27:05,  1.64it/s]Training 3/3 epoch (loss 0.5204):  73%|███████▎  | 7088/9753 [1:15:30<27:05,  1.64it/s]Training 3/3 epoch (loss 0.5204):  73%|███████▎  | 7089/9753 [1:15:30<27:08,  1.64it/s]Training 3/3 epoch (loss 0.2429):  73%|███████▎  | 7089/9753 [1:15:30<27:08,  1.64it/s]Training 3/3 epoch (loss 0.2429):  73%|███████▎  | 7090/9753 [1:15:30<26:25,  1.68it/s]Training 3/3 epoch (loss 0.3503):  73%|███████▎  | 7090/9753 [1:15:31<26:25,  1.68it/s]Training 3/3 epoch (loss 0.3503):  73%|███████▎  | 7091/9753 [1:15:31<25:56,  1.71it/s]Training 3/3 epoch (loss 0.2105):  73%|███████▎  | 7091/9753 [1:15:31<25:56,  1.71it/s]Training 3/3 epoch (loss 0.2105):  73%|███████▎  | 7092/9753 [1:15:31<25:33,  1.74it/s]Training 3/3 epoch (loss 0.3261):  73%|███████▎  | 7092/9753 [1:15:32<25:33,  1.74it/s]Training 3/3 epoch (loss 0.3261):  73%|███████▎  | 7093/9753 [1:15:32<25:16,  1.75it/s]Training 3/3 epoch (loss 0.3501):  73%|███████▎  | 7093/9753 [1:15:33<25:16,  1.75it/s]Training 3/3 epoch (loss 0.3501):  73%|███████▎  | 7094/9753 [1:15:33<25:00,  1.77it/s]Training 3/3 epoch (loss 0.4227):  73%|███████▎  | 7094/9753 [1:15:33<25:00,  1.77it/s]Training 3/3 epoch (loss 0.4227):  73%|███████▎  | 7095/9753 [1:15:33<24:50,  1.78it/s]Training 3/3 epoch (loss 0.2629):  73%|███████▎  | 7095/9753 [1:15:34<24:50,  1.78it/s]Training 3/3 epoch (loss 0.2629):  73%|███████▎  | 7096/9753 [1:15:34<24:38,  1.80it/s]Training 3/3 epoch (loss 0.3897):  73%|███████▎  | 7096/9753 [1:15:34<24:38,  1.80it/s]Training 3/3 epoch (loss 0.3897):  73%|███████▎  | 7097/9753 [1:15:34<25:42,  1.72it/s]Training 3/3 epoch (loss 0.4758):  73%|███████▎  | 7097/9753 [1:15:35<25:42,  1.72it/s]Training 3/3 epoch (loss 0.4758):  73%|███████▎  | 7098/9753 [1:15:35<25:28,  1.74it/s]Training 3/3 epoch (loss 0.5310):  73%|███████▎  | 7098/9753 [1:15:35<25:28,  1.74it/s]Training 3/3 epoch (loss 0.5310):  73%|███████▎  | 7099/9753 [1:15:35<25:06,  1.76it/s]Training 3/3 epoch (loss 0.3187):  73%|███████▎  | 7099/9753 [1:15:36<25:06,  1.76it/s]Training 3/3 epoch (loss 0.3187):  73%|███████▎  | 7100/9753 [1:15:36<24:50,  1.78it/s]Training 3/3 epoch (loss 0.3810):  73%|███████▎  | 7100/9753 [1:15:37<24:50,  1.78it/s]Training 3/3 epoch (loss 0.3810):  73%|███████▎  | 7101/9753 [1:15:37<27:11,  1.63it/s]Training 3/3 epoch (loss 0.2520):  73%|███████▎  | 7101/9753 [1:15:37<27:11,  1.63it/s]Training 3/3 epoch (loss 0.2520):  73%|███████▎  | 7102/9753 [1:15:37<29:46,  1.48it/s]Training 3/3 epoch (loss 0.3231):  73%|███████▎  | 7102/9753 [1:15:38<29:46,  1.48it/s]Training 3/3 epoch (loss 0.3231):  73%|███████▎  | 7103/9753 [1:15:38<30:54,  1.43it/s]Training 3/3 epoch (loss 0.3868):  73%|███████▎  | 7103/9753 [1:15:39<30:54,  1.43it/s]Training 3/3 epoch (loss 0.3868):  73%|███████▎  | 7104/9753 [1:15:39<33:11,  1.33it/s]Training 3/3 epoch (loss 0.3562):  73%|███████▎  | 7104/9753 [1:15:40<33:11,  1.33it/s]Training 3/3 epoch (loss 0.3562):  73%|███████▎  | 7105/9753 [1:15:40<30:35,  1.44it/s]Training 3/3 epoch (loss 0.3896):  73%|███████▎  | 7105/9753 [1:15:40<30:35,  1.44it/s]Training 3/3 epoch (loss 0.3896):  73%|███████▎  | 7106/9753 [1:15:40<29:25,  1.50it/s]Training 3/3 epoch (loss 0.3978):  73%|███████▎  | 7106/9753 [1:15:41<29:25,  1.50it/s]Training 3/3 epoch (loss 0.3978):  73%|███████▎  | 7107/9753 [1:15:41<28:49,  1.53it/s]Training 3/3 epoch (loss 0.3530):  73%|███████▎  | 7107/9753 [1:15:42<28:49,  1.53it/s]Training 3/3 epoch (loss 0.3530):  73%|███████▎  | 7108/9753 [1:15:42<29:07,  1.51it/s]Training 3/3 epoch (loss 0.3880):  73%|███████▎  | 7108/9753 [1:15:42<29:07,  1.51it/s]Training 3/3 epoch (loss 0.3880):  73%|███████▎  | 7109/9753 [1:15:42<30:21,  1.45it/s]Training 3/3 epoch (loss 0.4350):  73%|███████▎  | 7109/9753 [1:15:43<30:21,  1.45it/s]Training 3/3 epoch (loss 0.4350):  73%|███████▎  | 7110/9753 [1:15:43<31:22,  1.40it/s]Training 3/3 epoch (loss 0.5370):  73%|███████▎  | 7110/9753 [1:15:44<31:22,  1.40it/s]Training 3/3 epoch (loss 0.5370):  73%|███████▎  | 7111/9753 [1:15:44<29:23,  1.50it/s]Training 3/3 epoch (loss 0.5118):  73%|███████▎  | 7111/9753 [1:15:44<29:23,  1.50it/s]Training 3/3 epoch (loss 0.5118):  73%|███████▎  | 7112/9753 [1:15:44<27:59,  1.57it/s]Training 3/3 epoch (loss 0.3019):  73%|███████▎  | 7112/9753 [1:15:45<27:59,  1.57it/s]Training 3/3 epoch (loss 0.3019):  73%|███████▎  | 7113/9753 [1:15:45<27:27,  1.60it/s]Training 3/3 epoch (loss 0.6022):  73%|███████▎  | 7113/9753 [1:15:45<27:27,  1.60it/s]Training 3/3 epoch (loss 0.6022):  73%|███████▎  | 7114/9753 [1:15:45<27:19,  1.61it/s]Training 3/3 epoch (loss 0.5566):  73%|███████▎  | 7114/9753 [1:15:46<27:19,  1.61it/s]Training 3/3 epoch (loss 0.5566):  73%|███████▎  | 7115/9753 [1:15:46<27:45,  1.58it/s]Training 3/3 epoch (loss 0.1281):  73%|███████▎  | 7115/9753 [1:15:47<27:45,  1.58it/s]Training 3/3 epoch (loss 0.1281):  73%|███████▎  | 7116/9753 [1:15:47<26:33,  1.65it/s]Training 3/3 epoch (loss 0.5752):  73%|███████▎  | 7116/9753 [1:15:47<26:33,  1.65it/s]Training 3/3 epoch (loss 0.5752):  73%|███████▎  | 7117/9753 [1:15:47<26:16,  1.67it/s]Training 3/3 epoch (loss 0.3478):  73%|███████▎  | 7117/9753 [1:15:48<26:16,  1.67it/s]Training 3/3 epoch (loss 0.3478):  73%|███████▎  | 7118/9753 [1:15:48<25:52,  1.70it/s]Training 3/3 epoch (loss 0.3925):  73%|███████▎  | 7118/9753 [1:15:48<25:52,  1.70it/s]Training 3/3 epoch (loss 0.3925):  73%|███████▎  | 7119/9753 [1:15:48<25:41,  1.71it/s]Training 3/3 epoch (loss 0.3085):  73%|███████▎  | 7119/9753 [1:15:49<25:41,  1.71it/s]Training 3/3 epoch (loss 0.3085):  73%|███████▎  | 7120/9753 [1:15:49<26:53,  1.63it/s]Training 3/3 epoch (loss 0.4525):  73%|███████▎  | 7120/9753 [1:15:50<26:53,  1.63it/s]Training 3/3 epoch (loss 0.4525):  73%|███████▎  | 7121/9753 [1:15:50<26:16,  1.67it/s]Training 3/3 epoch (loss 0.2496):  73%|███████▎  | 7121/9753 [1:15:50<26:16,  1.67it/s]Training 3/3 epoch (loss 0.2496):  73%|███████▎  | 7122/9753 [1:15:50<26:49,  1.63it/s]Training 3/3 epoch (loss 0.5167):  73%|███████▎  | 7122/9753 [1:15:51<26:49,  1.63it/s]Training 3/3 epoch (loss 0.5167):  73%|███████▎  | 7123/9753 [1:15:51<26:49,  1.63it/s]Training 3/3 epoch (loss 0.3766):  73%|███████▎  | 7123/9753 [1:15:51<26:49,  1.63it/s]Training 3/3 epoch (loss 0.3766):  73%|███████▎  | 7124/9753 [1:15:51<27:04,  1.62it/s]Training 3/3 epoch (loss 0.4162):  73%|███████▎  | 7124/9753 [1:15:52<27:04,  1.62it/s]Training 3/3 epoch (loss 0.4162):  73%|███████▎  | 7125/9753 [1:15:52<26:27,  1.66it/s]Training 3/3 epoch (loss 0.3458):  73%|███████▎  | 7125/9753 [1:15:53<26:27,  1.66it/s]Training 3/3 epoch (loss 0.3458):  73%|███████▎  | 7126/9753 [1:15:53<25:47,  1.70it/s]Training 3/3 epoch (loss 0.5597):  73%|███████▎  | 7126/9753 [1:15:53<25:47,  1.70it/s]Training 3/3 epoch (loss 0.5597):  73%|███████▎  | 7127/9753 [1:15:53<26:59,  1.62it/s]Training 3/3 epoch (loss 0.5423):  73%|███████▎  | 7127/9753 [1:15:54<26:59,  1.62it/s]Training 3/3 epoch (loss 0.5423):  73%|███████▎  | 7128/9753 [1:15:54<28:22,  1.54it/s]Training 3/3 epoch (loss 0.3704):  73%|███████▎  | 7128/9753 [1:15:55<28:22,  1.54it/s]Training 3/3 epoch (loss 0.3704):  73%|███████▎  | 7129/9753 [1:15:55<27:30,  1.59it/s]Training 3/3 epoch (loss 0.3019):  73%|███████▎  | 7129/9753 [1:15:55<27:30,  1.59it/s]Training 3/3 epoch (loss 0.3019):  73%|███████▎  | 7130/9753 [1:15:55<26:30,  1.65it/s]Training 3/3 epoch (loss 0.3792):  73%|███████▎  | 7130/9753 [1:15:56<26:30,  1.65it/s]Training 3/3 epoch (loss 0.3792):  73%|███████▎  | 7131/9753 [1:15:56<25:47,  1.69it/s]Training 3/3 epoch (loss 0.3949):  73%|███████▎  | 7131/9753 [1:15:56<25:47,  1.69it/s]Training 3/3 epoch (loss 0.3949):  73%|███████▎  | 7132/9753 [1:15:56<25:21,  1.72it/s]Training 3/3 epoch (loss 0.4595):  73%|███████▎  | 7132/9753 [1:15:57<25:21,  1.72it/s]Training 3/3 epoch (loss 0.4595):  73%|███████▎  | 7133/9753 [1:15:57<25:01,  1.75it/s]Training 3/3 epoch (loss 0.2823):  73%|███████▎  | 7133/9753 [1:15:58<25:01,  1.75it/s]Training 3/3 epoch (loss 0.2823):  73%|███████▎  | 7134/9753 [1:15:58<26:25,  1.65it/s]Training 3/3 epoch (loss 0.3927):  73%|███████▎  | 7134/9753 [1:15:58<26:25,  1.65it/s]Training 3/3 epoch (loss 0.3927):  73%|███████▎  | 7135/9753 [1:15:58<25:56,  1.68it/s]Training 3/3 epoch (loss 0.2441):  73%|███████▎  | 7135/9753 [1:15:59<25:56,  1.68it/s]Training 3/3 epoch (loss 0.2441):  73%|███████▎  | 7136/9753 [1:15:59<27:42,  1.57it/s]Training 3/3 epoch (loss 0.2753):  73%|███████▎  | 7136/9753 [1:15:59<27:42,  1.57it/s]Training 3/3 epoch (loss 0.2753):  73%|███████▎  | 7137/9753 [1:15:59<27:05,  1.61it/s]Training 3/3 epoch (loss 0.4138):  73%|███████▎  | 7137/9753 [1:16:00<27:05,  1.61it/s]Training 3/3 epoch (loss 0.4138):  73%|███████▎  | 7138/9753 [1:16:00<26:14,  1.66it/s]Training 3/3 epoch (loss 0.3041):  73%|███████▎  | 7138/9753 [1:16:01<26:14,  1.66it/s]Training 3/3 epoch (loss 0.3041):  73%|███████▎  | 7139/9753 [1:16:01<25:46,  1.69it/s]Training 3/3 epoch (loss 0.4793):  73%|███████▎  | 7139/9753 [1:16:01<25:46,  1.69it/s]Training 3/3 epoch (loss 0.4793):  73%|███████▎  | 7140/9753 [1:16:01<26:13,  1.66it/s]Training 3/3 epoch (loss 0.6150):  73%|███████▎  | 7140/9753 [1:16:02<26:13,  1.66it/s]Training 3/3 epoch (loss 0.6150):  73%|███████▎  | 7141/9753 [1:16:02<26:44,  1.63it/s]Training 3/3 epoch (loss 0.4973):  73%|███████▎  | 7141/9753 [1:16:03<26:44,  1.63it/s]Training 3/3 epoch (loss 0.4973):  73%|███████▎  | 7142/9753 [1:16:03<28:01,  1.55it/s]Training 3/3 epoch (loss 0.5016):  73%|███████▎  | 7142/9753 [1:16:03<28:01,  1.55it/s]Training 3/3 epoch (loss 0.5016):  73%|███████▎  | 7143/9753 [1:16:03<27:55,  1.56it/s]Training 3/3 epoch (loss 0.3445):  73%|███████▎  | 7143/9753 [1:16:04<27:55,  1.56it/s]Training 3/3 epoch (loss 0.3445):  73%|███████▎  | 7144/9753 [1:16:04<26:54,  1.62it/s]Training 3/3 epoch (loss 0.3670):  73%|███████▎  | 7144/9753 [1:16:04<26:54,  1.62it/s]Training 3/3 epoch (loss 0.3670):  73%|███████▎  | 7145/9753 [1:16:04<26:05,  1.67it/s]Training 3/3 epoch (loss 0.3928):  73%|███████▎  | 7145/9753 [1:16:05<26:05,  1.67it/s]Training 3/3 epoch (loss 0.3928):  73%|███████▎  | 7146/9753 [1:16:05<27:03,  1.61it/s]Training 3/3 epoch (loss 0.3687):  73%|███████▎  | 7146/9753 [1:16:06<27:03,  1.61it/s]Training 3/3 epoch (loss 0.3687):  73%|███████▎  | 7147/9753 [1:16:06<29:34,  1.47it/s]Training 3/3 epoch (loss 0.5614):  73%|███████▎  | 7147/9753 [1:16:06<29:34,  1.47it/s]Training 3/3 epoch (loss 0.5614):  73%|███████▎  | 7148/9753 [1:16:06<29:00,  1.50it/s]Training 3/3 epoch (loss 0.5581):  73%|███████▎  | 7148/9753 [1:16:07<29:00,  1.50it/s]Training 3/3 epoch (loss 0.5581):  73%|███████▎  | 7149/9753 [1:16:07<29:28,  1.47it/s]Training 3/3 epoch (loss 0.3924):  73%|███████▎  | 7149/9753 [1:16:08<29:28,  1.47it/s]Training 3/3 epoch (loss 0.3924):  73%|███████▎  | 7150/9753 [1:16:08<27:49,  1.56it/s]Training 3/3 epoch (loss 0.3369):  73%|███████▎  | 7150/9753 [1:16:08<27:49,  1.56it/s]Training 3/3 epoch (loss 0.3369):  73%|███████▎  | 7151/9753 [1:16:08<26:37,  1.63it/s]Training 3/3 epoch (loss 0.3750):  73%|███████▎  | 7151/9753 [1:16:09<26:37,  1.63it/s]Training 3/3 epoch (loss 0.3750):  73%|███████▎  | 7152/9753 [1:16:09<28:09,  1.54it/s]Training 3/3 epoch (loss 0.4256):  73%|███████▎  | 7152/9753 [1:16:10<28:09,  1.54it/s]Training 3/3 epoch (loss 0.4256):  73%|███████▎  | 7153/9753 [1:16:10<27:55,  1.55it/s]Training 3/3 epoch (loss 0.2090):  73%|███████▎  | 7153/9753 [1:16:10<27:55,  1.55it/s]Training 3/3 epoch (loss 0.2090):  73%|███████▎  | 7154/9753 [1:16:10<27:01,  1.60it/s]Training 3/3 epoch (loss 0.3512):  73%|███████▎  | 7154/9753 [1:16:11<27:01,  1.60it/s]Training 3/3 epoch (loss 0.3512):  73%|███████▎  | 7155/9753 [1:16:11<26:04,  1.66it/s]Training 3/3 epoch (loss 0.2466):  73%|███████▎  | 7155/9753 [1:16:11<26:04,  1.66it/s]Training 3/3 epoch (loss 0.2466):  73%|███████▎  | 7156/9753 [1:16:11<25:27,  1.70it/s]Training 3/3 epoch (loss 0.2963):  73%|███████▎  | 7156/9753 [1:16:12<25:27,  1.70it/s]Training 3/3 epoch (loss 0.2963):  73%|███████▎  | 7157/9753 [1:16:12<24:59,  1.73it/s]Training 3/3 epoch (loss 0.3746):  73%|███████▎  | 7157/9753 [1:16:13<24:59,  1.73it/s]Training 3/3 epoch (loss 0.3746):  73%|███████▎  | 7158/9753 [1:16:13<26:37,  1.62it/s]Training 3/3 epoch (loss 0.4988):  73%|███████▎  | 7158/9753 [1:16:13<26:37,  1.62it/s]Training 3/3 epoch (loss 0.4988):  73%|███████▎  | 7159/9753 [1:16:13<26:08,  1.65it/s]Training 3/3 epoch (loss 0.3645):  73%|███████▎  | 7159/9753 [1:16:14<26:08,  1.65it/s]Training 3/3 epoch (loss 0.3645):  73%|███████▎  | 7160/9753 [1:16:14<25:24,  1.70it/s]Training 3/3 epoch (loss 0.2910):  73%|███████▎  | 7160/9753 [1:16:14<25:24,  1.70it/s]Training 3/3 epoch (loss 0.2910):  73%|███████▎  | 7161/9753 [1:16:14<24:49,  1.74it/s]Training 3/3 epoch (loss 0.1796):  73%|███████▎  | 7161/9753 [1:16:15<24:49,  1.74it/s]Training 3/3 epoch (loss 0.1796):  73%|███████▎  | 7162/9753 [1:16:15<24:35,  1.76it/s]Training 3/3 epoch (loss 0.6337):  73%|███████▎  | 7162/9753 [1:16:15<24:35,  1.76it/s]Training 3/3 epoch (loss 0.6337):  73%|███████▎  | 7163/9753 [1:16:15<24:29,  1.76it/s]Training 3/3 epoch (loss 0.3517):  73%|███████▎  | 7163/9753 [1:16:16<24:29,  1.76it/s]Training 3/3 epoch (loss 0.3517):  73%|███████▎  | 7164/9753 [1:16:16<24:12,  1.78it/s]Training 3/3 epoch (loss 0.3911):  73%|███████▎  | 7164/9753 [1:16:16<24:12,  1.78it/s]Training 3/3 epoch (loss 0.3911):  73%|███████▎  | 7165/9753 [1:16:16<24:01,  1.80it/s]Training 3/3 epoch (loss 0.4836):  73%|███████▎  | 7165/9753 [1:16:17<24:01,  1.80it/s]Training 3/3 epoch (loss 0.4836):  73%|███████▎  | 7166/9753 [1:16:17<25:05,  1.72it/s]Training 3/3 epoch (loss 0.4542):  73%|███████▎  | 7166/9753 [1:16:18<25:05,  1.72it/s]Training 3/3 epoch (loss 0.4542):  73%|███████▎  | 7167/9753 [1:16:18<24:48,  1.74it/s]Training 3/3 epoch (loss 0.2613):  73%|███████▎  | 7167/9753 [1:16:18<24:48,  1.74it/s]Training 3/3 epoch (loss 0.2613):  73%|███████▎  | 7168/9753 [1:16:18<26:07,  1.65it/s]Training 3/3 epoch (loss 0.2170):  73%|███████▎  | 7168/9753 [1:16:19<26:07,  1.65it/s]Training 3/3 epoch (loss 0.2170):  74%|███████▎  | 7169/9753 [1:16:19<25:29,  1.69it/s]Training 3/3 epoch (loss 0.6569):  74%|███████▎  | 7169/9753 [1:16:20<25:29,  1.69it/s]Training 3/3 epoch (loss 0.6569):  74%|███████▎  | 7170/9753 [1:16:20<26:31,  1.62it/s]Training 3/3 epoch (loss 0.4757):  74%|███████▎  | 7170/9753 [1:16:20<26:31,  1.62it/s]Training 3/3 epoch (loss 0.4757):  74%|███████▎  | 7171/9753 [1:16:20<26:10,  1.64it/s]Training 3/3 epoch (loss 0.3671):  74%|███████▎  | 7171/9753 [1:16:21<26:10,  1.64it/s]Training 3/3 epoch (loss 0.3671):  74%|███████▎  | 7172/9753 [1:16:21<25:43,  1.67it/s]Training 3/3 epoch (loss 0.5064):  74%|███████▎  | 7172/9753 [1:16:21<25:43,  1.67it/s]Training 3/3 epoch (loss 0.5064):  74%|███████▎  | 7173/9753 [1:16:21<26:09,  1.64it/s]Training 3/3 epoch (loss 0.4406):  74%|███████▎  | 7173/9753 [1:16:22<26:09,  1.64it/s]Training 3/3 epoch (loss 0.4406):  74%|███████▎  | 7174/9753 [1:16:22<25:32,  1.68it/s]Training 3/3 epoch (loss 0.4484):  74%|███████▎  | 7174/9753 [1:16:23<25:32,  1.68it/s]Training 3/3 epoch (loss 0.4484):  74%|███████▎  | 7175/9753 [1:16:23<26:23,  1.63it/s]Training 3/3 epoch (loss 0.4288):  74%|███████▎  | 7175/9753 [1:16:23<26:23,  1.63it/s]Training 3/3 epoch (loss 0.4288):  74%|███████▎  | 7176/9753 [1:16:23<25:31,  1.68it/s]Training 3/3 epoch (loss 0.4366):  74%|███████▎  | 7176/9753 [1:16:24<25:31,  1.68it/s]Training 3/3 epoch (loss 0.4366):  74%|███████▎  | 7177/9753 [1:16:24<25:49,  1.66it/s]Training 3/3 epoch (loss 0.4572):  74%|███████▎  | 7177/9753 [1:16:24<25:49,  1.66it/s]Training 3/3 epoch (loss 0.4572):  74%|███████▎  | 7178/9753 [1:16:24<26:07,  1.64it/s]Training 3/3 epoch (loss 0.4573):  74%|███████▎  | 7178/9753 [1:16:25<26:07,  1.64it/s]Training 3/3 epoch (loss 0.4573):  74%|███████▎  | 7179/9753 [1:16:25<27:01,  1.59it/s]Training 3/3 epoch (loss 0.4847):  74%|███████▎  | 7179/9753 [1:16:26<27:01,  1.59it/s]Training 3/3 epoch (loss 0.4847):  74%|███████▎  | 7180/9753 [1:16:26<26:08,  1.64it/s]Training 3/3 epoch (loss 0.2852):  74%|███████▎  | 7180/9753 [1:16:26<26:08,  1.64it/s]Training 3/3 epoch (loss 0.2852):  74%|███████▎  | 7181/9753 [1:16:26<25:28,  1.68it/s]Training 3/3 epoch (loss 0.5585):  74%|███████▎  | 7181/9753 [1:16:27<25:28,  1.68it/s]Training 3/3 epoch (loss 0.5585):  74%|███████▎  | 7182/9753 [1:16:27<25:50,  1.66it/s]Training 3/3 epoch (loss 0.5077):  74%|███████▎  | 7182/9753 [1:16:27<25:50,  1.66it/s]Training 3/3 epoch (loss 0.5077):  74%|███████▎  | 7183/9753 [1:16:27<27:15,  1.57it/s]Training 3/3 epoch (loss 0.2897):  74%|███████▎  | 7183/9753 [1:16:28<27:15,  1.57it/s]Training 3/3 epoch (loss 0.2897):  74%|███████▎  | 7184/9753 [1:16:28<31:06,  1.38it/s]Training 3/3 epoch (loss 0.3986):  74%|███████▎  | 7184/9753 [1:16:29<31:06,  1.38it/s]Training 3/3 epoch (loss 0.3986):  74%|███████▎  | 7185/9753 [1:16:29<29:53,  1.43it/s]Training 3/3 epoch (loss 0.4111):  74%|███████▎  | 7185/9753 [1:16:30<29:53,  1.43it/s]Training 3/3 epoch (loss 0.4111):  74%|███████▎  | 7186/9753 [1:16:30<28:03,  1.52it/s]Training 3/3 epoch (loss 0.2875):  74%|███████▎  | 7186/9753 [1:16:30<28:03,  1.52it/s]Training 3/3 epoch (loss 0.2875):  74%|███████▎  | 7187/9753 [1:16:30<26:51,  1.59it/s]Training 3/3 epoch (loss 0.4564):  74%|███████▎  | 7187/9753 [1:16:31<26:51,  1.59it/s]Training 3/3 epoch (loss 0.4564):  74%|███████▎  | 7188/9753 [1:16:31<25:58,  1.65it/s]Training 3/3 epoch (loss 0.4659):  74%|███████▎  | 7188/9753 [1:16:31<25:58,  1.65it/s]Training 3/3 epoch (loss 0.4659):  74%|███████▎  | 7189/9753 [1:16:31<25:42,  1.66it/s]Training 3/3 epoch (loss 0.5208):  74%|███████▎  | 7189/9753 [1:16:32<25:42,  1.66it/s]Training 3/3 epoch (loss 0.5208):  74%|███████▎  | 7190/9753 [1:16:32<26:10,  1.63it/s]Training 3/3 epoch (loss 0.3598):  74%|███████▎  | 7190/9753 [1:16:32<26:10,  1.63it/s]Training 3/3 epoch (loss 0.3598):  74%|███████▎  | 7191/9753 [1:16:32<25:32,  1.67it/s]Training 3/3 epoch (loss 0.2733):  74%|███████▎  | 7191/9753 [1:16:33<25:32,  1.67it/s]Training 3/3 epoch (loss 0.2733):  74%|███████▎  | 7192/9753 [1:16:33<25:01,  1.71it/s]Training 3/3 epoch (loss 0.5175):  74%|███████▎  | 7192/9753 [1:16:34<25:01,  1.71it/s]Training 3/3 epoch (loss 0.5175):  74%|███████▍  | 7193/9753 [1:16:34<24:36,  1.73it/s]Training 3/3 epoch (loss 0.3192):  74%|███████▍  | 7193/9753 [1:16:34<24:36,  1.73it/s]Training 3/3 epoch (loss 0.3192):  74%|███████▍  | 7194/9753 [1:16:34<25:04,  1.70it/s]Training 3/3 epoch (loss 0.5091):  74%|███████▍  | 7194/9753 [1:16:35<25:04,  1.70it/s]Training 3/3 epoch (loss 0.5091):  74%|███████▍  | 7195/9753 [1:16:35<26:55,  1.58it/s]Training 3/3 epoch (loss 0.6721):  74%|███████▍  | 7195/9753 [1:16:36<26:55,  1.58it/s]Training 3/3 epoch (loss 0.6721):  74%|███████▍  | 7196/9753 [1:16:36<26:38,  1.60it/s]Training 3/3 epoch (loss 0.4221):  74%|███████▍  | 7196/9753 [1:16:36<26:38,  1.60it/s]Training 3/3 epoch (loss 0.4221):  74%|███████▍  | 7197/9753 [1:16:36<25:46,  1.65it/s]Training 3/3 epoch (loss 0.3191):  74%|███████▍  | 7197/9753 [1:16:37<25:46,  1.65it/s]Training 3/3 epoch (loss 0.3191):  74%|███████▍  | 7198/9753 [1:16:37<25:06,  1.70it/s]Training 3/3 epoch (loss 0.5040):  74%|███████▍  | 7198/9753 [1:16:37<25:06,  1.70it/s]Training 3/3 epoch (loss 0.5040):  74%|███████▍  | 7199/9753 [1:16:37<24:33,  1.73it/s]Training 3/3 epoch (loss 0.4058):  74%|███████▍  | 7199/9753 [1:16:38<24:33,  1.73it/s]Training 3/3 epoch (loss 0.4058):  74%|███████▍  | 7200/9753 [1:16:38<26:12,  1.62it/s]Training 3/3 epoch (loss 0.2264):  74%|███████▍  | 7200/9753 [1:16:38<26:12,  1.62it/s]Training 3/3 epoch (loss 0.2264):  74%|███████▍  | 7201/9753 [1:16:38<25:26,  1.67it/s]Training 3/3 epoch (loss 0.2966):  74%|███████▍  | 7201/9753 [1:16:39<25:26,  1.67it/s]Training 3/3 epoch (loss 0.2966):  74%|███████▍  | 7202/9753 [1:16:39<25:54,  1.64it/s]Training 3/3 epoch (loss 0.3916):  74%|███████▍  | 7202/9753 [1:16:40<25:54,  1.64it/s]Training 3/3 epoch (loss 0.3916):  74%|███████▍  | 7203/9753 [1:16:40<25:11,  1.69it/s]Training 3/3 epoch (loss 0.3473):  74%|███████▍  | 7203/9753 [1:16:40<25:11,  1.69it/s]Training 3/3 epoch (loss 0.3473):  74%|███████▍  | 7204/9753 [1:16:40<24:35,  1.73it/s]Training 3/3 epoch (loss 0.5214):  74%|███████▍  | 7204/9753 [1:16:41<24:35,  1.73it/s]Training 3/3 epoch (loss 0.5214):  74%|███████▍  | 7205/9753 [1:16:41<24:08,  1.76it/s]Training 3/3 epoch (loss 0.6014):  74%|███████▍  | 7205/9753 [1:16:42<24:08,  1.76it/s]Training 3/3 epoch (loss 0.6014):  74%|███████▍  | 7206/9753 [1:16:42<27:33,  1.54it/s]Training 3/3 epoch (loss 0.3451):  74%|███████▍  | 7206/9753 [1:16:42<27:33,  1.54it/s]Training 3/3 epoch (loss 0.3451):  74%|███████▍  | 7207/9753 [1:16:42<29:31,  1.44it/s]Training 3/3 epoch (loss 0.3064):  74%|███████▍  | 7207/9753 [1:16:43<29:31,  1.44it/s]Training 3/3 epoch (loss 0.3064):  74%|███████▍  | 7208/9753 [1:16:43<27:47,  1.53it/s]Training 3/3 epoch (loss 0.4351):  74%|███████▍  | 7208/9753 [1:16:44<27:47,  1.53it/s]Training 3/3 epoch (loss 0.4351):  74%|███████▍  | 7209/9753 [1:16:44<28:59,  1.46it/s]Training 3/3 epoch (loss 0.2583):  74%|███████▍  | 7209/9753 [1:16:45<28:59,  1.46it/s]Training 3/3 epoch (loss 0.2583):  74%|███████▍  | 7210/9753 [1:16:45<32:16,  1.31it/s]Training 3/3 epoch (loss 0.5992):  74%|███████▍  | 7210/9753 [1:16:45<32:16,  1.31it/s]Training 3/3 epoch (loss 0.5992):  74%|███████▍  | 7211/9753 [1:16:45<32:42,  1.30it/s]Training 3/3 epoch (loss 0.3987):  74%|███████▍  | 7211/9753 [1:16:46<32:42,  1.30it/s]Training 3/3 epoch (loss 0.3987):  74%|███████▍  | 7212/9753 [1:16:46<32:04,  1.32it/s]Training 3/3 epoch (loss 0.3664):  74%|███████▍  | 7212/9753 [1:16:47<32:04,  1.32it/s]Training 3/3 epoch (loss 0.3664):  74%|███████▍  | 7213/9753 [1:16:47<30:08,  1.40it/s]Training 3/3 epoch (loss 0.4853):  74%|███████▍  | 7213/9753 [1:16:48<30:08,  1.40it/s]Training 3/3 epoch (loss 0.4853):  74%|███████▍  | 7214/9753 [1:16:48<31:46,  1.33it/s]Training 3/3 epoch (loss 0.4497):  74%|███████▍  | 7214/9753 [1:16:48<31:46,  1.33it/s]Training 3/3 epoch (loss 0.4497):  74%|███████▍  | 7215/9753 [1:16:48<32:24,  1.30it/s]Training 3/3 epoch (loss 0.3933):  74%|███████▍  | 7215/9753 [1:16:49<32:24,  1.30it/s]Training 3/3 epoch (loss 0.3933):  74%|███████▍  | 7216/9753 [1:16:49<31:34,  1.34it/s]Training 3/3 epoch (loss 0.2770):  74%|███████▍  | 7216/9753 [1:16:50<31:34,  1.34it/s]Training 3/3 epoch (loss 0.2770):  74%|███████▍  | 7217/9753 [1:16:50<29:45,  1.42it/s]Training 3/3 epoch (loss 0.4557):  74%|███████▍  | 7217/9753 [1:16:50<29:45,  1.42it/s]Training 3/3 epoch (loss 0.4557):  74%|███████▍  | 7218/9753 [1:16:50<28:13,  1.50it/s]Training 3/3 epoch (loss 0.3841):  74%|███████▍  | 7218/9753 [1:16:51<28:13,  1.50it/s]Training 3/3 epoch (loss 0.3841):  74%|███████▍  | 7219/9753 [1:16:51<26:43,  1.58it/s]Training 3/3 epoch (loss 0.3005):  74%|███████▍  | 7219/9753 [1:16:51<26:43,  1.58it/s]Training 3/3 epoch (loss 0.3005):  74%|███████▍  | 7220/9753 [1:16:51<26:16,  1.61it/s]Training 3/3 epoch (loss 0.3759):  74%|███████▍  | 7220/9753 [1:16:52<26:16,  1.61it/s]Training 3/3 epoch (loss 0.3759):  74%|███████▍  | 7221/9753 [1:16:52<25:36,  1.65it/s]Training 3/3 epoch (loss 0.2192):  74%|███████▍  | 7221/9753 [1:16:53<25:36,  1.65it/s]Training 3/3 epoch (loss 0.2192):  74%|███████▍  | 7222/9753 [1:16:53<24:53,  1.69it/s]Training 3/3 epoch (loss 0.4289):  74%|███████▍  | 7222/9753 [1:16:53<24:53,  1.69it/s]Training 3/3 epoch (loss 0.4289):  74%|███████▍  | 7223/9753 [1:16:53<25:23,  1.66it/s]Training 3/3 epoch (loss 0.4358):  74%|███████▍  | 7223/9753 [1:16:54<25:23,  1.66it/s]Training 3/3 epoch (loss 0.4358):  74%|███████▍  | 7224/9753 [1:16:54<25:22,  1.66it/s]Training 3/3 epoch (loss 0.3938):  74%|███████▍  | 7224/9753 [1:16:54<25:22,  1.66it/s]Training 3/3 epoch (loss 0.3938):  74%|███████▍  | 7225/9753 [1:16:54<24:49,  1.70it/s]Training 3/3 epoch (loss 0.4030):  74%|███████▍  | 7225/9753 [1:16:55<24:49,  1.70it/s]Training 3/3 epoch (loss 0.4030):  74%|███████▍  | 7226/9753 [1:16:55<24:42,  1.70it/s]Training 3/3 epoch (loss 0.4584):  74%|███████▍  | 7226/9753 [1:16:56<24:42,  1.70it/s]Training 3/3 epoch (loss 0.4584):  74%|███████▍  | 7227/9753 [1:16:56<25:48,  1.63it/s]Training 3/3 epoch (loss 0.5504):  74%|███████▍  | 7227/9753 [1:16:56<25:48,  1.63it/s]Training 3/3 epoch (loss 0.5504):  74%|███████▍  | 7228/9753 [1:16:56<25:23,  1.66it/s]Training 3/3 epoch (loss 0.5320):  74%|███████▍  | 7228/9753 [1:16:57<25:23,  1.66it/s]Training 3/3 epoch (loss 0.5320):  74%|███████▍  | 7229/9753 [1:16:57<25:00,  1.68it/s]Training 3/3 epoch (loss 0.1923):  74%|███████▍  | 7229/9753 [1:16:57<25:00,  1.68it/s]Training 3/3 epoch (loss 0.1923):  74%|███████▍  | 7230/9753 [1:16:57<24:27,  1.72it/s]Training 3/3 epoch (loss 0.3368):  74%|███████▍  | 7230/9753 [1:16:58<24:27,  1.72it/s]Training 3/3 epoch (loss 0.3368):  74%|███████▍  | 7231/9753 [1:16:58<24:57,  1.68it/s]Training 3/3 epoch (loss 0.3755):  74%|███████▍  | 7231/9753 [1:16:59<24:57,  1.68it/s]Training 3/3 epoch (loss 0.3755):  74%|███████▍  | 7232/9753 [1:16:59<25:59,  1.62it/s]Training 3/3 epoch (loss 0.6107):  74%|███████▍  | 7232/9753 [1:16:59<25:59,  1.62it/s]Training 3/3 epoch (loss 0.6107):  74%|███████▍  | 7233/9753 [1:16:59<25:33,  1.64it/s]Training 3/3 epoch (loss 0.3085):  74%|███████▍  | 7233/9753 [1:17:00<25:33,  1.64it/s]Training 3/3 epoch (loss 0.3085):  74%|███████▍  | 7234/9753 [1:17:00<24:59,  1.68it/s]Training 3/3 epoch (loss 0.5725):  74%|███████▍  | 7234/9753 [1:17:00<24:59,  1.68it/s]Training 3/3 epoch (loss 0.5725):  74%|███████▍  | 7235/9753 [1:17:00<25:50,  1.62it/s]Training 3/3 epoch (loss 0.5725):  74%|███████▍  | 7235/9753 [1:17:01<25:50,  1.62it/s]Training 3/3 epoch (loss 0.5725):  74%|███████▍  | 7236/9753 [1:17:01<25:25,  1.65it/s]Training 3/3 epoch (loss 0.3114):  74%|███████▍  | 7236/9753 [1:17:02<25:25,  1.65it/s]Training 3/3 epoch (loss 0.3114):  74%|███████▍  | 7237/9753 [1:17:02<27:46,  1.51it/s]Training 3/3 epoch (loss 0.7079):  74%|███████▍  | 7237/9753 [1:17:03<27:46,  1.51it/s]Training 3/3 epoch (loss 0.7079):  74%|███████▍  | 7238/9753 [1:17:03<30:35,  1.37it/s]Training 3/3 epoch (loss 0.5052):  74%|███████▍  | 7238/9753 [1:17:03<30:35,  1.37it/s]Training 3/3 epoch (loss 0.5052):  74%|███���███▍  | 7239/9753 [1:17:03<28:37,  1.46it/s]Training 3/3 epoch (loss 0.3082):  74%|███████▍  | 7239/9753 [1:17:04<28:37,  1.46it/s]Training 3/3 epoch (loss 0.3082):  74%|███████▍  | 7240/9753 [1:17:04<27:06,  1.55it/s]Training 3/3 epoch (loss 0.4633):  74%|███████▍  | 7240/9753 [1:17:04<27:06,  1.55it/s]Training 3/3 epoch (loss 0.4633):  74%|███████▍  | 7241/9753 [1:17:04<26:41,  1.57it/s]Training 3/3 epoch (loss 0.5264):  74%|███████▍  | 7241/9753 [1:17:05<26:41,  1.57it/s]Training 3/3 epoch (loss 0.5264):  74%|███████▍  | 7242/9753 [1:17:05<27:31,  1.52it/s]Training 3/3 epoch (loss 0.3468):  74%|███████▍  | 7242/9753 [1:17:06<27:31,  1.52it/s]Training 3/3 epoch (loss 0.3468):  74%|███████▍  | 7243/9753 [1:17:06<26:14,  1.59it/s]Training 3/3 epoch (loss 0.3182):  74%|███████▍  | 7243/9753 [1:17:06<26:14,  1.59it/s]Training 3/3 epoch (loss 0.3182):  74%|███████▍  | 7244/9753 [1:17:06<27:35,  1.52it/s]Training 3/3 epoch (loss 0.2702):  74%|███████▍  | 7244/9753 [1:17:07<27:35,  1.52it/s]Training 3/3 epoch (loss 0.2702):  74%|███████▍  | 7245/9753 [1:17:07<26:15,  1.59it/s]Training 3/3 epoch (loss 0.3781):  74%|███████▍  | 7245/9753 [1:17:08<26:15,  1.59it/s]Training 3/3 epoch (loss 0.3781):  74%|███████▍  | 7246/9753 [1:17:08<25:21,  1.65it/s]Training 3/3 epoch (loss 0.2839):  74%|███████▍  | 7246/9753 [1:17:08<25:21,  1.65it/s]Training 3/3 epoch (loss 0.2839):  74%|███████▍  | 7247/9753 [1:17:08<24:37,  1.70it/s]Training 3/3 epoch (loss 0.4429):  74%|███████▍  | 7247/9753 [1:17:09<24:37,  1.70it/s]Training 3/3 epoch (loss 0.4429):  74%|███████▍  | 7248/9753 [1:17:09<25:46,  1.62it/s]Training 3/3 epoch (loss 0.4130):  74%|███████▍  | 7248/9753 [1:17:09<25:46,  1.62it/s]Training 3/3 epoch (loss 0.4130):  74%|███████▍  | 7249/9753 [1:17:09<25:37,  1.63it/s]Training 3/3 epoch (loss 0.4245):  74%|███████▍  | 7249/9753 [1:17:10<25:37,  1.63it/s]Training 3/3 epoch (loss 0.4245):  74%|███████▍  | 7250/9753 [1:17:10<27:25,  1.52it/s]Training 3/3 epoch (loss 0.3694):  74%|███████▍  | 7250/9753 [1:17:11<27:25,  1.52it/s]Training 3/3 epoch (loss 0.3694):  74%|███████▍  | 7251/9753 [1:17:11<30:03,  1.39it/s]Training 3/3 epoch (loss 0.4571):  74%|███████▍  | 7251/9753 [1:17:12<30:03,  1.39it/s]Training 3/3 epoch (loss 0.4571):  74%|███████▍  | 7252/9753 [1:17:12<28:04,  1.48it/s]Training 3/3 epoch (loss 0.6284):  74%|███████▍  | 7252/9753 [1:17:12<28:04,  1.48it/s]Training 3/3 epoch (loss 0.6284):  74%|███████▍  | 7253/9753 [1:17:12<26:34,  1.57it/s]Training 3/3 epoch (loss 0.4253):  74%|███████▍  | 7253/9753 [1:17:13<26:34,  1.57it/s]Training 3/3 epoch (loss 0.4253):  74%|███████▍  | 7254/9753 [1:17:13<25:47,  1.61it/s]Training 3/3 epoch (loss 0.5291):  74%|███████▍  | 7254/9753 [1:17:13<25:47,  1.61it/s]Training 3/3 epoch (loss 0.5291):  74%|███████▍  | 7255/9753 [1:17:13<27:17,  1.53it/s]Training 3/3 epoch (loss 0.4610):  74%|███████▍  | 7255/9753 [1:17:14<27:17,  1.53it/s]Training 3/3 epoch (loss 0.4610):  74%|███████▍  | 7256/9753 [1:17:14<26:27,  1.57it/s]Training 3/3 epoch (loss 0.4210):  74%|███████▍  | 7256/9753 [1:17:15<26:27,  1.57it/s]Training 3/3 epoch (loss 0.4210):  74%|███████▍  | 7257/9753 [1:17:15<25:29,  1.63it/s]Training 3/3 epoch (loss 0.2931):  74%|███████▍  | 7257/9753 [1:17:15<25:29,  1.63it/s]Training 3/3 epoch (loss 0.2931):  74%|███████▍  | 7258/9753 [1:17:15<24:41,  1.68it/s]Training 3/3 epoch (loss 0.4734):  74%|███████▍  | 7258/9753 [1:17:16<24:41,  1.68it/s]Training 3/3 epoch (loss 0.4734):  74%|███████▍  | 7259/9753 [1:17:16<25:11,  1.65it/s]Training 3/3 epoch (loss 0.5329):  74%|███████▍  | 7259/9753 [1:17:17<25:11,  1.65it/s]Training 3/3 epoch (loss 0.5329):  74%|███████▍  | 7260/9753 [1:17:17<28:38,  1.45it/s]Training 3/3 epoch (loss 0.2911):  74%|███████▍  | 7260/9753 [1:17:17<28:38,  1.45it/s]Training 3/3 epoch (loss 0.2911):  74%|███████▍  | 7261/9753 [1:17:17<29:00,  1.43it/s]Training 3/3 epoch (loss 0.3410):  74%|███████▍  | 7261/9753 [1:17:18<29:00,  1.43it/s]Training 3/3 epoch (loss 0.3410):  74%|███████▍  | 7262/9753 [1:17:18<27:24,  1.51it/s]Training 3/3 epoch (loss 0.4481):  74%|███████▍  | 7262/9753 [1:17:19<27:24,  1.51it/s]Training 3/3 epoch (loss 0.4481):  74%|███████▍  | 7263/9753 [1:17:19<26:02,  1.59it/s]Training 3/3 epoch (loss 0.2921):  74%|███████▍  | 7263/9753 [1:17:19<26:02,  1.59it/s]Training 3/3 epoch (loss 0.2921):  74%|███████▍  | 7264/9753 [1:17:19<26:40,  1.55it/s]Training 3/3 epoch (loss 0.3638):  74%|███████▍  | 7264/9753 [1:17:20<26:40,  1.55it/s]Training 3/3 epoch (loss 0.3638):  74%|███████▍  | 7265/9753 [1:17:20<25:39,  1.62it/s]Training 3/3 epoch (loss 0.5271):  74%|███████▍  | 7265/9753 [1:17:20<25:39,  1.62it/s]Training 3/3 epoch (loss 0.5271):  75%|███████▍  | 7266/9753 [1:17:20<24:53,  1.67it/s]Training 3/3 epoch (loss 0.4749):  75%|███████▍  | 7266/9753 [1:17:21<24:53,  1.67it/s]Training 3/3 epoch (loss 0.4749):  75%|███████▍  | 7267/9753 [1:17:21<25:30,  1.62it/s]Training 3/3 epoch (loss 0.3126):  75%|███████▍  | 7267/9753 [1:17:22<25:30,  1.62it/s]Training 3/3 epoch (loss 0.3126):  75%|███████▍  | 7268/9753 [1:17:22<24:53,  1.66it/s]Training 3/3 epoch (loss 0.3743):  75%|███████▍  | 7268/9753 [1:17:22<24:53,  1.66it/s]Training 3/3 epoch (loss 0.3743):  75%|███████▍  | 7269/9753 [1:17:22<24:14,  1.71it/s]Training 3/3 epoch (loss 0.4646):  75%|███████▍  | 7269/9753 [1:17:23<24:14,  1.71it/s]Training 3/3 epoch (loss 0.4646):  75%|███████▍  | 7270/9753 [1:17:23<23:53,  1.73it/s]Training 3/3 epoch (loss 0.4647):  75%|███████▍  | 7270/9753 [1:17:23<23:53,  1.73it/s]Training 3/3 epoch (loss 0.4647):  75%|███████▍  | 7271/9753 [1:17:23<23:49,  1.74it/s]Training 3/3 epoch (loss 0.4258):  75%|███████▍  | 7271/9753 [1:17:24<23:49,  1.74it/s]Training 3/3 epoch (loss 0.4258):  75%|███████▍  | 7272/9753 [1:17:24<23:41,  1.74it/s]Training 3/3 epoch (loss 0.2856):  75%|███████▍  | 7272/9753 [1:17:24<23:41,  1.74it/s]Training 3/3 epoch (loss 0.2856):  75%|███████▍  | 7273/9753 [1:17:24<23:46,  1.74it/s]Training 3/3 epoch (loss 0.4957):  75%|███████▍  | 7273/9753 [1:17:25<23:46,  1.74it/s]Training 3/3 epoch (loss 0.4957):  75%|███████▍  | 7274/9753 [1:17:25<25:11,  1.64it/s]Training 3/3 epoch (loss 0.5015):  75%|███████▍  | 7274/9753 [1:17:26<25:11,  1.64it/s]Training 3/3 epoch (loss 0.5015):  75%|███████▍  | 7275/9753 [1:17:26<26:37,  1.55it/s]Training 3/3 epoch (loss 0.4849):  75%|███████▍  | 7275/9753 [1:17:27<26:37,  1.55it/s]Training 3/3 epoch (loss 0.4849):  75%|███████▍  | 7276/9753 [1:17:27<27:25,  1.51it/s]Training 3/3 epoch (loss 0.4115):  75%|███████▍  | 7276/9753 [1:17:27<27:25,  1.51it/s]Training 3/3 epoch (loss 0.4115):  75%|███████▍  | 7277/9753 [1:17:27<26:39,  1.55it/s]Training 3/3 epoch (loss 0.6601):  75%|███████▍  | 7277/9753 [1:17:28<26:39,  1.55it/s]Training 3/3 epoch (loss 0.6601):  75%|███████▍  | 7278/9753 [1:17:28<28:08,  1.47it/s]Training 3/3 epoch (loss 0.2926):  75%|███████▍  | 7278/9753 [1:17:28<28:08,  1.47it/s]Training 3/3 epoch (loss 0.2926):  75%|███████▍  | 7279/9753 [1:17:28<26:47,  1.54it/s]Training 3/3 epoch (loss 0.2296):  75%|███████▍  | 7279/9753 [1:17:29<26:47,  1.54it/s]Training 3/3 epoch (loss 0.2296):  75%|███████▍  | 7280/9753 [1:17:29<27:18,  1.51it/s]Training 3/3 epoch (loss 0.2269):  75%|███████▍  | 7280/9753 [1:17:30<27:18,  1.51it/s]Training 3/3 epoch (loss 0.2269):  75%|███████▍  | 7281/9753 [1:17:30<26:00,  1.58it/s]Training 3/3 epoch (loss 0.4582):  75%|███████▍  | 7281/9753 [1:17:31<26:00,  1.58it/s]Training 3/3 epoch (loss 0.4582):  75%|███████▍  | 7282/9753 [1:17:31<29:16,  1.41it/s]Training 3/3 epoch (loss 0.4257):  75%|███████▍  | 7282/9753 [1:17:32<29:16,  1.41it/s]Training 3/3 epoch (loss 0.4257):  75%|███████▍  | 7283/9753 [1:17:32<31:39,  1.30it/s]Training 3/3 epoch (loss 0.2837):  75%|███████▍  | 7283/9753 [1:17:32<31:39,  1.30it/s]Training 3/3 epoch (loss 0.2837):  75%|███████▍  | 7284/9753 [1:17:32<29:09,  1.41it/s]Training 3/3 epoch (loss 0.4979):  75%|███████▍  | 7284/9753 [1:17:33<29:09,  1.41it/s]Training 3/3 epoch (loss 0.4979):  75%|███████▍  | 7285/9753 [1:17:33<27:21,  1.50it/s]Training 3/3 epoch (loss 0.5880):  75%|███████▍  | 7285/9753 [1:17:33<27:21,  1.50it/s]Training 3/3 epoch (loss 0.5880):  75%|███████▍  | 7286/9753 [1:17:33<26:10,  1.57it/s]Training 3/3 epoch (loss 0.3366):  75%|███████▍  | 7286/9753 [1:17:34<26:10,  1.57it/s]Training 3/3 epoch (loss 0.3366):  75%|███████▍  | 7287/9753 [1:17:34<25:07,  1.64it/s]Training 3/3 epoch (loss 0.3639):  75%|███████▍  | 7287/9753 [1:17:34<25:07,  1.64it/s]Training 3/3 epoch (loss 0.3639):  75%|███████▍  | 7288/9753 [1:17:34<24:17,  1.69it/s]Training 3/3 epoch (loss 0.4469):  75%|███████▍  | 7288/9753 [1:17:35<24:17,  1.69it/s]Training 3/3 epoch (loss 0.4469):  75%|███████▍  | 7289/9753 [1:17:35<23:45,  1.73it/s]Training 3/3 epoch (loss 0.4862):  75%|███████▍  | 7289/9753 [1:17:35<23:45,  1.73it/s]Training 3/3 epoch (loss 0.4862):  75%|███████▍  | 7290/9753 [1:17:35<24:00,  1.71it/s]Training 3/3 epoch (loss 0.3469):  75%|███████▍  | 7290/9753 [1:17:36<24:00,  1.71it/s]Training 3/3 epoch (loss 0.3469):  75%|███████▍  | 7291/9753 [1:17:36<23:36,  1.74it/s]Training 3/3 epoch (loss 0.5745):  75%|███████▍  | 7291/9753 [1:17:37<23:36,  1.74it/s]Training 3/3 epoch (loss 0.5745):  75%|███████▍  | 7292/9753 [1:17:37<23:22,  1.76it/s]Training 3/3 epoch (loss 0.5839):  75%|███████▍  | 7292/9753 [1:17:37<23:22,  1.76it/s]Training 3/3 epoch (loss 0.5839):  75%|███████▍  | 7293/9753 [1:17:37<24:17,  1.69it/s]Training 3/3 epoch (loss 0.5421):  75%|███████▍  | 7293/9753 [1:17:38<24:17,  1.69it/s]Training 3/3 epoch (loss 0.5421):  75%|███████▍  | 7294/9753 [1:17:38<27:12,  1.51it/s]Training 3/3 epoch (loss 0.5619):  75%|███████▍  | 7294/9753 [1:17:39<27:12,  1.51it/s]Training 3/3 epoch (loss 0.5619):  75%|███████▍  | 7295/9753 [1:17:39<28:14,  1.45it/s]Training 3/3 epoch (loss 0.5343):  75%|███████▍  | 7295/9753 [1:17:39<28:14,  1.45it/s]Training 3/3 epoch (loss 0.5343):  75%|███████▍  | 7296/9753 [1:17:39<28:04,  1.46it/s]Training 3/3 epoch (loss 0.3314):  75%|███████▍  | 7296/9753 [1:17:40<28:04,  1.46it/s]Training 3/3 epoch (loss 0.3314):  75%|███████▍  | 7297/9753 [1:17:40<26:28,  1.55it/s]Training 3/3 epoch (loss 0.4189):  75%|███████▍  | 7297/9753 [1:17:41<26:28,  1.55it/s]Training 3/3 epoch (loss 0.4189):  75%|███████▍  | 7298/9753 [1:17:41<25:14,  1.62it/s]Training 3/3 epoch (loss 0.3545):  75%|███████▍  | 7298/9753 [1:17:41<25:14,  1.62it/s]Training 3/3 epoch (loss 0.3545):  75%|███████▍  | 7299/9753 [1:17:41<24:52,  1.64it/s]Training 3/3 epoch (loss 0.2804):  75%|███████▍  | 7299/9753 [1:17:42<24:52,  1.64it/s]Training 3/3 epoch (loss 0.2804):  75%|███████▍  | 7300/9753 [1:17:42<28:37,  1.43it/s]Training 3/3 epoch (loss 0.5286):  75%|███████▍  | 7300/9753 [1:17:43<28:37,  1.43it/s]Training 3/3 epoch (loss 0.5286):  75%|███████▍  | 7301/9753 [1:17:43<27:16,  1.50it/s]Training 3/3 epoch (loss 0.3527):  75%|███████▍  | 7301/9753 [1:17:43<27:16,  1.50it/s]Training 3/3 epoch (loss 0.3527):  75%|███████▍  | 7302/9753 [1:17:43<25:53,  1.58it/s]Training 3/3 epoch (loss 0.2178):  75%|███████▍  | 7302/9753 [1:17:44<25:53,  1.58it/s]Training 3/3 epoch (loss 0.2178):  75%|███████▍  | 7303/9753 [1:17:44<24:50,  1.64it/s]Training 3/3 epoch (loss 0.2474):  75%|███████▍  | 7303/9753 [1:17:44<24:50,  1.64it/s]Training 3/3 epoch (loss 0.2474):  75%|███████▍  | 7304/9753 [1:17:44<24:16,  1.68it/s]Training 3/3 epoch (loss 0.4301):  75%|███████▍  | 7304/9753 [1:17:45<24:16,  1.68it/s]Training 3/3 epoch (loss 0.4301):  75%|███████▍  | 7305/9753 [1:17:45<24:45,  1.65it/s]Training 3/3 epoch (loss 0.5712):  75%|███████▍  | 7305/9753 [1:17:46<24:45,  1.65it/s]Training 3/3 epoch (loss 0.5712):  75%|███████▍  | 7306/9753 [1:17:46<25:12,  1.62it/s]Training 3/3 epoch (loss 0.5684):  75%|███████▍  | 7306/9753 [1:17:46<25:12,  1.62it/s]Training 3/3 epoch (loss 0.5684):  75%|███████▍  | 7307/9753 [1:17:46<24:35,  1.66it/s]Training 3/3 epoch (loss 0.4613):  75%|███████▍  | 7307/9753 [1:17:47<24:35,  1.66it/s]Training 3/3 epoch (loss 0.4613):  75%|███████▍  | 7308/9753 [1:17:47<23:52,  1.71it/s]Training 3/3 epoch (loss 0.4211):  75%|███████▍  | 7308/9753 [1:17:47<23:52,  1.71it/s]Training 3/3 epoch (loss 0.4211):  75%|███████▍  | 7309/9753 [1:17:47<24:10,  1.68it/s]Training 3/3 epoch (loss 0.4616):  75%|███████▍  | 7309/9753 [1:17:48<24:10,  1.68it/s]Training 3/3 epoch (loss 0.4616):  75%|███████▍  | 7310/9753 [1:17:48<23:34,  1.73it/s]Training 3/3 epoch (loss 0.5221):  75%|███████▍  | 7310/9753 [1:17:48<23:34,  1.73it/s]Training 3/3 epoch (loss 0.5221):  75%|███████▍  | 7311/9753 [1:17:48<23:07,  1.76it/s]Training 3/3 epoch (loss 0.4705):  75%|███████▍  | 7311/9753 [1:17:49<23:07,  1.76it/s]Training 3/3 epoch (loss 0.4705):  75%|███████▍  | 7312/9753 [1:17:49<24:23,  1.67it/s]Training 3/3 epoch (loss 0.4985):  75%|███████▍  | 7312/9753 [1:17:50<24:23,  1.67it/s]Training 3/3 epoch (loss 0.4985):  75%|███████▍  | 7313/9753 [1:17:50<25:26,  1.60it/s]Training 3/3 epoch (loss 0.3101):  75%|███████▍  | 7313/9753 [1:17:50<25:26,  1.60it/s]Training 3/3 epoch (loss 0.3101):  75%|███████▍  | 7314/9753 [1:17:50<25:17,  1.61it/s]Training 3/3 epoch (loss 0.3691):  75%|███████▍  | 7314/9753 [1:17:51<25:17,  1.61it/s]Training 3/3 epoch (loss 0.3691):  75%|███████▌  | 7315/9753 [1:17:51<24:32,  1.66it/s]Training 3/3 epoch (loss 0.1876):  75%|███████▌  | 7315/9753 [1:17:52<24:32,  1.66it/s]Training 3/3 epoch (loss 0.1876):  75%|███████▌  | 7316/9753 [1:17:52<24:01,  1.69it/s]Training 3/3 epoch (loss 0.4967):  75%|███████▌  | 7316/9753 [1:17:52<24:01,  1.69it/s]Training 3/3 epoch (loss 0.4967):  75%|███████▌  | 7317/9753 [1:17:52<25:42,  1.58it/s]Training 3/3 epoch (loss 0.5098):  75%|███████▌  | 7317/9753 [1:17:53<25:42,  1.58it/s]Training 3/3 epoch (loss 0.5098):  75%|███████▌  | 7318/9753 [1:17:53<27:11,  1.49it/s]Training 3/3 epoch (loss 0.3797):  75%|███████▌  | 7318/9753 [1:17:54<27:11,  1.49it/s]Training 3/3 epoch (loss 0.3797):  75%|███████▌  | 7319/9753 [1:17:54<29:10,  1.39it/s]Training 3/3 epoch (loss 0.4554):  75%|███████▌  | 7319/9753 [1:17:55<29:10,  1.39it/s]Training 3/3 epoch (loss 0.4554):  75%|███████▌  | 7320/9753 [1:17:55<29:25,  1.38it/s]Training 3/3 epoch (loss 0.3881):  75%|███████▌  | 7320/9753 [1:17:55<29:25,  1.38it/s]Training 3/3 epoch (loss 0.3881):  75%|███████▌  | 7321/9753 [1:17:55<27:41,  1.46it/s]Training 3/3 epoch (loss 0.5576):  75%|███████▌  | 7321/9753 [1:17:56<27:41,  1.46it/s]Training 3/3 epoch (loss 0.5576):  75%|███████▌  | 7322/9753 [1:17:56<27:40,  1.46it/s]Training 3/3 epoch (loss 0.3209):  75%|███████▌  | 7322/9753 [1:17:56<27:40,  1.46it/s]Training 3/3 epoch (loss 0.3209):  75%|███████▌  | 7323/9753 [1:17:56<26:57,  1.50it/s]Training 3/3 epoch (loss 0.2795):  75%|███████▌  | 7323/9753 [1:17:57<26:57,  1.50it/s]Training 3/3 epoch (loss 0.2795):  75%|███████▌  | 7324/9753 [1:17:57<28:18,  1.43it/s]Training 3/3 epoch (loss 0.5103):  75%|███████▌  | 7324/9753 [1:17:58<28:18,  1.43it/s]Training 3/3 epoch (loss 0.5103):  75%|███████▌  | 7325/9753 [1:17:58<26:40,  1.52it/s]Training 3/3 epoch (loss 0.4470):  75%|███████▌  | 7325/9753 [1:17:59<26:40,  1.52it/s]Training 3/3 epoch (loss 0.4470):  75%|███████▌  | 7326/9753 [1:17:59<27:09,  1.49it/s]Training 3/3 epoch (loss 0.3698):  75%|███████▌  | 7326/9753 [1:17:59<27:09,  1.49it/s]Training 3/3 epoch (loss 0.3698):  75%|███████▌  | 7327/9753 [1:17:59<26:40,  1.52it/s]Training 3/3 epoch (loss 0.4366):  75%|███████▌  | 7327/9753 [1:18:00<26:40,  1.52it/s]Training 3/3 epoch (loss 0.4366):  75%|███████▌  | 7328/9753 [1:18:00<29:18,  1.38it/s]Training 3/3 epoch (loss 0.4086):  75%|███████▌  | 7328/9753 [1:18:01<29:18,  1.38it/s]Training 3/3 epoch (loss 0.4086):  75%|███████▌  | 7329/9753 [1:18:01<28:04,  1.44it/s]Training 3/3 epoch (loss 0.5229):  75%|███████▌  | 7329/9753 [1:18:01<28:04,  1.44it/s]Training 3/3 epoch (loss 0.5229):  75%|███████▌  | 7330/9753 [1:18:01<27:33,  1.47it/s]Training 3/3 epoch (loss 0.3860):  75%|███████▌  | 7330/9753 [1:18:02<27:33,  1.47it/s]Training 3/3 epoch (loss 0.3860):  75%|███████▌  | 7331/9753 [1:18:02<26:47,  1.51it/s]Training 3/3 epoch (loss 0.2583):  75%|███████▌  | 7331/9753 [1:18:02<26:47,  1.51it/s]Training 3/3 epoch (loss 0.2583):  75%|███████▌  | 7332/9753 [1:18:02<25:24,  1.59it/s]Training 3/3 epoch (loss 0.4421):  75%|███████▌  | 7332/9753 [1:18:03<25:24,  1.59it/s]Training 3/3 epoch (loss 0.4421):  75%|███████▌  | 7333/9753 [1:18:03<27:10,  1.48it/s]Training 3/3 epoch (loss 0.5391):  75%|███████▌  | 7333/9753 [1:18:04<27:10,  1.48it/s]Training 3/3 epoch (loss 0.5391):  75%|███████▌  | 7334/9753 [1:18:04<26:02,  1.55it/s]Training 3/3 epoch (loss 0.2460):  75%|███████▌  | 7334/9753 [1:18:04<26:02,  1.55it/s]Training 3/3 epoch (loss 0.2460):  75%|███████▌  | 7335/9753 [1:18:04<25:45,  1.56it/s]Training 3/3 epoch (loss 0.3495):  75%|███████▌  | 7335/9753 [1:18:05<25:45,  1.56it/s]Training 3/3 epoch (loss 0.3495):  75%|███████▌  | 7336/9753 [1:18:05<24:44,  1.63it/s]Training 3/3 epoch (loss 0.1720):  75%|███████▌  | 7336/9753 [1:18:06<24:44,  1.63it/s]Training 3/3 epoch (loss 0.1720):  75%|███████▌  | 7337/9753 [1:18:06<23:48,  1.69it/s]Training 3/3 epoch (loss 0.5295):  75%|��██████▌  | 7337/9753 [1:18:06<23:48,  1.69it/s]Training 3/3 epoch (loss 0.5295):  75%|███████▌  | 7338/9753 [1:18:06<23:14,  1.73it/s]Training 3/3 epoch (loss 0.4171):  75%|███████▌  | 7338/9753 [1:18:07<23:14,  1.73it/s]Training 3/3 epoch (loss 0.4171):  75%|███████▌  | 7339/9753 [1:18:07<22:47,  1.77it/s]Training 3/3 epoch (loss 0.2640):  75%|███████▌  | 7339/9753 [1:18:07<22:47,  1.77it/s]Training 3/3 epoch (loss 0.2640):  75%|███████▌  | 7340/9753 [1:18:07<22:25,  1.79it/s]Training 3/3 epoch (loss 0.4722):  75%|███████▌  | 7340/9753 [1:18:08<22:25,  1.79it/s]Training 3/3 epoch (loss 0.4722):  75%|███████▌  | 7341/9753 [1:18:08<22:13,  1.81it/s]Training 3/3 epoch (loss 0.3915):  75%|███████▌  | 7341/9753 [1:18:08<22:13,  1.81it/s]Training 3/3 epoch (loss 0.3915):  75%|███████▌  | 7342/9753 [1:18:08<22:00,  1.83it/s]Training 3/3 epoch (loss 0.4088):  75%|███████▌  | 7342/9753 [1:18:09<22:00,  1.83it/s]Training 3/3 epoch (loss 0.4088):  75%|███████▌  | 7343/9753 [1:18:09<23:17,  1.72it/s]Training 3/3 epoch (loss 0.5610):  75%|███████▌  | 7343/9753 [1:18:10<23:17,  1.72it/s]Training 3/3 epoch (loss 0.5610):  75%|███████▌  | 7344/9753 [1:18:10<28:46,  1.40it/s]Training 3/3 epoch (loss 0.4949):  75%|███████▌  | 7344/9753 [1:18:11<28:46,  1.40it/s]Training 3/3 epoch (loss 0.4949):  75%|███████▌  | 7345/9753 [1:18:11<27:08,  1.48it/s]Training 3/3 epoch (loss 0.4728):  75%|███████▌  | 7345/9753 [1:18:11<27:08,  1.48it/s]Training 3/3 epoch (loss 0.4728):  75%|███████▌  | 7346/9753 [1:18:11<27:06,  1.48it/s]Training 3/3 epoch (loss 0.3239):  75%|███████▌  | 7346/9753 [1:18:12<27:06,  1.48it/s]Training 3/3 epoch (loss 0.3239):  75%|███████▌  | 7347/9753 [1:18:12<26:27,  1.52it/s]Training 3/3 epoch (loss 0.5210):  75%|███████▌  | 7347/9753 [1:18:13<26:27,  1.52it/s]Training 3/3 epoch (loss 0.5210):  75%|███████▌  | 7348/9753 [1:18:13<26:50,  1.49it/s]Training 3/3 epoch (loss 0.4708):  75%|███████▌  | 7348/9753 [1:18:13<26:50,  1.49it/s]Training 3/3 epoch (loss 0.4708):  75%|███████▌  | 7349/9753 [1:18:13<25:46,  1.55it/s]Training 3/3 epoch (loss 0.3112):  75%|███████▌  | 7349/9753 [1:18:14<25:46,  1.55it/s]Training 3/3 epoch (loss 0.3112):  75%|███████▌  | 7350/9753 [1:18:14<27:59,  1.43it/s]Training 3/3 epoch (loss 0.3366):  75%|███████▌  | 7350/9753 [1:18:14<27:59,  1.43it/s]Training 3/3 epoch (loss 0.3366):  75%|███████▌  | 7351/9753 [1:18:14<26:07,  1.53it/s]Training 3/3 epoch (loss 0.3253):  75%|███████▌  | 7351/9753 [1:18:15<26:07,  1.53it/s]Training 3/3 epoch (loss 0.3253):  75%|███████▌  | 7352/9753 [1:18:15<28:19,  1.41it/s]Training 3/3 epoch (loss 0.2170):  75%|███████▌  | 7352/9753 [1:18:16<28:19,  1.41it/s]Training 3/3 epoch (loss 0.2170):  75%|███████▌  | 7353/9753 [1:18:16<26:35,  1.50it/s]Training 3/3 epoch (loss 0.2684):  75%|███████▌  | 7353/9753 [1:18:16<26:35,  1.50it/s]Training 3/3 epoch (loss 0.2684):  75%|███████▌  | 7354/9753 [1:18:16<25:07,  1.59it/s]Training 3/3 epoch (loss 0.3366):  75%|███████▌  | 7354/9753 [1:18:17<25:07,  1.59it/s]Training 3/3 epoch (loss 0.3366):  75%|███████▌  | 7355/9753 [1:18:17<27:13,  1.47it/s]Training 3/3 epoch (loss 0.4278):  75%|███████▌  | 7355/9753 [1:18:18<27:13,  1.47it/s]Training 3/3 epoch (loss 0.4278):  75%|███████▌  | 7356/9753 [1:18:18<26:00,  1.54it/s]Training 3/3 epoch (loss 0.2684):  75%|███████▌  | 7356/9753 [1:18:18<26:00,  1.54it/s]Training 3/3 epoch (loss 0.2684):  75%|███████▌  | 7357/9753 [1:18:18<24:49,  1.61it/s]Training 3/3 epoch (loss 0.4562):  75%|███████▌  | 7357/9753 [1:18:19<24:49,  1.61it/s]Training 3/3 epoch (loss 0.4562):  75%|███████▌  | 7358/9753 [1:18:19<26:08,  1.53it/s]Training 3/3 epoch (loss 0.3918):  75%|███████▌  | 7358/9753 [1:18:20<26:08,  1.53it/s]Training 3/3 epoch (loss 0.3918):  75%|███████▌  | 7359/9753 [1:18:20<25:53,  1.54it/s]Training 3/3 epoch (loss 0.3979):  75%|███████▌  | 7359/9753 [1:18:20<25:53,  1.54it/s]Training 3/3 epoch (loss 0.3979):  75%|███████▌  | 7360/9753 [1:18:20<26:21,  1.51it/s]Training 3/3 epoch (loss 0.4960):  75%|███████▌  | 7360/9753 [1:18:21<26:21,  1.51it/s]Training 3/3 epoch (loss 0.4960):  75%|███████▌  | 7361/9753 [1:18:21<25:45,  1.55it/s]Training 3/3 epoch (loss 0.3273):  75%|███████▌  | 7361/9753 [1:18:22<25:45,  1.55it/s]Training 3/3 epoch (loss 0.3273):  75%|███████▌  | 7362/9753 [1:18:22<25:13,  1.58it/s]Training 3/3 epoch (loss 0.3402):  75%|███████▌  | 7362/9753 [1:18:22<25:13,  1.58it/s]Training 3/3 epoch (loss 0.3402):  75%|███████▌  | 7363/9753 [1:18:22<24:14,  1.64it/s]Training 3/3 epoch (loss 0.3551):  75%|███████▌  | 7363/9753 [1:18:23<24:14,  1.64it/s]Training 3/3 epoch (loss 0.3551):  76%|███████▌  | 7364/9753 [1:18:23<23:24,  1.70it/s]Training 3/3 epoch (loss 0.2733):  76%|███████▌  | 7364/9753 [1:18:23<23:24,  1.70it/s]Training 3/3 epoch (loss 0.2733):  76%|███████▌  | 7365/9753 [1:18:23<22:51,  1.74it/s]Training 3/3 epoch (loss 0.3829):  76%|███████▌  | 7365/9753 [1:18:24<22:51,  1.74it/s]Training 3/3 epoch (loss 0.3829):  76%|███████▌  | 7366/9753 [1:18:24<22:52,  1.74it/s]Training 3/3 epoch (loss 0.7062):  76%|███████▌  | 7366/9753 [1:18:25<22:52,  1.74it/s]Training 3/3 epoch (loss 0.7062):  76%|███████▌  | 7367/9753 [1:18:25<24:17,  1.64it/s]Training 3/3 epoch (loss 0.5729):  76%|███████▌  | 7367/9753 [1:18:25<24:17,  1.64it/s]Training 3/3 epoch (loss 0.5729):  76%|███████▌  | 7368/9753 [1:18:25<23:37,  1.68it/s]Training 3/3 epoch (loss 0.5184):  76%|███████▌  | 7368/9753 [1:18:26<23:37,  1.68it/s]Training 3/3 epoch (loss 0.5184):  76%|███████▌  | 7369/9753 [1:18:26<24:43,  1.61it/s]Training 3/3 epoch (loss 0.5187):  76%|███████▌  | 7369/9753 [1:18:26<24:43,  1.61it/s]Training 3/3 epoch (loss 0.5187):  76%|███████▌  | 7370/9753 [1:18:26<24:33,  1.62it/s]Training 3/3 epoch (loss 0.4556):  76%|███████▌  | 7370/9753 [1:18:27<24:33,  1.62it/s]Training 3/3 epoch (loss 0.4556):  76%|███████▌  | 7371/9753 [1:18:27<25:52,  1.53it/s]Training 3/3 epoch (loss 0.4744):  76%|███████▌  | 7371/9753 [1:18:28<25:52,  1.53it/s]Training 3/3 epoch (loss 0.4744):  76%|███████▌  | 7372/9753 [1:18:28<24:55,  1.59it/s]Training 3/3 epoch (loss 0.4028):  76%|███████▌  | 7372/9753 [1:18:28<24:55,  1.59it/s]Training 3/3 epoch (loss 0.4028):  76%|███████▌  | 7373/9753 [1:18:28<23:55,  1.66it/s]Training 3/3 epoch (loss 0.3525):  76%|███████▌  | 7373/9753 [1:18:29<23:55,  1.66it/s]Training 3/3 epoch (loss 0.3525):  76%|███████▌  | 7374/9753 [1:18:29<23:12,  1.71it/s]Training 3/3 epoch (loss 0.4701):  76%|███████▌  | 7374/9753 [1:18:29<23:12,  1.71it/s]Training 3/3 epoch (loss 0.4701):  76%|███████▌  | 7375/9753 [1:18:29<22:45,  1.74it/s]Training 3/3 epoch (loss 0.4538):  76%|███████▌  | 7375/9753 [1:18:30<22:45,  1.74it/s]Training 3/3 epoch (loss 0.4538):  76%|███████▌  | 7376/9753 [1:18:30<25:09,  1.57it/s]Training 3/3 epoch (loss 0.5376):  76%|███████▌  | 7376/9753 [1:18:31<25:09,  1.57it/s]Training 3/3 epoch (loss 0.5376):  76%|███████▌  | 7377/9753 [1:18:31<28:34,  1.39it/s]Training 3/3 epoch (loss 0.5983):  76%|███████▌  | 7377/9753 [1:18:32<28:34,  1.39it/s]Training 3/3 epoch (loss 0.5983):  76%|███████▌  | 7378/9753 [1:18:32<28:43,  1.38it/s]Training 3/3 epoch (loss 0.5681):  76%|███████▌  | 7378/9753 [1:18:32<28:43,  1.38it/s]Training 3/3 epoch (loss 0.5681):  76%|███████▌  | 7379/9753 [1:18:32<26:37,  1.49it/s]Training 3/3 epoch (loss 0.3732):  76%|███████▌  | 7379/9753 [1:18:33<26:37,  1.49it/s]Training 3/3 epoch (loss 0.3732):  76%|███████▌  | 7380/9753 [1:18:33<25:10,  1.57it/s]Training 3/3 epoch (loss 0.2837):  76%|███████▌  | 7380/9753 [1:18:33<25:10,  1.57it/s]Training 3/3 epoch (loss 0.2837):  76%|███████▌  | 7381/9753 [1:18:33<24:30,  1.61it/s]Training 3/3 epoch (loss 0.4876):  76%|███████▌  | 7381/9753 [1:18:34<24:30,  1.61it/s]Training 3/3 epoch (loss 0.4876):  76%|███████▌  | 7382/9753 [1:18:34<23:46,  1.66it/s]Training 3/3 epoch (loss 0.5039):  76%|███████▌  | 7382/9753 [1:18:35<23:46,  1.66it/s]Training 3/3 epoch (loss 0.5039):  76%|███████▌  | 7383/9753 [1:18:35<23:07,  1.71it/s]Training 3/3 epoch (loss 0.2175):  76%|███████▌  | 7383/9753 [1:18:35<23:07,  1.71it/s]Training 3/3 epoch (loss 0.2175):  76%|███████▌  | 7384/9753 [1:18:35<22:40,  1.74it/s]Training 3/3 epoch (loss 0.5322):  76%|███████▌  | 7384/9753 [1:18:36<22:40,  1.74it/s]Training 3/3 epoch (loss 0.5322):  76%|███████▌  | 7385/9753 [1:18:36<22:54,  1.72it/s]Training 3/3 epoch (loss 0.5080):  76%|███████▌  | 7385/9753 [1:18:36<22:54,  1.72it/s]Training 3/3 epoch (loss 0.5080):  76%|███████▌  | 7386/9753 [1:18:36<22:39,  1.74it/s]Training 3/3 epoch (loss 0.4205):  76%|███████▌  | 7386/9753 [1:18:37<22:39,  1.74it/s]Training 3/3 epoch (loss 0.4205):  76%|███████▌  | 7387/9753 [1:18:37<22:17,  1.77it/s]Training 3/3 epoch (loss 0.5472):  76%|███████▌  | 7387/9753 [1:18:37<22:17,  1.77it/s]Training 3/3 epoch (loss 0.5472):  76%|███████▌  | 7388/9753 [1:18:37<22:14,  1.77it/s]Training 3/3 epoch (loss 0.4299):  76%|███████▌  | 7388/9753 [1:18:38<22:14,  1.77it/s]Training 3/3 epoch (loss 0.4299):  76%|███████▌  | 7389/9753 [1:18:38<23:43,  1.66it/s]Training 3/3 epoch (loss 0.5205):  76%|███████▌  | 7389/9753 [1:18:39<23:43,  1.66it/s]Training 3/3 epoch (loss 0.5205):  76%|███████▌  | 7390/9753 [1:18:39<24:19,  1.62it/s]Training 3/3 epoch (loss 0.4050):  76%|███████▌  | 7390/9753 [1:18:39<24:19,  1.62it/s]Training 3/3 epoch (loss 0.4050):  76%|███████▌  | 7391/9753 [1:18:39<23:45,  1.66it/s]Training 3/3 epoch (loss 0.2047):  76%|███████▌  | 7391/9753 [1:18:40<23:45,  1.66it/s]Training 3/3 epoch (loss 0.2047):  76%|███████▌  | 7392/9753 [1:18:40<24:37,  1.60it/s]Training 3/3 epoch (loss 0.4230):  76%|███████▌  | 7392/9753 [1:18:41<24:37,  1.60it/s]Training 3/3 epoch (loss 0.4230):  76%|███████▌  | 7393/9753 [1:18:41<25:33,  1.54it/s]Training 3/3 epoch (loss 0.3201):  76%|███████▌  | 7393/9753 [1:18:41<25:33,  1.54it/s]Training 3/3 epoch (loss 0.3201):  76%|███████▌  | 7394/9753 [1:18:41<24:33,  1.60it/s]Training 3/3 epoch (loss 0.3351):  76%|███████▌  | 7394/9753 [1:18:42<24:33,  1.60it/s]Training 3/3 epoch (loss 0.3351):  76%|███████▌  | 7395/9753 [1:18:42<23:56,  1.64it/s]Training 3/3 epoch (loss 0.3479):  76%|███████▌  | 7395/9753 [1:18:42<23:56,  1.64it/s]Training 3/3 epoch (loss 0.3479):  76%|███████▌  | 7396/9753 [1:18:42<24:38,  1.59it/s]Training 3/3 epoch (loss 0.3463):  76%|███████▌  | 7396/9753 [1:18:43<24:38,  1.59it/s]Training 3/3 epoch (loss 0.3463):  76%|███████▌  | 7397/9753 [1:18:43<25:27,  1.54it/s]Training 3/3 epoch (loss 0.3577):  76%|███████▌  | 7397/9753 [1:18:44<25:27,  1.54it/s]Training 3/3 epoch (loss 0.3577):  76%|███████▌  | 7398/9753 [1:18:44<24:20,  1.61it/s]Training 3/3 epoch (loss 0.4344):  76%|███████▌  | 7398/9753 [1:18:44<24:20,  1.61it/s]Training 3/3 epoch (loss 0.4344):  76%|███████▌  | 7399/9753 [1:18:44<23:36,  1.66it/s]Training 3/3 epoch (loss 0.6613):  76%|███████▌  | 7399/9753 [1:18:45<23:36,  1.66it/s]Training 3/3 epoch (loss 0.6613):  76%|███████▌  | 7400/9753 [1:18:45<23:54,  1.64it/s]Training 3/3 epoch (loss 0.5947):  76%|███████▌  | 7400/9753 [1:18:45<23:54,  1.64it/s]Training 3/3 epoch (loss 0.5947):  76%|███████▌  | 7401/9753 [1:18:45<23:50,  1.64it/s]Training 3/3 epoch (loss 0.6324):  76%|███████▌  | 7401/9753 [1:18:46<23:50,  1.64it/s]Training 3/3 epoch (loss 0.6324):  76%|███████▌  | 7402/9753 [1:18:46<25:06,  1.56it/s]Training 3/3 epoch (loss 0.4854):  76%|███████▌  | 7402/9753 [1:18:47<25:06,  1.56it/s]Training 3/3 epoch (loss 0.4854):  76%|███████▌  | 7403/9753 [1:18:47<27:16,  1.44it/s]Training 3/3 epoch (loss 0.4846):  76%|███████▌  | 7403/9753 [1:18:48<27:16,  1.44it/s]Training 3/3 epoch (loss 0.4846):  76%|███████▌  | 7404/9753 [1:18:48<29:46,  1.31it/s]Training 3/3 epoch (loss 0.4072):  76%|███████▌  | 7404/9753 [1:18:49<29:46,  1.31it/s]Training 3/3 epoch (loss 0.4072):  76%|███████▌  | 7405/9753 [1:18:49<27:24,  1.43it/s]Training 3/3 epoch (loss 0.3397):  76%|███████▌  | 7405/9753 [1:18:49<27:24,  1.43it/s]Training 3/3 epoch (loss 0.3397):  76%|███████▌  | 7406/9753 [1:18:49<25:36,  1.53it/s]Training 3/3 epoch (loss 0.5241):  76%|███████▌  | 7406/9753 [1:18:50<25:36,  1.53it/s]Training 3/3 epoch (loss 0.5241):  76%|███████▌  | 7407/9753 [1:18:50<24:27,  1.60it/s]Training 3/3 epoch (loss 0.4239):  76%|███████▌  | 7407/9753 [1:18:50<24:27,  1.60it/s]Training 3/3 epoch (loss 0.4239):  76%|███████▌  | 7408/9753 [1:18:50<25:07,  1.56it/s]Training 3/3 epoch (loss 0.3590):  76%|███████▌  | 7408/9753 [1:18:51<25:07,  1.56it/s]Training 3/3 epoch (loss 0.3590):  76%|███████▌  | 7409/9753 [1:18:51<24:10,  1.62it/s]Training 3/3 epoch (loss 0.3913):  76%|███████▌  | 7409/9753 [1:18:51<24:10,  1.62it/s]Training 3/3 epoch (loss 0.3913):  76%|███████▌  | 7410/9753 [1:18:51<23:22,  1.67it/s]Training 3/3 epoch (loss 0.4873):  76%|███████▌  | 7410/9753 [1:18:52<23:22,  1.67it/s]Training 3/3 epoch (loss 0.4873):  76%|███████▌  | 7411/9753 [1:18:52<23:05,  1.69it/s]Training 3/3 epoch (loss 0.3500):  76%|███████▌  | 7411/9753 [1:18:53<23:05,  1.69it/s]Training 3/3 epoch (loss 0.3500):  76%|███████▌  | 7412/9753 [1:18:53<22:50,  1.71it/s]Training 3/3 epoch (loss 0.3973):  76%|███████▌  | 7412/9753 [1:18:53<22:50,  1.71it/s]Training 3/3 epoch (loss 0.3973):  76%|███████▌  | 7413/9753 [1:18:53<23:28,  1.66it/s]Training 3/3 epoch (loss 0.4446):  76%|███████▌  | 7413/9753 [1:18:54<23:28,  1.66it/s]Training 3/3 epoch (loss 0.4446):  76%|███████▌  | 7414/9753 [1:18:54<23:13,  1.68it/s]Training 3/3 epoch (loss 0.3135):  76%|███████▌  | 7414/9753 [1:18:54<23:13,  1.68it/s]Training 3/3 epoch (loss 0.3135):  76%|███████▌  | 7415/9753 [1:18:54<22:41,  1.72it/s]Training 3/3 epoch (loss 0.4264):  76%|███████▌  | 7415/9753 [1:18:55<22:41,  1.72it/s]Training 3/3 epoch (loss 0.4264):  76%|███████▌  | 7416/9753 [1:18:55<22:18,  1.75it/s]Training 3/3 epoch (loss 0.3065):  76%|███████▌  | 7416/9753 [1:18:55<22:18,  1.75it/s]Training 3/3 epoch (loss 0.3065):  76%|███████▌  | 7417/9753 [1:18:55<22:01,  1.77it/s]Training 3/3 epoch (loss 0.4730):  76%|███████▌  | 7417/9753 [1:18:56<22:01,  1.77it/s]Training 3/3 epoch (loss 0.4730):  76%|███████▌  | 7418/9753 [1:18:56<23:29,  1.66it/s]Training 3/3 epoch (loss 0.4526):  76%|███████▌  | 7418/9753 [1:18:57<23:29,  1.66it/s]Training 3/3 epoch (loss 0.4526):  76%|███████▌  | 7419/9753 [1:18:57<23:05,  1.68it/s]Training 3/3 epoch (loss 0.3262):  76%|███████▌  | 7419/9753 [1:18:57<23:05,  1.68it/s]Training 3/3 epoch (loss 0.3262):  76%|███████▌  | 7420/9753 [1:18:57<22:29,  1.73it/s]Training 3/3 epoch (loss 0.4394):  76%|███████▌  | 7420/9753 [1:18:58<22:29,  1.73it/s]Training 3/3 epoch (loss 0.4394):  76%|███████▌  | 7421/9753 [1:18:58<23:18,  1.67it/s]Training 3/3 epoch (loss 0.3188):  76%|███████▌  | 7421/9753 [1:18:59<23:18,  1.67it/s]Training 3/3 epoch (loss 0.3188):  76%|███████▌  | 7422/9753 [1:18:59<25:53,  1.50it/s]Training 3/3 epoch (loss 0.4466):  76%|███████▌  | 7422/9753 [1:19:00<25:53,  1.50it/s]Training 3/3 epoch (loss 0.4466):  76%|███████▌  | 7423/9753 [1:19:00<27:22,  1.42it/s]Training 3/3 epoch (loss 0.4643):  76%|███████▌  | 7423/9753 [1:19:00<27:22,  1.42it/s]Training 3/3 epoch (loss 0.4643):  76%|███████▌  | 7424/9753 [1:19:00<29:37,  1.31it/s]Training 3/3 epoch (loss 0.4360):  76%|███████▌  | 7424/9753 [1:19:01<29:37,  1.31it/s]Training 3/3 epoch (loss 0.4360):  76%|███████▌  | 7425/9753 [1:19:01<27:27,  1.41it/s]Training 3/3 epoch (loss 0.4476):  76%|███████▌  | 7425/9753 [1:19:02<27:27,  1.41it/s]Training 3/3 epoch (loss 0.4476):  76%|███████▌  | 7426/9753 [1:19:02<25:37,  1.51it/s]Training 3/3 epoch (loss 0.2583):  76%|███████▌  | 7426/9753 [1:19:02<25:37,  1.51it/s]Training 3/3 epoch (loss 0.2583):  76%|███████▌  | 7427/9753 [1:19:02<24:13,  1.60it/s]Training 3/3 epoch (loss 0.3523):  76%|███████▌  | 7427/9753 [1:19:03<24:13,  1.60it/s]Training 3/3 epoch (loss 0.3523):  76%|███████▌  | 7428/9753 [1:19:03<23:15,  1.67it/s]Training 3/3 epoch (loss 0.4381):  76%|███████▌  | 7428/9753 [1:19:03<23:15,  1.67it/s]Training 3/3 epoch (loss 0.4381):  76%|███████▌  | 7429/9753 [1:19:03<25:18,  1.53it/s]Training 3/3 epoch (loss 0.2436):  76%|███████▌  | 7429/9753 [1:19:04<25:18,  1.53it/s]Training 3/3 epoch (loss 0.2436):  76%|███████▌  | 7430/9753 [1:19:04<25:39,  1.51it/s]Training 3/3 epoch (loss 0.3745):  76%|███████▌  | 7430/9753 [1:19:05<25:39,  1.51it/s]Training 3/3 epoch (loss 0.3745):  76%|███████▌  | 7431/9753 [1:19:05<26:46,  1.45it/s]Training 3/3 epoch (loss 0.6661):  76%|███████▌  | 7431/9753 [1:19:06<26:46,  1.45it/s]Training 3/3 epoch (loss 0.6661):  76%|███████▌  | 7432/9753 [1:19:06<26:59,  1.43it/s]Training 3/3 epoch (loss 0.3833):  76%|███████▌  | 7432/9753 [1:19:06<26:59,  1.43it/s]Training 3/3 epoch (loss 0.3833):  76%|███████▌  | 7433/9753 [1:19:06<25:12,  1.53it/s]Training 3/3 epoch (loss 0.4506):  76%|███████▌  | 7433/9753 [1:19:07<25:12,  1.53it/s]Training 3/3 epoch (loss 0.4506):  76%|███████▌  | 7434/9753 [1:19:07<24:43,  1.56it/s]Training 3/3 epoch (loss 0.1962):  76%|███████▌  | 7434/9753 [1:19:07<24:43,  1.56it/s]Training 3/3 epoch (loss 0.1962):  76%|███████▌  | 7435/9753 [1:19:07<23:44,  1.63it/s]Training 3/3 epoch (loss 0.4030):  76%|███████▌  | 7435/9753 [1:19:08<23:44,  1.63it/s]Training 3/3 epoch (loss 0.4030):  76%|███████▌  | 7436/9753 [1:19:08<23:12,  1.66it/s]Training 3/3 epoch (loss 0.5660):  76%|███████▌  | 7436/9753 [1:19:08<23:12,  1.66it/s]Training 3/3 epoch (loss 0.5660):  76%|███████▋  | 7437/9753 [1:19:08<22:31,  1.71it/s]Training 3/3 epoch (loss 0.5151):  76%|███████▋  | 7437/9753 [1:19:09<22:31,  1.71it/s]Training 3/3 epoch (loss 0.5151):  76%|███████▋  | 7438/9753 [1:19:09<23:13,  1.66it/s]Training 3/3 epoch (loss 0.6204):  76%|███████▋  | 7438/9753 [1:19:10<23:13,  1.66it/s]Training 3/3 epoch (loss 0.6204):  76%|███████▋  | 7439/9753 [1:19:10<22:46,  1.69it/s]Training 3/3 epoch (loss 0.3441):  76%|███████▋  | 7439/9753 [1:19:10<22:46,  1.69it/s]Training 3/3 epoch (loss 0.3441):  76%|███████▋  | 7440/9753 [1:19:10<25:00,  1.54it/s]Training 3/3 epoch (loss 0.2999):  76%|███████▋  | 7440/9753 [1:19:11<25:00,  1.54it/s]Training 3/3 epoch (loss 0.2999):  76%|███████▋  | 7441/9753 [1:19:11<23:50,  1.62it/s]Training 3/3 epoch (loss 0.2891):  76%|███████▋  | 7441/9753 [1:19:12<23:50,  1.62it/s]Training 3/3 epoch (loss 0.2891):  76%|███████▋  | 7442/9753 [1:19:12<24:01,  1.60it/s]Training 3/3 epoch (loss 0.4150):  76%|███████▋  | 7442/9753 [1:19:12<24:01,  1.60it/s]Training 3/3 epoch (loss 0.4150):  76%|███████▋  | 7443/9753 [1:19:12<23:19,  1.65it/s]Training 3/3 epoch (loss 0.4109):  76%|███████▋  | 7443/9753 [1:19:13<23:19,  1.65it/s]Training 3/3 epoch (loss 0.4109):  76%|███████▋  | 7444/9753 [1:19:13<23:20,  1.65it/s]Training 3/3 epoch (loss 0.2986):  76%|███████▋  | 7444/9753 [1:19:13<23:20,  1.65it/s]Training 3/3 epoch (loss 0.2986):  76%|███████▋  | 7445/9753 [1:19:13<22:44,  1.69it/s]Training 3/3 epoch (loss 0.5907):  76%|███████▋  | 7445/9753 [1:19:14<22:44,  1.69it/s]Training 3/3 epoch (loss 0.5907):  76%|███████▋  | 7446/9753 [1:19:14<23:11,  1.66it/s]Training 3/3 epoch (loss 0.2465):  76%|███████▋  | 7446/9753 [1:19:15<23:11,  1.66it/s]Training 3/3 epoch (loss 0.2465):  76%|███████▋  | 7447/9753 [1:19:15<23:31,  1.63it/s]Training 3/3 epoch (loss 0.3105):  76%|███████▋  | 7447/9753 [1:19:15<23:31,  1.63it/s]Training 3/3 epoch (loss 0.3105):  76%|███████▋  | 7448/9753 [1:19:15<23:53,  1.61it/s]Training 3/3 epoch (loss 0.3291):  76%|███████▋  | 7448/9753 [1:19:16<23:53,  1.61it/s]Training 3/3 epoch (loss 0.3291):  76%|███████▋  | 7449/9753 [1:19:16<25:08,  1.53it/s]Training 3/3 epoch (loss 0.5377):  76%|███████▋  | 7449/9753 [1:19:16<25:08,  1.53it/s]Training 3/3 epoch (loss 0.5377):  76%|███████▋  | 7450/9753 [1:19:16<24:02,  1.60it/s]Training 3/3 epoch (loss 0.2754):  76%|███████▋  | 7450/9753 [1:19:17<24:02,  1.60it/s]Training 3/3 epoch (loss 0.2754):  76%|███████▋  | 7451/9753 [1:19:17<23:10,  1.66it/s]Training 3/3 epoch (loss 0.5097):  76%|███████▋  | 7451/9753 [1:19:18<23:10,  1.66it/s]Training 3/3 epoch (loss 0.5097):  76%|███████▋  | 7452/9753 [1:19:18<22:29,  1.70it/s]Training 3/3 epoch (loss 0.3990):  76%|███████▋  | 7452/9753 [1:19:18<22:29,  1.70it/s]Training 3/3 epoch (loss 0.3990):  76%|███████▋  | 7453/9753 [1:19:18<22:01,  1.74it/s]Training 3/3 epoch (loss 0.2961):  76%|███████▋  | 7453/9753 [1:19:19<22:01,  1.74it/s]Training 3/3 epoch (loss 0.2961):  76%|███████▋  | 7454/9753 [1:19:19<22:35,  1.70it/s]Training 3/3 epoch (loss 0.3690):  76%|███████▋  | 7454/9753 [1:19:19<22:35,  1.70it/s]Training 3/3 epoch (loss 0.3690):  76%|███████▋  | 7455/9753 [1:19:19<22:21,  1.71it/s]Training 3/3 epoch (loss 0.3441):  76%|███████▋  | 7455/9753 [1:19:20<22:21,  1.71it/s]Training 3/3 epoch (loss 0.3441):  76%|███████▋  | 7456/9753 [1:19:20<23:28,  1.63it/s]Training 3/3 epoch (loss 0.4755):  76%|███████▋  | 7456/9753 [1:19:21<23:28,  1.63it/s]Training 3/3 epoch (loss 0.4755):  76%|███████▋  | 7457/9753 [1:19:21<23:44,  1.61it/s]Training 3/3 epoch (loss 0.3341):  76%|███████▋  | 7457/9753 [1:19:21<23:44,  1.61it/s]Training 3/3 epoch (loss 0.3341):  76%|███████▋  | 7458/9753 [1:19:21<23:38,  1.62it/s]Training 3/3 epoch (loss 0.3362):  76%|███████▋  | 7458/9753 [1:19:22<23:38,  1.62it/s]Training 3/3 epoch (loss 0.3362):  76%|███████▋  | 7459/9753 [1:19:22<22:59,  1.66it/s]Training 3/3 epoch (loss 0.2478):  76%|███████▋  | 7459/9753 [1:19:22<22:59,  1.66it/s]Training 3/3 epoch (loss 0.2478):  76%|███████▋  | 7460/9753 [1:19:22<22:23,  1.71it/s]Training 3/3 epoch (loss 0.3041):  76%|███████▋  | 7460/9753 [1:19:23<22:23,  1.71it/s]Training 3/3 epoch (loss 0.3041):  76%|███████▋  | 7461/9753 [1:19:23<21:55,  1.74it/s]Training 3/3 epoch (loss 0.5753):  76%|███████▋  | 7461/9753 [1:19:24<21:55,  1.74it/s]Training 3/3 epoch (loss 0.5753):  77%|███████▋  | 7462/9753 [1:19:24<22:38,  1.69it/s]Training 3/3 epoch (loss 0.3992):  77%|███████▋  | 7462/9753 [1:19:24<22:38,  1.69it/s]Training 3/3 epoch (loss 0.3992):  77%|███████▋  | 7463/9753 [1:19:24<22:25,  1.70it/s]Training 3/3 epoch (loss 0.3069):  77%|███████▋  | 7463/9753 [1:19:25<22:25,  1.70it/s]Training 3/3 epoch (loss 0.3069):  77%|███████▋  | 7464/9753 [1:19:25<22:11,  1.72it/s]Training 3/3 epoch (loss 0.4669):  77%|███████▋  | 7464/9753 [1:19:25<22:11,  1.72it/s]Training 3/3 epoch (loss 0.4669):  77%|███████▋  | 7465/9753 [1:19:25<23:25,  1.63it/s]Training 3/3 epoch (loss 0.4097):  77%|███████▋  | 7465/9753 [1:19:26<23:25,  1.63it/s]Training 3/3 epoch (loss 0.4097):  77%|███████▋  | 7466/9753 [1:19:26<23:21,  1.63it/s]Training 3/3 epoch (loss 0.6859):  77%|███████▋  | 7466/9753 [1:19:27<23:21,  1.63it/s]Training 3/3 epoch (loss 0.6859):  77%|███████▋  | 7467/9753 [1:19:27<25:06,  1.52it/s]Training 3/3 epoch (loss 0.2864):  77%|███████▋  | 7467/9753 [1:19:27<25:06,  1.52it/s]Training 3/3 epoch (loss 0.2864):  77%|███████▋  | 7468/9753 [1:19:27<24:11,  1.57it/s]Training 3/3 epoch (loss 0.4379):  77%|███████▋  | 7468/9753 [1:19:28<24:11,  1.57it/s]Training 3/3 epoch (loss 0.4379):  77%|███████▋  | 7469/9753 [1:19:28<23:16,  1.64it/s]Training 3/3 epoch (loss 0.3439):  77%|███████▋  | 7469/9753 [1:19:28<23:16,  1.64it/s]Training 3/3 epoch (loss 0.3439):  77%|███████▋  | 7470/9753 [1:19:28<23:00,  1.65it/s]Training 3/3 epoch (loss 0.4197):  77%|███████▋  | 7470/9753 [1:19:29<23:00,  1.65it/s]Training 3/3 epoch (loss 0.4197):  77%|███████▋  | 7471/9753 [1:19:29<23:45,  1.60it/s]Training 3/3 epoch (loss 0.5486):  77%|███████▋  | 7471/9753 [1:19:30<23:45,  1.60it/s]Training 3/3 epoch (loss 0.5486):  77%|███████▋  | 7472/9753 [1:19:30<25:14,  1.51it/s]Training 3/3 epoch (loss 0.6571):  77%|███████▋  | 7472/9753 [1:19:30<25:14,  1.51it/s]Training 3/3 epoch (loss 0.6571):  77%|███████▋  | 7473/9753 [1:19:30<24:14,  1.57it/s]Training 3/3 epoch (loss 0.3955):  77%|███████▋  | 7473/9753 [1:19:31<24:14,  1.57it/s]Training 3/3 epoch (loss 0.3955):  77%|███████▋  | 7474/9753 [1:19:31<24:15,  1.57it/s]Training 3/3 epoch (loss 0.2065):  77%|███████▋  | 7474/9753 [1:19:32<24:15,  1.57it/s]Training 3/3 epoch (loss 0.2065):  77%|███████▋  | 7475/9753 [1:19:32<23:11,  1.64it/s]Training 3/3 epoch (loss 0.4759):  77%|███████▋  | 7475/9753 [1:19:32<23:11,  1.64it/s]Training 3/3 epoch (loss 0.4759):  77%|███████▋  | 7476/9753 [1:19:32<24:14,  1.57it/s]Training 3/3 epoch (loss 0.3560):  77%|███████▋  | 7476/9753 [1:19:33<24:14,  1.57it/s]Training 3/3 epoch (loss 0.3560):  77%|███████▋  | 7477/9753 [1:19:33<23:25,  1.62it/s]Training 3/3 epoch (loss 0.5830):  77%|███████▋  | 7477/9753 [1:19:34<23:25,  1.62it/s]Training 3/3 epoch (loss 0.5830):  77%|███████▋  | 7478/9753 [1:19:34<24:31,  1.55it/s]Training 3/3 epoch (loss 0.1448):  77%|███████▋  | 7478/9753 [1:19:34<24:31,  1.55it/s]Training 3/3 epoch (loss 0.1448):  77%|███████▋  | 7479/9753 [1:19:34<23:27,  1.62it/s]Training 3/3 epoch (loss 0.4267):  77%|███████▋  | 7479/9753 [1:19:35<23:27,  1.62it/s]Training 3/3 epoch (loss 0.4267):  77%|███████▋  | 7480/9753 [1:19:35<24:30,  1.55it/s]Training 3/3 epoch (loss 0.5452):  77%|███████▋  | 7480/9753 [1:19:36<24:30,  1.55it/s]Training 3/3 epoch (loss 0.5452):  77%|███████▋  | 7481/9753 [1:19:36<27:26,  1.38it/s]Training 3/3 epoch (loss 0.3602):  77%|███████▋  | 7481/9753 [1:19:36<27:26,  1.38it/s]Training 3/3 epoch (loss 0.3602):  77%|███████▋  | 7482/9753 [1:19:36<25:45,  1.47it/s]Training 3/3 epoch (loss 0.5551):  77%|███████▋  | 7482/9753 [1:19:37<25:45,  1.47it/s]Training 3/3 epoch (loss 0.5551):  77%|███████▋  | 7483/9753 [1:19:37<24:15,  1.56it/s]Training 3/3 epoch (loss 0.1634):  77%|███████▋  | 7483/9753 [1:19:38<24:15,  1.56it/s]Training 3/3 epoch (loss 0.1634):  77%|███████▋  | 7484/9753 [1:19:38<23:14,  1.63it/s]Training 3/3 epoch (loss 0.4874):  77%|███████▋  | 7484/9753 [1:19:38<23:14,  1.63it/s]Training 3/3 epoch (loss 0.4874):  77%|███████▋  | 7485/9753 [1:19:38<22:56,  1.65it/s]Training 3/3 epoch (loss 0.4465):  77%|███████▋  | 7485/9753 [1:19:39<22:56,  1.65it/s]Training 3/3 epoch (loss 0.4465):  77%|███████▋  | 7486/9753 [1:19:39<26:37,  1.42it/s]Training 3/3 epoch (loss 0.4437):  77%|███████▋  | 7486/9753 [1:19:40<26:37,  1.42it/s]Training 3/3 epoch (loss 0.4437):  77%|███████▋  | 7487/9753 [1:19:40<26:43,  1.41it/s]Training 3/3 epoch (loss 0.3875):  77%|███████▋  | 7487/9753 [1:19:40<26:43,  1.41it/s]Training 3/3 epoch (loss 0.3875):  77%|███████▋  | 7488/9753 [1:19:40<26:29,  1.42it/s]Training 3/3 epoch (loss 0.3377):  77%|███████▋  | 7488/9753 [1:19:41<26:29,  1.42it/s]Training 3/3 epoch (loss 0.3377):  77%|███████▋  | 7489/9753 [1:19:41<24:45,  1.52it/s]Training 3/3 epoch (loss 0.5916):  77%|███████▋  | 7489/9753 [1:19:42<24:45,  1.52it/s]Training 3/3 epoch (loss 0.5916):  77%|███████▋  | 7490/9753 [1:19:42<23:38,  1.59it/s]Training 3/3 epoch (loss 0.3184):  77%|███████▋  | 7490/9753 [1:19:42<23:38,  1.59it/s]Training 3/3 epoch (loss 0.3184):  77%|███████▋  | 7491/9753 [1:19:42<22:39,  1.66it/s]Training 3/3 epoch (loss 0.4954):  77%|███████▋  | 7491/9753 [1:19:43<22:39,  1.66it/s]Training 3/3 epoch (loss 0.4954):  77%|███████▋  | 7492/9753 [1:19:43<22:14,  1.69it/s]Training 3/3 epoch (loss 0.5683):  77%|███████▋  | 7492/9753 [1:19:43<22:14,  1.69it/s]Training 3/3 epoch (loss 0.5683):  77%|███████▋  | 7493/9753 [1:19:43<21:44,  1.73it/s]Training 3/3 epoch (loss 0.4628):  77%|███████▋  | 7493/9753 [1:19:44<21:44,  1.73it/s]Training 3/3 epoch (loss 0.4628):  77%|███████▋  | 7494/9753 [1:19:44<21:35,  1.74it/s]Training 3/3 epoch (loss 0.5318):  77%|███████▋  | 7494/9753 [1:19:45<21:35,  1.74it/s]Training 3/3 epoch (loss 0.5318):  77%|███████▋  | 7495/9753 [1:19:45<24:28,  1.54it/s]Training 3/3 epoch (loss 0.4039):  77%|███████▋  | 7495/9753 [1:19:45<24:28,  1.54it/s]Training 3/3 epoch (loss 0.4039):  77%|███████▋  | 7496/9753 [1:19:45<23:48,  1.58it/s]Training 3/3 epoch (loss 0.4104):  77%|███████▋  | 7496/9753 [1:19:46<23:48,  1.58it/s]Training 3/3 epoch (loss 0.4104):  77%|███████▋  | 7497/9753 [1:19:46<22:54,  1.64it/s]Training 3/3 epoch (loss 0.3101):  77%|███████▋  | 7497/9753 [1:19:46<22:54,  1.64it/s]Training 3/3 epoch (loss 0.3101):  77%|███████▋  | 7498/9753 [1:19:46<22:08,  1.70it/s]Training 3/3 epoch (loss 0.3628):  77%|███████▋  | 7498/9753 [1:19:47<22:08,  1.70it/s]Training 3/3 epoch (loss 0.3628):  77%|███████▋  | 7499/9753 [1:19:47<22:54,  1.64it/s]Training 3/3 epoch (loss 0.4800):  77%|███████▋  | 7499/9753 [1:19:48<22:54,  1.64it/s]Training 3/3 epoch (loss 0.4800):  77%|███████▋  | 7500/9753 [1:19:48<23:21,  1.61it/s]Training 3/3 epoch (loss 0.2992):  77%|███████▋  | 7500/9753 [1:19:48<23:21,  1.61it/s]Training 3/3 epoch (loss 0.2992):  77%|███████▋  | 7501/9753 [1:19:48<22:30,  1.67it/s]Training 3/3 epoch (loss 0.5601):  77%|███████▋  | 7501/9753 [1:19:49<22:30,  1.67it/s]Training 3/3 epoch (loss 0.5601):  77%|███████▋  | 7502/9753 [1:19:49<22:50,  1.64it/s]Training 3/3 epoch (loss 0.3794):  77%|███████▋  | 7502/9753 [1:19:49<22:50,  1.64it/s]Training 3/3 epoch (loss 0.3794):  77%|███████▋  | 7503/9753 [1:19:49<23:55,  1.57it/s]Training 3/3 epoch (loss 0.3927):  77%|███████▋  | 7503/9753 [1:19:50<23:55,  1.57it/s]Training 3/3 epoch (loss 0.3927):  77%|███████▋  | 7504/9753 [1:19:50<27:17,  1.37it/s]Training 3/3 epoch (loss 0.4036):  77%|███████▋  | 7504/9753 [1:19:51<27:17,  1.37it/s]Training 3/3 epoch (loss 0.4036):  77%|███████▋  | 7505/9753 [1:19:51<25:36,  1.46it/s]Training 3/3 epoch (loss 0.4460):  77%|███████▋  | 7505/9753 [1:19:52<25:36,  1.46it/s]Training 3/3 epoch (loss 0.4460):  77%|███████▋  | 7506/9753 [1:19:52<24:29,  1.53it/s]Training 3/3 epoch (loss 0.6084):  77%|███████▋  | 7506/9753 [1:19:52<24:29,  1.53it/s]Training 3/3 epoch (loss 0.6084):  77%|███████▋  | 7507/9753 [1:19:52<25:08,  1.49it/s]Training 3/3 epoch (loss 0.4328):  77%|███████▋  | 7507/9753 [1:19:53<25:08,  1.49it/s]Training 3/3 epoch (loss 0.4328):  77%|███████▋  | 7508/9753 [1:19:53<23:47,  1.57it/s]Training 3/3 epoch (loss 0.2631):  77%|███████▋  | 7508/9753 [1:19:53<23:47,  1.57it/s]Training 3/3 epoch (loss 0.2631):  77%|███████▋  | 7509/9753 [1:19:53<22:46,  1.64it/s]Training 3/3 epoch (loss 0.3596):  77%|███████▋  | 7509/9753 [1:19:54<22:46,  1.64it/s]Training 3/3 epoch (loss 0.3596):  77%|███████▋  | 7510/9753 [1:19:54<22:02,  1.70it/s]Training 3/3 epoch (loss 0.4990):  77%|███████▋  | 7510/9753 [1:19:54<22:02,  1.70it/s]Training 3/3 epoch (loss 0.4990):  77%|███████▋  | 7511/9753 [1:19:54<21:31,  1.74it/s]Training 3/3 epoch (loss 0.4756):  77%|███████▋  | 7511/9753 [1:19:55<21:31,  1.74it/s]Training 3/3 epoch (loss 0.4756):  77%|███████▋  | 7512/9753 [1:19:55<23:50,  1.57it/s]Training 3/3 epoch (loss 0.4897):  77%|███████▋  | 7512/9753 [1:19:56<23:50,  1.57it/s]Training 3/3 epoch (loss 0.4897):  77%|███████▋  | 7513/9753 [1:19:56<24:23,  1.53it/s]Training 3/3 epoch (loss 0.4835):  77%|███████▋  | 7513/9753 [1:19:57<24:23,  1.53it/s]Training 3/3 epoch (loss 0.4835):  77%|███████▋  | 7514/9753 [1:19:57<23:21,  1.60it/s]Training 3/3 epoch (loss 0.4985):  77%|███████▋  | 7514/9753 [1:19:57<23:21,  1.60it/s]Training 3/3 epoch (loss 0.4985):  77%|███████▋  | 7515/9753 [1:19:57<24:28,  1.52it/s]Training 3/3 epoch (loss 0.6708):  77%|███████▋  | 7515/9753 [1:19:58<24:28,  1.52it/s]Training 3/3 epoch (loss 0.6708):  77%|███████▋  | 7516/9753 [1:19:58<24:14,  1.54it/s]Training 3/3 epoch (loss 0.3514):  77%|███████▋  | 7516/9753 [1:19:58<24:14,  1.54it/s]Training 3/3 epoch (loss 0.3514):  77%|███████▋  | 7517/9753 [1:19:58<23:11,  1.61it/s]Training 3/3 epoch (loss 0.3458):  77%|███████▋  | 7517/9753 [1:19:59<23:11,  1.61it/s]Training 3/3 epoch (loss 0.3458):  77%|███████▋  | 7518/9753 [1:19:59<22:51,  1.63it/s]Training 3/3 epoch (loss 0.5265):  77%|███████▋  | 7518/9753 [1:20:00<22:51,  1.63it/s]Training 3/3 epoch (loss 0.5265):  77%|███████▋  | 7519/9753 [1:20:00<22:50,  1.63it/s]Training 3/3 epoch (loss 0.4665):  77%|███████▋  | 7519/9753 [1:20:00<22:50,  1.63it/s]Training 3/3 epoch (loss 0.4665):  77%|███████▋  | 7520/9753 [1:20:00<23:40,  1.57it/s]Training 3/3 epoch (loss 0.2233):  77%|███████▋  | 7520/9753 [1:20:01<23:40,  1.57it/s]Training 3/3 epoch (loss 0.2233):  77%|███████▋  | 7521/9753 [1:20:01<23:46,  1.56it/s]Training 3/3 epoch (loss 0.3961):  77%|███████▋  | 7521/9753 [1:20:02<23:46,  1.56it/s]Training 3/3 epoch (loss 0.3961):  77%|███████▋  | 7522/9753 [1:20:02<22:47,  1.63it/s]Training 3/3 epoch (loss 0.2725):  77%|███████▋  | 7522/9753 [1:20:02<22:47,  1.63it/s]Training 3/3 epoch (loss 0.2725):  77%|███████▋  | 7523/9753 [1:20:02<21:57,  1.69it/s]Training 3/3 epoch (loss 0.3892):  77%|███████▋  | 7523/9753 [1:20:03<21:57,  1.69it/s]Training 3/3 epoch (loss 0.3892):  77%|███████▋  | 7524/9753 [1:20:03<21:21,  1.74it/s]Training 3/3 epoch (loss 0.2857):  77%|███████▋  | 7524/9753 [1:20:03<21:21,  1.74it/s]Training 3/3 epoch (loss 0.2857):  77%|███████▋  | 7525/9753 [1:20:03<20:57,  1.77it/s]Training 3/3 epoch (loss 0.3091):  77%|███████▋  | 7525/9753 [1:20:04<20:57,  1.77it/s]Training 3/3 epoch (loss 0.3091):  77%|███████▋  | 7526/9753 [1:20:04<20:41,  1.79it/s]Training 3/3 epoch (loss 0.4216):  77%|███████▋  | 7526/9753 [1:20:04<20:41,  1.79it/s]Training 3/3 epoch (loss 0.4216):  77%|███████▋  | 7527/9753 [1:20:04<21:38,  1.71it/s]Training 3/3 epoch (loss 0.3386):  77%|███████▋  | 7527/9753 [1:20:05<21:38,  1.71it/s]Training 3/3 epoch (loss 0.3386):  77%|███████▋  | 7528/9753 [1:20:05<21:40,  1.71it/s]Training 3/3 epoch (loss 0.4327):  77%|███████▋  | 7528/9753 [1:20:06<21:40,  1.71it/s]Training 3/3 epoch (loss 0.4327):  77%|███████▋  | 7529/9753 [1:20:06<24:05,  1.54it/s]Training 3/3 epoch (loss 0.3732):  77%|███████▋  | 7529/9753 [1:20:07<24:05,  1.54it/s]Training 3/3 epoch (loss 0.3732):  77%|███████▋  | 7530/9753 [1:20:07<27:13,  1.36it/s]Training 3/3 epoch (loss 0.4217):  77%|███████▋  | 7530/9753 [1:20:08<27:13,  1.36it/s]Training 3/3 epoch (loss 0.4217):  77%|███████▋  | 7531/9753 [1:20:08<28:49,  1.28it/s]Training 3/3 epoch (loss 0.5117):  77%|███████▋  | 7531/9753 [1:20:08<28:49,  1.28it/s]Training 3/3 epoch (loss 0.5117):  77%|███████▋  | 7532/9753 [1:20:08<28:54,  1.28it/s]Training 3/3 epoch (loss 0.4514):  77%|███████▋  | 7532/9753 [1:20:09<28:54,  1.28it/s]Training 3/3 epoch (loss 0.4514):  77%|███████▋  | 7533/9753 [1:20:09<26:17,  1.41it/s]Training 3/3 epoch (loss 0.6195):  77%|███████▋  | 7533/9753 [1:20:10<26:17,  1.41it/s]Training 3/3 epoch (loss 0.6195):  77%|███████▋  | 7534/9753 [1:20:10<25:43,  1.44it/s]Training 3/3 epoch (loss 0.3708):  77%|███████▋  | 7534/9753 [1:20:10<25:43,  1.44it/s]Training 3/3 epoch (loss 0.3708):  77%|███████▋  | 7535/9753 [1:20:10<27:08,  1.36it/s]Training 3/3 epoch (loss 0.4077):  77%|███████▋  | 7535/9753 [1:20:11<27:08,  1.36it/s]Training 3/3 epoch (loss 0.4077):  77%|███████▋  | 7536/9753 [1:20:11<28:18,  1.31it/s]Training 3/3 epoch (loss 0.4611):  77%|███████▋  | 7536/9753 [1:20:12<28:18,  1.31it/s]Training 3/3 epoch (loss 0.4611):  77%|███████▋  | 7537/9753 [1:20:12<26:03,  1.42it/s]Training 3/3 epoch (loss 0.3584):  77%|███████▋  | 7537/9753 [1:20:12<26:03,  1.42it/s]Training 3/3 epoch (loss 0.3584):  77%|███████▋  | 7538/9753 [1:20:12<25:25,  1.45it/s]Training 3/3 epoch (loss 0.3129):  77%|███████▋  | 7538/9753 [1:20:13<25:25,  1.45it/s]Training 3/3 epoch (loss 0.3129):  77%|███████▋  | 7539/9753 [1:20:13<24:21,  1.51it/s]Training 3/3 epoch (loss 0.3467):  77%|███████▋  | 7539/9753 [1:20:14<24:21,  1.51it/s]Training 3/3 epoch (loss 0.3467):  77%|███████▋  | 7540/9753 [1:20:14<23:23,  1.58it/s]Training 3/3 epoch (loss 0.4125):  77%|███████▋  | 7540/9753 [1:20:14<23:23,  1.58it/s]Training 3/3 epoch (loss 0.4125):  77%|███████▋  | 7541/9753 [1:20:14<23:14,  1.59it/s]Training 3/3 epoch (loss 0.2680):  77%|███████▋  | 7541/9753 [1:20:15<23:14,  1.59it/s]Training 3/3 epoch (loss 0.2680):  77%|███████▋  | 7542/9753 [1:20:15<22:25,  1.64it/s]Training 3/3 epoch (loss 0.3713):  77%|███████▋  | 7542/9753 [1:20:15<22:25,  1.64it/s]Training 3/3 epoch (loss 0.3713):  77%|███████▋  | 7543/9753 [1:20:15<22:34,  1.63it/s]Training 3/3 epoch (loss 0.4939):  77%|███████▋  | 7543/9753 [1:20:16<22:34,  1.63it/s]Training 3/3 epoch (loss 0.4939):  77%|███████▋  | 7544/9753 [1:20:16<21:47,  1.69it/s]Training 3/3 epoch (loss 0.3614):  77%|███████▋  | 7544/9753 [1:20:16<21:47,  1.69it/s]Training 3/3 epoch (loss 0.3614):  77%|███████▋  | 7545/9753 [1:20:16<21:25,  1.72it/s]Training 3/3 epoch (loss 0.4596):  77%|███████▋  | 7545/9753 [1:20:17<21:25,  1.72it/s]Training 3/3 epoch (loss 0.4596):  77%|███████▋  | 7546/9753 [1:20:17<22:17,  1.65it/s]Training 3/3 epoch (loss 0.4833):  77%|███████▋  | 7546/9753 [1:20:18<22:17,  1.65it/s]Training 3/3 epoch (loss 0.4833):  77%|███████▋  | 7547/9753 [1:20:18<23:21,  1.57it/s]Training 3/3 epoch (loss 0.2451):  77%|███████▋  | 7547/9753 [1:20:18<23:21,  1.57it/s]Training 3/3 epoch (loss 0.2451):  77%|███████▋  | 7548/9753 [1:20:18<22:22,  1.64it/s]Training 3/3 epoch (loss 0.2742):  77%|███████▋  | 7548/9753 [1:20:19<22:22,  1.64it/s]Training 3/3 epoch (loss 0.2742):  77%|███████▋  | 7549/9753 [1:20:19<21:39,  1.70it/s]Training 3/3 epoch (loss 0.2138):  77%|███████▋  | 7549/9753 [1:20:19<21:39,  1.70it/s]Training 3/3 epoch (loss 0.2138):  77%|███████▋  | 7550/9753 [1:20:19<21:07,  1.74it/s]Training 3/3 epoch (loss 0.2598):  77%|███████▋  | 7550/9753 [1:20:20<21:07,  1.74it/s]Training 3/3 epoch (loss 0.2598):  77%|███████▋  | 7551/9753 [1:20:20<20:45,  1.77it/s]Training 3/3 epoch (loss 0.2862):  77%|███████▋  | 7551/9753 [1:20:21<20:45,  1.77it/s]Training 3/3 epoch (loss 0.2862):  77%|███████▋  | 7552/9753 [1:20:21<22:26,  1.63it/s]Training 3/3 epoch (loss 0.1687):  77%|███████▋  | 7552/9753 [1:20:21<22:26,  1.63it/s]Training 3/3 epoch (loss 0.1687):  77%|███████▋  | 7553/9753 [1:20:21<21:47,  1.68it/s]Training 3/3 epoch (loss 0.4009):  77%|███████▋  | 7553/9753 [1:20:22<21:47,  1.68it/s]Training 3/3 epoch (loss 0.4009):  77%|███████▋  | 7554/9753 [1:20:22<23:09,  1.58it/s]Training 3/3 epoch (loss 0.5484):  77%|███████▋  | 7554/9753 [1:20:23<23:09,  1.58it/s]Training 3/3 epoch (loss 0.5484):  77%|███████▋  | 7555/9753 [1:20:23<24:01,  1.53it/s]Training 3/3 epoch (loss 0.2402):  77%|███████▋  | 7555/9753 [1:20:23<24:01,  1.53it/s]Training 3/3 epoch (loss 0.2402):  77%|███████▋  | 7556/9753 [1:20:23<22:57,  1.59it/s]Training 3/3 epoch (loss 0.4981):  77%|███████▋  | 7556/9753 [1:20:24<22:57,  1.59it/s]Training 3/3 epoch (loss 0.4981):  77%|███████▋  | 7557/9753 [1:20:24<22:51,  1.60it/s]Training 3/3 epoch (loss 0.5712):  77%|███████▋  | 7557/9753 [1:20:25<22:51,  1.60it/s]Training 3/3 epoch (loss 0.5712):  77%|███████▋  | 7558/9753 [1:20:25<23:18,  1.57it/s]Training 3/3 epoch (loss 0.5375):  77%|███████▋  | 7558/9753 [1:20:25<23:18,  1.57it/s]Training 3/3 epoch (loss 0.5375):  78%|███���███▊  | 7559/9753 [1:20:25<22:38,  1.62it/s]Training 3/3 epoch (loss 0.3467):  78%|███████▊  | 7559/9753 [1:20:26<22:38,  1.62it/s]Training 3/3 epoch (loss 0.3467):  78%|███████▊  | 7560/9753 [1:20:26<22:03,  1.66it/s]Training 3/3 epoch (loss 0.3462):  78%|███████▊  | 7560/9753 [1:20:26<22:03,  1.66it/s]Training 3/3 epoch (loss 0.3462):  78%|███████▊  | 7561/9753 [1:20:26<21:38,  1.69it/s]Training 3/3 epoch (loss 0.2075):  78%|███████▊  | 7561/9753 [1:20:27<21:38,  1.69it/s]Training 3/3 epoch (loss 0.2075):  78%|███████▊  | 7562/9753 [1:20:27<21:18,  1.71it/s]Training 3/3 epoch (loss 0.3460):  78%|███████▊  | 7562/9753 [1:20:27<21:18,  1.71it/s]Training 3/3 epoch (loss 0.3460):  78%|███████▊  | 7563/9753 [1:20:27<20:57,  1.74it/s]Training 3/3 epoch (loss 0.3643):  78%|███████▊  | 7563/9753 [1:20:28<20:57,  1.74it/s]Training 3/3 epoch (loss 0.3643):  78%|███████▊  | 7564/9753 [1:20:28<21:22,  1.71it/s]Training 3/3 epoch (loss 0.3633):  78%|███████▊  | 7564/9753 [1:20:29<21:22,  1.71it/s]Training 3/3 epoch (loss 0.3633):  78%|███████▊  | 7565/9753 [1:20:29<21:05,  1.73it/s]Training 3/3 epoch (loss 0.1921):  78%|███████▊  | 7565/9753 [1:20:29<21:05,  1.73it/s]Training 3/3 epoch (loss 0.1921):  78%|███████▊  | 7566/9753 [1:20:29<20:40,  1.76it/s]Training 3/3 epoch (loss 0.4188):  78%|███████▊  | 7566/9753 [1:20:30<20:40,  1.76it/s]Training 3/3 epoch (loss 0.4188):  78%|███████▊  | 7567/9753 [1:20:30<20:29,  1.78it/s]Training 3/3 epoch (loss 0.4153):  78%|███████▊  | 7567/9753 [1:20:30<20:29,  1.78it/s]Training 3/3 epoch (loss 0.4153):  78%|███████▊  | 7568/9753 [1:20:30<23:02,  1.58it/s]Training 3/3 epoch (loss 0.4795):  78%|███████▊  | 7568/9753 [1:20:31<23:02,  1.58it/s]Training 3/3 epoch (loss 0.4795):  78%|███████▊  | 7569/9753 [1:20:31<23:27,  1.55it/s]Training 3/3 epoch (loss 0.4832):  78%|███████▊  | 7569/9753 [1:20:32<23:27,  1.55it/s]Training 3/3 epoch (loss 0.4832):  78%|███████▊  | 7570/9753 [1:20:32<22:41,  1.60it/s]Training 3/3 epoch (loss 0.6029):  78%|███████▊  | 7570/9753 [1:20:32<22:41,  1.60it/s]Training 3/3 epoch (loss 0.6029):  78%|███████▊  | 7571/9753 [1:20:32<21:55,  1.66it/s]Training 3/3 epoch (loss 0.4536):  78%|███████▊  | 7571/9753 [1:20:33<21:55,  1.66it/s]Training 3/3 epoch (loss 0.4536):  78%|███████▊  | 7572/9753 [1:20:33<21:21,  1.70it/s]Training 3/3 epoch (loss 0.3126):  78%|███████▊  | 7572/9753 [1:20:33<21:21,  1.70it/s]Training 3/3 epoch (loss 0.3126):  78%|███████▊  | 7573/9753 [1:20:33<20:54,  1.74it/s]Training 3/3 epoch (loss 0.1978):  78%|███████▊  | 7573/9753 [1:20:34<20:54,  1.74it/s]Training 3/3 epoch (loss 0.1978):  78%|███████▊  | 7574/9753 [1:20:34<20:38,  1.76it/s]Training 3/3 epoch (loss 0.3338):  78%|███████▊  | 7574/9753 [1:20:34<20:38,  1.76it/s]Training 3/3 epoch (loss 0.3338):  78%|███████▊  | 7575/9753 [1:20:34<20:36,  1.76it/s]Training 3/3 epoch (loss 0.3346):  78%|███████▊  | 7575/9753 [1:20:35<20:36,  1.76it/s]Training 3/3 epoch (loss 0.3346):  78%|███████▊  | 7576/9753 [1:20:35<20:46,  1.75it/s]Training 3/3 epoch (loss 0.6912):  78%|███████▊  | 7576/9753 [1:20:36<20:46,  1.75it/s]Training 3/3 epoch (loss 0.6912):  78%|███████▊  | 7577/9753 [1:20:36<24:14,  1.50it/s]Training 3/3 epoch (loss 0.3538):  78%|███████▊  | 7577/9753 [1:20:37<24:14,  1.50it/s]Training 3/3 epoch (loss 0.3538):  78%|███████▊  | 7578/9753 [1:20:37<23:12,  1.56it/s]Training 3/3 epoch (loss 0.6157):  78%|███████▊  | 7578/9753 [1:20:37<23:12,  1.56it/s]Training 3/3 epoch (loss 0.6157):  78%|███████▊  | 7579/9753 [1:20:37<23:32,  1.54it/s]Training 3/3 epoch (loss 0.4812):  78%|███████▊  | 7579/9753 [1:20:38<23:32,  1.54it/s]Training 3/3 epoch (loss 0.4812):  78%|███████▊  | 7580/9753 [1:20:38<22:52,  1.58it/s]Training 3/3 epoch (loss 0.5354):  78%|███████▊  | 7580/9753 [1:20:38<22:52,  1.58it/s]Training 3/3 epoch (loss 0.5354):  78%|███████▊  | 7581/9753 [1:20:38<22:19,  1.62it/s]Training 3/3 epoch (loss 0.5787):  78%|███████▊  | 7581/9753 [1:20:39<22:19,  1.62it/s]Training 3/3 epoch (loss 0.5787):  78%|███████▊  | 7582/9753 [1:20:39<22:25,  1.61it/s]Training 3/3 epoch (loss 0.3917):  78%|███████▊  | 7582/9753 [1:20:40<22:25,  1.61it/s]Training 3/3 epoch (loss 0.3917):  78%|███████▊  | 7583/9753 [1:20:40<22:12,  1.63it/s]Training 3/3 epoch (loss 0.5032):  78%|███████▊  | 7583/9753 [1:20:40<22:12,  1.63it/s]Training 3/3 epoch (loss 0.5032):  78%|███████▊  | 7584/9753 [1:20:40<24:46,  1.46it/s]Training 3/3 epoch (loss 0.3503):  78%|███████▊  | 7584/9753 [1:20:41<24:46,  1.46it/s]Training 3/3 epoch (loss 0.3503):  78%|███████▊  | 7585/9753 [1:20:41<23:47,  1.52it/s]Training 3/3 epoch (loss 0.3321):  78%|███████▊  | 7585/9753 [1:20:42<23:47,  1.52it/s]Training 3/3 epoch (loss 0.3321):  78%|███████▊  | 7586/9753 [1:20:42<22:31,  1.60it/s]Training 3/3 epoch (loss 0.4526):  78%|███████▊  | 7586/9753 [1:20:42<22:31,  1.60it/s]Training 3/3 epoch (loss 0.4526):  78%|███████▊  | 7587/9753 [1:20:42<22:12,  1.63it/s]Training 3/3 epoch (loss 0.4553):  78%|███████▊  | 7587/9753 [1:20:43<22:12,  1.63it/s]Training 3/3 epoch (loss 0.4553):  78%|███████▊  | 7588/9753 [1:20:43<21:38,  1.67it/s]Training 3/3 epoch (loss 0.5216):  78%|███████▊  | 7588/9753 [1:20:43<21:38,  1.67it/s]Training 3/3 epoch (loss 0.5216):  78%|███████▊  | 7589/9753 [1:20:43<21:06,  1.71it/s]Training 3/3 epoch (loss 0.5226):  78%|███████▊  | 7589/9753 [1:20:44<21:06,  1.71it/s]Training 3/3 epoch (loss 0.5226):  78%|███████▊  | 7590/9753 [1:20:44<20:39,  1.74it/s]Training 3/3 epoch (loss 0.3802):  78%|███████▊  | 7590/9753 [1:20:44<20:39,  1.74it/s]Training 3/3 epoch (loss 0.3802):  78%|███████▊  | 7591/9753 [1:20:44<20:20,  1.77it/s]Training 3/3 epoch (loss 0.3614):  78%|███████▊  | 7591/9753 [1:20:45<20:20,  1.77it/s]Training 3/3 epoch (loss 0.3614):  78%|███████▊  | 7592/9753 [1:20:45<20:16,  1.78it/s]Training 3/3 epoch (loss 0.4281):  78%|███████▊  | 7592/9753 [1:20:45<20:16,  1.78it/s]Training 3/3 epoch (loss 0.4281):  78%|███████▊  | 7593/9753 [1:20:45<20:03,  1.79it/s]Training 3/3 epoch (loss 0.2978):  78%|███████▊  | 7593/9753 [1:20:46<20:03,  1.79it/s]Training 3/3 epoch (loss 0.2978):  78%|███████▊  | 7594/9753 [1:20:46<19:56,  1.81it/s]Training 3/3 epoch (loss 0.4942):  78%|███████▊  | 7594/9753 [1:20:47<19:56,  1.81it/s]Training 3/3 epoch (loss 0.4942):  78%|███████▊  | 7595/9753 [1:20:47<21:43,  1.66it/s]Training 3/3 epoch (loss 0.4605):  78%|███████▊  | 7595/9753 [1:20:47<21:43,  1.66it/s]Training 3/3 epoch (loss 0.4605):  78%|███████▊  | 7596/9753 [1:20:47<21:25,  1.68it/s]Training 3/3 epoch (loss 0.5301):  78%|███████▊  | 7596/9753 [1:20:48<21:25,  1.68it/s]Training 3/3 epoch (loss 0.5301):  78%|███████▊  | 7597/9753 [1:20:48<21:30,  1.67it/s]Training 3/3 epoch (loss 0.6499):  78%|███████▊  | 7597/9753 [1:20:49<21:30,  1.67it/s]Training 3/3 epoch (loss 0.6499):  78%|███████▊  | 7598/9753 [1:20:49<22:12,  1.62it/s]Training 3/3 epoch (loss 0.3733):  78%|███████▊  | 7598/9753 [1:20:49<22:12,  1.62it/s]Training 3/3 epoch (loss 0.3733):  78%|███████▊  | 7599/9753 [1:20:49<22:03,  1.63it/s]Training 3/3 epoch (loss 0.4676):  78%|███████▊  | 7599/9753 [1:20:50<22:03,  1.63it/s]Training 3/3 epoch (loss 0.4676):  78%|███████▊  | 7600/9753 [1:20:50<22:54,  1.57it/s]Training 3/3 epoch (loss 0.1943):  78%|███████▊  | 7600/9753 [1:20:50<22:54,  1.57it/s]Training 3/3 epoch (loss 0.1943):  78%|███████▊  | 7601/9753 [1:20:50<22:00,  1.63it/s]Training 3/3 epoch (loss 0.3699):  78%|███████▊  | 7601/9753 [1:20:51<22:00,  1.63it/s]Training 3/3 epoch (loss 0.3699):  78%|███████▊  | 7602/9753 [1:20:51<21:19,  1.68it/s]Training 3/3 epoch (loss 0.5445):  78%|███████▊  | 7602/9753 [1:20:52<21:19,  1.68it/s]Training 3/3 epoch (loss 0.5445):  78%|███████▊  | 7603/9753 [1:20:52<21:09,  1.69it/s]Training 3/3 epoch (loss 0.3845):  78%|███████▊  | 7603/9753 [1:20:52<21:09,  1.69it/s]Training 3/3 epoch (loss 0.3845):  78%|███████▊  | 7604/9753 [1:20:52<22:06,  1.62it/s]Training 3/3 epoch (loss 0.2943):  78%|███████▊  | 7604/9753 [1:20:53<22:06,  1.62it/s]Training 3/3 epoch (loss 0.2943):  78%|███████▊  | 7605/9753 [1:20:53<21:35,  1.66it/s]Training 3/3 epoch (loss 0.3021):  78%|███████▊  | 7605/9753 [1:20:53<21:35,  1.66it/s]Training 3/3 epoch (loss 0.3021):  78%|███████▊  | 7606/9753 [1:20:53<20:59,  1.70it/s]Training 3/3 epoch (loss 0.2764):  78%|███████▊  | 7606/9753 [1:20:54<20:59,  1.70it/s]Training 3/3 epoch (loss 0.2764):  78%|███████▊  | 7607/9753 [1:20:54<21:14,  1.68it/s]Training 3/3 epoch (loss 0.4241):  78%|███████▊  | 7607/9753 [1:20:55<21:14,  1.68it/s]Training 3/3 epoch (loss 0.4241):  78%|███████▊  | 7608/9753 [1:20:55<24:40,  1.45it/s]Training 3/3 epoch (loss 0.4043):  78%|███████▊  | 7608/9753 [1:20:56<24:40,  1.45it/s]Training 3/3 epoch (loss 0.4043):  78%|███████▊  | 7609/9753 [1:20:56<25:24,  1.41it/s]Training 3/3 epoch (loss 0.2674):  78%|███████▊  | 7609/9753 [1:20:56<25:24,  1.41it/s]Training 3/3 epoch (loss 0.2674):  78%|███████▊  | 7610/9753 [1:20:56<23:47,  1.50it/s]Training 3/3 epoch (loss 0.5082):  78%|███████▊  | 7610/9753 [1:20:57<23:47,  1.50it/s]Training 3/3 epoch (loss 0.5082):  78%|███████▊  | 7611/9753 [1:20:57<23:42,  1.51it/s]Training 3/3 epoch (loss 0.3243):  78%|███████▊  | 7611/9753 [1:20:57<23:42,  1.51it/s]Training 3/3 epoch (loss 0.3243):  78%|███████▊  | 7612/9753 [1:20:57<22:28,  1.59it/s]Training 3/3 epoch (loss 0.4152):  78%|███████▊  | 7612/9753 [1:20:58<22:28,  1.59it/s]Training 3/3 epoch (loss 0.4152):  78%|███████▊  | 7613/9753 [1:20:58<21:33,  1.65it/s]Training 3/3 epoch (loss 0.4369):  78%|███████▊  | 7613/9753 [1:20:59<21:33,  1.65it/s]Training 3/3 epoch (loss 0.4369):  78%|███████▊  | 7614/9753 [1:20:59<21:38,  1.65it/s]Training 3/3 epoch (loss 0.2290):  78%|███████▊  | 7614/9753 [1:20:59<21:38,  1.65it/s]Training 3/3 epoch (loss 0.2290):  78%|███████▊  | 7615/9753 [1:20:59<21:10,  1.68it/s]Training 3/3 epoch (loss 0.2408):  78%|███████▊  | 7615/9753 [1:21:00<21:10,  1.68it/s]Training 3/3 epoch (loss 0.2408):  78%|███████▊  | 7616/9753 [1:21:00<25:17,  1.41it/s]Training 3/3 epoch (loss 0.4053):  78%|███████▊  | 7616/9753 [1:21:01<25:17,  1.41it/s]Training 3/3 epoch (loss 0.4053):  78%|███████▊  | 7617/9753 [1:21:01<23:52,  1.49it/s]Training 3/3 epoch (loss 0.3900):  78%|███████▊  | 7617/9753 [1:21:01<23:52,  1.49it/s]Training 3/3 epoch (loss 0.3900):  78%|███████▊  | 7618/9753 [1:21:01<23:17,  1.53it/s]Training 3/3 epoch (loss 0.3583):  78%|███████▊  | 7618/9753 [1:21:02<23:17,  1.53it/s]Training 3/3 epoch (loss 0.3583):  78%|███████▊  | 7619/9753 [1:21:02<22:17,  1.60it/s]Training 3/3 epoch (loss 0.3787):  78%|███████▊  | 7619/9753 [1:21:02<22:17,  1.60it/s]Training 3/3 epoch (loss 0.3787):  78%|███████▊  | 7620/9753 [1:21:02<21:30,  1.65it/s]Training 3/3 epoch (loss 0.2706):  78%|███████▊  | 7620/9753 [1:21:03<21:30,  1.65it/s]Training 3/3 epoch (loss 0.2706):  78%|███████▊  | 7621/9753 [1:21:03<20:52,  1.70it/s]Training 3/3 epoch (loss 0.3056):  78%|███████▊  | 7621/9753 [1:21:04<20:52,  1.70it/s]Training 3/3 epoch (loss 0.3056):  78%|███████▊  | 7622/9753 [1:21:04<20:28,  1.73it/s]Training 3/3 epoch (loss 0.3732):  78%|███████▊  | 7622/9753 [1:21:04<20:28,  1.73it/s]Training 3/3 epoch (loss 0.3732):  78%|███████▊  | 7623/9753 [1:21:04<20:24,  1.74it/s]Training 3/3 epoch (loss 0.5688):  78%|███████▊  | 7623/9753 [1:21:05<20:24,  1.74it/s]Training 3/3 epoch (loss 0.5688):  78%|███████▊  | 7624/9753 [1:21:05<20:21,  1.74it/s]Training 3/3 epoch (loss 0.2015):  78%|███████▊  | 7624/9753 [1:21:05<20:21,  1.74it/s]Training 3/3 epoch (loss 0.2015):  78%|███████▊  | 7625/9753 [1:21:05<20:47,  1.71it/s]Training 3/3 epoch (loss 0.3714):  78%|███████▊  | 7625/9753 [1:21:06<20:47,  1.71it/s]Training 3/3 epoch (loss 0.3714):  78%|███████▊  | 7626/9753 [1:21:06<20:29,  1.73it/s]Training 3/3 epoch (loss 0.4791):  78%|███████▊  | 7626/9753 [1:21:07<20:29,  1.73it/s]Training 3/3 epoch (loss 0.4791):  78%|███████▊  | 7627/9753 [1:21:07<24:03,  1.47it/s]Training 3/3 epoch (loss 0.3905):  78%|███████▊  | 7627/9753 [1:21:07<24:03,  1.47it/s]Training 3/3 epoch (loss 0.3905):  78%|███████▊  | 7628/9753 [1:21:07<23:29,  1.51it/s]Training 3/3 epoch (loss 0.3215):  78%|███████▊  | 7628/9753 [1:21:08<23:29,  1.51it/s]Training 3/3 epoch (loss 0.3215):  78%|███████▊  | 7629/9753 [1:21:08<22:23,  1.58it/s]Training 3/3 epoch (loss 0.2476):  78%|███████▊  | 7629/9753 [1:21:09<22:23,  1.58it/s]Training 3/3 epoch (loss 0.2476):  78%|███████▊  | 7630/9753 [1:21:09<22:21,  1.58it/s]Training 3/3 epoch (loss 0.5989):  78%|███████▊  | 7630/9753 [1:21:09<22:21,  1.58it/s]Training 3/3 epoch (loss 0.5989):  78%|███████▊  | 7631/9753 [1:21:09<24:37,  1.44it/s]Training 3/3 epoch (loss 0.4893):  78%|███████▊  | 7631/9753 [1:21:10<24:37,  1.44it/s]Training 3/3 epoch (loss 0.4893):  78%|███████▊  | 7632/9753 [1:21:10<25:13,  1.40it/s]Training 3/3 epoch (loss 0.5167):  78%|███████▊  | 7632/9753 [1:21:11<25:13,  1.40it/s]Training 3/3 epoch (loss 0.5167):  78%|███████▊  | 7633/9753 [1:21:11<24:18,  1.45it/s]Training 3/3 epoch (loss 0.5007):  78%|███████▊  | 7633/9753 [1:21:12<24:18,  1.45it/s]Training 3/3 epoch (loss 0.5007):  78%|███████▊  | 7634/9753 [1:21:12<24:08,  1.46it/s]Training 3/3 epoch (loss 0.5419):  78%|███████▊  | 7634/9753 [1:21:12<24:08,  1.46it/s]Training 3/3 epoch (loss 0.5419):  78%|███████▊  | 7635/9753 [1:21:12<23:14,  1.52it/s]Training 3/3 epoch (loss 0.6308):  78%|███████▊  | 7635/9753 [1:21:13<23:14,  1.52it/s]Training 3/3 epoch (loss 0.6308):  78%|███████▊  | 7636/9753 [1:21:13<26:28,  1.33it/s]Training 3/3 epoch (loss 0.3834):  78%|███████▊  | 7636/9753 [1:21:14<26:28,  1.33it/s]Training 3/3 epoch (loss 0.3834):  78%|███████▊  | 7637/9753 [1:21:14<26:39,  1.32it/s]Training 3/3 epoch (loss 0.5176):  78%|███████▊  | 7637/9753 [1:21:15<26:39,  1.32it/s]Training 3/3 epoch (loss 0.5176):  78%|███████▊  | 7638/9753 [1:21:15<26:58,  1.31it/s]Training 3/3 epoch (loss 0.5668):  78%|███████▊  | 7638/9753 [1:21:15<26:58,  1.31it/s]Training 3/3 epoch (loss 0.5668):  78%|███████▊  | 7639/9753 [1:21:15<26:14,  1.34it/s]Training 3/3 epoch (loss 0.4524):  78%|███████▊  | 7639/9753 [1:21:16<26:14,  1.34it/s]Training 3/3 epoch (loss 0.4524):  78%|███████▊  | 7640/9753 [1:21:16<24:09,  1.46it/s]Training 3/3 epoch (loss 0.3961):  78%|███████▊  | 7640/9753 [1:21:17<24:09,  1.46it/s]Training 3/3 epoch (loss 0.3961):  78%|███████▊  | 7641/9753 [1:21:17<26:34,  1.32it/s]Training 3/3 epoch (loss 0.4783):  78%|███████▊  | 7641/9753 [1:21:18<26:34,  1.32it/s]Training 3/3 epoch (loss 0.4783):  78%|███████▊  | 7642/9753 [1:21:18<27:03,  1.30it/s]Training 3/3 epoch (loss 0.4226):  78%|███████▊  | 7642/9753 [1:21:18<27:03,  1.30it/s]Training 3/3 epoch (loss 0.4226):  78%|███████▊  | 7643/9753 [1:21:18<25:52,  1.36it/s]Training 3/3 epoch (loss 0.3470):  78%|███████▊  | 7643/9753 [1:21:19<25:52,  1.36it/s]Training 3/3 epoch (loss 0.3470):  78%|███████▊  | 7644/9753 [1:21:19<23:53,  1.47it/s]Training 3/3 epoch (loss 0.4765):  78%|███████▊  | 7644/9753 [1:21:19<23:53,  1.47it/s]Training 3/3 epoch (loss 0.4765):  78%|███████▊  | 7645/9753 [1:21:19<23:07,  1.52it/s]Training 3/3 epoch (loss 0.5018):  78%|███████▊  | 7645/9753 [1:21:20<23:07,  1.52it/s]Training 3/3 epoch (loss 0.5018):  78%|███████▊  | 7646/9753 [1:21:20<22:03,  1.59it/s]Training 3/3 epoch (loss 0.4313):  78%|███████▊  | 7646/9753 [1:21:21<22:03,  1.59it/s]Training 3/3 epoch (loss 0.4313):  78%|███████▊  | 7647/9753 [1:21:21<23:20,  1.50it/s]Training 3/3 epoch (loss 0.5313):  78%|███████▊  | 7647/9753 [1:21:22<23:20,  1.50it/s]Training 3/3 epoch (loss 0.5313):  78%|███████▊  | 7648/9753 [1:21:22<25:23,  1.38it/s]Training 3/3 epoch (loss 0.4858):  78%|███████▊  | 7648/9753 [1:21:22<25:23,  1.38it/s]Training 3/3 epoch (loss 0.4858):  78%|███████▊  | 7649/9753 [1:21:22<24:29,  1.43it/s]Training 3/3 epoch (loss 0.3553):  78%|███████▊  | 7649/9753 [1:21:23<24:29,  1.43it/s]Training 3/3 epoch (loss 0.3553):  78%|███████▊  | 7650/9753 [1:21:23<24:18,  1.44it/s]Training 3/3 epoch (loss 0.1524):  78%|███████▊  | 7650/9753 [1:21:23<24:18,  1.44it/s]Training 3/3 epoch (loss 0.1524):  78%|███████▊  | 7651/9753 [1:21:23<22:57,  1.53it/s]Training 3/3 epoch (loss 0.3391):  78%|███████▊  | 7651/9753 [1:21:24<22:57,  1.53it/s]Training 3/3 epoch (loss 0.3391):  78%|███████▊  | 7652/9753 [1:21:24<21:46,  1.61it/s]Training 3/3 epoch (loss 0.4763):  78%|███████▊  | 7652/9753 [1:21:25<21:46,  1.61it/s]Training 3/3 epoch (loss 0.4763):  78%|███████▊  | 7653/9753 [1:21:25<20:58,  1.67it/s]Training 3/3 epoch (loss 0.4173):  78%|███████▊  | 7653/9753 [1:21:25<20:58,  1.67it/s]Training 3/3 epoch (loss 0.4173):  78%|███████▊  | 7654/9753 [1:21:25<20:29,  1.71it/s]Training 3/3 epoch (loss 0.2610):  78%|███████▊  | 7654/9753 [1:21:26<20:29,  1.71it/s]Training 3/3 epoch (loss 0.2610):  78%|███████▊  | 7655/9753 [1:21:26<22:21,  1.56it/s]Training 3/3 epoch (loss 0.5352):  78%|███████▊  | 7655/9753 [1:21:26<22:21,  1.56it/s]Training 3/3 epoch (loss 0.5352):  78%|███████▊  | 7656/9753 [1:21:26<21:35,  1.62it/s]Training 3/3 epoch (loss 0.3811):  78%|███████▊  | 7656/9753 [1:21:27<21:35,  1.62it/s]Training 3/3 epoch (loss 0.3811):  79%|███████▊  | 7657/9753 [1:21:27<21:23,  1.63it/s]Training 3/3 epoch (loss 0.5562):  79%|��██████▊  | 7657/9753 [1:21:28<21:23,  1.63it/s]Training 3/3 epoch (loss 0.5562):  79%|███████▊  | 7658/9753 [1:21:28<21:10,  1.65it/s]Training 3/3 epoch (loss 0.3762):  79%|███████▊  | 7658/9753 [1:21:28<21:10,  1.65it/s]Training 3/3 epoch (loss 0.3762):  79%|███████▊  | 7659/9753 [1:21:28<20:39,  1.69it/s]Training 3/3 epoch (loss 0.4099):  79%|███████▊  | 7659/9753 [1:21:29<20:39,  1.69it/s]Training 3/3 epoch (loss 0.4099):  79%|███████▊  | 7660/9753 [1:21:29<20:32,  1.70it/s]Training 3/3 epoch (loss 0.4448):  79%|███████▊  | 7660/9753 [1:21:29<20:32,  1.70it/s]Training 3/3 epoch (loss 0.4448):  79%|███████▊  | 7661/9753 [1:21:29<20:08,  1.73it/s]Training 3/3 epoch (loss 0.2658):  79%|███████▊  | 7661/9753 [1:21:30<20:08,  1.73it/s]Training 3/3 epoch (loss 0.2658):  79%|███████▊  | 7662/9753 [1:21:30<19:49,  1.76it/s]Training 3/3 epoch (loss 0.5656):  79%|███████▊  | 7662/9753 [1:21:31<19:49,  1.76it/s]Training 3/3 epoch (loss 0.5656):  79%|███████▊  | 7663/9753 [1:21:31<21:05,  1.65it/s]Training 3/3 epoch (loss 0.5385):  79%|███████▊  | 7663/9753 [1:21:31<21:05,  1.65it/s]Training 3/3 epoch (loss 0.5385):  79%|███████▊  | 7664/9753 [1:21:31<22:36,  1.54it/s]Training 3/3 epoch (loss 0.4400):  79%|███████▊  | 7664/9753 [1:21:32<22:36,  1.54it/s]Training 3/3 epoch (loss 0.4400):  79%|███████▊  | 7665/9753 [1:21:32<21:40,  1.61it/s]Training 3/3 epoch (loss 0.2800):  79%|███████▊  | 7665/9753 [1:21:32<21:40,  1.61it/s]Training 3/3 epoch (loss 0.2800):  79%|███████▊  | 7666/9753 [1:21:32<20:56,  1.66it/s]Training 3/3 epoch (loss 0.4756):  79%|███████▊  | 7666/9753 [1:21:33<20:56,  1.66it/s]Training 3/3 epoch (loss 0.4756):  79%|███████▊  | 7667/9753 [1:21:33<20:19,  1.71it/s]Training 3/3 epoch (loss 0.4840):  79%|███████▊  | 7667/9753 [1:21:34<20:19,  1.71it/s]Training 3/3 epoch (loss 0.4840):  79%|███████▊  | 7668/9753 [1:21:34<19:54,  1.75it/s]Training 3/3 epoch (loss 0.6309):  79%|███████▊  | 7668/9753 [1:21:34<19:54,  1.75it/s]Training 3/3 epoch (loss 0.6309):  79%|███████▊  | 7669/9753 [1:21:34<19:39,  1.77it/s]Training 3/3 epoch (loss 0.3922):  79%|███████▊  | 7669/9753 [1:21:35<19:39,  1.77it/s]Training 3/3 epoch (loss 0.3922):  79%|███████▊  | 7670/9753 [1:21:35<19:29,  1.78it/s]Training 3/3 epoch (loss 0.6185):  79%|███████▊  | 7670/9753 [1:21:35<19:29,  1.78it/s]Training 3/3 epoch (loss 0.6185):  79%|███████▊  | 7671/9753 [1:21:35<19:19,  1.80it/s]Training 3/3 epoch (loss 0.3631):  79%|███████▊  | 7671/9753 [1:21:36<19:19,  1.80it/s]Training 3/3 epoch (loss 0.3631):  79%|███████▊  | 7672/9753 [1:21:36<19:47,  1.75it/s]Training 3/3 epoch (loss 0.3230):  79%|███████▊  | 7672/9753 [1:21:37<19:47,  1.75it/s]Training 3/3 epoch (loss 0.3230):  79%|███████▊  | 7673/9753 [1:21:37<23:23,  1.48it/s]Training 3/3 epoch (loss 0.6268):  79%|███████▊  | 7673/9753 [1:21:37<23:23,  1.48it/s]Training 3/3 epoch (loss 0.6268):  79%|███████▊  | 7674/9753 [1:21:37<22:06,  1.57it/s]Training 3/3 epoch (loss 0.0833):  79%|███████▊  | 7674/9753 [1:21:38<22:06,  1.57it/s]Training 3/3 epoch (loss 0.0833):  79%|███████▊  | 7675/9753 [1:21:38<22:09,  1.56it/s]Training 3/3 epoch (loss 0.5682):  79%|███████▊  | 7675/9753 [1:21:39<22:09,  1.56it/s]Training 3/3 epoch (loss 0.5682):  79%|███████▊  | 7676/9753 [1:21:39<22:42,  1.52it/s]Training 3/3 epoch (loss 0.3702):  79%|███████▊  | 7676/9753 [1:21:39<22:42,  1.52it/s]Training 3/3 epoch (loss 0.3702):  79%|███████▊  | 7677/9753 [1:21:39<21:43,  1.59it/s]Training 3/3 epoch (loss 0.3670):  79%|███████▊  | 7677/9753 [1:21:40<21:43,  1.59it/s]Training 3/3 epoch (loss 0.3670):  79%|███████▊  | 7678/9753 [1:21:40<20:55,  1.65it/s]Training 3/3 epoch (loss 0.3458):  79%|███████▊  | 7678/9753 [1:21:40<20:55,  1.65it/s]Training 3/3 epoch (loss 0.3458):  79%|███████▊  | 7679/9753 [1:21:40<21:20,  1.62it/s]Training 3/3 epoch (loss 0.4713):  79%|███████▊  | 7679/9753 [1:21:41<21:20,  1.62it/s]Training 3/3 epoch (loss 0.4713):  79%|███████▊  | 7680/9753 [1:21:41<22:09,  1.56it/s]Training 3/3 epoch (loss 0.4044):  79%|███████▊  | 7680/9753 [1:21:42<22:09,  1.56it/s]Training 3/3 epoch (loss 0.4044):  79%|███████▉  | 7681/9753 [1:21:42<21:12,  1.63it/s]Training 3/3 epoch (loss 0.4189):  79%|███████▉  | 7681/9753 [1:21:42<21:12,  1.63it/s]Training 3/3 epoch (loss 0.4189):  79%|███████▉  | 7682/9753 [1:21:42<21:50,  1.58it/s]Training 3/3 epoch (loss 0.2693):  79%|███████▉  | 7682/9753 [1:21:43<21:50,  1.58it/s]Training 3/3 epoch (loss 0.2693):  79%|███████▉  | 7683/9753 [1:21:43<21:01,  1.64it/s]Training 3/3 epoch (loss 0.1909):  79%|███████▉  | 7683/9753 [1:21:43<21:01,  1.64it/s]Training 3/3 epoch (loss 0.1909):  79%|███████▉  | 7684/9753 [1:21:43<20:38,  1.67it/s]Training 3/3 epoch (loss 0.3681):  79%|███████▉  | 7684/9753 [1:21:44<20:38,  1.67it/s]Training 3/3 epoch (loss 0.3681):  79%|███████▉  | 7685/9753 [1:21:44<20:11,  1.71it/s]Training 3/3 epoch (loss 0.6147):  79%|███████▉  | 7685/9753 [1:21:45<20:11,  1.71it/s]Training 3/3 epoch (loss 0.6147):  79%|███████▉  | 7686/9753 [1:21:45<20:29,  1.68it/s]Training 3/3 epoch (loss 0.3483):  79%|███████▉  | 7686/9753 [1:21:45<20:29,  1.68it/s]Training 3/3 epoch (loss 0.3483):  79%|███████▉  | 7687/9753 [1:21:45<19:58,  1.72it/s]Training 3/3 epoch (loss 0.2090):  79%|███████▉  | 7687/9753 [1:21:46<19:58,  1.72it/s]Training 3/3 epoch (loss 0.2090):  79%|███████▉  | 7688/9753 [1:21:46<19:36,  1.76it/s]Training 3/3 epoch (loss 0.3659):  79%|███████▉  | 7688/9753 [1:21:46<19:36,  1.76it/s]Training 3/3 epoch (loss 0.3659):  79%|███████▉  | 7689/9753 [1:21:46<19:20,  1.78it/s]Training 3/3 epoch (loss 0.3124):  79%|███████▉  | 7689/9753 [1:21:47<19:20,  1.78it/s]Training 3/3 epoch (loss 0.3124):  79%|███████▉  | 7690/9753 [1:21:47<19:23,  1.77it/s]Training 3/3 epoch (loss 0.5817):  79%|███████▉  | 7690/9753 [1:21:47<19:23,  1.77it/s]Training 3/3 epoch (loss 0.5817):  79%|███████▉  | 7691/9753 [1:21:47<19:11,  1.79it/s]Training 3/3 epoch (loss 0.7027):  79%|███████▉  | 7691/9753 [1:21:48<19:11,  1.79it/s]Training 3/3 epoch (loss 0.7027):  79%|███████▉  | 7692/9753 [1:21:48<20:16,  1.69it/s]Training 3/3 epoch (loss 0.5006):  79%|███████▉  | 7692/9753 [1:21:49<20:16,  1.69it/s]Training 3/3 epoch (loss 0.5006):  79%|███████▉  | 7693/9753 [1:21:49<20:05,  1.71it/s]Training 3/3 epoch (loss 0.4969):  79%|███████▉  | 7693/9753 [1:21:49<20:05,  1.71it/s]Training 3/3 epoch (loss 0.4969):  79%|███████▉  | 7694/9753 [1:21:49<19:48,  1.73it/s]Training 3/3 epoch (loss 0.3610):  79%|███████▉  | 7694/9753 [1:21:50<19:48,  1.73it/s]Training 3/3 epoch (loss 0.3610):  79%|███████▉  | 7695/9753 [1:21:50<19:30,  1.76it/s]Training 3/3 epoch (loss 0.4544):  79%|███████▉  | 7695/9753 [1:21:50<19:30,  1.76it/s]Training 3/3 epoch (loss 0.4544):  79%|███████▉  | 7696/9753 [1:21:50<20:36,  1.66it/s]Training 3/3 epoch (loss 0.1930):  79%|███████▉  | 7696/9753 [1:21:51<20:36,  1.66it/s]Training 3/3 epoch (loss 0.1930):  79%|███████▉  | 7697/9753 [1:21:51<20:05,  1.71it/s]Training 3/3 epoch (loss 0.7466):  79%|███████▉  | 7697/9753 [1:21:51<20:05,  1.71it/s]Training 3/3 epoch (loss 0.7466):  79%|███████▉  | 7698/9753 [1:21:51<19:46,  1.73it/s]Training 3/3 epoch (loss 0.6058):  79%|███████▉  | 7698/9753 [1:21:52<19:46,  1.73it/s]Training 3/3 epoch (loss 0.6058):  79%|███████▉  | 7699/9753 [1:21:52<21:19,  1.61it/s]Training 3/3 epoch (loss 0.5918):  79%|███████▉  | 7699/9753 [1:21:53<21:19,  1.61it/s]Training 3/3 epoch (loss 0.5918):  79%|███████▉  | 7700/9753 [1:21:53<20:56,  1.63it/s]Training 3/3 epoch (loss 0.3464):  79%|███████▉  | 7700/9753 [1:21:53<20:56,  1.63it/s]Training 3/3 epoch (loss 0.3464):  79%|███████▉  | 7701/9753 [1:21:53<20:16,  1.69it/s]Training 3/3 epoch (loss 0.4392):  79%|███████▉  | 7701/9753 [1:21:54<20:16,  1.69it/s]Training 3/3 epoch (loss 0.4392):  79%|███████▉  | 7702/9753 [1:21:54<20:03,  1.70it/s]Training 3/3 epoch (loss 0.6020):  79%|███████▉  | 7702/9753 [1:21:54<20:03,  1.70it/s]Training 3/3 epoch (loss 0.6020):  79%|███████▉  | 7703/9753 [1:21:54<19:37,  1.74it/s]Training 3/3 epoch (loss 0.3958):  79%|███████▉  | 7703/9753 [1:21:55<19:37,  1.74it/s]Training 3/3 epoch (loss 0.3958):  79%|███████▉  | 7704/9753 [1:21:55<19:20,  1.77it/s]Training 3/3 epoch (loss 0.2457):  79%|███████▉  | 7704/9753 [1:21:56<19:20,  1.77it/s]Training 3/3 epoch (loss 0.2457):  79%|███████▉  | 7705/9753 [1:21:56<19:08,  1.78it/s]Training 3/3 epoch (loss 0.4114):  79%|███████▉  | 7705/9753 [1:21:56<19:08,  1.78it/s]Training 3/3 epoch (loss 0.4114):  79%|███████▉  | 7706/9753 [1:21:56<19:03,  1.79it/s]Training 3/3 epoch (loss 0.4550):  79%|███████▉  | 7706/9753 [1:21:57<19:03,  1.79it/s]Training 3/3 epoch (loss 0.4550):  79%|███████▉  | 7707/9753 [1:21:57<19:05,  1.79it/s]Training 3/3 epoch (loss 0.4078):  79%|███████▉  | 7707/9753 [1:21:57<19:05,  1.79it/s]Training 3/3 epoch (loss 0.4078):  79%|███████▉  | 7708/9753 [1:21:57<19:13,  1.77it/s]Training 3/3 epoch (loss 0.2913):  79%|███████▉  | 7708/9753 [1:21:58<19:13,  1.77it/s]Training 3/3 epoch (loss 0.2913):  79%|███████▉  | 7709/9753 [1:21:58<19:01,  1.79it/s]Training 3/3 epoch (loss 0.5594):  79%|███████▉  | 7709/9753 [1:21:58<19:01,  1.79it/s]Training 3/3 epoch (loss 0.5594):  79%|███████▉  | 7710/9753 [1:21:58<20:00,  1.70it/s]Training 3/3 epoch (loss 0.4228):  79%|███████▉  | 7710/9753 [1:21:59<20:00,  1.70it/s]Training 3/3 epoch (loss 0.4228):  79%|███████▉  | 7711/9753 [1:21:59<20:20,  1.67it/s]Training 3/3 epoch (loss 0.2340):  79%|███████▉  | 7711/9753 [1:22:00<20:20,  1.67it/s]Training 3/3 epoch (loss 0.2340):  79%|███████▉  | 7712/9753 [1:22:00<21:18,  1.60it/s]Training 3/3 epoch (loss 0.6539):  79%|███████▉  | 7712/9753 [1:22:00<21:18,  1.60it/s]Training 3/3 epoch (loss 0.6539):  79%|███████▉  | 7713/9753 [1:22:00<20:34,  1.65it/s]Training 3/3 epoch (loss 0.4711):  79%|███████▉  | 7713/9753 [1:22:01<20:34,  1.65it/s]Training 3/3 epoch (loss 0.4711):  79%|███████▉  | 7714/9753 [1:22:01<20:02,  1.70it/s]Training 3/3 epoch (loss 0.4634):  79%|███████▉  | 7714/9753 [1:22:01<20:02,  1.70it/s]Training 3/3 epoch (loss 0.4634):  79%|███████▉  | 7715/9753 [1:22:01<19:35,  1.73it/s]Training 3/3 epoch (loss 0.4429):  79%|███████▉  | 7715/9753 [1:22:02<19:35,  1.73it/s]Training 3/3 epoch (loss 0.4429):  79%|███████▉  | 7716/9753 [1:22:02<19:16,  1.76it/s]Training 3/3 epoch (loss 0.3803):  79%|███████▉  | 7716/9753 [1:22:03<19:16,  1.76it/s]Training 3/3 epoch (loss 0.3803):  79%|███████▉  | 7717/9753 [1:22:03<19:44,  1.72it/s]Training 3/3 epoch (loss 0.3175):  79%|███████▉  | 7717/9753 [1:22:03<19:44,  1.72it/s]Training 3/3 epoch (loss 0.3175):  79%|███████▉  | 7718/9753 [1:22:03<19:23,  1.75it/s]Training 3/3 epoch (loss 0.7033):  79%|███████▉  | 7718/9753 [1:22:04<19:23,  1.75it/s]Training 3/3 epoch (loss 0.7033):  79%|███████▉  | 7719/9753 [1:22:04<20:54,  1.62it/s]Training 3/3 epoch (loss 0.5609):  79%|███████▉  | 7719/9753 [1:22:04<20:54,  1.62it/s]Training 3/3 epoch (loss 0.5609):  79%|███████▉  | 7720/9753 [1:22:04<21:03,  1.61it/s]Training 3/3 epoch (loss 0.4944):  79%|███████▉  | 7720/9753 [1:22:05<21:03,  1.61it/s]Training 3/3 epoch (loss 0.4944):  79%|███████▉  | 7721/9753 [1:22:05<21:14,  1.59it/s]Training 3/3 epoch (loss 0.4865):  79%|███████▉  | 7721/9753 [1:22:06<21:14,  1.59it/s]Training 3/3 epoch (loss 0.4865):  79%|███████▉  | 7722/9753 [1:22:06<20:52,  1.62it/s]Training 3/3 epoch (loss 0.4285):  79%|███████▉  | 7722/9753 [1:22:06<20:52,  1.62it/s]Training 3/3 epoch (loss 0.4285):  79%|███████▉  | 7723/9753 [1:22:06<20:59,  1.61it/s]Training 3/3 epoch (loss 0.5790):  79%|███████▉  | 7723/9753 [1:22:07<20:59,  1.61it/s]Training 3/3 epoch (loss 0.5790):  79%|███████▉  | 7724/9753 [1:22:07<20:24,  1.66it/s]Training 3/3 epoch (loss 0.5183):  79%|███████▉  | 7724/9753 [1:22:07<20:24,  1.66it/s]Training 3/3 epoch (loss 0.5183):  79%|███████▉  | 7725/9753 [1:22:07<19:45,  1.71it/s]Training 3/3 epoch (loss 0.4766):  79%|███████▉  | 7725/9753 [1:22:08<19:45,  1.71it/s]Training 3/3 epoch (loss 0.4766):  79%|███████▉  | 7726/9753 [1:22:08<19:20,  1.75it/s]Training 3/3 epoch (loss 0.1795):  79%|███████▉  | 7726/9753 [1:22:08<19:20,  1.75it/s]Training 3/3 epoch (loss 0.1795):  79%|███████▉  | 7727/9753 [1:22:08<19:05,  1.77it/s]Training 3/3 epoch (loss 0.2725):  79%|███████▉  | 7727/9753 [1:22:09<19:05,  1.77it/s]Training 3/3 epoch (loss 0.2725):  79%|███████▉  | 7728/9753 [1:22:09<21:21,  1.58it/s]Training 3/3 epoch (loss 0.4706):  79%|███████▉  | 7728/9753 [1:22:10<21:21,  1.58it/s]Training 3/3 epoch (loss 0.4706):  79%|███████▉  | 7729/9753 [1:22:10<20:41,  1.63it/s]Training 3/3 epoch (loss 0.3075):  79%|███████▉  | 7729/9753 [1:22:10<20:41,  1.63it/s]Training 3/3 epoch (loss 0.3075):  79%|███████▉  | 7730/9753 [1:22:10<19:59,  1.69it/s]Training 3/3 epoch (loss 0.2727):  79%|███████▉  | 7730/9753 [1:22:11<19:59,  1.69it/s]Training 3/3 epoch (loss 0.2727):  79%|███████▉  | 7731/9753 [1:22:11<19:28,  1.73it/s]Training 3/3 epoch (loss 0.2884):  79%|███████▉  | 7731/9753 [1:22:11<19:28,  1.73it/s]Training 3/3 epoch (loss 0.2884):  79%|███████▉  | 7732/9753 [1:22:11<19:06,  1.76it/s]Training 3/3 epoch (loss 0.2220):  79%|███████▉  | 7732/9753 [1:22:12<19:06,  1.76it/s]Training 3/3 epoch (loss 0.2220):  79%|███████▉  | 7733/9753 [1:22:12<18:51,  1.78it/s]Training 3/3 epoch (loss 0.4820):  79%|███████▉  | 7733/9753 [1:22:13<18:51,  1.78it/s]Training 3/3 epoch (loss 0.4820):  79%|███████▉  | 7734/9753 [1:22:13<19:56,  1.69it/s]Training 3/3 epoch (loss 0.5514):  79%|███████▉  | 7734/9753 [1:22:13<19:56,  1.69it/s]Training 3/3 epoch (loss 0.5514):  79%|███████▉  | 7735/9753 [1:22:13<21:21,  1.57it/s]Training 3/3 epoch (loss 0.4668):  79%|███████▉  | 7735/9753 [1:22:14<21:21,  1.57it/s]Training 3/3 epoch (loss 0.4668):  79%|███████▉  | 7736/9753 [1:22:14<24:14,  1.39it/s]Training 3/3 epoch (loss 0.2950):  79%|███████▉  | 7736/9753 [1:22:15<24:14,  1.39it/s]Training 3/3 epoch (loss 0.2950):  79%|███████▉  | 7737/9753 [1:22:15<22:52,  1.47it/s]Training 3/3 epoch (loss 0.3357):  79%|███████▉  | 7737/9753 [1:22:15<22:52,  1.47it/s]Training 3/3 epoch (loss 0.3357):  79%|███████▉  | 7738/9753 [1:22:15<21:30,  1.56it/s]Training 3/3 epoch (loss 0.6101):  79%|███████▉  | 7738/9753 [1:22:16<21:30,  1.56it/s]Training 3/3 epoch (loss 0.6101):  79%|███████▉  | 7739/9753 [1:22:16<22:41,  1.48it/s]Training 3/3 epoch (loss 0.2866):  79%|███████▉  | 7739/9753 [1:22:17<22:41,  1.48it/s]Training 3/3 epoch (loss 0.2866):  79%|███████▉  | 7740/9753 [1:22:17<21:27,  1.56it/s]Training 3/3 epoch (loss 0.4339):  79%|███████▉  | 7740/9753 [1:22:17<21:27,  1.56it/s]Training 3/3 epoch (loss 0.4339):  79%|███████▉  | 7741/9753 [1:22:17<20:37,  1.63it/s]Training 3/3 epoch (loss 0.3364):  79%|███████▉  | 7741/9753 [1:22:18<20:37,  1.63it/s]Training 3/3 epoch (loss 0.3364):  79%|███████▉  | 7742/9753 [1:22:18<20:05,  1.67it/s]Training 3/3 epoch (loss 0.4392):  79%|███████▉  | 7742/9753 [1:22:19<20:05,  1.67it/s]Training 3/3 epoch (loss 0.4392):  79%|███████▉  | 7743/9753 [1:22:19<20:10,  1.66it/s]Training 3/3 epoch (loss 0.2147):  79%|███████▉  | 7743/9753 [1:22:19<20:10,  1.66it/s]Training 3/3 epoch (loss 0.2147):  79%|███████▉  | 7744/9753 [1:22:19<22:12,  1.51it/s]Training 3/3 epoch (loss 0.3745):  79%|███████▉  | 7744/9753 [1:22:20<22:12,  1.51it/s]Training 3/3 epoch (loss 0.3745):  79%|███████▉  | 7745/9753 [1:22:20<24:09,  1.39it/s]Training 3/3 epoch (loss 0.3415):  79%|███████▉  | 7745/9753 [1:22:21<24:09,  1.39it/s]Training 3/3 epoch (loss 0.3415):  79%|███████▉  | 7746/9753 [1:22:21<25:35,  1.31it/s]Training 3/3 epoch (loss 0.3823):  79%|███████▉  | 7746/9753 [1:22:22<25:35,  1.31it/s]Training 3/3 epoch (loss 0.3823):  79%|███████▉  | 7747/9753 [1:22:22<25:07,  1.33it/s]Training 3/3 epoch (loss 0.4409):  79%|███████▉  | 7747/9753 [1:22:22<25:07,  1.33it/s]Training 3/3 epoch (loss 0.4409):  79%|███████▉  | 7748/9753 [1:22:22<23:11,  1.44it/s]Training 3/3 epoch (loss 0.3851):  79%|███████▉  | 7748/9753 [1:22:23<23:11,  1.44it/s]Training 3/3 epoch (loss 0.3851):  79%|███████▉  | 7749/9753 [1:22:23<21:42,  1.54it/s]Training 3/3 epoch (loss 0.6338):  79%|███████▉  | 7749/9753 [1:22:23<21:42,  1.54it/s]Training 3/3 epoch (loss 0.6338):  79%|███████▉  | 7750/9753 [1:22:23<20:47,  1.61it/s]Training 3/3 epoch (loss 0.4377):  79%|███████▉  | 7750/9753 [1:22:24<20:47,  1.61it/s]Training 3/3 epoch (loss 0.4377):  79%|███████▉  | 7751/9753 [1:22:24<22:09,  1.51it/s]Training 3/3 epoch (loss 0.2989):  79%|███████▉  | 7751/9753 [1:22:25<22:09,  1.51it/s]Training 3/3 epoch (loss 0.2989):  79%|███████▉  | 7752/9753 [1:22:25<22:25,  1.49it/s]Training 3/3 epoch (loss 0.2318):  79%|███████▉  | 7752/9753 [1:22:25<22:25,  1.49it/s]Training 3/3 epoch (loss 0.2318):  79%|███████▉  | 7753/9753 [1:22:25<21:07,  1.58it/s]Training 3/3 epoch (loss 0.3394):  79%|███████▉  | 7753/9753 [1:22:26<21:07,  1.58it/s]Training 3/3 epoch (loss 0.3394):  80%|███████▉  | 7754/9753 [1:22:26<20:15,  1.64it/s]Training 3/3 epoch (loss 0.2089):  80%|███████▉  | 7754/9753 [1:22:27<20:15,  1.64it/s]Training 3/3 epoch (loss 0.2089):  80%|███████▉  | 7755/9753 [1:22:27<19:38,  1.70it/s]Training 3/3 epoch (loss 0.3169):  80%|███████▉  | 7755/9753 [1:22:27<19:38,  1.70it/s]Training 3/3 epoch (loss 0.3169):  80%|███████▉  | 7756/9753 [1:22:27<19:08,  1.74it/s]Training 3/3 epoch (loss 0.1355):  80%|███████▉  | 7756/9753 [1:22:28<19:08,  1.74it/s]Training 3/3 epoch (loss 0.1355):  80%|███████▉  | 7757/9753 [1:22:28<18:48,  1.77it/s]Training 3/3 epoch (loss 0.7525):  80%|███████▉  | 7757/9753 [1:22:28<18:48,  1.77it/s]Training 3/3 epoch (loss 0.7525):  80%|███████▉  | 7758/9753 [1:22:28<20:07,  1.65it/s]Training 3/3 epoch (loss 0.5429):  80%|███████▉  | 7758/9753 [1:22:29<20:07,  1.65it/s]Training 3/3 epoch (loss 0.5429):  80%|███████▉  | 7759/9753 [1:22:29<19:32,  1.70it/s]Training 3/3 epoch (loss 0.3401):  80%|███████▉  | 7759/9753 [1:22:30<19:32,  1.70it/s]Training 3/3 epoch (loss 0.3401):  80%|███████▉  | 7760/9753 [1:22:30<20:25,  1.63it/s]Training 3/3 epoch (loss 0.3027):  80%|███████▉  | 7760/9753 [1:22:30<20:25,  1.63it/s]Training 3/3 epoch (loss 0.3027):  80%|███████▉  | 7761/9753 [1:22:30<20:09,  1.65it/s]Training 3/3 epoch (loss 0.6642):  80%|███████▉  | 7761/9753 [1:22:31<20:09,  1.65it/s]Training 3/3 epoch (loss 0.6642):  80%|███████▉  | 7762/9753 [1:22:31<20:24,  1.63it/s]Training 3/3 epoch (loss 0.4326):  80%|███████▉  | 7762/9753 [1:22:31<20:24,  1.63it/s]Training 3/3 epoch (loss 0.4326):  80%|███████▉  | 7763/9753 [1:22:31<20:49,  1.59it/s]Training 3/3 epoch (loss 0.6128):  80%|███████▉  | 7763/9753 [1:22:32<20:49,  1.59it/s]Training 3/3 epoch (loss 0.6128):  80%|███████▉  | 7764/9753 [1:22:32<19:58,  1.66it/s]Training 3/3 epoch (loss 0.5690):  80%|███████▉  | 7764/9753 [1:22:33<19:58,  1.66it/s]Training 3/3 epoch (loss 0.5690):  80%|███████▉  | 7765/9753 [1:22:33<21:25,  1.55it/s]Training 3/3 epoch (loss 0.4236):  80%|███████▉  | 7765/9753 [1:22:33<21:25,  1.55it/s]Training 3/3 epoch (loss 0.4236):  80%|███████▉  | 7766/9753 [1:22:33<21:44,  1.52it/s]Training 3/3 epoch (loss 0.5027):  80%|███████▉  | 7766/9753 [1:22:34<21:44,  1.52it/s]Training 3/3 epoch (loss 0.5027):  80%|███████▉  | 7767/9753 [1:22:34<21:22,  1.55it/s]Training 3/3 epoch (loss 0.2168):  80%|███████▉  | 7767/9753 [1:22:35<21:22,  1.55it/s]Training 3/3 epoch (loss 0.2168):  80%|███████▉  | 7768/9753 [1:22:35<20:31,  1.61it/s]Training 3/3 epoch (loss 0.3553):  80%|███████▉  | 7768/9753 [1:22:35<20:31,  1.61it/s]Training 3/3 epoch (loss 0.3553):  80%|███████▉  | 7769/9753 [1:22:35<19:47,  1.67it/s]Training 3/3 epoch (loss 0.5376):  80%|███████▉  | 7769/9753 [1:22:36<19:47,  1.67it/s]Training 3/3 epoch (loss 0.5376):  80%|███████▉  | 7770/9753 [1:22:36<19:18,  1.71it/s]Training 3/3 epoch (loss 0.3875):  80%|███████▉  | 7770/9753 [1:22:36<19:18,  1.71it/s]Training 3/3 epoch (loss 0.3875):  80%|███████▉  | 7771/9753 [1:22:36<20:54,  1.58it/s]Training 3/3 epoch (loss 0.3621):  80%|███████▉  | 7771/9753 [1:22:37<20:54,  1.58it/s]Training 3/3 epoch (loss 0.3621):  80%|███████▉  | 7772/9753 [1:22:37<20:28,  1.61it/s]Training 3/3 epoch (loss 0.3700):  80%|███████▉  | 7772/9753 [1:22:38<20:28,  1.61it/s]Training 3/3 epoch (loss 0.3700):  80%|███████▉  | 7773/9753 [1:22:38<20:03,  1.64it/s]Training 3/3 epoch (loss 0.5489):  80%|███████▉  | 7773/9753 [1:22:38<20:03,  1.64it/s]Training 3/3 epoch (loss 0.5489):  80%|███████▉  | 7774/9753 [1:22:38<20:19,  1.62it/s]Training 3/3 epoch (loss 0.3537):  80%|███████▉  | 7774/9753 [1:22:39<20:19,  1.62it/s]Training 3/3 epoch (loss 0.3537):  80%|███████▉  | 7775/9753 [1:22:39<19:38,  1.68it/s]Training 3/3 epoch (loss 0.4640):  80%|███████▉  | 7775/9753 [1:22:40<19:38,  1.68it/s]Training 3/3 epoch (loss 0.4640):  80%|███████▉  | 7776/9753 [1:22:40<23:47,  1.38it/s]Training 3/3 epoch (loss 0.4001):  80%|███████▉  | 7776/9753 [1:22:40<23:47,  1.38it/s]Training 3/3 epoch (loss 0.4001):  80%|███████▉  | 7777/9753 [1:22:40<22:23,  1.47it/s]Training 3/3 epoch (loss 0.5008):  80%|███████▉  | 7777/9753 [1:22:41<22:23,  1.47it/s]Training 3/3 epoch (loss 0.5008):  80%|███████▉  | 7778/9753 [1:22:41<21:37,  1.52it/s]Training 3/3 epoch (loss 0.4374):  80%|███████▉  | 7778/9753 [1:22:42<21:37,  1.52it/s]Training 3/3 epoch (loss 0.4374):  80%|███████▉  | 7779/9753 [1:22:42<20:38,  1.59it/s]Training 3/3 epoch (loss 0.3391):  80%|███████▉  | 7779/9753 [1:22:42<20:38,  1.59it/s]Training 3/3 epoch (loss 0.3391):  80%|███████▉  | 7780/9753 [1:22:42<19:49,  1.66it/s]Training 3/3 epoch (loss 0.2785):  80%|███████▉  | 7780/9753 [1:22:43<19:49,  1.66it/s]Training 3/3 epoch (loss 0.2785):  80%|███████▉  | 7781/9753 [1:22:43<19:12,  1.71it/s]Training 3/3 epoch (loss 0.4226):  80%|███████▉  | 7781/9753 [1:22:43<19:12,  1.71it/s]Training 3/3 epoch (loss 0.4226):  80%|███████▉  | 7782/9753 [1:22:43<20:27,  1.61it/s]Training 3/3 epoch (loss 0.3905):  80%|███████▉  | 7782/9753 [1:22:44<20:27,  1.61it/s]Training 3/3 epoch (loss 0.3905):  80%|███████▉  | 7783/9753 [1:22:44<19:48,  1.66it/s]Training 3/3 epoch (loss 0.2052):  80%|███████▉  | 7783/9753 [1:22:44<19:48,  1.66it/s]Training 3/3 epoch (loss 0.2052):  80%|███████▉  | 7784/9753 [1:22:44<19:10,  1.71it/s]Training 3/3 epoch (loss 0.4159):  80%|███████▉  | 7784/9753 [1:22:45<19:10,  1.71it/s]Training 3/3 epoch (loss 0.4159):  80%|███████▉  | 7785/9753 [1:22:45<18:48,  1.74it/s]Training 3/3 epoch (loss 0.3021):  80%|███████▉  | 7785/9753 [1:22:46<18:48,  1.74it/s]Training 3/3 epoch (loss 0.3021):  80%|███████▉  | 7786/9753 [1:22:46<19:08,  1.71it/s]Training 3/3 epoch (loss 0.4805):  80%|███████▉  | 7786/9753 [1:22:46<19:08,  1.71it/s]Training 3/3 epoch (loss 0.4805):  80%|███████▉  | 7787/9753 [1:22:46<18:50,  1.74it/s]Training 3/3 epoch (loss 0.4126):  80%|███████▉  | 7787/9753 [1:22:47<18:50,  1.74it/s]Training 3/3 epoch (loss 0.4126):  80%|███████▉  | 7788/9753 [1:22:47<18:31,  1.77it/s]Training 3/3 epoch (loss 0.4148):  80%|███████▉  | 7788/9753 [1:22:47<18:31,  1.77it/s]Training 3/3 epoch (loss 0.4148):  80%|███████▉  | 7789/9753 [1:22:47<18:19,  1.79it/s]Training 3/3 epoch (loss 0.3997):  80%|███████▉  | 7789/9753 [1:22:48<18:19,  1.79it/s]Training 3/3 epoch (loss 0.3997):  80%|███████▉  | 7790/9753 [1:22:48<18:17,  1.79it/s]Training 3/3 epoch (loss 0.3984):  80%|███████▉  | 7790/9753 [1:22:48<18:17,  1.79it/s]Training 3/3 epoch (loss 0.3984):  80%|███████▉  | 7791/9753 [1:22:48<18:08,  1.80it/s]Training 3/3 epoch (loss 0.4265):  80%|███████▉  | 7791/9753 [1:22:49<18:08,  1.80it/s]Training 3/3 epoch (loss 0.4265):  80%|███████▉  | 7792/9753 [1:22:49<20:31,  1.59it/s]Training 3/3 epoch (loss 0.2334):  80%|███████▉  | 7792/9753 [1:22:50<20:31,  1.59it/s]Training 3/3 epoch (loss 0.2334):  80%|███████▉  | 7793/9753 [1:22:50<21:11,  1.54it/s]Training 3/3 epoch (loss 0.4248):  80%|███████▉  | 7793/9753 [1:22:51<21:11,  1.54it/s]Training 3/3 epoch (loss 0.4248):  80%|███████▉  | 7794/9753 [1:22:51<22:48,  1.43it/s]Training 3/3 epoch (loss 0.2204):  80%|███████▉  | 7794/9753 [1:22:51<22:48,  1.43it/s]Training 3/3 epoch (loss 0.2204):  80%|███████▉  | 7795/9753 [1:22:51<21:31,  1.52it/s]Training 3/3 epoch (loss 0.4374):  80%|███████▉  | 7795/9753 [1:22:52<21:31,  1.52it/s]Training 3/3 epoch (loss 0.4374):  80%|███████▉  | 7796/9753 [1:22:52<20:41,  1.58it/s]Training 3/3 epoch (loss 0.6042):  80%|███████▉  | 7796/9753 [1:22:52<20:41,  1.58it/s]Training 3/3 epoch (loss 0.6042):  80%|███████▉  | 7797/9753 [1:22:52<20:36,  1.58it/s]Training 3/3 epoch (loss 0.5804):  80%|███████▉  | 7797/9753 [1:22:53<20:36,  1.58it/s]Training 3/3 epoch (loss 0.5804):  80%|███████▉  | 7798/9753 [1:22:53<20:43,  1.57it/s]Training 3/3 epoch (loss 0.2655):  80%|███████▉  | 7798/9753 [1:22:54<20:43,  1.57it/s]Training 3/3 epoch (loss 0.2655):  80%|███████▉  | 7799/9753 [1:22:54<19:55,  1.64it/s]Training 3/3 epoch (loss 0.3324):  80%|███████▉  | 7799/9753 [1:22:54<19:55,  1.64it/s]Training 3/3 epoch (loss 0.3324):  80%|███████▉  | 7800/9753 [1:22:54<21:16,  1.53it/s]Training 3/3 epoch (loss 0.4365):  80%|███████▉  | 7800/9753 [1:22:55<21:16,  1.53it/s]Training 3/3 epoch (loss 0.4365):  80%|███████▉  | 7801/9753 [1:22:55<22:31,  1.44it/s]Training 3/3 epoch (loss 0.3968):  80%|███████▉  | 7801/9753 [1:22:56<22:31,  1.44it/s]Training 3/3 epoch (loss 0.3968):  80%|███████▉  | 7802/9753 [1:22:56<21:14,  1.53it/s]Training 3/3 epoch (loss 0.5336):  80%|███████▉  | 7802/9753 [1:22:56<21:14,  1.53it/s]Training 3/3 epoch (loss 0.5336):  80%|████████  | 7803/9753 [1:22:56<20:14,  1.61it/s]Training 3/3 epoch (loss 0.4653):  80%|████████  | 7803/9753 [1:22:57<20:14,  1.61it/s]Training 3/3 epoch (loss 0.4653):  80%|████████  | 7804/9753 [1:22:57<19:38,  1.65it/s]Training 3/3 epoch (loss 0.3654):  80%|████████  | 7804/9753 [1:22:57<19:38,  1.65it/s]Training 3/3 epoch (loss 0.3654):  80%|████████  | 7805/9753 [1:22:57<19:04,  1.70it/s]Training 3/3 epoch (loss 0.2999):  80%|████████  | 7805/9753 [1:22:58<19:04,  1.70it/s]Training 3/3 epoch (loss 0.2999):  80%|████████  | 7806/9753 [1:22:58<18:39,  1.74it/s]Training 3/3 epoch (loss 0.3256):  80%|████████  | 7806/9753 [1:22:58<18:39,  1.74it/s]Training 3/3 epoch (loss 0.3256):  80%|████████  | 7807/9753 [1:22:58<18:23,  1.76it/s]Training 3/3 epoch (loss 0.3439):  80%|████████  | 7807/9753 [1:22:59<18:23,  1.76it/s]Training 3/3 epoch (loss 0.3439):  80%|████████  | 7808/9753 [1:22:59<19:27,  1.67it/s]Training 3/3 epoch (loss 0.2611):  80%|████████  | 7808/9753 [1:23:00<19:27,  1.67it/s]Training 3/3 epoch (loss 0.2611):  80%|████████  | 7809/9753 [1:23:00<18:58,  1.71it/s]Training 3/3 epoch (loss 0.6119):  80%|████████  | 7809/9753 [1:23:00<18:58,  1.71it/s]Training 3/3 epoch (loss 0.6119):  80%|████████  | 7810/9753 [1:23:00<20:50,  1.55it/s]Training 3/3 epoch (loss 0.3043):  80%|████████  | 7810/9753 [1:23:01<20:50,  1.55it/s]Training 3/3 epoch (loss 0.3043):  80%|████████  | 7811/9753 [1:23:01<19:58,  1.62it/s]Training 3/3 epoch (loss 0.5221):  80%|████████  | 7811/9753 [1:23:02<19:58,  1.62it/s]Training 3/3 epoch (loss 0.5221):  80%|████████  | 7812/9753 [1:23:02<19:16,  1.68it/s]Training 3/3 epoch (loss 0.5183):  80%|████████  | 7812/9753 [1:23:02<19:16,  1.68it/s]Training 3/3 epoch (loss 0.5183):  80%|████████  | 7813/9753 [1:23:02<18:48,  1.72it/s]Training 3/3 epoch (loss 0.4129):  80%|████████  | 7813/9753 [1:23:03<18:48,  1.72it/s]Training 3/3 epoch (loss 0.4129):  80%|████████  | 7814/9753 [1:23:03<21:48,  1.48it/s]Training 3/3 epoch (loss 0.3961):  80%|████████  | 7814/9753 [1:23:04<21:48,  1.48it/s]Training 3/3 epoch (loss 0.3961):  80%|████████  | 7815/9753 [1:23:04<20:45,  1.56it/s]Training 3/3 epoch (loss 0.4842):  80%|████████  | 7815/9753 [1:23:04<20:45,  1.56it/s]Training 3/3 epoch (loss 0.4842):  80%|████████  | 7816/9753 [1:23:04<19:47,  1.63it/s]Training 3/3 epoch (loss 0.4527):  80%|████████  | 7816/9753 [1:23:05<19:47,  1.63it/s]Training 3/3 epoch (loss 0.4527):  80%|████████  | 7817/9753 [1:23:05<19:10,  1.68it/s]Training 3/3 epoch (loss 0.4204):  80%|████████  | 7817/9753 [1:23:05<19:10,  1.68it/s]Training 3/3 epoch (loss 0.4204):  80%|████████  | 7818/9753 [1:23:05<19:23,  1.66it/s]Training 3/3 epoch (loss 0.2968):  80%|████████  | 7818/9753 [1:23:06<19:23,  1.66it/s]Training 3/3 epoch (loss 0.2968):  80%|████████  | 7819/9753 [1:23:06<19:43,  1.63it/s]Training 3/3 epoch (loss 0.5134):  80%|████████  | 7819/9753 [1:23:07<19:43,  1.63it/s]Training 3/3 epoch (loss 0.5134):  80%|████████  | 7820/9753 [1:23:07<22:25,  1.44it/s]Training 3/3 epoch (loss 0.3149):  80%|████████  | 7820/9753 [1:23:07<22:25,  1.44it/s]Training 3/3 epoch (loss 0.3149):  80%|████████  | 7821/9753 [1:23:07<21:37,  1.49it/s]Training 3/3 epoch (loss 0.6978):  80%|████████  | 7821/9753 [1:23:08<21:37,  1.49it/s]Training 3/3 epoch (loss 0.6978):  80%|████████  | 7822/9753 [1:23:08<21:20,  1.51it/s]Training 3/3 epoch (loss 0.4417):  80%|████████  | 7822/9753 [1:23:09<21:20,  1.51it/s]Training 3/3 epoch (loss 0.4417):  80%|████████  | 7823/9753 [1:23:09<20:11,  1.59it/s]Training 3/3 epoch (loss 0.3635):  80%|████████  | 7823/9753 [1:23:10<20:11,  1.59it/s]Training 3/3 epoch (loss 0.3635):  80%|████████  | 7824/9753 [1:23:10<23:49,  1.35it/s]Training 3/3 epoch (loss 0.5419):  80%|████████  | 7824/9753 [1:23:10<23:49,  1.35it/s]Training 3/3 epoch (loss 0.5419):  80%|████████  | 7825/9753 [1:23:10<23:04,  1.39it/s]Training 3/3 epoch (loss 0.3658):  80%|████████  | 7825/9753 [1:23:11<23:04,  1.39it/s]Training 3/3 epoch (loss 0.3658):  80%|████████  | 7826/9753 [1:23:11<21:33,  1.49it/s]Training 3/3 epoch (loss 0.4021):  80%|████████  | 7826/9753 [1:23:12<21:33,  1.49it/s]Training 3/3 epoch (loss 0.4021):  80%|████████  | 7827/9753 [1:23:12<23:35,  1.36it/s]Training 3/3 epoch (loss 0.3644):  80%|████████  | 7827/9753 [1:23:12<23:35,  1.36it/s]Training 3/3 epoch (loss 0.3644):  80%|████████  | 7828/9753 [1:23:12<22:00,  1.46it/s]Training 3/3 epoch (loss 0.5107):  80%|████████  | 7828/9753 [1:23:13<22:00,  1.46it/s]Training 3/3 epoch (loss 0.5107):  80%|████████  | 7829/9753 [1:23:13<21:36,  1.48it/s]Training 3/3 epoch (loss 0.2450):  80%|████████  | 7829/9753 [1:23:14<21:36,  1.48it/s]Training 3/3 epoch (loss 0.2450):  80%|████████  | 7830/9753 [1:23:14<23:50,  1.34it/s]Training 3/3 epoch (loss 0.2650):  80%|████████  | 7830/9753 [1:23:15<23:50,  1.34it/s]Training 3/3 epoch (loss 0.2650):  80%|████████  | 7831/9753 [1:23:15<22:42,  1.41it/s]Training 3/3 epoch (loss 0.2826):  80%|████████  | 7831/9753 [1:23:15<22:42,  1.41it/s]Training 3/3 epoch (loss 0.2826):  80%|████████  | 7832/9753 [1:23:15<21:13,  1.51it/s]Training 3/3 epoch (loss 0.3982):  80%|████████  | 7832/9753 [1:23:16<21:13,  1.51it/s]Training 3/3 epoch (loss 0.3982):  80%|████████  | 7833/9753 [1:23:16<21:17,  1.50it/s]Training 3/3 epoch (loss 0.3391):  80%|████████  | 7833/9753 [1:23:16<21:17,  1.50it/s]Training 3/3 epoch (loss 0.3391):  80%|████████  | 7834/9753 [1:23:16<21:09,  1.51it/s]Training 3/3 epoch (loss 0.5496):  80%|████████  | 7834/9753 [1:23:17<21:09,  1.51it/s]Training 3/3 epoch (loss 0.5496):  80%|████████  | 7835/9753 [1:23:17<21:19,  1.50it/s]Training 3/3 epoch (loss 0.4968):  80%|████████  | 7835/9753 [1:23:18<21:19,  1.50it/s]Training 3/3 epoch (loss 0.4968):  80%|████████  | 7836/9753 [1:23:18<20:12,  1.58it/s]Training 3/3 epoch (loss 0.0850):  80%|████████  | 7836/9753 [1:23:18<20:12,  1.58it/s]Training 3/3 epoch (loss 0.0850):  80%|████████  | 7837/9753 [1:23:18<19:18,  1.65it/s]Training 3/3 epoch (loss 0.5711):  80%|████████  | 7837/9753 [1:23:19<19:18,  1.65it/s]Training 3/3 epoch (loss 0.5711):  80%|████████  | 7838/9753 [1:23:19<19:01,  1.68it/s]Training 3/3 epoch (loss 0.3269):  80%|████████  | 7838/9753 [1:23:19<19:01,  1.68it/s]Training 3/3 epoch (loss 0.3269):  80%|████████  | 7839/9753 [1:23:19<20:37,  1.55it/s]Training 3/3 epoch (loss 0.2990):  80%|████████  | 7839/9753 [1:23:20<20:37,  1.55it/s]Training 3/3 epoch (loss 0.2990):  80%|████████  | 7840/9753 [1:23:20<21:06,  1.51it/s]Training 3/3 epoch (loss 0.7373):  80%|████████  | 7840/9753 [1:23:21<21:06,  1.51it/s]Training 3/3 epoch (loss 0.7373):  80%|████████  | 7841/9753 [1:23:21<21:06,  1.51it/s]Training 3/3 epoch (loss 0.4875):  80%|████████  | 7841/9753 [1:23:21<21:06,  1.51it/s]Training 3/3 epoch (loss 0.4875):  80%|████████  | 7842/9753 [1:23:21<20:28,  1.56it/s]Training 3/3 epoch (loss 0.6403):  80%|████████  | 7842/9753 [1:23:22<20:28,  1.56it/s]Training 3/3 epoch (loss 0.6403):  80%|████████  | 7843/9753 [1:23:22<19:38,  1.62it/s]Training 3/3 epoch (loss 0.2306):  80%|████████  | 7843/9753 [1:23:23<19:38,  1.62it/s]Training 3/3 epoch (loss 0.2306):  80%|████████  | 7844/9753 [1:23:23<18:56,  1.68it/s]Training 3/3 epoch (loss 0.4206):  80%|████████  | 7844/9753 [1:23:23<18:56,  1.68it/s]Training 3/3 epoch (loss 0.4206):  80%|████████  | 7845/9753 [1:23:23<18:29,  1.72it/s]Training 3/3 epoch (loss 0.3738):  80%|████████  | 7845/9753 [1:23:24<18:29,  1.72it/s]Training 3/3 epoch (loss 0.3738):  80%|████████  | 7846/9753 [1:23:24<18:57,  1.68it/s]Training 3/3 epoch (loss 0.4293):  80%|████████  | 7846/9753 [1:23:24<18:57,  1.68it/s]Training 3/3 epoch (loss 0.4293):  80%|████████  | 7847/9753 [1:23:24<18:35,  1.71it/s]Training 3/3 epoch (loss 0.1826):  80%|████████  | 7847/9753 [1:23:25<18:35,  1.71it/s]Training 3/3 epoch (loss 0.1826):  80%|████████  | 7848/9753 [1:23:25<19:05,  1.66it/s]Training 3/3 epoch (loss 0.5352):  80%|████████  | 7848/9753 [1:23:26<19:05,  1.66it/s]Training 3/3 epoch (loss 0.5352):  80%|████████  | 7849/9753 [1:23:26<18:58,  1.67it/s]Training 3/3 epoch (loss 0.3043):  80%|████████  | 7849/9753 [1:23:26<18:58,  1.67it/s]Training 3/3 epoch (loss 0.3043):  80%|████████  | 7850/9753 [1:23:26<18:26,  1.72it/s]Training 3/3 epoch (loss 0.6132):  80%|████████  | 7850/9753 [1:23:27<18:26,  1.72it/s]Training 3/3 epoch (loss 0.6132):  80%|████████  | 7851/9753 [1:23:27<20:56,  1.51it/s]Training 3/3 epoch (loss 0.3299):  80%|████████  | 7851/9753 [1:23:28<20:56,  1.51it/s]Training 3/3 epoch (loss 0.3299):  81%|████████  | 7852/9753 [1:23:28<23:54,  1.32it/s]Training 3/3 epoch (loss 0.5688):  81%|████████  | 7852/9753 [1:23:29<23:54,  1.32it/s]Training 3/3 epoch (loss 0.5688):  81%|████████  | 7853/9753 [1:23:29<25:02,  1.26it/s]Training 3/3 epoch (loss 0.2157):  81%|████████  | 7853/9753 [1:23:29<25:02,  1.26it/s]Training 3/3 epoch (loss 0.2157):  81%|████████  | 7854/9753 [1:23:29<24:07,  1.31it/s]Training 3/3 epoch (loss 0.3019):  81%|████████  | 7854/9753 [1:23:30<24:07,  1.31it/s]Training 3/3 epoch (loss 0.3019):  81%|████████  | 7855/9753 [1:23:30<22:10,  1.43it/s]Training 3/3 epoch (loss 0.4077):  81%|████████  | 7855/9753 [1:23:31<22:10,  1.43it/s]Training 3/3 epoch (loss 0.4077):  81%|████████  | 7856/9753 [1:23:31<23:09,  1.36it/s]Training 3/3 epoch (loss 0.4823):  81%|████████  | 7856/9753 [1:23:32<23:09,  1.36it/s]Training 3/3 epoch (loss 0.4823):  81%|████████  | 7857/9753 [1:23:32<23:16,  1.36it/s]Training 3/3 epoch (loss 0.1832):  81%|████████  | 7857/9753 [1:23:32<23:16,  1.36it/s]Training 3/3 epoch (loss 0.1832):  81%|████████  | 7858/9753 [1:23:32<21:37,  1.46it/s]Training 3/3 epoch (loss 0.4070):  81%|████████  | 7858/9753 [1:23:33<21:37,  1.46it/s]Training 3/3 epoch (loss 0.4070):  81%|████████  | 7859/9753 [1:23:33<20:19,  1.55it/s]Training 3/3 epoch (loss 0.4065):  81%|████████  | 7859/9753 [1:23:33<20:19,  1.55it/s]Training 3/3 epoch (loss 0.4065):  81%|████████  | 7860/9753 [1:23:33<19:23,  1.63it/s]Training 3/3 epoch (loss 0.4923):  81%|████████  | 7860/9753 [1:23:34<19:23,  1.63it/s]Training 3/3 epoch (loss 0.4923):  81%|████████  | 7861/9753 [1:23:34<21:20,  1.48it/s]Training 3/3 epoch (loss 0.5332):  81%|████████  | 7861/9753 [1:23:35<21:20,  1.48it/s]Training 3/3 epoch (loss 0.5332):  81%|████████  | 7862/9753 [1:23:35<23:17,  1.35it/s]Training 3/3 epoch (loss 0.3019):  81%|████████  | 7862/9753 [1:23:35<23:17,  1.35it/s]Training 3/3 epoch (loss 0.3019):  81%|████████  | 7863/9753 [1:23:35<21:40,  1.45it/s]Training 3/3 epoch (loss 0.5854):  81%|████████  | 7863/9753 [1:23:36<21:40,  1.45it/s]Training 3/3 epoch (loss 0.5854):  81%|████████  | 7864/9753 [1:23:36<23:42,  1.33it/s]Training 3/3 epoch (loss 0.3468):  81%|████████  | 7864/9753 [1:23:37<23:42,  1.33it/s]Training 3/3 epoch (loss 0.3468):  81%|████████  | 7865/9753 [1:23:37<21:54,  1.44it/s]Training 3/3 epoch (loss 0.2308):  81%|████████  | 7865/9753 [1:23:38<21:54,  1.44it/s]Training 3/3 epoch (loss 0.2308):  81%|████████  | 7866/9753 [1:23:38<20:28,  1.54it/s]Training 3/3 epoch (loss 0.4077):  81%|████████  | 7866/9753 [1:23:38<20:28,  1.54it/s]Training 3/3 epoch (loss 0.4077):  81%|████████  | 7867/9753 [1:23:38<19:29,  1.61it/s]Training 3/3 epoch (loss 0.3810):  81%|████████  | 7867/9753 [1:23:39<19:29,  1.61it/s]Training 3/3 epoch (loss 0.3810):  81%|████████  | 7868/9753 [1:23:39<21:01,  1.49it/s]Training 3/3 epoch (loss 0.3600):  81%|████████  | 7868/9753 [1:23:39<21:01,  1.49it/s]Training 3/3 epoch (loss 0.3600):  81%|████████  | 7869/9753 [1:23:39<19:55,  1.58it/s]Training 3/3 epoch (loss 0.3961):  81%|████████  | 7869/9753 [1:23:40<19:55,  1.58it/s]Training 3/3 epoch (loss 0.3961):  81%|████████  | 7870/9753 [1:23:40<19:06,  1.64it/s]Training 3/3 epoch (loss 0.3867):  81%|████████  | 7870/9753 [1:23:41<19:06,  1.64it/s]Training 3/3 epoch (loss 0.3867):  81%|████████  | 7871/9753 [1:23:41<18:58,  1.65it/s]Training 3/3 epoch (loss 0.4957):  81%|████████  | 7871/9753 [1:23:41<18:58,  1.65it/s]Training 3/3 epoch (loss 0.4957):  81%|████████  | 7872/9753 [1:23:41<20:55,  1.50it/s]Training 3/3 epoch (loss 0.5425):  81%|████████  | 7872/9753 [1:23:42<20:55,  1.50it/s]Training 3/3 epoch (loss 0.5425):  81%|████████  | 7873/9753 [1:23:42<19:54,  1.57it/s]Training 3/3 epoch (loss 0.5136):  81%|████████  | 7873/9753 [1:23:43<19:54,  1.57it/s]Training 3/3 epoch (loss 0.5136):  81%|████████  | 7874/9753 [1:23:43<21:39,  1.45it/s]Training 3/3 epoch (loss 0.3945):  81%|████████  | 7874/9753 [1:23:43<21:39,  1.45it/s]Training 3/3 epoch (loss 0.3945):  81%|████████  | 7875/9753 [1:23:43<20:25,  1.53it/s]Training 3/3 epoch (loss 0.3506):  81%|████████  | 7875/9753 [1:23:44<20:25,  1.53it/s]Training 3/3 epoch (loss 0.3506):  81%|████████  | 7876/9753 [1:23:44<19:35,  1.60it/s]Training 3/3 epoch (loss 0.3027):  81%|████████  | 7876/9753 [1:23:44<19:35,  1.60it/s]Training 3/3 epoch (loss 0.3027):  81%|████████  | 7877/9753 [1:23:44<18:52,  1.66it/s]Training 3/3 epoch (loss 0.4410):  81%|████████  | 7877/9753 [1:23:45<18:52,  1.66it/s]Training 3/3 epoch (loss 0.4410):  81%|████████  | 7878/9753 [1:23:45<18:24,  1.70it/s]Training 3/3 epoch (loss 0.2451):  81%|████████  | 7878/9753 [1:23:46<18:24,  1.70it/s]Training 3/3 epoch (loss 0.2451):  81%|███���████  | 7879/9753 [1:23:46<18:05,  1.73it/s]Training 3/3 epoch (loss 0.4691):  81%|████████  | 7879/9753 [1:23:46<18:05,  1.73it/s]Training 3/3 epoch (loss 0.4691):  81%|████████  | 7880/9753 [1:23:46<18:19,  1.70it/s]Training 3/3 epoch (loss 0.7791):  81%|████████  | 7880/9753 [1:23:47<18:19,  1.70it/s]Training 3/3 epoch (loss 0.7791):  81%|████████  | 7881/9753 [1:23:47<20:56,  1.49it/s]Training 3/3 epoch (loss 0.6824):  81%|████████  | 7881/9753 [1:23:48<20:56,  1.49it/s]Training 3/3 epoch (loss 0.6824):  81%|████████  | 7882/9753 [1:23:48<21:05,  1.48it/s]Training 3/3 epoch (loss 0.3561):  81%|████████  | 7882/9753 [1:23:48<21:05,  1.48it/s]Training 3/3 epoch (loss 0.3561):  81%|████████  | 7883/9753 [1:23:48<20:02,  1.55it/s]Training 3/3 epoch (loss 0.6744):  81%|████████  | 7883/9753 [1:23:49<20:02,  1.55it/s]Training 3/3 epoch (loss 0.6744):  81%|████████  | 7884/9753 [1:23:49<22:11,  1.40it/s]Training 3/3 epoch (loss 0.6369):  81%|████████  | 7884/9753 [1:23:50<22:11,  1.40it/s]Training 3/3 epoch (loss 0.6369):  81%|████████  | 7885/9753 [1:23:50<20:57,  1.49it/s]Training 3/3 epoch (loss 0.4657):  81%|████████  | 7885/9753 [1:23:50<20:57,  1.49it/s]Training 3/3 epoch (loss 0.4657):  81%|████████  | 7886/9753 [1:23:50<21:20,  1.46it/s]Training 3/3 epoch (loss 0.5368):  81%|████████  | 7886/9753 [1:23:51<21:20,  1.46it/s]Training 3/3 epoch (loss 0.5368):  81%|████████  | 7887/9753 [1:23:51<20:02,  1.55it/s]Training 3/3 epoch (loss 0.4256):  81%|████████  | 7887/9753 [1:23:52<20:02,  1.55it/s]Training 3/3 epoch (loss 0.4256):  81%|████████  | 7888/9753 [1:23:52<20:30,  1.52it/s]Training 3/3 epoch (loss 0.4408):  81%|████████  | 7888/9753 [1:23:52<20:30,  1.52it/s]Training 3/3 epoch (loss 0.4408):  81%|████████  | 7889/9753 [1:23:52<19:33,  1.59it/s]Training 3/3 epoch (loss 0.3191):  81%|████████  | 7889/9753 [1:23:53<19:33,  1.59it/s]Training 3/3 epoch (loss 0.3191):  81%|████████  | 7890/9753 [1:23:53<19:13,  1.62it/s]Training 3/3 epoch (loss 0.4481):  81%|████████  | 7890/9753 [1:23:53<19:13,  1.62it/s]Training 3/3 epoch (loss 0.4481):  81%|████████  | 7891/9753 [1:23:53<18:33,  1.67it/s]Training 3/3 epoch (loss 0.3157):  81%|████████  | 7891/9753 [1:23:54<18:33,  1.67it/s]Training 3/3 epoch (loss 0.3157):  81%|████████  | 7892/9753 [1:23:54<18:03,  1.72it/s]Training 3/3 epoch (loss 0.4798):  81%|████████  | 7892/9753 [1:23:54<18:03,  1.72it/s]Training 3/3 epoch (loss 0.4798):  81%|████████  | 7893/9753 [1:23:54<17:44,  1.75it/s]Training 3/3 epoch (loss 0.5898):  81%|████████  | 7893/9753 [1:23:55<17:44,  1.75it/s]Training 3/3 epoch (loss 0.5898):  81%|████████  | 7894/9753 [1:23:55<18:35,  1.67it/s]Training 3/3 epoch (loss 0.4113):  81%|████████  | 7894/9753 [1:23:56<18:35,  1.67it/s]Training 3/3 epoch (loss 0.4113):  81%|████████  | 7895/9753 [1:23:56<19:05,  1.62it/s]Training 3/3 epoch (loss 0.3130):  81%|████████  | 7895/9753 [1:23:56<19:05,  1.62it/s]Training 3/3 epoch (loss 0.3130):  81%|████████  | 7896/9753 [1:23:56<18:28,  1.67it/s]Training 3/3 epoch (loss 0.3481):  81%|████████  | 7896/9753 [1:23:57<18:28,  1.67it/s]Training 3/3 epoch (loss 0.3481):  81%|████████  | 7897/9753 [1:23:57<21:16,  1.45it/s]Training 3/3 epoch (loss 0.5007):  81%|████████  | 7897/9753 [1:23:58<21:16,  1.45it/s]Training 3/3 epoch (loss 0.5007):  81%|████████  | 7898/9753 [1:23:58<20:06,  1.54it/s]Training 3/3 epoch (loss 0.4347):  81%|████████  | 7898/9753 [1:23:59<20:06,  1.54it/s]Training 3/3 epoch (loss 0.4347):  81%|████████  | 7899/9753 [1:23:59<21:19,  1.45it/s]Training 3/3 epoch (loss 0.5473):  81%|████████  | 7899/9753 [1:23:59<21:19,  1.45it/s]Training 3/3 epoch (loss 0.5473):  81%|████████  | 7900/9753 [1:23:59<20:17,  1.52it/s]Training 3/3 epoch (loss 0.3792):  81%|████████  | 7900/9753 [1:24:00<20:17,  1.52it/s]Training 3/3 epoch (loss 0.3792):  81%|████████  | 7901/9753 [1:24:00<20:10,  1.53it/s]Training 3/3 epoch (loss 0.6140):  81%|████████  | 7901/9753 [1:24:00<20:10,  1.53it/s]Training 3/3 epoch (loss 0.6140):  81%|████████  | 7902/9753 [1:24:00<19:26,  1.59it/s]Training 3/3 epoch (loss 0.3082):  81%|████████  | 7902/9753 [1:24:01<19:26,  1.59it/s]Training 3/3 epoch (loss 0.3082):  81%|████████  | 7903/9753 [1:24:01<21:52,  1.41it/s]Training 3/3 epoch (loss 0.4221):  81%|████████  | 7903/9753 [1:24:02<21:52,  1.41it/s]Training 3/3 epoch (loss 0.4221):  81%|████████  | 7904/9753 [1:24:02<23:09,  1.33it/s]Training 3/3 epoch (loss 0.4166):  81%|████████  | 7904/9753 [1:24:03<23:09,  1.33it/s]Training 3/3 epoch (loss 0.4166):  81%|████████  | 7905/9753 [1:24:03<21:31,  1.43it/s]Training 3/3 epoch (loss 0.3810):  81%|████████  | 7905/9753 [1:24:03<21:31,  1.43it/s]Training 3/3 epoch (loss 0.3810):  81%|████████  | 7906/9753 [1:24:03<20:29,  1.50it/s]Training 3/3 epoch (loss 0.4497):  81%|████████  | 7906/9753 [1:24:04<20:29,  1.50it/s]Training 3/3 epoch (loss 0.4497):  81%|████████  | 7907/9753 [1:24:04<21:13,  1.45it/s]Training 3/3 epoch (loss 0.5287):  81%|████████  | 7907/9753 [1:24:05<21:13,  1.45it/s]Training 3/3 epoch (loss 0.5287):  81%|████████  | 7908/9753 [1:24:05<20:55,  1.47it/s]Training 3/3 epoch (loss 0.4610):  81%|████████  | 7908/9753 [1:24:05<20:55,  1.47it/s]Training 3/3 epoch (loss 0.4610):  81%|████████  | 7909/9753 [1:24:05<19:58,  1.54it/s]Training 3/3 epoch (loss 0.5566):  81%|████████  | 7909/9753 [1:24:06<19:58,  1.54it/s]Training 3/3 epoch (loss 0.5566):  81%|████████  | 7910/9753 [1:24:06<19:44,  1.56it/s]Training 3/3 epoch (loss 0.1904):  81%|████████  | 7910/9753 [1:24:06<19:44,  1.56it/s]Training 3/3 epoch (loss 0.1904):  81%|████████  | 7911/9753 [1:24:06<18:47,  1.63it/s]Training 3/3 epoch (loss 0.4414):  81%|████████  | 7911/9753 [1:24:07<18:47,  1.63it/s]Training 3/3 epoch (loss 0.4414):  81%|████████  | 7912/9753 [1:24:07<19:43,  1.56it/s]Training 3/3 epoch (loss 0.3636):  81%|████████  | 7912/9753 [1:24:08<19:43,  1.56it/s]Training 3/3 epoch (loss 0.3636):  81%|████████  | 7913/9753 [1:24:08<20:43,  1.48it/s]Training 3/3 epoch (loss 0.4529):  81%|████████  | 7913/9753 [1:24:08<20:43,  1.48it/s]Training 3/3 epoch (loss 0.4529):  81%|████████  | 7914/9753 [1:24:08<19:31,  1.57it/s]Training 3/3 epoch (loss 0.3711):  81%|████████  | 7914/9753 [1:24:09<19:31,  1.57it/s]Training 3/3 epoch (loss 0.3711):  81%|████████  | 7915/9753 [1:24:09<19:13,  1.59it/s]Training 3/3 epoch (loss 0.7103):  81%|████████  | 7915/9753 [1:24:10<19:13,  1.59it/s]Training 3/3 epoch (loss 0.7103):  81%|████████  | 7916/9753 [1:24:10<21:46,  1.41it/s]Training 3/3 epoch (loss 0.3283):  81%|████████  | 7916/9753 [1:24:11<21:46,  1.41it/s]Training 3/3 epoch (loss 0.3283):  81%|████████  | 7917/9753 [1:24:11<20:32,  1.49it/s]Training 3/3 epoch (loss 0.4106):  81%|████████  | 7917/9753 [1:24:11<20:32,  1.49it/s]Training 3/3 epoch (loss 0.4106):  81%|████████  | 7918/9753 [1:24:11<19:28,  1.57it/s]Training 3/3 epoch (loss 0.7413):  81%|████████  | 7918/9753 [1:24:12<19:28,  1.57it/s]Training 3/3 epoch (loss 0.7413):  81%|████████  | 7919/9753 [1:24:12<18:54,  1.62it/s]Training 3/3 epoch (loss 0.5075):  81%|████████  | 7919/9753 [1:24:12<18:54,  1.62it/s]Training 3/3 epoch (loss 0.5075):  81%|████████  | 7920/9753 [1:24:12<19:27,  1.57it/s]Training 3/3 epoch (loss 0.4276):  81%|████████  | 7920/9753 [1:24:13<19:27,  1.57it/s]Training 3/3 epoch (loss 0.4276):  81%|████████  | 7921/9753 [1:24:13<18:43,  1.63it/s]Training 3/3 epoch (loss 0.3959):  81%|████████  | 7921/9753 [1:24:13<18:43,  1.63it/s]Training 3/3 epoch (loss 0.3959):  81%|████████  | 7922/9753 [1:24:13<18:05,  1.69it/s]Training 3/3 epoch (loss 0.5361):  81%|████████  | 7922/9753 [1:24:14<18:05,  1.69it/s]Training 3/3 epoch (loss 0.5361):  81%|████████  | 7923/9753 [1:24:14<17:42,  1.72it/s]Training 3/3 epoch (loss 0.5272):  81%|████████  | 7923/9753 [1:24:15<17:42,  1.72it/s]Training 3/3 epoch (loss 0.5272):  81%|████████  | 7924/9753 [1:24:15<17:52,  1.70it/s]Training 3/3 epoch (loss 0.2867):  81%|████████  | 7924/9753 [1:24:15<17:52,  1.70it/s]Training 3/3 epoch (loss 0.2867):  81%|████████▏ | 7925/9753 [1:24:15<17:27,  1.75it/s]Training 3/3 epoch (loss 0.5257):  81%|████████▏ | 7925/9753 [1:24:16<17:27,  1.75it/s]Training 3/3 epoch (loss 0.5257):  81%|████████▏ | 7926/9753 [1:24:16<17:14,  1.77it/s]Training 3/3 epoch (loss 0.4811):  81%|████████▏ | 7926/9753 [1:24:16<17:14,  1.77it/s]Training 3/3 epoch (loss 0.4811):  81%|████████▏ | 7927/9753 [1:24:16<18:26,  1.65it/s]Training 3/3 epoch (loss 0.4535):  81%|████████▏ | 7927/9753 [1:24:17<18:26,  1.65it/s]Training 3/3 epoch (loss 0.4535):  81%|████████▏ | 7928/9753 [1:24:17<18:20,  1.66it/s]Training 3/3 epoch (loss 0.1985):  81%|████████▏ | 7928/9753 [1:24:18<18:20,  1.66it/s]Training 3/3 epoch (loss 0.1985):  81%|████████▏ | 7929/9753 [1:24:18<17:47,  1.71it/s]Training 3/3 epoch (loss 0.4841):  81%|████████▏ | 7929/9753 [1:24:18<17:47,  1.71it/s]Training 3/3 epoch (loss 0.4841):  81%|████████▏ | 7930/9753 [1:24:18<17:29,  1.74it/s]Training 3/3 epoch (loss 0.5006):  81%|████████▏ | 7930/9753 [1:24:19<17:29,  1.74it/s]Training 3/3 epoch (loss 0.5006):  81%|████████▏ | 7931/9753 [1:24:19<19:06,  1.59it/s]Training 3/3 epoch (loss 0.4468):  81%|████████▏ | 7931/9753 [1:24:19<19:06,  1.59it/s]Training 3/3 epoch (loss 0.4468):  81%|████████▏ | 7932/9753 [1:24:19<18:48,  1.61it/s]Training 3/3 epoch (loss 0.5125):  81%|████████▏ | 7932/9753 [1:24:20<18:48,  1.61it/s]Training 3/3 epoch (loss 0.5125):  81%|████████▏ | 7933/9753 [1:24:20<20:16,  1.50it/s]Training 3/3 epoch (loss 0.3137):  81%|████████▏ | 7933/9753 [1:24:21<20:16,  1.50it/s]Training 3/3 epoch (loss 0.3137):  81%|████████▏ | 7934/9753 [1:24:21<19:41,  1.54it/s]Training 3/3 epoch (loss 0.1449):  81%|████████▏ | 7934/9753 [1:24:21<19:41,  1.54it/s]Training 3/3 epoch (loss 0.1449):  81%|████████▏ | 7935/9753 [1:24:21<18:49,  1.61it/s]Training 3/3 epoch (loss 0.3077):  81%|████████▏ | 7935/9753 [1:24:22<18:49,  1.61it/s]Training 3/3 epoch (loss 0.3077):  81%|████████▏ | 7936/9753 [1:24:22<20:21,  1.49it/s]Training 3/3 epoch (loss 0.4680):  81%|████████▏ | 7936/9753 [1:24:23<20:21,  1.49it/s]Training 3/3 epoch (loss 0.4680):  81%|████████▏ | 7937/9753 [1:24:23<19:50,  1.53it/s]Training 3/3 epoch (loss 0.2142):  81%|████████▏ | 7937/9753 [1:24:23<19:50,  1.53it/s]Training 3/3 epoch (loss 0.2142):  81%|████████▏ | 7938/9753 [1:24:23<19:41,  1.54it/s]Training 3/3 epoch (loss 0.4842):  81%|████████▏ | 7938/9753 [1:24:24<19:41,  1.54it/s]Training 3/3 epoch (loss 0.4842):  81%|████████▏ | 7939/9753 [1:24:24<18:47,  1.61it/s]Training 3/3 epoch (loss 0.4156):  81%|████████▏ | 7939/9753 [1:24:25<18:47,  1.61it/s]Training 3/3 epoch (loss 0.4156):  81%|████████▏ | 7940/9753 [1:24:25<19:02,  1.59it/s]Training 3/3 epoch (loss 0.3792):  81%|████████▏ | 7940/9753 [1:24:25<19:02,  1.59it/s]Training 3/3 epoch (loss 0.3792):  81%|████████▏ | 7941/9753 [1:24:25<18:21,  1.64it/s]Training 3/3 epoch (loss 0.4048):  81%|████████▏ | 7941/9753 [1:24:26<18:21,  1.64it/s]Training 3/3 epoch (loss 0.4048):  81%|████████▏ | 7942/9753 [1:24:26<17:50,  1.69it/s]Training 3/3 epoch (loss 0.3934):  81%|████████▏ | 7942/9753 [1:24:26<17:50,  1.69it/s]Training 3/3 epoch (loss 0.3934):  81%|████████▏ | 7943/9753 [1:24:26<17:24,  1.73it/s]Training 3/3 epoch (loss 0.4603):  81%|████████▏ | 7943/9753 [1:24:27<17:24,  1.73it/s]Training 3/3 epoch (loss 0.4603):  81%|████████▏ | 7944/9753 [1:24:27<17:07,  1.76it/s]Training 3/3 epoch (loss 0.3488):  81%|████████▏ | 7944/9753 [1:24:27<17:07,  1.76it/s]Training 3/3 epoch (loss 0.3488):  81%|████████▏ | 7945/9753 [1:24:27<16:55,  1.78it/s]Training 3/3 epoch (loss 0.7306):  81%|████████▏ | 7945/9753 [1:24:28<16:55,  1.78it/s]Training 3/3 epoch (loss 0.7306):  81%|████████▏ | 7946/9753 [1:24:28<18:10,  1.66it/s]Training 3/3 epoch (loss 0.5899):  81%|████████▏ | 7946/9753 [1:24:29<18:10,  1.66it/s]Training 3/3 epoch (loss 0.5899):  81%|████████▏ | 7947/9753 [1:24:29<17:44,  1.70it/s]Training 3/3 epoch (loss 0.6849):  81%|████████▏ | 7947/9753 [1:24:29<17:44,  1.70it/s]Training 3/3 epoch (loss 0.6849):  81%|████████▏ | 7948/9753 [1:24:29<17:42,  1.70it/s]Training 3/3 epoch (loss 0.5040):  81%|████████▏ | 7948/9753 [1:24:30<17:42,  1.70it/s]Training 3/3 epoch (loss 0.5040):  82%|████████▏ | 7949/9753 [1:24:30<18:51,  1.59it/s]Training 3/3 epoch (loss 0.3191):  82%|████████▏ | 7949/9753 [1:24:31<18:51,  1.59it/s]Training 3/3 epoch (loss 0.3191):  82%|████████▏ | 7950/9753 [1:24:31<18:20,  1.64it/s]Training 3/3 epoch (loss 0.4953):  82%|████████▏ | 7950/9753 [1:24:31<18:20,  1.64it/s]Training 3/3 epoch (loss 0.4953):  82%|████████▏ | 7951/9753 [1:24:31<18:34,  1.62it/s]Training 3/3 epoch (loss 0.4987):  82%|████████▏ | 7951/9753 [1:24:32<18:34,  1.62it/s]Training 3/3 epoch (loss 0.4987):  82%|████████▏ | 7952/9753 [1:24:32<19:13,  1.56it/s]Training 3/3 epoch (loss 0.5691):  82%|████████▏ | 7952/9753 [1:24:32<19:13,  1.56it/s]Training 3/3 epoch (loss 0.5691):  82%|████████▏ | 7953/9753 [1:24:32<18:39,  1.61it/s]Training 3/3 epoch (loss 0.4287):  82%|████████▏ | 7953/9753 [1:24:33<18:39,  1.61it/s]Training 3/3 epoch (loss 0.4287):  82%|████████▏ | 7954/9753 [1:24:33<19:51,  1.51it/s]Training 3/3 epoch (loss 0.6757):  82%|████████▏ | 7954/9753 [1:24:34<19:51,  1.51it/s]Training 3/3 epoch (loss 0.6757):  82%|████████▏ | 7955/9753 [1:24:34<23:00,  1.30it/s]Training 3/3 epoch (loss 0.3289):  82%|████████▏ | 7955/9753 [1:24:35<23:00,  1.30it/s]Training 3/3 epoch (loss 0.3289):  82%|████████▏ | 7956/9753 [1:24:35<23:24,  1.28it/s]Training 3/3 epoch (loss 0.4050):  82%|████████▏ | 7956/9753 [1:24:36<23:24,  1.28it/s]Training 3/3 epoch (loss 0.4050):  82%|████████▏ | 7957/9753 [1:24:36<22:27,  1.33it/s]Training 3/3 epoch (loss 0.2493):  82%|████████▏ | 7957/9753 [1:24:36<22:27,  1.33it/s]Training 3/3 epoch (loss 0.2493):  82%|████████▏ | 7958/9753 [1:24:36<20:32,  1.46it/s]Training 3/3 epoch (loss 0.5858):  82%|████████▏ | 7958/9753 [1:24:37<20:32,  1.46it/s]Training 3/3 epoch (loss 0.5858):  82%|████████▏ | 7959/9753 [1:24:37<19:14,  1.55it/s]Training 3/3 epoch (loss 0.4808):  82%|████████▏ | 7959/9753 [1:24:38<19:14,  1.55it/s]Training 3/3 epoch (loss 0.4808):  82%|████████▏ | 7960/9753 [1:24:38<20:23,  1.47it/s]Training 3/3 epoch (loss 0.4137):  82%|████████▏ | 7960/9753 [1:24:38<20:23,  1.47it/s]Training 3/3 epoch (loss 0.4137):  82%|████████▏ | 7961/9753 [1:24:38<20:43,  1.44it/s]Training 3/3 epoch (loss 0.2602):  82%|████████▏ | 7961/9753 [1:24:39<20:43,  1.44it/s]Training 3/3 epoch (loss 0.2602):  82%|████████▏ | 7962/9753 [1:24:39<19:24,  1.54it/s]Training 3/3 epoch (loss 0.3197):  82%|████████▏ | 7962/9753 [1:24:39<19:24,  1.54it/s]Training 3/3 epoch (loss 0.3197):  82%|████████▏ | 7963/9753 [1:24:39<18:31,  1.61it/s]Training 3/3 epoch (loss 0.4495):  82%|████████▏ | 7963/9753 [1:24:40<18:31,  1.61it/s]Training 3/3 epoch (loss 0.4495):  82%|████████▏ | 7964/9753 [1:24:40<18:06,  1.65it/s]Training 3/3 epoch (loss 0.5135):  82%|████████▏ | 7964/9753 [1:24:41<18:06,  1.65it/s]Training 3/3 epoch (loss 0.5135):  82%|████████▏ | 7965/9753 [1:24:41<18:08,  1.64it/s]Training 3/3 epoch (loss 0.2490):  82%|████████▏ | 7965/9753 [1:24:41<18:08,  1.64it/s]Training 3/3 epoch (loss 0.2490):  82%|████████▏ | 7966/9753 [1:24:41<17:38,  1.69it/s]Training 3/3 epoch (loss 0.2932):  82%|████████▏ | 7966/9753 [1:24:42<17:38,  1.69it/s]Training 3/3 epoch (loss 0.2932):  82%|████████▏ | 7967/9753 [1:24:42<18:05,  1.65it/s]Training 3/3 epoch (loss 0.5301):  82%|████████▏ | 7967/9753 [1:24:42<18:05,  1.65it/s]Training 3/3 epoch (loss 0.5301):  82%|████████▏ | 7968/9753 [1:24:42<19:12,  1.55it/s]Training 3/3 epoch (loss 0.3923):  82%|████████▏ | 7968/9753 [1:24:43<19:12,  1.55it/s]Training 3/3 epoch (loss 0.3923):  82%|████████▏ | 7969/9753 [1:24:43<18:33,  1.60it/s]Training 3/3 epoch (loss 0.4359):  82%|████████▏ | 7969/9753 [1:24:44<18:33,  1.60it/s]Training 3/3 epoch (loss 0.4359):  82%|████████▏ | 7970/9753 [1:24:44<17:52,  1.66it/s]Training 3/3 epoch (loss 0.5435):  82%|████████▏ | 7970/9753 [1:24:44<17:52,  1.66it/s]Training 3/3 epoch (loss 0.5435):  82%|████████▏ | 7971/9753 [1:24:44<17:57,  1.65it/s]Training 3/3 epoch (loss 0.4165):  82%|████████▏ | 7971/9753 [1:24:45<17:57,  1.65it/s]Training 3/3 epoch (loss 0.4165):  82%|████████▏ | 7972/9753 [1:24:45<18:05,  1.64it/s]Training 3/3 epoch (loss 0.6478):  82%|████████▏ | 7972/9753 [1:24:46<18:05,  1.64it/s]Training 3/3 epoch (loss 0.6478):  82%|████████▏ | 7973/9753 [1:24:46<19:14,  1.54it/s]Training 3/3 epoch (loss 0.4285):  82%|████████▏ | 7973/9753 [1:24:46<19:14,  1.54it/s]Training 3/3 epoch (loss 0.4285):  82%|████████▏ | 7974/9753 [1:24:46<18:36,  1.59it/s]Training 3/3 epoch (loss 0.5337):  82%|████████▏ | 7974/9753 [1:24:47<18:36,  1.59it/s]Training 3/3 epoch (loss 0.5337):  82%|████████▏ | 7975/9753 [1:24:47<19:05,  1.55it/s]Training 3/3 epoch (loss 0.4200):  82%|████████▏ | 7975/9753 [1:24:47<19:05,  1.55it/s]Training 3/3 epoch (loss 0.4200):  82%|████████▏ | 7976/9753 [1:24:47<19:07,  1.55it/s]Training 3/3 epoch (loss 0.6283):  82%|█���██████▏ | 7976/9753 [1:24:48<19:07,  1.55it/s]Training 3/3 epoch (loss 0.6283):  82%|████████▏ | 7977/9753 [1:24:48<19:55,  1.49it/s]Training 3/3 epoch (loss 0.4986):  82%|████████▏ | 7977/9753 [1:24:49<19:55,  1.49it/s]Training 3/3 epoch (loss 0.4986):  82%|████████▏ | 7978/9753 [1:24:49<19:20,  1.53it/s]Training 3/3 epoch (loss 0.3769):  82%|████████▏ | 7978/9753 [1:24:49<19:20,  1.53it/s]Training 3/3 epoch (loss 0.3769):  82%|████████▏ | 7979/9753 [1:24:49<18:26,  1.60it/s]Training 3/3 epoch (loss 0.4440):  82%|████████▏ | 7979/9753 [1:24:50<18:26,  1.60it/s]Training 3/3 epoch (loss 0.4440):  82%|████████▏ | 7980/9753 [1:24:50<19:06,  1.55it/s]Training 3/3 epoch (loss 0.4208):  82%|████████▏ | 7980/9753 [1:24:51<19:06,  1.55it/s]Training 3/3 epoch (loss 0.4208):  82%|████████▏ | 7981/9753 [1:24:51<18:11,  1.62it/s]Training 3/3 epoch (loss 0.2848):  82%|████████▏ | 7981/9753 [1:24:51<18:11,  1.62it/s]Training 3/3 epoch (loss 0.2848):  82%|████████▏ | 7982/9753 [1:24:51<17:42,  1.67it/s]Training 3/3 epoch (loss 0.3061):  82%|████████▏ | 7982/9753 [1:24:52<17:42,  1.67it/s]Training 3/3 epoch (loss 0.3061):  82%|████████▏ | 7983/9753 [1:24:52<17:14,  1.71it/s]Training 3/3 epoch (loss 0.4770):  82%|████████▏ | 7983/9753 [1:24:53<17:14,  1.71it/s]Training 3/3 epoch (loss 0.4770):  82%|████████▏ | 7984/9753 [1:24:53<18:58,  1.55it/s]Training 3/3 epoch (loss 0.3775):  82%|████████▏ | 7984/9753 [1:24:53<18:58,  1.55it/s]Training 3/3 epoch (loss 0.3775):  82%|████████▏ | 7985/9753 [1:24:53<18:20,  1.61it/s]Training 3/3 epoch (loss 0.5487):  82%|████████▏ | 7985/9753 [1:24:54<18:20,  1.61it/s]Training 3/3 epoch (loss 0.5487):  82%|████████▏ | 7986/9753 [1:24:54<19:24,  1.52it/s]Training 3/3 epoch (loss 0.3273):  82%|████████▏ | 7986/9753 [1:24:54<19:24,  1.52it/s]Training 3/3 epoch (loss 0.3273):  82%|████████▏ | 7987/9753 [1:24:54<18:38,  1.58it/s]Training 3/3 epoch (loss 0.4955):  82%|████████▏ | 7987/9753 [1:24:55<18:38,  1.58it/s]Training 3/3 epoch (loss 0.4955):  82%|████████▏ | 7988/9753 [1:24:55<19:13,  1.53it/s]Training 3/3 epoch (loss 0.4663):  82%|████████▏ | 7988/9753 [1:24:56<19:13,  1.53it/s]Training 3/3 epoch (loss 0.4663):  82%|████████▏ | 7989/9753 [1:24:56<19:50,  1.48it/s]Training 3/3 epoch (loss 0.5304):  82%|████████▏ | 7989/9753 [1:24:56<19:50,  1.48it/s]Training 3/3 epoch (loss 0.5304):  82%|████████▏ | 7990/9753 [1:24:56<19:03,  1.54it/s]Training 3/3 epoch (loss 0.5284):  82%|████████▏ | 7990/9753 [1:24:57<19:03,  1.54it/s]Training 3/3 epoch (loss 0.5284):  82%|████████▏ | 7991/9753 [1:24:57<18:09,  1.62it/s]Training 3/3 epoch (loss 0.8105):  82%|████████▏ | 7991/9753 [1:24:58<18:09,  1.62it/s]Training 3/3 epoch (loss 0.8105):  82%|████████▏ | 7992/9753 [1:24:58<19:15,  1.52it/s]Training 3/3 epoch (loss 0.4903):  82%|████████▏ | 7992/9753 [1:24:58<19:15,  1.52it/s]Training 3/3 epoch (loss 0.4903):  82%|████████▏ | 7993/9753 [1:24:58<18:22,  1.60it/s]Training 3/3 epoch (loss 0.3149):  82%|████████▏ | 7993/9753 [1:24:59<18:22,  1.60it/s]Training 3/3 epoch (loss 0.3149):  82%|████████▏ | 7994/9753 [1:24:59<17:39,  1.66it/s]Training 3/3 epoch (loss 0.4023):  82%|████████▏ | 7994/9753 [1:25:00<17:39,  1.66it/s]Training 3/3 epoch (loss 0.4023):  82%|████████▏ | 7995/9753 [1:25:00<18:55,  1.55it/s]Training 3/3 epoch (loss 0.3002):  82%|████████▏ | 7995/9753 [1:25:00<18:55,  1.55it/s]Training 3/3 epoch (loss 0.3002):  82%|████████▏ | 7996/9753 [1:25:00<18:21,  1.60it/s]Training 3/3 epoch (loss 0.5360):  82%|████████▏ | 7996/9753 [1:25:01<18:21,  1.60it/s]Training 3/3 epoch (loss 0.5360):  82%|████████▏ | 7997/9753 [1:25:01<19:18,  1.52it/s]Training 3/3 epoch (loss 0.3750):  82%|████████▏ | 7997/9753 [1:25:01<19:18,  1.52it/s]Training 3/3 epoch (loss 0.3750):  82%|████████▏ | 7998/9753 [1:25:01<18:18,  1.60it/s]Training 3/3 epoch (loss 0.4850):  82%|████████▏ | 7998/9753 [1:25:02<18:18,  1.60it/s]Training 3/3 epoch (loss 0.4850):  82%|████████▏ | 7999/9753 [1:25:02<17:55,  1.63it/s]Training 3/3 epoch (loss 0.3585):  82%|████████▏ | 7999/9753 [1:25:03<17:55,  1.63it/s]Training 3/3 epoch (loss 0.3585):  82%|████████▏ | 8000/9753 [1:25:03<18:29,  1.58it/s]Training 3/3 epoch (loss 0.2855):  82%|████████▏ | 8000/9753 [1:25:03<18:29,  1.58it/s]Training 3/3 epoch (loss 0.2855):  82%|████████▏ | 8001/9753 [1:25:03<17:44,  1.65it/s]Training 3/3 epoch (loss 0.5807):  82%|████████▏ | 8001/9753 [1:25:04<17:44,  1.65it/s]Training 3/3 epoch (loss 0.5807):  82%|████████▏ | 8002/9753 [1:25:04<19:00,  1.54it/s]Training 3/3 epoch (loss 0.5332):  82%|████████▏ | 8002/9753 [1:25:05<19:00,  1.54it/s]Training 3/3 epoch (loss 0.5332):  82%|████████▏ | 8003/9753 [1:25:05<18:34,  1.57it/s]Training 3/3 epoch (loss 0.3338):  82%|████████▏ | 8003/9753 [1:25:05<18:34,  1.57it/s]Training 3/3 epoch (loss 0.3338):  82%|████████▏ | 8004/9753 [1:25:05<17:43,  1.64it/s]Training 3/3 epoch (loss 0.3807):  82%|████████▏ | 8004/9753 [1:25:06<17:43,  1.64it/s]Training 3/3 epoch (loss 0.3807):  82%|████████▏ | 8005/9753 [1:25:06<17:10,  1.70it/s]Training 3/3 epoch (loss 0.5805):  82%|████████▏ | 8005/9753 [1:25:06<17:10,  1.70it/s]Training 3/3 epoch (loss 0.5805):  82%|████████▏ | 8006/9753 [1:25:06<17:20,  1.68it/s]Training 3/3 epoch (loss 0.2478):  82%|████████▏ | 8006/9753 [1:25:07<17:20,  1.68it/s]Training 3/3 epoch (loss 0.2478):  82%|████████▏ | 8007/9753 [1:25:07<17:11,  1.69it/s]Training 3/3 epoch (loss 0.4497):  82%|████████▏ | 8007/9753 [1:25:08<17:11,  1.69it/s]Training 3/3 epoch (loss 0.4497):  82%|████████▏ | 8008/9753 [1:25:08<17:23,  1.67it/s]Training 3/3 epoch (loss 0.4925):  82%|████████▏ | 8008/9753 [1:25:08<17:23,  1.67it/s]Training 3/3 epoch (loss 0.4925):  82%|████████▏ | 8009/9753 [1:25:08<16:57,  1.71it/s]Training 3/3 epoch (loss 0.2272):  82%|████████▏ | 8009/9753 [1:25:09<16:57,  1.71it/s]Training 3/3 epoch (loss 0.2272):  82%|████████▏ | 8010/9753 [1:25:09<16:44,  1.74it/s]Training 3/3 epoch (loss 0.3296):  82%|████████▏ | 8010/9753 [1:25:09<16:44,  1.74it/s]Training 3/3 epoch (loss 0.3296):  82%|████████▏ | 8011/9753 [1:25:09<16:33,  1.75it/s]Training 3/3 epoch (loss 0.1392):  82%|████████▏ | 8011/9753 [1:25:10<16:33,  1.75it/s]Training 3/3 epoch (loss 0.1392):  82%|████████▏ | 8012/9753 [1:25:10<16:20,  1.78it/s]Training 3/3 epoch (loss 0.6115):  82%|████████▏ | 8012/9753 [1:25:10<16:20,  1.78it/s]Training 3/3 epoch (loss 0.6115):  82%|████████▏ | 8013/9753 [1:25:10<17:33,  1.65it/s]Training 3/3 epoch (loss 0.3863):  82%|████████▏ | 8013/9753 [1:25:11<17:33,  1.65it/s]Training 3/3 epoch (loss 0.3863):  82%|████████▏ | 8014/9753 [1:25:11<17:02,  1.70it/s]Training 3/3 epoch (loss 0.4704):  82%|████████▏ | 8014/9753 [1:25:12<17:02,  1.70it/s]Training 3/3 epoch (loss 0.4704):  82%|████████▏ | 8015/9753 [1:25:12<16:43,  1.73it/s]Training 3/3 epoch (loss 0.5608):  82%|████████▏ | 8015/9753 [1:25:12<16:43,  1.73it/s]Training 3/3 epoch (loss 0.5608):  82%|████████▏ | 8016/9753 [1:25:12<18:36,  1.56it/s]Training 3/3 epoch (loss 0.5553):  82%|████████▏ | 8016/9753 [1:25:13<18:36,  1.56it/s]Training 3/3 epoch (loss 0.5553):  82%|████████▏ | 8017/9753 [1:25:13<19:14,  1.50it/s]Training 3/3 epoch (loss 0.3733):  82%|████████▏ | 8017/9753 [1:25:14<19:14,  1.50it/s]Training 3/3 epoch (loss 0.3733):  82%|████████▏ | 8018/9753 [1:25:14<18:34,  1.56it/s]Training 3/3 epoch (loss 0.3666):  82%|████████▏ | 8018/9753 [1:25:14<18:34,  1.56it/s]Training 3/3 epoch (loss 0.3666):  82%|████████▏ | 8019/9753 [1:25:14<17:43,  1.63it/s]Training 3/3 epoch (loss 0.4812):  82%|████████▏ | 8019/9753 [1:25:15<17:43,  1.63it/s]Training 3/3 epoch (loss 0.4812):  82%|████████▏ | 8020/9753 [1:25:15<17:39,  1.64it/s]Training 3/3 epoch (loss 0.3061):  82%|████████▏ | 8020/9753 [1:25:15<17:39,  1.64it/s]Training 3/3 epoch (loss 0.3061):  82%|████████▏ | 8021/9753 [1:25:15<17:14,  1.67it/s]Training 3/3 epoch (loss 0.3745):  82%|████████▏ | 8021/9753 [1:25:16<17:14,  1.67it/s]Training 3/3 epoch (loss 0.3745):  82%|████████▏ | 8022/9753 [1:25:16<16:46,  1.72it/s]Training 3/3 epoch (loss 0.3777):  82%|████████▏ | 8022/9753 [1:25:16<16:46,  1.72it/s]Training 3/3 epoch (loss 0.3777):  82%|████████▏ | 8023/9753 [1:25:16<16:29,  1.75it/s]Training 3/3 epoch (loss 0.3757):  82%|████████▏ | 8023/9753 [1:25:17<16:29,  1.75it/s]Training 3/3 epoch (loss 0.3757):  82%|████████▏ | 8024/9753 [1:25:17<16:17,  1.77it/s]Training 3/3 epoch (loss 0.5952):  82%|████████▏ | 8024/9753 [1:25:18<16:17,  1.77it/s]Training 3/3 epoch (loss 0.5952):  82%|████████▏ | 8025/9753 [1:25:18<16:52,  1.71it/s]Training 3/3 epoch (loss 0.5427):  82%|████████▏ | 8025/9753 [1:25:18<16:52,  1.71it/s]Training 3/3 epoch (loss 0.5427):  82%|████████▏ | 8026/9753 [1:25:18<17:03,  1.69it/s]Training 3/3 epoch (loss 0.4227):  82%|████████▏ | 8026/9753 [1:25:19<17:03,  1.69it/s]Training 3/3 epoch (loss 0.4227):  82%|████████▏ | 8027/9753 [1:25:19<16:45,  1.72it/s]Training 3/3 epoch (loss 0.4375):  82%|████████▏ | 8027/9753 [1:25:19<16:45,  1.72it/s]Training 3/3 epoch (loss 0.4375):  82%|████████▏ | 8028/9753 [1:25:19<16:41,  1.72it/s]Training 3/3 epoch (loss 0.3649):  82%|████████▏ | 8028/9753 [1:25:20<16:41,  1.72it/s]Training 3/3 epoch (loss 0.3649):  82%|████████▏ | 8029/9753 [1:25:20<16:27,  1.75it/s]Training 3/3 epoch (loss 0.4426):  82%|████████▏ | 8029/9753 [1:25:20<16:27,  1.75it/s]Training 3/3 epoch (loss 0.4426):  82%|████████▏ | 8030/9753 [1:25:20<16:13,  1.77it/s]Training 3/3 epoch (loss 0.3264):  82%|████████▏ | 8030/9753 [1:25:21<16:13,  1.77it/s]Training 3/3 epoch (loss 0.3264):  82%|████████▏ | 8031/9753 [1:25:21<16:50,  1.70it/s]Training 3/3 epoch (loss 0.5316):  82%|████████▏ | 8031/9753 [1:25:22<16:50,  1.70it/s]Training 3/3 epoch (loss 0.5316):  82%|████████▏ | 8032/9753 [1:25:22<17:38,  1.63it/s]Training 3/3 epoch (loss 0.5500):  82%|████████▏ | 8032/9753 [1:25:22<17:38,  1.63it/s]Training 3/3 epoch (loss 0.5500):  82%|████████▏ | 8033/9753 [1:25:22<17:37,  1.63it/s]Training 3/3 epoch (loss 0.3985):  82%|████████▏ | 8033/9753 [1:25:23<17:37,  1.63it/s]Training 3/3 epoch (loss 0.3985):  82%|████████▏ | 8034/9753 [1:25:23<20:01,  1.43it/s]Training 3/3 epoch (loss 0.5146):  82%|████████▏ | 8034/9753 [1:25:24<20:01,  1.43it/s]Training 3/3 epoch (loss 0.5146):  82%|████████▏ | 8035/9753 [1:25:24<19:21,  1.48it/s]Training 3/3 epoch (loss 0.3165):  82%|████████▏ | 8035/9753 [1:25:25<19:21,  1.48it/s]Training 3/3 epoch (loss 0.3165):  82%|████████▏ | 8036/9753 [1:25:25<19:24,  1.47it/s]Training 3/3 epoch (loss 0.4494):  82%|████████▏ | 8036/9753 [1:25:25<19:24,  1.47it/s]Training 3/3 epoch (loss 0.4494):  82%|████████▏ | 8037/9753 [1:25:25<19:19,  1.48it/s]Training 3/3 epoch (loss 0.1336):  82%|████████▏ | 8037/9753 [1:25:26<19:19,  1.48it/s]Training 3/3 epoch (loss 0.1336):  82%|████████▏ | 8038/9753 [1:25:26<18:09,  1.57it/s]Training 3/3 epoch (loss 0.4687):  82%|████████▏ | 8038/9753 [1:25:27<18:09,  1.57it/s]Training 3/3 epoch (loss 0.4687):  82%|████████▏ | 8039/9753 [1:25:27<18:57,  1.51it/s]Training 3/3 epoch (loss 0.4976):  82%|████████▏ | 8039/9753 [1:25:27<18:57,  1.51it/s]Training 3/3 epoch (loss 0.4976):  82%|████████▏ | 8040/9753 [1:25:27<17:59,  1.59it/s]Training 3/3 epoch (loss 0.3198):  82%|████████▏ | 8040/9753 [1:25:28<17:59,  1.59it/s]Training 3/3 epoch (loss 0.3198):  82%|████████▏ | 8041/9753 [1:25:28<17:23,  1.64it/s]Training 3/3 epoch (loss 0.4896):  82%|████████▏ | 8041/9753 [1:25:28<17:23,  1.64it/s]Training 3/3 epoch (loss 0.4896):  82%|████████▏ | 8042/9753 [1:25:28<18:06,  1.57it/s]Training 3/3 epoch (loss 0.2466):  82%|████████▏ | 8042/9753 [1:25:29<18:06,  1.57it/s]Training 3/3 epoch (loss 0.2466):  82%|████████▏ | 8043/9753 [1:25:29<18:02,  1.58it/s]Training 3/3 epoch (loss 0.4436):  82%|████████▏ | 8043/9753 [1:25:30<18:02,  1.58it/s]Training 3/3 epoch (loss 0.4436):  82%|████████▏ | 8044/9753 [1:25:30<20:11,  1.41it/s]Training 3/3 epoch (loss 0.3191):  82%|████████▏ | 8044/9753 [1:25:30<20:11,  1.41it/s]Training 3/3 epoch (loss 0.3191):  82%|████████▏ | 8045/9753 [1:25:30<18:55,  1.50it/s]Training 3/3 epoch (loss 0.4671):  82%|████████▏ | 8045/9753 [1:25:31<18:55,  1.50it/s]Training 3/3 epoch (loss 0.4671):  82%|████████▏ | 8046/9753 [1:25:31<20:55,  1.36it/s]Training 3/3 epoch (loss 0.4883):  82%|████████▏ | 8046/9753 [1:25:32<20:55,  1.36it/s]Training 3/3 epoch (loss 0.4883):  83%|████████▎ | 8047/9753 [1:25:32<20:02,  1.42it/s]Training 3/3 epoch (loss 0.6010):  83%|████████▎ | 8047/9753 [1:25:33<20:02,  1.42it/s]Training 3/3 epoch (loss 0.6010):  83%|████████▎ | 8048/9753 [1:25:33<20:27,  1.39it/s]Training 3/3 epoch (loss 0.4634):  83%|████████▎ | 8048/9753 [1:25:33<20:27,  1.39it/s]Training 3/3 epoch (loss 0.4634):  83%|████████▎ | 8049/9753 [1:25:33<19:49,  1.43it/s]Training 3/3 epoch (loss 0.3975):  83%|████████▎ | 8049/9753 [1:25:34<19:49,  1.43it/s]Training 3/3 epoch (loss 0.3975):  83%|████████▎ | 8050/9753 [1:25:34<18:44,  1.51it/s]Training 3/3 epoch (loss 0.2502):  83%|████████▎ | 8050/9753 [1:25:34<18:44,  1.51it/s]Training 3/3 epoch (loss 0.2502):  83%|████████▎ | 8051/9753 [1:25:34<17:48,  1.59it/s]Training 3/3 epoch (loss 0.5064):  83%|████████▎ | 8051/9753 [1:25:35<17:48,  1.59it/s]Training 3/3 epoch (loss 0.5064):  83%|████████▎ | 8052/9753 [1:25:35<19:01,  1.49it/s]Training 3/3 epoch (loss 0.5950):  83%|████████▎ | 8052/9753 [1:25:36<19:01,  1.49it/s]Training 3/3 epoch (loss 0.5950):  83%|████████▎ | 8053/9753 [1:25:36<17:59,  1.57it/s]Training 3/3 epoch (loss 0.5652):  83%|████████▎ | 8053/9753 [1:25:36<17:59,  1.57it/s]Training 3/3 epoch (loss 0.5652):  83%|████████▎ | 8054/9753 [1:25:36<17:48,  1.59it/s]Training 3/3 epoch (loss 0.6776):  83%|████████▎ | 8054/9753 [1:25:37<17:48,  1.59it/s]Training 3/3 epoch (loss 0.6776):  83%|████████▎ | 8055/9753 [1:25:37<17:48,  1.59it/s]Training 3/3 epoch (loss 0.2471):  83%|████████▎ | 8055/9753 [1:25:38<17:48,  1.59it/s]Training 3/3 epoch (loss 0.2471):  83%|████████▎ | 8056/9753 [1:25:38<17:10,  1.65it/s]Training 3/3 epoch (loss 0.4821):  83%|████████▎ | 8056/9753 [1:25:38<17:10,  1.65it/s]Training 3/3 epoch (loss 0.4821):  83%|████████▎ | 8057/9753 [1:25:38<17:38,  1.60it/s]Training 3/3 epoch (loss 0.3735):  83%|████████▎ | 8057/9753 [1:25:39<17:38,  1.60it/s]Training 3/3 epoch (loss 0.3735):  83%|████████▎ | 8058/9753 [1:25:39<17:01,  1.66it/s]Training 3/3 epoch (loss 0.3561):  83%|████████▎ | 8058/9753 [1:25:39<17:01,  1.66it/s]Training 3/3 epoch (loss 0.3561):  83%|████████▎ | 8059/9753 [1:25:39<17:01,  1.66it/s]Training 3/3 epoch (loss 0.5190):  83%|████████▎ | 8059/9753 [1:25:40<17:01,  1.66it/s]Training 3/3 epoch (loss 0.5190):  83%|████████▎ | 8060/9753 [1:25:40<17:10,  1.64it/s]Training 3/3 epoch (loss 0.3656):  83%|████████▎ | 8060/9753 [1:25:41<17:10,  1.64it/s]Training 3/3 epoch (loss 0.3656):  83%|████████▎ | 8061/9753 [1:25:41<18:39,  1.51it/s]Training 3/3 epoch (loss 0.2650):  83%|████████▎ | 8061/9753 [1:25:42<18:39,  1.51it/s]Training 3/3 epoch (loss 0.2650):  83%|████████▎ | 8062/9753 [1:25:42<19:51,  1.42it/s]Training 3/3 epoch (loss 0.4157):  83%|████████▎ | 8062/9753 [1:25:42<19:51,  1.42it/s]Training 3/3 epoch (loss 0.4157):  83%|████████▎ | 8063/9753 [1:25:42<20:40,  1.36it/s]Training 3/3 epoch (loss 0.4406):  83%|████████▎ | 8063/9753 [1:25:43<20:40,  1.36it/s]Training 3/3 epoch (loss 0.4406):  83%|████████▎ | 8064/9753 [1:25:43<21:48,  1.29it/s]Training 3/3 epoch (loss 0.4122):  83%|████████▎ | 8064/9753 [1:25:44<21:48,  1.29it/s]Training 3/3 epoch (loss 0.4122):  83%|████████▎ | 8065/9753 [1:25:44<20:01,  1.40it/s]Training 3/3 epoch (loss 0.5578):  83%|████████▎ | 8065/9753 [1:25:44<20:01,  1.40it/s]Training 3/3 epoch (loss 0.5578):  83%|████████▎ | 8066/9753 [1:25:44<18:54,  1.49it/s]Training 3/3 epoch (loss 0.3470):  83%|████████▎ | 8066/9753 [1:25:45<18:54,  1.49it/s]Training 3/3 epoch (loss 0.3470):  83%|████████▎ | 8067/9753 [1:25:45<20:01,  1.40it/s]Training 3/3 epoch (loss 0.1921):  83%|████████▎ | 8067/9753 [1:25:46<20:01,  1.40it/s]Training 3/3 epoch (loss 0.1921):  83%|████████▎ | 8068/9753 [1:25:46<19:41,  1.43it/s]Training 3/3 epoch (loss 0.3992):  83%|████████▎ | 8068/9753 [1:25:47<19:41,  1.43it/s]Training 3/3 epoch (loss 0.3992):  83%|████████▎ | 8069/9753 [1:25:47<19:13,  1.46it/s]Training 3/3 epoch (loss 0.5624):  83%|████████▎ | 8069/9753 [1:25:47<19:13,  1.46it/s]Training 3/3 epoch (loss 0.5624):  83%|████████▎ | 8070/9753 [1:25:47<18:30,  1.52it/s]Training 3/3 epoch (loss 0.4308):  83%|████████▎ | 8070/9753 [1:25:48<18:30,  1.52it/s]Training 3/3 epoch (loss 0.4308):  83%|████████▎ | 8071/9753 [1:25:48<17:52,  1.57it/s]Training 3/3 epoch (loss 0.4648):  83%|████████▎ | 8071/9753 [1:25:49<17:52,  1.57it/s]Training 3/3 epoch (loss 0.4648):  83%|████████▎ | 8072/9753 [1:25:49<19:19,  1.45it/s]Training 3/3 epoch (loss 0.3520):  83%|████████▎ | 8072/9753 [1:25:49<19:19,  1.45it/s]Training 3/3 epoch (loss 0.3520):  83%|████████�� | 8073/9753 [1:25:49<18:25,  1.52it/s]Training 3/3 epoch (loss 0.3463):  83%|████████▎ | 8073/9753 [1:25:50<18:25,  1.52it/s]Training 3/3 epoch (loss 0.3463):  83%|████████▎ | 8074/9753 [1:25:50<17:28,  1.60it/s]Training 3/3 epoch (loss 0.2569):  83%|████████▎ | 8074/9753 [1:25:50<17:28,  1.60it/s]Training 3/3 epoch (loss 0.2569):  83%|████████▎ | 8075/9753 [1:25:50<17:33,  1.59it/s]Training 3/3 epoch (loss 0.4279):  83%|████████▎ | 8075/9753 [1:25:51<17:33,  1.59it/s]Training 3/3 epoch (loss 0.4279):  83%|████████▎ | 8076/9753 [1:25:51<17:02,  1.64it/s]Training 3/3 epoch (loss 0.3042):  83%|████████▎ | 8076/9753 [1:25:51<17:02,  1.64it/s]Training 3/3 epoch (loss 0.3042):  83%|████████▎ | 8077/9753 [1:25:51<16:31,  1.69it/s]Training 3/3 epoch (loss 0.3793):  83%|████████▎ | 8077/9753 [1:25:52<16:31,  1.69it/s]Training 3/3 epoch (loss 0.3793):  83%|████████▎ | 8078/9753 [1:25:52<17:39,  1.58it/s]Training 3/3 epoch (loss 0.3308):  83%|████████▎ | 8078/9753 [1:25:53<17:39,  1.58it/s]Training 3/3 epoch (loss 0.3308):  83%|████████▎ | 8079/9753 [1:25:53<17:05,  1.63it/s]Training 3/3 epoch (loss 0.5530):  83%|████████▎ | 8079/9753 [1:25:54<17:05,  1.63it/s]Training 3/3 epoch (loss 0.5530):  83%|████████▎ | 8080/9753 [1:25:54<19:28,  1.43it/s]Training 3/3 epoch (loss 0.5946):  83%|████████▎ | 8080/9753 [1:25:54<19:28,  1.43it/s]Training 3/3 epoch (loss 0.5946):  83%|████████▎ | 8081/9753 [1:25:54<18:18,  1.52it/s]Training 3/3 epoch (loss 0.5121):  83%|████████▎ | 8081/9753 [1:25:55<18:18,  1.52it/s]Training 3/3 epoch (loss 0.5121):  83%|████████▎ | 8082/9753 [1:25:55<17:35,  1.58it/s]Training 3/3 epoch (loss 0.3810):  83%|████████▎ | 8082/9753 [1:25:55<17:35,  1.58it/s]Training 3/3 epoch (loss 0.3810):  83%|████████▎ | 8083/9753 [1:25:55<16:55,  1.64it/s]Training 3/3 epoch (loss 0.3904):  83%|████████▎ | 8083/9753 [1:25:56<16:55,  1.64it/s]Training 3/3 epoch (loss 0.3904):  83%|████████▎ | 8084/9753 [1:25:56<17:16,  1.61it/s]Training 3/3 epoch (loss 0.3242):  83%|████████▎ | 8084/9753 [1:25:57<17:16,  1.61it/s]Training 3/3 epoch (loss 0.3242):  83%|████████▎ | 8085/9753 [1:25:57<16:40,  1.67it/s]Training 3/3 epoch (loss 0.5749):  83%|████████▎ | 8085/9753 [1:25:57<16:40,  1.67it/s]Training 3/3 epoch (loss 0.5749):  83%|████████▎ | 8086/9753 [1:25:57<17:30,  1.59it/s]Training 3/3 epoch (loss 0.3698):  83%|████████▎ | 8086/9753 [1:25:58<17:30,  1.59it/s]Training 3/3 epoch (loss 0.3698):  83%|████████▎ | 8087/9753 [1:25:58<16:49,  1.65it/s]Training 3/3 epoch (loss 0.6295):  83%|████████▎ | 8087/9753 [1:25:58<16:49,  1.65it/s]Training 3/3 epoch (loss 0.6295):  83%|████████▎ | 8088/9753 [1:25:58<16:52,  1.64it/s]Training 3/3 epoch (loss 0.5229):  83%|████████▎ | 8088/9753 [1:25:59<16:52,  1.64it/s]Training 3/3 epoch (loss 0.5229):  83%|████████▎ | 8089/9753 [1:25:59<16:59,  1.63it/s]Training 3/3 epoch (loss 0.3938):  83%|████████▎ | 8089/9753 [1:26:00<16:59,  1.63it/s]Training 3/3 epoch (loss 0.3938):  83%|████████▎ | 8090/9753 [1:26:00<16:31,  1.68it/s]Training 3/3 epoch (loss 0.3542):  83%|████████▎ | 8090/9753 [1:26:00<16:31,  1.68it/s]Training 3/3 epoch (loss 0.3542):  83%|████████▎ | 8091/9753 [1:26:00<16:08,  1.72it/s]Training 3/3 epoch (loss 0.2569):  83%|████████▎ | 8091/9753 [1:26:01<16:08,  1.72it/s]Training 3/3 epoch (loss 0.2569):  83%|████████▎ | 8092/9753 [1:26:01<15:50,  1.75it/s]Training 3/3 epoch (loss 0.3940):  83%|████████▎ | 8092/9753 [1:26:01<15:50,  1.75it/s]Training 3/3 epoch (loss 0.3940):  83%|████████▎ | 8093/9753 [1:26:01<15:47,  1.75it/s]Training 3/3 epoch (loss 0.6243):  83%|████████▎ | 8093/9753 [1:26:02<15:47,  1.75it/s]Training 3/3 epoch (loss 0.6243):  83%|████████▎ | 8094/9753 [1:26:02<15:40,  1.76it/s]Training 3/3 epoch (loss 0.4457):  83%|████████▎ | 8094/9753 [1:26:02<15:40,  1.76it/s]Training 3/3 epoch (loss 0.4457):  83%|████████▎ | 8095/9753 [1:26:02<15:32,  1.78it/s]Training 3/3 epoch (loss 0.4840):  83%|████████▎ | 8095/9753 [1:26:03<15:32,  1.78it/s]Training 3/3 epoch (loss 0.4840):  83%|████████▎ | 8096/9753 [1:26:03<16:40,  1.66it/s]Training 3/3 epoch (loss 0.3512):  83%|████████▎ | 8096/9753 [1:26:04<16:40,  1.66it/s]Training 3/3 epoch (loss 0.3512):  83%|████████▎ | 8097/9753 [1:26:04<16:14,  1.70it/s]Training 3/3 epoch (loss 0.5012):  83%|████████▎ | 8097/9753 [1:26:04<16:14,  1.70it/s]Training 3/3 epoch (loss 0.5012):  83%|████████▎ | 8098/9753 [1:26:04<15:55,  1.73it/s]Training 3/3 epoch (loss 0.7009):  83%|████████▎ | 8098/9753 [1:26:05<15:55,  1.73it/s]Training 3/3 epoch (loss 0.7009):  83%|████████▎ | 8099/9753 [1:26:05<16:45,  1.64it/s]Training 3/3 epoch (loss 0.6685):  83%|████████▎ | 8099/9753 [1:26:05<16:45,  1.64it/s]Training 3/3 epoch (loss 0.6685):  83%|████████▎ | 8100/9753 [1:26:05<17:03,  1.62it/s]Training 3/3 epoch (loss 0.3221):  83%|████████▎ | 8100/9753 [1:26:06<17:03,  1.62it/s]Training 3/3 epoch (loss 0.3221):  83%|████████▎ | 8101/9753 [1:26:06<16:55,  1.63it/s]Training 3/3 epoch (loss 0.2581):  83%|████████▎ | 8101/9753 [1:26:07<16:55,  1.63it/s]Training 3/3 epoch (loss 0.2581):  83%|████████▎ | 8102/9753 [1:26:07<16:18,  1.69it/s]Training 3/3 epoch (loss 0.5130):  83%|████████▎ | 8102/9753 [1:26:07<16:18,  1.69it/s]Training 3/3 epoch (loss 0.5130):  83%|████████▎ | 8103/9753 [1:26:07<16:24,  1.68it/s]Training 3/3 epoch (loss 0.4155):  83%|████████▎ | 8103/9753 [1:26:08<16:24,  1.68it/s]Training 3/3 epoch (loss 0.4155):  83%|████████▎ | 8104/9753 [1:26:08<16:02,  1.71it/s]Training 3/3 epoch (loss 0.5674):  83%|████████▎ | 8104/9753 [1:26:08<16:02,  1.71it/s]Training 3/3 epoch (loss 0.5674):  83%|████████▎ | 8105/9753 [1:26:08<16:40,  1.65it/s]Training 3/3 epoch (loss 0.4518):  83%|████████▎ | 8105/9753 [1:26:09<16:40,  1.65it/s]Training 3/3 epoch (loss 0.4518):  83%|████████▎ | 8106/9753 [1:26:09<17:35,  1.56it/s]Training 3/3 epoch (loss 0.4300):  83%|████████▎ | 8106/9753 [1:26:10<17:35,  1.56it/s]Training 3/3 epoch (loss 0.4300):  83%|████████▎ | 8107/9753 [1:26:10<16:56,  1.62it/s]Training 3/3 epoch (loss 0.6635):  83%|████████▎ | 8107/9753 [1:26:10<16:56,  1.62it/s]Training 3/3 epoch (loss 0.6635):  83%|████████▎ | 8108/9753 [1:26:10<17:20,  1.58it/s]Training 3/3 epoch (loss 0.6763):  83%|████████▎ | 8108/9753 [1:26:11<17:20,  1.58it/s]Training 3/3 epoch (loss 0.6763):  83%|████████▎ | 8109/9753 [1:26:11<16:54,  1.62it/s]Training 3/3 epoch (loss 0.4514):  83%|████████▎ | 8109/9753 [1:26:12<16:54,  1.62it/s]Training 3/3 epoch (loss 0.4514):  83%|████████▎ | 8110/9753 [1:26:12<17:03,  1.60it/s]Training 3/3 epoch (loss 0.5590):  83%|████████▎ | 8110/9753 [1:26:12<17:03,  1.60it/s]Training 3/3 epoch (loss 0.5590):  83%|████████▎ | 8111/9753 [1:26:12<18:17,  1.50it/s]Training 3/3 epoch (loss 0.4439):  83%|████████▎ | 8111/9753 [1:26:13<18:17,  1.50it/s]Training 3/3 epoch (loss 0.4439):  83%|████████▎ | 8112/9753 [1:26:13<18:32,  1.48it/s]Training 3/3 epoch (loss 0.2998):  83%|████████▎ | 8112/9753 [1:26:14<18:32,  1.48it/s]Training 3/3 epoch (loss 0.2998):  83%|████████▎ | 8113/9753 [1:26:14<17:28,  1.56it/s]Training 3/3 epoch (loss 0.4708):  83%|████████▎ | 8113/9753 [1:26:14<17:28,  1.56it/s]Training 3/3 epoch (loss 0.4708):  83%|████████▎ | 8114/9753 [1:26:14<17:17,  1.58it/s]Training 3/3 epoch (loss 0.4336):  83%|████████▎ | 8114/9753 [1:26:15<17:17,  1.58it/s]Training 3/3 epoch (loss 0.4336):  83%|████████▎ | 8115/9753 [1:26:15<16:36,  1.64it/s]Training 3/3 epoch (loss 0.2837):  83%|████████▎ | 8115/9753 [1:26:15<16:36,  1.64it/s]Training 3/3 epoch (loss 0.2837):  83%|████████▎ | 8116/9753 [1:26:15<16:44,  1.63it/s]Training 3/3 epoch (loss 0.3646):  83%|████████▎ | 8116/9753 [1:26:16<16:44,  1.63it/s]Training 3/3 epoch (loss 0.3646):  83%|████████▎ | 8117/9753 [1:26:16<16:16,  1.67it/s]Training 3/3 epoch (loss 0.3615):  83%|████████▎ | 8117/9753 [1:26:17<16:16,  1.67it/s]Training 3/3 epoch (loss 0.3615):  83%|████████▎ | 8118/9753 [1:26:17<16:07,  1.69it/s]Training 3/3 epoch (loss 0.4261):  83%|████████▎ | 8118/9753 [1:26:17<16:07,  1.69it/s]Training 3/3 epoch (loss 0.4261):  83%|████████▎ | 8119/9753 [1:26:17<15:47,  1.72it/s]Training 3/3 epoch (loss 0.3470):  83%|████████▎ | 8119/9753 [1:26:18<15:47,  1.72it/s]Training 3/3 epoch (loss 0.3470):  83%|████████▎ | 8120/9753 [1:26:18<15:28,  1.76it/s]Training 3/3 epoch (loss 0.5026):  83%|████████▎ | 8120/9753 [1:26:18<15:28,  1.76it/s]Training 3/3 epoch (loss 0.5026):  83%|████████▎ | 8121/9753 [1:26:18<16:00,  1.70it/s]Training 3/3 epoch (loss 0.4117):  83%|████████▎ | 8121/9753 [1:26:19<16:00,  1.70it/s]Training 3/3 epoch (loss 0.4117):  83%|████████▎ | 8122/9753 [1:26:19<15:38,  1.74it/s]Training 3/3 epoch (loss 0.4624):  83%|████████▎ | 8122/9753 [1:26:19<15:38,  1.74it/s]Training 3/3 epoch (loss 0.4624):  83%|████████▎ | 8123/9753 [1:26:19<15:27,  1.76it/s]Training 3/3 epoch (loss 0.3476):  83%|████████▎ | 8123/9753 [1:26:20<15:27,  1.76it/s]Training 3/3 epoch (loss 0.3476):  83%|████████▎ | 8124/9753 [1:26:20<15:15,  1.78it/s]Training 3/3 epoch (loss 0.3174):  83%|████████▎ | 8124/9753 [1:26:21<15:15,  1.78it/s]Training 3/3 epoch (loss 0.3174):  83%|████████▎ | 8125/9753 [1:26:21<16:20,  1.66it/s]Training 3/3 epoch (loss 0.4707):  83%|████████▎ | 8125/9753 [1:26:21<16:20,  1.66it/s]Training 3/3 epoch (loss 0.4707):  83%|████████▎ | 8126/9753 [1:26:21<17:43,  1.53it/s]Training 3/3 epoch (loss 0.7111):  83%|████████▎ | 8126/9753 [1:26:22<17:43,  1.53it/s]Training 3/3 epoch (loss 0.7111):  83%|████████▎ | 8127/9753 [1:26:22<17:51,  1.52it/s]Training 3/3 epoch (loss 0.3840):  83%|████████▎ | 8127/9753 [1:26:23<17:51,  1.52it/s]Training 3/3 epoch (loss 0.3840):  83%|████████▎ | 8128/9753 [1:26:23<19:03,  1.42it/s]Training 3/3 epoch (loss 0.5589):  83%|████████▎ | 8128/9753 [1:26:24<19:03,  1.42it/s]Training 3/3 epoch (loss 0.5589):  83%|████████▎ | 8129/9753 [1:26:24<18:23,  1.47it/s]Training 3/3 epoch (loss 0.6061):  83%|████████▎ | 8129/9753 [1:26:24<18:23,  1.47it/s]Training 3/3 epoch (loss 0.6061):  83%|████████▎ | 8130/9753 [1:26:24<17:17,  1.56it/s]Training 3/3 epoch (loss 0.2106):  83%|████████▎ | 8130/9753 [1:26:25<17:17,  1.56it/s]Training 3/3 epoch (loss 0.2106):  83%|████████▎ | 8131/9753 [1:26:25<16:27,  1.64it/s]Training 3/3 epoch (loss 0.5498):  83%|████████▎ | 8131/9753 [1:26:25<16:27,  1.64it/s]Training 3/3 epoch (loss 0.5498):  83%|████████▎ | 8132/9753 [1:26:25<16:27,  1.64it/s]Training 3/3 epoch (loss 0.3119):  83%|████████▎ | 8132/9753 [1:26:26<16:27,  1.64it/s]Training 3/3 epoch (loss 0.3119):  83%|████████▎ | 8133/9753 [1:26:26<15:53,  1.70it/s]Training 3/3 epoch (loss 0.2946):  83%|████████▎ | 8133/9753 [1:26:26<15:53,  1.70it/s]Training 3/3 epoch (loss 0.2946):  83%|████████▎ | 8134/9753 [1:26:26<15:31,  1.74it/s]Training 3/3 epoch (loss 0.3394):  83%|████████▎ | 8134/9753 [1:26:27<15:31,  1.74it/s]Training 3/3 epoch (loss 0.3394):  83%|████████▎ | 8135/9753 [1:26:27<15:15,  1.77it/s]Training 3/3 epoch (loss 0.3680):  83%|████████▎ | 8135/9753 [1:26:27<15:15,  1.77it/s]Training 3/3 epoch (loss 0.3680):  83%|████████▎ | 8136/9753 [1:26:27<15:43,  1.71it/s]Training 3/3 epoch (loss 0.3755):  83%|████████▎ | 8136/9753 [1:26:28<15:43,  1.71it/s]Training 3/3 epoch (loss 0.3755):  83%|████████▎ | 8137/9753 [1:26:28<16:19,  1.65it/s]Training 3/3 epoch (loss 0.5052):  83%|████████▎ | 8137/9753 [1:26:29<16:19,  1.65it/s]Training 3/3 epoch (loss 0.5052):  83%|████████▎ | 8138/9753 [1:26:29<15:48,  1.70it/s]Training 3/3 epoch (loss 0.4338):  83%|████████▎ | 8138/9753 [1:26:29<15:48,  1.70it/s]Training 3/3 epoch (loss 0.4338):  83%|████████▎ | 8139/9753 [1:26:29<15:25,  1.74it/s]Training 3/3 epoch (loss 0.6252):  83%|████████▎ | 8139/9753 [1:26:30<15:25,  1.74it/s]Training 3/3 epoch (loss 0.6252):  83%|████████▎ | 8140/9753 [1:26:30<16:38,  1.61it/s]Training 3/3 epoch (loss 0.2658):  83%|████████▎ | 8140/9753 [1:26:30<16:38,  1.61it/s]Training 3/3 epoch (loss 0.2658):  83%|████████▎ | 8141/9753 [1:26:30<16:00,  1.68it/s]Training 3/3 epoch (loss 0.3369):  83%|████████▎ | 8141/9753 [1:26:31<16:00,  1.68it/s]Training 3/3 epoch (loss 0.3369):  83%|████████▎ | 8142/9753 [1:26:31<16:23,  1.64it/s]Training 3/3 epoch (loss 0.6925):  83%|████████▎ | 8142/9753 [1:26:32<16:23,  1.64it/s]Training 3/3 epoch (loss 0.6925):  83%|████████▎ | 8143/9753 [1:26:32<16:48,  1.60it/s]Training 3/3 epoch (loss 0.3843):  83%|████████▎ | 8143/9753 [1:26:32<16:48,  1.60it/s]Training 3/3 epoch (loss 0.3843):  84%|████████▎ | 8144/9753 [1:26:32<17:11,  1.56it/s]Training 3/3 epoch (loss 0.4998):  84%|████████▎ | 8144/9753 [1:26:33<17:11,  1.56it/s]Training 3/3 epoch (loss 0.4998):  84%|████████▎ | 8145/9753 [1:26:33<16:30,  1.62it/s]Training 3/3 epoch (loss 0.6594):  84%|█████���██▎ | 8145/9753 [1:26:34<16:30,  1.62it/s]Training 3/3 epoch (loss 0.6594):  84%|████████▎ | 8146/9753 [1:26:34<16:30,  1.62it/s]Training 3/3 epoch (loss 0.3793):  84%|████████▎ | 8146/9753 [1:26:34<16:30,  1.62it/s]Training 3/3 epoch (loss 0.3793):  84%|████████▎ | 8147/9753 [1:26:34<18:00,  1.49it/s]Training 3/3 epoch (loss 0.3903):  84%|████████▎ | 8147/9753 [1:26:35<18:00,  1.49it/s]Training 3/3 epoch (loss 0.3903):  84%|████████▎ | 8148/9753 [1:26:35<17:14,  1.55it/s]Training 3/3 epoch (loss 0.3405):  84%|████████▎ | 8148/9753 [1:26:36<17:14,  1.55it/s]Training 3/3 epoch (loss 0.3405):  84%|████████▎ | 8149/9753 [1:26:36<16:26,  1.63it/s]Training 3/3 epoch (loss 0.2853):  84%|████████▎ | 8149/9753 [1:26:36<16:26,  1.63it/s]Training 3/3 epoch (loss 0.2853):  84%|████████▎ | 8150/9753 [1:26:36<16:05,  1.66it/s]Training 3/3 epoch (loss 0.1761):  84%|████████▎ | 8150/9753 [1:26:37<16:05,  1.66it/s]Training 3/3 epoch (loss 0.1761):  84%|████████▎ | 8151/9753 [1:26:37<15:36,  1.71it/s]Training 3/3 epoch (loss 0.3521):  84%|████████▎ | 8151/9753 [1:26:37<15:36,  1.71it/s]Training 3/3 epoch (loss 0.3521):  84%|████████▎ | 8152/9753 [1:26:37<15:15,  1.75it/s]Training 3/3 epoch (loss 0.4857):  84%|████████▎ | 8152/9753 [1:26:38<15:15,  1.75it/s]Training 3/3 epoch (loss 0.4857):  84%|████████▎ | 8153/9753 [1:26:38<17:52,  1.49it/s]Training 3/3 epoch (loss 0.4133):  84%|████████▎ | 8153/9753 [1:26:39<17:52,  1.49it/s]Training 3/3 epoch (loss 0.4133):  84%|████████▎ | 8154/9753 [1:26:39<17:13,  1.55it/s]Training 3/3 epoch (loss 0.6182):  84%|████████▎ | 8154/9753 [1:26:40<17:13,  1.55it/s]Training 3/3 epoch (loss 0.6182):  84%|████████▎ | 8155/9753 [1:26:40<19:04,  1.40it/s]Training 3/3 epoch (loss 0.5226):  84%|████████▎ | 8155/9753 [1:26:40<19:04,  1.40it/s]Training 3/3 epoch (loss 0.5226):  84%|████████▎ | 8156/9753 [1:26:40<18:30,  1.44it/s]Training 3/3 epoch (loss 0.4527):  84%|████████▎ | 8156/9753 [1:26:41<18:30,  1.44it/s]Training 3/3 epoch (loss 0.4527):  84%|████████▎ | 8157/9753 [1:26:41<18:24,  1.45it/s]Training 3/3 epoch (loss 0.5083):  84%|████████▎ | 8157/9753 [1:26:42<18:24,  1.45it/s]Training 3/3 epoch (loss 0.5083):  84%|████████▎ | 8158/9753 [1:26:42<17:28,  1.52it/s]Training 3/3 epoch (loss 0.4485):  84%|████████▎ | 8158/9753 [1:26:42<17:28,  1.52it/s]Training 3/3 epoch (loss 0.4485):  84%|████████▎ | 8159/9753 [1:26:42<17:34,  1.51it/s]Training 3/3 epoch (loss 0.2864):  84%|████████▎ | 8159/9753 [1:26:43<17:34,  1.51it/s]Training 3/3 epoch (loss 0.2864):  84%|████████▎ | 8160/9753 [1:26:43<18:12,  1.46it/s]Training 3/3 epoch (loss 0.4109):  84%|████████▎ | 8160/9753 [1:26:44<18:12,  1.46it/s]Training 3/3 epoch (loss 0.4109):  84%|████████▎ | 8161/9753 [1:26:44<18:05,  1.47it/s]Training 3/3 epoch (loss 0.2794):  84%|████████▎ | 8161/9753 [1:26:44<18:05,  1.47it/s]Training 3/3 epoch (loss 0.2794):  84%|████████▎ | 8162/9753 [1:26:44<17:06,  1.55it/s]Training 3/3 epoch (loss 0.4486):  84%|████████▎ | 8162/9753 [1:26:45<17:06,  1.55it/s]Training 3/3 epoch (loss 0.4486):  84%|████████▎ | 8163/9753 [1:26:45<16:26,  1.61it/s]Training 3/3 epoch (loss 0.4866):  84%|████████▎ | 8163/9753 [1:26:45<16:26,  1.61it/s]Training 3/3 epoch (loss 0.4866):  84%|████████▎ | 8164/9753 [1:26:45<16:08,  1.64it/s]Training 3/3 epoch (loss 0.3696):  84%|████████▎ | 8164/9753 [1:26:46<16:08,  1.64it/s]Training 3/3 epoch (loss 0.3696):  84%|████████▎ | 8165/9753 [1:26:46<15:36,  1.70it/s]Training 3/3 epoch (loss 0.3435):  84%|████████▎ | 8165/9753 [1:26:46<15:36,  1.70it/s]Training 3/3 epoch (loss 0.3435):  84%|████████▎ | 8166/9753 [1:26:46<16:03,  1.65it/s]Training 3/3 epoch (loss 0.4285):  84%|████████▎ | 8166/9753 [1:26:47<16:03,  1.65it/s]Training 3/3 epoch (loss 0.4285):  84%|████████▎ | 8167/9753 [1:26:47<16:27,  1.61it/s]Training 3/3 epoch (loss 0.3441):  84%|████████▎ | 8167/9753 [1:26:48<16:27,  1.61it/s]Training 3/3 epoch (loss 0.3441):  84%|████████▎ | 8168/9753 [1:26:48<16:07,  1.64it/s]Training 3/3 epoch (loss 0.5625):  84%|████████▎ | 8168/9753 [1:26:49<16:07,  1.64it/s]Training 3/3 epoch (loss 0.5625):  84%|████████▍ | 8169/9753 [1:26:49<17:40,  1.49it/s]Training 3/3 epoch (loss 0.3970):  84%|████████▍ | 8169/9753 [1:26:49<17:40,  1.49it/s]Training 3/3 epoch (loss 0.3970):  84%|████████▍ | 8170/9753 [1:26:49<18:47,  1.40it/s]Training 3/3 epoch (loss 0.4184):  84%|████████▍ | 8170/9753 [1:26:50<18:47,  1.40it/s]Training 3/3 epoch (loss 0.4184):  84%|████████▍ | 8171/9753 [1:26:50<19:34,  1.35it/s]Training 3/3 epoch (loss 0.4458):  84%|████████▍ | 8171/9753 [1:26:51<19:34,  1.35it/s]Training 3/3 epoch (loss 0.4458):  84%|████████▍ | 8172/9753 [1:26:51<19:05,  1.38it/s]Training 3/3 epoch (loss 0.6730):  84%|████████▍ | 8172/9753 [1:26:52<19:05,  1.38it/s]Training 3/3 epoch (loss 0.6730):  84%|████████▍ | 8173/9753 [1:26:52<18:50,  1.40it/s]Training 3/3 epoch (loss 0.6650):  84%|████████▍ | 8173/9753 [1:26:52<18:50,  1.40it/s]Training 3/3 epoch (loss 0.6650):  84%|████████▍ | 8174/9753 [1:26:52<18:09,  1.45it/s]Training 3/3 epoch (loss 0.4749):  84%|████████▍ | 8174/9753 [1:26:53<18:09,  1.45it/s]Training 3/3 epoch (loss 0.4749):  84%|████████▍ | 8175/9753 [1:26:53<19:07,  1.38it/s]Training 3/3 epoch (loss 0.3772):  84%|████████▍ | 8175/9753 [1:26:54<19:07,  1.38it/s]Training 3/3 epoch (loss 0.3772):  84%|████████▍ | 8176/9753 [1:26:54<19:58,  1.32it/s]Training 3/3 epoch (loss 0.4935):  84%|████████▍ | 8176/9753 [1:26:55<19:58,  1.32it/s]Training 3/3 epoch (loss 0.4935):  84%|████████▍ | 8177/9753 [1:26:55<20:08,  1.30it/s]Training 3/3 epoch (loss 0.5099):  84%|████████▍ | 8177/9753 [1:26:55<20:08,  1.30it/s]Training 3/3 epoch (loss 0.5099):  84%|████████▍ | 8178/9753 [1:26:55<18:42,  1.40it/s]Training 3/3 epoch (loss 0.3099):  84%|████████▍ | 8178/9753 [1:26:56<18:42,  1.40it/s]Training 3/3 epoch (loss 0.3099):  84%|████████▍ | 8179/9753 [1:26:56<17:42,  1.48it/s]Training 3/3 epoch (loss 0.3870):  84%|████████▍ | 8179/9753 [1:26:57<17:42,  1.48it/s]Training 3/3 epoch (loss 0.3870):  84%|████████▍ | 8180/9753 [1:26:57<18:25,  1.42it/s]Training 3/3 epoch (loss 0.4000):  84%|████████▍ | 8180/9753 [1:26:57<18:25,  1.42it/s]Training 3/3 epoch (loss 0.4000):  84%|████████▍ | 8181/9753 [1:26:57<17:33,  1.49it/s]Training 3/3 epoch (loss 0.5122):  84%|████████▍ | 8181/9753 [1:26:58<17:33,  1.49it/s]Training 3/3 epoch (loss 0.5122):  84%|████████▍ | 8182/9753 [1:26:58<17:13,  1.52it/s]Training 3/3 epoch (loss 0.4596):  84%|████████▍ | 8182/9753 [1:26:58<17:13,  1.52it/s]Training 3/3 epoch (loss 0.4596):  84%|████████▍ | 8183/9753 [1:26:58<16:24,  1.59it/s]Training 3/3 epoch (loss 0.2843):  84%|████████▍ | 8183/9753 [1:26:59<16:24,  1.59it/s]Training 3/3 epoch (loss 0.2843):  84%|████████▍ | 8184/9753 [1:26:59<16:07,  1.62it/s]Training 3/3 epoch (loss 0.6209):  84%|████████▍ | 8184/9753 [1:26:59<16:07,  1.62it/s]Training 3/3 epoch (loss 0.6209):  84%|████████▍ | 8185/9753 [1:26:59<15:40,  1.67it/s]Training 3/3 epoch (loss 0.5169):  84%|████████▍ | 8185/9753 [1:27:00<15:40,  1.67it/s]Training 3/3 epoch (loss 0.5169):  84%|████████▍ | 8186/9753 [1:27:00<15:15,  1.71it/s]Training 3/3 epoch (loss 0.3062):  84%|████████▍ | 8186/9753 [1:27:01<15:15,  1.71it/s]Training 3/3 epoch (loss 0.3062):  84%|████████▍ | 8187/9753 [1:27:01<15:00,  1.74it/s]Training 3/3 epoch (loss 0.4070):  84%|████████▍ | 8187/9753 [1:27:01<15:00,  1.74it/s]Training 3/3 epoch (loss 0.4070):  84%|████████▍ | 8188/9753 [1:27:01<14:53,  1.75it/s]Training 3/3 epoch (loss 0.4245):  84%|████████▍ | 8188/9753 [1:27:02<14:53,  1.75it/s]Training 3/3 epoch (loss 0.4245):  84%|████████▍ | 8189/9753 [1:27:02<14:42,  1.77it/s]Training 3/3 epoch (loss 0.5902):  84%|████████▍ | 8189/9753 [1:27:02<14:42,  1.77it/s]Training 3/3 epoch (loss 0.5902):  84%|████████▍ | 8190/9753 [1:27:02<15:21,  1.70it/s]Training 3/3 epoch (loss 0.5366):  84%|████████▍ | 8190/9753 [1:27:03<15:21,  1.70it/s]Training 3/3 epoch (loss 0.5366):  84%|████████▍ | 8191/9753 [1:27:03<15:12,  1.71it/s]Training 3/3 epoch (loss 0.2969):  84%|████████▍ | 8191/9753 [1:27:04<15:12,  1.71it/s]Training 3/3 epoch (loss 0.2969):  84%|████████▍ | 8192/9753 [1:27:04<16:39,  1.56it/s]Training 3/3 epoch (loss 0.3171):  84%|████████▍ | 8192/9753 [1:27:04<16:39,  1.56it/s]Training 3/3 epoch (loss 0.3171):  84%|████████▍ | 8193/9753 [1:27:04<16:10,  1.61it/s]Training 3/3 epoch (loss 0.2858):  84%|████████▍ | 8193/9753 [1:27:05<16:10,  1.61it/s]Training 3/3 epoch (loss 0.2858):  84%|████████▍ | 8194/9753 [1:27:05<15:49,  1.64it/s]Training 3/3 epoch (loss 0.2844):  84%|████████▍ | 8194/9753 [1:27:05<15:49,  1.64it/s]Training 3/3 epoch (loss 0.2844):  84%|████████▍ | 8195/9753 [1:27:05<15:23,  1.69it/s]Training 3/3 epoch (loss 0.6316):  84%|████████▍ | 8195/9753 [1:27:06<15:23,  1.69it/s]Training 3/3 epoch (loss 0.6316):  84%|████████▍ | 8196/9753 [1:27:06<15:02,  1.73it/s]Training 3/3 epoch (loss 0.3767):  84%|████████▍ | 8196/9753 [1:27:07<15:02,  1.73it/s]Training 3/3 epoch (loss 0.3767):  84%|████████▍ | 8197/9753 [1:27:07<15:12,  1.71it/s]Training 3/3 epoch (loss 0.3534):  84%|████████▍ | 8197/9753 [1:27:07<15:12,  1.71it/s]Training 3/3 epoch (loss 0.3534):  84%|████████▍ | 8198/9753 [1:27:07<15:53,  1.63it/s]Training 3/3 epoch (loss 0.6250):  84%|████████▍ | 8198/9753 [1:27:08<15:53,  1.63it/s]Training 3/3 epoch (loss 0.6250):  84%|████████▍ | 8199/9753 [1:27:08<15:32,  1.67it/s]Training 3/3 epoch (loss 0.2532):  84%|████████▍ | 8199/9753 [1:27:08<15:32,  1.67it/s]Training 3/3 epoch (loss 0.2532):  84%|████████▍ | 8200/9753 [1:27:08<15:08,  1.71it/s]Training 3/3 epoch (loss 0.3600):  84%|████████▍ | 8200/9753 [1:27:09<15:08,  1.71it/s]Training 3/3 epoch (loss 0.3600):  84%|████████▍ | 8201/9753 [1:27:09<15:03,  1.72it/s]Training 3/3 epoch (loss 0.6208):  84%|████████▍ | 8201/9753 [1:27:10<15:03,  1.72it/s]Training 3/3 epoch (loss 0.6208):  84%|████████▍ | 8202/9753 [1:27:10<15:37,  1.65it/s]Training 3/3 epoch (loss 0.5740):  84%|████████▍ | 8202/9753 [1:27:10<15:37,  1.65it/s]Training 3/3 epoch (loss 0.5740):  84%|████████▍ | 8203/9753 [1:27:10<16:16,  1.59it/s]Training 3/3 epoch (loss 0.7043):  84%|████████▍ | 8203/9753 [1:27:11<16:16,  1.59it/s]Training 3/3 epoch (loss 0.7043):  84%|████████▍ | 8204/9753 [1:27:11<18:45,  1.38it/s]Training 3/3 epoch (loss 0.4340):  84%|████████▍ | 8204/9753 [1:27:12<18:45,  1.38it/s]Training 3/3 epoch (loss 0.4340):  84%|████████▍ | 8205/9753 [1:27:12<18:01,  1.43it/s]Training 3/3 epoch (loss 0.3471):  84%|████████▍ | 8205/9753 [1:27:12<18:01,  1.43it/s]Training 3/3 epoch (loss 0.3471):  84%|████████▍ | 8206/9753 [1:27:12<16:56,  1.52it/s]Training 3/3 epoch (loss 0.4522):  84%|████████▍ | 8206/9753 [1:27:13<16:56,  1.52it/s]Training 3/3 epoch (loss 0.4522):  84%|████████▍ | 8207/9753 [1:27:13<16:07,  1.60it/s]Training 3/3 epoch (loss 0.6685):  84%|████████▍ | 8207/9753 [1:27:14<16:07,  1.60it/s]Training 3/3 epoch (loss 0.6685):  84%|████████▍ | 8208/9753 [1:27:14<16:41,  1.54it/s]Training 3/3 epoch (loss 0.5489):  84%|████████▍ | 8208/9753 [1:27:14<16:41,  1.54it/s]Training 3/3 epoch (loss 0.5489):  84%|████████▍ | 8209/9753 [1:27:14<16:58,  1.52it/s]Training 3/3 epoch (loss 0.3335):  84%|████████▍ | 8209/9753 [1:27:15<16:58,  1.52it/s]Training 3/3 epoch (loss 0.3335):  84%|████████▍ | 8210/9753 [1:27:15<16:46,  1.53it/s]Training 3/3 epoch (loss 0.6994):  84%|████████▍ | 8210/9753 [1:27:16<16:46,  1.53it/s]Training 3/3 epoch (loss 0.6994):  84%|████████▍ | 8211/9753 [1:27:16<16:03,  1.60it/s]Training 3/3 epoch (loss 0.4488):  84%|████████▍ | 8211/9753 [1:27:16<16:03,  1.60it/s]Training 3/3 epoch (loss 0.4488):  84%|████████▍ | 8212/9753 [1:27:16<15:41,  1.64it/s]Training 3/3 epoch (loss 0.4290):  84%|████████▍ | 8212/9753 [1:27:17<15:41,  1.64it/s]Training 3/3 epoch (loss 0.4290):  84%|████████▍ | 8213/9753 [1:27:17<15:49,  1.62it/s]Training 3/3 epoch (loss 0.6752):  84%|████████▍ | 8213/9753 [1:27:18<15:49,  1.62it/s]Training 3/3 epoch (loss 0.6752):  84%|████████▍ | 8214/9753 [1:27:18<17:03,  1.50it/s]Training 3/3 epoch (loss 0.2383):  84%|████████▍ | 8214/9753 [1:27:18<17:03,  1.50it/s]Training 3/3 epoch (loss 0.2383):  84%|████████▍ | 8215/9753 [1:27:18<16:41,  1.54it/s]Training 3/3 epoch (loss 0.3428):  84%|████████▍ | 8215/9753 [1:27:19<16:41,  1.54it/s]Training 3/3 epoch (loss 0.3428):  84%|████████▍ | 8216/9753 [1:27:19<15:57,  1.61it/s]Training 3/3 epoch (loss 0.4514):  84%|████████▍ | 8216/9753 [1:27:19<15:57,  1.61it/s]Training 3/3 epoch (loss 0.4514):  84%|████████▍ | 8217/9753 [1:27:19<15:41,  1.63it/s]Training 3/3 epoch (loss 0.4644):  84%|████████▍ | 8217/9753 [1:27:20<15:41,  1.63it/s]Training 3/3 epoch (loss 0.4644):  84%|████████▍ | 8218/9753 [1:27:20<15:14,  1.68it/s]Training 3/3 epoch (loss 0.3313):  84%|████████▍ | 8218/9753 [1:27:20<15:14,  1.68it/s]Training 3/3 epoch (loss 0.3313):  84%|████████▍ | 8219/9753 [1:27:20<15:25,  1.66it/s]Training 3/3 epoch (loss 0.4160):  84%|████████▍ | 8219/9753 [1:27:21<15:25,  1.66it/s]Training 3/3 epoch (loss 0.4160):  84%|████████▍ | 8220/9753 [1:27:21<15:05,  1.69it/s]Training 3/3 epoch (loss 0.3405):  84%|████████▍ | 8220/9753 [1:27:22<15:05,  1.69it/s]Training 3/3 epoch (loss 0.3405):  84%|████████▍ | 8221/9753 [1:27:22<14:47,  1.73it/s]Training 3/3 epoch (loss 0.6501):  84%|████████▍ | 8221/9753 [1:27:22<14:47,  1.73it/s]Training 3/3 epoch (loss 0.6501):  84%|████████▍ | 8222/9753 [1:27:22<15:34,  1.64it/s]Training 3/3 epoch (loss 0.6173):  84%|████████▍ | 8222/9753 [1:27:23<15:34,  1.64it/s]Training 3/3 epoch (loss 0.6173):  84%|████████▍ | 8223/9753 [1:27:23<15:12,  1.68it/s]Training 3/3 epoch (loss 0.3210):  84%|████████▍ | 8223/9753 [1:27:24<15:12,  1.68it/s]Training 3/3 epoch (loss 0.3210):  84%|████████▍ | 8224/9753 [1:27:24<15:49,  1.61it/s]Training 3/3 epoch (loss 0.4099):  84%|████████▍ | 8224/9753 [1:27:24<15:49,  1.61it/s]Training 3/3 epoch (loss 0.4099):  84%|████████▍ | 8225/9753 [1:27:24<15:18,  1.66it/s]Training 3/3 epoch (loss 0.3570):  84%|████████▍ | 8225/9753 [1:27:25<15:18,  1.66it/s]Training 3/3 epoch (loss 0.3570):  84%|████████▍ | 8226/9753 [1:27:25<14:54,  1.71it/s]Training 3/3 epoch (loss 0.2752):  84%|████████▍ | 8226/9753 [1:27:25<14:54,  1.71it/s]Training 3/3 epoch (loss 0.2752):  84%|████████▍ | 8227/9753 [1:27:25<15:02,  1.69it/s]Training 3/3 epoch (loss 0.4467):  84%|████████▍ | 8227/9753 [1:27:26<15:02,  1.69it/s]Training 3/3 epoch (loss 0.4467):  84%|████████▍ | 8228/9753 [1:27:26<14:42,  1.73it/s]Training 3/3 epoch (loss 0.4828):  84%|████████▍ | 8228/9753 [1:27:26<14:42,  1.73it/s]Training 3/3 epoch (loss 0.4828):  84%|████████▍ | 8229/9753 [1:27:26<14:34,  1.74it/s]Training 3/3 epoch (loss 0.3215):  84%|████████▍ | 8229/9753 [1:27:27<14:34,  1.74it/s]Training 3/3 epoch (loss 0.3215):  84%|████████▍ | 8230/9753 [1:27:27<14:45,  1.72it/s]Training 3/3 epoch (loss 0.5100):  84%|████████▍ | 8230/9753 [1:27:28<14:45,  1.72it/s]Training 3/3 epoch (loss 0.5100):  84%|████████▍ | 8231/9753 [1:27:28<15:28,  1.64it/s]Training 3/3 epoch (loss 0.6438):  84%|████████▍ | 8231/9753 [1:27:28<15:28,  1.64it/s]Training 3/3 epoch (loss 0.6438):  84%|████████▍ | 8232/9753 [1:27:28<15:39,  1.62it/s]Training 3/3 epoch (loss 0.4053):  84%|████████▍ | 8232/9753 [1:27:29<15:39,  1.62it/s]Training 3/3 epoch (loss 0.4053):  84%|████████▍ | 8233/9753 [1:27:29<15:45,  1.61it/s]Training 3/3 epoch (loss 0.3094):  84%|████████▍ | 8233/9753 [1:27:29<15:45,  1.61it/s]Training 3/3 epoch (loss 0.3094):  84%|████████▍ | 8234/9753 [1:27:29<15:16,  1.66it/s]Training 3/3 epoch (loss 0.3724):  84%|████████▍ | 8234/9753 [1:27:30<15:16,  1.66it/s]Training 3/3 epoch (loss 0.3724):  84%|████████▍ | 8235/9753 [1:27:30<15:46,  1.60it/s]Training 3/3 epoch (loss 0.3049):  84%|████████▍ | 8235/9753 [1:27:31<15:46,  1.60it/s]Training 3/3 epoch (loss 0.3049):  84%|████████▍ | 8236/9753 [1:27:31<15:11,  1.66it/s]Training 3/3 epoch (loss 0.4230):  84%|████████▍ | 8236/9753 [1:27:31<15:11,  1.66it/s]Training 3/3 epoch (loss 0.4230):  84%|████████▍ | 8237/9753 [1:27:31<15:00,  1.68it/s]Training 3/3 epoch (loss 0.2211):  84%|████████▍ | 8237/9753 [1:27:32<15:00,  1.68it/s]Training 3/3 epoch (loss 0.2211):  84%|████████▍ | 8238/9753 [1:27:32<15:05,  1.67it/s]Training 3/3 epoch (loss 0.4322):  84%|████████▍ | 8238/9753 [1:27:32<15:05,  1.67it/s]Training 3/3 epoch (loss 0.4322):  84%|████████▍ | 8239/9753 [1:27:32<14:46,  1.71it/s]Training 3/3 epoch (loss 0.3983):  84%|████████▍ | 8239/9753 [1:27:33<14:46,  1.71it/s]Training 3/3 epoch (loss 0.3983):  84%|████████▍ | 8240/9753 [1:27:33<17:50,  1.41it/s]Training 3/3 epoch (loss 0.4572):  84%|████████▍ | 8240/9753 [1:27:34<17:50,  1.41it/s]Training 3/3 epoch (loss 0.4572):  84%|████████▍ | 8241/9753 [1:27:34<16:51,  1.49it/s]Training 3/3 epoch (loss 0.5352):  84%|████████▍ | 8241/9753 [1:27:35<16:51,  1.49it/s]Training 3/3 epoch (loss 0.5352):  85%|████████▍ | 8242/9753 [1:27:35<17:09,  1.47it/s]Training 3/3 epoch (loss 0.5428):  85%|████████▍ | 8242/9753 [1:27:36<17:09,  1.47it/s]Training 3/3 epoch (loss 0.5428):  85%|████████▍ | 8243/9753 [1:27:36<18:13,  1.38it/s]Training 3/3 epoch (loss 0.3145):  85%|████████▍ | 8243/9753 [1:27:36<18:13,  1.38it/s]Training 3/3 epoch (loss 0.3145):  85%|████████▍ | 8244/9753 [1:27:36<17:40,  1.42it/s]Training 3/3 epoch (loss 0.3463):  85%|████████▍ | 8244/9753 [1:27:37<17:40,  1.42it/s]Training 3/3 epoch (loss 0.3463):  85%|████████▍ | 8245/9753 [1:27:37<17:01,  1.48it/s]Training 3/3 epoch (loss 0.6092):  85%|████████▍ | 8245/9753 [1:27:37<17:01,  1.48it/s]Training 3/3 epoch (loss 0.6092):  85%|████████▍ | 8246/9753 [1:27:37<16:05,  1.56it/s]Training 3/3 epoch (loss 0.3642):  85%|████████▍ | 8246/9753 [1:27:38<16:05,  1.56it/s]Training 3/3 epoch (loss 0.3642):  85%|████████▍ | 8247/9753 [1:27:38<15:20,  1.64it/s]Training 3/3 epoch (loss 0.4682):  85%|████████▍ | 8247/9753 [1:27:38<15:20,  1.64it/s]Training 3/3 epoch (loss 0.4682):  85%|████████▍ | 8248/9753 [1:27:38<14:52,  1.69it/s]Training 3/3 epoch (loss 0.4936):  85%|████████▍ | 8248/9753 [1:27:39<14:52,  1.69it/s]Training 3/3 epoch (loss 0.4936):  85%|████████▍ | 8249/9753 [1:27:39<14:30,  1.73it/s]Training 3/3 epoch (loss 0.3851):  85%|████████▍ | 8249/9753 [1:27:40<14:30,  1.73it/s]Training 3/3 epoch (loss 0.3851):  85%|████████▍ | 8250/9753 [1:27:40<14:38,  1.71it/s]Training 3/3 epoch (loss 0.3322):  85%|████████▍ | 8250/9753 [1:27:40<14:38,  1.71it/s]Training 3/3 epoch (loss 0.3322):  85%|████████▍ | 8251/9753 [1:27:40<15:46,  1.59it/s]Training 3/3 epoch (loss 0.5747):  85%|████████▍ | 8251/9753 [1:27:41<15:46,  1.59it/s]Training 3/3 epoch (loss 0.5747):  85%|████████▍ | 8252/9753 [1:27:41<15:25,  1.62it/s]Training 3/3 epoch (loss 0.3086):  85%|████████▍ | 8252/9753 [1:27:41<15:25,  1.62it/s]Training 3/3 epoch (loss 0.3086):  85%|████████▍ | 8253/9753 [1:27:41<14:55,  1.68it/s]Training 3/3 epoch (loss 0.4403):  85%|████████▍ | 8253/9753 [1:27:42<14:55,  1.68it/s]Training 3/3 epoch (loss 0.4403):  85%|████████▍ | 8254/9753 [1:27:42<15:32,  1.61it/s]Training 3/3 epoch (loss 0.3707):  85%|████████▍ | 8254/9753 [1:27:43<15:32,  1.61it/s]Training 3/3 epoch (loss 0.3707):  85%|████████▍ | 8255/9753 [1:27:43<15:07,  1.65it/s]Training 3/3 epoch (loss 0.5178):  85%|████████▍ | 8255/9753 [1:27:44<15:07,  1.65it/s]Training 3/3 epoch (loss 0.5178):  85%|████████▍ | 8256/9753 [1:27:44<16:44,  1.49it/s]Training 3/3 epoch (loss 0.5601):  85%|████████▍ | 8256/9753 [1:27:44<16:44,  1.49it/s]Training 3/3 epoch (loss 0.5601):  85%|████████▍ | 8257/9753 [1:27:44<15:57,  1.56it/s]Training 3/3 epoch (loss 0.3526):  85%|████████▍ | 8257/9753 [1:27:45<15:57,  1.56it/s]Training 3/3 epoch (loss 0.3526):  85%|████████▍ | 8258/9753 [1:27:45<15:27,  1.61it/s]Training 3/3 epoch (loss 0.4848):  85%|████████▍ | 8258/9753 [1:27:45<15:27,  1.61it/s]Training 3/3 epoch (loss 0.4848):  85%|████████▍ | 8259/9753 [1:27:45<15:09,  1.64it/s]Training 3/3 epoch (loss 0.4606):  85%|████████▍ | 8259/9753 [1:27:46<15:09,  1.64it/s]Training 3/3 epoch (loss 0.4606):  85%|████████▍ | 8260/9753 [1:27:46<14:45,  1.69it/s]Training 3/3 epoch (loss 0.5868):  85%|████████▍ | 8260/9753 [1:27:47<14:45,  1.69it/s]Training 3/3 epoch (loss 0.5868):  85%|████████▍ | 8261/9753 [1:27:47<16:39,  1.49it/s]Training 3/3 epoch (loss 0.5334):  85%|████████▍ | 8261/9753 [1:27:47<16:39,  1.49it/s]Training 3/3 epoch (loss 0.5334):  85%|████████▍ | 8262/9753 [1:27:47<16:57,  1.47it/s]Training 3/3 epoch (loss 0.4020):  85%|████████▍ | 8262/9753 [1:27:48<16:57,  1.47it/s]Training 3/3 epoch (loss 0.4020):  85%|████████▍ | 8263/9753 [1:27:48<16:00,  1.55it/s]Training 3/3 epoch (loss 0.5124):  85%|████████▍ | 8263/9753 [1:27:48<16:00,  1.55it/s]Training 3/3 epoch (loss 0.5124):  85%|████████▍ | 8264/9753 [1:27:48<15:32,  1.60it/s]Training 3/3 epoch (loss 0.3727):  85%|████████▍ | 8264/9753 [1:27:49<15:32,  1.60it/s]Training 3/3 epoch (loss 0.3727):  85%|████████▍ | 8265/9753 [1:27:49<14:54,  1.66it/s]Training 3/3 epoch (loss 0.4466):  85%|████████▍ | 8265/9753 [1:27:50<14:54,  1.66it/s]Training 3/3 epoch (loss 0.4466):  85%|████████▍ | 8266/9753 [1:27:50<15:04,  1.64it/s]Training 3/3 epoch (loss 0.7293):  85%|████████▍ | 8266/9753 [1:27:50<15:04,  1.64it/s]Training 3/3 epoch (loss 0.7293):  85%|████████▍ | 8267/9753 [1:27:50<15:13,  1.63it/s]Training 3/3 epoch (loss 0.3908):  85%|████████▍ | 8267/9753 [1:27:51<15:13,  1.63it/s]Training 3/3 epoch (loss 0.3908):  85%|████████▍ | 8268/9753 [1:27:51<15:08,  1.64it/s]Training 3/3 epoch (loss 0.3087):  85%|████████▍ | 8268/9753 [1:27:51<15:08,  1.64it/s]Training 3/3 epoch (loss 0.3087):  85%|████████▍ | 8269/9753 [1:27:51<14:37,  1.69it/s]Training 3/3 epoch (loss 0.3865):  85%|████████▍ | 8269/9753 [1:27:52<14:37,  1.69it/s]Training 3/3 epoch (loss 0.3865):  85%|████████▍ | 8270/9753 [1:27:52<14:16,  1.73it/s]Training 3/3 epoch (loss 0.4606):  85%|████████▍ | 8270/9753 [1:27:53<14:16,  1.73it/s]Training 3/3 epoch (loss 0.4606):  85%|████████▍ | 8271/9753 [1:27:53<14:24,  1.71it/s]Training 3/3 epoch (loss 0.5089):  85%|████████▍ | 8271/9753 [1:27:53<14:24,  1.71it/s]Training 3/3 epoch (loss 0.5089):  85%|████████▍ | 8272/9753 [1:27:53<15:08,  1.63it/s]Training 3/3 epoch (loss 0.6134):  85%|████████▍ | 8272/9753 [1:27:54<15:08,  1.63it/s]Training 3/3 epoch (loss 0.6134):  85%|████████▍ | 8273/9753 [1:27:54<17:14,  1.43it/s]Training 3/3 epoch (loss 0.3523):  85%|████████▍ | 8273/9753 [1:27:55<17:14,  1.43it/s]Training 3/3 epoch (loss 0.3523):  85%|████████▍ | 8274/9753 [1:27:55<17:14,  1.43it/s]Training 3/3 epoch (loss 0.5888):  85%|████████▍ | 8274/9753 [1:27:56<17:14,  1.43it/s]Training 3/3 epoch (loss 0.5888):  85%|████████▍ | 8275/9753 [1:27:56<18:41,  1.32it/s]Training 3/3 epoch (loss 0.3719):  85%|████████▍ | 8275/9753 [1:27:57<18:41,  1.32it/s]Training 3/3 epoch (loss 0.3719):  85%|████████▍ | 8276/9753 [1:27:57<19:45,  1.25it/s]Training 3/3 epoch (loss 0.3562):  85%|████████▍ | 8276/9753 [1:27:58<19:45,  1.25it/s]Training 3/3 epoch (loss 0.3562):  85%|████████▍ | 8277/9753 [1:27:58<21:01,  1.17it/s]Training 3/3 epoch (loss 0.4394):  85%|████████▍ | 8277/9753 [1:27:58<21:01,  1.17it/s]Training 3/3 epoch (loss 0.4394):  85%|████████▍ | 8278/9753 [1:27:58<20:00,  1.23it/s]Training 3/3 epoch (loss 0.3663):  85%|████████▍ | 8278/9753 [1:27:59<20:00,  1.23it/s]Training 3/3 epoch (loss 0.3663):  85%|████████▍ | 8279/9753 [1:27:59<18:34,  1.32it/s]Training 3/3 epoch (loss 0.5253):  85%|████████▍ | 8279/9753 [1:28:00<18:34,  1.32it/s]Training 3/3 epoch (loss 0.5253):  85%|████████▍ | 8280/9753 [1:28:00<19:26,  1.26it/s]Training 3/3 epoch (loss 0.1626):  85%|████████▍ | 8280/9753 [1:28:01<19:26,  1.26it/s]Training 3/3 epoch (loss 0.1626):  85%|████████▍ | 8281/9753 [1:28:01<19:09,  1.28it/s]Training 3/3 epoch (loss 0.7419):  85%|████████▍ | 8281/9753 [1:28:01<19:09,  1.28it/s]Training 3/3 epoch (loss 0.7419):  85%|████████▍ | 8282/9753 [1:28:01<19:51,  1.23it/s]Training 3/3 epoch (loss 0.6587):  85%|████████▍ | 8282/9753 [1:28:02<19:51,  1.23it/s]Training 3/3 epoch (loss 0.6587):  85%|████████▍ | 8283/9753 [1:28:02<20:30,  1.19it/s]Training 3/3 epoch (loss 0.5575):  85%|████████▍ | 8283/9753 [1:28:03<20:30,  1.19it/s]Training 3/3 epoch (loss 0.5575):  85%|████████▍ | 8284/9753 [1:28:03<18:36,  1.32it/s]Training 3/3 epoch (loss 0.3978):  85%|████████▍ | 8284/9753 [1:28:04<18:36,  1.32it/s]Training 3/3 epoch (loss 0.3978):  85%|████████▍ | 8285/9753 [1:28:04<19:01,  1.29it/s]Training 3/3 epoch (loss 0.6718):  85%|████████▍ | 8285/9753 [1:28:05<19:01,  1.29it/s]Training 3/3 epoch (loss 0.6718):  85%|████████▍ | 8286/9753 [1:28:05<18:33,  1.32it/s]Training 3/3 epoch (loss 0.3797):  85%|████████▍ | 8286/9753 [1:28:05<18:33,  1.32it/s]Training 3/3 epoch (loss 0.3797):  85%|████████▍ | 8287/9753 [1:28:05<17:08,  1.43it/s]Training 3/3 epoch (loss 0.5020):  85%|████████▍ | 8287/9753 [1:28:06<17:08,  1.43it/s]Training 3/3 epoch (loss 0.5020):  85%|████████▍ | 8288/9753 [1:28:06<18:05,  1.35it/s]Training 3/3 epoch (loss 0.2844):  85%|████████▍ | 8288/9753 [1:28:06<18:05,  1.35it/s]Training 3/3 epoch (loss 0.2844):  85%|████████▍ | 8289/9753 [1:28:06<16:45,  1.46it/s]Training 3/3 epoch (loss 0.3108):  85%|████████▍ | 8289/9753 [1:28:07<16:45,  1.46it/s]Training 3/3 epoch (loss 0.3108):  85%|████████▍ | 8290/9753 [1:28:07<15:48,  1.54it/s]Training 3/3 epoch (loss 0.3921):  85%|████████▍ | 8290/9753 [1:28:08<15:48,  1.54it/s]Training 3/3 epoch (loss 0.3921):  85%|████████▌ | 8291/9753 [1:28:08<15:12,  1.60it/s]Training 3/3 epoch (loss 0.4276):  85%|████████▌ | 8291/9753 [1:28:08<15:12,  1.60it/s]Training 3/3 epoch (loss 0.4276):  85%|████████▌ | 8292/9753 [1:28:08<15:43,  1.55it/s]Training 3/3 epoch (loss 0.6222):  85%|████████▌ | 8292/9753 [1:28:09<15:43,  1.55it/s]Training 3/3 epoch (loss 0.6222):  85%|████████▌ | 8293/9753 [1:28:09<15:36,  1.56it/s]Training 3/3 epoch (loss 0.3360):  85%|████████▌ | 8293/9753 [1:28:09<15:36,  1.56it/s]Training 3/3 epoch (loss 0.3360):  85%|████████▌ | 8294/9753 [1:28:09<15:03,  1.61it/s]Training 3/3 epoch (loss 0.5621):  85%|████████▌ | 8294/9753 [1:28:10<15:03,  1.61it/s]Training 3/3 epoch (loss 0.5621):  85%|████████▌ | 8295/9753 [1:28:10<15:26,  1.57it/s]Training 3/3 epoch (loss 0.4796):  85%|████████▌ | 8295/9753 [1:28:11<15:26,  1.57it/s]Training 3/3 epoch (loss 0.4796):  85%|████████▌ | 8296/9753 [1:28:11<15:05,  1.61it/s]Training 3/3 epoch (loss 0.4555):  85%|████████▌ | 8296/9753 [1:28:11<15:05,  1.61it/s]Training 3/3 epoch (loss 0.4555):  85%|████████▌ | 8297/9753 [1:28:11<15:29,  1.57it/s]Training 3/3 epoch (loss 0.3494):  85%|████████▌ | 8297/9753 [1:28:12<15:29,  1.57it/s]Training 3/3 epoch (loss 0.3494):  85%|████████▌ | 8298/9753 [1:28:12<15:02,  1.61it/s]Training 3/3 epoch (loss 0.5219):  85%|████████▌ | 8298/9753 [1:28:13<15:02,  1.61it/s]Training 3/3 epoch (loss 0.5219):  85%|████████▌ | 8299/9753 [1:28:13<14:29,  1.67it/s]Training 3/3 epoch (loss 0.5674):  85%|████████▌ | 8299/9753 [1:28:13<14:29,  1.67it/s]Training 3/3 epoch (loss 0.5674):  85%|████████▌ | 8300/9753 [1:28:13<16:38,  1.46it/s]Training 3/3 epoch (loss 0.6780):  85%|████████▌ | 8300/9753 [1:28:14<16:38,  1.46it/s]Training 3/3 epoch (loss 0.6780):  85%|████████▌ | 8301/9753 [1:28:14<16:21,  1.48it/s]Training 3/3 epoch (loss 0.2935):  85%|████████▌ | 8301/9753 [1:28:15<16:21,  1.48it/s]Training 3/3 epoch (loss 0.2935):  85%|████████▌ | 8302/9753 [1:28:15<15:26,  1.57it/s]Training 3/3 epoch (loss 0.4283):  85%|████████▌ | 8302/9753 [1:28:15<15:26,  1.57it/s]Training 3/3 epoch (loss 0.4283):  85%|████████▌ | 8303/9753 [1:28:15<14:48,  1.63it/s]Training 3/3 epoch (loss 0.5078):  85%|████████▌ | 8303/9753 [1:28:16<14:48,  1.63it/s]Training 3/3 epoch (loss 0.5078):  85%|████████▌ | 8304/9753 [1:28:16<17:42,  1.36it/s]Training 3/3 epoch (loss 0.4626):  85%|████████▌ | 8304/9753 [1:28:17<17:42,  1.36it/s]Training 3/3 epoch (loss 0.4626):  85%|████████▌ | 8305/9753 [1:28:17<16:32,  1.46it/s]Training 3/3 epoch (loss 0.5320):  85%|████████▌ | 8305/9753 [1:28:17<16:32,  1.46it/s]Training 3/3 epoch (loss 0.5320):  85%|████████▌ | 8306/9753 [1:28:17<15:59,  1.51it/s]Training 3/3 epoch (loss 0.2787):  85%|████████▌ | 8306/9753 [1:28:18<15:59,  1.51it/s]Training 3/3 epoch (loss 0.2787):  85%|████████▌ | 8307/9753 [1:28:18<15:12,  1.59it/s]Training 3/3 epoch (loss 0.3848):  85%|████████▌ | 8307/9753 [1:28:19<15:12,  1.59it/s]Training 3/3 epoch (loss 0.3848):  85%|████████▌ | 8308/9753 [1:28:19<15:04,  1.60it/s]Training 3/3 epoch (loss 0.5068):  85%|████████▌ | 8308/9753 [1:28:19<15:04,  1.60it/s]Training 3/3 epoch (loss 0.5068):  85%|████████▌ | 8309/9753 [1:28:19<14:35,  1.65it/s]Training 3/3 epoch (loss 0.4812):  85%|████████▌ | 8309/9753 [1:28:20<14:35,  1.65it/s]Training 3/3 epoch (loss 0.4812):  85%|████████▌ | 8310/9753 [1:28:20<14:08,  1.70it/s]Training 3/3 epoch (loss 0.4567):  85%|████████▌ | 8310/9753 [1:28:20<14:08,  1.70it/s]Training 3/3 epoch (loss 0.4567):  85%|████████▌ | 8311/9753 [1:28:20<13:53,  1.73it/s]Training 3/3 epoch (loss 0.2793):  85%|████████▌ | 8311/9753 [1:28:21<13:53,  1.73it/s]Training 3/3 epoch (loss 0.2793):  85%|████████▌ | 8312/9753 [1:28:21<13:41,  1.75it/s]Training 3/3 epoch (loss 0.3797):  85%|████████▌ | 8312/9753 [1:28:21<13:41,  1.75it/s]Training 3/3 epoch (loss 0.3797):  85%|████████▌ | 8313/9753 [1:28:21<14:04,  1.71it/s]Training 3/3 epoch (loss 0.2986):  85%|████████▌ | 8313/9753 [1:28:22<14:04,  1.71it/s]Training 3/3 epoch (loss 0.2986):  85%|████████▌ | 8314/9753 [1:28:22<13:46,  1.74it/s]Training 3/3 epoch (loss 0.3503):  85%|████████▌ | 8314/9753 [1:28:23<13:46,  1.74it/s]Training 3/3 epoch (loss 0.3503):  85%|████████▌ | 8315/9753 [1:28:23<13:35,  1.76it/s]Training 3/3 epoch (loss 0.2172):  85%|████████▌ | 8315/9753 [1:28:23<13:35,  1.76it/s]Training 3/3 epoch (loss 0.2172):  85%|████████▌ | 8316/9753 [1:28:23<13:26,  1.78it/s]Training 3/3 epoch (loss 0.2850):  85%|████████▌ | 8316/9753 [1:28:24<13:26,  1.78it/s]Training 3/3 epoch (loss 0.2850):  85%|████████▌ | 8317/9753 [1:28:24<13:22,  1.79it/s]Training 3/3 epoch (loss 0.3801):  85%|████████▌ | 8317/9753 [1:28:24<13:22,  1.79it/s]Training 3/3 epoch (loss 0.3801):  85%|████████▌ | 8318/9753 [1:28:24<14:11,  1.69it/s]Training 3/3 epoch (loss 0.6220):  85%|████████▌ | 8318/9753 [1:28:25<14:11,  1.69it/s]Training 3/3 epoch (loss 0.6220):  85%|████████▌ | 8319/9753 [1:28:25<14:22,  1.66it/s]Training 3/3 epoch (loss 0.3443):  85%|████████▌ | 8319/9753 [1:28:26<14:22,  1.66it/s]Training 3/3 epoch (loss 0.3443):  85%|████████▌ | 8320/9753 [1:28:26<14:56,  1.60it/s]Training 3/3 epoch (loss 0.4824):  85%|████████▌ | 8320/9753 [1:28:26<14:56,  1.60it/s]Training 3/3 epoch (loss 0.4824):  85%|████████▌ | 8321/9753 [1:28:26<14:27,  1.65it/s]Training 3/3 epoch (loss 0.5561):  85%|████████▌ | 8321/9753 [1:28:27<14:27,  1.65it/s]Training 3/3 epoch (loss 0.5561):  85%|████████▌ | 8322/9753 [1:28:27<14:07,  1.69it/s]Training 3/3 epoch (loss 0.3298):  85%|████████▌ | 8322/9753 [1:28:27<14:07,  1.69it/s]Training 3/3 epoch (loss 0.3298):  85%|████████▌ | 8323/9753 [1:28:27<13:49,  1.72it/s]Training 3/3 epoch (loss 0.6594):  85%|████████▌ | 8323/9753 [1:28:28<13:49,  1.72it/s]Training 3/3 epoch (loss 0.6594):  85%|████████▌ | 8324/9753 [1:28:28<13:36,  1.75it/s]Training 3/3 epoch (loss 0.5187):  85%|████████▌ | 8324/9753 [1:28:28<13:36,  1.75it/s]Training 3/3 epoch (loss 0.5187):  85%|████████▌ | 8325/9753 [1:28:28<13:46,  1.73it/s]Training 3/3 epoch (loss 0.2613):  85%|████████▌ | 8325/9753 [1:28:29<13:46,  1.73it/s]Training 3/3 epoch (loss 0.2613):  85%|████████▌ | 8326/9753 [1:28:29<13:30,  1.76it/s]Training 3/3 epoch (loss 0.3936):  85%|████████▌ | 8326/9753 [1:28:29<13:30,  1.76it/s]Training 3/3 epoch (loss 0.3936):  85%|████████▌ | 8327/9753 [1:28:29<13:21,  1.78it/s]Training 3/3 epoch (loss 0.3643):  85%|████████▌ | 8327/9753 [1:28:30<13:21,  1.78it/s]Training 3/3 epoch (loss 0.3643):  85%|████████▌ | 8328/9753 [1:28:30<13:15,  1.79it/s]Training 3/3 epoch (loss 0.5568):  85%|████████▌ | 8328/9753 [1:28:31<13:15,  1.79it/s]Training 3/3 epoch (loss 0.5568):  85%|████████▌ | 8329/9753 [1:28:31<15:02,  1.58it/s]Training 3/3 epoch (loss 0.4151):  85%|████████▌ | 8329/9753 [1:28:31<15:02,  1.58it/s]Training 3/3 epoch (loss 0.4151):  85%|████████▌ | 8330/9753 [1:28:31<14:29,  1.64it/s]Training 3/3 epoch (loss 0.4247):  85%|████████▌ | 8330/9753 [1:28:32<14:29,  1.64it/s]Training 3/3 epoch (loss 0.4247):  85%|████████▌ | 8331/9753 [1:28:32<14:10,  1.67it/s]Training 3/3 epoch (loss 0.4577):  85%|████████▌ | 8331/9753 [1:28:33<14:10,  1.67it/s]Training 3/3 epoch (loss 0.4577):  85%|████████▌ | 8332/9753 [1:28:33<13:52,  1.71it/s]Training 3/3 epoch (loss 0.4569):  85%|████████▌ | 8332/9753 [1:28:33<13:52,  1.71it/s]Training 3/3 epoch (loss 0.4569):  85%|████████▌ | 8333/9753 [1:28:33<13:36,  1.74it/s]Training 3/3 epoch (loss 0.4776):  85%|████████▌ | 8333/9753 [1:28:34<13:36,  1.74it/s]Training 3/3 epoch (loss 0.4776):  85%|████████▌ | 8334/9753 [1:28:34<14:20,  1.65it/s]Training 3/3 epoch (loss 0.4402):  85%|████████▌ | 8334/9753 [1:28:34<14:20,  1.65it/s]Training 3/3 epoch (loss 0.4402):  85%|████████▌ | 8335/9753 [1:28:34<14:16,  1.66it/s]Training 3/3 epoch (loss 0.5367):  85%|████████▌ | 8335/9753 [1:28:35<14:16,  1.66it/s]Training 3/3 epoch (loss 0.5367):  85%|████████▌ | 8336/9753 [1:28:35<16:45,  1.41it/s]Training 3/3 epoch (loss 0.3571):  85%|████████▌ | 8336/9753 [1:28:36<16:45,  1.41it/s]Training 3/3 epoch (loss 0.3571):  85%|████████▌ | 8337/9753 [1:28:36<15:42,  1.50it/s]Training 3/3 epoch (loss 0.5054):  85%|████████▌ | 8337/9753 [1:28:37<15:42,  1.50it/s]Training 3/3 epoch (loss 0.5054):  85%|████████▌ | 8338/9753 [1:28:37<16:16,  1.45it/s]Training 3/3 epoch (loss 0.5311):  85%|████████▌ | 8338/9753 [1:28:37<16:16,  1.45it/s]Training 3/3 epoch (loss 0.5311):  86%|████████▌ | 8339/9753 [1:28:37<15:49,  1.49it/s]Training 3/3 epoch (loss 0.5667):  86%|████████▌ | 8339/9753 [1:28:38<15:49,  1.49it/s]Training 3/3 epoch (loss 0.5667):  86%|████████▌ | 8340/9753 [1:28:38<15:56,  1.48it/s]Training 3/3 epoch (loss 0.3354):  86%|████████▌ | 8340/9753 [1:28:39<15:56,  1.48it/s]Training 3/3 epoch (loss 0.3354):  86%|████████▌ | 8341/9753 [1:28:39<15:08,  1.55it/s]Training 3/3 epoch (loss 0.5808):  86%|████████▌ | 8341/9753 [1:28:39<15:08,  1.55it/s]Training 3/3 epoch (loss 0.5808):  86%|████████▌ | 8342/9753 [1:28:39<14:34,  1.61it/s]Training 3/3 epoch (loss 0.5728):  86%|████████▌ | 8342/9753 [1:28:40<14:34,  1.61it/s]Training 3/3 epoch (loss 0.5728):  86%|████████▌ | 8343/9753 [1:28:40<15:05,  1.56it/s]Training 3/3 epoch (loss 0.6484):  86%|████████▌ | 8343/9753 [1:28:40<15:05,  1.56it/s]Training 3/3 epoch (loss 0.6484):  86%|████████▌ | 8344/9753 [1:28:40<15:07,  1.55it/s]Training 3/3 epoch (loss 0.3878):  86%|████████▌ | 8344/9753 [1:28:41<15:07,  1.55it/s]Training 3/3 epoch (loss 0.3878):  86%|████████▌ | 8345/9753 [1:28:41<14:36,  1.61it/s]Training 3/3 epoch (loss 0.5027):  86%|████████▌ | 8345/9753 [1:28:42<14:36,  1.61it/s]Training 3/3 epoch (loss 0.5027):  86%|████████▌ | 8346/9753 [1:28:42<14:28,  1.62it/s]Training 3/3 epoch (loss 0.3562):  86%|████████▌ | 8346/9753 [1:28:42<14:28,  1.62it/s]Training 3/3 epoch (loss 0.3562):  86%|████████▌ | 8347/9753 [1:28:42<13:57,  1.68it/s]Training 3/3 epoch (loss 0.3436):  86%|████████▌ | 8347/9753 [1:28:43<13:57,  1.68it/s]Training 3/3 epoch (loss 0.3436):  86%|████████▌ | 8348/9753 [1:28:43<14:39,  1.60it/s]Training 3/3 epoch (loss 0.4040):  86%|████████▌ | 8348/9753 [1:28:43<14:39,  1.60it/s]Training 3/3 epoch (loss 0.4040):  86%|████████▌ | 8349/9753 [1:28:43<14:06,  1.66it/s]Training 3/3 epoch (loss 0.4183):  86%|████████▌ | 8349/9753 [1:28:44<14:06,  1.66it/s]Training 3/3 epoch (loss 0.4183):  86%|████████▌ | 8350/9753 [1:28:44<13:46,  1.70it/s]Training 3/3 epoch (loss 0.4960):  86%|████████▌ | 8350/9753 [1:28:44<13:46,  1.70it/s]Training 3/3 epoch (loss 0.4960):  86%|████████▌ | 8351/9753 [1:28:44<13:29,  1.73it/s]Training 3/3 epoch (loss 0.2367):  86%|████████▌ | 8351/9753 [1:28:45<13:29,  1.73it/s]Training 3/3 epoch (loss 0.2367):  86%|████████▌ | 8352/9753 [1:28:45<14:15,  1.64it/s]Training 3/3 epoch (loss 0.5654):  86%|████████▌ | 8352/9753 [1:28:46<14:15,  1.64it/s]Training 3/3 epoch (loss 0.5654):  86%|████████▌ | 8353/9753 [1:28:46<14:09,  1.65it/s]Training 3/3 epoch (loss 0.3792):  86%|████████▌ | 8353/9753 [1:28:46<14:09,  1.65it/s]Training 3/3 epoch (loss 0.3792):  86%|████████▌ | 8354/9753 [1:28:46<14:45,  1.58it/s]Training 3/3 epoch (loss 0.2958):  86%|████████▌ | 8354/9753 [1:28:47<14:45,  1.58it/s]Training 3/3 epoch (loss 0.2958):  86%|████████▌ | 8355/9753 [1:28:47<15:36,  1.49it/s]Training 3/3 epoch (loss 0.6295):  86%|████████▌ | 8355/9753 [1:28:48<15:36,  1.49it/s]Training 3/3 epoch (loss 0.6295):  86%|████████▌ | 8356/9753 [1:28:48<15:15,  1.53it/s]Training 3/3 epoch (loss 0.6607):  86%|████████▌ | 8356/9753 [1:28:48<15:15,  1.53it/s]Training 3/3 epoch (loss 0.6607):  86%|████████▌ | 8357/9753 [1:28:48<15:07,  1.54it/s]Training 3/3 epoch (loss 0.7156):  86%|████████▌ | 8357/9753 [1:28:49<15:07,  1.54it/s]Training 3/3 epoch (loss 0.7156):  86%|████████▌ | 8358/9753 [1:28:49<14:29,  1.60it/s]Training 3/3 epoch (loss 0.5452):  86%|████████▌ | 8358/9753 [1:28:50<14:29,  1.60it/s]Training 3/3 epoch (loss 0.5452):  86%|████████▌ | 8359/9753 [1:28:50<14:54,  1.56it/s]Training 3/3 epoch (loss 0.3292):  86%|████████▌ | 8359/9753 [1:28:50<14:54,  1.56it/s]Training 3/3 epoch (loss 0.3292):  86%|████████▌ | 8360/9753 [1:28:50<14:44,  1.58it/s]Training 3/3 epoch (loss 0.5523):  86%|████████▌ | 8360/9753 [1:28:51<14:44,  1.58it/s]Training 3/3 epoch (loss 0.5523):  86%|████████▌ | 8361/9753 [1:28:51<14:07,  1.64it/s]Training 3/3 epoch (loss 0.3701):  86%|████████▌ | 8361/9753 [1:28:51<14:07,  1.64it/s]Training 3/3 epoch (loss 0.3701):  86%|████████▌ | 8362/9753 [1:28:51<13:47,  1.68it/s]Training 3/3 epoch (loss 0.5660):  86%|████████▌ | 8362/9753 [1:28:52<13:47,  1.68it/s]Training 3/3 epoch (loss 0.5660):  86%|████████▌ | 8363/9753 [1:28:52<13:27,  1.72it/s]Training 3/3 epoch (loss 0.4460):  86%|████████▌ | 8363/9753 [1:28:53<13:27,  1.72it/s]Training 3/3 epoch (loss 0.4460):  86%|████████▌ | 8364/9753 [1:28:53<13:21,  1.73it/s]Training 3/3 epoch (loss 0.6791):  86%|████████▌ | 8364/9753 [1:28:53<13:21,  1.73it/s]Training 3/3 epoch (loss 0.6791):  86%|████████▌ | 8365/9753 [1:28:53<13:56,  1.66it/s]Training 3/3 epoch (loss 0.4231):  86%|████████▌ | 8365/9753 [1:28:54<13:56,  1.66it/s]Training 3/3 epoch (loss 0.4231):  86%|████████▌ | 8366/9753 [1:28:54<13:42,  1.69it/s]Training 3/3 epoch (loss 0.3103):  86%|████████▌ | 8366/9753 [1:28:54<13:42,  1.69it/s]Training 3/3 epoch (loss 0.3103):  86%|████████▌ | 8367/9753 [1:28:54<13:56,  1.66it/s]Training 3/3 epoch (loss 0.4239):  86%|████████▌ | 8367/9753 [1:28:55<13:56,  1.66it/s]Training 3/3 epoch (loss 0.4239):  86%|████████▌ | 8368/9753 [1:28:55<14:34,  1.58it/s]Training 3/3 epoch (loss 0.4686):  86%|████████▌ | 8368/9753 [1:28:56<14:34,  1.58it/s]Training 3/3 epoch (loss 0.4686):  86%|████████▌ | 8369/9753 [1:28:56<14:04,  1.64it/s]Training 3/3 epoch (loss 0.6072):  86%|████████▌ | 8369/9753 [1:28:56<14:04,  1.64it/s]Training 3/3 epoch (loss 0.6072):  86%|████████▌ | 8370/9753 [1:28:56<13:39,  1.69it/s]Training 3/3 epoch (loss 0.4768):  86%|████████▌ | 8370/9753 [1:28:57<13:39,  1.69it/s]Training 3/3 epoch (loss 0.4768):  86%|████████▌ | 8371/9753 [1:28:57<13:21,  1.72it/s]Training 3/3 epoch (loss 0.6195):  86%|████████▌ | 8371/9753 [1:28:57<13:21,  1.72it/s]Training 3/3 epoch (loss 0.6195):  86%|████████▌ | 8372/9753 [1:28:57<13:34,  1.69it/s]Training 3/3 epoch (loss 0.4949):  86%|████████▌ | 8372/9753 [1:28:58<13:34,  1.69it/s]Training 3/3 epoch (loss 0.4949):  86%|████████▌ | 8373/9753 [1:28:58<14:22,  1.60it/s]Training 3/3 epoch (loss 0.3559):  86%|████████▌ | 8373/9753 [1:28:59<14:22,  1.60it/s]Training 3/3 epoch (loss 0.3559):  86%|████████▌ | 8374/9753 [1:28:59<14:08,  1.62it/s]Training 3/3 epoch (loss 0.4751):  86%|████████▌ | 8374/9753 [1:28:59<14:08,  1.62it/s]Training 3/3 epoch (loss 0.4751):  86%|████████▌ | 8375/9753 [1:28:59<13:58,  1.64it/s]Training 3/3 epoch (loss 0.4364):  86%|████████▌ | 8375/9753 [1:29:00<13:58,  1.64it/s]Training 3/3 epoch (loss 0.4364):  86%|████████▌ | 8376/9753 [1:29:00<13:30,  1.70it/s]Training 3/3 epoch (loss 0.4525):  86%|████████▌ | 8376/9753 [1:29:00<13:30,  1.70it/s]Training 3/3 epoch (loss 0.4525):  86%|████████▌ | 8377/9753 [1:29:00<13:12,  1.74it/s]Training 3/3 epoch (loss 0.6291):  86%|████████▌ | 8377/9753 [1:29:01<13:12,  1.74it/s]Training 3/3 epoch (loss 0.6291):  86%|████████▌ | 8378/9753 [1:29:01<13:26,  1.70it/s]Training 3/3 epoch (loss 0.3948):  86%|████████▌ | 8378/9753 [1:29:02<13:26,  1.70it/s]Training 3/3 epoch (loss 0.3948):  86%|████████▌ | 8379/9753 [1:29:02<14:04,  1.63it/s]Training 3/3 epoch (loss 0.4463):  86%|████████▌ | 8379/9753 [1:29:03<14:04,  1.63it/s]Training 3/3 epoch (loss 0.4463):  86%|████████▌ | 8380/9753 [1:29:03<15:36,  1.47it/s]Training 3/3 epoch (loss 0.4472):  86%|████████▌ | 8380/9753 [1:29:03<15:36,  1.47it/s]Training 3/3 epoch (loss 0.4472):  86%|████████▌ | 8381/9753 [1:29:03<16:28,  1.39it/s]Training 3/3 epoch (loss 0.8069):  86%|████████▌ | 8381/9753 [1:29:04<16:28,  1.39it/s]Training 3/3 epoch (loss 0.8069):  86%|████████▌ | 8382/9753 [1:29:04<17:20,  1.32it/s]Training 3/3 epoch (loss 0.8231):  86%|████████▌ | 8382/9753 [1:29:05<17:20,  1.32it/s]Training 3/3 epoch (loss 0.8231):  86%|████████▌ | 8383/9753 [1:29:05<16:48,  1.36it/s]Training 3/3 epoch (loss 0.2401):  86%|████████▌ | 8383/9753 [1:29:06<16:48,  1.36it/s]Training 3/3 epoch (loss 0.2401):  86%|████████▌ | 8384/9753 [1:29:06<16:19,  1.40it/s]Training 3/3 epoch (loss 0.2623):  86%|████████▌ | 8384/9753 [1:29:06<16:19,  1.40it/s]Training 3/3 epoch (loss 0.2623):  86%|████████▌ | 8385/9753 [1:29:06<15:24,  1.48it/s]Training 3/3 epoch (loss 0.5971):  86%|████████▌ | 8385/9753 [1:29:07<15:24,  1.48it/s]Training 3/3 epoch (loss 0.5971):  86%|████████▌ | 8386/9753 [1:29:07<16:05,  1.42it/s]Training 3/3 epoch (loss 0.5227):  86%|████████▌ | 8386/9753 [1:29:07<16:05,  1.42it/s]Training 3/3 epoch (loss 0.5227):  86%|████████▌ | 8387/9753 [1:29:07<15:19,  1.49it/s]Training 3/3 epoch (loss 0.3935):  86%|████████▌ | 8387/9753 [1:29:08<15:19,  1.49it/s]Training 3/3 epoch (loss 0.3935):  86%|████████▌ | 8388/9753 [1:29:08<14:27,  1.57it/s]Training 3/3 epoch (loss 0.5724):  86%|████████▌ | 8388/9753 [1:29:09<14:27,  1.57it/s]Training 3/3 epoch (loss 0.5724):  86%|████████▌ | 8389/9753 [1:29:09<14:17,  1.59it/s]Training 3/3 epoch (loss 0.3575):  86%|████████▌ | 8389/9753 [1:29:09<14:17,  1.59it/s]Training 3/3 epoch (loss 0.3575):  86%|████████▌ | 8390/9753 [1:29:09<14:00,  1.62it/s]Training 3/3 epoch (loss 0.2361):  86%|████████▌ | 8390/9753 [1:29:10<14:00,  1.62it/s]Training 3/3 epoch (loss 0.2361):  86%|████████▌ | 8391/9753 [1:29:10<13:31,  1.68it/s]Training 3/3 epoch (loss 0.7112):  86%|████████▌ | 8391/9753 [1:29:10<13:31,  1.68it/s]Training 3/3 epoch (loss 0.7112):  86%|████████▌ | 8392/9753 [1:29:10<13:33,  1.67it/s]Training 3/3 epoch (loss 0.4802):  86%|████████▌ | 8392/9753 [1:29:11<13:33,  1.67it/s]Training 3/3 epoch (loss 0.4802):  86%|████████▌ | 8393/9753 [1:29:11<13:12,  1.72it/s]Training 3/3 epoch (loss 0.2646):  86%|████████▌ | 8393/9753 [1:29:11<13:12,  1.72it/s]Training 3/3 epoch (loss 0.2646):  86%|████████▌ | 8394/9753 [1:29:11<12:58,  1.75it/s]Training 3/3 epoch (loss 0.3684):  86%|████████▌ | 8394/9753 [1:29:12<12:58,  1.75it/s]Training 3/3 epoch (loss 0.3684):  86%|████████▌ | 8395/9753 [1:29:12<12:54,  1.75it/s]Training 3/3 epoch (loss 0.6126):  86%|████████▌ | 8395/9753 [1:29:13<12:54,  1.75it/s]Training 3/3 epoch (loss 0.6126):  86%|████████▌ | 8396/9753 [1:29:13<14:19,  1.58it/s]Training 3/3 epoch (loss 0.4663):  86%|████████▌ | 8396/9753 [1:29:13<14:19,  1.58it/s]Training 3/3 epoch (loss 0.4663):  86%|████████▌ | 8397/9753 [1:29:13<13:43,  1.65it/s]Training 3/3 epoch (loss 0.4719):  86%|████████▌ | 8397/9753 [1:29:14<13:43,  1.65it/s]Training 3/3 epoch (loss 0.4719):  86%|████████▌ | 8398/9753 [1:29:14<13:23,  1.69it/s]Training 3/3 epoch (loss 0.4155):  86%|████████▌ | 8398/9753 [1:29:15<13:23,  1.69it/s]Training 3/3 epoch (loss 0.4155):  86%|████████▌ | 8399/9753 [1:29:15<13:39,  1.65it/s]Training 3/3 epoch (loss 0.3321):  86%|████████▌ | 8399/9753 [1:29:15<13:39,  1.65it/s]Training 3/3 epoch (loss 0.3321):  86%|████████▌ | 8400/9753 [1:29:15<14:09,  1.59it/s]Training 3/3 epoch (loss 0.5616):  86%|████████▌ | 8400/9753 [1:29:16<14:09,  1.59it/s]Training 3/3 epoch (loss 0.5616):  86%|████████▌ | 8401/9753 [1:29:16<14:37,  1.54it/s]Training 3/3 epoch (loss 0.4504):  86%|████████▌ | 8401/9753 [1:29:17<14:37,  1.54it/s]Training 3/3 epoch (loss 0.4504):  86%|████████▌ | 8402/9753 [1:29:17<14:13,  1.58it/s]Training 3/3 epoch (loss 0.5448):  86%|████████▌ | 8402/9753 [1:29:17<14:13,  1.58it/s]Training 3/3 epoch (loss 0.5448):  86%|████████▌ | 8403/9753 [1:29:17<13:39,  1.65it/s]Training 3/3 epoch (loss 0.1852):  86%|████████▌ | 8403/9753 [1:29:18<13:39,  1.65it/s]Training 3/3 epoch (loss 0.1852):  86%|████████▌ | 8404/9753 [1:29:18<13:19,  1.69it/s]Training 3/3 epoch (loss 0.1402):  86%|████████▌ | 8404/9753 [1:29:18<13:19,  1.69it/s]Training 3/3 epoch (loss 0.1402):  86%|████████▌ | 8405/9753 [1:29:18<12:59,  1.73it/s]Training 3/3 epoch (loss 0.5697):  86%|████████▌ | 8405/9753 [1:29:19<12:59,  1.73it/s]Training 3/3 epoch (loss 0.5697):  86%|████████▌ | 8406/9753 [1:29:19<12:48,  1.75it/s]Training 3/3 epoch (loss 0.5888):  86%|████████▌ | 8406/9753 [1:29:19<12:48,  1.75it/s]Training 3/3 epoch (loss 0.5888):  86%|████████▌ | 8407/9753 [1:29:19<13:34,  1.65it/s]Training 3/3 epoch (loss 0.5041):  86%|████████▌ | 8407/9753 [1:29:20<13:34,  1.65it/s]Training 3/3 epoch (loss 0.5041):  86%|████████▌ | 8408/9753 [1:29:20<15:28,  1.45it/s]Training 3/3 epoch (loss 0.4230):  86%|████████▌ | 8408/9753 [1:29:21<15:28,  1.45it/s]Training 3/3 epoch (loss 0.4230):  86%|████████▌ | 8409/9753 [1:29:21<14:49,  1.51it/s]Training 3/3 epoch (loss 0.4056):  86%|████████▌ | 8409/9753 [1:29:21<14:49,  1.51it/s]Training 3/3 epoch (loss 0.4056):  86%|████████▌ | 8410/9753 [1:29:21<14:01,  1.60it/s]Training 3/3 epoch (loss 0.3733):  86%|████████▌ | 8410/9753 [1:29:22<14:01,  1.60it/s]Training 3/3 epoch (loss 0.3733):  86%|████████▌ | 8411/9753 [1:29:22<13:56,  1.60it/s]Training 3/3 epoch (loss 0.2813):  86%|████████▌ | 8411/9753 [1:29:23<13:56,  1.60it/s]Training 3/3 epoch (loss 0.2813):  86%|████████▋ | 8412/9753 [1:29:23<13:29,  1.66it/s]Training 3/3 epoch (loss 0.7641):  86%|████████▋ | 8412/9753 [1:29:23<13:29,  1.66it/s]Training 3/3 epoch (loss 0.7641):  86%|████████▋ | 8413/9753 [1:29:23<13:56,  1.60it/s]Training 3/3 epoch (loss 0.5311):  86%|████████▋ | 8413/9753 [1:29:24<13:56,  1.60it/s]Training 3/3 epoch (loss 0.5311):  86%|████████▋ | 8414/9753 [1:29:24<13:37,  1.64it/s]Training 3/3 epoch (loss 0.3630):  86%|████████▋ | 8414/9753 [1:29:24<13:37,  1.64it/s]Training 3/3 epoch (loss 0.3630):  86%|████████▋ | 8415/9753 [1:29:24<13:10,  1.69it/s]Training 3/3 epoch (loss 0.6069):  86%|████████▋ | 8415/9753 [1:29:25<13:10,  1.69it/s]Training 3/3 epoch (loss 0.6069):  86%|████████▋ | 8416/9753 [1:29:25<14:24,  1.55it/s]Training 3/3 epoch (loss 0.2751):  86%|████████▋ | 8416/9753 [1:29:26<14:24,  1.55it/s]Training 3/3 epoch (loss 0.2751):  86%|████████▋ | 8417/9753 [1:29:26<14:56,  1.49it/s]Training 3/3 epoch (loss 0.5833):  86%|████████▋ | 8417/9753 [1:29:27<14:56,  1.49it/s]Training 3/3 epoch (loss 0.5833):  86%|████████▋ | 8418/9753 [1:29:27<14:54,  1.49it/s]Training 3/3 epoch (loss 0.1861):  86%|████████▋ | 8418/9753 [1:29:27<14:54,  1.49it/s]Training 3/3 epoch (loss 0.1861):  86%|████████▋ | 8419/9753 [1:29:27<14:05,  1.58it/s]Training 3/3 epoch (loss 0.3577):  86%|████████▋ | 8419/9753 [1:29:28<14:05,  1.58it/s]Training 3/3 epoch (loss 0.3577):  86%|████████▋ | 8420/9753 [1:29:28<13:29,  1.65it/s]Training 3/3 epoch (loss 0.3669):  86%|████████▋ | 8420/9753 [1:29:28<13:29,  1.65it/s]Training 3/3 epoch (loss 0.3669):  86%|████████▋ | 8421/9753 [1:29:28<13:31,  1.64it/s]Training 3/3 epoch (loss 0.4986):  86%|████████▋ | 8421/9753 [1:29:29<13:31,  1.64it/s]Training 3/3 epoch (loss 0.4986):  86%|████████▋ | 8422/9753 [1:29:29<13:13,  1.68it/s]Training 3/3 epoch (loss 0.6432):  86%|████████▋ | 8422/9753 [1:29:30<13:13,  1.68it/s]Training 3/3 epoch (loss 0.6432):  86%|████████▋ | 8423/9753 [1:29:30<13:41,  1.62it/s]Training 3/3 epoch (loss 0.5470):  86%|████████▋ | 8423/9753 [1:29:30<13:41,  1.62it/s]Training 3/3 epoch (loss 0.5470):  86%|████████▋ | 8424/9753 [1:29:30<14:12,  1.56it/s]Training 3/3 epoch (loss 0.4384):  86%|████████▋ | 8424/9753 [1:29:31<14:12,  1.56it/s]Training 3/3 epoch (loss 0.4384):  86%|████████▋ | 8425/9753 [1:29:31<14:22,  1.54it/s]Training 3/3 epoch (loss 0.5126):  86%|████████▋ | 8425/9753 [1:29:31<14:22,  1.54it/s]Training 3/3 epoch (loss 0.5126):  86%|████████▋ | 8426/9753 [1:29:31<13:47,  1.60it/s]Training 3/3 epoch (loss 0.4686):  86%|████████▋ | 8426/9753 [1:29:32<13:47,  1.60it/s]Training 3/3 epoch (loss 0.4686):  86%|████████▋ | 8427/9753 [1:29:32<13:16,  1.66it/s]Training 3/3 epoch (loss 0.2572):  86%|████████▋ | 8427/9753 [1:29:33<13:16,  1.66it/s]Training 3/3 epoch (loss 0.2572):  86%|████████▋ | 8428/9753 [1:29:33<12:53,  1.71it/s]Training 3/3 epoch (loss 0.5233):  86%|████████▋ | 8428/9753 [1:29:33<12:53,  1.71it/s]Training 3/3 epoch (loss 0.5233):  86%|████████▋ | 8429/9753 [1:29:33<12:40,  1.74it/s]Training 3/3 epoch (loss 0.2536):  86%|████████▋ | 8429/9753 [1:29:34<12:40,  1.74it/s]Training 3/3 epoch (loss 0.2536):  86%|████████▋ | 8430/9753 [1:29:34<12:30,  1.76it/s]Training 3/3 epoch (loss 0.4748):  86%|████████▋ | 8430/9753 [1:29:34<12:30,  1.76it/s]Training 3/3 epoch (loss 0.4748):  86%|████████▋ | 8431/9753 [1:29:34<12:24,  1.78it/s]Training 3/3 epoch (loss 0.4338):  86%|████████▋ | 8431/9753 [1:29:35<12:24,  1.78it/s]Training 3/3 epoch (loss 0.4338):  86%|████████▋ | 8432/9753 [1:29:35<13:08,  1.67it/s]Training 3/3 epoch (loss 0.4834):  86%|████████▋ | 8432/9753 [1:29:35<13:08,  1.67it/s]Training 3/3 epoch (loss 0.4834):  86%|████████▋ | 8433/9753 [1:29:35<12:57,  1.70it/s]Training 3/3 epoch (loss 0.4860):  86%|████████▋ | 8433/9753 [1:29:36<12:57,  1.70it/s]Training 3/3 epoch (loss 0.4860):  86%|████████▋ | 8434/9753 [1:29:36<14:34,  1.51it/s]Training 3/3 epoch (loss 0.4570):  86%|████████▋ | 8434/9753 [1:29:37<14:34,  1.51it/s]Training 3/3 epoch (loss 0.4570):  86%|████████▋ | 8435/9753 [1:29:37<14:02,  1.56it/s]Training 3/3 epoch (loss 0.5250):  86%|████████▋ | 8435/9753 [1:29:37<14:02,  1.56it/s]Training 3/3 epoch (loss 0.5250):  86%|████████▋ | 8436/9753 [1:29:37<13:50,  1.59it/s]Training 3/3 epoch (loss 0.5306):  86%|████████▋ | 8436/9753 [1:29:38<13:50,  1.59it/s]Training 3/3 epoch (loss 0.5306):  87%|████████▋ | 8437/9753 [1:29:38<13:16,  1.65it/s]Training 3/3 epoch (loss 0.2992):  87%|████████▋ | 8437/9753 [1:29:39<13:16,  1.65it/s]Training 3/3 epoch (loss 0.2992):  87%|████████▋ | 8438/9753 [1:29:39<12:55,  1.70it/s]Training 3/3 epoch (loss 0.3566):  87%|████████▋ | 8438/9753 [1:29:39<12:55,  1.70it/s]Training 3/3 epoch (loss 0.3566):  87%|████████▋ | 8439/9753 [1:29:39<12:37,  1.74it/s]Training 3/3 epoch (loss 0.5960):  87%|████████▋ | 8439/9753 [1:29:40<12:37,  1.74it/s]Training 3/3 epoch (loss 0.5960):  87%|████████▋ | 8440/9753 [1:29:40<12:38,  1.73it/s]Training 3/3 epoch (loss 0.4545):  87%|████████▋ | 8440/9753 [1:29:40<12:38,  1.73it/s]Training 3/3 epoch (loss 0.4545):  87%|████████▋ | 8441/9753 [1:29:40<12:31,  1.74it/s]Training 3/3 epoch (loss 0.3192):  87%|████████▋ | 8441/9753 [1:29:41<12:31,  1.74it/s]Training 3/3 epoch (loss 0.3192):  87%|████████▋ | 8442/9753 [1:29:41<12:22,  1.76it/s]Training 3/3 epoch (loss 0.3035):  87%|████████▋ | 8442/9753 [1:29:41<12:22,  1.76it/s]Training 3/3 epoch (loss 0.3035):  87%|████████▋ | 8443/9753 [1:29:41<12:26,  1.76it/s]Training 3/3 epoch (loss 0.5242):  87%|████████▋ | 8443/9753 [1:29:42<12:26,  1.76it/s]Training 3/3 epoch (loss 0.5242):  87%|████████▋ | 8444/9753 [1:29:42<12:17,  1.77it/s]Training 3/3 epoch (loss 0.4095):  87%|████████▋ | 8444/9753 [1:29:43<12:17,  1.77it/s]Training 3/3 epoch (loss 0.4095):  87%|████████▋ | 8445/9753 [1:29:43<12:21,  1.76it/s]Training 3/3 epoch (loss 0.3702):  87%|████████▋ | 8445/9753 [1:29:43<12:21,  1.76it/s]Training 3/3 epoch (loss 0.3702):  87%|████████▋ | 8446/9753 [1:29:43<12:38,  1.72it/s]Training 3/3 epoch (loss 0.2665):  87%|████████▋ | 8446/9753 [1:29:44<12:38,  1.72it/s]Training 3/3 epoch (loss 0.2665):  87%|████████▋ | 8447/9753 [1:29:44<12:25,  1.75it/s]Training 3/3 epoch (loss 0.4632):  87%|████████▋ | 8447/9753 [1:29:44<12:25,  1.75it/s]Training 3/3 epoch (loss 0.4632):  87%|████████▋ | 8448/9753 [1:29:44<13:38,  1.60it/s]Training 3/3 epoch (loss 0.3374):  87%|████████▋ | 8448/9753 [1:29:45<13:38,  1.60it/s]Training 3/3 epoch (loss 0.3374):  87%|████████▋ | 8449/9753 [1:29:45<14:29,  1.50it/s]Training 3/3 epoch (loss 0.3386):  87%|████████▋ | 8449/9753 [1:29:46<14:29,  1.50it/s]Training 3/3 epoch (loss 0.3386):  87%|████████▋ | 8450/9753 [1:29:46<14:49,  1.46it/s]Training 3/3 epoch (loss 0.2603):  87%|████████▋ | 8450/9753 [1:29:47<14:49,  1.46it/s]Training 3/3 epoch (loss 0.2603):  87%|████████▋ | 8451/9753 [1:29:47<14:27,  1.50it/s]Training 3/3 epoch (loss 0.4221):  87%|████████▋ | 8451/9753 [1:29:47<14:27,  1.50it/s]Training 3/3 epoch (loss 0.4221):  87%|████████▋ | 8452/9753 [1:29:47<14:09,  1.53it/s]Training 3/3 epoch (loss 0.3482):  87%|████████▋ | 8452/9753 [1:29:48<14:09,  1.53it/s]Training 3/3 epoch (loss 0.3482):  87%|████████▋ | 8453/9753 [1:29:48<13:26,  1.61it/s]Training 3/3 epoch (loss 0.3622):  87%|████████▋ | 8453/9753 [1:29:48<13:26,  1.61it/s]Training 3/3 epoch (loss 0.3622):  87%|████████▋ | 8454/9753 [1:29:48<13:31,  1.60it/s]Training 3/3 epoch (loss 0.3834):  87%|████████▋ | 8454/9753 [1:29:49<13:31,  1.60it/s]Training 3/3 epoch (loss 0.3834):  87%|████████▋ | 8455/9753 [1:29:49<13:01,  1.66it/s]Training 3/3 epoch (loss 0.3008):  87%|████████▋ | 8455/9753 [1:29:50<13:01,  1.66it/s]Training 3/3 epoch (loss 0.3008):  87%|████████▋ | 8456/9753 [1:29:50<13:37,  1.59it/s]Training 3/3 epoch (loss 0.8172):  87%|████████▋ | 8456/9753 [1:29:50<13:37,  1.59it/s]Training 3/3 epoch (loss 0.8172):  87%|████████▋ | 8457/9753 [1:29:50<13:12,  1.64it/s]Training 3/3 epoch (loss 0.4365):  87%|████████▋ | 8457/9753 [1:29:51<13:12,  1.64it/s]Training 3/3 epoch (loss 0.4365):  87%|████████▋ | 8458/9753 [1:29:51<13:18,  1.62it/s]Training 3/3 epoch (loss 0.3954):  87%|████████▋ | 8458/9753 [1:29:51<13:18,  1.62it/s]Training 3/3 epoch (loss 0.3954):  87%|████████▋ | 8459/9753 [1:29:51<13:24,  1.61it/s]Training 3/3 epoch (loss 0.3914):  87%|██��█████▋ | 8459/9753 [1:29:52<13:24,  1.61it/s]Training 3/3 epoch (loss 0.3914):  87%|████████▋ | 8460/9753 [1:29:52<14:50,  1.45it/s]Training 3/3 epoch (loss 0.3948):  87%|████████▋ | 8460/9753 [1:29:53<14:50,  1.45it/s]Training 3/3 epoch (loss 0.3948):  87%|████████▋ | 8461/9753 [1:29:53<14:44,  1.46it/s]Training 3/3 epoch (loss 0.7717):  87%|████████▋ | 8461/9753 [1:29:54<14:44,  1.46it/s]Training 3/3 epoch (loss 0.7717):  87%|████████▋ | 8462/9753 [1:29:54<15:38,  1.38it/s]Training 3/3 epoch (loss 0.4870):  87%|████████▋ | 8462/9753 [1:29:54<15:38,  1.38it/s]Training 3/3 epoch (loss 0.4870):  87%|████████▋ | 8463/9753 [1:29:54<14:26,  1.49it/s]Training 3/3 epoch (loss 0.3422):  87%|████████▋ | 8463/9753 [1:29:55<14:26,  1.49it/s]Training 3/3 epoch (loss 0.3422):  87%|████████▋ | 8464/9753 [1:29:55<14:41,  1.46it/s]Training 3/3 epoch (loss 0.5653):  87%|████████▋ | 8464/9753 [1:29:56<14:41,  1.46it/s]Training 3/3 epoch (loss 0.5653):  87%|████████▋ | 8465/9753 [1:29:56<14:14,  1.51it/s]Training 3/3 epoch (loss 0.2828):  87%|████████▋ | 8465/9753 [1:29:56<14:14,  1.51it/s]Training 3/3 epoch (loss 0.2828):  87%|████████▋ | 8466/9753 [1:29:56<13:36,  1.58it/s]Training 3/3 epoch (loss 0.3315):  87%|████████▋ | 8466/9753 [1:29:57<13:36,  1.58it/s]Training 3/3 epoch (loss 0.3315):  87%|████████▋ | 8467/9753 [1:29:57<13:04,  1.64it/s]Training 3/3 epoch (loss 0.5818):  87%|████████▋ | 8467/9753 [1:29:57<13:04,  1.64it/s]Training 3/3 epoch (loss 0.5818):  87%|████████▋ | 8468/9753 [1:29:57<13:06,  1.63it/s]Training 3/3 epoch (loss 0.5435):  87%|████████▋ | 8468/9753 [1:29:58<13:06,  1.63it/s]Training 3/3 epoch (loss 0.5435):  87%|████████▋ | 8469/9753 [1:29:58<13:27,  1.59it/s]Training 3/3 epoch (loss 0.3020):  87%|████████▋ | 8469/9753 [1:29:59<13:27,  1.59it/s]Training 3/3 epoch (loss 0.3020):  87%|████████▋ | 8470/9753 [1:29:59<12:55,  1.65it/s]Training 3/3 epoch (loss 0.5750):  87%|████████▋ | 8470/9753 [1:29:59<12:55,  1.65it/s]Training 3/3 epoch (loss 0.5750):  87%|████████▋ | 8471/9753 [1:29:59<14:24,  1.48it/s]Training 3/3 epoch (loss 0.5232):  87%|████████▋ | 8471/9753 [1:30:00<14:24,  1.48it/s]Training 3/3 epoch (loss 0.5232):  87%|████████▋ | 8472/9753 [1:30:00<13:35,  1.57it/s]Training 3/3 epoch (loss 0.5860):  87%|████████▋ | 8472/9753 [1:30:01<13:35,  1.57it/s]Training 3/3 epoch (loss 0.5860):  87%|████████▋ | 8473/9753 [1:30:01<14:27,  1.48it/s]Training 3/3 epoch (loss 0.4185):  87%|████████▋ | 8473/9753 [1:30:01<14:27,  1.48it/s]Training 3/3 epoch (loss 0.4185):  87%|████████▋ | 8474/9753 [1:30:01<13:58,  1.53it/s]Training 3/3 epoch (loss 0.4636):  87%|████████▋ | 8474/9753 [1:30:02<13:58,  1.53it/s]Training 3/3 epoch (loss 0.4636):  87%|████████▋ | 8475/9753 [1:30:02<13:15,  1.61it/s]Training 3/3 epoch (loss 0.5282):  87%|████████▋ | 8475/9753 [1:30:03<13:15,  1.61it/s]Training 3/3 epoch (loss 0.5282):  87%|████████▋ | 8476/9753 [1:30:03<13:36,  1.56it/s]Training 3/3 epoch (loss 0.4718):  87%|████████▋ | 8476/9753 [1:30:03<13:36,  1.56it/s]Training 3/3 epoch (loss 0.4718):  87%|████████▋ | 8477/9753 [1:30:03<13:44,  1.55it/s]Training 3/3 epoch (loss 0.6082):  87%|████████▋ | 8477/9753 [1:30:04<13:44,  1.55it/s]Training 3/3 epoch (loss 0.6082):  87%|████████▋ | 8478/9753 [1:30:04<13:19,  1.59it/s]Training 3/3 epoch (loss 0.5670):  87%|████████▋ | 8478/9753 [1:30:04<13:19,  1.59it/s]Training 3/3 epoch (loss 0.5670):  87%|████████▋ | 8479/9753 [1:30:04<13:12,  1.61it/s]Training 3/3 epoch (loss 0.4554):  87%|████████▋ | 8479/9753 [1:30:05<13:12,  1.61it/s]Training 3/3 epoch (loss 0.4554):  87%|████████▋ | 8480/9753 [1:30:05<13:31,  1.57it/s]Training 3/3 epoch (loss 0.5545):  87%|████████▋ | 8480/9753 [1:30:06<13:31,  1.57it/s]Training 3/3 epoch (loss 0.5545):  87%|████████▋ | 8481/9753 [1:30:06<13:21,  1.59it/s]Training 3/3 epoch (loss 0.6434):  87%|████████▋ | 8481/9753 [1:30:06<13:21,  1.59it/s]Training 3/3 epoch (loss 0.6434):  87%|████████▋ | 8482/9753 [1:30:06<13:53,  1.53it/s]Training 3/3 epoch (loss 0.2159):  87%|████████▋ | 8482/9753 [1:30:07<13:53,  1.53it/s]Training 3/3 epoch (loss 0.2159):  87%|████████▋ | 8483/9753 [1:30:07<13:10,  1.61it/s]Training 3/3 epoch (loss 0.3152):  87%|████████▋ | 8483/9753 [1:30:08<13:10,  1.61it/s]Training 3/3 epoch (loss 0.3152):  87%|████████▋ | 8484/9753 [1:30:08<12:43,  1.66it/s]Training 3/3 epoch (loss 0.3942):  87%|████████▋ | 8484/9753 [1:30:08<12:43,  1.66it/s]Training 3/3 epoch (loss 0.3942):  87%|████████▋ | 8485/9753 [1:30:08<12:18,  1.72it/s]Training 3/3 epoch (loss 0.4471):  87%|████████▋ | 8485/9753 [1:30:09<12:18,  1.72it/s]Training 3/3 epoch (loss 0.4471):  87%|████████▋ | 8486/9753 [1:30:09<13:41,  1.54it/s]Training 3/3 epoch (loss 0.4770):  87%|████████▋ | 8486/9753 [1:30:10<13:41,  1.54it/s]Training 3/3 epoch (loss 0.4770):  87%|████████▋ | 8487/9753 [1:30:10<15:14,  1.38it/s]Training 3/3 epoch (loss 0.5786):  87%|████████▋ | 8487/9753 [1:30:11<15:14,  1.38it/s]Training 3/3 epoch (loss 0.5786):  87%|████████▋ | 8488/9753 [1:30:11<16:47,  1.26it/s]Training 3/3 epoch (loss 0.7323):  87%|████████▋ | 8488/9753 [1:30:12<16:47,  1.26it/s]Training 3/3 epoch (loss 0.7323):  87%|████████▋ | 8489/9753 [1:30:12<17:04,  1.23it/s]Training 3/3 epoch (loss 0.3251):  87%|████████▋ | 8489/9753 [1:30:12<17:04,  1.23it/s]Training 3/3 epoch (loss 0.3251):  87%|████████▋ | 8490/9753 [1:30:12<15:34,  1.35it/s]Training 3/3 epoch (loss 0.3143):  87%|████████▋ | 8490/9753 [1:30:13<15:34,  1.35it/s]Training 3/3 epoch (loss 0.3143):  87%|████████▋ | 8491/9753 [1:30:13<15:10,  1.39it/s]Training 3/3 epoch (loss 0.7226):  87%|████████▋ | 8491/9753 [1:30:14<15:10,  1.39it/s]Training 3/3 epoch (loss 0.7226):  87%|████████▋ | 8492/9753 [1:30:14<14:58,  1.40it/s]Training 3/3 epoch (loss 0.6528):  87%|████████▋ | 8492/9753 [1:30:14<14:58,  1.40it/s]Training 3/3 epoch (loss 0.6528):  87%|████████▋ | 8493/9753 [1:30:14<13:58,  1.50it/s]Training 3/3 epoch (loss 0.3020):  87%|████████▋ | 8493/9753 [1:30:15<13:58,  1.50it/s]Training 3/3 epoch (loss 0.3020):  87%|████████▋ | 8494/9753 [1:30:15<13:13,  1.59it/s]Training 3/3 epoch (loss 0.4052):  87%|████████▋ | 8494/9753 [1:30:15<13:13,  1.59it/s]Training 3/3 epoch (loss 0.4052):  87%|████████▋ | 8495/9753 [1:30:15<12:38,  1.66it/s]Training 3/3 epoch (loss 0.3650):  87%|████████▋ | 8495/9753 [1:30:16<12:38,  1.66it/s]Training 3/3 epoch (loss 0.3650):  87%|████████▋ | 8496/9753 [1:30:16<13:05,  1.60it/s]Training 3/3 epoch (loss 0.5041):  87%|████████▋ | 8496/9753 [1:30:16<13:05,  1.60it/s]Training 3/3 epoch (loss 0.5041):  87%|████████▋ | 8497/9753 [1:30:16<12:34,  1.66it/s]Training 3/3 epoch (loss 0.3997):  87%|████████▋ | 8497/9753 [1:30:17<12:34,  1.66it/s]Training 3/3 epoch (loss 0.3997):  87%|████████▋ | 8498/9753 [1:30:17<12:21,  1.69it/s]Training 3/3 epoch (loss 0.5335):  87%|████████▋ | 8498/9753 [1:30:18<12:21,  1.69it/s]Training 3/3 epoch (loss 0.5335):  87%|████████▋ | 8499/9753 [1:30:18<13:07,  1.59it/s]Training 3/3 epoch (loss 0.4210):  87%|████████▋ | 8499/9753 [1:30:18<13:07,  1.59it/s]Training 3/3 epoch (loss 0.4210):  87%|████████▋ | 8500/9753 [1:30:18<12:51,  1.62it/s]Training 3/3 epoch (loss 0.8026):  87%|████████▋ | 8500/9753 [1:30:19<12:51,  1.62it/s]Training 3/3 epoch (loss 0.8026):  87%|████████▋ | 8501/9753 [1:30:19<12:46,  1.63it/s]Training 3/3 epoch (loss 0.4668):  87%|████████▋ | 8501/9753 [1:30:19<12:46,  1.63it/s]Training 3/3 epoch (loss 0.4668):  87%|████████▋ | 8502/9753 [1:30:19<12:21,  1.69it/s]Training 3/3 epoch (loss 0.4571):  87%|████████▋ | 8502/9753 [1:30:20<12:21,  1.69it/s]Training 3/3 epoch (loss 0.4571):  87%|████████▋ | 8503/9753 [1:30:20<12:03,  1.73it/s]Training 3/3 epoch (loss 0.4842):  87%|████████▋ | 8503/9753 [1:30:21<12:03,  1.73it/s]Training 3/3 epoch (loss 0.4842):  87%|████████▋ | 8504/9753 [1:30:21<11:49,  1.76it/s]Training 3/3 epoch (loss 0.3064):  87%|████████▋ | 8504/9753 [1:30:21<11:49,  1.76it/s]Training 3/3 epoch (loss 0.3064):  87%|████████▋ | 8505/9753 [1:30:21<11:38,  1.79it/s]Training 3/3 epoch (loss 0.2983):  87%|████████▋ | 8505/9753 [1:30:22<11:38,  1.79it/s]Training 3/3 epoch (loss 0.2983):  87%|████████▋ | 8506/9753 [1:30:22<11:41,  1.78it/s]Training 3/3 epoch (loss 0.2736):  87%|████████▋ | 8506/9753 [1:30:22<11:41,  1.78it/s]Training 3/3 epoch (loss 0.2736):  87%|████████▋ | 8507/9753 [1:30:22<11:40,  1.78it/s]Training 3/3 epoch (loss 0.5338):  87%|████████▋ | 8507/9753 [1:30:23<11:40,  1.78it/s]Training 3/3 epoch (loss 0.5338):  87%|████████▋ | 8508/9753 [1:30:23<11:33,  1.79it/s]Training 3/3 epoch (loss 0.5532):  87%|████████▋ | 8508/9753 [1:30:23<11:33,  1.79it/s]Training 3/3 epoch (loss 0.5532):  87%|████████▋ | 8509/9753 [1:30:23<12:40,  1.64it/s]Training 3/3 epoch (loss 0.3438):  87%|████████▋ | 8509/9753 [1:30:24<12:40,  1.64it/s]Training 3/3 epoch (loss 0.3438):  87%|████████▋ | 8510/9753 [1:30:24<12:45,  1.62it/s]Training 3/3 epoch (loss 0.5270):  87%|████████▋ | 8510/9753 [1:30:25<12:45,  1.62it/s]Training 3/3 epoch (loss 0.5270):  87%|████████▋ | 8511/9753 [1:30:25<12:31,  1.65it/s]Training 3/3 epoch (loss 0.6332):  87%|████████▋ | 8511/9753 [1:30:25<12:31,  1.65it/s]Training 3/3 epoch (loss 0.6332):  87%|████████▋ | 8512/9753 [1:30:25<13:01,  1.59it/s]Training 3/3 epoch (loss 0.5179):  87%|████████▋ | 8512/9753 [1:30:26<13:01,  1.59it/s]Training 3/3 epoch (loss 0.5179):  87%|████████▋ | 8513/9753 [1:30:26<12:42,  1.63it/s]Training 3/3 epoch (loss 0.4503):  87%|████████▋ | 8513/9753 [1:30:26<12:42,  1.63it/s]Training 3/3 epoch (loss 0.4503):  87%|████████▋ | 8514/9753 [1:30:26<12:13,  1.69it/s]Training 3/3 epoch (loss 0.2624):  87%|████████▋ | 8514/9753 [1:30:27<12:13,  1.69it/s]Training 3/3 epoch (loss 0.2624):  87%|████████▋ | 8515/9753 [1:30:27<11:55,  1.73it/s]Training 3/3 epoch (loss 0.3750):  87%|████████▋ | 8515/9753 [1:30:28<11:55,  1.73it/s]Training 3/3 epoch (loss 0.3750):  87%|████████▋ | 8516/9753 [1:30:28<12:18,  1.67it/s]Training 3/3 epoch (loss 0.4503):  87%|████████▋ | 8516/9753 [1:30:28<12:18,  1.67it/s]Training 3/3 epoch (loss 0.4503):  87%|████████▋ | 8517/9753 [1:30:28<12:06,  1.70it/s]Training 3/3 epoch (loss 0.4497):  87%|████████▋ | 8517/9753 [1:30:29<12:06,  1.70it/s]Training 3/3 epoch (loss 0.4497):  87%|████████▋ | 8518/9753 [1:30:29<11:50,  1.74it/s]Training 3/3 epoch (loss 0.2836):  87%|████████▋ | 8518/9753 [1:30:29<11:50,  1.74it/s]Training 3/3 epoch (loss 0.2836):  87%|████████▋ | 8519/9753 [1:30:29<11:40,  1.76it/s]Training 3/3 epoch (loss 0.5561):  87%|████████▋ | 8519/9753 [1:30:30<11:40,  1.76it/s]Training 3/3 epoch (loss 0.5561):  87%|████████▋ | 8520/9753 [1:30:30<11:32,  1.78it/s]Training 3/3 epoch (loss 0.4793):  87%|████████▋ | 8520/9753 [1:30:30<11:32,  1.78it/s]Training 3/3 epoch (loss 0.4793):  87%|████████▋ | 8521/9753 [1:30:30<11:24,  1.80it/s]Training 3/3 epoch (loss 0.2511):  87%|████████▋ | 8521/9753 [1:30:31<11:24,  1.80it/s]Training 3/3 epoch (loss 0.2511):  87%|████████▋ | 8522/9753 [1:30:31<11:55,  1.72it/s]Training 3/3 epoch (loss 0.4665):  87%|████████▋ | 8522/9753 [1:30:32<11:55,  1.72it/s]Training 3/3 epoch (loss 0.4665):  87%|████████▋ | 8523/9753 [1:30:32<11:45,  1.74it/s]Training 3/3 epoch (loss 0.5168):  87%|████████▋ | 8523/9753 [1:30:32<11:45,  1.74it/s]Training 3/3 epoch (loss 0.5168):  87%|████████▋ | 8524/9753 [1:30:32<11:41,  1.75it/s]Training 3/3 epoch (loss 0.5236):  87%|████████▋ | 8524/9753 [1:30:33<11:41,  1.75it/s]Training 3/3 epoch (loss 0.5236):  87%|████████▋ | 8525/9753 [1:30:33<11:31,  1.78it/s]Training 3/3 epoch (loss 0.3806):  87%|████████▋ | 8525/9753 [1:30:33<11:31,  1.78it/s]Training 3/3 epoch (loss 0.3806):  87%|████████▋ | 8526/9753 [1:30:33<11:23,  1.80it/s]Training 3/3 epoch (loss 0.3147):  87%|████████▋ | 8526/9753 [1:30:34<11:23,  1.80it/s]Training 3/3 epoch (loss 0.3147):  87%|████████▋ | 8527/9753 [1:30:34<11:16,  1.81it/s]Training 3/3 epoch (loss 0.4370):  87%|████████▋ | 8527/9753 [1:30:34<11:16,  1.81it/s]Training 3/3 epoch (loss 0.4370):  87%|████████▋ | 8528/9753 [1:30:34<11:59,  1.70it/s]Training 3/3 epoch (loss 0.3409):  87%|████████▋ | 8528/9753 [1:30:35<11:59,  1.70it/s]Training 3/3 epoch (loss 0.3409):  87%|████████▋ | 8529/9753 [1:30:35<11:52,  1.72it/s]Training 3/3 epoch (loss 0.4989):  87%|████████▋ | 8529/9753 [1:30:36<11:52,  1.72it/s]Training 3/3 epoch (loss 0.4989):  87%|████████▋ | 8530/9753 [1:30:36<12:07,  1.68it/s]Training 3/3 epoch (loss 0.4147):  87%|████████▋ | 8530/9753 [1:30:36<12:07,  1.68it/s]Training 3/3 epoch (loss 0.4147):  87%|████████▋ | 8531/9753 [1:30:36<12:03,  1.69it/s]Training 3/3 epoch (loss 0.3855):  87%|████████▋ | 8531/9753 [1:30:37<12:03,  1.69it/s]Training 3/3 epoch (loss 0.3855):  87%|████████▋ | 8532/9753 [1:30:37<11:46,  1.73it/s]Training 3/3 epoch (loss 0.3786):  87%|████████▋ | 8532/9753 [1:30:37<11:46,  1.73it/s]Training 3/3 epoch (loss 0.3786):  87%|████████▋ | 8533/9753 [1:30:37<11:38,  1.75it/s]Training 3/3 epoch (loss 0.5697):  87%|████████▋ | 8533/9753 [1:30:38<11:38,  1.75it/s]Training 3/3 epoch (loss 0.5697):  88%|████████▊ | 8534/9753 [1:30:38<12:06,  1.68it/s]Training 3/3 epoch (loss 0.4776):  88%|████████▊ | 8534/9753 [1:30:39<12:06,  1.68it/s]Training 3/3 epoch (loss 0.4776):  88%|████████▊ | 8535/9753 [1:30:39<12:27,  1.63it/s]Training 3/3 epoch (loss 0.5765):  88%|████████▊ | 8535/9753 [1:30:39<12:27,  1.63it/s]Training 3/3 epoch (loss 0.5765):  88%|████████▊ | 8536/9753 [1:30:39<12:10,  1.67it/s]Training 3/3 epoch (loss 0.3908):  88%|████████▊ | 8536/9753 [1:30:40<12:10,  1.67it/s]Training 3/3 epoch (loss 0.3908):  88%|████████▊ | 8537/9753 [1:30:40<11:50,  1.71it/s]Training 3/3 epoch (loss 0.5409):  88%|████████▊ | 8537/9753 [1:30:41<11:50,  1.71it/s]Training 3/3 epoch (loss 0.5409):  88%|████████▊ | 8538/9753 [1:30:41<13:11,  1.53it/s]Training 3/3 epoch (loss 0.2163):  88%|████████▊ | 8538/9753 [1:30:41<13:11,  1.53it/s]Training 3/3 epoch (loss 0.2163):  88%|████████▊ | 8539/9753 [1:30:41<12:34,  1.61it/s]Training 3/3 epoch (loss 0.5012):  88%|████████▊ | 8539/9753 [1:30:42<12:34,  1.61it/s]Training 3/3 epoch (loss 0.5012):  88%|████████▊ | 8540/9753 [1:30:42<12:54,  1.57it/s]Training 3/3 epoch (loss 0.4133):  88%|████████▊ | 8540/9753 [1:30:43<12:54,  1.57it/s]Training 3/3 epoch (loss 0.4133):  88%|████████▊ | 8541/9753 [1:30:43<13:32,  1.49it/s]Training 3/3 epoch (loss 0.5409):  88%|████████▊ | 8541/9753 [1:30:43<13:32,  1.49it/s]Training 3/3 epoch (loss 0.5409):  88%|████████▊ | 8542/9753 [1:30:43<12:50,  1.57it/s]Training 3/3 epoch (loss 0.6098):  88%|████████▊ | 8542/9753 [1:30:44<12:50,  1.57it/s]Training 3/3 epoch (loss 0.6098):  88%|████████▊ | 8543/9753 [1:30:44<14:26,  1.40it/s]Training 3/3 epoch (loss 0.2375):  88%|████████▊ | 8543/9753 [1:30:45<14:26,  1.40it/s]Training 3/3 epoch (loss 0.2375):  88%|████████▊ | 8544/9753 [1:30:45<14:12,  1.42it/s]Training 3/3 epoch (loss 0.5608):  88%|████████▊ | 8544/9753 [1:30:45<14:12,  1.42it/s]Training 3/3 epoch (loss 0.5608):  88%|████████▊ | 8545/9753 [1:30:45<13:27,  1.50it/s]Training 3/3 epoch (loss 0.4432):  88%|████████▊ | 8545/9753 [1:30:46<13:27,  1.50it/s]Training 3/3 epoch (loss 0.4432):  88%|████████▊ | 8546/9753 [1:30:46<13:27,  1.50it/s]Training 3/3 epoch (loss 0.3150):  88%|████████▊ | 8546/9753 [1:30:46<13:27,  1.50it/s]Training 3/3 epoch (loss 0.3150):  88%|████████▊ | 8547/9753 [1:30:46<12:41,  1.58it/s]Training 3/3 epoch (loss 0.4682):  88%|████████▊ | 8547/9753 [1:30:47<12:41,  1.58it/s]Training 3/3 epoch (loss 0.4682):  88%|████████▊ | 8548/9753 [1:30:47<12:11,  1.65it/s]Training 3/3 epoch (loss 0.4295):  88%|████████▊ | 8548/9753 [1:30:48<12:11,  1.65it/s]Training 3/3 epoch (loss 0.4295):  88%|████████▊ | 8549/9753 [1:30:48<12:58,  1.55it/s]Training 3/3 epoch (loss 0.5066):  88%|████████▊ | 8549/9753 [1:30:48<12:58,  1.55it/s]Training 3/3 epoch (loss 0.5066):  88%|████████▊ | 8550/9753 [1:30:48<12:47,  1.57it/s]Training 3/3 epoch (loss 0.6793):  88%|████████▊ | 8550/9753 [1:30:49<12:47,  1.57it/s]Training 3/3 epoch (loss 0.6793):  88%|████████▊ | 8551/9753 [1:30:49<12:51,  1.56it/s]Training 3/3 epoch (loss 0.4236):  88%|████████▊ | 8551/9753 [1:30:50<12:51,  1.56it/s]Training 3/3 epoch (loss 0.4236):  88%|████████▊ | 8552/9753 [1:30:50<12:21,  1.62it/s]Training 3/3 epoch (loss 0.4138):  88%|████████▊ | 8552/9753 [1:30:50<12:21,  1.62it/s]Training 3/3 epoch (loss 0.4138):  88%|████████▊ | 8553/9753 [1:30:50<11:54,  1.68it/s]Training 3/3 epoch (loss 0.4427):  88%|████████▊ | 8553/9753 [1:30:51<11:54,  1.68it/s]Training 3/3 epoch (loss 0.4427):  88%|████████▊ | 8554/9753 [1:30:51<11:37,  1.72it/s]Training 3/3 epoch (loss 0.6317):  88%|████████▊ | 8554/9753 [1:30:51<11:37,  1.72it/s]Training 3/3 epoch (loss 0.6317):  88%|████████▊ | 8555/9753 [1:30:51<11:33,  1.73it/s]Training 3/3 epoch (loss 0.4628):  88%|████████▊ | 8555/9753 [1:30:52<11:33,  1.73it/s]Training 3/3 epoch (loss 0.4628):  88%|████████▊ | 8556/9753 [1:30:52<11:54,  1.67it/s]Training 3/3 epoch (loss 0.6111):  88%|████████▊ | 8556/9753 [1:30:53<11:54,  1.67it/s]Training 3/3 epoch (loss 0.6111):  88%|████████▊ | 8557/9753 [1:30:53<11:51,  1.68it/s]Training 3/3 epoch (loss 0.2718):  88%|████████▊ | 8557/9753 [1:30:53<11:51,  1.68it/s]Training 3/3 epoch (loss 0.2718):  88%|████████▊ | 8558/9753 [1:30:53<11:32,  1.73it/s]Training 3/3 epoch (loss 0.5261):  88%|████████▊ | 8558/9753 [1:30:54<11:32,  1.73it/s]Training 3/3 epoch (loss 0.5261):  88%|████████▊ | 8559/9753 [1:30:54<11:18,  1.76it/s]Training 3/3 epoch (loss 0.4815):  88%|████████▊ | 8559/9753 [1:30:54<11:18,  1.76it/s]Training 3/3 epoch (loss 0.4815):  88%|████████▊ | 8560/9753 [1:30:54<12:26,  1.60it/s]Training 3/3 epoch (loss 0.4921):  88%|████████▊ | 8560/9753 [1:30:55<12:26,  1.60it/s]Training 3/3 epoch (loss 0.4921):  88%|████████▊ | 8561/9753 [1:30:55<11:59,  1.66it/s]Training 3/3 epoch (loss 0.3253):  88%|████████▊ | 8561/9753 [1:30:55<11:59,  1.66it/s]Training 3/3 epoch (loss 0.3253):  88%|████████▊ | 8562/9753 [1:30:55<11:37,  1.71it/s]Training 3/3 epoch (loss 0.5034):  88%|████████▊ | 8562/9753 [1:30:56<11:37,  1.71it/s]Training 3/3 epoch (loss 0.5034):  88%|████████▊ | 8563/9753 [1:30:56<12:11,  1.63it/s]Training 3/3 epoch (loss 0.5910):  88%|████████▊ | 8563/9753 [1:30:57<12:11,  1.63it/s]Training 3/3 epoch (loss 0.5910):  88%|████████▊ | 8564/9753 [1:30:57<13:44,  1.44it/s]Training 3/3 epoch (loss 0.4458):  88%|████████▊ | 8564/9753 [1:30:58<13:44,  1.44it/s]Training 3/3 epoch (loss 0.4458):  88%|████████▊ | 8565/9753 [1:30:58<13:19,  1.49it/s]Training 3/3 epoch (loss 0.5609):  88%|████████▊ | 8565/9753 [1:30:58<13:19,  1.49it/s]Training 3/3 epoch (loss 0.5609):  88%|████████▊ | 8566/9753 [1:30:58<12:41,  1.56it/s]Training 3/3 epoch (loss 0.4548):  88%|████████▊ | 8566/9753 [1:30:59<12:41,  1.56it/s]Training 3/3 epoch (loss 0.4548):  88%|████████▊ | 8567/9753 [1:30:59<12:59,  1.52it/s]Training 3/3 epoch (loss 0.6425):  88%|████████▊ | 8567/9753 [1:31:00<12:59,  1.52it/s]Training 3/3 epoch (loss 0.6425):  88%|████████▊ | 8568/9753 [1:31:00<12:59,  1.52it/s]Training 3/3 epoch (loss 0.6512):  88%|████████▊ | 8568/9753 [1:31:00<12:59,  1.52it/s]Training 3/3 epoch (loss 0.6512):  88%|████████▊ | 8569/9753 [1:31:00<14:17,  1.38it/s]Training 3/3 epoch (loss 0.5914):  88%|████████▊ | 8569/9753 [1:31:01<14:17,  1.38it/s]Training 3/3 epoch (loss 0.5914):  88%|████████▊ | 8570/9753 [1:31:01<13:52,  1.42it/s]Training 3/3 epoch (loss 0.4810):  88%|████████▊ | 8570/9753 [1:31:02<13:52,  1.42it/s]Training 3/3 epoch (loss 0.4810):  88%|████████▊ | 8571/9753 [1:31:02<14:26,  1.36it/s]Training 3/3 epoch (loss 0.4766):  88%|████████▊ | 8571/9753 [1:31:02<14:26,  1.36it/s]Training 3/3 epoch (loss 0.4766):  88%|████████▊ | 8572/9753 [1:31:02<13:30,  1.46it/s]Training 3/3 epoch (loss 0.6190):  88%|████████▊ | 8572/9753 [1:31:03<13:30,  1.46it/s]Training 3/3 epoch (loss 0.6190):  88%|████████▊ | 8573/9753 [1:31:03<13:23,  1.47it/s]Training 3/3 epoch (loss 0.3086):  88%|████████▊ | 8573/9753 [1:31:04<13:23,  1.47it/s]Training 3/3 epoch (loss 0.3086):  88%|████████▊ | 8574/9753 [1:31:04<14:04,  1.40it/s]Training 3/3 epoch (loss 0.3738):  88%|████████▊ | 8574/9753 [1:31:05<14:04,  1.40it/s]Training 3/3 epoch (loss 0.3738):  88%|████████▊ | 8575/9753 [1:31:05<14:24,  1.36it/s]Training 3/3 epoch (loss 0.4952):  88%|████████▊ | 8575/9753 [1:31:05<14:24,  1.36it/s]Training 3/3 epoch (loss 0.4952):  88%|████████▊ | 8576/9753 [1:31:05<14:10,  1.38it/s]Training 3/3 epoch (loss 0.4074):  88%|████████▊ | 8576/9753 [1:31:06<14:10,  1.38it/s]Training 3/3 epoch (loss 0.4074):  88%|████████▊ | 8577/9753 [1:31:06<13:09,  1.49it/s]Training 3/3 epoch (loss 0.3896):  88%|████████▊ | 8577/9753 [1:31:07<13:09,  1.49it/s]Training 3/3 epoch (loss 0.3896):  88%|████████▊ | 8578/9753 [1:31:07<12:25,  1.58it/s]Training 3/3 epoch (loss 0.5298):  88%|████████▊ | 8578/9753 [1:31:07<12:25,  1.58it/s]Training 3/3 epoch (loss 0.5298):  88%|████████▊ | 8579/9753 [1:31:07<11:54,  1.64it/s]Training 3/3 epoch (loss 0.3042):  88%|████████▊ | 8579/9753 [1:31:08<11:54,  1.64it/s]Training 3/3 epoch (loss 0.3042):  88%|████████▊ | 8580/9753 [1:31:08<11:32,  1.69it/s]Training 3/3 epoch (loss 0.4658):  88%|████████▊ | 8580/9753 [1:31:08<11:32,  1.69it/s]Training 3/3 epoch (loss 0.4658):  88%|████████▊ | 8581/9753 [1:31:08<11:25,  1.71it/s]Training 3/3 epoch (loss 0.6283):  88%|████████▊ | 8581/9753 [1:31:09<11:25,  1.71it/s]Training 3/3 epoch (loss 0.6283):  88%|████████▊ | 8582/9753 [1:31:09<12:14,  1.60it/s]Training 3/3 epoch (loss 0.3610):  88%|████████▊ | 8582/9753 [1:31:09<12:14,  1.60it/s]Training 3/3 epoch (loss 0.3610):  88%|████████▊ | 8583/9753 [1:31:09<12:00,  1.62it/s]Training 3/3 epoch (loss 0.6719):  88%|████████▊ | 8583/9753 [1:31:10<12:00,  1.62it/s]Training 3/3 epoch (loss 0.6719):  88%|████████▊ | 8584/9753 [1:31:10<12:24,  1.57it/s]Training 3/3 epoch (loss 0.5346):  88%|████████▊ | 8584/9753 [1:31:11<12:24,  1.57it/s]Training 3/3 epoch (loss 0.5346):  88%|████████▊ | 8585/9753 [1:31:11<13:45,  1.41it/s]Training 3/3 epoch (loss 0.3502):  88%|████████▊ | 8585/9753 [1:31:12<13:45,  1.41it/s]Training 3/3 epoch (loss 0.3502):  88%|████████▊ | 8586/9753 [1:31:12<12:53,  1.51it/s]Training 3/3 epoch (loss 0.6204):  88%|████████▊ | 8586/9753 [1:31:12<12:53,  1.51it/s]Training 3/3 epoch (loss 0.6204):  88%|████████▊ | 8587/9753 [1:31:12<12:20,  1.57it/s]Training 3/3 epoch (loss 0.4356):  88%|████████▊ | 8587/9753 [1:31:13<12:20,  1.57it/s]Training 3/3 epoch (loss 0.4356):  88%|████████▊ | 8588/9753 [1:31:13<12:10,  1.60it/s]Training 3/3 epoch (loss 0.4686):  88%|████████▊ | 8588/9753 [1:31:13<12:10,  1.60it/s]Training 3/3 epoch (loss 0.4686):  88%|████████▊ | 8589/9753 [1:31:13<11:40,  1.66it/s]Training 3/3 epoch (loss 0.3757):  88%|████████▊ | 8589/9753 [1:31:14<11:40,  1.66it/s]Training 3/3 epoch (loss 0.3757):  88%|████████▊ | 8590/9753 [1:31:14<11:20,  1.71it/s]Training 3/3 epoch (loss 0.5467):  88%|████████▊ | 8590/9753 [1:31:15<11:20,  1.71it/s]Training 3/3 epoch (loss 0.5467):  88%|████████▊ | 8591/9753 [1:31:15<11:32,  1.68it/s]Training 3/3 epoch (loss 0.3357):  88%|████████▊ | 8591/9753 [1:31:15<11:32,  1.68it/s]Training 3/3 epoch (loss 0.3357):  88%|████████▊ | 8592/9753 [1:31:15<11:59,  1.61it/s]Training 3/3 epoch (loss 0.4107):  88%|████████▊ | 8592/9753 [1:31:16<11:59,  1.61it/s]Training 3/3 epoch (loss 0.4107):  88%|████████▊ | 8593/9753 [1:31:16<12:43,  1.52it/s]Training 3/3 epoch (loss 0.5572):  88%|████████▊ | 8593/9753 [1:31:17<12:43,  1.52it/s]Training 3/3 epoch (loss 0.5572):  88%|████████▊ | 8594/9753 [1:31:17<13:13,  1.46it/s]Training 3/3 epoch (loss 0.4615):  88%|████████▊ | 8594/9753 [1:31:17<13:13,  1.46it/s]Training 3/3 epoch (loss 0.4615):  88%|████████▊ | 8595/9753 [1:31:17<13:26,  1.44it/s]Training 3/3 epoch (loss 0.4387):  88%|████████▊ | 8595/9753 [1:31:18<13:26,  1.44it/s]Training 3/3 epoch (loss 0.4387):  88%|████████▊ | 8596/9753 [1:31:18<13:38,  1.41it/s]Training 3/3 epoch (loss 0.3835):  88%|████████▊ | 8596/9753 [1:31:19<13:38,  1.41it/s]Training 3/3 epoch (loss 0.3835):  88%|████████▊ | 8597/9753 [1:31:19<13:12,  1.46it/s]Training 3/3 epoch (loss 0.5146):  88%|████████▊ | 8597/9753 [1:31:19<13:12,  1.46it/s]Training 3/3 epoch (loss 0.5146):  88%|████████▊ | 8598/9753 [1:31:19<12:34,  1.53it/s]Training 3/3 epoch (loss 0.3652):  88%|████████▊ | 8598/9753 [1:31:20<12:34,  1.53it/s]Training 3/3 epoch (loss 0.3652):  88%|████████▊ | 8599/9753 [1:31:20<12:47,  1.50it/s]Training 3/3 epoch (loss 0.3368):  88%|████████▊ | 8599/9753 [1:31:21<12:47,  1.50it/s]Training 3/3 epoch (loss 0.3368):  88%|████████▊ | 8600/9753 [1:31:21<12:47,  1.50it/s]Training 3/3 epoch (loss 0.4298):  88%|████████▊ | 8600/9753 [1:31:21<12:47,  1.50it/s]Training 3/3 epoch (loss 0.4298):  88%|████████▊ | 8601/9753 [1:31:21<13:30,  1.42it/s]Training 3/3 epoch (loss 0.6814):  88%|████████▊ | 8601/9753 [1:31:22<13:30,  1.42it/s]Training 3/3 epoch (loss 0.6814):  88%|████████▊ | 8602/9753 [1:31:22<14:39,  1.31it/s]Training 3/3 epoch (loss 0.6214):  88%|████████▊ | 8602/9753 [1:31:23<14:39,  1.31it/s]Training 3/3 epoch (loss 0.6214):  88%|████████▊ | 8603/9753 [1:31:23<14:02,  1.36it/s]Training 3/3 epoch (loss 0.4276):  88%|████████▊ | 8603/9753 [1:31:24<14:02,  1.36it/s]Training 3/3 epoch (loss 0.4276):  88%|████████▊ | 8604/9753 [1:31:24<13:14,  1.45it/s]Training 3/3 epoch (loss 0.4121):  88%|████████▊ | 8604/9753 [1:31:25<13:14,  1.45it/s]Training 3/3 epoch (loss 0.4121):  88%|████████▊ | 8605/9753 [1:31:25<14:20,  1.33it/s]Training 3/3 epoch (loss 0.3911):  88%|████████▊ | 8605/9753 [1:31:25<14:20,  1.33it/s]Training 3/3 epoch (loss 0.3911):  88%|████████▊ | 8606/9753 [1:31:25<13:21,  1.43it/s]Training 3/3 epoch (loss 0.2840):  88%|████████▊ | 8606/9753 [1:31:26<13:21,  1.43it/s]Training 3/3 epoch (loss 0.2840):  88%|████████▊ | 8607/9753 [1:31:26<12:40,  1.51it/s]Training 3/3 epoch (loss 0.2654):  88%|████████▊ | 8607/9753 [1:31:26<12:40,  1.51it/s]Training 3/3 epoch (loss 0.2654):  88%|████████▊ | 8608/9753 [1:31:26<12:44,  1.50it/s]Training 3/3 epoch (loss 0.5030):  88%|████████▊ | 8608/9753 [1:31:27<12:44,  1.50it/s]Training 3/3 epoch (loss 0.5030):  88%|████████▊ | 8609/9753 [1:31:27<12:18,  1.55it/s]Training 3/3 epoch (loss 0.4991):  88%|████████▊ | 8609/9753 [1:31:28<12:18,  1.55it/s]Training 3/3 epoch (loss 0.4991):  88%|████████▊ | 8610/9753 [1:31:28<12:19,  1.55it/s]Training 3/3 epoch (loss 0.5080):  88%|████████▊ | 8610/9753 [1:31:28<12:19,  1.55it/s]Training 3/3 epoch (loss 0.5080):  88%|████████▊ | 8611/9753 [1:31:28<13:04,  1.45it/s]Training 3/3 epoch (loss 0.4357):  88%|████████▊ | 8611/9753 [1:31:29<13:04,  1.45it/s]Training 3/3 epoch (loss 0.4357):  88%|████████▊ | 8612/9753 [1:31:29<12:17,  1.55it/s]Training 3/3 epoch (loss 0.5413):  88%|████████▊ | 8612/9753 [1:31:30<12:17,  1.55it/s]Training 3/3 epoch (loss 0.5413):  88%|████████▊ | 8613/9753 [1:31:30<11:44,  1.62it/s]Training 3/3 epoch (loss 0.4102):  88%|████████▊ | 8613/9753 [1:31:30<11:44,  1.62it/s]Training 3/3 epoch (loss 0.4102):  88%|████████▊ | 8614/9753 [1:31:30<11:28,  1.65it/s]Training 3/3 epoch (loss 0.5966):  88%|████████▊ | 8614/9753 [1:31:31<11:28,  1.65it/s]Training 3/3 epoch (loss 0.5966):  88%|████████▊ | 8615/9753 [1:31:31<11:37,  1.63it/s]Training 3/3 epoch (loss 0.5651):  88%|████████▊ | 8615/9753 [1:31:31<11:37,  1.63it/s]Training 3/3 epoch (loss 0.5651):  88%|████████▊ | 8616/9753 [1:31:31<11:54,  1.59it/s]Training 3/3 epoch (loss 0.2916):  88%|████████▊ | 8616/9753 [1:31:32<11:54,  1.59it/s]Training 3/3 epoch (loss 0.2916):  88%|████████▊ | 8617/9753 [1:31:32<11:26,  1.65it/s]Training 3/3 epoch (loss 0.3235):  88%|████████▊ | 8617/9753 [1:31:32<11:26,  1.65it/s]Training 3/3 epoch (loss 0.3235):  88%|████████▊ | 8618/9753 [1:31:32<11:09,  1.70it/s]Training 3/3 epoch (loss 0.3603):  88%|████████▊ | 8618/9753 [1:31:33<11:09,  1.70it/s]Training 3/3 epoch (loss 0.3603):  88%|████████▊ | 8619/9753 [1:31:33<10:54,  1.73it/s]Training 3/3 epoch (loss 0.5067):  88%|████████▊ | 8619/9753 [1:31:34<10:54,  1.73it/s]Training 3/3 epoch (loss 0.5067):  88%|████████▊ | 8620/9753 [1:31:34<10:45,  1.76it/s]Training 3/3 epoch (loss 0.4547):  88%|████████▊ | 8620/9753 [1:31:34<10:45,  1.76it/s]Training 3/3 epoch (loss 0.4547):  88%|████████▊ | 8621/9753 [1:31:34<11:06,  1.70it/s]Training 3/3 epoch (loss 0.3993):  88%|████████▊ | 8621/9753 [1:31:35<11:06,  1.70it/s]Training 3/3 epoch (loss 0.3993):  88%|████████▊ | 8622/9753 [1:31:35<10:58,  1.72it/s]Training 3/3 epoch (loss 0.5868):  88%|████████▊ | 8622/9753 [1:31:35<10:58,  1.72it/s]Training 3/3 epoch (loss 0.5868):  88%|████████▊ | 8623/9753 [1:31:35<11:23,  1.65it/s]Training 3/3 epoch (loss 0.2303):  88%|████████▊ | 8623/9753 [1:31:36<11:23,  1.65it/s]Training 3/3 epoch (loss 0.2303):  88%|████████▊ | 8624/9753 [1:31:36<11:50,  1.59it/s]Training 3/3 epoch (loss 0.4729):  88%|████████▊ | 8624/9753 [1:31:37<11:50,  1.59it/s]Training 3/3 epoch (loss 0.4729):  88%|████████▊ | 8625/9753 [1:31:37<12:39,  1.49it/s]Training 3/3 epoch (loss 0.4920):  88%|████████▊ | 8625/9753 [1:31:38<12:39,  1.49it/s]Training 3/3 epoch (loss 0.4920):  88%|████████▊ | 8626/9753 [1:31:38<12:26,  1.51it/s]Training 3/3 epoch (loss 0.7869):  88%|████████▊ | 8626/9753 [1:31:38<12:26,  1.51it/s]Training 3/3 epoch (loss 0.7869):  88%|████████▊ | 8627/9753 [1:31:38<12:35,  1.49it/s]Training 3/3 epoch (loss 0.4335):  88%|████████▊ | 8627/9753 [1:31:39<12:35,  1.49it/s]Training 3/3 epoch (loss 0.4335):  88%|████████▊ | 8628/9753 [1:31:39<13:22,  1.40it/s]Training 3/3 epoch (loss 0.5391):  88%|██████��█▊ | 8628/9753 [1:31:40<13:22,  1.40it/s]Training 3/3 epoch (loss 0.5391):  88%|████████▊ | 8629/9753 [1:31:40<12:59,  1.44it/s]Training 3/3 epoch (loss 0.5692):  88%|████████▊ | 8629/9753 [1:31:40<12:59,  1.44it/s]Training 3/3 epoch (loss 0.5692):  88%|████████▊ | 8630/9753 [1:31:40<12:11,  1.54it/s]Training 3/3 epoch (loss 0.5177):  88%|████████▊ | 8630/9753 [1:31:41<12:11,  1.54it/s]Training 3/3 epoch (loss 0.5177):  88%|████████▊ | 8631/9753 [1:31:41<12:00,  1.56it/s]Training 3/3 epoch (loss 0.3063):  88%|████████▊ | 8631/9753 [1:31:41<12:00,  1.56it/s]Training 3/3 epoch (loss 0.3063):  89%|████████▊ | 8632/9753 [1:31:41<11:30,  1.62it/s]Training 3/3 epoch (loss 0.4304):  89%|████████▊ | 8632/9753 [1:31:42<11:30,  1.62it/s]Training 3/3 epoch (loss 0.4304):  89%|████████▊ | 8633/9753 [1:31:42<11:10,  1.67it/s]Training 3/3 epoch (loss 0.3393):  89%|████████▊ | 8633/9753 [1:31:43<11:10,  1.67it/s]Training 3/3 epoch (loss 0.3393):  89%|████████▊ | 8634/9753 [1:31:43<11:04,  1.68it/s]Training 3/3 epoch (loss 0.5348):  89%|████████▊ | 8634/9753 [1:31:43<11:04,  1.68it/s]Training 3/3 epoch (loss 0.5348):  89%|████████▊ | 8635/9753 [1:31:43<12:27,  1.49it/s]Training 3/3 epoch (loss 0.4121):  89%|████████▊ | 8635/9753 [1:31:44<12:27,  1.49it/s]Training 3/3 epoch (loss 0.4121):  89%|████████▊ | 8636/9753 [1:31:44<11:45,  1.58it/s]Training 3/3 epoch (loss 0.4635):  89%|████████▊ | 8636/9753 [1:31:45<11:45,  1.58it/s]Training 3/3 epoch (loss 0.4635):  89%|████████▊ | 8637/9753 [1:31:45<11:21,  1.64it/s]Training 3/3 epoch (loss 0.4627):  89%|████████▊ | 8637/9753 [1:31:45<11:21,  1.64it/s]Training 3/3 epoch (loss 0.4627):  89%|████████▊ | 8638/9753 [1:31:45<11:00,  1.69it/s]Training 3/3 epoch (loss 0.4536):  89%|████████▊ | 8638/9753 [1:31:46<11:00,  1.69it/s]Training 3/3 epoch (loss 0.4536):  89%|████████▊ | 8639/9753 [1:31:46<11:19,  1.64it/s]Training 3/3 epoch (loss 0.5830):  89%|████████▊ | 8639/9753 [1:31:47<11:19,  1.64it/s]Training 3/3 epoch (loss 0.5830):  89%|████████▊ | 8640/9753 [1:31:47<12:25,  1.49it/s]Training 3/3 epoch (loss 0.6034):  89%|████████▊ | 8640/9753 [1:31:47<12:25,  1.49it/s]Training 3/3 epoch (loss 0.6034):  89%|████████▊ | 8641/9753 [1:31:47<11:59,  1.55it/s]Training 3/3 epoch (loss 0.7040):  89%|████████▊ | 8641/9753 [1:31:48<11:59,  1.55it/s]Training 3/3 epoch (loss 0.7040):  89%|████████▊ | 8642/9753 [1:31:48<12:04,  1.53it/s]Training 3/3 epoch (loss 0.2356):  89%|████████▊ | 8642/9753 [1:31:48<12:04,  1.53it/s]Training 3/3 epoch (loss 0.2356):  89%|████████▊ | 8643/9753 [1:31:48<11:29,  1.61it/s]Training 3/3 epoch (loss 0.5233):  89%|████████▊ | 8643/9753 [1:31:49<11:29,  1.61it/s]Training 3/3 epoch (loss 0.5233):  89%|████████▊ | 8644/9753 [1:31:49<11:14,  1.64it/s]Training 3/3 epoch (loss 0.4873):  89%|████████▊ | 8644/9753 [1:31:49<11:14,  1.64it/s]Training 3/3 epoch (loss 0.4873):  89%|████████▊ | 8645/9753 [1:31:49<10:53,  1.70it/s]Training 3/3 epoch (loss 0.6633):  89%|████████▊ | 8645/9753 [1:31:50<10:53,  1.70it/s]Training 3/3 epoch (loss 0.6633):  89%|████████▊ | 8646/9753 [1:31:50<10:38,  1.73it/s]Training 3/3 epoch (loss 0.4270):  89%|████████▊ | 8646/9753 [1:31:51<10:38,  1.73it/s]Training 3/3 epoch (loss 0.4270):  89%|████████▊ | 8647/9753 [1:31:51<10:30,  1.75it/s]Training 3/3 epoch (loss 0.5253):  89%|████████▊ | 8647/9753 [1:31:51<10:30,  1.75it/s]Training 3/3 epoch (loss 0.5253):  89%|████████▊ | 8648/9753 [1:31:51<10:52,  1.69it/s]Training 3/3 epoch (loss 0.5016):  89%|████████▊ | 8648/9753 [1:31:52<10:52,  1.69it/s]Training 3/3 epoch (loss 0.5016):  89%|████████▊ | 8649/9753 [1:31:52<11:25,  1.61it/s]Training 3/3 epoch (loss 0.7907):  89%|████████▊ | 8649/9753 [1:31:53<11:25,  1.61it/s]Training 3/3 epoch (loss 0.7907):  89%|████████▊ | 8650/9753 [1:31:53<12:02,  1.53it/s]Training 3/3 epoch (loss 0.4351):  89%|████████▊ | 8650/9753 [1:31:53<12:02,  1.53it/s]Training 3/3 epoch (loss 0.4351):  89%|████████▊ | 8651/9753 [1:31:53<11:34,  1.59it/s]Training 3/3 epoch (loss 0.8439):  89%|████████▊ | 8651/9753 [1:31:54<11:34,  1.59it/s]Training 3/3 epoch (loss 0.8439):  89%|████████▊ | 8652/9753 [1:31:54<12:03,  1.52it/s]Training 3/3 epoch (loss 0.5966):  89%|████████▊ | 8652/9753 [1:31:54<12:03,  1.52it/s]Training 3/3 epoch (loss 0.5966):  89%|████████▊ | 8653/9753 [1:31:54<11:34,  1.58it/s]Training 3/3 epoch (loss 0.7162):  89%|████████▊ | 8653/9753 [1:31:55<11:34,  1.58it/s]Training 3/3 epoch (loss 0.7162):  89%|████████▊ | 8654/9753 [1:31:55<12:15,  1.49it/s]Training 3/3 epoch (loss 0.6131):  89%|████████▊ | 8654/9753 [1:31:56<12:15,  1.49it/s]Training 3/3 epoch (loss 0.6131):  89%|████████▊ | 8655/9753 [1:31:56<12:19,  1.48it/s]Training 3/3 epoch (loss 0.7082):  89%|████████▊ | 8655/9753 [1:31:57<12:19,  1.48it/s]Training 3/3 epoch (loss 0.7082):  89%|████████▉ | 8656/9753 [1:31:57<12:26,  1.47it/s]Training 3/3 epoch (loss 0.5942):  89%|████████▉ | 8656/9753 [1:31:57<12:26,  1.47it/s]Training 3/3 epoch (loss 0.5942):  89%|████████▉ | 8657/9753 [1:31:57<11:52,  1.54it/s]Training 3/3 epoch (loss 0.4714):  89%|████████▉ | 8657/9753 [1:31:58<11:52,  1.54it/s]Training 3/3 epoch (loss 0.4714):  89%|████████▉ | 8658/9753 [1:31:58<12:01,  1.52it/s]Training 3/3 epoch (loss 0.5979):  89%|████████▉ | 8658/9753 [1:31:59<12:01,  1.52it/s]Training 3/3 epoch (loss 0.5979):  89%|████████▉ | 8659/9753 [1:31:59<11:56,  1.53it/s]Training 3/3 epoch (loss 0.5539):  89%|████████▉ | 8659/9753 [1:31:59<11:56,  1.53it/s]Training 3/3 epoch (loss 0.5539):  89%|████████▉ | 8660/9753 [1:31:59<11:21,  1.60it/s]Training 3/3 epoch (loss 0.5486):  89%|████████▉ | 8660/9753 [1:32:00<11:21,  1.60it/s]Training 3/3 epoch (loss 0.5486):  89%|████████▉ | 8661/9753 [1:32:00<11:20,  1.61it/s]Training 3/3 epoch (loss 0.3816):  89%|████████▉ | 8661/9753 [1:32:00<11:20,  1.61it/s]Training 3/3 epoch (loss 0.3816):  89%|████████▉ | 8662/9753 [1:32:00<11:01,  1.65it/s]Training 3/3 epoch (loss 0.4551):  89%|████████▉ | 8662/9753 [1:32:01<11:01,  1.65it/s]Training 3/3 epoch (loss 0.4551):  89%|████████▉ | 8663/9753 [1:32:01<10:41,  1.70it/s]Training 3/3 epoch (loss 0.4380):  89%|████████▉ | 8663/9753 [1:32:01<10:41,  1.70it/s]Training 3/3 epoch (loss 0.4380):  89%|████████▉ | 8664/9753 [1:32:01<10:26,  1.74it/s]Training 3/3 epoch (loss 0.5354):  89%|████████▉ | 8664/9753 [1:32:02<10:26,  1.74it/s]Training 3/3 epoch (loss 0.5354):  89%|████████▉ | 8665/9753 [1:32:02<10:16,  1.76it/s]Training 3/3 epoch (loss 0.4878):  89%|████████▉ | 8665/9753 [1:32:03<10:16,  1.76it/s]Training 3/3 epoch (loss 0.4878):  89%|████████▉ | 8666/9753 [1:32:03<10:52,  1.67it/s]Training 3/3 epoch (loss 0.6697):  89%|████████▉ | 8666/9753 [1:32:03<10:52,  1.67it/s]Training 3/3 epoch (loss 0.6697):  89%|████████▉ | 8667/9753 [1:32:03<12:34,  1.44it/s]Training 3/3 epoch (loss 0.3683):  89%|████████▉ | 8667/9753 [1:32:04<12:34,  1.44it/s]Training 3/3 epoch (loss 0.3683):  89%|████████▉ | 8668/9753 [1:32:04<11:51,  1.53it/s]Training 3/3 epoch (loss 0.5884):  89%|████████▉ | 8668/9753 [1:32:05<11:51,  1.53it/s]Training 3/3 epoch (loss 0.5884):  89%|████████▉ | 8669/9753 [1:32:05<11:22,  1.59it/s]Training 3/3 epoch (loss 0.5285):  89%|████████▉ | 8669/9753 [1:32:05<11:22,  1.59it/s]Training 3/3 epoch (loss 0.5285):  89%|████████▉ | 8670/9753 [1:32:05<12:14,  1.47it/s]Training 3/3 epoch (loss 0.5111):  89%|████████▉ | 8670/9753 [1:32:06<12:14,  1.47it/s]Training 3/3 epoch (loss 0.5111):  89%|████████▉ | 8671/9753 [1:32:06<12:04,  1.49it/s]Training 3/3 epoch (loss 0.5013):  89%|████████▉ | 8671/9753 [1:32:07<12:04,  1.49it/s]Training 3/3 epoch (loss 0.5013):  89%|████████▉ | 8672/9753 [1:32:07<12:30,  1.44it/s]Training 3/3 epoch (loss 0.5695):  89%|████████▉ | 8672/9753 [1:32:07<12:30,  1.44it/s]Training 3/3 epoch (loss 0.5695):  89%|████████▉ | 8673/9753 [1:32:07<11:49,  1.52it/s]Training 3/3 epoch (loss 0.3050):  89%|████████▉ | 8673/9753 [1:32:08<11:49,  1.52it/s]Training 3/3 epoch (loss 0.3050):  89%|████████▉ | 8674/9753 [1:32:08<11:12,  1.60it/s]Training 3/3 epoch (loss 0.4187):  89%|████████▉ | 8674/9753 [1:32:08<11:12,  1.60it/s]Training 3/3 epoch (loss 0.4187):  89%|████████▉ | 8675/9753 [1:32:08<10:48,  1.66it/s]Training 3/3 epoch (loss 0.5606):  89%|████████▉ | 8675/9753 [1:32:09<10:48,  1.66it/s]Training 3/3 epoch (loss 0.5606):  89%|████████▉ | 8676/9753 [1:32:09<11:30,  1.56it/s]Training 3/3 epoch (loss 0.3800):  89%|████████▉ | 8676/9753 [1:32:10<11:30,  1.56it/s]Training 3/3 epoch (loss 0.3800):  89%|████████▉ | 8677/9753 [1:32:10<11:44,  1.53it/s]Training 3/3 epoch (loss 0.6282):  89%|████████▉ | 8677/9753 [1:32:11<11:44,  1.53it/s]Training 3/3 epoch (loss 0.6282):  89%|████████▉ | 8678/9753 [1:32:11<11:31,  1.55it/s]Training 3/3 epoch (loss 0.2096):  89%|████████▉ | 8678/9753 [1:32:11<11:31,  1.55it/s]Training 3/3 epoch (loss 0.2096):  89%|████████▉ | 8679/9753 [1:32:11<11:02,  1.62it/s]Training 3/3 epoch (loss 0.3681):  89%|████████▉ | 8679/9753 [1:32:12<11:02,  1.62it/s]Training 3/3 epoch (loss 0.3681):  89%|████████▉ | 8680/9753 [1:32:12<11:29,  1.56it/s]Training 3/3 epoch (loss 0.4063):  89%|████████▉ | 8680/9753 [1:32:12<11:29,  1.56it/s]Training 3/3 epoch (loss 0.4063):  89%|████████▉ | 8681/9753 [1:32:12<10:59,  1.63it/s]Training 3/3 epoch (loss 0.4957):  89%|████████▉ | 8681/9753 [1:32:13<10:59,  1.63it/s]Training 3/3 epoch (loss 0.4957):  89%|████████▉ | 8682/9753 [1:32:13<10:52,  1.64it/s]Training 3/3 epoch (loss 0.4951):  89%|████████▉ | 8682/9753 [1:32:14<10:52,  1.64it/s]Training 3/3 epoch (loss 0.4951):  89%|████████▉ | 8683/9753 [1:32:14<10:46,  1.66it/s]Training 3/3 epoch (loss 0.7297):  89%|████████▉ | 8683/9753 [1:32:14<10:46,  1.66it/s]Training 3/3 epoch (loss 0.7297):  89%|████████▉ | 8684/9753 [1:32:14<10:29,  1.70it/s]Training 3/3 epoch (loss 0.4203):  89%|████████▉ | 8684/9753 [1:32:15<10:29,  1.70it/s]Training 3/3 epoch (loss 0.4203):  89%|████████▉ | 8685/9753 [1:32:15<10:14,  1.74it/s]Training 3/3 epoch (loss 0.5610):  89%|████████▉ | 8685/9753 [1:32:15<10:14,  1.74it/s]Training 3/3 epoch (loss 0.5610):  89%|████████▉ | 8686/9753 [1:32:15<10:16,  1.73it/s]Training 3/3 epoch (loss 0.5282):  89%|████████▉ | 8686/9753 [1:32:16<10:16,  1.73it/s]Training 3/3 epoch (loss 0.5282):  89%|████████▉ | 8687/9753 [1:32:16<10:36,  1.67it/s]Training 3/3 epoch (loss 0.3064):  89%|████████▉ | 8687/9753 [1:32:17<10:36,  1.67it/s]Training 3/3 epoch (loss 0.3064):  89%|████████▉ | 8688/9753 [1:32:17<12:53,  1.38it/s]Training 3/3 epoch (loss 0.4525):  89%|████████▉ | 8688/9753 [1:32:18<12:53,  1.38it/s]Training 3/3 epoch (loss 0.4525):  89%|████████▉ | 8689/9753 [1:32:18<13:08,  1.35it/s]Training 3/3 epoch (loss 0.4376):  89%|████████▉ | 8689/9753 [1:32:18<13:08,  1.35it/s]Training 3/3 epoch (loss 0.4376):  89%|████████▉ | 8690/9753 [1:32:18<12:07,  1.46it/s]Training 3/3 epoch (loss 0.5011):  89%|████████▉ | 8690/9753 [1:32:19<12:07,  1.46it/s]Training 3/3 epoch (loss 0.5011):  89%|████████▉ | 8691/9753 [1:32:19<11:52,  1.49it/s]Training 3/3 epoch (loss 0.3317):  89%|████████▉ | 8691/9753 [1:32:19<11:52,  1.49it/s]Training 3/3 epoch (loss 0.3317):  89%|████████▉ | 8692/9753 [1:32:19<11:15,  1.57it/s]Training 3/3 epoch (loss 0.5401):  89%|████████▉ | 8692/9753 [1:32:20<11:15,  1.57it/s]Training 3/3 epoch (loss 0.5401):  89%|████████▉ | 8693/9753 [1:32:20<12:34,  1.41it/s]Training 3/3 epoch (loss 0.4948):  89%|████████▉ | 8693/9753 [1:32:21<12:34,  1.41it/s]Training 3/3 epoch (loss 0.4948):  89%|████████▉ | 8694/9753 [1:32:21<12:26,  1.42it/s]Training 3/3 epoch (loss 0.5013):  89%|████████▉ | 8694/9753 [1:32:22<12:26,  1.42it/s]Training 3/3 epoch (loss 0.5013):  89%|████████▉ | 8695/9753 [1:32:22<11:46,  1.50it/s]Training 3/3 epoch (loss 0.5124):  89%|████████▉ | 8695/9753 [1:32:22<11:46,  1.50it/s]Training 3/3 epoch (loss 0.5124):  89%|████████▉ | 8696/9753 [1:32:22<11:07,  1.58it/s]Training 3/3 epoch (loss 0.3856):  89%|████████▉ | 8696/9753 [1:32:23<11:07,  1.58it/s]Training 3/3 epoch (loss 0.3856):  89%|████████▉ | 8697/9753 [1:32:23<10:38,  1.65it/s]Training 3/3 epoch (loss 0.6645):  89%|████████▉ | 8697/9753 [1:32:23<10:38,  1.65it/s]Training 3/3 epoch (loss 0.6645):  89%|████████▉ | 8698/9753 [1:32:23<11:45,  1.49it/s]Training 3/3 epoch (loss 0.2275):  89%|████████▉ | 8698/9753 [1:32:24<11:45,  1.49it/s]Training 3/3 epoch (loss 0.2275):  89%|████████▉ | 8699/9753 [1:32:24<12:45,  1.38it/s]Training 3/3 epoch (loss 0.8368):  89%|████████▉ | 8699/9753 [1:32:25<12:45,  1.38it/s]Training 3/3 epoch (loss 0.8368):  89%|████████▉ | 8700/9753 [1:32:25<14:03,  1.25it/s]Training 3/3 epoch (loss 0.5961):  89%|████████▉ | 8700/9753 [1:32:26<14:03,  1.25it/s]Training 3/3 epoch (loss 0.5961):  89%|███���████▉ | 8701/9753 [1:32:26<13:11,  1.33it/s]Training 3/3 epoch (loss 0.3511):  89%|████████▉ | 8701/9753 [1:32:26<13:11,  1.33it/s]Training 3/3 epoch (loss 0.3511):  89%|████████▉ | 8702/9753 [1:32:26<12:04,  1.45it/s]Training 3/3 epoch (loss 0.3674):  89%|████████▉ | 8702/9753 [1:32:27<12:04,  1.45it/s]Training 3/3 epoch (loss 0.3674):  89%|████████▉ | 8703/9753 [1:32:27<11:17,  1.55it/s]Training 3/3 epoch (loss 0.4358):  89%|████████▉ | 8703/9753 [1:32:28<11:17,  1.55it/s]Training 3/3 epoch (loss 0.4358):  89%|████████▉ | 8704/9753 [1:32:28<12:47,  1.37it/s]Training 3/3 epoch (loss 0.5045):  89%|████████▉ | 8704/9753 [1:32:29<12:47,  1.37it/s]Training 3/3 epoch (loss 0.5045):  89%|████████▉ | 8705/9753 [1:32:29<12:11,  1.43it/s]Training 3/3 epoch (loss 0.3224):  89%|████████▉ | 8705/9753 [1:32:29<12:11,  1.43it/s]Training 3/3 epoch (loss 0.3224):  89%|████████▉ | 8706/9753 [1:32:29<11:31,  1.51it/s]Training 3/3 epoch (loss 0.5339):  89%|████████▉ | 8706/9753 [1:32:30<11:31,  1.51it/s]Training 3/3 epoch (loss 0.5339):  89%|████████▉ | 8707/9753 [1:32:30<11:37,  1.50it/s]Training 3/3 epoch (loss 0.2666):  89%|████████▉ | 8707/9753 [1:32:30<11:37,  1.50it/s]Training 3/3 epoch (loss 0.2666):  89%|████████▉ | 8708/9753 [1:32:30<11:05,  1.57it/s]Training 3/3 epoch (loss 0.4119):  89%|████████▉ | 8708/9753 [1:32:31<11:05,  1.57it/s]Training 3/3 epoch (loss 0.4119):  89%|████████▉ | 8709/9753 [1:32:31<11:23,  1.53it/s]Training 3/3 epoch (loss 0.5315):  89%|████████▉ | 8709/9753 [1:32:32<11:23,  1.53it/s]Training 3/3 epoch (loss 0.5315):  89%|████████▉ | 8710/9753 [1:32:32<10:55,  1.59it/s]Training 3/3 epoch (loss 0.4450):  89%|████████▉ | 8710/9753 [1:32:32<10:55,  1.59it/s]Training 3/3 epoch (loss 0.4450):  89%|████████▉ | 8711/9753 [1:32:32<10:33,  1.65it/s]Training 3/3 epoch (loss 0.2557):  89%|████████▉ | 8711/9753 [1:32:33<10:33,  1.65it/s]Training 3/3 epoch (loss 0.2557):  89%|████████▉ | 8712/9753 [1:32:33<10:12,  1.70it/s]Training 3/3 epoch (loss 0.6449):  89%|████████▉ | 8712/9753 [1:32:34<10:12,  1.70it/s]Training 3/3 epoch (loss 0.6449):  89%|████████▉ | 8713/9753 [1:32:34<11:09,  1.55it/s]Training 3/3 epoch (loss 0.6495):  89%|████████▉ | 8713/9753 [1:32:34<11:09,  1.55it/s]Training 3/3 epoch (loss 0.6495):  89%|████████▉ | 8714/9753 [1:32:34<10:50,  1.60it/s]Training 3/3 epoch (loss 0.5691):  89%|████████▉ | 8714/9753 [1:32:35<10:50,  1.60it/s]Training 3/3 epoch (loss 0.5691):  89%|████████▉ | 8715/9753 [1:32:35<10:38,  1.63it/s]Training 3/3 epoch (loss 0.4000):  89%|████████▉ | 8715/9753 [1:32:35<10:38,  1.63it/s]Training 3/3 epoch (loss 0.4000):  89%|████████▉ | 8716/9753 [1:32:35<10:16,  1.68it/s]Training 3/3 epoch (loss 0.4511):  89%|████████▉ | 8716/9753 [1:32:36<10:16,  1.68it/s]Training 3/3 epoch (loss 0.4511):  89%|████████▉ | 8717/9753 [1:32:36<10:27,  1.65it/s]Training 3/3 epoch (loss 0.5645):  89%|████████▉ | 8717/9753 [1:32:36<10:27,  1.65it/s]Training 3/3 epoch (loss 0.5645):  89%|████████▉ | 8718/9753 [1:32:36<10:30,  1.64it/s]Training 3/3 epoch (loss 0.6952):  89%|████████▉ | 8718/9753 [1:32:37<10:30,  1.64it/s]Training 3/3 epoch (loss 0.6952):  89%|████████▉ | 8719/9753 [1:32:37<11:01,  1.56it/s]Training 3/3 epoch (loss 0.7562):  89%|████████▉ | 8719/9753 [1:32:38<11:01,  1.56it/s]Training 3/3 epoch (loss 0.7562):  89%|████████▉ | 8720/9753 [1:32:38<11:48,  1.46it/s]Training 3/3 epoch (loss 0.4287):  89%|████████▉ | 8720/9753 [1:32:39<11:48,  1.46it/s]Training 3/3 epoch (loss 0.4287):  89%|████████▉ | 8721/9753 [1:32:39<11:08,  1.54it/s]Training 3/3 epoch (loss 0.4720):  89%|████████▉ | 8721/9753 [1:32:39<11:08,  1.54it/s]Training 3/3 epoch (loss 0.4720):  89%|████████▉ | 8722/9753 [1:32:39<12:12,  1.41it/s]Training 3/3 epoch (loss 0.7236):  89%|████████▉ | 8722/9753 [1:32:40<12:12,  1.41it/s]Training 3/3 epoch (loss 0.7236):  89%|████████▉ | 8723/9753 [1:32:40<13:15,  1.29it/s]Training 3/3 epoch (loss 0.5315):  89%|████████▉ | 8723/9753 [1:32:41<13:15,  1.29it/s]Training 3/3 epoch (loss 0.5315):  89%|████████▉ | 8724/9753 [1:32:41<12:06,  1.42it/s]Training 3/3 epoch (loss 0.5723):  89%|████████▉ | 8724/9753 [1:32:42<12:06,  1.42it/s]Training 3/3 epoch (loss 0.5723):  89%|████████▉ | 8725/9753 [1:32:42<11:41,  1.47it/s]Training 3/3 epoch (loss 0.4596):  89%|████████▉ | 8725/9753 [1:32:42<11:41,  1.47it/s]Training 3/3 epoch (loss 0.4596):  89%|████████▉ | 8726/9753 [1:32:42<11:02,  1.55it/s]Training 3/3 epoch (loss 0.5446):  89%|████████▉ | 8726/9753 [1:32:43<11:02,  1.55it/s]Training 3/3 epoch (loss 0.5446):  89%|████████▉ | 8727/9753 [1:32:43<12:11,  1.40it/s]Training 3/3 epoch (loss 0.4485):  89%|████████▉ | 8727/9753 [1:32:43<12:11,  1.40it/s]Training 3/3 epoch (loss 0.4485):  89%|████████▉ | 8728/9753 [1:32:43<11:21,  1.50it/s]Training 3/3 epoch (loss 0.5163):  89%|████████▉ | 8728/9753 [1:32:44<11:21,  1.50it/s]Training 3/3 epoch (loss 0.5163):  90%|████████▉ | 8729/9753 [1:32:44<12:26,  1.37it/s]Training 3/3 epoch (loss 0.6255):  90%|████████▉ | 8729/9753 [1:32:45<12:26,  1.37it/s]Training 3/3 epoch (loss 0.6255):  90%|████████▉ | 8730/9753 [1:32:45<13:18,  1.28it/s]Training 3/3 epoch (loss 0.3990):  90%|████████▉ | 8730/9753 [1:32:46<13:18,  1.28it/s]Training 3/3 epoch (loss 0.3990):  90%|████████▉ | 8731/9753 [1:32:46<13:40,  1.24it/s]Training 3/3 epoch (loss 0.8419):  90%|████████▉ | 8731/9753 [1:32:47<13:40,  1.24it/s]Training 3/3 epoch (loss 0.8419):  90%|████████▉ | 8732/9753 [1:32:47<12:34,  1.35it/s]Training 3/3 epoch (loss 0.2783):  90%|████████▉ | 8732/9753 [1:32:47<12:34,  1.35it/s]Training 3/3 epoch (loss 0.2783):  90%|████████▉ | 8733/9753 [1:32:47<11:34,  1.47it/s]Training 3/3 epoch (loss 0.4218):  90%|████████▉ | 8733/9753 [1:32:48<11:34,  1.47it/s]Training 3/3 epoch (loss 0.4218):  90%|████████▉ | 8734/9753 [1:32:48<11:02,  1.54it/s]Training 3/3 epoch (loss 0.5416):  90%|████████▉ | 8734/9753 [1:32:48<11:02,  1.54it/s]Training 3/3 epoch (loss 0.5416):  90%|████████▉ | 8735/9753 [1:32:48<10:50,  1.57it/s]Training 3/3 epoch (loss 0.6759):  90%|████████▉ | 8735/9753 [1:32:49<10:50,  1.57it/s]Training 3/3 epoch (loss 0.6759):  90%|████████▉ | 8736/9753 [1:32:49<11:07,  1.52it/s]Training 3/3 epoch (loss 0.3548):  90%|████████▉ | 8736/9753 [1:32:50<11:07,  1.52it/s]Training 3/3 epoch (loss 0.3548):  90%|████████▉ | 8737/9753 [1:32:50<10:46,  1.57it/s]Training 3/3 epoch (loss 0.5124):  90%|████████▉ | 8737/9753 [1:32:50<10:46,  1.57it/s]Training 3/3 epoch (loss 0.5124):  90%|████████▉ | 8738/9753 [1:32:50<11:07,  1.52it/s]Training 3/3 epoch (loss 0.5034):  90%|████████▉ | 8738/9753 [1:32:51<11:07,  1.52it/s]Training 3/3 epoch (loss 0.5034):  90%|████████▉ | 8739/9753 [1:32:51<10:34,  1.60it/s]Training 3/3 epoch (loss 0.7033):  90%|████████▉ | 8739/9753 [1:32:52<10:34,  1.60it/s]Training 3/3 epoch (loss 0.7033):  90%|████████▉ | 8740/9753 [1:32:52<10:38,  1.59it/s]Training 3/3 epoch (loss 0.2573):  90%|████████▉ | 8740/9753 [1:32:52<10:38,  1.59it/s]Training 3/3 epoch (loss 0.2573):  90%|████████▉ | 8741/9753 [1:32:52<10:14,  1.65it/s]Training 3/3 epoch (loss 0.3242):  90%|████████▉ | 8741/9753 [1:32:53<10:14,  1.65it/s]Training 3/3 epoch (loss 0.3242):  90%|████████▉ | 8742/9753 [1:32:53<10:02,  1.68it/s]Training 3/3 epoch (loss 0.2019):  90%|████████▉ | 8742/9753 [1:32:53<10:02,  1.68it/s]Training 3/3 epoch (loss 0.2019):  90%|████████▉ | 8743/9753 [1:32:53<09:47,  1.72it/s]Training 3/3 epoch (loss 0.4780):  90%|████████▉ | 8743/9753 [1:32:54<09:47,  1.72it/s]Training 3/3 epoch (loss 0.4780):  90%|████████▉ | 8744/9753 [1:32:54<09:35,  1.75it/s]Training 3/3 epoch (loss 0.5132):  90%|████████▉ | 8744/9753 [1:32:54<09:35,  1.75it/s]Training 3/3 epoch (loss 0.5132):  90%|████████▉ | 8745/9753 [1:32:54<09:29,  1.77it/s]Training 3/3 epoch (loss 0.5150):  90%|████████▉ | 8745/9753 [1:32:55<09:29,  1.77it/s]Training 3/3 epoch (loss 0.5150):  90%|████████▉ | 8746/9753 [1:32:55<10:25,  1.61it/s]Training 3/3 epoch (loss 0.6506):  90%|████████▉ | 8746/9753 [1:32:56<10:25,  1.61it/s]Training 3/3 epoch (loss 0.6506):  90%|████████▉ | 8747/9753 [1:32:56<10:12,  1.64it/s]Training 3/3 epoch (loss 0.4873):  90%|████████▉ | 8747/9753 [1:32:56<10:12,  1.64it/s]Training 3/3 epoch (loss 0.4873):  90%|████████▉ | 8748/9753 [1:32:56<09:55,  1.69it/s]Training 3/3 epoch (loss 0.3773):  90%|████████▉ | 8748/9753 [1:32:57<09:55,  1.69it/s]Training 3/3 epoch (loss 0.3773):  90%|████████▉ | 8749/9753 [1:32:57<10:08,  1.65it/s]Training 3/3 epoch (loss 0.4361):  90%|████████▉ | 8749/9753 [1:32:57<10:08,  1.65it/s]Training 3/3 epoch (loss 0.4361):  90%|████████▉ | 8750/9753 [1:32:57<09:51,  1.70it/s]Training 3/3 epoch (loss 0.4502):  90%|████████▉ | 8750/9753 [1:32:58<09:51,  1.70it/s]Training 3/3 epoch (loss 0.4502):  90%|████████▉ | 8751/9753 [1:32:58<09:39,  1.73it/s]Training 3/3 epoch (loss 0.3532):  90%|████████▉ | 8751/9753 [1:32:59<09:39,  1.73it/s]Training 3/3 epoch (loss 0.3532):  90%|████████▉ | 8752/9753 [1:32:59<10:08,  1.64it/s]Training 3/3 epoch (loss 0.5912):  90%|████████▉ | 8752/9753 [1:32:59<10:08,  1.64it/s]Training 3/3 epoch (loss 0.5912):  90%|████████▉ | 8753/9753 [1:32:59<09:53,  1.68it/s]Training 3/3 epoch (loss 0.7098):  90%|████████▉ | 8753/9753 [1:33:00<09:53,  1.68it/s]Training 3/3 epoch (loss 0.7098):  90%|████████▉ | 8754/9753 [1:33:00<10:06,  1.65it/s]Training 3/3 epoch (loss 0.3745):  90%|████████▉ | 8754/9753 [1:33:01<10:06,  1.65it/s]Training 3/3 epoch (loss 0.3745):  90%|████████▉ | 8755/9753 [1:33:01<11:15,  1.48it/s]Training 3/3 epoch (loss 0.6638):  90%|████████▉ | 8755/9753 [1:33:01<11:15,  1.48it/s]Training 3/3 epoch (loss 0.6638):  90%|████████▉ | 8756/9753 [1:33:01<10:40,  1.56it/s]Training 3/3 epoch (loss 0.4284):  90%|████████▉ | 8756/9753 [1:33:02<10:40,  1.56it/s]Training 3/3 epoch (loss 0.4284):  90%|████████▉ | 8757/9753 [1:33:02<10:29,  1.58it/s]Training 3/3 epoch (loss 0.5861):  90%|████████▉ | 8757/9753 [1:33:03<10:29,  1.58it/s]Training 3/3 epoch (loss 0.5861):  90%|████████▉ | 8758/9753 [1:33:03<10:23,  1.60it/s]Training 3/3 epoch (loss 0.2666):  90%|████████▉ | 8758/9753 [1:33:03<10:23,  1.60it/s]Training 3/3 epoch (loss 0.2666):  90%|████████▉ | 8759/9753 [1:33:03<10:05,  1.64it/s]Training 3/3 epoch (loss 0.5329):  90%|████████▉ | 8759/9753 [1:33:04<10:05,  1.64it/s]Training 3/3 epoch (loss 0.5329):  90%|████████▉ | 8760/9753 [1:33:04<10:40,  1.55it/s]Training 3/3 epoch (loss 0.3316):  90%|████████▉ | 8760/9753 [1:33:04<10:40,  1.55it/s]Training 3/3 epoch (loss 0.3316):  90%|████████▉ | 8761/9753 [1:33:04<10:13,  1.62it/s]Training 3/3 epoch (loss 0.3618):  90%|████████▉ | 8761/9753 [1:33:05<10:13,  1.62it/s]Training 3/3 epoch (loss 0.3618):  90%|████████▉ | 8762/9753 [1:33:05<10:25,  1.58it/s]Training 3/3 epoch (loss 0.5739):  90%|████████▉ | 8762/9753 [1:33:06<10:25,  1.58it/s]Training 3/3 epoch (loss 0.5739):  90%|████████▉ | 8763/9753 [1:33:06<10:03,  1.64it/s]Training 3/3 epoch (loss 0.6665):  90%|████████▉ | 8763/9753 [1:33:06<10:03,  1.64it/s]Training 3/3 epoch (loss 0.6665):  90%|████████▉ | 8764/9753 [1:33:06<10:59,  1.50it/s]Training 3/3 epoch (loss 0.4194):  90%|████████▉ | 8764/9753 [1:33:07<10:59,  1.50it/s]Training 3/3 epoch (loss 0.4194):  90%|████████▉ | 8765/9753 [1:33:07<10:30,  1.57it/s]Training 3/3 epoch (loss 0.4505):  90%|████████▉ | 8765/9753 [1:33:08<10:30,  1.57it/s]Training 3/3 epoch (loss 0.4505):  90%|████████▉ | 8766/9753 [1:33:08<10:03,  1.64it/s]Training 3/3 epoch (loss 0.3601):  90%|████████▉ | 8766/9753 [1:33:08<10:03,  1.64it/s]Training 3/3 epoch (loss 0.3601):  90%|████████▉ | 8767/9753 [1:33:08<09:54,  1.66it/s]Training 3/3 epoch (loss 0.4499):  90%|████████▉ | 8767/9753 [1:33:09<09:54,  1.66it/s]Training 3/3 epoch (loss 0.4499):  90%|████████▉ | 8768/9753 [1:33:09<10:18,  1.59it/s]Training 3/3 epoch (loss 0.6524):  90%|████████▉ | 8768/9753 [1:33:10<10:18,  1.59it/s]Training 3/3 epoch (loss 0.6524):  90%|████████▉ | 8769/9753 [1:33:10<11:34,  1.42it/s]Training 3/3 epoch (loss 0.2669):  90%|████████▉ | 8769/9753 [1:33:10<11:34,  1.42it/s]Training 3/3 epoch (loss 0.2669):  90%|████████▉ | 8770/9753 [1:33:10<10:55,  1.50it/s]Training 3/3 epoch (loss 0.3284):  90%|████████▉ | 8770/9753 [1:33:11<10:55,  1.50it/s]Training 3/3 epoch (loss 0.3284):  90%|████████▉ | 8771/9753 [1:33:11<10:27,  1.57it/s]Training 3/3 epoch (loss 0.6226):  90%|████████▉ | 8771/9753 [1:33:12<10:27,  1.57it/s]Training 3/3 epoch (loss 0.6226):  90%|████████▉ | 8772/9753 [1:33:12<10:59,  1.49it/s]Training 3/3 epoch (loss 0.5603):  90%|████████▉ | 8772/9753 [1:33:12<10:59,  1.49it/s]Training 3/3 epoch (loss 0.5603):  90%|████████▉ | 8773/9753 [1:33:12<10:30,  1.55it/s]Training 3/3 epoch (loss 0.5969):  90%|████████▉ | 8773/9753 [1:33:13<10:30,  1.55it/s]Training 3/3 epoch (loss 0.5969):  90%|████████▉ | 8774/9753 [1:33:13<10:06,  1.61it/s]Training 3/3 epoch (loss 0.3446):  90%|████████▉ | 8774/9753 [1:33:13<10:06,  1.61it/s]Training 3/3 epoch (loss 0.3446):  90%|████████▉ | 8775/9753 [1:33:13<10:13,  1.59it/s]Training 3/3 epoch (loss 0.4341):  90%|████████▉ | 8775/9753 [1:33:14<10:13,  1.59it/s]Training 3/3 epoch (loss 0.4341):  90%|████████▉ | 8776/9753 [1:33:14<10:08,  1.61it/s]Training 3/3 epoch (loss 0.3481):  90%|████████▉ | 8776/9753 [1:33:15<10:08,  1.61it/s]Training 3/3 epoch (loss 0.3481):  90%|████████▉ | 8777/9753 [1:33:15<10:10,  1.60it/s]Training 3/3 epoch (loss 0.4081):  90%|████████▉ | 8777/9753 [1:33:15<10:10,  1.60it/s]Training 3/3 epoch (loss 0.4081):  90%|█████████ | 8778/9753 [1:33:15<09:50,  1.65it/s]Training 3/3 epoch (loss 0.5188):  90%|█████████ | 8778/9753 [1:33:16<09:50,  1.65it/s]Training 3/3 epoch (loss 0.5188):  90%|█████████ | 8779/9753 [1:33:16<09:35,  1.69it/s]Training 3/3 epoch (loss 0.6100):  90%|█████████ | 8779/9753 [1:33:16<09:35,  1.69it/s]Training 3/3 epoch (loss 0.6100):  90%|█████████ | 8780/9753 [1:33:16<09:51,  1.65it/s]Training 3/3 epoch (loss 0.4904):  90%|█████████ | 8780/9753 [1:33:17<09:51,  1.65it/s]Training 3/3 epoch (loss 0.4904):  90%|█████████ | 8781/9753 [1:33:17<09:39,  1.68it/s]Training 3/3 epoch (loss 0.4297):  90%|█████████ | 8781/9753 [1:33:18<09:39,  1.68it/s]Training 3/3 epoch (loss 0.4297):  90%|█████████ | 8782/9753 [1:33:18<09:41,  1.67it/s]Training 3/3 epoch (loss 0.5246):  90%|█████████ | 8782/9753 [1:33:18<09:41,  1.67it/s]Training 3/3 epoch (loss 0.5246):  90%|█████████ | 8783/9753 [1:33:18<10:48,  1.50it/s]Training 3/3 epoch (loss 0.5987):  90%|█████████ | 8783/9753 [1:33:19<10:48,  1.50it/s]Training 3/3 epoch (loss 0.5987):  90%|█████████ | 8784/9753 [1:33:19<10:55,  1.48it/s]Training 3/3 epoch (loss 0.5049):  90%|█████████ | 8784/9753 [1:33:20<10:55,  1.48it/s]Training 3/3 epoch (loss 0.5049):  90%|█████████ | 8785/9753 [1:33:20<10:39,  1.51it/s]Training 3/3 epoch (loss 0.4283):  90%|█████████ | 8785/9753 [1:33:20<10:39,  1.51it/s]Training 3/3 epoch (loss 0.4283):  90%|█████████ | 8786/9753 [1:33:20<10:53,  1.48it/s]Training 3/3 epoch (loss 0.4794):  90%|█████████ | 8786/9753 [1:33:21<10:53,  1.48it/s]Training 3/3 epoch (loss 0.4794):  90%|█████████ | 8787/9753 [1:33:21<11:01,  1.46it/s]Training 3/3 epoch (loss 0.3475):  90%|█████████ | 8787/9753 [1:33:22<11:01,  1.46it/s]Training 3/3 epoch (loss 0.3475):  90%|█████████ | 8788/9753 [1:33:22<10:25,  1.54it/s]Training 3/3 epoch (loss 0.2632):  90%|█████████ | 8788/9753 [1:33:22<10:25,  1.54it/s]Training 3/3 epoch (loss 0.2632):  90%|█████████ | 8789/9753 [1:33:22<09:56,  1.62it/s]Training 3/3 epoch (loss 0.5190):  90%|█████████ | 8789/9753 [1:33:23<09:56,  1.62it/s]Training 3/3 epoch (loss 0.5190):  90%|█████████ | 8790/9753 [1:33:23<09:43,  1.65it/s]Training 3/3 epoch (loss 0.3100):  90%|█████████ | 8790/9753 [1:33:23<09:43,  1.65it/s]Training 3/3 epoch (loss 0.3100):  90%|█████████ | 8791/9753 [1:33:23<09:27,  1.69it/s]Training 3/3 epoch (loss 0.7192):  90%|█████████ | 8791/9753 [1:33:24<09:27,  1.69it/s]Training 3/3 epoch (loss 0.7192):  90%|█████████ | 8792/9753 [1:33:24<09:36,  1.67it/s]Training 3/3 epoch (loss 0.5245):  90%|█████████ | 8792/9753 [1:33:25<09:36,  1.67it/s]Training 3/3 epoch (loss 0.5245):  90%|█████████ | 8793/9753 [1:33:25<09:41,  1.65it/s]Training 3/3 epoch (loss 0.6601):  90%|█████████ | 8793/9753 [1:33:25<09:41,  1.65it/s]Training 3/3 epoch (loss 0.6601):  90%|█████████ | 8794/9753 [1:33:25<09:59,  1.60it/s]Training 3/3 epoch (loss 0.3745):  90%|█████████ | 8794/9753 [1:33:26<09:59,  1.60it/s]Training 3/3 epoch (loss 0.3745):  90%|█████████ | 8795/9753 [1:33:26<09:43,  1.64it/s]Training 3/3 epoch (loss 0.3491):  90%|█████████ | 8795/9753 [1:33:26<09:43,  1.64it/s]Training 3/3 epoch (loss 0.3491):  90%|█████████ | 8796/9753 [1:33:26<09:24,  1.69it/s]Training 3/3 epoch (loss 0.4910):  90%|█████████ | 8796/9753 [1:33:27<09:24,  1.69it/s]Training 3/3 epoch (loss 0.4910):  90%|█████████ | 8797/9753 [1:33:27<10:34,  1.51it/s]Training 3/3 epoch (loss 0.5192):  90%|█████████ | 8797/9753 [1:33:28<10:34,  1.51it/s]Training 3/3 epoch (loss 0.5192):  90%|█████████ | 8798/9753 [1:33:28<10:39,  1.49it/s]Training 3/3 epoch (loss 0.4732):  90%|█████████ | 8798/9753 [1:33:29<10:39,  1.49it/s]Training 3/3 epoch (loss 0.4732):  90%|█████████ | 8799/9753 [1:33:29<10:28,  1.52it/s]Training 3/3 epoch (loss 0.5037):  90%|█████████ | 8799/9753 [1:33:29<10:28,  1.52it/s]Training 3/3 epoch (loss 0.5037):  90%|█████████ | 8800/9753 [1:33:29<10:33,  1.50it/s]Training 3/3 epoch (loss 0.6013):  90%|█████████ | 8800/9753 [1:33:30<10:33,  1.50it/s]Training 3/3 epoch (loss 0.6013):  90%|█████████ | 8801/9753 [1:33:30<11:37,  1.36it/s]Training 3/3 epoch (loss 0.5427):  90%|█████████ | 8801/9753 [1:33:31<11:37,  1.36it/s]Training 3/3 epoch (loss 0.5427):  90%|█████████ | 8802/9753 [1:33:31<12:42,  1.25it/s]Training 3/3 epoch (loss 0.4718):  90%|█████████ | 8802/9753 [1:33:32<12:42,  1.25it/s]Training 3/3 epoch (loss 0.4718):  90%|█████████ | 8803/9753 [1:33:32<12:54,  1.23it/s]Training 3/3 epoch (loss 0.5495):  90%|█████████ | 8803/9753 [1:33:33<12:54,  1.23it/s]Training 3/3 epoch (loss 0.5495):  90%|█████████ | 8804/9753 [1:33:33<12:53,  1.23it/s]Training 3/3 epoch (loss 0.4717):  90%|█████████ | 8804/9753 [1:33:33<12:53,  1.23it/s]Training 3/3 epoch (loss 0.4717):  90%|█████████ | 8805/9753 [1:33:33<11:45,  1.34it/s]Training 3/3 epoch (loss 0.2810):  90%|█████████ | 8805/9753 [1:33:34<11:45,  1.34it/s]Training 3/3 epoch (loss 0.2810):  90%|█████████ | 8806/9753 [1:33:34<10:50,  1.46it/s]Training 3/3 epoch (loss 0.3110):  90%|█████████ | 8806/9753 [1:33:35<10:50,  1.46it/s]Training 3/3 epoch (loss 0.3110):  90%|█████████ | 8807/9753 [1:33:35<10:51,  1.45it/s]Training 3/3 epoch (loss 0.4899):  90%|█████████ | 8807/9753 [1:33:35<10:51,  1.45it/s]Training 3/3 epoch (loss 0.4899):  90%|█████████ | 8808/9753 [1:33:35<11:20,  1.39it/s]Training 3/3 epoch (loss 0.4429):  90%|█████████ | 8808/9753 [1:33:36<11:20,  1.39it/s]Training 3/3 epoch (loss 0.4429):  90%|█████████ | 8809/9753 [1:33:36<11:51,  1.33it/s]Training 3/3 epoch (loss 0.3213):  90%|█████████ | 8809/9753 [1:33:37<11:51,  1.33it/s]Training 3/3 epoch (loss 0.3213):  90%|█████████ | 8810/9753 [1:33:37<10:56,  1.44it/s]Training 3/3 epoch (loss 0.5207):  90%|█████████ | 8810/9753 [1:33:38<10:56,  1.44it/s]Training 3/3 epoch (loss 0.5207):  90%|█████████ | 8811/9753 [1:33:38<11:26,  1.37it/s]Training 3/3 epoch (loss 0.2469):  90%|█████████ | 8811/9753 [1:33:38<11:26,  1.37it/s]Training 3/3 epoch (loss 0.2469):  90%|█████████ | 8812/9753 [1:33:38<10:36,  1.48it/s]Training 3/3 epoch (loss 0.3958):  90%|█████████ | 8812/9753 [1:33:39<10:36,  1.48it/s]Training 3/3 epoch (loss 0.3958):  90%|█████████ | 8813/9753 [1:33:39<09:58,  1.57it/s]Training 3/3 epoch (loss 0.1867):  90%|█████████ | 8813/9753 [1:33:39<09:58,  1.57it/s]Training 3/3 epoch (loss 0.1867):  90%|█████████ | 8814/9753 [1:33:39<09:32,  1.64it/s]Training 3/3 epoch (loss 0.5425):  90%|█████████ | 8814/9753 [1:33:40<09:32,  1.64it/s]Training 3/3 epoch (loss 0.5425):  90%|█████████ | 8815/9753 [1:33:40<09:15,  1.69it/s]Training 3/3 epoch (loss 0.5977):  90%|█████████ | 8815/9753 [1:33:41<09:15,  1.69it/s]Training 3/3 epoch (loss 0.5977):  90%|█████████ | 8816/9753 [1:33:41<10:32,  1.48it/s]Training 3/3 epoch (loss 0.4509):  90%|█████████ | 8816/9753 [1:33:41<10:32,  1.48it/s]Training 3/3 epoch (loss 0.4509):  90%|█████████ | 8817/9753 [1:33:41<09:59,  1.56it/s]Training 3/3 epoch (loss 0.5369):  90%|█████████ | 8817/9753 [1:33:42<09:59,  1.56it/s]Training 3/3 epoch (loss 0.5369):  90%|█████████ | 8818/9753 [1:33:42<09:57,  1.57it/s]Training 3/3 epoch (loss 0.1835):  90%|█████████ | 8818/9753 [1:33:42<09:57,  1.57it/s]Training 3/3 epoch (loss 0.1835):  90%|█████████ | 8819/9753 [1:33:42<09:53,  1.57it/s]Training 3/3 epoch (loss 0.5713):  90%|█████████ | 8819/9753 [1:33:43<09:53,  1.57it/s]Training 3/3 epoch (loss 0.5713):  90%|█████████ | 8820/9753 [1:33:43<10:11,  1.53it/s]Training 3/3 epoch (loss 0.7238):  90%|█████████ | 8820/9753 [1:33:44<10:11,  1.53it/s]Training 3/3 epoch (loss 0.7238):  90%|█████████ | 8821/9753 [1:33:44<11:26,  1.36it/s]Training 3/3 epoch (loss 0.6202):  90%|█████████ | 8821/9753 [1:33:45<11:26,  1.36it/s]Training 3/3 epoch (loss 0.6202):  90%|█████████ | 8822/9753 [1:33:45<10:33,  1.47it/s]Training 3/3 epoch (loss 0.5547):  90%|█████████ | 8822/9753 [1:33:45<10:33,  1.47it/s]Training 3/3 epoch (loss 0.5547):  90%|█████████ | 8823/9753 [1:33:45<09:58,  1.55it/s]Training 3/3 epoch (loss 0.4377):  90%|█████████ | 8823/9753 [1:33:46<09:58,  1.55it/s]Training 3/3 epoch (loss 0.4377):  90%|█████████ | 8824/9753 [1:33:46<09:49,  1.58it/s]Training 3/3 epoch (loss 0.5679):  90%|█████████ | 8824/9753 [1:33:46<09:49,  1.58it/s]Training 3/3 epoch (loss 0.5679):  90%|█████████ | 8825/9753 [1:33:46<09:29,  1.63it/s]Training 3/3 epoch (loss 0.4899):  90%|█████████ | 8825/9753 [1:33:47<09:29,  1.63it/s]Training 3/3 epoch (loss 0.4899):  90%|█████████ | 8826/9753 [1:33:47<09:33,  1.62it/s]Training 3/3 epoch (loss 0.6112):  90%|█████████ | 8826/9753 [1:33:48<09:33,  1.62it/s]Training 3/3 epoch (loss 0.6112):  91%|█████████ | 8827/9753 [1:33:48<09:20,  1.65it/s]Training 3/3 epoch (loss 0.2528):  91%|█████████ | 8827/9753 [1:33:48<09:20,  1.65it/s]Training 3/3 epoch (loss 0.2528):  91%|█████████ | 8828/9753 [1:33:48<09:25,  1.64it/s]Training 3/3 epoch (loss 0.4612):  91%|█████████ | 8828/9753 [1:33:49<09:25,  1.64it/s]Training 3/3 epoch (loss 0.4612):  91%|█████████ | 8829/9753 [1:33:49<09:39,  1.59it/s]Training 3/3 epoch (loss 0.5478):  91%|█████████ | 8829/9753 [1:33:49<09:39,  1.59it/s]Training 3/3 epoch (loss 0.5478):  91%|█████████ | 8830/9753 [1:33:49<09:18,  1.65it/s]Training 3/3 epoch (loss 0.2881):  91%|█████████ | 8830/9753 [1:33:50<09:18,  1.65it/s]Training 3/3 epoch (loss 0.2881):  91%|█████████ | 8831/9753 [1:33:50<09:01,  1.70it/s]Training 3/3 epoch (loss 0.4958):  91%|█████████ | 8831/9753 [1:33:51<09:01,  1.70it/s]Training 3/3 epoch (loss 0.4958):  91%|█████████ | 8832/9753 [1:33:51<09:32,  1.61it/s]Training 3/3 epoch (loss 0.4505):  91%|█████████ | 8832/9753 [1:33:51<09:32,  1.61it/s]Training 3/3 epoch (loss 0.4505):  91%|█████████ | 8833/9753 [1:33:51<09:11,  1.67it/s]Training 3/3 epoch (loss 0.6073):  91%|█████████ | 8833/9753 [1:33:52<09:11,  1.67it/s]Training 3/3 epoch (loss 0.6073):  91%|█████████ | 8834/9753 [1:33:52<09:11,  1.67it/s]Training 3/3 epoch (loss 0.3109):  91%|█████████ | 8834/9753 [1:33:52<09:11,  1.67it/s]Training 3/3 epoch (loss 0.3109):  91%|█████████ | 8835/9753 [1:33:52<09:16,  1.65it/s]Training 3/3 epoch (loss 0.5459):  91%|█████████ | 8835/9753 [1:33:53<09:16,  1.65it/s]Training 3/3 epoch (loss 0.5459):  91%|█████████ | 8836/9753 [1:33:53<09:09,  1.67it/s]Training 3/3 epoch (loss 0.6424):  91%|█████████ | 8836/9753 [1:33:54<09:09,  1.67it/s]Training 3/3 epoch (loss 0.6424):  91%|█████████ | 8837/9753 [1:33:54<09:39,  1.58it/s]Training 3/3 epoch (loss 0.7615):  91%|█████████ | 8837/9753 [1:33:54<09:39,  1.58it/s]Training 3/3 epoch (loss 0.7615):  91%|█████████ | 8838/9753 [1:33:54<10:01,  1.52it/s]Training 3/3 epoch (loss 0.2871):  91%|█████████ | 8838/9753 [1:33:55<10:01,  1.52it/s]Training 3/3 epoch (loss 0.2871):  91%|█████████ | 8839/9753 [1:33:55<09:36,  1.59it/s]Training 3/3 epoch (loss 0.4275):  91%|█████████ | 8839/9753 [1:33:56<09:36,  1.59it/s]Training 3/3 epoch (loss 0.4275):  91%|█████████ | 8840/9753 [1:33:56<09:12,  1.65it/s]Training 3/3 epoch (loss 0.4942):  91%|█████████ | 8840/9753 [1:33:56<09:12,  1.65it/s]Training 3/3 epoch (loss 0.4942):  91%|█████████ | 8841/9753 [1:33:56<08:56,  1.70it/s]Training 3/3 epoch (loss 0.1575):  91%|█████████ | 8841/9753 [1:33:57<08:56,  1.70it/s]Training 3/3 epoch (loss 0.1575):  91%|█████████ | 8842/9753 [1:33:57<08:54,  1.71it/s]Training 3/3 epoch (loss 0.7510):  91%|█████████ | 8842/9753 [1:33:57<08:54,  1.71it/s]Training 3/3 epoch (loss 0.7510):  91%|█████████ | 8843/9753 [1:33:57<09:06,  1.67it/s]Training 3/3 epoch (loss 0.6063):  91%|█████████ | 8843/9753 [1:33:58<09:06,  1.67it/s]Training 3/3 epoch (loss 0.6063):  91%|█████████ | 8844/9753 [1:33:58<08:54,  1.70it/s]Training 3/3 epoch (loss 0.5055):  91%|█████████ | 8844/9753 [1:33:58<08:54,  1.70it/s]Training 3/3 epoch (loss 0.5055):  91%|█████████ | 8845/9753 [1:33:58<08:57,  1.69it/s]Training 3/3 epoch (loss 0.5022):  91%|█████████ | 8845/9753 [1:33:59<08:57,  1.69it/s]Training 3/3 epoch (loss 0.5022):  91%|█████████ | 8846/9753 [1:33:59<08:48,  1.72it/s]Training 3/3 epoch (loss 0.5945):  91%|█████████ | 8846/9753 [1:34:00<08:48,  1.72it/s]Training 3/3 epoch (loss 0.5945):  91%|█████████ | 8847/9753 [1:34:00<09:33,  1.58it/s]Training 3/3 epoch (loss 0.5512):  91%|█████████ | 8847/9753 [1:34:01<09:33,  1.58it/s]Training 3/3 epoch (loss 0.5512):  91%|█████████ | 8848/9753 [1:34:01<09:57,  1.52it/s]Training 3/3 epoch (loss 0.7951):  91%|█████████ | 8848/9753 [1:34:01<09:57,  1.52it/s]Training 3/3 epoch (loss 0.7951):  91%|█████████ | 8849/9753 [1:34:01<09:32,  1.58it/s]Training 3/3 epoch (loss 0.5085):  91%|█████████ | 8849/9753 [1:34:02<09:32,  1.58it/s]Training 3/3 epoch (loss 0.5085):  91%|█████████ | 8850/9753 [1:34:02<09:10,  1.64it/s]Training 3/3 epoch (loss 0.4812):  91%|█████████ | 8850/9753 [1:34:02<09:10,  1.64it/s]Training 3/3 epoch (loss 0.4812):  91%|█████████ | 8851/9753 [1:34:02<09:08,  1.64it/s]Training 3/3 epoch (loss 0.5471):  91%|█████████ | 8851/9753 [1:34:03<09:08,  1.64it/s]Training 3/3 epoch (loss 0.5471):  91%|█████████ | 8852/9753 [1:34:03<09:17,  1.62it/s]Training 3/3 epoch (loss 0.4327):  91%|█████████ | 8852/9753 [1:34:04<09:17,  1.62it/s]Training 3/3 epoch (loss 0.4327):  91%|█████████ | 8853/9753 [1:34:04<09:18,  1.61it/s]Training 3/3 epoch (loss 0.5811):  91%|█████████ | 8853/9753 [1:34:04<09:18,  1.61it/s]Training 3/3 epoch (loss 0.5811):  91%|█████████ | 8854/9753 [1:34:04<08:59,  1.67it/s]Training 3/3 epoch (loss 0.6563):  91%|█████████ | 8854/9753 [1:34:05<08:59,  1.67it/s]Training 3/3 epoch (loss 0.6563):  91%|█████████ | 8855/9753 [1:34:05<09:04,  1.65it/s]Training 3/3 epoch (loss 0.5114):  91%|█████████ | 8855/9753 [1:34:05<09:04,  1.65it/s]Training 3/3 epoch (loss 0.5114):  91%|█████████ | 8856/9753 [1:34:05<09:11,  1.63it/s]Training 3/3 epoch (loss 0.4984):  91%|█████████ | 8856/9753 [1:34:06<09:11,  1.63it/s]Training 3/3 epoch (loss 0.4984):  91%|█████████ | 8857/9753 [1:34:06<08:58,  1.66it/s]Training 3/3 epoch (loss 0.4896):  91%|█████████ | 8857/9753 [1:34:06<08:58,  1.66it/s]Training 3/3 epoch (loss 0.4896):  91%|█████████ | 8858/9753 [1:34:06<08:53,  1.68it/s]Training 3/3 epoch (loss 0.3477):  91%|█████████ | 8858/9753 [1:34:07<08:53,  1.68it/s]Training 3/3 epoch (loss 0.3477):  91%|█████████ | 8859/9753 [1:34:07<08:40,  1.72it/s]Training 3/3 epoch (loss 0.2795):  91%|█████████ | 8859/9753 [1:34:08<08:40,  1.72it/s]Training 3/3 epoch (loss 0.2795):  91%|█████████ | 8860/9753 [1:34:08<08:30,  1.75it/s]Training 3/3 epoch (loss 0.5861):  91%|█████████ | 8860/9753 [1:34:08<08:30,  1.75it/s]Training 3/3 epoch (loss 0.5861):  91%|█████████ | 8861/9753 [1:34:08<08:40,  1.71it/s]Training 3/3 epoch (loss 0.5518):  91%|█████████ | 8861/9753 [1:34:09<08:40,  1.71it/s]Training 3/3 epoch (loss 0.5518):  91%|█████████ | 8862/9753 [1:34:09<08:31,  1.74it/s]Training 3/3 epoch (loss 0.5817):  91%|█████████ | 8862/9753 [1:34:09<08:31,  1.74it/s]Training 3/3 epoch (loss 0.5817):  91%|█████████ | 8863/9753 [1:34:09<08:46,  1.69it/s]Training 3/3 epoch (loss 0.6271):  91%|█████████ | 8863/9753 [1:34:10<08:46,  1.69it/s]Training 3/3 epoch (loss 0.6271):  91%|█████████ | 8864/9753 [1:34:10<09:09,  1.62it/s]Training 3/3 epoch (loss 0.4290):  91%|█████████ | 8864/9753 [1:34:11<09:09,  1.62it/s]Training 3/3 epoch (loss 0.4290):  91%|█████████ | 8865/9753 [1:34:11<10:13,  1.45it/s]Training 3/3 epoch (loss 0.4754):  91%|█████████ | 8865/9753 [1:34:11<10:13,  1.45it/s]Training 3/3 epoch (loss 0.4754):  91%|█████████ | 8866/9753 [1:34:11<09:37,  1.54it/s]Training 3/3 epoch (loss 0.5119):  91%|█████████ | 8866/9753 [1:34:12<09:37,  1.54it/s]Training 3/3 epoch (loss 0.5119):  91%|█████████ | 8867/9753 [1:34:12<09:16,  1.59it/s]Training 3/3 epoch (loss 0.3073):  91%|█████████ | 8867/9753 [1:34:13<09:16,  1.59it/s]Training 3/3 epoch (loss 0.3073):  91%|█████████ | 8868/9753 [1:34:13<08:55,  1.65it/s]Training 3/3 epoch (loss 0.3711):  91%|█████████ | 8868/9753 [1:34:13<08:55,  1.65it/s]Training 3/3 epoch (loss 0.3711):  91%|█████████ | 8869/9753 [1:34:13<09:01,  1.63it/s]Training 3/3 epoch (loss 0.3873):  91%|█████████ | 8869/9753 [1:34:14<09:01,  1.63it/s]Training 3/3 epoch (loss 0.3873):  91%|███████���█ | 8870/9753 [1:34:14<08:44,  1.68it/s]Training 3/3 epoch (loss 0.3622):  91%|█████████ | 8870/9753 [1:34:14<08:44,  1.68it/s]Training 3/3 epoch (loss 0.3622):  91%|█████████ | 8871/9753 [1:34:14<08:32,  1.72it/s]Training 3/3 epoch (loss 0.4604):  91%|█████████ | 8871/9753 [1:34:15<08:32,  1.72it/s]Training 3/3 epoch (loss 0.4604):  91%|█████████ | 8872/9753 [1:34:15<08:24,  1.75it/s]Training 3/3 epoch (loss 0.4337):  91%|█████████ | 8872/9753 [1:34:15<08:24,  1.75it/s]Training 3/3 epoch (loss 0.4337):  91%|█████████ | 8873/9753 [1:34:15<08:18,  1.77it/s]Training 3/3 epoch (loss 0.5858):  91%|█████████ | 8873/9753 [1:34:16<08:18,  1.77it/s]Training 3/3 epoch (loss 0.5858):  91%|█████████ | 8874/9753 [1:34:16<08:52,  1.65it/s]Training 3/3 epoch (loss 0.4442):  91%|█████████ | 8874/9753 [1:34:17<08:52,  1.65it/s]Training 3/3 epoch (loss 0.4442):  91%|█████████ | 8875/9753 [1:34:17<08:56,  1.64it/s]Training 3/3 epoch (loss 0.5437):  91%|█████████ | 8875/9753 [1:34:17<08:56,  1.64it/s]Training 3/3 epoch (loss 0.5437):  91%|█████████ | 8876/9753 [1:34:17<08:42,  1.68it/s]Training 3/3 epoch (loss 0.6807):  91%|█████████ | 8876/9753 [1:34:18<08:42,  1.68it/s]Training 3/3 epoch (loss 0.6807):  91%|█████████ | 8877/9753 [1:34:18<08:38,  1.69it/s]Training 3/3 epoch (loss 0.3413):  91%|█████████ | 8877/9753 [1:34:19<08:38,  1.69it/s]Training 3/3 epoch (loss 0.3413):  91%|█████████ | 8878/9753 [1:34:19<09:48,  1.49it/s]Training 3/3 epoch (loss 0.2348):  91%|█████████ | 8878/9753 [1:34:19<09:48,  1.49it/s]Training 3/3 epoch (loss 0.2348):  91%|█████████ | 8879/9753 [1:34:19<09:26,  1.54it/s]Training 3/3 epoch (loss 0.3745):  91%|█████████ | 8879/9753 [1:34:20<09:26,  1.54it/s]Training 3/3 epoch (loss 0.3745):  91%|█████████ | 8880/9753 [1:34:20<09:33,  1.52it/s]Training 3/3 epoch (loss 0.4934):  91%|█████████ | 8880/9753 [1:34:21<09:33,  1.52it/s]Training 3/3 epoch (loss 0.4934):  91%|█████████ | 8881/9753 [1:34:21<09:06,  1.60it/s]Training 3/3 epoch (loss 0.4038):  91%|█████████ | 8881/9753 [1:34:21<09:06,  1.60it/s]Training 3/3 epoch (loss 0.4038):  91%|█████████ | 8882/9753 [1:34:21<08:43,  1.66it/s]Training 3/3 epoch (loss 0.5321):  91%|█████████ | 8882/9753 [1:34:22<08:43,  1.66it/s]Training 3/3 epoch (loss 0.5321):  91%|█████████ | 8883/9753 [1:34:22<08:36,  1.68it/s]Training 3/3 epoch (loss 0.5359):  91%|█████████ | 8883/9753 [1:34:22<08:36,  1.68it/s]Training 3/3 epoch (loss 0.5359):  91%|█████████ | 8884/9753 [1:34:22<08:29,  1.70it/s]Training 3/3 epoch (loss 0.2512):  91%|█████████ | 8884/9753 [1:34:23<08:29,  1.70it/s]Training 3/3 epoch (loss 0.2512):  91%|█████████ | 8885/9753 [1:34:23<09:04,  1.59it/s]Training 3/3 epoch (loss 0.2895):  91%|█████████ | 8885/9753 [1:34:24<09:04,  1.59it/s]Training 3/3 epoch (loss 0.2895):  91%|█████████ | 8886/9753 [1:34:24<08:48,  1.64it/s]Training 3/3 epoch (loss 0.4589):  91%|█████████ | 8886/9753 [1:34:24<08:48,  1.64it/s]Training 3/3 epoch (loss 0.4589):  91%|█████████ | 8887/9753 [1:34:24<08:30,  1.69it/s]Training 3/3 epoch (loss 0.7550):  91%|█████████ | 8887/9753 [1:34:25<08:30,  1.69it/s]Training 3/3 epoch (loss 0.7550):  91%|█████████ | 8888/9753 [1:34:25<08:55,  1.62it/s]Training 3/3 epoch (loss 0.6002):  91%|█████████ | 8888/9753 [1:34:25<08:55,  1.62it/s]Training 3/3 epoch (loss 0.6002):  91%|█████████ | 8889/9753 [1:34:25<08:43,  1.65it/s]Training 3/3 epoch (loss 0.6396):  91%|█████████ | 8889/9753 [1:34:26<08:43,  1.65it/s]Training 3/3 epoch (loss 0.6396):  91%|█████████ | 8890/9753 [1:34:26<10:00,  1.44it/s]Training 3/3 epoch (loss 0.3959):  91%|█████████ | 8890/9753 [1:34:27<10:00,  1.44it/s]Training 3/3 epoch (loss 0.3959):  91%|█████████ | 8891/9753 [1:34:27<10:52,  1.32it/s]Training 3/3 epoch (loss 0.3082):  91%|█████████ | 8891/9753 [1:34:28<10:52,  1.32it/s]Training 3/3 epoch (loss 0.3082):  91%|█████████ | 8892/9753 [1:34:28<10:01,  1.43it/s]Training 3/3 epoch (loss 0.4092):  91%|█████████ | 8892/9753 [1:34:28<10:01,  1.43it/s]Training 3/3 epoch (loss 0.4092):  91%|█████████ | 8893/9753 [1:34:28<09:39,  1.48it/s]Training 3/3 epoch (loss 0.3710):  91%|█████████ | 8893/9753 [1:34:29<09:39,  1.48it/s]Training 3/3 epoch (loss 0.3710):  91%|█████████ | 8894/9753 [1:34:29<09:05,  1.57it/s]Training 3/3 epoch (loss 0.3993):  91%|█████████ | 8894/9753 [1:34:29<09:05,  1.57it/s]Training 3/3 epoch (loss 0.3993):  91%|█████████ | 8895/9753 [1:34:29<08:44,  1.64it/s]Training 3/3 epoch (loss 0.5578):  91%|█████████ | 8895/9753 [1:34:30<08:44,  1.64it/s]Training 3/3 epoch (loss 0.5578):  91%|█████████ | 8896/9753 [1:34:30<09:07,  1.56it/s]Training 3/3 epoch (loss 0.5928):  91%|█████████ | 8896/9753 [1:34:31<09:07,  1.56it/s]Training 3/3 epoch (loss 0.5928):  91%|█████████ | 8897/9753 [1:34:31<08:44,  1.63it/s]Training 3/3 epoch (loss 0.4077):  91%|█████████ | 8897/9753 [1:34:31<08:44,  1.63it/s]Training 3/3 epoch (loss 0.4077):  91%|█████████ | 8898/9753 [1:34:31<08:25,  1.69it/s]Training 3/3 epoch (loss 0.5608):  91%|█████████ | 8898/9753 [1:34:32<08:25,  1.69it/s]Training 3/3 epoch (loss 0.5608):  91%|█████████ | 8899/9753 [1:34:32<08:13,  1.73it/s]Training 3/3 epoch (loss 0.4547):  91%|█████████ | 8899/9753 [1:34:32<08:13,  1.73it/s]Training 3/3 epoch (loss 0.4547):  91%|█████████▏| 8900/9753 [1:34:32<08:04,  1.76it/s]Training 3/3 epoch (loss 0.5194):  91%|█████████▏| 8900/9753 [1:34:33<08:04,  1.76it/s]Training 3/3 epoch (loss 0.5194):  91%|█████████▏| 8901/9753 [1:34:33<08:15,  1.72it/s]Training 3/3 epoch (loss 0.4161):  91%|█████████▏| 8901/9753 [1:34:33<08:15,  1.72it/s]Training 3/3 epoch (loss 0.4161):  91%|█████████▏| 8902/9753 [1:34:33<08:07,  1.75it/s]Training 3/3 epoch (loss 0.3859):  91%|█████████▏| 8902/9753 [1:34:34<08:07,  1.75it/s]Training 3/3 epoch (loss 0.3859):  91%|█████████▏| 8903/9753 [1:34:34<07:59,  1.77it/s]Training 3/3 epoch (loss 0.3849):  91%|█████████▏| 8903/9753 [1:34:35<07:59,  1.77it/s]Training 3/3 epoch (loss 0.3849):  91%|█████████▏| 8904/9753 [1:34:35<07:53,  1.79it/s]Training 3/3 epoch (loss 0.4227):  91%|█████████▏| 8904/9753 [1:34:35<07:53,  1.79it/s]Training 3/3 epoch (loss 0.4227):  91%|█████████▏| 8905/9753 [1:34:35<07:49,  1.81it/s]Training 3/3 epoch (loss 0.6494):  91%|█████████▏| 8905/9753 [1:34:36<07:49,  1.81it/s]Training 3/3 epoch (loss 0.6494):  91%|█████████▏| 8906/9753 [1:34:36<08:23,  1.68it/s]Training 3/3 epoch (loss 0.5082):  91%|█████████▏| 8906/9753 [1:34:36<08:23,  1.68it/s]Training 3/3 epoch (loss 0.5082):  91%|█████████▏| 8907/9753 [1:34:36<08:11,  1.72it/s]Training 3/3 epoch (loss 0.2927):  91%|█████████▏| 8907/9753 [1:34:37<08:11,  1.72it/s]Training 3/3 epoch (loss 0.2927):  91%|█████████▏| 8908/9753 [1:34:37<08:11,  1.72it/s]Training 3/3 epoch (loss 0.4227):  91%|█████████▏| 8908/9753 [1:34:38<08:11,  1.72it/s]Training 3/3 epoch (loss 0.4227):  91%|█████████▏| 8909/9753 [1:34:38<09:14,  1.52it/s]Training 3/3 epoch (loss 0.5468):  91%|█████████▏| 8909/9753 [1:34:39<09:14,  1.52it/s]Training 3/3 epoch (loss 0.5468):  91%|█████████▏| 8910/9753 [1:34:39<09:47,  1.43it/s]Training 3/3 epoch (loss 0.5038):  91%|█████████▏| 8910/9753 [1:34:39<09:47,  1.43it/s]Training 3/3 epoch (loss 0.5038):  91%|█████████▏| 8911/9753 [1:34:39<10:31,  1.33it/s]Training 3/3 epoch (loss 0.5954):  91%|█████████▏| 8911/9753 [1:34:40<10:31,  1.33it/s]Training 3/3 epoch (loss 0.5954):  91%|█████████▏| 8912/9753 [1:34:40<10:52,  1.29it/s]Training 3/3 epoch (loss 0.5255):  91%|█████████▏| 8912/9753 [1:34:41<10:52,  1.29it/s]Training 3/3 epoch (loss 0.5255):  91%|█████████▏| 8913/9753 [1:34:41<10:18,  1.36it/s]Training 3/3 epoch (loss 0.8016):  91%|█████████▏| 8913/9753 [1:34:42<10:18,  1.36it/s]Training 3/3 epoch (loss 0.8016):  91%|█████████▏| 8914/9753 [1:34:42<09:52,  1.41it/s]Training 3/3 epoch (loss 0.6330):  91%|█████████▏| 8914/9753 [1:34:42<09:52,  1.41it/s]Training 3/3 epoch (loss 0.6330):  91%|█████████▏| 8915/9753 [1:34:42<10:24,  1.34it/s]Training 3/3 epoch (loss 0.4567):  91%|█████████▏| 8915/9753 [1:34:43<10:24,  1.34it/s]Training 3/3 epoch (loss 0.4567):  91%|█████████▏| 8916/9753 [1:34:43<09:43,  1.44it/s]Training 3/3 epoch (loss 0.6127):  91%|█████████▏| 8916/9753 [1:34:44<09:43,  1.44it/s]Training 3/3 epoch (loss 0.6127):  91%|█████████▏| 8917/9753 [1:34:44<09:05,  1.53it/s]Training 3/3 epoch (loss 0.4815):  91%|█████████▏| 8917/9753 [1:34:44<09:05,  1.53it/s]Training 3/3 epoch (loss 0.4815):  91%|████��████▏| 8918/9753 [1:34:44<08:58,  1.55it/s]Training 3/3 epoch (loss 0.5366):  91%|█████████▏| 8918/9753 [1:34:45<08:58,  1.55it/s]Training 3/3 epoch (loss 0.5366):  91%|█████████▏| 8919/9753 [1:34:45<09:05,  1.53it/s]Training 3/3 epoch (loss 0.4673):  91%|█████████▏| 8919/9753 [1:34:45<09:05,  1.53it/s]Training 3/3 epoch (loss 0.4673):  91%|█████████▏| 8920/9753 [1:34:45<08:45,  1.59it/s]Training 3/3 epoch (loss 0.5101):  91%|█████████▏| 8920/9753 [1:34:46<08:45,  1.59it/s]Training 3/3 epoch (loss 0.5101):  91%|█████████▏| 8921/9753 [1:34:46<08:24,  1.65it/s]Training 3/3 epoch (loss 0.3275):  91%|█████████▏| 8921/9753 [1:34:47<08:24,  1.65it/s]Training 3/3 epoch (loss 0.3275):  91%|█████████▏| 8922/9753 [1:34:47<08:19,  1.66it/s]Training 3/3 epoch (loss 0.3368):  91%|█████████▏| 8922/9753 [1:34:47<08:19,  1.66it/s]Training 3/3 epoch (loss 0.3368):  91%|█████████▏| 8923/9753 [1:34:47<08:11,  1.69it/s]Training 3/3 epoch (loss 0.4743):  91%|█████████▏| 8923/9753 [1:34:48<08:11,  1.69it/s]Training 3/3 epoch (loss 0.4743):  92%|█████████▏| 8924/9753 [1:34:48<08:02,  1.72it/s]Training 3/3 epoch (loss 0.3758):  92%|█████████▏| 8924/9753 [1:34:48<08:02,  1.72it/s]Training 3/3 epoch (loss 0.3758):  92%|█████████▏| 8925/9753 [1:34:48<08:31,  1.62it/s]Training 3/3 epoch (loss 0.3056):  92%|█████████▏| 8925/9753 [1:34:49<08:31,  1.62it/s]Training 3/3 epoch (loss 0.3056):  92%|█████████▏| 8926/9753 [1:34:49<08:14,  1.67it/s]Training 3/3 epoch (loss 0.5102):  92%|█████████▏| 8926/9753 [1:34:50<08:14,  1.67it/s]Training 3/3 epoch (loss 0.5102):  92%|█████████▏| 8927/9753 [1:34:50<08:48,  1.56it/s]Training 3/3 epoch (loss 0.5830):  92%|█████████▏| 8927/9753 [1:34:51<08:48,  1.56it/s]Training 3/3 epoch (loss 0.5830):  92%|█████████▏| 8928/9753 [1:34:51<10:31,  1.31it/s]Training 3/3 epoch (loss 0.4943):  92%|█████████▏| 8928/9753 [1:34:51<10:31,  1.31it/s]Training 3/3 epoch (loss 0.4943):  92%|█████████▏| 8929/9753 [1:34:51<10:01,  1.37it/s]Training 3/3 epoch (loss 0.4510):  92%|█████████▏| 8929/9753 [1:34:52<10:01,  1.37it/s]Training 3/3 epoch (loss 0.4510):  92%|█████████▏| 8930/9753 [1:34:52<09:19,  1.47it/s]Training 3/3 epoch (loss 0.4193):  92%|█████████▏| 8930/9753 [1:34:53<09:19,  1.47it/s]Training 3/3 epoch (loss 0.4193):  92%|█████████▏| 8931/9753 [1:34:53<09:01,  1.52it/s]Training 3/3 epoch (loss 0.5958):  92%|█████████▏| 8931/9753 [1:34:53<09:01,  1.52it/s]Training 3/3 epoch (loss 0.5958):  92%|█████████▏| 8932/9753 [1:34:53<08:54,  1.54it/s]Training 3/3 epoch (loss 0.3623):  92%|█████████▏| 8932/9753 [1:34:54<08:54,  1.54it/s]Training 3/3 epoch (loss 0.3623):  92%|█████████▏| 8933/9753 [1:34:54<08:27,  1.62it/s]Training 3/3 epoch (loss 0.5086):  92%|█████████▏| 8933/9753 [1:34:54<08:27,  1.62it/s]Training 3/3 epoch (loss 0.5086):  92%|█████████▏| 8934/9753 [1:34:54<08:10,  1.67it/s]Training 3/3 epoch (loss 0.6271):  92%|█████████▏| 8934/9753 [1:34:55<08:10,  1.67it/s]Training 3/3 epoch (loss 0.6271):  92%|█████████▏| 8935/9753 [1:34:55<08:49,  1.54it/s]Training 3/3 epoch (loss 0.3242):  92%|█████████▏| 8935/9753 [1:34:56<08:49,  1.54it/s]Training 3/3 epoch (loss 0.3242):  92%|█████████▏| 8936/9753 [1:34:56<08:23,  1.62it/s]Training 3/3 epoch (loss 0.4914):  92%|█████████▏| 8936/9753 [1:34:56<08:23,  1.62it/s]Training 3/3 epoch (loss 0.4914):  92%|█████████▏| 8937/9753 [1:34:56<08:08,  1.67it/s]Training 3/3 epoch (loss 0.5439):  92%|█████████▏| 8937/9753 [1:34:57<08:08,  1.67it/s]Training 3/3 epoch (loss 0.5439):  92%|█████████▏| 8938/9753 [1:34:57<08:00,  1.70it/s]Training 3/3 epoch (loss 0.2307):  92%|█████████▏| 8938/9753 [1:34:57<08:00,  1.70it/s]Training 3/3 epoch (loss 0.2307):  92%|█████████▏| 8939/9753 [1:34:57<08:05,  1.68it/s]Training 3/3 epoch (loss 0.4043):  92%|█████████▏| 8939/9753 [1:34:58<08:05,  1.68it/s]Training 3/3 epoch (loss 0.4043):  92%|█████████▏| 8940/9753 [1:34:58<07:53,  1.72it/s]Training 3/3 epoch (loss 0.4551):  92%|█████████▏| 8940/9753 [1:34:58<07:53,  1.72it/s]Training 3/3 epoch (loss 0.4551):  92%|█████████▏| 8941/9753 [1:34:58<07:44,  1.75it/s]Training 3/3 epoch (loss 0.5580):  92%|█████████▏| 8941/9753 [1:34:59<07:44,  1.75it/s]Training 3/3 epoch (loss 0.5580):  92%|█████████▏| 8942/9753 [1:34:59<07:38,  1.77it/s]Training 3/3 epoch (loss 0.2257):  92%|█████████▏| 8942/9753 [1:35:00<07:38,  1.77it/s]Training 3/3 epoch (loss 0.2257):  92%|█████████▏| 8943/9753 [1:35:00<07:33,  1.79it/s]Training 3/3 epoch (loss 0.5039):  92%|█████████▏| 8943/9753 [1:35:00<07:33,  1.79it/s]Training 3/3 epoch (loss 0.5039):  92%|█████████▏| 8944/9753 [1:35:00<08:03,  1.67it/s]Training 3/3 epoch (loss 0.4050):  92%|█████████▏| 8944/9753 [1:35:01<08:03,  1.67it/s]Training 3/3 epoch (loss 0.4050):  92%|█████████▏| 8945/9753 [1:35:01<07:52,  1.71it/s]Training 3/3 epoch (loss 0.4289):  92%|█████████▏| 8945/9753 [1:35:01<07:52,  1.71it/s]Training 3/3 epoch (loss 0.4289):  92%|█████████▏| 8946/9753 [1:35:01<07:47,  1.73it/s]Training 3/3 epoch (loss 0.4827):  92%|█████████▏| 8946/9753 [1:35:02<07:47,  1.73it/s]Training 3/3 epoch (loss 0.4827):  92%|█████████▏| 8947/9753 [1:35:02<07:54,  1.70it/s]Training 3/3 epoch (loss 0.5928):  92%|█████████▏| 8947/9753 [1:35:02<07:54,  1.70it/s]Training 3/3 epoch (loss 0.5928):  92%|█████████▏| 8948/9753 [1:35:02<07:48,  1.72it/s]Training 3/3 epoch (loss 0.4194):  92%|█████████▏| 8948/9753 [1:35:03<07:48,  1.72it/s]Training 3/3 epoch (loss 0.4194):  92%|█████████▏| 8949/9753 [1:35:03<08:17,  1.62it/s]Training 3/3 epoch (loss 0.4634):  92%|█████████▏| 8949/9753 [1:35:04<08:17,  1.62it/s]Training 3/3 epoch (loss 0.4634):  92%|█████████▏| 8950/9753 [1:35:04<08:08,  1.64it/s]Training 3/3 epoch (loss 0.3466):  92%|█████████▏| 8950/9753 [1:35:05<08:08,  1.64it/s]Training 3/3 epoch (loss 0.3466):  92%|█████████▏| 8951/9753 [1:35:05<09:01,  1.48it/s]Training 3/3 epoch (loss 0.5994):  92%|█████████▏| 8951/9753 [1:35:05<09:01,  1.48it/s]Training 3/3 epoch (loss 0.5994):  92%|█████████▏| 8952/9753 [1:35:05<08:35,  1.55it/s]Training 3/3 epoch (loss 0.6136):  92%|█████████▏| 8952/9753 [1:35:06<08:35,  1.55it/s]Training 3/3 epoch (loss 0.6136):  92%|█████████▏| 8953/9753 [1:35:06<08:19,  1.60it/s]Training 3/3 epoch (loss 0.5261):  92%|█████████▏| 8953/9753 [1:35:07<08:19,  1.60it/s]Training 3/3 epoch (loss 0.5261):  92%|█████████▏| 8954/9753 [1:35:07<09:28,  1.40it/s]Training 3/3 epoch (loss 0.5221):  92%|█████████▏| 8954/9753 [1:35:07<09:28,  1.40it/s]Training 3/3 epoch (loss 0.5221):  92%|█████████▏| 8955/9753 [1:35:07<09:05,  1.46it/s]Training 3/3 epoch (loss 0.3495):  92%|█████████▏| 8955/9753 [1:35:08<09:05,  1.46it/s]Training 3/3 epoch (loss 0.3495):  92%|█████████▏| 8956/9753 [1:35:08<08:50,  1.50it/s]Training 3/3 epoch (loss 0.3844):  92%|█████████▏| 8956/9753 [1:35:08<08:50,  1.50it/s]Training 3/3 epoch (loss 0.3844):  92%|█████████▏| 8957/9753 [1:35:08<08:24,  1.58it/s]Training 3/3 epoch (loss 0.2625):  92%|█████████▏| 8957/9753 [1:35:09<08:24,  1.58it/s]Training 3/3 epoch (loss 0.2625):  92%|█████████▏| 8958/9753 [1:35:09<08:02,  1.65it/s]Training 3/3 epoch (loss 0.2409):  92%|█████████▏| 8958/9753 [1:35:10<08:02,  1.65it/s]Training 3/3 epoch (loss 0.2409):  92%|█████████▏| 8959/9753 [1:35:10<07:45,  1.71it/s]Training 3/3 epoch (loss 0.4209):  92%|█████████▏| 8959/9753 [1:35:10<07:45,  1.71it/s]Training 3/3 epoch (loss 0.4209):  92%|█████████▏| 8960/9753 [1:35:10<08:08,  1.62it/s]Training 3/3 epoch (loss 0.4084):  92%|█████████▏| 8960/9753 [1:35:11<08:08,  1.62it/s]Training 3/3 epoch (loss 0.4084):  92%|█████████▏| 8961/9753 [1:35:11<08:14,  1.60it/s]Training 3/3 epoch (loss 0.4546):  92%|█████████▏| 8961/9753 [1:35:12<08:14,  1.60it/s]Training 3/3 epoch (loss 0.4546):  92%|█████████▏| 8962/9753 [1:35:12<08:13,  1.60it/s]Training 3/3 epoch (loss 0.5188):  92%|█████████▏| 8962/9753 [1:35:12<08:13,  1.60it/s]Training 3/3 epoch (loss 0.5188):  92%|█████████▏| 8963/9753 [1:35:12<07:58,  1.65it/s]Training 3/3 epoch (loss 0.2267):  92%|█████████▏| 8963/9753 [1:35:13<07:58,  1.65it/s]Training 3/3 epoch (loss 0.2267):  92%|█████████▏| 8964/9753 [1:35:13<07:45,  1.70it/s]Training 3/3 epoch (loss 0.6127):  92%|█████████▏| 8964/9753 [1:35:13<07:45,  1.70it/s]Training 3/3 epoch (loss 0.6127):  92%|█████████▏| 8965/9753 [1:35:13<07:33,  1.74it/s]Training 3/3 epoch (loss 0.4689):  92%|█████████▏| 8965/9753 [1:35:14<07:33,  1.74it/s]Training 3/3 epoch (loss 0.4689):  92%|█████████▏| 8966/9753 [1:35:14<07:29,  1.75it/s]Training 3/3 epoch (loss 0.4321):  92%|█████████▏| 8966/9753 [1:35:14<07:29,  1.75it/s]Training 3/3 epoch (loss 0.4321):  92%|█████████▏| 8967/9753 [1:35:14<07:22,  1.78it/s]Training 3/3 epoch (loss 0.4419):  92%|█████████▏| 8967/9753 [1:35:15<07:22,  1.78it/s]Training 3/3 epoch (loss 0.4419):  92%|█████████▏| 8968/9753 [1:35:15<07:29,  1.75it/s]Training 3/3 epoch (loss 0.3569):  92%|█████████▏| 8968/9753 [1:35:15<07:29,  1.75it/s]Training 3/3 epoch (loss 0.3569):  92%|█████████▏| 8969/9753 [1:35:15<07:29,  1.75it/s]Training 3/3 epoch (loss 0.5102):  92%|█████████▏| 8969/9753 [1:35:16<07:29,  1.75it/s]Training 3/3 epoch (loss 0.5102):  92%|█████████▏| 8970/9753 [1:35:16<07:27,  1.75it/s]Training 3/3 epoch (loss 0.4533):  92%|█████████▏| 8970/9753 [1:35:17<07:27,  1.75it/s]Training 3/3 epoch (loss 0.4533):  92%|█████████▏| 8971/9753 [1:35:17<07:46,  1.68it/s]Training 3/3 epoch (loss 0.2424):  92%|█████████▏| 8971/9753 [1:35:17<07:46,  1.68it/s]Training 3/3 epoch (loss 0.2424):  92%|█████████▏| 8972/9753 [1:35:17<07:34,  1.72it/s]Training 3/3 epoch (loss 0.4250):  92%|█████████▏| 8972/9753 [1:35:18<07:34,  1.72it/s]Training 3/3 epoch (loss 0.4250):  92%|█████████▏| 8973/9753 [1:35:18<07:27,  1.74it/s]Training 3/3 epoch (loss 0.6362):  92%|█████████▏| 8973/9753 [1:35:18<07:27,  1.74it/s]Training 3/3 epoch (loss 0.6362):  92%|█████████▏| 8974/9753 [1:35:18<07:42,  1.69it/s]Training 3/3 epoch (loss 0.5691):  92%|█████████▏| 8974/9753 [1:35:19<07:42,  1.69it/s]Training 3/3 epoch (loss 0.5691):  92%|█████████▏| 8975/9753 [1:35:19<08:26,  1.54it/s]Training 3/3 epoch (loss 0.2812):  92%|█████████▏| 8975/9753 [1:35:20<08:26,  1.54it/s]Training 3/3 epoch (loss 0.2812):  92%|█████████▏| 8976/9753 [1:35:20<08:33,  1.51it/s]Training 3/3 epoch (loss 0.7035):  92%|█████████▏| 8976/9753 [1:35:21<08:33,  1.51it/s]Training 3/3 epoch (loss 0.7035):  92%|█████████▏| 8977/9753 [1:35:21<08:29,  1.52it/s]Training 3/3 epoch (loss 0.4650):  92%|█████████▏| 8977/9753 [1:35:21<08:29,  1.52it/s]Training 3/3 epoch (loss 0.4650):  92%|█████████▏| 8978/9753 [1:35:21<08:08,  1.59it/s]Training 3/3 epoch (loss 0.3030):  92%|█████████▏| 8978/9753 [1:35:22<08:08,  1.59it/s]Training 3/3 epoch (loss 0.3030):  92%|█████████▏| 8979/9753 [1:35:22<07:47,  1.66it/s]Training 3/3 epoch (loss 0.5402):  92%|█████████▏| 8979/9753 [1:35:22<07:47,  1.66it/s]Training 3/3 epoch (loss 0.5402):  92%|█████████▏| 8980/9753 [1:35:22<07:31,  1.71it/s]Training 3/3 epoch (loss 0.5601):  92%|█████████▏| 8980/9753 [1:35:23<07:31,  1.71it/s]Training 3/3 epoch (loss 0.5601):  92%|█████████▏| 8981/9753 [1:35:23<07:20,  1.75it/s]Training 3/3 epoch (loss 0.2861):  92%|█████████▏| 8981/9753 [1:35:23<07:20,  1.75it/s]Training 3/3 epoch (loss 0.2861):  92%|█████████▏| 8982/9753 [1:35:23<07:21,  1.75it/s]Training 3/3 epoch (loss 0.5203):  92%|█████████▏| 8982/9753 [1:35:24<07:21,  1.75it/s]Training 3/3 epoch (loss 0.5203):  92%|█████████▏| 8983/9753 [1:35:24<07:26,  1.73it/s]Training 3/3 epoch (loss 0.8656):  92%|█████████▏| 8983/9753 [1:35:25<07:26,  1.73it/s]Training 3/3 epoch (loss 0.8656):  92%|█████████▏| 8984/9753 [1:35:25<07:41,  1.66it/s]Training 3/3 epoch (loss 0.1915):  92%|█████████▏| 8984/9753 [1:35:25<07:41,  1.66it/s]Training 3/3 epoch (loss 0.1915):  92%|█████████▏| 8985/9753 [1:35:25<07:34,  1.69it/s]Training 3/3 epoch (loss 0.4369):  92%|█████████▏| 8985/9753 [1:35:26<07:34,  1.69it/s]Training 3/3 epoch (loss 0.4369):  92%|█████████▏| 8986/9753 [1:35:26<07:22,  1.73it/s]Training 3/3 epoch (loss 0.4569):  92%|█████████▏| 8986/9753 [1:35:26<07:22,  1.73it/s]Training 3/3 epoch (loss 0.4569):  92%|█████████▏| 8987/9753 [1:35:26<07:14,  1.76it/s]Training 3/3 epoch (loss 0.6620):  92%|█████████▏| 8987/9753 [1:35:27<07:14,  1.76it/s]Training 3/3 epoch (loss 0.6620):  92%|█████████▏| 8988/9753 [1:35:27<07:14,  1.76it/s]Training 3/3 epoch (loss 0.2302):  92%|█████████▏| 8988/9753 [1:35:27<07:14,  1.76it/s]Training 3/3 epoch (loss 0.2302):  92%|█████████▏| 8989/9753 [1:35:27<07:14,  1.76it/s]Training 3/3 epoch (loss 0.3697):  92%|█████████▏| 8989/9753 [1:35:28<07:14,  1.76it/s]Training 3/3 epoch (loss 0.3697):  92%|█████████▏| 8990/9753 [1:35:28<07:07,  1.79it/s]Training 3/3 epoch (loss 0.5411):  92%|█████████▏| 8990/9753 [1:35:28<07:07,  1.79it/s]Training 3/3 epoch (loss 0.5411):  92%|█████████▏| 8991/9753 [1:35:28<07:05,  1.79it/s]Training 3/3 epoch (loss 0.5601):  92%|█████████▏| 8991/9753 [1:35:29<07:05,  1.79it/s]Training 3/3 epoch (loss 0.5601):  92%|█████████▏| 8992/9753 [1:35:29<07:55,  1.60it/s]Training 3/3 epoch (loss 0.5567):  92%|█████████▏| 8992/9753 [1:35:30<07:55,  1.60it/s]Training 3/3 epoch (loss 0.5567):  92%|█████████▏| 8993/9753 [1:35:30<07:43,  1.64it/s]Training 3/3 epoch (loss 0.5747):  92%|█████████▏| 8993/9753 [1:35:30<07:43,  1.64it/s]Training 3/3 epoch (loss 0.5747):  92%|█████████▏| 8994/9753 [1:35:30<07:27,  1.69it/s]Training 3/3 epoch (loss 0.6197):  92%|█████████▏| 8994/9753 [1:35:31<07:27,  1.69it/s]Training 3/3 epoch (loss 0.6197):  92%|█████████▏| 8995/9753 [1:35:31<07:29,  1.69it/s]Training 3/3 epoch (loss 0.3475):  92%|█████████▏| 8995/9753 [1:35:31<07:29,  1.69it/s]Training 3/3 epoch (loss 0.3475):  92%|█████████▏| 8996/9753 [1:35:31<07:19,  1.72it/s]Training 3/3 epoch (loss 0.4604):  92%|█████████▏| 8996/9753 [1:35:32<07:19,  1.72it/s]Training 3/3 epoch (loss 0.4604):  92%|█████████▏| 8997/9753 [1:35:32<07:13,  1.74it/s]Training 3/3 epoch (loss 0.5266):  92%|█████████▏| 8997/9753 [1:35:33<07:13,  1.74it/s]Training 3/3 epoch (loss 0.5266):  92%|█████████▏| 8998/9753 [1:35:33<07:18,  1.72it/s]Training 3/3 epoch (loss 0.5232):  92%|█████████▏| 8998/9753 [1:35:33<07:18,  1.72it/s]Training 3/3 epoch (loss 0.5232):  92%|█████████▏| 8999/9753 [1:35:33<07:36,  1.65it/s]Training 3/3 epoch (loss 0.4546):  92%|█████████▏| 8999/9753 [1:35:34<07:36,  1.65it/s]Training 3/3 epoch (loss 0.4546):  92%|█████████▏| 9000/9753 [1:35:34<07:22,  1.70it/s]Training 3/3 epoch (loss 0.4021):  92%|█████████▏| 9000/9753 [1:35:34<07:22,  1.70it/s]Training 3/3 epoch (loss 0.4021):  92%|█████████▏| 9001/9753 [1:35:34<07:19,  1.71it/s]Training 3/3 epoch (loss 0.6401):  92%|█████████▏| 9001/9753 [1:35:35<07:19,  1.71it/s]Training 3/3 epoch (loss 0.6401):  92%|█████████▏| 9002/9753 [1:35:35<07:10,  1.75it/s]Training 3/3 epoch (loss 0.8283):  92%|█████████▏| 9002/9753 [1:35:36<07:10,  1.75it/s]Training 3/3 epoch (loss 0.8283):  92%|█████████▏| 9003/9753 [1:35:36<08:24,  1.49it/s]Training 3/3 epoch (loss 0.5501):  92%|█████████▏| 9003/9753 [1:35:36<08:24,  1.49it/s]Training 3/3 epoch (loss 0.5501):  92%|█████████▏| 9004/9753 [1:35:36<07:58,  1.56it/s]Training 3/3 epoch (loss 0.5634):  92%|█████████▏| 9004/9753 [1:35:37<07:58,  1.56it/s]Training 3/3 epoch (loss 0.5634):  92%|█████████▏| 9005/9753 [1:35:37<07:48,  1.60it/s]Training 3/3 epoch (loss 0.4132):  92%|█████████▏| 9005/9753 [1:35:38<07:48,  1.60it/s]Training 3/3 epoch (loss 0.4132):  92%|█████████▏| 9006/9753 [1:35:38<07:29,  1.66it/s]Training 3/3 epoch (loss 0.9063):  92%|█████████▏| 9006/9753 [1:35:38<07:29,  1.66it/s]Training 3/3 epoch (loss 0.9063):  92%|█████████▏| 9007/9753 [1:35:38<08:33,  1.45it/s]Training 3/3 epoch (loss 0.2491):  92%|█████████▏| 9007/9753 [1:35:39<08:33,  1.45it/s]Training 3/3 epoch (loss 0.2491):  92%|█████████▏| 9008/9753 [1:35:39<08:34,  1.45it/s]Training 3/3 epoch (loss 0.3167):  92%|█████████▏| 9008/9753 [1:35:40<08:34,  1.45it/s]Training 3/3 epoch (loss 0.3167):  92%|█████████▏| 9009/9753 [1:35:40<08:13,  1.51it/s]Training 3/3 epoch (loss 0.4792):  92%|█████████▏| 9009/9753 [1:35:40<08:13,  1.51it/s]Training 3/3 epoch (loss 0.4792):  92%|█████████▏| 9010/9753 [1:35:40<07:49,  1.58it/s]Training 3/3 epoch (loss 0.6175):  92%|█████████▏| 9010/9753 [1:35:41<07:49,  1.58it/s]Training 3/3 epoch (loss 0.6175):  92%|█████████▏| 9011/9753 [1:35:41<08:36,  1.44it/s]Training 3/3 epoch (loss 0.5475):  92%|█████████▏| 9011/9753 [1:35:42<08:36,  1.44it/s]Training 3/3 epoch (loss 0.5475):  92%|█████████▏| 9012/9753 [1:35:42<08:07,  1.52it/s]Training 3/3 epoch (loss 0.5718):  92%|█████████▏| 9012/9753 [1:35:43<08:07,  1.52it/s]Training 3/3 epoch (loss 0.5718):  92%|█████████▏| 9013/9753 [1:35:43<08:48,  1.40it/s]Training 3/3 epoch (loss 0.3631):  92%|█████████▏| 9013/9753 [1:35:43<08:48,  1.40it/s]Training 3/3 epoch (loss 0.3631):  92%|█████████▏| 9014/9753 [1:35:43<08:15,  1.49it/s]Training 3/3 epoch (loss 0.7268):  92%|█████████▏| 9014/9753 [1:35:44<08:15,  1.49it/s]Training 3/3 epoch (loss 0.7268):  92%|█████████▏| 9015/9753 [1:35:44<07:50,  1.57it/s]Training 3/3 epoch (loss 0.5286):  92%|█████████▏| 9015/9753 [1:35:44<07:50,  1.57it/s]Training 3/3 epoch (loss 0.5286):  92%|█████████▏| 9016/9753 [1:35:44<08:03,  1.53it/s]Training 3/3 epoch (loss 0.7155):  92%|█████████▏| 9016/9753 [1:35:45<08:03,  1.53it/s]Training 3/3 epoch (loss 0.7155):  92%|█████████▏| 9017/9753 [1:35:45<08:25,  1.46it/s]Training 3/3 epoch (loss 0.3219):  92%|█████████▏| 9017/9753 [1:35:46<08:25,  1.46it/s]Training 3/3 epoch (loss 0.3219):  92%|█████████▏| 9018/9753 [1:35:46<08:46,  1.40it/s]Training 3/3 epoch (loss 0.4521):  92%|█████████▏| 9018/9753 [1:35:47<08:46,  1.40it/s]Training 3/3 epoch (loss 0.4521):  92%|█████████▏| 9019/9753 [1:35:47<08:40,  1.41it/s]Training 3/3 epoch (loss 0.7062):  92%|█████████▏| 9019/9753 [1:35:47<08:40,  1.41it/s]Training 3/3 epoch (loss 0.7062):  92%|█████████▏| 9020/9753 [1:35:47<08:40,  1.41it/s]Training 3/3 epoch (loss 0.5296):  92%|█████████▏| 9020/9753 [1:35:48<08:40,  1.41it/s]Training 3/3 epoch (loss 0.5296):  92%|█████████▏| 9021/9753 [1:35:48<08:15,  1.48it/s]Training 3/3 epoch (loss 0.4312):  92%|█████████▏| 9021/9753 [1:35:49<08:15,  1.48it/s]Training 3/3 epoch (loss 0.4312):  93%|█████████▎| 9022/9753 [1:35:49<08:57,  1.36it/s]Training 3/3 epoch (loss 0.5170):  93%|█████████▎| 9022/9753 [1:35:49<08:57,  1.36it/s]Training 3/3 epoch (loss 0.5170):  93%|█████████▎| 9023/9753 [1:35:49<08:21,  1.46it/s]Training 3/3 epoch (loss 0.4719):  93%|█████████▎| 9023/9753 [1:35:50<08:21,  1.46it/s]Training 3/3 epoch (loss 0.4719):  93%|█████████▎| 9024/9753 [1:35:50<08:18,  1.46it/s]Training 3/3 epoch (loss 0.5478):  93%|█████████▎| 9024/9753 [1:35:51<08:18,  1.46it/s]Training 3/3 epoch (loss 0.5478):  93%|█████████▎| 9025/9753 [1:35:51<08:08,  1.49it/s]Training 3/3 epoch (loss 0.4398):  93%|█████████▎| 9025/9753 [1:35:51<08:08,  1.49it/s]Training 3/3 epoch (loss 0.4398):  93%|█████████▎| 9026/9753 [1:35:51<07:43,  1.57it/s]Training 3/3 epoch (loss 0.6091):  93%|█████████▎| 9026/9753 [1:35:52<07:43,  1.57it/s]Training 3/3 epoch (loss 0.6091):  93%|█████████▎| 9027/9753 [1:35:52<07:50,  1.54it/s]Training 3/3 epoch (loss 0.4613):  93%|█████████▎| 9027/9753 [1:35:53<07:50,  1.54it/s]Training 3/3 epoch (loss 0.4613):  93%|█████████▎| 9028/9753 [1:35:53<07:30,  1.61it/s]Training 3/3 epoch (loss 0.6934):  93%|█████████▎| 9028/9753 [1:35:53<07:30,  1.61it/s]Training 3/3 epoch (loss 0.6934):  93%|█████████▎| 9029/9753 [1:35:53<07:30,  1.61it/s]Training 3/3 epoch (loss 0.2713):  93%|█████████▎| 9029/9753 [1:35:54<07:30,  1.61it/s]Training 3/3 epoch (loss 0.2713):  93%|█████████▎| 9030/9753 [1:35:54<07:45,  1.55it/s]Training 3/3 epoch (loss 0.3417):  93%|█████████▎| 9030/9753 [1:35:54<07:45,  1.55it/s]Training 3/3 epoch (loss 0.3417):  93%|█████████▎| 9031/9753 [1:35:54<07:30,  1.60it/s]Training 3/3 epoch (loss 0.5499):  93%|█████████▎| 9031/9753 [1:35:55<07:30,  1.60it/s]Training 3/3 epoch (loss 0.5499):  93%|█████████▎| 9032/9753 [1:35:55<07:24,  1.62it/s]Training 3/3 epoch (loss 0.5646):  93%|█████████▎| 9032/9753 [1:35:56<07:24,  1.62it/s]Training 3/3 epoch (loss 0.5646):  93%|█████████▎| 9033/9753 [1:35:56<07:31,  1.60it/s]Training 3/3 epoch (loss 0.5770):  93%|█████████▎| 9033/9753 [1:35:56<07:31,  1.60it/s]Training 3/3 epoch (loss 0.5770):  93%|█████████▎| 9034/9753 [1:35:56<07:33,  1.59it/s]Training 3/3 epoch (loss 0.5768):  93%|█████████▎| 9034/9753 [1:35:57<07:33,  1.59it/s]Training 3/3 epoch (loss 0.5768):  93%|█████████▎| 9035/9753 [1:35:57<07:14,  1.65it/s]Training 3/3 epoch (loss 0.3558):  93%|█████████▎| 9035/9753 [1:35:58<07:14,  1.65it/s]Training 3/3 epoch (loss 0.3558):  93%|█████████▎| 9036/9753 [1:35:58<07:33,  1.58it/s]Training 3/3 epoch (loss 0.7259):  93%|█████████▎| 9036/9753 [1:35:58<07:33,  1.58it/s]Training 3/3 epoch (loss 0.7259):  93%|█████████▎| 9037/9753 [1:35:58<08:32,  1.40it/s]Training 3/3 epoch (loss 0.5213):  93%|█████████▎| 9037/9753 [1:35:59<08:32,  1.40it/s]Training 3/3 epoch (loss 0.5213):  93%|█████████▎| 9038/9753 [1:35:59<07:59,  1.49it/s]Training 3/3 epoch (loss 0.4755):  93%|█████████▎| 9038/9753 [1:36:00<07:59,  1.49it/s]Training 3/3 epoch (loss 0.4755):  93%|█████████▎| 9039/9753 [1:36:00<07:33,  1.58it/s]Training 3/3 epoch (loss 0.5128):  93%|█████████▎| 9039/9753 [1:36:00<07:33,  1.58it/s]Training 3/3 epoch (loss 0.5128):  93%|█████████▎| 9040/9753 [1:36:00<07:46,  1.53it/s]Training 3/3 epoch (loss 0.5627):  93%|█████████▎| 9040/9753 [1:36:01<07:46,  1.53it/s]Training 3/3 epoch (loss 0.5627):  93%|█████████▎| 9041/9753 [1:36:01<07:46,  1.53it/s]Training 3/3 epoch (loss 0.4857):  93%|█████████▎| 9041/9753 [1:36:01<07:46,  1.53it/s]Training 3/3 epoch (loss 0.4857):  93%|█████████▎| 9042/9753 [1:36:01<07:26,  1.59it/s]Training 3/3 epoch (loss 0.4720):  93%|█████████▎| 9042/9753 [1:36:02<07:26,  1.59it/s]Training 3/3 epoch (loss 0.4720):  93%|█████████▎| 9043/9753 [1:36:02<07:11,  1.64it/s]Training 3/3 epoch (loss 0.7289):  93%|█████████▎| 9043/9753 [1:36:03<07:11,  1.64it/s]Training 3/3 epoch (loss 0.7289):  93%|█████████▎| 9044/9753 [1:36:03<08:26,  1.40it/s]Training 3/3 epoch (loss 0.3834):  93%|█████████▎| 9044/9753 [1:36:04<08:26,  1.40it/s]Training 3/3 epoch (loss 0.3834):  93%|█████████▎| 9045/9753 [1:36:04<07:52,  1.50it/s]Training 3/3 epoch (loss 0.4072):  93%|█████████▎| 9045/9753 [1:36:04<07:52,  1.50it/s]Training 3/3 epoch (loss 0.4072):  93%|█████████▎| 9046/9753 [1:36:04<07:28,  1.58it/s]Training 3/3 epoch (loss 0.4558):  93%|█████████▎| 9046/9753 [1:36:05<07:28,  1.58it/s]Training 3/3 epoch (loss 0.4558):  93%|█████████▎| 9047/9753 [1:36:05<07:08,  1.65it/s]Training 3/3 epoch (loss 0.5575):  93%|█████████▎| 9047/9753 [1:36:05<07:08,  1.65it/s]Training 3/3 epoch (loss 0.5575):  93%|█████████▎| 9048/9753 [1:36:05<06:55,  1.70it/s]Training 3/3 epoch (loss 0.6466):  93%|█████████▎| 9048/9753 [1:36:06<06:55,  1.70it/s]Training 3/3 epoch (loss 0.6466):  93%|█████████▎| 9049/9753 [1:36:06<07:02,  1.67it/s]Training 3/3 epoch (loss 0.5746):  93%|█████████▎| 9049/9753 [1:36:06<07:02,  1.67it/s]Training 3/3 epoch (loss 0.5746):  93%|█████████▎| 9050/9753 [1:36:06<07:06,  1.65it/s]Training 3/3 epoch (loss 0.1805):  93%|█████████▎| 9050/9753 [1:36:07<07:06,  1.65it/s]Training 3/3 epoch (loss 0.1805):  93%|█████████▎| 9051/9753 [1:36:07<06:53,  1.70it/s]Training 3/3 epoch (loss 0.6737):  93%|█████████▎| 9051/9753 [1:36:08<06:53,  1.70it/s]Training 3/3 epoch (loss 0.6737):  93%|█████████▎| 9052/9753 [1:36:08<07:05,  1.65it/s]Training 3/3 epoch (loss 0.5423):  93%|█████████▎| 9052/9753 [1:36:08<07:05,  1.65it/s]Training 3/3 epoch (loss 0.5423):  93%|█████████▎| 9053/9753 [1:36:08<07:21,  1.59it/s]Training 3/3 epoch (loss 0.5301):  93%|█████████▎| 9053/9753 [1:36:09<07:21,  1.59it/s]Training 3/3 epoch (loss 0.5301):  93%|█████████▎| 9054/9753 [1:36:09<07:32,  1.54it/s]Training 3/3 epoch (loss 0.7106):  93%|█████████▎| 9054/9753 [1:36:10<07:32,  1.54it/s]Training 3/3 epoch (loss 0.7106):  93%|█████████▎| 9055/9753 [1:36:10<07:45,  1.50it/s]Training 3/3 epoch (loss 0.7670):  93%|█████████▎| 9055/9753 [1:36:10<07:45,  1.50it/s]Training 3/3 epoch (loss 0.7670):  93%|█████████▎| 9056/9753 [1:36:10<07:58,  1.46it/s]Training 3/3 epoch (loss 0.4847):  93%|█████████▎| 9056/9753 [1:36:11<07:58,  1.46it/s]Training 3/3 epoch (loss 0.4847):  93%|█████████▎| 9057/9753 [1:36:11<07:32,  1.54it/s]Training 3/3 epoch (loss 0.4471):  93%|█████████▎| 9057/9753 [1:36:12<07:32,  1.54it/s]Training 3/3 epoch (loss 0.4471):  93%|█████████▎| 9058/9753 [1:36:12<07:57,  1.45it/s]Training 3/3 epoch (loss 0.5209):  93%|█████████▎| 9058/9753 [1:36:12<07:57,  1.45it/s]Training 3/3 epoch (loss 0.5209):  93%|█████████▎| 9059/9753 [1:36:12<07:27,  1.55it/s]Training 3/3 epoch (loss 0.4532):  93%|█████████▎| 9059/9753 [1:36:13<07:27,  1.55it/s]Training 3/3 epoch (loss 0.4532):  93%|█████████▎| 9060/9753 [1:36:13<07:08,  1.62it/s]Training 3/3 epoch (loss 0.4719):  93%|█████████▎| 9060/9753 [1:36:13<07:08,  1.62it/s]Training 3/3 epoch (loss 0.4719):  93%|█████████▎| 9061/9753 [1:36:13<06:52,  1.68it/s]Training 3/3 epoch (loss 0.5942):  93%|█████████▎| 9061/9753 [1:36:14<06:52,  1.68it/s]Training 3/3 epoch (loss 0.5942):  93%|█████████▎| 9062/9753 [1:36:14<06:43,  1.71it/s]Training 3/3 epoch (loss 0.2714):  93%|█████████▎| 9062/9753 [1:36:15<06:43,  1.71it/s]Training 3/3 epoch (loss 0.2714):  93%|█████████▎| 9063/9753 [1:36:15<06:44,  1.70it/s]Training 3/3 epoch (loss 0.4979):  93%|█████████▎| 9063/9753 [1:36:15<06:44,  1.70it/s]Training 3/3 epoch (loss 0.4979):  93%|█████████▎| 9064/9753 [1:36:15<06:42,  1.71it/s]Training 3/3 epoch (loss 0.3777):  93%|█████████▎| 9064/9753 [1:36:16<06:42,  1.71it/s]Training 3/3 epoch (loss 0.3777):  93%|█████████▎| 9065/9753 [1:36:16<07:07,  1.61it/s]Training 3/3 epoch (loss 0.4725):  93%|█████████▎| 9065/9753 [1:36:16<07:07,  1.61it/s]Training 3/3 epoch (loss 0.4725):  93%|█████████▎| 9066/9753 [1:36:16<06:53,  1.66it/s]Training 3/3 epoch (loss 0.2993):  93%|█████████▎| 9066/9753 [1:36:17<06:53,  1.66it/s]Training 3/3 epoch (loss 0.2993):  93%|█████████▎| 9067/9753 [1:36:17<06:42,  1.70it/s]Training 3/3 epoch (loss 0.3833):  93%|█████████▎| 9067/9753 [1:36:18<06:42,  1.70it/s]Training 3/3 epoch (loss 0.3833):  93%|█████████▎| 9068/9753 [1:36:18<07:05,  1.61it/s]Training 3/3 epoch (loss 0.7564):  93%|█████████▎| 9068/9753 [1:36:18<07:05,  1.61it/s]Training 3/3 epoch (loss 0.7564):  93%|█████████▎| 9069/9753 [1:36:18<06:51,  1.66it/s]Training 3/3 epoch (loss 0.3373):  93%|█████████▎| 9069/9753 [1:36:19<06:51,  1.66it/s]Training 3/3 epoch (loss 0.3373):  93%|█████████▎| 9070/9753 [1:36:19<07:22,  1.54it/s]Training 3/3 epoch (loss 0.4177):  93%|█████████▎| 9070/9753 [1:36:20<07:22,  1.54it/s]Training 3/3 epoch (loss 0.4177):  93%|█████████▎| 9071/9753 [1:36:20<07:04,  1.61it/s]Training 3/3 epoch (loss 0.3977):  93%|█████████▎| 9071/9753 [1:36:20<07:04,  1.61it/s]Training 3/3 epoch (loss 0.3977):  93%|█████████▎| 9072/9753 [1:36:20<07:15,  1.56it/s]Training 3/3 epoch (loss 0.3767):  93%|█████████▎| 9072/9753 [1:36:21<07:15,  1.56it/s]Training 3/3 epoch (loss 0.3767):  93%|█████████▎| 9073/9753 [1:36:21<06:57,  1.63it/s]Training 3/3 epoch (loss 0.5373):  93%|█████████▎| 9073/9753 [1:36:21<06:57,  1.63it/s]Training 3/3 epoch (loss 0.5373):  93%|█████████▎| 9074/9753 [1:36:21<06:43,  1.68it/s]Training 3/3 epoch (loss 0.4436):  93%|█████████▎| 9074/9753 [1:36:22<06:43,  1.68it/s]Training 3/3 epoch (loss 0.4436):  93%|█████████▎| 9075/9753 [1:36:22<06:33,  1.72it/s]Training 3/3 epoch (loss 0.4049):  93%|█████████▎| 9075/9753 [1:36:22<06:33,  1.72it/s]Training 3/3 epoch (loss 0.4049):  93%|█████████▎| 9076/9753 [1:36:22<06:35,  1.71it/s]Training 3/3 epoch (loss 0.7549):  93%|█████████▎| 9076/9753 [1:36:23<06:35,  1.71it/s]Training 3/3 epoch (loss 0.7549):  93%|█████████▎| 9077/9753 [1:36:23<06:46,  1.66it/s]Training 3/3 epoch (loss 0.7023):  93%|█████████▎| 9077/9753 [1:36:24<06:46,  1.66it/s]Training 3/3 epoch (loss 0.7023):  93%|█████████▎| 9078/9753 [1:36:24<06:42,  1.68it/s]Training 3/3 epoch (loss 0.5242):  93%|█████████▎| 9078/9753 [1:36:24<06:42,  1.68it/s]Training 3/3 epoch (loss 0.5242):  93%|█████████▎| 9079/9753 [1:36:24<06:59,  1.61it/s]Training 3/3 epoch (loss 0.5434):  93%|█████████▎| 9079/9753 [1:36:25<06:59,  1.61it/s]Training 3/3 epoch (loss 0.5434):  93%|█████████▎| 9080/9753 [1:36:25<06:57,  1.61it/s]Training 3/3 epoch (loss 0.4288):  93%|█████████▎| 9080/9753 [1:36:26<06:57,  1.61it/s]Training 3/3 epoch (loss 0.4288):  93%|█████████▎| 9081/9753 [1:36:26<06:44,  1.66it/s]Training 3/3 epoch (loss 0.3882):  93%|█████████▎| 9081/9753 [1:36:26<06:44,  1.66it/s]Training 3/3 epoch (loss 0.3882):  93%|█████████▎| 9082/9753 [1:36:26<06:47,  1.65it/s]Training 3/3 epoch (loss 0.5828):  93%|█████████▎| 9082/9753 [1:36:27<06:47,  1.65it/s]Training 3/3 epoch (loss 0.5828):  93%|█████████▎| 9083/9753 [1:36:27<06:53,  1.62it/s]Training 3/3 epoch (loss 0.6390):  93%|█████████▎| 9083/9753 [1:36:27<06:53,  1.62it/s]Training 3/3 epoch (loss 0.6390):  93%|█████████▎| 9084/9753 [1:36:27<06:45,  1.65it/s]Training 3/3 epoch (loss 0.5673):  93%|█████████▎| 9084/9753 [1:36:28<06:45,  1.65it/s]Training 3/3 epoch (loss 0.5673):  93%|█████████▎| 9085/9753 [1:36:28<06:47,  1.64it/s]Training 3/3 epoch (loss 0.5374):  93%|█████████▎| 9085/9753 [1:36:29<06:47,  1.64it/s]Training 3/3 epoch (loss 0.5374):  93%|█████████▎| 9086/9753 [1:36:29<06:48,  1.63it/s]Training 3/3 epoch (loss 0.5452):  93%|█████████▎| 9086/9753 [1:36:29<06:48,  1.63it/s]Training 3/3 epoch (loss 0.5452):  93%|█████████▎| 9087/9753 [1:36:29<07:09,  1.55it/s]Training 3/3 epoch (loss 0.5107):  93%|█████████▎| 9087/9753 [1:36:30<07:09,  1.55it/s]Training 3/3 epoch (loss 0.5107):  93%|█████████▎| 9088/9753 [1:36:30<07:21,  1.51it/s]Training 3/3 epoch (loss 0.3684):  93%|█████████▎| 9088/9753 [1:36:31<07:21,  1.51it/s]Training 3/3 epoch (loss 0.3684):  93%|█████████▎| 9089/9753 [1:36:31<06:58,  1.59it/s]Training 3/3 epoch (loss 0.5083):  93%|█████████▎| 9089/9753 [1:36:31<06:58,  1.59it/s]Training 3/3 epoch (loss 0.5083):  93%|█████████▎| 9090/9753 [1:36:31<06:46,  1.63it/s]Training 3/3 epoch (loss 0.4951):  93%|█████████▎| 9090/9753 [1:36:32<06:46,  1.63it/s]Training 3/3 epoch (loss 0.4951):  93%|█████████▎| 9091/9753 [1:36:32<06:34,  1.68it/s]Training 3/3 epoch (loss 0.5572):  93%|█████████▎| 9091/9753 [1:36:32<06:34,  1.68it/s]Training 3/3 epoch (loss 0.5572):  93%|█████████▎| 9092/9753 [1:36:32<06:57,  1.58it/s]Training 3/3 epoch (loss 0.7714):  93%|█████████▎| 9092/9753 [1:36:33<06:57,  1.58it/s]Training 3/3 epoch (loss 0.7714):  93%|█████████▎| 9093/9753 [1:36:33<07:42,  1.43it/s]Training 3/3 epoch (loss 0.2965):  93%|█████████▎| 9093/9753 [1:36:34<07:42,  1.43it/s]Training 3/3 epoch (loss 0.2965):  93%|█████████▎| 9094/9753 [1:36:34<07:13,  1.52it/s]Training 3/3 epoch (loss 0.7669):  93%|█████████▎| 9094/9753 [1:36:35<07:13,  1.52it/s]Training 3/3 epoch (loss 0.7669):  93%|█████████▎| 9095/9753 [1:36:35<07:27,  1.47it/s]Training 3/3 epoch (loss 0.3156):  93%|█████████▎| 9095/9753 [1:36:35<07:27,  1.47it/s]Training 3/3 epoch (loss 0.3156):  93%|█████████▎| 9096/9753 [1:36:35<07:00,  1.56it/s]Training 3/3 epoch (loss 0.4509):  93%|█████████▎| 9096/9753 [1:36:36<07:00,  1.56it/s]Training 3/3 epoch (loss 0.4509):  93%|█████████▎| 9097/9753 [1:36:36<06:46,  1.61it/s]Training 3/3 epoch (loss 0.4537):  93%|█████████▎| 9097/9753 [1:36:36<06:46,  1.61it/s]Training 3/3 epoch (loss 0.4537):  93%|█████████▎| 9098/9753 [1:36:36<06:37,  1.65it/s]Training 3/3 epoch (loss 0.6504):  93%|█████████▎| 9098/9753 [1:36:37<06:37,  1.65it/s]Training 3/3 epoch (loss 0.6504):  93%|█████████▎| 9099/9753 [1:36:37<07:30,  1.45it/s]Training 3/3 epoch (loss 0.5804):  93%|█████████▎| 9099/9753 [1:36:38<07:30,  1.45it/s]Training 3/3 epoch (loss 0.5804):  93%|█████████▎| 9100/9753 [1:36:38<07:04,  1.54it/s]Training 3/3 epoch (loss 0.4829):  93%|█████████▎| 9100/9753 [1:36:38<07:04,  1.54it/s]Training 3/3 epoch (loss 0.4829):  93%|█████████▎| 9101/9753 [1:36:38<07:01,  1.55it/s]Training 3/3 epoch (loss 0.4590):  93%|█████████▎| 9101/9753 [1:36:39<07:01,  1.55it/s]Training 3/3 epoch (loss 0.4590):  93%|█████████▎| 9102/9753 [1:36:39<07:01,  1.54it/s]Training 3/3 epoch (loss 0.4563):  93%|█████████▎| 9102/9753 [1:36:40<07:01,  1.54it/s]Training 3/3 epoch (loss 0.4563):  93%|█████████▎| 9103/9753 [1:36:40<06:53,  1.57it/s]Training 3/3 epoch (loss 0.2161):  93%|█████████▎| 9103/9753 [1:36:40<06:53,  1.57it/s]Training 3/3 epoch (loss 0.2161):  93%|█████████▎| 9104/9753 [1:36:40<07:04,  1.53it/s]Training 3/3 epoch (loss 0.6630):  93%|█████████▎| 9104/9753 [1:36:41<07:04,  1.53it/s]Training 3/3 epoch (loss 0.6630):  93%|█████████▎| 9105/9753 [1:36:41<07:42,  1.40it/s]Training 3/3 epoch (loss 0.6989):  93%|█████████▎| 9105/9753 [1:36:42<07:42,  1.40it/s]Training 3/3 epoch (loss 0.6989):  93%|█████████▎| 9106/9753 [1:36:42<08:17,  1.30it/s]Training 3/3 epoch (loss 0.4000):  93%|█████████▎| 9106/9753 [1:36:43<08:17,  1.30it/s]Training 3/3 epoch (loss 0.4000):  93%|█████████▎| 9107/9753 [1:36:43<07:37,  1.41it/s]Training 3/3 epoch (loss 0.4265):  93%|█████████▎| 9107/9753 [1:36:43<07:37,  1.41it/s]Training 3/3 epoch (loss 0.4265):  93%|█████████▎| 9108/9753 [1:36:43<07:05,  1.52it/s]Training 3/3 epoch (loss 0.6000):  93%|█████████▎| 9108/9753 [1:36:44<07:05,  1.52it/s]Training 3/3 epoch (loss 0.6000):  93%|█████████▎| 9109/9753 [1:36:44<06:44,  1.59it/s]Training 3/3 epoch (loss 0.4217):  93%|█████████▎| 9109/9753 [1:36:44<06:44,  1.59it/s]Training 3/3 epoch (loss 0.4217):  93%|█████████▎| 9110/9753 [1:36:44<06:27,  1.66it/s]Training 3/3 epoch (loss 0.4327):  93%|█████████▎| 9110/9753 [1:36:45<06:27,  1.66it/s]Training 3/3 epoch (loss 0.4327):  93%|█████████▎| 9111/9753 [1:36:45<06:16,  1.71it/s]Training 3/3 epoch (loss 0.6729):  93%|█████████▎| 9111/9753 [1:36:45<06:16,  1.71it/s]Training 3/3 epoch (loss 0.6729):  93%|█████████▎| 9112/9753 [1:36:45<06:18,  1.69it/s]Training 3/3 epoch (loss 0.3813):  93%|█████████▎| 9112/9753 [1:36:46<06:18,  1.69it/s]Training 3/3 epoch (loss 0.3813):  93%|█████████▎| 9113/9753 [1:36:46<06:09,  1.73it/s]Training 3/3 epoch (loss 0.5057):  93%|█████████▎| 9113/9753 [1:36:47<06:09,  1.73it/s]Training 3/3 epoch (loss 0.5057):  93%|█████████▎| 9114/9753 [1:36:47<06:06,  1.74it/s]Training 3/3 epoch (loss 0.2488):  93%|█████████▎| 9114/9753 [1:36:47<06:06,  1.74it/s]Training 3/3 epoch (loss 0.2488):  93%|█████████▎| 9115/9753 [1:36:47<06:01,  1.77it/s]Training 3/3 epoch (loss 0.4993):  93%|█████████▎| 9115/9753 [1:36:48<06:01,  1.77it/s]Training 3/3 epoch (loss 0.4993):  93%|█████████▎| 9116/9753 [1:36:48<05:57,  1.78it/s]Training 3/3 epoch (loss 0.5102):  93%|█████████▎| 9116/9753 [1:36:49<05:57,  1.78it/s]Training 3/3 epoch (loss 0.5102):  93%|█████████▎| 9117/9753 [1:36:49<07:06,  1.49it/s]Training 3/3 epoch (loss 0.6790):  93%|█████████▎| 9117/9753 [1:36:49<07:06,  1.49it/s]Training 3/3 epoch (loss 0.6790):  93%|█████████▎| 9118/9753 [1:36:49<07:17,  1.45it/s]Training 3/3 epoch (loss 0.6082):  93%|█████████▎| 9118/9753 [1:36:50<07:17,  1.45it/s]Training 3/3 epoch (loss 0.6082):  93%|█████████▎| 9119/9753 [1:36:50<06:51,  1.54it/s]Training 3/3 epoch (loss 0.3901):  93%|█████████▎| 9119/9753 [1:36:51<06:51,  1.54it/s]Training 3/3 epoch (loss 0.3901):  94%|█████████▎| 9120/9753 [1:36:51<06:59,  1.51it/s]Training 3/3 epoch (loss 0.5764):  94%|█████████▎| 9120/9753 [1:36:51<06:59,  1.51it/s]Training 3/3 epoch (loss 0.5764):  94%|█████████▎| 9121/9753 [1:36:51<06:54,  1.52it/s]Training 3/3 epoch (loss 0.5464):  94%|█████████▎| 9121/9753 [1:36:52<06:54,  1.52it/s]Training 3/3 epoch (loss 0.5464):  94%|█████████▎| 9122/9753 [1:36:52<07:32,  1.39it/s]Training 3/3 epoch (loss 0.5385):  94%|█████████▎| 9122/9753 [1:36:53<07:32,  1.39it/s]Training 3/3 epoch (loss 0.5385):  94%|█████████▎| 9123/9753 [1:36:53<08:07,  1.29it/s]Training 3/3 epoch (loss 0.5033):  94%|█████████▎| 9123/9753 [1:36:54<08:07,  1.29it/s]Training 3/3 epoch (loss 0.5033):  94%|█████████▎| 9124/9753 [1:36:54<08:18,  1.26it/s]Training 3/3 epoch (loss 0.3732):  94%|█████████▎| 9124/9753 [1:36:54<08:18,  1.26it/s]Training 3/3 epoch (loss 0.3732):  94%|█████████▎| 9125/9753 [1:36:54<07:31,  1.39it/s]Training 3/3 epoch (loss 0.5637):  94%|█████████▎| 9125/9753 [1:36:55<07:31,  1.39it/s]Training 3/3 epoch (loss 0.5637):  94%|█████████▎| 9126/9753 [1:36:55<07:01,  1.49it/s]Training 3/3 epoch (loss 0.3995):  94%|█████████▎| 9126/9753 [1:36:56<07:01,  1.49it/s]Training 3/3 epoch (loss 0.3995):  94%|█████████▎| 9127/9753 [1:36:56<08:05,  1.29it/s]Training 3/3 epoch (loss 0.4579):  94%|█████████▎| 9127/9753 [1:36:57<08:05,  1.29it/s]Training 3/3 epoch (loss 0.4579):  94%|█████████▎| 9128/9753 [1:36:57<07:44,  1.35it/s]Training 3/3 epoch (loss 0.8738):  94%|█████████▎| 9128/9753 [1:36:57<07:44,  1.35it/s]Training 3/3 epoch (loss 0.8738):  94%|█████████▎| 9129/9753 [1:36:57<07:18,  1.42it/s]Training 3/3 epoch (loss 0.5923):  94%|█████████▎| 9129/9753 [1:36:58<07:18,  1.42it/s]Training 3/3 epoch (loss 0.5923):  94%|█████████▎| 9130/9753 [1:36:58<07:14,  1.43it/s]Training 3/3 epoch (loss 0.7245):  94%|█████████▎| 9130/9753 [1:36:59<07:14,  1.43it/s]Training 3/3 epoch (loss 0.7245):  94%|█████████▎| 9131/9753 [1:36:59<07:02,  1.47it/s]Training 3/3 epoch (loss 0.5799):  94%|█████████▎| 9131/9753 [1:36:59<07:02,  1.47it/s]Training 3/3 epoch (loss 0.5799):  94%|█████████▎| 9132/9753 [1:36:59<07:05,  1.46it/s]Training 3/3 epoch (loss 0.4868):  94%|█████████▎| 9132/9753 [1:37:00<07:05,  1.46it/s]Training 3/3 epoch (loss 0.4868):  94%|█████████▎| 9133/9753 [1:37:00<06:41,  1.54it/s]Training 3/3 epoch (loss 0.4609):  94%|█████████▎| 9133/9753 [1:37:00<06:41,  1.54it/s]Training 3/3 epoch (loss 0.4609):  94%|█████████▎| 9134/9753 [1:37:00<06:22,  1.62it/s]Training 3/3 epoch (loss 0.4846):  94%|█████████▎| 9134/9753 [1:37:01<06:22,  1.62it/s]Training 3/3 epoch (loss 0.4846):  94%|█████████▎| 9135/9753 [1:37:01<06:08,  1.68it/s]Training 3/3 epoch (loss 0.5022):  94%|█████████▎| 9135/9753 [1:37:02<06:08,  1.68it/s]Training 3/3 epoch (loss 0.5022):  94%|█████████▎| 9136/9753 [1:37:02<06:23,  1.61it/s]Training 3/3 epoch (loss 0.2081):  94%|█████████▎| 9136/9753 [1:37:02<06:23,  1.61it/s]Training 3/3 epoch (loss 0.2081):  94%|█████████▎| 9137/9753 [1:37:02<06:40,  1.54it/s]Training 3/3 epoch (loss 0.5048):  94%|█████████▎| 9137/9753 [1:37:03<06:40,  1.54it/s]Training 3/3 epoch (loss 0.5048):  94%|█████████▎| 9138/9753 [1:37:03<06:38,  1.54it/s]Training 3/3 epoch (loss 0.3354):  94%|█████████▎| 9138/9753 [1:37:04<06:38,  1.54it/s]Training 3/3 epoch (loss 0.3354):  94%|█████████▎| 9139/9753 [1:37:04<07:28,  1.37it/s]Training 3/3 epoch (loss 0.4511):  94%|█████████▎| 9139/9753 [1:37:04<07:28,  1.37it/s]Training 3/3 epoch (loss 0.4511):  94%|█████████▎| 9140/9753 [1:37:04<06:53,  1.48it/s]Training 3/3 epoch (loss 0.3822):  94%|█████████▎| 9140/9753 [1:37:05<06:53,  1.48it/s]Training 3/3 epoch (loss 0.3822):  94%|█████████▎| 9141/9753 [1:37:05<06:46,  1.51it/s]Training 3/3 epoch (loss 0.3839):  94%|█████████▎| 9141/9753 [1:37:06<06:46,  1.51it/s]Training 3/3 epoch (loss 0.3839):  94%|█████████▎| 9142/9753 [1:37:06<06:26,  1.58it/s]Training 3/3 epoch (loss 0.5546):  94%|█████████▎| 9142/9753 [1:37:06<06:26,  1.58it/s]Training 3/3 epoch (loss 0.5546):  94%|█████████▎| 9143/9753 [1:37:06<06:42,  1.51it/s]Training 3/3 epoch (loss 0.4299):  94%|█████████▎| 9143/9753 [1:37:07<06:42,  1.51it/s]Training 3/3 epoch (loss 0.4299):  94%|█████████▍| 9144/9753 [1:37:07<06:27,  1.57it/s]Training 3/3 epoch (loss 0.4712):  94%|█████████▍| 9144/9753 [1:37:08<06:27,  1.57it/s]Training 3/3 epoch (loss 0.4712):  94%|█████████▍| 9145/9753 [1:37:08<06:23,  1.59it/s]Training 3/3 epoch (loss 0.5449):  94%|█████████▍| 9145/9753 [1:37:08<06:23,  1.59it/s]Training 3/3 epoch (loss 0.5449):  94%|█████████▍| 9146/9753 [1:37:08<06:09,  1.64it/s]Training 3/3 epoch (loss 0.5571):  94%|█████████▍| 9146/9753 [1:37:09<06:09,  1.64it/s]Training 3/3 epoch (loss 0.5571):  94%|█████████▍| 9147/9753 [1:37:09<06:24,  1.58it/s]Training 3/3 epoch (loss 0.6112):  94%|█████████▍| 9147/9753 [1:37:09<06:24,  1.58it/s]Training 3/3 epoch (loss 0.6112):  94%|█████████▍| 9148/9753 [1:37:09<06:31,  1.55it/s]Training 3/3 epoch (loss 0.5611):  94%|█████████▍| 9148/9753 [1:37:10<06:31,  1.55it/s]Training 3/3 epoch (loss 0.5611):  94%|█████████▍| 9149/9753 [1:37:10<06:12,  1.62it/s]Training 3/3 epoch (loss 0.6541):  94%|█████████▍| 9149/9753 [1:37:11<06:12,  1.62it/s]Training 3/3 epoch (loss 0.6541):  94%|█████████▍| 9150/9753 [1:37:11<05:59,  1.68it/s]Training 3/3 epoch (loss 0.3786):  94%|█████████▍| 9150/9753 [1:37:11<05:59,  1.68it/s]Training 3/3 epoch (loss 0.3786):  94%|█████████▍| 9151/9753 [1:37:11<05:49,  1.72it/s]Training 3/3 epoch (loss 0.5739):  94%|█████████▍| 9151/9753 [1:37:12<05:49,  1.72it/s]Training 3/3 epoch (loss 0.5739):  94%|█████████▍| 9152/9753 [1:37:12<07:05,  1.41it/s]Training 3/3 epoch (loss 0.5097):  94%|█████████▍| 9152/9753 [1:37:13<07:05,  1.41it/s]Training 3/3 epoch (loss 0.5097):  94%|█████████▍| 9153/9753 [1:37:13<06:42,  1.49it/s]Training 3/3 epoch (loss 0.5694):  94%|█████████▍| 9153/9753 [1:37:13<06:42,  1.49it/s]Training 3/3 epoch (loss 0.5694):  94%|█████████▍| 9154/9753 [1:37:13<06:19,  1.58it/s]Training 3/3 epoch (loss 0.6365):  94%|█████████▍| 9154/9753 [1:37:14<06:19,  1.58it/s]Training 3/3 epoch (loss 0.6365):  94%|███████���█▍| 9155/9753 [1:37:14<06:39,  1.50it/s]Training 3/3 epoch (loss 0.4059):  94%|█████████▍| 9155/9753 [1:37:15<06:39,  1.50it/s]Training 3/3 epoch (loss 0.4059):  94%|█████████▍| 9156/9753 [1:37:15<06:30,  1.53it/s]Training 3/3 epoch (loss 0.6953):  94%|█████████▍| 9156/9753 [1:37:16<06:30,  1.53it/s]Training 3/3 epoch (loss 0.6953):  94%|█████████▍| 9157/9753 [1:37:16<07:14,  1.37it/s]Training 3/3 epoch (loss 0.4713):  94%|█████████▍| 9157/9753 [1:37:16<07:14,  1.37it/s]Training 3/3 epoch (loss 0.4713):  94%|█████████▍| 9158/9753 [1:37:16<06:43,  1.47it/s]Training 3/3 epoch (loss 0.3877):  94%|█████████▍| 9158/9753 [1:37:17<06:43,  1.47it/s]Training 3/3 epoch (loss 0.3877):  94%|█████████▍| 9159/9753 [1:37:17<06:18,  1.57it/s]Training 3/3 epoch (loss 0.4247):  94%|█████████▍| 9159/9753 [1:37:17<06:18,  1.57it/s]Training 3/3 epoch (loss 0.4247):  94%|█████████▍| 9160/9753 [1:37:17<06:01,  1.64it/s]Training 3/3 epoch (loss 0.2808):  94%|█████████▍| 9160/9753 [1:37:18<06:01,  1.64it/s]Training 3/3 epoch (loss 0.2808):  94%|█████████▍| 9161/9753 [1:37:18<05:49,  1.70it/s]Training 3/3 epoch (loss 0.7001):  94%|█████████▍| 9161/9753 [1:37:18<05:49,  1.70it/s]Training 3/3 epoch (loss 0.7001):  94%|█████████▍| 9162/9753 [1:37:18<06:04,  1.62it/s]Training 3/3 epoch (loss 0.2589):  94%|█████████▍| 9162/9753 [1:37:19<06:04,  1.62it/s]Training 3/3 epoch (loss 0.2589):  94%|█████████▍| 9163/9753 [1:37:19<06:03,  1.62it/s]Training 3/3 epoch (loss 0.3624):  94%|█████████▍| 9163/9753 [1:37:20<06:03,  1.62it/s]Training 3/3 epoch (loss 0.3624):  94%|█████████▍| 9164/9753 [1:37:20<06:12,  1.58it/s]Training 3/3 epoch (loss 0.4940):  94%|█████████▍| 9164/9753 [1:37:20<06:12,  1.58it/s]Training 3/3 epoch (loss 0.4940):  94%|█████████▍| 9165/9753 [1:37:20<06:13,  1.57it/s]Training 3/3 epoch (loss 0.7943):  94%|█████████▍| 9165/9753 [1:37:21<06:13,  1.57it/s]Training 3/3 epoch (loss 0.7943):  94%|█████████▍| 9166/9753 [1:37:21<06:09,  1.59it/s]Training 3/3 epoch (loss 0.5299):  94%|█████████▍| 9166/9753 [1:37:22<06:09,  1.59it/s]Training 3/3 epoch (loss 0.5299):  94%|█████████▍| 9167/9753 [1:37:22<06:11,  1.58it/s]Training 3/3 epoch (loss 0.3306):  94%|█████████▍| 9167/9753 [1:37:22<06:11,  1.58it/s]Training 3/3 epoch (loss 0.3306):  94%|█████████▍| 9168/9753 [1:37:22<06:21,  1.53it/s]Training 3/3 epoch (loss 0.5588):  94%|█████████▍| 9168/9753 [1:37:23<06:21,  1.53it/s]Training 3/3 epoch (loss 0.5588):  94%|█████████▍| 9169/9753 [1:37:23<06:05,  1.60it/s]Training 3/3 epoch (loss 0.6641):  94%|█████████▍| 9169/9753 [1:37:23<06:05,  1.60it/s]Training 3/3 epoch (loss 0.6641):  94%|█████████▍| 9170/9753 [1:37:23<05:53,  1.65it/s]Training 3/3 epoch (loss 0.6970):  94%|█████████▍| 9170/9753 [1:37:24<05:53,  1.65it/s]Training 3/3 epoch (loss 0.6970):  94%|█████████▍| 9171/9753 [1:37:24<05:43,  1.69it/s]Training 3/3 epoch (loss 0.4666):  94%|█████████▍| 9171/9753 [1:37:25<05:43,  1.69it/s]Training 3/3 epoch (loss 0.4666):  94%|█████████▍| 9172/9753 [1:37:25<05:41,  1.70it/s]Training 3/3 epoch (loss 0.4238):  94%|█████████▍| 9172/9753 [1:37:25<05:41,  1.70it/s]Training 3/3 epoch (loss 0.4238):  94%|█████████▍| 9173/9753 [1:37:25<05:34,  1.74it/s]Training 3/3 epoch (loss 0.4776):  94%|█████████▍| 9173/9753 [1:37:26<05:34,  1.74it/s]Training 3/3 epoch (loss 0.4776):  94%|█████████▍| 9174/9753 [1:37:26<05:30,  1.75it/s]Training 3/3 epoch (loss 0.7338):  94%|█████████▍| 9174/9753 [1:37:26<05:30,  1.75it/s]Training 3/3 epoch (loss 0.7338):  94%|█████████▍| 9175/9753 [1:37:26<05:26,  1.77it/s]Training 3/3 epoch (loss 0.5796):  94%|█████████▍| 9175/9753 [1:37:27<05:26,  1.77it/s]Training 3/3 epoch (loss 0.5796):  94%|█████████▍| 9176/9753 [1:37:27<05:44,  1.68it/s]Training 3/3 epoch (loss 0.6487):  94%|█████████▍| 9176/9753 [1:37:28<05:44,  1.68it/s]Training 3/3 epoch (loss 0.6487):  94%|█████████▍| 9177/9753 [1:37:28<06:05,  1.58it/s]Training 3/3 epoch (loss 0.8225):  94%|█████████▍| 9177/9753 [1:37:28<06:05,  1.58it/s]Training 3/3 epoch (loss 0.8225):  94%|█████████▍| 9178/9753 [1:37:28<05:50,  1.64it/s]Training 3/3 epoch (loss 0.4449):  94%|█████████▍| 9178/9753 [1:37:29<05:50,  1.64it/s]Training 3/3 epoch (loss 0.4449):  94%|█████████▍| 9179/9753 [1:37:29<05:39,  1.69it/s]Training 3/3 epoch (loss 0.5456):  94%|█████████▍| 9179/9753 [1:37:29<05:39,  1.69it/s]Training 3/3 epoch (loss 0.5456):  94%|█████████▍| 9180/9753 [1:37:29<06:00,  1.59it/s]Training 3/3 epoch (loss 0.4306):  94%|█████████▍| 9180/9753 [1:37:30<06:00,  1.59it/s]Training 3/3 epoch (loss 0.4306):  94%|█████████▍| 9181/9753 [1:37:30<06:11,  1.54it/s]Training 3/3 epoch (loss 0.3269):  94%|█████████▍| 9181/9753 [1:37:31<06:11,  1.54it/s]Training 3/3 epoch (loss 0.3269):  94%|█████████▍| 9182/9753 [1:37:31<06:51,  1.39it/s]Training 3/3 epoch (loss 0.6112):  94%|█████████▍| 9182/9753 [1:37:32<06:51,  1.39it/s]Training 3/3 epoch (loss 0.6112):  94%|█████████▍| 9183/9753 [1:37:32<06:26,  1.48it/s]Training 3/3 epoch (loss 0.5148):  94%|█████████▍| 9183/9753 [1:37:32<06:26,  1.48it/s]Training 3/3 epoch (loss 0.5148):  94%|█████████▍| 9184/9753 [1:37:32<06:35,  1.44it/s]Training 3/3 epoch (loss 0.6358):  94%|█████████▍| 9184/9753 [1:37:33<06:35,  1.44it/s]Training 3/3 epoch (loss 0.6358):  94%|█████████▍| 9185/9753 [1:37:33<07:10,  1.32it/s]Training 3/3 epoch (loss 0.3454):  94%|█████████▍| 9185/9753 [1:37:34<07:10,  1.32it/s]Training 3/3 epoch (loss 0.3454):  94%|█████████▍| 9186/9753 [1:37:34<06:37,  1.43it/s]Training 3/3 epoch (loss 0.4536):  94%|█████████▍| 9186/9753 [1:37:34<06:37,  1.43it/s]Training 3/3 epoch (loss 0.4536):  94%|█████████▍| 9187/9753 [1:37:34<06:11,  1.52it/s]Training 3/3 epoch (loss 0.6442):  94%|█████████▍| 9187/9753 [1:37:35<06:11,  1.52it/s]Training 3/3 epoch (loss 0.6442):  94%|█████████▍| 9188/9753 [1:37:35<06:11,  1.52it/s]Training 3/3 epoch (loss 0.2571):  94%|█████████▍| 9188/9753 [1:37:36<06:11,  1.52it/s]Training 3/3 epoch (loss 0.2571):  94%|█████████▍| 9189/9753 [1:37:36<05:52,  1.60it/s]Training 3/3 epoch (loss 0.4674):  94%|█████████▍| 9189/9753 [1:37:36<05:52,  1.60it/s]Training 3/3 epoch (loss 0.4674):  94%|█████████▍| 9190/9753 [1:37:36<05:43,  1.64it/s]Training 3/3 epoch (loss 0.3459):  94%|█████████▍| 9190/9753 [1:37:37<05:43,  1.64it/s]Training 3/3 epoch (loss 0.3459):  94%|█████████▍| 9191/9753 [1:37:37<05:32,  1.69it/s]Training 3/3 epoch (loss 0.5323):  94%|█████████▍| 9191/9753 [1:37:37<05:32,  1.69it/s]Training 3/3 epoch (loss 0.5323):  94%|█████████▍| 9192/9753 [1:37:37<05:35,  1.67it/s]Training 3/3 epoch (loss 0.6889):  94%|█████████▍| 9192/9753 [1:37:38<05:35,  1.67it/s]Training 3/3 epoch (loss 0.6889):  94%|█████████▍| 9193/9753 [1:37:38<06:28,  1.44it/s]Training 3/3 epoch (loss 0.4204):  94%|█████████▍| 9193/9753 [1:37:39<06:28,  1.44it/s]Training 3/3 epoch (loss 0.4204):  94%|█████████▍| 9194/9753 [1:37:39<06:04,  1.53it/s]Training 3/3 epoch (loss 0.4741):  94%|█████████▍| 9194/9753 [1:37:39<06:04,  1.53it/s]Training 3/3 epoch (loss 0.4741):  94%|█████████▍| 9195/9753 [1:37:39<05:47,  1.60it/s]Training 3/3 epoch (loss 0.4654):  94%|█████████▍| 9195/9753 [1:37:40<05:47,  1.60it/s]Training 3/3 epoch (loss 0.4654):  94%|█████████▍| 9196/9753 [1:37:40<05:34,  1.67it/s]Training 3/3 epoch (loss 0.4455):  94%|█████████▍| 9196/9753 [1:37:40<05:34,  1.67it/s]Training 3/3 epoch (loss 0.4455):  94%|█████████▍| 9197/9753 [1:37:40<05:36,  1.65it/s]Training 3/3 epoch (loss 0.3553):  94%|█████████▍| 9197/9753 [1:37:41<05:36,  1.65it/s]Training 3/3 epoch (loss 0.3553):  94%|█████████▍| 9198/9753 [1:37:41<05:28,  1.69it/s]Training 3/3 epoch (loss 0.4395):  94%|█████████▍| 9198/9753 [1:37:42<05:28,  1.69it/s]Training 3/3 epoch (loss 0.4395):  94%|█████████▍| 9199/9753 [1:37:42<05:19,  1.74it/s]Training 3/3 epoch (loss 0.4242):  94%|█████████▍| 9199/9753 [1:37:42<05:19,  1.74it/s]Training 3/3 epoch (loss 0.4242):  94%|█████████▍| 9200/9753 [1:37:42<05:35,  1.65it/s]Training 3/3 epoch (loss 0.3889):  94%|█████████▍| 9200/9753 [1:37:43<05:35,  1.65it/s]Training 3/3 epoch (loss 0.3889):  94%|█████████▍| 9201/9753 [1:37:43<05:30,  1.67it/s]Training 3/3 epoch (loss 0.5571):  94%|█████████▍| 9201/9753 [1:37:43<05:30,  1.67it/s]Training 3/3 epoch (loss 0.5571):  94%|█████████▍| 9202/9753 [1:37:43<05:21,  1.71it/s]Training 3/3 epoch (loss 0.4897):  94%|��████████▍| 9202/9753 [1:37:44<05:21,  1.71it/s]Training 3/3 epoch (loss 0.4897):  94%|█████████▍| 9203/9753 [1:37:44<05:27,  1.68it/s]Training 3/3 epoch (loss 0.3549):  94%|█████████▍| 9203/9753 [1:37:45<05:27,  1.68it/s]Training 3/3 epoch (loss 0.3549):  94%|█████████▍| 9204/9753 [1:37:45<05:34,  1.64it/s]Training 3/3 epoch (loss 0.4569):  94%|█████████▍| 9204/9753 [1:37:45<05:34,  1.64it/s]Training 3/3 epoch (loss 0.4569):  94%|█████████▍| 9205/9753 [1:37:45<05:31,  1.65it/s]Training 3/3 epoch (loss 0.6723):  94%|█████████▍| 9205/9753 [1:37:46<05:31,  1.65it/s]Training 3/3 epoch (loss 0.6723):  94%|█████████▍| 9206/9753 [1:37:46<05:25,  1.68it/s]Training 3/3 epoch (loss 0.4448):  94%|█████████▍| 9206/9753 [1:37:46<05:25,  1.68it/s]Training 3/3 epoch (loss 0.4448):  94%|█████████▍| 9207/9753 [1:37:46<05:20,  1.70it/s]Training 3/3 epoch (loss 0.2991):  94%|█████████▍| 9207/9753 [1:37:47<05:20,  1.70it/s]Training 3/3 epoch (loss 0.2991):  94%|█████████▍| 9208/9753 [1:37:47<05:13,  1.74it/s]Training 3/3 epoch (loss 0.6840):  94%|█████████▍| 9208/9753 [1:37:47<05:13,  1.74it/s]Training 3/3 epoch (loss 0.6840):  94%|█████████▍| 9209/9753 [1:37:47<05:13,  1.73it/s]Training 3/3 epoch (loss 0.5096):  94%|█████████▍| 9209/9753 [1:37:48<05:13,  1.73it/s]Training 3/3 epoch (loss 0.5096):  94%|█████████▍| 9210/9753 [1:37:48<05:36,  1.61it/s]Training 3/3 epoch (loss 0.6342):  94%|█████████▍| 9210/9753 [1:37:49<05:36,  1.61it/s]Training 3/3 epoch (loss 0.6342):  94%|█████████▍| 9211/9753 [1:37:49<05:29,  1.64it/s]Training 3/3 epoch (loss 0.5225):  94%|█████████▍| 9211/9753 [1:37:49<05:29,  1.64it/s]Training 3/3 epoch (loss 0.5225):  94%|█████████▍| 9212/9753 [1:37:49<05:27,  1.65it/s]Training 3/3 epoch (loss 0.5852):  94%|█████████▍| 9212/9753 [1:37:50<05:27,  1.65it/s]Training 3/3 epoch (loss 0.5852):  94%|█████████▍| 9213/9753 [1:37:50<05:28,  1.65it/s]Training 3/3 epoch (loss 0.3904):  94%|█████████▍| 9213/9753 [1:37:51<05:28,  1.65it/s]Training 3/3 epoch (loss 0.3904):  94%|█████████▍| 9214/9753 [1:37:51<05:19,  1.69it/s]Training 3/3 epoch (loss 0.6987):  94%|█████████▍| 9214/9753 [1:37:51<05:19,  1.69it/s]Training 3/3 epoch (loss 0.6987):  94%|█████████▍| 9215/9753 [1:37:51<06:09,  1.46it/s]Training 3/3 epoch (loss 0.5502):  94%|█████████▍| 9215/9753 [1:37:52<06:09,  1.46it/s]Training 3/3 epoch (loss 0.5502):  94%|█████████▍| 9216/9753 [1:37:52<06:09,  1.45it/s]Training 3/3 epoch (loss 0.7331):  94%|█████████▍| 9216/9753 [1:37:53<06:09,  1.45it/s]Training 3/3 epoch (loss 0.7331):  95%|█████████▍| 9217/9753 [1:37:53<06:25,  1.39it/s]Training 3/3 epoch (loss 0.7180):  95%|█████████▍| 9217/9753 [1:37:54<06:25,  1.39it/s]Training 3/3 epoch (loss 0.7180):  95%|█████████▍| 9218/9753 [1:37:54<06:13,  1.43it/s]Training 3/3 epoch (loss 0.5460):  95%|█████████▍| 9218/9753 [1:37:54<06:13,  1.43it/s]Training 3/3 epoch (loss 0.5460):  95%|█████████▍| 9219/9753 [1:37:54<05:52,  1.52it/s]Training 3/3 epoch (loss 0.3188):  95%|█████████▍| 9219/9753 [1:37:55<05:52,  1.52it/s]Training 3/3 epoch (loss 0.3188):  95%|█████████▍| 9220/9753 [1:37:55<05:34,  1.59it/s]Training 3/3 epoch (loss 0.4350):  95%|█████████▍| 9220/9753 [1:37:55<05:34,  1.59it/s]Training 3/3 epoch (loss 0.4350):  95%|█████████▍| 9221/9753 [1:37:55<05:32,  1.60it/s]Training 3/3 epoch (loss 0.6582):  95%|█████████▍| 9221/9753 [1:37:56<05:32,  1.60it/s]Training 3/3 epoch (loss 0.6582):  95%|█████████▍| 9222/9753 [1:37:56<05:22,  1.65it/s]Training 3/3 epoch (loss 0.5664):  95%|█████████▍| 9222/9753 [1:37:56<05:22,  1.65it/s]Training 3/3 epoch (loss 0.5664):  95%|█████████▍| 9223/9753 [1:37:56<05:12,  1.69it/s]Training 3/3 epoch (loss 0.3441):  95%|█████████▍| 9223/9753 [1:37:57<05:12,  1.69it/s]Training 3/3 epoch (loss 0.3441):  95%|█████████▍| 9224/9753 [1:37:57<05:05,  1.73it/s]Training 3/3 epoch (loss 0.5952):  95%|█████████▍| 9224/9753 [1:37:58<05:05,  1.73it/s]Training 3/3 epoch (loss 0.5952):  95%|█████████▍| 9225/9753 [1:37:58<05:24,  1.63it/s]Training 3/3 epoch (loss 0.3721):  95%|█████████▍| 9225/9753 [1:37:58<05:24,  1.63it/s]Training 3/3 epoch (loss 0.3721):  95%|█████████▍| 9226/9753 [1:37:58<05:19,  1.65it/s]Training 3/3 epoch (loss 0.5616):  95%|█████████▍| 9226/9753 [1:37:59<05:19,  1.65it/s]Training 3/3 epoch (loss 0.5616):  95%|█████████▍| 9227/9753 [1:37:59<05:58,  1.47it/s]Training 3/3 epoch (loss 0.5283):  95%|█████████▍| 9227/9753 [1:38:00<05:58,  1.47it/s]Training 3/3 epoch (loss 0.5283):  95%|█████████▍| 9228/9753 [1:38:00<06:32,  1.34it/s]Training 3/3 epoch (loss 0.4817):  95%|█████████▍| 9228/9753 [1:38:01<06:32,  1.34it/s]Training 3/3 epoch (loss 0.4817):  95%|█████████▍| 9229/9753 [1:38:01<06:45,  1.29it/s]Training 3/3 epoch (loss 0.6192):  95%|█████████▍| 9229/9753 [1:38:02<06:45,  1.29it/s]Training 3/3 epoch (loss 0.6192):  95%|█████████▍| 9230/9753 [1:38:02<06:23,  1.36it/s]Training 3/3 epoch (loss 0.4746):  95%|█████████▍| 9230/9753 [1:38:02<06:23,  1.36it/s]Training 3/3 epoch (loss 0.4746):  95%|█████████▍| 9231/9753 [1:38:02<05:55,  1.47it/s]Training 3/3 epoch (loss 0.6184):  95%|█████████▍| 9231/9753 [1:38:03<05:55,  1.47it/s]Training 3/3 epoch (loss 0.6184):  95%|█████████▍| 9232/9753 [1:38:03<05:55,  1.47it/s]Training 3/3 epoch (loss 0.3773):  95%|█████████▍| 9232/9753 [1:38:04<05:55,  1.47it/s]Training 3/3 epoch (loss 0.3773):  95%|█████████▍| 9233/9753 [1:38:04<06:12,  1.40it/s]Training 3/3 epoch (loss 0.6497):  95%|█████████▍| 9233/9753 [1:38:04<06:12,  1.40it/s]Training 3/3 epoch (loss 0.6497):  95%|█████████▍| 9234/9753 [1:38:04<05:58,  1.45it/s]Training 3/3 epoch (loss 0.4828):  95%|█████████▍| 9234/9753 [1:38:05<05:58,  1.45it/s]Training 3/3 epoch (loss 0.4828):  95%|█████████▍| 9235/9753 [1:38:05<05:35,  1.55it/s]Training 3/3 epoch (loss 0.4497):  95%|█████████▍| 9235/9753 [1:38:06<05:35,  1.55it/s]Training 3/3 epoch (loss 0.4497):  95%|█████████▍| 9236/9753 [1:38:06<05:54,  1.46it/s]Training 3/3 epoch (loss 0.5670):  95%|█████████▍| 9236/9753 [1:38:06<05:54,  1.46it/s]Training 3/3 epoch (loss 0.5670):  95%|█████████▍| 9237/9753 [1:38:06<05:31,  1.56it/s]Training 3/3 epoch (loss 0.5215):  95%|█████████▍| 9237/9753 [1:38:07<05:31,  1.56it/s]Training 3/3 epoch (loss 0.5215):  95%|█████████▍| 9238/9753 [1:38:07<05:17,  1.62it/s]Training 3/3 epoch (loss 0.6435):  95%|█████████▍| 9238/9753 [1:38:07<05:17,  1.62it/s]Training 3/3 epoch (loss 0.6435):  95%|█████████▍| 9239/9753 [1:38:07<05:04,  1.69it/s]Training 3/3 epoch (loss 0.5846):  95%|█████████▍| 9239/9753 [1:38:08<05:04,  1.69it/s]Training 3/3 epoch (loss 0.5846):  95%|█████████▍| 9240/9753 [1:38:08<05:13,  1.64it/s]Training 3/3 epoch (loss 0.4446):  95%|█████████▍| 9240/9753 [1:38:08<05:13,  1.64it/s]Training 3/3 epoch (loss 0.4446):  95%|█████████▍| 9241/9753 [1:38:08<05:03,  1.69it/s]Training 3/3 epoch (loss 0.3762):  95%|█████████▍| 9241/9753 [1:38:09<05:03,  1.69it/s]Training 3/3 epoch (loss 0.3762):  95%|█████████▍| 9242/9753 [1:38:09<04:55,  1.73it/s]Training 3/3 epoch (loss 0.3262):  95%|█████████▍| 9242/9753 [1:38:10<04:55,  1.73it/s]Training 3/3 epoch (loss 0.3262):  95%|█████████▍| 9243/9753 [1:38:10<04:58,  1.71it/s]Training 3/3 epoch (loss 0.5596):  95%|█████████▍| 9243/9753 [1:38:10<04:58,  1.71it/s]Training 3/3 epoch (loss 0.5596):  95%|█████████▍| 9244/9753 [1:38:10<05:16,  1.61it/s]Training 3/3 epoch (loss 0.4962):  95%|█████████▍| 9244/9753 [1:38:11<05:16,  1.61it/s]Training 3/3 epoch (loss 0.4962):  95%|█████████▍| 9245/9753 [1:38:11<05:04,  1.67it/s]Training 3/3 epoch (loss 0.3323):  95%|█████████▍| 9245/9753 [1:38:11<05:04,  1.67it/s]Training 3/3 epoch (loss 0.3323):  95%|█████████▍| 9246/9753 [1:38:11<04:58,  1.70it/s]Training 3/3 epoch (loss 0.7018):  95%|█████████▍| 9246/9753 [1:38:12<04:58,  1.70it/s]Training 3/3 epoch (loss 0.7018):  95%|█████████▍| 9247/9753 [1:38:12<05:13,  1.61it/s]Training 3/3 epoch (loss 0.6209):  95%|█████████▍| 9247/9753 [1:38:13<05:13,  1.61it/s]Training 3/3 epoch (loss 0.6209):  95%|█████████▍| 9248/9753 [1:38:13<05:21,  1.57it/s]Training 3/3 epoch (loss 0.2280):  95%|█████████▍| 9248/9753 [1:38:13<05:21,  1.57it/s]Training 3/3 epoch (loss 0.2280):  95%|█████████▍| 9249/9753 [1:38:13<05:09,  1.63it/s]Training 3/3 epoch (loss 0.6132):  95%|█████████▍| 9249/9753 [1:38:14<05:09,  1.63it/s]Training 3/3 epoch (loss 0.6132):  95%|█████████▍| 9250/9753 [1:38:14<05:08,  1.63it/s]Training 3/3 epoch (loss 0.5577):  95%|█████████▍| 9250/9753 [1:38:14<05:08,  1.63it/s]Training 3/3 epoch (loss 0.5577):  95%|█████████▍| 9251/9753 [1:38:14<04:59,  1.68it/s]Training 3/3 epoch (loss 0.3908):  95%|█████████▍| 9251/9753 [1:38:15<04:59,  1.68it/s]Training 3/3 epoch (loss 0.3908):  95%|█████████▍| 9252/9753 [1:38:15<04:59,  1.67it/s]Training 3/3 epoch (loss 0.5089):  95%|█████████▍| 9252/9753 [1:38:16<04:59,  1.67it/s]Training 3/3 epoch (loss 0.5089):  95%|█████████▍| 9253/9753 [1:38:16<05:13,  1.59it/s]Training 3/3 epoch (loss 0.2217):  95%|█████████▍| 9253/9753 [1:38:16<05:13,  1.59it/s]Training 3/3 epoch (loss 0.2217):  95%|█████████▍| 9254/9753 [1:38:16<04:59,  1.66it/s]Training 3/3 epoch (loss 0.4492):  95%|█████████▍| 9254/9753 [1:38:17<04:59,  1.66it/s]Training 3/3 epoch (loss 0.4492):  95%|█████████▍| 9255/9753 [1:38:17<05:26,  1.52it/s]Training 3/3 epoch (loss 0.3504):  95%|█████████▍| 9255/9753 [1:38:18<05:26,  1.52it/s]Training 3/3 epoch (loss 0.3504):  95%|█████████▍| 9256/9753 [1:38:18<05:10,  1.60it/s]Training 3/3 epoch (loss 0.5312):  95%|█████████▍| 9256/9753 [1:38:18<05:10,  1.60it/s]Training 3/3 epoch (loss 0.5312):  95%|█████████▍| 9257/9753 [1:38:18<04:59,  1.65it/s]Training 3/3 epoch (loss 0.7650):  95%|█████████▍| 9257/9753 [1:38:19<04:59,  1.65it/s]Training 3/3 epoch (loss 0.7650):  95%|█████████▍| 9258/9753 [1:38:19<04:57,  1.66it/s]Training 3/3 epoch (loss 0.5697):  95%|█████████▍| 9258/9753 [1:38:19<04:57,  1.66it/s]Training 3/3 epoch (loss 0.5697):  95%|█████████▍| 9259/9753 [1:38:19<04:54,  1.68it/s]Training 3/3 epoch (loss 0.5294):  95%|█████████▍| 9259/9753 [1:38:20<04:54,  1.68it/s]Training 3/3 epoch (loss 0.5294):  95%|█████████▍| 9260/9753 [1:38:20<04:53,  1.68it/s]Training 3/3 epoch (loss 0.2823):  95%|█████████▍| 9260/9753 [1:38:20<04:53,  1.68it/s]Training 3/3 epoch (loss 0.2823):  95%|█████████▍| 9261/9753 [1:38:20<04:47,  1.71it/s]Training 3/3 epoch (loss 0.5226):  95%|█████████▍| 9261/9753 [1:38:21<04:47,  1.71it/s]Training 3/3 epoch (loss 0.5226):  95%|█████████▍| 9262/9753 [1:38:21<04:48,  1.70it/s]Training 3/3 epoch (loss 0.5120):  95%|█████████▍| 9262/9753 [1:38:22<04:48,  1.70it/s]Training 3/3 epoch (loss 0.5120):  95%|█████████▍| 9263/9753 [1:38:22<04:53,  1.67it/s]Training 3/3 epoch (loss 0.4214):  95%|█████████▍| 9263/9753 [1:38:22<04:53,  1.67it/s]Training 3/3 epoch (loss 0.4214):  95%|█████████▍| 9264/9753 [1:38:22<05:05,  1.60it/s]Training 3/3 epoch (loss 0.5679):  95%|█████████▍| 9264/9753 [1:38:23<05:05,  1.60it/s]Training 3/3 epoch (loss 0.5679):  95%|█████████▍| 9265/9753 [1:38:23<04:54,  1.66it/s]Training 3/3 epoch (loss 0.3951):  95%|█████████▍| 9265/9753 [1:38:24<04:54,  1.66it/s]Training 3/3 epoch (loss 0.3951):  95%|█████████▌| 9266/9753 [1:38:24<05:07,  1.58it/s]Training 3/3 epoch (loss 0.3328):  95%|█████████▌| 9266/9753 [1:38:24<05:07,  1.58it/s]Training 3/3 epoch (loss 0.3328):  95%|█████████▌| 9267/9753 [1:38:24<05:19,  1.52it/s]Training 3/3 epoch (loss 0.6190):  95%|█████████▌| 9267/9753 [1:38:25<05:19,  1.52it/s]Training 3/3 epoch (loss 0.6190):  95%|█████████▌| 9268/9753 [1:38:25<05:02,  1.60it/s]Training 3/3 epoch (loss 0.4902):  95%|█████████▌| 9268/9753 [1:38:26<05:02,  1.60it/s]Training 3/3 epoch (loss 0.4902):  95%|█████████▌| 9269/9753 [1:38:26<05:10,  1.56it/s]Training 3/3 epoch (loss 0.4426):  95%|█████████▌| 9269/9753 [1:38:26<05:10,  1.56it/s]Training 3/3 epoch (loss 0.4426):  95%|█████████▌| 9270/9753 [1:38:26<04:56,  1.63it/s]Training 3/3 epoch (loss 0.3565):  95%|█████████▌| 9270/9753 [1:38:27<04:56,  1.63it/s]Training 3/3 epoch (loss 0.3565):  95%|█████████▌| 9271/9753 [1:38:27<04:45,  1.69it/s]Training 3/3 epoch (loss 0.5457):  95%|█████████▌| 9271/9753 [1:38:27<04:45,  1.69it/s]Training 3/3 epoch (loss 0.5457):  95%|█████████▌| 9272/9753 [1:38:27<05:06,  1.57it/s]Training 3/3 epoch (loss 0.5679):  95%|█████████▌| 9272/9753 [1:38:28<05:06,  1.57it/s]Training 3/3 epoch (loss 0.5679):  95%|█████████▌| 9273/9753 [1:38:28<05:02,  1.59it/s]Training 3/3 epoch (loss 0.5540):  95%|████████��▌| 9273/9753 [1:38:29<05:02,  1.59it/s]Training 3/3 epoch (loss 0.5540):  95%|█████████▌| 9274/9753 [1:38:29<05:38,  1.42it/s]Training 3/3 epoch (loss 0.4641):  95%|█████████▌| 9274/9753 [1:38:30<05:38,  1.42it/s]Training 3/3 epoch (loss 0.4641):  95%|█████████▌| 9275/9753 [1:38:30<05:25,  1.47it/s]Training 3/3 epoch (loss 0.4334):  95%|█████████▌| 9275/9753 [1:38:30<05:25,  1.47it/s]Training 3/3 epoch (loss 0.4334):  95%|█████████▌| 9276/9753 [1:38:30<05:09,  1.54it/s]Training 3/3 epoch (loss 0.5234):  95%|█████████▌| 9276/9753 [1:38:31<05:09,  1.54it/s]Training 3/3 epoch (loss 0.5234):  95%|█████████▌| 9277/9753 [1:38:31<04:53,  1.62it/s]Training 3/3 epoch (loss 0.4107):  95%|█████████▌| 9277/9753 [1:38:31<04:53,  1.62it/s]Training 3/3 epoch (loss 0.4107):  95%|█████████▌| 9278/9753 [1:38:31<04:42,  1.68it/s]Training 3/3 epoch (loss 0.4817):  95%|█████████▌| 9278/9753 [1:38:32<04:42,  1.68it/s]Training 3/3 epoch (loss 0.4817):  95%|█████████▌| 9279/9753 [1:38:32<04:35,  1.72it/s]Training 3/3 epoch (loss 0.5570):  95%|█████████▌| 9279/9753 [1:38:33<04:35,  1.72it/s]Training 3/3 epoch (loss 0.5570):  95%|█████████▌| 9280/9753 [1:38:33<05:06,  1.54it/s]Training 3/3 epoch (loss 0.4730):  95%|█████████▌| 9280/9753 [1:38:33<05:06,  1.54it/s]Training 3/3 epoch (loss 0.4730):  95%|█████████▌| 9281/9753 [1:38:33<05:06,  1.54it/s]Training 3/3 epoch (loss 0.5519):  95%|█████████▌| 9281/9753 [1:38:34<05:06,  1.54it/s]Training 3/3 epoch (loss 0.5519):  95%|█████████▌| 9282/9753 [1:38:34<04:51,  1.61it/s]Training 3/3 epoch (loss 0.5919):  95%|█████████▌| 9282/9753 [1:38:34<04:51,  1.61it/s]Training 3/3 epoch (loss 0.5919):  95%|█████████▌| 9283/9753 [1:38:34<04:52,  1.61it/s]Training 3/3 epoch (loss 0.6047):  95%|█████████▌| 9283/9753 [1:38:35<04:52,  1.61it/s]Training 3/3 epoch (loss 0.6047):  95%|█████████▌| 9284/9753 [1:38:35<04:42,  1.66it/s]Training 3/3 epoch (loss 0.6090):  95%|█████████▌| 9284/9753 [1:38:35<04:42,  1.66it/s]Training 3/3 epoch (loss 0.6090):  95%|█████████▌| 9285/9753 [1:38:35<04:33,  1.71it/s]Training 3/3 epoch (loss 0.6060):  95%|█████████▌| 9285/9753 [1:38:36<04:33,  1.71it/s]Training 3/3 epoch (loss 0.6060):  95%|█████████▌| 9286/9753 [1:38:36<04:30,  1.72it/s]Training 3/3 epoch (loss 0.6663):  95%|█████████▌| 9286/9753 [1:38:37<04:30,  1.72it/s]Training 3/3 epoch (loss 0.6663):  95%|█████████▌| 9287/9753 [1:38:37<04:33,  1.70it/s]Training 3/3 epoch (loss 0.4743):  95%|█████████▌| 9287/9753 [1:38:37<04:33,  1.70it/s]Training 3/3 epoch (loss 0.4743):  95%|█████████▌| 9288/9753 [1:38:37<04:38,  1.67it/s]Training 3/3 epoch (loss 0.5271):  95%|█████████▌| 9288/9753 [1:38:38<04:38,  1.67it/s]Training 3/3 epoch (loss 0.5271):  95%|█████████▌| 9289/9753 [1:38:38<04:52,  1.59it/s]Training 3/3 epoch (loss 0.6599):  95%|█████████▌| 9289/9753 [1:38:39<04:52,  1.59it/s]Training 3/3 epoch (loss 0.6599):  95%|█████████▌| 9290/9753 [1:38:39<05:08,  1.50it/s]Training 3/3 epoch (loss 0.4111):  95%|█████████▌| 9290/9753 [1:38:39<05:08,  1.50it/s]Training 3/3 epoch (loss 0.4111):  95%|█████████▌| 9291/9753 [1:38:39<04:51,  1.58it/s]Training 3/3 epoch (loss 0.6051):  95%|█████████▌| 9291/9753 [1:38:40<04:51,  1.58it/s]Training 3/3 epoch (loss 0.6051):  95%|█████████▌| 9292/9753 [1:38:40<05:28,  1.40it/s]Training 3/3 epoch (loss 0.9155):  95%|█████████▌| 9292/9753 [1:38:41<05:28,  1.40it/s]Training 3/3 epoch (loss 0.9155):  95%|█████████▌| 9293/9753 [1:38:41<05:31,  1.39it/s]Training 3/3 epoch (loss 0.3199):  95%|█████████▌| 9293/9753 [1:38:41<05:31,  1.39it/s]Training 3/3 epoch (loss 0.3199):  95%|█████████▌| 9294/9753 [1:38:41<05:09,  1.49it/s]Training 3/3 epoch (loss 0.7140):  95%|█████████▌| 9294/9753 [1:38:42<05:09,  1.49it/s]Training 3/3 epoch (loss 0.7140):  95%|█████████▌| 9295/9753 [1:38:42<05:39,  1.35it/s]Training 3/3 epoch (loss 0.4279):  95%|█████████▌| 9295/9753 [1:38:43<05:39,  1.35it/s]Training 3/3 epoch (loss 0.4279):  95%|█████████▌| 9296/9753 [1:38:43<05:35,  1.36it/s]Training 3/3 epoch (loss 0.5280):  95%|█████████▌| 9296/9753 [1:38:44<05:35,  1.36it/s]Training 3/3 epoch (loss 0.5280):  95%|█████████▌| 9297/9753 [1:38:44<05:10,  1.47it/s]Training 3/3 epoch (loss 0.4452):  95%|█████████▌| 9297/9753 [1:38:44<05:10,  1.47it/s]Training 3/3 epoch (loss 0.4452):  95%|█████████▌| 9298/9753 [1:38:44<04:53,  1.55it/s]Training 3/3 epoch (loss 0.6393):  95%|█████████▌| 9298/9753 [1:38:45<04:53,  1.55it/s]Training 3/3 epoch (loss 0.6393):  95%|█████████▌| 9299/9753 [1:38:45<04:41,  1.61it/s]Training 3/3 epoch (loss 0.5461):  95%|█████████▌| 9299/9753 [1:38:45<04:41,  1.61it/s]Training 3/3 epoch (loss 0.5461):  95%|█████████▌| 9300/9753 [1:38:45<04:39,  1.62it/s]Training 3/3 epoch (loss 0.8368):  95%|█████████▌| 9300/9753 [1:38:46<04:39,  1.62it/s]Training 3/3 epoch (loss 0.8368):  95%|█████████▌| 9301/9753 [1:38:46<04:50,  1.56it/s]Training 3/3 epoch (loss 0.4827):  95%|█████████▌| 9301/9753 [1:38:47<04:50,  1.56it/s]Training 3/3 epoch (loss 0.4827):  95%|█████████▌| 9302/9753 [1:38:47<04:36,  1.63it/s]Training 3/3 epoch (loss 0.6547):  95%|█████████▌| 9302/9753 [1:38:47<04:36,  1.63it/s]Training 3/3 epoch (loss 0.6547):  95%|█████████▌| 9303/9753 [1:38:47<04:36,  1.63it/s]Training 3/3 epoch (loss 0.3954):  95%|█████████▌| 9303/9753 [1:38:48<04:36,  1.63it/s]Training 3/3 epoch (loss 0.3954):  95%|█████████▌| 9304/9753 [1:38:48<04:41,  1.59it/s]Training 3/3 epoch (loss 0.7267):  95%|█████████▌| 9304/9753 [1:38:49<04:41,  1.59it/s]Training 3/3 epoch (loss 0.7267):  95%|█████████▌| 9305/9753 [1:38:49<04:38,  1.61it/s]Training 3/3 epoch (loss 0.6209):  95%|█████████▌| 9305/9753 [1:38:49<04:38,  1.61it/s]Training 3/3 epoch (loss 0.6209):  95%|█████████▌| 9306/9753 [1:38:49<04:50,  1.54it/s]Training 3/3 epoch (loss 0.4511):  95%|█████████▌| 9306/9753 [1:38:50<04:50,  1.54it/s]Training 3/3 epoch (loss 0.4511):  95%|█████████▌| 9307/9753 [1:38:50<04:36,  1.61it/s]Training 3/3 epoch (loss 0.4293):  95%|█████████▌| 9307/9753 [1:38:50<04:36,  1.61it/s]Training 3/3 epoch (loss 0.4293):  95%|█████████▌| 9308/9753 [1:38:50<04:26,  1.67it/s]Training 3/3 epoch (loss 0.5164):  95%|█████████▌| 9308/9753 [1:38:51<04:26,  1.67it/s]Training 3/3 epoch (loss 0.5164):  95%|█████████▌| 9309/9753 [1:38:51<04:22,  1.69it/s]Training 3/3 epoch (loss 0.6277):  95%|█████████▌| 9309/9753 [1:38:52<04:22,  1.69it/s]Training 3/3 epoch (loss 0.6277):  95%|█████████▌| 9310/9753 [1:38:52<04:40,  1.58it/s]Training 3/3 epoch (loss 0.7365):  95%|█████████▌| 9310/9753 [1:38:52<04:40,  1.58it/s]Training 3/3 epoch (loss 0.7365):  95%|█████████▌| 9311/9753 [1:38:52<04:31,  1.63it/s]Training 3/3 epoch (loss 0.6389):  95%|█████████▌| 9311/9753 [1:38:53<04:31,  1.63it/s]Training 3/3 epoch (loss 0.6389):  95%|█████████▌| 9312/9753 [1:38:53<04:41,  1.57it/s]Training 3/3 epoch (loss 0.3028):  95%|█████████▌| 9312/9753 [1:38:54<04:41,  1.57it/s]Training 3/3 epoch (loss 0.3028):  95%|█████████▌| 9313/9753 [1:38:54<05:17,  1.38it/s]Training 3/3 epoch (loss 0.6412):  95%|█████████▌| 9313/9753 [1:38:55<05:17,  1.38it/s]Training 3/3 epoch (loss 0.6412):  95%|█████████▌| 9314/9753 [1:38:55<05:19,  1.37it/s]Training 3/3 epoch (loss 0.3503):  95%|█████████▌| 9314/9753 [1:38:55<05:19,  1.37it/s]Training 3/3 epoch (loss 0.3503):  96%|█████████▌| 9315/9753 [1:38:55<04:57,  1.47it/s]Training 3/3 epoch (loss 0.5192):  96%|█████████▌| 9315/9753 [1:38:56<04:57,  1.47it/s]Training 3/3 epoch (loss 0.5192):  96%|█████████▌| 9316/9753 [1:38:56<04:40,  1.56it/s]Training 3/3 epoch (loss 0.6258):  96%|█████████▌| 9316/9753 [1:38:56<04:40,  1.56it/s]Training 3/3 epoch (loss 0.6258):  96%|█████████▌| 9317/9753 [1:38:56<04:30,  1.61it/s]Training 3/3 epoch (loss 0.7978):  96%|█████████▌| 9317/9753 [1:38:57<04:30,  1.61it/s]Training 3/3 epoch (loss 0.7978):  96%|█████████▌| 9318/9753 [1:38:57<04:40,  1.55it/s]Training 3/3 epoch (loss 0.6208):  96%|█████████▌| 9318/9753 [1:38:58<04:40,  1.55it/s]Training 3/3 epoch (loss 0.6208):  96%|█████████▌| 9319/9753 [1:38:58<04:40,  1.55it/s]Training 3/3 epoch (loss 0.3379):  96%|█████████▌| 9319/9753 [1:38:58<04:40,  1.55it/s]Training 3/3 epoch (loss 0.3379):  96%|█████████▌| 9320/9753 [1:38:58<04:28,  1.61it/s]Training 3/3 epoch (loss 0.4809):  96%|█████████▌| 9320/9753 [1:38:59<04:28,  1.61it/s]Training 3/3 epoch (loss 0.4809):  96%|█████████▌| 9321/9753 [1:38:59<04:18,  1.67it/s]Training 3/3 epoch (loss 0.6071):  96%|█████████▌| 9321/9753 [1:38:59<04:18,  1.67it/s]Training 3/3 epoch (loss 0.6071):  96%|█████████▌| 9322/9753 [1:38:59<04:11,  1.72it/s]Training 3/3 epoch (loss 0.6213):  96%|█████████▌| 9322/9753 [1:39:00<04:11,  1.72it/s]Training 3/3 epoch (loss 0.6213):  96%|█████████▌| 9323/9753 [1:39:00<04:06,  1.74it/s]Training 3/3 epoch (loss 0.4762):  96%|█████████▌| 9323/9753 [1:39:00<04:06,  1.74it/s]Training 3/3 epoch (loss 0.4762):  96%|█████████▌| 9324/9753 [1:39:00<04:02,  1.77it/s]Training 3/3 epoch (loss 0.6966):  96%|█████████▌| 9324/9753 [1:39:01<04:02,  1.77it/s]Training 3/3 epoch (loss 0.6966):  96%|█████████▌| 9325/9753 [1:39:01<04:15,  1.68it/s]Training 3/3 epoch (loss 0.5469):  96%|█████████▌| 9325/9753 [1:39:02<04:15,  1.68it/s]Training 3/3 epoch (loss 0.5469):  96%|█████████▌| 9326/9753 [1:39:02<04:35,  1.55it/s]Training 3/3 epoch (loss 0.3370):  96%|█████████▌| 9326/9753 [1:39:02<04:35,  1.55it/s]Training 3/3 epoch (loss 0.3370):  96%|█████████▌| 9327/9753 [1:39:02<04:22,  1.62it/s]Training 3/3 epoch (loss 0.4109):  96%|█████████▌| 9327/9753 [1:39:03<04:22,  1.62it/s]Training 3/3 epoch (loss 0.4109):  96%|█████████▌| 9328/9753 [1:39:03<04:29,  1.58it/s]Training 3/3 epoch (loss 0.3818):  96%|█████████▌| 9328/9753 [1:39:04<04:29,  1.58it/s]Training 3/3 epoch (loss 0.3818):  96%|█████████▌| 9329/9753 [1:39:04<04:18,  1.64it/s]Training 3/3 epoch (loss 0.4586):  96%|█████████▌| 9329/9753 [1:39:04<04:18,  1.64it/s]Training 3/3 epoch (loss 0.4586):  96%|█████████▌| 9330/9753 [1:39:04<04:09,  1.70it/s]Training 3/3 epoch (loss 0.6319):  96%|█████████▌| 9330/9753 [1:39:05<04:09,  1.70it/s]Training 3/3 epoch (loss 0.6319):  96%|█████████▌| 9331/9753 [1:39:05<04:02,  1.74it/s]Training 3/3 epoch (loss 0.5148):  96%|█████████▌| 9331/9753 [1:39:05<04:02,  1.74it/s]Training 3/3 epoch (loss 0.5148):  96%|█████████▌| 9332/9753 [1:39:05<04:12,  1.66it/s]Training 3/3 epoch (loss 0.6210):  96%|█████████▌| 9332/9753 [1:39:06<04:12,  1.66it/s]Training 3/3 epoch (loss 0.6210):  96%|█████████▌| 9333/9753 [1:39:06<04:38,  1.51it/s]Training 3/3 epoch (loss 0.3734):  96%|█████████▌| 9333/9753 [1:39:07<04:38,  1.51it/s]Training 3/3 epoch (loss 0.3734):  96%|█████████▌| 9334/9753 [1:39:07<04:46,  1.46it/s]Training 3/3 epoch (loss 0.4683):  96%|█████████▌| 9334/9753 [1:39:08<04:46,  1.46it/s]Training 3/3 epoch (loss 0.4683):  96%|█████████▌| 9335/9753 [1:39:08<04:56,  1.41it/s]Training 3/3 epoch (loss 0.6608):  96%|█████████▌| 9335/9753 [1:39:08<04:56,  1.41it/s]Training 3/3 epoch (loss 0.6608):  96%|█████████▌| 9336/9753 [1:39:08<04:41,  1.48it/s]Training 3/3 epoch (loss 0.4776):  96%|█████████▌| 9336/9753 [1:39:09<04:41,  1.48it/s]Training 3/3 epoch (loss 0.4776):  96%|█████████▌| 9337/9753 [1:39:09<04:58,  1.39it/s]Training 3/3 epoch (loss 0.3652):  96%|█████████▌| 9337/9753 [1:39:10<04:58,  1.39it/s]Training 3/3 epoch (loss 0.3652):  96%|█████████▌| 9338/9753 [1:39:10<05:00,  1.38it/s]Training 3/3 epoch (loss 0.4327):  96%|█████████▌| 9338/9753 [1:39:10<05:00,  1.38it/s]Training 3/3 epoch (loss 0.4327):  96%|█████████▌| 9339/9753 [1:39:10<04:57,  1.39it/s]Training 3/3 epoch (loss 0.4924):  96%|█████████▌| 9339/9753 [1:39:11<04:57,  1.39it/s]Training 3/3 epoch (loss 0.4924):  96%|█████████▌| 9340/9753 [1:39:11<04:54,  1.40it/s]Training 3/3 epoch (loss 0.3501):  96%|█████████▌| 9340/9753 [1:39:12<04:54,  1.40it/s]Training 3/3 epoch (loss 0.3501):  96%|█████████▌| 9341/9753 [1:39:12<04:34,  1.50it/s]Training 3/3 epoch (loss 0.3819):  96%|█████████▌| 9341/9753 [1:39:12<04:34,  1.50it/s]Training 3/3 epoch (loss 0.3819):  96%|█████████▌| 9342/9753 [1:39:12<04:20,  1.58it/s]Training 3/3 epoch (loss 0.6403):  96%|█████████▌| 9342/9753 [1:39:13<04:20,  1.58it/s]Training 3/3 epoch (loss 0.6403):  96%|█████████▌| 9343/9753 [1:39:13<04:10,  1.64it/s]Training 3/3 epoch (loss 0.5814):  96%|█████████▌| 9343/9753 [1:39:14<04:10,  1.64it/s]Training 3/3 epoch (loss 0.5814):  96%|█████████▌| 9344/9753 [1:39:14<04:34,  1.49it/s]Training 3/3 epoch (loss 0.5048):  96%|█████████▌| 9344/9753 [1:39:14<04:34,  1.49it/s]Training 3/3 epoch (loss 0.5048):  96%|█████████▌| 9345/9753 [1:39:14<04:19,  1.57it/s]Training 3/3 epoch (loss 0.4841):  96%|█████████▌| 9345/9753 [1:39:15<04:19,  1.57it/s]Training 3/3 epoch (loss 0.4841):  96%|█████████▌| 9346/9753 [1:39:15<04:11,  1.62it/s]Training 3/3 epoch (loss 0.4356):  96%|█████████▌| 9346/9753 [1:39:15<04:11,  1.62it/s]Training 3/3 epoch (loss 0.4356):  96%|█████████▌| 9347/9753 [1:39:15<04:03,  1.67it/s]Training 3/3 epoch (loss 0.6143):  96%|█████████▌| 9347/9753 [1:39:16<04:03,  1.67it/s]Training 3/3 epoch (loss 0.6143):  96%|█████████▌| 9348/9753 [1:39:16<03:57,  1.70it/s]Training 3/3 epoch (loss 0.6431):  96%|█████████▌| 9348/9753 [1:39:16<03:57,  1.70it/s]Training 3/3 epoch (loss 0.6431):  96%|█████████▌| 9349/9753 [1:39:16<03:54,  1.72it/s]Training 3/3 epoch (loss 0.5561):  96%|█████████▌| 9349/9753 [1:39:17<03:54,  1.72it/s]Training 3/3 epoch (loss 0.5561):  96%|█████████▌| 9350/9753 [1:39:17<03:51,  1.74it/s]Training 3/3 epoch (loss 0.2711):  96%|█████████▌| 9350/9753 [1:39:18<03:51,  1.74it/s]Training 3/3 epoch (loss 0.2711):  96%|█████████▌| 9351/9753 [1:39:18<03:48,  1.76it/s]Training 3/3 epoch (loss 0.6427):  96%|█████████▌| 9351/9753 [1:39:18<03:48,  1.76it/s]Training 3/3 epoch (loss 0.6427):  96%|█████████▌| 9352/9753 [1:39:18<04:05,  1.63it/s]Training 3/3 epoch (loss 0.4782):  96%|█████████▌| 9352/9753 [1:39:19<04:05,  1.63it/s]Training 3/3 epoch (loss 0.4782):  96%|█████████▌| 9353/9753 [1:39:19<03:58,  1.68it/s]Training 3/3 epoch (loss 0.5524):  96%|█████████▌| 9353/9753 [1:39:19<03:58,  1.68it/s]Training 3/3 epoch (loss 0.5524):  96%|█████████▌| 9354/9753 [1:39:19<04:01,  1.65it/s]Training 3/3 epoch (loss 0.4934):  96%|█████████▌| 9354/9753 [1:39:20<04:01,  1.65it/s]Training 3/3 epoch (loss 0.4934):  96%|█████████▌| 9355/9753 [1:39:20<04:38,  1.43it/s]Training 3/3 epoch (loss 0.4067):  96%|█████████▌| 9355/9753 [1:39:21<04:38,  1.43it/s]Training 3/3 epoch (loss 0.4067):  96%|█████████▌| 9356/9753 [1:39:21<04:20,  1.52it/s]Training 3/3 epoch (loss 0.4780):  96%|█████████▌| 9356/9753 [1:39:22<04:20,  1.52it/s]Training 3/3 epoch (loss 0.4780):  96%|█████████▌| 9357/9753 [1:39:22<04:07,  1.60it/s]Training 3/3 epoch (loss 0.5948):  96%|█████████▌| 9357/9753 [1:39:22<04:07,  1.60it/s]Training 3/3 epoch (loss 0.5948):  96%|█████████▌| 9358/9753 [1:39:22<04:18,  1.53it/s]Training 3/3 epoch (loss 0.4909):  96%|█████████▌| 9358/9753 [1:39:23<04:18,  1.53it/s]Training 3/3 epoch (loss 0.4909):  96%|█████████▌| 9359/9753 [1:39:23<04:04,  1.61it/s]Training 3/3 epoch (loss 0.5847):  96%|█████████▌| 9359/9753 [1:39:23<04:04,  1.61it/s]Training 3/3 epoch (loss 0.5847):  96%|█████████▌| 9360/9753 [1:39:23<04:11,  1.56it/s]Training 3/3 epoch (loss 0.4400):  96%|█████████▌| 9360/9753 [1:39:24<04:11,  1.56it/s]Training 3/3 epoch (loss 0.4400):  96%|█████████▌| 9361/9753 [1:39:24<04:01,  1.62it/s]Training 3/3 epoch (loss 0.6835):  96%|█████████▌| 9361/9753 [1:39:25<04:01,  1.62it/s]Training 3/3 epoch (loss 0.6835):  96%|█████████▌| 9362/9753 [1:39:25<03:57,  1.65it/s]Training 3/3 epoch (loss 0.7081):  96%|█████████▌| 9362/9753 [1:39:25<03:57,  1.65it/s]Training 3/3 epoch (loss 0.7081):  96%|█████████▌| 9363/9753 [1:39:25<04:00,  1.62it/s]Training 3/3 epoch (loss 0.4892):  96%|█████████▌| 9363/9753 [1:39:26<04:00,  1.62it/s]Training 3/3 epoch (loss 0.4892):  96%|█████████▌| 9364/9753 [1:39:26<03:52,  1.67it/s]Training 3/3 epoch (loss 0.3930):  96%|█████████▌| 9364/9753 [1:39:26<03:52,  1.67it/s]Training 3/3 epoch (loss 0.3930):  96%|█████████▌| 9365/9753 [1:39:26<03:46,  1.72it/s]Training 3/3 epoch (loss 0.4274):  96%|█████████▌| 9365/9753 [1:39:27<03:46,  1.72it/s]Training 3/3 epoch (loss 0.4274):  96%|█████████▌| 9366/9753 [1:39:27<03:41,  1.75it/s]Training 3/3 epoch (loss 0.4686):  96%|█████████▌| 9366/9753 [1:39:27<03:41,  1.75it/s]Training 3/3 epoch (loss 0.4686):  96%|█████████▌| 9367/9753 [1:39:27<03:37,  1.77it/s]Training 3/3 epoch (loss 0.2668):  96%|█████████▌| 9367/9753 [1:39:28<03:37,  1.77it/s]Training 3/3 epoch (loss 0.2668):  96%|█████████▌| 9368/9753 [1:39:28<03:35,  1.79it/s]Training 3/3 epoch (loss 0.4284):  96%|█████████▌| 9368/9753 [1:39:29<03:35,  1.79it/s]Training 3/3 epoch (loss 0.4284):  96%|█████████▌| 9369/9753 [1:39:29<03:33,  1.80it/s]Training 3/3 epoch (loss 0.2512):  96%|█████████▌| 9369/9753 [1:39:29<03:33,  1.80it/s]Training 3/3 epoch (loss 0.2512):  96%|█████████▌| 9370/9753 [1:39:29<03:32,  1.80it/s]Training 3/3 epoch (loss 0.4062):  96%|█████████▌| 9370/9753 [1:39:30<03:32,  1.80it/s]Training 3/3 epoch (loss 0.4062):  96%|█████████▌| 9371/9753 [1:39:30<03:30,  1.81it/s]Training 3/3 epoch (loss 0.7687):  96%|█████████▌| 9371/9753 [1:39:30<03:30,  1.81it/s]Training 3/3 epoch (loss 0.7687):  96%|█████████▌| 9372/9753 [1:39:30<03:29,  1.81it/s]Training 3/3 epoch (loss 0.8081):  96%|█████████▌| 9372/9753 [1:39:31<03:29,  1.81it/s]Training 3/3 epoch (loss 0.8081):  96%|█████████▌| 9373/9753 [1:39:31<03:30,  1.80it/s]Training 3/3 epoch (loss 0.7525):  96%|█████████▌| 9373/9753 [1:39:32<03:30,  1.80it/s]Training 3/3 epoch (loss 0.7525):  96%|█████████▌| 9374/9753 [1:39:32<04:00,  1.58it/s]Training 3/3 epoch (loss 0.6261):  96%|█████████▌| 9374/9753 [1:39:32<04:00,  1.58it/s]Training 3/3 epoch (loss 0.6261):  96%|█████████▌| 9375/9753 [1:39:32<03:59,  1.58it/s]Training 3/3 epoch (loss 0.5624):  96%|█████████▌| 9375/9753 [1:39:33<03:59,  1.58it/s]Training 3/3 epoch (loss 0.5624):  96%|█████████▌| 9376/9753 [1:39:33<04:12,  1.49it/s]Training 3/3 epoch (loss 0.2263):  96%|█████████▌| 9376/9753 [1:39:34<04:12,  1.49it/s]Training 3/3 epoch (loss 0.2263):  96%|█████████▌| 9377/9753 [1:39:34<04:02,  1.55it/s]Training 3/3 epoch (loss 0.7222):  96%|█████████▌| 9377/9753 [1:39:34<04:02,  1.55it/s]Training 3/3 epoch (loss 0.7222):  96%|█████████▌| 9378/9753 [1:39:34<04:08,  1.51it/s]Training 3/3 epoch (loss 0.3614):  96%|█████████▌| 9378/9753 [1:39:35<04:08,  1.51it/s]Training 3/3 epoch (loss 0.3614):  96%|█████████▌| 9379/9753 [1:39:35<03:55,  1.59it/s]Training 3/3 epoch (loss 0.3609):  96%|█████████▌| 9379/9753 [1:39:35<03:55,  1.59it/s]Training 3/3 epoch (loss 0.3609):  96%|█████████▌| 9380/9753 [1:39:35<03:53,  1.60it/s]Training 3/3 epoch (loss 0.5546):  96%|█████████▌| 9380/9753 [1:39:36<03:53,  1.60it/s]Training 3/3 epoch (loss 0.5546):  96%|█████████▌| 9381/9753 [1:39:36<04:18,  1.44it/s]Training 3/3 epoch (loss 0.4290):  96%|█████████▌| 9381/9753 [1:39:37<04:18,  1.44it/s]Training 3/3 epoch (loss 0.4290):  96%|█████████▌| 9382/9753 [1:39:37<04:04,  1.52it/s]Training 3/3 epoch (loss 0.3111):  96%|█████████▌| 9382/9753 [1:39:37<04:04,  1.52it/s]Training 3/3 epoch (loss 0.3111):  96%|█████████▌| 9383/9753 [1:39:37<03:56,  1.56it/s]Training 3/3 epoch (loss 0.5574):  96%|█████████▌| 9383/9753 [1:39:38<03:56,  1.56it/s]Training 3/3 epoch (loss 0.5574):  96%|█████████▌| 9384/9753 [1:39:38<03:53,  1.58it/s]Training 3/3 epoch (loss 0.4980):  96%|█████████▌| 9384/9753 [1:39:39<03:53,  1.58it/s]Training 3/3 epoch (loss 0.4980):  96%|█████████▌| 9385/9753 [1:39:39<03:49,  1.61it/s]Training 3/3 epoch (loss 0.4912):  96%|█████████▌| 9385/9753 [1:39:39<03:49,  1.61it/s]Training 3/3 epoch (loss 0.4912):  96%|█████████▌| 9386/9753 [1:39:39<03:43,  1.64it/s]Training 3/3 epoch (loss 0.5657):  96%|█████████▌| 9386/9753 [1:39:40<03:43,  1.64it/s]Training 3/3 epoch (loss 0.5657):  96%|█████████▌| 9387/9753 [1:39:40<03:36,  1.69it/s]Training 3/3 epoch (loss 0.4371):  96%|█████████▌| 9387/9753 [1:39:40<03:36,  1.69it/s]Training 3/3 epoch (loss 0.4371):  96%|█████████▋| 9388/9753 [1:39:40<03:32,  1.72it/s]Training 3/3 epoch (loss 0.6358):  96%|█████████▋| 9388/9753 [1:39:41<03:32,  1.72it/s]Training 3/3 epoch (loss 0.6358):  96%|█████████▋| 9389/9753 [1:39:41<03:37,  1.67it/s]Training 3/3 epoch (loss 0.8173):  96%|█████████▋| 9389/9753 [1:39:42<03:37,  1.67it/s]Training 3/3 epoch (loss 0.8173):  96%|█████████▋| 9390/9753 [1:39:42<03:51,  1.57it/s]Training 3/3 epoch (loss 0.5217):  96%|█████████▋| 9390/9753 [1:39:42<03:51,  1.57it/s]Training 3/3 epoch (loss 0.5217):  96%|█████████▋| 9391/9753 [1:39:42<03:43,  1.62it/s]Training 3/3 epoch (loss 0.4395):  96%|█████████▋| 9391/9753 [1:39:43<03:43,  1.62it/s]Training 3/3 epoch (loss 0.4395):  96%|█████████▋| 9392/9753 [1:39:43<03:49,  1.57it/s]Training 3/3 epoch (loss 0.7297):  96%|█████████▋| 9392/9753 [1:39:44<03:49,  1.57it/s]Training 3/3 epoch (loss 0.7297):  96%|█████████▋| 9393/9753 [1:39:44<03:50,  1.56it/s]Training 3/3 epoch (loss 0.6660):  96%|█████████▋| 9393/9753 [1:39:44<03:50,  1.56it/s]Training 3/3 epoch (loss 0.6660):  96%|█████████▋| 9394/9753 [1:39:44<03:47,  1.58it/s]Training 3/3 epoch (loss 0.2732):  96%|█████████▋| 9394/9753 [1:39:45<03:47,  1.58it/s]Training 3/3 epoch (loss 0.2732):  96%|█████████▋| 9395/9753 [1:39:45<03:40,  1.62it/s]Training 3/3 epoch (loss 0.6122):  96%|█████████▋| 9395/9753 [1:39:46<03:40,  1.62it/s]Training 3/3 epoch (loss 0.6122):  96%|█████████▋| 9396/9753 [1:39:46<04:11,  1.42it/s]Training 3/3 epoch (loss 0.5401):  96%|█████████▋| 9396/9753 [1:39:46<04:11,  1.42it/s]Training 3/3 epoch (loss 0.5401):  96%|█████████▋| 9397/9753 [1:39:46<03:55,  1.51it/s]Training 3/3 epoch (loss 0.4097):  96%|█████████▋| 9397/9753 [1:39:47<03:55,  1.51it/s]Training 3/3 epoch (loss 0.4097):  96%|█████████▋| 9398/9753 [1:39:47<03:42,  1.60it/s]Training 3/3 epoch (loss 0.6492):  96%|█████████▋| 9398/9753 [1:39:47<03:42,  1.60it/s]Training 3/3 epoch (loss 0.6492):  96%|█████████▋| 9399/9753 [1:39:47<03:33,  1.66it/s]Training 3/3 epoch (loss 0.5684):  96%|█████████▋| 9399/9753 [1:39:48<03:33,  1.66it/s]Training 3/3 epoch (loss 0.5684):  96%|█████████▋| 9400/9753 [1:39:48<03:26,  1.71it/s]Training 3/3 epoch (loss 0.7809):  96%|█████████▋| 9400/9753 [1:39:49<03:26,  1.71it/s]Training 3/3 epoch (loss 0.7809):  96%|█████████▋| 9401/9753 [1:39:49<03:30,  1.67it/s]Training 3/3 epoch (loss 0.4906):  96%|█████████▋| 9401/9753 [1:39:49<03:30,  1.67it/s]Training 3/3 epoch (loss 0.4906):  96%|█████████▋| 9402/9753 [1:39:49<03:32,  1.65it/s]Training 3/3 epoch (loss 0.5600):  96%|█████████▋| 9402/9753 [1:39:50<03:32,  1.65it/s]Training 3/3 epoch (loss 0.5600):  96%|█████████▋| 9403/9753 [1:39:50<03:57,  1.47it/s]Training 3/3 epoch (loss 0.5347):  96%|█████████▋| 9403/9753 [1:39:51<03:57,  1.47it/s]Training 3/3 epoch (loss 0.5347):  96%|█████████▋| 9404/9753 [1:39:51<03:44,  1.55it/s]Training 3/3 epoch (loss 0.3601):  96%|█████████▋| 9404/9753 [1:39:51<03:44,  1.55it/s]Training 3/3 epoch (loss 0.3601):  96%|█████████▋| 9405/9753 [1:39:51<03:39,  1.58it/s]Training 3/3 epoch (loss 0.8171):  96%|█████████▋| 9405/9753 [1:39:52<03:39,  1.58it/s]Training 3/3 epoch (loss 0.8171):  96%|█████████▋| 9406/9753 [1:39:52<03:52,  1.50it/s]Training 3/3 epoch (loss 0.4351):  96%|█████████▋| 9406/9753 [1:39:52<03:52,  1.50it/s]Training 3/3 epoch (loss 0.4351):  96%|█████████▋| 9407/9753 [1:39:52<03:39,  1.58it/s]Training 3/3 epoch (loss 0.5096):  96%|█████████▋| 9407/9753 [1:39:53<03:39,  1.58it/s]Training 3/3 epoch (loss 0.5096):  96%|█████████▋| 9408/9753 [1:39:53<03:42,  1.55it/s]Training 3/3 epoch (loss 0.6859):  96%|█████████▋| 9408/9753 [1:39:54<03:42,  1.55it/s]Training 3/3 epoch (loss 0.6859):  96%|█████████▋| 9409/9753 [1:39:54<04:10,  1.37it/s]Training 3/3 epoch (loss 0.2316):  96%|█████████▋| 9409/9753 [1:39:55<04:10,  1.37it/s]Training 3/3 epoch (loss 0.2316):  96%|█████████▋| 9410/9753 [1:39:55<03:50,  1.49it/s]Training 3/3 epoch (loss 0.5727):  96%|█████████▋| 9410/9753 [1:39:55<03:50,  1.49it/s]Training 3/3 epoch (loss 0.5727):  96%|█████████▋| 9411/9753 [1:39:55<03:38,  1.57it/s]Training 3/3 epoch (loss 0.8122):  96%|█████████▋| 9411/9753 [1:39:56<03:38,  1.57it/s]Training 3/3 epoch (loss 0.8122):  97%|█████████▋| 9412/9753 [1:39:56<04:03,  1.40it/s]Training 3/3 epoch (loss 0.5820):  97%|█████████▋| 9412/9753 [1:39:57<04:03,  1.40it/s]Training 3/3 epoch (loss 0.5820):  97%|█████████▋| 9413/9753 [1:39:57<04:17,  1.32it/s]Training 3/3 epoch (loss 0.5900):  97%|█████████▋| 9413/9753 [1:39:57<04:17,  1.32it/s]Training 3/3 epoch (loss 0.5900):  97%|█████████▋| 9414/9753 [1:39:57<03:55,  1.44it/s]Training 3/3 epoch (loss 0.6367):  97%|█████████▋| 9414/9753 [1:39:58<03:55,  1.44it/s]Training 3/3 epoch (loss 0.6367):  97%|█████████▋| 9415/9753 [1:39:58<03:53,  1.45it/s]Training 3/3 epoch (loss 0.3398):  97%|█████████▋| 9415/9753 [1:39:59<03:53,  1.45it/s]Training 3/3 epoch (loss 0.3398):  97%|█████████▋| 9416/9753 [1:39:59<03:42,  1.52it/s]Training 3/3 epoch (loss 0.4652):  97%|█████████▋| 9416/9753 [1:39:59<03:42,  1.52it/s]Training 3/3 epoch (loss 0.4652):  97%|█████████▋| 9417/9753 [1:39:59<03:29,  1.60it/s]Training 3/3 epoch (loss 0.4134):  97%|█████████▋| 9417/9753 [1:40:00<03:29,  1.60it/s]Training 3/3 epoch (loss 0.4134):  97%|█████████▋| 9418/9753 [1:40:00<03:21,  1.66it/s]Training 3/3 epoch (loss 0.7351):  97%|█████████▋| 9418/9753 [1:40:00<03:21,  1.66it/s]Training 3/3 epoch (loss 0.7351):  97%|█████████▋| 9419/9753 [1:40:00<03:20,  1.67it/s]Training 3/3 epoch (loss 0.5439):  97%|█████████▋| 9419/9753 [1:40:01<03:20,  1.67it/s]Training 3/3 epoch (loss 0.5439):  97%|█████████▋| 9420/9753 [1:40:01<03:14,  1.71it/s]Training 3/3 epoch (loss 0.3651):  97%|█████████▋| 9420/9753 [1:40:02<03:14,  1.71it/s]Training 3/3 epoch (loss 0.3651):  97%|█████████▋| 9421/9753 [1:40:02<03:10,  1.74it/s]Training 3/3 epoch (loss 0.4332):  97%|█████████▋| 9421/9753 [1:40:02<03:10,  1.74it/s]Training 3/3 epoch (loss 0.4332):  97%|█████████▋| 9422/9753 [1:40:02<03:21,  1.64it/s]Training 3/3 epoch (loss 0.7431):  97%|█████████▋| 9422/9753 [1:40:03<03:21,  1.64it/s]Training 3/3 epoch (loss 0.7431):  97%|█████████▋| 9423/9753 [1:40:03<03:18,  1.66it/s]Training 3/3 epoch (loss 0.4833):  97%|█████████▋| 9423/9753 [1:40:04<03:18,  1.66it/s]Training 3/3 epoch (loss 0.4833):  97%|█████████▋| 9424/9753 [1:40:04<03:33,  1.54it/s]Training 3/3 epoch (loss 0.4712):  97%|█████████▋| 9424/9753 [1:40:04<03:33,  1.54it/s]Training 3/3 epoch (loss 0.4712):  97%|█████████▋| 9425/9753 [1:40:04<03:27,  1.58it/s]Training 3/3 epoch (loss 0.5316):  97%|█████████▋| 9425/9753 [1:40:05<03:27,  1.58it/s]Training 3/3 epoch (loss 0.5316):  97%|█████████▋| 9426/9753 [1:40:05<03:21,  1.63it/s]Training 3/3 epoch (loss 0.3369):  97%|█████████▋| 9426/9753 [1:40:05<03:21,  1.63it/s]Training 3/3 epoch (loss 0.3369):  97%|█████████▋| 9427/9753 [1:40:05<03:14,  1.68it/s]Training 3/3 epoch (loss 0.5800):  97%|█████████▋| 9427/9753 [1:40:06<03:14,  1.68it/s]Training 3/3 epoch (loss 0.5800):  97%|█████████▋| 9428/9753 [1:40:06<03:15,  1.66it/s]Training 3/3 epoch (loss 0.5930):  97%|█████████▋| 9428/9753 [1:40:07<03:15,  1.66it/s]Training 3/3 epoch (loss 0.5930):  97%|█████████▋| 9429/9753 [1:40:07<03:26,  1.57it/s]Training 3/3 epoch (loss 0.4059):  97%|█████████▋| 9429/9753 [1:40:07<03:26,  1.57it/s]Training 3/3 epoch (loss 0.4059):  97%|█████████▋| 9430/9753 [1:40:07<03:17,  1.64it/s]Training 3/3 epoch (loss 0.4224):  97%|█████████▋| 9430/9753 [1:40:08<03:17,  1.64it/s]Training 3/3 epoch (loss 0.4224):  97%|█████████▋| 9431/9753 [1:40:08<03:17,  1.63it/s]Training 3/3 epoch (loss 0.8431):  97%|█████████▋| 9431/9753 [1:40:08<03:17,  1.63it/s]Training 3/3 epoch (loss 0.8431):  97%|█████████▋| 9432/9753 [1:40:08<03:20,  1.60it/s]Training 3/3 epoch (loss 0.6887):  97%|█████████▋| 9432/9753 [1:40:09<03:20,  1.60it/s]Training 3/3 epoch (loss 0.6887):  97%|█████████▋| 9433/9753 [1:40:09<03:13,  1.66it/s]Training 3/3 epoch (loss 0.3903):  97%|█████████▋| 9433/9753 [1:40:10<03:13,  1.66it/s]Training 3/3 epoch (loss 0.3903):  97%|█████████▋| 9434/9753 [1:40:10<03:08,  1.69it/s]Training 3/3 epoch (loss 0.6006):  97%|█████████▋| 9434/9753 [1:40:10<03:08,  1.69it/s]Training 3/3 epoch (loss 0.6006):  97%|█████████▋| 9435/9753 [1:40:10<03:04,  1.73it/s]Training 3/3 epoch (loss 0.7880):  97%|█████████▋| 9435/9753 [1:40:11<03:04,  1.73it/s]Training 3/3 epoch (loss 0.7880):  97%|█████████▋| 9436/9753 [1:40:11<03:11,  1.65it/s]Training 3/3 epoch (loss 0.5100):  97%|█████████▋| 9436/9753 [1:40:12<03:11,  1.65it/s]Training 3/3 epoch (loss 0.5100):  97%|█████████▋| 9437/9753 [1:40:12<03:32,  1.49it/s]Training 3/3 epoch (loss 0.5851):  97%|█████████▋| 9437/9753 [1:40:12<03:32,  1.49it/s]Training 3/3 epoch (loss 0.5851):  97%|█████████▋| 9438/9753 [1:40:12<03:37,  1.45it/s]Training 3/3 epoch (loss 0.4825):  97%|█████████▋| 9438/9753 [1:40:13<03:37,  1.45it/s]Training 3/3 epoch (loss 0.4825):  97%|█████████▋| 9439/9753 [1:40:13<03:27,  1.51it/s]Training 3/3 epoch (loss 0.7014):  97%|███���█████▋| 9439/9753 [1:40:14<03:27,  1.51it/s]Training 3/3 epoch (loss 0.7014):  97%|█████████▋| 9440/9753 [1:40:14<03:29,  1.49it/s]Training 3/3 epoch (loss 0.6572):  97%|█████████▋| 9440/9753 [1:40:14<03:29,  1.49it/s]Training 3/3 epoch (loss 0.6572):  97%|█████████▋| 9441/9753 [1:40:14<03:18,  1.57it/s]Training 3/3 epoch (loss 0.4564):  97%|█████████▋| 9441/9753 [1:40:15<03:18,  1.57it/s]Training 3/3 epoch (loss 0.4564):  97%|█████████▋| 9442/9753 [1:40:15<03:24,  1.52it/s]Training 3/3 epoch (loss 0.7004):  97%|█████████▋| 9442/9753 [1:40:15<03:24,  1.52it/s]Training 3/3 epoch (loss 0.7004):  97%|█████████▋| 9443/9753 [1:40:15<03:15,  1.59it/s]Training 3/3 epoch (loss 0.6146):  97%|█████████▋| 9443/9753 [1:40:16<03:15,  1.59it/s]Training 3/3 epoch (loss 0.6146):  97%|█████████▋| 9444/9753 [1:40:16<03:08,  1.64it/s]Training 3/3 epoch (loss 0.4875):  97%|█████████▋| 9444/9753 [1:40:17<03:08,  1.64it/s]Training 3/3 epoch (loss 0.4875):  97%|█████████▋| 9445/9753 [1:40:17<03:01,  1.69it/s]Training 3/3 epoch (loss 0.3411):  97%|█████████▋| 9445/9753 [1:40:17<03:01,  1.69it/s]Training 3/3 epoch (loss 0.3411):  97%|█████████▋| 9446/9753 [1:40:17<02:57,  1.73it/s]Training 3/3 epoch (loss 0.5061):  97%|█████████▋| 9446/9753 [1:40:18<02:57,  1.73it/s]Training 3/3 epoch (loss 0.5061):  97%|█████████▋| 9447/9753 [1:40:18<03:12,  1.59it/s]Training 3/3 epoch (loss 0.4998):  97%|█████████▋| 9447/9753 [1:40:19<03:12,  1.59it/s]Training 3/3 epoch (loss 0.4998):  97%|█████████▋| 9448/9753 [1:40:19<03:38,  1.40it/s]Training 3/3 epoch (loss 0.4378):  97%|█████████▋| 9448/9753 [1:40:19<03:38,  1.40it/s]Training 3/3 epoch (loss 0.4378):  97%|█████████▋| 9449/9753 [1:40:19<03:28,  1.46it/s]Training 3/3 epoch (loss 0.5292):  97%|█████████▋| 9449/9753 [1:40:20<03:28,  1.46it/s]Training 3/3 epoch (loss 0.5292):  97%|█████████▋| 9450/9753 [1:40:20<03:16,  1.54it/s]Training 3/3 epoch (loss 0.5709):  97%|█████████▋| 9450/9753 [1:40:20<03:16,  1.54it/s]Training 3/3 epoch (loss 0.5709):  97%|█████████▋| 9451/9753 [1:40:20<03:06,  1.62it/s]Training 3/3 epoch (loss 0.5410):  97%|█████████▋| 9451/9753 [1:40:21<03:06,  1.62it/s]Training 3/3 epoch (loss 0.5410):  97%|█████████▋| 9452/9753 [1:40:21<03:15,  1.54it/s]Training 3/3 epoch (loss 0.4510):  97%|█████████▋| 9452/9753 [1:40:22<03:15,  1.54it/s]Training 3/3 epoch (loss 0.4510):  97%|█████████▋| 9453/9753 [1:40:22<03:05,  1.61it/s]Training 3/3 epoch (loss 0.6446):  97%|█████████▋| 9453/9753 [1:40:22<03:05,  1.61it/s]Training 3/3 epoch (loss 0.6446):  97%|█████████▋| 9454/9753 [1:40:22<03:01,  1.64it/s]Training 3/3 epoch (loss 0.3004):  97%|█████████▋| 9454/9753 [1:40:23<03:01,  1.64it/s]Training 3/3 epoch (loss 0.3004):  97%|█████████▋| 9455/9753 [1:40:23<03:01,  1.64it/s]Training 3/3 epoch (loss 0.4417):  97%|█████████▋| 9455/9753 [1:40:24<03:01,  1.64it/s]Training 3/3 epoch (loss 0.4417):  97%|█████████▋| 9456/9753 [1:40:24<03:19,  1.49it/s]Training 3/3 epoch (loss 0.4917):  97%|█████████▋| 9456/9753 [1:40:24<03:19,  1.49it/s]Training 3/3 epoch (loss 0.4917):  97%|█████████▋| 9457/9753 [1:40:24<03:08,  1.57it/s]Training 3/3 epoch (loss 0.5018):  97%|█████████▋| 9457/9753 [1:40:25<03:08,  1.57it/s]Training 3/3 epoch (loss 0.5018):  97%|█████████▋| 9458/9753 [1:40:25<03:01,  1.62it/s]Training 3/3 epoch (loss 0.4487):  97%|█████████▋| 9458/9753 [1:40:25<03:01,  1.62it/s]Training 3/3 epoch (loss 0.4487):  97%|█████████▋| 9459/9753 [1:40:25<02:55,  1.68it/s]Training 3/3 epoch (loss 0.3240):  97%|█████████▋| 9459/9753 [1:40:26<02:55,  1.68it/s]Training 3/3 epoch (loss 0.3240):  97%|█████████▋| 9460/9753 [1:40:26<02:50,  1.72it/s]Training 3/3 epoch (loss 0.6286):  97%|█████████▋| 9460/9753 [1:40:27<02:50,  1.72it/s]Training 3/3 epoch (loss 0.6286):  97%|█████████▋| 9461/9753 [1:40:27<02:51,  1.70it/s]Training 3/3 epoch (loss 0.4707):  97%|█████████▋| 9461/9753 [1:40:27<02:51,  1.70it/s]Training 3/3 epoch (loss 0.4707):  97%|█████████▋| 9462/9753 [1:40:27<02:49,  1.71it/s]Training 3/3 epoch (loss 0.6110):  97%|█████████▋| 9462/9753 [1:40:28<02:49,  1.71it/s]Training 3/3 epoch (loss 0.6110):  97%|█████████▋| 9463/9753 [1:40:28<02:50,  1.70it/s]Training 3/3 epoch (loss 0.4654):  97%|█████████▋| 9463/9753 [1:40:28<02:50,  1.70it/s]Training 3/3 epoch (loss 0.4654):  97%|█████████▋| 9464/9753 [1:40:28<02:47,  1.73it/s]Training 3/3 epoch (loss 0.4235):  97%|█████████▋| 9464/9753 [1:40:29<02:47,  1.73it/s]Training 3/3 epoch (loss 0.4235):  97%|█████████▋| 9465/9753 [1:40:29<02:44,  1.75it/s]Training 3/3 epoch (loss 0.3850):  97%|█████████▋| 9465/9753 [1:40:29<02:44,  1.75it/s]Training 3/3 epoch (loss 0.3850):  97%|█████████▋| 9466/9753 [1:40:29<02:41,  1.78it/s]Training 3/3 epoch (loss 0.5307):  97%|█████████▋| 9466/9753 [1:40:30<02:41,  1.78it/s]Training 3/3 epoch (loss 0.5307):  97%|█████████▋| 9467/9753 [1:40:30<02:39,  1.80it/s]Training 3/3 epoch (loss 0.4380):  97%|█████████▋| 9467/9753 [1:40:31<02:39,  1.80it/s]Training 3/3 epoch (loss 0.4380):  97%|█████████▋| 9468/9753 [1:40:31<02:37,  1.81it/s]Training 3/3 epoch (loss 0.3001):  97%|█████████▋| 9468/9753 [1:40:31<02:37,  1.81it/s]Training 3/3 epoch (loss 0.3001):  97%|█████████▋| 9469/9753 [1:40:31<02:38,  1.79it/s]Training 3/3 epoch (loss 0.5222):  97%|█████████▋| 9469/9753 [1:40:32<02:38,  1.79it/s]Training 3/3 epoch (loss 0.5222):  97%|█████████▋| 9470/9753 [1:40:32<02:39,  1.77it/s]Training 3/3 epoch (loss 0.5546):  97%|█████████▋| 9470/9753 [1:40:32<02:39,  1.77it/s]Training 3/3 epoch (loss 0.5546):  97%|█████████▋| 9471/9753 [1:40:32<02:37,  1.79it/s]Training 3/3 epoch (loss 0.5869):  97%|█████████▋| 9471/9753 [1:40:33<02:37,  1.79it/s]Training 3/3 epoch (loss 0.5869):  97%|█████████▋| 9472/9753 [1:40:33<02:53,  1.62it/s]Training 3/3 epoch (loss 0.4857):  97%|█████████▋| 9472/9753 [1:40:34<02:53,  1.62it/s]Training 3/3 epoch (loss 0.4857):  97%|█████████▋| 9473/9753 [1:40:34<02:48,  1.67it/s]Training 3/3 epoch (loss 0.5321):  97%|█████████▋| 9473/9753 [1:40:34<02:48,  1.67it/s]Training 3/3 epoch (loss 0.5321):  97%|█████████▋| 9474/9753 [1:40:34<02:46,  1.68it/s]Training 3/3 epoch (loss 0.6627):  97%|█████████▋| 9474/9753 [1:40:35<02:46,  1.68it/s]Training 3/3 epoch (loss 0.6627):  97%|█████████▋| 9475/9753 [1:40:35<03:10,  1.46it/s]Training 3/3 epoch (loss 0.2946):  97%|█████████▋| 9475/9753 [1:40:36<03:10,  1.46it/s]Training 3/3 epoch (loss 0.2946):  97%|█████████▋| 9476/9753 [1:40:36<03:05,  1.49it/s]Training 3/3 epoch (loss 0.4789):  97%|█████████▋| 9476/9753 [1:40:36<03:05,  1.49it/s]Training 3/3 epoch (loss 0.4789):  97%|█████████▋| 9477/9753 [1:40:36<02:57,  1.55it/s]Training 3/3 epoch (loss 0.4007):  97%|█████████▋| 9477/9753 [1:40:37<02:57,  1.55it/s]Training 3/3 epoch (loss 0.4007):  97%|█████████▋| 9478/9753 [1:40:37<02:51,  1.61it/s]Training 3/3 epoch (loss 0.4762):  97%|█████████▋| 9478/9753 [1:40:37<02:51,  1.61it/s]Training 3/3 epoch (loss 0.4762):  97%|█████████▋| 9479/9753 [1:40:37<02:44,  1.67it/s]Training 3/3 epoch (loss 0.5880):  97%|█████████▋| 9479/9753 [1:40:38<02:44,  1.67it/s]Training 3/3 epoch (loss 0.5880):  97%|█████████▋| 9480/9753 [1:40:38<02:41,  1.69it/s]Training 3/3 epoch (loss 0.3247):  97%|█████████▋| 9480/9753 [1:40:38<02:41,  1.69it/s]Training 3/3 epoch (loss 0.3247):  97%|█████████▋| 9481/9753 [1:40:38<02:38,  1.71it/s]Training 3/3 epoch (loss 0.5980):  97%|█████████▋| 9481/9753 [1:40:39<02:38,  1.71it/s]Training 3/3 epoch (loss 0.5980):  97%|█████████▋| 9482/9753 [1:40:39<02:34,  1.75it/s]Training 3/3 epoch (loss 0.5341):  97%|█████████▋| 9482/9753 [1:40:40<02:34,  1.75it/s]Training 3/3 epoch (loss 0.5341):  97%|█████████▋| 9483/9753 [1:40:40<02:32,  1.77it/s]Training 3/3 epoch (loss 0.5744):  97%|█████████▋| 9483/9753 [1:40:40<02:32,  1.77it/s]Training 3/3 epoch (loss 0.5744):  97%|█████████▋| 9484/9753 [1:40:40<02:30,  1.78it/s]Training 3/3 epoch (loss 0.4381):  97%|█████████▋| 9484/9753 [1:40:41<02:30,  1.78it/s]Training 3/3 epoch (loss 0.4381):  97%|█████████▋| 9485/9753 [1:40:41<02:29,  1.79it/s]Training 3/3 epoch (loss 0.5120):  97%|█████████▋| 9485/9753 [1:40:41<02:29,  1.79it/s]Training 3/3 epoch (loss 0.5120):  97%|█████████▋| 9486/9753 [1:40:41<02:33,  1.74it/s]Training 3/3 epoch (loss 0.5743):  97%|█████████▋| 9486/9753 [1:40:42<02:33,  1.74it/s]Training 3/3 epoch (loss 0.5743):  97%|█████████▋| 9487/9753 [1:40:42<02:41,  1.65it/s]Training 3/3 epoch (loss 0.3655):  97%|█████████▋| 9487/9753 [1:40:43<02:41,  1.65it/s]Training 3/3 epoch (loss 0.3655):  97%|█████████▋| 9488/9753 [1:40:43<02:47,  1.58it/s]Training 3/3 epoch (loss 0.3934):  97%|█████████▋| 9488/9753 [1:40:43<02:47,  1.58it/s]Training 3/3 epoch (loss 0.3934):  97%|█████████▋| 9489/9753 [1:40:43<02:41,  1.63it/s]Training 3/3 epoch (loss 0.4956):  97%|█████████▋| 9489/9753 [1:40:44<02:41,  1.63it/s]Training 3/3 epoch (loss 0.4956):  97%|█████████▋| 9490/9753 [1:40:44<02:40,  1.64it/s]Training 3/3 epoch (loss 0.5582):  97%|█████████▋| 9490/9753 [1:40:44<02:40,  1.64it/s]Training 3/3 epoch (loss 0.5582):  97%|█████████▋| 9491/9753 [1:40:44<02:37,  1.66it/s]Training 3/3 epoch (loss 0.3408):  97%|█████████▋| 9491/9753 [1:40:45<02:37,  1.66it/s]Training 3/3 epoch (loss 0.3408):  97%|█████████▋| 9492/9753 [1:40:45<02:32,  1.71it/s]Training 3/3 epoch (loss 0.7418):  97%|█████████▋| 9492/9753 [1:40:45<02:32,  1.71it/s]Training 3/3 epoch (loss 0.7418):  97%|█████████▋| 9493/9753 [1:40:45<02:29,  1.74it/s]Training 3/3 epoch (loss 0.6734):  97%|█████████▋| 9493/9753 [1:40:46<02:29,  1.74it/s]Training 3/3 epoch (loss 0.6734):  97%|█████████▋| 9494/9753 [1:40:46<02:38,  1.64it/s]Training 3/3 epoch (loss 0.2781):  97%|█████████▋| 9494/9753 [1:40:47<02:38,  1.64it/s]Training 3/3 epoch (loss 0.2781):  97%|█████████▋| 9495/9753 [1:40:47<02:33,  1.68it/s]Training 3/3 epoch (loss 0.5027):  97%|█████████▋| 9495/9753 [1:40:47<02:33,  1.68it/s]Training 3/3 epoch (loss 0.5027):  97%|█████████▋| 9496/9753 [1:40:47<02:29,  1.72it/s]Training 3/3 epoch (loss 0.5885):  97%|█████████▋| 9496/9753 [1:40:48<02:29,  1.72it/s]Training 3/3 epoch (loss 0.5885):  97%|█████████▋| 9497/9753 [1:40:48<02:33,  1.67it/s]Training 3/3 epoch (loss 0.8227):  97%|█████████▋| 9497/9753 [1:40:49<02:33,  1.67it/s]Training 3/3 epoch (loss 0.8227):  97%|█████████▋| 9498/9753 [1:40:49<02:30,  1.70it/s]Training 3/3 epoch (loss 0.5147):  97%|█████████▋| 9498/9753 [1:40:49<02:30,  1.70it/s]Training 3/3 epoch (loss 0.5147):  97%|█████████▋| 9499/9753 [1:40:49<02:36,  1.63it/s]Training 3/3 epoch (loss 0.3137):  97%|█████████▋| 9499/9753 [1:40:50<02:36,  1.63it/s]Training 3/3 epoch (loss 0.3137):  97%|█████████▋| 9500/9753 [1:40:50<02:32,  1.66it/s]Training 3/3 epoch (loss 0.6173):  97%|█████████▋| 9500/9753 [1:40:51<02:32,  1.66it/s]Training 3/3 epoch (loss 0.6173):  97%|█████████▋| 9501/9753 [1:40:51<02:55,  1.44it/s]Training 3/3 epoch (loss 0.5498):  97%|█████████▋| 9501/9753 [1:40:51<02:55,  1.44it/s]Training 3/3 epoch (loss 0.5498):  97%|█████████▋| 9502/9753 [1:40:51<02:44,  1.53it/s]Training 3/3 epoch (loss 0.5992):  97%|█████████▋| 9502/9753 [1:40:52<02:44,  1.53it/s]Training 3/3 epoch (loss 0.5992):  97%|█████████▋| 9503/9753 [1:40:52<02:35,  1.61it/s]Training 3/3 epoch (loss 0.6035):  97%|█████████▋| 9503/9753 [1:40:52<02:35,  1.61it/s]Training 3/3 epoch (loss 0.6035):  97%|█████████▋| 9504/9753 [1:40:52<02:39,  1.57it/s]Training 3/3 epoch (loss 0.4936):  97%|█████████▋| 9504/9753 [1:40:53<02:39,  1.57it/s]Training 3/3 epoch (loss 0.4936):  97%|█████████▋| 9505/9753 [1:40:53<02:36,  1.58it/s]Training 3/3 epoch (loss 0.6019):  97%|█████████▋| 9505/9753 [1:40:54<02:36,  1.58it/s]Training 3/3 epoch (loss 0.6019):  97%|█████████▋| 9506/9753 [1:40:54<02:32,  1.62it/s]Training 3/3 epoch (loss 0.4519):  97%|█████████▋| 9506/9753 [1:40:54<02:32,  1.62it/s]Training 3/3 epoch (loss 0.4519):  97%|█████████▋| 9507/9753 [1:40:54<02:26,  1.67it/s]Training 3/3 epoch (loss 0.7092):  97%|█████████▋| 9507/9753 [1:40:55<02:26,  1.67it/s]Training 3/3 epoch (loss 0.7092):  97%|█████████▋| 9508/9753 [1:40:55<02:22,  1.72it/s]Training 3/3 epoch (loss 0.3542):  97%|█████████▋| 9508/9753 [1:40:55<02:22,  1.72it/s]Training 3/3 epoch (loss 0.3542):  97%|█████████▋| 9509/9753 [1:40:55<02:19,  1.75it/s]Training 3/3 epoch (loss 0.4757):  97%|█████████▋| 9509/9753 [1:40:56<02:19,  1.75it/s]Training 3/3 epoch (loss 0.4757):  98%|█████████▊| 9510/9753 [1:40:56<02:20,  1.73it/s]Training 3/3 epoch (loss 0.4619):  98%|█████████▊| 9510/9753 [1:40:56<02:20,  1.73it/s]Training 3/3 epoch (loss 0.4619):  98%|█████████▊| 9511/9753 [1:40:56<02:18,  1.75it/s]Training 3/3 epoch (loss 0.6003):  98%|█████████▊| 9511/9753 [1:40:57<02:18,  1.75it/s]Training 3/3 epoch (loss 0.6003):  98%|█████████▊| 9512/9753 [1:40:57<02:18,  1.74it/s]Training 3/3 epoch (loss 0.6642):  98%|█████████▊| 9512/9753 [1:40:58<02:18,  1.74it/s]Training 3/3 epoch (loss 0.6642):  98%|█████████▊| 9513/9753 [1:40:58<02:21,  1.69it/s]Training 3/3 epoch (loss 0.3125):  98%|█████████▊| 9513/9753 [1:40:58<02:21,  1.69it/s]Training 3/3 epoch (loss 0.3125):  98%|█████████▊| 9514/9753 [1:40:58<02:24,  1.66it/s]Training 3/3 epoch (loss 0.5415):  98%|█████████▊| 9514/9753 [1:40:59<02:24,  1.66it/s]Training 3/3 epoch (loss 0.5415):  98%|█████████▊| 9515/9753 [1:40:59<02:46,  1.43it/s]Training 3/3 epoch (loss 0.4273):  98%|█████████▊| 9515/9753 [1:41:00<02:46,  1.43it/s]Training 3/3 epoch (loss 0.4273):  98%|█████████▊| 9516/9753 [1:41:00<02:36,  1.51it/s]Training 3/3 epoch (loss 0.5131):  98%|█████████▊| 9516/9753 [1:41:00<02:36,  1.51it/s]Training 3/3 epoch (loss 0.5131):  98%|█████████▊| 9517/9753 [1:41:00<02:28,  1.59it/s]Training 3/3 epoch (loss 0.5853):  98%|█████████▊| 9517/9753 [1:41:01<02:28,  1.59it/s]Training 3/3 epoch (loss 0.5853):  98%|█████████▊| 9518/9753 [1:41:01<02:27,  1.59it/s]Training 3/3 epoch (loss 0.4567):  98%|█████████▊| 9518/9753 [1:41:02<02:27,  1.59it/s]Training 3/3 epoch (loss 0.4567):  98%|█████████▊| 9519/9753 [1:41:02<02:21,  1.65it/s]Training 3/3 epoch (loss 0.6873):  98%|█████████▊| 9519/9753 [1:41:02<02:21,  1.65it/s]Training 3/3 epoch (loss 0.6873):  98%|█████████▊| 9520/9753 [1:41:02<02:37,  1.48it/s]Training 3/3 epoch (loss 0.5749):  98%|█████████▊| 9520/9753 [1:41:03<02:37,  1.48it/s]Training 3/3 epoch (loss 0.5749):  98%|█████████▊| 9521/9753 [1:41:03<02:28,  1.56it/s]Training 3/3 epoch (loss 0.4495):  98%|█████████▊| 9521/9753 [1:41:04<02:28,  1.56it/s]Training 3/3 epoch (loss 0.4495):  98%|█████████▊| 9522/9753 [1:41:04<02:25,  1.58it/s]Training 3/3 epoch (loss 0.5495):  98%|█████████▊| 9522/9753 [1:41:04<02:25,  1.58it/s]Training 3/3 epoch (loss 0.5495):  98%|█████████▊| 9523/9753 [1:41:04<02:26,  1.57it/s]Training 3/3 epoch (loss 0.5551):  98%|█████████▊| 9523/9753 [1:41:05<02:26,  1.57it/s]Training 3/3 epoch (loss 0.5551):  98%|█████████▊| 9524/9753 [1:41:05<02:32,  1.50it/s]Training 3/3 epoch (loss 0.4369):  98%|█████████▊| 9524/9753 [1:41:05<02:32,  1.50it/s]Training 3/3 epoch (loss 0.4369):  98%|█████████▊| 9525/9753 [1:41:05<02:25,  1.57it/s]Training 3/3 epoch (loss 0.6279):  98%|█████████▊| 9525/9753 [1:41:06<02:25,  1.57it/s]Training 3/3 epoch (loss 0.6279):  98%|█████████▊| 9526/9753 [1:41:06<02:21,  1.60it/s]Training 3/3 epoch (loss 0.6989):  98%|█████████▊| 9526/9753 [1:41:07<02:21,  1.60it/s]Training 3/3 epoch (loss 0.6989):  98%|█████████▊| 9527/9753 [1:41:07<02:37,  1.44it/s]Training 3/3 epoch (loss 0.3826):  98%|█████████▊| 9527/9753 [1:41:08<02:37,  1.44it/s]Training 3/3 epoch (loss 0.3826):  98%|█████████▊| 9528/9753 [1:41:08<02:31,  1.49it/s]Training 3/3 epoch (loss 0.7497):  98%|█████████▊| 9528/9753 [1:41:08<02:31,  1.49it/s]Training 3/3 epoch (loss 0.7497):  98%|█████████▊| 9529/9753 [1:41:08<02:23,  1.57it/s]Training 3/3 epoch (loss 0.8009):  98%|█████████▊| 9529/9753 [1:41:09<02:23,  1.57it/s]Training 3/3 epoch (loss 0.8009):  98%|█████████▊| 9530/9753 [1:41:09<02:22,  1.56it/s]Training 3/3 epoch (loss 0.5508):  98%|█████████▊| 9530/9753 [1:41:09<02:22,  1.56it/s]Training 3/3 epoch (loss 0.5508):  98%|█████████▊| 9531/9753 [1:41:09<02:22,  1.55it/s]Training 3/3 epoch (loss 0.6053):  98%|█████████▊| 9531/9753 [1:41:10<02:22,  1.55it/s]Training 3/3 epoch (loss 0.6053):  98%|█████████▊| 9532/9753 [1:41:10<02:15,  1.63it/s]Training 3/3 epoch (loss 0.5699):  98%|█████████▊| 9532/9753 [1:41:11<02:15,  1.63it/s]Training 3/3 epoch (loss 0.5699):  98%|█████████▊| 9533/9753 [1:41:11<02:10,  1.68it/s]Training 3/3 epoch (loss 0.5684):  98%|█████████▊| 9533/9753 [1:41:11<02:10,  1.68it/s]Training 3/3 epoch (loss 0.5684):  98%|█████████▊| 9534/9753 [1:41:11<02:07,  1.71it/s]Training 3/3 epoch (loss 0.6363):  98%|█████████▊| 9534/9753 [1:41:12<02:07,  1.71it/s]Training 3/3 epoch (loss 0.6363):  98%|█████████▊| 9535/9753 [1:41:12<02:05,  1.74it/s]Training 3/3 epoch (loss 0.5159):  98%|█████████▊| 9535/9753 [1:41:12<02:05,  1.74it/s]Training 3/3 epoch (loss 0.5159):  98%|█████████▊| 9536/9753 [1:41:12<02:11,  1.65it/s]Training 3/3 epoch (loss 0.4545):  98%|█████████▊| 9536/9753 [1:41:13<02:11,  1.65it/s]Training 3/3 epoch (loss 0.4545):  98%|█████████▊| 9537/9753 [1:41:13<02:07,  1.70it/s]Training 3/3 epoch (loss 0.3398):  98%|█████████▊| 9537/9753 [1:41:13<02:07,  1.70it/s]Training 3/3 epoch (loss 0.3398):  98%|█████████▊| 9538/9753 [1:41:13<02:07,  1.69it/s]Training 3/3 epoch (loss 0.5473):  98%|█████████▊| 9538/9753 [1:41:14<02:07,  1.69it/s]Training 3/3 epoch (loss 0.5473):  98%|█████████▊| 9539/9753 [1:41:14<02:04,  1.72it/s]Training 3/3 epoch (loss 0.7936):  98%|█████████▊| 9539/9753 [1:41:15<02:04,  1.72it/s]Training 3/3 epoch (loss 0.7936):  98%|█████████▊| 9540/9753 [1:41:15<02:01,  1.75it/s]Training 3/3 epoch (loss 0.2811):  98%|█████████▊| 9540/9753 [1:41:15<02:01,  1.75it/s]Training 3/3 epoch (loss 0.2811):  98%|█████████▊| 9541/9753 [1:41:15<02:16,  1.55it/s]Training 3/3 epoch (loss 0.4919):  98%|█████████▊| 9541/9753 [1:41:16<02:16,  1.55it/s]Training 3/3 epoch (loss 0.4919):  98%|█████████▊| 9542/9753 [1:41:16<02:11,  1.61it/s]Training 3/3 epoch (loss 0.5552):  98%|█████████▊| 9542/9753 [1:41:16<02:11,  1.61it/s]Training 3/3 epoch (loss 0.5552):  98%|█████████▊| 9543/9753 [1:41:16<02:06,  1.67it/s]Training 3/3 epoch (loss 0.4792):  98%|█████████▊| 9543/9753 [1:41:17<02:06,  1.67it/s]Training 3/3 epoch (loss 0.4792):  98%|█████████▊| 9544/9753 [1:41:17<02:05,  1.67it/s]Training 3/3 epoch (loss 0.6623):  98%|█████████▊| 9544/9753 [1:41:18<02:05,  1.67it/s]Training 3/3 epoch (loss 0.6623):  98%|█████████▊| 9545/9753 [1:41:18<02:02,  1.70it/s]Training 3/3 epoch (loss 0.4420):  98%|█████████▊| 9545/9753 [1:41:18<02:02,  1.70it/s]Training 3/3 epoch (loss 0.4420):  98%|█████████▊| 9546/9753 [1:41:18<01:59,  1.74it/s]Training 3/3 epoch (loss 0.5299):  98%|█████████▊| 9546/9753 [1:41:19<01:59,  1.74it/s]Training 3/3 epoch (loss 0.5299):  98%|█████████▊| 9547/9753 [1:41:19<02:05,  1.64it/s]Training 3/3 epoch (loss 0.4669):  98%|█████████▊| 9547/9753 [1:41:19<02:05,  1.64it/s]Training 3/3 epoch (loss 0.4669):  98%|█████████▊| 9548/9753 [1:41:19<02:01,  1.69it/s]Training 3/3 epoch (loss 0.4083):  98%|█████████▊| 9548/9753 [1:41:20<02:01,  1.69it/s]Training 3/3 epoch (loss 0.4083):  98%|█████████▊| 9549/9753 [1:41:20<01:58,  1.73it/s]Training 3/3 epoch (loss 0.6596):  98%|█████████▊| 9549/9753 [1:41:21<01:58,  1.73it/s]Training 3/3 epoch (loss 0.6596):  98%|█████████▊| 9550/9753 [1:41:21<01:56,  1.75it/s]Training 3/3 epoch (loss 0.5341):  98%|█████████▊| 9550/9753 [1:41:21<01:56,  1.75it/s]Training 3/3 epoch (loss 0.5341):  98%|█████████▊| 9551/9753 [1:41:21<01:54,  1.77it/s]Training 3/3 epoch (loss 0.3345):  98%|█████████▊| 9551/9753 [1:41:22<01:54,  1.77it/s]Training 3/3 epoch (loss 0.3345):  98%|█████████▊| 9552/9753 [1:41:22<01:59,  1.68it/s]Training 3/3 epoch (loss 0.3468):  98%|█████████▊| 9552/9753 [1:41:22<01:59,  1.68it/s]Training 3/3 epoch (loss 0.3468):  98%|█████████▊| 9553/9753 [1:41:22<01:58,  1.69it/s]Training 3/3 epoch (loss 0.5227):  98%|█████████▊| 9553/9753 [1:41:23<01:58,  1.69it/s]Training 3/3 epoch (loss 0.5227):  98%|█████████▊| 9554/9753 [1:41:23<02:01,  1.64it/s]Training 3/3 epoch (loss 0.5145):  98%|█████████▊| 9554/9753 [1:41:24<02:01,  1.64it/s]Training 3/3 epoch (loss 0.5145):  98%|█████████▊| 9555/9753 [1:41:24<01:58,  1.67it/s]Training 3/3 epoch (loss 0.6407):  98%|█████████▊| 9555/9753 [1:41:24<01:58,  1.67it/s]Training 3/3 epoch (loss 0.6407):  98%|█████████▊| 9556/9753 [1:41:24<01:55,  1.71it/s]Training 3/3 epoch (loss 0.4538):  98%|█████████▊| 9556/9753 [1:41:25<01:55,  1.71it/s]Training 3/3 epoch (loss 0.4538):  98%|█████████▊| 9557/9753 [1:41:25<01:52,  1.75it/s]Training 3/3 epoch (loss 0.5132):  98%|█████████▊| 9557/9753 [1:41:25<01:52,  1.75it/s]Training 3/3 epoch (loss 0.5132):  98%|████��████▊| 9558/9753 [1:41:25<01:50,  1.77it/s]Training 3/3 epoch (loss 0.5863):  98%|█████████▊| 9558/9753 [1:41:26<01:50,  1.77it/s]Training 3/3 epoch (loss 0.5863):  98%|█████████▊| 9559/9753 [1:41:26<01:53,  1.71it/s]Training 3/3 epoch (loss 0.4637):  98%|█████████▊| 9559/9753 [1:41:26<01:53,  1.71it/s]Training 3/3 epoch (loss 0.4637):  98%|█████████▊| 9560/9753 [1:41:26<01:54,  1.68it/s]Training 3/3 epoch (loss 0.5233):  98%|█████████▊| 9560/9753 [1:41:27<01:54,  1.68it/s]Training 3/3 epoch (loss 0.5233):  98%|█████████▊| 9561/9753 [1:41:27<01:55,  1.66it/s]Training 3/3 epoch (loss 0.6096):  98%|█████████▊| 9561/9753 [1:41:28<01:55,  1.66it/s]Training 3/3 epoch (loss 0.6096):  98%|█████████▊| 9562/9753 [1:41:28<01:52,  1.70it/s]Training 3/3 epoch (loss 0.5539):  98%|█████████▊| 9562/9753 [1:41:28<01:52,  1.70it/s]Training 3/3 epoch (loss 0.5539):  98%|█████████▊| 9563/9753 [1:41:28<01:50,  1.72it/s]Training 3/3 epoch (loss 0.5503):  98%|█████████▊| 9563/9753 [1:41:29<01:50,  1.72it/s]Training 3/3 epoch (loss 0.5503):  98%|█████████▊| 9564/9753 [1:41:29<01:52,  1.68it/s]Training 3/3 epoch (loss 0.5644):  98%|█████████▊| 9564/9753 [1:41:29<01:52,  1.68it/s]Training 3/3 epoch (loss 0.5644):  98%|█████████▊| 9565/9753 [1:41:29<01:48,  1.73it/s]Training 3/3 epoch (loss 0.7832):  98%|█████████▊| 9565/9753 [1:41:30<01:48,  1.73it/s]Training 3/3 epoch (loss 0.7832):  98%|█████████▊| 9566/9753 [1:41:30<01:49,  1.71it/s]Training 3/3 epoch (loss 0.3161):  98%|█████████▊| 9566/9753 [1:41:31<01:49,  1.71it/s]Training 3/3 epoch (loss 0.3161):  98%|█████████▊| 9567/9753 [1:41:31<01:48,  1.72it/s]Training 3/3 epoch (loss 0.3589):  98%|█████████▊| 9567/9753 [1:41:31<01:48,  1.72it/s]Training 3/3 epoch (loss 0.3589):  98%|█████████▊| 9568/9753 [1:41:31<01:55,  1.60it/s]Training 3/3 epoch (loss 0.5874):  98%|█████████▊| 9568/9753 [1:41:32<01:55,  1.60it/s]Training 3/3 epoch (loss 0.5874):  98%|█████████▊| 9569/9753 [1:41:32<01:51,  1.66it/s]Training 3/3 epoch (loss 0.7229):  98%|█████████▊| 9569/9753 [1:41:33<01:51,  1.66it/s]Training 3/3 epoch (loss 0.7229):  98%|█████████▊| 9570/9753 [1:41:33<01:55,  1.58it/s]Training 3/3 epoch (loss 0.4752):  98%|█████████▊| 9570/9753 [1:41:33<01:55,  1.58it/s]Training 3/3 epoch (loss 0.4752):  98%|█████████▊| 9571/9753 [1:41:33<01:52,  1.62it/s]Training 3/3 epoch (loss 0.7818):  98%|█████████▊| 9571/9753 [1:41:34<01:52,  1.62it/s]Training 3/3 epoch (loss 0.7818):  98%|█████████▊| 9572/9753 [1:41:34<01:54,  1.59it/s]Training 3/3 epoch (loss 0.3927):  98%|█████████▊| 9572/9753 [1:41:34<01:54,  1.59it/s]Training 3/3 epoch (loss 0.3927):  98%|█████████▊| 9573/9753 [1:41:34<01:49,  1.64it/s]Training 3/3 epoch (loss 0.6695):  98%|█████████▊| 9573/9753 [1:41:35<01:49,  1.64it/s]Training 3/3 epoch (loss 0.6695):  98%|█████████▊| 9574/9753 [1:41:35<01:48,  1.65it/s]Training 3/3 epoch (loss 0.5498):  98%|█████████▊| 9574/9753 [1:41:36<01:48,  1.65it/s]Training 3/3 epoch (loss 0.5498):  98%|█████████▊| 9575/9753 [1:41:36<01:54,  1.56it/s]Training 3/3 epoch (loss 0.6210):  98%|█████████▊| 9575/9753 [1:41:36<01:54,  1.56it/s]Training 3/3 epoch (loss 0.6210):  98%|█████████▊| 9576/9753 [1:41:36<01:49,  1.61it/s]Training 3/3 epoch (loss 0.5544):  98%|█████████▊| 9576/9753 [1:41:37<01:49,  1.61it/s]Training 3/3 epoch (loss 0.5544):  98%|█████████▊| 9577/9753 [1:41:37<01:45,  1.68it/s]Training 3/3 epoch (loss 0.3936):  98%|█████████▊| 9577/9753 [1:41:37<01:45,  1.68it/s]Training 3/3 epoch (loss 0.3936):  98%|█████████▊| 9578/9753 [1:41:37<01:41,  1.72it/s]Training 3/3 epoch (loss 0.6490):  98%|█████████▊| 9578/9753 [1:41:38<01:41,  1.72it/s]Training 3/3 epoch (loss 0.6490):  98%|█████████▊| 9579/9753 [1:41:38<01:44,  1.67it/s]Training 3/3 epoch (loss 0.4226):  98%|█████████▊| 9579/9753 [1:41:39<01:44,  1.67it/s]Training 3/3 epoch (loss 0.4226):  98%|█████████▊| 9580/9753 [1:41:39<01:45,  1.64it/s]Training 3/3 epoch (loss 0.4394):  98%|█████████▊| 9580/9753 [1:41:39<01:45,  1.64it/s]Training 3/3 epoch (loss 0.4394):  98%|█████████▊| 9581/9753 [1:41:39<01:42,  1.68it/s]Training 3/3 epoch (loss 0.5158):  98%|█████████▊| 9581/9753 [1:41:40<01:42,  1.68it/s]Training 3/3 epoch (loss 0.5158):  98%|█████████▊| 9582/9753 [1:41:40<01:39,  1.72it/s]Training 3/3 epoch (loss 0.5011):  98%|█████████▊| 9582/9753 [1:41:40<01:39,  1.72it/s]Training 3/3 epoch (loss 0.5011):  98%|█████████▊| 9583/9753 [1:41:40<01:37,  1.75it/s]Training 3/3 epoch (loss 0.4669):  98%|█████████▊| 9583/9753 [1:41:41<01:37,  1.75it/s]Training 3/3 epoch (loss 0.4669):  98%|█████████▊| 9584/9753 [1:41:41<01:45,  1.60it/s]Training 3/3 epoch (loss 0.6730):  98%|█████████▊| 9584/9753 [1:41:42<01:45,  1.60it/s]Training 3/3 epoch (loss 0.6730):  98%|█████████▊| 9585/9753 [1:41:42<01:43,  1.62it/s]Training 3/3 epoch (loss 0.6036):  98%|█████████▊| 9585/9753 [1:41:42<01:43,  1.62it/s]Training 3/3 epoch (loss 0.6036):  98%|█████████▊| 9586/9753 [1:41:42<01:40,  1.66it/s]Training 3/3 epoch (loss 0.7257):  98%|█████████▊| 9586/9753 [1:41:43<01:40,  1.66it/s]Training 3/3 epoch (loss 0.7257):  98%|█████████▊| 9587/9753 [1:41:43<01:44,  1.59it/s]Training 3/3 epoch (loss 0.4274):  98%|█████████▊| 9587/9753 [1:41:43<01:44,  1.59it/s]Training 3/3 epoch (loss 0.4274):  98%|█████████▊| 9588/9753 [1:41:43<01:39,  1.65it/s]Training 3/3 epoch (loss 0.3749):  98%|█████████▊| 9588/9753 [1:41:44<01:39,  1.65it/s]Training 3/3 epoch (loss 0.3749):  98%|█████████▊| 9589/9753 [1:41:44<01:36,  1.70it/s]Training 3/3 epoch (loss 0.6805):  98%|█████████▊| 9589/9753 [1:41:44<01:36,  1.70it/s]Training 3/3 epoch (loss 0.6805):  98%|█████████▊| 9590/9753 [1:41:44<01:33,  1.74it/s]Training 3/3 epoch (loss 0.5747):  98%|█████████▊| 9590/9753 [1:41:45<01:33,  1.74it/s]Training 3/3 epoch (loss 0.5747):  98%|█████████▊| 9591/9753 [1:41:45<01:31,  1.77it/s]Training 3/3 epoch (loss 0.5487):  98%|█████████▊| 9591/9753 [1:41:46<01:31,  1.77it/s]Training 3/3 epoch (loss 0.5487):  98%|█████████▊| 9592/9753 [1:41:46<01:29,  1.79it/s]Training 3/3 epoch (loss 0.8077):  98%|█████████▊| 9592/9753 [1:41:46<01:29,  1.79it/s]Training 3/3 epoch (loss 0.8077):  98%|█████████▊| 9593/9753 [1:41:46<01:28,  1.81it/s]Training 3/3 epoch (loss 0.4926):  98%|█████████▊| 9593/9753 [1:41:47<01:28,  1.81it/s]Training 3/3 epoch (loss 0.4926):  98%|█████████▊| 9594/9753 [1:41:47<01:28,  1.79it/s]Training 3/3 epoch (loss 0.4831):  98%|█████████▊| 9594/9753 [1:41:48<01:28,  1.79it/s]Training 3/3 epoch (loss 0.4831):  98%|█████████▊| 9595/9753 [1:41:48<01:44,  1.51it/s]Training 3/3 epoch (loss 0.5323):  98%|█████████▊| 9595/9753 [1:41:48<01:44,  1.51it/s]Training 3/3 epoch (loss 0.5323):  98%|█████████▊| 9596/9753 [1:41:48<01:38,  1.59it/s]Training 3/3 epoch (loss 0.3815):  98%|█████████▊| 9596/9753 [1:41:49<01:38,  1.59it/s]Training 3/3 epoch (loss 0.3815):  98%|█████████▊| 9597/9753 [1:41:49<01:34,  1.66it/s]Training 3/3 epoch (loss 0.6049):  98%|█████████▊| 9597/9753 [1:41:49<01:34,  1.66it/s]Training 3/3 epoch (loss 0.6049):  98%|█████████▊| 9598/9753 [1:41:49<01:30,  1.71it/s]Training 3/3 epoch (loss 0.4113):  98%|█████████▊| 9598/9753 [1:41:50<01:30,  1.71it/s]Training 3/3 epoch (loss 0.4113):  98%|█████████▊| 9599/9753 [1:41:50<01:29,  1.72it/s]Training 3/3 epoch (loss 0.3134):  98%|█████████▊| 9599/9753 [1:41:50<01:29,  1.72it/s]Training 3/3 epoch (loss 0.3134):  98%|█████████▊| 9600/9753 [1:41:50<01:33,  1.64it/s]Training 3/3 epoch (loss 0.5351):  98%|█████████▊| 9600/9753 [1:41:51<01:33,  1.64it/s]Training 3/3 epoch (loss 0.5351):  98%|█████████▊| 9601/9753 [1:41:51<01:29,  1.69it/s]Training 3/3 epoch (loss 0.3924):  98%|█████████▊| 9601/9753 [1:41:52<01:29,  1.69it/s]Training 3/3 epoch (loss 0.3924):  98%|█████████▊| 9602/9753 [1:41:52<01:27,  1.73it/s]Training 3/3 epoch (loss 0.5565):  98%|█████████▊| 9602/9753 [1:41:52<01:27,  1.73it/s]Training 3/3 epoch (loss 0.5565):  98%|█████████▊| 9603/9753 [1:41:52<01:31,  1.63it/s]Training 3/3 epoch (loss 0.3321):  98%|█████████▊| 9603/9753 [1:41:53<01:31,  1.63it/s]Training 3/3 epoch (loss 0.3321):  98%|█████████▊| 9604/9753 [1:41:53<01:32,  1.61it/s]Training 3/3 epoch (loss 0.6672):  98%|█████████▊| 9604/9753 [1:41:54<01:32,  1.61it/s]Training 3/3 epoch (loss 0.6672):  98%|█████████▊| 9605/9753 [1:41:54<01:31,  1.62it/s]Training 3/3 epoch (loss 0.5482):  98%|█████████▊| 9605/9753 [1:41:54<01:31,  1.62it/s]Training 3/3 epoch (loss 0.5482):  98%|█████████▊| 9606/9753 [1:41:54<01:27,  1.68it/s]Training 3/3 epoch (loss 0.5434):  98%|█████████▊| 9606/9753 [1:41:55<01:27,  1.68it/s]Training 3/3 epoch (loss 0.5434):  99%|█████████▊| 9607/9753 [1:41:55<01:26,  1.69it/s]Training 3/3 epoch (loss 0.4881):  99%|█████████▊| 9607/9753 [1:41:55<01:26,  1.69it/s]Training 3/3 epoch (loss 0.4881):  99%|█████████▊| 9608/9753 [1:41:55<01:35,  1.52it/s]Training 3/3 epoch (loss 0.5627):  99%|█████████▊| 9608/9753 [1:41:56<01:35,  1.52it/s]Training 3/3 epoch (loss 0.5627):  99%|█████████▊| 9609/9753 [1:41:56<01:32,  1.56it/s]Training 3/3 epoch (loss 0.4974):  99%|█████████▊| 9609/9753 [1:41:57<01:32,  1.56it/s]Training 3/3 epoch (loss 0.4974):  99%|█████████▊| 9610/9753 [1:41:57<01:28,  1.62it/s]Training 3/3 epoch (loss 0.5390):  99%|█████████▊| 9610/9753 [1:41:57<01:28,  1.62it/s]Training 3/3 epoch (loss 0.5390):  99%|█████████▊| 9611/9753 [1:41:57<01:24,  1.68it/s]Training 3/3 epoch (loss 0.7419):  99%|█████████▊| 9611/9753 [1:41:58<01:24,  1.68it/s]Training 3/3 epoch (loss 0.7419):  99%|█████████▊| 9612/9753 [1:41:58<01:23,  1.70it/s]Training 3/3 epoch (loss 0.6593):  99%|█████████▊| 9612/9753 [1:41:58<01:23,  1.70it/s]Training 3/3 epoch (loss 0.6593):  99%|█████████▊| 9613/9753 [1:41:58<01:26,  1.61it/s]Training 3/3 epoch (loss 0.7507):  99%|█████████▊| 9613/9753 [1:41:59<01:26,  1.61it/s]Training 3/3 epoch (loss 0.7507):  99%|█████████▊| 9614/9753 [1:41:59<01:36,  1.44it/s]Training 3/3 epoch (loss 0.5822):  99%|█████████▊| 9614/9753 [1:42:00<01:36,  1.44it/s]Training 3/3 epoch (loss 0.5822):  99%|█████████▊| 9615/9753 [1:42:00<01:35,  1.44it/s]Training 3/3 epoch (loss 0.6829):  99%|█████████▊| 9615/9753 [1:42:01<01:35,  1.44it/s]Training 3/3 epoch (loss 0.6829):  99%|█████████▊| 9616/9753 [1:42:01<01:47,  1.27it/s]Training 3/3 epoch (loss 0.3006):  99%|█████████▊| 9616/9753 [1:42:02<01:47,  1.27it/s]Training 3/3 epoch (loss 0.3006):  99%|█████████▊| 9617/9753 [1:42:02<01:37,  1.39it/s]Training 3/3 epoch (loss 0.6119):  99%|█████████▊| 9617/9753 [1:42:02<01:37,  1.39it/s]Training 3/3 epoch (loss 0.6119):  99%|█████████▊| 9618/9753 [1:42:02<01:38,  1.38it/s]Training 3/3 epoch (loss 0.5441):  99%|█████████▊| 9618/9753 [1:42:03<01:38,  1.38it/s]Training 3/3 epoch (loss 0.5441):  99%|█████████▊| 9619/9753 [1:42:03<01:30,  1.47it/s]Training 3/3 epoch (loss 0.3283):  99%|█████████▊| 9619/9753 [1:42:03<01:30,  1.47it/s]Training 3/3 epoch (loss 0.3283):  99%|█████████▊| 9620/9753 [1:42:03<01:24,  1.57it/s]Training 3/3 epoch (loss 0.5280):  99%|█████████▊| 9620/9753 [1:42:04<01:24,  1.57it/s]Training 3/3 epoch (loss 0.5280):  99%|█████████▊| 9621/9753 [1:42:04<01:34,  1.40it/s]Training 3/3 epoch (loss 0.3486):  99%|█████████▊| 9621/9753 [1:42:05<01:34,  1.40it/s]Training 3/3 epoch (loss 0.3486):  99%|█████████▊| 9622/9753 [1:42:05<01:27,  1.49it/s]Training 3/3 epoch (loss 0.3192):  99%|█████████▊| 9622/9753 [1:42:05<01:27,  1.49it/s]Training 3/3 epoch (loss 0.3192):  99%|█████████▊| 9623/9753 [1:42:05<01:23,  1.57it/s]Training 3/3 epoch (loss 0.3275):  99%|█████████▊| 9623/9753 [1:42:06<01:23,  1.57it/s]Training 3/3 epoch (loss 0.3275):  99%|█████████▊| 9624/9753 [1:42:06<01:32,  1.40it/s]Training 3/3 epoch (loss 0.3634):  99%|█████████▊| 9624/9753 [1:42:07<01:32,  1.40it/s]Training 3/3 epoch (loss 0.3634):  99%|█████████▊| 9625/9753 [1:42:07<01:26,  1.48it/s]Training 3/3 epoch (loss 0.2709):  99%|█████████▊| 9625/9753 [1:42:07<01:26,  1.48it/s]Training 3/3 epoch (loss 0.2709):  99%|█████████▊| 9626/9753 [1:42:07<01:20,  1.57it/s]Training 3/3 epoch (loss 0.6120):  99%|█████████▊| 9626/9753 [1:42:08<01:20,  1.57it/s]Training 3/3 epoch (loss 0.6120):  99%|█████████▊| 9627/9753 [1:42:08<01:16,  1.65it/s]Training 3/3 epoch (loss 0.6512):  99%|█████████▊| 9627/9753 [1:42:09<01:16,  1.65it/s]Training 3/3 epoch (loss 0.6512):  99%|█████████▊| 9628/9753 [1:42:09<01:13,  1.70it/s]Training 3/3 epoch (loss 0.4321):  99%|█████████▊| 9628/9753 [1:42:09<01:13,  1.70it/s]Training 3/3 epoch (loss 0.4321):  99%|█████████▊| 9629/9753 [1:42:09<01:11,  1.73it/s]Training 3/3 epoch (loss 0.5701):  99%|█████████▊| 9629/9753 [1:42:10<01:11,  1.73it/s]Training 3/3 epoch (loss 0.5701):  99%|█████████▊| 9630/9753 [1:42:10<01:09,  1.76it/s]Training 3/3 epoch (loss 0.6868):  99%|█████████▊| 9630/9753 [1:42:11<01:09,  1.76it/s]Training 3/3 epoch (loss 0.6868):  99%|█████████▊| 9631/9753 [1:42:11<01:21,  1.50it/s]Training 3/3 epoch (loss 0.6502):  99%|█████████▊| 9631/9753 [1:42:11<01:21,  1.50it/s]Training 3/3 epoch (loss 0.6502):  99%|█████████▉| 9632/9753 [1:42:11<01:23,  1.45it/s]Training 3/3 epoch (loss 0.4823):  99%|█████████▉| 9632/9753 [1:42:12<01:23,  1.45it/s]Training 3/3 epoch (loss 0.4823):  99%|█████████▉| 9633/9753 [1:42:12<01:17,  1.55it/s]Training 3/3 epoch (loss 0.5510):  99%|█████████▉| 9633/9753 [1:42:12<01:17,  1.55it/s]Training 3/3 epoch (loss 0.5510):  99%|█████████▉| 9634/9753 [1:42:12<01:14,  1.61it/s]Training 3/3 epoch (loss 0.3914):  99%|█████████▉| 9634/9753 [1:42:13<01:14,  1.61it/s]Training 3/3 epoch (loss 0.3914):  99%|█████████▉| 9635/9753 [1:42:13<01:11,  1.65it/s]Training 3/3 epoch (loss 0.3813):  99%|█████████▉| 9635/9753 [1:42:13<01:11,  1.65it/s]Training 3/3 epoch (loss 0.3813):  99%|█████████▉| 9636/9753 [1:42:13<01:08,  1.70it/s]Training 3/3 epoch (loss 0.4562):  99%|█████████▉| 9636/9753 [1:42:14<01:08,  1.70it/s]Training 3/3 epoch (loss 0.4562):  99%|█████████▉| 9637/9753 [1:42:14<01:06,  1.74it/s]Training 3/3 epoch (loss 0.8210):  99%|█████████▉| 9637/9753 [1:42:15<01:06,  1.74it/s]Training 3/3 epoch (loss 0.8210):  99%|█████████▉| 9638/9753 [1:42:15<01:05,  1.76it/s]Training 3/3 epoch (loss 0.5281):  99%|█████████▉| 9638/9753 [1:42:15<01:05,  1.76it/s]Training 3/3 epoch (loss 0.5281):  99%|█████████▉| 9639/9753 [1:42:15<01:05,  1.75it/s]Training 3/3 epoch (loss 0.7811):  99%|█████████▉| 9639/9753 [1:42:16<01:05,  1.75it/s]Training 3/3 epoch (loss 0.7811):  99%|█████████▉| 9640/9753 [1:42:16<01:05,  1.73it/s]Training 3/3 epoch (loss 0.5588):  99%|█████████▉| 9640/9753 [1:42:16<01:05,  1.73it/s]Training 3/3 epoch (loss 0.5588):  99%|█████████▉| 9641/9753 [1:42:16<01:04,  1.74it/s]Training 3/3 epoch (loss 0.5154):  99%|█████████▉| 9641/9753 [1:42:17<01:04,  1.74it/s]Training 3/3 epoch (loss 0.5154):  99%|█████████▉| 9642/9753 [1:42:17<01:03,  1.76it/s]Training 3/3 epoch (loss 0.7494):  99%|█████████▉| 9642/9753 [1:42:18<01:03,  1.76it/s]Training 3/3 epoch (loss 0.7494):  99%|█████████▉| 9643/9753 [1:42:18<01:04,  1.69it/s]Training 3/3 epoch (loss 0.2566):  99%|█████████▉| 9643/9753 [1:42:18<01:04,  1.69it/s]Training 3/3 epoch (loss 0.2566):  99%|█████████▉| 9644/9753 [1:42:18<01:09,  1.57it/s]Training 3/3 epoch (loss 0.3648):  99%|█████████▉| 9644/9753 [1:42:19<01:09,  1.57it/s]Training 3/3 epoch (loss 0.3648):  99%|█████████▉| 9645/9753 [1:42:19<01:06,  1.62it/s]Training 3/3 epoch (loss 0.5437):  99%|█████████▉| 9645/9753 [1:42:19<01:06,  1.62it/s]Training 3/3 epoch (loss 0.5437):  99%|█████████▉| 9646/9753 [1:42:19<01:05,  1.64it/s]Training 3/3 epoch (loss 0.6140):  99%|█████████▉| 9646/9753 [1:42:20<01:05,  1.64it/s]Training 3/3 epoch (loss 0.6140):  99%|█████████▉| 9647/9753 [1:42:20<01:02,  1.70it/s]Training 3/3 epoch (loss 0.4242):  99%|█████████▉| 9647/9753 [1:42:21<01:02,  1.70it/s]Training 3/3 epoch (loss 0.4242):  99%|█████████▉| 9648/9753 [1:42:21<01:05,  1.60it/s]Training 3/3 epoch (loss 0.6244):  99%|█████████▉| 9648/9753 [1:42:21<01:05,  1.60it/s]Training 3/3 epoch (loss 0.6244):  99%|█████████▉| 9649/9753 [1:42:21<01:07,  1.53it/s]Training 3/3 epoch (loss 0.8474):  99%|█████████▉| 9649/9753 [1:42:22<01:07,  1.53it/s]Training 3/3 epoch (loss 0.8474):  99%|█████████▉| 9650/9753 [1:42:22<01:05,  1.58it/s]Training 3/3 epoch (loss 0.3379):  99%|█████████▉| 9650/9753 [1:42:23<01:05,  1.58it/s]Training 3/3 epoch (loss 0.3379):  99%|█████████▉| 9651/9753 [1:42:23<01:02,  1.64it/s]Training 3/3 epoch (loss 0.6838):  99%|█████████▉| 9651/9753 [1:42:23<01:02,  1.64it/s]Training 3/3 epoch (loss 0.6838):  99%|█████████▉| 9652/9753 [1:42:23<00:59,  1.69it/s]Training 3/3 epoch (loss 0.5316):  99%|█████████▉| 9652/9753 [1:42:24<00:59,  1.69it/s]Training 3/3 epoch (loss 0.5316):  99%|█████████▉| 9653/9753 [1:42:24<01:00,  1.64it/s]Training 3/3 epoch (loss 0.7641):  99%|█████████▉| 9653/9753 [1:42:24<01:00,  1.64it/s]Training 3/3 epoch (loss 0.7641):  99%|█████████▉| 9654/9753 [1:42:24<00:59,  1.66it/s]Training 3/3 epoch (loss 0.6415):  99%|█████████▉| 9654/9753 [1:42:25<00:59,  1.66it/s]Training 3/3 epoch (loss 0.6415):  99%|█████████▉| 9655/9753 [1:42:25<00:57,  1.71it/s]Training 3/3 epoch (loss 0.7257):  99%|█████████▉| 9655/9753 [1:42:25<00:57,  1.71it/s]Training 3/3 epoch (loss 0.7257):  99%|█████████▉| 9656/9753 [1:42:25<00:56,  1.73it/s]Training 3/3 epoch (loss 0.5752):  99%|█████████▉| 9656/9753 [1:42:26<00:56,  1.73it/s]Training 3/3 epoch (loss 0.5752):  99%|█████████▉| 9657/9753 [1:42:26<00:55,  1.75it/s]Training 3/3 epoch (loss 0.5524):  99%|█████████▉| 9657/9753 [1:42:27<00:55,  1.75it/s]Training 3/3 epoch (loss 0.5524):  99%|█████████▉| 9658/9753 [1:42:27<00:53,  1.76it/s]Training 3/3 epoch (loss 0.3902):  99%|█████████▉| 9658/9753 [1:42:27<00:53,  1.76it/s]Training 3/3 epoch (loss 0.3902):  99%|█████████▉| 9659/9753 [1:42:27<00:52,  1.79it/s]Training 3/3 epoch (loss 0.7541):  99%|█████████▉| 9659/9753 [1:42:28<00:52,  1.79it/s]Training 3/3 epoch (loss 0.7541):  99%|█████████▉| 9660/9753 [1:42:28<01:00,  1.53it/s]Training 3/3 epoch (loss 0.5890):  99%|█████████▉| 9660/9753 [1:42:29<01:00,  1.53it/s]Training 3/3 epoch (loss 0.5890):  99%|█████████▉| 9661/9753 [1:42:29<00:58,  1.57it/s]Training 3/3 epoch (loss 0.7353):  99%|█████████▉| 9661/9753 [1:42:29<00:58,  1.57it/s]Training 3/3 epoch (loss 0.7353):  99%|█████████▉| 9662/9753 [1:42:29<00:55,  1.63it/s]Training 3/3 epoch (loss 0.5718):  99%|█████████▉| 9662/9753 [1:42:30<00:55,  1.63it/s]Training 3/3 epoch (loss 0.5718):  99%|█████████▉| 9663/9753 [1:42:30<00:53,  1.69it/s]Training 3/3 epoch (loss 0.4829):  99%|█████████▉| 9663/9753 [1:42:30<00:53,  1.69it/s]Training 3/3 epoch (loss 0.4829):  99%|█████████▉| 9664/9753 [1:42:30<00:56,  1.57it/s]Training 3/3 epoch (loss 0.3669):  99%|█████████▉| 9664/9753 [1:42:31<00:56,  1.57it/s]Training 3/3 epoch (loss 0.3669):  99%|█████████▉| 9665/9753 [1:42:31<00:53,  1.63it/s]Training 3/3 epoch (loss 0.4757):  99%|█████████▉| 9665/9753 [1:42:32<00:53,  1.63it/s]Training 3/3 epoch (loss 0.4757):  99%|█████████▉| 9666/9753 [1:42:32<00:54,  1.60it/s]Training 3/3 epoch (loss 0.4559):  99%|█████████▉| 9666/9753 [1:42:32<00:54,  1.60it/s]Training 3/3 epoch (loss 0.4559):  99%|█████████▉| 9667/9753 [1:42:32<00:51,  1.66it/s]Training 3/3 epoch (loss 0.3243):  99%|█████████▉| 9667/9753 [1:42:33<00:51,  1.66it/s]Training 3/3 epoch (loss 0.3243):  99%|█████████▉| 9668/9753 [1:42:33<00:49,  1.71it/s]Training 3/3 epoch (loss 0.6033):  99%|█████████▉| 9668/9753 [1:42:33<00:49,  1.71it/s]Training 3/3 epoch (loss 0.6033):  99%|█████████▉| 9669/9753 [1:42:33<00:51,  1.63it/s]Training 3/3 epoch (loss 0.5942):  99%|█████████▉| 9669/9753 [1:42:34<00:51,  1.63it/s]Training 3/3 epoch (loss 0.5942):  99%|█████████▉| 9670/9753 [1:42:34<00:56,  1.46it/s]Training 3/3 epoch (loss 0.4119):  99%|█████████▉| 9670/9753 [1:42:35<00:56,  1.46it/s]Training 3/3 epoch (loss 0.4119):  99%|█████████▉| 9671/9753 [1:42:35<00:54,  1.51it/s]Training 3/3 epoch (loss 0.6068):  99%|█████████▉| 9671/9753 [1:42:35<00:54,  1.51it/s]Training 3/3 epoch (loss 0.6068):  99%|█████████▉| 9672/9753 [1:42:35<00:50,  1.59it/s]Training 3/3 epoch (loss 0.6618):  99%|█████████▉| 9672/9753 [1:42:36<00:50,  1.59it/s]Training 3/3 epoch (loss 0.6618):  99%|█████████▉| 9673/9753 [1:42:36<00:48,  1.65it/s]Training 3/3 epoch (loss 0.7120):  99%|█████████▉| 9673/9753 [1:42:37<00:48,  1.65it/s]Training 3/3 epoch (loss 0.7120):  99%|█████████▉| 9674/9753 [1:42:37<00:48,  1.62it/s]Training 3/3 epoch (loss 0.6256):  99%|█████████▉| 9674/9753 [1:42:37<00:48,  1.62it/s]Training 3/3 epoch (loss 0.6256):  99%|█████████▉| 9675/9753 [1:42:37<00:46,  1.67it/s]Training 3/3 epoch (loss 0.8235):  99%|█████████▉| 9675/9753 [1:42:38<00:46,  1.67it/s]Training 3/3 epoch (loss 0.8235):  99%|█████████▉| 9676/9753 [1:42:38<00:48,  1.58it/s]Training 3/3 epoch (loss 0.6700):  99%|█████████▉| 9676/9753 [1:42:39<00:48,  1.58it/s]Training 3/3 epoch (loss 0.6700):  99%|█████████▉| 9677/9753 [1:42:39<00:50,  1.51it/s]Training 3/3 epoch (loss 0.4959):  99%|█████████▉| 9677/9753 [1:42:39<00:50,  1.51it/s]Training 3/3 epoch (loss 0.4959):  99%|█████████▉| 9678/9753 [1:42:39<00:47,  1.57it/s]Training 3/3 epoch (loss 0.3557):  99%|█████████▉| 9678/9753 [1:42:40<00:47,  1.57it/s]Training 3/3 epoch (loss 0.3557):  99%|█████████▉| 9679/9753 [1:42:40<00:45,  1.64it/s]Training 3/3 epoch (loss 0.4011):  99%|█████████▉| 9679/9753 [1:42:40<00:45,  1.64it/s]Training 3/3 epoch (loss 0.4011):  99%|█████████▉| 9680/9753 [1:42:40<00:45,  1.59it/s]Training 3/3 epoch (loss 0.4584):  99%|█████████▉| 9680/9753 [1:42:41<00:45,  1.59it/s]Training 3/3 epoch (loss 0.4584):  99%|█████████▉| 9681/9753 [1:42:41<00:43,  1.65it/s]Training 3/3 epoch (loss 0.2680):  99%|█████████▉| 9681/9753 [1:42:41<00:43,  1.65it/s]Training 3/3 epoch (loss 0.2680):  99%|█████████▉| 9682/9753 [1:42:41<00:41,  1.71it/s]Training 3/3 epoch (loss 0.5894):  99%|█████████▉| 9682/9753 [1:42:42<00:41,  1.71it/s]Training 3/3 epoch (loss 0.5894):  99%|█████████▉| 9683/9753 [1:42:42<00:40,  1.73it/s]Training 3/3 epoch (loss 0.5011):  99%|█████████▉| 9683/9753 [1:42:43<00:40,  1.73it/s]Training 3/3 epoch (loss 0.5011):  99%|█████████▉| 9684/9753 [1:42:43<00:39,  1.75it/s]Training 3/3 epoch (loss 0.5211):  99%|█████████▉| 9684/9753 [1:42:43<00:39,  1.75it/s]Training 3/3 epoch (loss 0.5211):  99%|█████████▉| 9685/9753 [1:42:43<00:38,  1.77it/s]Training 3/3 epoch (loss 0.7743):  99%|█████████▉| 9685/9753 [1:42:44<00:38,  1.77it/s]Training 3/3 epoch (loss 0.7743):  99%|█████████▉| 9686/9753 [1:42:44<00:40,  1.65it/s]Training 3/3 epoch (loss 0.3842):  99%|█████████▉| 9686/9753 [1:42:44<00:40,  1.65it/s]Training 3/3 epoch (loss 0.3842):  99%|█████████▉| 9687/9753 [1:42:44<00:39,  1.67it/s]Training 3/3 epoch (loss 0.5206):  99%|█████████▉| 9687/9753 [1:42:45<00:39,  1.67it/s]Training 3/3 epoch (loss 0.5206):  99%|█████████▉| 9688/9753 [1:42:45<00:40,  1.62it/s]Training 3/3 epoch (loss 0.5115):  99%|█████████▉| 9688/9753 [1:42:46<00:40,  1.62it/s]Training 3/3 epoch (loss 0.5115):  99%|█████████▉| 9689/9753 [1:42:46<00:38,  1.68it/s]Training 3/3 epoch (loss 0.5967):  99%|█████████▉| 9689/9753 [1:42:46<00:38,  1.68it/s]Training 3/3 epoch (loss 0.5967):  99%|█████████▉| 9690/9753 [1:42:46<00:37,  1.66it/s]Training 3/3 epoch (loss 0.3655):  99%|█████████▉| 9690/9753 [1:42:47<00:37,  1.66it/s]Training 3/3 epoch (loss 0.3655):  99%|█████████▉| 9691/9753 [1:42:47<00:36,  1.70it/s]Training 3/3 epoch (loss 0.5209):  99%|█████████▉| 9691/9753 [1:42:47<00:36,  1.70it/s]Training 3/3 epoch (loss 0.5209):  99%|█████████▉| 9692/9753 [1:42:47<00:35,  1.74it/s]Training 3/3 epoch (loss 0.4756):  99%|█████████▉| 9692/9753 [1:42:48<00:35,  1.74it/s]Training 3/3 epoch (loss 0.4756):  99%|█████████▉| 9693/9753 [1:42:48<00:34,  1.74it/s]Training 3/3 epoch (loss 0.3026):  99%|█████████▉| 9693/9753 [1:42:48<00:34,  1.74it/s]Training 3/3 epoch (loss 0.3026):  99%|█████████▉| 9694/9753 [1:42:48<00:33,  1.76it/s]Training 3/3 epoch (loss 0.2943):  99%|█████████▉| 9694/9753 [1:42:49<00:33,  1.76it/s]Training 3/3 epoch (loss 0.2943):  99%|█████████▉| 9695/9753 [1:42:49<00:32,  1.76it/s]Training 3/3 epoch (loss 0.6350):  99%|█████████▉| 9695/9753 [1:42:50<00:32,  1.76it/s]Training 3/3 epoch (loss 0.6350):  99%|█████████▉| 9696/9753 [1:42:50<00:34,  1.67it/s]Training 3/3 epoch (loss 0.3704):  99%|█████████▉| 9696/9753 [1:42:51<00:34,  1.67it/s]Training 3/3 epoch (loss 0.3704):  99%|█████████▉| 9697/9753 [1:42:51<00:38,  1.46it/s]Training 3/3 epoch (loss 0.8119):  99%|█████████▉| 9697/9753 [1:42:52<00:38,  1.46it/s]Training 3/3 epoch (loss 0.8119):  99%|█████████▉| 9698/9753 [1:42:52<00:41,  1.33it/s]Training 3/3 epoch (loss 0.4420):  99%|█████████▉| 9698/9753 [1:42:52<00:41,  1.33it/s]Training 3/3 epoch (loss 0.4420):  99%|█████████▉| 9699/9753 [1:42:52<00:37,  1.44it/s]Training 3/3 epoch (loss 0.5584):  99%|█████████▉| 9699/9753 [1:42:53<00:37,  1.44it/s]Training 3/3 epoch (loss 0.5584):  99%|█████████▉| 9700/9753 [1:42:53<00:34,  1.54it/s]Training 3/3 epoch (loss 0.4174):  99%|█████████▉| 9700/9753 [1:42:53<00:34,  1.54it/s]Training 3/3 epoch (loss 0.4174):  99%|█████████▉| 9701/9753 [1:42:53<00:34,  1.52it/s]Training 3/3 epoch (loss 0.4508):  99%|█████████▉| 9701/9753 [1:42:54<00:34,  1.52it/s]Training 3/3 epoch (loss 0.4508):  99%|█████████▉| 9702/9753 [1:42:54<00:32,  1.57it/s]Training 3/3 epoch (loss 0.3828):  99%|█████████▉| 9702/9753 [1:42:54<00:32,  1.57it/s]Training 3/3 epoch (loss 0.3828):  99%|█████████▉| 9703/9753 [1:42:54<00:30,  1.65it/s]Training 3/3 epoch (loss 0.2908):  99%|█████████▉| 9703/9753 [1:42:55<00:30,  1.65it/s]Training 3/3 epoch (loss 0.2908):  99%|█████████▉| 9704/9753 [1:42:55<00:28,  1.70it/s]Training 3/3 epoch (loss 0.6897):  99%|█████████▉| 9704/9753 [1:42:56<00:28,  1.70it/s]Training 3/3 epoch (loss 0.6897): 100%|█████████▉| 9705/9753 [1:42:56<00:28,  1.68it/s]Training 3/3 epoch (loss 0.7202): 100%|█████████▉| 9705/9753 [1:42:56<00:28,  1.68it/s]Training 3/3 epoch (loss 0.7202): 100%|█████████▉| 9706/9753 [1:42:56<00:27,  1.69it/s]Training 3/3 epoch (loss 0.6854): 100%|█████████▉| 9706/9753 [1:42:57<00:27,  1.69it/s]Training 3/3 epoch (loss 0.6854): 100%|█████████▉| 9707/9753 [1:42:57<00:26,  1.71it/s]Training 3/3 epoch (loss 0.3276): 100%|█████████▉| 9707/9753 [1:42:57<00:26,  1.71it/s]Training 3/3 epoch (loss 0.3276): 100%|█████████▉| 9708/9753 [1:42:57<00:27,  1.62it/s]Training 3/3 epoch (loss 0.6980): 100%|█████████▉| 9708/9753 [1:42:58<00:27,  1.62it/s]Training 3/3 epoch (loss 0.6980): 100%|█████████▉| 9709/9753 [1:42:58<00:26,  1.66it/s]Training 3/3 epoch (loss 0.6313): 100%|█████████▉| 9709/9753 [1:42:59<00:26,  1.66it/s]Training 3/3 epoch (loss 0.6313): 100%|█████████▉| 9710/9753 [1:42:59<00:27,  1.59it/s]Training 3/3 epoch (loss 0.4953): 100%|█████████▉| 9710/9753 [1:42:59<00:27,  1.59it/s]Training 3/3 epoch (loss 0.4953): 100%|█████████▉| 9711/9753 [1:42:59<00:27,  1.54it/s]Training 3/3 epoch (loss 0.5932): 100%|█████████▉| 9711/9753 [1:43:00<00:27,  1.54it/s]Training 3/3 epoch (loss 0.5932): 100%|█████████▉| 9712/9753 [1:43:00<00:28,  1.45it/s]Training 3/3 epoch (loss 0.7294): 100%|█████████▉| 9712/9753 [1:43:01<00:28,  1.45it/s]Training 3/3 epoch (loss 0.7294): 100%|█████████▉| 9713/9753 [1:43:01<00:27,  1.45it/s]Training 3/3 epoch (loss 0.6167): 100%|█████████▉| 9713/9753 [1:43:01<00:27,  1.45it/s]Training 3/3 epoch (loss 0.6167): 100%|█████████▉| 9714/9753 [1:43:01<00:25,  1.52it/s]Training 3/3 epoch (loss 0.4732): 100%|█████████▉| 9714/9753 [1:43:02<00:25,  1.52it/s]Training 3/3 epoch (loss 0.4732): 100%|█████████▉| 9715/9753 [1:43:02<00:23,  1.58it/s]Training 3/3 epoch (loss 0.6078): 100%|█████████▉| 9715/9753 [1:43:03<00:23,  1.58it/s]Training 3/3 epoch (loss 0.6078): 100%|█████████▉| 9716/9753 [1:43:03<00:22,  1.65it/s]Training 3/3 epoch (loss 0.4922): 100%|█████████▉| 9716/9753 [1:43:03<00:22,  1.65it/s]Training 3/3 epoch (loss 0.4922): 100%|█████████▉| 9717/9753 [1:43:03<00:21,  1.65it/s]Training 3/3 epoch (loss 0.4615): 100%|█████████▉| 9717/9753 [1:43:04<00:21,  1.65it/s]Training 3/3 epoch (loss 0.4615): 100%|█████████▉| 9718/9753 [1:43:04<00:20,  1.69it/s]Training 3/3 epoch (loss 0.3487): 100%|█████████▉| 9718/9753 [1:43:04<00:20,  1.69it/s]Training 3/3 epoch (loss 0.3487): 100%|█████████▉| 9719/9753 [1:43:04<00:19,  1.73it/s]Training 3/3 epoch (loss 0.6284): 100%|█████████▉| 9719/9753 [1:43:05<00:19,  1.73it/s]Training 3/3 epoch (loss 0.6284): 100%|█████████▉| 9720/9753 [1:43:05<00:18,  1.74it/s]Training 3/3 epoch (loss 0.5710): 100%|█████████▉| 9720/9753 [1:43:05<00:18,  1.74it/s]Training 3/3 epoch (loss 0.5710): 100%|█████████▉| 9721/9753 [1:43:05<00:18,  1.76it/s]Training 3/3 epoch (loss 0.5134): 100%|█████████▉| 9721/9753 [1:43:06<00:18,  1.76it/s]Training 3/3 epoch (loss 0.5134): 100%|█████████▉| 9722/9753 [1:43:06<00:17,  1.72it/s]Training 3/3 epoch (loss 0.4164): 100%|█████████▉| 9722/9753 [1:43:07<00:17,  1.72it/s]Training 3/3 epoch (loss 0.4164): 100%|█████████▉| 9723/9753 [1:43:07<00:18,  1.61it/s]Training 3/3 epoch (loss 0.5931): 100%|█████████▉| 9723/9753 [1:43:07<00:18,  1.61it/s]Training 3/3 epoch (loss 0.5931): 100%|█████████▉| 9724/9753 [1:43:07<00:17,  1.67it/s]Training 3/3 epoch (loss 0.5914): 100%|█████████▉| 9724/9753 [1:43:08<00:17,  1.67it/s]Training 3/3 epoch (loss 0.5914): 100%|█████████▉| 9725/9753 [1:43:08<00:16,  1.65it/s]Training 3/3 epoch (loss 0.3917): 100%|█████████▉| 9725/9753 [1:43:08<00:16,  1.65it/s]Training 3/3 epoch (loss 0.3917): 100%|█████████▉| 9726/9753 [1:43:08<00:16,  1.68it/s]Training 3/3 epoch (loss 0.9065): 100%|█████████▉| 9726/9753 [1:43:09<00:16,  1.68it/s]Training 3/3 epoch (loss 0.9065): 100%|█████████▉| 9727/9753 [1:43:09<00:16,  1.55it/s]Training 3/3 epoch (loss 0.7972): 100%|█████████▉| 9727/9753 [1:43:10<00:16,  1.55it/s]Training 3/3 epoch (loss 0.7972): 100%|█████████▉| 9728/9753 [1:43:10<00:18,  1.34it/s]Training 3/3 epoch (loss 0.3727): 100%|█████████▉| 9728/9753 [1:43:11<00:18,  1.34it/s]Training 3/3 epoch (loss 0.3727): 100%|█████████▉| 9729/9753 [1:43:11<00:16,  1.44it/s]Training 3/3 epoch (loss 0.5541): 100%|█████████▉| 9729/9753 [1:43:11<00:16,  1.44it/s]Training 3/3 epoch (loss 0.5541): 100%|█████████▉| 9730/9753 [1:43:11<00:15,  1.44it/s]Training 3/3 epoch (loss 0.2907): 100%|█████████▉| 9730/9753 [1:43:12<00:15,  1.44it/s]Training 3/3 epoch (loss 0.2907): 100%|█████████▉| 9731/9753 [1:43:12<00:14,  1.53it/s]Training 3/3 epoch (loss 0.4842): 100%|█████████▉| 9731/9753 [1:43:13<00:14,  1.53it/s]Training 3/3 epoch (loss 0.4842): 100%|█████████▉| 9732/9753 [1:43:13<00:13,  1.59it/s]Training 3/3 epoch (loss 0.7508): 100%|█████████▉| 9732/9753 [1:43:13<00:13,  1.59it/s]Training 3/3 epoch (loss 0.7508): 100%|█████████▉| 9733/9753 [1:43:13<00:12,  1.65it/s]Training 3/3 epoch (loss 0.6609): 100%|█████████▉| 9733/9753 [1:43:14<00:12,  1.65it/s]Training 3/3 epoch (loss 0.6609): 100%|█████████▉| 9734/9753 [1:43:14<00:11,  1.59it/s]Training 3/3 epoch (loss 0.5908): 100%|█████████▉| 9734/9753 [1:43:14<00:11,  1.59it/s]Training 3/3 epoch (loss 0.5908): 100%|█████████▉| 9735/9753 [1:43:14<00:10,  1.64it/s]Training 3/3 epoch (loss 0.5877): 100%|█████████▉| 9735/9753 [1:43:15<00:10,  1.64it/s]Training 3/3 epoch (loss 0.5877): 100%|█████████▉| 9736/9753 [1:43:15<00:10,  1.67it/s]Training 3/3 epoch (loss 0.4160): 100%|█████████▉| 9736/9753 [1:43:16<00:10,  1.67it/s]Training 3/3 epoch (loss 0.4160): 100%|█████████▉| 9737/9753 [1:43:16<00:09,  1.72it/s]Training 3/3 epoch (loss 0.6375): 100%|█████████▉| 9737/9753 [1:43:16<00:09,  1.72it/s]Training 3/3 epoch (loss 0.6375): 100%|█████████▉| 9738/9753 [1:43:16<00:08,  1.67it/s]Training 3/3 epoch (loss 0.5237): 100%|█████████▉| 9738/9753 [1:43:17<00:08,  1.67it/s]Training 3/3 epoch (loss 0.5237): 100%|█████████▉| 9739/9753 [1:43:17<00:08,  1.59it/s]Training 3/3 epoch (loss 0.4331): 100%|█████████▉| 9739/9753 [1:43:17<00:08,  1.59it/s]Training 3/3 epoch (loss 0.4331): 100%|█████████▉| 9740/9753 [1:43:17<00:07,  1.65it/s]Training 3/3 epoch (loss 0.6292): 100%|█████████▉| 9740/9753 [1:43:18<00:07,  1.65it/s]Training 3/3 epoch (loss 0.6292): 100%|█████████▉| 9741/9753 [1:43:18<00:07,  1.67it/s]Training 3/3 epoch (loss 0.4184): 100%|█████████▉| 9741/9753 [1:43:19<00:07,  1.67it/s]Training 3/3 epoch (loss 0.4184): 100%|█████████▉| 9742/9753 [1:43:19<00:06,  1.71it/s]Training 3/3 epoch (loss 0.4791): 100%|█████████▉| 9742/9753 [1:43:19<00:06,  1.71it/s]Training 3/3 epoch (loss 0.4791): 100%|█████████▉| 9743/9753 [1:43:19<00:05,  1.70it/s]Training 3/3 epoch (loss 0.5891): 100%|█████████▉| 9743/9753 [1:43:20<00:05,  1.70it/s]Training 3/3 epoch (loss 0.5891): 100%|█████████▉| 9744/9753 [1:43:20<00:05,  1.61it/s]Training 3/3 epoch (loss 0.4396): 100%|█████████▉| 9744/9753 [1:43:20<00:05,  1.61it/s]Training 3/3 epoch (loss 0.4396): 100%|█████████▉| 9745/9753 [1:43:20<00:04,  1.62it/s]Training 3/3 epoch (loss 0.3301): 100%|█████████▉| 9745/9753 [1:43:21<00:04,  1.62it/s]Training 3/3 epoch (loss 0.3301): 100%|█████████▉| 9746/9753 [1:43:21<00:04,  1.68it/s]Training 3/3 epoch (loss 0.8133): 100%|█████████▉| 9746/9753 [1:43:22<00:04,  1.68it/s]Training 3/3 epoch (loss 0.8133): 100%|█████████▉| 9747/9753 [1:43:22<00:03,  1.61it/s]Training 3/3 epoch (loss 0.5722): 100%|█████████▉| 9747/9753 [1:43:22<00:03,  1.61it/s]Training 3/3 epoch (loss 0.5722): 100%|█████████▉| 9748/9753 [1:43:22<00:03,  1.65it/s]Training 3/3 epoch (loss 0.4240): 100%|█████████▉| 9748/9753 [1:43:23<00:03,  1.65it/s]Training 3/3 epoch (loss 0.4240): 100%|█████████▉| 9749/9753 [1:43:23<00:02,  1.50it/s]Training 3/3 epoch (loss 0.6026): 100%|█████████▉| 9749/9753 [1:43:24<00:02,  1.50it/s]Training 3/3 epoch (loss 0.6026): 100%|█████████▉| 9750/9753 [1:43:24<00:02,  1.35it/s]Training 3/3 epoch (loss 0.6042): 100%|█████████▉| 9750/9753 [1:43:25<00:02,  1.35it/s]Training 3/3 epoch (loss 0.6042): 100%|█████████▉| 9751/9753 [1:43:25<00:01,  1.46it/s]Training 3/3 epoch (loss 0.2563): 100%|█████████▉| 9751/9753 [1:43:25<00:01,  1.46it/s]Training 3/3 epoch (loss 0.2563): 100%|█████████▉| 9752/9753 [1:43:25<00:00,  1.55it/s]Training 3/3 epoch (loss 0.3787): 100%|█████████▉| 9752/9753 [1:43:26<00:00,  1.55it/s]Training 3/3 epoch (loss 0.3787): 100%|██████████| 9753/9753 [1:43:26<00:00,  1.62it/s]Training 3/3 epoch (loss 0.3787): 100%|██████████| 9753/9753 [1:43:26<00:00,  1.57it/s]
+/data/jiongxiao_wang/anaconda3/envs/safe-rlhf/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
+  warnings.warn(
+/data/jiongxiao_wang/anaconda3/envs/safe-rlhf/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
+  warnings.warn(
+/data/jiongxiao_wang/anaconda3/envs/safe-rlhf/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
+  warnings.warn(
+/data/jiongxiao_wang/anaconda3/envs/safe-rlhf/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
+  warnings.warn(
+wandb: - 0.015 MB of 0.015 MB uploadedwandb: \ 0.015 MB of 0.035 MB uploadedwandb: | 0.021 MB of 0.035 MB uploadedwandb: / 0.021 MB of 0.035 MB uploadedwandb: - 0.035 MB of 0.035 MB uploadedwandb:                                                                                
+wandb: 
+wandb: Run history:
+wandb: train/epoch ▁▁▁▁▂▂▂▂▂▃▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
+wandb:  train/loss ▆▆▆█▅▅▅▆▇▅▆█▇▅▅▄▄▃▃▃▄▄▃▄▂▄▃▄▁▁▂▂▁▁▂▂▂▃▃▄
+wandb:    train/lr ▄▇██████▇▇▇▇▇▆▆▆▆▅▅▅▅▄▄▄▃▃▃▃▂▂▂▂▂▁▁▁▁▁▁▁
+wandb:  train/step ▁▁▁▁▂▂▂▂▂▃▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
+wandb: 
+wandb: Run summary:
+wandb: train/epoch 3.0
+wandb:  train/loss 0.37875
+wandb:    train/lr 0.0
+wandb:  train/step 9753
+wandb: 
+wandb: 🚀 View run sft-2023-12-31-20-07-40 at: https://wandb.ai/jayfeather1024/Safe-RLHF-SFT/runs/owu4dq7j
+wandb: Synced 6 W&B file(s), 0 media file(s), 0 artifact file(s) and 0 other file(s)
+wandb: Find logs at: ./output/sft/wandb/run-20231231_200741-owu4dq7j/logs