diff --git "a/training_logs" "b/training_logs"
new file mode 100644--- /dev/null
+++ "b/training_logs"
@@ -0,0 +1,268 @@
+Namespace(tokenizer='pretrained_models/trimmed_longmbart', save_dir='finetuned_checkpoints/trimmed_longmbart_35k_apa', save_prefix='trial_1', resume_ckpt=None, pretrained_ckpt=None, from_pretrained='pretrained_models/trimmed_longmbart', num_sanity_val_steps=0, model_type='mbart', train_source='datasets/prepared_data/deplain_APA_train.compl', train_target='datasets/prepared_data/deplain_APA_train.simpl', dev_source='datasets/prepared_data/deplain_APA_dev.compl', dev_target='datasets/prepared_data/deplain_APA_dev.simpl', test_source='datasets/prepared_data/deplain_APA_test.compl', test_target='datasets/prepared_data/deplain_APA_test.simpl', train_jsons=None, dev_jsons=None, test_jsons=None, remove_xml_in_json=False, remove_linebreaks_in_json=False, src_lang='de_DE', tgt_lang='de_SI', tgt_tags_included=False, src_tags_included=False, remove_special_tokens_containing=None, max_output_len=1024, max_input_len=2048, batch_size=1, num_workers=20, grad_accum=1, accelerator='gpu', devices=[0], seed=222, attention_dropout=0.1, dropout=0.3, activation_dropout=0.0, label_smoothing=0.2, min_delta=0.0005, attention_mode='sliding_chunks', attention_window=512, global_attention_indices=[-1], lr=3e-05, check_val_every_n_epoch=5, val_check_interval=None, val_percent_check=1.0, train_percent_check=1.0, max_epochs=100, max_steps=-1, early_stopping_metric='rougeL', patience=10, lr_reduce_patience=8, lr_reduce_factor=0.5, lr_cooldown=0, disable_checkpointing=False, save_top_k=5, save_every_n_val_epochs=0, grad_ckpt=True, beam_size=4, test_percent_check=1.0, progress_bar_refresh_rate=10, disable_validation_bar=True, fp32=False, print_params=False, wandb=None, wandb_entity=None)
+Training: 0it [00:00, ?it/s]Training:   0%|          | 0/387 [00:00<?, ?it/s]Epoch 0:   0%|          | 0/387 [00:00<?, ?it/s] Testing: 0it [00:00, ?it/s]Testing:   0%|          | 0/48 [00:00<?, ?it/s]Testing DataLoader 0:   0%|          | 0/48 [00:00<?, ?it/s]Training ended. Best checkpoint .
+Epoch 0:   0%|          | 0/387 [00:05<?, ?it/s]
+Testing DataLoader 0:   0%|          | 0/48 [00:00<?, ?it/s]
+Namespace(tokenizer='pretrained_models/trimmed_longmbart', save_dir='finetuned_checkpoints/trimmed_longmbart_35k_apa', save_prefix='trial_1', resume_ckpt=None, pretrained_ckpt=None, from_pretrained='pretrained_models/trimmed_longmbart', num_sanity_val_steps=0, model_type='mbart', train_source='datasets/prepared_data/deplain_APA_train.compl', train_target='datasets/prepared_data/deplain_APA_train.simpl', dev_source='datasets/prepared_data/deplain_APA_dev.compl', dev_target='datasets/prepared_data/deplain_APA_dev.simpl', test_source='datasets/prepared_data/deplain_APA_test.compl', test_target='datasets/prepared_data/deplain_APA_test.simpl', train_jsons=None, dev_jsons=None, test_jsons=None, remove_xml_in_json=False, remove_linebreaks_in_json=False, src_lang='de_DE', tgt_lang='de_SI', tgt_tags_included=False, src_tags_included=False, remove_special_tokens_containing=None, max_output_len=1024, max_input_len=2048, batch_size=1, num_workers=20, grad_accum=1, accelerator='gpu', devices=[0], seed=222, attention_dropout=0.1, dropout=0.3, activation_dropout=0.0, label_smoothing=0.2, min_delta=0.0005, attention_mode='sliding_chunks', attention_window=512, global_attention_indices=[-1], lr=3e-05, check_val_every_n_epoch=1, val_check_interval=None, val_percent_check=1.0, train_percent_check=1.0, max_epochs=100, max_steps=-1, early_stopping_metric='rougeL', patience=10, lr_reduce_patience=8, lr_reduce_factor=0.5, lr_cooldown=0, disable_checkpointing=False, save_top_k=5, save_every_n_val_epochs=0, grad_ckpt=True, beam_size=4, test_percent_check=1.0, progress_bar_refresh_rate=10, disable_validation_bar=True, fp32=False, print_params=False, wandb=None, wandb_entity=None)
+Training: 0it [00:00, ?it/s]Training:   0%|          | 0/435 [00:00<?, ?it/s]Epoch 0:   0%|          | 0/435 [00:00<?, ?it/s] Epoch 0:   2%|▏         | 10/435 [00:05<03:36,  1.96it/s]Epoch 0:   2%|▏         | 10/435 [00:05<03:36,  1.96it/s, loss=8.92, v_num=4, train-loss_step=8.210, lr_step=3e-5]Epoch 0:   5%|▍         | 20/435 [00:08<03:05,  2.24it/s, loss=8.92, v_num=4, train-loss_step=8.210, lr_step=3e-5]Epoch 0:   5%|▍         | 20/435 [00:08<03:05,  2.24it/s, loss=8.1, v_num=4, train-loss_step=6.700, lr_step=3e-5] Epoch 0:   7%|▋         | 30/435 [00:12<02:51,  2.36it/s, loss=8.1, v_num=4, train-loss_step=6.700, lr_step=3e-5]Epoch 0:   7%|▋         | 30/435 [00:12<02:52,  2.35it/s, loss=6.98, v_num=4, train-loss_step=6.170, lr_step=3e-5]Epoch 0:   9%|▉         | 40/435 [00:16<02:46,  2.37it/s, loss=6.98, v_num=4, train-loss_step=6.170, lr_step=3e-5]Epoch 0:   9%|▉         | 40/435 [00:16<02:46,  2.37it/s, loss=6.39, v_num=4, train-loss_step=5.740, lr_step=3e-5]Epoch 0:  11%|█▏        | 50/435 [00:20<02:40,  2.40it/s, loss=6.39, v_num=4, train-loss_step=5.740, lr_step=3e-5]Epoch 0:  11%|█▏        | 50/435 [00:20<02:40,  2.40it/s, loss=5.91, v_num=4, train-loss_step=5.510, lr_step=3e-5]Epoch 0:  14%|█▍        | 60/435 [00:24<02:34,  2.42it/s, loss=5.91, v_num=4, train-loss_step=5.510, lr_step=3e-5]Epoch 0:  14%|█▍        | 60/435 [00:24<02:34,  2.42it/s, loss=5.65, v_num=4, train-loss_step=5.630, lr_step=3e-5]Epoch 0:  16%|█▌        | 70/435 [00:28<02:29,  2.44it/s, loss=5.65, v_num=4, train-loss_step=5.630, lr_step=3e-5]Epoch 0:  16%|█▌        | 70/435 [00:28<02:29,  2.44it/s, loss=5.53, v_num=4, train-loss_step=5.360, lr_step=3e-5]Epoch 0:  18%|█▊        | 80/435 [00:32<02:23,  2.47it/s, loss=5.53, v_num=4, train-loss_step=5.360, lr_step=3e-5]Epoch 0:  18%|█▊        | 80/435 [00:32<02:23,  2.47it/s, loss=5.47, v_num=4, train-loss_step=5.150, lr_step=3e-5]Epoch 0:  21%|██        | 90/435 [00:36<02:18,  2.50it/s, loss=5.47, v_num=4, train-loss_step=5.150, lr_step=3e-5]Epoch 0:  21%|██        | 90/435 [00:36<02:18,  2.50it/s, loss=5.4, v_num=4, train-loss_step=5.500, lr_step=3e-5] Epoch 0:  23%|██▎       | 100/435 [00:39<02:13,  2.52it/s, loss=5.4, v_num=4, train-loss_step=5.500, lr_step=3e-5]Epoch 0:  23%|██▎       | 100/435 [00:39<02:13,  2.52it/s, loss=5.37, v_num=4, train-loss_step=5.390, lr_step=3e-5]Epoch 0:  25%|██▌       | 110/435 [00:43<02:09,  2.50it/s, loss=5.37, v_num=4, train-loss_step=5.390, lr_step=3e-5]Epoch 0:  25%|██▌       | 110/435 [00:43<02:09,  2.50it/s, loss=5.35, v_num=4, train-loss_step=5.390, lr_step=3e-5]Epoch 0:  28%|██▊       | 120/435 [00:47<02:05,  2.51it/s, loss=5.35, v_num=4, train-loss_step=5.390, lr_step=3e-5]Epoch 0:  28%|██▊       | 120/435 [00:47<02:05,  2.51it/s, loss=5.25, v_num=4, train-loss_step=5.430, lr_step=3e-5]Epoch 0:  30%|██▉       | 130/435 [00:51<02:01,  2.52it/s, loss=5.25, v_num=4, train-loss_step=5.430, lr_step=3e-5]Epoch 0:  30%|██▉       | 130/435 [00:51<02:01,  2.52it/s, loss=5.13, v_num=4, train-loss_step=4.960, lr_step=3e-5]Epoch 0:  32%|███▏      | 140/435 [00:55<01:56,  2.53it/s, loss=5.13, v_num=4, train-loss_step=4.960, lr_step=3e-5]Epoch 0:  32%|███▏      | 140/435 [00:55<01:56,  2.53it/s, loss=5.15, v_num=4, train-loss_step=5.150, lr_step=3e-5]Epoch 0:  34%|███▍      | 150/435 [00:59<01:52,  2.52it/s, loss=5.15, v_num=4, train-loss_step=5.150, lr_step=3e-5]Epoch 0:  34%|███▍      | 150/435 [00:59<01:52,  2.52it/s, loss=5.25, v_num=4, train-loss_step=5.450, lr_step=3e-5]Epoch 0:  37%|███▋      | 160/435 [01:03<01:48,  2.53it/s, loss=5.25, v_num=4, train-loss_step=5.450, lr_step=3e-5]Epoch 0:  37%|███▋      | 160/435 [01:03<01:48,  2.53it/s, loss=5.16, v_num=4, train-loss_step=4.760, lr_step=3e-5]Epoch 0:  39%|███▉      | 170/435 [01:06<01:44,  2.54it/s, loss=5.16, v_num=4, train-loss_step=4.760, lr_step=3e-5]Epoch 0:  39%|███▉      | 170/435 [01:06<01:44,  2.54it/s, loss=4.95, v_num=4, train-loss_step=4.720, lr_step=3e-5]Epoch 0:  41%|████▏     | 180/435 [01:10<01:40,  2.54it/s, loss=4.95, v_num=4, train-loss_step=4.720, lr_step=3e-5]Epoch 0:  41%|████▏     | 180/435 [01:10<01:40,  2.54it/s, loss=4.92, v_num=4, train-loss_step=4.750, lr_step=3e-5]Epoch 0:  44%|████▎     | 190/435 [01:14<01:36,  2.54it/s, loss=4.92, v_num=4, train-loss_step=4.750, lr_step=3e-5]Epoch 0:  44%|████▎     | 190/435 [01:14<01:36,  2.54it/s, loss=5, v_num=4, train-loss_step=4.920, lr_step=3e-5]   Epoch 0:  46%|████▌     | 200/435 [01:18<01:32,  2.54it/s, loss=5, v_num=4, train-loss_step=4.920, lr_step=3e-5]Epoch 0:  46%|████▌     | 200/435 [01:18<01:32,  2.54it/s, loss=4.98, v_num=4, train-loss_step=5.090, lr_step=3e-5]Epoch 0:  48%|████▊     | 210/435 [01:22<01:28,  2.54it/s, loss=4.98, v_num=4, train-loss_step=5.090, lr_step=3e-5]Epoch 0:  48%|████▊     | 210/435 [01:22<01:28,  2.54it/s, loss=4.99, v_num=4, train-loss_step=5.200, lr_step=3e-5]Epoch 0:  51%|█████     | 220/435 [01:26<01:24,  2.55it/s, loss=4.99, v_num=4, train-loss_step=5.200, lr_step=3e-5]Epoch 0:  51%|█████     | 220/435 [01:26<01:24,  2.55it/s, loss=4.97, v_num=4, train-loss_step=4.920, lr_step=3e-5]Epoch 0:  53%|█████▎    | 230/435 [01:29<01:20,  2.56it/s, loss=4.97, v_num=4, train-loss_step=4.920, lr_step=3e-5]Epoch 0:  53%|█████▎    | 230/435 [01:29<01:20,  2.56it/s, loss=4.91, v_num=4, train-loss_step=4.850, lr_step=3e-5]Epoch 0:  55%|█████▌    | 240/435 [01:33<01:16,  2.55it/s, loss=4.91, v_num=4, train-loss_step=4.850, lr_step=3e-5]Epoch 0:  55%|█████▌    | 240/435 [01:33<01:16,  2.55it/s, loss=4.89, v_num=4, train-loss_step=4.890, lr_step=3e-5]Epoch 0:  57%|█████▋    | 250/435 [01:38<01:12,  2.55it/s, loss=4.89, v_num=4, train-loss_step=4.890, lr_step=3e-5]Epoch 0:  57%|█████▋    | 250/435 [01:38<01:12,  2.55it/s, loss=4.9, v_num=4, train-loss_step=4.830, lr_step=3e-5] Epoch 0:  60%|█████▉    | 260/435 [01:41<01:08,  2.55it/s, loss=4.9, v_num=4, train-loss_step=4.830, lr_step=3e-5]Epoch 0:  60%|█████▉    | 260/435 [01:41<01:08,  2.55it/s, loss=4.89, v_num=4, train-loss_step=4.710, lr_step=3e-5]Epoch 0:  62%|██████▏   | 270/435 [01:45<01:04,  2.55it/s, loss=4.89, v_num=4, train-loss_step=4.710, lr_step=3e-5]Epoch 0:  62%|██████▏   | 270/435 [01:45<01:04,  2.55it/s, loss=4.79, v_num=4, train-loss_step=4.590, lr_step=3e-5]Epoch 0:  64%|██████▍   | 280/435 [01:49<01:00,  2.55it/s, loss=4.79, v_num=4, train-loss_step=4.590, lr_step=3e-5]Epoch 0:  64%|██████▍   | 280/435 [01:49<01:00,  2.55it/s, loss=4.8, v_num=4, train-loss_step=4.730, lr_step=3e-5] Epoch 0:  67%|██████▋   | 290/435 [01:53<00:56,  2.55it/s, loss=4.8, v_num=4, train-loss_step=4.730, lr_step=3e-5]Epoch 0:  67%|██████▋   | 290/435 [01:53<00:56,  2.55it/s, loss=4.82, v_num=4, train-loss_step=4.950, lr_step=3e-5]Epoch 0:  69%|██████▉   | 300/435 [01:57<00:52,  2.56it/s, loss=4.82, v_num=4, train-loss_step=4.950, lr_step=3e-5]Epoch 0:  69%|██████▉   | 300/435 [01:57<00:52,  2.55it/s, loss=4.77, v_num=4, train-loss_step=4.630, lr_step=3e-5]Epoch 0:  71%|███████▏  | 310/435 [02:01<00:48,  2.55it/s, loss=4.77, v_num=4, train-loss_step=4.630, lr_step=3e-5]Epoch 0:  71%|███████▏  | 310/435 [02:01<00:48,  2.55it/s, loss=4.83, v_num=4, train-loss_step=5.000, lr_step=3e-5]Epoch 0:  74%|███████▎  | 320/435 [02:06<00:45,  2.54it/s, loss=4.83, v_num=4, train-loss_step=5.000, lr_step=3e-5]Epoch 0:  74%|███████▎  | 320/435 [02:06<00:45,  2.54it/s, loss=4.91, v_num=4, train-loss_step=5.010, lr_step=3e-5]Epoch 0:  76%|███████▌  | 330/435 [02:10<00:41,  2.54it/s, loss=4.91, v_num=4, train-loss_step=5.010, lr_step=3e-5]Epoch 0:  76%|███████▌  | 330/435 [02:10<00:41,  2.54it/s, loss=4.82, v_num=4, train-loss_step=4.920, lr_step=3e-5]Epoch 0:  78%|███████▊  | 340/435 [02:14<00:37,  2.54it/s, loss=4.82, v_num=4, train-loss_step=4.920, lr_step=3e-5]Epoch 0:  78%|███████▊  | 340/435 [02:14<00:37,  2.54it/s, loss=4.76, v_num=4, train-loss_step=4.700, lr_step=3e-5]Epoch 0:  80%|████████  | 350/435 [02:18<00:33,  2.54it/s, loss=4.76, v_num=4, train-loss_step=4.700, lr_step=3e-5]Epoch 0:  80%|████████  | 350/435 [02:18<00:33,  2.54it/s, loss=4.76, v_num=4, train-loss_step=4.650, lr_step=3e-5]Epoch 0:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=4.76, v_num=4, train-loss_step=4.650, lr_step=3e-5]Epoch 0:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=4.63, v_num=4, train-loss_step=4.600, lr_step=3e-5]Epoch 0:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=4.63, v_num=4, train-loss_step=4.600, lr_step=3e-5]Epoch 0:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=4.62, v_num=4, train-loss_step=4.540, lr_step=3e-5]Epoch 0:  87%|████████▋ | 380/435 [02:29<00:21,  2.55it/s, loss=4.62, v_num=4, train-loss_step=4.540, lr_step=3e-5]Epoch 0:  87%|████████▋ | 380/435 [02:29<00:21,  2.55it/s, loss=4.7, v_num=4, train-loss_step=4.580, lr_step=3e-5] 
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 0:  90%|████████▉ | 390/435 [02:45<00:19,  2.36it/s, loss=4.7, v_num=4, train-loss_step=4.580, lr_step=3e-5]Epoch 0:  92%|█████████▏| 400/435 [03:42<00:19,  1.80it/s, loss=4.7, v_num=4, train-loss_step=4.580, lr_step=3e-5]Epoch 0:  94%|█████████▍| 410/435 [04:31<00:16,  1.51it/s, loss=4.7, v_num=4, train-loss_step=4.580, lr_step=3e-5]Epoch 0:  97%|█████████▋| 420/435 [05:23<00:11,  1.30it/s, loss=4.7, v_num=4, train-loss_step=4.580, lr_step=3e-5]Epoch 0:  99%|█████████▉| 430/435 [06:12<00:04,  1.15it/s, loss=4.7, v_num=4, train-loss_step=4.580, lr_step=3e-5]Epoch 0: 100%|██████████| 435/435 [06:39<00:00,  1.09it/s, loss=4.7, v_num=4, train-loss_step=4.580, lr_step=3e-5]
+Evaluation on checkpoint [0] 
+vloss:4.199061393737793
+rouge1:0.5923692584037781
+rouge2:0.33085715770721436
+rougeL:0.40689563751220703
+rougeLsum:0.40689563751220703
+bleu:24.77167320251465
+Epoch 0: 100%|██████████| 435/435 [06:39<00:00,  1.09it/s, loss=4.7, v_num=4, train-loss_step=4.820, lr_step=3e-5]Epoch 0: 100%|██████████| 435/435 [06:39<00:00,  1.09it/s, loss=4.7, v_num=4, train-loss_step=4.820, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 0:   0%|          | 0/435 [00:00<?, ?it/s, loss=4.7, v_num=4, train-loss_step=4.820, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]          Epoch 1:   0%|          | 0/435 [00:00<?, ?it/s, loss=4.7, v_num=4, train-loss_step=4.820, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:   2%|▏         | 10/435 [00:04<02:56,  2.41it/s, loss=4.7, v_num=4, train-loss_step=4.820, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:   2%|▏         | 10/435 [00:04<02:56,  2.41it/s, loss=4.62, v_num=4, train-loss_step=4.460, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:   5%|▍         | 20/435 [00:07<02:42,  2.55it/s, loss=4.62, v_num=4, train-loss_step=4.460, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:   5%|▍         | 20/435 [00:07<02:42,  2.55it/s, loss=4.57, v_num=4, train-loss_step=4.570, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:   7%|▋         | 30/435 [00:11<02:35,  2.61it/s, loss=4.57, v_num=4, train-loss_step=4.570, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:   7%|▋         | 30/435 [00:11<02:35,  2.60it/s, loss=4.53, v_num=4, train-loss_step=4.390, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:   9%|▉         | 40/435 [00:15<02:33,  2.57it/s, loss=4.53, v_num=4, train-loss_step=4.390, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:   9%|▉         | 40/435 [00:15<02:33,  2.57it/s, loss=4.56, v_num=4, train-loss_step=4.350, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  11%|█▏        | 50/435 [00:19<02:28,  2.58it/s, loss=4.56, v_num=4, train-loss_step=4.350, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  11%|█▏        | 50/435 [00:19<02:29,  2.58it/s, loss=4.61, v_num=4, train-loss_step=4.540, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  14%|█▍        | 60/435 [00:23<02:25,  2.58it/s, loss=4.61, v_num=4, train-loss_step=4.540, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  14%|█▍        | 60/435 [00:23<02:25,  2.58it/s, loss=4.58, v_num=4, train-loss_step=4.230, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  16%|█▌        | 70/435 [00:27<02:22,  2.56it/s, loss=4.58, v_num=4, train-loss_step=4.230, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  16%|█▌        | 70/435 [00:27<02:22,  2.56it/s, loss=4.58, v_num=4, train-loss_step=4.560, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  18%|█▊        | 80/435 [00:31<02:17,  2.58it/s, loss=4.58, v_num=4, train-loss_step=4.560, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  18%|█▊        | 80/435 [00:31<02:17,  2.58it/s, loss=4.54, v_num=4, train-loss_step=4.380, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  21%|██        | 90/435 [00:35<02:14,  2.57it/s, loss=4.54, v_num=4, train-loss_step=4.380, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  21%|██        | 90/435 [00:35<02:14,  2.57it/s, loss=4.55, v_num=4, train-loss_step=4.860, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  23%|██▎       | 100/435 [00:38<02:10,  2.58it/s, loss=4.55, v_num=4, train-loss_step=4.860, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  23%|██▎       | 100/435 [00:38<02:10,  2.57it/s, loss=4.55, v_num=4, train-loss_step=4.470, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  25%|██▌       | 110/435 [00:43<02:07,  2.55it/s, loss=4.55, v_num=4, train-loss_step=4.470, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  25%|██▌       | 110/435 [00:43<02:07,  2.55it/s, loss=4.53, v_num=4, train-loss_step=4.650, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  28%|██▊       | 120/435 [00:46<02:03,  2.56it/s, loss=4.53, v_num=4, train-loss_step=4.650, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  28%|██▊       | 120/435 [00:46<02:03,  2.56it/s, loss=4.56, v_num=4, train-loss_step=4.290, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  30%|██▉       | 130/435 [00:50<01:58,  2.57it/s, loss=4.56, v_num=4, train-loss_step=4.290, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  30%|██▉       | 130/435 [00:50<01:58,  2.57it/s, loss=4.49, v_num=4, train-loss_step=4.650, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  32%|███▏      | 140/435 [00:54<01:55,  2.56it/s, loss=4.49, v_num=4, train-loss_step=4.650, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  32%|███▏      | 140/435 [00:54<01:55,  2.56it/s, loss=4.51, v_num=4, train-loss_step=4.490, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  34%|███▍      | 150/435 [00:58<01:51,  2.56it/s, loss=4.51, v_num=4, train-loss_step=4.490, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  34%|███▍      | 150/435 [00:58<01:51,  2.56it/s, loss=4.5, v_num=4, train-loss_step=4.590, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5] Epoch 1:  37%|███▋      | 160/435 [01:02<01:47,  2.57it/s, loss=4.5, v_num=4, train-loss_step=4.590, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  37%|███▋      | 160/435 [01:02<01:47,  2.57it/s, loss=4.46, v_num=4, train-loss_step=4.300, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  39%|███▉      | 170/435 [01:06<01:43,  2.56it/s, loss=4.46, v_num=4, train-loss_step=4.300, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  39%|███▉      | 170/435 [01:06<01:43,  2.56it/s, loss=4.49, v_num=4, train-loss_step=4.730, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  41%|████▏     | 180/435 [01:10<01:39,  2.55it/s, loss=4.49, v_num=4, train-loss_step=4.730, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  41%|████▏     | 180/435 [01:10<01:39,  2.55it/s, loss=4.46, v_num=4, train-loss_step=4.700, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  44%|████▎     | 190/435 [01:14<01:36,  2.55it/s, loss=4.46, v_num=4, train-loss_step=4.700, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  44%|████▎     | 190/435 [01:14<01:36,  2.55it/s, loss=4.42, v_num=4, train-loss_step=4.550, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  46%|████▌     | 200/435 [01:18<01:32,  2.55it/s, loss=4.42, v_num=4, train-loss_step=4.550, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  46%|████▌     | 200/435 [01:18<01:32,  2.55it/s, loss=4.45, v_num=4, train-loss_step=4.620, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  48%|████▊     | 210/435 [01:22<01:28,  2.54it/s, loss=4.45, v_num=4, train-loss_step=4.620, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  48%|████▊     | 210/435 [01:22<01:28,  2.54it/s, loss=4.47, v_num=4, train-loss_step=4.510, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  51%|█████     | 220/435 [01:26<01:24,  2.55it/s, loss=4.47, v_num=4, train-loss_step=4.510, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  51%|█████     | 220/435 [01:26<01:24,  2.55it/s, loss=4.45, v_num=4, train-loss_step=4.470, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  53%|█████▎    | 230/435 [01:30<01:20,  2.55it/s, loss=4.45, v_num=4, train-loss_step=4.470, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  53%|█████▎    | 230/435 [01:30<01:20,  2.55it/s, loss=4.45, v_num=4, train-loss_step=4.650, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  55%|█████▌    | 240/435 [01:34<01:16,  2.53it/s, loss=4.45, v_num=4, train-loss_step=4.650, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  55%|█████▌    | 240/435 [01:34<01:16,  2.53it/s, loss=4.5, v_num=4, train-loss_step=4.760, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5] Epoch 1:  57%|█████▋    | 250/435 [01:38<01:12,  2.54it/s, loss=4.5, v_num=4, train-loss_step=4.760, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  57%|█████▋    | 250/435 [01:38<01:12,  2.54it/s, loss=4.5, v_num=4, train-loss_step=4.120, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  60%|█████▉    | 260/435 [01:42<01:09,  2.53it/s, loss=4.5, v_num=4, train-loss_step=4.120, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  60%|█████▉    | 260/435 [01:42<01:09,  2.53it/s, loss=4.47, v_num=4, train-loss_step=4.470, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  62%|██████▏   | 270/435 [01:46<01:05,  2.54it/s, loss=4.47, v_num=4, train-loss_step=4.470, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  62%|██████▏   | 270/435 [01:46<01:05,  2.54it/s, loss=4.46, v_num=4, train-loss_step=4.440, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  64%|██████▍   | 280/435 [01:50<01:01,  2.54it/s, loss=4.46, v_num=4, train-loss_step=4.440, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  64%|██████▍   | 280/435 [01:50<01:01,  2.54it/s, loss=4.43, v_num=4, train-loss_step=4.410, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  67%|██████▋   | 290/435 [01:53<00:56,  2.54it/s, loss=4.43, v_num=4, train-loss_step=4.410, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  67%|██████▋   | 290/435 [01:53<00:56,  2.54it/s, loss=4.46, v_num=4, train-loss_step=4.360, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  69%|██████▉   | 300/435 [01:58<00:53,  2.54it/s, loss=4.46, v_num=4, train-loss_step=4.360, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  69%|██████▉   | 300/435 [01:58<00:53,  2.54it/s, loss=4.5, v_num=4, train-loss_step=4.610, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5] Epoch 1:  71%|███████▏  | 310/435 [02:02<00:49,  2.54it/s, loss=4.5, v_num=4, train-loss_step=4.610, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  71%|███████▏  | 310/435 [02:02<00:49,  2.54it/s, loss=4.51, v_num=4, train-loss_step=4.120, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  74%|███████▎  | 320/435 [02:05<00:45,  2.55it/s, loss=4.51, v_num=4, train-loss_step=4.120, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  74%|███████▎  | 320/435 [02:05<00:45,  2.54it/s, loss=4.51, v_num=4, train-loss_step=4.450, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  76%|███████▌  | 330/435 [02:09<00:41,  2.55it/s, loss=4.51, v_num=4, train-loss_step=4.450, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  76%|███████▌  | 330/435 [02:09<00:41,  2.55it/s, loss=4.51, v_num=4, train-loss_step=4.430, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  78%|███████▊  | 340/435 [02:13<00:37,  2.55it/s, loss=4.51, v_num=4, train-loss_step=4.430, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  78%|███████▊  | 340/435 [02:13<00:37,  2.55it/s, loss=4.49, v_num=4, train-loss_step=4.440, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  80%|████████  | 350/435 [02:17<00:33,  2.54it/s, loss=4.49, v_num=4, train-loss_step=4.440, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  80%|████████  | 350/435 [02:17<00:33,  2.54it/s, loss=4.43, v_num=4, train-loss_step=4.160, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=4.43, v_num=4, train-loss_step=4.160, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=4.41, v_num=4, train-loss_step=4.350, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=4.41, v_num=4, train-loss_step=4.350, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=4.4, v_num=4, train-loss_step=4.390, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5] Epoch 1:  87%|████████▋ | 380/435 [02:29<00:21,  2.54it/s, loss=4.4, v_num=4, train-loss_step=4.390, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  87%|████████▋ | 380/435 [02:29<00:21,  2.54it/s, loss=4.35, v_num=4, train-loss_step=4.330, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 1:  90%|████████▉ | 390/435 [02:50<00:19,  2.29it/s, loss=4.35, v_num=4, train-loss_step=4.330, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  92%|█████████▏| 400/435 [03:49<00:20,  1.74it/s, loss=4.35, v_num=4, train-loss_step=4.330, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  94%|█████████▍| 410/435 [04:44<00:17,  1.44it/s, loss=4.35, v_num=4, train-loss_step=4.330, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  97%|█████████▋| 420/435 [05:35<00:11,  1.25it/s, loss=4.35, v_num=4, train-loss_step=4.330, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1:  99%|█████████▉| 430/435 [06:27<00:04,  1.11it/s, loss=4.35, v_num=4, train-loss_step=4.330, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1: 100%|██████████| 435/435 [06:53<00:00,  1.05it/s, loss=4.35, v_num=4, train-loss_step=4.330, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]
+Evaluation on checkpoint [1] 
+vloss:3.9602818489074707
+rouge1:0.6397945880889893
+rouge2:0.3575456142425537
+rougeL:0.4376148581504822
+rougeLsum:0.4376148581504822
+bleu:28.01953125
+Epoch 1: 100%|██████████| 435/435 [06:53<00:00,  1.05it/s, loss=4.33, v_num=4, train-loss_step=4.370, lr_step=3e-5, train-loss_epoch=5.240, lr_epoch=3e-5]Epoch 1: 100%|██████████| 435/435 [06:53<00:00,  1.05it/s, loss=4.33, v_num=4, train-loss_step=4.370, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 1:   0%|          | 0/435 [00:00<?, ?it/s, loss=4.33, v_num=4, train-loss_step=4.370, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]          Epoch 2:   0%|          | 0/435 [00:00<?, ?it/s, loss=4.33, v_num=4, train-loss_step=4.370, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:   2%|▏         | 10/435 [00:04<02:57,  2.39it/s, loss=4.33, v_num=4, train-loss_step=4.370, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:   2%|▏         | 10/435 [00:04<02:58,  2.38it/s, loss=4.31, v_num=4, train-loss_step=3.980, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:   5%|▍         | 20/435 [00:08<02:52,  2.41it/s, loss=4.31, v_num=4, train-loss_step=3.980, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:   5%|▍         | 20/435 [00:08<02:52,  2.41it/s, loss=4.31, v_num=4, train-loss_step=4.170, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:   7%|▋         | 30/435 [00:11<02:41,  2.50it/s, loss=4.31, v_num=4, train-loss_step=4.170, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:   7%|▋         | 30/435 [00:11<02:41,  2.50it/s, loss=4.33, v_num=4, train-loss_step=4.220, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:   9%|▉         | 40/435 [00:15<02:35,  2.55it/s, loss=4.33, v_num=4, train-loss_step=4.220, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:   9%|▉         | 40/435 [00:15<02:35,  2.54it/s, loss=4.3, v_num=4, train-loss_step=4.400, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5] Epoch 2:  11%|█▏        | 50/435 [00:19<02:33,  2.50it/s, loss=4.3, v_num=4, train-loss_step=4.400, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  11%|█▏        | 50/435 [00:19<02:33,  2.50it/s, loss=4.31, v_num=4, train-loss_step=4.340, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  14%|█▍        | 60/435 [00:23<02:29,  2.51it/s, loss=4.31, v_num=4, train-loss_step=4.340, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  14%|█▍        | 60/435 [00:23<02:29,  2.50it/s, loss=4.34, v_num=4, train-loss_step=4.200, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  16%|█▌        | 70/435 [00:27<02:25,  2.51it/s, loss=4.34, v_num=4, train-loss_step=4.200, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  16%|█▌        | 70/435 [00:27<02:25,  2.51it/s, loss=4.32, v_num=4, train-loss_step=4.390, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  18%|█▊        | 80/435 [00:31<02:21,  2.51it/s, loss=4.32, v_num=4, train-loss_step=4.390, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  18%|█▊        | 80/435 [00:31<02:21,  2.51it/s, loss=4.35, v_num=4, train-loss_step=4.550, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  21%|██        | 90/435 [00:35<02:17,  2.51it/s, loss=4.35, v_num=4, train-loss_step=4.550, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  21%|██        | 90/435 [00:35<02:17,  2.51it/s, loss=4.45, v_num=4, train-loss_step=4.300, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  23%|██▎       | 100/435 [00:39<02:12,  2.53it/s, loss=4.45, v_num=4, train-loss_step=4.300, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  23%|██▎       | 100/435 [00:39<02:12,  2.53it/s, loss=4.39, v_num=4, train-loss_step=4.300, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  25%|██▌       | 110/435 [00:43<02:08,  2.52it/s, loss=4.39, v_num=4, train-loss_step=4.300, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  25%|██▌       | 110/435 [00:43<02:08,  2.52it/s, loss=4.25, v_num=4, train-loss_step=4.170, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  28%|██▊       | 120/435 [00:47<02:05,  2.51it/s, loss=4.25, v_num=4, train-loss_step=4.170, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  28%|██▊       | 120/435 [00:47<02:05,  2.51it/s, loss=4.27, v_num=4, train-loss_step=4.560, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  30%|██▉       | 130/435 [00:52<02:02,  2.50it/s, loss=4.27, v_num=4, train-loss_step=4.560, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  30%|██▉       | 130/435 [00:52<02:02,  2.50it/s, loss=4.32, v_num=4, train-loss_step=4.460, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  32%|███▏      | 140/435 [00:55<01:57,  2.50it/s, loss=4.32, v_num=4, train-loss_step=4.460, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  32%|███▏      | 140/435 [00:55<01:57,  2.50it/s, loss=4.27, v_num=4, train-loss_step=4.120, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  34%|███▍      | 150/435 [00:59<01:53,  2.51it/s, loss=4.27, v_num=4, train-loss_step=4.120, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  34%|███▍      | 150/435 [00:59<01:53,  2.51it/s, loss=4.25, v_num=4, train-loss_step=4.570, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  37%|███▋      | 160/435 [01:03<01:49,  2.51it/s, loss=4.25, v_num=4, train-loss_step=4.570, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  37%|███▋      | 160/435 [01:03<01:49,  2.51it/s, loss=4.27, v_num=4, train-loss_step=4.180, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  39%|███▉      | 170/435 [01:07<01:45,  2.52it/s, loss=4.27, v_num=4, train-loss_step=4.180, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  39%|███▉      | 170/435 [01:07<01:45,  2.52it/s, loss=4.22, v_num=4, train-loss_step=3.880, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  41%|████▏     | 180/435 [01:11<01:41,  2.52it/s, loss=4.22, v_num=4, train-loss_step=3.880, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  41%|████▏     | 180/435 [01:11<01:41,  2.52it/s, loss=4.26, v_num=4, train-loss_step=4.220, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  44%|████▎     | 190/435 [01:14<01:36,  2.53it/s, loss=4.26, v_num=4, train-loss_step=4.220, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  44%|████▎     | 190/435 [01:14<01:36,  2.53it/s, loss=4.27, v_num=4, train-loss_step=4.090, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  46%|████▌     | 200/435 [01:18<01:32,  2.53it/s, loss=4.27, v_num=4, train-loss_step=4.090, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  46%|████▌     | 200/435 [01:18<01:32,  2.53it/s, loss=4.21, v_num=4, train-loss_step=4.040, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  48%|████▊     | 210/435 [01:22<01:28,  2.53it/s, loss=4.21, v_num=4, train-loss_step=4.040, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  48%|████▊     | 210/435 [01:22<01:28,  2.53it/s, loss=4.25, v_num=4, train-loss_step=4.650, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  51%|█████     | 220/435 [01:26<01:24,  2.54it/s, loss=4.25, v_num=4, train-loss_step=4.650, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  51%|█████     | 220/435 [01:26<01:24,  2.54it/s, loss=4.27, v_num=4, train-loss_step=4.540, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  53%|█████▎    | 230/435 [01:30<01:20,  2.54it/s, loss=4.27, v_num=4, train-loss_step=4.540, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  53%|█████▎    | 230/435 [01:30<01:20,  2.54it/s, loss=4.2, v_num=4, train-loss_step=4.410, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5] Epoch 2:  55%|█████▌    | 240/435 [01:34<01:16,  2.55it/s, loss=4.2, v_num=4, train-loss_step=4.410, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  55%|█████▌    | 240/435 [01:34<01:16,  2.55it/s, loss=4.17, v_num=4, train-loss_step=4.070, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  57%|█████▋    | 250/435 [01:37<01:12,  2.55it/s, loss=4.17, v_num=4, train-loss_step=4.070, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  57%|█████▋    | 250/435 [01:37<01:12,  2.55it/s, loss=4.14, v_num=4, train-loss_step=4.090, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  60%|█████▉    | 260/435 [01:41<01:08,  2.56it/s, loss=4.14, v_num=4, train-loss_step=4.090, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  60%|█████▉    | 260/435 [01:41<01:08,  2.56it/s, loss=4.13, v_num=4, train-loss_step=4.080, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  62%|██████▏   | 270/435 [01:45<01:04,  2.56it/s, loss=4.13, v_num=4, train-loss_step=4.080, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  62%|██████▏   | 270/435 [01:45<01:04,  2.56it/s, loss=4.22, v_num=4, train-loss_step=4.540, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  64%|██████▍   | 280/435 [01:49<01:00,  2.57it/s, loss=4.22, v_num=4, train-loss_step=4.540, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  64%|██████▍   | 280/435 [01:49<01:00,  2.57it/s, loss=4.26, v_num=4, train-loss_step=4.230, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  67%|██████▋   | 290/435 [01:53<00:56,  2.56it/s, loss=4.26, v_num=4, train-loss_step=4.230, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  67%|██████▋   | 290/435 [01:53<00:56,  2.56it/s, loss=4.28, v_num=4, train-loss_step=4.210, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  69%|██████▉   | 300/435 [01:57<00:52,  2.56it/s, loss=4.28, v_num=4, train-loss_step=4.210, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  69%|██████▉   | 300/435 [01:57<00:52,  2.56it/s, loss=4.32, v_num=4, train-loss_step=4.220, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  71%|███████▏  | 310/435 [02:01<00:48,  2.55it/s, loss=4.32, v_num=4, train-loss_step=4.220, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  71%|███████▏  | 310/435 [02:01<00:49,  2.55it/s, loss=4.34, v_num=4, train-loss_step=4.320, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  74%|███████▎  | 320/435 [02:05<00:45,  2.55it/s, loss=4.34, v_num=4, train-loss_step=4.320, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  74%|███████▎  | 320/435 [02:05<00:45,  2.55it/s, loss=4.31, v_num=4, train-loss_step=4.230, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  76%|███████▌  | 330/435 [02:09<00:41,  2.55it/s, loss=4.31, v_num=4, train-loss_step=4.230, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  76%|███████▌  | 330/435 [02:09<00:41,  2.55it/s, loss=4.23, v_num=4, train-loss_step=4.520, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  78%|███████▊  | 340/435 [02:13<00:37,  2.55it/s, loss=4.23, v_num=4, train-loss_step=4.520, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  78%|███████▊  | 340/435 [02:13<00:37,  2.55it/s, loss=4.26, v_num=4, train-loss_step=4.450, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=4.26, v_num=4, train-loss_step=4.450, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=4.29, v_num=4, train-loss_step=3.890, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  83%|████████▎ | 360/435 [02:21<00:29,  2.55it/s, loss=4.29, v_num=4, train-loss_step=3.890, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  83%|████████▎ | 360/435 [02:21<00:29,  2.55it/s, loss=4.23, v_num=4, train-loss_step=4.250, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  85%|████████▌ | 370/435 [02:25<00:25,  2.55it/s, loss=4.23, v_num=4, train-loss_step=4.250, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  85%|████████▌ | 370/435 [02:25<00:25,  2.55it/s, loss=4.28, v_num=4, train-loss_step=4.410, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  87%|████████▋ | 380/435 [02:29<00:21,  2.55it/s, loss=4.28, v_num=4, train-loss_step=4.410, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  87%|████████▋ | 380/435 [02:29<00:21,  2.55it/s, loss=4.23, v_num=4, train-loss_step=4.240, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 2:  90%|████████▉ | 390/435 [02:50<00:19,  2.29it/s, loss=4.23, v_num=4, train-loss_step=4.240, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  92%|█████████▏| 400/435 [03:55<00:20,  1.70it/s, loss=4.23, v_num=4, train-loss_step=4.240, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  94%|█████████▍| 410/435 [04:58<00:18,  1.37it/s, loss=4.23, v_num=4, train-loss_step=4.240, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  97%|█████████▋| 420/435 [05:56<00:12,  1.18it/s, loss=4.23, v_num=4, train-loss_step=4.240, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2:  99%|█████████▉| 430/435 [06:47<00:04,  1.05it/s, loss=4.23, v_num=4, train-loss_step=4.240, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]Epoch 2: 100%|██████████| 435/435 [07:17<00:00,  1.01s/it, loss=4.23, v_num=4, train-loss_step=4.240, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5]
+Evaluation on checkpoint [2] 
+vloss:3.8930864334106445
+rouge1:0.6431207656860352
+rouge2:0.3591482639312744
+rougeL:0.43422597646713257
+rougeLsum:0.43422597646713257
+bleu:28.0507869720459
+Epoch 2: 100%|██████████| 435/435 [07:17<00:00,  1.01s/it, loss=4.2, v_num=4, train-loss_step=4.270, lr_step=3e-5, train-loss_epoch=4.490, lr_epoch=3e-5] Epoch 2: 100%|██████████| 435/435 [07:17<00:00,  1.01s/it, loss=4.2, v_num=4, train-loss_step=4.270, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 2:   0%|          | 0/435 [00:00<?, ?it/s, loss=4.2, v_num=4, train-loss_step=4.270, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]          Epoch 3:   0%|          | 0/435 [00:00<?, ?it/s, loss=4.2, v_num=4, train-loss_step=4.270, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:   2%|▏         | 10/435 [00:04<03:04,  2.30it/s, loss=4.2, v_num=4, train-loss_step=4.270, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:   2%|▏         | 10/435 [00:04<03:04,  2.30it/s, loss=4.13, v_num=4, train-loss_step=4.270, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:   5%|▍         | 20/435 [00:08<02:51,  2.42it/s, loss=4.13, v_num=4, train-loss_step=4.270, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:   5%|▍         | 20/435 [00:08<02:51,  2.41it/s, loss=4.03, v_num=4, train-loss_step=3.910, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:   7%|▋         | 30/435 [00:11<02:40,  2.52it/s, loss=4.03, v_num=4, train-loss_step=3.910, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:   7%|▋         | 30/435 [00:11<02:40,  2.52it/s, loss=4.07, v_num=4, train-loss_step=4.130, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:   9%|▉         | 40/435 [00:16<02:38,  2.49it/s, loss=4.07, v_num=4, train-loss_step=4.130, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:   9%|▉         | 40/435 [00:16<02:39,  2.48it/s, loss=4.12, v_num=4, train-loss_step=4.030, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  11%|█▏        | 50/435 [00:20<02:37,  2.44it/s, loss=4.12, v_num=4, train-loss_step=4.030, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  11%|█▏        | 50/435 [00:20<02:38,  2.44it/s, loss=4.13, v_num=4, train-loss_step=4.220, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  14%|█▍        | 60/435 [00:24<02:31,  2.48it/s, loss=4.13, v_num=4, train-loss_step=4.220, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  14%|█▍        | 60/435 [00:24<02:31,  2.48it/s, loss=4.12, v_num=4, train-loss_step=3.950, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  16%|█▌        | 70/435 [00:27<02:25,  2.51it/s, loss=4.12, v_num=4, train-loss_step=3.950, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  16%|█▌        | 70/435 [00:27<02:25,  2.51it/s, loss=4.12, v_num=4, train-loss_step=4.330, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  18%|█▊        | 80/435 [00:31<02:20,  2.53it/s, loss=4.12, v_num=4, train-loss_step=4.330, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  18%|█▊        | 80/435 [00:31<02:20,  2.52it/s, loss=4.11, v_num=4, train-loss_step=3.960, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  21%|██        | 90/435 [00:35<02:15,  2.54it/s, loss=4.11, v_num=4, train-loss_step=3.960, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  21%|██        | 90/435 [00:35<02:15,  2.54it/s, loss=4.12, v_num=4, train-loss_step=4.110, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  23%|██▎       | 100/435 [00:39<02:10,  2.56it/s, loss=4.12, v_num=4, train-loss_step=4.110, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  23%|██▎       | 100/435 [00:39<02:10,  2.56it/s, loss=4.09, v_num=4, train-loss_step=3.950, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  25%|██▌       | 110/435 [00:42<02:06,  2.57it/s, loss=4.09, v_num=4, train-loss_step=3.950, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  25%|██▌       | 110/435 [00:42<02:06,  2.57it/s, loss=4.05, v_num=4, train-loss_step=3.930, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  28%|██▊       | 120/435 [00:46<02:02,  2.57it/s, loss=4.05, v_num=4, train-loss_step=3.930, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  28%|██▊       | 120/435 [00:46<02:02,  2.57it/s, loss=4.08, v_num=4, train-loss_step=4.350, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  30%|██▉       | 130/435 [00:50<01:58,  2.58it/s, loss=4.08, v_num=4, train-loss_step=4.350, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  30%|██▉       | 130/435 [00:50<01:58,  2.58it/s, loss=4.1, v_num=4, train-loss_step=4.240, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5] Epoch 3:  32%|███▏      | 140/435 [00:55<01:56,  2.54it/s, loss=4.1, v_num=4, train-loss_step=4.240, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  32%|███▏      | 140/435 [00:55<01:56,  2.54it/s, loss=4.15, v_num=4, train-loss_step=3.760, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  34%|███▍      | 150/435 [00:59<01:52,  2.54it/s, loss=4.15, v_num=4, train-loss_step=3.760, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  34%|███▍      | 150/435 [00:59<01:52,  2.54it/s, loss=4.13, v_num=4, train-loss_step=3.790, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  37%|███▋      | 160/435 [01:02<01:47,  2.55it/s, loss=4.13, v_num=4, train-loss_step=3.790, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  37%|███▋      | 160/435 [01:02<01:47,  2.55it/s, loss=4.04, v_num=4, train-loss_step=4.120, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  39%|███▉      | 170/435 [01:06<01:43,  2.55it/s, loss=4.04, v_num=4, train-loss_step=4.120, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  39%|███▉      | 170/435 [01:06<01:44,  2.55it/s, loss=4.07, v_num=4, train-loss_step=4.320, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  41%|████▏     | 180/435 [01:10<01:40,  2.55it/s, loss=4.07, v_num=4, train-loss_step=4.320, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  41%|████▏     | 180/435 [01:10<01:40,  2.55it/s, loss=4.14, v_num=4, train-loss_step=4.110, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  44%|████▎     | 190/435 [01:14<01:36,  2.54it/s, loss=4.14, v_num=4, train-loss_step=4.110, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  44%|████▎     | 190/435 [01:14<01:36,  2.54it/s, loss=4.19, v_num=4, train-loss_step=4.220, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  46%|████▌     | 200/435 [01:18<01:32,  2.54it/s, loss=4.19, v_num=4, train-loss_step=4.220, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  46%|████▌     | 200/435 [01:18<01:32,  2.54it/s, loss=4.16, v_num=4, train-loss_step=4.120, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  48%|████▊     | 210/435 [01:22<01:28,  2.55it/s, loss=4.16, v_num=4, train-loss_step=4.120, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  48%|████▊     | 210/435 [01:22<01:28,  2.55it/s, loss=4.11, v_num=4, train-loss_step=4.060, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  51%|█████     | 220/435 [01:26<01:24,  2.54it/s, loss=4.11, v_num=4, train-loss_step=4.060, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  51%|█████     | 220/435 [01:26<01:24,  2.54it/s, loss=4.15, v_num=4, train-loss_step=4.310, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  53%|█████▎    | 230/435 [01:30<01:20,  2.55it/s, loss=4.15, v_num=4, train-loss_step=4.310, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  53%|█████▎    | 230/435 [01:30<01:20,  2.55it/s, loss=4.12, v_num=4, train-loss_step=4.050, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  55%|█████▌    | 240/435 [01:34<01:16,  2.55it/s, loss=4.12, v_num=4, train-loss_step=4.050, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  55%|█████▌    | 240/435 [01:34<01:16,  2.55it/s, loss=4.18, v_num=4, train-loss_step=4.430, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  57%|█████▋    | 250/435 [01:38<01:12,  2.54it/s, loss=4.18, v_num=4, train-loss_step=4.430, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  57%|█████▋    | 250/435 [01:38<01:12,  2.54it/s, loss=4.19, v_num=4, train-loss_step=4.310, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  60%|█████▉    | 260/435 [01:42<01:08,  2.54it/s, loss=4.19, v_num=4, train-loss_step=4.310, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  60%|█████▉    | 260/435 [01:42<01:08,  2.54it/s, loss=4.09, v_num=4, train-loss_step=3.900, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  62%|██████▏   | 270/435 [01:46<01:04,  2.54it/s, loss=4.09, v_num=4, train-loss_step=3.900, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  62%|██████▏   | 270/435 [01:46<01:04,  2.54it/s, loss=4.05, v_num=4, train-loss_step=4.220, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  64%|██████▍   | 280/435 [01:49<01:00,  2.55it/s, loss=4.05, v_num=4, train-loss_step=4.220, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  64%|██████▍   | 280/435 [01:49<01:00,  2.55it/s, loss=4.04, v_num=4, train-loss_step=4.310, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  67%|██████▋   | 290/435 [01:53<00:56,  2.55it/s, loss=4.04, v_num=4, train-loss_step=4.310, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  67%|██████▋   | 290/435 [01:53<00:56,  2.55it/s, loss=4.08, v_num=4, train-loss_step=4.070, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  69%|██████▉   | 300/435 [01:57<00:53,  2.54it/s, loss=4.08, v_num=4, train-loss_step=4.070, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  69%|██████▉   | 300/435 [01:58<00:53,  2.54it/s, loss=4.13, v_num=4, train-loss_step=4.050, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  71%|███████▏  | 310/435 [02:01<00:49,  2.55it/s, loss=4.13, v_num=4, train-loss_step=4.050, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  71%|███████▏  | 310/435 [02:01<00:49,  2.55it/s, loss=4.11, v_num=4, train-loss_step=3.890, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  74%|███████▎  | 320/435 [02:05<00:45,  2.55it/s, loss=4.11, v_num=4, train-loss_step=3.890, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  74%|███████▎  | 320/435 [02:05<00:45,  2.55it/s, loss=4.06, v_num=4, train-loss_step=3.710, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  76%|███████▌  | 330/435 [02:09<00:41,  2.54it/s, loss=4.06, v_num=4, train-loss_step=3.710, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  76%|███████▌  | 330/435 [02:09<00:41,  2.54it/s, loss=4.11, v_num=4, train-loss_step=4.220, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  78%|███████▊  | 340/435 [02:13<00:37,  2.54it/s, loss=4.11, v_num=4, train-loss_step=4.220, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  78%|███████▊  | 340/435 [02:13<00:37,  2.54it/s, loss=4.13, v_num=4, train-loss_step=4.060, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=4.13, v_num=4, train-loss_step=4.060, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=4.07, v_num=4, train-loss_step=4.080, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  83%|████████▎ | 360/435 [02:21<00:29,  2.55it/s, loss=4.07, v_num=4, train-loss_step=4.080, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  83%|████████▎ | 360/435 [02:21<00:29,  2.55it/s, loss=4.02, v_num=4, train-loss_step=3.910, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  85%|████████▌ | 370/435 [02:24<00:25,  2.55it/s, loss=4.02, v_num=4, train-loss_step=3.910, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  85%|████████▌ | 370/435 [02:24<00:25,  2.55it/s, loss=4.04, v_num=4, train-loss_step=3.800, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  87%|████████▋ | 380/435 [02:28<00:21,  2.56it/s, loss=4.04, v_num=4, train-loss_step=3.800, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  87%|████████▋ | 380/435 [02:28<00:21,  2.56it/s, loss=4.08, v_num=4, train-loss_step=4.200, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 3:  90%|████████▉ | 390/435 [02:45<00:19,  2.36it/s, loss=4.08, v_num=4, train-loss_step=4.200, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  92%|█████████▏| 400/435 [03:43<00:19,  1.79it/s, loss=4.08, v_num=4, train-loss_step=4.200, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  94%|█████████▍| 410/435 [04:39<00:17,  1.47it/s, loss=4.08, v_num=4, train-loss_step=4.200, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  97%|█████████▋| 420/435 [05:32<00:11,  1.26it/s, loss=4.08, v_num=4, train-loss_step=4.200, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3:  99%|█████████▉| 430/435 [06:28<00:04,  1.11it/s, loss=4.08, v_num=4, train-loss_step=4.200, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3: 100%|██████████| 435/435 [06:54<00:00,  1.05it/s, loss=4.08, v_num=4, train-loss_step=4.200, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]
+Evaluation on checkpoint [3] 
+vloss:4.134127616882324
+rouge1:0.5195614695549011
+rouge2:0.25616273283958435
+rougeL:0.28775057196617126
+rougeLsum:0.28775057196617126
+bleu:18.930625915527344
+Epoch 3: 100%|██████████| 435/435 [06:54<00:00,  1.05it/s, loss=4.19, v_num=4, train-loss_step=4.580, lr_step=3e-5, train-loss_epoch=4.270, lr_epoch=3e-5]Epoch 3: 100%|██████████| 435/435 [06:54<00:00,  1.05it/s, loss=4.19, v_num=4, train-loss_step=4.580, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 3:   0%|          | 0/435 [00:00<?, ?it/s, loss=4.19, v_num=4, train-loss_step=4.580, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]          Epoch 4:   0%|          | 0/435 [00:00<?, ?it/s, loss=4.19, v_num=4, train-loss_step=4.580, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:   2%|▏         | 10/435 [00:04<03:26,  2.06it/s, loss=4.19, v_num=4, train-loss_step=4.580, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:   2%|▏         | 10/435 [00:04<03:27,  2.05it/s, loss=4.48, v_num=4, train-loss_step=4.620, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:   5%|▍         | 20/435 [00:08<02:58,  2.33it/s, loss=4.48, v_num=4, train-loss_step=4.620, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:   5%|▍         | 20/435 [00:08<02:58,  2.33it/s, loss=4.53, v_num=4, train-loss_step=4.390, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:   7%|▋         | 30/435 [00:12<02:48,  2.41it/s, loss=4.53, v_num=4, train-loss_step=4.390, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:   7%|▋         | 30/435 [00:12<02:48,  2.40it/s, loss=4.39, v_num=4, train-loss_step=4.290, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:   9%|▉         | 40/435 [00:16<02:40,  2.47it/s, loss=4.39, v_num=4, train-loss_step=4.290, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:   9%|▉         | 40/435 [00:16<02:40,  2.47it/s, loss=4.25, v_num=4, train-loss_step=3.960, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  11%|█▏        | 50/435 [00:19<02:33,  2.51it/s, loss=4.25, v_num=4, train-loss_step=3.960, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  11%|█▏        | 50/435 [00:19<02:33,  2.51it/s, loss=4.12, v_num=4, train-loss_step=4.020, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  14%|█▍        | 60/435 [00:24<02:32,  2.46it/s, loss=4.12, v_num=4, train-loss_step=4.020, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  14%|█▍        | 60/435 [00:24<02:32,  2.46it/s, loss=4.08, v_num=4, train-loss_step=4.090, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  16%|█▌        | 70/435 [00:28<02:27,  2.47it/s, loss=4.08, v_num=4, train-loss_step=4.090, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  16%|█▌        | 70/435 [00:28<02:27,  2.47it/s, loss=4.08, v_num=4, train-loss_step=3.950, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  18%|█▊        | 80/435 [00:32<02:22,  2.49it/s, loss=4.08, v_num=4, train-loss_step=3.950, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  18%|█▊        | 80/435 [00:32<02:22,  2.49it/s, loss=4.02, v_num=4, train-loss_step=3.920, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  21%|██        | 90/435 [00:35<02:17,  2.51it/s, loss=4.02, v_num=4, train-loss_step=3.920, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  21%|██        | 90/435 [00:35<02:17,  2.51it/s, loss=3.99, v_num=4, train-loss_step=3.980, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  23%|██▎       | 100/435 [00:39<02:13,  2.51it/s, loss=3.99, v_num=4, train-loss_step=3.980, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  23%|██▎       | 100/435 [00:39<02:13,  2.51it/s, loss=4, v_num=4, train-loss_step=3.910, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]   Epoch 4:  25%|██▌       | 110/435 [00:43<02:09,  2.51it/s, loss=4, v_num=4, train-loss_step=3.910, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  25%|██▌       | 110/435 [00:43<02:09,  2.51it/s, loss=4, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  28%|██▊       | 120/435 [00:47<02:04,  2.53it/s, loss=4, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  28%|██▊       | 120/435 [00:47<02:04,  2.53it/s, loss=3.96, v_num=4, train-loss_step=4.030, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  30%|██▉       | 130/435 [00:51<02:00,  2.54it/s, loss=3.96, v_num=4, train-loss_step=4.030, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  30%|██▉       | 130/435 [00:51<02:00,  2.54it/s, loss=3.94, v_num=4, train-loss_step=4.120, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  32%|███▏      | 140/435 [00:55<01:56,  2.53it/s, loss=3.94, v_num=4, train-loss_step=4.120, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  32%|███▏      | 140/435 [00:55<01:56,  2.53it/s, loss=3.99, v_num=4, train-loss_step=4.160, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  34%|███▍      | 150/435 [00:59<01:53,  2.52it/s, loss=3.99, v_num=4, train-loss_step=4.160, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  34%|███▍      | 150/435 [00:59<01:53,  2.52it/s, loss=4.01, v_num=4, train-loss_step=3.980, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  37%|███▋      | 160/435 [01:03<01:48,  2.53it/s, loss=4.01, v_num=4, train-loss_step=3.980, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  37%|███▋      | 160/435 [01:03<01:48,  2.53it/s, loss=3.99, v_num=4, train-loss_step=4.200, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  39%|███▉      | 170/435 [01:07<01:45,  2.52it/s, loss=3.99, v_num=4, train-loss_step=4.200, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  39%|███▉      | 170/435 [01:07<01:45,  2.52it/s, loss=4.04, v_num=4, train-loss_step=4.280, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  41%|████▏     | 180/435 [01:11<01:41,  2.52it/s, loss=4.04, v_num=4, train-loss_step=4.280, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  41%|████▏     | 180/435 [01:11<01:41,  2.52it/s, loss=4.03, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  44%|████▎     | 190/435 [01:15<01:37,  2.52it/s, loss=4.03, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  44%|████▎     | 190/435 [01:15<01:37,  2.52it/s, loss=3.98, v_num=4, train-loss_step=4.190, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  46%|████▌     | 200/435 [01:19<01:32,  2.53it/s, loss=3.98, v_num=4, train-loss_step=4.190, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  46%|████▌     | 200/435 [01:19<01:32,  2.53it/s, loss=3.97, v_num=4, train-loss_step=4.010, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  48%|████▊     | 210/435 [01:23<01:28,  2.53it/s, loss=3.97, v_num=4, train-loss_step=4.010, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  48%|████▊     | 210/435 [01:23<01:28,  2.53it/s, loss=4.04, v_num=4, train-loss_step=4.100, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  51%|█████     | 220/435 [01:26<01:24,  2.53it/s, loss=4.04, v_num=4, train-loss_step=4.100, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  51%|█████     | 220/435 [01:26<01:25,  2.53it/s, loss=3.99, v_num=4, train-loss_step=3.850, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  53%|█████▎    | 230/435 [01:30<01:20,  2.53it/s, loss=3.99, v_num=4, train-loss_step=3.850, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  53%|█████▎    | 230/435 [01:30<01:20,  2.53it/s, loss=3.95, v_num=4, train-loss_step=4.110, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  55%|█████▌    | 240/435 [01:34<01:16,  2.54it/s, loss=3.95, v_num=4, train-loss_step=4.110, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  55%|█████▌    | 240/435 [01:34<01:16,  2.54it/s, loss=4, v_num=4, train-loss_step=3.730, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]   Epoch 4:  57%|█████▋    | 250/435 [01:38<01:12,  2.54it/s, loss=4, v_num=4, train-loss_step=3.730, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  57%|█████▋    | 250/435 [01:38<01:12,  2.54it/s, loss=4, v_num=4, train-loss_step=4.050, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  60%|█████▉    | 260/435 [01:42<01:08,  2.54it/s, loss=4, v_num=4, train-loss_step=4.050, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  60%|█████▉    | 260/435 [01:42<01:08,  2.54it/s, loss=3.92, v_num=4, train-loss_step=3.710, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  62%|██████▏   | 270/435 [01:46<01:04,  2.54it/s, loss=3.92, v_num=4, train-loss_step=3.710, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  62%|██████▏   | 270/435 [01:46<01:04,  2.54it/s, loss=3.91, v_num=4, train-loss_step=3.800, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  64%|██████▍   | 280/435 [01:50<01:01,  2.54it/s, loss=3.91, v_num=4, train-loss_step=3.800, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  64%|██████▍   | 280/435 [01:50<01:01,  2.54it/s, loss=4.01, v_num=4, train-loss_step=4.050, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  67%|██████▋   | 290/435 [01:53<00:56,  2.54it/s, loss=4.01, v_num=4, train-loss_step=4.050, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  67%|██████▋   | 290/435 [01:53<00:56,  2.54it/s, loss=4.01, v_num=4, train-loss_step=3.920, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  69%|██████▉   | 300/435 [01:57<00:52,  2.55it/s, loss=4.01, v_num=4, train-loss_step=3.920, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  69%|██████▉   | 300/435 [01:57<00:52,  2.55it/s, loss=3.96, v_num=4, train-loss_step=3.620, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  71%|███████▏  | 310/435 [02:01<00:49,  2.54it/s, loss=3.96, v_num=4, train-loss_step=3.620, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  71%|███████▏  | 310/435 [02:01<00:49,  2.54it/s, loss=4, v_num=4, train-loss_step=4.140, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]   Epoch 4:  74%|███████▎  | 320/435 [02:05<00:45,  2.54it/s, loss=4, v_num=4, train-loss_step=4.140, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  74%|███████▎  | 320/435 [02:05<00:45,  2.54it/s, loss=4.01, v_num=4, train-loss_step=3.670, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  76%|███████▌  | 330/435 [02:09<00:41,  2.54it/s, loss=4.01, v_num=4, train-loss_step=3.670, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  76%|███████▌  | 330/435 [02:09<00:41,  2.54it/s, loss=4.01, v_num=4, train-loss_step=4.080, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  78%|███████▊  | 340/435 [02:13<00:37,  2.55it/s, loss=4.01, v_num=4, train-loss_step=4.080, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  78%|███████▊  | 340/435 [02:13<00:37,  2.55it/s, loss=3.99, v_num=4, train-loss_step=4.000, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  80%|████████  | 350/435 [02:17<00:33,  2.54it/s, loss=3.99, v_num=4, train-loss_step=4.000, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  80%|████████  | 350/435 [02:17<00:33,  2.54it/s, loss=3.98, v_num=4, train-loss_step=4.210, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=3.98, v_num=4, train-loss_step=4.210, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=4.01, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=4.01, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=3.97, v_num=4, train-loss_step=4.070, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  87%|████████▋ | 380/435 [02:29<00:21,  2.54it/s, loss=3.97, v_num=4, train-loss_step=4.070, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  87%|████████▋ | 380/435 [02:29<00:21,  2.54it/s, loss=3.96, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 4:  90%|████████▉ | 390/435 [02:50<00:19,  2.29it/s, loss=3.96, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  92%|█████████▏| 400/435 [03:51<00:20,  1.73it/s, loss=3.96, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  94%|█████████▍| 410/435 [04:51<00:17,  1.41it/s, loss=3.96, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  97%|█████████▋| 420/435 [05:44<00:12,  1.22it/s, loss=3.96, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4:  99%|█████████▉| 430/435 [06:34<00:04,  1.09it/s, loss=3.96, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4: 100%|██████████| 435/435 [06:59<00:00,  1.04it/s, loss=3.96, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]
+Evaluation on checkpoint [4] 
+vloss:3.7706191539764404
+rouge1:0.670866847038269
+rouge2:0.38890206813812256
+rougeL:0.4683178663253784
+rougeLsum:0.4683178663253784
+bleu:31.45423126220703
+Epoch 4: 100%|██████████| 435/435 [06:59<00:00,  1.04it/s, loss=3.95, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=4.110, lr_epoch=3e-5]Epoch 4: 100%|██████████| 435/435 [06:59<00:00,  1.04it/s, loss=3.95, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 4:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.95, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]          Epoch 5:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.95, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:   2%|▏         | 10/435 [00:04<02:53,  2.45it/s, loss=3.95, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:   2%|▏         | 10/435 [00:04<02:53,  2.45it/s, loss=3.88, v_num=4, train-loss_step=3.630, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:   5%|▍         | 20/435 [00:07<02:40,  2.59it/s, loss=3.88, v_num=4, train-loss_step=3.630, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:   5%|▍         | 20/435 [00:07<02:40,  2.58it/s, loss=3.81, v_num=4, train-loss_step=3.710, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:   7%|▋         | 30/435 [00:11<02:34,  2.62it/s, loss=3.81, v_num=4, train-loss_step=3.710, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:   7%|▋         | 30/435 [00:11<02:34,  2.62it/s, loss=3.87, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:   9%|▉         | 40/435 [00:15<02:29,  2.65it/s, loss=3.87, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:   9%|▉         | 40/435 [00:15<02:29,  2.65it/s, loss=3.91, v_num=4, train-loss_step=3.830, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  11%|█▏        | 50/435 [00:19<02:26,  2.63it/s, loss=3.91, v_num=4, train-loss_step=3.830, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  11%|█▏        | 50/435 [00:19<02:26,  2.63it/s, loss=3.87, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  14%|█▍        | 60/435 [00:22<02:23,  2.62it/s, loss=3.87, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  14%|█▍        | 60/435 [00:22<02:23,  2.62it/s, loss=3.87, v_num=4, train-loss_step=3.620, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  16%|█▌        | 70/435 [00:26<02:18,  2.63it/s, loss=3.87, v_num=4, train-loss_step=3.620, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  16%|█▌        | 70/435 [00:26<02:18,  2.63it/s, loss=3.92, v_num=4, train-loss_step=4.290, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  18%|█▊        | 80/435 [00:30<02:15,  2.63it/s, loss=3.92, v_num=4, train-loss_step=4.290, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  18%|█▊        | 80/435 [00:30<02:15,  2.63it/s, loss=3.97, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  21%|██        | 90/435 [00:34<02:11,  2.62it/s, loss=3.97, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  21%|██        | 90/435 [00:34<02:11,  2.62it/s, loss=3.98, v_num=4, train-loss_step=4.020, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  23%|██▎       | 100/435 [00:38<02:08,  2.60it/s, loss=3.98, v_num=4, train-loss_step=4.020, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  23%|██▎       | 100/435 [00:38<02:08,  2.60it/s, loss=3.93, v_num=4, train-loss_step=3.740, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  25%|██▌       | 110/435 [00:42<02:04,  2.61it/s, loss=3.93, v_num=4, train-loss_step=3.740, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  25%|██▌       | 110/435 [00:42<02:04,  2.61it/s, loss=3.91, v_num=4, train-loss_step=3.890, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  28%|██▊       | 120/435 [00:46<02:00,  2.61it/s, loss=3.91, v_num=4, train-loss_step=3.890, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  28%|██▊       | 120/435 [00:46<02:00,  2.61it/s, loss=3.89, v_num=4, train-loss_step=3.930, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  30%|██▉       | 130/435 [00:50<01:58,  2.58it/s, loss=3.89, v_num=4, train-loss_step=3.930, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  30%|██▉       | 130/435 [00:50<01:58,  2.58it/s, loss=3.91, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  32%|███▏      | 140/435 [00:54<01:54,  2.59it/s, loss=3.91, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  32%|███▏      | 140/435 [00:54<01:54,  2.59it/s, loss=3.93, v_num=4, train-loss_step=3.990, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  34%|███▍      | 150/435 [00:58<01:50,  2.59it/s, loss=3.93, v_num=4, train-loss_step=3.990, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  34%|███▍      | 150/435 [00:58<01:50,  2.58it/s, loss=3.89, v_num=4, train-loss_step=4.110, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  37%|███▋      | 160/435 [01:02<01:46,  2.57it/s, loss=3.89, v_num=4, train-loss_step=4.110, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  37%|███▋      | 160/435 [01:02<01:46,  2.57it/s, loss=3.93, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  39%|███▉      | 170/435 [01:06<01:43,  2.57it/s, loss=3.93, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  39%|███▉      | 170/435 [01:06<01:43,  2.57it/s, loss=3.96, v_num=4, train-loss_step=3.920, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  41%|████▏     | 180/435 [01:09<01:38,  2.58it/s, loss=3.96, v_num=4, train-loss_step=3.920, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  41%|████▏     | 180/435 [01:09<01:39,  2.58it/s, loss=3.93, v_num=4, train-loss_step=3.980, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  44%|████▎     | 190/435 [01:13<01:34,  2.58it/s, loss=3.93, v_num=4, train-loss_step=3.980, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  44%|████▎     | 190/435 [01:13<01:34,  2.58it/s, loss=3.87, v_num=4, train-loss_step=3.690, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  46%|████▌     | 200/435 [01:17<01:30,  2.59it/s, loss=3.87, v_num=4, train-loss_step=3.690, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  46%|████▌     | 200/435 [01:17<01:30,  2.59it/s, loss=3.88, v_num=4, train-loss_step=4.020, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  48%|████▊     | 210/435 [01:20<01:26,  2.59it/s, loss=3.88, v_num=4, train-loss_step=4.020, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  48%|████▊     | 210/435 [01:20<01:26,  2.59it/s, loss=3.87, v_num=4, train-loss_step=4.030, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  51%|█████     | 220/435 [01:24<01:23,  2.59it/s, loss=3.87, v_num=4, train-loss_step=4.030, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  51%|█████     | 220/435 [01:25<01:23,  2.59it/s, loss=3.84, v_num=4, train-loss_step=3.910, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  53%|█████▎    | 230/435 [01:28<01:19,  2.59it/s, loss=3.84, v_num=4, train-loss_step=3.910, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  53%|█████▎    | 230/435 [01:28<01:19,  2.59it/s, loss=3.89, v_num=4, train-loss_step=3.840, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  55%|█████▌    | 240/435 [01:32<01:15,  2.59it/s, loss=3.89, v_num=4, train-loss_step=3.840, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  55%|█████▌    | 240/435 [01:32<01:15,  2.59it/s, loss=3.89, v_num=4, train-loss_step=4.030, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  57%|█████▋    | 250/435 [01:36<01:11,  2.59it/s, loss=3.89, v_num=4, train-loss_step=4.030, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  57%|█████▋    | 250/435 [01:36<01:11,  2.59it/s, loss=3.88, v_num=4, train-loss_step=3.860, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  60%|█████▉    | 260/435 [01:40<01:07,  2.59it/s, loss=3.88, v_num=4, train-loss_step=3.860, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  60%|█████▉    | 260/435 [01:40<01:07,  2.59it/s, loss=3.91, v_num=4, train-loss_step=3.970, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  62%|██████▏   | 270/435 [01:44<01:03,  2.59it/s, loss=3.91, v_num=4, train-loss_step=3.970, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  62%|██████▏   | 270/435 [01:44<01:03,  2.59it/s, loss=3.86, v_num=4, train-loss_step=3.770, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  64%|██████▍   | 280/435 [01:48<00:59,  2.59it/s, loss=3.86, v_num=4, train-loss_step=3.770, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  64%|██���███▍   | 280/435 [01:48<00:59,  2.59it/s, loss=3.88, v_num=4, train-loss_step=3.630, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  67%|██████▋   | 290/435 [01:52<00:56,  2.59it/s, loss=3.88, v_num=4, train-loss_step=3.630, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  67%|██████▋   | 290/435 [01:52<00:56,  2.59it/s, loss=3.94, v_num=4, train-loss_step=3.880, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  69%|██████▉   | 300/435 [01:55<00:52,  2.59it/s, loss=3.94, v_num=4, train-loss_step=3.880, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  69%|██████▉   | 300/435 [01:55<00:52,  2.59it/s, loss=3.9, v_num=4, train-loss_step=3.790, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5] Epoch 5:  71%|███████▏  | 310/435 [01:59<00:48,  2.59it/s, loss=3.9, v_num=4, train-loss_step=3.790, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  71%|███████▏  | 310/435 [01:59<00:48,  2.59it/s, loss=3.9, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  74%|███████▎  | 320/435 [02:03<00:44,  2.58it/s, loss=3.9, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  74%|███████▎  | 320/435 [02:03<00:44,  2.58it/s, loss=3.92, v_num=4, train-loss_step=3.800, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  76%|███████▌  | 330/435 [02:07<00:40,  2.59it/s, loss=3.92, v_num=4, train-loss_step=3.800, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  76%|███████▌  | 330/435 [02:07<00:40,  2.59it/s, loss=3.93, v_num=4, train-loss_step=4.070, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  78%|███████▊  | 340/435 [02:11<00:36,  2.58it/s, loss=3.93, v_num=4, train-loss_step=4.070, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  78%|███████▊  | 340/435 [02:11<00:36,  2.58it/s, loss=3.93, v_num=4, train-loss_step=3.850, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  80%|████████  | 350/435 [02:15<00:32,  2.59it/s, loss=3.93, v_num=4, train-loss_step=3.850, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  80%|████████  | 350/435 [02:15<00:32,  2.59it/s, loss=3.88, v_num=4, train-loss_step=3.790, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  83%|████████▎ | 360/435 [02:19<00:29,  2.59it/s, loss=3.88, v_num=4, train-loss_step=3.790, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  83%|████████▎ | 360/435 [02:19<00:29,  2.59it/s, loss=3.89, v_num=4, train-loss_step=3.830, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  85%|████████▌ | 370/435 [02:23<00:25,  2.58it/s, loss=3.89, v_num=4, train-loss_step=3.830, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  85%|████████▌ | 370/435 [02:23<00:25,  2.58it/s, loss=3.92, v_num=4, train-loss_step=4.100, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  87%|████████▋ | 380/435 [02:27<00:21,  2.58it/s, loss=3.92, v_num=4, train-loss_step=4.100, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  87%|████████▋ | 380/435 [02:27<00:21,  2.58it/s, loss=3.9, v_num=4, train-loss_step=3.760, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5] 
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 5:  90%|████████▉ | 390/435 [02:48<00:19,  2.31it/s, loss=3.9, v_num=4, train-loss_step=3.760, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  92%|█████████▏| 400/435 [03:43<00:19,  1.79it/s, loss=3.9, v_num=4, train-loss_step=3.760, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  94%|█████████▍| 410/435 [04:40<00:17,  1.46it/s, loss=3.9, v_num=4, train-loss_step=3.760, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  97%|█████████▋| 420/435 [05:29<00:11,  1.27it/s, loss=3.9, v_num=4, train-loss_step=3.760, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5:  99%|█████████▉| 430/435 [06:15<00:04,  1.15it/s, loss=3.9, v_num=4, train-loss_step=3.760, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5: 100%|██████████| 435/435 [06:37<00:00,  1.09it/s, loss=3.9, v_num=4, train-loss_step=3.760, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]
+Evaluation on checkpoint [5] 
+vloss:3.7687716484069824
+rouge1:0.6512163281440735
+rouge2:0.3778703212738037
+rougeL:0.4530671536922455
+rougeLsum:0.4530671536922455
+bleu:29.67555046081543
+Epoch 5: 100%|██████████| 435/435 [06:37<00:00,  1.09it/s, loss=3.89, v_num=4, train-loss_step=4.010, lr_step=3e-5, train-loss_epoch=4.030, lr_epoch=3e-5]Epoch 5: 100%|██████████| 435/435 [06:37<00:00,  1.09it/s, loss=3.89, v_num=4, train-loss_step=4.010, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 5:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.89, v_num=4, train-loss_step=4.010, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]          Epoch 6:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.89, v_num=4, train-loss_step=4.010, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:   2%|▏         | 10/435 [00:04<02:58,  2.38it/s, loss=3.89, v_num=4, train-loss_step=4.010, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:   2%|▏         | 10/435 [00:04<02:59,  2.37it/s, loss=3.81, v_num=4, train-loss_step=3.830, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:   5%|▍         | 20/435 [00:07<02:45,  2.50it/s, loss=3.81, v_num=4, train-loss_step=3.830, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:   5%|▍         | 20/435 [00:08<02:46,  2.50it/s, loss=3.74, v_num=4, train-loss_step=3.710, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:   7%|▋         | 30/435 [00:11<02:41,  2.51it/s, loss=3.74, v_num=4, train-loss_step=3.710, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:   7%|▋         | 30/435 [00:11<02:41,  2.51it/s, loss=3.74, v_num=4, train-loss_step=3.660, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:   9%|▉         | 40/435 [00:15<02:34,  2.55it/s, loss=3.74, v_num=4, train-loss_step=3.660, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:   9%|▉         | 40/435 [00:15<02:34,  2.55it/s, loss=3.79, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  11%|█▏        | 50/435 [00:19<02:29,  2.58it/s, loss=3.79, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  11%|█▏        | 50/435 [00:19<02:29,  2.57it/s, loss=3.74, v_num=4, train-loss_step=3.690, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  14%|█▍        | 60/435 [00:23<02:24,  2.59it/s, loss=3.74, v_num=4, train-loss_step=3.690, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  14%|█▍        | 60/435 [00:23<02:24,  2.59it/s, loss=3.71, v_num=4, train-loss_step=3.830, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  16%|█▌        | 70/435 [00:26<02:19,  2.61it/s, loss=3.71, v_num=4, train-loss_step=3.830, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  16%|█▌        | 70/435 [00:26<02:19,  2.61it/s, loss=3.75, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  18%|█▊        | 80/435 [00:30<02:15,  2.62it/s, loss=3.75, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  18%|█▊        | 80/435 [00:30<02:15,  2.62it/s, loss=3.72, v_num=4, train-loss_step=3.680, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  21%|██        | 90/435 [00:34<02:12,  2.61it/s, loss=3.72, v_num=4, train-loss_step=3.680, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  21%|██        | 90/435 [00:34<02:12,  2.61it/s, loss=3.75, v_num=4, train-loss_step=3.730, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  23%|██▎       | 100/435 [00:38<02:09,  2.59it/s, loss=3.75, v_num=4, train-loss_step=3.730, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  23%|██▎       | 100/435 [00:38<02:09,  2.59it/s, loss=3.81, v_num=4, train-loss_step=3.890, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  25%|██▌       | 110/435 [00:42<02:05,  2.60it/s, loss=3.81, v_num=4, train-loss_step=3.890, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  25%|██▌       | 110/435 [00:42<02:05,  2.60it/s, loss=3.81, v_num=4, train-loss_step=3.800, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  28%|██▊       | 120/435 [00:46<02:02,  2.58it/s, loss=3.81, v_num=4, train-loss_step=3.800, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  28%|██▊       | 120/435 [00:46<02:02,  2.58it/s, loss=3.79, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  30%|██▉       | 130/435 [00:50<01:58,  2.57it/s, loss=3.79, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  30%|██▉       | 130/435 [00:50<01:58,  2.57it/s, loss=3.8, v_num=4, train-loss_step=3.620, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5] Epoch 6:  32%|███▏      | 140/435 [00:54<01:54,  2.58it/s, loss=3.8, v_num=4, train-loss_step=3.620, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  32%|███▏      | 140/435 [00:54<01:54,  2.58it/s, loss=3.81, v_num=4, train-loss_step=3.900, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  34%|███▍      | 150/435 [00:58<01:50,  2.58it/s, loss=3.81, v_num=4, train-loss_step=3.900, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  34%|███▍      | 150/435 [00:58<01:50,  2.58it/s, loss=3.77, v_num=4, train-loss_step=3.870, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  37%|███▋      | 160/435 [01:02<01:46,  2.57it/s, loss=3.77, v_num=4, train-loss_step=3.870, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  37%|███▋      | 160/435 [01:02<01:46,  2.57it/s, loss=3.77, v_num=4, train-loss_step=3.800, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  39%|███▉      | 170/435 [01:06<01:43,  2.57it/s, loss=3.77, v_num=4, train-loss_step=3.800, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  39%|███▉      | 170/435 [01:06<01:43,  2.57it/s, loss=3.79, v_num=4, train-loss_step=3.720, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  41%|████▏     | 180/435 [01:10<01:39,  2.57it/s, loss=3.79, v_num=4, train-loss_step=3.720, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  41%|████▏     | 180/435 [01:10<01:39,  2.57it/s, loss=3.79, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  44%|████▎     | 190/435 [01:14<01:35,  2.57it/s, loss=3.79, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  44%|████▎     | 190/435 [01:14<01:35,  2.57it/s, loss=3.77, v_num=4, train-loss_step=3.610, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  46%|████▌     | 200/435 [01:17<01:31,  2.57it/s, loss=3.77, v_num=4, train-loss_step=3.610, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  46%|████▌     | 200/435 [01:17<01:31,  2.57it/s, loss=3.75, v_num=4, train-loss_step=3.620, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  48%|████▊     | 210/435 [01:22<01:27,  2.56it/s, loss=3.75, v_num=4, train-loss_step=3.620, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  48%|████▊     | 210/435 [01:22<01:27,  2.56it/s, loss=3.8, v_num=4, train-loss_step=3.860, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5] Epoch 6:  51%|█████     | 220/435 [01:25<01:23,  2.56it/s, loss=3.8, v_num=4, train-loss_step=3.860, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  51%|█████     | 220/435 [01:25<01:23,  2.56it/s, loss=3.87, v_num=4, train-loss_step=3.590, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  53%|█████▎    | 230/435 [01:30<01:20,  2.55it/s, loss=3.87, v_num=4, train-loss_step=3.590, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  53%|█████▎    | 230/435 [01:30<01:20,  2.55it/s, loss=3.93, v_num=4, train-loss_step=4.220, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  55%|█████▌    | 240/435 [01:33<01:16,  2.55it/s, loss=3.93, v_num=4, train-loss_step=4.220, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  55%|█████▌    | 240/435 [01:33<01:16,  2.55it/s, loss=3.87, v_num=4, train-loss_step=3.730, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  57%|█████▋    | 250/435 [01:37<01:12,  2.56it/s, loss=3.87, v_num=4, train-loss_step=3.730, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  57%|█████▋    | 250/435 [01:37<01:12,  2.56it/s, loss=3.77, v_num=4, train-loss_step=3.550, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  60%|█████▉    | 260/435 [01:42<01:08,  2.55it/s, loss=3.77, v_num=4, train-loss_step=3.550, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  60%|█████▉    | 260/435 [01:42<01:08,  2.55it/s, loss=3.8, v_num=4, train-loss_step=3.910, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5] Epoch 6:  62%|██████▏   | 270/435 [01:46<01:04,  2.54it/s, loss=3.8, v_num=4, train-loss_step=3.910, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  62%|██████▏   | 270/435 [01:46<01:04,  2.54it/s, loss=3.84, v_num=4, train-loss_step=3.660, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  64%|██████▍   | 280/435 [01:50<01:01,  2.53it/s, loss=3.84, v_num=4, train-loss_step=3.660, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  64%|██████▍   | 280/435 [01:50<01:01,  2.53it/s, loss=3.85, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  67%|██████▋   | 290/435 [01:54<00:57,  2.54it/s, loss=3.85, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  67%|██████▋   | 290/435 [01:54<00:57,  2.54it/s, loss=3.82, v_num=4, train-loss_step=3.920, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  69%|██████▉   | 300/435 [01:58<00:53,  2.54it/s, loss=3.82, v_num=4, train-loss_step=3.920, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  69%|██████▉   | 300/435 [01:58<00:53,  2.54it/s, loss=3.82, v_num=4, train-loss_step=4.020, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  71%|███████▏  | 310/435 [02:02<00:49,  2.54it/s, loss=3.82, v_num=4, train-loss_step=4.020, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  71%|███████▏  | 310/435 [02:02<00:49,  2.54it/s, loss=3.81, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  74%|███████▎  | 320/435 [02:05<00:45,  2.54it/s, loss=3.81, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  74%|███████▎  | 320/435 [02:05<00:45,  2.54it/s, loss=3.79, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  76%|███████▌  | 330/435 [02:09<00:41,  2.54it/s, loss=3.79, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  76%|███████▌  | 330/435 [02:09<00:41,  2.54it/s, loss=3.84, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  78%|███████▊  | 340/435 [02:13<00:37,  2.54it/s, loss=3.84, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  78%|███████▊  | 340/435 [02:13<00:37,  2.54it/s, loss=3.87, v_num=4, train-loss_step=3.830, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  80%|████████  | 350/435 [02:17<00:33,  2.54it/s, loss=3.87, v_num=4, train-loss_step=3.830, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  80%|████████  | 350/435 [02:17<00:33,  2.54it/s, loss=3.83, v_num=4, train-loss_step=3.770, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=3.83, v_num=4, train-loss_step=3.770, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=3.76, v_num=4, train-loss_step=3.810, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=3.76, v_num=4, train-loss_step=3.810, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=3.82, v_num=4, train-loss_step=4.030, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  87%|████████▋ | 380/435 [02:29<00:21,  2.55it/s, loss=3.82, v_num=4, train-loss_step=4.030, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  87%|████████▋ | 380/435 [02:29<00:21,  2.55it/s, loss=3.84, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 6:  90%|████████▉ | 390/435 [02:52<00:19,  2.26it/s, loss=3.84, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  92%|█████████▏| 400/435 [03:55<00:20,  1.70it/s, loss=3.84, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  94%|█████████▍| 410/435 [04:56<00:18,  1.38it/s, loss=3.84, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  97%|█████████▋| 420/435 [05:48<00:12,  1.20it/s, loss=3.84, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6:  99%|█████████▉| 430/435 [06:40<00:04,  1.07it/s, loss=3.84, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]Epoch 6: 100%|██████████| 435/435 [07:07<00:00,  1.02it/s, loss=3.84, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5]
+Evaluation on checkpoint [6] 
+vloss:3.7560746669769287
+rouge1:0.656237006187439
+rouge2:0.3807153105735779
+rougeL:0.45973166823387146
+rougeLsum:0.45973166823387146
+bleu:30.70430564880371
+Epoch 6: 100%|██████████| 435/435 [07:07<00:00,  1.02it/s, loss=3.8, v_num=4, train-loss_step=4.080, lr_step=3e-5, train-loss_epoch=3.900, lr_epoch=3e-5] Epoch 6: 100%|██████████| 435/435 [07:07<00:00,  1.02it/s, loss=3.8, v_num=4, train-loss_step=4.080, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 6:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.8, v_num=4, train-loss_step=4.080, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]          Epoch 7:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.8, v_num=4, train-loss_step=4.080, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:   2%|▏         | 10/435 [00:04<02:56,  2.41it/s, loss=3.8, v_num=4, train-loss_step=4.080, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:   2%|▏         | 10/435 [00:04<02:56,  2.40it/s, loss=3.74, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:   5%|▍         | 20/435 [00:08<02:46,  2.49it/s, loss=3.74, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:   5%|▍         | 20/435 [00:08<02:46,  2.49it/s, loss=3.68, v_num=4, train-loss_step=3.610, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:   7%|▋         | 30/435 [00:11<02:38,  2.56it/s, loss=3.68, v_num=4, train-loss_step=3.610, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:   7%|▋         | 30/435 [00:11<02:38,  2.56it/s, loss=3.71, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:   9%|▉         | 40/435 [00:15<02:31,  2.61it/s, loss=3.71, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:   9%|▉         | 40/435 [00:15<02:31,  2.60it/s, loss=3.73, v_num=4, train-loss_step=3.830, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  11%|█▏        | 50/435 [00:18<02:26,  2.64it/s, loss=3.73, v_num=4, train-loss_step=3.830, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  11%|█▏        | 50/435 [00:18<02:26,  2.64it/s, loss=3.71, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  14%|█▍        | 60/435 [00:22<02:22,  2.63it/s, loss=3.71, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  14%|█▍        | 60/435 [00:22<02:22,  2.63it/s, loss=3.69, v_num=4, train-loss_step=3.640, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  16%|█▌        | 70/435 [00:26<02:19,  2.61it/s, loss=3.69, v_num=4, train-loss_step=3.640, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  16%|█▌        | 70/435 [00:26<02:19,  2.61it/s, loss=3.74, v_num=4, train-loss_step=3.870, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  18%|█▊        | 80/435 [00:30<02:17,  2.59it/s, loss=3.74, v_num=4, train-loss_step=3.870, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  18%|█▊        | 80/435 [00:30<02:17,  2.59it/s, loss=3.87, v_num=4, train-loss_step=4.090, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  21%|██        | 90/435 [00:34<02:13,  2.59it/s, loss=3.87, v_num=4, train-loss_step=4.090, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  21%|██        | 90/435 [00:34<02:13,  2.59it/s, loss=3.93, v_num=4, train-loss_step=3.980, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  23%|██▎       | 100/435 [00:38<02:09,  2.58it/s, loss=3.93, v_num=4, train-loss_step=3.980, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  23%|██▎       | 100/435 [00:38<02:09,  2.58it/s, loss=3.91, v_num=4, train-loss_step=4.040, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  25%|██▌       | 110/435 [00:42<02:06,  2.57it/s, loss=3.91, v_num=4, train-loss_step=4.040, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  25%|██▌       | 110/435 [00:42<02:06,  2.57it/s, loss=3.85, v_num=4, train-loss_step=3.720, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  28%|██▊       | 120/435 [00:46<02:02,  2.57it/s, loss=3.85, v_num=4, train-loss_step=3.720, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  28%|██▊       | 120/435 [00:46<02:02,  2.57it/s, loss=3.78, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  30%|██▉       | 130/435 [00:50<01:58,  2.57it/s, loss=3.78, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  30%|██▉       | 130/435 [00:50<01:58,  2.57it/s, loss=3.77, v_num=4, train-loss_step=3.880, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  32%|███▏      | 140/435 [00:54<01:54,  2.58it/s, loss=3.77, v_num=4, train-loss_step=3.880, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  32%|███▏      | 140/435 [00:54<01:54,  2.58it/s, loss=3.76, v_num=4, train-loss_step=3.600, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  34%|███▍      | 150/435 [00:57<01:49,  2.59it/s, loss=3.76, v_num=4, train-loss_step=3.600, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  34%|███▍      | 150/435 [00:57<01:49,  2.59it/s, loss=3.72, v_num=4, train-loss_step=3.920, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  37%|███▋      | 160/435 [01:01<01:46,  2.59it/s, loss=3.72, v_num=4, train-loss_step=3.920, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  37%|███▋      | 160/435 [01:01<01:46,  2.59it/s, loss=3.72, v_num=4, train-loss_step=3.900, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  39%|███▉      | 170/435 [01:05<01:41,  2.60it/s, loss=3.72, v_num=4, train-loss_step=3.900, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  39%|███▉      | 170/435 [01:05<01:41,  2.60it/s, loss=3.78, v_num=4, train-loss_step=3.950, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  41%|████▏     | 180/435 [01:09<01:38,  2.60it/s, loss=3.78, v_num=4, train-loss_step=3.950, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  41%|████▏     | 180/435 [01:09<01:38,  2.60it/s, loss=3.79, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  44%|████▎     | 190/435 [01:12<01:34,  2.61it/s, loss=3.79, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  44%|████▎     | 190/435 [01:12<01:34,  2.61it/s, loss=3.78, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  46%|████▌     | 200/435 [01:16<01:30,  2.60it/s, loss=3.78, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  46%|████▌     | 200/435 [01:16<01:30,  2.60it/s, loss=3.8, v_num=4, train-loss_step=3.680, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5] Epoch 7:  48%|████▊     | 210/435 [01:20<01:26,  2.61it/s, loss=3.8, v_num=4, train-loss_step=3.680, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  48%|████▊     | 210/435 [01:20<01:26,  2.61it/s, loss=3.76, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  51%|█████     | 220/435 [01:24<01:22,  2.61it/s, loss=3.76, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  51%|█████     | 220/435 [01:24<01:22,  2.61it/s, loss=3.73, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  53%|█████▎    | 230/435 [01:28<01:18,  2.61it/s, loss=3.73, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  53%|█████▎    | 230/435 [01:28<01:18,  2.61it/s, loss=3.75, v_num=4, train-loss_step=3.830, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  55%|█████▌    | 240/435 [01:31<01:14,  2.62it/s, loss=3.75, v_num=4, train-loss_step=3.830, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  55%|█████▌    | 240/435 [01:31<01:14,  2.62it/s, loss=3.72, v_num=4, train-loss_step=3.730, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  57%|█████▋    | 250/435 [01:35<01:10,  2.62it/s, loss=3.72, v_num=4, train-loss_step=3.730, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  57%|█████▋    | 250/435 [01:35<01:10,  2.62it/s, loss=3.74, v_num=4, train-loss_step=3.850, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  60%|█████▉    | 260/435 [01:38<01:06,  2.63it/s, loss=3.74, v_num=4, train-loss_step=3.850, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  60%|█████▉    | 260/435 [01:38<01:06,  2.63it/s, loss=3.76, v_num=4, train-loss_step=3.860, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  62%|██████▏   | 270/435 [01:42<01:02,  2.63it/s, loss=3.76, v_num=4, train-loss_step=3.860, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  62%|██████▏   | 270/435 [01:42<01:02,  2.63it/s, loss=3.76, v_num=4, train-loss_step=3.550, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  64%|██████▍   | 280/435 [01:46<00:59,  2.62it/s, loss=3.76, v_num=4, train-loss_step=3.550, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  64%|██████▍   | 280/435 [01:46<00:59,  2.62it/s, loss=3.81, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  67%|██████▋   | 290/435 [01:50<00:55,  2.62it/s, loss=3.81, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  67%|██████▋   | 290/435 [01:50<00:55,  2.62it/s, loss=3.77, v_num=4, train-loss_step=3.640, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  69%|██████▉   | 300/435 [01:54<00:51,  2.62it/s, loss=3.77, v_num=4, train-loss_step=3.640, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  69%|██████▉   | 300/435 [01:54<00:51,  2.62it/s, loss=3.73, v_num=4, train-loss_step=3.610, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  71%|███████▏  | 310/435 [01:58<00:47,  2.62it/s, loss=3.73, v_num=4, train-loss_step=3.610, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  71%|███████▏  | 310/435 [01:58<00:47,  2.62it/s, loss=3.74, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  74%|███████▎  | 320/435 [02:02<00:44,  2.61it/s, loss=3.74, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  74%|███████▎  | 320/435 [02:02<00:44,  2.61it/s, loss=3.74, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  76%|███████▌  | 330/435 [02:06<00:40,  2.60it/s, loss=3.74, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  76%|███████▌  | 330/435 [02:06<00:40,  2.60it/s, loss=3.77, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  78%|███████▊  | 340/435 [02:10<00:36,  2.60it/s, loss=3.77, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  78%|███████▊  | 340/435 [02:10<00:36,  2.60it/s, loss=3.79, v_num=4, train-loss_step=3.810, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  80%|████████  | 350/435 [02:15<00:32,  2.59it/s, loss=3.79, v_num=4, train-loss_step=3.810, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  80%|████████  | 350/435 [02:15<00:32,  2.59it/s, loss=3.83, v_num=4, train-loss_step=3.570, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  83%|████████▎ | 360/435 [02:19<00:29,  2.58it/s, loss=3.83, v_num=4, train-loss_step=3.570, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  83%|████████▎ | 360/435 [02:19<00:29,  2.58it/s, loss=3.87, v_num=4, train-loss_step=4.200, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  85%|████████▌ | 370/435 [02:23<00:25,  2.58it/s, loss=3.87, v_num=4, train-loss_step=4.200, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  85%|████████▌ | 370/435 [02:23<00:25,  2.58it/s, loss=3.86, v_num=4, train-loss_step=3.840, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  87%|████████▋ | 380/435 [02:27<00:21,  2.58it/s, loss=3.86, v_num=4, train-loss_step=3.840, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  87%|████████▋ | 380/435 [02:27<00:21,  2.58it/s, loss=3.81, v_num=4, train-loss_step=3.990, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 7:  90%|████████▉ | 390/435 [02:48<00:19,  2.31it/s, loss=3.81, v_num=4, train-loss_step=3.990, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  92%|█████████▏| 400/435 [03:50<00:20,  1.73it/s, loss=3.81, v_num=4, train-loss_step=3.990, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  94%|█████████▍| 410/435 [04:52<00:17,  1.40it/s, loss=3.81, v_num=4, train-loss_step=3.990, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  97%|█████████▋| 420/435 [05:51<00:12,  1.20it/s, loss=3.81, v_num=4, train-loss_step=3.990, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7:  99%|█████████▉| 430/435 [06:41<00:04,  1.07it/s, loss=3.81, v_num=4, train-loss_step=3.990, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7: 100%|██████████| 435/435 [07:09<00:00,  1.01it/s, loss=3.81, v_num=4, train-loss_step=3.990, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]
+Evaluation on checkpoint [7] 
+vloss:3.727768659591675
+rouge1:0.6544274091720581
+rouge2:0.38249433040618896
+rougeL:0.45823001861572266
+rougeLsum:0.45823001861572266
+bleu:30.797353744506836
+Epoch 7: 100%|██████████| 435/435 [07:09<00:00,  1.01it/s, loss=3.82, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=3.800, lr_epoch=3e-5]Epoch 7: 100%|██████████| 435/435 [07:09<00:00,  1.01it/s, loss=3.82, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 7:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.82, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]          Epoch 8:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.82, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:   2%|▏         | 10/435 [00:04<03:28,  2.04it/s, loss=3.82, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:   2%|▏         | 10/435 [00:04<03:28,  2.04it/s, loss=3.75, v_num=4, train-loss_step=3.720, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:   5%|▍         | 20/435 [00:08<02:58,  2.32it/s, loss=3.75, v_num=4, train-loss_step=3.720, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:   5%|▍         | 20/435 [00:08<02:59,  2.32it/s, loss=3.68, v_num=4, train-loss_step=3.760, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:   7%|▋         | 30/435 [00:12<02:45,  2.45it/s, loss=3.68, v_num=4, train-loss_step=3.760, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:   7%|▋         | 30/435 [00:12<02:45,  2.44it/s, loss=3.69, v_num=4, train-loss_step=3.800, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:   9%|▉         | 40/435 [00:16<02:40,  2.46it/s, loss=3.69, v_num=4, train-loss_step=3.800, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:   9%|▉         | 40/435 [00:16<02:40,  2.46it/s, loss=3.66, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  11%|█▏        | 50/435 [00:19<02:33,  2.51it/s, loss=3.66, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  11%|█▏        | 50/435 [00:19<02:33,  2.51it/s, loss=3.67, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  14%|█▍        | 60/435 [00:23<02:29,  2.51it/s, loss=3.67, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  14%|█▍        | 60/435 [00:23<02:29,  2.51it/s, loss=3.68, v_num=4, train-loss_step=3.760, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  16%|█▌        | 70/435 [00:27<02:23,  2.54it/s, loss=3.68, v_num=4, train-loss_step=3.760, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  16%|█▌        | 70/435 [00:27<02:23,  2.54it/s, loss=3.71, v_num=4, train-loss_step=3.810, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  18%|█▊        | 80/435 [00:31<02:19,  2.55it/s, loss=3.71, v_num=4, train-loss_step=3.810, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  18%|█▊        | 80/435 [00:31<02:19,  2.55it/s, loss=3.68, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  21%|██        | 90/435 [00:35<02:14,  2.56it/s, loss=3.68, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  21%|██        | 90/435 [00:35<02:14,  2.56it/s, loss=3.68, v_num=4, train-loss_step=3.790, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  23%|██▎       | 100/435 [00:38<02:10,  2.57it/s, loss=3.68, v_num=4, train-loss_step=3.790, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  23%|██▎       | 100/435 [00:38<02:10,  2.57it/s, loss=3.66, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  25%|██▌       | 110/435 [00:42<02:06,  2.58it/s, loss=3.66, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  25%|██▌       | 110/435 [00:42<02:06,  2.58it/s, loss=3.62, v_num=4, train-loss_step=3.660, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  28%|██▊       | 120/435 [00:47<02:03,  2.55it/s, loss=3.62, v_num=4, train-loss_step=3.660, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  28%|██▊       | 120/435 [00:47<02:03,  2.55it/s, loss=3.66, v_num=4, train-loss_step=3.640, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  30%|██▉       | 130/435 [00:51<02:00,  2.53it/s, loss=3.66, v_num=4, train-loss_step=3.640, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  30%|██▉       | 130/435 [00:51<02:00,  2.53it/s, loss=3.67, v_num=4, train-loss_step=3.660, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  32%|███▏      | 140/435 [00:55<01:57,  2.52it/s, loss=3.67, v_num=4, train-loss_step=3.660, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  32%|███▏      | 140/435 [00:55<01:57,  2.52it/s, loss=3.68, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  34%|███▍      | 150/435 [00:59<01:53,  2.51it/s, loss=3.68, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  34%|███▍      | 150/435 [00:59<01:53,  2.51it/s, loss=3.68, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  37%|███▋      | 160/435 [01:03<01:49,  2.51it/s, loss=3.68, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  37%|███▋      | 160/435 [01:03<01:49,  2.51it/s, loss=3.64, v_num=4, train-loss_step=3.570, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  39%|███▉      | 170/435 [01:07<01:44,  2.52it/s, loss=3.64, v_num=4, train-loss_step=3.570, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  39%|███▉      | 170/435 [01:07<01:44,  2.52it/s, loss=3.66, v_num=4, train-loss_step=3.710, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  41%|████▏     | 180/435 [01:11<01:41,  2.52it/s, loss=3.66, v_num=4, train-loss_step=3.710, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  41%|████▏     | 180/435 [01:11<01:41,  2.52it/s, loss=3.71, v_num=4, train-loss_step=3.880, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  44%|████▎     | 190/435 [01:15<01:37,  2.52it/s, loss=3.71, v_num=4, train-loss_step=3.880, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  44%|████▎     | 190/435 [01:15<01:37,  2.52it/s, loss=3.71, v_num=4, train-loss_step=3.550, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  46%|████▌     | 200/435 [01:19<01:33,  2.52it/s, loss=3.71, v_num=4, train-loss_step=3.550, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  46%|████▌     | 200/435 [01:19<01:33,  2.52it/s, loss=3.66, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  48%|████▊     | 210/435 [01:23<01:29,  2.52it/s, loss=3.66, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  48%|████▊     | 210/435 [01:23<01:29,  2.52it/s, loss=3.65, v_num=4, train-loss_step=3.860, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  51%|█████     | 220/435 [01:27<01:25,  2.52it/s, loss=3.65, v_num=4, train-loss_step=3.860, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  51%|█████     | 220/435 [01:27<01:25,  2.52it/s, loss=3.67, v_num=4, train-loss_step=3.640, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  53%|█████▎    | 230/435 [01:31<01:21,  2.52it/s, loss=3.67, v_num=4, train-loss_step=3.640, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  53%|█████▎    | 230/435 [01:31<01:21,  2.52it/s, loss=3.66, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  55%|█████▌    | 240/435 [01:34<01:17,  2.53it/s, loss=3.66, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  55%|█████▌    | 240/435 [01:34<01:17,  2.53it/s, loss=3.66, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  57%|█████▋    | 250/435 [01:38<01:13,  2.53it/s, loss=3.66, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  57%|█████▋    | 250/435 [01:38<01:13,  2.53it/s, loss=3.68, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  60%|█████▉    | 260/435 [01:42<01:09,  2.54it/s, loss=3.68, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  60%|█████▉    | 260/435 [01:42<01:09,  2.53it/s, loss=3.66, v_num=4, train-loss_step=3.850, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  62%|██████▏   | 270/435 [01:46<01:05,  2.54it/s, loss=3.66, v_num=4, train-loss_step=3.850, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  62%|██████▏   | 270/435 [01:46<01:05,  2.54it/s, loss=3.69, v_num=4, train-loss_step=3.790, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  64%|██████▍   | 280/435 [01:50<01:00,  2.54it/s, loss=3.69, v_num=4, train-loss_step=3.790, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  64%|██████▍   | 280/435 [01:50<01:00,  2.54it/s, loss=3.72, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  67%|██████▋   | 290/435 [01:54<00:57,  2.54it/s, loss=3.72, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  67%|██████▋   | 290/435 [01:54<00:57,  2.54it/s, loss=3.79, v_num=4, train-loss_step=4.000, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  69%|██████▉   | 300/435 [01:58<00:53,  2.54it/s, loss=3.79, v_num=4, train-loss_step=4.000, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  69%|██████▉   | 300/435 [01:58<00:53,  2.54it/s, loss=3.92, v_num=4, train-loss_step=3.920, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  71%|███████▏  | 310/435 [02:02<00:49,  2.54it/s, loss=3.92, v_num=4, train-loss_step=3.920, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  71%|███████▏  | 310/435 [02:02<00:49,  2.54it/s, loss=3.9, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5] Epoch 8:  74%|███████▎  | 320/435 [02:05<00:45,  2.54it/s, loss=3.9, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  74%|███████▎  | 320/435 [02:05<00:45,  2.54it/s, loss=3.85, v_num=4, train-loss_step=3.840, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  76%|███████▌  | 330/435 [02:09<00:41,  2.55it/s, loss=3.85, v_num=4, train-loss_step=3.840, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  76%|███████▌  | 330/435 [02:09<00:41,  2.55it/s, loss=3.81, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  78%|███████▊  | 340/435 [02:13<00:37,  2.55it/s, loss=3.81, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  78%|███████▊  | 340/435 [02:13<00:37,  2.55it/s, loss=3.74, v_num=4, train-loss_step=3.600, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=3.74, v_num=4, train-loss_step=3.600, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=3.73, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  83%|████████▎ | 360/435 [02:21<00:29,  2.55it/s, loss=3.73, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  83%|████████▎ | 360/435 [02:21<00:29,  2.55it/s, loss=3.76, v_num=4, train-loss_step=3.850, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  85%|████████▌ | 370/435 [02:25<00:25,  2.55it/s, loss=3.76, v_num=4, train-loss_step=3.850, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  85%|████████▌ | 370/435 [02:25<00:25,  2.55it/s, loss=3.79, v_num=4, train-loss_step=3.990, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  87%|████████▋ | 380/435 [02:28<00:21,  2.55it/s, loss=3.79, v_num=4, train-loss_step=3.990, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  87%|████████▋ | 380/435 [02:28<00:21,  2.55it/s, loss=3.81, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 8:  90%|████████▉ | 390/435 [02:49<00:19,  2.29it/s, loss=3.81, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  92%|█████████▏| 400/435 [03:50<00:20,  1.74it/s, loss=3.81, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  94%|█████████▍| 410/435 [04:47<00:17,  1.42it/s, loss=3.81, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  97%|█████████▋| 420/435 [05:45<00:12,  1.21it/s, loss=3.81, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8:  99%|█████████▉| 430/435 [06:31<00:04,  1.10it/s, loss=3.81, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]Epoch 8: 100%|██████████| 435/435 [06:56<00:00,  1.05it/s, loss=3.81, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5]
+Evaluation on checkpoint [8] 
+vloss:3.745845317840576
+rouge1:0.6695758700370789
+rouge2:0.39375489950180054
+rougeL:0.4710652828216553
+rougeLsum:0.4710652828216553
+bleu:32.32497024536133
+Epoch 8: 100%|██████████| 435/435 [06:56<00:00,  1.05it/s, loss=3.8, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.780, lr_epoch=3e-5] Epoch 8: 100%|██████████| 435/435 [06:56<00:00,  1.05it/s, loss=3.8, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 8:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.8, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]          Epoch 9:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.8, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:   2%|▏         | 10/435 [00:04<03:20,  2.12it/s, loss=3.8, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:   2%|▏         | 10/435 [00:04<03:20,  2.12it/s, loss=3.74, v_num=4, train-loss_step=3.770, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:   5%|▍         | 20/435 [00:08<02:54,  2.38it/s, loss=3.74, v_num=4, train-loss_step=3.770, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:   5%|▍         | 20/435 [00:08<02:54,  2.38it/s, loss=3.64, v_num=4, train-loss_step=3.690, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:   7%|▋         | 30/435 [00:12<02:43,  2.47it/s, loss=3.64, v_num=4, train-loss_step=3.690, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:   7%|▋         | 30/435 [00:12<02:43,  2.47it/s, loss=3.66, v_num=4, train-loss_step=3.690, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:   9%|▉         | 40/435 [00:16<02:38,  2.49it/s, loss=3.66, v_num=4, train-loss_step=3.690, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:   9%|▉         | 40/435 [00:16<02:38,  2.49it/s, loss=3.71, v_num=4, train-loss_step=3.830, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  11%|█▏        | 50/435 [00:20<02:36,  2.47it/s, loss=3.71, v_num=4, train-loss_step=3.830, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  11%|█▏        | 50/435 [00:20<02:36,  2.46it/s, loss=3.67, v_num=4, train-loss_step=3.770, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  14%|█▍        | 60/435 [00:24<02:31,  2.47it/s, loss=3.67, v_num=4, train-loss_step=3.770, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  14%|█▍        | 60/435 [00:24<02:31,  2.47it/s, loss=3.64, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  16%|█▌        | 70/435 [00:28<02:26,  2.48it/s, loss=3.64, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  16%|█▌        | 70/435 [00:28<02:27,  2.48it/s, loss=3.71, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  18%|█▊        | 80/435 [00:31<02:21,  2.50it/s, loss=3.71, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  18%|█▊        | 80/435 [00:31<02:21,  2.50it/s, loss=3.73, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  21%|██        | 90/435 [00:35<02:16,  2.52it/s, loss=3.73, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  21%|██        | 90/435 [00:35<02:16,  2.52it/s, loss=3.68, v_num=4, train-loss_step=3.680, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  23%|██▎       | 100/435 [00:39<02:13,  2.52it/s, loss=3.68, v_num=4, train-loss_step=3.680, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  23%|██▎       | 100/435 [00:39<02:13,  2.52it/s, loss=3.65, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  25%|██▌       | 110/435 [00:43<02:09,  2.52it/s, loss=3.65, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  25%|██▌       | 110/435 [00:43<02:09,  2.52it/s, loss=3.65, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  28%|██▊       | 120/435 [00:47<02:04,  2.53it/s, loss=3.65, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  28%|██▊       | 120/435 [00:47<02:04,  2.53it/s, loss=3.64, v_num=4, train-loss_step=3.790, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  30%|██▉       | 130/435 [00:51<02:00,  2.52it/s, loss=3.64, v_num=4, train-loss_step=3.790, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  30%|██▉       | 130/435 [00:51<02:00,  2.52it/s, loss=3.64, v_num=4, train-loss_step=3.670, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  32%|███▏      | 140/435 [00:55<01:57,  2.51it/s, loss=3.64, v_num=4, train-loss_step=3.670, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  32%|███▏      | 140/435 [00:55<01:57,  2.51it/s, loss=3.66, v_num=4, train-loss_step=3.970, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  34%|███▍      | 150/435 [00:59<01:53,  2.52it/s, loss=3.66, v_num=4, train-loss_step=3.970, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  34%|███▍      | 150/435 [00:59<01:53,  2.52it/s, loss=3.63, v_num=4, train-loss_step=3.740, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  37%|███▋      | 160/435 [01:03<01:48,  2.53it/s, loss=3.63, v_num=4, train-loss_step=3.740, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  37%|███▋      | 160/435 [01:03<01:48,  2.53it/s, loss=3.64, v_num=4, train-loss_step=3.680, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  39%|███▉      | 170/435 [01:07<01:45,  2.52it/s, loss=3.64, v_num=4, train-loss_step=3.680, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  39%|███▉      | 170/435 [01:07<01:45,  2.52it/s, loss=3.66, v_num=4, train-loss_step=3.660, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  41%|████▏     | 180/435 [01:11<01:41,  2.51it/s, loss=3.66, v_num=4, train-loss_step=3.660, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  41%|████▏     | 180/435 [01:11<01:41,  2.51it/s, loss=3.61, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  44%|████▎     | 190/435 [01:15<01:37,  2.52it/s, loss=3.61, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  44%|████▎     | 190/435 [01:15<01:37,  2.52it/s, loss=3.63, v_num=4, train-loss_step=3.720, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  46%|████▌     | 200/435 [01:19<01:32,  2.53it/s, loss=3.63, v_num=4, train-loss_step=3.720, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  46%|████▌     | 200/435 [01:19<01:32,  2.53it/s, loss=3.65, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  48%|████▊     | 210/435 [01:23<01:29,  2.52it/s, loss=3.65, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  48%|████▊     | 210/435 [01:23<01:29,  2.52it/s, loss=3.62, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  51%|█████     | 220/435 [01:27<01:25,  2.52it/s, loss=3.62, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  51%|█████     | 220/435 [01:27<01:25,  2.52it/s, loss=3.64, v_num=4, train-loss_step=3.670, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  53%|█████▎    | 230/435 [01:31<01:21,  2.52it/s, loss=3.64, v_num=4, train-loss_step=3.670, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  53%|█████▎    | 230/435 [01:31<01:21,  2.52it/s, loss=3.63, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  55%|█████▌    | 240/435 [01:35<01:17,  2.52it/s, loss=3.63, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  55%|█████▌    | 240/435 [01:35<01:17,  2.52it/s, loss=3.61, v_num=4, train-loss_step=3.760, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  57%|█████▋    | 250/435 [01:39<01:13,  2.52it/s, loss=3.61, v_num=4, train-loss_step=3.760, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  57%|█████▋    | 250/435 [01:39<01:13,  2.52it/s, loss=3.63, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  60%|█████▉    | 260/435 [01:42<01:09,  2.53it/s, loss=3.63, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  60%|█████▉    | 260/435 [01:42<01:09,  2.53it/s, loss=3.62, v_num=4, train-loss_step=3.630, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  62%|██████▏   | 270/435 [01:46<01:05,  2.53it/s, loss=3.62, v_num=4, train-loss_step=3.630, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  62%|██████▏   | 270/435 [01:46<01:05,  2.53it/s, loss=3.63, v_num=4, train-loss_step=3.590, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  64%|██████▍   | 280/435 [01:50<01:01,  2.53it/s, loss=3.63, v_num=4, train-loss_step=3.590, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  64%|██████▍   | 280/435 [01:50<01:01,  2.53it/s, loss=3.68, v_num=4, train-loss_step=3.690, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  67%|██████▋   | 290/435 [01:54<00:57,  2.54it/s, loss=3.68, v_num=4, train-loss_step=3.690, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  67%|██████▋   | 290/435 [01:54<00:57,  2.54it/s, loss=3.68, v_num=4, train-loss_step=3.840, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  69%|██████▉   | 300/435 [01:58<00:53,  2.54it/s, loss=3.68, v_num=4, train-loss_step=3.840, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  69%|██████▉   | 300/435 [01:58<00:53,  2.54it/s, loss=3.64, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  71%|███████▏  | 310/435 [02:02<00:49,  2.54it/s, loss=3.64, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  71%|███████▏  | 310/435 [02:02<00:49,  2.54it/s, loss=3.61, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  74%|███████▎  | 320/435 [02:05<00:45,  2.54it/s, loss=3.61, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  74%|███████▎  | 320/435 [02:05<00:45,  2.54it/s, loss=3.62, v_num=4, train-loss_step=3.600, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  76%|███████▌  | 330/435 [02:09<00:41,  2.54it/s, loss=3.62, v_num=4, train-loss_step=3.600, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  76%|███████▌  | 330/435 [02:09<00:41,  2.54it/s, loss=3.62, v_num=4, train-loss_step=3.860, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  78%|███████▊  | 340/435 [02:13<00:37,  2.55it/s, loss=3.62, v_num=4, train-loss_step=3.860, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  78%|███████▊  | 340/435 [02:13<00:37,  2.55it/s, loss=3.61, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=3.61, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=3.6, v_num=4, train-loss_step=3.740, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5] Epoch 9:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=3.6, v_num=4, train-loss_step=3.740, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=3.63, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=3.63, v_num=4, train-loss_step=3.940, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=3.6, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5] Epoch 9:  87%|████████▋ | 380/435 [02:29<00:21,  2.55it/s, loss=3.6, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  87%|████████▋ | 380/435 [02:29<00:21,  2.55it/s, loss=3.58, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 9:  90%|████████▉ | 390/435 [02:51<00:19,  2.28it/s, loss=3.58, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  92%|█████████▏| 400/435 [03:48<00:19,  1.75it/s, loss=3.58, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  94%|█████████▍| 410/435 [04:49<00:17,  1.42it/s, loss=3.58, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  97%|█████████▋| 420/435 [05:43<00:12,  1.22it/s, loss=3.58, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9:  99%|█████████▉| 430/435 [06:27<00:04,  1.11it/s, loss=3.58, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9: 100%|██████████| 435/435 [06:57<00:00,  1.04it/s, loss=3.58, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]
+Evaluation on checkpoint [9] 
+vloss:3.712034225463867
+rouge1:0.6501699686050415
+rouge2:0.3801022469997406
+rougeL:0.45166152715682983
+rougeLsum:0.45166152715682983
+bleu:30.840652465820312
+Epoch 9: 100%|██████████| 435/435 [06:57<00:00,  1.04it/s, loss=3.61, v_num=4, train-loss_step=3.620, lr_step=3e-5, train-loss_epoch=3.710, lr_epoch=3e-5]Epoch 9: 100%|██████████| 435/435 [06:57<00:00,  1.04it/s, loss=3.61, v_num=4, train-loss_step=3.620, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 9:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.61, v_num=4, train-loss_step=3.620, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]          Epoch 10:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.61, v_num=4, train-loss_step=3.620, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:   2%|▏         | 10/435 [00:04<03:16,  2.17it/s, loss=3.61, v_num=4, train-loss_step=3.620, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:   2%|▏         | 10/435 [00:04<03:16,  2.16it/s, loss=3.57, v_num=4, train-loss_step=3.390, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:   5%|▍         | 20/435 [00:08<03:04,  2.25it/s, loss=3.57, v_num=4, train-loss_step=3.390, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:   5%|▍         | 20/435 [00:08<03:04,  2.25it/s, loss=3.58, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:   7%|▋         | 30/435 [00:12<02:49,  2.38it/s, loss=3.58, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:   7%|▋         | 30/435 [00:12<02:49,  2.38it/s, loss=3.57, v_num=4, train-loss_step=3.570, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:   9%|▉         | 40/435 [00:16<02:43,  2.41it/s, loss=3.57, v_num=4, train-loss_step=3.570, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:   9%|▉         | 40/435 [00:16<02:44,  2.41it/s, loss=3.57, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  11%|█▏        | 50/435 [00:20<02:36,  2.46it/s, loss=3.57, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  11%|█▏        | 50/435 [00:20<02:36,  2.46it/s, loss=3.6, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5] Epoch 10:  14%|█▍        | 60/435 [00:24<02:31,  2.47it/s, loss=3.6, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  14%|█▍        | 60/435 [00:24<02:31,  2.47it/s, loss=3.57, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  16%|█▌        | 70/435 [00:28<02:27,  2.48it/s, loss=3.57, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  16%|█▌        | 70/435 [00:28<02:27,  2.48it/s, loss=3.57, v_num=4, train-loss_step=3.610, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  18%|█▊        | 80/435 [00:32<02:22,  2.49it/s, loss=3.57, v_num=4, train-loss_step=3.610, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  18%|█▊        | 80/435 [00:32<02:22,  2.49it/s, loss=3.57, v_num=4, train-loss_step=3.570, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  21%|██        | 90/435 [00:36<02:18,  2.50it/s, loss=3.57, v_num=4, train-loss_step=3.570, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  21%|██        | 90/435 [00:36<02:18,  2.50it/s, loss=3.58, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  23%|██▎       | 100/435 [00:39<02:13,  2.51it/s, loss=3.58, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  23%|██▎       | 100/435 [00:39<02:13,  2.51it/s, loss=3.6, v_num=4, train-loss_step=3.590, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5] Epoch 10:  25%|██▌       | 110/435 [00:43<02:08,  2.53it/s, loss=3.6, v_num=4, train-loss_step=3.590, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  25%|██▌       | 110/435 [00:43<02:08,  2.53it/s, loss=3.57, v_num=4, train-loss_step=3.720, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  28%|██▊       | 120/435 [00:47<02:04,  2.53it/s, loss=3.57, v_num=4, train-loss_step=3.720, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  28%|██▊       | 120/435 [00:47<02:04,  2.53it/s, loss=3.54, v_num=4, train-loss_step=3.770, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  30%|██▉       | 130/435 [00:51<02:00,  2.53it/s, loss=3.54, v_num=4, train-loss_step=3.770, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  30%|██▉       | 130/435 [00:51<02:00,  2.53it/s, loss=3.55, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  32%|███▏      | 140/435 [00:55<01:55,  2.54it/s, loss=3.55, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  32%|███▏      | 140/435 [00:55<01:55,  2.54it/s, loss=3.59, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  34%|███▍      | 150/435 [00:59<01:52,  2.53it/s, loss=3.59, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  34%|███▍      | 150/435 [00:59<01:52,  2.53it/s, loss=3.59, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  37%|███▋      | 160/435 [01:03<01:48,  2.54it/s, loss=3.59, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  37%|███▋      | 160/435 [01:03<01:48,  2.54it/s, loss=3.58, v_num=4, train-loss_step=3.660, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  39%|███▉      | 170/435 [01:06<01:44,  2.55it/s, loss=3.58, v_num=4, train-loss_step=3.660, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  39%|███▉      | 170/435 [01:06<01:44,  2.55it/s, loss=3.6, v_num=4, train-loss_step=3.730, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5] Epoch 10:  41%|████▏     | 180/435 [01:10<01:40,  2.55it/s, loss=3.6, v_num=4, train-loss_step=3.730, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  41%|████▏     | 180/435 [01:10<01:40,  2.54it/s, loss=3.62, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  44%|████▎     | 190/435 [01:14<01:36,  2.55it/s, loss=3.62, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  44%|████▎     | 190/435 [01:14<01:36,  2.55it/s, loss=3.6, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5] Epoch 10:  46%|████▌     | 200/435 [01:18<01:31,  2.56it/s, loss=3.6, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  46%|████▌     | 200/435 [01:18<01:31,  2.56it/s, loss=3.57, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  48%|████▊     | 210/435 [01:22<01:28,  2.56it/s, loss=3.57, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  48%|████▊     | 210/435 [01:22<01:28,  2.56it/s, loss=3.59, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  51%|█████     | 220/435 [01:26<01:24,  2.55it/s, loss=3.59, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  51%|█████     | 220/435 [01:26<01:24,  2.55it/s, loss=3.61, v_num=4, train-loss_step=3.710, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  53%|█████▎    | 230/435 [01:30<01:20,  2.55it/s, loss=3.61, v_num=4, train-loss_step=3.710, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  53%|█████▎    | 230/435 [01:30<01:20,  2.55it/s, loss=3.58, v_num=4, train-loss_step=3.570, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  55%|█████▌    | 240/435 [01:34<01:16,  2.54it/s, loss=3.58, v_num=4, train-loss_step=3.570, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  55%|█████▌    | 240/435 [01:34<01:16,  2.54it/s, loss=3.57, v_num=4, train-loss_step=3.630, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  57%|█████▋    | 250/435 [01:38<01:12,  2.54it/s, loss=3.57, v_num=4, train-loss_step=3.630, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  57%|█████▋    | 250/435 [01:38<01:12,  2.54it/s, loss=3.61, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  60%|█████▉    | 260/435 [01:42<01:08,  2.54it/s, loss=3.61, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  60%|█████▉    | 260/435 [01:42<01:08,  2.54it/s, loss=3.6, v_num=4, train-loss_step=3.670, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5] Epoch 10:  62%|██████▏   | 270/435 [01:46<01:04,  2.55it/s, loss=3.6, v_num=4, train-loss_step=3.670, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  62%|██████▏   | 270/435 [01:46<01:04,  2.55it/s, loss=3.56, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  64%|██████▍   | 280/435 [01:50<01:00,  2.54it/s, loss=3.56, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  64%|██████▍   | 280/435 [01:50<01:00,  2.54it/s, loss=3.57, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  67%|██████▋   | 290/435 [01:53<00:56,  2.55it/s, loss=3.57, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  67%|██████▋   | 290/435 [01:53<00:56,  2.55it/s, loss=3.56, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  69%|██████▉   | 300/435 [01:57<00:53,  2.55it/s, loss=3.56, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  69%|██████▉   | 300/435 [01:57<00:53,  2.55it/s, loss=3.58, v_num=4, train-loss_step=3.370, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  71%|███████▏  | 310/435 [02:01<00:49,  2.55it/s, loss=3.58, v_num=4, train-loss_step=3.370, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  71%|███████▏  | 310/435 [02:01<00:49,  2.55it/s, loss=3.62, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  74%|███████▎  | 320/435 [02:05<00:45,  2.54it/s, loss=3.62, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  74%|███████▎  | 320/435 [02:05<00:45,  2.54it/s, loss=3.63, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  76%|███████▌  | 330/435 [02:09<00:41,  2.54it/s, loss=3.63, v_num=4, train-loss_step=3.700, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  76%|███████▌  | 330/435 [02:09<00:41,  2.54it/s, loss=3.61, v_num=4, train-loss_step=3.690, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  78%|███████▊  | 340/435 [02:13<00:37,  2.54it/s, loss=3.61, v_num=4, train-loss_step=3.690, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  78%|███████▊  | 340/435 [02:13<00:37,  2.54it/s, loss=3.59, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  80%|████████  | 350/435 [02:17<00:33,  2.54it/s, loss=3.59, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  80%|████████  | 350/435 [02:17<00:33,  2.54it/s, loss=3.61, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=3.61, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=3.56, v_num=4, train-loss_step=3.790, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=3.56, v_num=4, train-loss_step=3.790, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=3.55, v_num=4, train-loss_step=3.640, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  87%|████████▋ | 380/435 [02:29<00:21,  2.54it/s, loss=3.55, v_num=4, train-loss_step=3.640, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  87%|████████▋ | 380/435 [02:29<00:21,  2.54it/s, loss=3.58, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 10:  90%|████████▉ | 390/435 [02:49<00:19,  2.30it/s, loss=3.58, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  92%|█████████▏| 400/435 [03:53<00:20,  1.72it/s, loss=3.58, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  94%|█████████▍| 410/435 [04:53<00:17,  1.40it/s, loss=3.58, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  97%|█████████▋| 420/435 [05:48<00:12,  1.20it/s, loss=3.58, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10:  99%|█████████▉| 430/435 [06:36<00:04,  1.08it/s, loss=3.58, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10: 100%|██████████| 435/435 [07:03<00:00,  1.03it/s, loss=3.58, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]
+Evaluation on checkpoint [10] 
+vloss:3.7065482139587402
+rouge1:0.6592175960540771
+rouge2:0.38533514738082886
+rougeL:0.4647890031337738
+rougeLsum:0.4647890031337738
+bleu:31.210647583007812
+Epoch 10: 100%|██████████| 435/435 [07:03<00:00,  1.03it/s, loss=3.57, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.640, lr_epoch=3e-5]Epoch 10: 100%|██████████| 435/435 [07:03<00:00,  1.03it/s, loss=3.57, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 10:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.57, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]          Epoch 11:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.57, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:   2%|▏         | 10/435 [00:04<02:55,  2.42it/s, loss=3.57, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:   2%|▏         | 10/435 [00:04<02:56,  2.41it/s, loss=3.5, v_num=4, train-loss_step=3.640, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5] Epoch 11:   5%|▍         | 20/435 [00:07<02:41,  2.56it/s, loss=3.5, v_num=4, train-loss_step=3.640, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:   5%|▍         | 20/435 [00:07<02:42,  2.56it/s, loss=3.48, v_num=4, train-loss_step=3.620, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:   7%|▋         | 30/435 [00:11<02:35,  2.60it/s, loss=3.48, v_num=4, train-loss_step=3.620, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:   7%|▋         | 30/435 [00:11<02:35,  2.60it/s, loss=3.48, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:   9%|▉         | 40/435 [00:15<02:31,  2.61it/s, loss=3.48, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:   9%|▉         | 40/435 [00:15<02:31,  2.61it/s, loss=3.49, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  11%|█▏        | 50/435 [00:19<02:28,  2.59it/s, loss=3.49, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  11%|█▏        | 50/435 [00:19<02:28,  2.59it/s, loss=3.52, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  14%|█▍        | 60/435 [00:22<02:23,  2.61it/s, loss=3.52, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  14%|█▍        | 60/435 [00:22<02:23,  2.61it/s, loss=3.54, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  16%|█▌        | 70/435 [00:26<02:19,  2.61it/s, loss=3.54, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  16%|█▌        | 70/435 [00:26<02:19,  2.61it/s, loss=3.57, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  18%|█▊        | 80/435 [00:30<02:16,  2.60it/s, loss=3.57, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  18%|█▊        | 80/435 [00:30<02:16,  2.60it/s, loss=3.58, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  21%|██        | 90/435 [00:34<02:12,  2.61it/s, loss=3.58, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  21%|██        | 90/435 [00:34<02:12,  2.61it/s, loss=3.55, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  23%|██▎       | 100/435 [00:38<02:09,  2.58it/s, loss=3.55, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  23%|██▎       | 100/435 [00:38<02:09,  2.58it/s, loss=3.52, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  25%|██▌       | 110/435 [00:42<02:05,  2.59it/s, loss=3.52, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  25%|██▌       | 110/435 [00:42<02:05,  2.59it/s, loss=3.47, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  28%|██▊       | 120/435 [00:46<02:01,  2.58it/s, loss=3.47, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  28%|██▊       | 120/435 [00:46<02:01,  2.58it/s, loss=3.5, v_num=4, train-loss_step=3.410, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5] Epoch 11:  30%|██▉       | 130/435 [00:50<01:57,  2.60it/s, loss=3.5, v_num=4, train-loss_step=3.410, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  30%|██▉       | 130/435 [00:50<01:57,  2.59it/s, loss=3.5, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  32%|███▏      | 140/435 [00:53<01:53,  2.60it/s, loss=3.5, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  32%|███▏      | 140/435 [00:53<01:53,  2.60it/s, loss=3.48, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  34%|███▍      | 150/435 [00:57<01:49,  2.60it/s, loss=3.48, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  34%|███▍      | 150/435 [00:57<01:49,  2.60it/s, loss=3.51, v_num=4, train-loss_step=3.610, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  37%|███▋      | 160/435 [01:02<01:47,  2.57it/s, loss=3.51, v_num=4, train-loss_step=3.610, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  37%|███▋      | 160/435 [01:02<01:47,  2.57it/s, loss=3.55, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  39%|███▉      | 170/435 [01:06<01:43,  2.55it/s, loss=3.55, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  39%|███▉      | 170/435 [01:06<01:43,  2.55it/s, loss=3.53, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  41%|████▏     | 180/435 [01:10<01:39,  2.55it/s, loss=3.53, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  41%|████▏     | 180/435 [01:10<01:39,  2.55it/s, loss=3.51, v_num=4, train-loss_step=3.570, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  44%|████▎     | 190/435 [01:14<01:35,  2.56it/s, loss=3.51, v_num=4, train-loss_step=3.570, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  44%|████▎     | 190/435 [01:14<01:35,  2.56it/s, loss=3.53, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  46%|████▌     | 200/435 [01:18<01:31,  2.56it/s, loss=3.53, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  46%|████▌     | 200/435 [01:18<01:31,  2.56it/s, loss=3.52, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  48%|████▊     | 210/435 [01:22<01:27,  2.56it/s, loss=3.52, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  48%|████▊     | 210/435 [01:22<01:27,  2.56it/s, loss=3.52, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  51%|█████     | 220/435 [01:26<01:24,  2.56it/s, loss=3.52, v_num=4, train-loss_step=3.780, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  51%|█████     | 220/435 [01:26<01:24,  2.56it/s, loss=3.51, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  53%|█████▎    | 230/435 [01:30<01:20,  2.55it/s, loss=3.51, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  53%|█████▎    | 230/435 [01:30<01:20,  2.55it/s, loss=3.52, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  55%|█████▌    | 240/435 [01:34<01:16,  2.55it/s, loss=3.52, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  55%|█████▌    | 240/435 [01:34<01:16,  2.54it/s, loss=3.54, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  57%|█████▋    | 250/435 [01:38<01:12,  2.54it/s, loss=3.54, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  57%|█████▋    | 250/435 [01:38<01:12,  2.54it/s, loss=3.51, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  60%|█████▉    | 260/435 [01:42<01:08,  2.54it/s, loss=3.51, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  60%|█████▉    | 260/435 [01:42<01:08,  2.54it/s, loss=3.49, v_num=4, train-loss_step=3.550, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  62%|██████▏   | 270/435 [01:45<01:04,  2.55it/s, loss=3.49, v_num=4, train-loss_step=3.550, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  62%|██████▏   | 270/435 [01:45<01:04,  2.55it/s, loss=3.52, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  64%|██████▍   | 280/435 [01:49<01:00,  2.55it/s, loss=3.52, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  64%|██████▍   | 280/435 [01:49<01:00,  2.55it/s, loss=3.52, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  67%|██████▋   | 290/435 [01:53<00:56,  2.55it/s, loss=3.52, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  67%|██████▋   | 290/435 [01:53<00:56,  2.55it/s, loss=3.54, v_num=4, train-loss_step=3.670, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  69%|██████▉   | 300/435 [01:57<00:52,  2.55it/s, loss=3.54, v_num=4, train-loss_step=3.670, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  69%|██████▉   | 300/435 [01:57<00:52,  2.55it/s, loss=3.55, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  71%|███████▏  | 310/435 [02:01<00:49,  2.55it/s, loss=3.55, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  71%|███████▏  | 310/435 [02:01<00:49,  2.55it/s, loss=3.53, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  74%|███████▎  | 320/435 [02:05<00:45,  2.55it/s, loss=3.53, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  74%|███████▎  | 320/435 [02:05<00:45,  2.55it/s, loss=3.53, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  76%|███████▌  | 330/435 [02:09<00:41,  2.55it/s, loss=3.53, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  76%|███████▌  | 330/435 [02:09<00:41,  2.55it/s, loss=3.53, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  78%|███████▊  | 340/435 [02:13<00:37,  2.55it/s, loss=3.53, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  78%|███████▊  | 340/435 [02:13<00:37,  2.55it/s, loss=3.54, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=3.54, v_num=4, train-loss_step=3.750, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=3.52, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  83%|████████▎ | 360/435 [02:21<00:29,  2.55it/s, loss=3.52, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  83%|████████▎ | 360/435 [02:21<00:29,  2.55it/s, loss=3.51, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  85%|████████▌ | 370/435 [02:25<00:25,  2.55it/s, loss=3.51, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  85%|████████▌ | 370/435 [02:25<00:25,  2.55it/s, loss=3.52, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  87%|████████▋ | 380/435 [02:29<00:21,  2.54it/s, loss=3.52, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  87%|████████▋ | 380/435 [02:29<00:21,  2.54it/s, loss=3.51, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 11:  90%|████████▉ | 390/435 [02:51<00:19,  2.27it/s, loss=3.51, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  92%|█████████▏| 400/435 [03:55<00:20,  1.70it/s, loss=3.51, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  94%|█████████▍| 410/435 [04:54<00:17,  1.39it/s, loss=3.51, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  97%|█████████▋| 420/435 [05:49<00:12,  1.20it/s, loss=3.51, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11:  99%|█████████▉| 430/435 [06:42<00:04,  1.07it/s, loss=3.51, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]Epoch 11: 100%|██████████| 435/435 [07:10<00:00,  1.01it/s, loss=3.51, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5]
+Evaluation on checkpoint [11] 
+vloss:3.7057721614837646
+rouge1:0.6734160780906677
+rouge2:0.3965644836425781
+rougeL:0.47194647789001465
+rougeLsum:0.47194647789001465
+bleu:32.95262145996094
+Epoch 11: 100%|██████████| 435/435 [07:10<00:00,  1.01it/s, loss=3.5, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.580, lr_epoch=3e-5] Epoch 11: 100%|██████████| 435/435 [07:10<00:00,  1.01it/s, loss=3.5, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 11:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.5, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]          Epoch 12:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.5, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:   2%|▏         | 10/435 [00:04<02:50,  2.49it/s, loss=3.5, v_num=4, train-loss_step=3.650, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:   2%|▏         | 10/435 [00:04<02:51,  2.48it/s, loss=3.49, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:   5%|▍         | 20/435 [00:07<02:40,  2.59it/s, loss=3.49, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:   5%|▍         | 20/435 [00:07<02:40,  2.58it/s, loss=3.46, v_num=4, train-loss_step=3.410, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:   7%|▋         | 30/435 [00:11<02:33,  2.64it/s, loss=3.46, v_num=4, train-loss_step=3.410, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:   7%|▋         | 30/435 [00:11<02:33,  2.63it/s, loss=3.45, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:   9%|▉         | 40/435 [00:15<02:31,  2.61it/s, loss=3.45, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:   9%|▉         | 40/435 [00:15<02:31,  2.61it/s, loss=3.42, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  11%|█▏        | 50/435 [00:19<02:29,  2.57it/s, loss=3.42, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  11%|█▏        | 50/435 [00:19<02:29,  2.57it/s, loss=3.43, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  14%|█▍        | 60/435 [00:23<02:24,  2.59it/s, loss=3.43, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  14%|█▍        | 60/435 [00:23<02:24,  2.59it/s, loss=3.45, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  16%|█▌        | 70/435 [00:26<02:19,  2.61it/s, loss=3.45, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  16%|█▌        | 70/435 [00:26<02:19,  2.61it/s, loss=3.44, v_num=4, train-loss_step=3.410, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  18%|█▊        | 80/435 [00:31<02:17,  2.58it/s, loss=3.44, v_num=4, train-loss_step=3.410, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  18%|█▊        | 80/435 [00:31<02:17,  2.58it/s, loss=3.5, v_num=4, train-loss_step=3.730, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5] Epoch 12:  21%|██        | 90/435 [00:34<02:13,  2.59it/s, loss=3.5, v_num=4, train-loss_step=3.730, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  21%|██        | 90/435 [00:34<02:13,  2.59it/s, loss=3.5, v_num=4, train-loss_step=3.590, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  23%|██▎       | 100/435 [00:38<02:09,  2.59it/s, loss=3.5, v_num=4, train-loss_step=3.590, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  23%|██▎       | 100/435 [00:38<02:09,  2.59it/s, loss=3.47, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  25%|██▌       | 110/435 [00:42<02:05,  2.58it/s, loss=3.47, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  25%|██▌       | 110/435 [00:42<02:05,  2.58it/s, loss=3.47, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  28%|██▊       | 120/435 [00:46<02:02,  2.58it/s, loss=3.47, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  28%|██▊       | 120/435 [00:46<02:02,  2.58it/s, loss=3.5, v_num=4, train-loss_step=3.350, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5] Epoch 12:  30%|██▉       | 130/435 [00:50<01:59,  2.56it/s, loss=3.5, v_num=4, train-loss_step=3.350, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  30%|██▉       | 130/435 [00:50<01:59,  2.55it/s, loss=3.52, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  32%|███▏      | 140/435 [00:54<01:55,  2.56it/s, loss=3.52, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  32%|███▏      | 140/435 [00:54<01:55,  2.56it/s, loss=3.49, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  34%|███▍      | 150/435 [00:58<01:50,  2.58it/s, loss=3.49, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  34%|███▍      | 150/435 [00:58<01:50,  2.58it/s, loss=3.45, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  37%|███▋      | 160/435 [01:01<01:46,  2.58it/s, loss=3.45, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  37%|███▋      | 160/435 [01:01<01:46,  2.58it/s, loss=3.42, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  39%|███▉      | 170/435 [01:05<01:42,  2.59it/s, loss=3.42, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  39%|███▉      | 170/435 [01:05<01:42,  2.59it/s, loss=3.43, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  41%|████▏     | 180/435 [01:09<01:38,  2.59it/s, loss=3.43, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  41%|████▏     | 180/435 [01:09<01:38,  2.59it/s, loss=3.45, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  44%|████▎     | 190/435 [01:13<01:34,  2.58it/s, loss=3.45, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  44%|████▎     | 190/435 [01:13<01:34,  2.58it/s, loss=3.46, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  46%|████▌     | 200/435 [01:17<01:31,  2.58it/s, loss=3.46, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  46%|████▌     | 200/435 [01:17<01:31,  2.58it/s, loss=3.47, v_num=4, train-loss_step=3.870, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  48%|████▊     | 210/435 [01:21<01:27,  2.58it/s, loss=3.47, v_num=4, train-loss_step=3.870, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  48%|████▊     | 210/435 [01:21<01:27,  2.58it/s, loss=3.48, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  51%|█████     | 220/435 [01:25<01:23,  2.58it/s, loss=3.48, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  51%|█████     | 220/435 [01:25<01:23,  2.58it/s, loss=3.51, v_num=4, train-loss_step=3.590, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  53%|█████▎    | 230/435 [01:29<01:19,  2.57it/s, loss=3.51, v_num=4, train-loss_step=3.590, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  53%|█████▎    | 230/435 [01:29<01:19,  2.57it/s, loss=3.46, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  55%|█████▌    | 240/435 [01:33<01:15,  2.57it/s, loss=3.46, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  55%|█████▌    | 240/435 [01:33<01:15,  2.57it/s, loss=3.45, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  57%|█████▋    | 250/435 [01:37<01:12,  2.57it/s, loss=3.45, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  57%|█████▋    | 250/435 [01:37<01:12,  2.57it/s, loss=3.47, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  60%|█████▉    | 260/435 [01:41<01:08,  2.57it/s, loss=3.47, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  60%|█████▉    | 260/435 [01:41<01:08,  2.57it/s, loss=3.45, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  62%|██████▏   | 270/435 [01:45<01:04,  2.57it/s, loss=3.45, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  62%|██████▏   | 270/435 [01:45<01:04,  2.57it/s, loss=3.44, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  64%|██████▍   | 280/435 [01:48<01:00,  2.57it/s, loss=3.44, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  64%|██████▍   | 280/435 [01:48<01:00,  2.57it/s, loss=3.43, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  67%|██████▋   | 290/435 [01:52<00:56,  2.57it/s, loss=3.43, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  67%|██████▋   | 290/435 [01:52<00:56,  2.57it/s, loss=3.45, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  69%|██████▉   | 300/435 [01:56<00:52,  2.57it/s, loss=3.45, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  69%|██████▉   | 300/435 [01:56<00:52,  2.57it/s, loss=3.47, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  71%|███████▏  | 310/435 [02:00<00:48,  2.57it/s, loss=3.47, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  71%|███████▏  | 310/435 [02:00<00:48,  2.57it/s, loss=3.5, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5] Epoch 12:  74%|███████▎  | 320/435 [02:04<00:44,  2.57it/s, loss=3.5, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  74%|███████▎  | 320/435 [02:04<00:44,  2.57it/s, loss=3.49, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  76%|███████▌  | 330/435 [02:08<00:40,  2.56it/s, loss=3.49, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  76%|███████▌  | 330/435 [02:08<00:40,  2.56it/s, loss=3.46, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  78%|███████▊  | 340/435 [02:12<00:37,  2.56it/s, loss=3.46, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  78%|███████▊  | 340/435 [02:12<00:37,  2.56it/s, loss=3.47, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  80%|████████  | 350/435 [02:16<00:33,  2.56it/s, loss=3.47, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  80%|████████  | 350/435 [02:16<00:33,  2.56it/s, loss=3.47, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  83%|████████▎ | 360/435 [02:20<00:29,  2.56it/s, loss=3.47, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  83%|████████▎ | 360/435 [02:20<00:29,  2.56it/s, loss=3.47, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  85%|████████▌ | 370/435 [02:24<00:25,  2.56it/s, loss=3.47, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  85%|████████▌ | 370/435 [02:24<00:25,  2.56it/s, loss=3.5, v_num=4, train-loss_step=3.710, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5] Epoch 12:  87%|████████▋ | 380/435 [02:28<00:21,  2.56it/s, loss=3.5, v_num=4, train-loss_step=3.710, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  87%|████████▋ | 380/435 [02:28<00:21,  2.56it/s, loss=3.49, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 12:  90%|████████▉ | 390/435 [02:49<00:19,  2.30it/s, loss=3.49, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  92%|█████████▏| 400/435 [03:59<00:20,  1.67it/s, loss=3.49, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  94%|█████████▍| 410/435 [05:00<00:18,  1.36it/s, loss=3.49, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  97%|█████████▋| 420/435 [06:00<00:12,  1.16it/s, loss=3.49, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12:  99%|█████████▉| 430/435 [06:50<00:04,  1.05it/s, loss=3.49, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12: 100%|██████████| 435/435 [07:16<00:00,  1.00s/it, loss=3.49, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]
+Evaluation on checkpoint [12] 
+vloss:3.6984963417053223
+rouge1:0.6725876331329346
+rouge2:0.39345893263816833
+rougeL:0.4693370461463928
+rougeLsum:0.4693370461463928
+bleu:32.50979232788086
+Epoch 12: 100%|██████████| 435/435 [07:16<00:00,  1.00s/it, loss=3.49, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.520, lr_epoch=3e-5]Epoch 12: 100%|██████████| 435/435 [07:16<00:00,  1.00s/it, loss=3.49, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 12:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.49, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]          Epoch 13:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.49, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:   2%|▏         | 10/435 [00:04<02:58,  2.38it/s, loss=3.49, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:   2%|▏         | 10/435 [00:04<02:58,  2.38it/s, loss=3.46, v_num=4, train-loss_step=3.690, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:   5%|▍         | 20/435 [00:08<02:49,  2.45it/s, loss=3.46, v_num=4, train-loss_step=3.690, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:   5%|▍         | 20/435 [00:08<02:49,  2.45it/s, loss=3.43, v_num=4, train-loss_step=3.390, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:   7%|▋         | 30/435 [00:12<02:42,  2.49it/s, loss=3.43, v_num=4, train-loss_step=3.390, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:   7%|▋         | 30/435 [00:12<02:42,  2.49it/s, loss=3.4, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5] Epoch 13:   9%|▉         | 40/435 [00:15<02:36,  2.53it/s, loss=3.4, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:   9%|▉         | 40/435 [00:15<02:36,  2.53it/s, loss=3.38, v_num=4, train-loss_step=3.390, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  11%|█▏        | 50/435 [00:19<02:33,  2.51it/s, loss=3.38, v_num=4, train-loss_step=3.390, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  11%|█▏        | 50/435 [00:19<02:33,  2.51it/s, loss=3.4, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5] Epoch 13:  14%|█▍        | 60/435 [00:23<02:29,  2.51it/s, loss=3.4, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  14%|█▍        | 60/435 [00:23<02:29,  2.51it/s, loss=3.42, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  16%|█▌        | 70/435 [00:28<02:26,  2.49it/s, loss=3.42, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  16%|█▌        | 70/435 [00:28<02:26,  2.49it/s, loss=3.43, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  18%|█▊        | 80/435 [00:32<02:22,  2.49it/s, loss=3.43, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  18%|█▊        | 80/435 [00:32<02:22,  2.49it/s, loss=3.41, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  21%|██        | 90/435 [00:35<02:17,  2.51it/s, loss=3.41, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  21%|██        | 90/435 [00:35<02:17,  2.51it/s, loss=3.43, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  23%|██▎       | 100/435 [00:39<02:13,  2.51it/s, loss=3.43, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  23%|██▎       | 100/435 [00:39<02:13,  2.51it/s, loss=3.44, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  25%|██▌       | 110/435 [00:43<02:09,  2.51it/s, loss=3.44, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  25%|██▌       | 110/435 [00:43<02:09,  2.51it/s, loss=3.39, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  28%|██▊       | 120/435 [00:47<02:05,  2.50it/s, loss=3.39, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  28%|██▊       | 120/435 [00:47<02:05,  2.50it/s, loss=3.43, v_num=4, train-loss_step=3.600, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  30%|██▉       | 130/435 [00:52<02:02,  2.49it/s, loss=3.43, v_num=4, train-loss_step=3.600, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  30%|██▉       | 130/435 [00:52<02:02,  2.49it/s, loss=3.46, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  32%|███▏      | 140/435 [00:55<01:57,  2.50it/s, loss=3.46, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  32%|███▏      | 140/435 [00:55<01:57,  2.50it/s, loss=3.46, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  34%|███▍      | 150/435 [00:59<01:53,  2.50it/s, loss=3.46, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  34%|███▍      | 150/435 [00:59<01:53,  2.50it/s, loss=3.45, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  37%|███▋      | 160/435 [01:03<01:49,  2.50it/s, loss=3.45, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  37%|███▋      | 160/435 [01:03<01:49,  2.50it/s, loss=3.4, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5] Epoch 13:  39%|███▉      | 170/435 [01:07<01:45,  2.51it/s, loss=3.4, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  39%|███▉      | 170/435 [01:07<01:45,  2.51it/s, loss=3.37, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  41%|████▏     | 180/435 [01:11<01:41,  2.52it/s, loss=3.37, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  41%|████▏     | 180/435 [01:11<01:41,  2.52it/s, loss=3.37, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  44%|████▎     | 190/435 [01:15<01:36,  2.53it/s, loss=3.37, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  44%|████▎     | 190/435 [01:15<01:36,  2.53it/s, loss=3.38, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  46%|████▌     | 200/435 [01:19<01:32,  2.53it/s, loss=3.38, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  46%|████▌     | 200/435 [01:19<01:32,  2.53it/s, loss=3.4, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5] Epoch 13:  48%|████▊     | 210/435 [01:23<01:28,  2.53it/s, loss=3.4, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  48%|████▊     | 210/435 [01:23<01:28,  2.53it/s, loss=3.42, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  51%|█████     | 220/435 [01:26<01:24,  2.53it/s, loss=3.42, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  51%|█████     | 220/435 [01:26<01:24,  2.53it/s, loss=3.42, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  53%|█████▎    | 230/435 [01:30<01:20,  2.54it/s, loss=3.42, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  53%|█████▎    | 230/435 [01:30<01:20,  2.54it/s, loss=3.44, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  55%|█████▌    | 240/435 [01:34<01:17,  2.53it/s, loss=3.44, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  55%|█████▌    | 240/435 [01:34<01:17,  2.53it/s, loss=3.43, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  57%|█████▋    | 250/435 [01:38<01:13,  2.53it/s, loss=3.43, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  57%|█████▋    | 250/435 [01:38<01:13,  2.53it/s, loss=3.38, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  60%|█████▉    | 260/435 [01:42<01:09,  2.54it/s, loss=3.38, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  60%|█████▉    | 260/435 [01:42<01:09,  2.54it/s, loss=3.39, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  62%|██████▏   | 270/435 [01:46<01:05,  2.53it/s, loss=3.39, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  62%|██████▏   | 270/435 [01:46<01:05,  2.53it/s, loss=3.47, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  64%|██████▍   | 280/435 [01:50<01:01,  2.53it/s, loss=3.47, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  64%|██████▍   | 280/435 [01:50<01:01,  2.53it/s, loss=3.47, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  67%|██████▋   | 290/435 [01:54<00:57,  2.53it/s, loss=3.47, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  67%|██████▋   | 290/435 [01:54<00:57,  2.53it/s, loss=3.41, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  69%|██████▉   | 300/435 [01:58<00:53,  2.53it/s, loss=3.41, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  69%|██████▉   | 300/435 [01:58<00:53,  2.53it/s, loss=3.44, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  71%|███████▏  | 310/435 [02:02<00:49,  2.53it/s, loss=3.44, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  71%|███████▏  | 310/435 [02:02<00:49,  2.53it/s, loss=3.45, v_num=4, train-loss_step=3.590, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  74%|███████▎  | 320/435 [02:06<00:45,  2.53it/s, loss=3.45, v_num=4, train-loss_step=3.590, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  74%|███████▎  | 320/435 [02:06<00:45,  2.53it/s, loss=3.44, v_num=4, train-loss_step=3.390, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  76%|███████▌  | 330/435 [02:10<00:41,  2.54it/s, loss=3.44, v_num=4, train-loss_step=3.390, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  76%|███████▌  | 330/435 [02:10<00:41,  2.54it/s, loss=3.42, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  78%|███████▊  | 340/435 [02:13<00:37,  2.54it/s, loss=3.42, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  78%|███████▊  | 340/435 [02:13<00:37,  2.54it/s, loss=3.41, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=3.41, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=3.42, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  83%|████████▎ | 360/435 [02:21<00:29,  2.55it/s, loss=3.42, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  83%|████████▎ | 360/435 [02:21<00:29,  2.55it/s, loss=3.43, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=3.43, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=3.47, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  87%|████████▋ | 380/435 [02:29<00:21,  2.55it/s, loss=3.47, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  87%|████████▋ | 380/435 [02:29<00:21,  2.55it/s, loss=3.46, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 13:  90%|████████▉ | 390/435 [02:49<00:19,  2.30it/s, loss=3.46, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  92%|█████████▏| 400/435 [03:54<00:20,  1.71it/s, loss=3.46, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  94%|█████████▍| 410/435 [04:55<00:17,  1.39it/s, loss=3.46, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  97%|█████████▋| 420/435 [05:52<00:12,  1.19it/s, loss=3.46, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13:  99%|█████████▉| 430/435 [06:43<00:04,  1.07it/s, loss=3.46, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13: 100%|██████████| 435/435 [07:08<00:00,  1.01it/s, loss=3.46, v_num=4, train-loss_step=3.530, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]
+Evaluation on checkpoint [13] 
+vloss:3.714576244354248
+rouge1:0.6898629069328308
+rouge2:0.407842755317688
+rougeL:0.48997896909713745
+rougeLsum:0.48997896909713745
+bleu:33.97416305541992
+Epoch 13: 100%|██████████| 435/435 [07:08<00:00,  1.01it/s, loss=3.45, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.470, lr_epoch=3e-5]Epoch 13: 100%|██████████| 435/435 [07:08<00:00,  1.01it/s, loss=3.45, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 13:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.45, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]          Epoch 14:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.45, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:   2%|▏         | 10/435 [00:04<02:57,  2.40it/s, loss=3.45, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:   2%|▏         | 10/435 [00:04<02:57,  2.39it/s, loss=3.42, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:   5%|▍         | 20/435 [00:07<02:43,  2.54it/s, loss=3.42, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:   5%|▍         | 20/435 [00:07<02:43,  2.54it/s, loss=3.36, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:   7%|▋         | 30/435 [00:11<02:35,  2.61it/s, loss=3.36, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:   7%|▋         | 30/435 [00:11<02:35,  2.61it/s, loss=3.33, v_num=4, train-loss_step=3.350, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:   9%|▉         | 40/435 [00:15<02:35,  2.54it/s, loss=3.33, v_num=4, train-loss_step=3.350, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:   9%|▉         | 40/435 [00:15<02:35,  2.54it/s, loss=3.34, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  11%|█▏        | 50/435 [00:19<02:29,  2.58it/s, loss=3.34, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  11%|█▏        | 50/435 [00:19<02:29,  2.58it/s, loss=3.35, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  14%|█▍        | 60/435 [00:23<02:23,  2.61it/s, loss=3.35, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  14%|█▍        | 60/435 [00:23<02:23,  2.60it/s, loss=3.33, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  16%|█▌        | 70/435 [00:26<02:19,  2.62it/s, loss=3.33, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  16%|█▌        | 70/435 [00:26<02:19,  2.61it/s, loss=3.34, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  18%|█▊        | 80/435 [00:30<02:15,  2.61it/s, loss=3.34, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  18%|█▊        | 80/435 [00:30<02:16,  2.61it/s, loss=3.37, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  21%|██        | 90/435 [00:34<02:12,  2.60it/s, loss=3.37, v_num=4, train-loss_step=3.510, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  21%|██        | 90/435 [00:34<02:12,  2.60it/s, loss=3.35, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  23%|██▎       | 100/435 [00:38<02:09,  2.60it/s, loss=3.35, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  23%|██▎       | 100/435 [00:38<02:09,  2.60it/s, loss=3.35, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  25%|██▌       | 110/435 [00:42<02:04,  2.61it/s, loss=3.35, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  25%|██▌       | 110/435 [00:42<02:04,  2.61it/s, loss=3.38, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  28%|██▊       | 120/435 [00:46<02:01,  2.59it/s, loss=3.38, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  28%|██▊       | 120/435 [00:46<02:01,  2.59it/s, loss=3.39, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  30%|██▉       | 130/435 [00:50<01:58,  2.58it/s, loss=3.39, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  30%|██▉       | 130/435 [00:50<01:58,  2.58it/s, loss=3.4, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5] Epoch 14:  32%|███▏      | 140/435 [00:54<01:54,  2.58it/s, loss=3.4, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  32%|███▏      | 140/435 [00:54<01:54,  2.58it/s, loss=3.38, v_num=4, train-loss_step=3.370, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  34%|███▍      | 150/435 [00:58<01:51,  2.57it/s, loss=3.38, v_num=4, train-loss_step=3.370, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  34%|███▍      | 150/435 [00:58<01:51,  2.57it/s, loss=3.37, v_num=4, train-loss_step=3.350, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  37%|███▋      | 160/435 [01:02<01:46,  2.58it/s, loss=3.37, v_num=4, train-loss_step=3.350, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  37%|███▋      | 160/435 [01:02<01:46,  2.57it/s, loss=3.39, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  39%|███▉      | 170/435 [01:05<01:42,  2.58it/s, loss=3.39, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  39%|███▉      | 170/435 [01:05<01:42,  2.58it/s, loss=3.38, v_num=4, train-loss_step=3.320, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  41%|████▏     | 180/435 [01:09<01:38,  2.59it/s, loss=3.38, v_num=4, train-loss_step=3.320, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  41%|████▏     | 180/435 [01:09<01:38,  2.59it/s, loss=3.38, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  44%|████▎     | 190/435 [01:13<01:35,  2.57it/s, loss=3.38, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  44%|████▎     | 190/435 [01:13<01:35,  2.57it/s, loss=3.39, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  46%|████▌     | 200/435 [01:17<01:31,  2.58it/s, loss=3.39, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  46%|████▌     | 200/435 [01:17<01:31,  2.58it/s, loss=3.37, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  48%|████▊     | 210/435 [01:21<01:27,  2.58it/s, loss=3.37, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  48%|████▊     | 210/435 [01:21<01:27,  2.57it/s, loss=3.4, v_num=4, train-loss_step=3.810, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5] Epoch 14:  51%|█████     | 220/435 [01:25<01:23,  2.57it/s, loss=3.4, v_num=4, train-loss_step=3.810, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  51%|█████     | 220/435 [01:25<01:23,  2.57it/s, loss=3.39, v_num=4, train-loss_step=3.280, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  53%|█████▎    | 230/435 [01:29<01:19,  2.58it/s, loss=3.39, v_num=4, train-loss_step=3.280, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  53%|█████▎    | 230/435 [01:29<01:19,  2.58it/s, loss=3.34, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  55%|█████▌    | 240/435 [01:32<01:15,  2.59it/s, loss=3.34, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  55%|█████▌    | 240/435 [01:32<01:15,  2.59it/s, loss=3.34, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  57%|█████▋    | 250/435 [01:36<01:11,  2.58it/s, loss=3.34, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  57%|█████▋    | 250/435 [01:36<01:11,  2.58it/s, loss=3.34, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  60%|█████▉    | 260/435 [01:40<01:07,  2.59it/s, loss=3.34, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  60%|█████▉    | 260/435 [01:40<01:07,  2.59it/s, loss=3.37, v_num=4, train-loss_step=3.390, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  62%|██████▏   | 270/435 [01:44<01:03,  2.59it/s, loss=3.37, v_num=4, train-loss_step=3.390, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  62%|██████▏   | 270/435 [01:44<01:03,  2.59it/s, loss=3.41, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  64%|██████▍   | 280/435 [01:48<00:59,  2.59it/s, loss=3.41, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  64%|██████▍   | 280/435 [01:48<00:59,  2.59it/s, loss=3.38, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  67%|██████▋   | 290/435 [01:51<00:55,  2.59it/s, loss=3.38, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  67%|██████▋   | 290/435 [01:51<00:55,  2.59it/s, loss=3.37, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  69%|██████▉   | 300/435 [01:55<00:52,  2.59it/s, loss=3.37, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  69%|██████▉   | 300/435 [01:55<00:52,  2.59it/s, loss=3.42, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  71%|███████▏  | 310/435 [01:59<00:48,  2.60it/s, loss=3.42, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  71%|███████▏  | 310/435 [01:59<00:48,  2.60it/s, loss=3.4, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5] Epoch 14:  74%|███████▎  | 320/435 [02:02<00:44,  2.60it/s, loss=3.4, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  74%|███████▎  | 320/435 [02:03<00:44,  2.60it/s, loss=3.38, v_num=4, train-loss_step=3.320, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  76%|███████▌  | 330/435 [02:06<00:40,  2.60it/s, loss=3.38, v_num=4, train-loss_step=3.320, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  76%|███████▌  | 330/435 [02:06<00:40,  2.60it/s, loss=3.4, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5] Epoch 14:  78%|███████▊  | 340/435 [02:11<00:36,  2.59it/s, loss=3.4, v_num=4, train-loss_step=3.490, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  78%|███████▊  | 340/435 [02:11<00:36,  2.59it/s, loss=3.39, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  80%|████████  | 350/435 [02:15<00:32,  2.58it/s, loss=3.39, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  80%|████████  | 350/435 [02:15<00:32,  2.58it/s, loss=3.39, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  83%|████████▎ | 360/435 [02:19<00:29,  2.58it/s, loss=3.39, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  83%|████████▎ | 360/435 [02:19<00:29,  2.58it/s, loss=3.45, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  85%|████████▌ | 370/435 [02:23<00:25,  2.57it/s, loss=3.45, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  85%|████████▌ | 370/435 [02:23<00:25,  2.57it/s, loss=3.43, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  87%|████████▋ | 380/435 [02:27<00:21,  2.57it/s, loss=3.43, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  87%|████████▋ | 380/435 [02:27<00:21,  2.57it/s, loss=3.41, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 14:  90%|████████▉ | 390/435 [02:45<00:19,  2.36it/s, loss=3.41, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  92%|█████████▏| 400/435 [03:44<00:19,  1.79it/s, loss=3.41, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  94%|█████████▍| 410/435 [04:36<00:16,  1.48it/s, loss=3.41, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  97%|█████████▋| 420/435 [05:28<00:11,  1.28it/s, loss=3.41, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14:  99%|█████████▉| 430/435 [06:15<00:04,  1.14it/s, loss=3.41, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14: 100%|██████████| 435/435 [06:42<00:00,  1.08it/s, loss=3.41, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]
+Evaluation on checkpoint [14] 
+vloss:3.7183845043182373
+rouge1:0.6563714742660522
+rouge2:0.38379916548728943
+rougeL:0.45850443840026855
+rougeLsum:0.45850443840026855
+bleu:31.392990112304688
+Epoch 14: 100%|██████████| 435/435 [06:42<00:00,  1.08it/s, loss=3.41, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.420, lr_epoch=3e-5]Epoch 14: 100%|██████████| 435/435 [06:42<00:00,  1.08it/s, loss=3.41, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 14:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.41, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]          Epoch 15:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.41, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:   2%|▏         | 10/435 [00:04<03:08,  2.26it/s, loss=3.41, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:   2%|▏         | 10/435 [00:04<03:08,  2.25it/s, loss=3.35, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:   5%|▍         | 20/435 [00:08<02:54,  2.38it/s, loss=3.35, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:   5%|▍         | 20/435 [00:08<02:54,  2.38it/s, loss=3.31, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:   7%|▋         | 30/435 [00:12<02:43,  2.47it/s, loss=3.31, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:   7%|▋         | 30/435 [00:12<02:44,  2.47it/s, loss=3.32, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:   9%|▉         | 40/435 [00:15<02:36,  2.52it/s, loss=3.32, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:   9%|▉         | 40/435 [00:15<02:37,  2.52it/s, loss=3.34, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  11%|█▏        | 50/435 [00:19<02:32,  2.53it/s, loss=3.34, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  11%|█▏        | 50/435 [00:19<02:32,  2.53it/s, loss=3.33, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  14%|█▍        | 60/435 [00:23<02:28,  2.52it/s, loss=3.33, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  14%|█▍        | 60/435 [00:23<02:28,  2.52it/s, loss=3.32, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  16%|█▌        | 70/435 [00:27<02:23,  2.55it/s, loss=3.32, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  16%|█▌        | 70/435 [00:27<02:23,  2.55it/s, loss=3.33, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  18%|█▊        | 80/435 [00:31<02:19,  2.54it/s, loss=3.33, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  18%|█▊        | 80/435 [00:31<02:19,  2.54it/s, loss=3.35, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  21%|██        | 90/435 [00:35<02:15,  2.55it/s, loss=3.35, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  21%|██        | 90/435 [00:35<02:15,  2.55it/s, loss=3.35, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  23%|██▎       | 100/435 [00:39<02:11,  2.55it/s, loss=3.35, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  23%|██▎       | 100/435 [00:39<02:11,  2.55it/s, loss=3.36, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  25%|██▌       | 110/435 [00:43<02:07,  2.55it/s, loss=3.36, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  25%|██▌       | 110/435 [00:43<02:07,  2.55it/s, loss=3.37, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  28%|██▊       | 120/435 [00:46<02:03,  2.56it/s, loss=3.37, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  28%|██▊       | 120/435 [00:46<02:03,  2.56it/s, loss=3.36, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  30%|██▉       | 130/435 [00:51<01:59,  2.54it/s, loss=3.36, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  30%|██▉       | 130/435 [00:51<01:59,  2.54it/s, loss=3.34, v_num=4, train-loss_step=3.350, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  32%|███▏      | 140/435 [00:55<01:56,  2.54it/s, loss=3.34, v_num=4, train-loss_step=3.350, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  32%|███▏      | 140/435 [00:55<01:56,  2.54it/s, loss=3.33, v_num=4, train-loss_step=3.150, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  34%|███▍      | 150/435 [00:59<01:52,  2.54it/s, loss=3.33, v_num=4, train-loss_step=3.150, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  34%|███▍      | 150/435 [00:59<01:52,  2.54it/s, loss=3.33, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  37%|███▋      | 160/435 [01:02<01:47,  2.55it/s, loss=3.33, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  37%|███▋      | 160/435 [01:02<01:47,  2.55it/s, loss=3.31, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  39%|███▉      | 170/435 [01:06<01:44,  2.54it/s, loss=3.31, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  39%|███▉      | 170/435 [01:06<01:44,  2.54it/s, loss=3.34, v_num=4, train-loss_step=3.280, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  41%|████▏     | 180/435 [01:11<01:40,  2.53it/s, loss=3.34, v_num=4, train-loss_step=3.280, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  41%|████▏     | 180/435 [01:11<01:40,  2.53it/s, loss=3.38, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  44%|████▎     | 190/435 [01:15<01:36,  2.53it/s, loss=3.38, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  44%|████▎     | 190/435 [01:15<01:36,  2.53it/s, loss=3.37, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  46%|████▌     | 200/435 [01:19<01:32,  2.53it/s, loss=3.37, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  46%|████▌     | 200/435 [01:19<01:32,  2.53it/s, loss=3.35, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  48%|████▊     | 210/435 [01:23<01:28,  2.53it/s, loss=3.35, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  48%|████▊     | 210/435 [01:23<01:29,  2.53it/s, loss=3.33, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  51%|█████     | 220/435 [01:27<01:25,  2.53it/s, loss=3.33, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  51%|█████     | 220/435 [01:27<01:25,  2.53it/s, loss=3.35, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  53%|█████▎    | 230/435 [01:30<01:20,  2.54it/s, loss=3.35, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  53%|█████▎    | 230/435 [01:30<01:20,  2.54it/s, loss=3.36, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  55%|█████▌    | 240/435 [01:34<01:16,  2.54it/s, loss=3.36, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  55%|█████▌    | 240/435 [01:34<01:16,  2.54it/s, loss=3.33, v_num=4, train-loss_step=3.390, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  57%|█████▋    | 250/435 [01:38<01:12,  2.55it/s, loss=3.33, v_num=4, train-loss_step=3.390, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  57%|█████▋    | 250/435 [01:38<01:12,  2.55it/s, loss=3.33, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  60%|█████▉    | 260/435 [01:42<01:08,  2.55it/s, loss=3.33, v_num=4, train-loss_step=3.540, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  60%|█████▉    | 260/435 [01:42<01:08,  2.55it/s, loss=3.35, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  62%|██████▏   | 270/435 [01:45<01:04,  2.55it/s, loss=3.35, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  62%|██████▏   | 270/435 [01:45<01:04,  2.55it/s, loss=3.39, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  64%|██████▍   | 280/435 [01:50<01:01,  2.54it/s, loss=3.39, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  64%|██████▍   | 280/435 [01:50<01:01,  2.54it/s, loss=3.38, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  67%|██████▋   | 290/435 [01:53<00:56,  2.54it/s, loss=3.38, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  67%|██████▋   | 290/435 [01:54<00:57,  2.54it/s, loss=3.35, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  69%|██████▉   | 300/435 [01:57<00:52,  2.55it/s, loss=3.35, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  69%|██████▉   | 300/435 [01:57<00:52,  2.55it/s, loss=3.33, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  71%|███████▏  | 310/435 [02:01<00:49,  2.55it/s, loss=3.33, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  71%|███████▏  | 310/435 [02:01<00:49,  2.55it/s, loss=3.33, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  74%|███████▎  | 320/435 [02:05<00:45,  2.55it/s, loss=3.33, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  74%|███████▎  | 320/435 [02:05<00:45,  2.55it/s, loss=3.34, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  76%|███████▌  | 330/435 [02:09<00:41,  2.55it/s, loss=3.34, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  76%|███████▌  | 330/435 [02:09<00:41,  2.55it/s, loss=3.35, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  78%|███████▊  | 340/435 [02:13<00:37,  2.54it/s, loss=3.35, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  78%|███████▊  | 340/435 [02:13<00:37,  2.54it/s, loss=3.37, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=3.37, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=3.35, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  83%|████████▎ | 360/435 [02:21<00:29,  2.55it/s, loss=3.35, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  83%|████████▎ | 360/435 [02:21<00:29,  2.55it/s, loss=3.34, v_num=4, train-loss_step=3.410, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  85%|████████▌ | 370/435 [02:25<00:25,  2.55it/s, loss=3.34, v_num=4, train-loss_step=3.410, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  85%|████████▌ | 370/435 [02:25<00:25,  2.55it/s, loss=3.36, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  87%|████████▋ | 380/435 [02:29<00:21,  2.55it/s, loss=3.36, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  87%|████████▋ | 380/435 [02:29<00:21,  2.55it/s, loss=3.32, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 15:  90%|████████▉ | 390/435 [02:48<00:19,  2.31it/s, loss=3.32, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  92%|█████████▏| 400/435 [03:48<00:19,  1.75it/s, loss=3.32, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  94%|█████████▍| 410/435 [04:46<00:17,  1.43it/s, loss=3.32, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  97%|█████████▋| 420/435 [05:42<00:12,  1.23it/s, loss=3.32, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15:  99%|█████████▉| 430/435 [06:29<00:04,  1.10it/s, loss=3.32, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]Epoch 15: 100%|██████████| 435/435 [06:55<00:00,  1.05it/s, loss=3.32, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5]
+Evaluation on checkpoint [15] 
+vloss:3.7189760208129883
+rouge1:0.6625093221664429
+rouge2:0.3932191729545593
+rougeL:0.4712706506252289
+rougeLsum:0.4712706506252289
+bleu:32.549617767333984
+Epoch 15: 100%|██████████| 435/435 [06:55<00:00,  1.05it/s, loss=3.3, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.380, lr_epoch=3e-5] Epoch 15: 100%|██████████| 435/435 [06:55<00:00,  1.05it/s, loss=3.3, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 15:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.3, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]          Epoch 16:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.3, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:   2%|▏         | 10/435 [00:04<03:15,  2.17it/s, loss=3.3, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:   2%|▏         | 10/435 [00:04<03:15,  2.17it/s, loss=3.27, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:   5%|▍         | 20/435 [00:08<02:56,  2.35it/s, loss=3.27, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:   5%|▍         | 20/435 [00:08<02:56,  2.35it/s, loss=3.28, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:   7%|▋         | 30/435 [00:12<02:47,  2.42it/s, loss=3.28, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:   7%|▋         | 30/435 [00:12<02:47,  2.41it/s, loss=3.28, v_num=4, train-loss_step=3.320, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:   9%|▉         | 40/435 [00:16<02:42,  2.44it/s, loss=3.28, v_num=4, train-loss_step=3.320, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:   9%|▉         | 40/435 [00:16<02:42,  2.44it/s, loss=3.29, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  11%|█▏        | 50/435 [00:20<02:36,  2.45it/s, loss=3.29, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  11%|█▏        | 50/435 [00:20<02:37,  2.45it/s, loss=3.33, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  14%|█▍        | 60/435 [00:24<02:32,  2.46it/s, loss=3.33, v_num=4, train-loss_step=3.460, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  14%|█▍        | 60/435 [00:24<02:32,  2.46it/s, loss=3.33, v_num=4, train-loss_step=3.320, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  16%|█▌        | 70/435 [00:28<02:30,  2.43it/s, loss=3.33, v_num=4, train-loss_step=3.320, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  16%|█▌        | 70/435 [00:28<02:30,  2.42it/s, loss=3.33, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  18%|█▊        | 80/435 [00:32<02:25,  2.44it/s, loss=3.33, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  18%|█▊        | 80/435 [00:32<02:25,  2.44it/s, loss=3.55, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  21%|██        | 90/435 [00:36<02:21,  2.43it/s, loss=3.55, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  21%|██        | 90/435 [00:37<02:21,  2.43it/s, loss=3.51, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  23%|██▎       | 100/435 [00:41<02:17,  2.43it/s, loss=3.51, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  23%|██▎       | 100/435 [00:41<02:17,  2.43it/s, loss=3.28, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  25%|██▌       | 110/435 [00:44<02:12,  2.44it/s, loss=3.28, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  25%|██▌       | 110/435 [00:45<02:12,  2.44it/s, loss=3.3, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5] Epoch 16:  28%|██▊       | 120/435 [00:49<02:08,  2.45it/s, loss=3.3, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  28%|██▊       | 120/435 [00:49<02:08,  2.45it/s, loss=3.35, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  30%|██▉       | 130/435 [00:52<02:04,  2.45it/s, loss=3.35, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  30%|██▉       | 130/435 [00:52<02:04,  2.45it/s, loss=3.34, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  32%|███▏      | 140/435 [00:57<02:01,  2.43it/s, loss=3.34, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  32%|███▏      | 140/435 [00:57<02:01,  2.43it/s, loss=3.32, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  34%|███▍      | 150/435 [01:01<01:56,  2.45it/s, loss=3.32, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  34%|███▍      | 150/435 [01:01<01:56,  2.45it/s, loss=3.3, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5] Epoch 16:  37%|███▋      | 160/435 [01:05<01:52,  2.45it/s, loss=3.3, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  37%|███▋      | 160/435 [01:05<01:52,  2.45it/s, loss=3.28, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  39%|███▉      | 170/435 [01:08<01:47,  2.47it/s, loss=3.28, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  39%|███▉      | 170/435 [01:08<01:47,  2.47it/s, loss=3.3, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5] Epoch 16:  41%|████▏     | 180/435 [01:12<01:42,  2.48it/s, loss=3.3, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  41%|████▏     | 180/435 [01:12<01:42,  2.48it/s, loss=3.33, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  44%|████▎     | 190/435 [01:16<01:38,  2.48it/s, loss=3.33, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  44%|████▎     | 190/435 [01:16<01:38,  2.48it/s, loss=3.32, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  46%|████▌     | 200/435 [01:20<01:34,  2.49it/s, loss=3.32, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  46%|████▌     | 200/435 [01:20<01:34,  2.49it/s, loss=3.3, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5] Epoch 16:  48%|████▊     | 210/435 [01:24<01:30,  2.50it/s, loss=3.3, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  48%|████▊     | 210/435 [01:24<01:30,  2.50it/s, loss=3.31, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  51%|█████     | 220/435 [01:28<01:26,  2.50it/s, loss=3.31, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  51%|█████     | 220/435 [01:28<01:26,  2.50it/s, loss=3.29, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  53%|█████▎    | 230/435 [01:32<01:22,  2.50it/s, loss=3.29, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  53%|█████▎    | 230/435 [01:32<01:22,  2.50it/s, loss=3.29, v_num=4, train-loss_step=3.350, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  55%|█████▌    | 240/435 [01:35<01:17,  2.50it/s, loss=3.29, v_num=4, train-loss_step=3.350, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  55%|█████▌    | 240/435 [01:35<01:17,  2.50it/s, loss=3.31, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  57%|█████▋    | 250/435 [01:39<01:13,  2.51it/s, loss=3.31, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  57%|█████▋    | 250/435 [01:39<01:13,  2.51it/s, loss=3.29, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  60%|█████▉    | 260/435 [01:43<01:09,  2.52it/s, loss=3.29, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  60%|█████▉    | 260/435 [01:43<01:09,  2.52it/s, loss=3.28, v_num=4, train-loss_step=3.110, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  62%|██████▏   | 270/435 [01:47<01:05,  2.52it/s, loss=3.28, v_num=4, train-loss_step=3.110, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  62%|██████▏   | 270/435 [01:47<01:05,  2.52it/s, loss=3.29, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  64%|██████▍   | 280/435 [01:50<01:01,  2.53it/s, loss=3.29, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  64%|██████▍   | 280/435 [01:50<01:01,  2.53it/s, loss=3.31, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  67%|██████▋   | 290/435 [01:54<00:57,  2.53it/s, loss=3.31, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  67%|██████▋   | 290/435 [01:54<00:57,  2.53it/s, loss=3.28, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  69%|██████▉   | 300/435 [01:58<00:53,  2.53it/s, loss=3.28, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  69%|██████▉   | 300/435 [01:58<00:53,  2.53it/s, loss=3.3, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5] Epoch 16:  71%|███████▏  | 310/435 [02:01<00:49,  2.54it/s, loss=3.3, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  71%|███████▏  | 310/435 [02:01<00:49,  2.54it/s, loss=3.31, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  74%|███████▎  | 320/435 [02:05<00:45,  2.55it/s, loss=3.31, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  74%|███████▎  | 320/435 [02:05<00:45,  2.55it/s, loss=3.29, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  76%|███████▌  | 330/435 [02:09<00:41,  2.55it/s, loss=3.29, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  76%|███████▌  | 330/435 [02:09<00:41,  2.55it/s, loss=3.32, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  78%|███████▊  | 340/435 [02:12<00:37,  2.56it/s, loss=3.32, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  78%|███████▊  | 340/435 [02:12<00:37,  2.56it/s, loss=3.31, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  80%|████████  | 350/435 [02:16<00:33,  2.56it/s, loss=3.31, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  80%|████████  | 350/435 [02:16<00:33,  2.56it/s, loss=3.32, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  83%|████████▎ | 360/435 [02:20<00:29,  2.56it/s, loss=3.32, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  83%|████████▎ | 360/435 [02:20<00:29,  2.56it/s, loss=3.33, v_num=4, train-loss_step=3.350, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  85%|████████▌ | 370/435 [02:24<00:25,  2.56it/s, loss=3.33, v_num=4, train-loss_step=3.350, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  85%|████████▌ | 370/435 [02:24<00:25,  2.56it/s, loss=3.31, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  87%|████████▋ | 380/435 [02:28<00:21,  2.57it/s, loss=3.31, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  87%|████████▋ | 380/435 [02:28<00:21,  2.57it/s, loss=3.31, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 16:  90%|████████▉ | 390/435 [02:47<00:19,  2.33it/s, loss=3.31, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  92%|█████████▏| 400/435 [03:46<00:19,  1.76it/s, loss=3.31, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  94%|█████████▍| 410/435 [04:42<00:17,  1.45it/s, loss=3.31, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  97%|█████████▋| 420/435 [05:36<00:12,  1.25it/s, loss=3.31, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16:  99%|█████████▉| 430/435 [06:15<00:04,  1.15it/s, loss=3.31, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16: 100%|██████████| 435/435 [06:36<00:00,  1.10it/s, loss=3.31, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]
+Evaluation on checkpoint [16] 
+vloss:3.7305984497070312
+rouge1:0.6708604097366333
+rouge2:0.39592695236206055
+rougeL:0.4723780155181885
+rougeLsum:0.4723780155181885
+bleu:32.88006591796875
+Epoch 16: 100%|██████████| 435/435 [06:36<00:00,  1.10it/s, loss=3.33, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.340, lr_epoch=3e-5]Epoch 16: 100%|██████████| 435/435 [06:36<00:00,  1.10it/s, loss=3.33, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 16:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.33, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]          Epoch 17:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.33, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:   2%|▏         | 10/435 [00:04<03:01,  2.34it/s, loss=3.33, v_num=4, train-loss_step=3.480, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:   2%|▏         | 10/435 [00:04<03:01,  2.34it/s, loss=3.3, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5] Epoch 17:   5%|▍         | 20/435 [00:07<02:38,  2.61it/s, loss=3.3, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:   5%|▍         | 20/435 [00:07<02:39,  2.61it/s, loss=3.26, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:   7%|▋         | 30/435 [00:11<02:33,  2.65it/s, loss=3.26, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:   7%|▋         | 30/435 [00:11<02:33,  2.64it/s, loss=3.28, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:   9%|▉         | 40/435 [00:15<02:29,  2.65it/s, loss=3.28, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:   9%|▉         | 40/435 [00:15<02:29,  2.64it/s, loss=3.28, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  11%|█▏        | 50/435 [00:18<02:23,  2.68it/s, loss=3.28, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  11%|█▏        | 50/435 [00:18<02:23,  2.68it/s, loss=3.26, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  14%|█▍        | 60/435 [00:22<02:20,  2.67it/s, loss=3.26, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  14%|█▍        | 60/435 [00:22<02:20,  2.67it/s, loss=3.26, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  16%|█▌        | 70/435 [00:26<02:16,  2.67it/s, loss=3.26, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  16%|█▌        | 70/435 [00:26<02:16,  2.67it/s, loss=3.27, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  18%|█▊        | 80/435 [00:29<02:11,  2.69it/s, loss=3.27, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  18%|█▊        | 80/435 [00:29<02:11,  2.69it/s, loss=3.28, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  21%|██        | 90/435 [00:33<02:07,  2.71it/s, loss=3.28, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  21%|██        | 90/435 [00:33<02:07,  2.71it/s, loss=3.26, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  23%|██▎       | 100/435 [00:36<02:03,  2.71it/s, loss=3.26, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  23%|██▎       | 100/435 [00:36<02:03,  2.71it/s, loss=3.28, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  25%|██▌       | 110/435 [00:40<01:59,  2.71it/s, loss=3.28, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  25%|██▌       | 110/435 [00:40<01:59,  2.71it/s, loss=3.3, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5] Epoch 17:  28%|██▊       | 120/435 [00:44<01:56,  2.71it/s, loss=3.3, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  28%|██▊       | 120/435 [00:44<01:56,  2.71it/s, loss=3.28, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  30%|██▉       | 130/435 [00:48<01:52,  2.71it/s, loss=3.28, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  30%|██▉       | 130/435 [00:48<01:52,  2.71it/s, loss=3.3, v_num=4, train-loss_step=3.280, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5] Epoch 17:  32%|███▏      | 140/435 [00:51<01:48,  2.71it/s, loss=3.3, v_num=4, train-loss_step=3.280, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  32%|███▏      | 140/435 [00:51<01:48,  2.71it/s, loss=3.3, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  34%|███▍      | 150/435 [00:55<01:45,  2.70it/s, loss=3.3, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  34%|███▍      | 150/435 [00:55<01:45,  2.70it/s, loss=3.27, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  37%|███▋      | 160/435 [00:59<01:42,  2.68it/s, loss=3.27, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  37%|███▋      | 160/435 [00:59<01:42,  2.68it/s, loss=3.3, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5] Epoch 17:  39%|███▉      | 170/435 [01:03<01:38,  2.68it/s, loss=3.3, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  39%|███▉      | 170/435 [01:03<01:38,  2.68it/s, loss=3.31, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  41%|████▏     | 180/435 [01:07<01:35,  2.68it/s, loss=3.31, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  41%|████▏     | 180/435 [01:07<01:35,  2.68it/s, loss=3.24, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  44%|████▎     | 190/435 [01:10<01:31,  2.69it/s, loss=3.24, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  44%|████▎     | 190/435 [01:10<01:31,  2.69it/s, loss=3.23, v_num=4, train-loss_step=3.040, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  46%|████▌     | 200/435 [01:14<01:27,  2.70it/s, loss=3.23, v_num=4, train-loss_step=3.040, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  46%|████▌     | 200/435 [01:14<01:27,  2.70it/s, loss=3.26, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  48%|████▊     | 210/435 [01:17<01:23,  2.70it/s, loss=3.26, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  48%|████▊     | 210/435 [01:17<01:23,  2.70it/s, loss=3.28, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  51%|█████     | 220/435 [01:21<01:19,  2.71it/s, loss=3.28, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  51%|█████     | 220/435 [01:21<01:19,  2.71it/s, loss=3.28, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  53%|█████▎    | 230/435 [01:25<01:15,  2.70it/s, loss=3.28, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  53%|█████▎    | 230/435 [01:25<01:15,  2.70it/s, loss=3.29, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  55%|█████▌    | 240/435 [01:28<01:12,  2.71it/s, loss=3.29, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  55%|█████▌    | 240/435 [01:28<01:12,  2.71it/s, loss=3.29, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  57%|█████▋    | 250/435 [01:32<01:08,  2.71it/s, loss=3.29, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  57%|█████▋    | 250/435 [01:32<01:08,  2.71it/s, loss=3.3, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5] Epoch 17:  60%|█████▉    | 260/435 [01:35<01:04,  2.71it/s, loss=3.3, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  60%|█████▉    | 260/435 [01:35<01:04,  2.71it/s, loss=3.29, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  62%|██████▏   | 270/435 [01:39<01:00,  2.71it/s, loss=3.29, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  62%|██████▏   | 270/435 [01:39<01:00,  2.71it/s, loss=3.27, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  64%|██████▍   | 280/435 [01:43<00:57,  2.71it/s, loss=3.27, v_num=4, train-loss_step=3.420, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  64%|██████▍   | 280/435 [01:43<00:57,  2.71it/s, loss=3.27, v_num=4, train-loss_step=3.070, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  67%|██████▋   | 290/435 [01:47<00:53,  2.70it/s, loss=3.27, v_num=4, train-loss_step=3.070, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  67%|██████▋   | 290/435 [01:47<00:53,  2.70it/s, loss=3.28, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  69%|██████▉   | 300/435 [01:51<00:50,  2.70it/s, loss=3.28, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  69%|██████▉   | 300/435 [01:51<00:50,  2.70it/s, loss=3.27, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  71%|███████▏  | 310/435 [01:54<00:46,  2.70it/s, loss=3.27, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  71%|███████▏  | 310/435 [01:54<00:46,  2.70it/s, loss=3.6, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5] Epoch 17:  74%|███████▎  | 320/435 [01:58<00:42,  2.70it/s, loss=3.6, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  74%|███████▎  | 320/435 [01:58<00:42,  2.70it/s, loss=3.63, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  76%|███████▌  | 330/435 [02:02<00:38,  2.70it/s, loss=3.63, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  76%|███████▌  | 330/435 [02:02<00:38,  2.70it/s, loss=3.29, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  78%|███████▊  | 340/435 [02:05<00:35,  2.70it/s, loss=3.29, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  78%|███████▊  | 340/435 [02:05<00:35,  2.70it/s, loss=3.27, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  80%|████████  | 350/435 [02:09<00:31,  2.70it/s, loss=3.27, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  80%|████████  | 350/435 [02:09<00:31,  2.70it/s, loss=3.32, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  83%|████████▎ | 360/435 [02:13<00:27,  2.70it/s, loss=3.32, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  83%|████████▎ | 360/435 [02:13<00:27,  2.70it/s, loss=3.32, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  85%|████████▌ | 370/435 [02:17<00:24,  2.69it/s, loss=3.32, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  85%|████████▌ | 370/435 [02:17<00:24,  2.69it/s, loss=3.24, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  87%|████████▋ | 380/435 [02:21<00:20,  2.69it/s, loss=3.24, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  87%|████████▋ | 380/435 [02:21<00:20,  2.69it/s, loss=3.31, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 17:  90%|████████▉ | 390/435 [02:39<00:18,  2.44it/s, loss=3.31, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  92%|█████████▏| 400/435 [03:32<00:18,  1.88it/s, loss=3.31, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  94%|█████████▍| 410/435 [04:30<00:16,  1.51it/s, loss=3.31, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  97%|█████████▋| 420/435 [05:25<00:11,  1.29it/s, loss=3.31, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17:  99%|█████████▉| 430/435 [06:16<00:04,  1.14it/s, loss=3.31, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17: 100%|██████████| 435/435 [06:45<00:00,  1.07it/s, loss=3.31, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]
+Evaluation on checkpoint [17] 
+vloss:3.7261099815368652
+rouge1:0.6805084943771362
+rouge2:0.40752026438713074
+rougeL:0.481900155544281
+rougeLsum:0.481900155544281
+bleu:34.1159553527832
+Epoch 17: 100%|██████████| 435/435 [06:45<00:00,  1.07it/s, loss=3.29, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.320, lr_epoch=3e-5]Epoch 17: 100%|██████████| 435/435 [06:45<00:00,  1.07it/s, loss=3.29, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 17:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.29, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]          Epoch 18:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.29, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:   2%|▏         | 10/435 [00:04<02:59,  2.37it/s, loss=3.29, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:   2%|▏         | 10/435 [00:04<02:59,  2.37it/s, loss=3.23, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:   5%|▍         | 20/435 [00:07<02:42,  2.56it/s, loss=3.23, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:   5%|▍         | 20/435 [00:07<02:42,  2.55it/s, loss=3.2, v_num=4, train-loss_step=3.390, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5] Epoch 18:   7%|▋         | 30/435 [00:11<02:35,  2.60it/s, loss=3.2, v_num=4, train-loss_step=3.390, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:   7%|▋         | 30/435 [00:11<02:36,  2.59it/s, loss=3.21, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:   9%|▉         | 40/435 [00:15<02:30,  2.63it/s, loss=3.21, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:   9%|▉         | 40/435 [00:15<02:30,  2.63it/s, loss=3.21, v_num=4, train-loss_step=3.150, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  11%|█▏        | 50/435 [00:19<02:28,  2.60it/s, loss=3.21, v_num=4, train-loss_step=3.150, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  11%|█▏        | 50/435 [00:19<02:28,  2.60it/s, loss=3.21, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  14%|█▍        | 60/435 [00:23<02:26,  2.55it/s, loss=3.21, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  14%|█▍        | 60/435 [00:23<02:26,  2.55it/s, loss=3.25, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  16%|█▌        | 70/435 [00:27<02:24,  2.52it/s, loss=3.25, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  16%|█▌        | 70/435 [00:27<02:24,  2.52it/s, loss=3.27, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  18%|█▊        | 80/435 [00:31<02:20,  2.53it/s, loss=3.27, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  18%|█▊        | 80/435 [00:31<02:20,  2.53it/s, loss=3.22, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  21%|██        | 90/435 [00:35<02:15,  2.54it/s, loss=3.22, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  21%|██        | 90/435 [00:35<02:15,  2.54it/s, loss=3.21, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  23%|██▎       | 100/435 [00:39<02:12,  2.53it/s, loss=3.21, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  23%|██▎       | 100/435 [00:39<02:12,  2.53it/s, loss=3.2, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5] Epoch 18:  25%|██▌       | 110/435 [00:43<02:08,  2.52it/s, loss=3.2, v_num=4, train-loss_step=3.520, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  25%|██▌       | 110/435 [00:43<02:08,  2.52it/s, loss=3.24, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  28%|██▊       | 120/435 [00:47<02:04,  2.52it/s, loss=3.24, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  28%|██▊       | 120/435 [00:47<02:05,  2.52it/s, loss=3.28, v_num=4, train-loss_step=3.600, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  30%|██▉       | 130/435 [00:51<02:01,  2.52it/s, loss=3.28, v_num=4, train-loss_step=3.600, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  30%|██▉       | 130/435 [00:51<02:01,  2.52it/s, loss=3.27, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  32%|███▏      | 140/435 [00:55<01:57,  2.51it/s, loss=3.27, v_num=4, train-loss_step=3.450, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  32%|███▏      | 140/435 [00:55<01:57,  2.51it/s, loss=3.25, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  34%|███▍      | 150/435 [00:59<01:53,  2.52it/s, loss=3.25, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  34%|███▍      | 150/435 [00:59<01:53,  2.52it/s, loss=3.25, v_num=4, train-loss_step=3.110, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  37%|███▋      | 160/435 [01:03<01:48,  2.53it/s, loss=3.25, v_num=4, train-loss_step=3.110, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  37%|███▋      | 160/435 [01:03<01:48,  2.53it/s, loss=3.24, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  39%|███▉      | 170/435 [01:06<01:44,  2.54it/s, loss=3.24, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  39%|███▉      | 170/435 [01:06<01:44,  2.54it/s, loss=3.2, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5] Epoch 18:  41%|████▏     | 180/435 [01:11<01:40,  2.53it/s, loss=3.2, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  41%|████▏     | 180/435 [01:11<01:40,  2.53it/s, loss=3.23, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  44%|████▎     | 190/435 [01:14<01:36,  2.54it/s, loss=3.23, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  44%|████▎     | 190/435 [01:14<01:36,  2.54it/s, loss=3.25, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  46%|████▌     | 200/435 [01:18<01:32,  2.55it/s, loss=3.25, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  46%|████▌     | 200/435 [01:18<01:32,  2.55it/s, loss=3.25, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  48%|████▊     | 210/435 [01:22<01:28,  2.55it/s, loss=3.25, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  48%|████▊     | 210/435 [01:22<01:28,  2.55it/s, loss=3.24, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  51%|█████     | 220/435 [01:26<01:24,  2.55it/s, loss=3.24, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  51%|█████     | 220/435 [01:26<01:24,  2.55it/s, loss=3.18, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  53%|█████▎    | 230/435 [01:30<01:20,  2.54it/s, loss=3.18, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  53%|█████▎    | 230/435 [01:30<01:20,  2.54it/s, loss=3.2, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5] Epoch 18:  55%|█████▌    | 240/435 [01:34<01:16,  2.54it/s, loss=3.2, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  55%|█████▌    | 240/435 [01:34<01:16,  2.54it/s, loss=3.23, v_num=4, train-loss_step=3.280, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  57%|█████▋    | 250/435 [01:38<01:12,  2.54it/s, loss=3.23, v_num=4, train-loss_step=3.280, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  57%|█████▋    | 250/435 [01:38<01:12,  2.54it/s, loss=3.24, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  60%|█████▉    | 260/435 [01:42<01:08,  2.55it/s, loss=3.24, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  60%|█████▉    | 260/435 [01:42<01:08,  2.54it/s, loss=3.23, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  62%|██████▏   | 270/435 [01:46<01:05,  2.54it/s, loss=3.23, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  62%|██████▏   | 270/435 [01:46<01:05,  2.54it/s, loss=3.23, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  64%|██████▍   | 280/435 [01:50<01:00,  2.54it/s, loss=3.23, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  64%|██████▍   | 280/435 [01:50<01:00,  2.54it/s, loss=3.24, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  67%|██████▋   | 290/435 [01:53<00:56,  2.55it/s, loss=3.24, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  67%|██████▋   | 290/435 [01:53<00:56,  2.55it/s, loss=3.23, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  69%|���█████▉   | 300/435 [01:57<00:53,  2.55it/s, loss=3.23, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  69%|██████▉   | 300/435 [01:57<00:53,  2.54it/s, loss=3.23, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  71%|███████▏  | 310/435 [02:01<00:49,  2.54it/s, loss=3.23, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  71%|███████▏  | 310/435 [02:01<00:49,  2.54it/s, loss=3.25, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  74%|███████▎  | 320/435 [02:05<00:45,  2.54it/s, loss=3.25, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  74%|███████▎  | 320/435 [02:05<00:45,  2.54it/s, loss=3.25, v_num=4, train-loss_step=3.280, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  76%|███████▌  | 330/435 [02:10<00:41,  2.53it/s, loss=3.25, v_num=4, train-loss_step=3.280, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  76%|███████▌  | 330/435 [02:10<00:41,  2.53it/s, loss=3.25, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  78%|███████▊  | 340/435 [02:14<00:37,  2.53it/s, loss=3.25, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  78%|███████▊  | 340/435 [02:14<00:37,  2.53it/s, loss=3.24, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  80%|████████  | 350/435 [02:17<00:33,  2.54it/s, loss=3.24, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  80%|████████  | 350/435 [02:17<00:33,  2.54it/s, loss=3.22, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=3.22, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=3.24, v_num=4, train-loss_step=3.320, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=3.24, v_num=4, train-loss_step=3.320, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=3.25, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  87%|████████▋ | 380/435 [02:29<00:21,  2.54it/s, loss=3.25, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  87%|████████▋ | 380/435 [02:29<00:21,  2.54it/s, loss=3.25, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 18:  90%|████████▉ | 390/435 [02:49<00:19,  2.29it/s, loss=3.25, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  92%|█████████▏| 400/435 [03:52<00:20,  1.72it/s, loss=3.25, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  94%|█████████▍| 410/435 [04:52<00:17,  1.40it/s, loss=3.25, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  97%|█████████▋| 420/435 [05:49<00:12,  1.20it/s, loss=3.25, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18:  99%|█████████▉| 430/435 [06:43<00:04,  1.07it/s, loss=3.25, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18: 100%|██████████| 435/435 [07:10<00:00,  1.01it/s, loss=3.25, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]
+Evaluation on checkpoint [18] 
+vloss:3.754420042037964
+rouge1:0.6801427602767944
+rouge2:0.4038240909576416
+rougeL:0.47643089294433594
+rougeLsum:0.47643089294433594
+bleu:33.74387741088867
+Epoch 18: 100%|██████████| 435/435 [07:10<00:00,  1.01it/s, loss=3.25, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 18: 100%|██████████| 435/435 [07:10<00:00,  1.01it/s, loss=3.25, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 18:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.25, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]          Epoch 19:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.25, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:   2%|▏         | 10/435 [00:04<03:04,  2.30it/s, loss=3.25, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:   2%|▏         | 10/435 [00:04<03:05,  2.30it/s, loss=3.19, v_num=4, train-loss_step=3.120, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:   5%|▍         | 20/435 [00:08<02:52,  2.41it/s, loss=3.19, v_num=4, train-loss_step=3.120, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:   5%|▍         | 20/435 [00:08<02:52,  2.41it/s, loss=3.19, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:   7%|▋         | 30/435 [00:12<02:42,  2.50it/s, loss=3.19, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:   7%|▋         | 30/435 [00:12<02:42,  2.50it/s, loss=3.2, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5] Epoch 19:   9%|▉         | 40/435 [00:15<02:37,  2.51it/s, loss=3.2, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:   9%|▉         | 40/435 [00:15<02:37,  2.51it/s, loss=3.18, v_num=4, train-loss_step=3.100, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  11%|█▏        | 50/435 [00:19<02:32,  2.52it/s, loss=3.18, v_num=4, train-loss_step=3.100, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  11%|█▏        | 50/435 [00:19<02:32,  2.52it/s, loss=3.19, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  14%|█▍        | 60/435 [00:23<02:27,  2.55it/s, loss=3.19, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  14%|█▍        | 60/435 [00:23<02:27,  2.55it/s, loss=3.2, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5] Epoch 19:  16%|█▌        | 70/435 [00:27<02:23,  2.54it/s, loss=3.2, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  16%|█▌        | 70/435 [00:27<02:23,  2.54it/s, loss=3.2, v_num=4, train-loss_step=3.150, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  18%|█▊        | 80/435 [00:31<02:21,  2.52it/s, loss=3.2, v_num=4, train-loss_step=3.150, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  18%|█▊        | 80/435 [00:31<02:21,  2.51it/s, loss=3.2, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  21%|██        | 90/435 [00:35<02:17,  2.50it/s, loss=3.2, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  21%|██        | 90/435 [00:35<02:17,  2.50it/s, loss=3.2, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  23%|██▎       | 100/435 [00:39<02:12,  2.52it/s, loss=3.2, v_num=4, train-loss_step=3.360, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  23%|██▎       | 100/435 [00:39<02:12,  2.52it/s, loss=3.18, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  25%|██▌       | 110/435 [00:43<02:08,  2.53it/s, loss=3.18, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  25%|██▌       | 110/435 [00:43<02:08,  2.53it/s, loss=3.18, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  28%|██▊       | 120/435 [00:47<02:03,  2.54it/s, loss=3.18, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  28%|██▊       | 120/435 [00:47<02:03,  2.54it/s, loss=3.18, v_num=4, train-loss_step=3.110, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  30%|██▉       | 130/435 [00:50<01:59,  2.55it/s, loss=3.18, v_num=4, train-loss_step=3.110, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  30%|██▉       | 130/435 [00:50<01:59,  2.55it/s, loss=3.2, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5] Epoch 19:  32%|███▏      | 140/435 [00:55<01:56,  2.54it/s, loss=3.2, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  32%|███▏      | 140/435 [00:55<01:56,  2.54it/s, loss=3.27, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  34%|███▍      | 150/435 [00:58<01:51,  2.55it/s, loss=3.27, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  34%|███▍      | 150/435 [00:58<01:51,  2.55it/s, loss=3.25, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  37%|███▋      | 160/435 [01:02<01:48,  2.55it/s, loss=3.25, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  37%|███▋      | 160/435 [01:02<01:48,  2.54it/s, loss=3.24, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  39%|███▉      | 170/435 [01:06<01:43,  2.55it/s, loss=3.24, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  39%|███▉      | 170/435 [01:06<01:43,  2.55it/s, loss=3.23, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  41%|████▏     | 180/435 [01:10<01:40,  2.54it/s, loss=3.23, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  41%|████▏     | 180/435 [01:10<01:40,  2.54it/s, loss=3.21, v_num=4, train-loss_step=3.150, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  44%|████▎     | 190/435 [01:14<01:36,  2.54it/s, loss=3.21, v_num=4, train-loss_step=3.150, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  44%|████▎     | 190/435 [01:14<01:36,  2.54it/s, loss=3.19, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  46%|████▌     | 200/435 [01:18<01:32,  2.55it/s, loss=3.19, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  46%|████▌     | 200/435 [01:18<01:32,  2.55it/s, loss=3.2, v_num=4, train-loss_step=3.100, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5] Epoch 19:  48%|████▊     | 210/435 [01:22<01:28,  2.54it/s, loss=3.2, v_num=4, train-loss_step=3.100, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  48%|████▊     | 210/435 [01:22<01:28,  2.54it/s, loss=3.22, v_num=4, train-loss_step=3.150, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  51%|█████     | 220/435 [01:26<01:24,  2.55it/s, loss=3.22, v_num=4, train-loss_step=3.150, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  51%|█████     | 220/435 [01:26<01:24,  2.55it/s, loss=3.2, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5] Epoch 19:  53%|█████▎    | 230/435 [01:30<01:20,  2.55it/s, loss=3.2, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  53%|█████▎    | 230/435 [01:30<01:20,  2.55it/s, loss=3.2, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  55%|█████▌    | 240/435 [01:34<01:16,  2.55it/s, loss=3.2, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  55%|█████▌    | 240/435 [01:34<01:16,  2.55it/s, loss=3.21, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  57%|█████▋    | 250/435 [01:37<01:12,  2.56it/s, loss=3.21, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  57%|█████▋    | 250/435 [01:37<01:12,  2.56it/s, loss=3.19, v_num=4, train-loss_step=3.150, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  60%|█████▉    | 260/435 [01:41<01:08,  2.56it/s, loss=3.19, v_num=4, train-loss_step=3.150, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  60%|█████▉    | 260/435 [01:41<01:08,  2.56it/s, loss=3.19, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  62%|██████▏   | 270/435 [01:45<01:04,  2.55it/s, loss=3.19, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  62%|██████▏   | 270/435 [01:45<01:04,  2.55it/s, loss=3.2, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5] Epoch 19:  64%|██████▍   | 280/435 [01:49<01:00,  2.56it/s, loss=3.2, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  64%|██████▍   | 280/435 [01:49<01:00,  2.56it/s, loss=3.21, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  67%|██████▋   | 290/435 [01:53<00:56,  2.55it/s, loss=3.21, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  67%|██████▋   | 290/435 [01:53<00:56,  2.55it/s, loss=3.23, v_num=4, train-loss_step=3.370, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  69%|██████▉   | 300/435 [01:57<00:52,  2.55it/s, loss=3.23, v_num=4, train-loss_step=3.370, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  69%|██████▉   | 300/435 [01:57<00:52,  2.55it/s, loss=3.21, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  71%|███████▏  | 310/435 [02:01<00:49,  2.55it/s, loss=3.21, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  71%|███████▏  | 310/435 [02:01<00:49,  2.55it/s, loss=3.21, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  74%|███████▎  | 320/435 [02:06<00:45,  2.54it/s, loss=3.21, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  74%|███████▎  | 320/435 [02:06<00:45,  2.54it/s, loss=3.22, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  76%|███████▌  | 330/435 [02:10<00:41,  2.53it/s, loss=3.22, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  76%|███████▌  | 330/435 [02:10<00:41,  2.53it/s, loss=3.22, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  78%|███████▊  | 340/435 [02:14<00:37,  2.53it/s, loss=3.22, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  78%|███████▊  | 340/435 [02:14<00:37,  2.53it/s, loss=3.2, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5] Epoch 19:  80%|████████  | 350/435 [02:17<00:33,  2.54it/s, loss=3.2, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  80%|████████  | 350/435 [02:17<00:33,  2.54it/s, loss=3.18, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=3.18, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=3.24, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=3.24, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  85%|████████▌ | 370/435 [02:25<00:25,  2.54it/s, loss=3.23, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  87%|████████▋ | 380/435 [02:29<00:21,  2.55it/s, loss=3.23, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  87%|████████▋ | 380/435 [02:29<00:21,  2.54it/s, loss=3.21, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 19:  90%|████████▉ | 390/435 [02:42<00:18,  2.39it/s, loss=3.21, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  92%|█████████▏| 400/435 [03:46<00:19,  1.76it/s, loss=3.21, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  94%|█████████▍| 410/435 [04:49<00:17,  1.42it/s, loss=3.21, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  97%|█████████▋| 420/435 [05:46<00:12,  1.21it/s, loss=3.21, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19:  99%|█████████▉| 430/435 [06:39<00:04,  1.08it/s, loss=3.21, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19: 100%|██████████| 435/435 [07:07<00:00,  1.02it/s, loss=3.21, v_num=4, train-loss_step=3.430, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]
+Evaluation on checkpoint [19] 
+vloss:3.741788864135742
+rouge1:0.6699538230895996
+rouge2:0.39346787333488464
+rougeL:0.46567532420158386
+rougeLsum:0.46567532420158386
+bleu:32.69159698486328
+Epoch 19: 100%|██████████| 435/435 [07:07<00:00,  1.02it/s, loss=3.22, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 19: 100%|██████████| 435/435 [07:07<00:00,  1.02it/s, loss=3.22, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 19:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.22, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]          Epoch 20:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.22, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:   2%|▏         | 10/435 [00:04<02:55,  2.42it/s, loss=3.22, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:   2%|▏         | 10/435 [00:04<02:55,  2.42it/s, loss=3.19, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:   5%|▍         | 20/435 [00:08<02:48,  2.47it/s, loss=3.19, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:   5%|▍         | 20/435 [00:08<02:48,  2.46it/s, loss=3.16, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:   7%|▋         | 30/435 [00:12<02:43,  2.48it/s, loss=3.16, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:   7%|▋         | 30/435 [00:12<02:43,  2.47it/s, loss=3.18, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:   9%|▉         | 40/435 [00:16<02:39,  2.48it/s, loss=3.18, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:   9%|▉         | 40/435 [00:16<02:39,  2.47it/s, loss=3.2, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5] Epoch 20:  11%|█▏        | 50/435 [00:20<02:37,  2.45it/s, loss=3.2, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  11%|█▏        | 50/435 [00:20<02:37,  2.45it/s, loss=3.21, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  14%|█▍        | 60/435 [00:24<02:34,  2.43it/s, loss=3.21, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  14%|█▍        | 60/435 [00:24<02:34,  2.43it/s, loss=3.19, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  16%|█▌        | 70/435 [00:28<02:29,  2.44it/s, loss=3.19, v_num=4, train-loss_step=3.290, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  16%|█▌        | 70/435 [00:28<02:29,  2.44it/s, loss=3.15, v_num=4, train-loss_step=3.060, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  18%|█▊        | 80/435 [00:32<02:23,  2.47it/s, loss=3.15, v_num=4, train-loss_step=3.060, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  18%|█▊        | 80/435 [00:32<02:23,  2.47it/s, loss=3.13, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  21%|██        | 90/435 [00:36<02:19,  2.48it/s, loss=3.13, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  21%|██        | 90/435 [00:36<02:19,  2.47it/s, loss=3.15, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  23%|██▎       | 100/435 [00:40<02:15,  2.48it/s, loss=3.15, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  23%|██▎       | 100/435 [00:40<02:15,  2.48it/s, loss=3.18, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  25%|██▌       | 110/435 [00:44<02:10,  2.48it/s, loss=3.18, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  25%|██▌       | 110/435 [00:44<02:10,  2.48it/s, loss=3.2, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5] Epoch 20:  28%|██▊       | 120/435 [00:48<02:06,  2.49it/s, loss=3.2, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  28%|██▊       | 120/435 [00:48<02:06,  2.49it/s, loss=3.19, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  30%|██▉       | 130/435 [00:51<02:01,  2.50it/s, loss=3.19, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  30%|██▉       | 130/435 [00:51<02:01,  2.50it/s, loss=3.17, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  32%|███▏      | 140/435 [00:55<01:57,  2.52it/s, loss=3.17, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  32%|███▏      | 140/435 [00:55<01:57,  2.52it/s, loss=3.17, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  34%|███▍      | 150/435 [00:59<01:52,  2.53it/s, loss=3.17, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  34%|███▍      | 150/435 [00:59<01:52,  2.53it/s, loss=3.18, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  37%|███▋      | 160/435 [01:03<01:49,  2.51it/s, loss=3.18, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  37%|███▋      | 160/435 [01:03<01:49,  2.51it/s, loss=3.19, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  39%|███▉      | 170/435 [01:07<01:44,  2.53it/s, loss=3.19, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  39%|███▉      | 170/435 [01:07<01:44,  2.53it/s, loss=3.16, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  41%|████▏     | 180/435 [01:11<01:40,  2.53it/s, loss=3.16, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  41%|████▏     | 180/435 [01:11<01:40,  2.53it/s, loss=3.14, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  44%|████▎     | 190/435 [01:15<01:36,  2.53it/s, loss=3.14, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  44%|██���█▎     | 190/435 [01:15<01:36,  2.53it/s, loss=3.16, v_num=4, train-loss_step=3.150, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  46%|████▌     | 200/435 [01:19<01:32,  2.53it/s, loss=3.16, v_num=4, train-loss_step=3.150, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  46%|████▌     | 200/435 [01:19<01:32,  2.53it/s, loss=3.18, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  48%|████▊     | 210/435 [01:23<01:29,  2.52it/s, loss=3.18, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  48%|████▊     | 210/435 [01:23<01:29,  2.52it/s, loss=3.21, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  51%|█████     | 220/435 [01:27<01:25,  2.52it/s, loss=3.21, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  51%|█████     | 220/435 [01:27<01:25,  2.52it/s, loss=3.19, v_num=4, train-loss_step=3.120, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  53%|█████▎    | 230/435 [01:30<01:20,  2.53it/s, loss=3.19, v_num=4, train-loss_step=3.120, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  53%|█████▎    | 230/435 [01:30<01:20,  2.53it/s, loss=3.17, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  55%|█████▌    | 240/435 [01:34<01:16,  2.53it/s, loss=3.17, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  55%|█████▌    | 240/435 [01:34<01:16,  2.53it/s, loss=3.16, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  57%|█████▋    | 250/435 [01:38<01:12,  2.53it/s, loss=3.16, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  57%|█████▋    | 250/435 [01:38<01:12,  2.53it/s, loss=3.17, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  60%|█████▉    | 260/435 [01:42<01:08,  2.54it/s, loss=3.17, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  60%|█████▉    | 260/435 [01:42<01:08,  2.54it/s, loss=3.24, v_num=4, train-loss_step=3.990, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  62%|██████▏   | 270/435 [01:46<01:04,  2.54it/s, loss=3.24, v_num=4, train-loss_step=3.990, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  62%|██████▏   | 270/435 [01:46<01:04,  2.54it/s, loss=3.62, v_num=4, train-loss_step=4.090, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  64%|██████▍   | 280/435 [01:50<01:01,  2.54it/s, loss=3.62, v_num=4, train-loss_step=4.090, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  64%|██████▍   | 280/435 [01:50<01:01,  2.54it/s, loss=3.92, v_num=4, train-loss_step=3.810, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  67%|██████▋   | 290/435 [01:54<00:57,  2.53it/s, loss=3.92, v_num=4, train-loss_step=3.810, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  67%|██████▋   | 290/435 [01:54<00:57,  2.53it/s, loss=3.78, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  69%|██████▉   | 300/435 [01:58<00:53,  2.54it/s, loss=3.78, v_num=4, train-loss_step=3.580, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  69%|██████▉   | 300/435 [01:58<00:53,  2.54it/s, loss=3.73, v_num=4, train-loss_step=3.730, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  71%|███████▏  | 310/435 [02:01<00:49,  2.54it/s, loss=3.73, v_num=4, train-loss_step=3.730, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  71%|███████▏  | 310/435 [02:01<00:49,  2.54it/s, loss=3.72, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  74%|███████▎  | 320/435 [02:05<00:45,  2.55it/s, loss=3.72, v_num=4, train-loss_step=3.820, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  74%|███████▎  | 320/435 [02:05<00:45,  2.55it/s, loss=3.58, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  76%|███████▌  | 330/435 [02:09<00:41,  2.55it/s, loss=3.58, v_num=4, train-loss_step=3.500, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  76%|███████▌  | 330/435 [02:09<00:41,  2.55it/s, loss=3.49, v_num=4, train-loss_step=3.370, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  78%|███████▊  | 340/435 [02:13<00:37,  2.55it/s, loss=3.49, v_num=4, train-loss_step=3.370, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  78%|███████▊  | 340/435 [02:13<00:37,  2.55it/s, loss=3.45, v_num=4, train-loss_step=3.550, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=3.45, v_num=4, train-loss_step=3.550, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=3.42, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  83%|████████▎ | 360/435 [02:20<00:29,  2.56it/s, loss=3.42, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  83%|████████▎ | 360/435 [02:20<00:29,  2.56it/s, loss=3.38, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  85%|████████▌ | 370/435 [02:24<00:25,  2.56it/s, loss=3.38, v_num=4, train-loss_step=3.470, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  85%|████████▌ | 370/435 [02:24<00:25,  2.56it/s, loss=3.38, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  87%|████████▋ | 380/435 [02:28<00:21,  2.56it/s, loss=3.38, v_num=4, train-loss_step=3.400, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  87%|████████▋ | 380/435 [02:28<00:21,  2.56it/s, loss=3.36, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 20:  90%|████████▉ | 390/435 [02:46<00:19,  2.34it/s, loss=3.36, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  92%|█████████▏| 400/435 [03:44<00:19,  1.78it/s, loss=3.36, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  94%|█████████▍| 410/435 [04:38<00:16,  1.47it/s, loss=3.36, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  97%|█████████▋| 420/435 [05:31<00:11,  1.27it/s, loss=3.36, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20:  99%|█████████▉| 430/435 [06:20<00:04,  1.13it/s, loss=3.36, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20: 100%|██████████| 435/435 [06:44<00:00,  1.07it/s, loss=3.36, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]
+Evaluation on checkpoint [20] 
+vloss:3.78937029838562
+rouge1:0.6686177253723145
+rouge2:0.39053356647491455
+rougeL:0.4605996608734131
+rougeLsum:0.4605996608734131
+bleu:32.56208801269531
+Epoch 20: 100%|██████████| 435/435 [06:44<00:00,  1.07it/s, loss=3.34, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.210, lr_epoch=3e-5]Epoch 20: 100%|██████████| 435/435 [06:44<00:00,  1.07it/s, loss=3.34, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 20:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.34, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]          Epoch 21:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.34, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:   2%|▏         | 10/435 [00:04<02:54,  2.43it/s, loss=3.34, v_num=4, train-loss_step=3.340, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:   2%|▏         | 10/435 [00:04<02:55,  2.43it/s, loss=3.25, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:   5%|▍         | 20/435 [00:07<02:45,  2.51it/s, loss=3.25, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:   5%|▍         | 20/435 [00:07<02:45,  2.51it/s, loss=3.22, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:   7%|▋         | 30/435 [00:12<02:44,  2.47it/s, loss=3.22, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:   7%|▋         | 30/435 [00:12<02:44,  2.47it/s, loss=3.26, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:   9%|▉         | 40/435 [00:16<02:38,  2.49it/s, loss=3.26, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:   9%|▉         | 40/435 [00:16<02:38,  2.49it/s, loss=3.25, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  11%|█▏        | 50/435 [00:19<02:31,  2.54it/s, loss=3.25, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  11%|█▏        | 50/435 [00:19<02:31,  2.54it/s, loss=3.21, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  14%|█▍        | 60/435 [00:23<02:29,  2.51it/s, loss=3.21, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  14%|█▍        | 60/435 [00:23<02:29,  2.51it/s, loss=3.22, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  16%|█▌        | 70/435 [00:28<02:26,  2.49it/s, loss=3.22, v_num=4, train-loss_step=3.270, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  16%|█▌        | 70/435 [00:28<02:26,  2.49it/s, loss=3.21, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  18%|█▊        | 80/435 [00:31<02:21,  2.50it/s, loss=3.21, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  18%|█▊        | 80/435 [00:31<02:21,  2.50it/s, loss=3.22, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  21%|██        | 90/435 [00:35<02:17,  2.51it/s, loss=3.22, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  21%|██        | 90/435 [00:35<02:17,  2.51it/s, loss=3.46, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  23%|██▎       | 100/435 [00:39<02:12,  2.53it/s, loss=3.46, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  23%|██▎       | 100/435 [00:39<02:12,  2.53it/s, loss=3.51, v_num=4, train-loss_step=3.350, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  25%|██▌       | 110/435 [00:43<02:08,  2.53it/s, loss=3.51, v_num=4, train-loss_step=3.350, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  25%|██▌       | 110/435 [00:43<02:08,  2.53it/s, loss=3.32, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  28%|██▊       | 120/435 [00:47<02:04,  2.53it/s, loss=3.32, v_num=4, train-loss_step=3.300, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  28%|██▊       | 120/435 [00:47<02:04,  2.52it/s, loss=3.29, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  30%|██▉       | 130/435 [00:51<02:01,  2.51it/s, loss=3.29, v_num=4, train-loss_step=3.560, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  30%|██▉       | 130/435 [00:51<02:01,  2.51it/s, loss=3.32, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  32%|███▏      | 140/435 [00:55<01:56,  2.52it/s, loss=3.32, v_num=4, train-loss_step=3.380, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  32%|███▏      | 140/435 [00:55<01:56,  2.52it/s, loss=3.3, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5] Epoch 21:  34%|███▍      | 150/435 [00:59<01:52,  2.54it/s, loss=3.3, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  34%|███▍      | 150/435 [00:59<01:52,  2.54it/s, loss=3.23, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  37%|███▋      | 160/435 [01:02<01:47,  2.55it/s, loss=3.23, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  37%|███▋      | 160/435 [01:02<01:47,  2.55it/s, loss=3.21, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  39%|███▉      | 170/435 [01:06<01:43,  2.56it/s, loss=3.21, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  39%|███▉      | 170/435 [01:06<01:43,  2.56it/s, loss=3.2, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5] Epoch 21:  41%|████▏     | 180/435 [01:10<01:39,  2.55it/s, loss=3.2, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  41%|████▏     | 180/435 [01:10<01:40,  2.55it/s, loss=3.2, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  44%|████▎     | 190/435 [01:14<01:36,  2.54it/s, loss=3.2, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  44%|████▎     | 190/435 [01:14<01:36,  2.54it/s, loss=3.22, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  46%|████▌     | 200/435 [01:18<01:32,  2.55it/s, loss=3.22, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  46%|████▌     | 200/435 [01:18<01:32,  2.55it/s, loss=3.22, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  48%|████▊     | 210/435 [01:22<01:28,  2.55it/s, loss=3.22, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  48%|████▊     | 210/435 [01:22<01:28,  2.55it/s, loss=3.2, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5] Epoch 21:  51%|█████     | 220/435 [01:26<01:24,  2.56it/s, loss=3.2, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  51%|█████     | 220/435 [01:26<01:24,  2.56it/s, loss=3.2, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  53%|█████▎    | 230/435 [01:30<01:20,  2.55it/s, loss=3.2, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  53%|█████▎    | 230/435 [01:30<01:20,  2.55it/s, loss=3.22, v_num=4, train-loss_step=3.020, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  55%|█████▌    | 240/435 [01:34<01:16,  2.55it/s, loss=3.22, v_num=4, train-loss_step=3.020, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  55%|█████▌    | 240/435 [01:34<01:16,  2.55it/s, loss=3.22, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  57%|█████▋    | 250/435 [01:38<01:12,  2.54it/s, loss=3.22, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  57%|█████▋    | 250/435 [01:38<01:12,  2.54it/s, loss=3.23, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  60%|█████▉    | 260/435 [01:42<01:08,  2.54it/s, loss=3.23, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  60%|█████▉    | 260/435 [01:42<01:08,  2.54it/s, loss=3.21, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  62%|██████▏   | 270/435 [01:46<01:04,  2.54it/s, loss=3.21, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  62%|██████▏   | 270/435 [01:46<01:04,  2.54it/s, loss=3.2, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5] Epoch 21:  64%|██████▍   | 280/435 [01:50<01:00,  2.54it/s, loss=3.2, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  64%|██████▍   | 280/435 [01:50<01:00,  2.54it/s, loss=3.19, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  67%|██████▋   | 290/435 [01:53<00:56,  2.55it/s, loss=3.19, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  67%|██████▋   | 290/435 [01:53<00:56,  2.55it/s, loss=3.17, v_num=4, train-loss_step=3.050, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  69%|██████▉   | 300/435 [01:57<00:52,  2.56it/s, loss=3.17, v_num=4, train-loss_step=3.050, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  69%|██████▉   | 300/435 [01:57<00:52,  2.56it/s, loss=3.18, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  71%|███████▏  | 310/435 [02:01<00:49,  2.55it/s, loss=3.18, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  71%|███████▏  | 310/435 [02:01<00:49,  2.55it/s, loss=3.18, v_num=4, train-loss_step=3.110, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  74%|███████▎  | 320/435 [02:05<00:45,  2.55it/s, loss=3.18, v_num=4, train-loss_step=3.110, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  74%|███████▎  | 320/435 [02:05<00:45,  2.55it/s, loss=3.16, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  76%|███████▌  | 330/435 [02:09<00:41,  2.55it/s, loss=3.16, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  76%|███████▌  | 330/435 [02:09<00:41,  2.55it/s, loss=3.16, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  78%|███████▊  | 340/435 [02:12<00:37,  2.56it/s, loss=3.16, v_num=4, train-loss_step=3.180, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  78%|███████▊  | 340/435 [02:12<00:37,  2.56it/s, loss=3.17, v_num=4, train-loss_step=3.120, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  80%|████████  | 350/435 [02:16<00:33,  2.56it/s, loss=3.17, v_num=4, train-loss_step=3.120, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  80%|████████  | 350/435 [02:16<00:33,  2.56it/s, loss=3.19, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  83%|████████▎ | 360/435 [02:20<00:29,  2.57it/s, loss=3.19, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  83%|████████▎ | 360/435 [02:20<00:29,  2.56it/s, loss=3.19, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  85%|████████▌ | 370/435 [02:24<00:25,  2.57it/s, loss=3.19, v_num=4, train-loss_step=3.170, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  85%|████████▌ | 370/435 [02:24<00:25,  2.57it/s, loss=3.19, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  87%|████████▋ | 380/435 [02:28<00:21,  2.56it/s, loss=3.19, v_num=4, train-loss_step=3.310, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  87%|████████▋ | 380/435 [02:28<00:21,  2.56it/s, loss=3.19, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 21:  90%|████████▉ | 390/435 [02:49<00:19,  2.30it/s, loss=3.19, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  92%|█████████▏| 400/435 [03:48<00:20,  1.75it/s, loss=3.19, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  94%|█████████▍| 410/435 [04:50<00:17,  1.41it/s, loss=3.19, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  97%|█████████▋| 420/435 [05:45<00:12,  1.21it/s, loss=3.19, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21:  99%|█████████▉| 430/435 [06:36<00:04,  1.09it/s, loss=3.19, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21: 100%|██████████| 435/435 [07:03<00:00,  1.03it/s, loss=3.19, v_num=4, train-loss_step=3.210, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]
+Evaluation on checkpoint [21] 
+vloss:3.7634294033050537
+rouge1:0.6755361557006836
+rouge2:0.402099609375
+rougeL:0.48091191053390503
+rougeLsum:0.48091191053390503
+bleu:33.68578338623047
+Epoch 21: 100%|██████████| 435/435 [07:03<00:00,  1.03it/s, loss=3.19, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.300, lr_epoch=3e-5]Epoch 21: 100%|██████████| 435/435 [07:03<00:00,  1.03it/s, loss=3.19, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 21:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.19, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]          Epoch 22:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.19, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:   2%|▏         | 10/435 [00:04<03:11,  2.22it/s, loss=3.19, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:   2%|▏         | 10/435 [00:04<03:11,  2.22it/s, loss=3.18, v_num=4, train-loss_step=3.120, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:   5%|▍         | 20/435 [00:08<02:55,  2.36it/s, loss=3.18, v_num=4, train-loss_step=3.120, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:   5%|▍         | 20/435 [00:08<02:55,  2.36it/s, loss=3.15, v_num=4, train-loss_step=3.010, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:   7%|▋         | 30/435 [00:12<02:43,  2.47it/s, loss=3.15, v_num=4, train-loss_step=3.010, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:   7%|▋         | 30/435 [00:12<02:43,  2.47it/s, loss=3.12, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:   9%|▉         | 40/435 [00:16<02:38,  2.49it/s, loss=3.12, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:   9%|▉         | 40/435 [00:16<02:38,  2.48it/s, loss=3.12, v_num=4, train-loss_step=3.000, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  11%|█▏        | 50/435 [00:19<02:32,  2.52it/s, loss=3.12, v_num=4, train-loss_step=3.000, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  11%|█▏        | 50/435 [00:19<02:32,  2.52it/s, loss=3.13, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  14%|█▍        | 60/435 [00:23<02:29,  2.50it/s, loss=3.13, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  14%|█▍        | 60/435 [00:23<02:29,  2.50it/s, loss=3.12, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  16%|█▌        | 70/435 [00:27<02:23,  2.54it/s, loss=3.12, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  16%|█▌        | 70/435 [00:27<02:23,  2.54it/s, loss=3.1, v_num=4, train-loss_step=3.060, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5] Epoch 22:  18%|█▊        | 80/435 [00:31<02:20,  2.53it/s, loss=3.1, v_num=4, train-loss_step=3.060, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  18%|█▊        | 80/435 [00:31<02:20,  2.53it/s, loss=3.13, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  21%|██        | 90/435 [00:35<02:17,  2.51it/s, loss=3.13, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  21%|██        | 90/435 [00:35<02:17,  2.51it/s, loss=3.16, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  23%|██▎       | 100/435 [00:39<02:12,  2.53it/s, loss=3.16, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  23%|██▎       | 100/435 [00:39<02:12,  2.53it/s, loss=3.16, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  25%|██▌       | 110/435 [00:43<02:09,  2.51it/s, loss=3.16, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  25%|██▌       | 110/435 [00:43<02:09,  2.51it/s, loss=3.18, v_num=4, train-loss_step=3.110, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  28%|██▊       | 120/435 [00:48<02:06,  2.50it/s, loss=3.18, v_num=4, train-loss_step=3.110, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  28%|██▊       | 120/435 [00:48<02:06,  2.50it/s, loss=3.16, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  30%|██▉       | 130/435 [00:52<02:03,  2.48it/s, loss=3.16, v_num=4, train-loss_step=3.090, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  30%|██▉       | 130/435 [00:52<02:03,  2.48it/s, loss=3.14, v_num=4, train-loss_step=3.040, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  32%|███▏      | 140/435 [00:56<01:58,  2.49it/s, loss=3.14, v_num=4, train-loss_step=3.040, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  32%|███▏      | 140/435 [00:56<01:58,  2.49it/s, loss=3.15, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  34%|███▍      | 150/435 [01:00<01:54,  2.50it/s, loss=3.15, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  34%|███▍      | 150/435 [01:00<01:54,  2.50it/s, loss=3.13, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  37%|███▋      | 160/435 [01:03<01:49,  2.51it/s, loss=3.13, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  37%|███▋      | 160/435 [01:03<01:49,  2.51it/s, loss=3.12, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  39%|███▉      | 170/435 [01:07<01:44,  2.52it/s, loss=3.12, v_num=4, train-loss_step=3.130, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  39%|███▉      | 170/435 [01:07<01:44,  2.52it/s, loss=3.1, v_num=4, train-loss_step=3.050, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5] Epoch 22:  41%|████▏     | 180/435 [01:11<01:40,  2.53it/s, loss=3.1, v_num=4, train-loss_step=3.050, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  41%|████▏     | 180/435 [01:11<01:40,  2.53it/s, loss=3.13, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  44%|████▎     | 190/435 [01:15<01:36,  2.53it/s, loss=3.13, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  44%|████▎     | 190/435 [01:15<01:36,  2.53it/s, loss=3.14, v_num=4, train-loss_step=3.060, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  46%|████▌     | 200/435 [01:18<01:32,  2.54it/s, loss=3.14, v_num=4, train-loss_step=3.060, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  46%|████▌     | 200/435 [01:18<01:32,  2.54it/s, loss=3.16, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  48%|████▊     | 210/435 [01:22<01:28,  2.54it/s, loss=3.16, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  48%|████▊     | 210/435 [01:22<01:28,  2.54it/s, loss=3.18, v_num=4, train-loss_step=3.120, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  51%|█████     | 220/435 [01:26<01:24,  2.54it/s, loss=3.18, v_num=4, train-loss_step=3.120, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  51%|█████     | 220/435 [01:26<01:24,  2.54it/s, loss=3.2, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5] Epoch 22:  53%|█████▎    | 230/435 [01:30<01:20,  2.54it/s, loss=3.2, v_num=4, train-loss_step=3.260, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  53%|█████▎    | 230/435 [01:30<01:20,  2.54it/s, loss=3.21, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  55%|█████▌    | 240/435 [01:34<01:16,  2.54it/s, loss=3.21, v_num=4, train-loss_step=3.440, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  55%|█████▌    | 240/435 [01:34<01:16,  2.54it/s, loss=3.17, v_num=4, train-loss_step=3.070, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  57%|█████▋    | 250/435 [01:38<01:12,  2.54it/s, loss=3.17, v_num=4, train-loss_step=3.070, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  57%|█████▋    | 250/435 [01:38<01:12,  2.54it/s, loss=3.22, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  60%|█████▉    | 260/435 [01:42<01:08,  2.54it/s, loss=3.22, v_num=4, train-loss_step=3.140, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  60%|█████▉    | 260/435 [01:42<01:08,  2.54it/s, loss=3.21, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  62%|██████▏   | 270/435 [01:46<01:05,  2.53it/s, loss=3.21, v_num=4, train-loss_step=3.220, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  62%|██████▏   | 270/435 [01:46<01:05,  2.53it/s, loss=3.14, v_num=4, train-loss_step=3.100, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  64%|██████▍   | 280/435 [01:50<01:01,  2.53it/s, loss=3.14, v_num=4, train-loss_step=3.100, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  64%|██████▍   | 280/435 [01:50<01:01,  2.53it/s, loss=3.15, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  67%|██████▋   | 290/435 [01:54<00:57,  2.53it/s, loss=3.15, v_num=4, train-loss_step=3.240, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  67%|██████▋   | 290/435 [01:54<00:57,  2.53it/s, loss=3.16, v_num=4, train-loss_step=3.110, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  69%|██████▉   | 300/435 [01:58<00:53,  2.54it/s, loss=3.16, v_num=4, train-loss_step=3.110, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  69%|██████▉   | 300/435 [01:58<00:53,  2.54it/s, loss=3.16, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  71%|███████▏  | 310/435 [02:01<00:49,  2.54it/s, loss=3.16, v_num=4, train-loss_step=3.230, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  71%|███████▏  | 310/435 [02:01<00:49,  2.54it/s, loss=3.17, v_num=4, train-loss_step=3.080, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  74%|███████▎  | 320/435 [02:06<00:45,  2.54it/s, loss=3.17, v_num=4, train-loss_step=3.080, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  74%|███████▎  | 320/435 [02:06<00:45,  2.54it/s, loss=3.17, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  76%|███████▌  | 330/435 [02:09<00:41,  2.54it/s, loss=3.17, v_num=4, train-loss_step=3.250, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  76%|███████▌  | 330/435 [02:09<00:41,  2.54it/s, loss=3.17, v_num=4, train-loss_step=3.040, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  78%|███████▊  | 340/435 [02:13<00:37,  2.54it/s, loss=3.17, v_num=4, train-loss_step=3.040, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  78%|███████▊  | 340/435 [02:13<00:37,  2.54it/s, loss=3.14, v_num=4, train-loss_step=3.110, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=3.14, v_num=4, train-loss_step=3.110, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  80%|████████  | 350/435 [02:17<00:33,  2.55it/s, loss=3.14, v_num=4, train-loss_step=3.110, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  83%|████████▎ | 360/435 [02:21<00:29,  2.55it/s, loss=3.14, v_num=4, train-loss_step=3.110, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  83%|████████▎ | 360/435 [02:21<00:29,  2.55it/s, loss=3.17, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  85%|████████▌ | 370/435 [02:25<00:25,  2.55it/s, loss=3.17, v_num=4, train-loss_step=3.200, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  85%|████████▌ | 370/435 [02:25<00:25,  2.55it/s, loss=3.18, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  87%|████████▋ | 380/435 [02:29<00:21,  2.54it/s, loss=3.18, v_num=4, train-loss_step=3.330, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  87%|████████▋ | 380/435 [02:29<00:21,  2.54it/s, loss=3.16, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 22:  90%|████████▉ | 390/435 [02:47<00:19,  2.32it/s, loss=3.16, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  92%|█████████▏| 400/435 [03:50<00:20,  1.74it/s, loss=3.16, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  94%|█████████▍| 410/435 [04:48<00:17,  1.42it/s, loss=3.16, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  97%|█████████▋| 420/435 [05:45<00:12,  1.22it/s, loss=3.16, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22:  99%|█████████▉| 430/435 [06:36<00:04,  1.09it/s, loss=3.16, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22: 100%|██████████| 435/435 [07:01<00:00,  1.03it/s, loss=3.16, v_num=4, train-loss_step=3.190, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]
+Evaluation on checkpoint [22] 
+vloss:3.7822465896606445
+rouge1:0.6822780966758728
+rouge2:0.40570029616355896
+rougeL:0.4783417582511902
+rougeLsum:0.4783417582511902
+bleu:34.10445022583008
+Epoch 22: 100%|██████████| 435/435 [07:01<00:00,  1.03it/s, loss=3.17, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.230, lr_epoch=3e-5]Epoch 22: 100%|██████████| 435/435 [07:01<00:00,  1.03it/s, loss=3.17, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 00023: reducing learning rate of group 0 to 1.5000e-05.
+Epoch 22:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.17, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.160, lr_epoch=3e-5]          Epoch 23:   0%|          | 0/435 [00:00<?, ?it/s, loss=3.17, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:   2%|▏         | 10/435 [00:04<03:14,  2.19it/s, loss=3.17, v_num=4, train-loss_step=3.160, lr_step=3e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:   2%|▏         | 10/435 [00:04<03:14,  2.18it/s, loss=3.15, v_num=4, train-loss_step=3.060, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:   5%|▍         | 20/435 [00:08<03:02,  2.28it/s, loss=3.15, v_num=4, train-loss_step=3.060, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:   5%|▍         | 20/435 [00:08<03:02,  2.28it/s, loss=3.12, v_num=4, train-loss_step=3.180, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:   7%|▋         | 30/435 [00:12<02:51,  2.36it/s, loss=3.12, v_num=4, train-loss_step=3.180, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:   7%|▋         | 30/435 [00:12<02:52,  2.35it/s, loss=3.12, v_num=4, train-loss_step=2.960, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:   9%|▉         | 40/435 [00:16<02:41,  2.44it/s, loss=3.12, v_num=4, train-loss_step=2.960, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:   9%|▉         | 40/435 [00:16<02:42,  2.44it/s, loss=3.1, v_num=4, train-loss_step=3.110, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5] Epoch 23:  11%|█▏        | 50/435 [00:20<02:35,  2.48it/s, loss=3.1, v_num=4, train-loss_step=3.110, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  11%|█▏        | 50/435 [00:20<02:35,  2.48it/s, loss=3.12, v_num=4, train-loss_step=3.230, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  14%|█▍        | 60/435 [00:24<02:33,  2.45it/s, loss=3.12, v_num=4, train-loss_step=3.230, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  14%|█▍        | 60/435 [00:24<02:33,  2.45it/s, loss=3.11, v_num=4, train-loss_step=3.070, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  16%|█▌        | 70/435 [00:28<02:29,  2.44it/s, loss=3.11, v_num=4, train-loss_step=3.070, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  16%|█▌        | 70/435 [00:28<02:29,  2.44it/s, loss=3.08, v_num=4, train-loss_step=3.070, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  18%|█▊        | 80/435 [00:32<02:23,  2.47it/s, loss=3.08, v_num=4, train-loss_step=3.070, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  18%|█▊        | 80/435 [00:32<02:23,  2.47it/s, loss=3.08, v_num=4, train-loss_step=3.040, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  21%|██        | 90/435 [00:36<02:18,  2.50it/s, loss=3.08, v_num=4, train-loss_step=3.040, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  21%|██        | 90/435 [00:36<02:18,  2.50it/s, loss=3.07, v_num=4, train-loss_step=3.050, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  23%|██▎       | 100/435 [00:40<02:14,  2.49it/s, loss=3.07, v_num=4, train-loss_step=3.050, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  23%|██▎       | 100/435 [00:40<02:14,  2.49it/s, loss=3.1, v_num=4, train-loss_step=3.140, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5] Epoch 23:  25%|██▌       | 110/435 [00:43<02:09,  2.51it/s, loss=3.1, v_num=4, train-loss_step=3.140, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  25%|██▌       | 110/435 [00:43<02:09,  2.51it/s, loss=3.09, v_num=4, train-loss_step=3.080, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  28%|██▊       | 120/435 [00:47<02:04,  2.52it/s, loss=3.09, v_num=4, train-loss_step=3.080, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  28%|██▊       | 120/435 [00:47<02:04,  2.52it/s, loss=3.09, v_num=4, train-loss_step=3.110, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  30%|██▉       | 130/435 [00:51<02:00,  2.53it/s, loss=3.09, v_num=4, train-loss_step=3.110, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  30%|██▉       | 130/435 [00:51<02:00,  2.53it/s, loss=3.12, v_num=4, train-loss_step=3.050, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  32%|███▏      | 140/435 [00:55<01:56,  2.54it/s, loss=3.12, v_num=4, train-loss_step=3.050, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  32%|███▏      | 140/435 [00:55<01:56,  2.54it/s, loss=3.12, v_num=4, train-loss_step=3.160, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  34%|███▍      | 150/435 [00:58<01:52,  2.54it/s, loss=3.12, v_num=4, train-loss_step=3.160, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  34%|███▍      | 150/435 [00:58<01:52,  2.54it/s, loss=3.12, v_num=4, train-loss_step=3.050, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  37%|███▋      | 160/435 [01:03<01:48,  2.53it/s, loss=3.12, v_num=4, train-loss_step=3.050, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  37%|███▋      | 160/435 [01:03<01:48,  2.53it/s, loss=3.12, v_num=4, train-loss_step=3.100, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  39%|███▉      | 170/435 [01:07<01:44,  2.53it/s, loss=3.12, v_num=4, train-loss_step=3.100, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  39%|███▉      | 170/435 [01:07<01:44,  2.53it/s, loss=3.13, v_num=4, train-loss_step=3.070, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  41%|████▏     | 180/435 [01:11<01:41,  2.51it/s, loss=3.13, v_num=4, train-loss_step=3.070, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  41%|████▏     | 180/435 [01:11<01:41,  2.51it/s, loss=3.1, v_num=4, train-loss_step=3.010, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5] Epoch 23:  44%|████▎     | 190/435 [01:16<01:38,  2.50it/s, loss=3.1, v_num=4, train-loss_step=3.010, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  44%|████▎     | 190/435 [01:16<01:38,  2.50it/s, loss=3.08, v_num=4, train-loss_step=3.130, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  46%|████▌     | 200/435 [01:20<01:34,  2.50it/s, loss=3.08, v_num=4, train-loss_step=3.130, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  46%|████▌     | 200/435 [01:20<01:34,  2.50it/s, loss=3.07, v_num=4, train-loss_step=3.110, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  48%|████▊     | 210/435 [01:23<01:29,  2.51it/s, loss=3.07, v_num=4, train-loss_step=3.110, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  48%|████▊     | 210/435 [01:23<01:29,  2.51it/s, loss=3.08, v_num=4, train-loss_step=3.050, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  51%|█████     | 220/435 [01:27<01:25,  2.51it/s, loss=3.08, v_num=4, train-loss_step=3.050, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  51%|█████     | 220/435 [01:27<01:25,  2.51it/s, loss=3.11, v_num=4, train-loss_step=3.340, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  53%|█████▎    | 230/435 [01:31<01:21,  2.52it/s, loss=3.11, v_num=4, train-loss_step=3.340, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  53%|█████▎    | 230/435 [01:31<01:21,  2.52it/s, loss=3.09, v_num=4, train-loss_step=3.010, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  55%|█████▌    | 240/435 [01:35<01:17,  2.52it/s, loss=3.09, v_num=4, train-loss_step=3.010, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  55%|█████▌    | 240/435 [01:35<01:17,  2.52it/s, loss=3.09, v_num=4, train-loss_step=3.150, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  57%|█████▋    | 250/435 [01:39<01:13,  2.52it/s, loss=3.09, v_num=4, train-loss_step=3.150, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  57%|█████▋    | 250/435 [01:39<01:13,  2.52it/s, loss=3.1, v_num=4, train-loss_step=3.070, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5] Epoch 23:  60%|█████▉    | 260/435 [01:42<01:09,  2.53it/s, loss=3.1, v_num=4, train-loss_step=3.070, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  60%|█████▉    | 260/435 [01:42<01:09,  2.53it/s, loss=3.09, v_num=4, train-loss_step=3.100, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  62%|██████▏   | 270/435 [01:46<01:05,  2.53it/s, loss=3.09, v_num=4, train-loss_step=3.100, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  62%|██████▏   | 270/435 [01:46<01:05,  2.53it/s, loss=3.08, v_num=4, train-loss_step=3.000, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  64%|██████▍   | 280/435 [01:50<01:01,  2.53it/s, loss=3.08, v_num=4, train-loss_step=3.000, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  64%|██████▍   | 280/435 [01:50<01:01,  2.53it/s, loss=3.07, v_num=4, train-loss_step=3.000, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  67%|██████▋   | 290/435 [01:54<00:57,  2.54it/s, loss=3.07, v_num=4, train-loss_step=3.000, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  67%|██████▋   | 290/435 [01:54<00:57,  2.54it/s, loss=3.08, v_num=4, train-loss_step=3.160, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  69%|██████▉   | 300/435 [01:58<00:53,  2.54it/s, loss=3.08, v_num=4, train-loss_step=3.160, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  69%|██████▉   | 300/435 [01:58<00:53,  2.54it/s, loss=3.1, v_num=4, train-loss_step=3.030, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5] Epoch 23:  71%|███████▏  | 310/435 [02:02<00:49,  2.54it/s, loss=3.1, v_num=4, train-loss_step=3.030, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  71%|███████▏  | 310/435 [02:02<00:49,  2.54it/s, loss=3.11, v_num=4, train-loss_step=3.090, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  74%|███████▎  | 320/435 [02:06<00:45,  2.54it/s, loss=3.11, v_num=4, train-loss_step=3.090, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  74%|███████▎  | 320/435 [02:06<00:45,  2.54it/s, loss=3.09, v_num=4, train-loss_step=2.930, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  76%|███████▌  | 330/435 [02:10<00:41,  2.54it/s, loss=3.09, v_num=4, train-loss_step=2.930, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  76%|███████▌  | 330/435 [02:10<00:41,  2.54it/s, loss=3.1, v_num=4, train-loss_step=3.250, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5] Epoch 23:  78%|███████▊  | 340/435 [02:13<00:37,  2.54it/s, loss=3.1, v_num=4, train-loss_step=3.250, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  78%|███████▊  | 340/435 [02:13<00:37,  2.54it/s, loss=3.12, v_num=4, train-loss_step=3.120, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  80%|████████  | 350/435 [02:17<00:33,  2.54it/s, loss=3.12, v_num=4, train-loss_step=3.120, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  80%|████████  | 350/435 [02:17<00:33,  2.54it/s, loss=3.09, v_num=4, train-loss_step=2.960, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=3.09, v_num=4, train-loss_step=2.960, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  83%|████████▎ | 360/435 [02:21<00:29,  2.54it/s, loss=3.1, v_num=4, train-loss_step=3.140, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5] Epoch 23:  85%|████████▌ | 370/435 [02:25<00:25,  2.55it/s, loss=3.1, v_num=4, train-loss_step=3.140, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  85%|████████▌ | 370/435 [02:25<00:25,  2.55it/s, loss=3.11, v_num=4, train-loss_step=3.010, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  87%|████████▋ | 380/435 [02:29<00:21,  2.54it/s, loss=3.11, v_num=4, train-loss_step=3.010, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  87%|████████▋ | 380/435 [02:29<00:21,  2.54it/s, loss=3.1, v_num=4, train-loss_step=3.030, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5] 
+Validation: 0it [00:00, ?it/s][A
+running validation: : 0it [00:00, ?it/s][AEpoch 23:  90%|████████▉ | 390/435 [02:50<00:19,  2.29it/s, loss=3.1, v_num=4, train-loss_step=3.030, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  92%|█████████▏| 400/435 [03:50<00:20,  1.74it/s, loss=3.1, v_num=4, train-loss_step=3.030, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  94%|█████████▍| 410/435 [04:54<00:17,  1.39it/s, loss=3.1, v_num=4, train-loss_step=3.030, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  97%|█████████▋| 420/435 [05:51<00:12,  1.19it/s, loss=3.1, v_num=4, train-loss_step=3.030, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23:  99%|█████████▉| 430/435 [06:41<00:04,  1.07it/s, loss=3.1, v_num=4, train-loss_step=3.030, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23: 100%|██████████| 435/435 [07:09<00:00,  1.01it/s, loss=3.1, v_num=4, train-loss_step=3.030, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]
+Evaluation on checkpoint [23] 
+vloss:3.774852752685547
+rouge1:0.6858447790145874
+rouge2:0.41008955240249634
+rougeL:0.4861954152584076
+rougeLsum:0.4861954152584076
+bleu:34.57839584350586
+Epoch 23: 100%|██████████| 435/435 [07:09<00:00,  1.01it/s, loss=3.09, v_num=4, train-loss_step=3.000, lr_step=1.5e-5, train-loss_epoch=3.160, lr_epoch=3e-5]Epoch 23: 100%|██████████| 435/435 [07:09<00:00,  1.01it/s, loss=3.09, v_num=4, train-loss_step=3.000, lr_step=1.5e-5, train-loss_epoch=3.100, lr_epoch=1.5e-5]Epoch 23: 100%|██████████| 435/435 [07:13<00:00,  1.00it/s, loss=3.09, v_num=4, train-loss_step=3.000, lr_step=1.5e-5, train-loss_epoch=3.100, lr_epoch=1.5e-5]
+Testing: 0it [00:00, ?it/s]Testing:   0%|          | 0/48 [00:00<?, ?it/s]Testing DataLoader 0:   0%|          | 0/48 [00:00<?, ?it/s]Testing DataLoader 0:  21%|██        | 10/48 [00:58<03:41,  5.83s/it]Testing DataLoader 0:  42%|████▏     | 20/48 [01:54<02:39,  5.71s/it]Testing DataLoader 0:  62%|██████▎   | 30/48 [02:53<01:43,  5.78s/it]Testing DataLoader 0:  83%|████████▎ | 40/48 [03:58<00:47,  5.95s/it]Testing DataLoader 0: 100%|██████████| 48/48 [04:41<00:00,  5.87s/it]
+Evaluation on checkpoint [24] 
+vloss:3.728972911834717
+rouge1:0.7032422423362732
+rouge2:0.429549902677536
+rougeL:0.5052371621131897
+rougeLsum:0.5052371621131897
+bleu:37.34428405761719
+None
+Testing DataLoader 0: 100%|██████████| 48/48 [04:41<00:00,  5.87s/it]
+────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
+       Test metric             DataLoader 0
+────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
+          bleu               37.34428024291992
+         rouge1             0.7032422423362732
+         rouge2              0.429549902677536
+         rougeL             0.5052371621131897
+        rougeLsum           0.5052371621131897
+          vloss             3.7289726734161377
+────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
+Training ended. Best checkpoint /home/omar/lab/models/10.02.23/ats-models/finetuned_checkpoints/trimmed_longmbart_35k_apa/trial_1/epoch=13_rougeL=0.48998.ckpt.