Training in progress, epoch 1

Browse files

Files changed (10) hide show

all_results.json +22 -22
eval_results.json +9 -9
generated_predictions.txt +0 -0
predict_results.json +9 -9
pytorch_model.bin +1 -1
runs/Mar22_12-27-47_kogecha/events.out.tfevents.1711082385.kogecha +3 -0
runs/Mar26_19-29-34_kogecha/events.out.tfevents.1711448988.kogecha +3 -0
train_results.json +4 -4
trainer_state.json +137 -137
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,28 +1,28 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 19.080696202531644,
-    "eval_loss": 2.338231325149536,
-    "eval_rouge1": 3.8334,
-    "eval_rouge2": 0.7391,
-    "eval_rougeL": 2.6123,
-    "eval_rougeLsum": 3.4838,
-    "eval_runtime": 447.0392,
     "eval_samples": 632,
-    "eval_samples_per_second": 1.414,
-    "eval_steps_per_second": 1.414,
-    "predict_gen_len": 56.19065420560748,
-    "predict_loss": 2.9006059169769287,
-    "predict_rouge1": 15.964,
-    "predict_rouge2": 2.625,
-    "predict_rougeL": 10.5843,
-    "predict_rougeLsum": 13.4933,
-    "predict_runtime": 286.0012,
     "predict_samples": 535,
-    "predict_samples_per_second": 1.871,
-    "predict_steps_per_second": 1.871,
-    "train_loss": 1.6083203901324357,
-    "train_runtime": 3729.4608,
     "train_samples": 4332,
-    "train_samples_per_second": 5.808,
-    "train_steps_per_second": 5.808
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 57.35284810126582,
+    "eval_loss": 3.128607988357544,
+    "eval_rouge1": 13.7182,
+    "eval_rouge2": 2.311,
+    "eval_rougeL": 9.1726,
+    "eval_rougeLsum": 11.5058,
+    "eval_runtime": 359.9186,
     "eval_samples": 632,
+    "eval_samples_per_second": 1.756,
+    "eval_steps_per_second": 1.756,
+    "predict_gen_len": 52.28971962616822,
+    "predict_loss": 3.2279164791107178,
+    "predict_rouge1": 16.0977,
+    "predict_rouge2": 2.9966,
+    "predict_rougeL": 10.7567,
+    "predict_rougeLsum": 12.5377,
+    "predict_runtime": 273.2778,
     "predict_samples": 535,
+    "predict_samples_per_second": 1.958,
+    "predict_steps_per_second": 1.958,
+    "train_loss": 0.23670565184904047,
+    "train_runtime": 3830.6771,
     "train_samples": 4332,
+    "train_samples_per_second": 5.654,
+    "train_steps_per_second": 5.654
 }

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 19.080696202531644,
-    "eval_loss": 2.338231325149536,
-    "eval_rouge1": 3.8334,
-    "eval_rouge2": 0.7391,
-    "eval_rougeL": 2.6123,
-    "eval_rougeLsum": 3.4838,
-    "eval_runtime": 447.0392,
     "eval_samples": 632,
-    "eval_samples_per_second": 1.414,
-    "eval_steps_per_second": 1.414
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 57.35284810126582,
+    "eval_loss": 3.128607988357544,
+    "eval_rouge1": 13.7182,
+    "eval_rouge2": 2.311,
+    "eval_rougeL": 9.1726,
+    "eval_rougeLsum": 11.5058,
+    "eval_runtime": 359.9186,
     "eval_samples": 632,
+    "eval_samples_per_second": 1.756,
+    "eval_steps_per_second": 1.756
 }

generated_predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

predict_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "predict_gen_len": 56.19065420560748,
-    "predict_loss": 2.9006059169769287,
-    "predict_rouge1": 15.964,
-    "predict_rouge2": 2.625,
-    "predict_rougeL": 10.5843,
-    "predict_rougeLsum": 13.4933,
-    "predict_runtime": 286.0012,
     "predict_samples": 535,
-    "predict_samples_per_second": 1.871,
-    "predict_steps_per_second": 1.871
 }

 {
+    "predict_gen_len": 52.28971962616822,
+    "predict_loss": 3.2279164791107178,
+    "predict_rouge1": 16.0977,
+    "predict_rouge2": 2.9966,
+    "predict_rougeL": 10.7567,
+    "predict_rougeLsum": 12.5377,
+    "predict_runtime": 273.2778,
     "predict_samples": 535,
+    "predict_samples_per_second": 1.958,
+    "predict_steps_per_second": 1.958
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5b02c795fa44cef351d2b611c9e58c3c68f4d185a0ae4c411e25de0ec551cc7
 size 501807853

 version https://git-lfs.github.com/spec/v1
+oid sha256:172991dc78c9918db2529f7adc381600a30e38b8aec3163b28636fb580629e59
 size 501807853

runs/Mar22_12-27-47_kogecha/events.out.tfevents.1711082385.kogecha ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:195f4236267b24b54e5763b09fad05e35237ee01c5f4f42d56115a70237c9de8
+size 575

runs/Mar26_19-29-34_kogecha/events.out.tfevents.1711448988.kogecha ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8a3e81acffc3b7e3a1d8bede7cc9f6b98afafc216ade878e4afd75083aa7664
+size 7434

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.0,
-    "train_loss": 1.6083203901324357,
-    "train_runtime": 3729.4608,
     "train_samples": 4332,
-    "train_samples_per_second": 5.808,
-    "train_steps_per_second": 5.808
 }

 {
     "epoch": 5.0,
+    "train_loss": 0.23670565184904047,
+    "train_runtime": 3830.6771,
     "train_samples": 4332,
+    "train_samples_per_second": 5.654,
+    "train_steps_per_second": 5.654
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 3.8334,
-  "best_model_checkpoint": "saved/tobyoki-pairwise/bart-base-japanese/BaseModel/checkpoint-21660",
   "epoch": 5.0,
   "global_step": 21660,
   "is_hyper_param_search": false,
@@ -9,335 +9,335 @@
   "log_history": [
     {
       "epoch": 0.12,
-      "learning_rate": 2.930747922437673e-06,
-      "loss": 3.4399,
       "step": 500
     },
     {
       "epoch": 0.23,
-      "learning_rate": 2.8614958448753465e-06,
-      "loss": 2.7955,
       "step": 1000
     },
     {
       "epoch": 0.35,
-      "learning_rate": 2.7922437673130195e-06,
-      "loss": 2.5456,
       "step": 1500
     },
     {
       "epoch": 0.46,
-      "learning_rate": 2.7229916897506925e-06,
-      "loss": 2.3587,
       "step": 2000
     },
     {
       "epoch": 0.58,
-      "learning_rate": 2.6537396121883655e-06,
-      "loss": 2.2348,
       "step": 2500
     },
     {
       "epoch": 0.69,
-      "learning_rate": 2.584487534626039e-06,
-      "loss": 2.1504,
       "step": 3000
     },
     {
       "epoch": 0.81,
-      "learning_rate": 2.515235457063712e-06,
-      "loss": 2.0208,
       "step": 3500
     },
     {
       "epoch": 0.92,
-      "learning_rate": 2.445983379501385e-06,
-      "loss": 1.9773,
       "step": 4000
     },
     {
       "epoch": 1.0,
-      "eval_gen_len": 9.685126582278482,
-      "eval_loss": 2.306642532348633,
-      "eval_rouge1": 2.1349,
-      "eval_rouge2": 0.4575,
-      "eval_rougeL": 1.5719,
-      "eval_rougeLsum": 1.9249,
-      "eval_runtime": 120.637,
-      "eval_samples_per_second": 5.239,
-      "eval_steps_per_second": 5.239,
       "step": 4332
     },
     {
       "epoch": 1.04,
-      "learning_rate": 2.376731301939058e-06,
-      "loss": 1.871,
       "step": 4500
     },
     {
       "epoch": 1.15,
-      "learning_rate": 2.3074792243767314e-06,
-      "loss": 1.8827,
       "step": 5000
     },
     {
       "epoch": 1.27,
-      "learning_rate": 2.2382271468144044e-06,
-      "loss": 1.7772,
       "step": 5500
     },
     {
       "epoch": 1.39,
-      "learning_rate": 2.1689750692520774e-06,
-      "loss": 1.7125,
       "step": 6000
     },
     {
       "epoch": 1.5,
-      "learning_rate": 2.099722991689751e-06,
-      "loss": 1.6817,
       "step": 6500
     },
     {
       "epoch": 1.62,
-      "learning_rate": 2.030470914127424e-06,
-      "loss": 1.6964,
       "step": 7000
     },
     {
       "epoch": 1.73,
-      "learning_rate": 1.961218836565097e-06,
-      "loss": 1.6218,
       "step": 7500
     },
     {
       "epoch": 1.85,
-      "learning_rate": 1.89196675900277e-06,
-      "loss": 1.5563,
       "step": 8000
     },
     {
       "epoch": 1.96,
-      "learning_rate": 1.822714681440443e-06,
-      "loss": 1.5625,
       "step": 8500
     },
     {
       "epoch": 2.0,
-      "eval_gen_len": 14.810126582278482,
-      "eval_loss": 2.293116807937622,
-      "eval_rouge1": 3.6283,
-      "eval_rouge2": 0.7297,
-      "eval_rougeL": 2.5484,
-      "eval_rougeLsum": 3.285,
-      "eval_runtime": 289.1187,
-      "eval_samples_per_second": 2.186,
-      "eval_steps_per_second": 2.186,
       "step": 8664
     },
     {
       "epoch": 2.08,
-      "learning_rate": 1.7534626038781163e-06,
-      "loss": 1.515,
       "step": 9000
     },
     {
       "epoch": 2.19,
-      "learning_rate": 1.6842105263157895e-06,
-      "loss": 1.5016,
       "step": 9500
     },
     {
       "epoch": 2.31,
-      "learning_rate": 1.6149584487534625e-06,
-      "loss": 1.4582,
       "step": 10000
     },
     {
       "epoch": 2.42,
-      "learning_rate": 1.5457063711911357e-06,
-      "loss": 1.4346,
       "step": 10500
     },
     {
       "epoch": 2.54,
-      "learning_rate": 1.476454293628809e-06,
-      "loss": 1.4243,
       "step": 11000
     },
     {
       "epoch": 2.65,
-      "learning_rate": 1.4072022160664822e-06,
-      "loss": 1.447,
       "step": 11500
     },
     {
       "epoch": 2.77,
-      "learning_rate": 1.3379501385041552e-06,
-      "loss": 1.4036,
       "step": 12000
     },
     {
       "epoch": 2.89,
-      "learning_rate": 1.2686980609418284e-06,
-      "loss": 1.3739,
       "step": 12500
     },
     {
       "epoch": 3.0,
-      "eval_gen_len": 12.979430379746836,
-      "eval_loss": 2.3153417110443115,
-      "eval_rouge1": 2.6835,
-      "eval_rouge2": 0.5213,
-      "eval_rougeL": 1.9015,
-      "eval_rougeLsum": 2.5034,
-      "eval_runtime": 348.2183,
-      "eval_samples_per_second": 1.815,
-      "eval_steps_per_second": 1.815,
       "step": 12996
     },
     {
       "epoch": 3.0,
-      "learning_rate": 1.1994459833795014e-06,
-      "loss": 1.3701,
       "step": 13000
     },
     {
       "epoch": 3.12,
-      "learning_rate": 1.1301939058171746e-06,
-      "loss": 1.3214,
       "step": 13500
     },
     {
       "epoch": 3.23,
-      "learning_rate": 1.0609418282548476e-06,
-      "loss": 1.3884,
       "step": 14000
     },
     {
       "epoch": 3.35,
-      "learning_rate": 9.916897506925209e-07,
-      "loss": 1.3147,
       "step": 14500
     },
     {
       "epoch": 3.46,
-      "learning_rate": 9.22437673130194e-07,
-      "loss": 1.2957,
       "step": 15000
     },
     {
       "epoch": 3.58,
-      "learning_rate": 8.531855955678671e-07,
-      "loss": 1.304,
       "step": 15500
     },
     {
       "epoch": 3.69,
-      "learning_rate": 7.839335180055402e-07,
-      "loss": 1.2635,
       "step": 16000
     },
     {
       "epoch": 3.81,
-      "learning_rate": 7.146814404432133e-07,
-      "loss": 1.2657,
       "step": 16500
     },
     {
       "epoch": 3.92,
-      "learning_rate": 6.454293628808864e-07,
-      "loss": 1.2579,
       "step": 17000
     },
     {
       "epoch": 4.0,
-      "eval_gen_len": 17.72151898734177,
-      "eval_loss": 2.337430477142334,
-      "eval_rouge1": 3.4587,
-      "eval_rouge2": 0.6968,
-      "eval_rougeL": 2.3777,
-      "eval_rougeLsum": 3.1843,
-      "eval_runtime": 479.8504,
-      "eval_samples_per_second": 1.317,
-      "eval_steps_per_second": 1.317,
       "step": 17328
     },
     {
       "epoch": 4.04,
-      "learning_rate": 5.761772853185595e-07,
-      "loss": 1.2155,
       "step": 17500
     },
     {
       "epoch": 4.16,
-      "learning_rate": 5.069252077562327e-07,
-      "loss": 1.2263,
       "step": 18000
     },
     {
       "epoch": 4.27,
-      "learning_rate": 4.376731301939058e-07,
-      "loss": 1.2494,
       "step": 18500
     },
     {
       "epoch": 4.39,
-      "learning_rate": 3.684210526315789e-07,
-      "loss": 1.2308,
       "step": 19000
     },
     {
       "epoch": 4.5,
-      "learning_rate": 2.991689750692521e-07,
-      "loss": 1.2468,
       "step": 19500
     },
     {
       "epoch": 4.62,
-      "learning_rate": 2.2991689750692521e-07,
-      "loss": 1.2399,
       "step": 20000
     },
     {
       "epoch": 4.73,
-      "learning_rate": 1.6066481994459835e-07,
-      "loss": 1.1831,
       "step": 20500
     },
     {
       "epoch": 4.85,
-      "learning_rate": 9.141274238227148e-08,
-      "loss": 1.2622,
       "step": 21000
     },
     {
       "epoch": 4.96,
-      "learning_rate": 2.2160664819944597e-08,
-      "loss": 1.2145,
       "step": 21500
     },
     {
       "epoch": 5.0,
-      "eval_gen_len": 19.080696202531644,
-      "eval_loss": 2.338231325149536,
-      "eval_rouge1": 3.8334,
-      "eval_rouge2": 0.7391,
-      "eval_rougeL": 2.6123,
-      "eval_rougeLsum": 3.4838,
-      "eval_runtime": 447.0874,
-      "eval_samples_per_second": 1.414,
-      "eval_steps_per_second": 1.414,
       "step": 21660
     },
     {
       "epoch": 5.0,
       "step": 21660,
       "total_flos": 3568971203850240.0,
-      "train_loss": 1.6083203901324357,
-      "train_runtime": 3729.4608,
-      "train_samples_per_second": 5.808,
-      "train_steps_per_second": 5.808
     }
   ],
   "max_steps": 21660,

 {
+  "best_metric": 13.7182,
+  "best_model_checkpoint": "saved/tobyoki-pairwise/bart-base-japanese/BaseModel/checkpoint-8664",
   "epoch": 5.0,
   "global_step": 21660,
   "is_hyper_param_search": false,
   "log_history": [
     {
       "epoch": 0.12,
+      "learning_rate": 4.8845798707294554e-05,
+      "loss": 2.1628,
       "step": 500
     },
     {
       "epoch": 0.23,
+      "learning_rate": 4.7691597414589107e-05,
+      "loss": 1.3515,
       "step": 1000
     },
     {
       "epoch": 0.35,
+      "learning_rate": 4.653739612188366e-05,
+      "loss": 0.9577,
       "step": 1500
     },
     {
       "epoch": 0.46,
+      "learning_rate": 4.538319482917821e-05,
+      "loss": 0.7042,
       "step": 2000
     },
     {
       "epoch": 0.58,
+      "learning_rate": 4.422899353647276e-05,
+      "loss": 0.5935,
       "step": 2500
     },
     {
       "epoch": 0.69,
+      "learning_rate": 4.3074792243767315e-05,
+      "loss": 0.4658,
       "step": 3000
     },
     {
       "epoch": 0.81,
+      "learning_rate": 4.192059095106187e-05,
+      "loss": 0.3854,
       "step": 3500
     },
     {
       "epoch": 0.92,
+      "learning_rate": 4.076638965835642e-05,
+      "loss": 0.2994,
       "step": 4000
     },
     {
       "epoch": 1.0,
+      "eval_gen_len": 55.063291139240505,
+      "eval_loss": 2.7883288860321045,
+      "eval_rouge1": 11.1611,
+      "eval_rouge2": 1.7768,
+      "eval_rougeL": 7.5158,
+      "eval_rougeLsum": 9.6222,
+      "eval_runtime": 352.9978,
+      "eval_samples_per_second": 1.79,
+      "eval_steps_per_second": 1.79,
       "step": 4332
     },
     {
       "epoch": 1.04,
+      "learning_rate": 3.961218836565097e-05,
+      "loss": 0.2806,
       "step": 4500
     },
     {
       "epoch": 1.15,
+      "learning_rate": 3.845798707294552e-05,
+      "loss": 0.263,
       "step": 5000
     },
     {
       "epoch": 1.27,
+      "learning_rate": 3.7303785780240075e-05,
+      "loss": 0.2187,
       "step": 5500
     },
     {
       "epoch": 1.39,
+      "learning_rate": 3.614958448753463e-05,
+      "loss": 0.1761,
       "step": 6000
     },
     {
       "epoch": 1.5,
+      "learning_rate": 3.499538319482918e-05,
+      "loss": 0.1664,
       "step": 6500
     },
     {
       "epoch": 1.62,
+      "learning_rate": 3.384118190212373e-05,
+      "loss": 0.1896,
       "step": 7000
     },
     {
       "epoch": 1.73,
+      "learning_rate": 3.2686980609418284e-05,
+      "loss": 0.1627,
       "step": 7500
     },
     {
       "epoch": 1.85,
+      "learning_rate": 3.1532779316712836e-05,
+      "loss": 0.1146,
       "step": 8000
     },
     {
       "epoch": 1.96,
+      "learning_rate": 3.0378578024007388e-05,
+      "loss": 0.1513,
       "step": 8500
     },
     {
       "epoch": 2.0,
+      "eval_gen_len": 57.35284810126582,
+      "eval_loss": 3.128607988357544,
+      "eval_rouge1": 13.7182,
+      "eval_rouge2": 2.311,
+      "eval_rougeL": 9.1726,
+      "eval_rougeLsum": 11.5058,
+      "eval_runtime": 358.8793,
+      "eval_samples_per_second": 1.761,
+      "eval_steps_per_second": 1.761,
       "step": 8664
     },
     {
       "epoch": 2.08,
+      "learning_rate": 2.922437673130194e-05,
+      "loss": 0.125,
       "step": 9000
     },
     {
       "epoch": 2.19,
+      "learning_rate": 2.8070175438596492e-05,
+      "loss": 0.1028,
       "step": 9500
     },
     {
       "epoch": 2.31,
+      "learning_rate": 2.6915974145891044e-05,
+      "loss": 0.0934,
       "step": 10000
     },
     {
       "epoch": 2.42,
+      "learning_rate": 2.5761772853185596e-05,
+      "loss": 0.0993,
       "step": 10500
     },
     {
       "epoch": 2.54,
+      "learning_rate": 2.460757156048015e-05,
+      "loss": 0.074,
       "step": 11000
     },
     {
       "epoch": 2.65,
+      "learning_rate": 2.3453370267774704e-05,
+      "loss": 0.0857,
       "step": 11500
     },
     {
       "epoch": 2.77,
+      "learning_rate": 2.2299168975069256e-05,
+      "loss": 0.0823,
       "step": 12000
     },
     {
       "epoch": 2.89,
+      "learning_rate": 2.1144967682363804e-05,
+      "loss": 0.0778,
       "step": 12500
     },
     {
       "epoch": 3.0,
+      "eval_gen_len": 48.70886075949367,
+      "eval_loss": 3.3238439559936523,
+      "eval_rouge1": 12.1173,
+      "eval_rouge2": 1.88,
+      "eval_rougeL": 8.1156,
+      "eval_rougeLsum": 10.1187,
+      "eval_runtime": 315.5777,
+      "eval_samples_per_second": 2.003,
+      "eval_steps_per_second": 2.003,
       "step": 12996
     },
     {
       "epoch": 3.0,
+      "learning_rate": 1.9990766389658356e-05,
+      "loss": 0.078,
       "step": 13000
     },
     {
       "epoch": 3.12,
+      "learning_rate": 1.883656509695291e-05,
+      "loss": 0.0546,
       "step": 13500
     },
     {
       "epoch": 3.23,
+      "learning_rate": 1.768236380424746e-05,
+      "loss": 0.062,
       "step": 14000
     },
     {
       "epoch": 3.35,
+      "learning_rate": 1.6528162511542013e-05,
+      "loss": 0.0656,
       "step": 14500
     },
     {
       "epoch": 3.46,
+      "learning_rate": 1.5373961218836565e-05,
+      "loss": 0.0555,
       "step": 15000
     },
     {
       "epoch": 3.58,
+      "learning_rate": 1.4219759926131118e-05,
+      "loss": 0.0437,
       "step": 15500
     },
     {
       "epoch": 3.69,
+      "learning_rate": 1.306555863342567e-05,
+      "loss": 0.05,
       "step": 16000
     },
     {
       "epoch": 3.81,
+      "learning_rate": 1.1911357340720223e-05,
+      "loss": 0.0577,
       "step": 16500
     },
     {
       "epoch": 3.92,
+      "learning_rate": 1.0757156048014775e-05,
+      "loss": 0.056,
       "step": 17000
     },
     {
       "epoch": 4.0,
+      "eval_gen_len": 50.7373417721519,
+      "eval_loss": 3.4031858444213867,
+      "eval_rouge1": 11.9555,
+      "eval_rouge2": 2.0536,
+      "eval_rougeL": 8.2185,
+      "eval_rougeLsum": 10.0656,
+      "eval_runtime": 343.5063,
+      "eval_samples_per_second": 1.84,
+      "eval_steps_per_second": 1.84,
       "step": 17328
     },
     {
       "epoch": 4.04,
+      "learning_rate": 9.602954755309327e-06,
+      "loss": 0.0416,
       "step": 17500
     },
     {
       "epoch": 4.16,
+      "learning_rate": 8.448753462603879e-06,
+      "loss": 0.0393,
       "step": 18000
     },
     {
       "epoch": 4.27,
+      "learning_rate": 7.29455216989843e-06,
+      "loss": 0.0368,
       "step": 18500
     },
     {
       "epoch": 4.39,
+      "learning_rate": 6.140350877192982e-06,
+      "loss": 0.0433,
       "step": 19000
     },
     {
       "epoch": 4.5,
+      "learning_rate": 4.986149584487535e-06,
+      "loss": 0.0421,
       "step": 19500
     },
     {
       "epoch": 4.62,
+      "learning_rate": 3.831948291782087e-06,
+      "loss": 0.038,
       "step": 20000
     },
     {
       "epoch": 4.73,
+      "learning_rate": 2.6777469990766392e-06,
+      "loss": 0.0285,
       "step": 20500
     },
     {
       "epoch": 4.85,
+      "learning_rate": 1.5235457063711913e-06,
+      "loss": 0.0343,
       "step": 21000
     },
     {
       "epoch": 4.96,
+      "learning_rate": 3.693444136657433e-07,
+      "loss": 0.0364,
       "step": 21500
     },
     {
       "epoch": 5.0,
+      "eval_gen_len": 50.44462025316456,
+      "eval_loss": 3.525162696838379,
+      "eval_rouge1": 11.814,
+      "eval_rouge2": 1.7965,
+      "eval_rougeL": 8.0177,
+      "eval_rougeLsum": 9.7342,
+      "eval_runtime": 338.0819,
+      "eval_samples_per_second": 1.869,
+      "eval_steps_per_second": 1.869,
       "step": 21660
     },
     {
       "epoch": 5.0,
       "step": 21660,
       "total_flos": 3568971203850240.0,
+      "train_loss": 0.23670565184904047,
+      "train_runtime": 3830.6771,
+      "train_samples_per_second": 5.654,
+      "train_steps_per_second": 5.654
     }
   ],
   "max_steps": 21660,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f6d875f4df131ec83cd852c077704d3d090275db9bc87774bfd7df2a35aaf8e
 size 4475

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7081b5cc1106070ff6198b02a5a8687054ba5449cf8518c35628d1536648b8d
 size 4475