Training in progress, epoch 1

Browse files

Files changed (10) hide show

all_results.json +25 -25
eval_results.json +10 -10
generated_predictions.txt +0 -0
predict_results.json +10 -10
pytorch_model.bin +1 -1
runs/Mar26_18-34-27_kogecha/events.out.tfevents.1711446687.kogecha +3 -0
runs/Mar26_19-07-17_kogecha/events.out.tfevents.1711447649.kogecha +3 -0
train_results.json +5 -5
trainer_state.json +94 -172
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,28 +1,28 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 95.02447552447552,
-    "eval_loss": 3.2694220542907715,
-    "eval_rouge1": 18.7407,
-    "eval_rouge2": 3.1211,
-    "eval_rougeL": 10.9379,
-    "eval_rougeLsum": 15.8203,
-    "eval_runtime": 317.8178,
-    "eval_samples": 286,
-    "eval_samples_per_second": 0.9,
-    "eval_steps_per_second": 0.9,
-    "predict_gen_len": 86.58898305084746,
-    "predict_loss": 3.0853381156921387,
-    "predict_rouge1": 18.1172,
-    "predict_rouge2": 3.4127,
-    "predict_rougeL": 11.2062,
-    "predict_rougeLsum": 12.5441,
-    "predict_runtime": 262.8252,
-    "predict_samples": 236,
-    "predict_samples_per_second": 0.898,
-    "predict_steps_per_second": 0.898,
-    "train_loss": 0.4568321267587167,
-    "train_runtime": 2611.1815,
-    "train_samples": 2025,
-    "train_samples_per_second": 3.878,
-    "train_steps_per_second": 3.878
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 63.7625,
+    "eval_loss": 2.0723605155944824,
+    "eval_rouge1": 15.5769,
+    "eval_rouge2": 3.3042,
+    "eval_rougeL": 11.0176,
+    "eval_rougeLsum": 12.8107,
+    "eval_runtime": 78.8993,
+    "eval_samples": 80,
+    "eval_samples_per_second": 1.014,
+    "eval_steps_per_second": 1.014,
+    "predict_gen_len": 58.329787234042556,
+    "predict_loss": 2.241582155227661,
+    "predict_rouge1": 20.5805,
+    "predict_rouge2": 6.166,
+    "predict_rougeL": 14.2848,
+    "predict_rougeLsum": 15.2919,
+    "predict_runtime": 90.5083,
+    "predict_samples": 94,
+    "predict_samples_per_second": 1.039,
+    "predict_steps_per_second": 1.039,
+    "train_loss": 1.0774688316355856,
+    "train_runtime": 820.1414,
+    "train_samples": 717,
+    "train_samples_per_second": 4.371,
+    "train_steps_per_second": 4.371
 }

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 95.02447552447552,
-    "eval_loss": 3.2694220542907715,
-    "eval_rouge1": 18.7407,
-    "eval_rouge2": 3.1211,
-    "eval_rougeL": 10.9379,
-    "eval_rougeLsum": 15.8203,
-    "eval_runtime": 317.8178,
-    "eval_samples": 286,
-    "eval_samples_per_second": 0.9,
-    "eval_steps_per_second": 0.9
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 63.7625,
+    "eval_loss": 2.0723605155944824,
+    "eval_rouge1": 15.5769,
+    "eval_rouge2": 3.3042,
+    "eval_rougeL": 11.0176,
+    "eval_rougeLsum": 12.8107,
+    "eval_runtime": 78.8993,
+    "eval_samples": 80,
+    "eval_samples_per_second": 1.014,
+    "eval_steps_per_second": 1.014
 }

generated_predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

predict_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "predict_gen_len": 86.58898305084746,
-    "predict_loss": 3.0853381156921387,
-    "predict_rouge1": 18.1172,
-    "predict_rouge2": 3.4127,
-    "predict_rougeL": 11.2062,
-    "predict_rougeLsum": 12.5441,
-    "predict_runtime": 262.8252,
-    "predict_samples": 236,
-    "predict_samples_per_second": 0.898,
-    "predict_steps_per_second": 0.898
 }

 {
+    "predict_gen_len": 58.329787234042556,
+    "predict_loss": 2.241582155227661,
+    "predict_rouge1": 20.5805,
+    "predict_rouge2": 6.166,
+    "predict_rougeL": 14.2848,
+    "predict_rougeLsum": 15.2919,
+    "predict_runtime": 90.5083,
+    "predict_samples": 94,
+    "predict_samples_per_second": 1.039,
+    "predict_steps_per_second": 1.039
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c25dc574abdfee75a7efeaf87fc36fa4c0d438145f9d28fad5ab241b3d452a81
 size 501807853

 version https://git-lfs.github.com/spec/v1
+oid sha256:19dbc6c5a6017e5db63b49510291f078d1639718550d47be1687a31bf30a05af
 size 501807853

runs/Mar26_18-34-27_kogecha/events.out.tfevents.1711446687.kogecha ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a3139ec298ed4a872dfea73e55876be15c25d282143607cd2478f9e7e121ecd
+size 565

runs/Mar26_19-07-17_kogecha/events.out.tfevents.1711447649.kogecha ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b968ba2687d93eecb051e7ade0a201cda659c0742805148d4e08b52f12a14971
+size 6380

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.0,
-    "train_loss": 0.4568321267587167,
-    "train_runtime": 2611.1815,
-    "train_samples": 2025,
-    "train_samples_per_second": 3.878,
-    "train_steps_per_second": 3.878
 }

 {
     "epoch": 5.0,
+    "train_loss": 1.0774688316355856,
+    "train_runtime": 820.1414,
+    "train_samples": 717,
+    "train_samples_per_second": 4.371,
+    "train_steps_per_second": 4.371
 }

trainer_state.json CHANGED Viewed

@@ -1,210 +1,132 @@
 {
-  "best_metric": 18.7407,
-  "best_model_checkpoint": "saved/tobyoki-pairwise-wo_space/bart-base-japanese/BaseModel/checkpoint-10125",
   "epoch": 5.0,
-  "global_step": 10125,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.25,
-      "learning_rate": 4.7530864197530866e-05,
-      "loss": 2.1397,
       "step": 500
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 4.506172839506173e-05,
-      "loss": 1.3468,
       "step": 1000
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 4.259259259259259e-05,
-      "loss": 0.9786,
       "step": 1500
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 4.012345679012346e-05,
-      "loss": 0.7833,
       "step": 2000
     },
     {
-      "epoch": 1.0,
-      "eval_gen_len": 65.37762237762237,
-      "eval_loss": 2.5750701427459717,
-      "eval_rouge1": 16.3343,
-      "eval_rouge2": 1.2888,
-      "eval_rougeL": 11.0128,
-      "eval_rougeLsum": 15.2802,
-      "eval_runtime": 267.3657,
-      "eval_samples_per_second": 1.07,
-      "eval_steps_per_second": 1.07,
-      "step": 2025
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 3.7654320987654326e-05,
-      "loss": 0.5998,
       "step": 2500
     },
     {
-      "epoch": 1.48,
-      "learning_rate": 3.518518518518519e-05,
-      "loss": 0.467,
       "step": 3000
     },
     {
-      "epoch": 1.73,
-      "learning_rate": 3.271604938271605e-05,
-      "loss": 0.4008,
       "step": 3500
     },
-    {
-      "epoch": 1.98,
-      "learning_rate": 3.0246913580246916e-05,
-      "loss": 0.3308,
-      "step": 4000
-    },
-    {
-      "epoch": 2.0,
-      "eval_gen_len": 91.65034965034965,
-      "eval_loss": 2.9422976970672607,
-      "eval_rouge1": 17.9514,
-      "eval_rouge2": 2.8091,
-      "eval_rougeL": 10.9133,
-      "eval_rougeLsum": 15.4068,
-      "eval_runtime": 356.3388,
-      "eval_samples_per_second": 0.803,
-      "eval_steps_per_second": 0.803,
-      "step": 4050
-    },
-    {
-      "epoch": 2.22,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.2778,
-      "step": 4500
-    },
-    {
-      "epoch": 2.47,
-      "learning_rate": 2.5308641975308646e-05,
-      "loss": 0.2482,
-      "step": 5000
-    },
-    {
-      "epoch": 2.72,
-      "learning_rate": 2.2839506172839506e-05,
-      "loss": 0.2349,
-      "step": 5500
-    },
-    {
-      "epoch": 2.96,
-      "learning_rate": 2.037037037037037e-05,
-      "loss": 0.2302,
-      "step": 6000
-    },
-    {
-      "epoch": 3.0,
-      "eval_gen_len": 77.1993006993007,
-      "eval_loss": 3.0624501705169678,
-      "eval_rouge1": 16.1453,
-      "eval_rouge2": 3.0026,
-      "eval_rougeL": 10.272,
-      "eval_rougeLsum": 14.0716,
-      "eval_runtime": 279.7235,
-      "eval_samples_per_second": 1.022,
-      "eval_steps_per_second": 1.022,
-      "step": 6075
-    },
-    {
-      "epoch": 3.21,
-      "learning_rate": 1.7901234567901236e-05,
-      "loss": 0.1927,
-      "step": 6500
-    },
-    {
-      "epoch": 3.46,
-      "learning_rate": 1.54320987654321e-05,
-      "loss": 0.1607,
-      "step": 7000
-    },
-    {
-      "epoch": 3.7,
-      "learning_rate": 1.2962962962962962e-05,
-      "loss": 0.1621,
-      "step": 7500
-    },
-    {
-      "epoch": 3.95,
-      "learning_rate": 1.0493827160493827e-05,
-      "loss": 0.1576,
-      "step": 8000
-    },
-    {
-      "epoch": 4.0,
-      "eval_gen_len": 88.3986013986014,
-      "eval_loss": 3.2307794094085693,
-      "eval_rouge1": 17.8409,
-      "eval_rouge2": 2.9937,
-      "eval_rougeL": 10.8765,
-      "eval_rougeLsum": 15.6203,
-      "eval_runtime": 323.891,
-      "eval_samples_per_second": 0.883,
-      "eval_steps_per_second": 0.883,
-      "step": 8100
-    },
-    {
-      "epoch": 4.2,
-      "learning_rate": 8.02469135802469e-06,
-      "loss": 0.1289,
-      "step": 8500
-    },
-    {
-      "epoch": 4.44,
-      "learning_rate": 5.555555555555556e-06,
-      "loss": 0.1385,
-      "step": 9000
-    },
-    {
-      "epoch": 4.69,
-      "learning_rate": 3.0864197530864196e-06,
-      "loss": 0.1315,
-      "step": 9500
-    },
-    {
-      "epoch": 4.94,
-      "learning_rate": 6.17283950617284e-07,
-      "loss": 0.1055,
-      "step": 10000
-    },
     {
       "epoch": 5.0,
-      "eval_gen_len": 95.02447552447552,
-      "eval_loss": 3.2694220542907715,
-      "eval_rouge1": 18.7407,
-      "eval_rouge2": 3.1211,
-      "eval_rougeL": 10.9379,
-      "eval_rougeLsum": 15.8203,
-      "eval_runtime": 317.0639,
-      "eval_samples_per_second": 0.902,
-      "eval_steps_per_second": 0.902,
-      "step": 10125
     },
     {
       "epoch": 5.0,
-      "step": 10125,
-      "total_flos": 1931007009669120.0,
-      "train_loss": 0.4568321267587167,
-      "train_runtime": 2611.1815,
-      "train_samples_per_second": 3.878,
-      "train_steps_per_second": 3.878
     }
   ],
-  "max_steps": 10125,
   "num_train_epochs": 5,
-  "total_flos": 1931007009669120.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 15.5769,
+  "best_model_checkpoint": "saved/tobyoki-pairwise-wo_space/bart-base-japanese/BaseModel/checkpoint-2868",
   "epoch": 5.0,
+  "global_step": 3585,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.7,
+      "learning_rate": 4.302649930264993e-05,
+      "loss": 2.1701,
       "step": 500
     },
     {
+      "epoch": 1.0,
+      "eval_gen_len": 47.7375,
+      "eval_loss": 1.9507354497909546,
+      "eval_rouge1": 12.6467,
+      "eval_rouge2": 2.901,
+      "eval_rougeL": 10.0035,
+      "eval_rougeLsum": 11.1471,
+      "eval_runtime": 49.6131,
+      "eval_samples_per_second": 1.612,
+      "eval_steps_per_second": 1.612,
+      "step": 717
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 3.6052998605299864e-05,
+      "loss": 1.4042,
       "step": 1000
     },
     {
+      "epoch": 2.0,
+      "eval_gen_len": 21.1375,
+      "eval_loss": 1.9519145488739014,
+      "eval_rouge1": 11.9515,
+      "eval_rouge2": 3.096,
+      "eval_rougeL": 10.2259,
+      "eval_rougeLsum": 10.8478,
+      "eval_runtime": 36.7295,
+      "eval_samples_per_second": 2.178,
+      "eval_steps_per_second": 2.178,
+      "step": 1434
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 2.9079497907949792e-05,
+      "loss": 1.1417,
       "step": 1500
     },
     {
+      "epoch": 2.79,
+      "learning_rate": 2.2105997210599723e-05,
+      "loss": 0.8952,
       "step": 2000
     },
     {
+      "epoch": 3.0,
+      "eval_gen_len": 76.35,
+      "eval_loss": 2.0322935581207275,
+      "eval_rouge1": 15.5721,
+      "eval_rouge2": 3.5875,
+      "eval_rougeL": 10.6382,
+      "eval_rougeLsum": 12.9346,
+      "eval_runtime": 127.0578,
+      "eval_samples_per_second": 0.63,
+      "eval_steps_per_second": 0.63,
+      "step": 2151
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 1.5132496513249652e-05,
+      "loss": 0.7489,
       "step": 2500
     },
     {
+      "epoch": 4.0,
+      "eval_gen_len": 63.7625,
+      "eval_loss": 2.0723605155944824,
+      "eval_rouge1": 15.5769,
+      "eval_rouge2": 3.3042,
+      "eval_rougeL": 11.0176,
+      "eval_rougeLsum": 12.8107,
+      "eval_runtime": 79.609,
+      "eval_samples_per_second": 1.005,
+      "eval_steps_per_second": 1.005,
+      "step": 2868
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 8.158995815899583e-06,
+      "loss": 0.6757,
       "step": 3000
     },
     {
+      "epoch": 4.88,
+      "learning_rate": 1.185495118549512e-06,
+      "loss": 0.5941,
       "step": 3500
     },
     {
       "epoch": 5.0,
+      "eval_gen_len": 66.075,
+      "eval_loss": 2.0849809646606445,
+      "eval_rouge1": 15.3454,
+      "eval_rouge2": 2.9489,
+      "eval_rougeL": 10.7691,
+      "eval_rougeLsum": 12.7028,
+      "eval_runtime": 76.3627,
+      "eval_samples_per_second": 1.048,
+      "eval_steps_per_second": 1.048,
+      "step": 3585
     },
     {
       "epoch": 5.0,
+      "step": 3585,
+      "total_flos": 682678854881280.0,
+      "train_loss": 1.0774688316355856,
+      "train_runtime": 820.1414,
+      "train_samples_per_second": 4.371,
+      "train_steps_per_second": 4.371
     }
   ],
+  "max_steps": 3585,
   "num_train_epochs": 5,
+  "total_flos": 682678854881280.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37216331b5413f75221586ed2e7515ae60dd4e50ea9fbc42566855fffcb6168d
 size 4475

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6030a0c82b601891bd894a96708a17ba86168c75bb195657482dcd66f486273
 size 4475