Training in progress, epoch 1

Browse files

Files changed (10) hide show

all_results.json +25 -25
eval_results.json +10 -10
generated_predictions.txt +0 -0
predict_results.json +10 -10
pytorch_model.bin +1 -1
runs/Mar26_20-45-58_kogecha/events.out.tfevents.1711454466.kogecha +3 -0
runs/Mar26_21-07-27_kogecha/events.out.tfevents.1711454859.kogecha +3 -0
train_results.json +5 -5
trainer_state.json +86 -92
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,28 +1,28 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 24.21,
-    "eval_loss": 2.401291608810425,
-    "eval_rouge1": 9.7241,
-    "eval_rouge2": 1.7342,
-    "eval_rougeL": 7.7361,
-    "eval_rougeLsum": 8.3869,
-    "eval_runtime": 37.178,
-    "eval_samples": 100,
-    "eval_samples_per_second": 2.69,
-    "eval_steps_per_second": 2.69,
-    "predict_gen_len": 23.777570093457943,
-    "predict_loss": 2.630958318710327,
-    "predict_rouge1": 9.3557,
-    "predict_rouge2": 2.4094,
-    "predict_rougeL": 6.9706,
-    "predict_rougeLsum": 7.7242,
-    "predict_runtime": 201.6444,
-    "predict_samples": 535,
-    "predict_samples_per_second": 2.653,
-    "predict_steps_per_second": 2.653,
-    "train_loss": 0.8901088180541992,
-    "train_runtime": 815.2717,
-    "train_samples": 800,
-    "train_samples_per_second": 4.906,
-    "train_steps_per_second": 4.906
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 63.7625,
+    "eval_loss": 2.0723605155944824,
+    "eval_rouge1": 15.5769,
+    "eval_rouge2": 3.3042,
+    "eval_rougeL": 11.0176,
+    "eval_rougeLsum": 12.8107,
+    "eval_runtime": 64.4461,
+    "eval_samples": 80,
+    "eval_samples_per_second": 1.241,
+    "eval_steps_per_second": 1.241,
+    "predict_gen_len": 64.32627118644068,
+    "predict_loss": 2.390671968460083,
+    "predict_rouge1": 18.5511,
+    "predict_rouge2": 5.1681,
+    "predict_rougeL": 11.9827,
+    "predict_rougeLsum": 13.0558,
+    "predict_runtime": 198.8846,
+    "predict_samples": 236,
+    "predict_samples_per_second": 1.187,
+    "predict_steps_per_second": 1.187,
+    "train_loss": 1.0774688316355856,
+    "train_runtime": 782.0878,
+    "train_samples": 717,
+    "train_samples_per_second": 4.584,
+    "train_steps_per_second": 4.584
 }

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 24.21,
-    "eval_loss": 2.401291608810425,
-    "eval_rouge1": 9.7241,
-    "eval_rouge2": 1.7342,
-    "eval_rougeL": 7.7361,
-    "eval_rougeLsum": 8.3869,
-    "eval_runtime": 37.178,
-    "eval_samples": 100,
-    "eval_samples_per_second": 2.69,
-    "eval_steps_per_second": 2.69
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 63.7625,
+    "eval_loss": 2.0723605155944824,
+    "eval_rouge1": 15.5769,
+    "eval_rouge2": 3.3042,
+    "eval_rougeL": 11.0176,
+    "eval_rougeLsum": 12.8107,
+    "eval_runtime": 64.4461,
+    "eval_samples": 80,
+    "eval_samples_per_second": 1.241,
+    "eval_steps_per_second": 1.241
 }

generated_predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

predict_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "predict_gen_len": 23.777570093457943,
-    "predict_loss": 2.630958318710327,
-    "predict_rouge1": 9.3557,
-    "predict_rouge2": 2.4094,
-    "predict_rougeL": 6.9706,
-    "predict_rougeLsum": 7.7242,
-    "predict_runtime": 201.6444,
-    "predict_samples": 535,
-    "predict_samples_per_second": 2.653,
-    "predict_steps_per_second": 2.653
 }

 {
+    "predict_gen_len": 64.32627118644068,
+    "predict_loss": 2.390671968460083,
+    "predict_rouge1": 18.5511,
+    "predict_rouge2": 5.1681,
+    "predict_rougeL": 11.9827,
+    "predict_rougeLsum": 13.0558,
+    "predict_runtime": 198.8846,
+    "predict_samples": 236,
+    "predict_samples_per_second": 1.187,
+    "predict_steps_per_second": 1.187
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c25dc574abdfee75a7efeaf87fc36fa4c0d438145f9d28fad5ab241b3d452a81
 size 501807853

 version https://git-lfs.github.com/spec/v1
+oid sha256:479a16662531508b9f6eeda30775691b89ca046731b6cce103ef89e37dd889c1
 size 501807853

runs/Mar26_20-45-58_kogecha/events.out.tfevents.1711454466.kogecha ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2e55367ee4adda0970b021e8a554f1181338bebd5e9a0c6cd28e0c4b43cb427
+size 565

runs/Mar26_21-07-27_kogecha/events.out.tfevents.1711454859.kogecha ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:691bc46f7f11721e84efdffd93acc03603787daacfa3ed272701990ee4083cff
+size 6851

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.0,
-    "train_loss": 0.8901088180541992,
-    "train_runtime": 815.2717,
-    "train_samples": 800,
-    "train_samples_per_second": 4.906,
-    "train_steps_per_second": 4.906
 }

 {
     "epoch": 5.0,
+    "train_loss": 1.0774688316355856,
+    "train_runtime": 782.0878,
+    "train_samples": 717,
+    "train_samples_per_second": 4.584,
+    "train_steps_per_second": 4.584
 }

trainer_state.json CHANGED Viewed

@@ -1,138 +1,132 @@
 {
-  "best_metric": 9.7241,
-  "best_model_checkpoint": "saved/tobyoki-pairwise-wo_space/bart-base-japanese/BaseModel/checkpoint-3200",
   "epoch": 5.0,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.62,
-      "learning_rate": 4.375e-05,
-      "loss": 2.1248,
       "step": 500
     },
     {
       "epoch": 1.0,
-      "eval_gen_len": 13.69,
-      "eval_loss": 1.9658905267715454,
-      "eval_rouge1": 4.6735,
-      "eval_rouge2": 1.3973,
-      "eval_rougeL": 3.3399,
-      "eval_rougeLsum": 3.6754,
-      "eval_runtime": 20.4931,
-      "eval_samples_per_second": 4.88,
-      "eval_steps_per_second": 4.88,
-      "step": 800
     },
     {
-      "epoch": 1.25,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 1.3046,
       "step": 1000
     },
     {
-      "epoch": 1.88,
-      "learning_rate": 3.125e-05,
-      "loss": 0.9881,
-      "step": 1500
     },
     {
-      "epoch": 2.0,
-      "eval_gen_len": 13.09,
-      "eval_loss": 2.0469071865081787,
-      "eval_rouge1": 4.4604,
-      "eval_rouge2": 0.6802,
-      "eval_rougeL": 3.3883,
-      "eval_rougeLsum": 3.5799,
-      "eval_runtime": 46.7994,
-      "eval_samples_per_second": 2.137,
-      "eval_steps_per_second": 2.137,
-      "step": 1600
     },
     {
-      "epoch": 2.5,
-      "learning_rate": 2.5e-05,
-      "loss": 0.7473,
       "step": 2000
     },
     {
       "epoch": 3.0,
-      "eval_gen_len": 22.42,
-      "eval_loss": 2.3957085609436035,
-      "eval_rouge1": 7.1848,
-      "eval_rouge2": 1.4395,
-      "eval_rougeL": 5.7287,
-      "eval_rougeLsum": 6.234,
-      "eval_runtime": 53.6886,
-      "eval_samples_per_second": 1.863,
-      "eval_steps_per_second": 1.863,
-      "step": 2400
     },
     {
-      "epoch": 3.12,
-      "learning_rate": 1.8750000000000002e-05,
-      "loss": 0.591,
       "step": 2500
     },
-    {
-      "epoch": 3.75,
-      "learning_rate": 1.25e-05,
-      "loss": 0.5128,
-      "step": 3000
-    },
     {
       "epoch": 4.0,
-      "eval_gen_len": 24.21,
-      "eval_loss": 2.401291608810425,
-      "eval_rouge1": 9.7241,
-      "eval_rouge2": 1.7342,
-      "eval_rougeL": 7.7361,
-      "eval_rougeLsum": 8.3869,
-      "eval_runtime": 52.513,
-      "eval_samples_per_second": 1.904,
-      "eval_steps_per_second": 1.904,
-      "step": 3200
     },
     {
-      "epoch": 4.38,
-      "learning_rate": 6.25e-06,
-      "loss": 0.4408,
-      "step": 3500
     },
     {
-      "epoch": 5.0,
-      "learning_rate": 0.0,
-      "loss": 0.4115,
-      "step": 4000
     },
     {
       "epoch": 5.0,
-      "eval_gen_len": 25.78,
-      "eval_loss": 2.4646646976470947,
-      "eval_rouge1": 9.203,
-      "eval_rouge2": 1.326,
-      "eval_rougeL": 7.3269,
-      "eval_rougeLsum": 7.9726,
-      "eval_runtime": 58.8067,
-      "eval_samples_per_second": 1.7,
-      "eval_steps_per_second": 1.7,
-      "step": 4000
     },
     {
       "epoch": 5.0,
-      "step": 4000,
-      "total_flos": 675929268264960.0,
-      "train_loss": 0.8901088180541992,
-      "train_runtime": 815.2717,
-      "train_samples_per_second": 4.906,
-      "train_steps_per_second": 4.906
     }
   ],
-  "max_steps": 4000,
   "num_train_epochs": 5,
-  "total_flos": 675929268264960.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 15.5769,
+  "best_model_checkpoint": "saved/tobyoki-pairwise-wo_space/bart-base-japanese/BaseModel/checkpoint-2868",
   "epoch": 5.0,
+  "global_step": 3585,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.7,
+      "learning_rate": 4.302649930264993e-05,
+      "loss": 2.1701,
       "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_gen_len": 47.7375,
+      "eval_loss": 1.9507354497909546,
+      "eval_rouge1": 12.6467,
+      "eval_rouge2": 2.901,
+      "eval_rougeL": 10.0035,
+      "eval_rougeLsum": 11.1471,
+      "eval_runtime": 40.6217,
+      "eval_samples_per_second": 1.969,
+      "eval_steps_per_second": 1.969,
+      "step": 717
     },
     {
+      "epoch": 1.39,
+      "learning_rate": 3.6052998605299864e-05,
+      "loss": 1.4042,
       "step": 1000
     },
     {
+      "epoch": 2.0,
+      "eval_gen_len": 21.1375,
+      "eval_loss": 1.9519145488739014,
+      "eval_rouge1": 11.9515,
+      "eval_rouge2": 3.096,
+      "eval_rougeL": 10.2259,
+      "eval_rougeLsum": 10.8478,
+      "eval_runtime": 26.1922,
+      "eval_samples_per_second": 3.054,
+      "eval_steps_per_second": 3.054,
+      "step": 1434
     },
     {
+      "epoch": 2.09,
+      "learning_rate": 2.9079497907949792e-05,
+      "loss": 1.1417,
+      "step": 1500
     },
     {
+      "epoch": 2.79,
+      "learning_rate": 2.2105997210599723e-05,
+      "loss": 0.8952,
       "step": 2000
     },
     {
       "epoch": 3.0,
+      "eval_gen_len": 76.35,
+      "eval_loss": 2.0322935581207275,
+      "eval_rouge1": 15.5721,
+      "eval_rouge2": 3.5875,
+      "eval_rougeL": 10.6382,
+      "eval_rougeLsum": 12.9346,
+      "eval_runtime": 74.4084,
+      "eval_samples_per_second": 1.075,
+      "eval_steps_per_second": 1.075,
+      "step": 2151
     },
     {
+      "epoch": 3.49,
+      "learning_rate": 1.5132496513249652e-05,
+      "loss": 0.7489,
       "step": 2500
     },
     {
       "epoch": 4.0,
+      "eval_gen_len": 63.7625,
+      "eval_loss": 2.0723605155944824,
+      "eval_rouge1": 15.5769,
+      "eval_rouge2": 3.3042,
+      "eval_rougeL": 11.0176,
+      "eval_rougeLsum": 12.8107,
+      "eval_runtime": 64.4381,
+      "eval_samples_per_second": 1.242,
+      "eval_steps_per_second": 1.242,
+      "step": 2868
     },
     {
+      "epoch": 4.18,
+      "learning_rate": 8.158995815899583e-06,
+      "loss": 0.6757,
+      "step": 3000
     },
     {
+      "epoch": 4.88,
+      "learning_rate": 1.185495118549512e-06,
+      "loss": 0.5941,
+      "step": 3500
     },
     {
       "epoch": 5.0,
+      "eval_gen_len": 66.075,
+      "eval_loss": 2.0849809646606445,
+      "eval_rouge1": 15.3454,
+      "eval_rouge2": 2.9489,
+      "eval_rougeL": 10.7691,
+      "eval_rougeLsum": 12.7028,
+      "eval_runtime": 57.1206,
+      "eval_samples_per_second": 1.401,
+      "eval_steps_per_second": 1.401,
+      "step": 3585
     },
     {
       "epoch": 5.0,
+      "step": 3585,
+      "total_flos": 682678854881280.0,
+      "train_loss": 1.0774688316355856,
+      "train_runtime": 782.0878,
+      "train_samples_per_second": 4.584,
+      "train_steps_per_second": 4.584
     }
   ],
+  "max_steps": 3585,
   "num_train_epochs": 5,
+  "total_flos": 682678854881280.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af9bd341fe1643d17596d9cfdab42a36074a911b3a4f5caaf570b8edf6105bbf
 size 4475

 version https://git-lfs.github.com/spec/v1
+oid sha256:5bee288479d460bce9d32cc0c82b53c30c85e65ac9451717e6f32fdc234df44d
 size 4475