GlycerinLOL
/

LLM_Teached_Pegasus_100k_FS

@@ -1,7 +1,7 @@
 {
-    "epoch": 15.99,
-    "train_loss": 0.8767006197992594,
-    "train_runtime": 37037.5595,
-    "train_samples_per_second": 43.199,
-    "train_steps_per_second": 0.3
 }

 {
+    "epoch": 20.0,
+    "train_loss": 0.2986434628709249,
+    "train_runtime": 16684.611,
+    "train_samples_per_second": 119.871,
+    "train_steps_per_second": 0.832
 }

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 15.99,
-    "train_loss": 0.8767006197992594,
-    "train_runtime": 37037.5595,
-    "train_samples_per_second": 43.199,
-    "train_steps_per_second": 0.3
 }

 {
+    "epoch": 20.0,
+    "train_loss": 0.2986434628709249,
+    "train_runtime": 16684.611,
+    "train_samples_per_second": 119.871,
+    "train_steps_per_second": 0.832
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 15.992800575953924,
   "eval_steps": 500,
-  "global_step": 11104,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -365,37 +365,131 @@
       "step": 11000
     },
     {
-      "epoch": 15.99,
       "eval_f1": 0.9134,
-      "eval_gen_len": 25.96290909090909,
-      "eval_loss": 1.4468724727630615,
       "eval_precision": 0.9133,
       "eval_recall": 0.9138,
-      "eval_rouge1": 0.4939,
-      "eval_rouge2": 0.2453,
-      "eval_rougeL": 0.4133,
-      "eval_rougeLsum": 0.4134,
-      "eval_runtime": 864.4194,
-      "eval_samples_per_second": 6.363,
       "eval_steps_per_second": 0.398,
-      "step": 11104
     },
     {
-      "epoch": 15.99,
-      "step": 11104,
-      "total_flos": 2.2405705733792072e+18,
-      "train_loss": 0.8767006197992594,
-      "train_runtime": 37037.5595,
-      "train_samples_per_second": 43.199,
-      "train_steps_per_second": 0.3
     }
   ],
   "logging_steps": 500,
-  "max_steps": 11104,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 16,
   "save_steps": 500,
-  "total_flos": 2.2405705733792072e+18,
   "train_batch_size": 24,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 19.99640028797696,
   "eval_steps": 500,
+  "global_step": 13880,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 11000
     },
     {
+      "epoch": 16.0,
+      "eval_f1": 0.9133,
+      "eval_gen_len": 26.034545454545455,
+      "eval_loss": 1.4474281072616577,
+      "eval_precision": 0.9131,
+      "eval_recall": 0.9139,
+      "eval_rouge1": 0.4942,
+      "eval_rouge2": 0.2456,
+      "eval_rougeL": 0.4133,
+      "eval_rougeLsum": 0.4134,
+      "eval_runtime": 875.1275,
+      "eval_samples_per_second": 6.285,
+      "eval_steps_per_second": 0.393,
+      "step": 11104
+    },
+    {
+      "epoch": 16.57,
+      "learning_rate": 3.4293948126801158e-06,
+      "loss": 1.4441,
+      "step": 11500
+    },
+    {
+      "epoch": 17.0,
       "eval_f1": 0.9134,
+      "eval_gen_len": 25.939090909090908,
+      "eval_loss": 1.4446682929992676,
       "eval_precision": 0.9133,
       "eval_recall": 0.9138,
+      "eval_rouge1": 0.4945,
+      "eval_rouge2": 0.2457,
+      "eval_rougeL": 0.4139,
+      "eval_rougeLsum": 0.414,
+      "eval_runtime": 853.4658,
+      "eval_samples_per_second": 6.444,
+      "eval_steps_per_second": 0.403,
+      "step": 11799
+    },
+    {
+      "epoch": 17.29,
+      "learning_rate": 2.708933717579251e-06,
+      "loss": 1.444,
+      "step": 12000
+    },
+    {
+      "epoch": 18.0,
+      "eval_f1": 0.9135,
+      "eval_gen_len": 26.010727272727273,
+      "eval_loss": 1.4445807933807373,
+      "eval_precision": 0.9133,
+      "eval_recall": 0.9141,
+      "eval_rouge1": 0.4957,
+      "eval_rouge2": 0.2473,
+      "eval_rougeL": 0.415,
+      "eval_rougeLsum": 0.4151,
+      "eval_runtime": 869.7396,
+      "eval_samples_per_second": 6.324,
+      "eval_steps_per_second": 0.396,
+      "step": 12493
+    },
+    {
+      "epoch": 18.01,
+      "learning_rate": 1.988472622478386e-06,
+      "loss": 1.4378,
+      "step": 12500
+    },
+    {
+      "epoch": 18.73,
+      "learning_rate": 1.2680115273775217e-06,
+      "loss": 1.4375,
+      "step": 13000
+    },
+    {
+      "epoch": 19.0,
+      "eval_f1": 0.9136,
+      "eval_gen_len": 25.88690909090909,
+      "eval_loss": 1.4433233737945557,
+      "eval_precision": 0.9136,
+      "eval_recall": 0.914,
+      "eval_rouge1": 0.4961,
+      "eval_rouge2": 0.2473,
+      "eval_rougeL": 0.4153,
+      "eval_rougeLsum": 0.4153,
+      "eval_runtime": 854.4011,
+      "eval_samples_per_second": 6.437,
+      "eval_steps_per_second": 0.403,
+      "step": 13188
+    },
+    {
+      "epoch": 19.45,
+      "learning_rate": 5.475504322766571e-07,
+      "loss": 1.4361,
+      "step": 13500
+    },
+    {
+      "epoch": 20.0,
+      "eval_f1": 0.9137,
+      "eval_gen_len": 25.862909090909092,
+      "eval_loss": 1.4432713985443115,
+      "eval_precision": 0.9136,
+      "eval_recall": 0.914,
+      "eval_rouge1": 0.4961,
+      "eval_rouge2": 0.2476,
+      "eval_rougeL": 0.4155,
+      "eval_rougeLsum": 0.4154,
+      "eval_runtime": 863.7254,
+      "eval_samples_per_second": 6.368,
       "eval_steps_per_second": 0.398,
+      "step": 13880
     },
     {
+      "epoch": 20.0,
+      "step": 13880,
+      "total_flos": 2.818047373345161e+18,
+      "train_loss": 0.2986434628709249,
+      "train_runtime": 16684.611,
+      "train_samples_per_second": 119.871,
+      "train_steps_per_second": 0.832
     }
   ],
   "logging_steps": 500,
+  "max_steps": 13880,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
   "save_steps": 500,
+  "total_flos": 2.818047373345161e+18,
   "train_batch_size": 24,
   "trial_name": null,
   "trial_params": null