GlycerinLOL
/

LLM_Teached_Pegasus_50k

@@ -1,7 +1,7 @@
 {
-    "epoch": 5.99,
-    "train_loss": 0.646622069269164,
-    "train_runtime": 5096.5205,
-    "train_samples_per_second": 58.864,
-    "train_steps_per_second": 0.459
 }

 {
+    "epoch": 7.99,
+    "train_loss": 0.637062493348733,
+    "train_runtime": 6322.7563,
+    "train_samples_per_second": 63.264,
+    "train_steps_per_second": 0.493
 }

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 5.99,
-    "train_loss": 0.646622069269164,
-    "train_runtime": 5096.5205,
-    "train_samples_per_second": 58.864,
-    "train_steps_per_second": 0.459
 }

 {
+    "epoch": 7.99,
+    "train_loss": 0.637062493348733,
+    "train_runtime": 6322.7563,
+    "train_samples_per_second": 63.264,
+    "train_steps_per_second": 0.493
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.994241842610364,
   "eval_steps": 500,
-  "global_step": 2340,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -113,37 +113,81 @@
       "step": 2000
     },
     {
-      "epoch": 5.99,
-      "eval_f1": 0.9076,
-      "eval_gen_len": 26.337818181818182,
-      "eval_loss": 1.6991122961044312,
-      "eval_precision": 0.909,
-      "eval_recall": 0.9067,
-      "eval_rouge1": 0.4572,
-      "eval_rouge2": 0.2103,
-      "eval_rougeL": 0.3743,
-      "eval_rougeLsum": 0.3742,
-      "eval_runtime": 504.0406,
-      "eval_samples_per_second": 5.456,
-      "eval_steps_per_second": 0.341,
       "step": 2340
     },
     {
-      "epoch": 5.99,
-      "step": 2340,
-      "total_flos": 4.3261061209522176e+17,
-      "train_loss": 0.646622069269164,
-      "train_runtime": 5096.5205,
-      "train_samples_per_second": 58.864,
-      "train_steps_per_second": 0.459
     }
   ],
   "logging_steps": 500,
-  "max_steps": 2340,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 6,
   "save_steps": 500,
-  "total_flos": 4.3261061209522176e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.994241842610364,
   "eval_steps": 500,
+  "global_step": 3120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 2000
     },
     {
+      "epoch": 6.0,
+      "eval_f1": 0.9077,
+      "eval_gen_len": 26.438909090909092,
+      "eval_loss": 1.6896997690200806,
+      "eval_precision": 0.9089,
+      "eval_recall": 0.9069,
+      "eval_rouge1": 0.4592,
+      "eval_rouge2": 0.2114,
+      "eval_rougeL": 0.3762,
+      "eval_rougeLsum": 0.3759,
+      "eval_runtime": 506.0324,
+      "eval_samples_per_second": 5.434,
+      "eval_steps_per_second": 0.34,
       "step": 2340
     },
     {
+      "epoch": 6.41,
+      "learning_rate": 3.974358974358974e-06,
+      "loss": 1.7833,
+      "step": 2500
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1": 0.9079,
+      "eval_gen_len": 26.374545454545455,
+      "eval_loss": 1.6819266080856323,
+      "eval_precision": 0.9092,
+      "eval_recall": 0.9071,
+      "eval_rouge1": 0.4598,
+      "eval_rouge2": 0.2115,
+      "eval_rougeL": 0.3764,
+      "eval_rougeLsum": 0.376,
+      "eval_runtime": 506.9661,
+      "eval_samples_per_second": 5.424,
+      "eval_steps_per_second": 0.339,
+      "step": 2731
+    },
+    {
+      "epoch": 7.69,
+      "learning_rate": 7.692307692307694e-07,
+      "loss": 1.7683,
+      "step": 3000
+    },
+    {
+      "epoch": 7.99,
+      "eval_f1": 0.9081,
+      "eval_gen_len": 26.465454545454545,
+      "eval_loss": 1.6796071529388428,
+      "eval_precision": 0.9092,
+      "eval_recall": 0.9073,
+      "eval_rouge1": 0.4613,
+      "eval_rouge2": 0.2127,
+      "eval_rougeL": 0.3775,
+      "eval_rougeLsum": 0.3772,
+      "eval_runtime": 504.4764,
+      "eval_samples_per_second": 5.451,
+      "eval_steps_per_second": 0.341,
+      "step": 3120
+    },
+    {
+      "epoch": 7.99,
+      "step": 3120,
+      "total_flos": 5.768064442218578e+17,
+      "train_loss": 0.637062493348733,
+      "train_runtime": 6322.7563,
+      "train_samples_per_second": 63.264,
+      "train_steps_per_second": 0.493
     }
   ],
   "logging_steps": 500,
+  "max_steps": 3120,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
   "save_steps": 500,
+  "total_flos": 5.768064442218578e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null