End of training

Browse files

Files changed (4) hide show

all_results.json +10 -10
eval_results.json +6 -6
train_results.json +4 -4
trainer_state.json +151 -58

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 1.0,
-    "eval_accuracy": 0.8760281609284458,
-    "eval_loss": 0.6851363778114319,
-    "eval_runtime": 15.1077,
     "eval_samples": 11583,
-    "eval_samples_per_second": 766.695,
-    "eval_steps_per_second": 23.961,
-    "perplexity": 1.9840423964473037,
-    "train_loss": 0.7258401500793972,
-    "train_runtime": 612.7363,
     "train_samples": 220074,
-    "train_samples_per_second": 359.166,
-    "train_steps_per_second": 11.225
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.8795507387461411,
+    "eval_loss": 0.6747884154319763,
+    "eval_runtime": 14.946,
     "eval_samples": 11583,
+    "eval_samples_per_second": 774.992,
+    "eval_steps_per_second": 6.089,
+    "perplexity": 1.963617460860885,
+    "train_loss": 0.730066760750704,
+    "train_runtime": 657.3049,
     "train_samples": 220074,
+    "train_samples_per_second": 334.813,
+    "train_steps_per_second": 2.617
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 1.0,
-    "eval_accuracy": 0.8760281609284458,
-    "eval_loss": 0.6851363778114319,
-    "eval_runtime": 15.1077,
     "eval_samples": 11583,
-    "eval_samples_per_second": 766.695,
-    "eval_steps_per_second": 23.961,
-    "perplexity": 1.9840423964473037
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.8795507387461411,
+    "eval_loss": 0.6747884154319763,
+    "eval_runtime": 14.946,
     "eval_samples": 11583,
+    "eval_samples_per_second": 774.992,
+    "eval_steps_per_second": 6.089,
+    "perplexity": 1.963617460860885
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.7258401500793972,
-    "train_runtime": 612.7363,
     "train_samples": 220074,
-    "train_samples_per_second": 359.166,
-    "train_steps_per_second": 11.225
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.730066760750704,
+    "train_runtime": 657.3049,
     "train_samples": 220074,
+    "train_samples_per_second": 334.813,
+    "train_steps_per_second": 2.617
 }

trainer_state.json CHANGED Viewed

@@ -2,102 +2,195 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 1.0,
-  "global_step": 6878,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.07,
-      "learning_rate": 4.636522244838616e-05,
-      "loss": 0.8273,
-      "step": 500
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 4.273044489677232e-05,
-      "loss": 0.7505,
-      "step": 1000
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 3.9095667345158474e-05,
-      "loss": 0.7387,
-      "step": 1500
     },
     {
       "epoch": 0.29,
-      "learning_rate": 3.546088979354464e-05,
-      "loss": 0.7288,
-      "step": 2000
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 3.1826112241930793e-05,
-      "loss": 0.7288,
-      "step": 2500
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 2.8191334690316956e-05,
-      "loss": 0.7138,
-      "step": 3000
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 2.4556557138703113e-05,
-      "loss": 0.7155,
-      "step": 3500
     },
     {
       "epoch": 0.58,
-      "learning_rate": 2.0921779587089272e-05,
-      "loss": 0.7102,
-      "step": 4000
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 1.728700203547543e-05,
-      "loss": 0.7133,
-      "step": 4500
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 1.365222448386159e-05,
-      "loss": 0.7119,
-      "step": 5000
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 1.0017446932247747e-05,
-      "loss": 0.7091,
-      "step": 5500
     },
     {
       "epoch": 0.87,
-      "learning_rate": 6.382669380633906e-06,
-      "loss": 0.7014,
-      "step": 6000
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 2.747891829020064e-06,
-      "loss": 0.7087,
-      "step": 6500
     },
     {
       "epoch": 1.0,
-      "step": 6878,
-      "total_flos": 1.3252899316432896e+16,
-      "train_loss": 0.7258401500793972,
-      "train_runtime": 612.7363,
-      "train_samples_per_second": 359.166,
-      "train_steps_per_second": 11.225
     }
   ],
-  "max_steps": 6878,
   "num_train_epochs": 1,
-  "total_flos": 1.3252899316432896e+16,
   "trial_name": null,
   "trial_params": null
 }

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 1.0,
+  "global_step": 1720,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.06,
+      "eval_accuracy": 0.8732394680670543,
+      "eval_loss": 0.7285259366035461,
+      "eval_runtime": 14.7926,
+      "eval_samples_per_second": 783.026,
+      "eval_steps_per_second": 6.152,
+      "step": 100
     },
     {
+      "epoch": 0.12,
+      "eval_accuracy": 0.8747227655273633,
+      "eval_loss": 0.7140512466430664,
+      "eval_runtime": 14.7732,
+      "eval_samples_per_second": 784.057,
+      "eval_steps_per_second": 6.16,
+      "step": 200
     },
     {
+      "epoch": 0.17,
+      "eval_accuracy": 0.8756672233683728,
+      "eval_loss": 0.7055667638778687,
+      "eval_runtime": 14.8094,
+      "eval_samples_per_second": 782.138,
+      "eval_steps_per_second": 6.145,
+      "step": 300
+    },
+    {
+      "epoch": 0.23,
+      "eval_accuracy": 0.8763824510950948,
+      "eval_loss": 0.6991910934448242,
+      "eval_runtime": 14.8106,
+      "eval_samples_per_second": 782.075,
+      "eval_steps_per_second": 6.144,
+      "step": 400
     },
     {
       "epoch": 0.29,
+      "learning_rate": 3.5465116279069774e-05,
+      "loss": 0.7907,
+      "step": 500
+    },
+    {
+      "epoch": 0.29,
+      "eval_accuracy": 0.8771028885971415,
+      "eval_loss": 0.6942312121391296,
+      "eval_runtime": 14.8425,
+      "eval_samples_per_second": 780.393,
+      "eval_steps_per_second": 6.131,
+      "step": 500
+    },
+    {
+      "epoch": 0.35,
+      "eval_accuracy": 0.877665544332211,
+      "eval_loss": 0.6905708909034729,
+      "eval_runtime": 14.8552,
+      "eval_samples_per_second": 779.725,
+      "eval_steps_per_second": 6.126,
+      "step": 600
+    },
+    {
+      "epoch": 0.41,
+      "eval_accuracy": 0.8779126365333262,
+      "eval_loss": 0.6872847676277161,
+      "eval_runtime": 14.7951,
+      "eval_samples_per_second": 782.894,
+      "eval_steps_per_second": 6.151,
+      "step": 700
     },
     {
+      "epoch": 0.47,
+      "eval_accuracy": 0.8782155477557776,
+      "eval_loss": 0.6847825646400452,
+      "eval_runtime": 13.7809,
+      "eval_samples_per_second": 840.512,
+      "eval_steps_per_second": 6.603,
+      "step": 800
     },
     {
+      "epoch": 0.52,
+      "eval_accuracy": 0.8785906515791573,
+      "eval_loss": 0.6830095648765564,
+      "eval_runtime": 14.7951,
+      "eval_samples_per_second": 782.896,
+      "eval_steps_per_second": 6.151,
+      "step": 900
     },
     {
+      "epoch": 0.58,
+      "learning_rate": 2.0930232558139536e-05,
+      "loss": 0.7105,
+      "step": 1000
     },
     {
       "epoch": 0.58,
+      "eval_accuracy": 0.8788102063964133,
+      "eval_loss": 0.6808722019195557,
+      "eval_runtime": 14.8083,
+      "eval_samples_per_second": 782.197,
+      "eval_steps_per_second": 6.145,
+      "step": 1000
     },
     {
+      "epoch": 0.64,
+      "eval_accuracy": 0.878962034134448,
+      "eval_loss": 0.6793943643569946,
+      "eval_runtime": 14.7885,
+      "eval_samples_per_second": 783.243,
+      "eval_steps_per_second": 6.153,
+      "step": 1100
     },
     {
+      "epoch": 0.7,
+      "eval_accuracy": 0.8791533073142268,
+      "eval_loss": 0.6780144572257996,
+      "eval_runtime": 13.7848,
+      "eval_samples_per_second": 840.275,
+      "eval_steps_per_second": 6.601,
+      "step": 1200
     },
     {
+      "epoch": 0.76,
+      "eval_accuracy": 0.8792887614726695,
+      "eval_loss": 0.6770240068435669,
+      "eval_runtime": 14.7863,
+      "eval_samples_per_second": 783.358,
+      "eval_steps_per_second": 6.154,
+      "step": 1300
+    },
+    {
+      "epoch": 0.81,
+      "eval_accuracy": 0.8794212386166409,
+      "eval_loss": 0.6760326027870178,
+      "eval_runtime": 14.785,
+      "eval_samples_per_second": 783.432,
+      "eval_steps_per_second": 6.155,
+      "step": 1400
     },
     {
       "epoch": 0.87,
+      "learning_rate": 6.395348837209303e-06,
+      "loss": 0.7034,
+      "step": 1500
+    },
+    {
+      "epoch": 0.87,
+      "eval_accuracy": 0.8794353794353794,
+      "eval_loss": 0.6754602789878845,
+      "eval_runtime": 14.7978,
+      "eval_samples_per_second": 782.753,
+      "eval_steps_per_second": 6.15,
+      "step": 1500
+    },
+    {
+      "epoch": 0.93,
+      "eval_accuracy": 0.8795403191954916,
+      "eval_loss": 0.6750109195709229,
+      "eval_runtime": 14.7942,
+      "eval_samples_per_second": 782.943,
+      "eval_steps_per_second": 6.151,
+      "step": 1600
     },
     {
+      "epoch": 0.99,
+      "eval_accuracy": 0.8795477617316698,
+      "eval_loss": 0.6747931838035583,
+      "eval_runtime": 14.8037,
+      "eval_samples_per_second": 782.441,
+      "eval_steps_per_second": 6.147,
+      "step": 1700
     },
     {
       "epoch": 1.0,
+      "step": 1720,
+      "total_flos": 1.3140586257186816e+16,
+      "train_loss": 0.730066760750704,
+      "train_runtime": 657.3049,
+      "train_samples_per_second": 334.813,
+      "train_steps_per_second": 2.617
     }
   ],
+  "max_steps": 1720,
   "num_train_epochs": 1,
+  "total_flos": 1.3140586257186816e+16,
   "trial_name": null,
   "trial_params": null
 }