End of training

Browse files

Files changed (5) hide show

all_results.json +12 -12
eval_results.json +6 -6
predict_results.txt +0 -0
train_results.json +7 -7
trainer_state.json +169 -54

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 5.0,
-    "eval_accuracy": 0.7108753315649867,
-    "eval_loss": 1.1812396049499512,
-    "eval_runtime": 5.9051,
     "eval_samples": 377,
-    "eval_samples_per_second": 63.844,
-    "eval_steps_per_second": 8.129,
-    "total_flos": 2285918447616000.0,
-    "train_loss": 1.2526328404744467,
-    "train_runtime": 557.6223,
-    "train_samples": 3450,
-    "train_samples_per_second": 30.935,
-    "train_steps_per_second": 0.968
 }

 {
+    "epoch": 9.991589571068124,
+    "eval_accuracy": 0.7294429708222812,
+    "eval_loss": 0.7049754858016968,
+    "eval_runtime": 5.8794,
     "eval_samples": 377,
+    "eval_samples_per_second": 64.122,
+    "eval_steps_per_second": 8.164,
+    "total_flos": 2.518883353755648e+16,
+    "train_loss": 1.114941159643308,
+    "train_runtime": 5818.2377,
+    "train_samples": 19024,
+    "train_samples_per_second": 32.697,
+    "train_steps_per_second": 1.021
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 5.0,
-    "eval_accuracy": 0.7108753315649867,
-    "eval_loss": 1.1812396049499512,
-    "eval_runtime": 5.9051,
     "eval_samples": 377,
-    "eval_samples_per_second": 63.844,
-    "eval_steps_per_second": 8.129
 }

 {
+    "epoch": 9.991589571068124,
+    "eval_accuracy": 0.7294429708222812,
+    "eval_loss": 0.7049754858016968,
+    "eval_runtime": 5.8794,
     "eval_samples": 377,
+    "eval_samples_per_second": 64.122,
+    "eval_steps_per_second": 8.164
 }

predict_results.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 5.0,
-    "total_flos": 2285918447616000.0,
-    "train_loss": 1.2526328404744467,
-    "train_runtime": 557.6223,
-    "train_samples": 3450,
-    "train_samples_per_second": 30.935,
-    "train_steps_per_second": 0.968
 }

 {
+    "epoch": 9.991589571068124,
+    "total_flos": 2.518883353755648e+16,
+    "train_loss": 1.114941159643308,
+    "train_runtime": 5818.2377,
+    "train_samples": 19024,
+    "train_samples_per_second": 32.697,
+    "train_steps_per_second": 1.021
 }

trainer_state.json CHANGED Viewed

@@ -1,79 +1,194 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.0,
   "eval_steps": 500,
-  "global_step": 540,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.6472148541114059,
-      "eval_loss": 1.6224454641342163,
-      "eval_runtime": 5.881,
-      "eval_samples_per_second": 64.105,
-      "eval_steps_per_second": 8.162,
-      "step": 108
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.6604774535809018,
-      "eval_loss": 1.332472801208496,
-      "eval_runtime": 5.9014,
-      "eval_samples_per_second": 63.884,
-      "eval_steps_per_second": 8.134,
-      "step": 216
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.6923076923076923,
-      "eval_loss": 1.231541633605957,
-      "eval_runtime": 5.9048,
-      "eval_samples_per_second": 63.846,
-      "eval_steps_per_second": 8.129,
-      "step": 324
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.7108753315649867,
-      "eval_loss": 1.1934351921081543,
-      "eval_runtime": 5.899,
-      "eval_samples_per_second": 63.909,
-      "eval_steps_per_second": 8.137,
-      "step": 432
-    },
-    {
-      "epoch": 4.62962962962963,
-      "grad_norm": 7.095102787017822,
-      "learning_rate": 2.222222222222222e-06,
-      "loss": 1.2712,
-      "step": 500
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy": 0.7108753315649867,
-      "eval_loss": 1.1812396049499512,
-      "eval_runtime": 5.917,
-      "eval_samples_per_second": 63.715,
-      "eval_steps_per_second": 8.112,
-      "step": 540
     },
     {
-      "epoch": 5.0,
-      "step": 540,
-      "total_flos": 2285918447616000.0,
-      "train_loss": 1.2526328404744467,
-      "train_runtime": 557.6223,
-      "train_samples_per_second": 30.935,
-      "train_steps_per_second": 0.968
     }
   ],
   "logging_steps": 500,
-  "max_steps": 540,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -81,13 +196,13 @@
         "should_epoch_stop": false,
         "should_evaluate": false,
         "should_log": false,
-        "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 2285918447616000.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.991589571068124,
   "eval_steps": 500,
+  "global_step": 5940,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.8410428931875525,
+      "grad_norm": 3.157212972640991,
+      "learning_rate": 9.15824915824916e-05,
+      "loss": 1.7278,
+      "step": 500
+    },
+    {
+      "epoch": 0.9991589571068125,
+      "eval_accuracy": 0.5517241379310345,
+      "eval_loss": 1.2574303150177002,
+      "eval_runtime": 5.9277,
+      "eval_samples_per_second": 63.6,
+      "eval_steps_per_second": 8.098,
+      "step": 594
+    },
+    {
+      "epoch": 1.682085786375105,
+      "grad_norm": 1.998612880706787,
+      "learning_rate": 8.316498316498317e-05,
+      "loss": 1.3236,
+      "step": 1000
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6392572944297082,
+      "eval_loss": 0.9894065856933594,
+      "eval_runtime": 5.8845,
+      "eval_samples_per_second": 64.067,
+      "eval_steps_per_second": 8.157,
+      "step": 1189
+    },
+    {
+      "epoch": 2.5231286795626575,
+      "grad_norm": 1.9598954916000366,
+      "learning_rate": 7.474747474747475e-05,
+      "loss": 1.1827,
+      "step": 1500
+    },
+    {
+      "epoch": 2.9991589571068125,
+      "eval_accuracy": 0.6896551724137931,
+      "eval_loss": 0.8649284839630127,
+      "eval_runtime": 5.8972,
+      "eval_samples_per_second": 63.929,
+      "eval_steps_per_second": 8.139,
+      "step": 1783
     },
     {
+      "epoch": 3.36417157275021,
+      "grad_norm": 2.8274946212768555,
+      "learning_rate": 6.632996632996633e-05,
+      "loss": 1.1147,
+      "step": 2000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.6896551724137931,
+      "eval_loss": 0.859340488910675,
+      "eval_runtime": 5.894,
+      "eval_samples_per_second": 63.964,
+      "eval_steps_per_second": 8.144,
+      "step": 2378
+    },
+    {
+      "epoch": 4.205214465937763,
+      "grad_norm": 2.467745542526245,
+      "learning_rate": 5.7912457912457915e-05,
+      "loss": 1.0552,
+      "step": 2500
+    },
+    {
+      "epoch": 4.999158957106813,
+      "eval_accuracy": 0.6976127320954907,
+      "eval_loss": 0.774470865726471,
+      "eval_runtime": 5.9015,
+      "eval_samples_per_second": 63.882,
+      "eval_steps_per_second": 8.134,
+      "step": 2972
+    },
+    {
+      "epoch": 5.046257359125315,
+      "grad_norm": 3.3015456199645996,
+      "learning_rate": 4.94949494949495e-05,
+      "loss": 1.0474,
+      "step": 3000
+    },
+    {
+      "epoch": 5.887300252312868,
+      "grad_norm": 2.705965995788574,
+      "learning_rate": 4.1077441077441085e-05,
+      "loss": 1.0143,
+      "step": 3500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.713527851458886,
+      "eval_loss": 0.7180978655815125,
+      "eval_runtime": 5.9009,
+      "eval_samples_per_second": 63.889,
+      "eval_steps_per_second": 8.134,
+      "step": 3567
+    },
+    {
+      "epoch": 6.72834314550042,
+      "grad_norm": 1.9816116094589233,
+      "learning_rate": 3.265993265993266e-05,
+      "loss": 0.9872,
+      "step": 4000
+    },
+    {
+      "epoch": 6.999158957106813,
+      "eval_accuracy": 0.7506631299734748,
+      "eval_loss": 0.7037277221679688,
+      "eval_runtime": 5.9082,
+      "eval_samples_per_second": 63.81,
+      "eval_steps_per_second": 8.124,
+      "step": 4161
+    },
+    {
+      "epoch": 7.569386038687973,
+      "grad_norm": 2.6848223209381104,
+      "learning_rate": 2.4242424242424244e-05,
+      "loss": 1.002,
+      "step": 4500
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7347480106100795,
+      "eval_loss": 0.7111003398895264,
+      "eval_runtime": 5.9138,
+      "eval_samples_per_second": 63.749,
+      "eval_steps_per_second": 8.117,
+      "step": 4756
+    },
+    {
+      "epoch": 8.410428931875526,
+      "grad_norm": 2.5223660469055176,
+      "learning_rate": 1.5824915824915825e-05,
+      "loss": 0.9816,
+      "step": 5000
+    },
+    {
+      "epoch": 8.999158957106813,
+      "eval_accuracy": 0.7241379310344828,
+      "eval_loss": 0.6930974125862122,
+      "eval_runtime": 5.8939,
+      "eval_samples_per_second": 63.965,
+      "eval_steps_per_second": 8.144,
+      "step": 5350
+    },
+    {
+      "epoch": 9.251471825063078,
+      "grad_norm": 2.612992286682129,
+      "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.9602,
+      "step": 5500
     },
     {
+      "epoch": 9.991589571068124,
+      "eval_accuracy": 0.7294429708222812,
+      "eval_loss": 0.7049754858016968,
+      "eval_runtime": 5.8891,
+      "eval_samples_per_second": 64.017,
+      "eval_steps_per_second": 8.151,
+      "step": 5940
     },
     {
+      "epoch": 9.991589571068124,
+      "step": 5940,
+      "total_flos": 2.518883353755648e+16,
+      "train_loss": 1.114941159643308,
+      "train_runtime": 5818.2377,
+      "train_samples_per_second": 32.697,
+      "train_steps_per_second": 1.021
     }
   ],
   "logging_steps": 500,
+  "max_steps": 5940,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_epoch_stop": false,
         "should_evaluate": false,
         "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.518883353755648e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null