End of training

Browse files

Files changed (7) hide show

all_results.json +11 -11
eval_results.json +6 -6
pytorch_model.bin +1 -1
tokenizer.json +0 -0
train_results.json +5 -5
trainer_state.json +370 -88
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 0.7176,
-    "eval_loss": 0.5037732720375061,
-    "eval_runtime": 411.3387,
-    "eval_samples": 2985,
-    "eval_samples_per_second": 7.257,
-    "eval_steps_per_second": 0.455,
-    "train_loss": 0.3559933085336364,
-    "train_runtime": 23567.5036,
-    "train_samples": 25262,
-    "train_samples_per_second": 3.216,
-    "train_steps_per_second": 0.402
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 0.7424,
+    "eval_loss": 0.44141659140586853,
+    "eval_runtime": 57.1961,
+    "eval_samples": 4887,
+    "eval_samples_per_second": 85.443,
+    "eval_steps_per_second": 5.35,
+    "train_loss": 0.35377963603946533,
+    "train_runtime": 9210.1652,
+    "train_samples": 87866,
+    "train_samples_per_second": 28.62,
+    "train_steps_per_second": 3.578
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 0.7176,
-    "eval_loss": 0.5037732720375061,
-    "eval_runtime": 411.3387,
-    "eval_samples": 2985,
-    "eval_samples_per_second": 7.257,
-    "eval_steps_per_second": 0.455
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 0.7424,
+    "eval_loss": 0.44141659140586853,
+    "eval_runtime": 57.1961,
+    "eval_samples": 4887,
+    "eval_samples_per_second": 85.443,
+    "eval_steps_per_second": 5.35
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7222da7fe8d6ab76854bd0a465fd8119132b6de1f105170b51c30cfb021a2f7
 size 891644863

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8970dbc9879cd941712bd5cfba5104dbb7f5422e9c3fb19139e0a949bed7305
 size 891644863

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.3559933085336364,
-    "train_runtime": 23567.5036,
-    "train_samples": 25262,
-    "train_samples_per_second": 3.216,
-    "train_steps_per_second": 0.402
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.35377963603946533,
+    "train_runtime": 9210.1652,
+    "train_samples": 87866,
+    "train_samples_per_second": 28.62,
+    "train_steps_per_second": 3.578
 }

trainer_state.json CHANGED Viewed

@@ -1,160 +1,442 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.9997624891140844,
-  "global_step": 9471,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.16,
-      "learning_rate": 9.573151211183439e-05,
-      "loss": 0.8108,
       "step": 500
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 9.039590225162736e-05,
-      "loss": 0.5534,
       "step": 1000
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 8.506029239142035e-05,
-      "loss": 0.5264,
       "step": 1500
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 7.972468253121332e-05,
-      "loss": 0.4959,
       "step": 2000
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 7.438907267100629e-05,
-      "loss": 0.4691,
       "step": 2500
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 6.905346281079928e-05,
-      "loss": 0.4408,
       "step": 3000
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.6315,
-      "eval_loss": 0.4824552536010742,
-      "eval_runtime": 410.0505,
-      "eval_samples_per_second": 7.28,
-      "eval_steps_per_second": 0.456,
-      "step": 3157
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 6.371785295059226e-05,
-      "loss": 0.3701,
       "step": 3500
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 5.8382243090385235e-05,
-      "loss": 0.3268,
       "step": 4000
     },
     {
-      "epoch": 1.43,
-      "learning_rate": 5.304663323017821e-05,
-      "loss": 0.3306,
       "step": 4500
     },
     {
-      "epoch": 1.58,
-      "learning_rate": 4.771102336997119e-05,
-      "loss": 0.3089,
       "step": 5000
     },
     {
-      "epoch": 1.74,
-      "learning_rate": 4.237541350976417e-05,
-      "loss": 0.3093,
       "step": 5500
     },
     {
-      "epoch": 1.9,
-      "learning_rate": 3.703980364955715e-05,
-      "loss": 0.3166,
       "step": 6000
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7109,
-      "eval_loss": 0.4108223021030426,
-      "eval_runtime": 410.3466,
-      "eval_samples_per_second": 7.274,
-      "eval_steps_per_second": 0.456,
-      "step": 6314
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 3.170419378935012e-05,
-      "loss": 0.2607,
       "step": 6500
     },
     {
-      "epoch": 2.22,
-      "learning_rate": 2.6368583929143105e-05,
-      "loss": 0.2,
       "step": 7000
     },
     {
-      "epoch": 2.38,
-      "learning_rate": 2.103297406893608e-05,
-      "loss": 0.2185,
       "step": 7500
     },
     {
-      "epoch": 2.53,
-      "learning_rate": 1.569736420872906e-05,
-      "loss": 0.2082,
       "step": 8000
     },
     {
-      "epoch": 2.69,
-      "learning_rate": 1.0361754348522035e-05,
-      "loss": 0.2113,
       "step": 8500
     },
     {
-      "epoch": 2.85,
-      "learning_rate": 5.026144488315015e-06,
-      "loss": 0.2,
       "step": 9000
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.7176,
-      "eval_loss": 0.5037732720375061,
-      "eval_runtime": 410.0834,
-      "eval_samples_per_second": 7.279,
-      "eval_steps_per_second": 0.456,
-      "step": 9471
     },
     {
       "epoch": 3.0,
-      "step": 9471,
-      "total_flos": 4.61468289466368e+16,
-      "train_loss": 0.3559933085336364,
-      "train_runtime": 23567.5036,
-      "train_samples_per_second": 3.216,
-      "train_steps_per_second": 0.402
     }
   ],
-  "max_steps": 9471,
   "num_train_epochs": 3,
-  "total_flos": 4.61468289466368e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "global_step": 32952,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.05,
+      "learning_rate": 9.878241811761841e-05,
+      "loss": 0.8515,
       "step": 500
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 9.726044076464142e-05,
+      "loss": 0.6069,
       "step": 1000
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 9.573846341166444e-05,
+      "loss": 0.5641,
       "step": 1500
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 9.421648605868745e-05,
+      "loss": 0.5586,
       "step": 2000
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 9.269450870571045e-05,
+      "loss": 0.5239,
       "step": 2500
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 9.117253135273349e-05,
+      "loss": 0.508,
       "step": 3000
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 8.96505539997565e-05,
+      "loss": 0.5077,
       "step": 3500
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 8.81285766467795e-05,
+      "loss": 0.5063,
       "step": 4000
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 8.660659929380252e-05,
+      "loss": 0.4774,
       "step": 4500
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 8.508462194082553e-05,
+      "loss": 0.4782,
       "step": 5000
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 8.356264458784853e-05,
+      "loss": 0.4743,
       "step": 5500
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 8.204066723487156e-05,
+      "loss": 0.4735,
       "step": 6000
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 8.051868988189456e-05,
+      "loss": 0.4609,
       "step": 6500
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 7.899671252891757e-05,
+      "loss": 0.448,
       "step": 7000
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 7.747473517594059e-05,
+      "loss": 0.4652,
       "step": 7500
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 7.59527578229636e-05,
+      "loss": 0.4387,
       "step": 8000
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 7.44307804699866e-05,
+      "loss": 0.4547,
       "step": 8500
     },
     {
+      "epoch": 0.82,
+      "learning_rate": 7.290880311700962e-05,
+      "loss": 0.4391,
       "step": 9000
     },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.138682576403264e-05,
+      "loss": 0.4377,
+      "step": 9500
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 6.986484841105565e-05,
+      "loss": 0.4415,
+      "step": 10000
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 6.834287105807866e-05,
+      "loss": 0.4355,
+      "step": 10500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7072,
+      "eval_loss": 0.3910021185874939,
+      "eval_runtime": 57.1361,
+      "eval_samples_per_second": 85.533,
+      "eval_steps_per_second": 5.356,
+      "step": 10984
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 6.682089370510168e-05,
+      "loss": 0.4319,
+      "step": 11000
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 6.529891635212468e-05,
+      "loss": 0.3413,
+      "step": 11500
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 6.377693899914769e-05,
+      "loss": 0.3365,
+      "step": 12000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 6.225496164617071e-05,
+      "loss": 0.3261,
+      "step": 12500
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 6.073298429319372e-05,
+      "loss": 0.3228,
+      "step": 13000
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 5.921100694021673e-05,
+      "loss": 0.3396,
+      "step": 13500
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 5.768902958723974e-05,
+      "loss": 0.3431,
+      "step": 14000
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 5.616705223426275e-05,
+      "loss": 0.3318,
+      "step": 14500
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 5.464507488128577e-05,
+      "loss": 0.3363,
+      "step": 15000
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 5.3123097528308786e-05,
+      "loss": 0.3303,
+      "step": 15500
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 5.16011201753318e-05,
+      "loss": 0.3295,
+      "step": 16000
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 5.0079142822354806e-05,
+      "loss": 0.3304,
+      "step": 16500
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 4.855716546937782e-05,
+      "loss": 0.342,
+      "step": 17000
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 4.703518811640083e-05,
+      "loss": 0.3274,
+      "step": 17500
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 4.551321076342384e-05,
+      "loss": 0.3242,
+      "step": 18000
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 4.3991233410446854e-05,
+      "loss": 0.3311,
+      "step": 18500
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 4.246925605746987e-05,
+      "loss": 0.3424,
+      "step": 19000
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 4.094727870449288e-05,
+      "loss": 0.3192,
+      "step": 19500
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 3.9425301351515894e-05,
+      "loss": 0.3151,
+      "step": 20000
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 3.79033239985389e-05,
+      "loss": 0.323,
+      "step": 20500
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 3.6381346645561915e-05,
+      "loss": 0.334,
+      "step": 21000
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 3.485936929258493e-05,
+      "loss": 0.3233,
+      "step": 21500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7321,
+      "eval_loss": 0.38333889842033386,
+      "eval_runtime": 57.0615,
+      "eval_samples_per_second": 85.644,
+      "eval_steps_per_second": 5.363,
+      "step": 21968
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 3.333739193960794e-05,
+      "loss": 0.3239,
+      "step": 22000
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 3.1815414586630955e-05,
+      "loss": 0.2248,
+      "step": 22500
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 3.0293437233653966e-05,
+      "loss": 0.2207,
+      "step": 23000
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 2.8771459880676976e-05,
+      "loss": 0.2394,
+      "step": 23500
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 2.724948252769999e-05,
+      "loss": 0.2378,
+      "step": 24000
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 2.5727505174723e-05,
+      "loss": 0.2318,
+      "step": 24500
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 2.4205527821746013e-05,
+      "loss": 0.2357,
+      "step": 25000
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 2.2683550468769027e-05,
+      "loss": 0.2325,
+      "step": 25500
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 2.1161573115792037e-05,
+      "loss": 0.2309,
+      "step": 26000
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 1.963959576281505e-05,
+      "loss": 0.2416,
+      "step": 26500
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 1.8117618409838064e-05,
+      "loss": 0.2287,
+      "step": 27000
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 1.6595641056861074e-05,
+      "loss": 0.2385,
+      "step": 27500
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 1.5073663703884086e-05,
+      "loss": 0.2336,
+      "step": 28000
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 1.35516863509071e-05,
+      "loss": 0.2252,
+      "step": 28500
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 1.2029708997930111e-05,
+      "loss": 0.2329,
+      "step": 29000
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 1.0507731644953125e-05,
+      "loss": 0.2214,
+      "step": 29500
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 8.985754291976135e-06,
+      "loss": 0.2335,
+      "step": 30000
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 7.463776938999148e-06,
+      "loss": 0.219,
+      "step": 30500
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 5.94179958602216e-06,
+      "loss": 0.2252,
+      "step": 31000
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 4.419822233045172e-06,
+      "loss": 0.2381,
+      "step": 31500
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 2.8978448800681847e-06,
+      "loss": 0.2359,
+      "step": 32000
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 1.375867527091197e-06,
+      "loss": 0.229,
+      "step": 32500
+    },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.7424,
+      "eval_loss": 0.44141659140586853,
+      "eval_runtime": 57.0579,
+      "eval_samples_per_second": 85.65,
+      "eval_steps_per_second": 5.363,
+      "step": 32952
     },
     {
       "epoch": 3.0,
+      "step": 32952,
+      "total_flos": 1.6052008203583488e+17,
+      "train_loss": 0.35377963603946533,
+      "train_runtime": 9210.1652,
+      "train_samples_per_second": 28.62,
+      "train_steps_per_second": 3.578
     }
   ],
+  "max_steps": 32952,
   "num_train_epochs": 3,
+  "total_flos": 1.6052008203583488e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4dc0e5c1c82bbdb7be543c100fafe27f15d16797ed1d6e177e3071150eb28048
 size 2927

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6d16380302cbd0224b44f153c64112de5d9a742244076fbb99e683fd78d985d
 size 2927