Upload 8 files

Browse files

Files changed (6) hide show

all_results.json +11 -11
eval_results.json +6 -6
model.safetensors +1 -1
train_results.json +6 -6
trainer_state.json +318 -1390
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 96.20253164556962,
-    "eval_accuracy": 0.8746031746031746,
-    "eval_loss": 0.5267017483711243,
-    "eval_runtime": 10.7929,
-    "eval_samples_per_second": 116.743,
-    "eval_steps_per_second": 0.927,
-    "total_flos": 7.515490775048022e+19,
-    "train_loss": 0.33647052476280614,
-    "train_runtime": 20573.1873,
-    "train_samples_per_second": 48.996,
-    "train_steps_per_second": 0.092
 }

 {
+    "epoch": 29.620253164556964,
+    "eval_accuracy": 0.8714285714285714,
+    "eval_loss": 0.4378375709056854,
+    "eval_runtime": 10.2444,
+    "eval_samples_per_second": 122.994,
+    "eval_steps_per_second": 1.952,
+    "total_flos": 2.3141184141358596e+19,
+    "train_loss": 0.5155148339067769,
+    "train_runtime": 6443.0087,
+    "train_samples_per_second": 46.935,
+    "train_steps_per_second": 0.182
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 96.20253164556962,
-    "eval_accuracy": 0.8746031746031746,
-    "eval_loss": 0.5267017483711243,
-    "eval_runtime": 10.7929,
-    "eval_samples_per_second": 116.743,
-    "eval_steps_per_second": 0.927
 }

 {
+    "epoch": 29.620253164556964,
+    "eval_accuracy": 0.8714285714285714,
+    "eval_loss": 0.4378375709056854,
+    "eval_runtime": 10.2444,
+    "eval_samples_per_second": 122.994,
+    "eval_steps_per_second": 1.952
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff64402a55469a315d1e1c5a2136d2f36fa2972e9e72b454371736d9368e64da
 size 343263964

 version https://git-lfs.github.com/spec/v1
+oid sha256:d008a2f8eaa5b32764dec5152e4060648d52f76f2db6d97f8b401961210f8ee9
 size 343263964

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 96.20253164556962,
-    "total_flos": 7.515490775048022e+19,
-    "train_loss": 0.33647052476280614,
-    "train_runtime": 20573.1873,
-    "train_samples_per_second": 48.996,
-    "train_steps_per_second": 0.092
 }

 {
+    "epoch": 29.620253164556964,
+    "total_flos": 2.3141184141358596e+19,
+    "train_loss": 0.5155148339067769,
+    "train_runtime": 6443.0087,
+    "train_samples_per_second": 46.935,
+    "train_steps_per_second": 0.182
 }

trainer_state.json CHANGED Viewed

@@ -1,1579 +1,507 @@
 {
-  "best_metric": 0.8746031746031746,
-  "best_model_checkpoint": "CP2_HAR_vit-base-patch16-224/checkpoint-1382",
-  "epoch": 96.20253164556962,
   "eval_steps": 500,
-  "global_step": 1900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.9620253164556962,
-      "grad_norm": 2.8217339515686035,
-      "learning_rate": 5e-06,
-      "loss": 2.8429,
-      "step": 19
-    },
-    {
-      "epoch": 0.9620253164556962,
-      "eval_accuracy": 0.16904761904761906,
-      "eval_loss": 2.6474363803863525,
-      "eval_runtime": 10.7675,
-      "eval_samples_per_second": 117.018,
-      "eval_steps_per_second": 0.929,
-      "step": 19
-    },
-    {
-      "epoch": 1.9746835443037973,
-      "grad_norm": 2.534130334854126,
-      "learning_rate": 1.0263157894736843e-05,
-      "loss": 2.5152,
       "step": 39
     },
     {
-      "epoch": 1.9746835443037973,
-      "eval_accuracy": 0.31587301587301586,
-      "eval_loss": 2.342618227005005,
-      "eval_runtime": 10.7708,
-      "eval_samples_per_second": 116.983,
-      "eval_steps_per_second": 0.928,
       "step": 39
     },
     {
-      "epoch": 2.9873417721518987,
-      "grad_norm": 2.3139591217041016,
-      "learning_rate": 1.5526315789473686e-05,
-      "loss": 2.1548,
-      "step": 59
-    },
-    {
-      "epoch": 2.9873417721518987,
-      "eval_accuracy": 0.5626984126984127,
-      "eval_loss": 1.8545457124710083,
-      "eval_runtime": 10.8474,
-      "eval_samples_per_second": 116.157,
-      "eval_steps_per_second": 0.922,
-      "step": 59
-    },
-    {
-      "epoch": 4.0,
-      "grad_norm": 1.9620369672775269,
-      "learning_rate": 2.078947368421053e-05,
-      "loss": 1.6569,
       "step": 79
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7261904761904762,
-      "eval_loss": 1.2644377946853638,
-      "eval_runtime": 10.7977,
-      "eval_samples_per_second": 116.692,
-      "eval_steps_per_second": 0.926,
       "step": 79
     },
     {
-      "epoch": 4.962025316455696,
-      "grad_norm": 1.4392253160476685,
-      "learning_rate": 2.578947368421053e-05,
-      "loss": 1.2393,
-      "step": 98
-    },
-    {
-      "epoch": 4.962025316455696,
-      "eval_accuracy": 0.7714285714285715,
-      "eval_loss": 0.8716472387313843,
-      "eval_runtime": 10.7696,
-      "eval_samples_per_second": 116.996,
-      "eval_steps_per_second": 0.929,
-      "step": 98
-    },
-    {
-      "epoch": 5.974683544303797,
-      "grad_norm": 1.3771088123321533,
-      "learning_rate": 3.105263157894737e-05,
-      "loss": 0.8982,
       "step": 118
     },
     {
-      "epoch": 5.974683544303797,
-      "eval_accuracy": 0.8150793650793651,
-      "eval_loss": 0.6652108430862427,
-      "eval_runtime": 10.7233,
-      "eval_samples_per_second": 117.501,
-      "eval_steps_per_second": 0.933,
       "step": 118
     },
     {
-      "epoch": 6.987341772151899,
-      "grad_norm": 1.6404207944869995,
-      "learning_rate": 3.6315789473684214e-05,
-      "loss": 0.7694,
-      "step": 138
-    },
-    {
-      "epoch": 6.987341772151899,
-      "eval_accuracy": 0.830952380952381,
-      "eval_loss": 0.596939206123352,
-      "eval_runtime": 10.7687,
-      "eval_samples_per_second": 117.006,
-      "eval_steps_per_second": 0.929,
-      "step": 138
-    },
-    {
-      "epoch": 8.0,
-      "grad_norm": 1.4968894720077515,
-      "learning_rate": 4.157894736842106e-05,
-      "loss": 0.6819,
       "step": 158
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.8396825396825397,
-      "eval_loss": 0.5484516620635986,
-      "eval_runtime": 10.8135,
-      "eval_samples_per_second": 116.521,
-      "eval_steps_per_second": 0.925,
       "step": 158
     },
     {
-      "epoch": 8.962025316455696,
-      "grad_norm": 1.414362907409668,
-      "learning_rate": 4.657894736842106e-05,
-      "loss": 0.6628,
-      "step": 177
-    },
-    {
-      "epoch": 8.962025316455696,
-      "eval_accuracy": 0.8476190476190476,
-      "eval_loss": 0.5053515434265137,
-      "eval_runtime": 10.7521,
-      "eval_samples_per_second": 117.186,
-      "eval_steps_per_second": 0.93,
-      "step": 177
-    },
-    {
-      "epoch": 9.974683544303797,
-      "grad_norm": 1.5052249431610107,
-      "learning_rate": 4.97953216374269e-05,
-      "loss": 0.5759,
       "step": 197
     },
     {
-      "epoch": 9.974683544303797,
-      "eval_accuracy": 0.8476190476190476,
-      "eval_loss": 0.5064724683761597,
-      "eval_runtime": 10.8275,
-      "eval_samples_per_second": 116.37,
-      "eval_steps_per_second": 0.924,
       "step": 197
     },
     {
-      "epoch": 10.987341772151899,
-      "grad_norm": 1.4250831604003906,
-      "learning_rate": 4.921052631578947e-05,
-      "loss": 0.5385,
-      "step": 217
-    },
-    {
-      "epoch": 10.987341772151899,
-      "eval_accuracy": 0.8420634920634921,
-      "eval_loss": 0.4821438789367676,
-      "eval_runtime": 10.8099,
-      "eval_samples_per_second": 116.56,
-      "eval_steps_per_second": 0.925,
-      "step": 217
-    },
-    {
-      "epoch": 12.0,
-      "grad_norm": 1.3822650909423828,
-      "learning_rate": 4.8625730994152046e-05,
-      "loss": 0.5022,
       "step": 237
     },
     {
-      "epoch": 12.0,
-      "eval_accuracy": 0.8507936507936508,
-      "eval_loss": 0.47235107421875,
-      "eval_runtime": 10.7944,
-      "eval_samples_per_second": 116.727,
-      "eval_steps_per_second": 0.926,
       "step": 237
     },
     {
-      "epoch": 12.962025316455696,
-      "grad_norm": 1.543864369392395,
-      "learning_rate": 4.807017543859649e-05,
-      "loss": 0.4841,
-      "step": 256
-    },
-    {
-      "epoch": 12.962025316455696,
-      "eval_accuracy": 0.8587301587301587,
-      "eval_loss": 0.48088887333869934,
-      "eval_runtime": 10.7741,
-      "eval_samples_per_second": 116.947,
-      "eval_steps_per_second": 0.928,
-      "step": 256
-    },
-    {
-      "epoch": 13.974683544303797,
-      "grad_norm": 1.4722260236740112,
-      "learning_rate": 4.7485380116959065e-05,
-      "loss": 0.4543,
       "step": 276
     },
     {
-      "epoch": 13.974683544303797,
-      "eval_accuracy": 0.861904761904762,
-      "eval_loss": 0.4476229250431061,
-      "eval_runtime": 10.73,
-      "eval_samples_per_second": 117.428,
-      "eval_steps_per_second": 0.932,
       "step": 276
     },
     {
-      "epoch": 14.987341772151899,
-      "grad_norm": 1.5065507888793945,
-      "learning_rate": 4.690058479532164e-05,
-      "loss": 0.4356,
-      "step": 296
-    },
-    {
-      "epoch": 14.987341772151899,
-      "eval_accuracy": 0.8579365079365079,
-      "eval_loss": 0.47357481718063354,
-      "eval_runtime": 10.7482,
-      "eval_samples_per_second": 117.229,
-      "eval_steps_per_second": 0.93,
-      "step": 296
-    },
-    {
-      "epoch": 16.0,
-      "grad_norm": 1.6331088542938232,
-      "learning_rate": 4.6315789473684214e-05,
-      "loss": 0.4021,
       "step": 316
     },
     {
-      "epoch": 16.0,
-      "eval_accuracy": 0.8587301587301587,
-      "eval_loss": 0.46398431062698364,
-      "eval_runtime": 10.7745,
-      "eval_samples_per_second": 116.943,
-      "eval_steps_per_second": 0.928,
       "step": 316
     },
     {
-      "epoch": 16.962025316455698,
-      "grad_norm": 1.7429494857788086,
-      "learning_rate": 4.576023391812866e-05,
-      "loss": 0.4073,
-      "step": 335
-    },
-    {
-      "epoch": 16.962025316455698,
-      "eval_accuracy": 0.8579365079365079,
-      "eval_loss": 0.4629625976085663,
-      "eval_runtime": 10.7423,
-      "eval_samples_per_second": 117.293,
-      "eval_steps_per_second": 0.931,
-      "step": 335
-    },
-    {
-      "epoch": 17.974683544303797,
-      "grad_norm": 1.3264607191085815,
-      "learning_rate": 4.517543859649123e-05,
-      "loss": 0.3782,
       "step": 355
     },
     {
-      "epoch": 17.974683544303797,
-      "eval_accuracy": 0.8595238095238096,
-      "eval_loss": 0.4655977785587311,
-      "eval_runtime": 10.8299,
-      "eval_samples_per_second": 116.344,
-      "eval_steps_per_second": 0.923,
       "step": 355
     },
     {
-      "epoch": 18.9873417721519,
-      "grad_norm": 1.481920599937439,
-      "learning_rate": 4.4590643274853806e-05,
-      "loss": 0.3617,
-      "step": 375
-    },
-    {
-      "epoch": 18.9873417721519,
-      "eval_accuracy": 0.861904761904762,
-      "eval_loss": 0.4484713077545166,
-      "eval_runtime": 10.749,
-      "eval_samples_per_second": 117.221,
-      "eval_steps_per_second": 0.93,
-      "step": 375
-    },
-    {
-      "epoch": 20.0,
-      "grad_norm": 1.3743647336959839,
-      "learning_rate": 4.400584795321638e-05,
-      "loss": 0.3448,
       "step": 395
     },
     {
-      "epoch": 20.0,
-      "eval_accuracy": 0.861904761904762,
-      "eval_loss": 0.4735279381275177,
-      "eval_runtime": 10.7186,
-      "eval_samples_per_second": 117.553,
-      "eval_steps_per_second": 0.933,
       "step": 395
     },
     {
-      "epoch": 20.962025316455698,
-      "grad_norm": 1.3664813041687012,
-      "learning_rate": 4.345029239766082e-05,
-      "loss": 0.3549,
-      "step": 414
-    },
-    {
-      "epoch": 20.962025316455698,
-      "eval_accuracy": 0.8571428571428571,
-      "eval_loss": 0.4780659079551697,
-      "eval_runtime": 10.7555,
-      "eval_samples_per_second": 117.149,
-      "eval_steps_per_second": 0.93,
-      "step": 414
-    },
-    {
-      "epoch": 21.974683544303797,
-      "grad_norm": 1.4020764827728271,
-      "learning_rate": 4.286549707602339e-05,
-      "loss": 0.3195,
       "step": 434
     },
     {
-      "epoch": 21.974683544303797,
-      "eval_accuracy": 0.861904761904762,
-      "eval_loss": 0.4818320572376251,
-      "eval_runtime": 10.6974,
-      "eval_samples_per_second": 117.785,
-      "eval_steps_per_second": 0.935,
       "step": 434
     },
     {
-      "epoch": 22.9873417721519,
-      "grad_norm": 1.2878130674362183,
-      "learning_rate": 4.228070175438597e-05,
-      "loss": 0.3219,
-      "step": 454
-    },
-    {
-      "epoch": 22.9873417721519,
-      "eval_accuracy": 0.8650793650793651,
-      "eval_loss": 0.47401970624923706,
-      "eval_runtime": 10.7479,
-      "eval_samples_per_second": 117.232,
-      "eval_steps_per_second": 0.93,
-      "step": 454
-    },
-    {
-      "epoch": 24.0,
-      "grad_norm": 1.5816872119903564,
-      "learning_rate": 4.169590643274854e-05,
-      "loss": 0.2966,
-      "step": 474
-    },
-    {
-      "epoch": 24.0,
-      "eval_accuracy": 0.8642857142857143,
-      "eval_loss": 0.4857538044452667,
-      "eval_runtime": 10.884,
-      "eval_samples_per_second": 115.766,
-      "eval_steps_per_second": 0.919,
       "step": 474
     },
     {
-      "epoch": 24.962025316455698,
-      "grad_norm": 1.4161866903305054,
-      "learning_rate": 4.1140350877192985e-05,
-      "loss": 0.322,
-      "step": 493
-    },
-    {
-      "epoch": 24.962025316455698,
       "eval_accuracy": 0.8579365079365079,
-      "eval_loss": 0.4993390738964081,
-      "eval_runtime": 10.7563,
-      "eval_samples_per_second": 117.141,
-      "eval_steps_per_second": 0.93,
-      "step": 493
     },
     {
-      "epoch": 25.974683544303797,
-      "grad_norm": 8.147224426269531,
-      "learning_rate": 4.055555555555556e-05,
-      "loss": 0.2806,
       "step": 513
     },
     {
-      "epoch": 25.974683544303797,
-      "eval_accuracy": 0.8650793650793651,
-      "eval_loss": 0.4862901568412781,
-      "eval_runtime": 10.7246,
-      "eval_samples_per_second": 117.487,
-      "eval_steps_per_second": 0.932,
       "step": 513
     },
     {
-      "epoch": 26.9873417721519,
-      "grad_norm": 1.3954640626907349,
-      "learning_rate": 3.9970760233918134e-05,
-      "loss": 0.2696,
-      "step": 533
-    },
-    {
-      "epoch": 26.9873417721519,
-      "eval_accuracy": 0.8595238095238096,
-      "eval_loss": 0.5064178705215454,
-      "eval_runtime": 10.7667,
-      "eval_samples_per_second": 117.027,
-      "eval_steps_per_second": 0.929,
-      "step": 533
-    },
-    {
-      "epoch": 28.0,
-      "grad_norm": 1.5532612800598145,
-      "learning_rate": 3.93859649122807e-05,
-      "loss": 0.2709,
       "step": 553
     },
     {
-      "epoch": 28.0,
-      "eval_accuracy": 0.8674603174603175,
-      "eval_loss": 0.4656953811645508,
-      "eval_runtime": 10.8334,
-      "eval_samples_per_second": 116.307,
-      "eval_steps_per_second": 0.923,
       "step": 553
     },
     {
-      "epoch": 28.962025316455698,
-      "grad_norm": 1.5748584270477295,
-      "learning_rate": 3.883040935672515e-05,
-      "loss": 0.2702,
-      "step": 572
-    },
-    {
-      "epoch": 28.962025316455698,
-      "eval_accuracy": 0.8571428571428571,
-      "eval_loss": 0.4933919310569763,
-      "eval_runtime": 10.7751,
-      "eval_samples_per_second": 116.936,
-      "eval_steps_per_second": 0.928,
-      "step": 572
-    },
-    {
-      "epoch": 29.974683544303797,
-      "grad_norm": 1.3018436431884766,
-      "learning_rate": 3.824561403508773e-05,
-      "loss": 0.2628,
       "step": 592
     },
     {
-      "epoch": 29.974683544303797,
-      "eval_accuracy": 0.8555555555555555,
-      "eval_loss": 0.4940374493598938,
-      "eval_runtime": 10.7573,
-      "eval_samples_per_second": 117.13,
-      "eval_steps_per_second": 0.93,
       "step": 592
     },
     {
-      "epoch": 30.9873417721519,
-      "grad_norm": 1.811011791229248,
-      "learning_rate": 3.7660818713450294e-05,
-      "loss": 0.2543,
-      "step": 612
-    },
-    {
-      "epoch": 30.9873417721519,
-      "eval_accuracy": 0.8642857142857143,
-      "eval_loss": 0.48308396339416504,
-      "eval_runtime": 10.8262,
-      "eval_samples_per_second": 116.384,
-      "eval_steps_per_second": 0.924,
-      "step": 612
-    },
-    {
-      "epoch": 32.0,
-      "grad_norm": 1.4332562685012817,
-      "learning_rate": 3.707602339181287e-05,
-      "loss": 0.2427,
       "step": 632
     },
     {
-      "epoch": 32.0,
-      "eval_accuracy": 0.861904761904762,
-      "eval_loss": 0.4981466233730316,
-      "eval_runtime": 10.8291,
-      "eval_samples_per_second": 116.353,
-      "eval_steps_per_second": 0.923,
       "step": 632
     },
     {
-      "epoch": 32.962025316455694,
-      "grad_norm": 1.5480865240097046,
-      "learning_rate": 3.652046783625731e-05,
-      "loss": 0.2659,
-      "step": 651
-    },
-    {
-      "epoch": 32.962025316455694,
-      "eval_accuracy": 0.8642857142857143,
-      "eval_loss": 0.5094291567802429,
-      "eval_runtime": 10.7442,
-      "eval_samples_per_second": 117.272,
-      "eval_steps_per_second": 0.931,
-      "step": 651
-    },
-    {
-      "epoch": 33.9746835443038,
-      "grad_norm": 1.3587052822113037,
-      "learning_rate": 3.593567251461988e-05,
-      "loss": 0.2398,
       "step": 671
     },
     {
-      "epoch": 33.9746835443038,
-      "eval_accuracy": 0.8658730158730159,
-      "eval_loss": 0.5013704895973206,
-      "eval_runtime": 10.759,
-      "eval_samples_per_second": 117.112,
-      "eval_steps_per_second": 0.929,
       "step": 671
     },
     {
-      "epoch": 34.9873417721519,
-      "grad_norm": 1.3286776542663574,
-      "learning_rate": 3.5350877192982455e-05,
-      "loss": 0.227,
-      "step": 691
-    },
-    {
-      "epoch": 34.9873417721519,
-      "eval_accuracy": 0.8634920634920635,
-      "eval_loss": 0.5037477612495422,
-      "eval_runtime": 10.7589,
-      "eval_samples_per_second": 117.112,
-      "eval_steps_per_second": 0.929,
-      "step": 691
-    },
-    {
-      "epoch": 36.0,
-      "grad_norm": 1.6547776460647583,
-      "learning_rate": 3.476608187134503e-05,
-      "loss": 0.2308,
       "step": 711
     },
     {
-      "epoch": 36.0,
-      "eval_accuracy": 0.8658730158730159,
-      "eval_loss": 0.5068167448043823,
-      "eval_runtime": 10.7754,
-      "eval_samples_per_second": 116.933,
-      "eval_steps_per_second": 0.928,
       "step": 711
     },
     {
-      "epoch": 36.962025316455694,
-      "grad_norm": 1.3685321807861328,
-      "learning_rate": 3.421052631578947e-05,
-      "loss": 0.2326,
-      "step": 730
-    },
-    {
-      "epoch": 36.962025316455694,
-      "eval_accuracy": 0.8650793650793651,
-      "eval_loss": 0.4980192184448242,
-      "eval_runtime": 10.761,
-      "eval_samples_per_second": 117.09,
-      "eval_steps_per_second": 0.929,
-      "step": 730
-    },
-    {
-      "epoch": 37.9746835443038,
-      "grad_norm": 1.2418972253799438,
-      "learning_rate": 3.362573099415205e-05,
-      "loss": 0.2242,
       "step": 750
     },
     {
-      "epoch": 37.9746835443038,
-      "eval_accuracy": 0.8587301587301587,
-      "eval_loss": 0.4938106834888458,
-      "eval_runtime": 11.0548,
-      "eval_samples_per_second": 113.978,
-      "eval_steps_per_second": 0.905,
       "step": 750
     },
     {
-      "epoch": 38.9873417721519,
-      "grad_norm": 1.3450112342834473,
-      "learning_rate": 3.304093567251462e-05,
-      "loss": 0.2152,
-      "step": 770
-    },
-    {
-      "epoch": 38.9873417721519,
-      "eval_accuracy": 0.8626984126984127,
-      "eval_loss": 0.49911221861839294,
-      "eval_runtime": 10.8459,
-      "eval_samples_per_second": 116.173,
-      "eval_steps_per_second": 0.922,
-      "step": 770
-    },
-    {
-      "epoch": 40.0,
-      "grad_norm": 1.3505226373672485,
-      "learning_rate": 3.24561403508772e-05,
-      "loss": 0.2205,
       "step": 790
     },
     {
-      "epoch": 40.0,
-      "eval_accuracy": 0.8571428571428571,
-      "eval_loss": 0.5294431447982788,
-      "eval_runtime": 11.024,
-      "eval_samples_per_second": 114.296,
-      "eval_steps_per_second": 0.907,
       "step": 790
     },
     {
-      "epoch": 40.962025316455694,
-      "grad_norm": 1.1549227237701416,
-      "learning_rate": 3.1900584795321634e-05,
-      "loss": 0.2299,
-      "step": 809
-    },
-    {
-      "epoch": 40.962025316455694,
-      "eval_accuracy": 0.8650793650793651,
-      "eval_loss": 0.5079935789108276,
-      "eval_runtime": 10.8051,
-      "eval_samples_per_second": 116.612,
-      "eval_steps_per_second": 0.925,
-      "step": 809
-    },
-    {
-      "epoch": 41.9746835443038,
-      "grad_norm": 1.252756118774414,
-      "learning_rate": 3.131578947368421e-05,
-      "loss": 0.1978,
       "step": 829
     },
     {
-      "epoch": 41.9746835443038,
-      "eval_accuracy": 0.861904761904762,
-      "eval_loss": 0.5043396949768066,
-      "eval_runtime": 11.0945,
-      "eval_samples_per_second": 113.57,
-      "eval_steps_per_second": 0.901,
       "step": 829
     },
     {
-      "epoch": 42.9873417721519,
-      "grad_norm": 1.20892333984375,
-      "learning_rate": 3.073099415204678e-05,
-      "loss": 0.2081,
-      "step": 849
-    },
-    {
-      "epoch": 42.9873417721519,
-      "eval_accuracy": 0.8634920634920635,
-      "eval_loss": 0.5008840560913086,
-      "eval_runtime": 10.8249,
-      "eval_samples_per_second": 116.398,
-      "eval_steps_per_second": 0.924,
-      "step": 849
-    },
-    {
-      "epoch": 44.0,
-      "grad_norm": 0.9471483826637268,
-      "learning_rate": 3.0146198830409357e-05,
-      "loss": 0.1893,
       "step": 869
     },
     {
-      "epoch": 44.0,
-      "eval_accuracy": 0.8571428571428571,
-      "eval_loss": 0.5212369561195374,
-      "eval_runtime": 10.7573,
-      "eval_samples_per_second": 117.13,
-      "eval_steps_per_second": 0.93,
       "step": 869
     },
     {
-      "epoch": 44.962025316455694,
-      "grad_norm": 1.4700783491134644,
-      "learning_rate": 2.95906432748538e-05,
-      "loss": 0.1988,
-      "step": 888
-    },
-    {
-      "epoch": 44.962025316455694,
-      "eval_accuracy": 0.8626984126984127,
-      "eval_loss": 0.4991550147533417,
-      "eval_runtime": 10.8133,
-      "eval_samples_per_second": 116.523,
-      "eval_steps_per_second": 0.925,
-      "step": 888
-    },
-    {
-      "epoch": 45.9746835443038,
-      "grad_norm": 1.0916502475738525,
-      "learning_rate": 2.9005847953216375e-05,
-      "loss": 0.1911,
       "step": 908
     },
     {
-      "epoch": 45.9746835443038,
-      "eval_accuracy": 0.8674603174603175,
-      "eval_loss": 0.5237799882888794,
-      "eval_runtime": 10.7538,
-      "eval_samples_per_second": 117.168,
-      "eval_steps_per_second": 0.93,
       "step": 908
     },
     {
-      "epoch": 46.9873417721519,
-      "grad_norm": 1.2590000629425049,
-      "learning_rate": 2.842105263157895e-05,
-      "loss": 0.1877,
-      "step": 928
-    },
-    {
-      "epoch": 46.9873417721519,
-      "eval_accuracy": 0.8674603174603175,
-      "eval_loss": 0.5184463262557983,
-      "eval_runtime": 10.8005,
-      "eval_samples_per_second": 116.662,
-      "eval_steps_per_second": 0.926,
-      "step": 928
-    },
-    {
-      "epoch": 48.0,
-      "grad_norm": 1.417845606803894,
-      "learning_rate": 2.783625730994152e-05,
-      "loss": 0.1957,
       "step": 948
     },
     {
-      "epoch": 48.0,
-      "eval_accuracy": 0.8571428571428571,
-      "eval_loss": 0.5155279040336609,
-      "eval_runtime": 10.7518,
-      "eval_samples_per_second": 117.19,
-      "eval_steps_per_second": 0.93,
       "step": 948
     },
     {
-      "epoch": 48.962025316455694,
-      "grad_norm": 1.304579496383667,
-      "learning_rate": 2.7280701754385968e-05,
-      "loss": 0.185,
-      "step": 967
-    },
-    {
-      "epoch": 48.962025316455694,
-      "eval_accuracy": 0.8674603174603175,
-      "eval_loss": 0.5028470158576965,
-      "eval_runtime": 10.7385,
-      "eval_samples_per_second": 117.335,
-      "eval_steps_per_second": 0.931,
-      "step": 967
-    },
-    {
-      "epoch": 49.9746835443038,
-      "grad_norm": 1.1883121728897095,
-      "learning_rate": 2.669590643274854e-05,
-      "loss": 0.1821,
       "step": 987
     },
     {
-      "epoch": 49.9746835443038,
-      "eval_accuracy": 0.8626984126984127,
-      "eval_loss": 0.5118417739868164,
-      "eval_runtime": 10.7974,
-      "eval_samples_per_second": 116.694,
-      "eval_steps_per_second": 0.926,
       "step": 987
     },
     {
-      "epoch": 50.9873417721519,
-      "grad_norm": 0.9844208359718323,
-      "learning_rate": 2.6111111111111114e-05,
-      "loss": 0.1843,
-      "step": 1007
-    },
-    {
-      "epoch": 50.9873417721519,
-      "eval_accuracy": 0.8650793650793651,
-      "eval_loss": 0.5006617903709412,
-      "eval_runtime": 10.7816,
-      "eval_samples_per_second": 116.866,
-      "eval_steps_per_second": 0.928,
-      "step": 1007
-    },
-    {
-      "epoch": 52.0,
-      "grad_norm": 1.392893671989441,
-      "learning_rate": 2.5526315789473688e-05,
-      "loss": 0.1711,
       "step": 1027
     },
     {
-      "epoch": 52.0,
-      "eval_accuracy": 0.8571428571428571,
-      "eval_loss": 0.511702299118042,
-      "eval_runtime": 10.8792,
-      "eval_samples_per_second": 115.817,
-      "eval_steps_per_second": 0.919,
       "step": 1027
     },
     {
-      "epoch": 52.962025316455694,
-      "grad_norm": 1.6035434007644653,
-      "learning_rate": 2.4970760233918132e-05,
-      "loss": 0.1903,
-      "step": 1046
-    },
-    {
-      "epoch": 52.962025316455694,
-      "eval_accuracy": 0.8587301587301587,
-      "eval_loss": 0.507360577583313,
-      "eval_runtime": 10.9028,
-      "eval_samples_per_second": 115.567,
-      "eval_steps_per_second": 0.917,
-      "step": 1046
-    },
-    {
-      "epoch": 53.9746835443038,
-      "grad_norm": 1.0503844022750854,
-      "learning_rate": 2.4385964912280703e-05,
-      "loss": 0.1713,
       "step": 1066
     },
     {
-      "epoch": 53.9746835443038,
-      "eval_accuracy": 0.8658730158730159,
-      "eval_loss": 0.5167327523231506,
-      "eval_runtime": 10.8055,
-      "eval_samples_per_second": 116.608,
-      "eval_steps_per_second": 0.925,
       "step": 1066
     },
     {
-      "epoch": 54.9873417721519,
-      "grad_norm": 1.0421777963638306,
-      "learning_rate": 2.3801169590643278e-05,
-      "loss": 0.1677,
-      "step": 1086
-    },
-    {
-      "epoch": 54.9873417721519,
-      "eval_accuracy": 0.8666666666666667,
-      "eval_loss": 0.5178954601287842,
-      "eval_runtime": 10.802,
-      "eval_samples_per_second": 116.645,
-      "eval_steps_per_second": 0.926,
-      "step": 1086
-    },
-    {
-      "epoch": 56.0,
-      "grad_norm": 1.283031940460205,
-      "learning_rate": 2.321637426900585e-05,
-      "loss": 0.16,
       "step": 1106
     },
     {
-      "epoch": 56.0,
-      "eval_accuracy": 0.8650793650793651,
-      "eval_loss": 0.5145161747932434,
-      "eval_runtime": 10.7346,
-      "eval_samples_per_second": 117.377,
-      "eval_steps_per_second": 0.932,
       "step": 1106
     },
     {
-      "epoch": 56.962025316455694,
-      "grad_norm": 2.3518636226654053,
-      "learning_rate": 2.2660818713450292e-05,
-      "loss": 0.1818,
-      "step": 1125
-    },
-    {
-      "epoch": 56.962025316455694,
-      "eval_accuracy": 0.8650793650793651,
-      "eval_loss": 0.5295758247375488,
-      "eval_runtime": 10.7992,
-      "eval_samples_per_second": 116.676,
-      "eval_steps_per_second": 0.926,
-      "step": 1125
-    },
-    {
-      "epoch": 57.9746835443038,
-      "grad_norm": 1.4039283990859985,
-      "learning_rate": 2.2076023391812867e-05,
-      "loss": 0.1725,
-      "step": 1145
-    },
-    {
-      "epoch": 57.9746835443038,
-      "eval_accuracy": 0.8642857142857143,
-      "eval_loss": 0.531140923500061,
-      "eval_runtime": 10.7624,
-      "eval_samples_per_second": 117.075,
-      "eval_steps_per_second": 0.929,
       "step": 1145
     },
     {
-      "epoch": 58.9873417721519,
-      "grad_norm": 1.1663118600845337,
-      "learning_rate": 2.149122807017544e-05,
-      "loss": 0.1642,
-      "step": 1165
-    },
-    {
-      "epoch": 58.9873417721519,
-      "eval_accuracy": 0.8626984126984127,
-      "eval_loss": 0.5316585302352905,
-      "eval_runtime": 10.7932,
-      "eval_samples_per_second": 116.74,
-      "eval_steps_per_second": 0.927,
-      "step": 1165
-    },
-    {
-      "epoch": 60.0,
-      "grad_norm": 1.2489556074142456,
-      "learning_rate": 2.0906432748538013e-05,
-      "loss": 0.1626,
-      "step": 1185
-    },
-    {
-      "epoch": 60.0,
-      "eval_accuracy": 0.861904761904762,
-      "eval_loss": 0.5282865166664124,
-      "eval_runtime": 10.7244,
-      "eval_samples_per_second": 117.49,
-      "eval_steps_per_second": 0.932,
-      "step": 1185
-    },
-    {
-      "epoch": 60.962025316455694,
-      "grad_norm": 1.4613455533981323,
-      "learning_rate": 2.0350877192982456e-05,
-      "loss": 0.1621,
-      "step": 1204
-    },
-    {
-      "epoch": 60.962025316455694,
-      "eval_accuracy": 0.8603174603174604,
-      "eval_loss": 0.5266717076301575,
-      "eval_runtime": 10.8467,
-      "eval_samples_per_second": 116.164,
-      "eval_steps_per_second": 0.922,
-      "step": 1204
-    },
-    {
-      "epoch": 61.9746835443038,
-      "grad_norm": 1.4865529537200928,
-      "learning_rate": 1.976608187134503e-05,
-      "loss": 0.1503,
-      "step": 1224
-    },
-    {
-      "epoch": 61.9746835443038,
-      "eval_accuracy": 0.861904761904762,
-      "eval_loss": 0.5389307141304016,
-      "eval_runtime": 10.7859,
-      "eval_samples_per_second": 116.819,
-      "eval_steps_per_second": 0.927,
-      "step": 1224
-    },
-    {
-      "epoch": 62.9873417721519,
-      "grad_norm": 1.0126421451568604,
-      "learning_rate": 1.9181286549707602e-05,
-      "loss": 0.162,
-      "step": 1244
-    },
-    {
-      "epoch": 62.9873417721519,
-      "eval_accuracy": 0.8626984126984127,
-      "eval_loss": 0.540341317653656,
-      "eval_runtime": 10.7503,
-      "eval_samples_per_second": 117.206,
-      "eval_steps_per_second": 0.93,
-      "step": 1244
-    },
-    {
-      "epoch": 64.0,
-      "grad_norm": 1.3681743144989014,
-      "learning_rate": 1.8596491228070176e-05,
-      "loss": 0.154,
-      "step": 1264
-    },
-    {
-      "epoch": 64.0,
-      "eval_accuracy": 0.8650793650793651,
-      "eval_loss": 0.5240360498428345,
-      "eval_runtime": 10.6902,
-      "eval_samples_per_second": 117.865,
-      "eval_steps_per_second": 0.935,
-      "step": 1264
-    },
-    {
-      "epoch": 64.9620253164557,
-      "grad_norm": 1.1314650774002075,
-      "learning_rate": 1.804093567251462e-05,
-      "loss": 0.1525,
-      "step": 1283
-    },
-    {
-      "epoch": 64.9620253164557,
-      "eval_accuracy": 0.8650793650793651,
-      "eval_loss": 0.5337327718734741,
-      "eval_runtime": 10.5876,
-      "eval_samples_per_second": 119.007,
-      "eval_steps_per_second": 0.945,
-      "step": 1283
-    },
-    {
-      "epoch": 65.9746835443038,
-      "grad_norm": 1.1210103034973145,
-      "learning_rate": 1.745614035087719e-05,
-      "loss": 0.1529,
-      "step": 1303
-    },
-    {
-      "epoch": 65.9746835443038,
-      "eval_accuracy": 0.8642857142857143,
-      "eval_loss": 0.5457757115364075,
-      "eval_runtime": 10.8103,
-      "eval_samples_per_second": 116.555,
-      "eval_steps_per_second": 0.925,
-      "step": 1303
-    },
-    {
-      "epoch": 66.9873417721519,
-      "grad_norm": 1.2637122869491577,
-      "learning_rate": 1.6871345029239766e-05,
-      "loss": 0.1548,
-      "step": 1323
-    },
-    {
-      "epoch": 66.9873417721519,
-      "eval_accuracy": 0.8650793650793651,
-      "eval_loss": 0.5383771061897278,
-      "eval_runtime": 10.877,
-      "eval_samples_per_second": 115.84,
-      "eval_steps_per_second": 0.919,
-      "step": 1323
-    },
-    {
-      "epoch": 68.0,
-      "grad_norm": 1.1812046766281128,
-      "learning_rate": 1.628654970760234e-05,
-      "loss": 0.1556,
-      "step": 1343
-    },
-    {
-      "epoch": 68.0,
-      "eval_accuracy": 0.8626984126984127,
-      "eval_loss": 0.5395429134368896,
-      "eval_runtime": 10.829,
-      "eval_samples_per_second": 116.354,
-      "eval_steps_per_second": 0.923,
-      "step": 1343
-    },
-    {
-      "epoch": 68.9620253164557,
-      "grad_norm": 1.21077299118042,
-      "learning_rate": 1.5730994152046784e-05,
-      "loss": 0.1629,
-      "step": 1362
-    },
-    {
-      "epoch": 68.9620253164557,
-      "eval_accuracy": 0.8634920634920635,
-      "eval_loss": 0.5454122424125671,
-      "eval_runtime": 10.6544,
-      "eval_samples_per_second": 118.261,
-      "eval_steps_per_second": 0.939,
-      "step": 1362
-    },
-    {
-      "epoch": 69.9746835443038,
-      "grad_norm": 1.3317054510116577,
-      "learning_rate": 1.5146198830409358e-05,
-      "loss": 0.1387,
-      "step": 1382
-    },
-    {
-      "epoch": 69.9746835443038,
-      "eval_accuracy": 0.8746031746031746,
-      "eval_loss": 0.5267017483711243,
-      "eval_runtime": 10.8484,
-      "eval_samples_per_second": 116.147,
-      "eval_steps_per_second": 0.922,
-      "step": 1382
-    },
-    {
-      "epoch": 70.9873417721519,
-      "grad_norm": 1.2003090381622314,
-      "learning_rate": 1.4561403508771931e-05,
-      "loss": 0.1495,
-      "step": 1402
-    },
-    {
-      "epoch": 70.9873417721519,
-      "eval_accuracy": 0.8650793650793651,
-      "eval_loss": 0.5427414774894714,
-      "eval_runtime": 10.7136,
-      "eval_samples_per_second": 117.608,
-      "eval_steps_per_second": 0.933,
-      "step": 1402
-    },
-    {
-      "epoch": 72.0,
-      "grad_norm": 1.2609037160873413,
-      "learning_rate": 1.3976608187134504e-05,
-      "loss": 0.1465,
-      "step": 1422
-    },
-    {
-      "epoch": 72.0,
-      "eval_accuracy": 0.8690476190476191,
-      "eval_loss": 0.559054434299469,
-      "eval_runtime": 10.7661,
-      "eval_samples_per_second": 117.034,
-      "eval_steps_per_second": 0.929,
-      "step": 1422
-    },
-    {
-      "epoch": 72.9620253164557,
-      "grad_norm": 1.456437587738037,
-      "learning_rate": 1.3421052631578948e-05,
-      "loss": 0.1478,
-      "step": 1441
-    },
-    {
-      "epoch": 72.9620253164557,
-      "eval_accuracy": 0.8722222222222222,
-      "eval_loss": 0.532349705696106,
-      "eval_runtime": 10.7627,
-      "eval_samples_per_second": 117.071,
-      "eval_steps_per_second": 0.929,
-      "step": 1441
-    },
-    {
-      "epoch": 73.9746835443038,
-      "grad_norm": 1.404703140258789,
-      "learning_rate": 1.283625730994152e-05,
-      "loss": 0.1447,
-      "step": 1461
-    },
-    {
-      "epoch": 73.9746835443038,
-      "eval_accuracy": 0.8690476190476191,
-      "eval_loss": 0.5560940504074097,
-      "eval_runtime": 10.7443,
-      "eval_samples_per_second": 117.271,
-      "eval_steps_per_second": 0.931,
-      "step": 1461
-    },
-    {
-      "epoch": 74.9873417721519,
-      "grad_norm": 1.3342186212539673,
-      "learning_rate": 1.2251461988304095e-05,
-      "loss": 0.1435,
-      "step": 1481
-    },
-    {
-      "epoch": 74.9873417721519,
-      "eval_accuracy": 0.8658730158730159,
-      "eval_loss": 0.5346001982688904,
-      "eval_runtime": 10.8529,
-      "eval_samples_per_second": 116.098,
-      "eval_steps_per_second": 0.921,
-      "step": 1481
-    },
-    {
-      "epoch": 76.0,
-      "grad_norm": 1.2481029033660889,
-      "learning_rate": 1.1666666666666668e-05,
-      "loss": 0.1459,
-      "step": 1501
-    },
-    {
-      "epoch": 76.0,
-      "eval_accuracy": 0.8658730158730159,
-      "eval_loss": 0.5466868281364441,
-      "eval_runtime": 11.0795,
-      "eval_samples_per_second": 113.723,
-      "eval_steps_per_second": 0.903,
-      "step": 1501
-    },
-    {
-      "epoch": 76.9620253164557,
-      "grad_norm": 1.2153362035751343,
-      "learning_rate": 1.1111111111111112e-05,
-      "loss": 0.1474,
-      "step": 1520
-    },
-    {
-      "epoch": 76.9620253164557,
-      "eval_accuracy": 0.8690476190476191,
-      "eval_loss": 0.5463184118270874,
-      "eval_runtime": 10.7937,
-      "eval_samples_per_second": 116.735,
-      "eval_steps_per_second": 0.926,
-      "step": 1520
-    },
-    {
-      "epoch": 77.9746835443038,
-      "grad_norm": 1.2351834774017334,
-      "learning_rate": 1.0526315789473684e-05,
-      "loss": 0.1352,
-      "step": 1540
-    },
-    {
-      "epoch": 77.9746835443038,
-      "eval_accuracy": 0.8650793650793651,
-      "eval_loss": 0.5412562489509583,
-      "eval_runtime": 11.1033,
-      "eval_samples_per_second": 113.48,
-      "eval_steps_per_second": 0.901,
-      "step": 1540
-    },
-    {
-      "epoch": 78.9873417721519,
-      "grad_norm": 1.3961732387542725,
-      "learning_rate": 9.941520467836257e-06,
-      "loss": 0.1337,
-      "step": 1560
-    },
-    {
-      "epoch": 78.9873417721519,
-      "eval_accuracy": 0.8650793650793651,
-      "eval_loss": 0.5488775372505188,
-      "eval_runtime": 10.7671,
-      "eval_samples_per_second": 117.023,
-      "eval_steps_per_second": 0.929,
-      "step": 1560
-    },
-    {
-      "epoch": 80.0,
-      "grad_norm": 1.8050953149795532,
-      "learning_rate": 9.35672514619883e-06,
-      "loss": 0.1374,
-      "step": 1580
-    },
-    {
-      "epoch": 80.0,
-      "eval_accuracy": 0.8587301587301587,
-      "eval_loss": 0.5454345941543579,
-      "eval_runtime": 10.8299,
-      "eval_samples_per_second": 116.345,
-      "eval_steps_per_second": 0.923,
-      "step": 1580
-    },
-    {
-      "epoch": 80.9620253164557,
-      "grad_norm": 1.2362314462661743,
-      "learning_rate": 8.801169590643275e-06,
-      "loss": 0.1383,
-      "step": 1599
-    },
-    {
-      "epoch": 80.9620253164557,
-      "eval_accuracy": 0.8626984126984127,
-      "eval_loss": 0.5432500243186951,
-      "eval_runtime": 10.8767,
-      "eval_samples_per_second": 115.844,
-      "eval_steps_per_second": 0.919,
-      "step": 1599
-    },
-    {
-      "epoch": 81.9746835443038,
-      "grad_norm": 1.1372051239013672,
-      "learning_rate": 8.216374269005848e-06,
-      "loss": 0.1408,
-      "step": 1619
-    },
-    {
-      "epoch": 81.9746835443038,
       "eval_accuracy": 0.8682539682539683,
-      "eval_loss": 0.5383033156394958,
-      "eval_runtime": 10.9264,
-      "eval_samples_per_second": 115.317,
-      "eval_steps_per_second": 0.915,
-      "step": 1619
-    },
-    {
-      "epoch": 82.9873417721519,
-      "grad_norm": 1.6927990913391113,
-      "learning_rate": 7.631578947368421e-06,
-      "loss": 0.134,
-      "step": 1639
-    },
-    {
-      "epoch": 82.9873417721519,
-      "eval_accuracy": 0.8642857142857143,
-      "eval_loss": 0.5522441267967224,
-      "eval_runtime": 10.7932,
-      "eval_samples_per_second": 116.74,
-      "eval_steps_per_second": 0.927,
-      "step": 1639
-    },
-    {
-      "epoch": 84.0,
-      "grad_norm": 1.1734745502471924,
-      "learning_rate": 7.046783625730995e-06,
-      "loss": 0.1353,
-      "step": 1659
-    },
-    {
-      "epoch": 84.0,
-      "eval_accuracy": 0.8579365079365079,
-      "eval_loss": 0.5485585331916809,
-      "eval_runtime": 10.8452,
-      "eval_samples_per_second": 116.181,
-      "eval_steps_per_second": 0.922,
-      "step": 1659
-    },
-    {
-      "epoch": 84.9620253164557,
-      "grad_norm": 1.3662621974945068,
-      "learning_rate": 6.4912280701754385e-06,
-      "loss": 0.1435,
-      "step": 1678
-    },
-    {
-      "epoch": 84.9620253164557,
-      "eval_accuracy": 0.8595238095238096,
-      "eval_loss": 0.5582545399665833,
-      "eval_runtime": 10.7527,
-      "eval_samples_per_second": 117.18,
-      "eval_steps_per_second": 0.93,
-      "step": 1678
-    },
-    {
-      "epoch": 85.9746835443038,
-      "grad_norm": 1.3297693729400635,
-      "learning_rate": 5.906432748538012e-06,
-      "loss": 0.1324,
-      "step": 1698
-    },
-    {
-      "epoch": 85.9746835443038,
-      "eval_accuracy": 0.861904761904762,
-      "eval_loss": 0.5551320910453796,
-      "eval_runtime": 10.8253,
-      "eval_samples_per_second": 116.394,
-      "eval_steps_per_second": 0.924,
-      "step": 1698
-    },
-    {
-      "epoch": 86.9873417721519,
-      "grad_norm": 1.2304210662841797,
-      "learning_rate": 5.321637426900585e-06,
-      "loss": 0.1306,
-      "step": 1718
-    },
-    {
-      "epoch": 86.9873417721519,
-      "eval_accuracy": 0.8611111111111112,
-      "eval_loss": 0.553473949432373,
-      "eval_runtime": 10.7756,
-      "eval_samples_per_second": 116.931,
-      "eval_steps_per_second": 0.928,
-      "step": 1718
-    },
-    {
-      "epoch": 88.0,
-      "grad_norm": 1.323527216911316,
-      "learning_rate": 4.736842105263159e-06,
-      "loss": 0.1348,
-      "step": 1738
-    },
-    {
-      "epoch": 88.0,
-      "eval_accuracy": 0.8666666666666667,
-      "eval_loss": 0.5498299598693848,
-      "eval_runtime": 10.7878,
-      "eval_samples_per_second": 116.799,
-      "eval_steps_per_second": 0.927,
-      "step": 1738
-    },
-    {
-      "epoch": 88.9620253164557,
-      "grad_norm": 1.0867611169815063,
-      "learning_rate": 4.181286549707602e-06,
-      "loss": 0.1334,
-      "step": 1757
-    },
-    {
-      "epoch": 88.9620253164557,
-      "eval_accuracy": 0.8658730158730159,
-      "eval_loss": 0.5582374930381775,
-      "eval_runtime": 10.7756,
-      "eval_samples_per_second": 116.931,
-      "eval_steps_per_second": 0.928,
-      "step": 1757
-    },
-    {
-      "epoch": 89.9746835443038,
-      "grad_norm": 1.0990999937057495,
-      "learning_rate": 3.5964912280701756e-06,
-      "loss": 0.1343,
-      "step": 1777
-    },
-    {
-      "epoch": 89.9746835443038,
-      "eval_accuracy": 0.8658730158730159,
-      "eval_loss": 0.5526331067085266,
-      "eval_runtime": 10.8124,
-      "eval_samples_per_second": 116.533,
-      "eval_steps_per_second": 0.925,
-      "step": 1777
-    },
-    {
-      "epoch": 90.9873417721519,
-      "grad_norm": 1.3471728563308716,
-      "learning_rate": 3.011695906432749e-06,
-      "loss": 0.1275,
-      "step": 1797
-    },
-    {
-      "epoch": 90.9873417721519,
-      "eval_accuracy": 0.8650793650793651,
-      "eval_loss": 0.5543471574783325,
-      "eval_runtime": 10.7534,
-      "eval_samples_per_second": 117.172,
-      "eval_steps_per_second": 0.93,
-      "step": 1797
-    },
-    {
-      "epoch": 92.0,
-      "grad_norm": 1.3125709295272827,
-      "learning_rate": 2.426900584795322e-06,
-      "loss": 0.1285,
-      "step": 1817
-    },
-    {
-      "epoch": 92.0,
-      "eval_accuracy": 0.8674603174603175,
-      "eval_loss": 0.551249086856842,
-      "eval_runtime": 10.7174,
-      "eval_samples_per_second": 117.566,
-      "eval_steps_per_second": 0.933,
-      "step": 1817
-    },
-    {
-      "epoch": 92.9620253164557,
-      "grad_norm": 1.069954752922058,
-      "learning_rate": 1.8713450292397662e-06,
-      "loss": 0.127,
-      "step": 1836
-    },
-    {
-      "epoch": 92.9620253164557,
-      "eval_accuracy": 0.8634920634920635,
-      "eval_loss": 0.5507932305335999,
-      "eval_runtime": 10.7352,
-      "eval_samples_per_second": 117.371,
-      "eval_steps_per_second": 0.932,
-      "step": 1836
-    },
-    {
-      "epoch": 93.9746835443038,
-      "grad_norm": 1.1107105016708374,
-      "learning_rate": 1.2865497076023394e-06,
-      "loss": 0.1258,
-      "step": 1856
-    },
-    {
-      "epoch": 93.9746835443038,
-      "eval_accuracy": 0.8642857142857143,
-      "eval_loss": 0.5506840944290161,
-      "eval_runtime": 10.5904,
-      "eval_samples_per_second": 118.975,
-      "eval_steps_per_second": 0.944,
-      "step": 1856
-    },
-    {
-      "epoch": 94.9873417721519,
-      "grad_norm": 1.1726576089859009,
-      "learning_rate": 7.017543859649123e-07,
-      "loss": 0.1119,
-      "step": 1876
-    },
-    {
-      "epoch": 94.9873417721519,
-      "eval_accuracy": 0.8666666666666667,
-      "eval_loss": 0.5506576299667358,
-      "eval_runtime": 10.8474,
-      "eval_samples_per_second": 116.157,
-      "eval_steps_per_second": 0.922,
-      "step": 1876
-    },
-    {
-      "epoch": 96.0,
-      "grad_norm": 1.4846915006637573,
-      "learning_rate": 1.1695906432748539e-07,
-      "loss": 0.1322,
-      "step": 1896
-    },
-    {
-      "epoch": 96.0,
-      "eval_accuracy": 0.8658730158730159,
-      "eval_loss": 0.5504564046859741,
-      "eval_runtime": 11.0992,
-      "eval_samples_per_second": 113.522,
-      "eval_steps_per_second": 0.901,
-      "step": 1896
     },
     {
-      "epoch": 96.20253164556962,
-      "grad_norm": 1.0216985940933228,
       "learning_rate": 0.0,
-      "loss": 0.1315,
-      "step": 1900
     },
     {
-      "epoch": 96.20253164556962,
-      "eval_accuracy": 0.8658730158730159,
-      "eval_loss": 0.5504307150840759,
-      "eval_runtime": 10.802,
-      "eval_samples_per_second": 116.645,
-      "eval_steps_per_second": 0.926,
-      "step": 1900
-    },
-    {
-      "epoch": 96.20253164556962,
-      "step": 1900,
-      "total_flos": 7.515490775048022e+19,
-      "train_loss": 0.33647052476280614,
-      "train_runtime": 20573.1873,
-      "train_samples_per_second": 48.996,
-      "train_steps_per_second": 0.092
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1900,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 100,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -1587,8 +515,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.515490775048022e+19,
-  "train_batch_size": 128,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.8714285714285714,
+  "best_model_checkpoint": "CP2_HAR_vit-base-patch16-224/checkpoint-908",
+  "epoch": 29.620253164556964,
   "eval_steps": 500,
+  "global_step": 1170,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.9873417721518988,
+      "grad_norm": 2.9084372520446777,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 2.7032,
       "step": 39
     },
     {
+      "epoch": 0.9873417721518988,
+      "eval_accuracy": 0.3388888888888889,
+      "eval_loss": 2.304168224334717,
+      "eval_runtime": 10.2204,
+      "eval_samples_per_second": 123.283,
+      "eval_steps_per_second": 1.957,
       "step": 39
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 2.045494318008423,
+      "learning_rate": 3.376068376068376e-05,
+      "loss": 1.7639,
       "step": 79
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7515873015873016,
+      "eval_loss": 1.0595871210098267,
+      "eval_runtime": 10.2792,
+      "eval_samples_per_second": 122.577,
+      "eval_steps_per_second": 1.946,
       "step": 79
     },
     {
+      "epoch": 2.9873417721518987,
+      "grad_norm": 1.7503687143325806,
+      "learning_rate": 4.995251661918329e-05,
+      "loss": 0.974,
       "step": 118
     },
     {
+      "epoch": 2.9873417721518987,
+      "eval_accuracy": 0.8134920634920635,
+      "eval_loss": 0.6007124781608582,
+      "eval_runtime": 10.208,
+      "eval_samples_per_second": 123.432,
+      "eval_steps_per_second": 1.959,
       "step": 118
     },
     {
+      "epoch": 4.0,
+      "grad_norm": 2.026381492614746,
+      "learning_rate": 4.8053181386514724e-05,
+      "loss": 0.7207,
       "step": 158
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8412698412698413,
+      "eval_loss": 0.49882617592811584,
+      "eval_runtime": 10.3437,
+      "eval_samples_per_second": 121.813,
+      "eval_steps_per_second": 1.934,
       "step": 158
     },
     {
+      "epoch": 4.987341772151899,
+      "grad_norm": 1.8753575086593628,
+      "learning_rate": 4.620132953466287e-05,
+      "loss": 0.6285,
       "step": 197
     },
     {
+      "epoch": 4.987341772151899,
+      "eval_accuracy": 0.8507936507936508,
+      "eval_loss": 0.4587480425834656,
+      "eval_runtime": 10.2618,
+      "eval_samples_per_second": 122.785,
+      "eval_steps_per_second": 1.949,
       "step": 197
     },
     {
+      "epoch": 6.0,
+      "grad_norm": 2.0627048015594482,
+      "learning_rate": 4.4301994301994304e-05,
+      "loss": 0.562,
       "step": 237
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8531746031746031,
+      "eval_loss": 0.4662785232067108,
+      "eval_runtime": 10.2093,
+      "eval_samples_per_second": 123.417,
+      "eval_steps_per_second": 1.959,
       "step": 237
     },
     {
+      "epoch": 6.987341772151899,
+      "grad_norm": 1.78373122215271,
+      "learning_rate": 4.2450142450142457e-05,
+      "loss": 0.5258,
       "step": 276
     },
     {
+      "epoch": 6.987341772151899,
+      "eval_accuracy": 0.8468253968253968,
+      "eval_loss": 0.45184874534606934,
+      "eval_runtime": 10.2263,
+      "eval_samples_per_second": 123.211,
+      "eval_steps_per_second": 1.956,
       "step": 276
     },
     {
+      "epoch": 8.0,
+      "grad_norm": 2.4166259765625,
+      "learning_rate": 4.0550807217473884e-05,
+      "loss": 0.4843,
       "step": 316
     },
     {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8603174603174604,
+      "eval_loss": 0.4466171860694885,
+      "eval_runtime": 10.1905,
+      "eval_samples_per_second": 123.645,
+      "eval_steps_per_second": 1.963,
       "step": 316
     },
     {
+      "epoch": 8.987341772151899,
+      "grad_norm": 2.37298321723938,
+      "learning_rate": 3.8698955365622036e-05,
+      "loss": 0.4491,
       "step": 355
     },
     {
+      "epoch": 8.987341772151899,
+      "eval_accuracy": 0.8523809523809524,
+      "eval_loss": 0.43793126940727234,
+      "eval_runtime": 10.2956,
+      "eval_samples_per_second": 122.382,
+      "eval_steps_per_second": 1.943,
       "step": 355
     },
     {
+      "epoch": 10.0,
+      "grad_norm": 2.5339529514312744,
+      "learning_rate": 3.679962013295346e-05,
+      "loss": 0.4288,
       "step": 395
     },
     {
+      "epoch": 10.0,
+      "eval_accuracy": 0.8674603174603175,
+      "eval_loss": 0.432355135679245,
+      "eval_runtime": 10.268,
+      "eval_samples_per_second": 122.712,
+      "eval_steps_per_second": 1.948,
       "step": 395
     },
     {
+      "epoch": 10.987341772151899,
+      "grad_norm": 1.7715898752212524,
+      "learning_rate": 3.4947768281101616e-05,
+      "loss": 0.4183,
       "step": 434
     },
     {
+      "epoch": 10.987341772151899,
+      "eval_accuracy": 0.8642857142857143,
+      "eval_loss": 0.44705930352211,
+      "eval_runtime": 10.2591,
+      "eval_samples_per_second": 122.817,
+      "eval_steps_per_second": 1.949,
       "step": 434
     },
     {
+      "epoch": 12.0,
+      "grad_norm": 2.3940932750701904,
+      "learning_rate": 3.304843304843305e-05,
+      "loss": 0.3882,
       "step": 474
     },
     {
+      "epoch": 12.0,
       "eval_accuracy": 0.8579365079365079,
+      "eval_loss": 0.43507805466651917,
+      "eval_runtime": 10.2613,
+      "eval_samples_per_second": 122.792,
+      "eval_steps_per_second": 1.949,
+      "step": 474
     },
     {
+      "epoch": 12.987341772151899,
+      "grad_norm": 2.104583501815796,
+      "learning_rate": 3.1196581196581195e-05,
+      "loss": 0.3777,
       "step": 513
     },
     {
+      "epoch": 12.987341772151899,
+      "eval_accuracy": 0.8611111111111112,
+      "eval_loss": 0.432034432888031,
+      "eval_runtime": 10.2065,
+      "eval_samples_per_second": 123.451,
+      "eval_steps_per_second": 1.96,
       "step": 513
     },
     {
+      "epoch": 14.0,
+      "grad_norm": 2.3956658840179443,
+      "learning_rate": 2.9297245963912633e-05,
+      "loss": 0.3497,
       "step": 553
     },
     {
+      "epoch": 14.0,
+      "eval_accuracy": 0.8642857142857143,
+      "eval_loss": 0.4432290196418762,
+      "eval_runtime": 10.2012,
+      "eval_samples_per_second": 123.515,
+      "eval_steps_per_second": 1.961,
       "step": 553
     },
     {
+      "epoch": 14.987341772151899,
+      "grad_norm": 2.0552070140838623,
+      "learning_rate": 2.744539411206078e-05,
+      "loss": 0.347,
       "step": 592
     },
     {
+      "epoch": 14.987341772151899,
+      "eval_accuracy": 0.8690476190476191,
+      "eval_loss": 0.4347086548805237,
+      "eval_runtime": 10.2609,
+      "eval_samples_per_second": 122.797,
+      "eval_steps_per_second": 1.949,
       "step": 592
     },
     {
+      "epoch": 16.0,
+      "grad_norm": 2.1157126426696777,
+      "learning_rate": 2.5546058879392216e-05,
+      "loss": 0.3331,
       "step": 632
     },
     {
+      "epoch": 16.0,
+      "eval_accuracy": 0.8603174603174604,
+      "eval_loss": 0.4517436623573303,
+      "eval_runtime": 10.3042,
+      "eval_samples_per_second": 122.28,
+      "eval_steps_per_second": 1.941,
       "step": 632
     },
     {
+      "epoch": 16.9873417721519,
+      "grad_norm": 1.8309712409973145,
+      "learning_rate": 2.3694207027540365e-05,
+      "loss": 0.3219,
       "step": 671
     },
     {
+      "epoch": 16.9873417721519,
+      "eval_accuracy": 0.8666666666666667,
+      "eval_loss": 0.44011229276657104,
+      "eval_runtime": 10.2371,
+      "eval_samples_per_second": 123.082,
+      "eval_steps_per_second": 1.954,
       "step": 671
     },
     {
+      "epoch": 18.0,
+      "grad_norm": 2.178051710128784,
+      "learning_rate": 2.1794871794871795e-05,
+      "loss": 0.3081,
       "step": 711
     },
     {
+      "epoch": 18.0,
+      "eval_accuracy": 0.8690476190476191,
+      "eval_loss": 0.4321274161338806,
+      "eval_runtime": 10.2691,
+      "eval_samples_per_second": 122.699,
+      "eval_steps_per_second": 1.948,
       "step": 711
     },
     {
+      "epoch": 18.9873417721519,
+      "grad_norm": 2.0867300033569336,
+      "learning_rate": 1.9943019943019945e-05,
+      "loss": 0.3194,
       "step": 750
     },
     {
+      "epoch": 18.9873417721519,
+      "eval_accuracy": 0.8690476190476191,
+      "eval_loss": 0.4421131908893585,
+      "eval_runtime": 10.2636,
+      "eval_samples_per_second": 122.764,
+      "eval_steps_per_second": 1.949,
       "step": 750
     },
     {
+      "epoch": 20.0,
+      "grad_norm": 2.312155246734619,
+      "learning_rate": 1.804368471035138e-05,
+      "loss": 0.3102,
       "step": 790
     },
     {
+      "epoch": 20.0,
+      "eval_accuracy": 0.8682539682539683,
+      "eval_loss": 0.4470122754573822,
+      "eval_runtime": 10.428,
+      "eval_samples_per_second": 120.829,
+      "eval_steps_per_second": 1.918,
       "step": 790
     },
     {
+      "epoch": 20.9873417721519,
+      "grad_norm": 1.674055814743042,
+      "learning_rate": 1.6191832858499524e-05,
+      "loss": 0.2908,
       "step": 829
     },
     {
+      "epoch": 20.9873417721519,
+      "eval_accuracy": 0.8666666666666667,
+      "eval_loss": 0.4368663430213928,
+      "eval_runtime": 10.304,
+      "eval_samples_per_second": 122.282,
+      "eval_steps_per_second": 1.941,
       "step": 829
     },
     {
+      "epoch": 22.0,
+      "grad_norm": 1.8067846298217773,
+      "learning_rate": 1.4292497625830961e-05,
+      "loss": 0.2794,
       "step": 869
     },
     {
+      "epoch": 22.0,
+      "eval_accuracy": 0.8642857142857143,
+      "eval_loss": 0.4426242411136627,
+      "eval_runtime": 10.2667,
+      "eval_samples_per_second": 122.726,
+      "eval_steps_per_second": 1.948,
       "step": 869
     },
     {
+      "epoch": 22.9873417721519,
+      "grad_norm": 2.093015193939209,
+      "learning_rate": 1.2440645773979107e-05,
+      "loss": 0.2684,
       "step": 908
     },
     {
+      "epoch": 22.9873417721519,
+      "eval_accuracy": 0.8714285714285714,
+      "eval_loss": 0.4378375709056854,
+      "eval_runtime": 10.2839,
+      "eval_samples_per_second": 122.522,
+      "eval_steps_per_second": 1.945,
       "step": 908
     },
     {
+      "epoch": 24.0,
+      "grad_norm": 1.7382984161376953,
+      "learning_rate": 1.0541310541310543e-05,
+      "loss": 0.2635,
       "step": 948
     },
     {
+      "epoch": 24.0,
+      "eval_accuracy": 0.8698412698412699,
+      "eval_loss": 0.44393062591552734,
+      "eval_runtime": 10.2502,
+      "eval_samples_per_second": 122.924,
+      "eval_steps_per_second": 1.951,
       "step": 948
     },
     {
+      "epoch": 24.9873417721519,
+      "grad_norm": 1.4845259189605713,
+      "learning_rate": 8.68945868945869e-06,
+      "loss": 0.2754,
       "step": 987
     },
     {
+      "epoch": 24.9873417721519,
+      "eval_accuracy": 0.8642857142857143,
+      "eval_loss": 0.45485520362854004,
+      "eval_runtime": 10.2015,
+      "eval_samples_per_second": 123.511,
+      "eval_steps_per_second": 1.96,
       "step": 987
     },
     {
+      "epoch": 26.0,
+      "grad_norm": 1.6323109865188599,
+      "learning_rate": 6.790123456790123e-06,
+      "loss": 0.2669,
       "step": 1027
     },
     {
+      "epoch": 26.0,
+      "eval_accuracy": 0.8674603174603175,
+      "eval_loss": 0.44393137097358704,
+      "eval_runtime": 10.2535,
+      "eval_samples_per_second": 122.885,
+      "eval_steps_per_second": 1.951,
       "step": 1027
     },
     {
+      "epoch": 26.9873417721519,
+      "grad_norm": 1.589407205581665,
+      "learning_rate": 4.938271604938272e-06,
+      "loss": 0.2616,
       "step": 1066
     },
     {
+      "epoch": 26.9873417721519,
+      "eval_accuracy": 0.8714285714285714,
+      "eval_loss": 0.4428676962852478,
+      "eval_runtime": 10.2429,
+      "eval_samples_per_second": 123.012,
+      "eval_steps_per_second": 1.953,
       "step": 1066
     },
     {
+      "epoch": 28.0,
+      "grad_norm": 1.8043303489685059,
+      "learning_rate": 3.038936372269706e-06,
+      "loss": 0.2501,
       "step": 1106
     },
     {
+      "epoch": 28.0,
+      "eval_accuracy": 0.8698412698412699,
+      "eval_loss": 0.4408431649208069,
+      "eval_runtime": 10.1648,
+      "eval_samples_per_second": 123.957,
+      "eval_steps_per_second": 1.968,
       "step": 1106
     },
     {
+      "epoch": 28.9873417721519,
+      "grad_norm": 2.025970935821533,
+      "learning_rate": 1.1870845204178538e-06,
+      "loss": 0.2622,
       "step": 1145
     },
     {
+      "epoch": 28.9873417721519,
       "eval_accuracy": 0.8682539682539683,
+      "eval_loss": 0.4434352219104767,
+      "eval_runtime": 10.25,
+      "eval_samples_per_second": 122.927,
+      "eval_steps_per_second": 1.951,
+      "step": 1145
     },
     {
+      "epoch": 29.620253164556964,
+      "grad_norm": 1.5968279838562012,
       "learning_rate": 0.0,
+      "loss": 0.2511,
+      "step": 1170
     },
     {
+      "epoch": 29.620253164556964,
+      "eval_accuracy": 0.8682539682539683,
+      "eval_loss": 0.44374439120292664,
+      "eval_runtime": 10.1581,
+      "eval_samples_per_second": 124.038,
+      "eval_steps_per_second": 1.969,
+      "step": 1170
+    },
+    {
+      "epoch": 29.620253164556964,
+      "step": 1170,
+      "total_flos": 2.3141184141358596e+19,
+      "train_loss": 0.5155148339067769,
+      "train_runtime": 6443.0087,
+      "train_samples_per_second": 46.935,
+      "train_steps_per_second": 0.182
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1170,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.3141184141358596e+19,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a1c0f33a3024e6ec45ce8978209c580f91e2084ba0bf40c70af9b63aea9815a
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:51ee0160cc69a3dbfcc17aff11717ae1cc6585f42ff06591fe7fea8318305b6f
 size 5112