End of training

Browse files

Files changed (8) hide show

README.md +2 -0
all_results.json +19 -19
eval_results.json +7 -7
predict_results.json +8 -8
predictions.txt +0 -0
runs/May25_08-45-45_indolem-petl-vm/events.out.tfevents.1716628086.indolem-petl-vm.2046665.1 +3 -0
train_results.json +4 -4
trainer_state.json +202 -202

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

 ---
+language:
+- id
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

all_results.json CHANGED Viewed

@@ -1,25 +1,25 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.96064791811587,
-    "eval_f1": 0.8354500276090558,
-    "eval_loss": 0.16905945539474487,
-    "eval_precision": 0.7958968963703315,
     "eval_recall": 0.8791400348634515,
-    "eval_runtime": 4.4133,
     "eval_samples": 935,
-    "eval_samples_per_second": 211.862,
-    "eval_steps_per_second": 3.399,
-    "predict_accuracy": 0.9909633881476885,
-    "predict_f1": 0.9484726224783863,
-    "predict_loss": 0.03368888050317764,
-    "predict_precision": 0.9301379154420076,
-    "predict_recall": 0.9675446848541862,
-    "predict_runtime": 10.5734,
-    "predict_samples_per_second": 221.594,
-    "predict_steps_per_second": 3.499,
-    "train_loss": 0.08383050831881436,
-    "train_runtime": 1267.5015,
     "train_samples": 8437,
-    "train_samples_per_second": 133.128,
-    "train_steps_per_second": 8.331
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 0.9612441617807811,
+    "eval_f1": 0.829950630828305,
+    "eval_loss": 0.16526208817958832,
+    "eval_precision": 0.785974025974026,
     "eval_recall": 0.8791400348634515,
+    "eval_runtime": 4.5952,
     "eval_samples": 935,
+    "eval_samples_per_second": 203.475,
+    "eval_steps_per_second": 3.264,
+    "predict_accuracy": 0.9910021718895439,
+    "predict_f1": 0.9460332103321033,
+    "predict_loss": 0.03333849087357521,
+    "predict_precision": 0.928054298642534,
+    "predict_recall": 0.964722483537159,
+    "predict_runtime": 10.6661,
+    "predict_samples_per_second": 219.668,
+    "predict_steps_per_second": 3.469,
+    "train_loss": 0.0814560384461374,
+    "train_runtime": 1318.3663,
     "train_samples": 8437,
+    "train_samples_per_second": 127.992,
+    "train_steps_per_second": 8.01
 }

eval_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.96064791811587,
-    "eval_f1": 0.8354500276090558,
-    "eval_loss": 0.16905945539474487,
-    "eval_precision": 0.7958968963703315,
     "eval_recall": 0.8791400348634515,
-    "eval_runtime": 4.4133,
     "eval_samples": 935,
-    "eval_samples_per_second": 211.862,
-    "eval_steps_per_second": 3.399
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 0.9612441617807811,
+    "eval_f1": 0.829950630828305,
+    "eval_loss": 0.16526208817958832,
+    "eval_precision": 0.785974025974026,
     "eval_recall": 0.8791400348634515,
+    "eval_runtime": 4.5952,
     "eval_samples": 935,
+    "eval_samples_per_second": 203.475,
+    "eval_steps_per_second": 3.264
 }

predict_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "predict_accuracy": 0.9909633881476885,
-    "predict_f1": 0.9484726224783863,
-    "predict_loss": 0.03368888050317764,
-    "predict_precision": 0.9301379154420076,
-    "predict_recall": 0.9675446848541862,
-    "predict_runtime": 10.5734,
-    "predict_samples_per_second": 221.594,
-    "predict_steps_per_second": 3.499
 }

 {
+    "predict_accuracy": 0.9910021718895439,
+    "predict_f1": 0.9460332103321033,
+    "predict_loss": 0.03333849087357521,
+    "predict_precision": 0.928054298642534,
+    "predict_recall": 0.964722483537159,
+    "predict_runtime": 10.6661,
+    "predict_samples_per_second": 219.668,
+    "predict_steps_per_second": 3.469
 }

predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

runs/May25_08-45-45_indolem-petl-vm/events.out.tfevents.1716628086.indolem-petl-vm.2046665.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ace42df963bbd1d29a68716e0990e32b2a9b319924fb6c779bc0f7e3b50394c2
+size 560

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "train_loss": 0.08383050831881436,
-    "train_runtime": 1267.5015,
     "train_samples": 8437,
-    "train_samples_per_second": 133.128,
-    "train_steps_per_second": 8.331
 }

 {
     "epoch": 20.0,
+    "train_loss": 0.0814560384461374,
+    "train_runtime": 1318.3663,
     "train_samples": 8437,
+    "train_samples_per_second": 127.992,
+    "train_steps_per_second": 8.01
 }

trainer_state.json CHANGED Viewed

@@ -10,392 +10,392 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 1.0725470781326294,
       "learning_rate": 4.75e-05,
-      "loss": 0.4425,
       "step": 528
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.9451455828281824,
-      "eval_f1": 0.7537506466632177,
-      "eval_loss": 0.163856640458107,
-      "eval_precision": 0.6792540792540792,
-      "eval_recall": 0.8466008134805346,
-      "eval_runtime": 4.0498,
-      "eval_samples_per_second": 230.874,
-      "eval_steps_per_second": 3.704,
       "step": 528
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.5166040658950806,
       "learning_rate": 4.5e-05,
-      "loss": 0.1477,
       "step": 1056
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.9591076219815164,
-      "eval_f1": 0.81545528235612,
-      "eval_loss": 0.12932351231575012,
-      "eval_precision": 0.7621212121212121,
-      "eval_recall": 0.8768158047646717,
-      "eval_runtime": 4.3607,
-      "eval_samples_per_second": 214.417,
-      "eval_steps_per_second": 3.44,
       "step": 1056
     },
     {
       "epoch": 3.0,
-      "grad_norm": 1.065200686454773,
       "learning_rate": 4.25e-05,
-      "loss": 0.1181,
       "step": 1584
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9586604392328332,
-      "eval_f1": 0.8241286863270778,
-      "eval_loss": 0.13230960071086884,
-      "eval_precision": 0.7650572424091587,
-      "eval_recall": 0.8930854154561302,
-      "eval_runtime": 4.4799,
-      "eval_samples_per_second": 208.711,
-      "eval_steps_per_second": 3.348,
       "step": 1584
     },
     {
       "epoch": 4.0,
-      "grad_norm": 1.7599948644638062,
       "learning_rate": 4e-05,
-      "loss": 0.1024,
       "step": 2112
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9584616913445294,
-      "eval_f1": 0.8290968090859925,
-      "eval_loss": 0.13213977217674255,
-      "eval_precision": 0.7754172989377845,
-      "eval_recall": 0.8907611853573504,
-      "eval_runtime": 4.7508,
-      "eval_samples_per_second": 196.81,
-      "eval_steps_per_second": 3.157,
       "step": 2112
     },
     {
       "epoch": 5.0,
-      "grad_norm": 1.1072996854782104,
       "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.0897,
       "step": 2640
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.963231640663818,
-      "eval_f1": 0.8354500276090558,
-      "eval_loss": 0.1244335025548935,
-      "eval_precision": 0.7958968963703315,
-      "eval_recall": 0.8791400348634515,
-      "eval_runtime": 4.5426,
-      "eval_samples_per_second": 205.827,
-      "eval_steps_per_second": 3.302,
       "step": 2640
     },
     {
       "epoch": 6.0,
-      "grad_norm": 1.0734171867370605,
       "learning_rate": 3.5e-05,
-      "loss": 0.0819,
       "step": 3168
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9630328927755143,
-      "eval_f1": 0.8455598455598455,
-      "eval_loss": 0.13085626065731049,
-      "eval_precision": 0.8047244094488188,
-      "eval_recall": 0.8907611853573504,
-      "eval_runtime": 4.5169,
-      "eval_samples_per_second": 207.0,
-      "eval_steps_per_second": 3.321,
       "step": 3168
     },
     {
       "epoch": 7.0,
-      "grad_norm": 1.2100149393081665,
       "learning_rate": 3.2500000000000004e-05,
-      "loss": 0.0745,
       "step": 3696
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9610454138924774,
-      "eval_f1": 0.824793388429752,
-      "eval_loss": 0.13755032420158386,
-      "eval_precision": 0.7841801990570979,
-      "eval_recall": 0.8698431144683324,
-      "eval_runtime": 4.549,
-      "eval_samples_per_second": 205.542,
-      "eval_steps_per_second": 3.297,
       "step": 3696
     },
     {
       "epoch": 8.0,
-      "grad_norm": 0.23592530190944672,
       "learning_rate": 3e-05,
-      "loss": 0.0675,
       "step": 4224
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9576666997913147,
-      "eval_f1": 0.8197706171490988,
-      "eval_loss": 0.1482686847448349,
-      "eval_precision": 0.7733127253992788,
-      "eval_recall": 0.8721673445671121,
-      "eval_runtime": 4.5189,
-      "eval_samples_per_second": 206.909,
-      "eval_steps_per_second": 3.319,
       "step": 4224
     },
     {
       "epoch": 9.0,
-      "grad_norm": 0.7292873859405518,
       "learning_rate": 2.7500000000000004e-05,
-      "loss": 0.0628,
       "step": 4752
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.9620391533339958,
-      "eval_f1": 0.831951354339414,
-      "eval_loss": 0.1377291977405548,
-      "eval_precision": 0.7933579335793358,
-      "eval_recall": 0.8744915746658919,
-      "eval_runtime": 4.5138,
-      "eval_samples_per_second": 207.145,
-      "eval_steps_per_second": 3.323,
       "step": 4752
     },
     {
       "epoch": 10.0,
-      "grad_norm": 1.6225199699401855,
       "learning_rate": 2.5e-05,
-      "loss": 0.0579,
       "step": 5280
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.9608466660041737,
-      "eval_f1": 0.837094111172262,
-      "eval_loss": 0.14934156835079193,
-      "eval_precision": 0.7950862519602718,
-      "eval_recall": 0.8837884950610111,
-      "eval_runtime": 4.4996,
-      "eval_samples_per_second": 207.794,
-      "eval_steps_per_second": 3.334,
       "step": 5280
     },
     {
       "epoch": 11.0,
-      "grad_norm": 1.5616343021392822,
       "learning_rate": 2.25e-05,
-      "loss": 0.0547,
       "step": 5808
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.9622379012222995,
-      "eval_f1": 0.841845140032949,
-      "eval_loss": 0.144600972533226,
-      "eval_precision": 0.7980218636127017,
-      "eval_recall": 0.8907611853573504,
-      "eval_runtime": 4.5205,
-      "eval_samples_per_second": 206.834,
-      "eval_steps_per_second": 3.318,
       "step": 5808
     },
     {
       "epoch": 12.0,
-      "grad_norm": 2.8776261806488037,
       "learning_rate": 2e-05,
-      "loss": 0.0505,
       "step": 6336
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.9610454138924774,
-      "eval_f1": 0.8361737218251787,
-      "eval_loss": 0.15445734560489655,
-      "eval_precision": 0.7934272300469484,
-      "eval_recall": 0.8837884950610111,
-      "eval_runtime": 4.5955,
-      "eval_samples_per_second": 203.459,
-      "eval_steps_per_second": 3.264,
       "step": 6336
     },
     {
       "epoch": 13.0,
-      "grad_norm": 0.46279987692832947,
       "learning_rate": 1.75e-05,
-      "loss": 0.0487,
       "step": 6864
     },
     {
       "epoch": 13.0,
       "eval_accuracy": 0.9608466660041737,
-      "eval_f1": 0.8358126721763085,
-      "eval_loss": 0.15944679081439972,
-      "eval_precision": 0.7946568884232582,
-      "eval_recall": 0.8814642649622313,
-      "eval_runtime": 4.594,
-      "eval_samples_per_second": 203.525,
-      "eval_steps_per_second": 3.265,
       "step": 6864
     },
     {
       "epoch": 14.0,
-      "grad_norm": 0.2790946066379547,
       "learning_rate": 1.5e-05,
-      "loss": 0.0454,
       "step": 7392
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.9612441617807811,
-      "eval_f1": 0.8416062465142219,
-      "eval_loss": 0.15950244665145874,
-      "eval_precision": 0.8091152815013405,
-      "eval_recall": 0.8768158047646717,
-      "eval_runtime": 4.496,
-      "eval_samples_per_second": 207.964,
-      "eval_steps_per_second": 3.336,
       "step": 7392
     },
     {
       "epoch": 15.0,
-      "grad_norm": 0.2504570782184601,
       "learning_rate": 1.25e-05,
-      "loss": 0.0429,
       "step": 7920
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.9608466660041737,
-      "eval_f1": 0.8365758754863813,
-      "eval_loss": 0.16204151511192322,
-      "eval_precision": 0.8018114011720832,
-      "eval_recall": 0.8744915746658919,
-      "eval_runtime": 4.51,
-      "eval_samples_per_second": 207.319,
-      "eval_steps_per_second": 3.326,
       "step": 7920
     },
     {
       "epoch": 16.0,
-      "grad_norm": 1.7614328861236572,
       "learning_rate": 1e-05,
-      "loss": 0.0407,
       "step": 8448
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.963231640663818,
-      "eval_f1": 0.8454697053918844,
-      "eval_loss": 0.15911279618740082,
-      "eval_precision": 0.810335641981886,
-      "eval_recall": 0.8837884950610111,
-      "eval_runtime": 4.6043,
-      "eval_samples_per_second": 203.07,
-      "eval_steps_per_second": 3.258,
       "step": 8448
     },
     {
       "epoch": 17.0,
-      "grad_norm": 0.08284368366003036,
       "learning_rate": 7.5e-06,
-      "loss": 0.0397,
       "step": 8976
     },
     {
       "epoch": 17.0,
-      "eval_accuracy": 0.96064791811587,
-      "eval_f1": 0.83601108033241,
-      "eval_loss": 0.1620124876499176,
-      "eval_precision": 0.7988353626257279,
-      "eval_recall": 0.8768158047646717,
-      "eval_runtime": 4.5145,
-      "eval_samples_per_second": 207.113,
-      "eval_steps_per_second": 3.323,
       "step": 8976
     },
     {
       "epoch": 18.0,
-      "grad_norm": 1.4568191766738892,
       "learning_rate": 5e-06,
-      "loss": 0.0375,
       "step": 9504
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.9592566828977442,
-      "eval_f1": 0.8303229337712096,
-      "eval_loss": 0.16869747638702393,
-      "eval_precision": 0.784790481117434,
-      "eval_recall": 0.8814642649622313,
-      "eval_runtime": 4.5316,
-      "eval_samples_per_second": 206.33,
-      "eval_steps_per_second": 3.31,
       "step": 9504
     },
     {
       "epoch": 19.0,
-      "grad_norm": 1.1597135066986084,
       "learning_rate": 2.5e-06,
-      "loss": 0.0361,
       "step": 10032
     },
     {
       "epoch": 19.0,
-      "eval_accuracy": 0.9614429096690847,
-      "eval_f1": 0.8378678511937813,
-      "eval_loss": 0.1673024296760559,
-      "eval_precision": 0.8022328548644339,
-      "eval_recall": 0.8768158047646717,
-      "eval_runtime": 4.6304,
-      "eval_samples_per_second": 201.924,
-      "eval_steps_per_second": 3.239,
       "step": 10032
     },
     {
       "epoch": 20.0,
-      "grad_norm": 0.9693964719772339,
       "learning_rate": 0.0,
-      "loss": 0.0356,
       "step": 10560
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.96064791811587,
-      "eval_f1": 0.8354500276090558,
-      "eval_loss": 0.16905945539474487,
-      "eval_precision": 0.7958968963703315,
       "eval_recall": 0.8791400348634515,
-      "eval_runtime": 4.6757,
-      "eval_samples_per_second": 199.97,
-      "eval_steps_per_second": 3.208,
       "step": 10560
     },
     {
       "epoch": 20.0,
       "step": 10560,
       "total_flos": 5062583230111038.0,
-      "train_loss": 0.08383050831881436,
-      "train_runtime": 1267.5015,
-      "train_samples_per_second": 133.128,
-      "train_steps_per_second": 8.331
     }
   ],
   "logging_steps": 500,

   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.8100232481956482,
       "learning_rate": 4.75e-05,
+      "loss": 0.4348,
       "step": 528
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.950561462784458,
+      "eval_f1": 0.7816627816627817,
+      "eval_loss": 0.15243592858314514,
+      "eval_precision": 0.7051401869158879,
+      "eval_recall": 0.8768158047646717,
+      "eval_runtime": 4.5709,
+      "eval_samples_per_second": 204.556,
+      "eval_steps_per_second": 3.282,
       "step": 528
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.6027082800865173,
       "learning_rate": 4.5e-05,
+      "loss": 0.1432,
       "step": 1056
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.957467951903011,
+      "eval_f1": 0.7962466487935658,
+      "eval_loss": 0.1272890865802765,
+      "eval_precision": 0.7391737182677949,
+      "eval_recall": 0.862870424171993,
+      "eval_runtime": 4.7255,
+      "eval_samples_per_second": 197.861,
+      "eval_steps_per_second": 3.174,
       "step": 1056
     },
     {
       "epoch": 3.0,
+      "grad_norm": 1.0035598278045654,
       "learning_rate": 4.25e-05,
+      "loss": 0.1149,
       "step": 1584
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9554804730199742,
+      "eval_f1": 0.8087049973132725,
+      "eval_loss": 0.13823477923870087,
+      "eval_precision": 0.7521239380309845,
+      "eval_recall": 0.8744915746658919,
+      "eval_runtime": 4.5819,
+      "eval_samples_per_second": 204.062,
+      "eval_steps_per_second": 3.274,
       "step": 1584
     },
     {
       "epoch": 4.0,
+      "grad_norm": 1.8790736198425293,
       "learning_rate": 4e-05,
+      "loss": 0.0978,
       "step": 2112
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9576666997913147,
+      "eval_f1": 0.8132894014277869,
+      "eval_loss": 0.13224001228809357,
+      "eval_precision": 0.7709526288391463,
+      "eval_recall": 0.8605461940732132,
+      "eval_runtime": 4.596,
+      "eval_samples_per_second": 203.437,
+      "eval_steps_per_second": 3.264,
       "step": 2112
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.9501886367797852,
       "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.0873,
       "step": 2640
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9578654476796185,
+      "eval_f1": 0.8121964382083108,
+      "eval_loss": 0.13743577897548676,
+      "eval_precision": 0.7581863979848866,
+      "eval_recall": 0.8744915746658919,
+      "eval_runtime": 4.6679,
+      "eval_samples_per_second": 200.305,
+      "eval_steps_per_second": 3.213,
       "step": 2640
     },
     {
       "epoch": 6.0,
+      "grad_norm": 1.0721073150634766,
       "learning_rate": 3.5e-05,
+      "loss": 0.0781,
       "step": 3168
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.963231640663818,
+      "eval_f1": 0.8332400671516508,
+      "eval_loss": 0.13460490107536316,
+      "eval_precision": 0.8035617916891528,
+      "eval_recall": 0.8651946542707728,
+      "eval_runtime": 4.5754,
+      "eval_samples_per_second": 204.353,
+      "eval_steps_per_second": 3.278,
       "step": 3168
     },
     {
       "epoch": 7.0,
+      "grad_norm": 0.6200407147407532,
       "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.0709,
       "step": 3696
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.96064791811587,
+      "eval_f1": 0.829950630828305,
+      "eval_loss": 0.14596135914325714,
+      "eval_precision": 0.785974025974026,
+      "eval_recall": 0.8791400348634515,
+      "eval_runtime": 4.6372,
+      "eval_samples_per_second": 201.629,
+      "eval_steps_per_second": 3.235,
       "step": 3696
     },
     {
       "epoch": 8.0,
+      "grad_norm": 0.3982696235179901,
       "learning_rate": 3e-05,
+      "loss": 0.0656,
       "step": 4224
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9578654476796185,
+      "eval_f1": 0.8218040951853902,
+      "eval_loss": 0.14514297246932983,
+      "eval_precision": 0.7844690966719493,
+      "eval_recall": 0.862870424171993,
+      "eval_runtime": 4.6002,
+      "eval_samples_per_second": 203.254,
+      "eval_steps_per_second": 3.261,
       "step": 4224
     },
     {
       "epoch": 9.0,
+      "grad_norm": 1.1954327821731567,
       "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.0606,
       "step": 4752
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.9580641955679221,
+      "eval_f1": 0.8185816382627817,
+      "eval_loss": 0.14650680124759674,
+      "eval_precision": 0.7767344809598331,
+      "eval_recall": 0.8651946542707728,
+      "eval_runtime": 4.5627,
+      "eval_samples_per_second": 204.924,
+      "eval_steps_per_second": 3.288,
       "step": 4752
     },
     {
       "epoch": 10.0,
+      "grad_norm": 1.46392822265625,
       "learning_rate": 2.5e-05,
+      "loss": 0.0563,
       "step": 5280
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.9590579350094405,
+      "eval_f1": 0.8308621636463481,
+      "eval_loss": 0.15200696885585785,
+      "eval_precision": 0.7876106194690266,
+      "eval_recall": 0.8791400348634515,
+      "eval_runtime": 4.5886,
+      "eval_samples_per_second": 203.765,
+      "eval_steps_per_second": 3.269,
       "step": 5280
     },
     {
       "epoch": 11.0,
+      "grad_norm": 1.8282573223114014,
       "learning_rate": 2.25e-05,
+      "loss": 0.0523,
       "step": 5808
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.9566729603497963,
+      "eval_f1": 0.8245231607629426,
+      "eval_loss": 0.15866349637508392,
+      "eval_precision": 0.7762955361723961,
+      "eval_recall": 0.8791400348634515,
+      "eval_runtime": 4.6167,
+      "eval_samples_per_second": 202.525,
+      "eval_steps_per_second": 3.249,
       "step": 5808
     },
     {
       "epoch": 12.0,
+      "grad_norm": 0.6378235816955566,
       "learning_rate": 2e-05,
+      "loss": 0.0504,
       "step": 6336
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.9592566828977442,
+      "eval_f1": 0.8310626702997276,
+      "eval_loss": 0.15401104092597961,
+      "eval_precision": 0.7824525397639815,
+      "eval_recall": 0.8861127251597908,
+      "eval_runtime": 5.0455,
+      "eval_samples_per_second": 185.315,
+      "eval_steps_per_second": 2.973,
       "step": 6336
     },
     {
       "epoch": 13.0,
+      "grad_norm": 0.47105222940444946,
       "learning_rate": 1.75e-05,
+      "loss": 0.0465,
       "step": 6864
     },
     {
       "epoch": 13.0,
       "eval_accuracy": 0.9608466660041737,
+      "eval_f1": 0.831404958677686,
+      "eval_loss": 0.15168695151805878,
+      "eval_precision": 0.7904662126767942,
+      "eval_recall": 0.8768158047646717,
+      "eval_runtime": 4.5874,
+      "eval_samples_per_second": 203.819,
+      "eval_steps_per_second": 3.27,
       "step": 6864
     },
     {
       "epoch": 14.0,
+      "grad_norm": 0.6378626227378845,
       "learning_rate": 1.5e-05,
+      "loss": 0.0435,
       "step": 7392
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.9622379012222995,
+      "eval_f1": 0.8302828618968386,
+      "eval_loss": 0.1564669907093048,
+      "eval_precision": 0.7941644562334218,
+      "eval_recall": 0.8698431144683324,
+      "eval_runtime": 4.6735,
+      "eval_samples_per_second": 200.064,
+      "eval_steps_per_second": 3.21,
       "step": 7392
     },
     {
       "epoch": 15.0,
+      "grad_norm": 0.05927232280373573,
       "learning_rate": 1.25e-05,
+      "loss": 0.0411,
       "step": 7920
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.9624366491106032,
+      "eval_f1": 0.8267629094947252,
+      "eval_loss": 0.15700677037239075,
+      "eval_precision": 0.7916002126528442,
+      "eval_recall": 0.8651946542707728,
+      "eval_runtime": 4.585,
+      "eval_samples_per_second": 203.925,
+      "eval_steps_per_second": 3.272,
       "step": 7920
     },
     {
       "epoch": 16.0,
+      "grad_norm": 2.510366916656494,
       "learning_rate": 1e-05,
+      "loss": 0.04,
       "step": 8448
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.9618404054456922,
+      "eval_f1": 0.8308621636463481,
+      "eval_loss": 0.16134144365787506,
+      "eval_precision": 0.7876106194690266,
+      "eval_recall": 0.8791400348634515,
+      "eval_runtime": 4.598,
+      "eval_samples_per_second": 203.348,
+      "eval_steps_per_second": 3.262,
       "step": 8448
     },
     {
       "epoch": 17.0,
+      "grad_norm": 0.10409926623106003,
       "learning_rate": 7.5e-06,
+      "loss": 0.0385,
       "step": 8976
     },
     {
       "epoch": 17.0,
+      "eval_accuracy": 0.9594554307860479,
+      "eval_f1": 0.8274552360282147,
+      "eval_loss": 0.1708444207906723,
+      "eval_precision": 0.7760814249363868,
+      "eval_recall": 0.8861127251597908,
+      "eval_runtime": 4.6748,
+      "eval_samples_per_second": 200.008,
+      "eval_steps_per_second": 3.209,
       "step": 8976
     },
     {
       "epoch": 18.0,
+      "grad_norm": 1.0784730911254883,
       "learning_rate": 5e-06,
+      "loss": 0.037,
       "step": 9504
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.9620391533339958,
+      "eval_f1": 0.831578947368421,
+      "eval_loss": 0.1626226305961609,
+      "eval_precision": 0.7946003176283748,
+      "eval_recall": 0.8721673445671121,
+      "eval_runtime": 5.2776,
+      "eval_samples_per_second": 177.163,
+      "eval_steps_per_second": 2.842,
       "step": 9504
     },
     {
       "epoch": 19.0,
+      "grad_norm": 0.881395697593689,
       "learning_rate": 2.5e-06,
+      "loss": 0.035,
       "step": 10032
     },
     {
       "epoch": 19.0,
+      "eval_accuracy": 0.9622379012222995,
+      "eval_f1": 0.8297401879491432,
+      "eval_loss": 0.1642664223909378,
+      "eval_precision": 0.7912493410648392,
+      "eval_recall": 0.8721673445671121,
+      "eval_runtime": 4.5963,
+      "eval_samples_per_second": 203.426,
+      "eval_steps_per_second": 3.264,
       "step": 10032
     },
     {
       "epoch": 20.0,
+      "grad_norm": 0.892469048500061,
       "learning_rate": 0.0,
+      "loss": 0.0352,
       "step": 10560
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.9612441617807811,
+      "eval_f1": 0.829950630828305,
+      "eval_loss": 0.16526208817958832,
+      "eval_precision": 0.785974025974026,
       "eval_recall": 0.8791400348634515,
+      "eval_runtime": 4.5732,
+      "eval_samples_per_second": 204.45,
+      "eval_steps_per_second": 3.28,
       "step": 10560
     },
     {
       "epoch": 20.0,
       "step": 10560,
       "total_flos": 5062583230111038.0,
+      "train_loss": 0.0814560384461374,
+      "train_runtime": 1318.3663,
+      "train_samples_per_second": 127.992,
+      "train_steps_per_second": 8.01
     }
   ],
   "logging_steps": 500,