End of training

Browse files

Files changed (8) hide show

README.md +2 -0
all_results.json +20 -20
eval_results.json +8 -8
predict_results.json +8 -8
predictions.txt +0 -0
runs/May25_09-08-33_indolem-petl-vm/events.out.tfevents.1716629479.indolem-petl-vm.2062959.1 +3 -0
train_results.json +4 -4
trainer_state.json +203 -203

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

 ---
+language:
+- id
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

all_results.json CHANGED Viewed

@@ -1,25 +1,25 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.9612441617807811,
-    "eval_f1": 0.829950630828305,
-    "eval_loss": 0.16526208817958832,
-    "eval_precision": 0.785974025974026,
-    "eval_recall": 0.8791400348634515,
-    "eval_runtime": 4.5952,
     "eval_samples": 935,
-    "eval_samples_per_second": 203.475,
-    "eval_steps_per_second": 3.264,
-    "predict_accuracy": 0.9910021718895439,
-    "predict_f1": 0.9460332103321033,
-    "predict_loss": 0.03333849087357521,
-    "predict_precision": 0.928054298642534,
-    "predict_recall": 0.964722483537159,
-    "predict_runtime": 10.6661,
-    "predict_samples_per_second": 219.668,
-    "predict_steps_per_second": 3.469,
-    "train_loss": 0.0814560384461374,
-    "train_runtime": 1318.3663,
     "train_samples": 8437,
-    "train_samples_per_second": 127.992,
-    "train_steps_per_second": 8.01
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 0.9608466660041737,
+    "eval_f1": 0.8321289605336298,
+    "eval_loss": 0.17778323590755463,
+    "eval_precision": 0.7975492807671817,
+    "eval_recall": 0.8698431144683324,
+    "eval_runtime": 4.5207,
     "eval_samples": 935,
+    "eval_samples_per_second": 206.828,
+    "eval_steps_per_second": 3.318,
+    "predict_accuracy": 0.9915645361464475,
+    "predict_f1": 0.9511687109465402,
+    "predict_loss": 0.03257888928055763,
+    "predict_precision": 0.9362186788154897,
+    "predict_recall": 0.9666039510818438,
+    "predict_runtime": 10.6853,
+    "predict_samples_per_second": 219.273,
+    "predict_steps_per_second": 3.463,
+    "train_loss": 0.08150525255636736,
+    "train_runtime": 1343.1683,
     "train_samples": 8437,
+    "train_samples_per_second": 125.628,
+    "train_steps_per_second": 7.862
 }

eval_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.9612441617807811,
-    "eval_f1": 0.829950630828305,
-    "eval_loss": 0.16526208817958832,
-    "eval_precision": 0.785974025974026,
-    "eval_recall": 0.8791400348634515,
-    "eval_runtime": 4.5952,
     "eval_samples": 935,
-    "eval_samples_per_second": 203.475,
-    "eval_steps_per_second": 3.264
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 0.9608466660041737,
+    "eval_f1": 0.8321289605336298,
+    "eval_loss": 0.17778323590755463,
+    "eval_precision": 0.7975492807671817,
+    "eval_recall": 0.8698431144683324,
+    "eval_runtime": 4.5207,
     "eval_samples": 935,
+    "eval_samples_per_second": 206.828,
+    "eval_steps_per_second": 3.318
 }

predict_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "predict_accuracy": 0.9910021718895439,
-    "predict_f1": 0.9460332103321033,
-    "predict_loss": 0.03333849087357521,
-    "predict_precision": 0.928054298642534,
-    "predict_recall": 0.964722483537159,
-    "predict_runtime": 10.6661,
-    "predict_samples_per_second": 219.668,
-    "predict_steps_per_second": 3.469
 }

 {
+    "predict_accuracy": 0.9915645361464475,
+    "predict_f1": 0.9511687109465402,
+    "predict_loss": 0.03257888928055763,
+    "predict_precision": 0.9362186788154897,
+    "predict_recall": 0.9666039510818438,
+    "predict_runtime": 10.6853,
+    "predict_samples_per_second": 219.273,
+    "predict_steps_per_second": 3.463
 }

predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

runs/May25_09-08-33_indolem-petl-vm/events.out.tfevents.1716629479.indolem-petl-vm.2062959.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b27faa5d19209d3c836a2af64fee64dd387facb449754983301f62eb77c23368
+size 560

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "train_loss": 0.0814560384461374,
-    "train_runtime": 1318.3663,
     "train_samples": 8437,
-    "train_samples_per_second": 127.992,
-    "train_steps_per_second": 8.01
 }

 {
     "epoch": 20.0,
+    "train_loss": 0.08150525255636736,
+    "train_runtime": 1343.1683,
     "train_samples": 8437,
+    "train_samples_per_second": 125.628,
+    "train_steps_per_second": 7.862
 }

trainer_state.json CHANGED Viewed

@@ -10,392 +10,392 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.8100232481956482,
       "learning_rate": 4.75e-05,
-      "loss": 0.4348,
       "step": 528
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.950561462784458,
-      "eval_f1": 0.7816627816627817,
-      "eval_loss": 0.15243592858314514,
-      "eval_precision": 0.7051401869158879,
-      "eval_recall": 0.8768158047646717,
-      "eval_runtime": 4.5709,
-      "eval_samples_per_second": 204.556,
-      "eval_steps_per_second": 3.282,
       "step": 528
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.6027082800865173,
       "learning_rate": 4.5e-05,
-      "loss": 0.1432,
       "step": 1056
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.957467951903011,
-      "eval_f1": 0.7962466487935658,
-      "eval_loss": 0.1272890865802765,
-      "eval_precision": 0.7391737182677949,
-      "eval_recall": 0.862870424171993,
-      "eval_runtime": 4.7255,
-      "eval_samples_per_second": 197.861,
-      "eval_steps_per_second": 3.174,
       "step": 1056
     },
     {
       "epoch": 3.0,
-      "grad_norm": 1.0035598278045654,
       "learning_rate": 4.25e-05,
-      "loss": 0.1149,
       "step": 1584
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9554804730199742,
-      "eval_f1": 0.8087049973132725,
-      "eval_loss": 0.13823477923870087,
-      "eval_precision": 0.7521239380309845,
-      "eval_recall": 0.8744915746658919,
-      "eval_runtime": 4.5819,
-      "eval_samples_per_second": 204.062,
-      "eval_steps_per_second": 3.274,
       "step": 1584
     },
     {
       "epoch": 4.0,
-      "grad_norm": 1.8790736198425293,
       "learning_rate": 4e-05,
-      "loss": 0.0978,
       "step": 2112
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9576666997913147,
-      "eval_f1": 0.8132894014277869,
-      "eval_loss": 0.13224001228809357,
-      "eval_precision": 0.7709526288391463,
-      "eval_recall": 0.8605461940732132,
-      "eval_runtime": 4.596,
-      "eval_samples_per_second": 203.437,
-      "eval_steps_per_second": 3.264,
       "step": 2112
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.9501886367797852,
       "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.0873,
       "step": 2640
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9578654476796185,
-      "eval_f1": 0.8121964382083108,
-      "eval_loss": 0.13743577897548676,
-      "eval_precision": 0.7581863979848866,
-      "eval_recall": 0.8744915746658919,
-      "eval_runtime": 4.6679,
-      "eval_samples_per_second": 200.305,
-      "eval_steps_per_second": 3.213,
       "step": 2640
     },
     {
       "epoch": 6.0,
-      "grad_norm": 1.0721073150634766,
       "learning_rate": 3.5e-05,
-      "loss": 0.0781,
       "step": 3168
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.963231640663818,
-      "eval_f1": 0.8332400671516508,
-      "eval_loss": 0.13460490107536316,
-      "eval_precision": 0.8035617916891528,
-      "eval_recall": 0.8651946542707728,
-      "eval_runtime": 4.5754,
-      "eval_samples_per_second": 204.353,
-      "eval_steps_per_second": 3.278,
       "step": 3168
     },
     {
       "epoch": 7.0,
-      "grad_norm": 0.6200407147407532,
       "learning_rate": 3.2500000000000004e-05,
-      "loss": 0.0709,
       "step": 3696
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.96064791811587,
-      "eval_f1": 0.829950630828305,
-      "eval_loss": 0.14596135914325714,
-      "eval_precision": 0.785974025974026,
-      "eval_recall": 0.8791400348634515,
-      "eval_runtime": 4.6372,
-      "eval_samples_per_second": 201.629,
-      "eval_steps_per_second": 3.235,
       "step": 3696
     },
     {
       "epoch": 8.0,
-      "grad_norm": 0.3982696235179901,
       "learning_rate": 3e-05,
-      "loss": 0.0656,
       "step": 4224
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9578654476796185,
-      "eval_f1": 0.8218040951853902,
-      "eval_loss": 0.14514297246932983,
-      "eval_precision": 0.7844690966719493,
-      "eval_recall": 0.862870424171993,
-      "eval_runtime": 4.6002,
-      "eval_samples_per_second": 203.254,
-      "eval_steps_per_second": 3.261,
       "step": 4224
     },
     {
       "epoch": 9.0,
-      "grad_norm": 1.1954327821731567,
       "learning_rate": 2.7500000000000004e-05,
-      "loss": 0.0606,
       "step": 4752
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.9580641955679221,
-      "eval_f1": 0.8185816382627817,
-      "eval_loss": 0.14650680124759674,
-      "eval_precision": 0.7767344809598331,
-      "eval_recall": 0.8651946542707728,
-      "eval_runtime": 4.5627,
-      "eval_samples_per_second": 204.924,
-      "eval_steps_per_second": 3.288,
       "step": 4752
     },
     {
       "epoch": 10.0,
-      "grad_norm": 1.46392822265625,
       "learning_rate": 2.5e-05,
-      "loss": 0.0563,
       "step": 5280
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.9590579350094405,
-      "eval_f1": 0.8308621636463481,
-      "eval_loss": 0.15200696885585785,
-      "eval_precision": 0.7876106194690266,
-      "eval_recall": 0.8791400348634515,
-      "eval_runtime": 4.5886,
-      "eval_samples_per_second": 203.765,
-      "eval_steps_per_second": 3.269,
       "step": 5280
     },
     {
       "epoch": 11.0,
-      "grad_norm": 1.8282573223114014,
       "learning_rate": 2.25e-05,
-      "loss": 0.0523,
       "step": 5808
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.9566729603497963,
-      "eval_f1": 0.8245231607629426,
-      "eval_loss": 0.15866349637508392,
-      "eval_precision": 0.7762955361723961,
-      "eval_recall": 0.8791400348634515,
-      "eval_runtime": 4.6167,
-      "eval_samples_per_second": 202.525,
-      "eval_steps_per_second": 3.249,
       "step": 5808
     },
     {
       "epoch": 12.0,
-      "grad_norm": 0.6378235816955566,
       "learning_rate": 2e-05,
-      "loss": 0.0504,
       "step": 6336
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.9592566828977442,
-      "eval_f1": 0.8310626702997276,
-      "eval_loss": 0.15401104092597961,
-      "eval_precision": 0.7824525397639815,
-      "eval_recall": 0.8861127251597908,
-      "eval_runtime": 5.0455,
-      "eval_samples_per_second": 185.315,
-      "eval_steps_per_second": 2.973,
       "step": 6336
     },
     {
       "epoch": 13.0,
-      "grad_norm": 0.47105222940444946,
       "learning_rate": 1.75e-05,
-      "loss": 0.0465,
       "step": 6864
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.9608466660041737,
-      "eval_f1": 0.831404958677686,
-      "eval_loss": 0.15168695151805878,
-      "eval_precision": 0.7904662126767942,
-      "eval_recall": 0.8768158047646717,
-      "eval_runtime": 4.5874,
-      "eval_samples_per_second": 203.819,
-      "eval_steps_per_second": 3.27,
       "step": 6864
     },
     {
       "epoch": 14.0,
-      "grad_norm": 0.6378626227378845,
       "learning_rate": 1.5e-05,
-      "loss": 0.0435,
       "step": 7392
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.9622379012222995,
-      "eval_f1": 0.8302828618968386,
-      "eval_loss": 0.1564669907093048,
-      "eval_precision": 0.7941644562334218,
-      "eval_recall": 0.8698431144683324,
-      "eval_runtime": 4.6735,
-      "eval_samples_per_second": 200.064,
-      "eval_steps_per_second": 3.21,
       "step": 7392
     },
     {
       "epoch": 15.0,
-      "grad_norm": 0.05927232280373573,
       "learning_rate": 1.25e-05,
-      "loss": 0.0411,
       "step": 7920
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.9624366491106032,
-      "eval_f1": 0.8267629094947252,
-      "eval_loss": 0.15700677037239075,
-      "eval_precision": 0.7916002126528442,
-      "eval_recall": 0.8651946542707728,
-      "eval_runtime": 4.585,
-      "eval_samples_per_second": 203.925,
-      "eval_steps_per_second": 3.272,
       "step": 7920
     },
     {
       "epoch": 16.0,
-      "grad_norm": 2.510366916656494,
       "learning_rate": 1e-05,
-      "loss": 0.04,
       "step": 8448
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.9618404054456922,
-      "eval_f1": 0.8308621636463481,
-      "eval_loss": 0.16134144365787506,
-      "eval_precision": 0.7876106194690266,
       "eval_recall": 0.8791400348634515,
-      "eval_runtime": 4.598,
-      "eval_samples_per_second": 203.348,
-      "eval_steps_per_second": 3.262,
       "step": 8448
     },
     {
       "epoch": 17.0,
-      "grad_norm": 0.10409926623106003,
       "learning_rate": 7.5e-06,
-      "loss": 0.0385,
       "step": 8976
     },
     {
       "epoch": 17.0,
-      "eval_accuracy": 0.9594554307860479,
-      "eval_f1": 0.8274552360282147,
-      "eval_loss": 0.1708444207906723,
-      "eval_precision": 0.7760814249363868,
-      "eval_recall": 0.8861127251597908,
-      "eval_runtime": 4.6748,
-      "eval_samples_per_second": 200.008,
-      "eval_steps_per_second": 3.209,
       "step": 8976
     },
     {
       "epoch": 18.0,
-      "grad_norm": 1.0784730911254883,
       "learning_rate": 5e-06,
-      "loss": 0.037,
       "step": 9504
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.9620391533339958,
-      "eval_f1": 0.831578947368421,
-      "eval_loss": 0.1626226305961609,
-      "eval_precision": 0.7946003176283748,
-      "eval_recall": 0.8721673445671121,
-      "eval_runtime": 5.2776,
-      "eval_samples_per_second": 177.163,
-      "eval_steps_per_second": 2.842,
       "step": 9504
     },
     {
       "epoch": 19.0,
-      "grad_norm": 0.881395697593689,
       "learning_rate": 2.5e-06,
-      "loss": 0.035,
       "step": 10032
     },
     {
       "epoch": 19.0,
-      "eval_accuracy": 0.9622379012222995,
-      "eval_f1": 0.8297401879491432,
-      "eval_loss": 0.1642664223909378,
-      "eval_precision": 0.7912493410648392,
-      "eval_recall": 0.8721673445671121,
-      "eval_runtime": 4.5963,
-      "eval_samples_per_second": 203.426,
-      "eval_steps_per_second": 3.264,
       "step": 10032
     },
     {
       "epoch": 20.0,
-      "grad_norm": 0.892469048500061,
       "learning_rate": 0.0,
-      "loss": 0.0352,
       "step": 10560
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.9612441617807811,
-      "eval_f1": 0.829950630828305,
-      "eval_loss": 0.16526208817958832,
-      "eval_precision": 0.785974025974026,
-      "eval_recall": 0.8791400348634515,
-      "eval_runtime": 4.5732,
-      "eval_samples_per_second": 204.45,
-      "eval_steps_per_second": 3.28,
       "step": 10560
     },
     {
       "epoch": 20.0,
       "step": 10560,
       "total_flos": 5062583230111038.0,
-      "train_loss": 0.0814560384461374,
-      "train_runtime": 1318.3663,
-      "train_samples_per_second": 127.992,
-      "train_steps_per_second": 8.01
     }
   ],
   "logging_steps": 500,

   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.8086087107658386,
       "learning_rate": 4.75e-05,
+      "loss": 0.4434,
       "step": 528
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.9455927655768658,
+      "eval_f1": 0.7605633802816901,
+      "eval_loss": 0.16302905976772308,
+      "eval_precision": 0.679945054945055,
+      "eval_recall": 0.862870424171993,
+      "eval_runtime": 4.5797,
+      "eval_samples_per_second": 204.163,
+      "eval_steps_per_second": 3.275,
       "step": 528
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.7114465832710266,
       "learning_rate": 4.5e-05,
+      "loss": 0.1462,
       "step": 1056
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9566729603497963,
+      "eval_f1": 0.8073836276083467,
+      "eval_loss": 0.12938551604747772,
+      "eval_precision": 0.7481408031730292,
+      "eval_recall": 0.8768158047646717,
+      "eval_runtime": 4.6537,
+      "eval_samples_per_second": 200.915,
+      "eval_steps_per_second": 3.223,
       "step": 1056
     },
     {
       "epoch": 3.0,
+      "grad_norm": 1.316323161125183,
       "learning_rate": 4.25e-05,
+      "loss": 0.1183,
       "step": 1584
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9568717082381,
+      "eval_f1": 0.8116639914392724,
+      "eval_loss": 0.13784636557102203,
+      "eval_precision": 0.7521070897372335,
+      "eval_recall": 0.8814642649622313,
+      "eval_runtime": 4.903,
+      "eval_samples_per_second": 190.701,
+      "eval_steps_per_second": 3.059,
       "step": 1584
     },
     {
       "epoch": 4.0,
+      "grad_norm": 1.4418916702270508,
       "learning_rate": 4e-05,
+      "loss": 0.1012,
       "step": 2112
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9596541786743515,
+      "eval_f1": 0.8231144872490505,
+      "eval_loss": 0.1358918398618698,
+      "eval_precision": 0.7720101781170483,
+      "eval_recall": 0.8814642649622313,
+      "eval_runtime": 4.7436,
+      "eval_samples_per_second": 197.109,
+      "eval_steps_per_second": 3.162,
       "step": 2112
     },
     {
       "epoch": 5.0,
+      "grad_norm": 1.0950379371643066,
       "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.0884,
       "step": 2640
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9622379012222995,
+      "eval_f1": 0.8348926802421575,
+      "eval_loss": 0.12661471962928772,
+      "eval_precision": 0.7929952953476216,
+      "eval_recall": 0.8814642649622313,
+      "eval_runtime": 4.6673,
+      "eval_samples_per_second": 200.331,
+      "eval_steps_per_second": 3.214,
       "step": 2640
     },
     {
       "epoch": 6.0,
+      "grad_norm": 1.270456314086914,
       "learning_rate": 3.5e-05,
+      "loss": 0.0793,
       "step": 3168
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9610454138924774,
+      "eval_f1": 0.8404432132963989,
+      "eval_loss": 0.1408655196428299,
+      "eval_precision": 0.803070407623081,
+      "eval_recall": 0.8814642649622313,
+      "eval_runtime": 4.6946,
+      "eval_samples_per_second": 199.164,
+      "eval_steps_per_second": 3.195,
       "step": 3168
     },
     {
       "epoch": 7.0,
+      "grad_norm": 1.6711246967315674,
       "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.072,
       "step": 3696
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9588591871211368,
+      "eval_f1": 0.8222222222222223,
+      "eval_loss": 0.1545909196138382,
+      "eval_precision": 0.7704418486541391,
+      "eval_recall": 0.8814642649622313,
+      "eval_runtime": 4.6637,
+      "eval_samples_per_second": 200.485,
+      "eval_steps_per_second": 3.216,
       "step": 3696
     },
     {
       "epoch": 8.0,
+      "grad_norm": 0.5584707260131836,
       "learning_rate": 3e-05,
+      "loss": 0.067,
       "step": 4224
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9608466660041737,
+      "eval_f1": 0.8334258745141587,
+      "eval_loss": 0.14326535165309906,
+      "eval_precision": 0.797979797979798,
+      "eval_recall": 0.8721673445671121,
+      "eval_runtime": 4.6647,
+      "eval_samples_per_second": 200.444,
+      "eval_steps_per_second": 3.216,
       "step": 4224
     },
     {
       "epoch": 9.0,
+      "grad_norm": 0.5288811326026917,
       "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.0607,
       "step": 4752
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.9598529265626553,
+      "eval_f1": 0.8312328767123287,
+      "eval_loss": 0.1468406319618225,
+      "eval_precision": 0.7864178330741317,
+      "eval_recall": 0.8814642649622313,
+      "eval_runtime": 4.6583,
+      "eval_samples_per_second": 200.719,
+      "eval_steps_per_second": 3.22,
       "step": 4752
     },
     {
       "epoch": 10.0,
+      "grad_norm": 1.041274070739746,
       "learning_rate": 2.5e-05,
+      "loss": 0.0562,
       "step": 5280
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.9612441617807811,
+      "eval_f1": 0.8267029972752045,
+      "eval_loss": 0.14973483979701996,
+      "eval_precision": 0.7783478707029245,
+      "eval_recall": 0.8814642649622313,
+      "eval_runtime": 4.6532,
+      "eval_samples_per_second": 200.937,
+      "eval_steps_per_second": 3.224,
       "step": 5280
     },
     {
       "epoch": 11.0,
+      "grad_norm": 1.7796343564987183,
       "learning_rate": 2.25e-05,
+      "loss": 0.0506,
       "step": 5808
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.9594554307860479,
+      "eval_f1": 0.8332413031474324,
+      "eval_loss": 0.1600087583065033,
+      "eval_precision": 0.793792740662809,
+      "eval_recall": 0.8768158047646717,
+      "eval_runtime": 4.6756,
+      "eval_samples_per_second": 199.975,
+      "eval_steps_per_second": 3.208,
       "step": 5808
     },
     {
       "epoch": 12.0,
+      "grad_norm": 1.6123548746109009,
       "learning_rate": 2e-05,
+      "loss": 0.0483,
       "step": 6336
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.9608466660041737,
+      "eval_f1": 0.8328721638074155,
+      "eval_loss": 0.15964019298553467,
+      "eval_precision": 0.7950343370311674,
+      "eval_recall": 0.8744915746658919,
+      "eval_runtime": 4.6719,
+      "eval_samples_per_second": 200.134,
+      "eval_steps_per_second": 3.211,
       "step": 6336
     },
     {
       "epoch": 13.0,
+      "grad_norm": 0.9525193572044373,
       "learning_rate": 1.75e-05,
+      "loss": 0.0443,
       "step": 6864
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.96064791811587,
+      "eval_f1": 0.8237547892720306,
+      "eval_loss": 0.15955425798892975,
+      "eval_precision": 0.7785825142265907,
+      "eval_recall": 0.8744915746658919,
+      "eval_runtime": 4.6803,
+      "eval_samples_per_second": 199.774,
+      "eval_steps_per_second": 3.205,
       "step": 6864
     },
     {
       "epoch": 14.0,
+      "grad_norm": 0.5356388688087463,
       "learning_rate": 1.5e-05,
+      "loss": 0.0421,
       "step": 7392
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.9612441617807811,
+      "eval_f1": 0.8350857775318208,
+      "eval_loss": 0.16503094136714935,
+      "eval_precision": 0.7971473851030111,
+      "eval_recall": 0.8768158047646717,
+      "eval_runtime": 4.671,
+      "eval_samples_per_second": 200.172,
+      "eval_steps_per_second": 3.211,
       "step": 7392
     },
     {
       "epoch": 15.0,
+      "grad_norm": 0.6785407662391663,
       "learning_rate": 1.25e-05,
+      "loss": 0.0395,
       "step": 7920
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.9602504223392626,
+      "eval_f1": 0.8284449363586054,
+      "eval_loss": 0.16934077441692352,
+      "eval_precision": 0.7908082408874801,
+      "eval_recall": 0.8698431144683324,
+      "eval_runtime": 4.6607,
+      "eval_samples_per_second": 200.612,
+      "eval_steps_per_second": 3.218,
       "step": 7920
     },
     {
       "epoch": 16.0,
+      "grad_norm": 1.843337893486023,
       "learning_rate": 1e-05,
+      "loss": 0.0375,
       "step": 8448
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.9594554307860479,
+      "eval_f1": 0.8336088154269972,
+      "eval_loss": 0.17250221967697144,
+      "eval_precision": 0.7925615505500262,
       "eval_recall": 0.8791400348634515,
+      "eval_runtime": 4.6872,
+      "eval_samples_per_second": 199.478,
+      "eval_steps_per_second": 3.2,
       "step": 8448
     },
     {
       "epoch": 17.0,
+      "grad_norm": 0.6304071545600891,
       "learning_rate": 7.5e-06,
+      "loss": 0.0358,
       "step": 8976
     },
     {
       "epoch": 17.0,
+      "eval_accuracy": 0.9612441617807811,
+      "eval_f1": 0.8321289605336298,
+      "eval_loss": 0.17892615497112274,
+      "eval_precision": 0.7975492807671817,
+      "eval_recall": 0.8698431144683324,
+      "eval_runtime": 4.6497,
+      "eval_samples_per_second": 201.086,
+      "eval_steps_per_second": 3.226,
       "step": 8976
     },
     {
       "epoch": 18.0,
+      "grad_norm": 1.1330559253692627,
       "learning_rate": 5e-06,
+      "loss": 0.0339,
       "step": 9504
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.960051674450959,
+      "eval_f1": 0.8225895316804408,
+      "eval_loss": 0.17817425727844238,
+      "eval_precision": 0.7820848611838659,
+      "eval_recall": 0.8675188843695526,
+      "eval_runtime": 4.6927,
+      "eval_samples_per_second": 199.247,
+      "eval_steps_per_second": 3.196,
       "step": 9504
     },
     {
       "epoch": 19.0,
+      "grad_norm": 0.08901867270469666,
       "learning_rate": 2.5e-06,
+      "loss": 0.0327,
       "step": 10032
     },
     {
       "epoch": 19.0,
+      "eval_accuracy": 0.9620391533339958,
+      "eval_f1": 0.833983286908078,
+      "eval_loss": 0.17433172464370728,
+      "eval_precision": 0.8009630818619583,
+      "eval_recall": 0.8698431144683324,
+      "eval_runtime": 4.6614,
+      "eval_samples_per_second": 200.583,
+      "eval_steps_per_second": 3.218,
       "step": 10032
     },
     {
       "epoch": 20.0,
+      "grad_norm": 1.3878382444381714,
       "learning_rate": 0.0,
+      "loss": 0.0327,
       "step": 10560
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.9608466660041737,
+      "eval_f1": 0.8321289605336298,
+      "eval_loss": 0.17778323590755463,
+      "eval_precision": 0.7975492807671817,
+      "eval_recall": 0.8698431144683324,
+      "eval_runtime": 4.9618,
+      "eval_samples_per_second": 188.439,
+      "eval_steps_per_second": 3.023,
       "step": 10560
     },
     {
       "epoch": 20.0,
       "step": 10560,
       "total_flos": 5062583230111038.0,
+      "train_loss": 0.08150525255636736,
+      "train_runtime": 1343.1683,
+      "train_samples_per_second": 125.628,
+      "train_steps_per_second": 7.862
     }
   ],
   "logging_steps": 500,