End of training

Browse files

Files changed (8) hide show

README.md +2 -0
all_results.json +16 -16
eval_results.json +8 -8
predict_results.json +4 -4
predict_results.txt +35 -35
runs/Jun03_13-33-12_a358b85c7679/events.out.tfevents.1717422242.a358b85c7679.111292.1 +3 -0
train_results.json +4 -4
trainer_state.json +200 -200

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

 ---
+language:
+- id
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "accuracy": 0.9060336300692384,
     "epoch": 20.0,
-    "eval_accuracy": 0.8822055137844611,
-    "eval_f1": 0.858259325044405,
-    "eval_loss": 0.29368409514427185,
-    "eval_precision": 0.8573798178418481,
-    "eval_recall": 0.8591562102200401,
-    "eval_runtime": 5.0799,
     "eval_samples": 399,
-    "eval_samples_per_second": 78.545,
-    "eval_steps_per_second": 9.843,
-    "f1": 0.8877529196862761,
-    "precision": 0.8852319695351321,
-    "recall": 0.8904101207677175,
-    "train_loss": 0.23575165701694176,
-    "train_runtime": 1927.8211,
     "train_samples": 3638,
-    "train_samples_per_second": 37.742,
-    "train_steps_per_second": 1.266
 }

 {
+    "accuracy": 0.9050445103857567,
     "epoch": 20.0,
+    "eval_accuracy": 0.8872180451127819,
+    "eval_f1": 0.8649563392675828,
+    "eval_loss": 0.32958927750587463,
+    "eval_precision": 0.8623655913978494,
+    "eval_recall": 0.8677032187670486,
+    "eval_runtime": 1.8306,
     "eval_samples": 399,
+    "eval_samples_per_second": 217.959,
+    "eval_steps_per_second": 27.313,
+    "f1": 0.887526074259491,
+    "precision": 0.8821336208866023,
+    "recall": 0.8936152188032418,
+    "train_loss": 0.24024685015443895,
+    "train_runtime": 634.5102,
     "train_samples": 3638,
+    "train_samples_per_second": 114.671,
+    "train_steps_per_second": 3.845
 }

eval_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.8822055137844611,
-    "eval_f1": 0.858259325044405,
-    "eval_loss": 0.29368409514427185,
-    "eval_precision": 0.8573798178418481,
-    "eval_recall": 0.8591562102200401,
-    "eval_runtime": 5.0799,
     "eval_samples": 399,
-    "eval_samples_per_second": 78.545,
-    "eval_steps_per_second": 9.843
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 0.8872180451127819,
+    "eval_f1": 0.8649563392675828,
+    "eval_loss": 0.32958927750587463,
+    "eval_precision": 0.8623655913978494,
+    "eval_recall": 0.8677032187670486,
+    "eval_runtime": 1.8306,
     "eval_samples": 399,
+    "eval_samples_per_second": 217.959,
+    "eval_steps_per_second": 27.313
 }

predict_results.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-    "accuracy": 0.9060336300692384,
-    "f1": 0.8877529196862761,
-    "precision": 0.8852319695351321,
-    "recall": 0.8904101207677175
 }

 {
+    "accuracy": 0.9050445103857567,
+    "f1": 0.887526074259491,
+    "precision": 0.8821336208866023,
+    "recall": 0.8936152188032418
 }

predict_results.txt CHANGED Viewed

@@ -17,14 +17,14 @@ index	prediction
 15	1
 16	1
 17	1
-18	1
 19	1
 20	1
 21	1
-22	1
 23	1
 24	1
-25	0
 26	0
 27	1
 28	1
@@ -35,12 +35,12 @@ index	prediction
 33	1
 34	1
 35	1
-36	0
 37	1
 38	1
 39	1
 40	1
-41	1
 42	1
 43	1
 44	1
@@ -56,14 +56,14 @@ index	prediction
 54	1
 55	1
 56	1
-57	0
 58	1
 59	1
 60	0
 61	1
 62	1
 63	1
-64	1
 65	1
 66	1
 67	0
@@ -75,13 +75,13 @@ index	prediction
 73	1
 74	1
 75	0
-76	0
 77	1
 78	1
 79	1
 80	1
 81	1
-82	0
 83	0
 84	1
 85	1
@@ -89,7 +89,7 @@ index	prediction
 87	1
 88	1
 89	1
-90	1
 91	1
 92	1
 93	1
@@ -101,12 +101,12 @@ index	prediction
 99	1
 100	1
 101	1
-102	0
 103	1
 104	1
 105	1
 106	1
-107	1
 108	1
 109	1
 110	1
@@ -119,8 +119,8 @@ index	prediction
 117	1
 118	1
 119	1
-120	1
-121	0
 122	1
 123	1
 124	0
@@ -180,7 +180,7 @@ index	prediction
 178	1
 179	0
 180	1
-181	1
 182	1
 183	1
 184	1
@@ -220,7 +220,7 @@ index	prediction
 218	1
 219	1
 220	1
-221	0
 222	1
 223	1
 224	0
@@ -234,11 +234,11 @@ index	prediction
 232	1
 233	0
 234	1
-235	0
 236	1
 237	0
 238	1
-239	0
 240	1
 241	1
 242	1
@@ -252,11 +252,11 @@ index	prediction
 250	1
 251	1
 252	1
-253	1
-254	0
 255	1
 256	1
-257	0
 258	1
 259	1
 260	1
@@ -273,7 +273,7 @@ index	prediction
 271	1
 272	0
 273	1
-274	0
 275	1
 276	0
 277	1
@@ -322,7 +322,7 @@ index	prediction
 320	0
 321	0
 322	0
-323	0
 324	1
 325	0
 326	0
@@ -367,7 +367,7 @@ index	prediction
 365	0
 366	0
 367	0
-368	0
 369	0
 370	0
 371	0
@@ -470,7 +470,7 @@ index	prediction
 468	0
 469	0
 470	0
-471	1
 472	0
 473	0
 474	0
@@ -479,7 +479,7 @@ index	prediction
 477	0
 478	0
 479	0
-480	0
 481	0
 482	0
 483	0
@@ -490,7 +490,7 @@ index	prediction
 488	0
 489	0
 490	0
-491	0
 492	0
 493	0
 494	0
@@ -535,7 +535,7 @@ index	prediction
 533	0
 534	0
 535	0
-536	1
 537	0
 538	0
 539	0
@@ -546,7 +546,7 @@ index	prediction
 544	0
 545	0
 546	0
-547	1
 548	0
 549	0
 550	0
@@ -587,7 +587,7 @@ index	prediction
 585	0
 586	0
 587	0
-588	0
 589	0
 590	0
 591	1
@@ -736,7 +736,7 @@ index	prediction
 734	1
 735	0
 736	0
-737	0
 738	0
 739	0
 740	0
@@ -783,7 +783,7 @@ index	prediction
 781	0
 782	0
 783	0
-784	1
 785	0
 786	1
 787	0
@@ -849,12 +849,12 @@ index	prediction
 847	0
 848	0
 849	0
-850	0
 851	1
 852	0
 853	0
 854	1
-855	0
 856	0
 857	0
 858	0
@@ -981,7 +981,7 @@ index	prediction
 979	0
 980	0
 981	0
-982	0
 983	0
 984	0
 985	0

 15	1
 16	1
 17	1
+18	0
 19	1
 20	1
 21	1
+22	0
 23	1
 24	1
+25	1
 26	0
 27	1
 28	1
 33	1
 34	1
 35	1
+36	1
 37	1
 38	1
 39	1
 40	1
+41	0
 42	1
 43	1
 44	1
 54	1
 55	1
 56	1
+57	1
 58	1
 59	1
 60	0
 61	1
 62	1
 63	1
+64	0
 65	1
 66	1
 67	0
 73	1
 74	1
 75	0
+76	1
 77	1
 78	1
 79	1
 80	1
 81	1
+82	1
 83	0
 84	1
 85	1
 87	1
 88	1
 89	1
+90	0
 91	1
 92	1
 93	1
 99	1
 100	1
 101	1
+102	1
 103	1
 104	1
 105	1
 106	1
+107	0
 108	1
 109	1
 110	1
 117	1
 118	1
 119	1
+120	0
+121	1
 122	1
 123	1
 124	0
 178	1
 179	0
 180	1
+181	0
 182	1
 183	1
 184	1
 218	1
 219	1
 220	1
+221	1
 222	1
 223	1
 224	0
 232	1
 233	0
 234	1
+235	1
 236	1
 237	0
 238	1
+239	1
 240	1
 241	1
 242	1
 250	1
 251	1
 252	1
+253	0
+254	1
 255	1
 256	1
+257	1
 258	1
 259	1
 260	1
 271	1
 272	0
 273	1
+274	1
 275	1
 276	0
 277	1
 320	0
 321	0
 322	0
+323	1
 324	1
 325	0
 326	0
 365	0
 366	0
 367	0
+368	1
 369	0
 370	0
 371	0
 468	0
 469	0
 470	0
+471	0
 472	0
 473	0
 474	0
 477	0
 478	0
 479	0
+480	1
 481	0
 482	0
 483	0
 488	0
 489	0
 490	0
+491	1
 492	0
 493	0
 494	0
 533	0
 534	0
 535	0
+536	0
 537	0
 538	0
 539	0
 544	0
 545	0
 546	0
+547	0
 548	0
 549	0
 550	0
 585	0
 586	0
 587	0
+588	1
 589	0
 590	0
 591	1
 734	1
 735	0
 736	0
+737	1
 738	0
 739	0
 740	0
 781	0
 782	0
 783	0
+784	0
 785	0
 786	1
 787	0
 847	0
 848	0
 849	0
+850	1
 851	1
 852	0
 853	0
 854	1
+855	1
 856	0
 857	0
 858	0
 979	0
 980	0
 981	0
+982	1
 983	0
 984	0
 985	0

runs/Jun03_13-33-12_a358b85c7679/events.out.tfevents.1717422242.a358b85c7679.111292.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76d26b13dd873ce32c43089413cbbbfb0aab64e95fb28a8008500efeef50415f
+size 560

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "train_loss": 0.23575165701694176,
-    "train_runtime": 1927.8211,
     "train_samples": 3638,
-    "train_samples_per_second": 37.742,
-    "train_steps_per_second": 1.266
 }

 {
     "epoch": 20.0,
+    "train_loss": 0.24024685015443895,
+    "train_runtime": 634.5102,
     "train_samples": 3638,
+    "train_samples_per_second": 114.671,
+    "train_steps_per_second": 3.845
 }

trainer_state.json CHANGED Viewed

@@ -10,392 +10,392 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 4.66318416595459,
       "learning_rate": 4.75e-05,
-      "loss": 0.5467,
       "step": 122
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7443609022556391,
-      "eval_f1": 0.6574242424242425,
-      "eval_loss": 0.499358206987381,
-      "eval_precision": 0.6878057302585605,
-      "eval_recall": 0.6466175668303328,
-      "eval_runtime": 5.0995,
-      "eval_samples_per_second": 78.243,
-      "eval_steps_per_second": 9.805,
       "step": 122
     },
     {
       "epoch": 2.0,
-      "grad_norm": 3.530482530593872,
       "learning_rate": 4.5e-05,
-      "loss": 0.4498,
       "step": 244
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7969924812030075,
-      "eval_f1": 0.7646051989482654,
-      "eval_loss": 0.4013344645500183,
-      "eval_precision": 0.7567868206139117,
-      "eval_recall": 0.7763684306237497,
-      "eval_runtime": 5.1487,
-      "eval_samples_per_second": 77.495,
-      "eval_steps_per_second": 9.711,
       "step": 244
     },
     {
       "epoch": 3.0,
-      "grad_norm": 2.9630391597747803,
       "learning_rate": 4.25e-05,
-      "loss": 0.3643,
       "step": 366
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8295739348370927,
-      "eval_f1": 0.7684508773127603,
-      "eval_loss": 0.36033105850219727,
-      "eval_precision": 0.8252399774138905,
-      "eval_recall": 0.7444080741953083,
-      "eval_runtime": 5.0787,
-      "eval_samples_per_second": 78.564,
-      "eval_steps_per_second": 9.845,
       "step": 366
     },
     {
       "epoch": 4.0,
-      "grad_norm": 1.813259243965149,
       "learning_rate": 4e-05,
-      "loss": 0.3131,
       "step": 488
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8546365914786967,
-      "eval_f1": 0.8159125620465827,
-      "eval_loss": 0.31337350606918335,
-      "eval_precision": 0.8356565656565657,
-      "eval_recall": 0.8021458446990362,
-      "eval_runtime": 5.0532,
-      "eval_samples_per_second": 78.96,
-      "eval_steps_per_second": 9.895,
       "step": 488
     },
     {
       "epoch": 5.0,
-      "grad_norm": 3.7617347240448,
       "learning_rate": 3.7500000000000003e-05,
       "loss": 0.2812,
       "step": 610
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.8671679197994987,
-      "eval_f1": 0.8350789627607721,
-      "eval_loss": 0.30869799852371216,
-      "eval_precision": 0.8463358876939919,
-      "eval_recall": 0.8260138206946717,
-      "eval_runtime": 5.1714,
-      "eval_samples_per_second": 77.155,
-      "eval_steps_per_second": 9.669,
       "step": 610
     },
     {
       "epoch": 6.0,
-      "grad_norm": 1.2499818801879883,
       "learning_rate": 3.5e-05,
-      "loss": 0.2579,
       "step": 732
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.87468671679198,
-      "eval_f1": 0.8537390029325513,
-      "eval_loss": 0.30366042256355286,
-      "eval_precision": 0.8442805058676086,
-      "eval_recall": 0.8663393344244408,
-      "eval_runtime": 5.0754,
-      "eval_samples_per_second": 78.614,
-      "eval_steps_per_second": 9.851,
       "step": 732
     },
     {
       "epoch": 7.0,
-      "grad_norm": 1.6943317651748657,
       "learning_rate": 3.2500000000000004e-05,
-      "loss": 0.242,
       "step": 854
     },
     {
       "epoch": 7.0,
       "eval_accuracy": 0.8771929824561403,
-      "eval_f1": 0.8522278069611882,
-      "eval_loss": 0.2868788540363312,
-      "eval_precision": 0.8513631702756499,
-      "eval_recall": 0.8531096563011457,
-      "eval_runtime": 5.0844,
-      "eval_samples_per_second": 78.476,
-      "eval_steps_per_second": 9.834,
       "step": 854
     },
     {
       "epoch": 8.0,
-      "grad_norm": 4.454681873321533,
       "learning_rate": 3e-05,
-      "loss": 0.2238,
       "step": 976
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.8621553884711779,
-      "eval_f1": 0.8238834717707957,
-      "eval_loss": 0.3086492121219635,
-      "eval_precision": 0.8487520627062706,
-      "eval_recall": 0.8074649936352064,
-      "eval_runtime": 5.076,
-      "eval_samples_per_second": 78.605,
-      "eval_steps_per_second": 9.85,
       "step": 976
     },
     {
       "epoch": 9.0,
-      "grad_norm": 6.322339057922363,
       "learning_rate": 2.7500000000000004e-05,
-      "loss": 0.2134,
       "step": 1098
     },
     {
       "epoch": 9.0,
       "eval_accuracy": 0.8696741854636592,
-      "eval_f1": 0.8368354828562441,
-      "eval_loss": 0.29160723090171814,
-      "eval_precision": 0.8520237470480189,
-      "eval_recall": 0.8252864157119476,
-      "eval_runtime": 5.0668,
-      "eval_samples_per_second": 78.748,
-      "eval_steps_per_second": 9.868,
       "step": 1098
     },
     {
       "epoch": 10.0,
-      "grad_norm": 4.7913737297058105,
       "learning_rate": 2.5e-05,
-      "loss": 0.2014,
       "step": 1220
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.8696741854636592,
-      "eval_f1": 0.8339841249519908,
-      "eval_loss": 0.3077145218849182,
-      "eval_precision": 0.8579231241892538,
-      "eval_recall": 0.8177850518276051,
-      "eval_runtime": 5.1374,
-      "eval_samples_per_second": 77.665,
-      "eval_steps_per_second": 9.733,
       "step": 1220
     },
     {
       "epoch": 11.0,
-      "grad_norm": 0.7732164859771729,
       "learning_rate": 2.25e-05,
-      "loss": 0.1918,
       "step": 1342
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.8671679197994987,
-      "eval_f1": 0.8409485773595975,
-      "eval_loss": 0.29099568724632263,
-      "eval_precision": 0.8385304659498208,
-      "eval_recall": 0.8435170030914712,
-      "eval_runtime": 5.0596,
-      "eval_samples_per_second": 78.861,
-      "eval_steps_per_second": 9.882,
       "step": 1342
     },
     {
       "epoch": 12.0,
-      "grad_norm": 15.641918182373047,
       "learning_rate": 2e-05,
-      "loss": 0.1764,
       "step": 1464
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.8796992481203008,
-      "eval_f1": 0.8563025210084034,
-      "eval_loss": 0.28647324442863464,
-      "eval_precision": 0.8529936381473334,
-      "eval_recall": 0.8598836152027641,
-      "eval_runtime": 5.0747,
-      "eval_samples_per_second": 78.626,
-      "eval_steps_per_second": 9.853,
       "step": 1464
     },
     {
       "epoch": 13.0,
-      "grad_norm": 3.4587786197662354,
       "learning_rate": 1.75e-05,
-      "loss": 0.1771,
       "step": 1586
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.8696741854636592,
-      "eval_f1": 0.8368354828562441,
-      "eval_loss": 0.3067673444747925,
-      "eval_precision": 0.8520237470480189,
-      "eval_recall": 0.8252864157119476,
-      "eval_runtime": 5.0713,
-      "eval_samples_per_second": 78.679,
-      "eval_steps_per_second": 9.859,
       "step": 1586
     },
     {
       "epoch": 14.0,
-      "grad_norm": 7.602293968200684,
       "learning_rate": 1.5e-05,
-      "loss": 0.1708,
       "step": 1708
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.8872180451127819,
-      "eval_f1": 0.8680720368560659,
-      "eval_loss": 0.29624542593955994,
-      "eval_precision": 0.8587217615098657,
-      "eval_recall": 0.8802054919076197,
-      "eval_runtime": 5.0603,
-      "eval_samples_per_second": 78.849,
-      "eval_steps_per_second": 9.881,
       "step": 1708
     },
     {
       "epoch": 15.0,
-      "grad_norm": 0.1862931102514267,
       "learning_rate": 1.25e-05,
-      "loss": 0.1585,
       "step": 1830
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.8872180451127819,
-      "eval_f1": 0.8636104675452922,
-      "eval_loss": 0.2889001667499542,
-      "eval_precision": 0.8645363713902765,
-      "eval_recall": 0.8627023095108202,
-      "eval_runtime": 5.1374,
-      "eval_samples_per_second": 77.666,
-      "eval_steps_per_second": 9.733,
       "step": 1830
     },
     {
       "epoch": 16.0,
-      "grad_norm": 0.2601371705532074,
       "learning_rate": 1e-05,
-      "loss": 0.1602,
       "step": 1952
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.8822055137844611,
-      "eval_f1": 0.8609498387276164,
-      "eval_loss": 0.2941306233406067,
-      "eval_precision": 0.8540903540903542,
-      "eval_recall": 0.8691580287324968,
-      "eval_runtime": 5.0692,
-      "eval_samples_per_second": 78.711,
-      "eval_steps_per_second": 9.863,
       "step": 1952
     },
     {
       "epoch": 17.0,
-      "grad_norm": 2.504516839981079,
       "learning_rate": 7.5e-06,
-      "loss": 0.1481,
       "step": 2074
     },
     {
       "epoch": 17.0,
-      "eval_accuracy": 0.8847117794486216,
-      "eval_f1": 0.8595070422535211,
-      "eval_loss": 0.29707595705986023,
-      "eval_precision": 0.8633733523114054,
-      "eval_recall": 0.8559283506092017,
-      "eval_runtime": 5.0692,
-      "eval_samples_per_second": 78.711,
-      "eval_steps_per_second": 9.864,
       "step": 2074
     },
     {
       "epoch": 18.0,
-      "grad_norm": 4.364478588104248,
       "learning_rate": 5e-06,
-      "loss": 0.1536,
       "step": 2196
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.8847117794486216,
-      "eval_f1": 0.8602260265626904,
-      "eval_loss": 0.29374733567237854,
-      "eval_precision": 0.8620943049601959,
-      "eval_recall": 0.8584288052373159,
-      "eval_runtime": 5.0687,
-      "eval_samples_per_second": 78.718,
-      "eval_steps_per_second": 9.864,
       "step": 2196
     },
     {
       "epoch": 19.0,
-      "grad_norm": 2.8036956787109375,
       "learning_rate": 2.5e-06,
-      "loss": 0.147,
       "step": 2318
     },
     {
       "epoch": 19.0,
-      "eval_accuracy": 0.8822055137844611,
-      "eval_f1": 0.8568221901555235,
-      "eval_loss": 0.2946490943431854,
-      "eval_precision": 0.8596491228070176,
-      "eval_recall": 0.8541553009638116,
-      "eval_runtime": 5.0871,
-      "eval_samples_per_second": 78.434,
-      "eval_steps_per_second": 9.829,
       "step": 2318
     },
     {
       "epoch": 20.0,
-      "grad_norm": 0.6669352054595947,
       "learning_rate": 0.0,
-      "loss": 0.1379,
       "step": 2440
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.8822055137844611,
-      "eval_f1": 0.858259325044405,
-      "eval_loss": 0.29368409514427185,
-      "eval_precision": 0.8573798178418481,
-      "eval_recall": 0.8591562102200401,
-      "eval_runtime": 5.1066,
-      "eval_samples_per_second": 78.134,
-      "eval_steps_per_second": 9.791,
       "step": 2440
     },
     {
       "epoch": 20.0,
       "step": 2440,
       "total_flos": 8444128359504000.0,
-      "train_loss": 0.23575165701694176,
-      "train_runtime": 1927.8211,
-      "train_samples_per_second": 37.742,
-      "train_steps_per_second": 1.266
     }
   ],
   "logging_steps": 500,

   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 4.0522332191467285,
       "learning_rate": 4.75e-05,
+      "loss": 0.5524,
       "step": 122
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7167919799498746,
+      "eval_f1": 0.5962731806907421,
+      "eval_loss": 0.5142865777015686,
+      "eval_precision": 0.6417444029850746,
+      "eval_recall": 0.5921076559374432,
+      "eval_runtime": 1.7987,
+      "eval_samples_per_second": 221.826,
+      "eval_steps_per_second": 27.798,
       "step": 122
     },
     {
       "epoch": 2.0,
+      "grad_norm": 3.862292528152466,
       "learning_rate": 4.5e-05,
+      "loss": 0.468,
       "step": 244
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7919799498746867,
+      "eval_f1": 0.7577413479052824,
+      "eval_loss": 0.427168607711792,
+      "eval_precision": 0.7507235274089207,
+      "eval_recall": 0.7678214220767412,
+      "eval_runtime": 1.8042,
+      "eval_samples_per_second": 221.147,
+      "eval_steps_per_second": 27.713,
       "step": 244
     },
     {
       "epoch": 3.0,
+      "grad_norm": 2.0498220920562744,
       "learning_rate": 4.25e-05,
+      "loss": 0.3759,
       "step": 366
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8345864661654135,
+      "eval_f1": 0.7840625819994752,
+      "eval_loss": 0.3480204641819,
+      "eval_precision": 0.8174519753533889,
+      "eval_recall": 0.7654573558828878,
+      "eval_runtime": 1.8451,
+      "eval_samples_per_second": 216.245,
+      "eval_steps_per_second": 27.098,
       "step": 366
     },
     {
       "epoch": 4.0,
+      "grad_norm": 2.6740951538085938,
       "learning_rate": 4e-05,
+      "loss": 0.3116,
       "step": 488
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8646616541353384,
+      "eval_f1": 0.8315033783783784,
+      "eval_loss": 0.308014452457428,
+      "eval_precision": 0.8438775510204082,
+      "eval_recall": 0.8217403164211674,
+      "eval_runtime": 1.8424,
+      "eval_samples_per_second": 216.565,
+      "eval_steps_per_second": 27.138,
       "step": 488
     },
     {
       "epoch": 5.0,
+      "grad_norm": 3.3190958499908447,
       "learning_rate": 3.7500000000000003e-05,
       "loss": 0.2812,
       "step": 610
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.8696741854636592,
+      "eval_f1": 0.8368354828562441,
+      "eval_loss": 0.3000350892543793,
+      "eval_precision": 0.8520237470480189,
+      "eval_recall": 0.8252864157119476,
+      "eval_runtime": 1.8448,
+      "eval_samples_per_second": 216.28,
+      "eval_steps_per_second": 27.103,
       "step": 610
     },
     {
       "epoch": 6.0,
+      "grad_norm": 6.869318962097168,
       "learning_rate": 3.5e-05,
+      "loss": 0.2692,
       "step": 732
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.8771929824561403,
+      "eval_f1": 0.8563451067988272,
+      "eval_loss": 0.2969658374786377,
+      "eval_precision": 0.8473119816985988,
+      "eval_recall": 0.8681123840698308,
+      "eval_runtime": 1.8412,
+      "eval_samples_per_second": 216.704,
+      "eval_steps_per_second": 27.156,
       "step": 732
     },
     {
       "epoch": 7.0,
+      "grad_norm": 2.0313923358917236,
       "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.2603,
       "step": 854
     },
     {
       "epoch": 7.0,
       "eval_accuracy": 0.8771929824561403,
+      "eval_f1": 0.8543546116197471,
+      "eval_loss": 0.29286739230155945,
+      "eval_precision": 0.8489149560117302,
+      "eval_recall": 0.8606110201854882,
+      "eval_runtime": 1.8427,
+      "eval_samples_per_second": 216.531,
+      "eval_steps_per_second": 27.134,
       "step": 854
     },
     {
       "epoch": 8.0,
+      "grad_norm": 2.5121915340423584,
       "learning_rate": 3e-05,
+      "loss": 0.231,
       "step": 976
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.8596491228070176,
+      "eval_f1": 0.819047619047619,
+      "eval_loss": 0.3082924783229828,
+      "eval_precision": 0.848619017499473,
+      "eval_recall": 0.8006910347335879,
+      "eval_runtime": 1.8502,
+      "eval_samples_per_second": 215.65,
+      "eval_steps_per_second": 27.024,
       "step": 976
     },
     {
       "epoch": 9.0,
+      "grad_norm": 6.5755615234375,
       "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.2278,
       "step": 1098
     },
     {
       "epoch": 9.0,
       "eval_accuracy": 0.8696741854636592,
+      "eval_f1": 0.842789598108747,
+      "eval_loss": 0.29386115074157715,
+      "eval_precision": 0.842789598108747,
+      "eval_recall": 0.842789598108747,
+      "eval_runtime": 1.8446,
+      "eval_samples_per_second": 216.311,
+      "eval_steps_per_second": 27.107,
       "step": 1098
     },
     {
       "epoch": 10.0,
+      "grad_norm": 2.957425117492676,
       "learning_rate": 2.5e-05,
+      "loss": 0.2117,
       "step": 1220
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.87468671679198,
+      "eval_f1": 0.8403693509153758,
+      "eval_loss": 0.32400935888290405,
+      "eval_precision": 0.8647333925035843,
+      "eval_recall": 0.8238316057464994,
+      "eval_runtime": 1.8502,
+      "eval_samples_per_second": 215.651,
+      "eval_steps_per_second": 27.024,
       "step": 1220
     },
     {
       "epoch": 11.0,
+      "grad_norm": 0.6018930673599243,
       "learning_rate": 2.25e-05,
+      "loss": 0.2014,
       "step": 1342
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.8796992481203008,
+      "eval_f1": 0.8533986527862829,
+      "eval_loss": 0.2902269959449768,
+      "eval_precision": 0.8572003218020917,
+      "eval_recall": 0.8498817966903074,
+      "eval_runtime": 1.8555,
+      "eval_samples_per_second": 215.034,
+      "eval_steps_per_second": 26.947,
       "step": 1342
     },
     {
       "epoch": 12.0,
+      "grad_norm": 5.241063594818115,
       "learning_rate": 2e-05,
+      "loss": 0.1869,
       "step": 1464
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.8947368421052632,
+      "eval_f1": 0.8748655913978494,
+      "eval_loss": 0.27595847845077515,
+      "eval_precision": 0.86983032873807,
+      "eval_recall": 0.8805237315875614,
+      "eval_runtime": 1.849,
+      "eval_samples_per_second": 215.789,
+      "eval_steps_per_second": 27.041,
       "step": 1464
     },
     {
       "epoch": 13.0,
+      "grad_norm": 1.832000970840454,
       "learning_rate": 1.75e-05,
+      "loss": 0.1685,
       "step": 1586
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.8822055137844611,
+      "eval_f1": 0.8560793854229822,
+      "eval_loss": 0.3015528619289398,
+      "eval_precision": 0.8609538327526132,
+      "eval_recall": 0.8516548463356974,
+      "eval_runtime": 1.8472,
+      "eval_samples_per_second": 216.004,
+      "eval_steps_per_second": 27.068,
       "step": 1586
     },
     {
       "epoch": 14.0,
+      "grad_norm": 4.6754584312438965,
       "learning_rate": 1.5e-05,
+      "loss": 0.1703,
       "step": 1708
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.8897243107769424,
+      "eval_f1": 0.8695225637671682,
+      "eval_loss": 0.30271315574645996,
+      "eval_precision": 0.8631532846715328,
+      "eval_recall": 0.8769776322967813,
+      "eval_runtime": 1.8487,
+      "eval_samples_per_second": 215.823,
+      "eval_steps_per_second": 27.045,
       "step": 1708
     },
     {
       "epoch": 15.0,
+      "grad_norm": 0.3340052366256714,
       "learning_rate": 1.25e-05,
+      "loss": 0.1617,
       "step": 1830
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.8897243107769424,
+      "eval_f1": 0.8695225637671682,
+      "eval_loss": 0.30203503370285034,
+      "eval_precision": 0.8631532846715328,
+      "eval_recall": 0.8769776322967813,
+      "eval_runtime": 1.8491,
+      "eval_samples_per_second": 215.78,
+      "eval_steps_per_second": 27.04,
       "step": 1830
     },
     {
       "epoch": 16.0,
+      "grad_norm": 0.8184535503387451,
       "learning_rate": 1e-05,
+      "loss": 0.1524,
       "step": 1952
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.8822055137844611,
+      "eval_f1": 0.8622085718274466,
+      "eval_loss": 0.31774768233299255,
+      "eval_precision": 0.8530168716042322,
+      "eval_recall": 0.8741589379887251,
+      "eval_runtime": 1.8434,
+      "eval_samples_per_second": 216.442,
+      "eval_steps_per_second": 27.123,
       "step": 1952
     },
     {
       "epoch": 17.0,
+      "grad_norm": 1.1876635551452637,
       "learning_rate": 7.5e-06,
+      "loss": 0.1356,
       "step": 2074
     },
     {
       "epoch": 17.0,
+      "eval_accuracy": 0.8897243107769424,
+      "eval_f1": 0.8682773109243698,
+      "eval_loss": 0.3291165828704834,
+      "eval_precision": 0.864855223259409,
+      "eval_recall": 0.8719767230405528,
+      "eval_runtime": 1.8462,
+      "eval_samples_per_second": 216.117,
+      "eval_steps_per_second": 27.082,
       "step": 2074
     },
     {
       "epoch": 18.0,
+      "grad_norm": 4.472387313842773,
       "learning_rate": 5e-06,
+      "loss": 0.1474,
       "step": 2196
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.8897243107769424,
+      "eval_f1": 0.8682773109243698,
+      "eval_loss": 0.3268108665943146,
+      "eval_precision": 0.864855223259409,
+      "eval_recall": 0.8719767230405528,
+      "eval_runtime": 1.8536,
+      "eval_samples_per_second": 215.257,
+      "eval_steps_per_second": 26.975,
       "step": 2196
     },
     {
       "epoch": 19.0,
+      "grad_norm": 6.7281928062438965,
       "learning_rate": 2.5e-06,
+      "loss": 0.145,
       "step": 2318
     },
     {
       "epoch": 19.0,
+      "eval_accuracy": 0.8872180451127819,
+      "eval_f1": 0.8656072933585827,
+      "eval_loss": 0.3314986526966095,
+      "eval_precision": 0.8614399005740664,
+      "eval_recall": 0.8702036733951628,
+      "eval_runtime": 1.8468,
+      "eval_samples_per_second": 216.052,
+      "eval_steps_per_second": 27.074,
       "step": 2318
     },
     {
       "epoch": 20.0,
+      "grad_norm": 1.0261917114257812,
       "learning_rate": 0.0,
+      "loss": 0.1466,
       "step": 2440
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.8872180451127819,
+      "eval_f1": 0.8649563392675828,
+      "eval_loss": 0.32958927750587463,
+      "eval_precision": 0.8623655913978494,
+      "eval_recall": 0.8677032187670486,
+      "eval_runtime": 1.8152,
+      "eval_samples_per_second": 219.809,
+      "eval_steps_per_second": 27.545,
       "step": 2440
     },
     {
       "epoch": 20.0,
       "step": 2440,
       "total_flos": 8444128359504000.0,
+      "train_loss": 0.24024685015443895,
+      "train_runtime": 634.5102,
+      "train_samples_per_second": 114.671,
+      "train_steps_per_second": 3.845
     }
   ],
   "logging_steps": 500,