End of training

Browse files

Files changed (8) hide show

README.md +2 -0
all_results.json +16 -16
eval_results.json +8 -8
predict_results.json +4 -4
predict_results.txt +41 -41
runs/Jun03_14-17-29_a358b85c7679/events.out.tfevents.1717424904.a358b85c7679.134923.1 +3 -0
train_results.json +4 -4
trainer_state.json +201 -201

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

 ---
+language:
+- id
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "accuracy": 0.9050445103857567,
     "epoch": 20.0,
-    "eval_accuracy": 0.8822055137844611,
-    "eval_f1": 0.858259325044405,
-    "eval_loss": 0.2988053262233734,
-    "eval_precision": 0.8573798178418481,
-    "eval_recall": 0.8591562102200401,
-    "eval_runtime": 5.0411,
     "eval_samples": 399,
-    "eval_samples_per_second": 79.149,
-    "eval_steps_per_second": 9.918,
-    "f1": 0.8853524853524853,
-    "precision": 0.886901203996243,
-    "recall": 0.8838493180342065,
-    "train_loss": 0.2301350734272941,
-    "train_runtime": 1951.0131,
     "train_samples": 3638,
-    "train_samples_per_second": 37.293,
-    "train_steps_per_second": 1.251
 }

 {
+    "accuracy": 0.9099901088031652,
     "epoch": 20.0,
+    "eval_accuracy": 0.899749373433584,
+    "eval_f1": 0.8784574144023395,
+    "eval_loss": 0.29978305101394653,
+    "eval_precision": 0.8804194733619106,
+    "eval_recall": 0.8765684669939988,
+    "eval_runtime": 1.8044,
     "eval_samples": 399,
+    "eval_samples_per_second": 221.128,
+    "eval_steps_per_second": 27.71,
+    "f1": 0.8918557700784624,
+    "precision": 0.8914757994814175,
+    "recall": 0.892238579779173,
+    "train_loss": 0.2259816083751741,
+    "train_runtime": 638.5228,
     "train_samples": 3638,
+    "train_samples_per_second": 113.951,
+    "train_steps_per_second": 3.821
 }

eval_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.8822055137844611,
-    "eval_f1": 0.858259325044405,
-    "eval_loss": 0.2988053262233734,
-    "eval_precision": 0.8573798178418481,
-    "eval_recall": 0.8591562102200401,
-    "eval_runtime": 5.0411,
     "eval_samples": 399,
-    "eval_samples_per_second": 79.149,
-    "eval_steps_per_second": 9.918
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 0.899749373433584,
+    "eval_f1": 0.8784574144023395,
+    "eval_loss": 0.29978305101394653,
+    "eval_precision": 0.8804194733619106,
+    "eval_recall": 0.8765684669939988,
+    "eval_runtime": 1.8044,
     "eval_samples": 399,
+    "eval_samples_per_second": 221.128,
+    "eval_steps_per_second": 27.71
 }

predict_results.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-    "accuracy": 0.9050445103857567,
-    "f1": 0.8853524853524853,
-    "precision": 0.886901203996243,
-    "recall": 0.8838493180342065
 }

 {
+    "accuracy": 0.9099901088031652,
+    "f1": 0.8918557700784624,
+    "precision": 0.8914757994814175,
+    "recall": 0.892238579779173
 }

predict_results.txt CHANGED Viewed

@@ -5,14 +5,14 @@ index	prediction
 3	1
 4	0
 5	1
-6	1
 7	1
 8	1
 9	1
 10	1
 11	1
 12	1
-13	0
 14	1
 15	1
 16	0
@@ -106,14 +106,14 @@ index	prediction
 104	1
 105	1
 106	1
-107	1
 108	1
 109	1
 110	0
 111	1
 112	0
-113	0
-114	0
 115	1
 116	1
 117	1
@@ -130,7 +130,7 @@ index	prediction
 128	1
 129	1
 130	1
-131	0
 132	1
 133	1
 134	1
@@ -139,20 +139,20 @@ index	prediction
 137	1
 138	1
 139	1
-140	0
 141	1
 142	1
-143	0
 144	1
 145	1
 146	1
 147	1
 148	1
 149	1
-150	1
 151	1
 152	1
-153	0
 154	1
 155	1
 156	1
@@ -164,7 +164,7 @@ index	prediction
 162	1
 163	1
 164	0
-165	1
 166	1
 167	1
 168	1
@@ -176,7 +176,7 @@ index	prediction
 174	1
 175	1
 176	1
-177	1
 178	1
 179	1
 180	1
@@ -184,7 +184,7 @@ index	prediction
 182	1
 183	1
 184	1
-185	0
 186	1
 187	1
 188	1
@@ -202,23 +202,23 @@ index	prediction
 200	1
 201	1
 202	1
-203	0
 204	0
 205	1
 206	1
-207	1
 208	1
 209	1
 210	1
 211	1
 212	1
 213	1
-214	0
 215	0
 216	1
 217	0
 218	1
-219	1
 220	1
 221	1
 222	1
@@ -274,19 +274,19 @@ index	prediction
 272	1
 273	1
 274	1
-275	0
 276	1
 277	1
 278	1
 279	1
-280	1
-281	0
 282	1
 283	1
 284	1
 285	1
 286	0
-287	0
 288	1
 289	1
 290	1
@@ -440,7 +440,7 @@ index	prediction
 438	0
 439	0
 440	0
-441	1
 442	0
 443	0
 444	0
@@ -477,7 +477,7 @@ index	prediction
 475	0
 476	0
 477	0
-478	1
 479	0
 480	0
 481	0
@@ -485,7 +485,7 @@ index	prediction
 483	0
 484	0
 485	0
-486	1
 487	0
 488	0
 489	0
@@ -530,7 +530,7 @@ index	prediction
 528	0
 529	0
 530	0
-531	0
 532	0
 533	0
 534	0
@@ -538,7 +538,7 @@ index	prediction
 536	0
 537	0
 538	0
-539	1
 540	0
 541	0
 542	0
@@ -551,7 +551,7 @@ index	prediction
 549	0
 550	0
 551	0
-552	1
 553	0
 554	0
 555	0
@@ -561,7 +561,7 @@ index	prediction
 559	0
 560	0
 561	0
-562	0
 563	0
 564	0
 565	0
@@ -580,7 +580,7 @@ index	prediction
 578	0
 579	0
 580	0
-581	0
 582	0
 583	0
 584	0
@@ -610,7 +610,7 @@ index	prediction
 608	0
 609	0
 610	0
-611	1
 612	0
 613	0
 614	0
@@ -663,8 +663,8 @@ index	prediction
 661	0
 662	0
 663	1
-664	0
-665	1
 666	0
 667	0
 668	0
@@ -685,7 +685,7 @@ index	prediction
 683	0
 684	0
 685	0
-686	1
 687	0
 688	0
 689	0
@@ -859,7 +859,7 @@ index	prediction
 857	0
 858	0
 859	0
-860	0
 861	0
 862	0
 863	0
@@ -869,7 +869,7 @@ index	prediction
 867	1
 868	0
 869	0
-870	0
 871	0
 872	0
 873	0
@@ -924,7 +924,7 @@ index	prediction
 922	0
 923	0
 924	0
-925	0
 926	0
 927	0
 928	0
@@ -951,7 +951,7 @@ index	prediction
 949	0
 950	0
 951	0
-952	0
 953	1
 954	0
 955	0
@@ -973,18 +973,18 @@ index	prediction
 971	0
 972	0
 973	0
-974	1
 975	0
-976	1
 977	0
 978	0
 979	0
 980	1
-981	0
 982	0
 983	0
 984	0
-985	0
 986	1
 987	0
 988	0

 3	1
 4	0
 5	1
+6	0
 7	1
 8	1
 9	1
 10	1
 11	1
 12	1
+13	1
 14	1
 15	1
 16	0
 104	1
 105	1
 106	1
+107	0
 108	1
 109	1
 110	0
 111	1
 112	0
+113	1
+114	1
 115	1
 116	1
 117	1
 128	1
 129	1
 130	1
+131	1
 132	1
 133	1
 134	1
 137	1
 138	1
 139	1
+140	1
 141	1
 142	1
+143	1
 144	1
 145	1
 146	1
 147	1
 148	1
 149	1
+150	0
 151	1
 152	1
+153	1
 154	1
 155	1
 156	1
 162	1
 163	1
 164	0
+165	0
 166	1
 167	1
 168	1
 174	1
 175	1
 176	1
+177	0
 178	1
 179	1
 180	1
 182	1
 183	1
 184	1
+185	1
 186	1
 187	1
 188	1
 200	1
 201	1
 202	1
+203	1
 204	0
 205	1
 206	1
+207	0
 208	1
 209	1
 210	1
 211	1
 212	1
 213	1
+214	1
 215	0
 216	1
 217	0
 218	1
+219	0
 220	1
 221	1
 222	1
 272	1
 273	1
 274	1
+275	1
 276	1
 277	1
 278	1
 279	1
+280	0
+281	1
 282	1
 283	1
 284	1
 285	1
 286	0
+287	1
 288	1
 289	1
 290	1
 438	0
 439	0
 440	0
+441	0
 442	0
 443	0
 444	0
 475	0
 476	0
 477	0
+478	0
 479	0
 480	0
 481	0
 483	0
 484	0
 485	0
+486	0
 487	0
 488	0
 489	0
 528	0
 529	0
 530	0
+531	1
 532	0
 533	0
 534	0
 536	0
 537	0
 538	0
+539	0
 540	0
 541	0
 542	0
 549	0
 550	0
 551	0
+552	0
 553	0
 554	0
 555	0
 559	0
 560	0
 561	0
+562	1
 563	0
 564	0
 565	0
 578	0
 579	0
 580	0
+581	1
 582	0
 583	0
 584	0
 608	0
 609	0
 610	0
+611	0
 612	0
 613	0
 614	0
 661	0
 662	0
 663	1
+664	1
+665	0
 666	0
 667	0
 668	0
 683	0
 684	0
 685	0
+686	0
 687	0
 688	0
 689	0
 857	0
 858	0
 859	0
+860	1
 861	0
 862	0
 863	0
 867	1
 868	0
 869	0
+870	1
 871	0
 872	0
 873	0
 922	0
 923	0
 924	0
+925	1
 926	0
 927	0
 928	0
 949	0
 950	0
 951	0
+952	1
 953	1
 954	0
 955	0
 971	0
 972	0
 973	0
+974	0
 975	0
+976	0
 977	0
 978	0
 979	0
 980	1
+981	1
 982	0
 983	0
 984	0
+985	1
 986	1
 987	0
 988	0

runs/Jun03_14-17-29_a358b85c7679/events.out.tfevents.1717424904.a358b85c7679.134923.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21e250776b51f52f2d8b87824014b4a4e9233bca4e2fe412fc47b85531bbd611
+size 560

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "train_loss": 0.2301350734272941,
-    "train_runtime": 1951.0131,
     "train_samples": 3638,
-    "train_samples_per_second": 37.293,
-    "train_steps_per_second": 1.251
 }

 {
     "epoch": 20.0,
+    "train_loss": 0.2259816083751741,
+    "train_runtime": 638.5228,
     "train_samples": 3638,
+    "train_samples_per_second": 113.951,
+    "train_steps_per_second": 3.821
 }

trainer_state.json CHANGED Viewed

@@ -10,392 +10,392 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 4.0894904136657715,
       "learning_rate": 4.75e-05,
-      "loss": 0.541,
       "step": 122
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7293233082706767,
-      "eval_f1": 0.6396989966555184,
-      "eval_loss": 0.4985284209251404,
-      "eval_precision": 0.664766661583041,
-      "eval_recall": 0.630978359701764,
-      "eval_runtime": 5.2157,
-      "eval_samples_per_second": 76.5,
-      "eval_steps_per_second": 9.586,
       "step": 122
     },
     {
       "epoch": 2.0,
-      "grad_norm": 5.95181941986084,
       "learning_rate": 4.5e-05,
-      "loss": 0.4477,
       "step": 244
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7644110275689223,
-      "eval_f1": 0.7461557203963398,
-      "eval_loss": 0.44652456045150757,
-      "eval_precision": 0.7426785714285714,
-      "eval_recall": 0.7883251500272777,
-      "eval_runtime": 5.1119,
-      "eval_samples_per_second": 78.053,
-      "eval_steps_per_second": 9.781,
       "step": 244
     },
     {
       "epoch": 3.0,
-      "grad_norm": 3.869917154312134,
       "learning_rate": 4.25e-05,
-      "loss": 0.347,
       "step": 366
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8646616541353384,
-      "eval_f1": 0.8255102040816327,
-      "eval_loss": 0.323697566986084,
-      "eval_precision": 0.8556293485135991,
-      "eval_recall": 0.8067375886524822,
-      "eval_runtime": 5.1398,
-      "eval_samples_per_second": 77.63,
-      "eval_steps_per_second": 9.728,
       "step": 366
     },
     {
       "epoch": 4.0,
-      "grad_norm": 3.4031054973602295,
       "learning_rate": 4e-05,
-      "loss": 0.3005,
       "step": 488
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8922305764411027,
-      "eval_f1": 0.8683279483657071,
-      "eval_loss": 0.2991793751716614,
-      "eval_precision": 0.873366724738676,
-      "eval_recall": 0.863747954173486,
-      "eval_runtime": 5.1616,
-      "eval_samples_per_second": 77.302,
-      "eval_steps_per_second": 9.687,
       "step": 488
     },
     {
       "epoch": 5.0,
-      "grad_norm": 3.774945020675659,
       "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.281,
       "step": 610
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.8646616541353384,
-      "eval_f1": 0.8342105263157895,
-      "eval_loss": 0.2868594527244568,
-      "eval_precision": 0.8398085585585586,
-      "eval_recall": 0.82924168030551,
-      "eval_runtime": 5.1483,
-      "eval_samples_per_second": 77.502,
-      "eval_steps_per_second": 9.712,
       "step": 610
     },
     {
       "epoch": 6.0,
-      "grad_norm": 2.3688924312591553,
       "learning_rate": 3.5e-05,
-      "loss": 0.2419,
       "step": 732
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.87468671679198,
-      "eval_f1": 0.8537390029325513,
-      "eval_loss": 0.29453349113464355,
-      "eval_precision": 0.8442805058676086,
-      "eval_recall": 0.8663393344244408,
-      "eval_runtime": 5.0969,
-      "eval_samples_per_second": 78.284,
-      "eval_steps_per_second": 9.81,
       "step": 732
     },
     {
       "epoch": 7.0,
-      "grad_norm": 0.5997357964515686,
       "learning_rate": 3.2500000000000004e-05,
-      "loss": 0.2394,
       "step": 854
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.8771929824561403,
-      "eval_f1": 0.8529524583135901,
-      "eval_loss": 0.2835337221622467,
-      "eval_precision": 0.8504480286738352,
-      "eval_recall": 0.8556101109292599,
-      "eval_runtime": 5.0928,
-      "eval_samples_per_second": 78.346,
-      "eval_steps_per_second": 9.818,
       "step": 854
     },
     {
       "epoch": 8.0,
-      "grad_norm": 2.8720760345458984,
       "learning_rate": 3e-05,
-      "loss": 0.2192,
       "step": 976
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.8771929824561403,
-      "eval_f1": 0.850729517396184,
-      "eval_loss": 0.28028008341789246,
-      "eval_precision": 0.8535087719298247,
-      "eval_recall": 0.8481087470449173,
-      "eval_runtime": 5.1964,
-      "eval_samples_per_second": 76.784,
-      "eval_steps_per_second": 9.622,
       "step": 976
     },
     {
       "epoch": 9.0,
-      "grad_norm": 5.954423904418945,
       "learning_rate": 2.7500000000000004e-05,
-      "loss": 0.2144,
       "step": 1098
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.87468671679198,
-      "eval_f1": 0.8480717680029244,
-      "eval_loss": 0.28611448407173157,
-      "eval_precision": 0.8498775260257195,
-      "eval_recall": 0.8463356973995272,
-      "eval_runtime": 5.1448,
-      "eval_samples_per_second": 77.554,
-      "eval_steps_per_second": 9.719,
       "step": 1098
     },
     {
       "epoch": 10.0,
-      "grad_norm": 4.511594772338867,
       "learning_rate": 2.5e-05,
-      "loss": 0.2056,
       "step": 1220
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.8922305764411027,
-      "eval_f1": 0.8696722245432793,
-      "eval_loss": 0.27244648337364197,
-      "eval_precision": 0.8706135006701596,
-      "eval_recall": 0.8687488634297145,
-      "eval_runtime": 5.104,
-      "eval_samples_per_second": 78.174,
-      "eval_steps_per_second": 9.796,
       "step": 1220
     },
     {
       "epoch": 11.0,
-      "grad_norm": 2.713789463043213,
       "learning_rate": 2.25e-05,
-      "loss": 0.1822,
       "step": 1342
     },
     {
       "epoch": 11.0,
       "eval_accuracy": 0.8872180451127819,
-      "eval_f1": 0.8662440310793597,
-      "eval_loss": 0.28133633732795715,
-      "eval_precision": 0.8606158357771261,
-      "eval_recall": 0.872704128023277,
-      "eval_runtime": 5.1442,
-      "eval_samples_per_second": 77.563,
-      "eval_steps_per_second": 9.72,
       "step": 1342
     },
     {
       "epoch": 12.0,
-      "grad_norm": 6.766155242919922,
       "learning_rate": 2e-05,
-      "loss": 0.1817,
       "step": 1464
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.8872180451127819,
-      "eval_f1": 0.8584001703456596,
-      "eval_loss": 0.2900215685367584,
-      "eval_precision": 0.8759655377302435,
-      "eval_recall": 0.8451991271140207,
-      "eval_runtime": 5.1374,
-      "eval_samples_per_second": 77.665,
-      "eval_steps_per_second": 9.733,
       "step": 1464
     },
     {
       "epoch": 13.0,
-      "grad_norm": 0.9034644365310669,
       "learning_rate": 1.75e-05,
-      "loss": 0.1621,
       "step": 1586
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.8947368421052632,
-      "eval_f1": 0.8710526315789473,
-      "eval_loss": 0.29263192415237427,
-      "eval_precision": 0.8772522522522522,
-      "eval_recall": 0.8655210038188761,
-      "eval_runtime": 5.1149,
-      "eval_samples_per_second": 78.008,
-      "eval_steps_per_second": 9.775,
       "step": 1586
     },
     {
       "epoch": 14.0,
-      "grad_norm": 6.05497932434082,
       "learning_rate": 1.5e-05,
-      "loss": 0.1577,
       "step": 1708
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.8922305764411027,
-      "eval_f1": 0.8709582797445791,
-      "eval_loss": 0.29044803977012634,
-      "eval_precision": 0.8683243727598566,
-      "eval_recall": 0.8737497726859429,
-      "eval_runtime": 5.096,
-      "eval_samples_per_second": 78.297,
-      "eval_steps_per_second": 9.812,
       "step": 1708
     },
     {
       "epoch": 15.0,
-      "grad_norm": 3.013443946838379,
       "learning_rate": 1.25e-05,
-      "loss": 0.1612,
       "step": 1830
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.8847117794486216,
-      "eval_f1": 0.8587719298245614,
-      "eval_loss": 0.2996305227279663,
-      "eval_precision": 0.864771021021021,
-      "eval_recall": 0.8534278959810875,
-      "eval_runtime": 5.1189,
-      "eval_samples_per_second": 77.946,
-      "eval_steps_per_second": 9.768,
       "step": 1830
     },
     {
       "epoch": 16.0,
-      "grad_norm": 1.775810718536377,
       "learning_rate": 1e-05,
-      "loss": 0.1496,
       "step": 1952
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.8872180451127819,
-      "eval_f1": 0.8649563392675828,
-      "eval_loss": 0.29704856872558594,
-      "eval_precision": 0.8623655913978494,
-      "eval_recall": 0.8677032187670486,
-      "eval_runtime": 5.2102,
-      "eval_samples_per_second": 76.58,
-      "eval_steps_per_second": 9.596,
       "step": 1952
     },
     {
       "epoch": 17.0,
-      "grad_norm": 0.5526378154754639,
       "learning_rate": 7.5e-06,
-      "loss": 0.149,
       "step": 2074
     },
     {
       "epoch": 17.0,
-      "eval_accuracy": 0.8822055137844611,
-      "eval_f1": 0.858259325044405,
-      "eval_loss": 0.29482966661453247,
-      "eval_precision": 0.8573798178418481,
-      "eval_recall": 0.8591562102200401,
-      "eval_runtime": 5.1218,
-      "eval_samples_per_second": 77.902,
-      "eval_steps_per_second": 9.762,
       "step": 2074
     },
     {
       "epoch": 18.0,
-      "grad_norm": 4.444484233856201,
       "learning_rate": 5e-06,
-      "loss": 0.1424,
       "step": 2196
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.8847117794486216,
-      "eval_f1": 0.8609292598654301,
-      "eval_loss": 0.29769569635391235,
-      "eval_precision": 0.8609292598654301,
-      "eval_recall": 0.8609292598654301,
-      "eval_runtime": 5.0934,
-      "eval_samples_per_second": 78.336,
-      "eval_steps_per_second": 9.817,
       "step": 2196
     },
     {
       "epoch": 19.0,
-      "grad_norm": 3.0727450847625732,
       "learning_rate": 2.5e-06,
-      "loss": 0.1383,
       "step": 2318
     },
     {
       "epoch": 19.0,
-      "eval_accuracy": 0.8847117794486216,
-      "eval_f1": 0.8602260265626904,
-      "eval_loss": 0.2990491986274719,
-      "eval_precision": 0.8620943049601959,
-      "eval_recall": 0.8584288052373159,
-      "eval_runtime": 5.1176,
-      "eval_samples_per_second": 77.966,
-      "eval_steps_per_second": 9.77,
       "step": 2318
     },
     {
       "epoch": 20.0,
-      "grad_norm": 4.4248151779174805,
       "learning_rate": 0.0,
-      "loss": 0.1407,
       "step": 2440
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.8822055137844611,
-      "eval_f1": 0.858259325044405,
-      "eval_loss": 0.2988053262233734,
-      "eval_precision": 0.8573798178418481,
-      "eval_recall": 0.8591562102200401,
-      "eval_runtime": 5.0823,
-      "eval_samples_per_second": 78.508,
-      "eval_steps_per_second": 9.838,
       "step": 2440
     },
     {
       "epoch": 20.0,
       "step": 2440,
       "total_flos": 8444128359504000.0,
-      "train_loss": 0.2301350734272941,
-      "train_runtime": 1951.0131,
-      "train_samples_per_second": 37.293,
-      "train_steps_per_second": 1.251
     }
   ],
   "logging_steps": 500,

   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 4.803397178649902,
       "learning_rate": 4.75e-05,
+      "loss": 0.5411,
       "step": 122
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7368421052631579,
+      "eval_f1": 0.6508662716567915,
+      "eval_loss": 0.49393221735954285,
+      "eval_precision": 0.6761904761904762,
+      "eval_recall": 0.6412984178941625,
+      "eval_runtime": 1.7881,
+      "eval_samples_per_second": 223.142,
+      "eval_steps_per_second": 27.963,
       "step": 122
     },
     {
       "epoch": 2.0,
+      "grad_norm": 3.498361587524414,
       "learning_rate": 4.5e-05,
+      "loss": 0.4231,
       "step": 244
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8245614035087719,
+      "eval_f1": 0.7995262704565029,
+      "eval_loss": 0.3851858377456665,
+      "eval_precision": 0.7887596899224806,
+      "eval_recall": 0.8183760683760684,
+      "eval_runtime": 1.7893,
+      "eval_samples_per_second": 222.988,
+      "eval_steps_per_second": 27.943,
       "step": 244
     },
     {
       "epoch": 3.0,
+      "grad_norm": 3.0573930740356445,
       "learning_rate": 4.25e-05,
+      "loss": 0.3331,
       "step": 366
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8471177944862155,
+      "eval_f1": 0.8080535642463387,
+      "eval_loss": 0.33130019903182983,
+      "eval_precision": 0.8232818379877204,
+      "eval_recall": 0.796826695762866,
+      "eval_runtime": 1.7976,
+      "eval_samples_per_second": 221.96,
+      "eval_steps_per_second": 27.815,
       "step": 366
     },
     {
       "epoch": 4.0,
+      "grad_norm": 3.250720500946045,
       "learning_rate": 4e-05,
+      "loss": 0.2924,
       "step": 488
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8822055137844611,
+      "eval_f1": 0.8560793854229822,
+      "eval_loss": 0.30566585063934326,
+      "eval_precision": 0.8609538327526132,
+      "eval_recall": 0.8516548463356974,
+      "eval_runtime": 1.7957,
+      "eval_samples_per_second": 222.195,
+      "eval_steps_per_second": 27.844,
       "step": 488
     },
     {
       "epoch": 5.0,
+      "grad_norm": 2.8374593257904053,
       "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.2705,
       "step": 610
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.87468671679198,
+      "eval_f1": 0.8422176526415692,
+      "eval_loss": 0.3068975508213043,
+      "eval_precision": 0.8604724566416373,
+      "eval_recall": 0.8288325150027278,
+      "eval_runtime": 1.7956,
+      "eval_samples_per_second": 222.215,
+      "eval_steps_per_second": 27.846,
       "step": 610
     },
     {
       "epoch": 6.0,
+      "grad_norm": 4.305149078369141,
       "learning_rate": 3.5e-05,
+      "loss": 0.2461,
       "step": 732
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.87468671679198,
+      "eval_f1": 0.8562182887453875,
+      "eval_loss": 0.31193241477012634,
+      "eval_precision": 0.8435805201992252,
+      "eval_recall": 0.8763411529368976,
+      "eval_runtime": 1.7944,
+      "eval_samples_per_second": 222.356,
+      "eval_steps_per_second": 27.864,
       "step": 732
     },
     {
       "epoch": 7.0,
+      "grad_norm": 0.4272942841053009,
       "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.2313,
       "step": 854
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.8872180451127819,
+      "eval_f1": 0.8662440310793597,
+      "eval_loss": 0.28799474239349365,
+      "eval_precision": 0.8606158357771261,
+      "eval_recall": 0.872704128023277,
+      "eval_runtime": 1.8006,
+      "eval_samples_per_second": 221.595,
+      "eval_steps_per_second": 27.769,
       "step": 854
     },
     {
       "epoch": 8.0,
+      "grad_norm": 2.898254871368408,
       "learning_rate": 3e-05,
+      "loss": 0.2183,
       "step": 976
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.8922305764411027,
+      "eval_f1": 0.8676331036823873,
+      "eval_loss": 0.27734559774398804,
+      "eval_precision": 0.8749292230261088,
+      "eval_recall": 0.8612474995453718,
+      "eval_runtime": 1.7976,
+      "eval_samples_per_second": 221.957,
+      "eval_steps_per_second": 27.814,
       "step": 976
     },
     {
       "epoch": 9.0,
+      "grad_norm": 6.726850509643555,
       "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.2093,
       "step": 1098
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.8847117794486216,
+      "eval_f1": 0.8587719298245614,
+      "eval_loss": 0.28041473031044006,
+      "eval_precision": 0.864771021021021,
+      "eval_recall": 0.8534278959810875,
+      "eval_runtime": 1.7999,
+      "eval_samples_per_second": 221.684,
+      "eval_steps_per_second": 27.78,
       "step": 1098
     },
     {
       "epoch": 10.0,
+      "grad_norm": 2.7861063480377197,
       "learning_rate": 2.5e-05,
+      "loss": 0.1986,
       "step": 1220
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.8922305764411027,
+      "eval_f1": 0.8654532336864889,
+      "eval_loss": 0.28901827335357666,
+      "eval_precision": 0.8804269882659713,
+      "eval_recall": 0.8537461356610292,
+      "eval_runtime": 1.7942,
+      "eval_samples_per_second": 222.384,
+      "eval_steps_per_second": 27.868,
       "step": 1220
     },
     {
       "epoch": 11.0,
+      "grad_norm": 1.18681001663208,
       "learning_rate": 2.25e-05,
+      "loss": 0.1881,
       "step": 1342
     },
     {
       "epoch": 11.0,
       "eval_accuracy": 0.8872180451127819,
+      "eval_f1": 0.8629148629148629,
+      "eval_loss": 0.29107582569122314,
+      "eval_precision": 0.8657894736842104,
+      "eval_recall": 0.860201854882706,
+      "eval_runtime": 1.8131,
+      "eval_samples_per_second": 220.068,
+      "eval_steps_per_second": 27.577,
       "step": 1342
     },
     {
       "epoch": 12.0,
+      "grad_norm": 3.137617588043213,
       "learning_rate": 2e-05,
+      "loss": 0.1802,
       "step": 1464
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.8822055137844611,
+      "eval_f1": 0.8568221901555235,
+      "eval_loss": 0.28662246465682983,
+      "eval_precision": 0.8596491228070176,
+      "eval_recall": 0.8541553009638116,
+      "eval_runtime": 1.8223,
+      "eval_samples_per_second": 218.951,
+      "eval_steps_per_second": 27.437,
       "step": 1464
     },
     {
       "epoch": 13.0,
+      "grad_norm": 0.8551347851753235,
       "learning_rate": 1.75e-05,
+      "loss": 0.169,
       "step": 1586
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.8847117794486216,
+      "eval_f1": 0.8564658408408408,
+      "eval_loss": 0.2963576018810272,
+      "eval_precision": 0.8697278911564625,
+      "eval_recall": 0.8459265320967448,
+      "eval_runtime": 1.8327,
+      "eval_samples_per_second": 217.71,
+      "eval_steps_per_second": 27.282,
       "step": 1586
     },
     {
       "epoch": 14.0,
+      "grad_norm": 5.66387414932251,
       "learning_rate": 1.5e-05,
+      "loss": 0.1709,
       "step": 1708
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.8872180451127819,
+      "eval_f1": 0.8629148629148629,
+      "eval_loss": 0.29438090324401855,
+      "eval_precision": 0.8657894736842104,
+      "eval_recall": 0.860201854882706,
+      "eval_runtime": 1.8299,
+      "eval_samples_per_second": 218.043,
+      "eval_steps_per_second": 27.324,
       "step": 1708
     },
     {
       "epoch": 15.0,
+      "grad_norm": 3.363886833190918,
       "learning_rate": 1.25e-05,
+      "loss": 0.1492,
       "step": 1830
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.8872180451127819,
+      "eval_f1": 0.8636104675452922,
+      "eval_loss": 0.28655046224594116,
+      "eval_precision": 0.8645363713902765,
+      "eval_recall": 0.8627023095108202,
+      "eval_runtime": 1.8286,
+      "eval_samples_per_second": 218.201,
+      "eval_steps_per_second": 27.344,
       "step": 1830
     },
     {
       "epoch": 16.0,
+      "grad_norm": 0.6481318473815918,
       "learning_rate": 1e-05,
+      "loss": 0.1493,
       "step": 1952
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.8947368421052632,
+      "eval_f1": 0.8742647058823529,
+      "eval_loss": 0.2950553596019745,
+      "eval_precision": 0.8707860158154468,
+      "eval_recall": 0.8780232769594472,
+      "eval_runtime": 1.8286,
+      "eval_samples_per_second": 218.205,
+      "eval_steps_per_second": 27.344,
       "step": 1952
     },
     {
       "epoch": 17.0,
+      "grad_norm": 0.7666211724281311,
       "learning_rate": 7.5e-06,
+      "loss": 0.1425,
       "step": 2074
     },
     {
       "epoch": 17.0,
+      "eval_accuracy": 0.8947368421052632,
+      "eval_f1": 0.8710526315789473,
+      "eval_loss": 0.304831326007843,
+      "eval_precision": 0.8772522522522522,
+      "eval_recall": 0.8655210038188761,
+      "eval_runtime": 1.7983,
+      "eval_samples_per_second": 221.876,
+      "eval_steps_per_second": 27.804,
       "step": 2074
     },
     {
       "epoch": 18.0,
+      "grad_norm": 3.819899797439575,
       "learning_rate": 5e-06,
+      "loss": 0.1375,
       "step": 2196
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.899749373433584,
+      "eval_f1": 0.8790689216221131,
+      "eval_loss": 0.298705130815506,
+      "eval_precision": 0.8790689216221131,
+      "eval_recall": 0.8790689216221131,
+      "eval_runtime": 1.8038,
+      "eval_samples_per_second": 221.2,
+      "eval_steps_per_second": 27.719,
       "step": 2196
     },
     {
       "epoch": 19.0,
+      "grad_norm": 1.7430284023284912,
       "learning_rate": 2.5e-06,
+      "loss": 0.1326,
       "step": 2318
     },
     {
       "epoch": 19.0,
+      "eval_accuracy": 0.899749373433584,
+      "eval_f1": 0.8778322106552358,
+      "eval_loss": 0.30734923481941223,
+      "eval_precision": 0.8818924438393465,
+      "eval_recall": 0.8740680123658847,
+      "eval_runtime": 1.8064,
+      "eval_samples_per_second": 220.886,
+      "eval_steps_per_second": 27.68,
       "step": 2318
     },
     {
       "epoch": 20.0,
+      "grad_norm": 3.931983709335327,
       "learning_rate": 0.0,
+      "loss": 0.1365,
       "step": 2440
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.899749373433584,
+      "eval_f1": 0.8784574144023395,
+      "eval_loss": 0.29978305101394653,
+      "eval_precision": 0.8804194733619106,
+      "eval_recall": 0.8765684669939988,
+      "eval_runtime": 1.8111,
+      "eval_samples_per_second": 220.313,
+      "eval_steps_per_second": 27.608,
       "step": 2440
     },
     {
       "epoch": 20.0,
       "step": 2440,
       "total_flos": 8444128359504000.0,
+      "train_loss": 0.2259816083751741,
+      "train_runtime": 638.5228,
+      "train_samples_per_second": 113.951,
+      "train_steps_per_second": 3.821
     }
   ],
   "logging_steps": 500,