End of training

Browse files

Files changed (8) hide show

README.md +2 -0
all_results.json +16 -16
eval_results.json +8 -8
predict_results.json +4 -4
predict_results.txt +36 -36
runs/Jun03_13-11-00_a358b85c7679/events.out.tfevents.1717420912.a358b85c7679.99454.1 +3 -0
train_results.json +4 -4
trainer_state.json +202 -202

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

 ---
+language:
+- id
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "accuracy": 0.8951533135509396,
     "epoch": 20.0,
-    "eval_accuracy": 0.9047619047619048,
-    "eval_f1": 0.8851154755410074,
-    "eval_loss": 0.2913039028644562,
-    "eval_precision": 0.8851154755410074,
-    "eval_recall": 0.8851154755410074,
-    "eval_runtime": 5.1012,
     "eval_samples": 399,
-    "eval_samples_per_second": 78.217,
-    "eval_steps_per_second": 9.802,
-    "f1": 0.875810040328188,
-    "precision": 0.8705850368732237,
-    "recall": 0.8817196456978266,
-    "train_loss": 0.22896970373685244,
-    "train_runtime": 1968.7629,
     "train_samples": 3638,
-    "train_samples_per_second": 36.957,
-    "train_steps_per_second": 1.239
 }

 {
+    "accuracy": 0.8991097922848664,
     "epoch": 20.0,
+    "eval_accuracy": 0.8922305764411027,
+    "eval_f1": 0.8721887408091659,
+    "eval_loss": 0.27931535243988037,
+    "eval_precision": 0.866466275659824,
+    "eval_recall": 0.8787506819421713,
+    "eval_runtime": 1.8379,
     "eval_samples": 399,
+    "eval_samples_per_second": 217.098,
+    "eval_steps_per_second": 27.205,
+    "f1": 0.8800505285490955,
+    "precision": 0.8759675118494317,
+    "recall": 0.8845246947861856,
+    "train_loss": 0.2269888150887411,
+    "train_runtime": 635.9179,
     "train_samples": 3638,
+    "train_samples_per_second": 114.417,
+    "train_steps_per_second": 3.837
 }

eval_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.9047619047619048,
-    "eval_f1": 0.8851154755410074,
-    "eval_loss": 0.2913039028644562,
-    "eval_precision": 0.8851154755410074,
-    "eval_recall": 0.8851154755410074,
-    "eval_runtime": 5.1012,
     "eval_samples": 399,
-    "eval_samples_per_second": 78.217,
-    "eval_steps_per_second": 9.802
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 0.8922305764411027,
+    "eval_f1": 0.8721887408091659,
+    "eval_loss": 0.27931535243988037,
+    "eval_precision": 0.866466275659824,
+    "eval_recall": 0.8787506819421713,
+    "eval_runtime": 1.8379,
     "eval_samples": 399,
+    "eval_samples_per_second": 217.098,
+    "eval_steps_per_second": 27.205
 }

predict_results.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-    "accuracy": 0.8951533135509396,
-    "f1": 0.875810040328188,
-    "precision": 0.8705850368732237,
-    "recall": 0.8817196456978266
 }

 {
+    "accuracy": 0.8991097922848664,
+    "f1": 0.8800505285490955,
+    "precision": 0.8759675118494317,
+    "recall": 0.8845246947861856
 }

predict_results.txt CHANGED Viewed

@@ -1,7 +1,7 @@
 index	prediction
 0	1
-1	1
-2	0
 3	1
 4	0
 5	1
@@ -39,12 +39,12 @@ index	prediction
 37	1
 38	1
 39	0
-40	0
 41	1
 42	1
 43	0
 44	0
-45	0
 46	1
 47	1
 48	1
@@ -70,15 +70,15 @@ index	prediction
 68	1
 69	1
 70	1
-71	1
 72	1
 73	1
 74	1
 75	1
 76	1
-77	0
 78	1
-79	1
 80	0
 81	0
 82	1
@@ -99,7 +99,7 @@ index	prediction
 97	0
 98	1
 99	0
-100	0
 101	0
 102	1
 103	1
@@ -117,14 +117,14 @@ index	prediction
 115	1
 116	1
 117	1
-118	0
 119	1
 120	1
 121	1
 122	1
 123	1
 124	1
-125	1
 126	1
 127	1
 128	1
@@ -134,7 +134,7 @@ index	prediction
 132	1
 133	1
 134	1
-135	1
 136	0
 137	1
 138	1
@@ -180,7 +180,7 @@ index	prediction
 178	1
 179	1
 180	1
-181	1
 182	1
 183	1
 184	1
@@ -206,7 +206,7 @@ index	prediction
 204	1
 205	0
 206	1
-207	0
 208	1
 209	1
 210	1
@@ -248,7 +248,7 @@ index	prediction
 246	0
 247	1
 248	1
-249	1
 250	1
 251	1
 252	1
@@ -264,7 +264,7 @@ index	prediction
 262	1
 263	1
 264	1
-265	0
 266	1
 267	1
 268	1
@@ -279,7 +279,7 @@ index	prediction
 277	1
 278	1
 279	1
-280	1
 281	1
 282	1
 283	1
@@ -313,9 +313,9 @@ index	prediction
 311	0
 312	0
 313	0
-314	1
 315	0
-316	0
 317	0
 318	1
 319	0
@@ -363,7 +363,7 @@ index	prediction
 361	0
 362	0
 363	0
-364	1
 365	0
 366	1
 367	0
@@ -400,7 +400,7 @@ index	prediction
 398	1
 399	0
 400	0
-401	1
 402	1
 403	0
 404	0
@@ -413,7 +413,7 @@ index	prediction
 411	0
 412	0
 413	0
-414	0
 415	0
 416	0
 417	0
@@ -451,7 +451,7 @@ index	prediction
 449	0
 450	0
 451	0
-452	1
 453	0
 454	0
 455	1
@@ -510,20 +510,20 @@ index	prediction
 508	0
 509	0
 510	0
-511	1
 512	0
 513	0
 514	0
 515	0
 516	0
 517	0
-518	0
 519	0
 520	0
 521	0
 522	0
 523	0
-524	1
 525	0
 526	0
 527	0
@@ -773,10 +773,10 @@ index	prediction
 771	0
 772	0
 773	0
-774	1
 775	0
 776	0
-777	0
 778	0
 779	0
 780	0
@@ -794,7 +794,7 @@ index	prediction
 792	0
 793	0
 794	0
-795	1
 796	0
 797	0
 798	0
@@ -831,7 +831,7 @@ index	prediction
 829	0
 830	0
 831	0
-832	1
 833	1
 834	0
 835	0
@@ -847,7 +847,7 @@ index	prediction
 845	0
 846	0
 847	0
-848	1
 849	0
 850	0
 851	0
@@ -882,7 +882,7 @@ index	prediction
 880	0
 881	0
 882	0
-883	1
 884	0
 885	0
 886	0
@@ -967,8 +967,8 @@ index	prediction
 965	0
 966	0
 967	0
-968	0
-969	1
 970	0
 971	0
 972	0
@@ -979,18 +979,18 @@ index	prediction
 977	0
 978	0
 979	0
-980	0
 981	0
 982	0
 983	0
 984	0
 985	0
-986	0
 987	0
 988	0
 989	0
 990	0
-991	0
 992	0
 993	0
 994	0

 index	prediction
 0	1
+1	0
+2	1
 3	1
 4	0
 5	1
 37	1
 38	1
 39	0
+40	1
 41	1
 42	1
 43	0
 44	0
+45	1
 46	1
 47	1
 48	1
 68	1
 69	1
 70	1
+71	0
 72	1
 73	1
 74	1
 75	1
 76	1
+77	1
 78	1
+79	0
 80	0
 81	0
 82	1
 97	0
 98	1
 99	0
+100	1
 101	0
 102	1
 103	1
 115	1
 116	1
 117	1
+118	1
 119	1
 120	1
 121	1
 122	1
 123	1
 124	1
+125	0
 126	1
 127	1
 128	1
 132	1
 133	1
 134	1
+135	0
 136	0
 137	1
 138	1
 178	1
 179	1
 180	1
+181	0
 182	1
 183	1
 184	1
 204	1
 205	0
 206	1
+207	1
 208	1
 209	1
 210	1
 246	0
 247	1
 248	1
+249	0
 250	1
 251	1
 252	1
 262	1
 263	1
 264	1
+265	1
 266	1
 267	1
 268	1
 277	1
 278	1
 279	1
+280	0
 281	1
 282	1
 283	1
 311	0
 312	0
 313	0
+314	0
 315	0
+316	1
 317	0
 318	1
 319	0
 361	0
 362	0
 363	0
+364	0
 365	0
 366	1
 367	0
 398	1
 399	0
 400	0
+401	0
 402	1
 403	0
 404	0
 411	0
 412	0
 413	0
+414	1
 415	0
 416	0
 417	0
 449	0
 450	0
 451	0
+452	0
 453	0
 454	0
 455	1
 508	0
 509	0
 510	0
+511	0
 512	0
 513	0
 514	0
 515	0
 516	0
 517	0
+518	1
 519	0
 520	0
 521	0
 522	0
 523	0
+524	0
 525	0
 526	0
 527	0
 771	0
 772	0
 773	0
+774	0
 775	0
 776	0
+777	1
 778	0
 779	0
 780	0
 792	0
 793	0
 794	0
+795	0
 796	0
 797	0
 798	0
 829	0
 830	0
 831	0
+832	0
 833	1
 834	0
 835	0
 845	0
 846	0
 847	0
+848	0
 849	0
 850	0
 851	0
 880	0
 881	0
 882	0
+883	0
 884	0
 885	0
 886	0
 965	0
 966	0
 967	0
+968	1
+969	0
 970	0
 971	0
 972	0
 977	0
 978	0
 979	0
+980	1
 981	0
 982	0
 983	0
 984	0
 985	0
+986	1
 987	0
 988	0
 989	0
 990	0
+991	1
 992	0
 993	0
 994	0

runs/Jun03_13-11-00_a358b85c7679/events.out.tfevents.1717420912.a358b85c7679.99454.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77ca22525a8fdacb0393d85c4cc246d5039ea8401844b7c071b64d239660d172
+size 560

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "train_loss": 0.22896970373685244,
-    "train_runtime": 1968.7629,
     "train_samples": 3638,
-    "train_samples_per_second": 36.957,
-    "train_steps_per_second": 1.239
 }

 {
     "epoch": 20.0,
+    "train_loss": 0.2269888150887411,
+    "train_runtime": 635.9179,
     "train_samples": 3638,
+    "train_samples_per_second": 114.417,
+    "train_steps_per_second": 3.837
 }

trainer_state.json CHANGED Viewed

@@ -10,392 +10,392 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 4.279876708984375,
       "learning_rate": 4.75e-05,
-      "loss": 0.5457,
       "step": 122
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7192982456140351,
-      "eval_f1": 0.6013986013986015,
-      "eval_loss": 0.4752861261367798,
-      "eval_precision": 0.6464762782128051,
-      "eval_recall": 0.5963811602109474,
-      "eval_runtime": 5.2249,
-      "eval_samples_per_second": 76.365,
-      "eval_steps_per_second": 9.57,
       "step": 122
     },
     {
       "epoch": 2.0,
-      "grad_norm": 5.457512855529785,
       "learning_rate": 4.5e-05,
-      "loss": 0.4518,
       "step": 244
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7969924812030075,
-      "eval_f1": 0.7684901970616256,
-      "eval_loss": 0.4070126414299011,
-      "eval_precision": 0.7589055735189347,
-      "eval_recall": 0.7863702491362066,
-      "eval_runtime": 5.1546,
-      "eval_samples_per_second": 77.407,
-      "eval_steps_per_second": 9.7,
       "step": 244
     },
     {
       "epoch": 3.0,
-      "grad_norm": 3.400643825531006,
       "learning_rate": 4.25e-05,
-      "loss": 0.3461,
       "step": 366
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8421052631578947,
-      "eval_f1": 0.7970482088214634,
-      "eval_loss": 0.3412257730960846,
-      "eval_precision": 0.8231252179979072,
-      "eval_recall": 0.7807783233315149,
-      "eval_runtime": 5.1898,
-      "eval_samples_per_second": 76.882,
-      "eval_steps_per_second": 9.634,
       "step": 366
     },
     {
       "epoch": 4.0,
-      "grad_norm": 2.3028647899627686,
       "learning_rate": 4e-05,
-      "loss": 0.2958,
       "step": 488
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8546365914786967,
-      "eval_f1": 0.8228567054500919,
-      "eval_loss": 0.3252820372581482,
-      "eval_precision": 0.8263351692555232,
-      "eval_recall": 0.8196490270958356,
-      "eval_runtime": 5.1759,
-      "eval_samples_per_second": 77.088,
-      "eval_steps_per_second": 9.66,
       "step": 488
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.7779637575149536,
       "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.2659,
       "step": 610
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.8822055137844611,
-      "eval_f1": 0.8560793854229822,
-      "eval_loss": 0.2941116690635681,
-      "eval_precision": 0.8609538327526132,
-      "eval_recall": 0.8516548463356974,
-      "eval_runtime": 5.1453,
-      "eval_samples_per_second": 77.546,
-      "eval_steps_per_second": 9.718,
       "step": 610
     },
     {
       "epoch": 6.0,
-      "grad_norm": 2.210702896118164,
       "learning_rate": 3.5e-05,
-      "loss": 0.2482,
       "step": 732
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.8771929824561403,
-      "eval_f1": 0.8563451067988272,
-      "eval_loss": 0.2965351343154907,
-      "eval_precision": 0.8473119816985988,
-      "eval_recall": 0.8681123840698308,
-      "eval_runtime": 5.1607,
-      "eval_samples_per_second": 77.315,
-      "eval_steps_per_second": 9.689,
       "step": 732
     },
     {
       "epoch": 7.0,
-      "grad_norm": 0.5390880703926086,
       "learning_rate": 3.2500000000000004e-05,
-      "loss": 0.2264,
       "step": 854
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.87468671679198,
-      "eval_f1": 0.8530841286673736,
-      "eval_loss": 0.286903977394104,
-      "eval_precision": 0.8446597760551249,
-      "eval_recall": 0.8638388797963266,
-      "eval_runtime": 5.4309,
-      "eval_samples_per_second": 73.468,
-      "eval_steps_per_second": 9.207,
       "step": 854
     },
     {
       "epoch": 8.0,
-      "grad_norm": 2.480511426925659,
       "learning_rate": 3e-05,
-      "loss": 0.2218,
       "step": 976
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.899749373433584,
-      "eval_f1": 0.8730431462390225,
-      "eval_loss": 0.2795129120349884,
-      "eval_precision": 0.8961111111111111,
-      "eval_recall": 0.8565648299690853,
-      "eval_runtime": 5.1715,
-      "eval_samples_per_second": 77.153,
-      "eval_steps_per_second": 9.668,
       "step": 976
     },
     {
       "epoch": 9.0,
-      "grad_norm": 6.716876029968262,
       "learning_rate": 2.7500000000000004e-05,
-      "loss": 0.2106,
       "step": 1098
     },
     {
       "epoch": 9.0,
       "eval_accuracy": 0.8922305764411027,
-      "eval_f1": 0.8715803025426456,
-      "eval_loss": 0.27050527930259705,
-      "eval_precision": 0.8673433153814287,
-      "eval_recall": 0.8762502273140571,
-      "eval_runtime": 5.1606,
-      "eval_samples_per_second": 77.317,
-      "eval_steps_per_second": 9.689,
       "step": 1098
     },
     {
       "epoch": 10.0,
-      "grad_norm": 3.200309991836548,
       "learning_rate": 2.5e-05,
-      "loss": 0.1981,
       "step": 1220
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.9072681704260651,
-      "eval_f1": 0.8867007927797945,
-      "eval_loss": 0.275096595287323,
-      "eval_precision": 0.89198606271777,
-      "eval_recall": 0.8818876159301692,
-      "eval_runtime": 5.1671,
-      "eval_samples_per_second": 77.22,
-      "eval_steps_per_second": 9.677,
       "step": 1220
     },
     {
       "epoch": 11.0,
-      "grad_norm": 2.14013409614563,
       "learning_rate": 2.25e-05,
-      "loss": 0.1802,
       "step": 1342
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.9047619047619048,
-      "eval_f1": 0.8862394957983193,
-      "eval_loss": 0.27452006936073303,
-      "eval_precision": 0.8826476009275225,
-      "eval_recall": 0.8901163847972358,
-      "eval_runtime": 5.1559,
-      "eval_samples_per_second": 77.387,
-      "eval_steps_per_second": 9.698,
       "step": 1342
     },
     {
       "epoch": 12.0,
-      "grad_norm": 6.242837905883789,
       "learning_rate": 2e-05,
-      "loss": 0.1828,
       "step": 1464
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.9072681704260651,
-      "eval_f1": 0.8854915648632926,
-      "eval_loss": 0.279909610748291,
-      "eval_precision": 0.8956662848415425,
-      "eval_recall": 0.8768867066739408,
-      "eval_runtime": 5.1353,
-      "eval_samples_per_second": 77.698,
-      "eval_steps_per_second": 9.737,
       "step": 1464
     },
     {
       "epoch": 13.0,
-      "grad_norm": 1.8258763551712036,
       "learning_rate": 1.75e-05,
-      "loss": 0.1707,
       "step": 1586
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.9097744360902256,
-      "eval_f1": 0.8894736842105263,
-      "eval_loss": 0.27386558055877686,
-      "eval_precision": 0.8959740990990992,
-      "eval_recall": 0.8836606655755592,
-      "eval_runtime": 5.1775,
-      "eval_samples_per_second": 77.065,
-      "eval_steps_per_second": 9.657,
       "step": 1586
     },
     {
       "epoch": 14.0,
-      "grad_norm": 3.6909942626953125,
       "learning_rate": 1.5e-05,
-      "loss": 0.1606,
       "step": 1708
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.9072681704260651,
-      "eval_f1": 0.888964101175568,
-      "eval_loss": 0.28680744767189026,
-      "eval_precision": 0.8862007168458781,
-      "eval_recall": 0.8918894344426259,
-      "eval_runtime": 5.1734,
-      "eval_samples_per_second": 77.126,
-      "eval_steps_per_second": 9.665,
       "step": 1708
     },
     {
       "epoch": 15.0,
-      "grad_norm": 0.49116143584251404,
       "learning_rate": 1.25e-05,
-      "loss": 0.1499,
       "step": 1830
     },
     {
       "epoch": 15.0,
       "eval_accuracy": 0.9022556390977443,
-      "eval_f1": 0.8817957385392532,
-      "eval_loss": 0.2929786145687103,
-      "eval_precision": 0.8827677592299257,
-      "eval_recall": 0.8808419712675032,
-      "eval_runtime": 5.1562,
-      "eval_samples_per_second": 77.383,
-      "eval_steps_per_second": 9.697,
       "step": 1830
     },
     {
       "epoch": 16.0,
-      "grad_norm": 1.3892961740493774,
       "learning_rate": 1e-05,
-      "loss": 0.1555,
       "step": 1952
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.8947368421052632,
-      "eval_f1": 0.8760282890453928,
-      "eval_loss": 0.3041006028652191,
-      "eval_precision": 0.8682260305697083,
-      "eval_recall": 0.8855246408437898,
-      "eval_runtime": 5.1466,
-      "eval_samples_per_second": 77.527,
-      "eval_steps_per_second": 9.715,
       "step": 1952
     },
     {
       "epoch": 17.0,
-      "grad_norm": 3.9728598594665527,
       "learning_rate": 7.5e-06,
-      "loss": 0.1396,
       "step": 2074
     },
     {
       "epoch": 17.0,
-      "eval_accuracy": 0.9022556390977443,
-      "eval_f1": 0.8823853973772722,
-      "eval_loss": 0.28764259815216064,
-      "eval_precision": 0.8814464081066409,
-      "eval_recall": 0.8833424258956174,
-      "eval_runtime": 5.1398,
-      "eval_samples_per_second": 77.63,
-      "eval_steps_per_second": 9.728,
       "step": 2074
     },
     {
       "epoch": 18.0,
-      "grad_norm": 3.8131844997406006,
       "learning_rate": 5e-06,
-      "loss": 0.1477,
       "step": 2196
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.9047619047619048,
-      "eval_f1": 0.8845345436822225,
-      "eval_loss": 0.28996890783309937,
-      "eval_precision": 0.8865278628291489,
-      "eval_recall": 0.8826150209128933,
-      "eval_runtime": 5.3979,
-      "eval_samples_per_second": 73.917,
-      "eval_steps_per_second": 9.263,
       "step": 2196
     },
     {
       "epoch": 19.0,
-      "grad_norm": 3.289058208465576,
       "learning_rate": 2.5e-06,
-      "loss": 0.1434,
       "step": 2318
     },
     {
       "epoch": 19.0,
-      "eval_accuracy": 0.9047619047619048,
-      "eval_f1": 0.8851154755410074,
-      "eval_loss": 0.2917177975177765,
-      "eval_precision": 0.8851154755410074,
-      "eval_recall": 0.8851154755410074,
-      "eval_runtime": 5.1418,
-      "eval_samples_per_second": 77.6,
-      "eval_steps_per_second": 9.724,
       "step": 2318
     },
     {
       "epoch": 20.0,
-      "grad_norm": 2.46004581451416,
       "learning_rate": 0.0,
-      "loss": 0.1386,
       "step": 2440
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.9047619047619048,
-      "eval_f1": 0.8851154755410074,
-      "eval_loss": 0.2913039028644562,
-      "eval_precision": 0.8851154755410074,
-      "eval_recall": 0.8851154755410074,
-      "eval_runtime": 5.1424,
-      "eval_samples_per_second": 77.591,
-      "eval_steps_per_second": 9.723,
       "step": 2440
     },
     {
       "epoch": 20.0,
       "step": 2440,
       "total_flos": 8444128359504000.0,
-      "train_loss": 0.22896970373685244,
-      "train_runtime": 1968.7629,
-      "train_samples_per_second": 36.957,
-      "train_steps_per_second": 1.239
     }
   ],
   "logging_steps": 500,

   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 6.223746299743652,
       "learning_rate": 4.75e-05,
+      "loss": 0.5424,
       "step": 122
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7418546365914787,
+      "eval_f1": 0.6575164379109477,
+      "eval_loss": 0.4762427806854248,
+      "eval_precision": 0.6837301587301587,
+      "eval_recall": 0.647344971813057,
+      "eval_runtime": 1.7978,
+      "eval_samples_per_second": 221.935,
+      "eval_steps_per_second": 27.811,
       "step": 122
     },
     {
       "epoch": 2.0,
+      "grad_norm": 4.059021949768066,
       "learning_rate": 4.5e-05,
+      "loss": 0.4345,
       "step": 244
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7894736842105263,
+      "eval_f1": 0.7673663168415792,
+      "eval_loss": 0.41568055748939514,
+      "eval_precision": 0.7581367924528302,
+      "eval_recall": 0.7985542825968357,
+      "eval_runtime": 1.7989,
+      "eval_samples_per_second": 221.802,
+      "eval_steps_per_second": 27.795,
       "step": 244
     },
     {
       "epoch": 3.0,
+      "grad_norm": 3.354827404022217,
       "learning_rate": 4.25e-05,
+      "loss": 0.3391,
       "step": 366
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8546365914786967,
+      "eval_f1": 0.8180088078011953,
+      "eval_loss": 0.33879804611206055,
+      "eval_precision": 0.8323930726843348,
+      "eval_recall": 0.8071467539552646,
+      "eval_runtime": 1.8074,
+      "eval_samples_per_second": 220.763,
+      "eval_steps_per_second": 27.665,
       "step": 366
     },
     {
       "epoch": 4.0,
+      "grad_norm": 2.747511863708496,
       "learning_rate": 4e-05,
+      "loss": 0.2837,
       "step": 488
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8621553884711779,
+      "eval_f1": 0.8333016825553572,
+      "eval_loss": 0.32792460918426514,
+      "eval_precision": 0.8341507249908615,
+      "eval_recall": 0.8324695399163484,
+      "eval_runtime": 1.804,
+      "eval_samples_per_second": 221.178,
+      "eval_steps_per_second": 27.717,
       "step": 488
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.42053157091140747,
       "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.2761,
       "step": 610
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.8646616541353384,
+      "eval_f1": 0.8391129032258065,
+      "eval_loss": 0.31322285532951355,
+      "eval_precision": 0.8345705196182396,
+      "eval_recall": 0.8442444080741953,
+      "eval_runtime": 1.8022,
+      "eval_samples_per_second": 221.397,
+      "eval_steps_per_second": 27.744,
       "step": 610
     },
     {
       "epoch": 6.0,
+      "grad_norm": 2.2977254390716553,
       "learning_rate": 3.5e-05,
+      "loss": 0.2459,
       "step": 732
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.87468671679198,
+      "eval_f1": 0.8543795620437956,
+      "eval_loss": 0.3032587468624115,
+      "eval_precision": 0.843984962406015,
+      "eval_recall": 0.868839789052555,
+      "eval_runtime": 1.8072,
+      "eval_samples_per_second": 220.78,
+      "eval_steps_per_second": 27.667,
       "step": 732
     },
     {
       "epoch": 7.0,
+      "grad_norm": 2.8183882236480713,
       "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.2321,
       "step": 854
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.8822055137844611,
+      "eval_f1": 0.8622085718274466,
+      "eval_loss": 0.2870577275753021,
+      "eval_precision": 0.8530168716042322,
+      "eval_recall": 0.8741589379887251,
+      "eval_runtime": 1.8055,
+      "eval_samples_per_second": 220.996,
+      "eval_steps_per_second": 27.694,
       "step": 854
     },
     {
       "epoch": 8.0,
+      "grad_norm": 3.4162003993988037,
       "learning_rate": 3e-05,
+      "loss": 0.2206,
       "step": 976
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.8822055137844611,
+      "eval_f1": 0.8560793854229822,
+      "eval_loss": 0.2634139955043793,
+      "eval_precision": 0.8609538327526132,
+      "eval_recall": 0.8516548463356974,
+      "eval_runtime": 1.8055,
+      "eval_samples_per_second": 220.985,
+      "eval_steps_per_second": 27.692,
       "step": 976
     },
     {
       "epoch": 9.0,
+      "grad_norm": 5.009228229522705,
       "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.2067,
       "step": 1098
     },
     {
       "epoch": 9.0,
       "eval_accuracy": 0.8922305764411027,
+      "eval_f1": 0.8703223612108386,
+      "eval_loss": 0.2633897066116333,
+      "eval_precision": 0.8694131129742446,
+      "eval_recall": 0.8712493180578287,
+      "eval_runtime": 1.8057,
+      "eval_samples_per_second": 220.963,
+      "eval_steps_per_second": 27.69,
       "step": 1098
     },
     {
       "epoch": 10.0,
+      "grad_norm": 0.9459621906280518,
       "learning_rate": 2.5e-05,
+      "loss": 0.192,
       "step": 1220
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.8922305764411027,
+      "eval_f1": 0.8631217838765008,
+      "eval_loss": 0.2696186900138855,
+      "eval_precision": 0.8872804935927859,
+      "eval_recall": 0.8462447717766868,
+      "eval_runtime": 1.8049,
+      "eval_samples_per_second": 221.061,
+      "eval_steps_per_second": 27.702,
       "step": 1220
     },
     {
       "epoch": 11.0,
+      "grad_norm": 0.9607306122779846,
       "learning_rate": 2.25e-05,
+      "loss": 0.1866,
       "step": 1342
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.8972431077694235,
+      "eval_f1": 0.8808495451466529,
+      "eval_loss": 0.2752375304698944,
+      "eval_precision": 0.8691495353421572,
+      "eval_recall": 0.8972995090016367,
+      "eval_runtime": 1.8092,
+      "eval_samples_per_second": 220.542,
+      "eval_steps_per_second": 27.637,
       "step": 1342
     },
     {
       "epoch": 12.0,
+      "grad_norm": 4.809903621673584,
       "learning_rate": 2e-05,
+      "loss": 0.1786,
       "step": 1464
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.8972431077694235,
+      "eval_f1": 0.8792560061999484,
+      "eval_loss": 0.2651856243610382,
+      "eval_precision": 0.8707622232472325,
+      "eval_recall": 0.889798145117294,
+      "eval_runtime": 1.8065,
+      "eval_samples_per_second": 220.87,
+      "eval_steps_per_second": 27.678,
       "step": 1464
     },
     {
       "epoch": 13.0,
+      "grad_norm": 0.7058310508728027,
       "learning_rate": 1.75e-05,
+      "loss": 0.1695,
       "step": 1586
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.9072681704260651,
+      "eval_f1": 0.8867007927797945,
+      "eval_loss": 0.25362077355384827,
+      "eval_precision": 0.89198606271777,
+      "eval_recall": 0.8818876159301692,
+      "eval_runtime": 1.82,
+      "eval_samples_per_second": 219.234,
+      "eval_steps_per_second": 27.473,
       "step": 1586
     },
     {
       "epoch": 14.0,
+      "grad_norm": 7.428104877471924,
       "learning_rate": 1.5e-05,
+      "loss": 0.1664,
       "step": 1708
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.8872180451127819,
+      "eval_f1": 0.8680720368560659,
+      "eval_loss": 0.2736993730068207,
+      "eval_precision": 0.8587217615098657,
+      "eval_recall": 0.8802054919076197,
+      "eval_runtime": 1.8089,
+      "eval_samples_per_second": 220.576,
+      "eval_steps_per_second": 27.641,
       "step": 1708
     },
     {
       "epoch": 15.0,
+      "grad_norm": 0.6353508234024048,
       "learning_rate": 1.25e-05,
+      "loss": 0.1521,
       "step": 1830
     },
     {
       "epoch": 15.0,
       "eval_accuracy": 0.9022556390977443,
+      "eval_f1": 0.8829621606985718,
+      "eval_loss": 0.26195329427719116,
+      "eval_precision": 0.8802419354838709,
+      "eval_recall": 0.8858428805237315,
+      "eval_runtime": 1.8126,
+      "eval_samples_per_second": 220.122,
+      "eval_steps_per_second": 27.584,
       "step": 1830
     },
     {
       "epoch": 16.0,
+      "grad_norm": 1.580483317375183,
       "learning_rate": 1e-05,
+      "loss": 0.1494,
       "step": 1952
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.8922305764411027,
+      "eval_f1": 0.8760914310475572,
+      "eval_loss": 0.30298247933387756,
+      "eval_precision": 0.8629851740796268,
+      "eval_recall": 0.8962538643389707,
+      "eval_runtime": 1.8105,
+      "eval_samples_per_second": 220.383,
+      "eval_steps_per_second": 27.617,
       "step": 1952
     },
     {
       "epoch": 17.0,
+      "grad_norm": 3.5637781620025635,
       "learning_rate": 7.5e-06,
+      "loss": 0.1487,
       "step": 2074
     },
     {
       "epoch": 17.0,
+      "eval_accuracy": 0.8922305764411027,
+      "eval_f1": 0.8733660552828726,
+      "eval_loss": 0.2702126204967499,
+      "eval_precision": 0.8650109547970479,
+      "eval_recall": 0.8837515911983997,
+      "eval_runtime": 1.8055,
+      "eval_samples_per_second": 220.99,
+      "eval_steps_per_second": 27.693,
       "step": 2074
     },
     {
       "epoch": 18.0,
+      "grad_norm": 3.6467041969299316,
       "learning_rate": 5e-06,
+      "loss": 0.1494,
       "step": 2196
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.8947368421052632,
+      "eval_f1": 0.8765906680805938,
+      "eval_loss": 0.2763027548789978,
+      "eval_precision": 0.8675710594315245,
+      "eval_recall": 0.888025095471904,
+      "eval_runtime": 1.8075,
+      "eval_samples_per_second": 220.753,
+      "eval_steps_per_second": 27.663,
       "step": 2196
     },
     {
       "epoch": 19.0,
+      "grad_norm": 4.27400541305542,
       "learning_rate": 2.5e-06,
+      "loss": 0.1334,
       "step": 2318
     },
     {
       "epoch": 19.0,
+      "eval_accuracy": 0.8922305764411027,
+      "eval_f1": 0.8733660552828726,
+      "eval_loss": 0.28261518478393555,
+      "eval_precision": 0.8650109547970479,
+      "eval_recall": 0.8837515911983997,
+      "eval_runtime": 1.8039,
+      "eval_samples_per_second": 221.182,
+      "eval_steps_per_second": 27.717,
       "step": 2318
     },
     {
       "epoch": 20.0,
+      "grad_norm": 0.5643185377120972,
       "learning_rate": 0.0,
+      "loss": 0.1325,
       "step": 2440
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.8922305764411027,
+      "eval_f1": 0.8721887408091659,
+      "eval_loss": 0.27931535243988037,
+      "eval_precision": 0.866466275659824,
+      "eval_recall": 0.8787506819421713,
+      "eval_runtime": 1.804,
+      "eval_samples_per_second": 221.175,
+      "eval_steps_per_second": 27.716,
       "step": 2440
     },
     {
       "epoch": 20.0,
       "step": 2440,
       "total_flos": 8444128359504000.0,
+      "train_loss": 0.2269888150887411,
+      "train_runtime": 635.9179,
+      "train_samples_per_second": 114.417,
+      "train_steps_per_second": 3.837
     }
   ],
   "logging_steps": 500,