End of training

Browse files

Files changed (8) hide show

README.md +2 -0
all_results.json +16 -16
eval_results.json +8 -8
predict_results.json +4 -4
predict_results.txt +29 -29
runs/Jun03_15-35-02_a358b85c7679/events.out.tfevents.1717429663.a358b85c7679.176319.1 +3 -0
train_results.json +4 -4
trainer_state.json +203 -203

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

 ---
+language:
+- id
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "accuracy": 0.9000989119683481,
     "epoch": 20.0,
-    "eval_accuracy": 0.9022556390977443,
-    "eval_f1": 0.884617951284618,
-    "eval_loss": 0.2810901701450348,
-    "eval_precision": 0.8772893772893773,
-    "eval_recall": 0.8933442444080741,
-    "eval_runtime": 5.4917,
     "eval_samples": 399,
-    "eval_samples_per_second": 72.655,
-    "eval_steps_per_second": 9.105,
-    "f1": 0.881994210133999,
-    "precision": 0.875823871126101,
-    "recall": 0.8891323173658895,
-    "train_loss": 0.21111928674041247,
-    "train_runtime": 2276.8554,
     "train_samples": 3638,
-    "train_samples_per_second": 31.956,
-    "train_steps_per_second": 1.072
 }

 {
+    "accuracy": 0.8991097922848664,
     "epoch": 20.0,
+    "eval_accuracy": 0.8922305764411027,
+    "eval_f1": 0.8703223612108386,
+    "eval_loss": 0.3013243079185486,
+    "eval_precision": 0.8694131129742446,
+    "eval_recall": 0.8712493180578287,
+    "eval_runtime": 2.0053,
     "eval_samples": 399,
+    "eval_samples_per_second": 198.975,
+    "eval_steps_per_second": 24.934,
+    "f1": 0.8802744624529791,
+    "precision": 0.8755777484318257,
+    "recall": 0.8855012848630891,
+    "train_loss": 0.2159292881606055,
+    "train_runtime": 745.0279,
     "train_samples": 3638,
+    "train_samples_per_second": 97.661,
+    "train_steps_per_second": 3.275
 }

eval_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.9022556390977443,
-    "eval_f1": 0.884617951284618,
-    "eval_loss": 0.2810901701450348,
-    "eval_precision": 0.8772893772893773,
-    "eval_recall": 0.8933442444080741,
-    "eval_runtime": 5.4917,
     "eval_samples": 399,
-    "eval_samples_per_second": 72.655,
-    "eval_steps_per_second": 9.105
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 0.8922305764411027,
+    "eval_f1": 0.8703223612108386,
+    "eval_loss": 0.3013243079185486,
+    "eval_precision": 0.8694131129742446,
+    "eval_recall": 0.8712493180578287,
+    "eval_runtime": 2.0053,
     "eval_samples": 399,
+    "eval_samples_per_second": 198.975,
+    "eval_steps_per_second": 24.934
 }

predict_results.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-    "accuracy": 0.9000989119683481,
-    "f1": 0.881994210133999,
-    "precision": 0.875823871126101,
-    "recall": 0.8891323173658895
 }

 {
+    "accuracy": 0.8991097922848664,
+    "f1": 0.8802744624529791,
+    "precision": 0.8755777484318257,
+    "recall": 0.8855012848630891
 }

predict_results.txt CHANGED Viewed

@@ -12,7 +12,7 @@ index	prediction
 10	1
 11	1
 12	1
-13	1
 14	1
 15	0
 16	1
@@ -36,7 +36,7 @@ index	prediction
 34	0
 35	1
 36	1
-37	0
 38	1
 39	0
 40	1
@@ -44,7 +44,7 @@ index	prediction
 42	1
 43	0
 44	0
-45	0
 46	1
 47	1
 48	1
@@ -80,7 +80,7 @@ index	prediction
 78	1
 79	1
 80	1
-81	0
 82	1
 83	1
 84	1
@@ -163,7 +163,7 @@ index	prediction
 161	1
 162	1
 163	1
-164	1
 165	0
 166	1
 167	1
@@ -173,7 +173,7 @@ index	prediction
 171	1
 172	1
 173	0
-174	1
 175	1
 176	1
 177	0
@@ -206,7 +206,7 @@ index	prediction
 204	1
 205	0
 206	1
-207	1
 208	1
 209	1
 210	1
@@ -229,7 +229,7 @@ index	prediction
 227	0
 228	1
 229	0
-230	1
 231	1
 232	1
 233	1
@@ -273,7 +273,7 @@ index	prediction
 271	1
 272	1
 273	1
-274	1
 275	1
 276	1
 277	1
@@ -315,7 +315,7 @@ index	prediction
 313	0
 314	1
 315	0
-316	1
 317	0
 318	1
 319	0
@@ -345,7 +345,7 @@ index	prediction
 343	0
 344	0
 345	0
-346	0
 347	0
 348	0
 349	0
@@ -400,7 +400,7 @@ index	prediction
 398	1
 399	0
 400	0
-401	1
 402	1
 403	0
 404	0
@@ -470,7 +470,7 @@ index	prediction
 468	0
 469	0
 470	0
-471	0
 472	0
 473	0
 474	0
@@ -486,7 +486,7 @@ index	prediction
 484	0
 485	0
 486	0
-487	0
 488	0
 489	0
 490	0
@@ -502,7 +502,7 @@ index	prediction
 500	0
 501	0
 502	0
-503	1
 504	0
 505	0
 506	0
@@ -523,7 +523,7 @@ index	prediction
 521	0
 522	0
 523	0
-524	0
 525	0
 526	0
 527	0
@@ -559,7 +559,7 @@ index	prediction
 557	0
 558	0
 559	0
-560	1
 561	0
 562	0
 563	0
@@ -609,7 +609,7 @@ index	prediction
 607	0
 608	1
 609	0
-610	1
 611	1
 612	0
 613	0
@@ -662,7 +662,7 @@ index	prediction
 660	0
 661	0
 662	0
-663	0
 664	0
 665	0
 666	0
@@ -726,7 +726,7 @@ index	prediction
 724	0
 725	0
 726	0
-727	1
 728	1
 729	0
 730	0
@@ -755,7 +755,7 @@ index	prediction
 753	0
 754	0
 755	0
-756	1
 757	0
 758	0
 759	0
@@ -848,7 +848,7 @@ index	prediction
 846	0
 847	0
 848	0
-849	1
 850	0
 851	0
 852	0
@@ -858,7 +858,7 @@ index	prediction
 856	0
 857	0
 858	0
-859	0
 860	0
 861	0
 862	0
@@ -867,7 +867,7 @@ index	prediction
 865	0
 866	0
 867	0
-868	1
 869	0
 870	0
 871	0
@@ -890,7 +890,7 @@ index	prediction
 888	0
 889	0
 890	0
-891	1
 892	0
 893	0
 894	0
@@ -905,13 +905,13 @@ index	prediction
 903	0
 904	0
 905	0
-906	1
 907	1
 908	0
 909	0
 910	0
 911	0
-912	0
 913	0
 914	0
 915	0
@@ -954,7 +954,7 @@ index	prediction
 952	0
 953	0
 954	0
-955	0
 956	0
 957	1
 958	0
@@ -984,7 +984,7 @@ index	prediction
 982	0
 983	0
 984	0
-985	0
 986	1
 987	0
 988	0

 10	1
 11	1
 12	1
+13	0
 14	1
 15	0
 16	1
 34	0
 35	1
 36	1
+37	1
 38	1
 39	0
 40	1
 42	1
 43	0
 44	0
+45	1
 46	1
 47	1
 48	1
 78	1
 79	1
 80	1
+81	1
 82	1
 83	1
 84	1
 161	1
 162	1
 163	1
+164	0
 165	0
 166	1
 167	1
 171	1
 172	1
 173	0
+174	0
 175	1
 176	1
 177	0
 204	1
 205	0
 206	1
+207	0
 208	1
 209	1
 210	1
 227	0
 228	1
 229	0
+230	0
 231	1
 232	1
 233	1
 271	1
 272	1
 273	1
+274	0
 275	1
 276	1
 277	1
 313	0
 314	1
 315	0
+316	0
 317	0
 318	1
 319	0
 343	0
 344	0
 345	0
+346	1
 347	0
 348	0
 349	0
 398	1
 399	0
 400	0
+401	0
 402	1
 403	0
 404	0
 468	0
 469	0
 470	0
+471	1
 472	0
 473	0
 474	0
 484	0
 485	0
 486	0
+487	1
 488	0
 489	0
 490	0
 500	0
 501	0
 502	0
+503	0
 504	0
 505	0
 506	0
 521	0
 522	0
 523	0
+524	1
 525	0
 526	0
 527	0
 557	0
 558	0
 559	0
+560	0
 561	0
 562	0
 563	0
 607	0
 608	1
 609	0
+610	0
 611	1
 612	0
 613	0
 660	0
 661	0
 662	0
+663	1
 664	0
 665	0
 666	0
 724	0
 725	0
 726	0
+727	0
 728	1
 729	0
 730	0
 753	0
 754	0
 755	0
+756	0
 757	0
 758	0
 759	0
 846	0
 847	0
 848	0
+849	0
 850	0
 851	0
 852	0
 856	0
 857	0
 858	0
+859	1
 860	0
 861	0
 862	0
 865	0
 866	0
 867	0
+868	0
 869	0
 870	0
 871	0
 888	0
 889	0
 890	0
+891	0
 892	0
 893	0
 894	0
 903	0
 904	0
 905	0
+906	0
 907	1
 908	0
 909	0
 910	0
 911	0
+912	1
 913	0
 914	0
 915	0
 952	0
 953	0
 954	0
+955	1
 956	0
 957	1
 958	0
 982	0
 983	0
 984	0
+985	1
 986	1
 987	0
 988	0

runs/Jun03_15-35-02_a358b85c7679/events.out.tfevents.1717429663.a358b85c7679.176319.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64b97d0aeb9a761ac51c9b5a1eb0e7c6d525fdf7f65fd7b686b2580bee14a17d
+size 560

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "train_loss": 0.21111928674041247,
-    "train_runtime": 2276.8554,
     "train_samples": 3638,
-    "train_samples_per_second": 31.956,
-    "train_steps_per_second": 1.072
 }

 {
     "epoch": 20.0,
+    "train_loss": 0.2159292881606055,
+    "train_runtime": 745.0279,
     "train_samples": 3638,
+    "train_samples_per_second": 97.661,
+    "train_steps_per_second": 3.275
 }

trainer_state.json CHANGED Viewed

@@ -10,392 +10,392 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 4.3501811027526855,
       "learning_rate": 4.75e-05,
-      "loss": 0.5459,
       "step": 122
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7468671679197995,
-      "eval_f1": 0.6572777139941319,
-      "eval_loss": 0.46394461393356323,
-      "eval_precision": 0.6922477833692786,
-      "eval_recall": 0.6458901618476087,
-      "eval_runtime": 5.2607,
-      "eval_samples_per_second": 75.846,
-      "eval_steps_per_second": 9.504,
       "step": 122
     },
     {
       "epoch": 2.0,
-      "grad_norm": 3.848093271255493,
       "learning_rate": 4.5e-05,
-      "loss": 0.4335,
       "step": 244
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.7844611528822055,
-      "eval_f1": 0.7634169884169884,
-      "eval_loss": 0.41080254316329956,
-      "eval_precision": 0.7551731309140064,
-      "eval_recall": 0.7975086379341698,
-      "eval_runtime": 5.5475,
-      "eval_samples_per_second": 71.924,
-      "eval_steps_per_second": 9.013,
       "step": 244
     },
     {
       "epoch": 3.0,
-      "grad_norm": 4.800747394561768,
       "learning_rate": 4.25e-05,
-      "loss": 0.3375,
       "step": 366
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8596491228070176,
-      "eval_f1": 0.8271551457392166,
-      "eval_loss": 0.3282613754272461,
-      "eval_precision": 0.8347358430876305,
-      "eval_recall": 0.8206946717585015,
-      "eval_runtime": 5.6194,
-      "eval_samples_per_second": 71.004,
-      "eval_steps_per_second": 8.898,
       "step": 366
     },
     {
       "epoch": 4.0,
-      "grad_norm": 2.052788019180298,
       "learning_rate": 4e-05,
-      "loss": 0.2801,
       "step": 488
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8596491228070176,
-      "eval_f1": 0.8347043853938569,
-      "eval_loss": 0.32024893164634705,
-      "eval_precision": 0.8277993283927745,
-      "eval_recall": 0.8431987634115294,
-      "eval_runtime": 5.5699,
-      "eval_samples_per_second": 71.636,
-      "eval_steps_per_second": 8.977,
       "step": 488
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.35927698016166687,
       "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.2572,
       "step": 610
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.87468671679198,
-      "eval_f1": 0.8550061050061051,
-      "eval_loss": 0.31085968017578125,
-      "eval_precision": 0.8437710437710437,
-      "eval_recall": 0.8713402436806692,
-      "eval_runtime": 5.607,
-      "eval_samples_per_second": 71.161,
-      "eval_steps_per_second": 8.917,
       "step": 610
     },
     {
       "epoch": 6.0,
-      "grad_norm": 1.9262036085128784,
       "learning_rate": 3.5e-05,
-      "loss": 0.2339,
       "step": 732
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.8671679197994987,
-      "eval_f1": 0.8472754847795472,
-      "eval_loss": 0.3074397146701813,
-      "eval_precision": 0.8352906879893387,
-      "eval_recall": 0.8660210947444991,
-      "eval_runtime": 5.5884,
-      "eval_samples_per_second": 71.398,
-      "eval_steps_per_second": 8.947,
       "step": 732
     },
     {
       "epoch": 7.0,
-      "grad_norm": 0.7879945635795593,
       "learning_rate": 3.2500000000000004e-05,
-      "loss": 0.2249,
       "step": 854
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.8671679197994987,
-      "eval_f1": 0.8472754847795472,
-      "eval_loss": 0.2915370464324951,
-      "eval_precision": 0.8352906879893387,
-      "eval_recall": 0.8660210947444991,
-      "eval_runtime": 5.5808,
-      "eval_samples_per_second": 71.495,
-      "eval_steps_per_second": 8.959,
       "step": 854
     },
     {
       "epoch": 8.0,
-      "grad_norm": 2.2202210426330566,
       "learning_rate": 3e-05,
-      "loss": 0.193,
       "step": 976
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.8972431077694235,
-      "eval_f1": 0.8751002084335417,
-      "eval_loss": 0.25404733419418335,
-      "eval_precision": 0.8780701754385964,
-      "eval_recall": 0.8722949627204946,
-      "eval_runtime": 5.6126,
-      "eval_samples_per_second": 71.09,
-      "eval_steps_per_second": 8.909,
       "step": 976
     },
     {
       "epoch": 9.0,
-      "grad_norm": 8.847825050354004,
       "learning_rate": 2.7500000000000004e-05,
-      "loss": 0.1899,
       "step": 1098
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.8822055137844611,
-      "eval_f1": 0.8628173897776901,
-      "eval_loss": 0.26359453797340393,
-      "eval_precision": 0.8526132107592781,
-      "eval_recall": 0.8766593926168395,
-      "eval_runtime": 5.6712,
-      "eval_samples_per_second": 70.355,
-      "eval_steps_per_second": 8.816,
       "step": 1098
     },
     {
       "epoch": 10.0,
-      "grad_norm": 1.7180150747299194,
       "learning_rate": 2.5e-05,
-      "loss": 0.1801,
       "step": 1220
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.9072681704260651,
-      "eval_f1": 0.8900228699985846,
-      "eval_loss": 0.23711469769477844,
-      "eval_precision": 0.8840175953079179,
-      "eval_recall": 0.8968903436988543,
-      "eval_runtime": 5.6014,
-      "eval_samples_per_second": 71.232,
-      "eval_steps_per_second": 8.926,
       "step": 1220
     },
     {
       "epoch": 11.0,
-      "grad_norm": 0.6990593671798706,
       "learning_rate": 2.25e-05,
-      "loss": 0.157,
       "step": 1342
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.899749373433584,
-      "eval_f1": 0.882467302933899,
-      "eval_loss": 0.2566535174846649,
-      "eval_precision": 0.8732988802756245,
-      "eval_recall": 0.8940716493907983,
-      "eval_runtime": 5.5662,
-      "eval_samples_per_second": 71.683,
-      "eval_steps_per_second": 8.983,
       "step": 1342
     },
     {
       "epoch": 12.0,
-      "grad_norm": 3.7353861331939697,
       "learning_rate": 2e-05,
-      "loss": 0.1553,
       "step": 1464
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.8972431077694235,
-      "eval_f1": 0.8792560061999484,
-      "eval_loss": 0.25933051109313965,
-      "eval_precision": 0.8707622232472325,
-      "eval_recall": 0.889798145117294,
-      "eval_runtime": 5.5701,
-      "eval_samples_per_second": 71.632,
-      "eval_steps_per_second": 8.976,
       "step": 1464
     },
     {
       "epoch": 13.0,
-      "grad_norm": 1.2111871242523193,
       "learning_rate": 1.75e-05,
-      "loss": 0.1381,
       "step": 1586
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.9172932330827067,
-      "eval_f1": 0.8999810095332144,
-      "eval_loss": 0.24901245534420013,
-      "eval_precision": 0.9009991470695747,
-      "eval_recall": 0.8989816330241862,
-      "eval_runtime": 5.6002,
-      "eval_samples_per_second": 71.248,
-      "eval_steps_per_second": 8.928,
       "step": 1586
     },
     {
       "epoch": 14.0,
-      "grad_norm": 9.943241119384766,
       "learning_rate": 1.5e-05,
-      "loss": 0.1476,
       "step": 1708
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.899749373433584,
-      "eval_f1": 0.881931703852755,
-      "eval_loss": 0.27014100551605225,
-      "eval_precision": 0.8740012737378415,
-      "eval_recall": 0.8915711947626841,
-      "eval_runtime": 5.5922,
-      "eval_samples_per_second": 71.349,
-      "eval_steps_per_second": 8.941,
       "step": 1708
     },
     {
       "epoch": 15.0,
-      "grad_norm": 0.20924903452396393,
       "learning_rate": 1.25e-05,
-      "loss": 0.1447,
       "step": 1830
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.9122807017543859,
-      "eval_f1": 0.8959675797283908,
-      "eval_loss": 0.2611282765865326,
-      "eval_precision": 0.8898680351906159,
-      "eval_recall": 0.9029368976177486,
-      "eval_runtime": 5.5841,
-      "eval_samples_per_second": 71.453,
-      "eval_steps_per_second": 8.954,
       "step": 1830
     },
     {
       "epoch": 16.0,
-      "grad_norm": 0.40175938606262207,
       "learning_rate": 1e-05,
-      "loss": 0.1336,
       "step": 1952
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.899749373433584,
-      "eval_f1": 0.884004884004884,
-      "eval_loss": 0.31003570556640625,
-      "eval_precision": 0.8717592592592593,
-      "eval_recall": 0.9015730132751409,
-      "eval_runtime": 5.5685,
-      "eval_samples_per_second": 71.653,
-      "eval_steps_per_second": 8.979,
       "step": 1952
     },
     {
       "epoch": 17.0,
-      "grad_norm": 7.287301540374756,
       "learning_rate": 7.5e-06,
-      "loss": 0.1192,
       "step": 2074
     },
     {
       "epoch": 17.0,
-      "eval_accuracy": 0.8972431077694235,
-      "eval_f1": 0.8803300634230913,
-      "eval_loss": 0.29346275329589844,
-      "eval_precision": 0.8695948246510044,
-      "eval_recall": 0.8947990543735225,
-      "eval_runtime": 5.5988,
-      "eval_samples_per_second": 71.266,
-      "eval_steps_per_second": 8.931,
       "step": 2074
     },
     {
       "epoch": 18.0,
-      "grad_norm": 6.602230072021484,
       "learning_rate": 5e-06,
-      "loss": 0.1247,
       "step": 2196
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.9022556390977443,
-      "eval_f1": 0.885145957117024,
-      "eval_loss": 0.28685662150382996,
-      "eval_precision": 0.876513491697417,
-      "eval_recall": 0.8958446990361884,
-      "eval_runtime": 5.5796,
-      "eval_samples_per_second": 71.51,
-      "eval_steps_per_second": 8.961,
       "step": 2196
     },
     {
       "epoch": 19.0,
-      "grad_norm": 7.744582653045654,
       "learning_rate": 2.5e-06,
-      "loss": 0.117,
       "step": 2318
     },
     {
       "epoch": 19.0,
-      "eval_accuracy": 0.9022556390977443,
-      "eval_f1": 0.884617951284618,
-      "eval_loss": 0.2761416733264923,
-      "eval_precision": 0.8772893772893773,
-      "eval_recall": 0.8933442444080741,
-      "eval_runtime": 5.559,
-      "eval_samples_per_second": 71.775,
-      "eval_steps_per_second": 8.994,
       "step": 2318
     },
     {
       "epoch": 20.0,
-      "grad_norm": 0.1699504405260086,
       "learning_rate": 0.0,
-      "loss": 0.1092,
       "step": 2440
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.9022556390977443,
-      "eval_f1": 0.884617951284618,
-      "eval_loss": 0.2810901701450348,
-      "eval_precision": 0.8772893772893773,
-      "eval_recall": 0.8933442444080741,
-      "eval_runtime": 5.6476,
-      "eval_samples_per_second": 70.649,
-      "eval_steps_per_second": 8.853,
       "step": 2440
     },
     {
       "epoch": 20.0,
       "step": 2440,
       "total_flos": 8551203605328000.0,
-      "train_loss": 0.21111928674041247,
-      "train_runtime": 2276.8554,
-      "train_samples_per_second": 31.956,
-      "train_steps_per_second": 1.072
     }
   ],
   "logging_steps": 500,

   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 4.798983097076416,
       "learning_rate": 4.75e-05,
+      "loss": 0.5538,
       "step": 122
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7192982456140351,
+      "eval_f1": 0.6358539765319426,
+      "eval_loss": 0.4789246916770935,
+      "eval_precision": 0.6517232767232768,
+      "eval_recall": 0.628887070376432,
+      "eval_runtime": 1.9849,
+      "eval_samples_per_second": 201.02,
+      "eval_steps_per_second": 25.19,
       "step": 122
     },
     {
       "epoch": 2.0,
+      "grad_norm": 4.214308261871338,
       "learning_rate": 4.5e-05,
+      "loss": 0.4356,
       "step": 244
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.7844611528822055,
+      "eval_f1": 0.7610046247283668,
+      "eval_loss": 0.40878012776374817,
+      "eval_precision": 0.751842396167816,
+      "eval_recall": 0.7900072740498272,
+      "eval_runtime": 1.9915,
+      "eval_samples_per_second": 200.347,
+      "eval_steps_per_second": 25.106,
       "step": 244
     },
     {
       "epoch": 3.0,
+      "grad_norm": 4.247888088226318,
       "learning_rate": 4.25e-05,
+      "loss": 0.3417,
       "step": 366
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8571428571428571,
+      "eval_f1": 0.820640215771169,
+      "eval_loss": 0.3368583023548126,
+      "eval_precision": 0.8364527629233511,
+      "eval_recall": 0.8089198036006546,
+      "eval_runtime": 2.0317,
+      "eval_samples_per_second": 196.389,
+      "eval_steps_per_second": 24.61,
       "step": 366
     },
     {
       "epoch": 4.0,
+      "grad_norm": 2.456321954727173,
       "learning_rate": 4e-05,
+      "loss": 0.2904,
       "step": 488
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8671679197994987,
+      "eval_f1": 0.8377065410088949,
+      "eval_loss": 0.32671821117401123,
+      "eval_precision": 0.8423344947735192,
+      "eval_recall": 0.8335151845790143,
+      "eval_runtime": 2.0365,
+      "eval_samples_per_second": 195.924,
+      "eval_steps_per_second": 24.552,
       "step": 488
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.4103873074054718,
       "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.263,
       "step": 610
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.8671679197994987,
+      "eval_f1": 0.8453047161322887,
+      "eval_loss": 0.3209967315196991,
+      "eval_precision": 0.835631596867552,
+      "eval_recall": 0.8585197308601564,
+      "eval_runtime": 2.0233,
+      "eval_samples_per_second": 197.202,
+      "eval_steps_per_second": 24.712,
       "step": 610
     },
     {
       "epoch": 6.0,
+      "grad_norm": 0.9892892837524414,
       "learning_rate": 3.5e-05,
+      "loss": 0.2463,
       "step": 732
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.8421052631578947,
+      "eval_f1": 0.8220326383234805,
+      "eval_loss": 0.3550713360309601,
+      "eval_precision": 0.8093437062560569,
+      "eval_recall": 0.8482905982905984,
+      "eval_runtime": 2.0535,
+      "eval_samples_per_second": 194.306,
+      "eval_steps_per_second": 24.349,
       "step": 732
     },
     {
       "epoch": 7.0,
+      "grad_norm": 0.5059836506843567,
       "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.2303,
       "step": 854
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.8721804511278195,
+      "eval_f1": 0.8524204953403198,
+      "eval_loss": 0.30282893776893616,
+      "eval_precision": 0.8409052784611943,
+      "eval_recall": 0.8695671940352792,
+      "eval_runtime": 2.0509,
+      "eval_samples_per_second": 194.546,
+      "eval_steps_per_second": 24.379,
       "step": 854
     },
     {
       "epoch": 8.0,
+      "grad_norm": 4.26680326461792,
       "learning_rate": 3e-05,
+      "loss": 0.2208,
       "step": 976
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.8897243107769424,
+      "eval_f1": 0.8656154317207594,
+      "eval_loss": 0.2672863006591797,
+      "eval_precision": 0.869546382820719,
+      "eval_recall": 0.861974904528096,
+      "eval_runtime": 2.0377,
+      "eval_samples_per_second": 195.809,
+      "eval_steps_per_second": 24.538,
       "step": 976
     },
     {
       "epoch": 9.0,
+      "grad_norm": 7.01179313659668,
       "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.1994,
       "step": 1098
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.8897243107769424,
+      "eval_f1": 0.8682773109243698,
+      "eval_loss": 0.2715359330177307,
+      "eval_precision": 0.864855223259409,
+      "eval_recall": 0.8719767230405528,
+      "eval_runtime": 2.0475,
+      "eval_samples_per_second": 194.876,
+      "eval_steps_per_second": 24.421,
       "step": 1098
     },
     {
       "epoch": 10.0,
+      "grad_norm": 1.0255930423736572,
       "learning_rate": 2.5e-05,
+      "loss": 0.1836,
       "step": 1220
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.9097744360902256,
+      "eval_f1": 0.8882839721254355,
+      "eval_loss": 0.2594870328903198,
+      "eval_precision": 0.8998687748047625,
+      "eval_recall": 0.8786597563193308,
+      "eval_runtime": 2.0498,
+      "eval_samples_per_second": 194.658,
+      "eval_steps_per_second": 24.393,
       "step": 1220
     },
     {
       "epoch": 11.0,
+      "grad_norm": 7.171597957611084,
       "learning_rate": 2.25e-05,
+      "loss": 0.1706,
       "step": 1342
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.8922305764411027,
+      "eval_f1": 0.8733660552828726,
+      "eval_loss": 0.2833162844181061,
+      "eval_precision": 0.8650109547970479,
+      "eval_recall": 0.8837515911983997,
+      "eval_runtime": 2.0562,
+      "eval_samples_per_second": 194.044,
+      "eval_steps_per_second": 24.316,
       "step": 1342
     },
     {
       "epoch": 12.0,
+      "grad_norm": 8.375700950622559,
       "learning_rate": 2e-05,
+      "loss": 0.1623,
       "step": 1464
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.8872180451127819,
+      "eval_f1": 0.8668668668668669,
+      "eval_loss": 0.2992556393146515,
+      "eval_precision": 0.8598901098901099,
+      "eval_recall": 0.8752045826513912,
+      "eval_runtime": 2.0606,
+      "eval_samples_per_second": 193.629,
+      "eval_steps_per_second": 24.264,
       "step": 1464
     },
     {
       "epoch": 13.0,
+      "grad_norm": 1.5983966588974,
       "learning_rate": 1.75e-05,
+      "loss": 0.1478,
       "step": 1586
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.8972431077694235,
+      "eval_f1": 0.8724195749658803,
+      "eval_loss": 0.28637126088142395,
+      "eval_precision": 0.8848766823362741,
+      "eval_recall": 0.8622931442080378,
+      "eval_runtime": 2.0479,
+      "eval_samples_per_second": 194.834,
+      "eval_steps_per_second": 24.415,
       "step": 1586
     },
     {
       "epoch": 14.0,
+      "grad_norm": 7.667685031890869,
       "learning_rate": 1.5e-05,
+      "loss": 0.1467,
       "step": 1708
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.8972431077694235,
+      "eval_f1": 0.8763538792940554,
+      "eval_loss": 0.28052201867103577,
+      "eval_precision": 0.8754297605404427,
+      "eval_recall": 0.877295871976723,
+      "eval_runtime": 2.0543,
+      "eval_samples_per_second": 194.227,
+      "eval_steps_per_second": 24.339,
       "step": 1708
     },
     {
       "epoch": 15.0,
+      "grad_norm": 0.43923285603523254,
       "learning_rate": 1.25e-05,
+      "loss": 0.132,
       "step": 1830
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.899749373433584,
+      "eval_f1": 0.8813841488792438,
+      "eval_loss": 0.28690698742866516,
+      "eval_precision": 0.8748029197080291,
+      "eval_recall": 0.8890707401345699,
+      "eval_runtime": 2.0519,
+      "eval_samples_per_second": 194.451,
+      "eval_steps_per_second": 24.367,
       "step": 1830
     },
     {
       "epoch": 16.0,
+      "grad_norm": 5.0243120193481445,
       "learning_rate": 1e-05,
+      "loss": 0.125,
       "step": 1952
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.8972431077694235,
+      "eval_f1": 0.8781334505389722,
+      "eval_loss": 0.30517804622650146,
+      "eval_precision": 0.872316715542522,
+      "eval_recall": 0.8847972358610656,
+      "eval_runtime": 2.055,
+      "eval_samples_per_second": 194.159,
+      "eval_steps_per_second": 24.331,
       "step": 1952
     },
     {
       "epoch": 17.0,
+      "grad_norm": 4.027547359466553,
       "learning_rate": 7.5e-06,
+      "loss": 0.1183,
       "step": 2074
     },
     {
       "epoch": 17.0,
+      "eval_accuracy": 0.8897243107769424,
+      "eval_f1": 0.8682773109243698,
+      "eval_loss": 0.2968387007713318,
+      "eval_precision": 0.864855223259409,
+      "eval_recall": 0.8719767230405528,
+      "eval_runtime": 2.0605,
+      "eval_samples_per_second": 193.639,
+      "eval_steps_per_second": 24.266,
       "step": 2074
     },
     {
       "epoch": 18.0,
+      "grad_norm": 8.528005599975586,
       "learning_rate": 5e-06,
+      "loss": 0.1185,
       "step": 2196
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.8922305764411027,
+      "eval_f1": 0.8715803025426456,
+      "eval_loss": 0.30326613783836365,
+      "eval_precision": 0.8673433153814287,
+      "eval_recall": 0.8762502273140571,
+      "eval_runtime": 2.0521,
+      "eval_samples_per_second": 194.435,
+      "eval_steps_per_second": 24.365,
       "step": 2196
     },
     {
       "epoch": 19.0,
+      "grad_norm": 1.2970513105392456,
       "learning_rate": 2.5e-06,
+      "loss": 0.1132,
       "step": 2318
     },
     {
       "epoch": 19.0,
+      "eval_accuracy": 0.8897243107769424,
+      "eval_f1": 0.8689068100358424,
+      "eval_loss": 0.30629363656044006,
+      "eval_precision": 0.863953693884765,
+      "eval_recall": 0.8744771776686671,
+      "eval_runtime": 2.0602,
+      "eval_samples_per_second": 193.667,
+      "eval_steps_per_second": 24.269,
       "step": 2318
     },
     {
       "epoch": 20.0,
+      "grad_norm": 0.4699600636959076,
       "learning_rate": 0.0,
+      "loss": 0.1195,
       "step": 2440
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.8922305764411027,
+      "eval_f1": 0.8703223612108386,
+      "eval_loss": 0.3013243079185486,
+      "eval_precision": 0.8694131129742446,
+      "eval_recall": 0.8712493180578287,
+      "eval_runtime": 2.0489,
+      "eval_samples_per_second": 194.739,
+      "eval_steps_per_second": 24.403,
       "step": 2440
     },
     {
       "epoch": 20.0,
       "step": 2440,
       "total_flos": 8551203605328000.0,
+      "train_loss": 0.2159292881606055,
+      "train_runtime": 745.0279,
+      "train_samples_per_second": 97.661,
+      "train_steps_per_second": 3.275
     }
   ],
   "logging_steps": 500,