End of training

Browse files

Files changed (8) hide show

README.md +2 -0
all_results.json +16 -16
eval_results.json +8 -8
predict_results.json +4 -4
predict_results.txt +38 -38
runs/Jun03_13-00-03_a358b85c7679/events.out.tfevents.1717420243.a358b85c7679.93606.1 +3 -0
train_results.json +4 -4
trainer_state.json +200 -200

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

 ---
+language:
+- id
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "accuracy": 0.8951533135509396,
     "epoch": 20.0,
-    "eval_accuracy": 0.9022556390977443,
-    "eval_f1": 0.8856624319419237,
-    "eval_loss": 0.2808963358402252,
-    "eval_precision": 0.8758364312267658,
-    "eval_recall": 0.8983451536643026,
-    "eval_runtime": 5.0414,
     "eval_samples": 399,
-    "eval_samples_per_second": 79.145,
-    "eval_steps_per_second": 9.918,
-    "f1": 0.8767129906585063,
-    "precision": 0.8693150573790442,
-    "recall": 0.8856260060054406,
-    "train_loss": 0.22104478507745462,
-    "train_runtime": 1939.3334,
     "train_samples": 3638,
-    "train_samples_per_second": 37.518,
-    "train_steps_per_second": 1.258
 }

 {
+    "accuracy": 0.897131552917903,
     "epoch": 20.0,
+    "eval_accuracy": 0.9072681704260651,
+    "eval_f1": 0.8884169154604891,
+    "eval_loss": 0.2881532311439514,
+    "eval_precision": 0.8874630556728391,
+    "eval_recall": 0.8893889798145117,
+    "eval_runtime": 1.7985,
     "eval_samples": 399,
+    "eval_samples_per_second": 221.847,
+    "eval_steps_per_second": 27.8,
+    "f1": 0.8762860397036814,
+    "precision": 0.8762860397036814,
+    "recall": 0.8762860397036814,
+    "train_loss": 0.2206378909408069,
+    "train_runtime": 624.8021,
     "train_samples": 3638,
+    "train_samples_per_second": 116.453,
+    "train_steps_per_second": 3.905
 }

eval_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.9022556390977443,
-    "eval_f1": 0.8856624319419237,
-    "eval_loss": 0.2808963358402252,
-    "eval_precision": 0.8758364312267658,
-    "eval_recall": 0.8983451536643026,
-    "eval_runtime": 5.0414,
     "eval_samples": 399,
-    "eval_samples_per_second": 79.145,
-    "eval_steps_per_second": 9.918
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 0.9072681704260651,
+    "eval_f1": 0.8884169154604891,
+    "eval_loss": 0.2881532311439514,
+    "eval_precision": 0.8874630556728391,
+    "eval_recall": 0.8893889798145117,
+    "eval_runtime": 1.7985,
     "eval_samples": 399,
+    "eval_samples_per_second": 221.847,
+    "eval_steps_per_second": 27.8
 }

predict_results.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-    "accuracy": 0.8951533135509396,
-    "f1": 0.8767129906585063,
-    "precision": 0.8693150573790442,
-    "recall": 0.8856260060054406
 }

 {
+    "accuracy": 0.897131552917903,
+    "f1": 0.8762860397036814,
+    "precision": 0.8762860397036814,
+    "recall": 0.8762860397036814
 }

predict_results.txt CHANGED Viewed

@@ -12,7 +12,7 @@ index	prediction
 10	1
 11	1
 12	1
-13	1
 14	1
 15	0
 16	1
@@ -28,7 +28,7 @@ index	prediction
 26	1
 27	1
 28	1
-29	0
 30	1
 31	1
 32	1
@@ -49,7 +49,7 @@ index	prediction
 47	1
 48	1
 49	0
-50	1
 51	1
 52	0
 53	1
@@ -58,7 +58,7 @@ index	prediction
 56	1
 57	0
 58	1
-59	1
 60	1
 61	1
 62	1
@@ -78,7 +78,7 @@ index	prediction
 76	1
 77	1
 78	1
-79	1
 80	0
 81	1
 82	1
@@ -90,16 +90,16 @@ index	prediction
 88	1
 89	1
 90	1
-91	1
-92	1
 93	1
 94	1
 95	1
 96	1
-97	1
 98	1
 99	0
-100	1
 101	0
 102	1
 103	1
@@ -180,7 +180,7 @@ index	prediction
 178	1
 179	1
 180	1
-181	1
 182	1
 183	1
 184	1
@@ -224,12 +224,12 @@ index	prediction
 222	1
 223	1
 224	0
-225	1
 226	0
 227	0
-228	1
 229	0
-230	1
 231	1
 232	1
 233	1
@@ -271,8 +271,8 @@ index	prediction
 269	1
 270	1
 271	1
-272	1
-273	0
 274	1
 275	1
 276	1
@@ -329,7 +329,7 @@ index	prediction
 327	0
 328	1
 329	0
-330	1
 331	0
 332	0
 333	0
@@ -365,7 +365,7 @@ index	prediction
 363	0
 364	1
 365	0
-366	1
 367	0
 368	0
 369	0
@@ -375,7 +375,7 @@ index	prediction
 373	0
 374	0
 375	0
-376	1
 377	0
 378	0
 379	0
@@ -419,8 +419,8 @@ index	prediction
 417	0
 418	0
 419	0
-420	1
-421	1
 422	0
 423	0
 424	0
@@ -454,7 +454,7 @@ index	prediction
 452	0
 453	0
 454	0
-455	1
 456	0
 457	0
 458	0
@@ -470,7 +470,7 @@ index	prediction
 468	0
 469	0
 470	0
-471	0
 472	0
 473	0
 474	0
@@ -610,7 +610,7 @@ index	prediction
 608	1
 609	0
 610	1
-611	1
 612	0
 613	0
 614	0
@@ -625,9 +625,9 @@ index	prediction
 623	0
 624	0
 625	0
-626	1
 627	0
-628	1
 629	0
 630	0
 631	0
@@ -662,7 +662,7 @@ index	prediction
 660	0
 661	0
 662	0
-663	1
 664	0
 665	0
 666	0
@@ -727,7 +727,7 @@ index	prediction
 725	0
 726	0
 727	0
-728	1
 729	0
 730	0
 731	0
@@ -764,19 +764,19 @@ index	prediction
 762	0
 763	0
 764	0
-765	1
 766	0
 767	0
 768	0
 769	0
 770	1
 771	0
-772	0
 773	0
 774	0
 775	0
 776	0
-777	0
 778	0
 779	0
 780	0
@@ -799,7 +799,7 @@ index	prediction
 797	0
 798	0
 799	0
-800	0
 801	0
 802	0
 803	0
@@ -818,7 +818,7 @@ index	prediction
 816	0
 817	0
 818	0
-819	1
 820	0
 821	0
 822	0
@@ -893,7 +893,7 @@ index	prediction
 891	0
 892	0
 893	0
-894	0
 895	0
 896	0
 897	1
@@ -905,13 +905,13 @@ index	prediction
 903	0
 904	0
 905	0
-906	1
 907	1
 908	0
 909	0
 910	0
 911	0
-912	1
 913	0
 914	0
 915	0
@@ -949,7 +949,7 @@ index	prediction
 947	0
 948	0
 949	0
-950	1
 951	0
 952	0
 953	0
@@ -968,7 +968,7 @@ index	prediction
 966	0
 967	0
 968	0
-969	1
 970	0
 971	0
 972	0
@@ -991,7 +991,7 @@ index	prediction
 989	0
 990	0
 991	0
-992	1
 993	0
 994	0
 995	0

 10	1
 11	1
 12	1
+13	0
 14	1
 15	0
 16	1
 26	1
 27	1
 28	1
+29	1
 30	1
 31	1
 32	1
 47	1
 48	1
 49	0
+50	0
 51	1
 52	0
 53	1
 56	1
 57	0
 58	1
+59	0
 60	1
 61	1
 62	1
 76	1
 77	1
 78	1
+79	0
 80	0
 81	1
 82	1
 88	1
 89	1
 90	1
+91	0
+92	0
 93	1
 94	1
 95	1
 96	1
+97	0
 98	1
 99	0
+100	0
 101	0
 102	1
 103	1
 178	1
 179	1
 180	1
+181	0
 182	1
 183	1
 184	1
 222	1
 223	1
 224	0
+225	0
 226	0
 227	0
+228	0
 229	0
+230	0
 231	1
 232	1
 233	1
 269	1
 270	1
 271	1
+272	0
+273	1
 274	1
 275	1
 276	1
 327	0
 328	1
 329	0
+330	0
 331	0
 332	0
 333	0
 363	0
 364	1
 365	0
+366	0
 367	0
 368	0
 369	0
 373	0
 374	0
 375	0
+376	0
 377	0
 378	0
 379	0
 417	0
 418	0
 419	0
+420	0
+421	0
 422	0
 423	0
 424	0
 452	0
 453	0
 454	0
+455	0
 456	0
 457	0
 458	0
 468	0
 469	0
 470	0
+471	1
 472	0
 473	0
 474	0
 608	1
 609	0
 610	1
+611	0
 612	0
 613	0
 614	0
 623	0
 624	0
 625	0
+626	0
 627	0
+628	0
 629	0
 630	0
 631	0
 660	0
 661	0
 662	0
+663	0
 664	0
 665	0
 666	0
 725	0
 726	0
 727	0
+728	0
 729	0
 730	0
 731	0
 762	0
 763	0
 764	0
+765	0
 766	0
 767	0
 768	0
 769	0
 770	1
 771	0
+772	1
 773	0
 774	0
 775	0
 776	0
+777	1
 778	0
 779	0
 780	0
 797	0
 798	0
 799	0
+800	1
 801	0
 802	0
 803	0
 816	0
 817	0
 818	0
+819	0
 820	0
 821	0
 822	0
 891	0
 892	0
 893	0
+894	1
 895	0
 896	0
 897	1
 903	0
 904	0
 905	0
+906	0
 907	1
 908	0
 909	0
 910	0
 911	0
+912	0
 913	0
 914	0
 915	0
 947	0
 948	0
 949	0
+950	0
 951	0
 952	0
 953	0
 966	0
 967	0
 968	0
+969	0
 970	0
 971	0
 972	0
 989	0
 990	0
 991	0
+992	0
 993	0
 994	0
 995	0

runs/Jun03_13-00-03_a358b85c7679/events.out.tfevents.1717420243.a358b85c7679.93606.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d57fb59c0f550f9bc1db0d79869ca08aff8fe34cb4137c1133773b37f468ce16
+size 560

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "train_loss": 0.22104478507745462,
-    "train_runtime": 1939.3334,
     "train_samples": 3638,
-    "train_samples_per_second": 37.518,
-    "train_steps_per_second": 1.258
 }

 {
     "epoch": 20.0,
+    "train_loss": 0.2206378909408069,
+    "train_runtime": 624.8021,
     "train_samples": 3638,
+    "train_samples_per_second": 116.453,
+    "train_steps_per_second": 3.905
 }

trainer_state.json CHANGED Viewed

@@ -10,392 +10,392 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 4.245405197143555,
       "learning_rate": 4.75e-05,
       "loss": 0.5417,
       "step": 122
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7368421052631579,
-      "eval_f1": 0.6531440162271805,
-      "eval_loss": 0.4691583514213562,
-      "eval_precision": 0.6762575228471654,
-      "eval_recall": 0.6437988725222767,
-      "eval_runtime": 5.2679,
-      "eval_samples_per_second": 75.742,
-      "eval_steps_per_second": 9.491,
       "step": 122
     },
     {
       "epoch": 2.0,
-      "grad_norm": 3.8213655948638916,
       "learning_rate": 4.5e-05,
-      "loss": 0.4301,
       "step": 244
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7769423558897243,
-      "eval_f1": 0.7593078346448687,
-      "eval_loss": 0.4378258287906647,
-      "eval_precision": 0.7546743295019157,
-      "eval_recall": 0.8021913075104565,
-      "eval_runtime": 5.0861,
-      "eval_samples_per_second": 78.449,
-      "eval_steps_per_second": 9.831,
       "step": 244
     },
     {
       "epoch": 3.0,
-      "grad_norm": 3.3787574768066406,
       "learning_rate": 4.25e-05,
-      "loss": 0.3347,
       "step": 366
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8446115288220551,
-      "eval_f1": 0.8086360542112754,
-      "eval_loss": 0.34514203667640686,
-      "eval_precision": 0.8158019614046188,
-      "eval_recall": 0.8025550100018185,
-      "eval_runtime": 5.1159,
-      "eval_samples_per_second": 77.992,
-      "eval_steps_per_second": 9.773,
       "step": 366
     },
     {
       "epoch": 4.0,
-      "grad_norm": 1.8603061437606812,
       "learning_rate": 4e-05,
-      "loss": 0.2954,
       "step": 488
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8646616541353384,
-      "eval_f1": 0.8359175094431583,
-      "eval_loss": 0.33369535207748413,
-      "eval_precision": 0.8376607470912432,
-      "eval_recall": 0.8342425895617385,
-      "eval_runtime": 5.1268,
-      "eval_samples_per_second": 77.826,
-      "eval_steps_per_second": 9.753,
       "step": 488
     },
     {
       "epoch": 5.0,
-      "grad_norm": 2.168339967727661,
       "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.2632,
       "step": 610
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.8571428571428571,
-      "eval_f1": 0.8321363988633428,
-      "eval_loss": 0.33563923835754395,
-      "eval_precision": 0.8247520756457565,
-      "eval_recall": 0.8414257137661394,
-      "eval_runtime": 5.117,
-      "eval_samples_per_second": 77.976,
-      "eval_steps_per_second": 9.771,
       "step": 610
     },
     {
       "epoch": 6.0,
-      "grad_norm": 1.1380066871643066,
       "learning_rate": 3.5e-05,
-      "loss": 0.2492,
       "step": 732
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.8446115288220551,
-      "eval_f1": 0.8231484129253646,
-      "eval_loss": 0.32611119747161865,
-      "eval_precision": 0.8109975961538461,
-      "eval_recall": 0.84506273867976,
-      "eval_runtime": 5.0938,
-      "eval_samples_per_second": 78.331,
-      "eval_steps_per_second": 9.816,
       "step": 732
     },
     {
       "epoch": 7.0,
-      "grad_norm": 0.41156822443008423,
       "learning_rate": 3.2500000000000004e-05,
-      "loss": 0.227,
       "step": 854
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.8796992481203008,
-      "eval_f1": 0.8602043795620438,
-      "eval_loss": 0.2977831959724426,
-      "eval_precision": 0.849624060150376,
-      "eval_recall": 0.8748863429714493,
-      "eval_runtime": 5.1152,
-      "eval_samples_per_second": 78.003,
-      "eval_steps_per_second": 9.775,
       "step": 854
     },
     {
       "epoch": 8.0,
-      "grad_norm": 1.2771873474121094,
       "learning_rate": 3e-05,
-      "loss": 0.2189,
       "step": 976
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.8947368421052632,
-      "eval_f1": 0.8703663593044124,
-      "eval_loss": 0.2742370069026947,
-      "eval_precision": 0.8789149003479912,
-      "eval_recall": 0.8630205491907619,
-      "eval_runtime": 5.0805,
-      "eval_samples_per_second": 78.536,
-      "eval_steps_per_second": 9.842,
       "step": 976
     },
     {
       "epoch": 9.0,
-      "grad_norm": 7.185235023498535,
       "learning_rate": 2.7500000000000004e-05,
-      "loss": 0.2068,
       "step": 1098
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.8922305764411027,
-      "eval_f1": 0.8715803025426456,
-      "eval_loss": 0.28745463490486145,
-      "eval_precision": 0.8673433153814287,
-      "eval_recall": 0.8762502273140571,
-      "eval_runtime": 5.257,
-      "eval_samples_per_second": 75.898,
-      "eval_steps_per_second": 9.511,
       "step": 1098
     },
     {
       "epoch": 10.0,
-      "grad_norm": 6.480859756469727,
       "learning_rate": 2.5e-05,
-      "loss": 0.1935,
       "step": 1220
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.9072681704260651,
-      "eval_f1": 0.8872855539522206,
-      "eval_loss": 0.2693336009979248,
-      "eval_precision": 0.8903508771929824,
-      "eval_recall": 0.8843880705582834,
-      "eval_runtime": 5.0952,
-      "eval_samples_per_second": 78.309,
-      "eval_steps_per_second": 9.813,
       "step": 1220
     },
     {
       "epoch": 11.0,
-      "grad_norm": 1.1324069499969482,
       "learning_rate": 2.25e-05,
-      "loss": 0.1729,
       "step": 1342
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.9072681704260651,
-      "eval_f1": 0.8900228699985846,
-      "eval_loss": 0.27149420976638794,
-      "eval_precision": 0.8840175953079179,
-      "eval_recall": 0.8968903436988543,
-      "eval_runtime": 5.1005,
-      "eval_samples_per_second": 78.228,
-      "eval_steps_per_second": 9.803,
       "step": 1342
     },
     {
       "epoch": 12.0,
-      "grad_norm": 1.9420219659805298,
       "learning_rate": 2e-05,
-      "loss": 0.1639,
       "step": 1464
     },
     {
       "epoch": 12.0,
       "eval_accuracy": 0.899749373433584,
-      "eval_f1": 0.882467302933899,
-      "eval_loss": 0.2754858136177063,
-      "eval_precision": 0.8732988802756245,
-      "eval_recall": 0.8940716493907983,
-      "eval_runtime": 5.1018,
-      "eval_samples_per_second": 78.208,
-      "eval_steps_per_second": 9.801,
       "step": 1464
     },
     {
       "epoch": 13.0,
-      "grad_norm": 3.3185982704162598,
       "learning_rate": 1.75e-05,
-      "loss": 0.1564,
       "step": 1586
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.9022556390977443,
-      "eval_f1": 0.8817957385392532,
-      "eval_loss": 0.2662343382835388,
-      "eval_precision": 0.8827677592299257,
-      "eval_recall": 0.8808419712675032,
-      "eval_runtime": 5.116,
-      "eval_samples_per_second": 77.991,
-      "eval_steps_per_second": 9.773,
       "step": 1586
     },
     {
       "epoch": 14.0,
-      "grad_norm": 6.053642272949219,
       "learning_rate": 1.5e-05,
-      "loss": 0.1495,
       "step": 1708
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.899749373433584,
-      "eval_f1": 0.8835036496350365,
-      "eval_loss": 0.29733341932296753,
-      "eval_precision": 0.8721804511278195,
-      "eval_recall": 0.8990725586470267,
-      "eval_runtime": 5.3105,
-      "eval_samples_per_second": 75.134,
-      "eval_steps_per_second": 9.415,
       "step": 1708
     },
     {
       "epoch": 15.0,
-      "grad_norm": 0.5649229884147644,
       "learning_rate": 1.25e-05,
-      "loss": 0.1487,
       "step": 1830
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.9097744360902256,
-      "eval_f1": 0.8932457339913193,
-      "eval_loss": 0.27316734194755554,
-      "eval_precision": 0.8864525547445254,
-      "eval_recall": 0.9011638479723586,
-      "eval_runtime": 5.0557,
-      "eval_samples_per_second": 78.921,
-      "eval_steps_per_second": 9.89,
       "step": 1830
     },
     {
       "epoch": 16.0,
-      "grad_norm": 1.219386100769043,
       "learning_rate": 1e-05,
-      "loss": 0.141,
       "step": 1952
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.9047619047619048,
-      "eval_f1": 0.8888416422287391,
-      "eval_loss": 0.2841818034648895,
-      "eval_precision": 0.8783752990771334,
-      "eval_recall": 0.9026186579378068,
-      "eval_runtime": 5.1317,
-      "eval_samples_per_second": 77.752,
-      "eval_steps_per_second": 9.743,
       "step": 1952
     },
     {
       "epoch": 17.0,
-      "grad_norm": 3.3799021244049072,
       "learning_rate": 7.5e-06,
-      "loss": 0.1276,
       "step": 2074
     },
     {
       "epoch": 17.0,
       "eval_accuracy": 0.9047619047619048,
-      "eval_f1": 0.8878351186601172,
-      "eval_loss": 0.2794151306152344,
-      "eval_precision": 0.879776516905975,
-      "eval_recall": 0.8976177486815784,
-      "eval_runtime": 5.1403,
-      "eval_samples_per_second": 77.623,
-      "eval_steps_per_second": 9.727,
       "step": 2074
     },
     {
       "epoch": 18.0,
-      "grad_norm": 4.4008965492248535,
       "learning_rate": 5e-06,
-      "loss": 0.1383,
       "step": 2196
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.9072681704260651,
-      "eval_f1": 0.8910359080340997,
-      "eval_loss": 0.2787146270275116,
-      "eval_precision": 0.8822647601476015,
-      "eval_recall": 0.9018912529550827,
-      "eval_runtime": 5.1249,
-      "eval_samples_per_second": 77.855,
-      "eval_steps_per_second": 9.756,
       "step": 2196
     },
     {
       "epoch": 19.0,
-      "grad_norm": 3.290771245956421,
       "learning_rate": 2.5e-06,
-      "loss": 0.1371,
       "step": 2318
     },
     {
       "epoch": 19.0,
-      "eval_accuracy": 0.9022556390977443,
-      "eval_f1": 0.8856624319419237,
-      "eval_loss": 0.2780250012874603,
-      "eval_precision": 0.8758364312267658,
-      "eval_recall": 0.8983451536643026,
-      "eval_runtime": 5.1132,
-      "eval_samples_per_second": 78.033,
-      "eval_steps_per_second": 9.779,
       "step": 2318
     },
     {
       "epoch": 20.0,
-      "grad_norm": 2.2898199558258057,
       "learning_rate": 0.0,
-      "loss": 0.1248,
       "step": 2440
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.9022556390977443,
-      "eval_f1": 0.8856624319419237,
-      "eval_loss": 0.2808963358402252,
-      "eval_precision": 0.8758364312267658,
-      "eval_recall": 0.8983451536643026,
-      "eval_runtime": 5.079,
-      "eval_samples_per_second": 78.559,
-      "eval_steps_per_second": 9.845,
       "step": 2440
     },
     {
       "epoch": 20.0,
       "step": 2440,
       "total_flos": 8444128359504000.0,
-      "train_loss": 0.22104478507745462,
-      "train_runtime": 1939.3334,
-      "train_samples_per_second": 37.518,
-      "train_steps_per_second": 1.258
     }
   ],
   "logging_steps": 500,

   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 4.196406364440918,
       "learning_rate": 4.75e-05,
       "loss": 0.5417,
       "step": 122
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7543859649122807,
+      "eval_f1": 0.6730602006688964,
+      "eval_loss": 0.47316503524780273,
+      "eval_precision": 0.7027985359158151,
+      "eval_recall": 0.6612111292962357,
+      "eval_runtime": 1.7797,
+      "eval_samples_per_second": 224.194,
+      "eval_steps_per_second": 28.094,
       "step": 122
     },
     {
       "epoch": 2.0,
+      "grad_norm": 3.380220651626587,
       "learning_rate": 4.5e-05,
+      "loss": 0.4395,
       "step": 244
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7919799498746867,
+      "eval_f1": 0.7705259948585406,
+      "eval_loss": 0.4128379225730896,
+      "eval_precision": 0.7612839958158996,
+      "eval_recall": 0.8028277868703401,
+      "eval_runtime": 1.7767,
+      "eval_samples_per_second": 224.574,
+      "eval_steps_per_second": 28.142,
       "step": 244
     },
     {
       "epoch": 3.0,
+      "grad_norm": 2.2583518028259277,
       "learning_rate": 4.25e-05,
+      "loss": 0.3319,
       "step": 366
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8646616541353384,
+      "eval_f1": 0.8315033783783784,
+      "eval_loss": 0.32298392057418823,
+      "eval_precision": 0.8438775510204082,
+      "eval_recall": 0.8217403164211674,
+      "eval_runtime": 1.7811,
+      "eval_samples_per_second": 224.023,
+      "eval_steps_per_second": 28.073,
       "step": 366
     },
     {
       "epoch": 4.0,
+      "grad_norm": 0.8704787492752075,
       "learning_rate": 4e-05,
+      "loss": 0.2873,
       "step": 488
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8521303258145363,
+      "eval_f1": 0.8237962290701417,
+      "eval_loss": 0.322201669216156,
+      "eval_precision": 0.8201159969225307,
+      "eval_recall": 0.8278777959629023,
+      "eval_runtime": 1.7743,
+      "eval_samples_per_second": 224.873,
+      "eval_steps_per_second": 28.18,
       "step": 488
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.8079779148101807,
       "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.2571,
       "step": 610
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.8721804511278195,
+      "eval_f1": 0.8484099018899409,
+      "eval_loss": 0.29681602120399475,
+      "eval_precision": 0.8430645161290322,
+      "eval_recall": 0.8545644662665939,
+      "eval_runtime": 1.7796,
+      "eval_samples_per_second": 224.208,
+      "eval_steps_per_second": 28.096,
       "step": 610
     },
     {
       "epoch": 6.0,
+      "grad_norm": 2.8642373085021973,
       "learning_rate": 3.5e-05,
+      "loss": 0.2443,
       "step": 732
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.8671679197994987,
+      "eval_f1": 0.8466330637850383,
+      "eval_loss": 0.29177311062812805,
+      "eval_precision": 0.8353276671885485,
+      "eval_recall": 0.8635206401163849,
+      "eval_runtime": 1.7765,
+      "eval_samples_per_second": 224.594,
+      "eval_steps_per_second": 28.145,
       "step": 732
     },
     {
       "epoch": 7.0,
+      "grad_norm": 0.3272399306297302,
       "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.2256,
       "step": 854
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.8646616541353384,
+      "eval_f1": 0.8447157518450185,
+      "eval_loss": 0.2981509566307068,
+      "eval_precision": 0.8325401217487549,
+      "eval_recall": 0.864248045099109,
+      "eval_runtime": 1.7799,
+      "eval_samples_per_second": 224.168,
+      "eval_steps_per_second": 28.091,
       "step": 854
     },
     {
       "epoch": 8.0,
+      "grad_norm": 2.9290239810943604,
       "learning_rate": 3e-05,
+      "loss": 0.2172,
       "step": 976
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.8922305764411027,
+      "eval_f1": 0.8646934961080748,
+      "eval_loss": 0.2722471356391907,
+      "eval_precision": 0.882551000198059,
+      "eval_recall": 0.8512456810329151,
+      "eval_runtime": 1.7818,
+      "eval_samples_per_second": 223.935,
+      "eval_steps_per_second": 28.062,
       "step": 976
     },
     {
       "epoch": 9.0,
+      "grad_norm": 6.677186012268066,
       "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.2049,
       "step": 1098
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.8947368421052632,
+      "eval_f1": 0.8748655913978494,
+      "eval_loss": 0.264840692281723,
+      "eval_precision": 0.86983032873807,
+      "eval_recall": 0.8805237315875614,
+      "eval_runtime": 1.7819,
+      "eval_samples_per_second": 223.922,
+      "eval_steps_per_second": 28.06,
       "step": 1098
     },
     {
       "epoch": 10.0,
+      "grad_norm": 2.770735502243042,
       "learning_rate": 2.5e-05,
+      "loss": 0.1914,
       "step": 1220
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.9072681704260651,
+      "eval_f1": 0.8848664457009163,
+      "eval_loss": 0.2680298984050751,
+      "eval_precision": 0.8977236138837015,
+      "eval_recall": 0.8743862520458265,
+      "eval_runtime": 1.7909,
+      "eval_samples_per_second": 222.787,
+      "eval_steps_per_second": 27.918,
       "step": 1220
     },
     {
       "epoch": 11.0,
+      "grad_norm": 0.3618270754814148,
       "learning_rate": 2.25e-05,
+      "loss": 0.1724,
       "step": 1342
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.899749373433584,
+      "eval_f1": 0.8808243727598566,
+      "eval_loss": 0.264539897441864,
+      "eval_precision": 0.875706963591375,
+      "eval_recall": 0.8865702855064557,
+      "eval_runtime": 1.7802,
+      "eval_samples_per_second": 224.138,
+      "eval_steps_per_second": 28.087,
       "step": 1342
     },
     {
       "epoch": 12.0,
+      "grad_norm": 2.054783582687378,
       "learning_rate": 2e-05,
+      "loss": 0.1689,
       "step": 1464
     },
     {
       "epoch": 12.0,
       "eval_accuracy": 0.899749373433584,
+      "eval_f1": 0.881931703852755,
+      "eval_loss": 0.27462852001190186,
+      "eval_precision": 0.8740012737378415,
+      "eval_recall": 0.8915711947626841,
+      "eval_runtime": 1.778,
+      "eval_samples_per_second": 224.405,
+      "eval_steps_per_second": 28.121,
       "step": 1464
     },
     {
       "epoch": 13.0,
+      "grad_norm": 0.6106524467468262,
       "learning_rate": 1.75e-05,
+      "loss": 0.1473,
       "step": 1586
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.9047619047619048,
+      "eval_f1": 0.8800854160075926,
+      "eval_loss": 0.28370755910873413,
+      "eval_precision": 0.9002425410326267,
+      "eval_recall": 0.8651118385160939,
+      "eval_runtime": 1.785,
+      "eval_samples_per_second": 223.535,
+      "eval_steps_per_second": 28.012,
       "step": 1586
     },
     {
       "epoch": 14.0,
+      "grad_norm": 4.3967108726501465,
       "learning_rate": 1.5e-05,
+      "loss": 0.1577,
       "step": 1708
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.9022556390977443,
+      "eval_f1": 0.884617951284618,
+      "eval_loss": 0.2892190217971802,
+      "eval_precision": 0.8772893772893773,
+      "eval_recall": 0.8933442444080741,
+      "eval_runtime": 1.7818,
+      "eval_samples_per_second": 223.936,
+      "eval_steps_per_second": 28.062,
       "step": 1708
     },
     {
       "epoch": 15.0,
+      "grad_norm": 0.48143357038497925,
       "learning_rate": 1.25e-05,
+      "loss": 0.1468,
       "step": 1830
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.9022556390977443,
+      "eval_f1": 0.8829621606985718,
+      "eval_loss": 0.27894169092178345,
+      "eval_precision": 0.8802419354838709,
+      "eval_recall": 0.8858428805237315,
+      "eval_runtime": 1.7862,
+      "eval_samples_per_second": 223.376,
+      "eval_steps_per_second": 27.992,
       "step": 1830
     },
     {
       "epoch": 16.0,
+      "grad_norm": 0.6658376455307007,
       "learning_rate": 1e-05,
+      "loss": 0.1473,
       "step": 1952
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.8972431077694235,
+      "eval_f1": 0.8775533117267087,
+      "eval_loss": 0.28521186113357544,
+      "eval_precision": 0.873246730188791,
+      "eval_recall": 0.8822967812329514,
+      "eval_runtime": 1.778,
+      "eval_samples_per_second": 224.41,
+      "eval_steps_per_second": 28.121,
       "step": 1952
     },
     {
       "epoch": 17.0,
+      "grad_norm": 1.4181182384490967,
       "learning_rate": 7.5e-06,
+      "loss": 0.1274,
       "step": 2074
     },
     {
       "epoch": 17.0,
       "eval_accuracy": 0.9047619047619048,
+      "eval_f1": 0.8856836962422341,
+      "eval_loss": 0.28584179282188416,
+      "eval_precision": 0.8838235294117647,
+      "eval_recall": 0.8876159301691217,
+      "eval_runtime": 1.7792,
+      "eval_samples_per_second": 224.253,
+      "eval_steps_per_second": 28.102,
       "step": 2074
     },
     {
       "epoch": 18.0,
+      "grad_norm": 5.91610050201416,
       "learning_rate": 5e-06,
+      "loss": 0.1318,
       "step": 2196
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.899749373433584,
+      "eval_f1": 0.8802521008403361,
+      "eval_loss": 0.29269006848335266,
+      "eval_precision": 0.8767168083714847,
+      "eval_recall": 0.8840698308783415,
+      "eval_runtime": 1.7862,
+      "eval_samples_per_second": 223.383,
+      "eval_steps_per_second": 27.993,
       "step": 2196
     },
     {
       "epoch": 19.0,
+      "grad_norm": 6.210901737213135,
       "learning_rate": 2.5e-06,
+      "loss": 0.1355,
       "step": 2318
     },
     {
       "epoch": 19.0,
+      "eval_accuracy": 0.9072681704260651,
+      "eval_f1": 0.8884169154604891,
+      "eval_loss": 0.2884277403354645,
+      "eval_precision": 0.8874630556728391,
+      "eval_recall": 0.8893889798145117,
+      "eval_runtime": 1.7806,
+      "eval_samples_per_second": 224.08,
+      "eval_steps_per_second": 28.08,
       "step": 2318
     },
     {
       "epoch": 20.0,
+      "grad_norm": 1.5748217105865479,
       "learning_rate": 0.0,
+      "loss": 0.1367,
       "step": 2440
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.9072681704260651,
+      "eval_f1": 0.8884169154604891,
+      "eval_loss": 0.2881532311439514,
+      "eval_precision": 0.8874630556728391,
+      "eval_recall": 0.8893889798145117,
+      "eval_runtime": 1.7811,
+      "eval_samples_per_second": 224.016,
+      "eval_steps_per_second": 28.072,
       "step": 2440
     },
     {
       "epoch": 20.0,
       "step": 2440,
       "total_flos": 8444128359504000.0,
+      "train_loss": 0.2206378909408069,
+      "train_runtime": 624.8021,
+      "train_samples_per_second": 116.453,
+      "train_steps_per_second": 3.905
     }
   ],
   "logging_steps": 500,