🍻 cheers

Browse files

Files changed (6) hide show

README.md +7 -6
all_results.json +9 -9
eval_results.json +5 -5
runs/May01_07-50-39_5c48e9aaec37/events.out.tfevents.1714573726.5c48e9aaec37.34.2 +3 -0
train_results.json +4 -4
trainer_state.json +916 -916

README.md CHANGED Viewed

@@ -1,7 +1,8 @@
 ---
 license: apache-2.0
-base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 datasets:
 - imagefolder
@@ -14,7 +15,7 @@ model-index:
       name: Image Classification
       type: image-classification
     dataset:
-      name: imagefolder
       type: imagefolder
       config: default
       split: train
@@ -22,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.8347978910369068
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -30,10 +31,10 @@ should probably proofread and complete it, then remove this comment. -->
 # Action_model
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7013
-- Accuracy: 0.8348
 ## Model description

 ---
 license: apache-2.0
+base_model: Raihan004/Action_model
 tags:
+- image-classification
 - generated_from_trainer
 datasets:
 - imagefolder
       name: Image Classification
       type: image-classification
     dataset:
+      name: action_class
       type: imagefolder
       config: default
       split: train
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.8330404217926186
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # Action_model
+This model is a fine-tuned version of [Raihan004/Action_model](https://huggingface.co/Raihan004/Action_model) on the action_class dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6130
+- Accuracy: 0.8330
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.8541300527240774,
-    "eval_loss": 0.49219682812690735,
-    "eval_runtime": 8.6475,
-    "eval_samples_per_second": 65.799,
-    "eval_steps_per_second": 8.326,
     "total_flos": 3.3230947683690086e+18,
-    "train_loss": 0.45721185349706395,
-    "train_runtime": 1410.6493,
-    "train_samples_per_second": 30.397,
-    "train_steps_per_second": 1.9
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.8330404217926186,
+    "eval_loss": 0.6129801869392395,
+    "eval_runtime": 8.4281,
+    "eval_samples_per_second": 67.512,
+    "eval_steps_per_second": 8.543,
     "total_flos": 3.3230947683690086e+18,
+    "train_loss": 0.23535207314277762,
+    "train_runtime": 1371.8304,
+    "train_samples_per_second": 31.258,
+    "train_steps_per_second": 1.954
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.8541300527240774,
-    "eval_loss": 0.49219682812690735,
-    "eval_runtime": 8.6475,
-    "eval_samples_per_second": 65.799,
-    "eval_steps_per_second": 8.326
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.8330404217926186,
+    "eval_loss": 0.6129801869392395,
+    "eval_runtime": 8.4281,
+    "eval_samples_per_second": 67.512,
+    "eval_steps_per_second": 8.543
 }

runs/May01_07-50-39_5c48e9aaec37/events.out.tfevents.1714573726.5c48e9aaec37.34.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c05609fc31780b43695335d82ef6de8e87bacae435e254f4e8089af320af667
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 10.0,
     "total_flos": 3.3230947683690086e+18,
-    "train_loss": 0.45721185349706395,
-    "train_runtime": 1410.6493,
-    "train_samples_per_second": 30.397,
-    "train_steps_per_second": 1.9
 }

 {
     "epoch": 10.0,
     "total_flos": 3.3230947683690086e+18,
+    "train_loss": 0.23535207314277762,
+    "train_runtime": 1371.8304,
+    "train_samples_per_second": 31.258,
+    "train_steps_per_second": 1.954
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.49219682812690735,
-  "best_model_checkpoint": "Action_model/checkpoint-1900",
   "epoch": 10.0,
   "eval_steps": 100,
   "global_step": 2680,
@@ -10,2122 +10,2122 @@
   "log_history": [
     {
       "epoch": 0.04,
-      "grad_norm": 1.7867449522018433,
       "learning_rate": 9.96268656716418e-05,
-      "loss": 2.2615,
       "step": 10
     },
     {
       "epoch": 0.07,
-      "grad_norm": 1.8689260482788086,
       "learning_rate": 9.925373134328359e-05,
-      "loss": 2.1747,
       "step": 20
     },
     {
       "epoch": 0.11,
-      "grad_norm": 1.9384838342666626,
       "learning_rate": 9.888059701492539e-05,
-      "loss": 2.041,
       "step": 30
     },
     {
       "epoch": 0.15,
-      "grad_norm": 2.1394729614257812,
       "learning_rate": 9.850746268656717e-05,
-      "loss": 1.8498,
       "step": 40
     },
     {
       "epoch": 0.19,
-      "grad_norm": 2.4759299755096436,
       "learning_rate": 9.813432835820896e-05,
-      "loss": 1.7391,
       "step": 50
     },
     {
       "epoch": 0.22,
-      "grad_norm": 2.863851547241211,
       "learning_rate": 9.776119402985075e-05,
-      "loss": 1.5671,
       "step": 60
     },
     {
       "epoch": 0.26,
-      "grad_norm": 2.2633190155029297,
       "learning_rate": 9.738805970149254e-05,
-      "loss": 1.5166,
       "step": 70
     },
     {
       "epoch": 0.3,
-      "grad_norm": 2.2081799507141113,
       "learning_rate": 9.701492537313434e-05,
-      "loss": 1.4131,
       "step": 80
     },
     {
       "epoch": 0.34,
-      "grad_norm": 2.7711575031280518,
       "learning_rate": 9.664179104477612e-05,
-      "loss": 1.2985,
       "step": 90
     },
     {
       "epoch": 0.37,
-      "grad_norm": 2.807891607284546,
       "learning_rate": 9.626865671641792e-05,
-      "loss": 1.2738,
       "step": 100
     },
     {
       "epoch": 0.37,
-      "eval_accuracy": 0.7346221441124781,
-      "eval_loss": 1.130598545074463,
-      "eval_runtime": 12.2164,
-      "eval_samples_per_second": 46.577,
-      "eval_steps_per_second": 5.894,
       "step": 100
     },
     {
       "epoch": 0.41,
-      "grad_norm": 3.494056224822998,
       "learning_rate": 9.58955223880597e-05,
-      "loss": 1.2577,
       "step": 110
     },
     {
       "epoch": 0.45,
-      "grad_norm": 3.508563756942749,
       "learning_rate": 9.552238805970149e-05,
-      "loss": 1.1644,
       "step": 120
     },
     {
       "epoch": 0.49,
-      "grad_norm": 5.29508638381958,
       "learning_rate": 9.514925373134329e-05,
-      "loss": 1.2097,
       "step": 130
     },
     {
       "epoch": 0.52,
-      "grad_norm": 3.179622173309326,
       "learning_rate": 9.477611940298507e-05,
-      "loss": 1.1636,
       "step": 140
     },
     {
       "epoch": 0.56,
-      "grad_norm": 5.1542253494262695,
       "learning_rate": 9.440298507462687e-05,
-      "loss": 1.1178,
       "step": 150
     },
     {
       "epoch": 0.6,
-      "grad_norm": 2.3797709941864014,
       "learning_rate": 9.402985074626867e-05,
-      "loss": 0.9977,
       "step": 160
     },
     {
       "epoch": 0.63,
-      "grad_norm": 4.6406474113464355,
       "learning_rate": 9.365671641791045e-05,
-      "loss": 1.1188,
       "step": 170
     },
     {
       "epoch": 0.67,
-      "grad_norm": 3.9354639053344727,
-      "learning_rate": 9.332089552238806e-05,
-      "loss": 1.0444,
       "step": 180
     },
     {
       "epoch": 0.71,
-      "grad_norm": 5.296183109283447,
-      "learning_rate": 9.294776119402986e-05,
-      "loss": 1.0577,
       "step": 190
     },
     {
       "epoch": 0.75,
-      "grad_norm": 3.7493107318878174,
-      "learning_rate": 9.257462686567165e-05,
-      "loss": 0.9277,
       "step": 200
     },
     {
       "epoch": 0.75,
-      "eval_accuracy": 0.7644991212653779,
-      "eval_loss": 0.8469392657279968,
-      "eval_runtime": 8.5143,
-      "eval_samples_per_second": 66.829,
-      "eval_steps_per_second": 8.456,
       "step": 200
     },
     {
       "epoch": 0.78,
-      "grad_norm": 3.4060637950897217,
-      "learning_rate": 9.220149253731343e-05,
-      "loss": 0.8143,
       "step": 210
     },
     {
       "epoch": 0.82,
-      "grad_norm": 5.105949878692627,
-      "learning_rate": 9.182835820895522e-05,
-      "loss": 1.0109,
       "step": 220
     },
     {
       "epoch": 0.86,
-      "grad_norm": 3.1793041229248047,
-      "learning_rate": 9.145522388059702e-05,
-      "loss": 0.8406,
       "step": 230
     },
     {
       "epoch": 0.9,
-      "grad_norm": 3.1578280925750732,
-      "learning_rate": 9.108208955223881e-05,
-      "loss": 1.0428,
       "step": 240
     },
     {
       "epoch": 0.93,
-      "grad_norm": 4.253862380981445,
-      "learning_rate": 9.07089552238806e-05,
-      "loss": 0.8443,
       "step": 250
     },
     {
       "epoch": 0.97,
-      "grad_norm": 5.269837856292725,
-      "learning_rate": 9.03358208955224e-05,
-      "loss": 0.9181,
       "step": 260
     },
     {
       "epoch": 1.01,
-      "grad_norm": 4.203462600708008,
-      "learning_rate": 8.996268656716418e-05,
-      "loss": 0.8862,
       "step": 270
     },
     {
       "epoch": 1.04,
-      "grad_norm": 3.3668694496154785,
-      "learning_rate": 8.958955223880598e-05,
-      "loss": 0.6877,
       "step": 280
     },
     {
       "epoch": 1.08,
-      "grad_norm": 4.250879764556885,
-      "learning_rate": 8.921641791044776e-05,
-      "loss": 0.7136,
       "step": 290
     },
     {
       "epoch": 1.12,
-      "grad_norm": 4.63535213470459,
-      "learning_rate": 8.884328358208955e-05,
-      "loss": 0.9232,
       "step": 300
     },
     {
       "epoch": 1.12,
-      "eval_accuracy": 0.789103690685413,
-      "eval_loss": 0.7195268273353577,
-      "eval_runtime": 8.5181,
-      "eval_samples_per_second": 66.799,
-      "eval_steps_per_second": 8.453,
       "step": 300
     },
     {
       "epoch": 1.16,
-      "grad_norm": 4.166705131530762,
-      "learning_rate": 8.847014925373135e-05,
-      "loss": 0.778,
       "step": 310
     },
     {
       "epoch": 1.19,
-      "grad_norm": 4.43386173248291,
-      "learning_rate": 8.809701492537313e-05,
-      "loss": 0.7922,
       "step": 320
     },
     {
       "epoch": 1.23,
-      "grad_norm": 5.09395170211792,
-      "learning_rate": 8.772388059701493e-05,
-      "loss": 0.7687,
       "step": 330
     },
     {
       "epoch": 1.27,
-      "grad_norm": 3.8679046630859375,
-      "learning_rate": 8.735074626865673e-05,
-      "loss": 0.8119,
       "step": 340
     },
     {
       "epoch": 1.31,
-      "grad_norm": 7.185283184051514,
-      "learning_rate": 8.697761194029851e-05,
-      "loss": 0.6383,
       "step": 350
     },
     {
       "epoch": 1.34,
-      "grad_norm": 4.295166969299316,
-      "learning_rate": 8.66044776119403e-05,
-      "loss": 0.8093,
       "step": 360
     },
     {
       "epoch": 1.38,
-      "grad_norm": 4.563631057739258,
-      "learning_rate": 8.623134328358208e-05,
-      "loss": 0.7776,
       "step": 370
     },
     {
       "epoch": 1.42,
-      "grad_norm": 3.190004825592041,
-      "learning_rate": 8.585820895522388e-05,
-      "loss": 0.6576,
       "step": 380
     },
     {
       "epoch": 1.46,
-      "grad_norm": 6.8861083984375,
       "learning_rate": 8.548507462686568e-05,
-      "loss": 0.7661,
       "step": 390
     },
     {
       "epoch": 1.49,
-      "grad_norm": 3.9371914863586426,
       "learning_rate": 8.511194029850747e-05,
-      "loss": 0.7631,
       "step": 400
     },
     {
       "epoch": 1.49,
-      "eval_accuracy": 0.8172231985940246,
-      "eval_loss": 0.6575105786323547,
-      "eval_runtime": 8.5652,
-      "eval_samples_per_second": 66.432,
-      "eval_steps_per_second": 8.406,
       "step": 400
     },
     {
       "epoch": 1.53,
-      "grad_norm": 3.310469150543213,
       "learning_rate": 8.473880597014926e-05,
-      "loss": 0.6434,
       "step": 410
     },
     {
       "epoch": 1.57,
-      "grad_norm": 4.5913591384887695,
       "learning_rate": 8.436567164179105e-05,
-      "loss": 0.8034,
       "step": 420
     },
     {
       "epoch": 1.6,
-      "grad_norm": 4.726842403411865,
       "learning_rate": 8.399253731343283e-05,
-      "loss": 0.6168,
       "step": 430
     },
     {
       "epoch": 1.64,
-      "grad_norm": 6.282873630523682,
       "learning_rate": 8.361940298507463e-05,
-      "loss": 0.5843,
       "step": 440
     },
     {
       "epoch": 1.68,
-      "grad_norm": 4.726373672485352,
       "learning_rate": 8.324626865671642e-05,
-      "loss": 0.5252,
       "step": 450
     },
     {
       "epoch": 1.72,
-      "grad_norm": 4.248327732086182,
-      "learning_rate": 8.291044776119404e-05,
-      "loss": 0.6661,
       "step": 460
     },
     {
       "epoch": 1.75,
-      "grad_norm": 4.138558387756348,
-      "learning_rate": 8.253731343283582e-05,
-      "loss": 0.6494,
       "step": 470
     },
     {
       "epoch": 1.79,
-      "grad_norm": 3.5934176445007324,
-      "learning_rate": 8.216417910447761e-05,
-      "loss": 0.6315,
       "step": 480
     },
     {
       "epoch": 1.83,
-      "grad_norm": 4.674199104309082,
-      "learning_rate": 8.179104477611941e-05,
-      "loss": 0.6855,
       "step": 490
     },
     {
       "epoch": 1.87,
-      "grad_norm": 6.128390312194824,
-      "learning_rate": 8.14179104477612e-05,
-      "loss": 0.6677,
       "step": 500
     },
     {
       "epoch": 1.87,
-      "eval_accuracy": 0.8347978910369068,
-      "eval_loss": 0.5807344913482666,
-      "eval_runtime": 9.1606,
-      "eval_samples_per_second": 62.114,
-      "eval_steps_per_second": 7.86,
       "step": 500
     },
     {
       "epoch": 1.9,
-      "grad_norm": 4.19622278213501,
-      "learning_rate": 8.104477611940299e-05,
-      "loss": 0.5657,
       "step": 510
     },
     {
       "epoch": 1.94,
-      "grad_norm": 4.012423992156982,
-      "learning_rate": 8.067164179104479e-05,
-      "loss": 0.5634,
       "step": 520
     },
     {
       "epoch": 1.98,
-      "grad_norm": 4.992753505706787,
-      "learning_rate": 8.029850746268657e-05,
-      "loss": 0.7189,
       "step": 530
     },
     {
       "epoch": 2.01,
-      "grad_norm": 3.9965474605560303,
-      "learning_rate": 7.992537313432836e-05,
-      "loss": 0.6142,
       "step": 540
     },
     {
       "epoch": 2.05,
-      "grad_norm": 8.174031257629395,
-      "learning_rate": 7.955223880597016e-05,
-      "loss": 0.6144,
       "step": 550
     },
     {
       "epoch": 2.09,
-      "grad_norm": 6.298408508300781,
-      "learning_rate": 7.917910447761194e-05,
-      "loss": 0.6173,
       "step": 560
     },
     {
       "epoch": 2.13,
-      "grad_norm": 4.2981157302856445,
-      "learning_rate": 7.884328358208955e-05,
-      "loss": 0.4996,
       "step": 570
     },
     {
       "epoch": 2.16,
-      "grad_norm": 3.9534685611724854,
-      "learning_rate": 7.847014925373135e-05,
-      "loss": 0.6207,
       "step": 580
     },
     {
       "epoch": 2.2,
-      "grad_norm": 5.578802585601807,
-      "learning_rate": 7.809701492537313e-05,
-      "loss": 0.4617,
       "step": 590
     },
     {
       "epoch": 2.24,
-      "grad_norm": 6.687201023101807,
-      "learning_rate": 7.772388059701493e-05,
-      "loss": 0.5063,
       "step": 600
     },
     {
       "epoch": 2.24,
-      "eval_accuracy": 0.843585237258348,
-      "eval_loss": 0.5662876963615417,
-      "eval_runtime": 8.5435,
-      "eval_samples_per_second": 66.6,
-      "eval_steps_per_second": 8.427,
       "step": 600
     },
     {
       "epoch": 2.28,
-      "grad_norm": 8.274934768676758,
-      "learning_rate": 7.735074626865672e-05,
-      "loss": 0.5806,
       "step": 610
     },
     {
       "epoch": 2.31,
-      "grad_norm": 2.605114221572876,
-      "learning_rate": 7.697761194029851e-05,
-      "loss": 0.4366,
       "step": 620
     },
     {
       "epoch": 2.35,
-      "grad_norm": 7.271874904632568,
-      "learning_rate": 7.66044776119403e-05,
-      "loss": 0.5235,
       "step": 630
     },
     {
       "epoch": 2.39,
-      "grad_norm": 9.129398345947266,
-      "learning_rate": 7.623134328358208e-05,
-      "loss": 0.5998,
       "step": 640
     },
     {
       "epoch": 2.43,
-      "grad_norm": 4.308353900909424,
-      "learning_rate": 7.585820895522388e-05,
-      "loss": 0.4727,
       "step": 650
     },
     {
       "epoch": 2.46,
-      "grad_norm": 2.917837381362915,
-      "learning_rate": 7.548507462686567e-05,
-      "loss": 0.5581,
       "step": 660
     },
     {
       "epoch": 2.5,
-      "grad_norm": 2.3711228370666504,
-      "learning_rate": 7.511194029850747e-05,
-      "loss": 0.4911,
       "step": 670
     },
     {
       "epoch": 2.54,
-      "grad_norm": 5.023218631744385,
-      "learning_rate": 7.473880597014926e-05,
-      "loss": 0.5413,
       "step": 680
     },
     {
       "epoch": 2.57,
-      "grad_norm": 4.481651306152344,
-      "learning_rate": 7.436567164179105e-05,
-      "loss": 0.5846,
       "step": 690
     },
     {
       "epoch": 2.61,
-      "grad_norm": 5.410364627838135,
-      "learning_rate": 7.399253731343285e-05,
-      "loss": 0.5071,
       "step": 700
     },
     {
       "epoch": 2.61,
-      "eval_accuracy": 0.8347978910369068,
-      "eval_loss": 0.5480624437332153,
-      "eval_runtime": 8.3917,
-      "eval_samples_per_second": 67.805,
-      "eval_steps_per_second": 8.58,
       "step": 700
     },
     {
       "epoch": 2.65,
-      "grad_norm": 7.889952659606934,
-      "learning_rate": 7.361940298507463e-05,
-      "loss": 0.5043,
       "step": 710
     },
     {
       "epoch": 2.69,
-      "grad_norm": 5.345368385314941,
-      "learning_rate": 7.324626865671642e-05,
-      "loss": 0.4811,
       "step": 720
     },
     {
       "epoch": 2.72,
-      "grad_norm": 5.252166748046875,
-      "learning_rate": 7.287313432835822e-05,
-      "loss": 0.557,
       "step": 730
     },
     {
       "epoch": 2.76,
-      "grad_norm": 2.338393449783325,
-      "learning_rate": 7.25e-05,
-      "loss": 0.4324,
       "step": 740
     },
     {
       "epoch": 2.8,
-      "grad_norm": 4.905025005340576,
-      "learning_rate": 7.21268656716418e-05,
-      "loss": 0.4682,
       "step": 750
     },
     {
       "epoch": 2.84,
-      "grad_norm": 9.954655647277832,
-      "learning_rate": 7.175373134328358e-05,
-      "loss": 0.6284,
       "step": 760
     },
     {
       "epoch": 2.87,
-      "grad_norm": 6.993457317352295,
-      "learning_rate": 7.138059701492538e-05,
-      "loss": 0.6658,
       "step": 770
     },
     {
       "epoch": 2.91,
-      "grad_norm": 7.744531631469727,
-      "learning_rate": 7.100746268656717e-05,
-      "loss": 0.5796,
       "step": 780
     },
     {
       "epoch": 2.95,
-      "grad_norm": 5.5365519523620605,
-      "learning_rate": 7.063432835820895e-05,
-      "loss": 0.4847,
       "step": 790
     },
     {
       "epoch": 2.99,
-      "grad_norm": 2.869462251663208,
-      "learning_rate": 7.026119402985075e-05,
-      "loss": 0.579,
       "step": 800
     },
     {
       "epoch": 2.99,
-      "eval_accuracy": 0.8260105448154658,
-      "eval_loss": 0.5727049708366394,
-      "eval_runtime": 8.478,
-      "eval_samples_per_second": 67.115,
-      "eval_steps_per_second": 8.493,
       "step": 800
     },
     {
       "epoch": 3.02,
-      "grad_norm": 3.311018228530884,
-      "learning_rate": 6.988805970149253e-05,
-      "loss": 0.3958,
       "step": 810
     },
     {
       "epoch": 3.06,
-      "grad_norm": 2.3017098903656006,
-      "learning_rate": 6.951492537313433e-05,
-      "loss": 0.3865,
       "step": 820
     },
     {
       "epoch": 3.1,
-      "grad_norm": 6.653348445892334,
-      "learning_rate": 6.914179104477613e-05,
-      "loss": 0.4278,
       "step": 830
     },
     {
       "epoch": 3.13,
-      "grad_norm": 6.431192874908447,
-      "learning_rate": 6.876865671641792e-05,
-      "loss": 0.515,
       "step": 840
     },
     {
       "epoch": 3.17,
-      "grad_norm": 5.057152271270752,
-      "learning_rate": 6.83955223880597e-05,
-      "loss": 0.409,
       "step": 850
     },
     {
       "epoch": 3.21,
-      "grad_norm": 7.399530410766602,
-      "learning_rate": 6.802238805970149e-05,
-      "loss": 0.5062,
       "step": 860
     },
     {
       "epoch": 3.25,
-      "grad_norm": 13.14486026763916,
-      "learning_rate": 6.764925373134328e-05,
-      "loss": 0.536,
       "step": 870
     },
     {
       "epoch": 3.28,
-      "grad_norm": 4.1537628173828125,
-      "learning_rate": 6.727611940298508e-05,
-      "loss": 0.4641,
       "step": 880
     },
     {
       "epoch": 3.32,
-      "grad_norm": 6.63462495803833,
-      "learning_rate": 6.690298507462687e-05,
-      "loss": 0.5114,
       "step": 890
     },
     {
       "epoch": 3.36,
-      "grad_norm": 2.6790735721588135,
-      "learning_rate": 6.652985074626867e-05,
-      "loss": 0.4298,
       "step": 900
     },
     {
       "epoch": 3.36,
-      "eval_accuracy": 0.827768014059754,
-      "eval_loss": 0.5905970931053162,
-      "eval_runtime": 8.3784,
-      "eval_samples_per_second": 67.913,
-      "eval_steps_per_second": 8.594,
       "step": 900
     },
     {
       "epoch": 3.4,
-      "grad_norm": 2.221060276031494,
-      "learning_rate": 6.615671641791045e-05,
-      "loss": 0.4404,
       "step": 910
     },
     {
       "epoch": 3.43,
-      "grad_norm": 3.257672071456909,
-      "learning_rate": 6.578358208955225e-05,
-      "loss": 0.3023,
       "step": 920
     },
     {
       "epoch": 3.47,
-      "grad_norm": 10.71721363067627,
-      "learning_rate": 6.541044776119403e-05,
-      "loss": 0.3513,
       "step": 930
     },
     {
       "epoch": 3.51,
-      "grad_norm": 7.456138610839844,
-      "learning_rate": 6.503731343283582e-05,
-      "loss": 0.4613,
       "step": 940
     },
     {
       "epoch": 3.54,
-      "grad_norm": 1.9394311904907227,
-      "learning_rate": 6.466417910447762e-05,
-      "loss": 0.4467,
       "step": 950
     },
     {
       "epoch": 3.58,
-      "grad_norm": 4.59872579574585,
-      "learning_rate": 6.42910447761194e-05,
-      "loss": 0.3312,
       "step": 960
     },
     {
       "epoch": 3.62,
-      "grad_norm": 4.213327407836914,
-      "learning_rate": 6.39179104477612e-05,
-      "loss": 0.4384,
       "step": 970
     },
     {
       "epoch": 3.66,
-      "grad_norm": 6.511275768280029,
-      "learning_rate": 6.3544776119403e-05,
-      "loss": 0.3468,
       "step": 980
     },
     {
       "epoch": 3.69,
-      "grad_norm": 6.56002950668335,
-      "learning_rate": 6.317164179104478e-05,
-      "loss": 0.3614,
       "step": 990
     },
     {
       "epoch": 3.73,
-      "grad_norm": 8.825058937072754,
-      "learning_rate": 6.279850746268657e-05,
-      "loss": 0.3999,
       "step": 1000
     },
     {
       "epoch": 3.73,
-      "eval_accuracy": 0.8347978910369068,
-      "eval_loss": 0.5692991018295288,
-      "eval_runtime": 8.4026,
-      "eval_samples_per_second": 67.717,
-      "eval_steps_per_second": 8.569,
       "step": 1000
     },
     {
       "epoch": 3.77,
-      "grad_norm": 6.40085506439209,
-      "learning_rate": 6.242537313432835e-05,
-      "loss": 0.4494,
       "step": 1010
     },
     {
       "epoch": 3.81,
-      "grad_norm": 2.9111902713775635,
-      "learning_rate": 6.205223880597015e-05,
-      "loss": 0.46,
       "step": 1020
     },
     {
       "epoch": 3.84,
-      "grad_norm": 5.360230922698975,
-      "learning_rate": 6.167910447761195e-05,
-      "loss": 0.4846,
       "step": 1030
     },
     {
       "epoch": 3.88,
-      "grad_norm": 5.617285251617432,
-      "learning_rate": 6.130597014925373e-05,
-      "loss": 0.5172,
       "step": 1040
     },
     {
       "epoch": 3.92,
-      "grad_norm": 8.090892791748047,
-      "learning_rate": 6.0932835820895526e-05,
-      "loss": 0.479,
       "step": 1050
     },
     {
       "epoch": 3.96,
-      "grad_norm": 7.056848526000977,
-      "learning_rate": 6.055970149253731e-05,
-      "loss": 0.529,
       "step": 1060
     },
     {
       "epoch": 3.99,
-      "grad_norm": 1.4730439186096191,
-      "learning_rate": 6.018656716417911e-05,
-      "loss": 0.3414,
       "step": 1070
     },
     {
       "epoch": 4.03,
-      "grad_norm": 1.0286493301391602,
-      "learning_rate": 5.9813432835820894e-05,
-      "loss": 0.3596,
       "step": 1080
     },
     {
       "epoch": 4.07,
-      "grad_norm": 4.1192779541015625,
-      "learning_rate": 5.9440298507462686e-05,
-      "loss": 0.3072,
       "step": 1090
     },
     {
       "epoch": 4.1,
-      "grad_norm": 7.781830787658691,
-      "learning_rate": 5.9067164179104484e-05,
-      "loss": 0.414,
       "step": 1100
     },
     {
       "epoch": 4.1,
-      "eval_accuracy": 0.8400702987697716,
-      "eval_loss": 0.5115455985069275,
-      "eval_runtime": 8.3668,
-      "eval_samples_per_second": 68.007,
-      "eval_steps_per_second": 8.605,
       "step": 1100
     },
     {
       "epoch": 4.14,
-      "grad_norm": 6.427892208099365,
-      "learning_rate": 5.869402985074627e-05,
-      "loss": 0.3508,
       "step": 1110
     },
     {
       "epoch": 4.18,
-      "grad_norm": 6.545078277587891,
-      "learning_rate": 5.832089552238807e-05,
-      "loss": 0.3952,
       "step": 1120
     },
     {
       "epoch": 4.22,
-      "grad_norm": 10.781569480895996,
-      "learning_rate": 5.7947761194029845e-05,
-      "loss": 0.2817,
       "step": 1130
     },
     {
       "epoch": 4.25,
-      "grad_norm": 7.064284324645996,
-      "learning_rate": 5.7574626865671643e-05,
-      "loss": 0.4672,
       "step": 1140
     },
     {
       "epoch": 4.29,
-      "grad_norm": 10.146831512451172,
-      "learning_rate": 5.720149253731344e-05,
-      "loss": 0.3896,
       "step": 1150
     },
     {
       "epoch": 4.33,
-      "grad_norm": 3.460674285888672,
-      "learning_rate": 5.6828358208955227e-05,
-      "loss": 0.3863,
       "step": 1160
     },
     {
       "epoch": 4.37,
-      "grad_norm": 1.625980257987976,
-      "learning_rate": 5.645522388059702e-05,
-      "loss": 0.3756,
       "step": 1170
     },
     {
       "epoch": 4.4,
-      "grad_norm": 4.2397074699401855,
-      "learning_rate": 5.60820895522388e-05,
-      "loss": 0.317,
       "step": 1180
     },
     {
       "epoch": 4.44,
-      "grad_norm": 7.672292232513428,
-      "learning_rate": 5.57089552238806e-05,
-      "loss": 0.3034,
       "step": 1190
     },
     {
       "epoch": 4.48,
-      "grad_norm": 5.202517032623291,
-      "learning_rate": 5.533582089552239e-05,
-      "loss": 0.408,
       "step": 1200
     },
     {
       "epoch": 4.48,
-      "eval_accuracy": 0.836555360281195,
-      "eval_loss": 0.5280522704124451,
-      "eval_runtime": 8.3443,
-      "eval_samples_per_second": 68.19,
-      "eval_steps_per_second": 8.629,
       "step": 1200
     },
     {
       "epoch": 4.51,
-      "grad_norm": 4.860721111297607,
-      "learning_rate": 5.496268656716418e-05,
-      "loss": 0.4828,
       "step": 1210
     },
     {
       "epoch": 4.55,
-      "grad_norm": 6.979416370391846,
-      "learning_rate": 5.4589552238805976e-05,
-      "loss": 0.3471,
       "step": 1220
     },
     {
       "epoch": 4.59,
-      "grad_norm": 0.8708503246307373,
-      "learning_rate": 5.421641791044776e-05,
-      "loss": 0.3038,
       "step": 1230
     },
     {
       "epoch": 4.63,
-      "grad_norm": 8.209038734436035,
-      "learning_rate": 5.384328358208955e-05,
-      "loss": 0.4865,
       "step": 1240
     },
     {
       "epoch": 4.66,
-      "grad_norm": 2.992311716079712,
-      "learning_rate": 5.347014925373135e-05,
-      "loss": 0.2837,
       "step": 1250
     },
     {
       "epoch": 4.7,
-      "grad_norm": 3.729401111602783,
-      "learning_rate": 5.3097014925373136e-05,
-      "loss": 0.2387,
       "step": 1260
     },
     {
       "epoch": 4.74,
-      "grad_norm": 5.371230602264404,
-      "learning_rate": 5.272388059701493e-05,
-      "loss": 0.4279,
       "step": 1270
     },
     {
       "epoch": 4.78,
-      "grad_norm": 5.8051652908325195,
-      "learning_rate": 5.235074626865671e-05,
-      "loss": 0.4554,
       "step": 1280
     },
     {
       "epoch": 4.81,
-      "grad_norm": 4.095101833343506,
-      "learning_rate": 5.197761194029851e-05,
-      "loss": 0.345,
       "step": 1290
     },
     {
       "epoch": 4.85,
-      "grad_norm": 1.840154767036438,
-      "learning_rate": 5.16044776119403e-05,
-      "loss": 0.2794,
       "step": 1300
     },
     {
       "epoch": 4.85,
-      "eval_accuracy": 0.8453427065026362,
-      "eval_loss": 0.5268673300743103,
-      "eval_runtime": 8.2977,
-      "eval_samples_per_second": 68.573,
-      "eval_steps_per_second": 8.677,
       "step": 1300
     },
     {
       "epoch": 4.89,
-      "grad_norm": 2.5061440467834473,
-      "learning_rate": 5.123134328358209e-05,
-      "loss": 0.3043,
       "step": 1310
     },
     {
       "epoch": 4.93,
-      "grad_norm": 1.3759231567382812,
-      "learning_rate": 5.0858208955223885e-05,
-      "loss": 0.3049,
       "step": 1320
     },
     {
       "epoch": 4.96,
-      "grad_norm": 4.22188138961792,
-      "learning_rate": 5.048507462686567e-05,
-      "loss": 0.4139,
       "step": 1330
     },
     {
       "epoch": 5.0,
-      "grad_norm": 8.63315200805664,
-      "learning_rate": 5.011194029850746e-05,
-      "loss": 0.3967,
       "step": 1340
     },
     {
       "epoch": 5.04,
-      "grad_norm": 5.766853332519531,
-      "learning_rate": 4.973880597014925e-05,
-      "loss": 0.3292,
       "step": 1350
     },
     {
       "epoch": 5.07,
-      "grad_norm": 5.394406318664551,
-      "learning_rate": 4.9365671641791045e-05,
-      "loss": 0.3139,
       "step": 1360
     },
     {
       "epoch": 5.11,
-      "grad_norm": 2.7173523902893066,
-      "learning_rate": 4.899253731343284e-05,
-      "loss": 0.2619,
       "step": 1370
     },
     {
       "epoch": 5.15,
-      "grad_norm": 5.464639663696289,
-      "learning_rate": 4.861940298507463e-05,
-      "loss": 0.3413,
       "step": 1380
     },
     {
       "epoch": 5.19,
-      "grad_norm": 5.520565032958984,
-      "learning_rate": 4.824626865671642e-05,
-      "loss": 0.2433,
       "step": 1390
     },
     {
       "epoch": 5.22,
-      "grad_norm": 7.165010929107666,
-      "learning_rate": 4.787313432835821e-05,
-      "loss": 0.3881,
       "step": 1400
     },
     {
       "epoch": 5.22,
-      "eval_accuracy": 0.8471001757469244,
-      "eval_loss": 0.5245617032051086,
-      "eval_runtime": 8.3138,
-      "eval_samples_per_second": 68.44,
-      "eval_steps_per_second": 8.66,
       "step": 1400
     },
     {
       "epoch": 5.26,
-      "grad_norm": 9.019377708435059,
-      "learning_rate": 4.75e-05,
-      "loss": 0.3921,
       "step": 1410
     },
     {
       "epoch": 5.3,
-      "grad_norm": 2.8719711303710938,
-      "learning_rate": 4.7126865671641794e-05,
-      "loss": 0.2581,
       "step": 1420
     },
     {
       "epoch": 5.34,
-      "grad_norm": 1.599303126335144,
-      "learning_rate": 4.6753731343283586e-05,
-      "loss": 0.3145,
       "step": 1430
     },
     {
       "epoch": 5.37,
-      "grad_norm": 0.6838473677635193,
-      "learning_rate": 4.638059701492538e-05,
-      "loss": 0.2265,
       "step": 1440
     },
     {
       "epoch": 5.41,
-      "grad_norm": 4.16595983505249,
-      "learning_rate": 4.600746268656716e-05,
-      "loss": 0.2819,
       "step": 1450
     },
     {
       "epoch": 5.45,
-      "grad_norm": 4.727346897125244,
-      "learning_rate": 4.5634328358208954e-05,
-      "loss": 0.472,
       "step": 1460
     },
     {
       "epoch": 5.49,
-      "grad_norm": 5.769215106964111,
-      "learning_rate": 4.526119402985075e-05,
-      "loss": 0.2837,
       "step": 1470
     },
     {
       "epoch": 5.52,
-      "grad_norm": 2.133538246154785,
-      "learning_rate": 4.4888059701492544e-05,
-      "loss": 0.3245,
       "step": 1480
     },
     {
       "epoch": 5.56,
-      "grad_norm": 4.680506229400635,
-      "learning_rate": 4.451492537313433e-05,
-      "loss": 0.3059,
       "step": 1490
     },
     {
       "epoch": 5.6,
-      "grad_norm": 1.788087248802185,
-      "learning_rate": 4.414179104477612e-05,
-      "loss": 0.3097,
       "step": 1500
     },
     {
       "epoch": 5.6,
-      "eval_accuracy": 0.8523725834797891,
-      "eval_loss": 0.49264049530029297,
-      "eval_runtime": 8.432,
-      "eval_samples_per_second": 67.481,
-      "eval_steps_per_second": 8.539,
       "step": 1500
     },
     {
       "epoch": 5.63,
-      "grad_norm": 4.880031108856201,
-      "learning_rate": 4.376865671641791e-05,
-      "loss": 0.2706,
       "step": 1510
     },
     {
       "epoch": 5.67,
-      "grad_norm": 1.7767056226730347,
-      "learning_rate": 4.33955223880597e-05,
-      "loss": 0.1966,
       "step": 1520
     },
     {
       "epoch": 5.71,
-      "grad_norm": 3.718566656112671,
-      "learning_rate": 4.3022388059701495e-05,
-      "loss": 0.3677,
       "step": 1530
     },
     {
       "epoch": 5.75,
-      "grad_norm": 5.989944934844971,
-      "learning_rate": 4.2649253731343286e-05,
-      "loss": 0.3162,
       "step": 1540
     },
     {
       "epoch": 5.78,
-      "grad_norm": 2.0375638008117676,
-      "learning_rate": 4.227611940298508e-05,
-      "loss": 0.3895,
       "step": 1550
     },
     {
       "epoch": 5.82,
-      "grad_norm": 6.132637023925781,
-      "learning_rate": 4.190298507462686e-05,
-      "loss": 0.3279,
       "step": 1560
     },
     {
       "epoch": 5.86,
-      "grad_norm": 1.606240153312683,
-      "learning_rate": 4.152985074626866e-05,
-      "loss": 0.2464,
       "step": 1570
     },
     {
       "epoch": 5.9,
-      "grad_norm": 1.298972249031067,
-      "learning_rate": 4.115671641791045e-05,
-      "loss": 0.3232,
       "step": 1580
     },
     {
       "epoch": 5.93,
-      "grad_norm": 5.93351936340332,
-      "learning_rate": 4.0783582089552244e-05,
-      "loss": 0.4001,
       "step": 1590
     },
     {
       "epoch": 5.97,
-      "grad_norm": 7.276583194732666,
-      "learning_rate": 4.041044776119403e-05,
-      "loss": 0.2272,
       "step": 1600
     },
     {
       "epoch": 5.97,
-      "eval_accuracy": 0.8506151142355008,
-      "eval_loss": 0.5247848629951477,
-      "eval_runtime": 8.5315,
-      "eval_samples_per_second": 66.694,
-      "eval_steps_per_second": 8.439,
       "step": 1600
     },
     {
       "epoch": 6.01,
-      "grad_norm": 6.495110988616943,
-      "learning_rate": 4.003731343283582e-05,
-      "loss": 0.543,
       "step": 1610
     },
     {
       "epoch": 6.04,
-      "grad_norm": 4.471397399902344,
-      "learning_rate": 3.966417910447761e-05,
-      "loss": 0.3181,
       "step": 1620
     },
     {
       "epoch": 6.08,
-      "grad_norm": 1.866243600845337,
-      "learning_rate": 3.9291044776119404e-05,
-      "loss": 0.3089,
       "step": 1630
     },
     {
       "epoch": 6.12,
-      "grad_norm": 0.6558152437210083,
-      "learning_rate": 3.8917910447761195e-05,
-      "loss": 0.2184,
       "step": 1640
     },
     {
       "epoch": 6.16,
-      "grad_norm": 5.176995277404785,
-      "learning_rate": 3.854477611940299e-05,
-      "loss": 0.339,
       "step": 1650
     },
     {
       "epoch": 6.19,
-      "grad_norm": 4.923765659332275,
-      "learning_rate": 3.817164179104478e-05,
-      "loss": 0.2766,
       "step": 1660
     },
     {
       "epoch": 6.23,
-      "grad_norm": 7.87476921081543,
-      "learning_rate": 3.7798507462686563e-05,
-      "loss": 0.2416,
       "step": 1670
     },
     {
       "epoch": 6.27,
-      "grad_norm": 0.2711706757545471,
-      "learning_rate": 3.742537313432836e-05,
-      "loss": 0.2525,
       "step": 1680
     },
     {
       "epoch": 6.31,
-      "grad_norm": 3.922217607498169,
-      "learning_rate": 3.7052238805970153e-05,
-      "loss": 0.2029,
       "step": 1690
     },
     {
       "epoch": 6.34,
-      "grad_norm": 3.762434244155884,
-      "learning_rate": 3.6679104477611945e-05,
-      "loss": 0.2796,
       "step": 1700
     },
     {
       "epoch": 6.34,
-      "eval_accuracy": 0.8611599297012302,
-      "eval_loss": 0.5052834749221802,
-      "eval_runtime": 8.3793,
-      "eval_samples_per_second": 67.905,
-      "eval_steps_per_second": 8.593,
       "step": 1700
     },
     {
       "epoch": 6.38,
-      "grad_norm": 7.634174823760986,
-      "learning_rate": 3.630597014925373e-05,
-      "loss": 0.3526,
       "step": 1710
     },
     {
       "epoch": 6.42,
-      "grad_norm": 3.1712279319763184,
-      "learning_rate": 3.593283582089552e-05,
-      "loss": 0.352,
       "step": 1720
     },
     {
       "epoch": 6.46,
-      "grad_norm": 5.504647254943848,
-      "learning_rate": 3.555970149253732e-05,
-      "loss": 0.3803,
       "step": 1730
     },
     {
       "epoch": 6.49,
-      "grad_norm": 3.8011245727539062,
-      "learning_rate": 3.5186567164179105e-05,
-      "loss": 0.2704,
       "step": 1740
     },
     {
       "epoch": 6.53,
-      "grad_norm": 3.952202320098877,
-      "learning_rate": 3.4813432835820896e-05,
-      "loss": 0.2412,
       "step": 1750
     },
     {
       "epoch": 6.57,
-      "grad_norm": 8.292951583862305,
-      "learning_rate": 3.444029850746269e-05,
-      "loss": 0.4386,
       "step": 1760
     },
     {
       "epoch": 6.6,
-      "grad_norm": 7.3667683601379395,
-      "learning_rate": 3.406716417910448e-05,
-      "loss": 0.3602,
       "step": 1770
     },
     {
       "epoch": 6.64,
-      "grad_norm": 5.553083419799805,
-      "learning_rate": 3.369402985074627e-05,
-      "loss": 0.3948,
       "step": 1780
     },
     {
       "epoch": 6.68,
-      "grad_norm": 2.8751885890960693,
-      "learning_rate": 3.332089552238806e-05,
-      "loss": 0.3627,
       "step": 1790
     },
     {
       "epoch": 6.72,
-      "grad_norm": 1.8231642246246338,
-      "learning_rate": 3.2947761194029854e-05,
-      "loss": 0.3279,
       "step": 1800
     },
     {
       "epoch": 6.72,
-      "eval_accuracy": 0.8629173989455184,
-      "eval_loss": 0.5018983483314514,
-      "eval_runtime": 8.4577,
-      "eval_samples_per_second": 67.276,
-      "eval_steps_per_second": 8.513,
       "step": 1800
     },
     {
       "epoch": 6.75,
-      "grad_norm": 7.642894268035889,
-      "learning_rate": 3.2574626865671646e-05,
-      "loss": 0.2666,
       "step": 1810
     },
     {
       "epoch": 6.79,
-      "grad_norm": 6.284189701080322,
-      "learning_rate": 3.220149253731343e-05,
-      "loss": 0.2041,
       "step": 1820
     },
     {
       "epoch": 6.83,
-      "grad_norm": 0.28246691823005676,
-      "learning_rate": 3.182835820895523e-05,
-      "loss": 0.3354,
       "step": 1830
     },
     {
       "epoch": 6.87,
-      "grad_norm": 1.1345715522766113,
-      "learning_rate": 3.145522388059702e-05,
-      "loss": 0.2131,
       "step": 1840
     },
     {
       "epoch": 6.9,
-      "grad_norm": 3.8102524280548096,
-      "learning_rate": 3.1082089552238805e-05,
-      "loss": 0.2561,
       "step": 1850
     },
     {
       "epoch": 6.94,
-      "grad_norm": 2.3832194805145264,
-      "learning_rate": 3.07089552238806e-05,
-      "loss": 0.2473,
       "step": 1860
     },
     {
       "epoch": 6.98,
-      "grad_norm": 8.078363418579102,
-      "learning_rate": 3.033582089552239e-05,
-      "loss": 0.1613,
       "step": 1870
     },
     {
       "epoch": 7.01,
-      "grad_norm": 7.360495567321777,
-      "learning_rate": 2.9962686567164183e-05,
-      "loss": 0.2584,
       "step": 1880
     },
     {
       "epoch": 7.05,
-      "grad_norm": 3.4815495014190674,
-      "learning_rate": 2.958955223880597e-05,
-      "loss": 0.294,
       "step": 1890
     },
     {
       "epoch": 7.09,
-      "grad_norm": 2.735764980316162,
-      "learning_rate": 2.9216417910447763e-05,
-      "loss": 0.2674,
       "step": 1900
     },
     {
       "epoch": 7.09,
-      "eval_accuracy": 0.8541300527240774,
-      "eval_loss": 0.49219682812690735,
-      "eval_runtime": 8.6014,
-      "eval_samples_per_second": 66.152,
-      "eval_steps_per_second": 8.371,
       "step": 1900
     },
     {
       "epoch": 7.13,
-      "grad_norm": 7.633571624755859,
-      "learning_rate": 2.8843283582089555e-05,
-      "loss": 0.2381,
       "step": 1910
     },
     {
       "epoch": 7.16,
-      "grad_norm": 4.956969261169434,
-      "learning_rate": 2.8470149253731343e-05,
-      "loss": 0.2345,
       "step": 1920
     },
     {
       "epoch": 7.2,
-      "grad_norm": 4.375622272491455,
-      "learning_rate": 2.8097014925373134e-05,
-      "loss": 0.1311,
       "step": 1930
     },
     {
       "epoch": 7.24,
-      "grad_norm": 4.414794445037842,
-      "learning_rate": 2.772388059701493e-05,
-      "loss": 0.2952,
       "step": 1940
     },
     {
       "epoch": 7.28,
-      "grad_norm": 2.791107654571533,
-      "learning_rate": 2.7350746268656718e-05,
-      "loss": 0.2819,
       "step": 1950
     },
     {
       "epoch": 7.31,
-      "grad_norm": 1.6784512996673584,
-      "learning_rate": 2.697761194029851e-05,
-      "loss": 0.2262,
       "step": 1960
     },
     {
       "epoch": 7.35,
-      "grad_norm": 9.391459465026855,
-      "learning_rate": 2.6604477611940297e-05,
-      "loss": 0.2454,
       "step": 1970
     },
     {
       "epoch": 7.39,
-      "grad_norm": 2.932426929473877,
-      "learning_rate": 2.623134328358209e-05,
-      "loss": 0.3726,
       "step": 1980
     },
     {
       "epoch": 7.43,
-      "grad_norm": 4.181185245513916,
-      "learning_rate": 2.5858208955223884e-05,
-      "loss": 0.2476,
       "step": 1990
     },
     {
       "epoch": 7.46,
-      "grad_norm": 1.8798452615737915,
-      "learning_rate": 2.5485074626865672e-05,
-      "loss": 0.1587,
       "step": 2000
     },
     {
       "epoch": 7.46,
-      "eval_accuracy": 0.8453427065026362,
-      "eval_loss": 0.5443013906478882,
-      "eval_runtime": 8.3737,
-      "eval_samples_per_second": 67.951,
-      "eval_steps_per_second": 8.598,
       "step": 2000
     },
     {
       "epoch": 7.5,
-      "grad_norm": 3.390342950820923,
-      "learning_rate": 2.5111940298507464e-05,
-      "loss": 0.1547,
       "step": 2010
     },
     {
       "epoch": 7.54,
-      "grad_norm": 5.769399642944336,
-      "learning_rate": 2.4738805970149252e-05,
-      "loss": 0.3145,
       "step": 2020
     },
     {
       "epoch": 7.57,
-      "grad_norm": 2.5483851432800293,
-      "learning_rate": 2.4365671641791047e-05,
-      "loss": 0.1655,
       "step": 2030
     },
     {
       "epoch": 7.61,
-      "grad_norm": 1.7513008117675781,
-      "learning_rate": 2.3992537313432835e-05,
-      "loss": 0.2675,
       "step": 2040
     },
     {
       "epoch": 7.65,
-      "grad_norm": 1.5183019638061523,
-      "learning_rate": 2.361940298507463e-05,
-      "loss": 0.2594,
       "step": 2050
     },
     {
       "epoch": 7.69,
-      "grad_norm": 0.32409217953681946,
-      "learning_rate": 2.3246268656716418e-05,
-      "loss": 0.1883,
       "step": 2060
     },
     {
       "epoch": 7.72,
-      "grad_norm": 0.11139284074306488,
-      "learning_rate": 2.287313432835821e-05,
-      "loss": 0.3021,
       "step": 2070
     },
     {
       "epoch": 7.76,
-      "grad_norm": 7.34183406829834,
-      "learning_rate": 2.25e-05,
-      "loss": 0.2072,
       "step": 2080
     },
     {
       "epoch": 7.8,
-      "grad_norm": 5.418173789978027,
-      "learning_rate": 2.2126865671641793e-05,
-      "loss": 0.3153,
       "step": 2090
     },
     {
       "epoch": 7.84,
-      "grad_norm": 5.986533164978027,
-      "learning_rate": 2.1753731343283585e-05,
-      "loss": 0.1969,
       "step": 2100
     },
     {
       "epoch": 7.84,
-      "eval_accuracy": 0.8453427065026362,
-      "eval_loss": 0.49669986963272095,
-      "eval_runtime": 8.6875,
-      "eval_samples_per_second": 65.496,
-      "eval_steps_per_second": 8.288,
       "step": 2100
     },
     {
       "epoch": 7.87,
-      "grad_norm": 3.97404146194458,
-      "learning_rate": 2.1380597014925373e-05,
-      "loss": 0.226,
       "step": 2110
     },
     {
       "epoch": 7.91,
-      "grad_norm": 0.669471263885498,
-      "learning_rate": 2.1007462686567164e-05,
-      "loss": 0.1694,
       "step": 2120
     },
     {
       "epoch": 7.95,
-      "grad_norm": 2.947169303894043,
-      "learning_rate": 2.0634328358208956e-05,
-      "loss": 0.2161,
       "step": 2130
     },
     {
       "epoch": 7.99,
-      "grad_norm": 2.7200162410736084,
-      "learning_rate": 2.0261194029850748e-05,
-      "loss": 0.193,
       "step": 2140
     },
     {
       "epoch": 8.02,
-      "grad_norm": 5.843700885772705,
-      "learning_rate": 1.988805970149254e-05,
-      "loss": 0.1613,
       "step": 2150
     },
     {
       "epoch": 8.06,
-      "grad_norm": 4.60325288772583,
-      "learning_rate": 1.951492537313433e-05,
-      "loss": 0.1515,
       "step": 2160
     },
     {
       "epoch": 8.1,
-      "grad_norm": 2.5431127548217773,
-      "learning_rate": 1.914179104477612e-05,
-      "loss": 0.11,
       "step": 2170
     },
     {
       "epoch": 8.13,
-      "grad_norm": 6.271789073944092,
-      "learning_rate": 1.8768656716417914e-05,
-      "loss": 0.267,
       "step": 2180
     },
     {
       "epoch": 8.17,
-      "grad_norm": 5.760239601135254,
-      "learning_rate": 1.8395522388059702e-05,
-      "loss": 0.182,
       "step": 2190
     },
     {
       "epoch": 8.21,
-      "grad_norm": 6.8685407638549805,
-      "learning_rate": 1.8022388059701494e-05,
-      "loss": 0.2137,
       "step": 2200
     },
     {
       "epoch": 8.21,
-      "eval_accuracy": 0.8453427065026362,
-      "eval_loss": 0.5276018977165222,
-      "eval_runtime": 8.5437,
-      "eval_samples_per_second": 66.599,
-      "eval_steps_per_second": 8.427,
       "step": 2200
     },
     {
       "epoch": 8.25,
-      "grad_norm": 3.27811598777771,
-      "learning_rate": 1.7649253731343285e-05,
-      "loss": 0.2199,
       "step": 2210
     },
     {
       "epoch": 8.28,
-      "grad_norm": 6.934047698974609,
-      "learning_rate": 1.7276119402985073e-05,
-      "loss": 0.1897,
       "step": 2220
     },
     {
       "epoch": 8.32,
-      "grad_norm": 2.9394731521606445,
-      "learning_rate": 1.690298507462687e-05,
-      "loss": 0.1746,
       "step": 2230
     },
     {
       "epoch": 8.36,
-      "grad_norm": 3.681551694869995,
-      "learning_rate": 1.6529850746268657e-05,
-      "loss": 0.2328,
       "step": 2240
     },
     {
       "epoch": 8.4,
-      "grad_norm": 3.270867109298706,
-      "learning_rate": 1.6156716417910448e-05,
-      "loss": 0.1938,
       "step": 2250
     },
     {
       "epoch": 8.43,
-      "grad_norm": 1.7609107494354248,
-      "learning_rate": 1.578358208955224e-05,
-      "loss": 0.2182,
       "step": 2260
     },
     {
       "epoch": 8.47,
-      "grad_norm": 8.35375690460205,
-      "learning_rate": 1.541044776119403e-05,
-      "loss": 0.2743,
       "step": 2270
     },
     {
       "epoch": 8.51,
-      "grad_norm": 3.129824161529541,
-      "learning_rate": 1.5037313432835823e-05,
-      "loss": 0.2801,
       "step": 2280
     },
     {
       "epoch": 8.54,
-      "grad_norm": 6.506752014160156,
-      "learning_rate": 1.4664179104477613e-05,
-      "loss": 0.2695,
       "step": 2290
     },
     {
       "epoch": 8.58,
-      "grad_norm": 4.825931549072266,
-      "learning_rate": 1.4291044776119403e-05,
-      "loss": 0.1523,
       "step": 2300
     },
     {
       "epoch": 8.58,
-      "eval_accuracy": 0.8400702987697716,
-      "eval_loss": 0.557367742061615,
-      "eval_runtime": 8.4141,
-      "eval_samples_per_second": 67.625,
-      "eval_steps_per_second": 8.557,
       "step": 2300
     },
     {
       "epoch": 8.62,
-      "grad_norm": 2.8614978790283203,
-      "learning_rate": 1.3917910447761196e-05,
-      "loss": 0.3248,
       "step": 2310
     },
     {
       "epoch": 8.66,
-      "grad_norm": 4.763182163238525,
-      "learning_rate": 1.3544776119402986e-05,
-      "loss": 0.2438,
       "step": 2320
     },
     {
       "epoch": 8.69,
-      "grad_norm": 9.630255699157715,
-      "learning_rate": 1.3171641791044777e-05,
-      "loss": 0.1735,
       "step": 2330
     },
     {
       "epoch": 8.73,
-      "grad_norm": 0.24263332784175873,
-      "learning_rate": 1.2798507462686567e-05,
-      "loss": 0.178,
       "step": 2340
     },
     {
       "epoch": 8.77,
-      "grad_norm": 5.015183448791504,
-      "learning_rate": 1.2425373134328359e-05,
-      "loss": 0.2226,
       "step": 2350
     },
     {
       "epoch": 8.81,
-      "grad_norm": 3.0591747760772705,
-      "learning_rate": 1.2052238805970149e-05,
-      "loss": 0.1448,
       "step": 2360
     },
     {
       "epoch": 8.84,
-      "grad_norm": 2.034698247909546,
-      "learning_rate": 1.167910447761194e-05,
-      "loss": 0.2208,
       "step": 2370
     },
     {
       "epoch": 8.88,
-      "grad_norm": 11.01931381225586,
-      "learning_rate": 1.1305970149253732e-05,
-      "loss": 0.3189,
       "step": 2380
     },
     {
       "epoch": 8.92,
-      "grad_norm": 5.101518154144287,
-      "learning_rate": 1.0932835820895524e-05,
-      "loss": 0.2416,
       "step": 2390
     },
     {
       "epoch": 8.96,
-      "grad_norm": 9.501167297363281,
-      "learning_rate": 1.0559701492537313e-05,
-      "loss": 0.1046,
       "step": 2400
     },
     {
       "epoch": 8.96,
-      "eval_accuracy": 0.8506151142355008,
-      "eval_loss": 0.5301781892776489,
-      "eval_runtime": 8.5121,
-      "eval_samples_per_second": 66.846,
-      "eval_steps_per_second": 8.459,
       "step": 2400
     },
     {
       "epoch": 8.99,
-      "grad_norm": 5.100789546966553,
-      "learning_rate": 1.0186567164179105e-05,
-      "loss": 0.2397,
       "step": 2410
     },
     {
       "epoch": 9.03,
-      "grad_norm": 7.95840311050415,
-      "learning_rate": 9.813432835820897e-06,
-      "loss": 0.1868,
       "step": 2420
     },
     {
       "epoch": 9.07,
-      "grad_norm": 5.097079277038574,
-      "learning_rate": 9.440298507462688e-06,
-      "loss": 0.1372,
       "step": 2430
     },
     {
       "epoch": 9.1,
-      "grad_norm": 3.864272356033325,
-      "learning_rate": 9.067164179104478e-06,
-      "loss": 0.2585,
       "step": 2440
     },
     {
       "epoch": 9.14,
-      "grad_norm": 0.11230158805847168,
-      "learning_rate": 8.694029850746268e-06,
-      "loss": 0.0966,
       "step": 2450
     },
     {
       "epoch": 9.18,
-      "grad_norm": 7.959216594696045,
-      "learning_rate": 8.32089552238806e-06,
-      "loss": 0.2738,
       "step": 2460
     },
     {
       "epoch": 9.22,
-      "grad_norm": 2.576493263244629,
-      "learning_rate": 7.947761194029851e-06,
-      "loss": 0.1649,
       "step": 2470
     },
     {
       "epoch": 9.25,
-      "grad_norm": 0.5602326393127441,
-      "learning_rate": 7.574626865671643e-06,
-      "loss": 0.1362,
       "step": 2480
     },
     {
       "epoch": 9.29,
-      "grad_norm": 0.8377688527107239,
-      "learning_rate": 7.201492537313433e-06,
-      "loss": 0.1822,
       "step": 2490
     },
     {
       "epoch": 9.33,
-      "grad_norm": 9.408169746398926,
-      "learning_rate": 6.828358208955224e-06,
-      "loss": 0.2494,
       "step": 2500
     },
     {
       "epoch": 9.33,
-      "eval_accuracy": 0.859402460456942,
-      "eval_loss": 0.5221985578536987,
-      "eval_runtime": 8.4657,
-      "eval_samples_per_second": 67.212,
-      "eval_steps_per_second": 8.505,
       "step": 2500
     },
     {
       "epoch": 9.37,
-      "grad_norm": 4.556987762451172,
-      "learning_rate": 6.455223880597015e-06,
-      "loss": 0.1805,
       "step": 2510
     },
     {
       "epoch": 9.4,
-      "grad_norm": 3.8287057876586914,
-      "learning_rate": 6.082089552238806e-06,
-      "loss": 0.1475,
       "step": 2520
     },
     {
       "epoch": 9.44,
-      "grad_norm": 5.950246334075928,
-      "learning_rate": 5.708955223880597e-06,
-      "loss": 0.2726,
       "step": 2530
     },
     {
       "epoch": 9.48,
-      "grad_norm": 5.040480613708496,
-      "learning_rate": 5.335820895522389e-06,
-      "loss": 0.2486,
       "step": 2540
     },
     {
       "epoch": 9.51,
-      "grad_norm": 2.392062187194824,
-      "learning_rate": 4.9626865671641796e-06,
-      "loss": 0.1982,
       "step": 2550
     },
     {
       "epoch": 9.55,
-      "grad_norm": 7.3676886558532715,
-      "learning_rate": 4.58955223880597e-06,
-      "loss": 0.1572,
       "step": 2560
     },
     {
       "epoch": 9.59,
-      "grad_norm": 3.5289554595947266,
-      "learning_rate": 4.216417910447761e-06,
-      "loss": 0.2288,
       "step": 2570
     },
     {
       "epoch": 9.63,
-      "grad_norm": 2.5290260314941406,
-      "learning_rate": 3.843283582089553e-06,
-      "loss": 0.178,
       "step": 2580
     },
     {
       "epoch": 9.66,
-      "grad_norm": 4.0583271980285645,
-      "learning_rate": 3.4701492537313434e-06,
-      "loss": 0.1595,
       "step": 2590
     },
     {
       "epoch": 9.7,
-      "grad_norm": 12.406070709228516,
-      "learning_rate": 3.0970149253731345e-06,
-      "loss": 0.1924,
       "step": 2600
     },
     {
       "epoch": 9.7,
-      "eval_accuracy": 0.8506151142355008,
-      "eval_loss": 0.5271298885345459,
-      "eval_runtime": 8.6729,
-      "eval_samples_per_second": 65.607,
-      "eval_steps_per_second": 8.302,
       "step": 2600
     },
     {
       "epoch": 9.74,
-      "grad_norm": 0.0850793793797493,
-      "learning_rate": 2.7238805970149257e-06,
-      "loss": 0.1408,
       "step": 2610
     },
     {
       "epoch": 9.78,
-      "grad_norm": 0.3168705105781555,
-      "learning_rate": 2.3507462686567164e-06,
-      "loss": 0.1715,
       "step": 2620
     },
     {
       "epoch": 9.81,
-      "grad_norm": 8.39201545715332,
-      "learning_rate": 1.9776119402985076e-06,
-      "loss": 0.1584,
       "step": 2630
     },
     {
       "epoch": 9.85,
-      "grad_norm": 8.577099800109863,
-      "learning_rate": 1.6044776119402985e-06,
-      "loss": 0.1757,
       "step": 2640
     },
     {
       "epoch": 9.89,
-      "grad_norm": 2.9620418548583984,
-      "learning_rate": 1.2313432835820897e-06,
-      "loss": 0.2596,
       "step": 2650
     },
     {
       "epoch": 9.93,
-      "grad_norm": 1.613171100616455,
-      "learning_rate": 8.582089552238806e-07,
-      "loss": 0.2493,
       "step": 2660
     },
     {
       "epoch": 9.96,
-      "grad_norm": 8.745406150817871,
-      "learning_rate": 4.850746268656717e-07,
-      "loss": 0.2033,
       "step": 2670
     },
     {
       "epoch": 10.0,
-      "grad_norm": 4.619011878967285,
-      "learning_rate": 1.119402985074627e-07,
-      "loss": 0.2182,
       "step": 2680
     },
     {
       "epoch": 10.0,
       "step": 2680,
       "total_flos": 3.3230947683690086e+18,
-      "train_loss": 0.45721185349706395,
-      "train_runtime": 1410.6493,
-      "train_samples_per_second": 30.397,
-      "train_steps_per_second": 1.9
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.6129801869392395,
+  "best_model_checkpoint": "Action_model/checkpoint-300",
   "epoch": 10.0,
   "eval_steps": 100,
   "global_step": 2680,
   "log_history": [
     {
       "epoch": 0.04,
+      "grad_norm": 2.570383071899414,
       "learning_rate": 9.96268656716418e-05,
+      "loss": 0.1841,
       "step": 10
     },
     {
       "epoch": 0.07,
+      "grad_norm": 6.266295433044434,
       "learning_rate": 9.925373134328359e-05,
+      "loss": 0.2301,
       "step": 20
     },
     {
       "epoch": 0.11,
+      "grad_norm": 8.001986503601074,
       "learning_rate": 9.888059701492539e-05,
+      "loss": 0.2533,
       "step": 30
     },
     {
       "epoch": 0.15,
+      "grad_norm": 5.319194316864014,
       "learning_rate": 9.850746268656717e-05,
+      "loss": 0.2436,
       "step": 40
     },
     {
       "epoch": 0.19,
+      "grad_norm": 0.9653372764587402,
       "learning_rate": 9.813432835820896e-05,
+      "loss": 0.3712,
       "step": 50
     },
     {
       "epoch": 0.22,
+      "grad_norm": 7.348043441772461,
       "learning_rate": 9.776119402985075e-05,
+      "loss": 0.3645,
       "step": 60
     },
     {
       "epoch": 0.26,
+      "grad_norm": 2.1969542503356934,
       "learning_rate": 9.738805970149254e-05,
+      "loss": 0.4609,
       "step": 70
     },
     {
       "epoch": 0.3,
+      "grad_norm": 6.397550106048584,
       "learning_rate": 9.701492537313434e-05,
+      "loss": 0.4755,
       "step": 80
     },
     {
       "epoch": 0.34,
+      "grad_norm": 6.923007488250732,
       "learning_rate": 9.664179104477612e-05,
+      "loss": 0.3901,
       "step": 90
     },
     {
       "epoch": 0.37,
+      "grad_norm": 4.786198616027832,
       "learning_rate": 9.626865671641792e-05,
+      "loss": 0.255,
       "step": 100
     },
     {
       "epoch": 0.37,
+      "eval_accuracy": 0.7926186291739895,
+      "eval_loss": 0.7616190314292908,
+      "eval_runtime": 8.7209,
+      "eval_samples_per_second": 65.245,
+      "eval_steps_per_second": 8.256,
       "step": 100
     },
     {
       "epoch": 0.41,
+      "grad_norm": 8.368223190307617,
       "learning_rate": 9.58955223880597e-05,
+      "loss": 0.3784,
       "step": 110
     },
     {
       "epoch": 0.45,
+      "grad_norm": 4.078306198120117,
       "learning_rate": 9.552238805970149e-05,
+      "loss": 0.4148,
       "step": 120
     },
     {
       "epoch": 0.49,
+      "grad_norm": 7.815361022949219,
       "learning_rate": 9.514925373134329e-05,
+      "loss": 0.3621,
       "step": 130
     },
     {
       "epoch": 0.52,
+      "grad_norm": 11.498431205749512,
       "learning_rate": 9.477611940298507e-05,
+      "loss": 0.3974,
       "step": 140
     },
     {
       "epoch": 0.56,
+      "grad_norm": 7.946558952331543,
       "learning_rate": 9.440298507462687e-05,
+      "loss": 0.3856,
       "step": 150
     },
     {
       "epoch": 0.6,
+      "grad_norm": 0.3486919403076172,
       "learning_rate": 9.402985074626867e-05,
+      "loss": 0.2435,
       "step": 160
     },
     {
       "epoch": 0.63,
+      "grad_norm": 4.267444133758545,
       "learning_rate": 9.365671641791045e-05,
+      "loss": 0.3736,
       "step": 170
     },
     {
       "epoch": 0.67,
+      "grad_norm": 3.022345542907715,
+      "learning_rate": 9.328358208955224e-05,
+      "loss": 0.439,
       "step": 180
     },
     {
       "epoch": 0.71,
+      "grad_norm": 5.57196044921875,
+      "learning_rate": 9.291044776119402e-05,
+      "loss": 0.2996,
       "step": 190
     },
     {
       "epoch": 0.75,
+      "grad_norm": 2.636216640472412,
+      "learning_rate": 9.253731343283582e-05,
+      "loss": 0.2048,
       "step": 200
     },
     {
       "epoch": 0.75,
+      "eval_accuracy": 0.8084358523725835,
+      "eval_loss": 0.724670946598053,
+      "eval_runtime": 8.4461,
+      "eval_samples_per_second": 67.368,
+      "eval_steps_per_second": 8.525,
       "step": 200
     },
     {
       "epoch": 0.78,
+      "grad_norm": 1.615098237991333,
+      "learning_rate": 9.216417910447762e-05,
+      "loss": 0.3594,
       "step": 210
     },
     {
       "epoch": 0.82,
+      "grad_norm": 9.315821647644043,
+      "learning_rate": 9.17910447761194e-05,
+      "loss": 0.3046,
       "step": 220
     },
     {
       "epoch": 0.86,
+      "grad_norm": 3.669430732727051,
+      "learning_rate": 9.14179104477612e-05,
+      "loss": 0.4158,
       "step": 230
     },
     {
       "epoch": 0.9,
+      "grad_norm": 7.0882978439331055,
+      "learning_rate": 9.104477611940299e-05,
+      "loss": 0.3477,
       "step": 240
     },
     {
       "epoch": 0.93,
+      "grad_norm": 1.1667325496673584,
+      "learning_rate": 9.067164179104479e-05,
+      "loss": 0.316,
       "step": 250
     },
     {
       "epoch": 0.97,
+      "grad_norm": 1.482625961303711,
+      "learning_rate": 9.029850746268657e-05,
+      "loss": 0.3922,
       "step": 260
     },
     {
       "epoch": 1.01,
+      "grad_norm": 0.20793116092681885,
+      "learning_rate": 8.992537313432836e-05,
+      "loss": 0.3751,
       "step": 270
     },
     {
       "epoch": 1.04,
+      "grad_norm": 6.772298812866211,
+      "learning_rate": 8.955223880597016e-05,
+      "loss": 0.3269,
       "step": 280
     },
     {
       "epoch": 1.08,
+      "grad_norm": 5.833349227905273,
+      "learning_rate": 8.917910447761194e-05,
+      "loss": 0.3026,
       "step": 290
     },
     {
       "epoch": 1.12,
+      "grad_norm": 6.349458694458008,
+      "learning_rate": 8.880597014925374e-05,
+      "loss": 0.3763,
       "step": 300
     },
     {
       "epoch": 1.12,
+      "eval_accuracy": 0.8330404217926186,
+      "eval_loss": 0.6129801869392395,
+      "eval_runtime": 8.4095,
+      "eval_samples_per_second": 67.661,
+      "eval_steps_per_second": 8.562,
       "step": 300
     },
     {
       "epoch": 1.16,
+      "grad_norm": 4.767229080200195,
+      "learning_rate": 8.843283582089554e-05,
+      "loss": 0.3808,
       "step": 310
     },
     {
       "epoch": 1.19,
+      "grad_norm": 12.675297737121582,
+      "learning_rate": 8.805970149253732e-05,
+      "loss": 0.3766,
       "step": 320
     },
     {
       "epoch": 1.23,
+      "grad_norm": 3.8118245601654053,
+      "learning_rate": 8.76865671641791e-05,
+      "loss": 0.2642,
       "step": 330
     },
     {
       "epoch": 1.27,
+      "grad_norm": 8.736045837402344,
+      "learning_rate": 8.731343283582089e-05,
+      "loss": 0.3041,
       "step": 340
     },
     {
       "epoch": 1.31,
+      "grad_norm": 6.683359146118164,
+      "learning_rate": 8.694029850746269e-05,
+      "loss": 0.1352,
       "step": 350
     },
     {
       "epoch": 1.34,
+      "grad_norm": 4.780521392822266,
+      "learning_rate": 8.656716417910447e-05,
+      "loss": 0.4005,
       "step": 360
     },
     {
       "epoch": 1.38,
+      "grad_norm": 9.654714584350586,
+      "learning_rate": 8.619402985074627e-05,
+      "loss": 0.3646,
       "step": 370
     },
     {
       "epoch": 1.42,
+      "grad_norm": 4.174666881561279,
+      "learning_rate": 8.582089552238807e-05,
+      "loss": 0.2353,
       "step": 380
     },
     {
       "epoch": 1.46,
+      "grad_norm": 7.596667289733887,
       "learning_rate": 8.548507462686568e-05,
+      "loss": 0.3991,
       "step": 390
     },
     {
       "epoch": 1.49,
+      "grad_norm": 5.592709064483643,
       "learning_rate": 8.511194029850747e-05,
+      "loss": 0.307,
       "step": 400
     },
     {
       "epoch": 1.49,
+      "eval_accuracy": 0.789103690685413,
+      "eval_loss": 0.8137023448944092,
+      "eval_runtime": 8.3292,
+      "eval_samples_per_second": 68.314,
+      "eval_steps_per_second": 8.644,
       "step": 400
     },
     {
       "epoch": 1.53,
+      "grad_norm": 2.232590675354004,
       "learning_rate": 8.473880597014926e-05,
+      "loss": 0.4669,
       "step": 410
     },
     {
       "epoch": 1.57,
+      "grad_norm": 4.276609897613525,
       "learning_rate": 8.436567164179105e-05,
+      "loss": 0.3831,
       "step": 420
     },
     {
       "epoch": 1.6,
+      "grad_norm": 7.262507915496826,
       "learning_rate": 8.399253731343283e-05,
+      "loss": 0.3472,
       "step": 430
     },
     {
       "epoch": 1.64,
+      "grad_norm": 7.258556365966797,
       "learning_rate": 8.361940298507463e-05,
+      "loss": 0.2396,
       "step": 440
     },
     {
       "epoch": 1.68,
+      "grad_norm": 4.945961952209473,
       "learning_rate": 8.324626865671642e-05,
+      "loss": 0.2433,
       "step": 450
     },
     {
       "epoch": 1.72,
+      "grad_norm": 5.138702392578125,
+      "learning_rate": 8.287313432835821e-05,
+      "loss": 0.2947,
       "step": 460
     },
     {
       "epoch": 1.75,
+      "grad_norm": 1.1640909910202026,
+      "learning_rate": 8.25e-05,
+      "loss": 0.4791,
       "step": 470
     },
     {
       "epoch": 1.79,
+      "grad_norm": 4.626485824584961,
+      "learning_rate": 8.21268656716418e-05,
+      "loss": 0.286,
       "step": 480
     },
     {
       "epoch": 1.83,
+      "grad_norm": 5.178492069244385,
+      "learning_rate": 8.17537313432836e-05,
+      "loss": 0.3202,
       "step": 490
     },
     {
       "epoch": 1.87,
+      "grad_norm": 7.854339122772217,
+      "learning_rate": 8.138059701492538e-05,
+      "loss": 0.3542,
       "step": 500
     },
     {
       "epoch": 1.87,
+      "eval_accuracy": 0.8014059753954306,
+      "eval_loss": 0.6611581444740295,
+      "eval_runtime": 8.5853,
+      "eval_samples_per_second": 66.276,
+      "eval_steps_per_second": 8.386,
       "step": 500
     },
     {
       "epoch": 1.9,
+      "grad_norm": 1.429740071296692,
+      "learning_rate": 8.100746268656717e-05,
+      "loss": 0.3039,
       "step": 510
     },
     {
       "epoch": 1.94,
+      "grad_norm": 2.9776551723480225,
+      "learning_rate": 8.063432835820895e-05,
+      "loss": 0.3825,
       "step": 520
     },
     {
       "epoch": 1.98,
+      "grad_norm": 10.557899475097656,
+      "learning_rate": 8.026119402985075e-05,
+      "loss": 0.5109,
       "step": 530
     },
     {
       "epoch": 2.01,
+      "grad_norm": 1.448002815246582,
+      "learning_rate": 7.988805970149255e-05,
+      "loss": 0.3421,
       "step": 540
     },
     {
       "epoch": 2.05,
+      "grad_norm": 4.500860691070557,
+      "learning_rate": 7.951492537313433e-05,
+      "loss": 0.3008,
       "step": 550
     },
     {
       "epoch": 2.09,
+      "grad_norm": 8.077374458312988,
+      "learning_rate": 7.914179104477613e-05,
+      "loss": 0.27,
       "step": 560
     },
     {
       "epoch": 2.13,
+      "grad_norm": 0.16809479892253876,
+      "learning_rate": 7.876865671641792e-05,
+      "loss": 0.2184,
       "step": 570
     },
     {
       "epoch": 2.16,
+      "grad_norm": 4.892763137817383,
+      "learning_rate": 7.83955223880597e-05,
+      "loss": 0.1479,
       "step": 580
     },
     {
       "epoch": 2.2,
+      "grad_norm": 8.35221004486084,
+      "learning_rate": 7.80223880597015e-05,
+      "loss": 0.3498,
       "step": 590
     },
     {
       "epoch": 2.24,
+      "grad_norm": 12.043429374694824,
+      "learning_rate": 7.764925373134328e-05,
+      "loss": 0.3518,
       "step": 600
     },
     {
       "epoch": 2.24,
+      "eval_accuracy": 0.8189806678383128,
+      "eval_loss": 0.6964564919471741,
+      "eval_runtime": 8.3878,
+      "eval_samples_per_second": 67.837,
+      "eval_steps_per_second": 8.584,
       "step": 600
     },
     {
       "epoch": 2.28,
+      "grad_norm": 3.7737715244293213,
+      "learning_rate": 7.727611940298508e-05,
+      "loss": 0.3532,
       "step": 610
     },
     {
       "epoch": 2.31,
+      "grad_norm": 4.282881736755371,
+      "learning_rate": 7.690298507462687e-05,
+      "loss": 0.2214,
       "step": 620
     },
     {
       "epoch": 2.35,
+      "grad_norm": 6.733531475067139,
+      "learning_rate": 7.652985074626866e-05,
+      "loss": 0.2709,
       "step": 630
     },
     {
       "epoch": 2.39,
+      "grad_norm": 2.567267417907715,
+      "learning_rate": 7.615671641791045e-05,
+      "loss": 0.3725,
       "step": 640
     },
     {
       "epoch": 2.43,
+      "grad_norm": 3.120966911315918,
+      "learning_rate": 7.578358208955223e-05,
+      "loss": 0.3036,
       "step": 650
     },
     {
       "epoch": 2.46,
+      "grad_norm": 6.505622386932373,
+      "learning_rate": 7.541044776119403e-05,
+      "loss": 0.2426,
       "step": 660
     },
     {
       "epoch": 2.5,
+      "grad_norm": 4.887637615203857,
+      "learning_rate": 7.503731343283582e-05,
+      "loss": 0.281,
       "step": 670
     },
     {
       "epoch": 2.54,
+      "grad_norm": 9.790969848632812,
+      "learning_rate": 7.466417910447762e-05,
+      "loss": 0.4504,
       "step": 680
     },
     {
       "epoch": 2.57,
+      "grad_norm": 4.354789733886719,
+      "learning_rate": 7.429104477611941e-05,
+      "loss": 0.4094,
       "step": 690
     },
     {
       "epoch": 2.61,
+      "grad_norm": 5.015912055969238,
+      "learning_rate": 7.39179104477612e-05,
+      "loss": 0.3706,
       "step": 700
     },
     {
       "epoch": 2.61,
+      "eval_accuracy": 0.804920913884007,
+      "eval_loss": 0.7254143357276917,
+      "eval_runtime": 8.3242,
+      "eval_samples_per_second": 68.355,
+      "eval_steps_per_second": 8.649,
       "step": 700
     },
     {
       "epoch": 2.65,
+      "grad_norm": 5.382541656494141,
+      "learning_rate": 7.3544776119403e-05,
+      "loss": 0.1722,
       "step": 710
     },
     {
       "epoch": 2.69,
+      "grad_norm": 5.573971748352051,
+      "learning_rate": 7.317164179104478e-05,
+      "loss": 0.327,
       "step": 720
     },
     {
       "epoch": 2.72,
+      "grad_norm": 3.5606117248535156,
+      "learning_rate": 7.279850746268657e-05,
+      "loss": 0.2702,
       "step": 730
     },
     {
       "epoch": 2.76,
+      "grad_norm": 1.7398028373718262,
+      "learning_rate": 7.242537313432837e-05,
+      "loss": 0.238,
       "step": 740
     },
     {
       "epoch": 2.8,
+      "grad_norm": 2.7511751651763916,
+      "learning_rate": 7.205223880597015e-05,
+      "loss": 0.1848,
       "step": 750
     },
     {
       "epoch": 2.84,
+      "grad_norm": 3.381510019302368,
+      "learning_rate": 7.167910447761195e-05,
+      "loss": 0.2261,
       "step": 760
     },
     {
       "epoch": 2.87,
+      "grad_norm": 4.65634298324585,
+      "learning_rate": 7.130597014925373e-05,
+      "loss": 0.237,
       "step": 770
     },
     {
       "epoch": 2.91,
+      "grad_norm": 10.35020923614502,
+      "learning_rate": 7.093283582089553e-05,
+      "loss": 0.3012,
       "step": 780
     },
     {
       "epoch": 2.95,
+      "grad_norm": 8.878485679626465,
+      "learning_rate": 7.055970149253732e-05,
+      "loss": 0.4094,
       "step": 790
     },
     {
       "epoch": 2.99,
+      "grad_norm": 2.9728074073791504,
+      "learning_rate": 7.01865671641791e-05,
+      "loss": 0.4084,
       "step": 800
     },
     {
       "epoch": 2.99,
+      "eval_accuracy": 0.8101933216168717,
+      "eval_loss": 0.6746156811714172,
+      "eval_runtime": 8.2718,
+      "eval_samples_per_second": 68.788,
+      "eval_steps_per_second": 8.704,
       "step": 800
     },
     {
       "epoch": 3.02,
+      "grad_norm": 4.835368633270264,
+      "learning_rate": 6.98134328358209e-05,
+      "loss": 0.3152,
       "step": 810
     },
     {
       "epoch": 3.06,
+      "grad_norm": 2.9197049140930176,
+      "learning_rate": 6.944029850746268e-05,
+      "loss": 0.3433,
       "step": 820
     },
     {
       "epoch": 3.1,
+      "grad_norm": 5.646128177642822,
+      "learning_rate": 6.906716417910448e-05,
+      "loss": 0.2604,
       "step": 830
     },
     {
       "epoch": 3.13,
+      "grad_norm": 3.860607862472534,
+      "learning_rate": 6.869402985074627e-05,
+      "loss": 0.2831,
       "step": 840
     },
     {
       "epoch": 3.17,
+      "grad_norm": 0.1358175426721573,
+      "learning_rate": 6.832089552238807e-05,
+      "loss": 0.242,
       "step": 850
     },
     {
       "epoch": 3.21,
+      "grad_norm": 1.1011104583740234,
+      "learning_rate": 6.794776119402985e-05,
+      "loss": 0.2621,
       "step": 860
     },
     {
       "epoch": 3.25,
+      "grad_norm": 7.837879180908203,
+      "learning_rate": 6.757462686567164e-05,
+      "loss": 0.249,
       "step": 870
     },
     {
       "epoch": 3.28,
+      "grad_norm": 6.8647613525390625,
+      "learning_rate": 6.720149253731343e-05,
+      "loss": 0.3398,
       "step": 880
     },
     {
       "epoch": 3.32,
+      "grad_norm": 2.8186678886413574,
+      "learning_rate": 6.682835820895522e-05,
+      "loss": 0.3092,
       "step": 890
     },
     {
       "epoch": 3.36,
+      "grad_norm": 4.623282432556152,
+      "learning_rate": 6.645522388059702e-05,
+      "loss": 0.2533,
       "step": 900
     },
     {
       "epoch": 3.36,
+      "eval_accuracy": 0.8189806678383128,
+      "eval_loss": 0.6866591572761536,
+      "eval_runtime": 8.3143,
+      "eval_samples_per_second": 68.436,
+      "eval_steps_per_second": 8.66,
       "step": 900
     },
     {
       "epoch": 3.4,
+      "grad_norm": 4.85120964050293,
+      "learning_rate": 6.608208955223882e-05,
+      "loss": 0.2279,
       "step": 910
     },
     {
       "epoch": 3.43,
+      "grad_norm": 0.7263774275779724,
+      "learning_rate": 6.57089552238806e-05,
+      "loss": 0.1725,
       "step": 920
     },
     {
       "epoch": 3.47,
+      "grad_norm": 6.813180923461914,
+      "learning_rate": 6.53358208955224e-05,
+      "loss": 0.3304,
       "step": 930
     },
     {
       "epoch": 3.51,
+      "grad_norm": 8.58501148223877,
+      "learning_rate": 6.496268656716418e-05,
+      "loss": 0.1864,
       "step": 940
     },
     {
       "epoch": 3.54,
+      "grad_norm": 2.814436435699463,
+      "learning_rate": 6.458955223880597e-05,
+      "loss": 0.1496,
       "step": 950
     },
     {
       "epoch": 3.58,
+      "grad_norm": 8.36603832244873,
+      "learning_rate": 6.421641791044777e-05,
+      "loss": 0.208,
       "step": 960
     },
     {
       "epoch": 3.62,
+      "grad_norm": 3.5715956687927246,
+      "learning_rate": 6.384328358208955e-05,
+      "loss": 0.2429,
       "step": 970
     },
     {
       "epoch": 3.66,
+      "grad_norm": 4.983556270599365,
+      "learning_rate": 6.347014925373135e-05,
+      "loss": 0.4053,
       "step": 980
     },
     {
       "epoch": 3.69,
+      "grad_norm": 4.936723232269287,
+      "learning_rate": 6.309701492537313e-05,
+      "loss": 0.1545,
       "step": 990
     },
     {
       "epoch": 3.73,
+      "grad_norm": 6.59185791015625,
+      "learning_rate": 6.272388059701493e-05,
+      "loss": 0.3147,
       "step": 1000
     },
     {
       "epoch": 3.73,
+      "eval_accuracy": 0.8189806678383128,
+      "eval_loss": 0.7077136635780334,
+      "eval_runtime": 8.3117,
+      "eval_samples_per_second": 68.457,
+      "eval_steps_per_second": 8.662,
       "step": 1000
     },
     {
       "epoch": 3.77,
+      "grad_norm": 9.348366737365723,
+      "learning_rate": 6.235074626865672e-05,
+      "loss": 0.3634,
       "step": 1010
     },
     {
       "epoch": 3.81,
+      "grad_norm": 9.918521881103516,
+      "learning_rate": 6.19776119402985e-05,
+      "loss": 0.3151,
       "step": 1020
     },
     {
       "epoch": 3.84,
+      "grad_norm": 5.687044143676758,
+      "learning_rate": 6.16044776119403e-05,
+      "loss": 0.3088,
       "step": 1030
     },
     {
       "epoch": 3.88,
+      "grad_norm": 3.8347887992858887,
+      "learning_rate": 6.123134328358209e-05,
+      "loss": 0.2128,
       "step": 1040
     },
     {
       "epoch": 3.92,
+      "grad_norm": 5.380050182342529,
+      "learning_rate": 6.0858208955223884e-05,
+      "loss": 0.255,
       "step": 1050
     },
     {
       "epoch": 3.96,
+      "grad_norm": 8.848828315734863,
+      "learning_rate": 6.0485074626865676e-05,
+      "loss": 0.2794,
       "step": 1060
     },
     {
       "epoch": 3.99,
+      "grad_norm": 3.9666404724121094,
+      "learning_rate": 6.011194029850746e-05,
+      "loss": 0.1954,
       "step": 1070
     },
     {
       "epoch": 4.03,
+      "grad_norm": 0.3369455635547638,
+      "learning_rate": 5.973880597014926e-05,
+      "loss": 0.2298,
       "step": 1080
     },
     {
       "epoch": 4.07,
+      "grad_norm": 16.327823638916016,
+      "learning_rate": 5.9365671641791044e-05,
+      "loss": 0.2504,
       "step": 1090
     },
     {
       "epoch": 4.1,
+      "grad_norm": 7.070168495178223,
+      "learning_rate": 5.8992537313432835e-05,
+      "loss": 0.3182,
       "step": 1100
     },
     {
       "epoch": 4.1,
+      "eval_accuracy": 0.8189806678383128,
+      "eval_loss": 0.6661401987075806,
+      "eval_runtime": 8.2263,
+      "eval_samples_per_second": 69.169,
+      "eval_steps_per_second": 8.752,
       "step": 1100
     },
     {
       "epoch": 4.14,
+      "grad_norm": 2.853975534439087,
+      "learning_rate": 5.8619402985074634e-05,
+      "loss": 0.201,
       "step": 1110
     },
     {
       "epoch": 4.18,
+      "grad_norm": 0.958690881729126,
+      "learning_rate": 5.824626865671642e-05,
+      "loss": 0.1833,
       "step": 1120
     },
     {
       "epoch": 4.22,
+      "grad_norm": 3.4794461727142334,
+      "learning_rate": 5.787313432835822e-05,
+      "loss": 0.2796,
       "step": 1130
     },
     {
       "epoch": 4.25,
+      "grad_norm": 4.793296813964844,
+      "learning_rate": 5.7499999999999995e-05,
+      "loss": 0.2281,
       "step": 1140
     },
     {
       "epoch": 4.29,
+      "grad_norm": 6.200154781341553,
+      "learning_rate": 5.712686567164179e-05,
+      "loss": 0.2814,
       "step": 1150
     },
     {
       "epoch": 4.33,
+      "grad_norm": 5.616389274597168,
+      "learning_rate": 5.675373134328359e-05,
+      "loss": 0.1656,
       "step": 1160
     },
     {
       "epoch": 4.37,
+      "grad_norm": 9.382554054260254,
+      "learning_rate": 5.6380597014925376e-05,
+      "loss": 0.19,
       "step": 1170
     },
     {
       "epoch": 4.4,
+      "grad_norm": 3.526240587234497,
+      "learning_rate": 5.600746268656717e-05,
+      "loss": 0.2063,
       "step": 1180
     },
     {
       "epoch": 4.44,
+      "grad_norm": 3.494896650314331,
+      "learning_rate": 5.563432835820895e-05,
+      "loss": 0.1681,
       "step": 1190
     },
     {
       "epoch": 4.48,
+      "grad_norm": 5.764057636260986,
+      "learning_rate": 5.526119402985075e-05,
+      "loss": 0.2248,
       "step": 1200
     },
     {
       "epoch": 4.48,
+      "eval_accuracy": 0.8418277680140598,
+      "eval_loss": 0.6632041335105896,
+      "eval_runtime": 8.1661,
+      "eval_samples_per_second": 69.679,
+      "eval_steps_per_second": 8.817,
       "step": 1200
     },
     {
       "epoch": 4.51,
+      "grad_norm": 4.680635452270508,
+      "learning_rate": 5.488805970149254e-05,
+      "loss": 0.2179,
       "step": 1210
     },
     {
       "epoch": 4.55,
+      "grad_norm": 10.24306869506836,
+      "learning_rate": 5.451492537313433e-05,
+      "loss": 0.2187,
       "step": 1220
     },
     {
       "epoch": 4.59,
+      "grad_norm": 3.054690361022949,
+      "learning_rate": 5.4141791044776126e-05,
+      "loss": 0.1729,
       "step": 1230
     },
     {
       "epoch": 4.63,
+      "grad_norm": 4.907272815704346,
+      "learning_rate": 5.376865671641791e-05,
+      "loss": 0.2762,
       "step": 1240
     },
     {
       "epoch": 4.66,
+      "grad_norm": 4.774748802185059,
+      "learning_rate": 5.33955223880597e-05,
+      "loss": 0.1965,
       "step": 1250
     },
     {
       "epoch": 4.7,
+      "grad_norm": 5.757875919342041,
+      "learning_rate": 5.30223880597015e-05,
+      "loss": 0.1564,
       "step": 1260
     },
     {
       "epoch": 4.74,
+      "grad_norm": 0.3608088791370392,
+      "learning_rate": 5.2649253731343286e-05,
+      "loss": 0.0946,
       "step": 1270
     },
     {
       "epoch": 4.78,
+      "grad_norm": 3.6289939880371094,
+      "learning_rate": 5.227611940298508e-05,
+      "loss": 0.3364,
       "step": 1280
     },
     {
       "epoch": 4.81,
+      "grad_norm": 5.132009029388428,
+      "learning_rate": 5.190298507462686e-05,
+      "loss": 0.231,
       "step": 1290
     },
     {
       "epoch": 4.85,
+      "grad_norm": 1.0347099304199219,
+      "learning_rate": 5.152985074626866e-05,
+      "loss": 0.1617,
       "step": 1300
     },
     {
       "epoch": 4.85,
+      "eval_accuracy": 0.8172231985940246,
+      "eval_loss": 0.7277125716209412,
+      "eval_runtime": 8.4693,
+      "eval_samples_per_second": 67.184,
+      "eval_steps_per_second": 8.501,
       "step": 1300
     },
     {
       "epoch": 4.89,
+      "grad_norm": 2.5996298789978027,
+      "learning_rate": 5.115671641791045e-05,
+      "loss": 0.385,
       "step": 1310
     },
     {
       "epoch": 4.93,
+      "grad_norm": 3.724181890487671,
+      "learning_rate": 5.078358208955224e-05,
+      "loss": 0.1786,
       "step": 1320
     },
     {
       "epoch": 4.96,
+      "grad_norm": 2.150557518005371,
+      "learning_rate": 5.0410447761194035e-05,
+      "loss": 0.2122,
       "step": 1330
     },
     {
       "epoch": 5.0,
+      "grad_norm": 3.8813323974609375,
+      "learning_rate": 5.003731343283582e-05,
+      "loss": 0.2425,
       "step": 1340
     },
     {
       "epoch": 5.04,
+      "grad_norm": 0.896369457244873,
+      "learning_rate": 4.966417910447762e-05,
+      "loss": 0.2208,
       "step": 1350
     },
     {
       "epoch": 5.07,
+      "grad_norm": 9.002110481262207,
+      "learning_rate": 4.92910447761194e-05,
+      "loss": 0.1432,
       "step": 1360
     },
     {
       "epoch": 5.11,
+      "grad_norm": 9.619662284851074,
+      "learning_rate": 4.8917910447761195e-05,
+      "loss": 0.1347,
       "step": 1370
     },
     {
       "epoch": 5.15,
+      "grad_norm": 3.5148773193359375,
+      "learning_rate": 4.8544776119402986e-05,
+      "loss": 0.2837,
       "step": 1380
     },
     {
       "epoch": 5.19,
+      "grad_norm": 7.631669044494629,
+      "learning_rate": 4.817164179104478e-05,
+      "loss": 0.1887,
       "step": 1390
     },
     {
       "epoch": 5.22,
+      "grad_norm": 11.738872528076172,
+      "learning_rate": 4.779850746268657e-05,
+      "loss": 0.2578,
       "step": 1400
     },
     {
       "epoch": 5.22,
+      "eval_accuracy": 0.8189806678383128,
+      "eval_loss": 0.7114442586898804,
+      "eval_runtime": 8.2672,
+      "eval_samples_per_second": 68.826,
+      "eval_steps_per_second": 8.709,
       "step": 1400
     },
     {
       "epoch": 5.26,
+      "grad_norm": 6.67802095413208,
+      "learning_rate": 4.742537313432836e-05,
+      "loss": 0.2527,
       "step": 1410
     },
     {
       "epoch": 5.3,
+      "grad_norm": 4.491325378417969,
+      "learning_rate": 4.705223880597015e-05,
+      "loss": 0.2386,
       "step": 1420
     },
     {
       "epoch": 5.34,
+      "grad_norm": 1.1810379028320312,
+      "learning_rate": 4.667910447761194e-05,
+      "loss": 0.1693,
       "step": 1430
     },
     {
       "epoch": 5.37,
+      "grad_norm": 6.075868129730225,
+      "learning_rate": 4.6305970149253736e-05,
+      "loss": 0.167,
       "step": 1440
     },
     {
       "epoch": 5.41,
+      "grad_norm": 2.315635919570923,
+      "learning_rate": 4.593283582089553e-05,
+      "loss": 0.2243,
       "step": 1450
     },
     {
       "epoch": 5.45,
+      "grad_norm": 10.839255332946777,
+      "learning_rate": 4.555970149253732e-05,
+      "loss": 0.2414,
       "step": 1460
     },
     {
       "epoch": 5.49,
+      "grad_norm": 4.562304496765137,
+      "learning_rate": 4.5186567164179104e-05,
+      "loss": 0.264,
       "step": 1470
     },
     {
       "epoch": 5.52,
+      "grad_norm": 1.8821789026260376,
+      "learning_rate": 4.4813432835820895e-05,
+      "loss": 0.1407,
       "step": 1480
     },
     {
       "epoch": 5.56,
+      "grad_norm": 8.406396865844727,
+      "learning_rate": 4.4440298507462694e-05,
+      "loss": 0.1454,
       "step": 1490
     },
     {
       "epoch": 5.6,
+      "grad_norm": 0.2816010117530823,
+      "learning_rate": 4.406716417910448e-05,
+      "loss": 0.1864,
       "step": 1500
     },
     {
       "epoch": 5.6,
+      "eval_accuracy": 0.8172231985940246,
+      "eval_loss": 0.755394458770752,
+      "eval_runtime": 8.2598,
+      "eval_samples_per_second": 68.888,
+      "eval_steps_per_second": 8.717,
       "step": 1500
     },
     {
       "epoch": 5.63,
+      "grad_norm": 6.619854927062988,
+      "learning_rate": 4.369402985074627e-05,
+      "loss": 0.2806,
       "step": 1510
     },
     {
       "epoch": 5.67,
+      "grad_norm": 2.056018829345703,
+      "learning_rate": 4.332089552238806e-05,
+      "loss": 0.2583,
       "step": 1520
     },
     {
       "epoch": 5.71,
+      "grad_norm": 0.966521680355072,
+      "learning_rate": 4.294776119402985e-05,
+      "loss": 0.0997,
       "step": 1530
     },
     {
       "epoch": 5.75,
+      "grad_norm": 2.8261241912841797,
+      "learning_rate": 4.2574626865671645e-05,
+      "loss": 0.1604,
       "step": 1540
     },
     {
       "epoch": 5.78,
+      "grad_norm": 3.089912176132202,
+      "learning_rate": 4.2201492537313436e-05,
+      "loss": 0.2775,
       "step": 1550
     },
     {
       "epoch": 5.82,
+      "grad_norm": 7.935690879821777,
+      "learning_rate": 4.182835820895523e-05,
+      "loss": 0.2522,
       "step": 1560
     },
     {
       "epoch": 5.86,
+      "grad_norm": 0.7999266982078552,
+      "learning_rate": 4.145522388059702e-05,
+      "loss": 0.0752,
       "step": 1570
     },
     {
       "epoch": 5.9,
+      "grad_norm": 6.0712480545043945,
+      "learning_rate": 4.1082089552238804e-05,
+      "loss": 0.1933,
       "step": 1580
     },
     {
       "epoch": 5.93,
+      "grad_norm": 10.768308639526367,
+      "learning_rate": 4.07089552238806e-05,
+      "loss": 0.1664,
       "step": 1590
     },
     {
       "epoch": 5.97,
+      "grad_norm": 9.641716003417969,
+      "learning_rate": 4.0335820895522394e-05,
+      "loss": 0.3134,
       "step": 1600
     },
     {
       "epoch": 5.97,
+      "eval_accuracy": 0.8154657293497364,
+      "eval_loss": 0.7593356966972351,
+      "eval_runtime": 8.4455,
+      "eval_samples_per_second": 67.373,
+      "eval_steps_per_second": 8.525,
       "step": 1600
     },
     {
       "epoch": 6.01,
+      "grad_norm": 6.7538838386535645,
+      "learning_rate": 3.996268656716418e-05,
+      "loss": 0.1747,
       "step": 1610
     },
     {
       "epoch": 6.04,
+      "grad_norm": 6.237377166748047,
+      "learning_rate": 3.958955223880597e-05,
+      "loss": 0.2406,
       "step": 1620
     },
     {
       "epoch": 6.08,
+      "grad_norm": 7.950930118560791,
+      "learning_rate": 3.921641791044776e-05,
+      "loss": 0.1884,
       "step": 1630
     },
     {
       "epoch": 6.12,
+      "grad_norm": 4.41484260559082,
+      "learning_rate": 3.8843283582089554e-05,
+      "loss": 0.1445,
       "step": 1640
     },
     {
       "epoch": 6.16,
+      "grad_norm": 6.339887619018555,
+      "learning_rate": 3.8470149253731345e-05,
+      "loss": 0.2906,
       "step": 1650
     },
     {
       "epoch": 6.19,
+      "grad_norm": 7.597599983215332,
+      "learning_rate": 3.809701492537314e-05,
+      "loss": 0.1576,
       "step": 1660
     },
     {
       "epoch": 6.23,
+      "grad_norm": 2.379629373550415,
+      "learning_rate": 3.772388059701493e-05,
+      "loss": 0.2016,
       "step": 1670
     },
     {
       "epoch": 6.27,
+      "grad_norm": 2.7694478034973145,
+      "learning_rate": 3.735074626865671e-05,
+      "loss": 0.1188,
       "step": 1680
     },
     {
       "epoch": 6.31,
+      "grad_norm": 2.1837210655212402,
+      "learning_rate": 3.6977611940298505e-05,
+      "loss": 0.1908,
       "step": 1690
     },
     {
       "epoch": 6.34,
+      "grad_norm": 4.4665350914001465,
+      "learning_rate": 3.66044776119403e-05,
+      "loss": 0.24,
       "step": 1700
     },
     {
       "epoch": 6.34,
+      "eval_accuracy": 0.8260105448154658,
+      "eval_loss": 0.7510848641395569,
+      "eval_runtime": 8.2044,
+      "eval_samples_per_second": 69.353,
+      "eval_steps_per_second": 8.776,
       "step": 1700
     },
     {
       "epoch": 6.38,
+      "grad_norm": 4.6551995277404785,
+      "learning_rate": 3.6231343283582095e-05,
+      "loss": 0.1631,
       "step": 1710
     },
     {
       "epoch": 6.42,
+      "grad_norm": 1.098407506942749,
+      "learning_rate": 3.585820895522388e-05,
+      "loss": 0.0912,
       "step": 1720
     },
     {
       "epoch": 6.46,
+      "grad_norm": 0.37138649821281433,
+      "learning_rate": 3.548507462686567e-05,
+      "loss": 0.2621,
       "step": 1730
     },
     {
       "epoch": 6.49,
+      "grad_norm": 7.4571757316589355,
+      "learning_rate": 3.511194029850746e-05,
+      "loss": 0.268,
       "step": 1740
     },
     {
       "epoch": 6.53,
+      "grad_norm": 0.5180323123931885,
+      "learning_rate": 3.4738805970149254e-05,
+      "loss": 0.2135,
       "step": 1750
     },
     {
       "epoch": 6.57,
+      "grad_norm": 1.0866820812225342,
+      "learning_rate": 3.4365671641791046e-05,
+      "loss": 0.1489,
       "step": 1760
     },
     {
       "epoch": 6.6,
+      "grad_norm": 8.90451717376709,
+      "learning_rate": 3.399253731343284e-05,
+      "loss": 0.288,
       "step": 1770
     },
     {
       "epoch": 6.64,
+      "grad_norm": 1.1608803272247314,
+      "learning_rate": 3.361940298507463e-05,
+      "loss": 0.18,
       "step": 1780
     },
     {
       "epoch": 6.68,
+      "grad_norm": 2.9207170009613037,
+      "learning_rate": 3.3246268656716414e-05,
+      "loss": 0.2414,
       "step": 1790
     },
     {
       "epoch": 6.72,
+      "grad_norm": 0.2674783170223236,
+      "learning_rate": 3.287313432835821e-05,
+      "loss": 0.2359,
       "step": 1800
     },
     {
       "epoch": 6.72,
+      "eval_accuracy": 0.8137082601054482,
+      "eval_loss": 0.7501537203788757,
+      "eval_runtime": 8.1528,
+      "eval_samples_per_second": 69.792,
+      "eval_steps_per_second": 8.831,
       "step": 1800
     },
     {
       "epoch": 6.75,
+      "grad_norm": 8.241676330566406,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.1975,
       "step": 1810
     },
     {
       "epoch": 6.79,
+      "grad_norm": 2.0347325801849365,
+      "learning_rate": 3.2126865671641796e-05,
+      "loss": 0.218,
       "step": 1820
     },
     {
       "epoch": 6.83,
+      "grad_norm": 1.0338706970214844,
+      "learning_rate": 3.175373134328358e-05,
+      "loss": 0.1437,
       "step": 1830
     },
     {
       "epoch": 6.87,
+      "grad_norm": 0.34902578592300415,
+      "learning_rate": 3.138059701492537e-05,
+      "loss": 0.1883,
       "step": 1840
     },
     {
       "epoch": 6.9,
+      "grad_norm": 6.642534255981445,
+      "learning_rate": 3.100746268656717e-05,
+      "loss": 0.2513,
       "step": 1850
     },
     {
       "epoch": 6.94,
+      "grad_norm": 4.432920455932617,
+      "learning_rate": 3.0634328358208955e-05,
+      "loss": 0.1058,
       "step": 1860
     },
     {
       "epoch": 6.98,
+      "grad_norm": 4.381640434265137,
+      "learning_rate": 3.0261194029850747e-05,
+      "loss": 0.2114,
       "step": 1870
     },
     {
       "epoch": 7.01,
+      "grad_norm": 7.730411529541016,
+      "learning_rate": 2.9888059701492538e-05,
+      "loss": 0.2542,
       "step": 1880
     },
     {
       "epoch": 7.05,
+      "grad_norm": 7.122923851013184,
+      "learning_rate": 2.9514925373134326e-05,
+      "loss": 0.2594,
       "step": 1890
     },
     {
       "epoch": 7.09,
+      "grad_norm": 1.411278486251831,
+      "learning_rate": 2.9141791044776125e-05,
+      "loss": 0.2322,
       "step": 1900
     },
     {
       "epoch": 7.09,
+      "eval_accuracy": 0.8347978910369068,
+      "eval_loss": 0.6952534317970276,
+      "eval_runtime": 8.3769,
+      "eval_samples_per_second": 67.925,
+      "eval_steps_per_second": 8.595,
       "step": 1900
     },
     {
       "epoch": 7.13,
+      "grad_norm": 2.219285011291504,
+      "learning_rate": 2.8768656716417913e-05,
+      "loss": 0.1344,
       "step": 1910
     },
     {
       "epoch": 7.16,
+      "grad_norm": 6.302455902099609,
+      "learning_rate": 2.8395522388059705e-05,
+      "loss": 0.2098,
       "step": 1920
     },
     {
       "epoch": 7.2,
+      "grad_norm": 1.2837783098220825,
+      "learning_rate": 2.8022388059701493e-05,
+      "loss": 0.0906,
       "step": 1930
     },
     {
       "epoch": 7.24,
+      "grad_norm": 6.604355335235596,
+      "learning_rate": 2.7649253731343284e-05,
+      "loss": 0.2352,
       "step": 1940
     },
     {
       "epoch": 7.28,
+      "grad_norm": 9.916419982910156,
+      "learning_rate": 2.727611940298508e-05,
+      "loss": 0.1422,
       "step": 1950
     },
     {
       "epoch": 7.31,
+      "grad_norm": 2.7665014266967773,
+      "learning_rate": 2.6902985074626868e-05,
+      "loss": 0.1722,
       "step": 1960
     },
     {
       "epoch": 7.35,
+      "grad_norm": 0.24231348931789398,
+      "learning_rate": 2.652985074626866e-05,
+      "loss": 0.2935,
       "step": 1970
     },
     {
       "epoch": 7.39,
+      "grad_norm": 0.8025885224342346,
+      "learning_rate": 2.6156716417910447e-05,
+      "loss": 0.157,
       "step": 1980
     },
     {
       "epoch": 7.43,
+      "grad_norm": 1.6752264499664307,
+      "learning_rate": 2.578358208955224e-05,
+      "loss": 0.1256,
       "step": 1990
     },
     {
       "epoch": 7.46,
+      "grad_norm": 2.404883861541748,
+      "learning_rate": 2.5410447761194027e-05,
+      "loss": 0.1514,
       "step": 2000
     },
     {
       "epoch": 7.46,
+      "eval_accuracy": 0.8260105448154658,
+      "eval_loss": 0.7120960354804993,
+      "eval_runtime": 8.1425,
+      "eval_samples_per_second": 69.88,
+      "eval_steps_per_second": 8.842,
       "step": 2000
     },
     {
       "epoch": 7.5,
+      "grad_norm": 5.409728050231934,
+      "learning_rate": 2.5037313432835825e-05,
+      "loss": 0.222,
       "step": 2010
     },
     {
       "epoch": 7.54,
+      "grad_norm": 3.949014663696289,
+      "learning_rate": 2.4664179104477614e-05,
+      "loss": 0.245,
       "step": 2020
     },
     {
       "epoch": 7.57,
+      "grad_norm": 8.40086555480957,
+      "learning_rate": 2.4291044776119405e-05,
+      "loss": 0.1408,
       "step": 2030
     },
     {
       "epoch": 7.61,
+      "grad_norm": 7.694955348968506,
+      "learning_rate": 2.3917910447761197e-05,
+      "loss": 0.2072,
       "step": 2040
     },
     {
       "epoch": 7.65,
+      "grad_norm": 1.9109055995941162,
+      "learning_rate": 2.3544776119402985e-05,
+      "loss": 0.145,
       "step": 2050
     },
     {
       "epoch": 7.69,
+      "grad_norm": 12.803776741027832,
+      "learning_rate": 2.3171641791044777e-05,
+      "loss": 0.1274,
       "step": 2060
     },
     {
       "epoch": 7.72,
+      "grad_norm": 3.3325235843658447,
+      "learning_rate": 2.2798507462686568e-05,
+      "loss": 0.1564,
       "step": 2070
     },
     {
       "epoch": 7.76,
+      "grad_norm": 1.105327844619751,
+      "learning_rate": 2.242537313432836e-05,
+      "loss": 0.2008,
       "step": 2080
     },
     {
       "epoch": 7.8,
+      "grad_norm": 1.7592620849609375,
+      "learning_rate": 2.2052238805970148e-05,
+      "loss": 0.203,
       "step": 2090
     },
     {
       "epoch": 7.84,
+      "grad_norm": 0.13264060020446777,
+      "learning_rate": 2.1679104477611943e-05,
+      "loss": 0.2089,
       "step": 2100
     },
     {
       "epoch": 7.84,
+      "eval_accuracy": 0.827768014059754,
+      "eval_loss": 0.693087637424469,
+      "eval_runtime": 8.2375,
+      "eval_samples_per_second": 69.074,
+      "eval_steps_per_second": 8.741,
       "step": 2100
     },
     {
       "epoch": 7.87,
+      "grad_norm": 5.904381275177002,
+      "learning_rate": 2.130597014925373e-05,
+      "loss": 0.1754,
       "step": 2110
     },
     {
       "epoch": 7.91,
+      "grad_norm": 1.7469266653060913,
+      "learning_rate": 2.0932835820895526e-05,
+      "loss": 0.1322,
       "step": 2120
     },
     {
       "epoch": 7.95,
+      "grad_norm": 4.313326835632324,
+      "learning_rate": 2.0559701492537314e-05,
+      "loss": 0.1418,
       "step": 2130
     },
     {
       "epoch": 7.99,
+      "grad_norm": 0.14211903512477875,
+      "learning_rate": 2.0186567164179106e-05,
+      "loss": 0.1534,
       "step": 2140
     },
     {
       "epoch": 8.02,
+      "grad_norm": 5.527184009552002,
+      "learning_rate": 1.9813432835820897e-05,
+      "loss": 0.2122,
       "step": 2150
     },
     {
       "epoch": 8.06,
+      "grad_norm": 0.2312430739402771,
+      "learning_rate": 1.9440298507462686e-05,
+      "loss": 0.1617,
       "step": 2160
     },
     {
       "epoch": 8.1,
+      "grad_norm": 0.23949085175991058,
+      "learning_rate": 1.906716417910448e-05,
+      "loss": 0.1286,
       "step": 2170
     },
     {
       "epoch": 8.13,
+      "grad_norm": 0.1903185099363327,
+      "learning_rate": 1.869402985074627e-05,
+      "loss": 0.0846,
       "step": 2180
     },
     {
       "epoch": 8.17,
+      "grad_norm": 0.08518023788928986,
+      "learning_rate": 1.832089552238806e-05,
+      "loss": 0.0801,
       "step": 2190
     },
     {
       "epoch": 8.21,
+      "grad_norm": 4.424215793609619,
+      "learning_rate": 1.7947761194029852e-05,
+      "loss": 0.2245,
       "step": 2200
     },
     {
       "epoch": 8.21,
+      "eval_accuracy": 0.8330404217926186,
+      "eval_loss": 0.7087014317512512,
+      "eval_runtime": 8.1117,
+      "eval_samples_per_second": 70.145,
+      "eval_steps_per_second": 8.876,
       "step": 2200
     },
     {
       "epoch": 8.25,
+      "grad_norm": 7.247931480407715,
+      "learning_rate": 1.7574626865671644e-05,
+      "loss": 0.0722,
       "step": 2210
     },
     {
       "epoch": 8.28,
+      "grad_norm": 4.80264949798584,
+      "learning_rate": 1.7201492537313435e-05,
+      "loss": 0.0844,
       "step": 2220
     },
     {
       "epoch": 8.32,
+      "grad_norm": 8.001790046691895,
+      "learning_rate": 1.6828358208955223e-05,
+      "loss": 0.1077,
       "step": 2230
     },
     {
       "epoch": 8.36,
+      "grad_norm": 5.419641017913818,
+      "learning_rate": 1.6455223880597015e-05,
+      "loss": 0.1627,
       "step": 2240
     },
     {
       "epoch": 8.4,
+      "grad_norm": 0.031686268746852875,
+      "learning_rate": 1.6082089552238806e-05,
+      "loss": 0.0984,
       "step": 2250
     },
     {
       "epoch": 8.43,
+      "grad_norm": 6.095193862915039,
+      "learning_rate": 1.5708955223880598e-05,
+      "loss": 0.1756,
       "step": 2260
     },
     {
       "epoch": 8.47,
+      "grad_norm": 5.179446220397949,
+      "learning_rate": 1.5335820895522386e-05,
+      "loss": 0.1708,
       "step": 2270
     },
     {
       "epoch": 8.51,
+      "grad_norm": 4.06497049331665,
+      "learning_rate": 1.496268656716418e-05,
+      "loss": 0.1493,
       "step": 2280
     },
     {
       "epoch": 8.54,
+      "grad_norm": 1.4721342325210571,
+      "learning_rate": 1.458955223880597e-05,
+      "loss": 0.2587,
       "step": 2290
     },
     {
       "epoch": 8.58,
+      "grad_norm": 4.418783664703369,
+      "learning_rate": 1.4216417910447763e-05,
+      "loss": 0.1328,
       "step": 2300
     },
     {
       "epoch": 8.58,
+      "eval_accuracy": 0.8312829525483304,
+      "eval_loss": 0.700339674949646,
+      "eval_runtime": 8.481,
+      "eval_samples_per_second": 67.091,
+      "eval_steps_per_second": 8.49,
       "step": 2300
     },
     {
       "epoch": 8.62,
+      "grad_norm": 1.5734038352966309,
+      "learning_rate": 1.3843283582089553e-05,
+      "loss": 0.165,
       "step": 2310
     },
     {
       "epoch": 8.66,
+      "grad_norm": 2.624784231185913,
+      "learning_rate": 1.3470149253731342e-05,
+      "loss": 0.0837,
       "step": 2320
     },
     {
       "epoch": 8.69,
+      "grad_norm": 2.7039573192596436,
+      "learning_rate": 1.3097014925373136e-05,
+      "loss": 0.2098,
       "step": 2330
     },
     {
       "epoch": 8.73,
+      "grad_norm": 6.542816638946533,
+      "learning_rate": 1.2723880597014926e-05,
+      "loss": 0.129,
       "step": 2340
     },
     {
       "epoch": 8.77,
+      "grad_norm": 2.9511120319366455,
+      "learning_rate": 1.2350746268656717e-05,
+      "loss": 0.1762,
       "step": 2350
     },
     {
       "epoch": 8.81,
+      "grad_norm": 3.435502529144287,
+      "learning_rate": 1.1977611940298509e-05,
+      "loss": 0.1345,
       "step": 2360
     },
     {
       "epoch": 8.84,
+      "grad_norm": 2.1689364910125732,
+      "learning_rate": 1.1604477611940299e-05,
+      "loss": 0.1011,
       "step": 2370
     },
     {
       "epoch": 8.88,
+      "grad_norm": 2.3366479873657227,
+      "learning_rate": 1.123134328358209e-05,
+      "loss": 0.1733,
       "step": 2380
     },
     {
       "epoch": 8.92,
+      "grad_norm": 5.928171634674072,
+      "learning_rate": 1.085820895522388e-05,
+      "loss": 0.1089,
       "step": 2390
     },
     {
       "epoch": 8.96,
+      "grad_norm": 0.08636012673377991,
+      "learning_rate": 1.0485074626865672e-05,
+      "loss": 0.1304,
       "step": 2400
     },
     {
       "epoch": 8.96,
+      "eval_accuracy": 0.8224956063268892,
+      "eval_loss": 0.7306046485900879,
+      "eval_runtime": 8.4262,
+      "eval_samples_per_second": 67.528,
+      "eval_steps_per_second": 8.545,
       "step": 2400
     },
     {
       "epoch": 8.99,
+      "grad_norm": 0.14256200194358826,
+      "learning_rate": 1.0111940298507463e-05,
+      "loss": 0.1506,
       "step": 2410
     },
     {
       "epoch": 9.03,
+      "grad_norm": 0.4166848659515381,
+      "learning_rate": 9.738805970149255e-06,
+      "loss": 0.2058,
       "step": 2420
     },
     {
       "epoch": 9.07,
+      "grad_norm": 0.3997032344341278,
+      "learning_rate": 9.365671641791045e-06,
+      "loss": 0.0482,
       "step": 2430
     },
     {
       "epoch": 9.1,
+      "grad_norm": 9.076058387756348,
+      "learning_rate": 8.992537313432836e-06,
+      "loss": 0.2201,
       "step": 2440
     },
     {
       "epoch": 9.14,
+      "grad_norm": 4.368849277496338,
+      "learning_rate": 8.619402985074628e-06,
+      "loss": 0.1288,
       "step": 2450
     },
     {
       "epoch": 9.18,
+      "grad_norm": 4.311466693878174,
+      "learning_rate": 8.24626865671642e-06,
+      "loss": 0.3058,
       "step": 2460
     },
     {
       "epoch": 9.22,
+      "grad_norm": 0.2911408543586731,
+      "learning_rate": 7.87313432835821e-06,
+      "loss": 0.1303,
       "step": 2470
     },
     {
       "epoch": 9.25,
+      "grad_norm": 5.493233680725098,
+      "learning_rate": 7.5e-06,
+      "loss": 0.0915,
       "step": 2480
     },
     {
       "epoch": 9.29,
+      "grad_norm": 0.09431172162294388,
+      "learning_rate": 7.126865671641792e-06,
+      "loss": 0.0954,
       "step": 2490
     },
     {
       "epoch": 9.33,
+      "grad_norm": 1.8603869676589966,
+      "learning_rate": 6.7537313432835825e-06,
+      "loss": 0.1514,
       "step": 2500
     },
     {
       "epoch": 9.33,
+      "eval_accuracy": 0.8260105448154658,
+      "eval_loss": 0.7162156701087952,
+      "eval_runtime": 8.3201,
+      "eval_samples_per_second": 68.389,
+      "eval_steps_per_second": 8.654,
       "step": 2500
     },
     {
       "epoch": 9.37,
+      "grad_norm": 4.870584964752197,
+      "learning_rate": 6.380597014925374e-06,
+      "loss": 0.1354,
       "step": 2510
     },
     {
       "epoch": 9.4,
+      "grad_norm": 2.316840410232544,
+      "learning_rate": 6.007462686567165e-06,
+      "loss": 0.1348,
       "step": 2520
     },
     {
       "epoch": 9.44,
+      "grad_norm": 1.9005101919174194,
+      "learning_rate": 5.6343283582089556e-06,
+      "loss": 0.1755,
       "step": 2530
     },
     {
       "epoch": 9.48,
+      "grad_norm": 0.1674620360136032,
+      "learning_rate": 5.261194029850746e-06,
+      "loss": 0.0878,
       "step": 2540
     },
     {
       "epoch": 9.51,
+      "grad_norm": 5.729959011077881,
+      "learning_rate": 4.888059701492537e-06,
+      "loss": 0.1637,
       "step": 2550
     },
     {
       "epoch": 9.55,
+      "grad_norm": 0.02724504843354225,
+      "learning_rate": 4.514925373134329e-06,
+      "loss": 0.1603,
       "step": 2560
     },
     {
       "epoch": 9.59,
+      "grad_norm": 2.728663921356201,
+      "learning_rate": 4.141791044776119e-06,
+      "loss": 0.1152,
       "step": 2570
     },
     {
       "epoch": 9.63,
+      "grad_norm": 8.920695304870605,
+      "learning_rate": 3.7686567164179105e-06,
+      "loss": 0.1964,
       "step": 2580
     },
     {
       "epoch": 9.66,
+      "grad_norm": 2.3974239826202393,
+      "learning_rate": 3.3955223880597013e-06,
+      "loss": 0.0842,
       "step": 2590
     },
     {
       "epoch": 9.7,
+      "grad_norm": 1.6431355476379395,
+      "learning_rate": 3.022388059701493e-06,
+      "loss": 0.2571,
       "step": 2600
     },
     {
       "epoch": 9.7,
+      "eval_accuracy": 0.8347978910369068,
+      "eval_loss": 0.7012546062469482,
+      "eval_runtime": 8.3265,
+      "eval_samples_per_second": 68.336,
+      "eval_steps_per_second": 8.647,
       "step": 2600
     },
     {
       "epoch": 9.74,
+      "grad_norm": 0.10621854662895203,
+      "learning_rate": 2.6492537313432836e-06,
+      "loss": 0.2632,
       "step": 2610
     },
     {
       "epoch": 9.78,
+      "grad_norm": 4.150152206420898,
+      "learning_rate": 2.2761194029850747e-06,
+      "loss": 0.2804,
       "step": 2620
     },
     {
       "epoch": 9.81,
+      "grad_norm": 4.01139497756958,
+      "learning_rate": 1.9029850746268657e-06,
+      "loss": 0.1696,
       "step": 2630
     },
     {
       "epoch": 9.85,
+      "grad_norm": 4.7402262687683105,
+      "learning_rate": 1.5298507462686568e-06,
+      "loss": 0.1891,
       "step": 2640
     },
     {
       "epoch": 9.89,
+      "grad_norm": 4.460111141204834,
+      "learning_rate": 1.1567164179104478e-06,
+      "loss": 0.1178,
       "step": 2650
     },
     {
       "epoch": 9.93,
+      "grad_norm": 5.822507858276367,
+      "learning_rate": 7.835820895522387e-07,
+      "loss": 0.089,
       "step": 2660
     },
     {
       "epoch": 9.96,
+      "grad_norm": 2.4408085346221924,
+      "learning_rate": 4.1044776119402984e-07,
+      "loss": 0.158,
       "step": 2670
     },
     {
       "epoch": 10.0,
+      "grad_norm": 10.792135238647461,
+      "learning_rate": 3.7313432835820895e-08,
+      "loss": 0.2038,
       "step": 2680
     },
     {
       "epoch": 10.0,
       "step": 2680,
       "total_flos": 3.3230947683690086e+18,
+      "train_loss": 0.23535207314277762,
+      "train_runtime": 1371.8304,
+      "train_samples_per_second": 31.258,
+      "train_steps_per_second": 1.954
     }
   ],
   "logging_steps": 10,