🍻 cheers

Browse files

Files changed (6) hide show

README.md +6 -5
all_results.json +9 -9
eval_results.json +5 -5
runs/May07_14-51-35_d582cceb3b6a/events.out.tfevents.1715095123.d582cceb3b6a.34.1 +3 -0
train_results.json +4 -4
trainer_state.json +923 -923

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 datasets:
 - imagefolder
@@ -14,7 +15,7 @@ model-index:
       name: Image Classification
       type: image-classification
     dataset:
-      name: imagefolder
       type: imagefolder
       config: default
       split: train
@@ -22,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.8680981595092024
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -30,10 +31,10 @@ should probably proofread and complete it, then remove this comment. -->
 # Action_all_10_class
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4765
-- Accuracy: 0.8681
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
 - generated_from_trainer
 datasets:
 - imagefolder
       name: Image Classification
       type: image-classification
     dataset:
+      name: Action_small_dataset
       type: imagefolder
       config: default
       split: train
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.8517382413087935
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # Action_all_10_class
+This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the Action_small_dataset dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4725
+- Accuracy: 0.8517
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.8752556237218814,
-    "eval_loss": 0.42281925678253174,
-    "eval_runtime": 13.2413,
-    "eval_samples_per_second": 73.86,
-    "eval_steps_per_second": 9.289,
     "total_flos": 3.451740694569861e+18,
-    "train_loss": 0.45333294201922675,
-    "train_runtime": 1524.4216,
-    "train_samples_per_second": 29.218,
-    "train_steps_per_second": 1.83
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.8517382413087935,
+    "eval_loss": 0.47253116965293884,
+    "eval_runtime": 14.0516,
+    "eval_samples_per_second": 69.601,
+    "eval_steps_per_second": 8.753,
     "total_flos": 3.451740694569861e+18,
+    "train_loss": 0.44341087110580935,
+    "train_runtime": 1600.5784,
+    "train_samples_per_second": 27.827,
+    "train_steps_per_second": 1.743
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.8752556237218814,
-    "eval_loss": 0.42281925678253174,
-    "eval_runtime": 13.2413,
-    "eval_samples_per_second": 73.86,
-    "eval_steps_per_second": 9.289
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.8517382413087935,
+    "eval_loss": 0.47253116965293884,
+    "eval_runtime": 14.0516,
+    "eval_samples_per_second": 69.601,
+    "eval_steps_per_second": 8.753
 }

runs/May07_14-51-35_d582cceb3b6a/events.out.tfevents.1715095123.d582cceb3b6a.34.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0f391adc354f272c863e704c421ca46d019f7baa19f0a2f6f089a9f357cf11e6
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 10.0,
     "total_flos": 3.451740694569861e+18,
-    "train_loss": 0.45333294201922675,
-    "train_runtime": 1524.4216,
-    "train_samples_per_second": 29.218,
-    "train_steps_per_second": 1.83
 }

 {
     "epoch": 10.0,
     "total_flos": 3.451740694569861e+18,
+    "train_loss": 0.44341087110580935,
+    "train_runtime": 1600.5784,
+    "train_samples_per_second": 27.827,
+    "train_steps_per_second": 1.743
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.42281925678253174,
-  "best_model_checkpoint": "Action_all_10_class/checkpoint-1400",
   "epoch": 10.0,
   "eval_steps": 100,
   "global_step": 2790,
@@ -10,2208 +10,2208 @@
   "log_history": [
     {
       "epoch": 0.04,
-      "grad_norm": 1.7864842414855957,
       "learning_rate": 9.96415770609319e-05,
-      "loss": 2.2581,
       "step": 10
     },
     {
       "epoch": 0.07,
-      "grad_norm": 1.855455756187439,
       "learning_rate": 9.928315412186381e-05,
-      "loss": 2.1701,
       "step": 20
     },
     {
       "epoch": 0.11,
-      "grad_norm": 1.9831140041351318,
       "learning_rate": 9.892473118279571e-05,
-      "loss": 2.0292,
       "step": 30
     },
     {
       "epoch": 0.14,
-      "grad_norm": 2.3516452312469482,
       "learning_rate": 9.85663082437276e-05,
-      "loss": 1.9225,
       "step": 40
     },
     {
       "epoch": 0.18,
-      "grad_norm": 2.3717079162597656,
       "learning_rate": 9.820788530465951e-05,
-      "loss": 1.7377,
       "step": 50
     },
     {
       "epoch": 0.22,
-      "grad_norm": 2.2911033630371094,
       "learning_rate": 9.78494623655914e-05,
-      "loss": 1.6861,
       "step": 60
     },
     {
       "epoch": 0.25,
-      "grad_norm": 3.3348388671875,
       "learning_rate": 9.74910394265233e-05,
-      "loss": 1.5431,
       "step": 70
     },
     {
       "epoch": 0.29,
-      "grad_norm": 3.6830499172210693,
-      "learning_rate": 9.716845878136201e-05,
-      "loss": 1.5209,
       "step": 80
     },
     {
       "epoch": 0.32,
-      "grad_norm": 4.707543849945068,
       "learning_rate": 9.681003584229391e-05,
-      "loss": 1.4562,
       "step": 90
     },
     {
       "epoch": 0.36,
-      "grad_norm": 4.678582191467285,
       "learning_rate": 9.645161290322581e-05,
-      "loss": 1.3076,
       "step": 100
     },
     {
       "epoch": 0.36,
-      "eval_accuracy": 0.7259713701431493,
-      "eval_loss": 1.150874137878418,
-      "eval_runtime": 16.6221,
-      "eval_samples_per_second": 58.837,
-      "eval_steps_per_second": 7.4,
       "step": 100
     },
     {
       "epoch": 0.39,
-      "grad_norm": 3.086634397506714,
       "learning_rate": 9.609318996415772e-05,
-      "loss": 1.2684,
       "step": 110
     },
     {
       "epoch": 0.43,
-      "grad_norm": 2.6688361167907715,
       "learning_rate": 9.573476702508962e-05,
-      "loss": 1.1876,
       "step": 120
     },
     {
       "epoch": 0.47,
-      "grad_norm": 3.8015213012695312,
-      "learning_rate": 9.53763440860215e-05,
-      "loss": 1.135,
       "step": 130
     },
     {
       "epoch": 0.5,
-      "grad_norm": 5.519741535186768,
-      "learning_rate": 9.501792114695342e-05,
-      "loss": 1.1882,
       "step": 140
     },
     {
       "epoch": 0.54,
-      "grad_norm": 2.872791290283203,
-      "learning_rate": 9.465949820788531e-05,
-      "loss": 1.0513,
       "step": 150
     },
     {
       "epoch": 0.57,
-      "grad_norm": 3.185737371444702,
-      "learning_rate": 9.430107526881721e-05,
-      "loss": 1.1026,
       "step": 160
     },
     {
       "epoch": 0.61,
-      "grad_norm": 5.020754814147949,
-      "learning_rate": 9.39426523297491e-05,
-      "loss": 0.9906,
       "step": 170
     },
     {
       "epoch": 0.65,
-      "grad_norm": 2.217747688293457,
-      "learning_rate": 9.358422939068101e-05,
-      "loss": 0.9737,
       "step": 180
     },
     {
       "epoch": 0.68,
-      "grad_norm": 3.152509927749634,
-      "learning_rate": 9.32258064516129e-05,
-      "loss": 1.0249,
       "step": 190
     },
     {
       "epoch": 0.72,
-      "grad_norm": 5.835267066955566,
-      "learning_rate": 9.28673835125448e-05,
-      "loss": 0.9605,
       "step": 200
     },
     {
       "epoch": 0.72,
-      "eval_accuracy": 0.8057259713701431,
-      "eval_loss": 0.7632270455360413,
-      "eval_runtime": 13.1226,
-      "eval_samples_per_second": 74.528,
-      "eval_steps_per_second": 9.373,
       "step": 200
     },
     {
       "epoch": 0.75,
-      "grad_norm": 3.458073616027832,
-      "learning_rate": 9.25089605734767e-05,
-      "loss": 0.8623,
       "step": 210
     },
     {
       "epoch": 0.79,
-      "grad_norm": 3.9055118560791016,
-      "learning_rate": 9.215053763440861e-05,
-      "loss": 0.8075,
       "step": 220
     },
     {
       "epoch": 0.82,
-      "grad_norm": 5.982291221618652,
-      "learning_rate": 9.17921146953405e-05,
-      "loss": 0.8726,
       "step": 230
     },
     {
       "epoch": 0.86,
-      "grad_norm": 6.739437103271484,
-      "learning_rate": 9.143369175627241e-05,
-      "loss": 0.9887,
       "step": 240
     },
     {
       "epoch": 0.9,
-      "grad_norm": 3.962754249572754,
-      "learning_rate": 9.10752688172043e-05,
-      "loss": 0.8384,
       "step": 250
     },
     {
       "epoch": 0.93,
-      "grad_norm": 5.224504470825195,
-      "learning_rate": 9.07168458781362e-05,
-      "loss": 0.8309,
       "step": 260
     },
     {
       "epoch": 0.97,
-      "grad_norm": 6.783730983734131,
-      "learning_rate": 9.03584229390681e-05,
-      "loss": 0.756,
       "step": 270
     },
     {
       "epoch": 1.0,
-      "grad_norm": 1.871099829673767,
-      "learning_rate": 9e-05,
-      "loss": 0.7874,
       "step": 280
     },
     {
       "epoch": 1.04,
-      "grad_norm": 3.4176278114318848,
-      "learning_rate": 8.964157706093191e-05,
-      "loss": 0.7627,
       "step": 290
     },
     {
       "epoch": 1.08,
-      "grad_norm": 2.1947131156921387,
-      "learning_rate": 8.92831541218638e-05,
-      "loss": 0.7508,
       "step": 300
     },
     {
       "epoch": 1.08,
-      "eval_accuracy": 0.8006134969325154,
-      "eval_loss": 0.6995136141777039,
-      "eval_runtime": 13.1501,
-      "eval_samples_per_second": 74.372,
-      "eval_steps_per_second": 9.354,
       "step": 300
     },
     {
       "epoch": 1.11,
-      "grad_norm": 4.5141119956970215,
-      "learning_rate": 8.892473118279571e-05,
-      "loss": 0.9078,
       "step": 310
     },
     {
       "epoch": 1.15,
-      "grad_norm": 3.0271410942077637,
-      "learning_rate": 8.85663082437276e-05,
-      "loss": 0.8313,
       "step": 320
     },
     {
       "epoch": 1.18,
-      "grad_norm": 4.396864891052246,
-      "learning_rate": 8.82078853046595e-05,
-      "loss": 0.735,
       "step": 330
     },
     {
       "epoch": 1.22,
-      "grad_norm": 6.498298168182373,
-      "learning_rate": 8.78494623655914e-05,
-      "loss": 0.6945,
       "step": 340
     },
     {
       "epoch": 1.25,
-      "grad_norm": 3.187629461288452,
-      "learning_rate": 8.74910394265233e-05,
-      "loss": 0.6215,
       "step": 350
     },
     {
       "epoch": 1.29,
-      "grad_norm": 5.515172004699707,
-      "learning_rate": 8.713261648745519e-05,
-      "loss": 0.7575,
       "step": 360
     },
     {
       "epoch": 1.33,
-      "grad_norm": 4.944267749786377,
-      "learning_rate": 8.677419354838711e-05,
-      "loss": 0.7753,
       "step": 370
     },
     {
       "epoch": 1.36,
-      "grad_norm": 4.4278388023376465,
-      "learning_rate": 8.6415770609319e-05,
-      "loss": 0.7316,
       "step": 380
     },
     {
       "epoch": 1.4,
-      "grad_norm": 4.232585906982422,
-      "learning_rate": 8.60573476702509e-05,
-      "loss": 0.7011,
       "step": 390
     },
     {
       "epoch": 1.43,
-      "grad_norm": 2.1777145862579346,
-      "learning_rate": 8.56989247311828e-05,
-      "loss": 0.7542,
       "step": 400
     },
     {
       "epoch": 1.43,
-      "eval_accuracy": 0.83640081799591,
-      "eval_loss": 0.5710071921348572,
-      "eval_runtime": 13.0952,
-      "eval_samples_per_second": 74.684,
-      "eval_steps_per_second": 9.393,
       "step": 400
     },
     {
       "epoch": 1.47,
-      "grad_norm": 3.8884618282318115,
-      "learning_rate": 8.53405017921147e-05,
-      "loss": 0.6824,
       "step": 410
     },
     {
       "epoch": 1.51,
-      "grad_norm": 3.020177125930786,
-      "learning_rate": 8.49820788530466e-05,
-      "loss": 0.6009,
       "step": 420
     },
     {
       "epoch": 1.54,
-      "grad_norm": 5.7138519287109375,
-      "learning_rate": 8.462365591397849e-05,
-      "loss": 0.5374,
       "step": 430
     },
     {
       "epoch": 1.58,
-      "grad_norm": 6.61539888381958,
-      "learning_rate": 8.426523297491041e-05,
-      "loss": 0.7105,
       "step": 440
     },
     {
       "epoch": 1.61,
-      "grad_norm": 3.700871706008911,
-      "learning_rate": 8.39068100358423e-05,
-      "loss": 0.6331,
       "step": 450
     },
     {
       "epoch": 1.65,
-      "grad_norm": 6.238260269165039,
-      "learning_rate": 8.35483870967742e-05,
-      "loss": 0.7435,
       "step": 460
     },
     {
       "epoch": 1.68,
-      "grad_norm": 1.4030262231826782,
       "learning_rate": 8.32258064516129e-05,
-      "loss": 0.6601,
       "step": 470
     },
     {
       "epoch": 1.72,
-      "grad_norm": 9.980137825012207,
       "learning_rate": 8.28673835125448e-05,
-      "loss": 0.649,
       "step": 480
     },
     {
       "epoch": 1.76,
-      "grad_norm": 11.748491287231445,
       "learning_rate": 8.250896057347671e-05,
-      "loss": 0.7075,
       "step": 490
     },
     {
       "epoch": 1.79,
-      "grad_norm": 7.283904552459717,
       "learning_rate": 8.215053763440861e-05,
-      "loss": 0.6945,
       "step": 500
     },
     {
       "epoch": 1.79,
-      "eval_accuracy": 0.8588957055214724,
-      "eval_loss": 0.5103773474693298,
-      "eval_runtime": 13.2386,
-      "eval_samples_per_second": 73.875,
-      "eval_steps_per_second": 9.291,
       "step": 500
     },
     {
       "epoch": 1.83,
-      "grad_norm": 3.227905035018921,
       "learning_rate": 8.179211469534051e-05,
-      "loss": 0.5835,
       "step": 510
     },
     {
       "epoch": 1.86,
-      "grad_norm": 4.389718532562256,
       "learning_rate": 8.14336917562724e-05,
-      "loss": 0.6946,
       "step": 520
     },
     {
       "epoch": 1.9,
-      "grad_norm": 2.76204514503479,
       "learning_rate": 8.107526881720431e-05,
-      "loss": 0.6389,
       "step": 530
     },
     {
       "epoch": 1.94,
-      "grad_norm": 3.973482370376587,
       "learning_rate": 8.07168458781362e-05,
-      "loss": 0.5478,
       "step": 540
     },
     {
       "epoch": 1.97,
-      "grad_norm": 7.488864898681641,
       "learning_rate": 8.03584229390681e-05,
-      "loss": 0.5571,
       "step": 550
     },
     {
       "epoch": 2.01,
-      "grad_norm": 4.2505059242248535,
       "learning_rate": 8e-05,
-      "loss": 0.7184,
       "step": 560
     },
     {
       "epoch": 2.04,
-      "grad_norm": 1.9729084968566895,
       "learning_rate": 7.964157706093191e-05,
-      "loss": 0.5643,
       "step": 570
     },
     {
       "epoch": 2.08,
-      "grad_norm": 2.607386589050293,
       "learning_rate": 7.92831541218638e-05,
-      "loss": 0.4484,
       "step": 580
     },
     {
       "epoch": 2.11,
-      "grad_norm": 4.689638614654541,
       "learning_rate": 7.892473118279571e-05,
-      "loss": 0.5449,
       "step": 590
     },
     {
       "epoch": 2.15,
-      "grad_norm": 6.3727707862854,
       "learning_rate": 7.85663082437276e-05,
-      "loss": 0.5218,
       "step": 600
     },
     {
       "epoch": 2.15,
-      "eval_accuracy": 0.8343558282208589,
-      "eval_loss": 0.5389257073402405,
-      "eval_runtime": 13.1796,
-      "eval_samples_per_second": 74.205,
-      "eval_steps_per_second": 9.333,
       "step": 600
     },
     {
       "epoch": 2.19,
-      "grad_norm": 6.6133832931518555,
       "learning_rate": 7.82078853046595e-05,
-      "loss": 0.5242,
       "step": 610
     },
     {
       "epoch": 2.22,
-      "grad_norm": 6.967311382293701,
       "learning_rate": 7.784946236559139e-05,
-      "loss": 0.5191,
       "step": 620
     },
     {
       "epoch": 2.26,
-      "grad_norm": 6.818421363830566,
       "learning_rate": 7.74910394265233e-05,
-      "loss": 0.4675,
       "step": 630
     },
     {
       "epoch": 2.29,
-      "grad_norm": 3.4351966381073,
       "learning_rate": 7.71326164874552e-05,
-      "loss": 0.538,
       "step": 640
     },
     {
       "epoch": 2.33,
-      "grad_norm": 5.848361968994141,
       "learning_rate": 7.67741935483871e-05,
-      "loss": 0.513,
       "step": 650
     },
     {
       "epoch": 2.37,
-      "grad_norm": 3.990499496459961,
       "learning_rate": 7.6415770609319e-05,
-      "loss": 0.5287,
       "step": 660
     },
     {
       "epoch": 2.4,
-      "grad_norm": 3.2983336448669434,
       "learning_rate": 7.60573476702509e-05,
-      "loss": 0.5794,
       "step": 670
     },
     {
       "epoch": 2.44,
-      "grad_norm": 2.981754779815674,
       "learning_rate": 7.56989247311828e-05,
-      "loss": 0.3556,
       "step": 680
     },
     {
       "epoch": 2.47,
-      "grad_norm": 7.759634494781494,
       "learning_rate": 7.53405017921147e-05,
-      "loss": 0.5055,
       "step": 690
     },
     {
       "epoch": 2.51,
-      "grad_norm": 7.100767135620117,
       "learning_rate": 7.49820788530466e-05,
-      "loss": 0.5365,
       "step": 700
     },
     {
       "epoch": 2.51,
-      "eval_accuracy": 0.8466257668711656,
-      "eval_loss": 0.5034566521644592,
-      "eval_runtime": 13.0487,
-      "eval_samples_per_second": 74.95,
-      "eval_steps_per_second": 9.426,
       "step": 700
     },
     {
       "epoch": 2.54,
-      "grad_norm": 3.7873051166534424,
       "learning_rate": 7.462365591397849e-05,
-      "loss": 0.7049,
       "step": 710
     },
     {
       "epoch": 2.58,
-      "grad_norm": 4.464657783508301,
       "learning_rate": 7.42652329749104e-05,
-      "loss": 0.6012,
       "step": 720
     },
     {
       "epoch": 2.62,
-      "grad_norm": 6.518985271453857,
-      "learning_rate": 7.39426523297491e-05,
-      "loss": 0.6301,
       "step": 730
     },
     {
       "epoch": 2.65,
-      "grad_norm": 4.162339210510254,
-      "learning_rate": 7.3584229390681e-05,
-      "loss": 0.4366,
       "step": 740
     },
     {
       "epoch": 2.69,
-      "grad_norm": 5.646885395050049,
-      "learning_rate": 7.32258064516129e-05,
-      "loss": 0.6134,
       "step": 750
     },
     {
       "epoch": 2.72,
-      "grad_norm": 8.28348445892334,
-      "learning_rate": 7.28673835125448e-05,
-      "loss": 0.4007,
       "step": 760
     },
     {
       "epoch": 2.76,
-      "grad_norm": 2.606187105178833,
-      "learning_rate": 7.250896057347671e-05,
-      "loss": 0.5909,
       "step": 770
     },
     {
       "epoch": 2.8,
-      "grad_norm": 8.181116104125977,
-      "learning_rate": 7.215053763440861e-05,
-      "loss": 0.5286,
       "step": 780
     },
     {
       "epoch": 2.83,
-      "grad_norm": 5.969821929931641,
-      "learning_rate": 7.179211469534051e-05,
-      "loss": 0.4924,
       "step": 790
     },
     {
       "epoch": 2.87,
-      "grad_norm": 5.566159248352051,
-      "learning_rate": 7.14336917562724e-05,
-      "loss": 0.5564,
       "step": 800
     },
     {
       "epoch": 2.87,
-      "eval_accuracy": 0.8476482617586912,
-      "eval_loss": 0.48173415660858154,
-      "eval_runtime": 13.1664,
-      "eval_samples_per_second": 74.28,
-      "eval_steps_per_second": 9.342,
       "step": 800
     },
     {
       "epoch": 2.9,
-      "grad_norm": 6.260211944580078,
-      "learning_rate": 7.10752688172043e-05,
-      "loss": 0.3901,
       "step": 810
     },
     {
       "epoch": 2.94,
-      "grad_norm": 5.212798118591309,
-      "learning_rate": 7.07168458781362e-05,
-      "loss": 0.3447,
       "step": 820
     },
     {
       "epoch": 2.97,
-      "grad_norm": 3.084397554397583,
-      "learning_rate": 7.03584229390681e-05,
-      "loss": 0.5139,
       "step": 830
     },
     {
       "epoch": 3.01,
-      "grad_norm": 4.144620418548584,
-      "learning_rate": 7e-05,
-      "loss": 0.5502,
       "step": 840
     },
     {
       "epoch": 3.05,
-      "grad_norm": 4.02711296081543,
-      "learning_rate": 6.964157706093191e-05,
-      "loss": 0.3868,
       "step": 850
     },
     {
       "epoch": 3.08,
-      "grad_norm": 4.601646900177002,
-      "learning_rate": 6.92831541218638e-05,
-      "loss": 0.5119,
       "step": 860
     },
     {
       "epoch": 3.12,
-      "grad_norm": 7.631004810333252,
-      "learning_rate": 6.89247311827957e-05,
-      "loss": 0.4146,
       "step": 870
     },
     {
       "epoch": 3.15,
-      "grad_norm": 3.341120719909668,
-      "learning_rate": 6.85663082437276e-05,
-      "loss": 0.4403,
       "step": 880
     },
     {
       "epoch": 3.19,
-      "grad_norm": 3.3383867740631104,
-      "learning_rate": 6.82078853046595e-05,
-      "loss": 0.4715,
       "step": 890
     },
     {
       "epoch": 3.23,
-      "grad_norm": 5.930158615112305,
-      "learning_rate": 6.78494623655914e-05,
-      "loss": 0.4597,
       "step": 900
     },
     {
       "epoch": 3.23,
-      "eval_accuracy": 0.8599182004089979,
-      "eval_loss": 0.46898409724235535,
-      "eval_runtime": 13.1156,
-      "eval_samples_per_second": 74.568,
-      "eval_steps_per_second": 9.378,
       "step": 900
     },
     {
       "epoch": 3.26,
-      "grad_norm": 8.335565567016602,
-      "learning_rate": 6.74910394265233e-05,
-      "loss": 0.3672,
       "step": 910
     },
     {
       "epoch": 3.3,
-      "grad_norm": 4.635217189788818,
-      "learning_rate": 6.713261648745521e-05,
-      "loss": 0.4008,
       "step": 920
     },
     {
       "epoch": 3.33,
-      "grad_norm": 6.6547322273254395,
-      "learning_rate": 6.67741935483871e-05,
-      "loss": 0.4973,
       "step": 930
     },
     {
       "epoch": 3.37,
-      "grad_norm": 2.2684273719787598,
-      "learning_rate": 6.6415770609319e-05,
-      "loss": 0.3125,
       "step": 940
     },
     {
       "epoch": 3.41,
-      "grad_norm": 6.180244445800781,
-      "learning_rate": 6.60573476702509e-05,
-      "loss": 0.4356,
       "step": 950
     },
     {
       "epoch": 3.44,
-      "grad_norm": 3.5774285793304443,
-      "learning_rate": 6.56989247311828e-05,
-      "loss": 0.4316,
       "step": 960
     },
     {
       "epoch": 3.48,
-      "grad_norm": 4.347971439361572,
-      "learning_rate": 6.534050179211469e-05,
-      "loss": 0.4942,
       "step": 970
     },
     {
       "epoch": 3.51,
-      "grad_norm": 1.7022749185562134,
-      "learning_rate": 6.49820788530466e-05,
-      "loss": 0.5551,
       "step": 980
     },
     {
       "epoch": 3.55,
-      "grad_norm": 5.636997699737549,
-      "learning_rate": 6.46236559139785e-05,
-      "loss": 0.4212,
       "step": 990
     },
     {
       "epoch": 3.58,
-      "grad_norm": 1.4300520420074463,
-      "learning_rate": 6.42652329749104e-05,
-      "loss": 0.3516,
       "step": 1000
     },
     {
       "epoch": 3.58,
-      "eval_accuracy": 0.8507157464212679,
-      "eval_loss": 0.4920569360256195,
-      "eval_runtime": 13.0448,
-      "eval_samples_per_second": 74.972,
-      "eval_steps_per_second": 9.429,
       "step": 1000
     },
     {
       "epoch": 3.62,
-      "grad_norm": 3.524423837661743,
-      "learning_rate": 6.39068100358423e-05,
-      "loss": 0.4023,
       "step": 1010
     },
     {
       "epoch": 3.66,
-      "grad_norm": 7.19805383682251,
-      "learning_rate": 6.35483870967742e-05,
-      "loss": 0.3299,
       "step": 1020
     },
     {
       "epoch": 3.69,
-      "grad_norm": 5.69304084777832,
-      "learning_rate": 6.318996415770609e-05,
-      "loss": 0.4332,
       "step": 1030
     },
     {
       "epoch": 3.73,
-      "grad_norm": 5.353736400604248,
-      "learning_rate": 6.283154121863799e-05,
-      "loss": 0.4798,
       "step": 1040
     },
     {
       "epoch": 3.76,
-      "grad_norm": 5.782208442687988,
-      "learning_rate": 6.247311827956989e-05,
-      "loss": 0.4301,
       "step": 1050
     },
     {
       "epoch": 3.8,
-      "grad_norm": 5.975741386413574,
-      "learning_rate": 6.211469534050179e-05,
-      "loss": 0.3599,
       "step": 1060
     },
     {
       "epoch": 3.84,
-      "grad_norm": 6.242609977722168,
-      "learning_rate": 6.17562724014337e-05,
-      "loss": 0.4275,
       "step": 1070
     },
     {
       "epoch": 3.87,
-      "grad_norm": 5.965251922607422,
-      "learning_rate": 6.13978494623656e-05,
-      "loss": 0.5298,
       "step": 1080
     },
     {
       "epoch": 3.91,
-      "grad_norm": 9.964472770690918,
-      "learning_rate": 6.10394265232975e-05,
-      "loss": 0.479,
       "step": 1090
     },
     {
       "epoch": 3.94,
-      "grad_norm": 2.9509897232055664,
-      "learning_rate": 6.068100358422939e-05,
-      "loss": 0.3741,
       "step": 1100
     },
     {
       "epoch": 3.94,
-      "eval_accuracy": 0.8568507157464212,
-      "eval_loss": 0.4820023775100708,
-      "eval_runtime": 12.9964,
-      "eval_samples_per_second": 75.252,
-      "eval_steps_per_second": 9.464,
       "step": 1100
     },
     {
       "epoch": 3.98,
-      "grad_norm": 4.46811056137085,
-      "learning_rate": 6.0322580645161295e-05,
-      "loss": 0.2701,
       "step": 1110
     },
     {
       "epoch": 4.01,
-      "grad_norm": 3.02339506149292,
-      "learning_rate": 5.996415770609319e-05,
-      "loss": 0.3165,
       "step": 1120
     },
     {
       "epoch": 4.05,
-      "grad_norm": 4.451502323150635,
-      "learning_rate": 5.960573476702509e-05,
-      "loss": 0.4528,
       "step": 1130
     },
     {
       "epoch": 4.09,
-      "grad_norm": 3.656177520751953,
-      "learning_rate": 5.9247311827956994e-05,
-      "loss": 0.3612,
       "step": 1140
     },
     {
       "epoch": 4.12,
-      "grad_norm": 5.621472358703613,
-      "learning_rate": 5.8888888888888896e-05,
-      "loss": 0.3641,
       "step": 1150
     },
     {
       "epoch": 4.16,
-      "grad_norm": 10.402291297912598,
-      "learning_rate": 5.853046594982079e-05,
-      "loss": 0.4598,
       "step": 1160
     },
     {
       "epoch": 4.19,
-      "grad_norm": 5.005283355712891,
-      "learning_rate": 5.8172043010752686e-05,
-      "loss": 0.3746,
       "step": 1170
     },
     {
       "epoch": 4.23,
-      "grad_norm": 6.668752670288086,
-      "learning_rate": 5.7813620071684594e-05,
-      "loss": 0.416,
       "step": 1180
     },
     {
       "epoch": 4.27,
-      "grad_norm": 6.447160720825195,
-      "learning_rate": 5.745519713261649e-05,
-      "loss": 0.3504,
       "step": 1190
     },
     {
       "epoch": 4.3,
-      "grad_norm": 8.023221969604492,
-      "learning_rate": 5.7096774193548384e-05,
-      "loss": 0.4169,
       "step": 1200
     },
     {
       "epoch": 4.3,
-      "eval_accuracy": 0.852760736196319,
-      "eval_loss": 0.47300344705581665,
-      "eval_runtime": 13.1292,
-      "eval_samples_per_second": 74.491,
-      "eval_steps_per_second": 9.368,
       "step": 1200
     },
     {
       "epoch": 4.34,
-      "grad_norm": 2.819065570831299,
-      "learning_rate": 5.673835125448029e-05,
-      "loss": 0.3808,
       "step": 1210
     },
     {
       "epoch": 4.37,
-      "grad_norm": 10.216522216796875,
-      "learning_rate": 5.637992831541219e-05,
-      "loss": 0.3039,
       "step": 1220
     },
     {
       "epoch": 4.41,
-      "grad_norm": 4.38183069229126,
-      "learning_rate": 5.602150537634408e-05,
-      "loss": 0.3508,
       "step": 1230
     },
     {
       "epoch": 4.44,
-      "grad_norm": 3.4877617359161377,
-      "learning_rate": 5.566308243727599e-05,
-      "loss": 0.2875,
       "step": 1240
     },
     {
       "epoch": 4.48,
-      "grad_norm": 5.170544624328613,
-      "learning_rate": 5.530465949820789e-05,
-      "loss": 0.2425,
       "step": 1250
     },
     {
       "epoch": 4.52,
-      "grad_norm": 1.037807583808899,
-      "learning_rate": 5.494623655913979e-05,
-      "loss": 0.2618,
       "step": 1260
     },
     {
       "epoch": 4.55,
-      "grad_norm": 1.1233432292938232,
-      "learning_rate": 5.458781362007169e-05,
-      "loss": 0.4105,
       "step": 1270
     },
     {
       "epoch": 4.59,
-      "grad_norm": 6.105014801025391,
-      "learning_rate": 5.422939068100359e-05,
-      "loss": 0.3639,
       "step": 1280
     },
     {
       "epoch": 4.62,
-      "grad_norm": 5.100095272064209,
-      "learning_rate": 5.387096774193549e-05,
-      "loss": 0.4289,
       "step": 1290
     },
     {
       "epoch": 4.66,
-      "grad_norm": 4.874768257141113,
-      "learning_rate": 5.351254480286738e-05,
-      "loss": 0.5131,
       "step": 1300
     },
     {
       "epoch": 4.66,
-      "eval_accuracy": 0.8680981595092024,
-      "eval_loss": 0.4481976628303528,
-      "eval_runtime": 12.8876,
-      "eval_samples_per_second": 75.887,
-      "eval_steps_per_second": 9.544,
       "step": 1300
     },
     {
       "epoch": 4.7,
-      "grad_norm": 3.7920286655426025,
-      "learning_rate": 5.315412186379929e-05,
-      "loss": 0.3811,
       "step": 1310
     },
     {
       "epoch": 4.73,
-      "grad_norm": 4.628345489501953,
-      "learning_rate": 5.2795698924731186e-05,
-      "loss": 0.3271,
       "step": 1320
     },
     {
       "epoch": 4.77,
-      "grad_norm": 7.546787261962891,
-      "learning_rate": 5.243727598566308e-05,
-      "loss": 0.4059,
       "step": 1330
     },
     {
       "epoch": 4.8,
-      "grad_norm": 3.106943130493164,
-      "learning_rate": 5.207885304659499e-05,
-      "loss": 0.2255,
       "step": 1340
     },
     {
       "epoch": 4.84,
-      "grad_norm": 7.233306407928467,
-      "learning_rate": 5.1720430107526885e-05,
-      "loss": 0.299,
       "step": 1350
     },
     {
       "epoch": 4.87,
-      "grad_norm": 8.275094032287598,
-      "learning_rate": 5.136200716845878e-05,
-      "loss": 0.387,
       "step": 1360
     },
     {
       "epoch": 4.91,
-      "grad_norm": 4.1648640632629395,
-      "learning_rate": 5.100358422939069e-05,
-      "loss": 0.2891,
       "step": 1370
     },
     {
       "epoch": 4.95,
-      "grad_norm": 2.7225232124328613,
-      "learning_rate": 5.064516129032258e-05,
-      "loss": 0.3828,
       "step": 1380
     },
     {
       "epoch": 4.98,
-      "grad_norm": 4.712428092956543,
-      "learning_rate": 5.028673835125448e-05,
-      "loss": 0.3843,
       "step": 1390
     },
     {
       "epoch": 5.02,
-      "grad_norm": 7.5443644523620605,
-      "learning_rate": 4.992831541218638e-05,
-      "loss": 0.3673,
       "step": 1400
     },
     {
       "epoch": 5.02,
-      "eval_accuracy": 0.8752556237218814,
-      "eval_loss": 0.42281925678253174,
-      "eval_runtime": 14.3907,
-      "eval_samples_per_second": 67.961,
-      "eval_steps_per_second": 8.547,
       "step": 1400
     },
     {
       "epoch": 5.05,
-      "grad_norm": 2.7451975345611572,
-      "learning_rate": 4.956989247311828e-05,
-      "loss": 0.3115,
       "step": 1410
     },
     {
       "epoch": 5.09,
-      "grad_norm": 0.5151819586753845,
-      "learning_rate": 4.9211469534050184e-05,
-      "loss": 0.3281,
       "step": 1420
     },
     {
       "epoch": 5.13,
-      "grad_norm": 7.1587419509887695,
-      "learning_rate": 4.8853046594982085e-05,
-      "loss": 0.2715,
       "step": 1430
     },
     {
       "epoch": 5.16,
-      "grad_norm": 6.464181423187256,
-      "learning_rate": 4.849462365591398e-05,
-      "loss": 0.2884,
       "step": 1440
     },
     {
       "epoch": 5.2,
-      "grad_norm": 6.002290725708008,
-      "learning_rate": 4.813620071684588e-05,
-      "loss": 0.3214,
       "step": 1450
     },
     {
       "epoch": 5.23,
-      "grad_norm": 7.911471366882324,
-      "learning_rate": 4.7777777777777784e-05,
-      "loss": 0.3749,
       "step": 1460
     },
     {
       "epoch": 5.27,
-      "grad_norm": 6.183435440063477,
-      "learning_rate": 4.741935483870968e-05,
-      "loss": 0.4746,
       "step": 1470
     },
     {
       "epoch": 5.3,
-      "grad_norm": 2.4367499351501465,
-      "learning_rate": 4.706093189964158e-05,
-      "loss": 0.2526,
       "step": 1480
     },
     {
       "epoch": 5.34,
-      "grad_norm": 3.299232006072998,
-      "learning_rate": 4.6702508960573476e-05,
-      "loss": 0.3413,
       "step": 1490
     },
     {
       "epoch": 5.38,
-      "grad_norm": 5.005585193634033,
-      "learning_rate": 4.634408602150538e-05,
-      "loss": 0.3722,
       "step": 1500
     },
     {
       "epoch": 5.38,
-      "eval_accuracy": 0.8599182004089979,
-      "eval_loss": 0.4820214807987213,
-      "eval_runtime": 13.0602,
-      "eval_samples_per_second": 74.884,
-      "eval_steps_per_second": 9.418,
       "step": 1500
     },
     {
       "epoch": 5.41,
-      "grad_norm": 4.578291416168213,
-      "learning_rate": 4.598566308243728e-05,
-      "loss": 0.2471,
       "step": 1510
     },
     {
       "epoch": 5.45,
-      "grad_norm": 4.164848327636719,
-      "learning_rate": 4.5627240143369175e-05,
-      "loss": 0.2803,
       "step": 1520
     },
     {
       "epoch": 5.48,
-      "grad_norm": 3.4090826511383057,
-      "learning_rate": 4.5268817204301076e-05,
-      "loss": 0.3843,
       "step": 1530
     },
     {
       "epoch": 5.52,
-      "grad_norm": 3.8364851474761963,
-      "learning_rate": 4.491039426523297e-05,
-      "loss": 0.348,
       "step": 1540
     },
     {
       "epoch": 5.56,
-      "grad_norm": 0.9995656609535217,
-      "learning_rate": 4.455197132616487e-05,
-      "loss": 0.2812,
       "step": 1550
     },
     {
       "epoch": 5.59,
-      "grad_norm": 0.11745692044496536,
-      "learning_rate": 4.4193548387096775e-05,
-      "loss": 0.2775,
       "step": 1560
     },
     {
       "epoch": 5.63,
-      "grad_norm": 8.940442085266113,
-      "learning_rate": 4.383512544802868e-05,
-      "loss": 0.3364,
       "step": 1570
     },
     {
       "epoch": 5.66,
-      "grad_norm": 3.694096088409424,
-      "learning_rate": 4.347670250896058e-05,
-      "loss": 0.3487,
       "step": 1580
     },
     {
       "epoch": 5.7,
-      "grad_norm": 5.201242446899414,
-      "learning_rate": 4.3118279569892474e-05,
-      "loss": 0.4002,
       "step": 1590
     },
     {
       "epoch": 5.73,
-      "grad_norm": 1.3319661617279053,
-      "learning_rate": 4.2759856630824376e-05,
-      "loss": 0.3005,
       "step": 1600
     },
     {
       "epoch": 5.73,
-      "eval_accuracy": 0.8732106339468303,
-      "eval_loss": 0.4456250071525574,
-      "eval_runtime": 13.0438,
-      "eval_samples_per_second": 74.978,
-      "eval_steps_per_second": 9.43,
       "step": 1600
     },
     {
       "epoch": 5.77,
-      "grad_norm": 1.4663386344909668,
-      "learning_rate": 4.240143369175628e-05,
-      "loss": 0.3404,
       "step": 1610
     },
     {
       "epoch": 5.81,
-      "grad_norm": 2.7660508155822754,
-      "learning_rate": 4.204301075268817e-05,
-      "loss": 0.3851,
       "step": 1620
     },
     {
       "epoch": 5.84,
-      "grad_norm": 3.7340736389160156,
-      "learning_rate": 4.1684587813620074e-05,
-      "loss": 0.4027,
       "step": 1630
     },
     {
       "epoch": 5.88,
-      "grad_norm": 3.9350473880767822,
-      "learning_rate": 4.1326164874551976e-05,
-      "loss": 0.2706,
       "step": 1640
     },
     {
       "epoch": 5.91,
-      "grad_norm": 6.938910961151123,
-      "learning_rate": 4.096774193548387e-05,
-      "loss": 0.3173,
       "step": 1650
     },
     {
       "epoch": 5.95,
-      "grad_norm": 2.325490713119507,
-      "learning_rate": 4.060931899641577e-05,
-      "loss": 0.2399,
       "step": 1660
     },
     {
       "epoch": 5.99,
-      "grad_norm": 4.819274425506592,
-      "learning_rate": 4.025089605734767e-05,
-      "loss": 0.2409,
       "step": 1670
     },
     {
       "epoch": 6.02,
-      "grad_norm": 1.799713134765625,
-      "learning_rate": 3.989247311827957e-05,
-      "loss": 0.3328,
       "step": 1680
     },
     {
       "epoch": 6.06,
-      "grad_norm": 3.0742380619049072,
-      "learning_rate": 3.953405017921147e-05,
-      "loss": 0.3429,
       "step": 1690
     },
     {
       "epoch": 6.09,
-      "grad_norm": 6.019571304321289,
-      "learning_rate": 3.9175627240143367e-05,
-      "loss": 0.2183,
       "step": 1700
     },
     {
       "epoch": 6.09,
-      "eval_accuracy": 0.8752556237218814,
-      "eval_loss": 0.42549625039100647,
-      "eval_runtime": 13.4069,
-      "eval_samples_per_second": 72.947,
-      "eval_steps_per_second": 9.174,
       "step": 1700
     },
     {
       "epoch": 6.13,
-      "grad_norm": 3.634247303009033,
-      "learning_rate": 3.881720430107527e-05,
-      "loss": 0.2822,
       "step": 1710
     },
     {
       "epoch": 6.16,
-      "grad_norm": 1.7334699630737305,
-      "learning_rate": 3.845878136200717e-05,
-      "loss": 0.342,
       "step": 1720
     },
     {
       "epoch": 6.2,
-      "grad_norm": 2.8848531246185303,
-      "learning_rate": 3.810035842293907e-05,
-      "loss": 0.2375,
       "step": 1730
     },
     {
       "epoch": 6.24,
-      "grad_norm": 8.433989524841309,
-      "learning_rate": 3.7741935483870974e-05,
-      "loss": 0.3862,
       "step": 1740
     },
     {
       "epoch": 6.27,
-      "grad_norm": 5.4030022621154785,
-      "learning_rate": 3.738351254480287e-05,
-      "loss": 0.2464,
       "step": 1750
     },
     {
       "epoch": 6.31,
-      "grad_norm": 0.6388465762138367,
-      "learning_rate": 3.702508960573477e-05,
-      "loss": 0.2487,
       "step": 1760
     },
     {
       "epoch": 6.34,
-      "grad_norm": 2.5588126182556152,
-      "learning_rate": 3.6666666666666666e-05,
-      "loss": 0.315,
       "step": 1770
     },
     {
       "epoch": 6.38,
-      "grad_norm": 2.1331589221954346,
-      "learning_rate": 3.630824372759857e-05,
-      "loss": 0.3208,
       "step": 1780
     },
     {
       "epoch": 6.42,
-      "grad_norm": 5.283192157745361,
-      "learning_rate": 3.594982078853047e-05,
-      "loss": 0.231,
       "step": 1790
     },
     {
       "epoch": 6.45,
-      "grad_norm": 1.1380605697631836,
-      "learning_rate": 3.5591397849462364e-05,
-      "loss": 0.2546,
       "step": 1800
     },
     {
       "epoch": 6.45,
-      "eval_accuracy": 0.8680981595092024,
-      "eval_loss": 0.4643884301185608,
-      "eval_runtime": 13.3117,
-      "eval_samples_per_second": 73.469,
-      "eval_steps_per_second": 9.24,
       "step": 1800
     },
     {
       "epoch": 6.49,
-      "grad_norm": 6.120726585388184,
-      "learning_rate": 3.5232974910394266e-05,
-      "loss": 0.3022,
       "step": 1810
     },
     {
       "epoch": 6.52,
-      "grad_norm": 4.132528305053711,
-      "learning_rate": 3.487455197132617e-05,
-      "loss": 0.2711,
       "step": 1820
     },
     {
       "epoch": 6.56,
-      "grad_norm": 0.2836366295814514,
-      "learning_rate": 3.451612903225806e-05,
-      "loss": 0.2759,
       "step": 1830
     },
     {
       "epoch": 6.59,
-      "grad_norm": 4.501558303833008,
-      "learning_rate": 3.4157706093189965e-05,
-      "loss": 0.2287,
       "step": 1840
     },
     {
       "epoch": 6.63,
-      "grad_norm": 7.157699108123779,
-      "learning_rate": 3.379928315412187e-05,
-      "loss": 0.1862,
       "step": 1850
     },
     {
       "epoch": 6.67,
-      "grad_norm": 6.248540878295898,
-      "learning_rate": 3.344086021505377e-05,
-      "loss": 0.3247,
       "step": 1860
     },
     {
       "epoch": 6.7,
-      "grad_norm": 4.108403205871582,
-      "learning_rate": 3.308243727598567e-05,
-      "loss": 0.3535,
       "step": 1870
     },
     {
       "epoch": 6.74,
-      "grad_norm": 4.134276866912842,
-      "learning_rate": 3.2724014336917565e-05,
-      "loss": 0.217,
       "step": 1880
     },
     {
       "epoch": 6.77,
-      "grad_norm": 2.2216591835021973,
-      "learning_rate": 3.236559139784947e-05,
-      "loss": 0.1901,
       "step": 1890
     },
     {
       "epoch": 6.81,
-      "grad_norm": 3.7293379306793213,
-      "learning_rate": 3.200716845878136e-05,
-      "loss": 0.3798,
       "step": 1900
     },
     {
       "epoch": 6.81,
-      "eval_accuracy": 0.852760736196319,
-      "eval_loss": 0.4917815029621124,
-      "eval_runtime": 13.2098,
-      "eval_samples_per_second": 74.036,
-      "eval_steps_per_second": 9.311,
       "step": 1900
     },
     {
       "epoch": 6.85,
-      "grad_norm": 9.140816688537598,
-      "learning_rate": 3.1648745519713264e-05,
-      "loss": 0.3056,
       "step": 1910
     },
     {
       "epoch": 6.88,
-      "grad_norm": 5.005599498748779,
-      "learning_rate": 3.1290322580645166e-05,
-      "loss": 0.144,
       "step": 1920
     },
     {
       "epoch": 6.92,
-      "grad_norm": 8.45984172821045,
-      "learning_rate": 3.093189964157706e-05,
-      "loss": 0.2561,
       "step": 1930
     },
     {
       "epoch": 6.95,
-      "grad_norm": 9.944540023803711,
-      "learning_rate": 3.057347670250896e-05,
-      "loss": 0.3116,
       "step": 1940
     },
     {
       "epoch": 6.99,
-      "grad_norm": 5.759355545043945,
-      "learning_rate": 3.0215053763440858e-05,
-      "loss": 0.3236,
       "step": 1950
     },
     {
       "epoch": 7.03,
-      "grad_norm": 3.6583213806152344,
-      "learning_rate": 2.985663082437276e-05,
-      "loss": 0.2651,
       "step": 1960
     },
     {
       "epoch": 7.06,
-      "grad_norm": 3.7694921493530273,
-      "learning_rate": 2.949820788530466e-05,
-      "loss": 0.273,
       "step": 1970
     },
     {
       "epoch": 7.1,
-      "grad_norm": 7.003334045410156,
-      "learning_rate": 2.913978494623656e-05,
-      "loss": 0.2574,
       "step": 1980
     },
     {
       "epoch": 7.13,
-      "grad_norm": 5.475174427032471,
-      "learning_rate": 2.878136200716846e-05,
-      "loss": 0.1923,
       "step": 1990
     },
     {
       "epoch": 7.17,
-      "grad_norm": 4.163592338562012,
-      "learning_rate": 2.8422939068100357e-05,
-      "loss": 0.2851,
       "step": 2000
     },
     {
       "epoch": 7.17,
-      "eval_accuracy": 0.8660531697341514,
-      "eval_loss": 0.45738592743873596,
-      "eval_runtime": 13.0257,
-      "eval_samples_per_second": 75.082,
-      "eval_steps_per_second": 9.443,
       "step": 2000
     },
     {
       "epoch": 7.2,
-      "grad_norm": 1.4400478601455688,
-      "learning_rate": 2.806451612903226e-05,
-      "loss": 0.157,
       "step": 2010
     },
     {
       "epoch": 7.24,
-      "grad_norm": 3.958745241165161,
-      "learning_rate": 2.770609318996416e-05,
-      "loss": 0.2556,
       "step": 2020
     },
     {
       "epoch": 7.28,
-      "grad_norm": 2.083286762237549,
-      "learning_rate": 2.734767025089606e-05,
-      "loss": 0.2341,
       "step": 2030
     },
     {
       "epoch": 7.31,
-      "grad_norm": 9.330533027648926,
-      "learning_rate": 2.698924731182796e-05,
-      "loss": 0.2742,
       "step": 2040
     },
     {
       "epoch": 7.35,
-      "grad_norm": 1.6954762935638428,
-      "learning_rate": 2.6630824372759862e-05,
-      "loss": 0.1567,
       "step": 2050
     },
     {
       "epoch": 7.38,
-      "grad_norm": 12.555899620056152,
-      "learning_rate": 2.6272401433691757e-05,
-      "loss": 0.1988,
       "step": 2060
     },
     {
       "epoch": 7.42,
-      "grad_norm": 2.7985002994537354,
-      "learning_rate": 2.591397849462366e-05,
-      "loss": 0.2954,
       "step": 2070
     },
     {
       "epoch": 7.46,
-      "grad_norm": 3.0381124019622803,
-      "learning_rate": 2.5555555555555554e-05,
-      "loss": 0.2345,
       "step": 2080
     },
     {
       "epoch": 7.49,
-      "grad_norm": 4.35617208480835,
-      "learning_rate": 2.5197132616487456e-05,
-      "loss": 0.2736,
       "step": 2090
     },
     {
       "epoch": 7.53,
-      "grad_norm": 7.855186939239502,
-      "learning_rate": 2.4838709677419354e-05,
-      "loss": 0.3897,
       "step": 2100
     },
     {
       "epoch": 7.53,
-      "eval_accuracy": 0.8650306748466258,
-      "eval_loss": 0.47503402829170227,
-      "eval_runtime": 13.2431,
-      "eval_samples_per_second": 73.85,
-      "eval_steps_per_second": 9.288,
       "step": 2100
     },
     {
       "epoch": 7.56,
-      "grad_norm": 8.723631858825684,
-      "learning_rate": 2.4480286738351256e-05,
-      "loss": 0.2814,
       "step": 2110
     },
     {
       "epoch": 7.6,
-      "grad_norm": 8.104424476623535,
-      "learning_rate": 2.4121863799283158e-05,
-      "loss": 0.345,
       "step": 2120
     },
     {
       "epoch": 7.63,
-      "grad_norm": 2.0964772701263428,
-      "learning_rate": 2.3763440860215056e-05,
-      "loss": 0.1643,
       "step": 2130
     },
     {
       "epoch": 7.67,
-      "grad_norm": 6.627722263336182,
       "learning_rate": 2.3405017921146955e-05,
-      "loss": 0.2667,
       "step": 2140
     },
     {
       "epoch": 7.71,
-      "grad_norm": 8.275358200073242,
       "learning_rate": 2.3046594982078853e-05,
-      "loss": 0.1747,
       "step": 2150
     },
     {
       "epoch": 7.74,
-      "grad_norm": 2.7480711936950684,
       "learning_rate": 2.268817204301075e-05,
-      "loss": 0.2789,
       "step": 2160
     },
     {
       "epoch": 7.78,
-      "grad_norm": 4.440505504608154,
       "learning_rate": 2.2329749103942653e-05,
-      "loss": 0.244,
       "step": 2170
     },
     {
       "epoch": 7.81,
-      "grad_norm": 3.1027097702026367,
       "learning_rate": 2.1971326164874552e-05,
-      "loss": 0.1924,
       "step": 2180
     },
     {
       "epoch": 7.85,
-      "grad_norm": 0.49080890417099,
       "learning_rate": 2.1612903225806454e-05,
-      "loss": 0.1648,
       "step": 2190
     },
     {
       "epoch": 7.89,
-      "grad_norm": 7.749617099761963,
       "learning_rate": 2.1254480286738352e-05,
-      "loss": 0.2879,
       "step": 2200
     },
     {
       "epoch": 7.89,
-      "eval_accuracy": 0.8640081799591002,
-      "eval_loss": 0.4739380478858948,
-      "eval_runtime": 13.2662,
-      "eval_samples_per_second": 73.721,
-      "eval_steps_per_second": 9.272,
       "step": 2200
     },
     {
       "epoch": 7.92,
-      "grad_norm": 4.843421459197998,
       "learning_rate": 2.0896057347670254e-05,
-      "loss": 0.1315,
       "step": 2210
     },
     {
       "epoch": 7.96,
-      "grad_norm": 11.301743507385254,
       "learning_rate": 2.0537634408602152e-05,
-      "loss": 0.2476,
       "step": 2220
     },
     {
       "epoch": 7.99,
-      "grad_norm": 5.654230117797852,
       "learning_rate": 2.017921146953405e-05,
-      "loss": 0.2347,
       "step": 2230
     },
     {
       "epoch": 8.03,
-      "grad_norm": 1.8168110847473145,
       "learning_rate": 1.982078853046595e-05,
-      "loss": 0.2233,
       "step": 2240
     },
     {
       "epoch": 8.06,
-      "grad_norm": 6.872961521148682,
       "learning_rate": 1.9462365591397848e-05,
-      "loss": 0.295,
       "step": 2250
     },
     {
       "epoch": 8.1,
-      "grad_norm": 1.988438606262207,
       "learning_rate": 1.910394265232975e-05,
-      "loss": 0.2193,
       "step": 2260
     },
     {
       "epoch": 8.14,
-      "grad_norm": 2.3927271366119385,
       "learning_rate": 1.874551971326165e-05,
-      "loss": 0.1755,
       "step": 2270
     },
     {
       "epoch": 8.17,
-      "grad_norm": 9.944202423095703,
       "learning_rate": 1.838709677419355e-05,
-      "loss": 0.3156,
       "step": 2280
     },
     {
       "epoch": 8.21,
-      "grad_norm": 1.3722007274627686,
       "learning_rate": 1.8028673835125448e-05,
-      "loss": 0.1877,
       "step": 2290
     },
     {
       "epoch": 8.24,
-      "grad_norm": 2.698289394378662,
       "learning_rate": 1.767025089605735e-05,
-      "loss": 0.1619,
       "step": 2300
     },
     {
       "epoch": 8.24,
-      "eval_accuracy": 0.8701431492842536,
-      "eval_loss": 0.46446332335472107,
-      "eval_runtime": 13.2992,
-      "eval_samples_per_second": 73.538,
-      "eval_steps_per_second": 9.249,
       "step": 2300
     },
     {
       "epoch": 8.28,
-      "grad_norm": 4.195601463317871,
       "learning_rate": 1.7311827956989248e-05,
-      "loss": 0.1302,
       "step": 2310
     },
     {
       "epoch": 8.32,
-      "grad_norm": 8.367218971252441,
-      "learning_rate": 1.6953405017921147e-05,
-      "loss": 0.2366,
       "step": 2320
     },
     {
       "epoch": 8.35,
-      "grad_norm": 1.637813925743103,
-      "learning_rate": 1.659498207885305e-05,
-      "loss": 0.1395,
       "step": 2330
     },
     {
       "epoch": 8.39,
-      "grad_norm": 7.9814677238464355,
-      "learning_rate": 1.6236559139784947e-05,
-      "loss": 0.2804,
       "step": 2340
     },
     {
       "epoch": 8.42,
-      "grad_norm": 0.23666299879550934,
-      "learning_rate": 1.587813620071685e-05,
-      "loss": 0.2186,
       "step": 2350
     },
     {
       "epoch": 8.46,
-      "grad_norm": 7.456205368041992,
-      "learning_rate": 1.5519713261648747e-05,
-      "loss": 0.2733,
       "step": 2360
     },
     {
       "epoch": 8.49,
-      "grad_norm": 3.73573899269104,
-      "learning_rate": 1.5161290322580646e-05,
-      "loss": 0.2891,
       "step": 2370
     },
     {
       "epoch": 8.53,
-      "grad_norm": 1.723080039024353,
-      "learning_rate": 1.4802867383512544e-05,
-      "loss": 0.2959,
       "step": 2380
     },
     {
       "epoch": 8.57,
-      "grad_norm": 2.3597002029418945,
-      "learning_rate": 1.4444444444444444e-05,
-      "loss": 0.2784,
       "step": 2390
     },
     {
       "epoch": 8.6,
-      "grad_norm": 0.19159385561943054,
-      "learning_rate": 1.4086021505376346e-05,
-      "loss": 0.1791,
       "step": 2400
     },
     {
       "epoch": 8.6,
-      "eval_accuracy": 0.8670756646216768,
-      "eval_loss": 0.46364837884902954,
-      "eval_runtime": 13.0224,
-      "eval_samples_per_second": 75.101,
-      "eval_steps_per_second": 9.445,
       "step": 2400
     },
     {
       "epoch": 8.64,
-      "grad_norm": 8.25283145904541,
-      "learning_rate": 1.3727598566308244e-05,
-      "loss": 0.2331,
       "step": 2410
     },
     {
       "epoch": 8.67,
-      "grad_norm": 4.816408157348633,
-      "learning_rate": 1.3369175627240143e-05,
-      "loss": 0.1704,
       "step": 2420
     },
     {
       "epoch": 8.71,
-      "grad_norm": 10.364704132080078,
-      "learning_rate": 1.3010752688172043e-05,
-      "loss": 0.2854,
       "step": 2430
     },
     {
       "epoch": 8.75,
-      "grad_norm": 6.165342807769775,
-      "learning_rate": 1.2652329749103945e-05,
-      "loss": 0.1635,
       "step": 2440
     },
     {
       "epoch": 8.78,
-      "grad_norm": 10.325529098510742,
-      "learning_rate": 1.2293906810035843e-05,
-      "loss": 0.2685,
       "step": 2450
     },
     {
       "epoch": 8.82,
-      "grad_norm": 1.4126335382461548,
-      "learning_rate": 1.1935483870967743e-05,
-      "loss": 0.1575,
       "step": 2460
     },
     {
       "epoch": 8.85,
-      "grad_norm": 8.191924095153809,
-      "learning_rate": 1.1577060931899642e-05,
-      "loss": 0.2585,
       "step": 2470
     },
     {
       "epoch": 8.89,
-      "grad_norm": 6.928045272827148,
-      "learning_rate": 1.1218637992831542e-05,
-      "loss": 0.2129,
       "step": 2480
     },
     {
       "epoch": 8.92,
-      "grad_norm": 2.3231565952301025,
-      "learning_rate": 1.086021505376344e-05,
-      "loss": 0.3085,
       "step": 2490
     },
     {
       "epoch": 8.96,
-      "grad_norm": 2.7480709552764893,
-      "learning_rate": 1.0501792114695342e-05,
-      "loss": 0.1697,
       "step": 2500
     },
     {
       "epoch": 8.96,
-      "eval_accuracy": 0.8640081799591002,
-      "eval_loss": 0.4716458022594452,
-      "eval_runtime": 13.2964,
-      "eval_samples_per_second": 73.554,
-      "eval_steps_per_second": 9.251,
       "step": 2500
     },
     {
       "epoch": 9.0,
-      "grad_norm": 6.852436542510986,
-      "learning_rate": 1.014336917562724e-05,
-      "loss": 0.1856,
       "step": 2510
     },
     {
       "epoch": 9.03,
-      "grad_norm": 5.506394863128662,
-      "learning_rate": 9.78494623655914e-06,
-      "loss": 0.1951,
       "step": 2520
     },
     {
       "epoch": 9.07,
-      "grad_norm": 3.1270835399627686,
-      "learning_rate": 9.426523297491039e-06,
-      "loss": 0.1896,
       "step": 2530
     },
     {
       "epoch": 9.1,
-      "grad_norm": 3.797590732574463,
-      "learning_rate": 9.06810035842294e-06,
-      "loss": 0.2276,
       "step": 2540
     },
     {
       "epoch": 9.14,
-      "grad_norm": 4.3236985206604,
-      "learning_rate": 8.70967741935484e-06,
-      "loss": 0.2272,
       "step": 2550
     },
     {
       "epoch": 9.18,
-      "grad_norm": 4.975371837615967,
-      "learning_rate": 8.351254480286738e-06,
-      "loss": 0.2491,
       "step": 2560
     },
     {
       "epoch": 9.21,
-      "grad_norm": 1.405785083770752,
-      "learning_rate": 7.992831541218638e-06,
-      "loss": 0.1985,
       "step": 2570
     },
     {
       "epoch": 9.25,
-      "grad_norm": 0.13112181425094604,
-      "learning_rate": 7.634408602150538e-06,
-      "loss": 0.1134,
       "step": 2580
     },
     {
       "epoch": 9.28,
-      "grad_norm": 2.597059965133667,
-      "learning_rate": 7.275985663082438e-06,
-      "loss": 0.229,
       "step": 2590
     },
     {
       "epoch": 9.32,
-      "grad_norm": 0.1491578221321106,
-      "learning_rate": 6.917562724014337e-06,
-      "loss": 0.1608,
       "step": 2600
     },
     {
       "epoch": 9.32,
-      "eval_accuracy": 0.8742331288343558,
-      "eval_loss": 0.4680761694908142,
-      "eval_runtime": 13.2277,
-      "eval_samples_per_second": 73.936,
-      "eval_steps_per_second": 9.299,
       "step": 2600
     },
     {
       "epoch": 9.35,
-      "grad_norm": 3.264333724975586,
-      "learning_rate": 6.559139784946237e-06,
-      "loss": 0.2228,
       "step": 2610
     },
     {
       "epoch": 9.39,
-      "grad_norm": 3.251711130142212,
-      "learning_rate": 6.200716845878137e-06,
-      "loss": 0.1504,
       "step": 2620
     },
     {
       "epoch": 9.43,
-      "grad_norm": 0.05231141671538353,
-      "learning_rate": 5.842293906810036e-06,
-      "loss": 0.1097,
       "step": 2630
     },
     {
       "epoch": 9.46,
-      "grad_norm": 6.941389083862305,
-      "learning_rate": 5.483870967741936e-06,
-      "loss": 0.2046,
       "step": 2640
     },
     {
       "epoch": 9.5,
-      "grad_norm": 1.9816231727600098,
-      "learning_rate": 5.125448028673835e-06,
-      "loss": 0.2879,
       "step": 2650
     },
     {
       "epoch": 9.53,
-      "grad_norm": 1.5215052366256714,
-      "learning_rate": 4.767025089605735e-06,
-      "loss": 0.2352,
       "step": 2660
     },
     {
       "epoch": 9.57,
-      "grad_norm": 0.055237527936697006,
-      "learning_rate": 4.408602150537635e-06,
-      "loss": 0.1954,
       "step": 2670
     },
     {
       "epoch": 9.61,
-      "grad_norm": 4.320139408111572,
-      "learning_rate": 4.050179211469534e-06,
-      "loss": 0.3845,
       "step": 2680
     },
     {
       "epoch": 9.64,
-      "grad_norm": 3.767547607421875,
-      "learning_rate": 3.6917562724014336e-06,
-      "loss": 0.3031,
       "step": 2690
     },
     {
       "epoch": 9.68,
-      "grad_norm": 0.48145973682403564,
-      "learning_rate": 3.3333333333333333e-06,
-      "loss": 0.2105,
       "step": 2700
     },
     {
       "epoch": 9.68,
-      "eval_accuracy": 0.8721881390593047,
-      "eval_loss": 0.47190210223197937,
-      "eval_runtime": 13.2161,
-      "eval_samples_per_second": 74.001,
-      "eval_steps_per_second": 9.307,
       "step": 2700
     },
     {
       "epoch": 9.71,
-      "grad_norm": 1.6004977226257324,
-      "learning_rate": 2.974910394265233e-06,
-      "loss": 0.2186,
       "step": 2710
     },
     {
       "epoch": 9.75,
-      "grad_norm": 0.4472026228904724,
-      "learning_rate": 2.6164874551971327e-06,
-      "loss": 0.1528,
       "step": 2720
     },
     {
       "epoch": 9.78,
-      "grad_norm": 0.12501764297485352,
-      "learning_rate": 2.2580645161290324e-06,
-      "loss": 0.1218,
       "step": 2730
     },
     {
       "epoch": 9.82,
-      "grad_norm": 2.206127405166626,
-      "learning_rate": 1.8996415770609319e-06,
-      "loss": 0.1324,
       "step": 2740
     },
     {
       "epoch": 9.86,
-      "grad_norm": 0.9404085278511047,
-      "learning_rate": 1.5412186379928316e-06,
-      "loss": 0.2832,
       "step": 2750
     },
     {
       "epoch": 9.89,
-      "grad_norm": 5.883946418762207,
-      "learning_rate": 1.1827956989247313e-06,
-      "loss": 0.2113,
       "step": 2760
     },
     {
       "epoch": 9.93,
-      "grad_norm": 5.288418292999268,
-      "learning_rate": 8.243727598566309e-07,
-      "loss": 0.1662,
       "step": 2770
     },
     {
       "epoch": 9.96,
-      "grad_norm": 8.01339054107666,
-      "learning_rate": 4.6594982078853055e-07,
-      "loss": 0.1672,
       "step": 2780
     },
     {
       "epoch": 10.0,
-      "grad_norm": 7.813081741333008,
-      "learning_rate": 1.0752688172043011e-07,
-      "loss": 0.1825,
       "step": 2790
     },
     {
       "epoch": 10.0,
       "step": 2790,
       "total_flos": 3.451740694569861e+18,
-      "train_loss": 0.45333294201922675,
-      "train_runtime": 1524.4216,
-      "train_samples_per_second": 29.218,
-      "train_steps_per_second": 1.83
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.47253116965293884,
+  "best_model_checkpoint": "Action_all_10_class/checkpoint-1500",
   "epoch": 10.0,
   "eval_steps": 100,
   "global_step": 2790,
   "log_history": [
     {
       "epoch": 0.04,
+      "grad_norm": 1.6752883195877075,
       "learning_rate": 9.96415770609319e-05,
+      "loss": 2.247,
       "step": 10
     },
     {
       "epoch": 0.07,
+      "grad_norm": 1.8152681589126587,
       "learning_rate": 9.928315412186381e-05,
+      "loss": 2.1602,
       "step": 20
     },
     {
       "epoch": 0.11,
+      "grad_norm": 2.164091110229492,
       "learning_rate": 9.892473118279571e-05,
+      "loss": 2.0409,
       "step": 30
     },
     {
       "epoch": 0.14,
+      "grad_norm": 2.6417195796966553,
       "learning_rate": 9.85663082437276e-05,
+      "loss": 1.8783,
       "step": 40
     },
     {
       "epoch": 0.18,
+      "grad_norm": 4.199918746948242,
       "learning_rate": 9.820788530465951e-05,
+      "loss": 1.7363,
       "step": 50
     },
     {
       "epoch": 0.22,
+      "grad_norm": 2.9530537128448486,
       "learning_rate": 9.78494623655914e-05,
+      "loss": 1.5894,
       "step": 60
     },
     {
       "epoch": 0.25,
+      "grad_norm": 2.777188301086426,
       "learning_rate": 9.74910394265233e-05,
+      "loss": 1.4617,
       "step": 70
     },
     {
       "epoch": 0.29,
+      "grad_norm": 3.2515618801116943,
+      "learning_rate": 9.713261648745519e-05,
+      "loss": 1.4804,
       "step": 80
     },
     {
       "epoch": 0.32,
+      "grad_norm": 2.89544939994812,
       "learning_rate": 9.681003584229391e-05,
+      "loss": 1.2876,
       "step": 90
     },
     {
       "epoch": 0.36,
+      "grad_norm": 2.372511625289917,
       "learning_rate": 9.645161290322581e-05,
+      "loss": 1.2411,
       "step": 100
     },
     {
       "epoch": 0.36,
+      "eval_accuracy": 0.754601226993865,
+      "eval_loss": 1.1517137289047241,
+      "eval_runtime": 18.3534,
+      "eval_samples_per_second": 53.287,
+      "eval_steps_per_second": 6.702,
       "step": 100
     },
     {
       "epoch": 0.39,
+      "grad_norm": 3.142375946044922,
       "learning_rate": 9.609318996415772e-05,
+      "loss": 1.2389,
       "step": 110
     },
     {
       "epoch": 0.43,
+      "grad_norm": 2.8880653381347656,
       "learning_rate": 9.573476702508962e-05,
+      "loss": 1.179,
       "step": 120
     },
     {
       "epoch": 0.47,
+      "grad_norm": 3.925424575805664,
+      "learning_rate": 9.541218637992831e-05,
+      "loss": 1.1092,
       "step": 130
     },
     {
       "epoch": 0.5,
+      "grad_norm": 4.03208589553833,
+      "learning_rate": 9.505376344086023e-05,
+      "loss": 1.1389,
       "step": 140
     },
     {
       "epoch": 0.54,
+      "grad_norm": 2.35840106010437,
+      "learning_rate": 9.469534050179211e-05,
+      "loss": 1.0824,
       "step": 150
     },
     {
       "epoch": 0.57,
+      "grad_norm": 3.0924174785614014,
+      "learning_rate": 9.433691756272402e-05,
+      "loss": 0.957,
       "step": 160
     },
     {
       "epoch": 0.61,
+      "grad_norm": 4.47157096862793,
+      "learning_rate": 9.397849462365592e-05,
+      "loss": 1.0797,
       "step": 170
     },
     {
       "epoch": 0.65,
+      "grad_norm": 2.9026050567626953,
+      "learning_rate": 9.362007168458782e-05,
+      "loss": 1.0961,
       "step": 180
     },
     {
       "epoch": 0.68,
+      "grad_norm": 2.673151969909668,
+      "learning_rate": 9.326164874551971e-05,
+      "loss": 1.0421,
       "step": 190
     },
     {
       "epoch": 0.72,
+      "grad_norm": 1.5587886571884155,
+      "learning_rate": 9.290322580645162e-05,
+      "loss": 0.8932,
       "step": 200
     },
     {
       "epoch": 0.72,
+      "eval_accuracy": 0.7975460122699386,
+      "eval_loss": 0.785646915435791,
+      "eval_runtime": 14.5537,
+      "eval_samples_per_second": 67.199,
+      "eval_steps_per_second": 8.451,
       "step": 200
     },
     {
       "epoch": 0.75,
+      "grad_norm": 3.5420029163360596,
+      "learning_rate": 9.254480286738351e-05,
+      "loss": 0.9145,
       "step": 210
     },
     {
       "epoch": 0.79,
+      "grad_norm": 3.8418989181518555,
+      "learning_rate": 9.218637992831541e-05,
+      "loss": 0.8473,
       "step": 220
     },
     {
       "epoch": 0.82,
+      "grad_norm": 3.9392898082733154,
+      "learning_rate": 9.182795698924731e-05,
+      "loss": 0.7867,
       "step": 230
     },
     {
       "epoch": 0.86,
+      "grad_norm": 5.856507778167725,
+      "learning_rate": 9.146953405017922e-05,
+      "loss": 0.9951,
       "step": 240
     },
     {
       "epoch": 0.9,
+      "grad_norm": 3.318254232406616,
+      "learning_rate": 9.111111111111112e-05,
+      "loss": 0.7852,
       "step": 250
     },
     {
       "epoch": 0.93,
+      "grad_norm": 2.2948904037475586,
+      "learning_rate": 9.0752688172043e-05,
+      "loss": 0.9565,
       "step": 260
     },
     {
       "epoch": 0.97,
+      "grad_norm": 4.516943454742432,
+      "learning_rate": 9.039426523297492e-05,
+      "loss": 0.7034,
       "step": 270
     },
     {
       "epoch": 1.0,
+      "grad_norm": 1.9273302555084229,
+      "learning_rate": 9.003584229390681e-05,
+      "loss": 0.8603,
       "step": 280
     },
     {
       "epoch": 1.04,
+      "grad_norm": 9.084336280822754,
+      "learning_rate": 8.967741935483871e-05,
+      "loss": 0.6914,
       "step": 290
     },
     {
       "epoch": 1.08,
+      "grad_norm": 4.446329116821289,
+      "learning_rate": 8.931899641577061e-05,
+      "loss": 0.6907,
       "step": 300
     },
     {
       "epoch": 1.08,
+      "eval_accuracy": 0.8220858895705522,
+      "eval_loss": 0.6636486649513245,
+      "eval_runtime": 14.1733,
+      "eval_samples_per_second": 69.003,
+      "eval_steps_per_second": 8.678,
       "step": 300
     },
     {
       "epoch": 1.11,
+      "grad_norm": 5.061271667480469,
+      "learning_rate": 8.896057347670252e-05,
+      "loss": 0.7286,
       "step": 310
     },
     {
       "epoch": 1.15,
+      "grad_norm": 3.7218878269195557,
+      "learning_rate": 8.86021505376344e-05,
+      "loss": 0.7241,
       "step": 320
     },
     {
       "epoch": 1.18,
+      "grad_norm": 3.3088059425354004,
+      "learning_rate": 8.824372759856632e-05,
+      "loss": 0.7051,
       "step": 330
     },
     {
       "epoch": 1.22,
+      "grad_norm": 7.993207931518555,
+      "learning_rate": 8.788530465949821e-05,
+      "loss": 0.6652,
       "step": 340
     },
     {
       "epoch": 1.25,
+      "grad_norm": 3.7464661598205566,
+      "learning_rate": 8.752688172043011e-05,
+      "loss": 0.6898,
       "step": 350
     },
     {
       "epoch": 1.29,
+      "grad_norm": 4.751115798950195,
+      "learning_rate": 8.716845878136201e-05,
+      "loss": 0.8783,
       "step": 360
     },
     {
       "epoch": 1.33,
+      "grad_norm": 3.408888578414917,
+      "learning_rate": 8.681003584229391e-05,
+      "loss": 0.6584,
       "step": 370
     },
     {
       "epoch": 1.36,
+      "grad_norm": 4.679331302642822,
+      "learning_rate": 8.645161290322581e-05,
+      "loss": 0.7819,
       "step": 380
     },
     {
       "epoch": 1.4,
+      "grad_norm": 4.112971305847168,
+      "learning_rate": 8.60931899641577e-05,
+      "loss": 0.5751,
       "step": 390
     },
     {
       "epoch": 1.43,
+      "grad_norm": 3.214542865753174,
+      "learning_rate": 8.573476702508962e-05,
+      "loss": 0.5841,
       "step": 400
     },
     {
       "epoch": 1.43,
+      "eval_accuracy": 0.8159509202453987,
+      "eval_loss": 0.6388102173805237,
+      "eval_runtime": 14.2283,
+      "eval_samples_per_second": 68.736,
+      "eval_steps_per_second": 8.645,
       "step": 400
     },
     {
       "epoch": 1.47,
+      "grad_norm": 8.963754653930664,
+      "learning_rate": 8.53763440860215e-05,
+      "loss": 0.7805,
       "step": 410
     },
     {
       "epoch": 1.51,
+      "grad_norm": 4.3538126945495605,
+      "learning_rate": 8.501792114695341e-05,
+      "loss": 0.6053,
       "step": 420
     },
     {
       "epoch": 1.54,
+      "grad_norm": 5.444653034210205,
+      "learning_rate": 8.465949820788531e-05,
+      "loss": 0.764,
       "step": 430
     },
     {
       "epoch": 1.58,
+      "grad_norm": 3.9525132179260254,
+      "learning_rate": 8.430107526881721e-05,
+      "loss": 0.684,
       "step": 440
     },
     {
       "epoch": 1.61,
+      "grad_norm": 3.4026594161987305,
+      "learning_rate": 8.39426523297491e-05,
+      "loss": 0.5835,
       "step": 450
     },
     {
       "epoch": 1.65,
+      "grad_norm": 3.843327522277832,
+      "learning_rate": 8.358422939068102e-05,
+      "loss": 0.5352,
       "step": 460
     },
     {
       "epoch": 1.68,
+      "grad_norm": 5.771996021270752,
       "learning_rate": 8.32258064516129e-05,
+      "loss": 0.631,
       "step": 470
     },
     {
       "epoch": 1.72,
+      "grad_norm": 2.9874844551086426,
       "learning_rate": 8.28673835125448e-05,
+      "loss": 0.611,
       "step": 480
     },
     {
       "epoch": 1.76,
+      "grad_norm": 2.693260431289673,
       "learning_rate": 8.250896057347671e-05,
+      "loss": 0.6031,
       "step": 490
     },
     {
       "epoch": 1.79,
+      "grad_norm": 8.329994201660156,
       "learning_rate": 8.215053763440861e-05,
+      "loss": 0.5425,
       "step": 500
     },
     {
       "epoch": 1.79,
+      "eval_accuracy": 0.843558282208589,
+      "eval_loss": 0.5870967507362366,
+      "eval_runtime": 14.0184,
+      "eval_samples_per_second": 69.765,
+      "eval_steps_per_second": 8.774,
       "step": 500
     },
     {
       "epoch": 1.83,
+      "grad_norm": 3.7939178943634033,
       "learning_rate": 8.179211469534051e-05,
+      "loss": 0.5645,
       "step": 510
     },
     {
       "epoch": 1.86,
+      "grad_norm": 4.04762077331543,
       "learning_rate": 8.14336917562724e-05,
+      "loss": 0.5252,
       "step": 520
     },
     {
       "epoch": 1.9,
+      "grad_norm": 4.459852695465088,
       "learning_rate": 8.107526881720431e-05,
+      "loss": 0.7369,
       "step": 530
     },
     {
       "epoch": 1.94,
+      "grad_norm": 7.254125118255615,
       "learning_rate": 8.07168458781362e-05,
+      "loss": 0.6754,
       "step": 540
     },
     {
       "epoch": 1.97,
+      "grad_norm": 5.496582984924316,
       "learning_rate": 8.03584229390681e-05,
+      "loss": 0.5504,
       "step": 550
     },
     {
       "epoch": 2.01,
+      "grad_norm": 7.471122741699219,
       "learning_rate": 8e-05,
+      "loss": 0.643,
       "step": 560
     },
     {
       "epoch": 2.04,
+      "grad_norm": 4.464521408081055,
       "learning_rate": 7.964157706093191e-05,
+      "loss": 0.575,
       "step": 570
     },
     {
       "epoch": 2.08,
+      "grad_norm": 1.7192500829696655,
       "learning_rate": 7.92831541218638e-05,
+      "loss": 0.4709,
       "step": 580
     },
     {
       "epoch": 2.11,
+      "grad_norm": 6.228574275970459,
       "learning_rate": 7.892473118279571e-05,
+      "loss": 0.5173,
       "step": 590
     },
     {
       "epoch": 2.15,
+      "grad_norm": 6.098475933074951,
       "learning_rate": 7.85663082437276e-05,
+      "loss": 0.5929,
       "step": 600
     },
     {
       "epoch": 2.15,
+      "eval_accuracy": 0.8210633946830266,
+      "eval_loss": 0.5646098852157593,
+      "eval_runtime": 14.2986,
+      "eval_samples_per_second": 68.398,
+      "eval_steps_per_second": 8.602,
       "step": 600
     },
     {
       "epoch": 2.19,
+      "grad_norm": 3.2586510181427,
       "learning_rate": 7.82078853046595e-05,
+      "loss": 0.5392,
       "step": 610
     },
     {
       "epoch": 2.22,
+      "grad_norm": 6.211545944213867,
       "learning_rate": 7.784946236559139e-05,
+      "loss": 0.5032,
       "step": 620
     },
     {
       "epoch": 2.26,
+      "grad_norm": 2.691046953201294,
       "learning_rate": 7.74910394265233e-05,
+      "loss": 0.5918,
       "step": 630
     },
     {
       "epoch": 2.29,
+      "grad_norm": 3.3668406009674072,
       "learning_rate": 7.71326164874552e-05,
+      "loss": 0.6054,
       "step": 640
     },
     {
       "epoch": 2.33,
+      "grad_norm": 3.9461565017700195,
       "learning_rate": 7.67741935483871e-05,
+      "loss": 0.4755,
       "step": 650
     },
     {
       "epoch": 2.37,
+      "grad_norm": 4.586925506591797,
       "learning_rate": 7.6415770609319e-05,
+      "loss": 0.4968,
       "step": 660
     },
     {
       "epoch": 2.4,
+      "grad_norm": 5.659130573272705,
       "learning_rate": 7.60573476702509e-05,
+      "loss": 0.4894,
       "step": 670
     },
     {
       "epoch": 2.44,
+      "grad_norm": 4.458271503448486,
       "learning_rate": 7.56989247311828e-05,
+      "loss": 0.4056,
       "step": 680
     },
     {
       "epoch": 2.47,
+      "grad_norm": 5.034984588623047,
       "learning_rate": 7.53405017921147e-05,
+      "loss": 0.6026,
       "step": 690
     },
     {
       "epoch": 2.51,
+      "grad_norm": 4.018673419952393,
       "learning_rate": 7.49820788530466e-05,
+      "loss": 0.4406,
       "step": 700
     },
     {
       "epoch": 2.51,
+      "eval_accuracy": 0.8404907975460123,
+      "eval_loss": 0.543875515460968,
+      "eval_runtime": 14.0957,
+      "eval_samples_per_second": 69.383,
+      "eval_steps_per_second": 8.726,
       "step": 700
     },
     {
       "epoch": 2.54,
+      "grad_norm": 2.96732759475708,
       "learning_rate": 7.462365591397849e-05,
+      "loss": 0.6851,
       "step": 710
     },
     {
       "epoch": 2.58,
+      "grad_norm": 3.6570851802825928,
       "learning_rate": 7.42652329749104e-05,
+      "loss": 0.4738,
       "step": 720
     },
     {
       "epoch": 2.62,
+      "grad_norm": 3.4345834255218506,
+      "learning_rate": 7.39068100358423e-05,
+      "loss": 0.5739,
       "step": 730
     },
     {
       "epoch": 2.65,
+      "grad_norm": 5.19066858291626,
+      "learning_rate": 7.35483870967742e-05,
+      "loss": 0.4721,
       "step": 740
     },
     {
       "epoch": 2.69,
+      "grad_norm": 5.423111915588379,
+      "learning_rate": 7.318996415770609e-05,
+      "loss": 0.5271,
       "step": 750
     },
     {
       "epoch": 2.72,
+      "grad_norm": 5.806092262268066,
+      "learning_rate": 7.2831541218638e-05,
+      "loss": 0.5163,
       "step": 760
     },
     {
       "epoch": 2.76,
+      "grad_norm": 6.047975540161133,
+      "learning_rate": 7.247311827956989e-05,
+      "loss": 0.5061,
       "step": 770
     },
     {
       "epoch": 2.8,
+      "grad_norm": 7.956634044647217,
+      "learning_rate": 7.211469534050179e-05,
+      "loss": 0.5639,
       "step": 780
     },
     {
       "epoch": 2.83,
+      "grad_norm": 5.515818119049072,
+      "learning_rate": 7.17562724014337e-05,
+      "loss": 0.5214,
       "step": 790
     },
     {
       "epoch": 2.87,
+      "grad_norm": 4.654768943786621,
+      "learning_rate": 7.13978494623656e-05,
+      "loss": 0.4541,
       "step": 800
     },
     {
       "epoch": 2.87,
+      "eval_accuracy": 0.8415132924335378,
+      "eval_loss": 0.5317940711975098,
+      "eval_runtime": 14.2499,
+      "eval_samples_per_second": 68.632,
+      "eval_steps_per_second": 8.632,
       "step": 800
     },
     {
       "epoch": 2.9,
+      "grad_norm": 4.857801914215088,
+      "learning_rate": 7.10394265232975e-05,
+      "loss": 0.415,
       "step": 810
     },
     {
       "epoch": 2.94,
+      "grad_norm": 4.023741722106934,
+      "learning_rate": 7.06810035842294e-05,
+      "loss": 0.3754,
       "step": 820
     },
     {
       "epoch": 2.97,
+      "grad_norm": 7.845776081085205,
+      "learning_rate": 7.03225806451613e-05,
+      "loss": 0.464,
       "step": 830
     },
     {
       "epoch": 3.01,
+      "grad_norm": 10.843958854675293,
+      "learning_rate": 6.996415770609319e-05,
+      "loss": 0.655,
       "step": 840
     },
     {
       "epoch": 3.05,
+      "grad_norm": 2.662417411804199,
+      "learning_rate": 6.960573476702509e-05,
+      "loss": 0.4086,
       "step": 850
     },
     {
       "epoch": 3.08,
+      "grad_norm": 6.569747447967529,
+      "learning_rate": 6.924731182795699e-05,
+      "loss": 0.4273,
       "step": 860
     },
     {
       "epoch": 3.12,
+      "grad_norm": 3.297159433364868,
+      "learning_rate": 6.88888888888889e-05,
+      "loss": 0.4426,
       "step": 870
     },
     {
       "epoch": 3.15,
+      "grad_norm": 5.205211639404297,
+      "learning_rate": 6.853046594982078e-05,
+      "loss": 0.3445,
       "step": 880
     },
     {
       "epoch": 3.19,
+      "grad_norm": 6.75899076461792,
+      "learning_rate": 6.81720430107527e-05,
+      "loss": 0.466,
       "step": 890
     },
     {
       "epoch": 3.23,
+      "grad_norm": 4.749955654144287,
+      "learning_rate": 6.781362007168459e-05,
+      "loss": 0.3835,
       "step": 900
     },
     {
       "epoch": 3.23,
+      "eval_accuracy": 0.8343558282208589,
+      "eval_loss": 0.5224626660346985,
+      "eval_runtime": 14.3694,
+      "eval_samples_per_second": 68.062,
+      "eval_steps_per_second": 8.56,
       "step": 900
     },
     {
       "epoch": 3.26,
+      "grad_norm": 5.145068645477295,
+      "learning_rate": 6.745519713261649e-05,
+      "loss": 0.3779,
       "step": 910
     },
     {
       "epoch": 3.3,
+      "grad_norm": 4.831909656524658,
+      "learning_rate": 6.709677419354839e-05,
+      "loss": 0.3744,
       "step": 920
     },
     {
       "epoch": 3.33,
+      "grad_norm": 3.3703436851501465,
+      "learning_rate": 6.673835125448029e-05,
+      "loss": 0.3374,
       "step": 930
     },
     {
       "epoch": 3.37,
+      "grad_norm": 10.194363594055176,
+      "learning_rate": 6.63799283154122e-05,
+      "loss": 0.4076,
       "step": 940
     },
     {
       "epoch": 3.41,
+      "grad_norm": 1.0064858198165894,
+      "learning_rate": 6.602150537634408e-05,
+      "loss": 0.4434,
       "step": 950
     },
     {
       "epoch": 3.44,
+      "grad_norm": 2.8392670154571533,
+      "learning_rate": 6.5663082437276e-05,
+      "loss": 0.318,
       "step": 960
     },
     {
       "epoch": 3.48,
+      "grad_norm": 2.6734464168548584,
+      "learning_rate": 6.530465949820789e-05,
+      "loss": 0.5079,
       "step": 970
     },
     {
       "epoch": 3.51,
+      "grad_norm": 2.2691242694854736,
+      "learning_rate": 6.494623655913979e-05,
+      "loss": 0.3849,
       "step": 980
     },
     {
       "epoch": 3.55,
+      "grad_norm": 3.17016863822937,
+      "learning_rate": 6.458781362007169e-05,
+      "loss": 0.3427,
       "step": 990
     },
     {
       "epoch": 3.58,
+      "grad_norm": 1.534572720527649,
+      "learning_rate": 6.422939068100359e-05,
+      "loss": 0.3924,
       "step": 1000
     },
     {
       "epoch": 3.58,
+      "eval_accuracy": 0.8302658486707567,
+      "eval_loss": 0.5514972805976868,
+      "eval_runtime": 14.2143,
+      "eval_samples_per_second": 68.804,
+      "eval_steps_per_second": 8.653,
       "step": 1000
     },
     {
       "epoch": 3.62,
+      "grad_norm": 1.171107292175293,
+      "learning_rate": 6.387096774193548e-05,
+      "loss": 0.3694,
       "step": 1010
     },
     {
       "epoch": 3.66,
+      "grad_norm": 4.934769630432129,
+      "learning_rate": 6.35125448028674e-05,
+      "loss": 0.3607,
       "step": 1020
     },
     {
       "epoch": 3.69,
+      "grad_norm": 7.391957759857178,
+      "learning_rate": 6.315412186379928e-05,
+      "loss": 0.3429,
       "step": 1030
     },
     {
       "epoch": 3.73,
+      "grad_norm": 7.1492156982421875,
+      "learning_rate": 6.279569892473119e-05,
+      "loss": 0.4211,
       "step": 1040
     },
     {
       "epoch": 3.76,
+      "grad_norm": 5.837622165679932,
+      "learning_rate": 6.243727598566309e-05,
+      "loss": 0.3857,
       "step": 1050
     },
     {
       "epoch": 3.8,
+      "grad_norm": 5.638124465942383,
+      "learning_rate": 6.207885304659499e-05,
+      "loss": 0.4379,
       "step": 1060
     },
     {
       "epoch": 3.84,
+      "grad_norm": 5.501093864440918,
+      "learning_rate": 6.172043010752688e-05,
+      "loss": 0.3903,
       "step": 1070
     },
     {
       "epoch": 3.87,
+      "grad_norm": 6.717010021209717,
+      "learning_rate": 6.136200716845878e-05,
+      "loss": 0.3844,
       "step": 1080
     },
     {
       "epoch": 3.91,
+      "grad_norm": 8.419461250305176,
+      "learning_rate": 6.100358422939069e-05,
+      "loss": 0.3705,
       "step": 1090
     },
     {
       "epoch": 3.94,
+      "grad_norm": 7.757752895355225,
+      "learning_rate": 6.064516129032258e-05,
+      "loss": 0.5741,
       "step": 1100
     },
     {
       "epoch": 3.94,
+      "eval_accuracy": 0.8251533742331288,
+      "eval_loss": 0.5519386529922485,
+      "eval_runtime": 13.907,
+      "eval_samples_per_second": 70.324,
+      "eval_steps_per_second": 8.844,
       "step": 1100
     },
     {
       "epoch": 3.98,
+      "grad_norm": 3.006796360015869,
+      "learning_rate": 6.028673835125448e-05,
+      "loss": 0.5208,
       "step": 1110
     },
     {
       "epoch": 4.01,
+      "grad_norm": 4.00032901763916,
+      "learning_rate": 5.9928315412186386e-05,
+      "loss": 0.3386,
       "step": 1120
     },
     {
       "epoch": 4.05,
+      "grad_norm": 1.4214438199996948,
+      "learning_rate": 5.956989247311828e-05,
+      "loss": 0.2971,
       "step": 1130
     },
     {
       "epoch": 4.09,
+      "grad_norm": 4.046026229858398,
+      "learning_rate": 5.9211469534050176e-05,
+      "loss": 0.4146,
       "step": 1140
     },
     {
       "epoch": 4.12,
+      "grad_norm": 2.4826581478118896,
+      "learning_rate": 5.8853046594982085e-05,
+      "loss": 0.4243,
       "step": 1150
     },
     {
       "epoch": 4.16,
+      "grad_norm": 4.898519515991211,
+      "learning_rate": 5.849462365591398e-05,
+      "loss": 0.3691,
       "step": 1160
     },
     {
       "epoch": 4.19,
+      "grad_norm": 7.121424198150635,
+      "learning_rate": 5.813620071684588e-05,
+      "loss": 0.4513,
       "step": 1170
     },
     {
       "epoch": 4.23,
+      "grad_norm": 5.212203025817871,
+      "learning_rate": 5.7777777777777776e-05,
+      "loss": 0.4,
       "step": 1180
     },
     {
       "epoch": 4.27,
+      "grad_norm": 11.669204711914062,
+      "learning_rate": 5.7419354838709685e-05,
+      "loss": 0.3429,
       "step": 1190
     },
     {
       "epoch": 4.3,
+      "grad_norm": 11.0433349609375,
+      "learning_rate": 5.706093189964158e-05,
+      "loss": 0.3991,
       "step": 1200
     },
     {
       "epoch": 4.3,
+      "eval_accuracy": 0.8445807770961146,
+      "eval_loss": 0.49900951981544495,
+      "eval_runtime": 13.9712,
+      "eval_samples_per_second": 70.001,
+      "eval_steps_per_second": 8.804,
       "step": 1200
     },
     {
       "epoch": 4.34,
+      "grad_norm": 3.952008008956909,
+      "learning_rate": 5.6702508960573475e-05,
+      "loss": 0.3259,
       "step": 1210
     },
     {
       "epoch": 4.37,
+      "grad_norm": 2.535245895385742,
+      "learning_rate": 5.6344086021505384e-05,
+      "loss": 0.2201,
       "step": 1220
     },
     {
       "epoch": 4.41,
+      "grad_norm": 5.427143096923828,
+      "learning_rate": 5.598566308243728e-05,
+      "loss": 0.3986,
       "step": 1230
     },
     {
       "epoch": 4.44,
+      "grad_norm": 6.882002353668213,
+      "learning_rate": 5.5627240143369174e-05,
+      "loss": 0.4718,
       "step": 1240
     },
     {
       "epoch": 4.48,
+      "grad_norm": 3.7098076343536377,
+      "learning_rate": 5.526881720430108e-05,
+      "loss": 0.3653,
       "step": 1250
     },
     {
       "epoch": 4.52,
+      "grad_norm": 3.8536739349365234,
+      "learning_rate": 5.491039426523298e-05,
+      "loss": 0.358,
       "step": 1260
     },
     {
       "epoch": 4.55,
+      "grad_norm": 6.399543762207031,
+      "learning_rate": 5.455197132616487e-05,
+      "loss": 0.4017,
       "step": 1270
     },
     {
       "epoch": 4.59,
+      "grad_norm": 5.091586112976074,
+      "learning_rate": 5.419354838709678e-05,
+      "loss": 0.493,
       "step": 1280
     },
     {
       "epoch": 4.62,
+      "grad_norm": 5.683386325836182,
+      "learning_rate": 5.3835125448028676e-05,
+      "loss": 0.5526,
       "step": 1290
     },
     {
       "epoch": 4.66,
+      "grad_norm": 3.3343377113342285,
+      "learning_rate": 5.347670250896057e-05,
+      "loss": 0.4732,
       "step": 1300
     },
     {
       "epoch": 4.66,
+      "eval_accuracy": 0.8302658486707567,
+      "eval_loss": 0.5335860252380371,
+      "eval_runtime": 14.2962,
+      "eval_samples_per_second": 68.41,
+      "eval_steps_per_second": 8.604,
       "step": 1300
     },
     {
       "epoch": 4.7,
+      "grad_norm": 5.0791521072387695,
+      "learning_rate": 5.311827956989247e-05,
+      "loss": 0.3433,
       "step": 1310
     },
     {
       "epoch": 4.73,
+      "grad_norm": 4.7593607902526855,
+      "learning_rate": 5.2759856630824375e-05,
+      "loss": 0.3617,
       "step": 1320
     },
     {
       "epoch": 4.77,
+      "grad_norm": 3.0220556259155273,
+      "learning_rate": 5.2401433691756277e-05,
+      "loss": 0.3243,
       "step": 1330
     },
     {
       "epoch": 4.8,
+      "grad_norm": 1.736549735069275,
+      "learning_rate": 5.204301075268817e-05,
+      "loss": 0.3488,
       "step": 1340
     },
     {
       "epoch": 4.84,
+      "grad_norm": 4.916406154632568,
+      "learning_rate": 5.168458781362008e-05,
+      "loss": 0.2955,
       "step": 1350
     },
     {
       "epoch": 4.87,
+      "grad_norm": 9.70033073425293,
+      "learning_rate": 5.1326164874551975e-05,
+      "loss": 0.392,
       "step": 1360
     },
     {
       "epoch": 4.91,
+      "grad_norm": 2.5204570293426514,
+      "learning_rate": 5.096774193548387e-05,
+      "loss": 0.2706,
       "step": 1370
     },
     {
       "epoch": 4.95,
+      "grad_norm": 4.673634052276611,
+      "learning_rate": 5.060931899641578e-05,
+      "loss": 0.3257,
       "step": 1380
     },
     {
       "epoch": 4.98,
+      "grad_norm": 5.239686012268066,
+      "learning_rate": 5.0250896057347674e-05,
+      "loss": 0.3738,
       "step": 1390
     },
     {
       "epoch": 5.02,
+      "grad_norm": 3.337782144546509,
+      "learning_rate": 4.989247311827957e-05,
+      "loss": 0.3324,
       "step": 1400
     },
     {
       "epoch": 5.02,
+      "eval_accuracy": 0.8282208588957055,
+      "eval_loss": 0.5350744128227234,
+      "eval_runtime": 14.1615,
+      "eval_samples_per_second": 69.061,
+      "eval_steps_per_second": 8.686,
       "step": 1400
     },
     {
       "epoch": 5.05,
+      "grad_norm": 2.9601023197174072,
+      "learning_rate": 4.953405017921147e-05,
+      "loss": 0.2966,
       "step": 1410
     },
     {
       "epoch": 5.09,
+      "grad_norm": 10.412677764892578,
+      "learning_rate": 4.917562724014337e-05,
+      "loss": 0.3838,
       "step": 1420
     },
     {
       "epoch": 5.13,
+      "grad_norm": 1.986757755279541,
+      "learning_rate": 4.881720430107527e-05,
+      "loss": 0.4096,
       "step": 1430
     },
     {
       "epoch": 5.16,
+      "grad_norm": 1.2032238245010376,
+      "learning_rate": 4.845878136200717e-05,
+      "loss": 0.3183,
       "step": 1440
     },
     {
       "epoch": 5.2,
+      "grad_norm": 1.7991982698440552,
+      "learning_rate": 4.810035842293907e-05,
+      "loss": 0.2713,
       "step": 1450
     },
     {
       "epoch": 5.23,
+      "grad_norm": 7.0565385818481445,
+      "learning_rate": 4.774193548387097e-05,
+      "loss": 0.2414,
       "step": 1460
     },
     {
       "epoch": 5.27,
+      "grad_norm": 3.8213694095611572,
+      "learning_rate": 4.7383512544802875e-05,
+      "loss": 0.363,
       "step": 1470
     },
     {
       "epoch": 5.3,
+      "grad_norm": 2.4153404235839844,
+      "learning_rate": 4.702508960573477e-05,
+      "loss": 0.349,
       "step": 1480
     },
     {
       "epoch": 5.34,
+      "grad_norm": 2.161435842514038,
+      "learning_rate": 4.666666666666667e-05,
+      "loss": 0.2626,
       "step": 1490
     },
     {
       "epoch": 5.38,
+      "grad_norm": 5.8719282150268555,
+      "learning_rate": 4.630824372759857e-05,
+      "loss": 0.3433,
       "step": 1500
     },
     {
       "epoch": 5.38,
+      "eval_accuracy": 0.8517382413087935,
+      "eval_loss": 0.47253116965293884,
+      "eval_runtime": 14.1174,
+      "eval_samples_per_second": 69.276,
+      "eval_steps_per_second": 8.713,
       "step": 1500
     },
     {
       "epoch": 5.41,
+      "grad_norm": 5.560650825500488,
+      "learning_rate": 4.594982078853047e-05,
+      "loss": 0.2775,
       "step": 1510
     },
     {
       "epoch": 5.45,
+      "grad_norm": 2.5716190338134766,
+      "learning_rate": 4.559139784946237e-05,
+      "loss": 0.2537,
       "step": 1520
     },
     {
       "epoch": 5.48,
+      "grad_norm": 5.602371692657471,
+      "learning_rate": 4.5232974910394265e-05,
+      "loss": 0.3127,
       "step": 1530
     },
     {
       "epoch": 5.52,
+      "grad_norm": 5.320743083953857,
+      "learning_rate": 4.487455197132617e-05,
+      "loss": 0.2878,
       "step": 1540
     },
     {
       "epoch": 5.56,
+      "grad_norm": 4.925574779510498,
+      "learning_rate": 4.451612903225807e-05,
+      "loss": 0.2842,
       "step": 1550
     },
     {
       "epoch": 5.59,
+      "grad_norm": 3.862708568572998,
+      "learning_rate": 4.4157706093189964e-05,
+      "loss": 0.3004,
       "step": 1560
     },
     {
       "epoch": 5.63,
+      "grad_norm": 3.0864365100860596,
+      "learning_rate": 4.3799283154121866e-05,
+      "loss": 0.2638,
       "step": 1570
     },
     {
       "epoch": 5.66,
+      "grad_norm": 3.5530340671539307,
+      "learning_rate": 4.344086021505376e-05,
+      "loss": 0.2439,
       "step": 1580
     },
     {
       "epoch": 5.7,
+      "grad_norm": 5.929757118225098,
+      "learning_rate": 4.308243727598566e-05,
+      "loss": 0.3235,
       "step": 1590
     },
     {
       "epoch": 5.73,
+      "grad_norm": 3.567291736602783,
+      "learning_rate": 4.2724014336917564e-05,
+      "loss": 0.2187,
       "step": 1600
     },
     {
       "epoch": 5.73,
+      "eval_accuracy": 0.8466257668711656,
+      "eval_loss": 0.5041967034339905,
+      "eval_runtime": 14.1345,
+      "eval_samples_per_second": 69.193,
+      "eval_steps_per_second": 8.702,
       "step": 1600
     },
     {
       "epoch": 5.77,
+      "grad_norm": 0.8105212450027466,
+      "learning_rate": 4.2365591397849466e-05,
+      "loss": 0.2792,
       "step": 1610
     },
     {
       "epoch": 5.81,
+      "grad_norm": 3.8311142921447754,
+      "learning_rate": 4.200716845878137e-05,
+      "loss": 0.2313,
       "step": 1620
     },
     {
       "epoch": 5.84,
+      "grad_norm": 6.618185043334961,
+      "learning_rate": 4.164874551971326e-05,
+      "loss": 0.2668,
       "step": 1630
     },
     {
       "epoch": 5.88,
+      "grad_norm": 7.174586772918701,
+      "learning_rate": 4.1290322580645165e-05,
+      "loss": 0.2684,
       "step": 1640
     },
     {
       "epoch": 5.91,
+      "grad_norm": 6.7463788986206055,
+      "learning_rate": 4.093189964157707e-05,
+      "loss": 0.2825,
       "step": 1650
     },
     {
       "epoch": 5.95,
+      "grad_norm": 2.402876853942871,
+      "learning_rate": 4.057347670250896e-05,
+      "loss": 0.2986,
       "step": 1660
     },
     {
       "epoch": 5.99,
+      "grad_norm": 2.343830108642578,
+      "learning_rate": 4.0215053763440864e-05,
+      "loss": 0.3086,
       "step": 1670
     },
     {
       "epoch": 6.02,
+      "grad_norm": 3.3489632606506348,
+      "learning_rate": 3.985663082437276e-05,
+      "loss": 0.2844,
       "step": 1680
     },
     {
       "epoch": 6.06,
+      "grad_norm": 2.076068162918091,
+      "learning_rate": 3.949820788530466e-05,
+      "loss": 0.1609,
       "step": 1690
     },
     {
       "epoch": 6.09,
+      "grad_norm": 3.9822871685028076,
+      "learning_rate": 3.913978494623656e-05,
+      "loss": 0.2952,
       "step": 1700
     },
     {
       "epoch": 6.09,
+      "eval_accuracy": 0.8548057259713702,
+      "eval_loss": 0.5240095257759094,
+      "eval_runtime": 14.3375,
+      "eval_samples_per_second": 68.213,
+      "eval_steps_per_second": 8.579,
       "step": 1700
     },
     {
       "epoch": 6.13,
+      "grad_norm": 3.8955540657043457,
+      "learning_rate": 3.878136200716846e-05,
+      "loss": 0.3564,
       "step": 1710
     },
     {
       "epoch": 6.16,
+      "grad_norm": 2.374730348587036,
+      "learning_rate": 3.842293906810036e-05,
+      "loss": 0.2467,
       "step": 1720
     },
     {
       "epoch": 6.2,
+      "grad_norm": 6.376945495605469,
+      "learning_rate": 3.8064516129032254e-05,
+      "loss": 0.2584,
       "step": 1730
     },
     {
       "epoch": 6.24,
+      "grad_norm": 5.645608901977539,
+      "learning_rate": 3.7706093189964156e-05,
+      "loss": 0.3091,
       "step": 1740
     },
     {
       "epoch": 6.27,
+      "grad_norm": 2.882622241973877,
+      "learning_rate": 3.734767025089606e-05,
+      "loss": 0.2471,
       "step": 1750
     },
     {
       "epoch": 6.31,
+      "grad_norm": 8.7712984085083,
+      "learning_rate": 3.698924731182796e-05,
+      "loss": 0.2595,
       "step": 1760
     },
     {
       "epoch": 6.34,
+      "grad_norm": 2.5900111198425293,
+      "learning_rate": 3.663082437275986e-05,
+      "loss": 0.3474,
       "step": 1770
     },
     {
       "epoch": 6.38,
+      "grad_norm": 0.14616957306861877,
+      "learning_rate": 3.627240143369176e-05,
+      "loss": 0.2777,
       "step": 1780
     },
     {
       "epoch": 6.42,
+      "grad_norm": 5.120488166809082,
+      "learning_rate": 3.591397849462366e-05,
+      "loss": 0.2867,
       "step": 1790
     },
     {
       "epoch": 6.45,
+      "grad_norm": 4.957128524780273,
+      "learning_rate": 3.555555555555556e-05,
+      "loss": 0.2687,
       "step": 1800
     },
     {
       "epoch": 6.45,
+      "eval_accuracy": 0.83640081799591,
+      "eval_loss": 0.5522516965866089,
+      "eval_runtime": 14.281,
+      "eval_samples_per_second": 68.482,
+      "eval_steps_per_second": 8.613,
       "step": 1800
     },
     {
       "epoch": 6.49,
+      "grad_norm": 6.335272312164307,
+      "learning_rate": 3.5197132616487455e-05,
+      "loss": 0.2486,
       "step": 1810
     },
     {
       "epoch": 6.52,
+      "grad_norm": 3.3235371112823486,
+      "learning_rate": 3.483870967741936e-05,
+      "loss": 0.1797,
       "step": 1820
     },
     {
       "epoch": 6.56,
+      "grad_norm": 0.23497584462165833,
+      "learning_rate": 3.448028673835126e-05,
+      "loss": 0.2214,
       "step": 1830
     },
     {
       "epoch": 6.59,
+      "grad_norm": 1.0797181129455566,
+      "learning_rate": 3.4121863799283154e-05,
+      "loss": 0.2369,
       "step": 1840
     },
     {
       "epoch": 6.63,
+      "grad_norm": 3.9156014919281006,
+      "learning_rate": 3.3763440860215055e-05,
+      "loss": 0.2826,
       "step": 1850
     },
     {
       "epoch": 6.67,
+      "grad_norm": 9.87369155883789,
+      "learning_rate": 3.340501792114695e-05,
+      "loss": 0.3399,
       "step": 1860
     },
     {
       "epoch": 6.7,
+      "grad_norm": 3.916306972503662,
+      "learning_rate": 3.304659498207885e-05,
+      "loss": 0.3758,
       "step": 1870
     },
     {
       "epoch": 6.74,
+      "grad_norm": 7.597679615020752,
+      "learning_rate": 3.2688172043010754e-05,
+      "loss": 0.2505,
       "step": 1880
     },
     {
       "epoch": 6.77,
+      "grad_norm": 4.102473735809326,
+      "learning_rate": 3.2329749103942656e-05,
+      "loss": 0.2692,
       "step": 1890
     },
     {
       "epoch": 6.81,
+      "grad_norm": 8.36500358581543,
+      "learning_rate": 3.197132616487455e-05,
+      "loss": 0.3111,
       "step": 1900
     },
     {
       "epoch": 6.81,
+      "eval_accuracy": 0.8496932515337423,
+      "eval_loss": 0.53035569190979,
+      "eval_runtime": 14.3586,
+      "eval_samples_per_second": 68.112,
+      "eval_steps_per_second": 8.566,
       "step": 1900
     },
     {
       "epoch": 6.85,
+      "grad_norm": 5.454440593719482,
+      "learning_rate": 3.161290322580645e-05,
+      "loss": 0.2373,
       "step": 1910
     },
     {
       "epoch": 6.88,
+      "grad_norm": 0.6554473638534546,
+      "learning_rate": 3.1254480286738355e-05,
+      "loss": 0.1937,
       "step": 1920
     },
     {
       "epoch": 6.92,
+      "grad_norm": 0.24610257148742676,
+      "learning_rate": 3.0896057347670256e-05,
+      "loss": 0.2149,
       "step": 1930
     },
     {
       "epoch": 6.95,
+      "grad_norm": 4.611593246459961,
+      "learning_rate": 3.053763440860215e-05,
+      "loss": 0.2791,
       "step": 1940
     },
     {
       "epoch": 6.99,
+      "grad_norm": 8.88548755645752,
+      "learning_rate": 3.0179211469534053e-05,
+      "loss": 0.3238,
       "step": 1950
     },
     {
       "epoch": 7.03,
+      "grad_norm": 2.9050915241241455,
+      "learning_rate": 2.9820788530465955e-05,
+      "loss": 0.2527,
       "step": 1960
     },
     {
       "epoch": 7.06,
+      "grad_norm": 6.722965717315674,
+      "learning_rate": 2.946236559139785e-05,
+      "loss": 0.2451,
       "step": 1970
     },
     {
       "epoch": 7.1,
+      "grad_norm": 4.379875183105469,
+      "learning_rate": 2.9103942652329752e-05,
+      "loss": 0.269,
       "step": 1980
     },
     {
       "epoch": 7.13,
+      "grad_norm": 2.847017288208008,
+      "learning_rate": 2.8745519713261647e-05,
+      "loss": 0.2776,
       "step": 1990
     },
     {
       "epoch": 7.17,
+      "grad_norm": 5.179224491119385,
+      "learning_rate": 2.838709677419355e-05,
+      "loss": 0.2431,
       "step": 2000
     },
     {
       "epoch": 7.17,
+      "eval_accuracy": 0.8568507157464212,
+      "eval_loss": 0.5104272365570068,
+      "eval_runtime": 14.3416,
+      "eval_samples_per_second": 68.193,
+      "eval_steps_per_second": 8.576,
       "step": 2000
     },
     {
       "epoch": 7.2,
+      "grad_norm": 2.521162986755371,
+      "learning_rate": 2.802867383512545e-05,
+      "loss": 0.1631,
       "step": 2010
     },
     {
       "epoch": 7.24,
+      "grad_norm": 4.0884246826171875,
+      "learning_rate": 2.767025089605735e-05,
+      "loss": 0.2731,
       "step": 2020
     },
     {
       "epoch": 7.28,
+      "grad_norm": 4.443497180938721,
+      "learning_rate": 2.731182795698925e-05,
+      "loss": 0.2594,
       "step": 2030
     },
     {
       "epoch": 7.31,
+      "grad_norm": 2.3641021251678467,
+      "learning_rate": 2.6953405017921146e-05,
+      "loss": 0.2477,
       "step": 2040
     },
     {
       "epoch": 7.35,
+      "grad_norm": 0.09834872931241989,
+      "learning_rate": 2.6594982078853048e-05,
+      "loss": 0.2298,
       "step": 2050
     },
     {
       "epoch": 7.38,
+      "grad_norm": 3.825798749923706,
+      "learning_rate": 2.623655913978495e-05,
+      "loss": 0.2955,
       "step": 2060
     },
     {
       "epoch": 7.42,
+      "grad_norm": 1.7917243242263794,
+      "learning_rate": 2.5878136200716844e-05,
+      "loss": 0.3034,
       "step": 2070
     },
     {
       "epoch": 7.46,
+      "grad_norm": 2.0665640830993652,
+      "learning_rate": 2.5519713261648746e-05,
+      "loss": 0.2204,
       "step": 2080
     },
     {
       "epoch": 7.49,
+      "grad_norm": 1.5993545055389404,
+      "learning_rate": 2.5161290322580645e-05,
+      "loss": 0.2114,
       "step": 2090
     },
     {
       "epoch": 7.53,
+      "grad_norm": 7.3012871742248535,
+      "learning_rate": 2.4802867383512547e-05,
+      "loss": 0.3265,
       "step": 2100
     },
     {
       "epoch": 7.53,
+      "eval_accuracy": 0.869120654396728,
+      "eval_loss": 0.5085219740867615,
+      "eval_runtime": 14.1317,
+      "eval_samples_per_second": 69.206,
+      "eval_steps_per_second": 8.704,
       "step": 2100
     },
     {
       "epoch": 7.56,
+      "grad_norm": 1.1089341640472412,
+      "learning_rate": 2.4444444444444445e-05,
+      "loss": 0.2762,
       "step": 2110
     },
     {
       "epoch": 7.6,
+      "grad_norm": 4.004220485687256,
+      "learning_rate": 2.4086021505376347e-05,
+      "loss": 0.2453,
       "step": 2120
     },
     {
       "epoch": 7.63,
+      "grad_norm": 7.738345623016357,
+      "learning_rate": 2.3727598566308245e-05,
+      "loss": 0.2757,
       "step": 2130
     },
     {
       "epoch": 7.67,
+      "grad_norm": 3.836663007736206,
       "learning_rate": 2.3405017921146955e-05,
+      "loss": 0.298,
       "step": 2140
     },
     {
       "epoch": 7.71,
+      "grad_norm": 1.0338927507400513,
       "learning_rate": 2.3046594982078853e-05,
+      "loss": 0.1816,
       "step": 2150
     },
     {
       "epoch": 7.74,
+      "grad_norm": 1.0525509119033813,
       "learning_rate": 2.268817204301075e-05,
+      "loss": 0.145,
       "step": 2160
     },
     {
       "epoch": 7.78,
+      "grad_norm": 5.745477676391602,
       "learning_rate": 2.2329749103942653e-05,
+      "loss": 0.2143,
       "step": 2170
     },
     {
       "epoch": 7.81,
+      "grad_norm": 4.428494930267334,
       "learning_rate": 2.1971326164874552e-05,
+      "loss": 0.2301,
       "step": 2180
     },
     {
       "epoch": 7.85,
+      "grad_norm": 5.054660320281982,
       "learning_rate": 2.1612903225806454e-05,
+      "loss": 0.2317,
       "step": 2190
     },
     {
       "epoch": 7.89,
+      "grad_norm": 1.9087740182876587,
       "learning_rate": 2.1254480286738352e-05,
+      "loss": 0.2595,
       "step": 2200
     },
     {
       "epoch": 7.89,
+      "eval_accuracy": 0.8568507157464212,
+      "eval_loss": 0.5014929175376892,
+      "eval_runtime": 14.0273,
+      "eval_samples_per_second": 69.721,
+      "eval_steps_per_second": 8.769,
       "step": 2200
     },
     {
       "epoch": 7.92,
+      "grad_norm": 3.2280988693237305,
       "learning_rate": 2.0896057347670254e-05,
+      "loss": 0.1503,
       "step": 2210
     },
     {
       "epoch": 7.96,
+      "grad_norm": 7.906033039093018,
       "learning_rate": 2.0537634408602152e-05,
+      "loss": 0.2864,
       "step": 2220
     },
     {
       "epoch": 7.99,
+      "grad_norm": 8.353536605834961,
       "learning_rate": 2.017921146953405e-05,
+      "loss": 0.2027,
       "step": 2230
     },
     {
       "epoch": 8.03,
+      "grad_norm": 6.651542663574219,
       "learning_rate": 1.982078853046595e-05,
+      "loss": 0.2513,
       "step": 2240
     },
     {
       "epoch": 8.06,
+      "grad_norm": 4.423330307006836,
       "learning_rate": 1.9462365591397848e-05,
+      "loss": 0.2591,
       "step": 2250
     },
     {
       "epoch": 8.1,
+      "grad_norm": 7.127723217010498,
       "learning_rate": 1.910394265232975e-05,
+      "loss": 0.2341,
       "step": 2260
     },
     {
       "epoch": 8.14,
+      "grad_norm": 1.9292550086975098,
       "learning_rate": 1.874551971326165e-05,
+      "loss": 0.1744,
       "step": 2270
     },
     {
       "epoch": 8.17,
+      "grad_norm": 3.043701648712158,
       "learning_rate": 1.838709677419355e-05,
+      "loss": 0.3194,
       "step": 2280
     },
     {
       "epoch": 8.21,
+      "grad_norm": 5.514953136444092,
       "learning_rate": 1.8028673835125448e-05,
+      "loss": 0.2454,
       "step": 2290
     },
     {
       "epoch": 8.24,
+      "grad_norm": 1.1831002235412598,
       "learning_rate": 1.767025089605735e-05,
+      "loss": 0.1825,
       "step": 2300
     },
     {
       "epoch": 8.24,
+      "eval_accuracy": 0.8619631901840491,
+      "eval_loss": 0.4919591546058655,
+      "eval_runtime": 14.1344,
+      "eval_samples_per_second": 69.193,
+      "eval_steps_per_second": 8.702,
       "step": 2300
     },
     {
       "epoch": 8.28,
+      "grad_norm": 3.9401707649230957,
       "learning_rate": 1.7311827956989248e-05,
+      "loss": 0.1456,
       "step": 2310
     },
     {
       "epoch": 8.32,
+      "grad_norm": 7.038700103759766,
+      "learning_rate": 1.6989247311827958e-05,
+      "loss": 0.1804,
       "step": 2320
     },
     {
       "epoch": 8.35,
+      "grad_norm": 9.696996688842773,
+      "learning_rate": 1.6630824372759856e-05,
+      "loss": 0.144,
       "step": 2330
     },
     {
       "epoch": 8.39,
+      "grad_norm": 1.7609977722167969,
+      "learning_rate": 1.6272401433691755e-05,
+      "loss": 0.1852,
       "step": 2340
     },
     {
       "epoch": 8.42,
+      "grad_norm": 0.1569293588399887,
+      "learning_rate": 1.5913978494623657e-05,
+      "loss": 0.302,
       "step": 2350
     },
     {
       "epoch": 8.46,
+      "grad_norm": 6.627655506134033,
+      "learning_rate": 1.5555555555555555e-05,
+      "loss": 0.2418,
       "step": 2360
     },
     {
       "epoch": 8.49,
+      "grad_norm": 4.680299282073975,
+      "learning_rate": 1.5197132616487455e-05,
+      "loss": 0.2042,
       "step": 2370
     },
     {
       "epoch": 8.53,
+      "grad_norm": 3.413140058517456,
+      "learning_rate": 1.4838709677419355e-05,
+      "loss": 0.2608,
       "step": 2380
     },
     {
       "epoch": 8.57,
+      "grad_norm": 0.6003228425979614,
+      "learning_rate": 1.4480286738351257e-05,
+      "loss": 0.2494,
       "step": 2390
     },
     {
       "epoch": 8.6,
+      "grad_norm": 9.677336692810059,
+      "learning_rate": 1.4121863799283155e-05,
+      "loss": 0.2602,
       "step": 2400
     },
     {
       "epoch": 8.6,
+      "eval_accuracy": 0.8619631901840491,
+      "eval_loss": 0.5016282200813293,
+      "eval_runtime": 14.4248,
+      "eval_samples_per_second": 67.8,
+      "eval_steps_per_second": 8.527,
       "step": 2400
     },
     {
       "epoch": 8.64,
+      "grad_norm": 3.607775926589966,
+      "learning_rate": 1.3763440860215054e-05,
+      "loss": 0.2171,
       "step": 2410
     },
     {
       "epoch": 8.67,
+      "grad_norm": 0.4323180019855499,
+      "learning_rate": 1.3405017921146954e-05,
+      "loss": 0.1981,
       "step": 2420
     },
     {
       "epoch": 8.71,
+      "grad_norm": 9.15799331665039,
+      "learning_rate": 1.3046594982078852e-05,
+      "loss": 0.2206,
       "step": 2430
     },
     {
       "epoch": 8.75,
+      "grad_norm": 3.574291229248047,
+      "learning_rate": 1.2688172043010754e-05,
+      "loss": 0.2388,
       "step": 2440
     },
     {
       "epoch": 8.78,
+      "grad_norm": 4.433730125427246,
+      "learning_rate": 1.2329749103942653e-05,
+      "loss": 0.1705,
       "step": 2450
     },
     {
       "epoch": 8.82,
+      "grad_norm": 9.609087944030762,
+      "learning_rate": 1.1971326164874553e-05,
+      "loss": 0.3498,
       "step": 2460
     },
     {
       "epoch": 8.85,
+      "grad_norm": 5.335048675537109,
+      "learning_rate": 1.1612903225806453e-05,
+      "loss": 0.2864,
       "step": 2470
     },
     {
       "epoch": 8.89,
+      "grad_norm": 1.8026251792907715,
+      "learning_rate": 1.1254480286738351e-05,
+      "loss": 0.2135,
       "step": 2480
     },
     {
       "epoch": 8.92,
+      "grad_norm": 1.9891669750213623,
+      "learning_rate": 1.0896057347670251e-05,
+      "loss": 0.2214,
       "step": 2490
     },
     {
       "epoch": 8.96,
+      "grad_norm": 0.7803227305412292,
+      "learning_rate": 1.0537634408602151e-05,
+      "loss": 0.2628,
       "step": 2500
     },
     {
       "epoch": 8.96,
+      "eval_accuracy": 0.8680981595092024,
+      "eval_loss": 0.47455406188964844,
+      "eval_runtime": 14.3927,
+      "eval_samples_per_second": 67.951,
+      "eval_steps_per_second": 8.546,
       "step": 2500
     },
     {
       "epoch": 9.0,
+      "grad_norm": 0.4858655035495758,
+      "learning_rate": 1.017921146953405e-05,
+      "loss": 0.1861,
       "step": 2510
     },
     {
       "epoch": 9.03,
+      "grad_norm": 6.302251815795898,
+      "learning_rate": 9.82078853046595e-06,
+      "loss": 0.2009,
       "step": 2520
     },
     {
       "epoch": 9.07,
+      "grad_norm": 2.5692965984344482,
+      "learning_rate": 9.46236559139785e-06,
+      "loss": 0.1785,
       "step": 2530
     },
     {
       "epoch": 9.1,
+      "grad_norm": 6.564579010009766,
+      "learning_rate": 9.10394265232975e-06,
+      "loss": 0.1284,
       "step": 2540
     },
     {
       "epoch": 9.14,
+      "grad_norm": 5.155548572540283,
+      "learning_rate": 8.745519713261649e-06,
+      "loss": 0.2494,
       "step": 2550
     },
     {
       "epoch": 9.18,
+      "grad_norm": 4.653995990753174,
+      "learning_rate": 8.387096774193549e-06,
+      "loss": 0.1142,
       "step": 2560
     },
     {
       "epoch": 9.21,
+      "grad_norm": 5.491698741912842,
+      "learning_rate": 8.028673835125449e-06,
+      "loss": 0.1887,
       "step": 2570
     },
     {
       "epoch": 9.25,
+      "grad_norm": 1.841364860534668,
+      "learning_rate": 7.670250896057347e-06,
+      "loss": 0.2236,
       "step": 2580
     },
     {
       "epoch": 9.28,
+      "grad_norm": 4.787356376647949,
+      "learning_rate": 7.3118279569892475e-06,
+      "loss": 0.2155,
       "step": 2590
     },
     {
       "epoch": 9.32,
+      "grad_norm": 0.1550242006778717,
+      "learning_rate": 6.953405017921147e-06,
+      "loss": 0.1024,
       "step": 2600
     },
     {
       "epoch": 9.32,
+      "eval_accuracy": 0.869120654396728,
+      "eval_loss": 0.48181313276290894,
+      "eval_runtime": 14.3216,
+      "eval_samples_per_second": 68.288,
+      "eval_steps_per_second": 8.588,
       "step": 2600
     },
     {
       "epoch": 9.35,
+      "grad_norm": 4.603553771972656,
+      "learning_rate": 6.594982078853047e-06,
+      "loss": 0.292,
       "step": 2610
     },
     {
       "epoch": 9.39,
+      "grad_norm": 6.353521823883057,
+      "learning_rate": 6.236559139784946e-06,
+      "loss": 0.1462,
       "step": 2620
     },
     {
       "epoch": 9.43,
+      "grad_norm": 3.8513760566711426,
+      "learning_rate": 5.878136200716846e-06,
+      "loss": 0.228,
       "step": 2630
     },
     {
       "epoch": 9.46,
+      "grad_norm": 6.585672378540039,
+      "learning_rate": 5.5197132616487455e-06,
+      "loss": 0.1751,
       "step": 2640
     },
     {
       "epoch": 9.5,
+      "grad_norm": 0.19121739268302917,
+      "learning_rate": 5.161290322580646e-06,
+      "loss": 0.2495,
       "step": 2650
     },
     {
       "epoch": 9.53,
+      "grad_norm": 9.971940994262695,
+      "learning_rate": 4.802867383512545e-06,
+      "loss": 0.3073,
       "step": 2660
     },
     {
       "epoch": 9.57,
+      "grad_norm": 0.3317970037460327,
+      "learning_rate": 4.444444444444445e-06,
+      "loss": 0.1477,
       "step": 2670
     },
     {
       "epoch": 9.61,
+      "grad_norm": 4.959763526916504,
+      "learning_rate": 4.086021505376344e-06,
+      "loss": 0.2397,
       "step": 2680
     },
     {
       "epoch": 9.64,
+      "grad_norm": 1.1729767322540283,
+      "learning_rate": 3.7275985663082444e-06,
+      "loss": 0.2094,
       "step": 2690
     },
     {
       "epoch": 9.68,
+      "grad_norm": 5.1204118728637695,
+      "learning_rate": 3.3691756272401432e-06,
+      "loss": 0.1468,
       "step": 2700
     },
     {
       "epoch": 9.68,
+      "eval_accuracy": 0.8680981595092024,
+      "eval_loss": 0.4764532148838043,
+      "eval_runtime": 14.3404,
+      "eval_samples_per_second": 68.199,
+      "eval_steps_per_second": 8.577,
       "step": 2700
     },
     {
       "epoch": 9.71,
+      "grad_norm": 1.941149115562439,
+      "learning_rate": 3.0107526881720433e-06,
+      "loss": 0.1418,
       "step": 2710
     },
     {
       "epoch": 9.75,
+      "grad_norm": 1.0805838108062744,
+      "learning_rate": 2.6523297491039426e-06,
+      "loss": 0.1762,
       "step": 2720
     },
     {
       "epoch": 9.78,
+      "grad_norm": 0.28982478380203247,
+      "learning_rate": 2.2939068100358423e-06,
+      "loss": 0.1462,
       "step": 2730
     },
     {
       "epoch": 9.82,
+      "grad_norm": 0.11841225624084473,
+      "learning_rate": 1.935483870967742e-06,
+      "loss": 0.1495,
       "step": 2740
     },
     {
       "epoch": 9.86,
+      "grad_norm": 4.167394161224365,
+      "learning_rate": 1.577060931899642e-06,
+      "loss": 0.2596,
       "step": 2750
     },
     {
       "epoch": 9.89,
+      "grad_norm": 4.835020542144775,
+      "learning_rate": 1.2186379928315414e-06,
+      "loss": 0.1955,
       "step": 2760
     },
     {
       "epoch": 9.93,
+      "grad_norm": 7.901321887969971,
+      "learning_rate": 8.602150537634409e-07,
+      "loss": 0.2867,
       "step": 2770
     },
     {
       "epoch": 9.96,
+      "grad_norm": 8.663835525512695,
+      "learning_rate": 5.017921146953406e-07,
+      "loss": 0.1797,
       "step": 2780
     },
     {
       "epoch": 10.0,
+      "grad_norm": 13.646035194396973,
+      "learning_rate": 1.4336917562724014e-07,
+      "loss": 0.2222,
       "step": 2790
     },
     {
       "epoch": 10.0,
       "step": 2790,
       "total_flos": 3.451740694569861e+18,
+      "train_loss": 0.44341087110580935,
+      "train_runtime": 1600.5784,
+      "train_samples_per_second": 27.827,
+      "train_steps_per_second": 1.743
     }
   ],
   "logging_steps": 10,