🍻 cheers

Browse files

Files changed (6) hide show

README.md +6 -5
all_results.json +9 -9
eval_results.json +5 -5
runs/May09_07-16-20_361db62a36de/events.out.tfevents.1715259917.361db62a36de.34.1 +3 -0
train_results.json +4 -4
trainer_state.json +1880 -356

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 datasets:
 - imagefolder
@@ -14,7 +15,7 @@ model-index:
       name: Image Classification
       type: image-classification
     dataset:
-      name: imagefolder
       type: imagefolder
       config: default
       split: train
@@ -22,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.8664323374340949
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -30,10 +31,10 @@ should probably proofread and complete it, then remove this comment. -->
 # Action_model
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5153
-- Accuracy: 0.8664
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
 - generated_from_trainer
 datasets:
 - imagefolder
       name: Image Classification
       type: image-classification
     dataset:
+      name: action_class
       type: imagefolder
       config: default
       split: train
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.8576449912126538
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # Action_model
+This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the action_class dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4589
+- Accuracy: 0.8576
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.8629173989455184,
-    "eval_loss": 0.47900134325027466,
-    "eval_runtime": 7.7338,
-    "eval_samples_per_second": 73.573,
-    "eval_steps_per_second": 9.31,
     "total_flos": 3.3230947683690086e+18,
-    "train_loss": 0.3864157530798841,
-    "train_runtime": 1135.6162,
-    "train_samples_per_second": 37.759,
-    "train_steps_per_second": 1.18
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.8576449912126538,
+    "eval_loss": 0.4589254856109619,
+    "eval_runtime": 7.9329,
+    "eval_samples_per_second": 71.727,
+    "eval_steps_per_second": 9.076,
     "total_flos": 3.3230947683690086e+18,
+    "train_loss": 0.45543073504718384,
+    "train_runtime": 1353.2313,
+    "train_samples_per_second": 31.687,
+    "train_steps_per_second": 1.98
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.8629173989455184,
-    "eval_loss": 0.47900134325027466,
-    "eval_runtime": 7.7338,
-    "eval_samples_per_second": 73.573,
-    "eval_steps_per_second": 9.31
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.8576449912126538,
+    "eval_loss": 0.4589254856109619,
+    "eval_runtime": 7.9329,
+    "eval_samples_per_second": 71.727,
+    "eval_steps_per_second": 9.076
 }

runs/May09_07-16-20_361db62a36de/events.out.tfevents.1715259917.361db62a36de.34.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:649da8ed98001a4af8b5268f38716de03351fd30b732596dea56d6bc9be2f61e
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 10.0,
     "total_flos": 3.3230947683690086e+18,
-    "train_loss": 0.3864157530798841,
-    "train_runtime": 1135.6162,
-    "train_samples_per_second": 37.759,
-    "train_steps_per_second": 1.18
 }

 {
     "epoch": 10.0,
     "total_flos": 3.3230947683690086e+18,
+    "train_loss": 0.45543073504718384,
+    "train_runtime": 1353.2313,
+    "train_samples_per_second": 31.687,
+    "train_steps_per_second": 1.98
 }

trainer_state.json CHANGED Viewed

@@ -1,616 +1,2140 @@
 {
-  "best_metric": 0.47900134325027466,
-  "best_model_checkpoint": "Action_model/checkpoint-800",
   "epoch": 10.0,
   "eval_steps": 100,
-  "global_step": 1340,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.15,
-      "grad_norm": 1.667541265487671,
-      "learning_rate": 9.850746268656717e-05,
-      "loss": 1.0751,
       "step": 20
     },
     {
-      "epoch": 0.3,
-      "grad_norm": 4.206006050109863,
-      "learning_rate": 9.701492537313434e-05,
-      "loss": 0.8775,
       "step": 40
     },
     {
-      "epoch": 0.45,
-      "grad_norm": 2.1778831481933594,
-      "learning_rate": 9.552238805970149e-05,
-      "loss": 0.7614,
       "step": 60
     },
     {
-      "epoch": 0.6,
-      "grad_norm": 2.380641222000122,
-      "learning_rate": 9.402985074626867e-05,
-      "loss": 0.701,
       "step": 80
     },
     {
-      "epoch": 0.75,
-      "grad_norm": 3.6440467834472656,
-      "learning_rate": 9.253731343283582e-05,
-      "loss": 0.7766,
       "step": 100
     },
     {
-      "epoch": 0.75,
-      "eval_accuracy": 0.8224956063268892,
-      "eval_loss": 0.6780304312705994,
-      "eval_runtime": 8.1524,
-      "eval_samples_per_second": 69.796,
-      "eval_steps_per_second": 8.832,
       "step": 100
     },
     {
-      "epoch": 0.9,
-      "grad_norm": 3.5913617610931396,
-      "learning_rate": 9.104477611940299e-05,
-      "loss": 0.8058,
       "step": 120
     },
     {
-      "epoch": 1.04,
-      "grad_norm": 3.761014938354492,
-      "learning_rate": 8.955223880597016e-05,
-      "loss": 0.7853,
       "step": 140
     },
     {
-      "epoch": 1.19,
-      "grad_norm": 2.7116057872772217,
-      "learning_rate": 8.813432835820896e-05,
-      "loss": 0.6584,
       "step": 160
     },
     {
-      "epoch": 1.34,
-      "grad_norm": 4.109683990478516,
-      "learning_rate": 8.664179104477612e-05,
-      "loss": 0.6056,
       "step": 180
     },
     {
-      "epoch": 1.49,
-      "grad_norm": 3.7420246601104736,
-      "learning_rate": 8.514925373134329e-05,
-      "loss": 0.61,
       "step": 200
     },
     {
-      "epoch": 1.49,
-      "eval_accuracy": 0.8242530755711776,
-      "eval_loss": 0.6279409527778625,
-      "eval_runtime": 7.7566,
-      "eval_samples_per_second": 73.357,
-      "eval_steps_per_second": 9.282,
       "step": 200
     },
     {
-      "epoch": 1.64,
-      "grad_norm": 4.6456379890441895,
-      "learning_rate": 8.365671641791046e-05,
-      "loss": 0.6016,
       "step": 220
     },
     {
-      "epoch": 1.79,
-      "grad_norm": 3.174193859100342,
-      "learning_rate": 8.216417910447761e-05,
-      "loss": 0.5734,
       "step": 240
     },
     {
-      "epoch": 1.94,
-      "grad_norm": 4.6657304763793945,
-      "learning_rate": 8.067164179104479e-05,
-      "loss": 0.5684,
       "step": 260
     },
     {
-      "epoch": 2.09,
-      "grad_norm": 4.963318347930908,
-      "learning_rate": 7.917910447761194e-05,
-      "loss": 0.5957,
       "step": 280
     },
     {
-      "epoch": 2.24,
-      "grad_norm": 5.692253589630127,
-      "learning_rate": 7.776119402985074e-05,
-      "loss": 0.4734,
       "step": 300
     },
     {
-      "epoch": 2.24,
-      "eval_accuracy": 0.827768014059754,
-      "eval_loss": 0.5593364834785461,
-      "eval_runtime": 7.7448,
-      "eval_samples_per_second": 73.468,
-      "eval_steps_per_second": 9.297,
       "step": 300
     },
     {
-      "epoch": 2.39,
-      "grad_norm": 3.6985843181610107,
-      "learning_rate": 7.626865671641792e-05,
-      "loss": 0.4646,
       "step": 320
     },
     {
-      "epoch": 2.54,
-      "grad_norm": 3.7862443923950195,
-      "learning_rate": 7.477611940298508e-05,
-      "loss": 0.4568,
       "step": 340
     },
     {
-      "epoch": 2.69,
-      "grad_norm": 4.695005893707275,
-      "learning_rate": 7.328358208955224e-05,
-      "loss": 0.4876,
       "step": 360
     },
     {
-      "epoch": 2.84,
-      "grad_norm": 3.9707813262939453,
-      "learning_rate": 7.179104477611941e-05,
-      "loss": 0.4723,
       "step": 380
     },
     {
-      "epoch": 2.99,
-      "grad_norm": 3.133072853088379,
-      "learning_rate": 7.029850746268657e-05,
-      "loss": 0.5275,
       "step": 400
     },
     {
-      "epoch": 2.99,
-      "eval_accuracy": 0.8418277680140598,
-      "eval_loss": 0.5148488879203796,
-      "eval_runtime": 7.8181,
-      "eval_samples_per_second": 72.78,
-      "eval_steps_per_second": 9.209,
       "step": 400
     },
     {
-      "epoch": 3.13,
-      "grad_norm": 3.1703858375549316,
-      "learning_rate": 6.880597014925374e-05,
-      "loss": 0.353,
       "step": 420
     },
     {
-      "epoch": 3.28,
-      "grad_norm": 3.551959276199341,
-      "learning_rate": 6.73134328358209e-05,
-      "loss": 0.3559,
       "step": 440
     },
     {
-      "epoch": 3.43,
-      "grad_norm": 3.8375322818756104,
-      "learning_rate": 6.582089552238806e-05,
-      "loss": 0.376,
       "step": 460
     },
     {
-      "epoch": 3.58,
-      "grad_norm": 4.613718032836914,
-      "learning_rate": 6.432835820895523e-05,
-      "loss": 0.4183,
       "step": 480
     },
     {
-      "epoch": 3.73,
-      "grad_norm": 9.122322082519531,
-      "learning_rate": 6.283582089552239e-05,
-      "loss": 0.3767,
       "step": 500
     },
     {
-      "epoch": 3.73,
-      "eval_accuracy": 0.843585237258348,
-      "eval_loss": 0.5129419565200806,
-      "eval_runtime": 7.7011,
-      "eval_samples_per_second": 73.886,
-      "eval_steps_per_second": 9.349,
       "step": 500
     },
     {
-      "epoch": 3.88,
-      "grad_norm": 1.9917536973953247,
-      "learning_rate": 6.134328358208955e-05,
-      "loss": 0.3943,
       "step": 520
     },
     {
-      "epoch": 4.03,
-      "grad_norm": 3.007828712463379,
-      "learning_rate": 5.985074626865672e-05,
-      "loss": 0.3885,
       "step": 540
     },
     {
-      "epoch": 4.18,
-      "grad_norm": 6.075244426727295,
-      "learning_rate": 5.835820895522388e-05,
-      "loss": 0.3312,
       "step": 560
     },
     {
-      "epoch": 4.33,
-      "grad_norm": 4.8264641761779785,
-      "learning_rate": 5.686567164179105e-05,
-      "loss": 0.3408,
       "step": 580
     },
     {
-      "epoch": 4.48,
-      "grad_norm": 2.8609578609466553,
-      "learning_rate": 5.537313432835821e-05,
-      "loss": 0.3207,
       "step": 600
     },
     {
-      "epoch": 4.48,
-      "eval_accuracy": 0.8558875219683656,
-      "eval_loss": 0.4966126084327698,
-      "eval_runtime": 7.6408,
-      "eval_samples_per_second": 74.468,
-      "eval_steps_per_second": 9.423,
       "step": 600
     },
     {
-      "epoch": 4.63,
-      "grad_norm": 5.234914302825928,
-      "learning_rate": 5.388059701492537e-05,
-      "loss": 0.3306,
       "step": 620
     },
     {
-      "epoch": 4.78,
-      "grad_norm": 4.566553592681885,
-      "learning_rate": 5.238805970149254e-05,
-      "loss": 0.3532,
       "step": 640
     },
     {
-      "epoch": 4.93,
-      "grad_norm": 4.077399253845215,
-      "learning_rate": 5.08955223880597e-05,
-      "loss": 0.3501,
       "step": 660
     },
     {
-      "epoch": 5.07,
-      "grad_norm": 3.5527923107147217,
-      "learning_rate": 4.940298507462687e-05,
-      "loss": 0.3147,
       "step": 680
     },
     {
-      "epoch": 5.22,
-      "grad_norm": 4.944146633148193,
-      "learning_rate": 4.7910447761194035e-05,
-      "loss": 0.3155,
       "step": 700
     },
     {
-      "epoch": 5.22,
-      "eval_accuracy": 0.8453427065026362,
-      "eval_loss": 0.5251042246818542,
-      "eval_runtime": 7.8327,
-      "eval_samples_per_second": 72.644,
-      "eval_steps_per_second": 9.192,
       "step": 700
     },
     {
-      "epoch": 5.37,
-      "grad_norm": 2.9990365505218506,
-      "learning_rate": 4.6417910447761195e-05,
-      "loss": 0.3121,
       "step": 720
     },
     {
-      "epoch": 5.52,
-      "grad_norm": 1.7021130323410034,
-      "learning_rate": 4.492537313432836e-05,
-      "loss": 0.3563,
       "step": 740
     },
     {
-      "epoch": 5.67,
-      "grad_norm": 4.41218376159668,
-      "learning_rate": 4.343283582089552e-05,
-      "loss": 0.3447,
       "step": 760
     },
     {
-      "epoch": 5.82,
-      "grad_norm": 2.955658197402954,
-      "learning_rate": 4.194029850746269e-05,
-      "loss": 0.2839,
       "step": 780
     },
     {
-      "epoch": 5.97,
-      "grad_norm": 3.0852389335632324,
-      "learning_rate": 4.044776119402985e-05,
-      "loss": 0.2565,
       "step": 800
     },
     {
-      "epoch": 5.97,
-      "eval_accuracy": 0.8629173989455184,
-      "eval_loss": 0.47900134325027466,
-      "eval_runtime": 7.78,
-      "eval_samples_per_second": 73.136,
-      "eval_steps_per_second": 9.255,
       "step": 800
     },
     {
-      "epoch": 6.12,
-      "grad_norm": 2.099174976348877,
-      "learning_rate": 3.895522388059702e-05,
-      "loss": 0.2818,
       "step": 820
     },
     {
-      "epoch": 6.27,
-      "grad_norm": 3.712127685546875,
-      "learning_rate": 3.746268656716418e-05,
-      "loss": 0.2444,
       "step": 840
     },
     {
-      "epoch": 6.42,
-      "grad_norm": 2.1818361282348633,
-      "learning_rate": 3.5970149253731346e-05,
-      "loss": 0.2418,
       "step": 860
     },
     {
-      "epoch": 6.57,
-      "grad_norm": 2.211638927459717,
-      "learning_rate": 3.447761194029851e-05,
-      "loss": 0.2684,
       "step": 880
     },
     {
-      "epoch": 6.72,
-      "grad_norm": 6.349803924560547,
-      "learning_rate": 3.298507462686568e-05,
-      "loss": 0.2791,
       "step": 900
     },
     {
-      "epoch": 6.72,
-      "eval_accuracy": 0.8523725834797891,
-      "eval_loss": 0.5110830664634705,
-      "eval_runtime": 7.7612,
-      "eval_samples_per_second": 73.313,
-      "eval_steps_per_second": 9.277,
       "step": 900
     },
     {
-      "epoch": 6.87,
-      "grad_norm": 4.6033759117126465,
-      "learning_rate": 3.149253731343284e-05,
-      "loss": 0.2444,
       "step": 920
     },
     {
-      "epoch": 7.01,
-      "grad_norm": 6.079771995544434,
-      "learning_rate": 3e-05,
-      "loss": 0.2812,
       "step": 940
     },
     {
-      "epoch": 7.16,
-      "grad_norm": 3.743011474609375,
-      "learning_rate": 2.8507462686567167e-05,
-      "loss": 0.183,
       "step": 960
     },
     {
-      "epoch": 7.31,
-      "grad_norm": 4.840090751647949,
-      "learning_rate": 2.701492537313433e-05,
-      "loss": 0.2689,
       "step": 980
     },
     {
-      "epoch": 7.46,
-      "grad_norm": 3.213412284851074,
-      "learning_rate": 2.5522388059701496e-05,
-      "loss": 0.1987,
       "step": 1000
     },
     {
-      "epoch": 7.46,
-      "eval_accuracy": 0.8453427065026362,
-      "eval_loss": 0.5002422332763672,
-      "eval_runtime": 7.6836,
-      "eval_samples_per_second": 74.054,
-      "eval_steps_per_second": 9.371,
       "step": 1000
     },
     {
-      "epoch": 7.61,
-      "grad_norm": 2.2559454441070557,
-      "learning_rate": 2.402985074626866e-05,
-      "loss": 0.2254,
       "step": 1020
     },
     {
-      "epoch": 7.76,
-      "grad_norm": 4.895073413848877,
-      "learning_rate": 2.2537313432835822e-05,
-      "loss": 0.283,
       "step": 1040
     },
     {
-      "epoch": 7.91,
-      "grad_norm": 3.8669703006744385,
-      "learning_rate": 2.1044776119402985e-05,
-      "loss": 0.281,
       "step": 1060
     },
     {
-      "epoch": 8.06,
-      "grad_norm": 2.0825252532958984,
-      "learning_rate": 1.9552238805970148e-05,
-      "loss": 0.1955,
       "step": 1080
     },
     {
-      "epoch": 8.21,
-      "grad_norm": 1.101592779159546,
-      "learning_rate": 1.8059701492537314e-05,
-      "loss": 0.2083,
       "step": 1100
     },
     {
-      "epoch": 8.21,
-      "eval_accuracy": 0.8629173989455184,
-      "eval_loss": 0.5034471154212952,
-      "eval_runtime": 7.7486,
-      "eval_samples_per_second": 73.432,
-      "eval_steps_per_second": 9.292,
       "step": 1100
     },
     {
-      "epoch": 8.36,
-      "grad_norm": 2.6236236095428467,
-      "learning_rate": 1.6567164179104477e-05,
-      "loss": 0.1409,
       "step": 1120
     },
     {
-      "epoch": 8.51,
-      "grad_norm": 1.433937668800354,
-      "learning_rate": 1.5074626865671642e-05,
-      "loss": 0.2434,
       "step": 1140
     },
     {
-      "epoch": 8.66,
-      "grad_norm": 2.8774006366729736,
-      "learning_rate": 1.3582089552238805e-05,
-      "loss": 0.2044,
       "step": 1160
     },
     {
-      "epoch": 8.81,
-      "grad_norm": 4.404654026031494,
-      "learning_rate": 1.2089552238805971e-05,
-      "loss": 0.2153,
       "step": 1180
     },
     {
-      "epoch": 8.96,
-      "grad_norm": 4.886945724487305,
-      "learning_rate": 1.0597014925373134e-05,
-      "loss": 0.2567,
       "step": 1200
     },
     {
-      "epoch": 8.96,
       "eval_accuracy": 0.8576449912126538,
-      "eval_loss": 0.4995073080062866,
-      "eval_runtime": 7.7157,
-      "eval_samples_per_second": 73.745,
-      "eval_steps_per_second": 9.332,
       "step": 1200
     },
     {
-      "epoch": 9.1,
-      "grad_norm": 0.4216682016849518,
-      "learning_rate": 9.104477611940299e-06,
-      "loss": 0.203,
       "step": 1220
     },
     {
-      "epoch": 9.25,
-      "grad_norm": 4.639057159423828,
-      "learning_rate": 7.611940298507463e-06,
-      "loss": 0.1934,
       "step": 1240
     },
     {
-      "epoch": 9.4,
-      "grad_norm": 4.426870822906494,
-      "learning_rate": 6.119402985074627e-06,
-      "loss": 0.2067,
       "step": 1260
     },
     {
-      "epoch": 9.55,
-      "grad_norm": 2.948902130126953,
-      "learning_rate": 4.626865671641791e-06,
-      "loss": 0.2065,
       "step": 1280
     },
     {
-      "epoch": 9.7,
-      "grad_norm": 2.3631768226623535,
-      "learning_rate": 3.134328358208955e-06,
-      "loss": 0.2127,
       "step": 1300
     },
     {
-      "epoch": 9.7,
-      "eval_accuracy": 0.8488576449912126,
-      "eval_loss": 0.5034462809562683,
-      "eval_runtime": 7.6386,
-      "eval_samples_per_second": 74.49,
-      "eval_steps_per_second": 9.426,
       "step": 1300
     },
     {
-      "epoch": 9.85,
-      "grad_norm": 2.909392833709717,
-      "learning_rate": 1.6417910447761194e-06,
-      "loss": 0.1547,
       "step": 1320
     },
     {
-      "epoch": 10.0,
-      "grad_norm": 2.5194036960601807,
-      "learning_rate": 1.4925373134328358e-07,
-      "loss": 0.2161,
       "step": 1340
     },
     {
       "epoch": 10.0,
-      "step": 1340,
       "total_flos": 3.3230947683690086e+18,
-      "train_loss": 0.3864157530798841,
-      "train_runtime": 1135.6162,
-      "train_samples_per_second": 37.759,
-      "train_steps_per_second": 1.18
     }
   ],
-  "logging_steps": 20,
-  "max_steps": 1340,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 100,
   "total_flos": 3.3230947683690086e+18,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.4589254856109619,
+  "best_model_checkpoint": "Action_model/checkpoint-1500",
   "epoch": 10.0,
   "eval_steps": 100,
+  "global_step": 2680,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.04,
+      "grad_norm": 1.7369908094406128,
+      "learning_rate": 9.96268656716418e-05,
+      "loss": 2.2759,
+      "step": 10
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 1.753720998764038,
+      "learning_rate": 9.925373134328359e-05,
+      "loss": 2.1743,
       "step": 20
     },
     {
+      "epoch": 0.11,
+      "grad_norm": 1.8532754182815552,
+      "learning_rate": 9.888059701492539e-05,
+      "loss": 2.0233,
+      "step": 30
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 2.195688486099243,
+      "learning_rate": 9.850746268656717e-05,
+      "loss": 1.8293,
       "step": 40
     },
     {
+      "epoch": 0.19,
+      "grad_norm": 2.392077684402466,
+      "learning_rate": 9.813432835820896e-05,
+      "loss": 1.7307,
+      "step": 50
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 2.851775646209717,
+      "learning_rate": 9.776119402985075e-05,
+      "loss": 1.5716,
       "step": 60
     },
     {
+      "epoch": 0.26,
+      "grad_norm": 2.2557411193847656,
+      "learning_rate": 9.738805970149254e-05,
+      "loss": 1.4694,
+      "step": 70
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 2.4612302780151367,
+      "learning_rate": 9.701492537313434e-05,
+      "loss": 1.3609,
       "step": 80
     },
     {
+      "epoch": 0.34,
+      "grad_norm": 2.7514560222625732,
+      "learning_rate": 9.664179104477612e-05,
+      "loss": 1.2871,
+      "step": 90
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 3.6256659030914307,
+      "learning_rate": 9.626865671641792e-05,
+      "loss": 1.2754,
       "step": 100
     },
     {
+      "epoch": 0.37,
+      "eval_accuracy": 0.7328646748681898,
+      "eval_loss": 1.1163370609283447,
+      "eval_runtime": 12.5514,
+      "eval_samples_per_second": 45.333,
+      "eval_steps_per_second": 5.736,
       "step": 100
     },
     {
+      "epoch": 0.41,
+      "grad_norm": 2.642601728439331,
+      "learning_rate": 9.58955223880597e-05,
+      "loss": 1.2354,
+      "step": 110
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 2.4862725734710693,
+      "learning_rate": 9.552238805970149e-05,
+      "loss": 1.169,
       "step": 120
     },
     {
+      "epoch": 0.49,
+      "grad_norm": 3.962764263153076,
+      "learning_rate": 9.514925373134329e-05,
+      "loss": 1.2546,
+      "step": 130
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 2.9388816356658936,
+      "learning_rate": 9.477611940298507e-05,
+      "loss": 1.1702,
       "step": 140
     },
     {
+      "epoch": 0.56,
+      "grad_norm": 4.958592414855957,
+      "learning_rate": 9.440298507462687e-05,
+      "loss": 1.0865,
+      "step": 150
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 3.4470815658569336,
+      "learning_rate": 9.402985074626867e-05,
+      "loss": 1.0097,
       "step": 160
     },
     {
+      "epoch": 0.63,
+      "grad_norm": 4.423004627227783,
+      "learning_rate": 9.365671641791045e-05,
+      "loss": 1.0749,
+      "step": 170
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 2.808164358139038,
+      "learning_rate": 9.328358208955224e-05,
+      "loss": 0.9732,
       "step": 180
     },
     {
+      "epoch": 0.71,
+      "grad_norm": 6.00456428527832,
+      "learning_rate": 9.291044776119402e-05,
+      "loss": 1.0009,
+      "step": 190
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 5.091552734375,
+      "learning_rate": 9.253731343283582e-05,
+      "loss": 0.9345,
       "step": 200
     },
     {
+      "epoch": 0.75,
+      "eval_accuracy": 0.7996485061511424,
+      "eval_loss": 0.8296495079994202,
+      "eval_runtime": 7.8912,
+      "eval_samples_per_second": 72.105,
+      "eval_steps_per_second": 9.124,
       "step": 200
     },
     {
+      "epoch": 0.78,
+      "grad_norm": 3.2533326148986816,
+      "learning_rate": 9.216417910447762e-05,
+      "loss": 0.793,
+      "step": 210
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 6.073918342590332,
+      "learning_rate": 9.17910447761194e-05,
+      "loss": 0.9835,
       "step": 220
     },
     {
+      "epoch": 0.86,
+      "grad_norm": 3.6311192512512207,
+      "learning_rate": 9.14179104477612e-05,
+      "loss": 0.8801,
+      "step": 230
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 4.446895599365234,
+      "learning_rate": 9.104477611940299e-05,
+      "loss": 1.0534,
       "step": 240
     },
     {
+      "epoch": 0.93,
+      "grad_norm": 4.668705463409424,
+      "learning_rate": 9.067164179104479e-05,
+      "loss": 0.9396,
+      "step": 250
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 6.191302299499512,
+      "learning_rate": 9.029850746268657e-05,
+      "loss": 0.9275,
       "step": 260
     },
     {
+      "epoch": 1.01,
+      "grad_norm": 3.170959711074829,
+      "learning_rate": 8.992537313432836e-05,
+      "loss": 0.8595,
+      "step": 270
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 3.690964460372925,
+      "learning_rate": 8.955223880597016e-05,
+      "loss": 0.733,
       "step": 280
     },
     {
+      "epoch": 1.08,
+      "grad_norm": 4.871851444244385,
+      "learning_rate": 8.917910447761194e-05,
+      "loss": 0.7623,
+      "step": 290
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 3.3851799964904785,
+      "learning_rate": 8.880597014925374e-05,
+      "loss": 0.8816,
       "step": 300
     },
     {
+      "epoch": 1.12,
+      "eval_accuracy": 0.8101933216168717,
+      "eval_loss": 0.7156229615211487,
+      "eval_runtime": 7.8519,
+      "eval_samples_per_second": 72.467,
+      "eval_steps_per_second": 9.17,
       "step": 300
     },
     {
+      "epoch": 1.16,
+      "grad_norm": 3.334380865097046,
+      "learning_rate": 8.843283582089554e-05,
+      "loss": 0.8567,
+      "step": 310
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 4.673859596252441,
+      "learning_rate": 8.805970149253732e-05,
+      "loss": 0.7926,
       "step": 320
     },
     {
+      "epoch": 1.23,
+      "grad_norm": 3.3042550086975098,
+      "learning_rate": 8.76865671641791e-05,
+      "loss": 0.6847,
+      "step": 330
+    },
+    {
+      "epoch": 1.27,
+      "grad_norm": 5.4356513023376465,
+      "learning_rate": 8.731343283582089e-05,
+      "loss": 0.7656,
       "step": 340
     },
     {
+      "epoch": 1.31,
+      "grad_norm": 7.050413131713867,
+      "learning_rate": 8.694029850746269e-05,
+      "loss": 0.6658,
+      "step": 350
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 5.980592727661133,
+      "learning_rate": 8.656716417910447e-05,
+      "loss": 0.7948,
       "step": 360
     },
     {
+      "epoch": 1.38,
+      "grad_norm": 3.894716739654541,
+      "learning_rate": 8.619402985074627e-05,
+      "loss": 0.8381,
+      "step": 370
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 7.189664363861084,
+      "learning_rate": 8.582089552238807e-05,
+      "loss": 0.6532,
       "step": 380
     },
     {
+      "epoch": 1.46,
+      "grad_norm": 4.317276477813721,
+      "learning_rate": 8.544776119402986e-05,
+      "loss": 0.7763,
+      "step": 390
+    },
+    {
+      "epoch": 1.49,
+      "grad_norm": 4.480589866638184,
+      "learning_rate": 8.511194029850747e-05,
+      "loss": 0.7425,
       "step": 400
     },
     {
+      "epoch": 1.49,
+      "eval_accuracy": 0.8066783831282952,
+      "eval_loss": 0.6529447436332703,
+      "eval_runtime": 7.793,
+      "eval_samples_per_second": 73.014,
+      "eval_steps_per_second": 9.239,
       "step": 400
     },
     {
+      "epoch": 1.53,
+      "grad_norm": 4.1799163818359375,
+      "learning_rate": 8.473880597014926e-05,
+      "loss": 0.6928,
+      "step": 410
+    },
+    {
+      "epoch": 1.57,
+      "grad_norm": 4.81996488571167,
+      "learning_rate": 8.436567164179105e-05,
+      "loss": 0.7769,
       "step": 420
     },
     {
+      "epoch": 1.6,
+      "grad_norm": 7.18645715713501,
+      "learning_rate": 8.399253731343283e-05,
+      "loss": 0.6848,
+      "step": 430
+    },
+    {
+      "epoch": 1.64,
+      "grad_norm": 3.888197660446167,
+      "learning_rate": 8.361940298507463e-05,
+      "loss": 0.5977,
       "step": 440
     },
     {
+      "epoch": 1.68,
+      "grad_norm": 7.374312877655029,
+      "learning_rate": 8.324626865671642e-05,
+      "loss": 0.6001,
+      "step": 450
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 6.553064823150635,
+      "learning_rate": 8.287313432835821e-05,
+      "loss": 0.6683,
       "step": 460
     },
     {
+      "epoch": 1.75,
+      "grad_norm": 3.466761589050293,
+      "learning_rate": 8.25e-05,
+      "loss": 0.6484,
+      "step": 470
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 3.534076690673828,
+      "learning_rate": 8.21268656716418e-05,
+      "loss": 0.6589,
       "step": 480
     },
     {
+      "epoch": 1.83,
+      "grad_norm": 3.581280469894409,
+      "learning_rate": 8.17537313432836e-05,
+      "loss": 0.6173,
+      "step": 490
+    },
+    {
+      "epoch": 1.87,
+      "grad_norm": 6.162041664123535,
+      "learning_rate": 8.138059701492538e-05,
+      "loss": 0.6883,
       "step": 500
     },
     {
+      "epoch": 1.87,
+      "eval_accuracy": 0.8242530755711776,
+      "eval_loss": 0.6078779697418213,
+      "eval_runtime": 7.6716,
+      "eval_samples_per_second": 74.169,
+      "eval_steps_per_second": 9.385,
       "step": 500
     },
     {
+      "epoch": 1.9,
+      "grad_norm": 5.477086067199707,
+      "learning_rate": 8.100746268656717e-05,
+      "loss": 0.5952,
+      "step": 510
+    },
+    {
+      "epoch": 1.94,
+      "grad_norm": 2.389667510986328,
+      "learning_rate": 8.063432835820895e-05,
+      "loss": 0.5193,
       "step": 520
     },
     {
+      "epoch": 1.98,
+      "grad_norm": 5.730781555175781,
+      "learning_rate": 8.026119402985075e-05,
+      "loss": 0.6818,
+      "step": 530
+    },
+    {
+      "epoch": 2.01,
+      "grad_norm": 6.305990219116211,
+      "learning_rate": 7.992537313432836e-05,
+      "loss": 0.5738,
       "step": 540
     },
     {
+      "epoch": 2.05,
+      "grad_norm": 3.507434368133545,
+      "learning_rate": 7.955223880597016e-05,
+      "loss": 0.5685,
+      "step": 550
+    },
+    {
+      "epoch": 2.09,
+      "grad_norm": 12.683993339538574,
+      "learning_rate": 7.917910447761194e-05,
+      "loss": 0.6684,
       "step": 560
     },
     {
+      "epoch": 2.13,
+      "grad_norm": 5.5166916847229,
+      "learning_rate": 7.880597014925374e-05,
+      "loss": 0.4787,
+      "step": 570
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 6.427499294281006,
+      "learning_rate": 7.843283582089552e-05,
+      "loss": 0.5818,
       "step": 580
     },
     {
+      "epoch": 2.2,
+      "grad_norm": 5.062973976135254,
+      "learning_rate": 7.805970149253732e-05,
+      "loss": 0.4766,
+      "step": 590
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 5.720675945281982,
+      "learning_rate": 7.768656716417911e-05,
+      "loss": 0.5454,
       "step": 600
     },
     {
+      "epoch": 2.24,
+      "eval_accuracy": 0.8347978910369068,
+      "eval_loss": 0.5604887008666992,
+      "eval_runtime": 7.7133,
+      "eval_samples_per_second": 73.769,
+      "eval_steps_per_second": 9.335,
       "step": 600
     },
     {
+      "epoch": 2.28,
+      "grad_norm": 7.875051021575928,
+      "learning_rate": 7.731343283582089e-05,
+      "loss": 0.5935,
+      "step": 610
+    },
+    {
+      "epoch": 2.31,
+      "grad_norm": 4.378401756286621,
+      "learning_rate": 7.694029850746269e-05,
+      "loss": 0.4639,
       "step": 620
     },
     {
+      "epoch": 2.35,
+      "grad_norm": 7.522930145263672,
+      "learning_rate": 7.656716417910448e-05,
+      "loss": 0.4867,
+      "step": 630
+    },
+    {
+      "epoch": 2.39,
+      "grad_norm": 6.3615288734436035,
+      "learning_rate": 7.619402985074627e-05,
+      "loss": 0.5302,
       "step": 640
     },
     {
+      "epoch": 2.43,
+      "grad_norm": 3.8204784393310547,
+      "learning_rate": 7.582089552238806e-05,
+      "loss": 0.3864,
+      "step": 650
+    },
+    {
+      "epoch": 2.46,
+      "grad_norm": 2.3520662784576416,
+      "learning_rate": 7.544776119402986e-05,
+      "loss": 0.6458,
       "step": 660
     },
     {
+      "epoch": 2.5,
+      "grad_norm": 3.9832942485809326,
+      "learning_rate": 7.507462686567166e-05,
+      "loss": 0.494,
+      "step": 670
+    },
+    {
+      "epoch": 2.54,
+      "grad_norm": 3.6783320903778076,
+      "learning_rate": 7.470149253731343e-05,
+      "loss": 0.6213,
       "step": 680
     },
     {
+      "epoch": 2.57,
+      "grad_norm": 4.528789520263672,
+      "learning_rate": 7.432835820895523e-05,
+      "loss": 0.615,
+      "step": 690
+    },
+    {
+      "epoch": 2.61,
+      "grad_norm": 5.556227207183838,
+      "learning_rate": 7.395522388059701e-05,
+      "loss": 0.5383,
       "step": 700
     },
     {
+      "epoch": 2.61,
+      "eval_accuracy": 0.8295254833040422,
+      "eval_loss": 0.5571200251579285,
+      "eval_runtime": 7.8934,
+      "eval_samples_per_second": 72.085,
+      "eval_steps_per_second": 9.122,
       "step": 700
     },
     {
+      "epoch": 2.65,
+      "grad_norm": 4.617480754852295,
+      "learning_rate": 7.358208955223881e-05,
+      "loss": 0.4987,
+      "step": 710
+    },
+    {
+      "epoch": 2.69,
+      "grad_norm": 4.6940412521362305,
+      "learning_rate": 7.32089552238806e-05,
+      "loss": 0.5466,
       "step": 720
     },
     {
+      "epoch": 2.72,
+      "grad_norm": 3.8839175701141357,
+      "learning_rate": 7.283582089552239e-05,
+      "loss": 0.5409,
+      "step": 730
+    },
+    {
+      "epoch": 2.76,
+      "grad_norm": 6.855696201324463,
+      "learning_rate": 7.246268656716419e-05,
+      "loss": 0.3972,
       "step": 740
     },
     {
+      "epoch": 2.8,
+      "grad_norm": 3.9779269695281982,
+      "learning_rate": 7.208955223880597e-05,
+      "loss": 0.4719,
+      "step": 750
+    },
+    {
+      "epoch": 2.84,
+      "grad_norm": 10.327420234680176,
+      "learning_rate": 7.171641791044776e-05,
+      "loss": 0.668,
       "step": 760
     },
     {
+      "epoch": 2.87,
+      "grad_norm": 5.06951904296875,
+      "learning_rate": 7.134328358208956e-05,
+      "loss": 0.5899,
+      "step": 770
+    },
+    {
+      "epoch": 2.91,
+      "grad_norm": 5.539373397827148,
+      "learning_rate": 7.097014925373134e-05,
+      "loss": 0.5813,
       "step": 780
     },
     {
+      "epoch": 2.95,
+      "grad_norm": 4.622121334075928,
+      "learning_rate": 7.059701492537314e-05,
+      "loss": 0.5294,
+      "step": 790
+    },
+    {
+      "epoch": 2.99,
+      "grad_norm": 2.6457552909851074,
+      "learning_rate": 7.022388059701493e-05,
+      "loss": 0.5442,
       "step": 800
     },
     {
+      "epoch": 2.99,
+      "eval_accuracy": 0.8189806678383128,
+      "eval_loss": 0.5864126682281494,
+      "eval_runtime": 7.8507,
+      "eval_samples_per_second": 72.478,
+      "eval_steps_per_second": 9.171,
       "step": 800
     },
     {
+      "epoch": 3.02,
+      "grad_norm": 3.373798370361328,
+      "learning_rate": 6.985074626865672e-05,
+      "loss": 0.4183,
+      "step": 810
+    },
+    {
+      "epoch": 3.06,
+      "grad_norm": 4.0179667472839355,
+      "learning_rate": 6.947761194029851e-05,
+      "loss": 0.3611,
       "step": 820
     },
     {
+      "epoch": 3.1,
+      "grad_norm": 7.72437858581543,
+      "learning_rate": 6.91044776119403e-05,
+      "loss": 0.4543,
+      "step": 830
+    },
+    {
+      "epoch": 3.13,
+      "grad_norm": 3.1097893714904785,
+      "learning_rate": 6.873134328358209e-05,
+      "loss": 0.5194,
       "step": 840
     },
     {
+      "epoch": 3.17,
+      "grad_norm": 6.581250190734863,
+      "learning_rate": 6.835820895522388e-05,
+      "loss": 0.3839,
+      "step": 850
+    },
+    {
+      "epoch": 3.21,
+      "grad_norm": 5.605171203613281,
+      "learning_rate": 6.798507462686568e-05,
+      "loss": 0.4499,
       "step": 860
     },
     {
+      "epoch": 3.25,
+      "grad_norm": 2.834651231765747,
+      "learning_rate": 6.761194029850747e-05,
+      "loss": 0.5067,
+      "step": 870
+    },
+    {
+      "epoch": 3.28,
+      "grad_norm": 4.615099906921387,
+      "learning_rate": 6.723880597014926e-05,
+      "loss": 0.4869,
       "step": 880
     },
     {
+      "epoch": 3.32,
+      "grad_norm": 6.115981101989746,
+      "learning_rate": 6.686567164179106e-05,
+      "loss": 0.4793,
+      "step": 890
+    },
+    {
+      "epoch": 3.36,
+      "grad_norm": 1.1021697521209717,
+      "learning_rate": 6.649253731343283e-05,
+      "loss": 0.3986,
       "step": 900
     },
     {
+      "epoch": 3.36,
+      "eval_accuracy": 0.8312829525483304,
+      "eval_loss": 0.5632173418998718,
+      "eval_runtime": 7.731,
+      "eval_samples_per_second": 73.6,
+      "eval_steps_per_second": 9.313,
       "step": 900
     },
     {
+      "epoch": 3.4,
+      "grad_norm": 7.019008159637451,
+      "learning_rate": 6.611940298507463e-05,
+      "loss": 0.383,
+      "step": 910
+    },
+    {
+      "epoch": 3.43,
+      "grad_norm": 2.586031913757324,
+      "learning_rate": 6.574626865671642e-05,
+      "loss": 0.2752,
       "step": 920
     },
     {
+      "epoch": 3.47,
+      "grad_norm": 2.5189669132232666,
+      "learning_rate": 6.537313432835821e-05,
+      "loss": 0.2944,
+      "step": 930
+    },
+    {
+      "epoch": 3.51,
+      "grad_norm": 10.028382301330566,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 0.4378,
       "step": 940
     },
     {
+      "epoch": 3.54,
+      "grad_norm": 1.8697803020477295,
+      "learning_rate": 6.462686567164179e-05,
+      "loss": 0.3956,
+      "step": 950
+    },
+    {
+      "epoch": 3.58,
+      "grad_norm": 5.872415065765381,
+      "learning_rate": 6.425373134328359e-05,
+      "loss": 0.338,
       "step": 960
     },
     {
+      "epoch": 3.62,
+      "grad_norm": 8.272451400756836,
+      "learning_rate": 6.388059701492538e-05,
+      "loss": 0.4264,
+      "step": 970
+    },
+    {
+      "epoch": 3.66,
+      "grad_norm": 9.422249794006348,
+      "learning_rate": 6.350746268656716e-05,
+      "loss": 0.4258,
       "step": 980
     },
     {
+      "epoch": 3.69,
+      "grad_norm": 8.768738746643066,
+      "learning_rate": 6.313432835820896e-05,
+      "loss": 0.3308,
+      "step": 990
+    },
+    {
+      "epoch": 3.73,
+      "grad_norm": 6.355968475341797,
+      "learning_rate": 6.276119402985074e-05,
+      "loss": 0.3438,
       "step": 1000
     },
     {
+      "epoch": 3.73,
+      "eval_accuracy": 0.836555360281195,
+      "eval_loss": 0.5606371760368347,
+      "eval_runtime": 7.818,
+      "eval_samples_per_second": 72.781,
+      "eval_steps_per_second": 9.21,
       "step": 1000
     },
     {
+      "epoch": 3.77,
+      "grad_norm": 3.973480463027954,
+      "learning_rate": 6.238805970149254e-05,
+      "loss": 0.5042,
+      "step": 1010
+    },
+    {
+      "epoch": 3.81,
+      "grad_norm": 5.739313125610352,
+      "learning_rate": 6.201492537313434e-05,
+      "loss": 0.4515,
       "step": 1020
     },
     {
+      "epoch": 3.84,
+      "grad_norm": 4.196649074554443,
+      "learning_rate": 6.164179104477613e-05,
+      "loss": 0.4404,
+      "step": 1030
+    },
+    {
+      "epoch": 3.88,
+      "grad_norm": 4.671971321105957,
+      "learning_rate": 6.126865671641791e-05,
+      "loss": 0.4746,
       "step": 1040
     },
     {
+      "epoch": 3.92,
+      "grad_norm": 6.87581205368042,
+      "learning_rate": 6.08955223880597e-05,
+      "loss": 0.4637,
+      "step": 1050
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 7.224815368652344,
+      "learning_rate": 6.052238805970149e-05,
+      "loss": 0.4754,
       "step": 1060
     },
     {
+      "epoch": 3.99,
+      "grad_norm": 4.4340314865112305,
+      "learning_rate": 6.014925373134329e-05,
+      "loss": 0.4165,
+      "step": 1070
+    },
+    {
+      "epoch": 4.03,
+      "grad_norm": 1.151932716369629,
+      "learning_rate": 5.9776119402985076e-05,
+      "loss": 0.3498,
       "step": 1080
     },
     {
+      "epoch": 4.07,
+      "grad_norm": 6.31879997253418,
+      "learning_rate": 5.940298507462687e-05,
+      "loss": 0.3505,
+      "step": 1090
+    },
+    {
+      "epoch": 4.1,
+      "grad_norm": 4.674696445465088,
+      "learning_rate": 5.902985074626865e-05,
+      "loss": 0.4345,
       "step": 1100
     },
     {
+      "epoch": 4.1,
+      "eval_accuracy": 0.836555360281195,
+      "eval_loss": 0.5353797674179077,
+      "eval_runtime": 7.9559,
+      "eval_samples_per_second": 71.519,
+      "eval_steps_per_second": 9.05,
       "step": 1100
     },
     {
+      "epoch": 4.14,
+      "grad_norm": 6.790203094482422,
+      "learning_rate": 5.865671641791045e-05,
+      "loss": 0.3189,
+      "step": 1110
+    },
+    {
+      "epoch": 4.18,
+      "grad_norm": 5.554905414581299,
+      "learning_rate": 5.828358208955225e-05,
+      "loss": 0.3255,
       "step": 1120
     },
     {
+      "epoch": 4.22,
+      "grad_norm": 1.87189781665802,
+      "learning_rate": 5.7910447761194034e-05,
+      "loss": 0.2613,
+      "step": 1130
+    },
+    {
+      "epoch": 4.25,
+      "grad_norm": 3.4729249477386475,
+      "learning_rate": 5.7537313432835826e-05,
+      "loss": 0.4037,
       "step": 1140
     },
     {
+      "epoch": 4.29,
+      "grad_norm": 3.2373063564300537,
+      "learning_rate": 5.716417910447761e-05,
+      "loss": 0.384,
+      "step": 1150
+    },
+    {
+      "epoch": 4.33,
+      "grad_norm": 1.8042526245117188,
+      "learning_rate": 5.679104477611941e-05,
+      "loss": 0.4024,
       "step": 1160
     },
     {
+      "epoch": 4.37,
+      "grad_norm": 0.9592193365097046,
+      "learning_rate": 5.64179104477612e-05,
+      "loss": 0.3646,
+      "step": 1170
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 4.0469584465026855,
+      "learning_rate": 5.6044776119402986e-05,
+      "loss": 0.3622,
       "step": 1180
     },
     {
+      "epoch": 4.44,
+      "grad_norm": 4.470405578613281,
+      "learning_rate": 5.5671641791044784e-05,
+      "loss": 0.2996,
+      "step": 1190
+    },
+    {
+      "epoch": 4.48,
+      "grad_norm": 6.086768627166748,
+      "learning_rate": 5.529850746268657e-05,
+      "loss": 0.4523,
       "step": 1200
     },
     {
+      "epoch": 4.48,
       "eval_accuracy": 0.8576449912126538,
+      "eval_loss": 0.49876561760902405,
+      "eval_runtime": 7.8527,
+      "eval_samples_per_second": 72.459,
+      "eval_steps_per_second": 9.169,
       "step": 1200
     },
     {
+      "epoch": 4.51,
+      "grad_norm": 3.478428363800049,
+      "learning_rate": 5.492537313432836e-05,
+      "loss": 0.4198,
+      "step": 1210
+    },
+    {
+      "epoch": 4.55,
+      "grad_norm": 4.539990425109863,
+      "learning_rate": 5.455223880597016e-05,
+      "loss": 0.3125,
       "step": 1220
     },
     {
+      "epoch": 4.59,
+      "grad_norm": 3.971435070037842,
+      "learning_rate": 5.4179104477611943e-05,
+      "loss": 0.2773,
+      "step": 1230
+    },
+    {
+      "epoch": 4.63,
+      "grad_norm": 7.168191909790039,
+      "learning_rate": 5.3805970149253735e-05,
+      "loss": 0.4852,
       "step": 1240
     },
     {
+      "epoch": 4.66,
+      "grad_norm": 2.896576166152954,
+      "learning_rate": 5.343283582089552e-05,
+      "loss": 0.3425,
+      "step": 1250
+    },
+    {
+      "epoch": 4.7,
+      "grad_norm": 1.4190607070922852,
+      "learning_rate": 5.305970149253732e-05,
+      "loss": 0.2219,
       "step": 1260
     },
     {
+      "epoch": 4.74,
+      "grad_norm": 5.066045761108398,
+      "learning_rate": 5.268656716417911e-05,
+      "loss": 0.3447,
+      "step": 1270
+    },
+    {
+      "epoch": 4.78,
+      "grad_norm": 4.2649126052856445,
+      "learning_rate": 5.2313432835820895e-05,
+      "loss": 0.3931,
       "step": 1280
     },
     {
+      "epoch": 4.81,
+      "grad_norm": 5.704684734344482,
+      "learning_rate": 5.197761194029851e-05,
+      "loss": 0.4274,
+      "step": 1290
+    },
+    {
+      "epoch": 4.85,
+      "grad_norm": 6.395939350128174,
+      "learning_rate": 5.16044776119403e-05,
+      "loss": 0.3162,
       "step": 1300
     },
     {
+      "epoch": 4.85,
+      "eval_accuracy": 0.8541300527240774,
+      "eval_loss": 0.5099390745162964,
+      "eval_runtime": 7.9919,
+      "eval_samples_per_second": 71.197,
+      "eval_steps_per_second": 9.009,
       "step": 1300
     },
     {
+      "epoch": 4.89,
+      "grad_norm": 2.4717729091644287,
+      "learning_rate": 5.123134328358209e-05,
+      "loss": 0.3442,
+      "step": 1310
+    },
+    {
+      "epoch": 4.93,
+      "grad_norm": 0.6504545211791992,
+      "learning_rate": 5.0858208955223885e-05,
+      "loss": 0.3313,
       "step": 1320
     },
     {
+      "epoch": 4.96,
+      "grad_norm": 4.316141128540039,
+      "learning_rate": 5.048507462686567e-05,
+      "loss": 0.3787,
+      "step": 1330
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 4.9243998527526855,
+      "learning_rate": 5.011194029850746e-05,
+      "loss": 0.38,
       "step": 1340
     },
+    {
+      "epoch": 5.04,
+      "grad_norm": 5.312038421630859,
+      "learning_rate": 4.973880597014925e-05,
+      "loss": 0.3268,
+      "step": 1350
+    },
+    {
+      "epoch": 5.07,
+      "grad_norm": 3.5483176708221436,
+      "learning_rate": 4.9365671641791045e-05,
+      "loss": 0.3423,
+      "step": 1360
+    },
+    {
+      "epoch": 5.11,
+      "grad_norm": 4.414547920227051,
+      "learning_rate": 4.899253731343284e-05,
+      "loss": 0.2421,
+      "step": 1370
+    },
+    {
+      "epoch": 5.15,
+      "grad_norm": 5.7323689460754395,
+      "learning_rate": 4.861940298507463e-05,
+      "loss": 0.2795,
+      "step": 1380
+    },
+    {
+      "epoch": 5.19,
+      "grad_norm": 4.2763471603393555,
+      "learning_rate": 4.824626865671642e-05,
+      "loss": 0.2402,
+      "step": 1390
+    },
+    {
+      "epoch": 5.22,
+      "grad_norm": 9.259199142456055,
+      "learning_rate": 4.787313432835821e-05,
+      "loss": 0.3793,
+      "step": 1400
+    },
+    {
+      "epoch": 5.22,
+      "eval_accuracy": 0.843585237258348,
+      "eval_loss": 0.5190387964248657,
+      "eval_runtime": 7.7562,
+      "eval_samples_per_second": 73.361,
+      "eval_steps_per_second": 9.283,
+      "step": 1400
+    },
+    {
+      "epoch": 5.26,
+      "grad_norm": 4.773892402648926,
+      "learning_rate": 4.75e-05,
+      "loss": 0.3476,
+      "step": 1410
+    },
+    {
+      "epoch": 5.3,
+      "grad_norm": 1.1271159648895264,
+      "learning_rate": 4.7126865671641794e-05,
+      "loss": 0.1949,
+      "step": 1420
+    },
+    {
+      "epoch": 5.34,
+      "grad_norm": 2.823958158493042,
+      "learning_rate": 4.6753731343283586e-05,
+      "loss": 0.3009,
+      "step": 1430
+    },
+    {
+      "epoch": 5.37,
+      "grad_norm": 0.35977163910865784,
+      "learning_rate": 4.638059701492538e-05,
+      "loss": 0.1821,
+      "step": 1440
+    },
+    {
+      "epoch": 5.41,
+      "grad_norm": 3.380308151245117,
+      "learning_rate": 4.600746268656716e-05,
+      "loss": 0.323,
+      "step": 1450
+    },
+    {
+      "epoch": 5.45,
+      "grad_norm": 5.946179389953613,
+      "learning_rate": 4.5634328358208954e-05,
+      "loss": 0.5344,
+      "step": 1460
+    },
+    {
+      "epoch": 5.49,
+      "grad_norm": 8.254781723022461,
+      "learning_rate": 4.526119402985075e-05,
+      "loss": 0.2799,
+      "step": 1470
+    },
+    {
+      "epoch": 5.52,
+      "grad_norm": 6.808130741119385,
+      "learning_rate": 4.4888059701492544e-05,
+      "loss": 0.3173,
+      "step": 1480
+    },
+    {
+      "epoch": 5.56,
+      "grad_norm": 17.452037811279297,
+      "learning_rate": 4.451492537313433e-05,
+      "loss": 0.3251,
+      "step": 1490
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 2.3097095489501953,
+      "learning_rate": 4.414179104477612e-05,
+      "loss": 0.3228,
+      "step": 1500
+    },
+    {
+      "epoch": 5.6,
+      "eval_accuracy": 0.8576449912126538,
+      "eval_loss": 0.4589254856109619,
+      "eval_runtime": 8.0547,
+      "eval_samples_per_second": 70.642,
+      "eval_steps_per_second": 8.939,
+      "step": 1500
+    },
+    {
+      "epoch": 5.63,
+      "grad_norm": 3.337970018386841,
+      "learning_rate": 4.376865671641791e-05,
+      "loss": 0.2528,
+      "step": 1510
+    },
+    {
+      "epoch": 5.67,
+      "grad_norm": 0.5921415090560913,
+      "learning_rate": 4.33955223880597e-05,
+      "loss": 0.2459,
+      "step": 1520
+    },
+    {
+      "epoch": 5.71,
+      "grad_norm": 4.148998260498047,
+      "learning_rate": 4.3022388059701495e-05,
+      "loss": 0.2927,
+      "step": 1530
+    },
+    {
+      "epoch": 5.75,
+      "grad_norm": 5.740537166595459,
+      "learning_rate": 4.2649253731343286e-05,
+      "loss": 0.423,
+      "step": 1540
+    },
+    {
+      "epoch": 5.78,
+      "grad_norm": 5.316250324249268,
+      "learning_rate": 4.227611940298508e-05,
+      "loss": 0.3735,
+      "step": 1550
+    },
+    {
+      "epoch": 5.82,
+      "grad_norm": 5.52378511428833,
+      "learning_rate": 4.190298507462686e-05,
+      "loss": 0.3613,
+      "step": 1560
+    },
+    {
+      "epoch": 5.86,
+      "grad_norm": 2.1002511978149414,
+      "learning_rate": 4.152985074626866e-05,
+      "loss": 0.259,
+      "step": 1570
+    },
+    {
+      "epoch": 5.9,
+      "grad_norm": 5.339119911193848,
+      "learning_rate": 4.115671641791045e-05,
+      "loss": 0.3355,
+      "step": 1580
+    },
+    {
+      "epoch": 5.93,
+      "grad_norm": 3.0551536083221436,
+      "learning_rate": 4.0783582089552244e-05,
+      "loss": 0.4342,
+      "step": 1590
+    },
+    {
+      "epoch": 5.97,
+      "grad_norm": 6.549235820770264,
+      "learning_rate": 4.041044776119403e-05,
+      "loss": 0.1795,
+      "step": 1600
+    },
+    {
+      "epoch": 5.97,
+      "eval_accuracy": 0.8488576449912126,
+      "eval_loss": 0.5095508694648743,
+      "eval_runtime": 7.7872,
+      "eval_samples_per_second": 73.068,
+      "eval_steps_per_second": 9.246,
+      "step": 1600
+    },
+    {
+      "epoch": 6.01,
+      "grad_norm": 11.5170316696167,
+      "learning_rate": 4.003731343283582e-05,
+      "loss": 0.3778,
+      "step": 1610
+    },
+    {
+      "epoch": 6.04,
+      "grad_norm": 6.004143238067627,
+      "learning_rate": 3.966417910447761e-05,
+      "loss": 0.3624,
+      "step": 1620
+    },
+    {
+      "epoch": 6.08,
+      "grad_norm": 4.328847885131836,
+      "learning_rate": 3.9291044776119404e-05,
+      "loss": 0.3478,
+      "step": 1630
+    },
+    {
+      "epoch": 6.12,
+      "grad_norm": 3.5757558345794678,
+      "learning_rate": 3.8917910447761195e-05,
+      "loss": 0.2208,
+      "step": 1640
+    },
+    {
+      "epoch": 6.16,
+      "grad_norm": 8.37783432006836,
+      "learning_rate": 3.854477611940299e-05,
+      "loss": 0.3614,
+      "step": 1650
+    },
+    {
+      "epoch": 6.19,
+      "grad_norm": 2.4890713691711426,
+      "learning_rate": 3.817164179104478e-05,
+      "loss": 0.2514,
+      "step": 1660
+    },
+    {
+      "epoch": 6.23,
+      "grad_norm": 8.873276710510254,
+      "learning_rate": 3.7798507462686563e-05,
+      "loss": 0.2233,
+      "step": 1670
+    },
+    {
+      "epoch": 6.27,
+      "grad_norm": 0.29393309354782104,
+      "learning_rate": 3.742537313432836e-05,
+      "loss": 0.2474,
+      "step": 1680
+    },
+    {
+      "epoch": 6.31,
+      "grad_norm": 3.810150384902954,
+      "learning_rate": 3.7052238805970153e-05,
+      "loss": 0.2481,
+      "step": 1690
+    },
+    {
+      "epoch": 6.34,
+      "grad_norm": 1.989057183265686,
+      "learning_rate": 3.6679104477611945e-05,
+      "loss": 0.2626,
+      "step": 1700
+    },
+    {
+      "epoch": 6.34,
+      "eval_accuracy": 0.8488576449912126,
+      "eval_loss": 0.5402765274047852,
+      "eval_runtime": 7.9293,
+      "eval_samples_per_second": 71.759,
+      "eval_steps_per_second": 9.08,
+      "step": 1700
+    },
+    {
+      "epoch": 6.38,
+      "grad_norm": 8.488819122314453,
+      "learning_rate": 3.630597014925373e-05,
+      "loss": 0.2826,
+      "step": 1710
+    },
+    {
+      "epoch": 6.42,
+      "grad_norm": 5.542993068695068,
+      "learning_rate": 3.593283582089552e-05,
+      "loss": 0.3552,
+      "step": 1720
+    },
+    {
+      "epoch": 6.46,
+      "grad_norm": 6.646905422210693,
+      "learning_rate": 3.555970149253732e-05,
+      "loss": 0.4405,
+      "step": 1730
+    },
+    {
+      "epoch": 6.49,
+      "grad_norm": 4.022976398468018,
+      "learning_rate": 3.5186567164179105e-05,
+      "loss": 0.2738,
+      "step": 1740
+    },
+    {
+      "epoch": 6.53,
+      "grad_norm": 3.5472657680511475,
+      "learning_rate": 3.4813432835820896e-05,
+      "loss": 0.2807,
+      "step": 1750
+    },
+    {
+      "epoch": 6.57,
+      "grad_norm": 12.070052146911621,
+      "learning_rate": 3.444029850746269e-05,
+      "loss": 0.3634,
+      "step": 1760
+    },
+    {
+      "epoch": 6.6,
+      "grad_norm": 5.368374347686768,
+      "learning_rate": 3.406716417910448e-05,
+      "loss": 0.3252,
+      "step": 1770
+    },
+    {
+      "epoch": 6.64,
+      "grad_norm": 5.566130638122559,
+      "learning_rate": 3.369402985074627e-05,
+      "loss": 0.3034,
+      "step": 1780
+    },
+    {
+      "epoch": 6.68,
+      "grad_norm": 5.875336170196533,
+      "learning_rate": 3.332089552238806e-05,
+      "loss": 0.3406,
+      "step": 1790
+    },
+    {
+      "epoch": 6.72,
+      "grad_norm": 2.4168920516967773,
+      "learning_rate": 3.2947761194029854e-05,
+      "loss": 0.3041,
+      "step": 1800
+    },
+    {
+      "epoch": 6.72,
+      "eval_accuracy": 0.8488576449912126,
+      "eval_loss": 0.4907586872577667,
+      "eval_runtime": 7.8209,
+      "eval_samples_per_second": 72.754,
+      "eval_steps_per_second": 9.206,
+      "step": 1800
+    },
+    {
+      "epoch": 6.75,
+      "grad_norm": 3.1040282249450684,
+      "learning_rate": 3.2574626865671646e-05,
+      "loss": 0.3167,
+      "step": 1810
+    },
+    {
+      "epoch": 6.79,
+      "grad_norm": 1.8458846807479858,
+      "learning_rate": 3.220149253731343e-05,
+      "loss": 0.2061,
+      "step": 1820
+    },
+    {
+      "epoch": 6.83,
+      "grad_norm": 0.4053177833557129,
+      "learning_rate": 3.182835820895523e-05,
+      "loss": 0.3113,
+      "step": 1830
+    },
+    {
+      "epoch": 6.87,
+      "grad_norm": 0.23064230382442474,
+      "learning_rate": 3.145522388059702e-05,
+      "loss": 0.2368,
+      "step": 1840
+    },
+    {
+      "epoch": 6.9,
+      "grad_norm": 1.006479263305664,
+      "learning_rate": 3.1082089552238805e-05,
+      "loss": 0.2265,
+      "step": 1850
+    },
+    {
+      "epoch": 6.94,
+      "grad_norm": 4.072957992553711,
+      "learning_rate": 3.07089552238806e-05,
+      "loss": 0.2976,
+      "step": 1860
+    },
+    {
+      "epoch": 6.98,
+      "grad_norm": 16.575963973999023,
+      "learning_rate": 3.033582089552239e-05,
+      "loss": 0.1504,
+      "step": 1870
+    },
+    {
+      "epoch": 7.01,
+      "grad_norm": 2.9144656658172607,
+      "learning_rate": 2.9962686567164183e-05,
+      "loss": 0.2156,
+      "step": 1880
+    },
+    {
+      "epoch": 7.05,
+      "grad_norm": 4.547207832336426,
+      "learning_rate": 2.958955223880597e-05,
+      "loss": 0.2693,
+      "step": 1890
+    },
+    {
+      "epoch": 7.09,
+      "grad_norm": 0.5566532611846924,
+      "learning_rate": 2.9216417910447763e-05,
+      "loss": 0.1831,
+      "step": 1900
+    },
+    {
+      "epoch": 7.09,
+      "eval_accuracy": 0.8383128295254832,
+      "eval_loss": 0.5721341967582703,
+      "eval_runtime": 7.7377,
+      "eval_samples_per_second": 73.536,
+      "eval_steps_per_second": 9.305,
+      "step": 1900
+    },
+    {
+      "epoch": 7.13,
+      "grad_norm": 7.9241838455200195,
+      "learning_rate": 2.8843283582089555e-05,
+      "loss": 0.3037,
+      "step": 1910
+    },
+    {
+      "epoch": 7.16,
+      "grad_norm": 4.847833156585693,
+      "learning_rate": 2.8470149253731343e-05,
+      "loss": 0.2744,
+      "step": 1920
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 4.368974208831787,
+      "learning_rate": 2.8097014925373134e-05,
+      "loss": 0.1603,
+      "step": 1930
+    },
+    {
+      "epoch": 7.24,
+      "grad_norm": 5.848027229309082,
+      "learning_rate": 2.772388059701493e-05,
+      "loss": 0.3318,
+      "step": 1940
+    },
+    {
+      "epoch": 7.28,
+      "grad_norm": 5.53363037109375,
+      "learning_rate": 2.7350746268656718e-05,
+      "loss": 0.2568,
+      "step": 1950
+    },
+    {
+      "epoch": 7.31,
+      "grad_norm": 1.3791863918304443,
+      "learning_rate": 2.697761194029851e-05,
+      "loss": 0.2186,
+      "step": 1960
+    },
+    {
+      "epoch": 7.35,
+      "grad_norm": 13.533841133117676,
+      "learning_rate": 2.6604477611940297e-05,
+      "loss": 0.2772,
+      "step": 1970
+    },
+    {
+      "epoch": 7.39,
+      "grad_norm": 1.113595962524414,
+      "learning_rate": 2.623134328358209e-05,
+      "loss": 0.3396,
+      "step": 1980
+    },
+    {
+      "epoch": 7.43,
+      "grad_norm": 3.193376064300537,
+      "learning_rate": 2.5858208955223884e-05,
+      "loss": 0.2171,
+      "step": 1990
+    },
+    {
+      "epoch": 7.46,
+      "grad_norm": 2.8687243461608887,
+      "learning_rate": 2.5485074626865672e-05,
+      "loss": 0.2275,
+      "step": 2000
+    },
+    {
+      "epoch": 7.46,
+      "eval_accuracy": 0.8312829525483304,
+      "eval_loss": 0.5349107980728149,
+      "eval_runtime": 8.0113,
+      "eval_samples_per_second": 71.025,
+      "eval_steps_per_second": 8.987,
+      "step": 2000
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 6.330258846282959,
+      "learning_rate": 2.5111940298507464e-05,
+      "loss": 0.2165,
+      "step": 2010
+    },
+    {
+      "epoch": 7.54,
+      "grad_norm": 2.457519769668579,
+      "learning_rate": 2.4738805970149252e-05,
+      "loss": 0.3275,
+      "step": 2020
+    },
+    {
+      "epoch": 7.57,
+      "grad_norm": 1.468772053718567,
+      "learning_rate": 2.4365671641791047e-05,
+      "loss": 0.186,
+      "step": 2030
+    },
+    {
+      "epoch": 7.61,
+      "grad_norm": 4.308888912200928,
+      "learning_rate": 2.3992537313432835e-05,
+      "loss": 0.3182,
+      "step": 2040
+    },
+    {
+      "epoch": 7.65,
+      "grad_norm": 1.8849867582321167,
+      "learning_rate": 2.361940298507463e-05,
+      "loss": 0.2631,
+      "step": 2050
+    },
+    {
+      "epoch": 7.69,
+      "grad_norm": 2.6795170307159424,
+      "learning_rate": 2.3246268656716418e-05,
+      "loss": 0.1724,
+      "step": 2060
+    },
+    {
+      "epoch": 7.72,
+      "grad_norm": 0.22702960669994354,
+      "learning_rate": 2.287313432835821e-05,
+      "loss": 0.2542,
+      "step": 2070
+    },
+    {
+      "epoch": 7.76,
+      "grad_norm": 4.6633429527282715,
+      "learning_rate": 2.25e-05,
+      "loss": 0.259,
+      "step": 2080
+    },
+    {
+      "epoch": 7.8,
+      "grad_norm": 6.543178558349609,
+      "learning_rate": 2.2126865671641793e-05,
+      "loss": 0.3752,
+      "step": 2090
+    },
+    {
+      "epoch": 7.84,
+      "grad_norm": 7.109080791473389,
+      "learning_rate": 2.1753731343283585e-05,
+      "loss": 0.1762,
+      "step": 2100
+    },
+    {
+      "epoch": 7.84,
+      "eval_accuracy": 0.8541300527240774,
+      "eval_loss": 0.5203543901443481,
+      "eval_runtime": 7.8922,
+      "eval_samples_per_second": 72.096,
+      "eval_steps_per_second": 9.123,
+      "step": 2100
+    },
+    {
+      "epoch": 7.87,
+      "grad_norm": 3.3965115547180176,
+      "learning_rate": 2.1380597014925373e-05,
+      "loss": 0.1965,
+      "step": 2110
+    },
+    {
+      "epoch": 7.91,
+      "grad_norm": 0.1386798918247223,
+      "learning_rate": 2.1007462686567164e-05,
+      "loss": 0.1448,
+      "step": 2120
+    },
+    {
+      "epoch": 7.95,
+      "grad_norm": 8.268773078918457,
+      "learning_rate": 2.0634328358208956e-05,
+      "loss": 0.2203,
+      "step": 2130
+    },
+    {
+      "epoch": 7.99,
+      "grad_norm": 2.712890625,
+      "learning_rate": 2.0261194029850748e-05,
+      "loss": 0.2104,
+      "step": 2140
+    },
+    {
+      "epoch": 8.02,
+      "grad_norm": 2.0390050411224365,
+      "learning_rate": 1.988805970149254e-05,
+      "loss": 0.2063,
+      "step": 2150
+    },
+    {
+      "epoch": 8.06,
+      "grad_norm": 4.355598449707031,
+      "learning_rate": 1.951492537313433e-05,
+      "loss": 0.1356,
+      "step": 2160
+    },
+    {
+      "epoch": 8.1,
+      "grad_norm": 9.854630470275879,
+      "learning_rate": 1.914179104477612e-05,
+      "loss": 0.1686,
+      "step": 2170
+    },
+    {
+      "epoch": 8.13,
+      "grad_norm": 4.178330421447754,
+      "learning_rate": 1.8768656716417914e-05,
+      "loss": 0.2578,
+      "step": 2180
+    },
+    {
+      "epoch": 8.17,
+      "grad_norm": 5.019784450531006,
+      "learning_rate": 1.8395522388059702e-05,
+      "loss": 0.1923,
+      "step": 2190
+    },
+    {
+      "epoch": 8.21,
+      "grad_norm": 3.8136210441589355,
+      "learning_rate": 1.8022388059701494e-05,
+      "loss": 0.2112,
+      "step": 2200
+    },
+    {
+      "epoch": 8.21,
+      "eval_accuracy": 0.8629173989455184,
+      "eval_loss": 0.5188840627670288,
+      "eval_runtime": 8.1412,
+      "eval_samples_per_second": 69.891,
+      "eval_steps_per_second": 8.844,
+      "step": 2200
+    },
+    {
+      "epoch": 8.25,
+      "grad_norm": 2.7035305500030518,
+      "learning_rate": 1.7649253731343285e-05,
+      "loss": 0.2501,
+      "step": 2210
+    },
+    {
+      "epoch": 8.28,
+      "grad_norm": 6.736306190490723,
+      "learning_rate": 1.7276119402985073e-05,
+      "loss": 0.2213,
+      "step": 2220
+    },
+    {
+      "epoch": 8.32,
+      "grad_norm": 3.0436556339263916,
+      "learning_rate": 1.690298507462687e-05,
+      "loss": 0.1285,
+      "step": 2230
+    },
+    {
+      "epoch": 8.36,
+      "grad_norm": 4.729572772979736,
+      "learning_rate": 1.6529850746268657e-05,
+      "loss": 0.2984,
+      "step": 2240
+    },
+    {
+      "epoch": 8.4,
+      "grad_norm": 3.6665098667144775,
+      "learning_rate": 1.6156716417910448e-05,
+      "loss": 0.1796,
+      "step": 2250
+    },
+    {
+      "epoch": 8.43,
+      "grad_norm": 8.485068321228027,
+      "learning_rate": 1.578358208955224e-05,
+      "loss": 0.2137,
+      "step": 2260
+    },
+    {
+      "epoch": 8.47,
+      "grad_norm": 4.643974304199219,
+      "learning_rate": 1.541044776119403e-05,
+      "loss": 0.3009,
+      "step": 2270
+    },
+    {
+      "epoch": 8.51,
+      "grad_norm": 2.91859769821167,
+      "learning_rate": 1.5037313432835823e-05,
+      "loss": 0.1855,
+      "step": 2280
+    },
+    {
+      "epoch": 8.54,
+      "grad_norm": 9.799684524536133,
+      "learning_rate": 1.4664179104477613e-05,
+      "loss": 0.2186,
+      "step": 2290
+    },
+    {
+      "epoch": 8.58,
+      "grad_norm": 4.92659330368042,
+      "learning_rate": 1.4291044776119403e-05,
+      "loss": 0.1242,
+      "step": 2300
+    },
+    {
+      "epoch": 8.58,
+      "eval_accuracy": 0.8471001757469244,
+      "eval_loss": 0.5376706123352051,
+      "eval_runtime": 7.8653,
+      "eval_samples_per_second": 72.343,
+      "eval_steps_per_second": 9.154,
+      "step": 2300
+    },
+    {
+      "epoch": 8.62,
+      "grad_norm": 0.7728621363639832,
+      "learning_rate": 1.3917910447761196e-05,
+      "loss": 0.2769,
+      "step": 2310
+    },
+    {
+      "epoch": 8.66,
+      "grad_norm": 3.757192373275757,
+      "learning_rate": 1.3544776119402986e-05,
+      "loss": 0.31,
+      "step": 2320
+    },
+    {
+      "epoch": 8.69,
+      "grad_norm": 5.901330471038818,
+      "learning_rate": 1.3171641791044777e-05,
+      "loss": 0.2488,
+      "step": 2330
+    },
+    {
+      "epoch": 8.73,
+      "grad_norm": 0.1360226422548294,
+      "learning_rate": 1.2798507462686567e-05,
+      "loss": 0.2359,
+      "step": 2340
+    },
+    {
+      "epoch": 8.77,
+      "grad_norm": 5.801501750946045,
+      "learning_rate": 1.2425373134328359e-05,
+      "loss": 0.23,
+      "step": 2350
+    },
+    {
+      "epoch": 8.81,
+      "grad_norm": 3.3060359954833984,
+      "learning_rate": 1.2052238805970149e-05,
+      "loss": 0.1114,
+      "step": 2360
+    },
+    {
+      "epoch": 8.84,
+      "grad_norm": 2.0813100337982178,
+      "learning_rate": 1.167910447761194e-05,
+      "loss": 0.1569,
+      "step": 2370
+    },
+    {
+      "epoch": 8.88,
+      "grad_norm": 0.42951256036758423,
+      "learning_rate": 1.1305970149253732e-05,
+      "loss": 0.2636,
+      "step": 2380
+    },
+    {
+      "epoch": 8.92,
+      "grad_norm": 3.2714788913726807,
+      "learning_rate": 1.0932835820895524e-05,
+      "loss": 0.2197,
+      "step": 2390
+    },
+    {
+      "epoch": 8.96,
+      "grad_norm": 4.24855375289917,
+      "learning_rate": 1.0559701492537313e-05,
+      "loss": 0.1207,
+      "step": 2400
+    },
+    {
+      "epoch": 8.96,
+      "eval_accuracy": 0.8558875219683656,
+      "eval_loss": 0.5324714779853821,
+      "eval_runtime": 7.9022,
+      "eval_samples_per_second": 72.006,
+      "eval_steps_per_second": 9.111,
+      "step": 2400
+    },
+    {
+      "epoch": 8.99,
+      "grad_norm": 3.989713430404663,
+      "learning_rate": 1.0186567164179105e-05,
+      "loss": 0.2336,
+      "step": 2410
+    },
+    {
+      "epoch": 9.03,
+      "grad_norm": 5.590869903564453,
+      "learning_rate": 9.813432835820897e-06,
+      "loss": 0.2292,
+      "step": 2420
+    },
+    {
+      "epoch": 9.07,
+      "grad_norm": 3.405966281890869,
+      "learning_rate": 9.440298507462688e-06,
+      "loss": 0.1654,
+      "step": 2430
+    },
+    {
+      "epoch": 9.1,
+      "grad_norm": 3.733381986618042,
+      "learning_rate": 9.067164179104478e-06,
+      "loss": 0.2104,
+      "step": 2440
+    },
+    {
+      "epoch": 9.14,
+      "grad_norm": 0.1994183361530304,
+      "learning_rate": 8.694029850746268e-06,
+      "loss": 0.0789,
+      "step": 2450
+    },
+    {
+      "epoch": 9.18,
+      "grad_norm": 7.948019504547119,
+      "learning_rate": 8.32089552238806e-06,
+      "loss": 0.3335,
+      "step": 2460
+    },
+    {
+      "epoch": 9.22,
+      "grad_norm": 3.020522117614746,
+      "learning_rate": 7.947761194029851e-06,
+      "loss": 0.1838,
+      "step": 2470
+    },
+    {
+      "epoch": 9.25,
+      "grad_norm": 2.4797592163085938,
+      "learning_rate": 7.574626865671643e-06,
+      "loss": 0.1573,
+      "step": 2480
+    },
+    {
+      "epoch": 9.29,
+      "grad_norm": 0.7854322195053101,
+      "learning_rate": 7.201492537313433e-06,
+      "loss": 0.1868,
+      "step": 2490
+    },
+    {
+      "epoch": 9.33,
+      "grad_norm": 8.424530982971191,
+      "learning_rate": 6.828358208955224e-06,
+      "loss": 0.1806,
+      "step": 2500
+    },
+    {
+      "epoch": 9.33,
+      "eval_accuracy": 0.8646748681898067,
+      "eval_loss": 0.5149648785591125,
+      "eval_runtime": 7.8422,
+      "eval_samples_per_second": 72.556,
+      "eval_steps_per_second": 9.181,
+      "step": 2500
+    },
+    {
+      "epoch": 9.37,
+      "grad_norm": 2.9176523685455322,
+      "learning_rate": 6.455223880597015e-06,
+      "loss": 0.1977,
+      "step": 2510
+    },
+    {
+      "epoch": 9.4,
+      "grad_norm": 4.15384578704834,
+      "learning_rate": 6.082089552238806e-06,
+      "loss": 0.2007,
+      "step": 2520
+    },
+    {
+      "epoch": 9.44,
+      "grad_norm": 2.4758641719818115,
+      "learning_rate": 5.708955223880597e-06,
+      "loss": 0.2,
+      "step": 2530
+    },
+    {
+      "epoch": 9.48,
+      "grad_norm": 4.053123950958252,
+      "learning_rate": 5.335820895522389e-06,
+      "loss": 0.2514,
+      "step": 2540
+    },
+    {
+      "epoch": 9.51,
+      "grad_norm": 2.3916337490081787,
+      "learning_rate": 4.9626865671641796e-06,
+      "loss": 0.2104,
+      "step": 2550
+    },
+    {
+      "epoch": 9.55,
+      "grad_norm": 4.113661766052246,
+      "learning_rate": 4.58955223880597e-06,
+      "loss": 0.1998,
+      "step": 2560
+    },
+    {
+      "epoch": 9.59,
+      "grad_norm": 3.558722972869873,
+      "learning_rate": 4.216417910447761e-06,
+      "loss": 0.144,
+      "step": 2570
+    },
+    {
+      "epoch": 9.63,
+      "grad_norm": 2.689765691757202,
+      "learning_rate": 3.843283582089553e-06,
+      "loss": 0.1691,
+      "step": 2580
+    },
+    {
+      "epoch": 9.66,
+      "grad_norm": 4.95484733581543,
+      "learning_rate": 3.4701492537313434e-06,
+      "loss": 0.1875,
+      "step": 2590
+    },
+    {
+      "epoch": 9.7,
+      "grad_norm": 6.025635242462158,
+      "learning_rate": 3.0970149253731345e-06,
+      "loss": 0.1793,
+      "step": 2600
+    },
+    {
+      "epoch": 9.7,
+      "eval_accuracy": 0.8664323374340949,
+      "eval_loss": 0.5153330564498901,
+      "eval_runtime": 7.9144,
+      "eval_samples_per_second": 71.894,
+      "eval_steps_per_second": 9.097,
+      "step": 2600
+    },
+    {
+      "epoch": 9.74,
+      "grad_norm": 0.3092793822288513,
+      "learning_rate": 2.7238805970149257e-06,
+      "loss": 0.1385,
+      "step": 2610
+    },
+    {
+      "epoch": 9.78,
+      "grad_norm": 1.1317028999328613,
+      "learning_rate": 2.3507462686567164e-06,
+      "loss": 0.1628,
+      "step": 2620
+    },
+    {
+      "epoch": 9.81,
+      "grad_norm": 7.642726898193359,
+      "learning_rate": 1.9776119402985076e-06,
+      "loss": 0.2142,
+      "step": 2630
+    },
+    {
+      "epoch": 9.85,
+      "grad_norm": 4.3891191482543945,
+      "learning_rate": 1.6044776119402985e-06,
+      "loss": 0.2115,
+      "step": 2640
+    },
+    {
+      "epoch": 9.89,
+      "grad_norm": 5.876834869384766,
+      "learning_rate": 1.2313432835820897e-06,
+      "loss": 0.2859,
+      "step": 2650
+    },
+    {
+      "epoch": 9.93,
+      "grad_norm": 1.6104581356048584,
+      "learning_rate": 8.582089552238806e-07,
+      "loss": 0.2752,
+      "step": 2660
+    },
+    {
+      "epoch": 9.96,
+      "grad_norm": 5.835386276245117,
+      "learning_rate": 4.850746268656717e-07,
+      "loss": 0.2057,
+      "step": 2670
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 7.006475925445557,
+      "learning_rate": 1.119402985074627e-07,
+      "loss": 0.2098,
+      "step": 2680
+    },
     {
       "epoch": 10.0,
+      "step": 2680,
       "total_flos": 3.3230947683690086e+18,
+      "train_loss": 0.45543073504718384,
+      "train_runtime": 1353.2313,
+      "train_samples_per_second": 31.687,
+      "train_steps_per_second": 1.98
     }
   ],
+  "logging_steps": 10,
+  "max_steps": 2680,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 100,
   "total_flos": 3.3230947683690086e+18,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }