End of training

Browse files

Files changed (6) hide show

README.md +3 -3
all_results.json +13 -0
eval_results.json +8 -0
runs/Jan24_17-33-02_ef765fa7224c/events.out.tfevents.1737741311.ef765fa7224c.194.3 +3 -0
train_results.json +8 -0
trainer_state.json +2966 -0

README.md CHANGED Viewed

@@ -23,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.7394366197183099
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -33,8 +33,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [facebook/vit-msn-small](https://huggingface.co/facebook/vit-msn-small) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6316
-- Accuracy: 0.7394
 ## Model description

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.7746478873239436
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [facebook/vit-msn-small](https://huggingface.co/facebook/vit-msn-small) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5203
+- Accuracy: 0.7746
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 285.7142857142857,
+    "eval_accuracy": 0.7746478873239436,
+    "eval_loss": 0.520267128944397,
+    "eval_runtime": 0.6536,
+    "eval_samples_per_second": 217.252,
+    "eval_steps_per_second": 4.59,
+    "total_flos": 2.387684396739963e+18,
+    "train_loss": 0.3142274961471558,
+    "train_runtime": 1304.9715,
+    "train_samples_per_second": 163.605,
+    "train_steps_per_second": 0.383
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 285.7142857142857,
+    "eval_accuracy": 0.7746478873239436,
+    "eval_loss": 0.520267128944397,
+    "eval_runtime": 0.6536,
+    "eval_samples_per_second": 217.252,
+    "eval_steps_per_second": 4.59
+}

runs/Jan24_17-33-02_ef765fa7224c/events.out.tfevents.1737741311.ef765fa7224c.194.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:604dd8fb6e8fc54c87c603d0ea6014defff7f77476eac5f75a4fb30925f44fdb
+size 411

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 285.7142857142857,
+    "total_flos": 2.387684396739963e+18,
+    "train_loss": 0.3142274961471558,
+    "train_runtime": 1304.9715,
+    "train_samples_per_second": 163.605,
+    "train_steps_per_second": 0.383
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2966 @@

+{
+  "best_metric": 0.520267128944397,
+  "best_model_checkpoint": "vit-msn-small-beta-fia-manually-enhanced_test_2/checkpoint-94",
+  "epoch": 285.7142857142857,
+  "eval_steps": 500,
+  "global_step": 500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.5714285714285714,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6037383675575256,
+      "eval_runtime": 0.7043,
+      "eval_samples_per_second": 201.628,
+      "eval_steps_per_second": 4.26,
+      "step": 1
+    },
+    {
+      "epoch": 1.7142857142857144,
+      "eval_accuracy": 0.7323943661971831,
+      "eval_loss": 0.6071274280548096,
+      "eval_runtime": 0.6313,
+      "eval_samples_per_second": 224.947,
+      "eval_steps_per_second": 4.752,
+      "step": 3
+    },
+    {
+      "epoch": 2.857142857142857,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.6120076775550842,
+      "eval_runtime": 0.6621,
+      "eval_samples_per_second": 214.465,
+      "eval_steps_per_second": 4.531,
+      "step": 5
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.6187500953674316,
+      "eval_runtime": 0.617,
+      "eval_samples_per_second": 230.15,
+      "eval_steps_per_second": 4.862,
+      "step": 7
+    },
+    {
+      "epoch": 4.571428571428571,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.6205877661705017,
+      "eval_runtime": 0.6065,
+      "eval_samples_per_second": 234.118,
+      "eval_steps_per_second": 4.946,
+      "step": 8
+    },
+    {
+      "epoch": 5.714285714285714,
+      "grad_norm": 4.976908206939697,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.4866,
+      "step": 10
+    },
+    {
+      "epoch": 5.714285714285714,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.6271856427192688,
+      "eval_runtime": 0.6179,
+      "eval_samples_per_second": 229.802,
+      "eval_steps_per_second": 4.855,
+      "step": 10
+    },
+    {
+      "epoch": 6.857142857142857,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.6354550123214722,
+      "eval_runtime": 0.615,
+      "eval_samples_per_second": 230.884,
+      "eval_steps_per_second": 4.878,
+      "step": 12
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.6398630142211914,
+      "eval_runtime": 0.6614,
+      "eval_samples_per_second": 214.71,
+      "eval_steps_per_second": 4.536,
+      "step": 14
+    },
+    {
+      "epoch": 8.571428571428571,
+      "eval_accuracy": 0.6830985915492958,
+      "eval_loss": 0.6364104151725769,
+      "eval_runtime": 0.6148,
+      "eval_samples_per_second": 230.963,
+      "eval_steps_per_second": 4.88,
+      "step": 15
+    },
+    {
+      "epoch": 9.714285714285714,
+      "eval_accuracy": 0.6830985915492958,
+      "eval_loss": 0.6294547915458679,
+      "eval_runtime": 0.6631,
+      "eval_samples_per_second": 214.147,
+      "eval_steps_per_second": 4.524,
+      "step": 17
+    },
+    {
+      "epoch": 10.857142857142858,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.6287956833839417,
+      "eval_runtime": 0.6702,
+      "eval_samples_per_second": 211.869,
+      "eval_steps_per_second": 4.476,
+      "step": 19
+    },
+    {
+      "epoch": 11.428571428571429,
+      "grad_norm": 4.726110458374023,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.4519,
+      "step": 20
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.6185110211372375,
+      "eval_runtime": 0.6632,
+      "eval_samples_per_second": 214.103,
+      "eval_steps_per_second": 4.523,
+      "step": 21
+    },
+    {
+      "epoch": 12.571428571428571,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.6159186363220215,
+      "eval_runtime": 0.6273,
+      "eval_samples_per_second": 226.383,
+      "eval_steps_per_second": 4.783,
+      "step": 22
+    },
+    {
+      "epoch": 13.714285714285714,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.6113001704216003,
+      "eval_runtime": 0.667,
+      "eval_samples_per_second": 212.906,
+      "eval_steps_per_second": 4.498,
+      "step": 24
+    },
+    {
+      "epoch": 14.857142857142858,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.5986557006835938,
+      "eval_runtime": 0.6998,
+      "eval_samples_per_second": 202.92,
+      "eval_steps_per_second": 4.287,
+      "step": 26
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.6017070412635803,
+      "eval_runtime": 0.6484,
+      "eval_samples_per_second": 218.996,
+      "eval_steps_per_second": 4.627,
+      "step": 28
+    },
+    {
+      "epoch": 16.571428571428573,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.6066802144050598,
+      "eval_runtime": 0.6148,
+      "eval_samples_per_second": 230.971,
+      "eval_steps_per_second": 4.88,
+      "step": 29
+    },
+    {
+      "epoch": 17.142857142857142,
+      "grad_norm": 9.665369033813477,
+      "learning_rate": 3e-06,
+      "loss": 0.437,
+      "step": 30
+    },
+    {
+      "epoch": 17.714285714285715,
+      "eval_accuracy": 0.6619718309859155,
+      "eval_loss": 0.6062361598014832,
+      "eval_runtime": 0.628,
+      "eval_samples_per_second": 226.123,
+      "eval_steps_per_second": 4.777,
+      "step": 31
+    },
+    {
+      "epoch": 18.857142857142858,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.5966038107872009,
+      "eval_runtime": 0.7056,
+      "eval_samples_per_second": 201.243,
+      "eval_steps_per_second": 4.252,
+      "step": 33
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.5857767462730408,
+      "eval_runtime": 0.6152,
+      "eval_samples_per_second": 230.806,
+      "eval_steps_per_second": 4.876,
+      "step": 35
+    },
+    {
+      "epoch": 20.571428571428573,
+      "eval_accuracy": 0.704225352112676,
+      "eval_loss": 0.5888840556144714,
+      "eval_runtime": 0.6769,
+      "eval_samples_per_second": 209.765,
+      "eval_steps_per_second": 4.432,
+      "step": 36
+    },
+    {
+      "epoch": 21.714285714285715,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.5767799615859985,
+      "eval_runtime": 0.6222,
+      "eval_samples_per_second": 228.219,
+      "eval_steps_per_second": 4.822,
+      "step": 38
+    },
+    {
+      "epoch": 22.857142857142858,
+      "grad_norm": 7.109732151031494,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.4353,
+      "step": 40
+    },
+    {
+      "epoch": 22.857142857142858,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.5751827359199524,
+      "eval_runtime": 0.6871,
+      "eval_samples_per_second": 206.668,
+      "eval_steps_per_second": 4.366,
+      "step": 40
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.5728872418403625,
+      "eval_runtime": 0.61,
+      "eval_samples_per_second": 232.791,
+      "eval_steps_per_second": 4.918,
+      "step": 42
+    },
+    {
+      "epoch": 24.571428571428573,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.5909363627433777,
+      "eval_runtime": 0.6389,
+      "eval_samples_per_second": 222.273,
+      "eval_steps_per_second": 4.696,
+      "step": 43
+    },
+    {
+      "epoch": 25.714285714285715,
+      "eval_accuracy": 0.676056338028169,
+      "eval_loss": 0.6038447618484497,
+      "eval_runtime": 0.611,
+      "eval_samples_per_second": 232.415,
+      "eval_steps_per_second": 4.91,
+      "step": 45
+    },
+    {
+      "epoch": 26.857142857142858,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.5903939008712769,
+      "eval_runtime": 0.6408,
+      "eval_samples_per_second": 221.615,
+      "eval_steps_per_second": 4.682,
+      "step": 47
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.6830985915492958,
+      "eval_loss": 0.5846758484840393,
+      "eval_runtime": 0.6786,
+      "eval_samples_per_second": 209.242,
+      "eval_steps_per_second": 4.421,
+      "step": 49
+    },
+    {
+      "epoch": 28.571428571428573,
+      "grad_norm": 6.319047927856445,
+      "learning_rate": 5e-06,
+      "loss": 0.4141,
+      "step": 50
+    },
+    {
+      "epoch": 28.571428571428573,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.5615125894546509,
+      "eval_runtime": 0.7037,
+      "eval_samples_per_second": 201.787,
+      "eval_steps_per_second": 4.263,
+      "step": 50
+    },
+    {
+      "epoch": 29.714285714285715,
+      "eval_accuracy": 0.7253521126760564,
+      "eval_loss": 0.5543914437294006,
+      "eval_runtime": 0.707,
+      "eval_samples_per_second": 200.841,
+      "eval_steps_per_second": 4.243,
+      "step": 52
+    },
+    {
+      "epoch": 30.857142857142858,
+      "eval_accuracy": 0.6690140845070423,
+      "eval_loss": 0.5903507471084595,
+      "eval_runtime": 0.6246,
+      "eval_samples_per_second": 227.36,
+      "eval_steps_per_second": 4.803,
+      "step": 54
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.6830985915492958,
+      "eval_loss": 0.5948190689086914,
+      "eval_runtime": 0.67,
+      "eval_samples_per_second": 211.956,
+      "eval_steps_per_second": 4.478,
+      "step": 56
+    },
+    {
+      "epoch": 32.57142857142857,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.5799919962882996,
+      "eval_runtime": 0.6151,
+      "eval_samples_per_second": 230.865,
+      "eval_steps_per_second": 4.877,
+      "step": 57
+    },
+    {
+      "epoch": 33.714285714285715,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.5902391076087952,
+      "eval_runtime": 0.6636,
+      "eval_samples_per_second": 213.993,
+      "eval_steps_per_second": 4.521,
+      "step": 59
+    },
+    {
+      "epoch": 34.285714285714285,
+      "grad_norm": 7.730890274047852,
+      "learning_rate": 6e-06,
+      "loss": 0.4066,
+      "step": 60
+    },
+    {
+      "epoch": 34.857142857142854,
+      "eval_accuracy": 0.6690140845070423,
+      "eval_loss": 0.5950306057929993,
+      "eval_runtime": 0.5961,
+      "eval_samples_per_second": 238.215,
+      "eval_steps_per_second": 5.033,
+      "step": 61
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.7323943661971831,
+      "eval_loss": 0.550020694732666,
+      "eval_runtime": 0.7196,
+      "eval_samples_per_second": 197.33,
+      "eval_steps_per_second": 4.169,
+      "step": 63
+    },
+    {
+      "epoch": 36.57142857142857,
+      "eval_accuracy": 0.7323943661971831,
+      "eval_loss": 0.5470194220542908,
+      "eval_runtime": 0.6083,
+      "eval_samples_per_second": 233.447,
+      "eval_steps_per_second": 4.932,
+      "step": 64
+    },
+    {
+      "epoch": 37.714285714285715,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.5858845710754395,
+      "eval_runtime": 0.6227,
+      "eval_samples_per_second": 228.055,
+      "eval_steps_per_second": 4.818,
+      "step": 66
+    },
+    {
+      "epoch": 38.857142857142854,
+      "eval_accuracy": 0.6830985915492958,
+      "eval_loss": 0.5954940319061279,
+      "eval_runtime": 0.6205,
+      "eval_samples_per_second": 228.835,
+      "eval_steps_per_second": 4.835,
+      "step": 68
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 13.489781379699707,
+      "learning_rate": 7e-06,
+      "loss": 0.3827,
+      "step": 70
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.676056338028169,
+      "eval_loss": 0.5966904163360596,
+      "eval_runtime": 0.6376,
+      "eval_samples_per_second": 222.718,
+      "eval_steps_per_second": 4.705,
+      "step": 70
+    },
+    {
+      "epoch": 40.57142857142857,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.5809391736984253,
+      "eval_runtime": 0.6365,
+      "eval_samples_per_second": 223.09,
+      "eval_steps_per_second": 4.713,
+      "step": 71
+    },
+    {
+      "epoch": 41.714285714285715,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.5720686316490173,
+      "eval_runtime": 0.6634,
+      "eval_samples_per_second": 214.062,
+      "eval_steps_per_second": 4.522,
+      "step": 73
+    },
+    {
+      "epoch": 42.857142857142854,
+      "eval_accuracy": 0.6830985915492958,
+      "eval_loss": 0.6018939018249512,
+      "eval_runtime": 0.6125,
+      "eval_samples_per_second": 231.824,
+      "eval_steps_per_second": 4.898,
+      "step": 75
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.6070601940155029,
+      "eval_runtime": 0.6927,
+      "eval_samples_per_second": 204.986,
+      "eval_steps_per_second": 4.331,
+      "step": 77
+    },
+    {
+      "epoch": 44.57142857142857,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.5961697697639465,
+      "eval_runtime": 0.6369,
+      "eval_samples_per_second": 222.959,
+      "eval_steps_per_second": 4.71,
+      "step": 78
+    },
+    {
+      "epoch": 45.714285714285715,
+      "grad_norm": 6.058713912963867,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.37,
+      "step": 80
+    },
+    {
+      "epoch": 45.714285714285715,
+      "eval_accuracy": 0.6830985915492958,
+      "eval_loss": 0.6113830804824829,
+      "eval_runtime": 0.6224,
+      "eval_samples_per_second": 228.164,
+      "eval_steps_per_second": 4.82,
+      "step": 80
+    },
+    {
+      "epoch": 46.857142857142854,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.5594072341918945,
+      "eval_runtime": 0.6975,
+      "eval_samples_per_second": 203.576,
+      "eval_steps_per_second": 4.301,
+      "step": 82
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.7323943661971831,
+      "eval_loss": 0.5492833852767944,
+      "eval_runtime": 0.6605,
+      "eval_samples_per_second": 214.993,
+      "eval_steps_per_second": 4.542,
+      "step": 84
+    },
+    {
+      "epoch": 48.57142857142857,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.5743516087532043,
+      "eval_runtime": 0.627,
+      "eval_samples_per_second": 226.457,
+      "eval_steps_per_second": 4.784,
+      "step": 85
+    },
+    {
+      "epoch": 49.714285714285715,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.5442511439323425,
+      "eval_runtime": 0.6291,
+      "eval_samples_per_second": 225.736,
+      "eval_steps_per_second": 4.769,
+      "step": 87
+    },
+    {
+      "epoch": 50.857142857142854,
+      "eval_accuracy": 0.7323943661971831,
+      "eval_loss": 0.5469312071800232,
+      "eval_runtime": 0.6973,
+      "eval_samples_per_second": 203.643,
+      "eval_steps_per_second": 4.302,
+      "step": 89
+    },
+    {
+      "epoch": 51.42857142857143,
+      "grad_norm": 5.536169052124023,
+      "learning_rate": 9e-06,
+      "loss": 0.3797,
+      "step": 90
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.6830985915492958,
+      "eval_loss": 0.6002964377403259,
+      "eval_runtime": 0.6896,
+      "eval_samples_per_second": 205.902,
+      "eval_steps_per_second": 4.35,
+      "step": 91
+    },
+    {
+      "epoch": 52.57142857142857,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.60481196641922,
+      "eval_runtime": 0.6487,
+      "eval_samples_per_second": 218.884,
+      "eval_steps_per_second": 4.624,
+      "step": 92
+    },
+    {
+      "epoch": 53.714285714285715,
+      "eval_accuracy": 0.7746478873239436,
+      "eval_loss": 0.520267128944397,
+      "eval_runtime": 0.6631,
+      "eval_samples_per_second": 214.158,
+      "eval_steps_per_second": 4.524,
+      "step": 94
+    },
+    {
+      "epoch": 54.857142857142854,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.5326515436172485,
+      "eval_runtime": 0.64,
+      "eval_samples_per_second": 221.883,
+      "eval_steps_per_second": 4.688,
+      "step": 96
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.6338028169014085,
+      "eval_loss": 0.6414005756378174,
+      "eval_runtime": 0.6942,
+      "eval_samples_per_second": 204.548,
+      "eval_steps_per_second": 4.321,
+      "step": 98
+    },
+    {
+      "epoch": 56.57142857142857,
+      "eval_accuracy": 0.6197183098591549,
+      "eval_loss": 0.6561903357505798,
+      "eval_runtime": 0.6607,
+      "eval_samples_per_second": 214.94,
+      "eval_steps_per_second": 4.541,
+      "step": 99
+    },
+    {
+      "epoch": 57.142857142857146,
+      "grad_norm": 7.4128217697143555,
+      "learning_rate": 1e-05,
+      "loss": 0.3715,
+      "step": 100
+    },
+    {
+      "epoch": 57.714285714285715,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.575397253036499,
+      "eval_runtime": 0.6153,
+      "eval_samples_per_second": 230.765,
+      "eval_steps_per_second": 4.875,
+      "step": 101
+    },
+    {
+      "epoch": 58.857142857142854,
+      "eval_accuracy": 0.7253521126760564,
+      "eval_loss": 0.5671846270561218,
+      "eval_runtime": 0.6933,
+      "eval_samples_per_second": 204.809,
+      "eval_steps_per_second": 4.327,
+      "step": 103
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.6060019731521606,
+      "eval_runtime": 0.6652,
+      "eval_samples_per_second": 213.467,
+      "eval_steps_per_second": 4.51,
+      "step": 105
+    },
+    {
+      "epoch": 60.57142857142857,
+      "eval_accuracy": 0.6197183098591549,
+      "eval_loss": 0.6536318063735962,
+      "eval_runtime": 0.689,
+      "eval_samples_per_second": 206.095,
+      "eval_steps_per_second": 4.354,
+      "step": 106
+    },
+    {
+      "epoch": 61.714285714285715,
+      "eval_accuracy": 0.647887323943662,
+      "eval_loss": 0.6177354454994202,
+      "eval_runtime": 0.6168,
+      "eval_samples_per_second": 230.219,
+      "eval_steps_per_second": 4.864,
+      "step": 108
+    },
+    {
+      "epoch": 62.857142857142854,
+      "grad_norm": 6.197967052459717,
+      "learning_rate": 9.75e-06,
+      "loss": 0.3483,
+      "step": 110
+    },
+    {
+      "epoch": 62.857142857142854,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.538495659828186,
+      "eval_runtime": 0.6031,
+      "eval_samples_per_second": 235.448,
+      "eval_steps_per_second": 4.974,
+      "step": 110
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.5630239844322205,
+      "eval_runtime": 0.6172,
+      "eval_samples_per_second": 230.084,
+      "eval_steps_per_second": 4.861,
+      "step": 112
+    },
+    {
+      "epoch": 64.57142857142857,
+      "eval_accuracy": 0.7253521126760564,
+      "eval_loss": 0.5817703604698181,
+      "eval_runtime": 0.6286,
+      "eval_samples_per_second": 225.91,
+      "eval_steps_per_second": 4.773,
+      "step": 113
+    },
+    {
+      "epoch": 65.71428571428571,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.605471670627594,
+      "eval_runtime": 0.6515,
+      "eval_samples_per_second": 217.951,
+      "eval_steps_per_second": 4.605,
+      "step": 115
+    },
+    {
+      "epoch": 66.85714285714286,
+      "eval_accuracy": 0.7323943661971831,
+      "eval_loss": 0.5736685991287231,
+      "eval_runtime": 0.6154,
+      "eval_samples_per_second": 230.742,
+      "eval_steps_per_second": 4.875,
+      "step": 117
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.5605682730674744,
+      "eval_runtime": 0.658,
+      "eval_samples_per_second": 215.803,
+      "eval_steps_per_second": 4.559,
+      "step": 119
+    },
+    {
+      "epoch": 68.57142857142857,
+      "grad_norm": 9.030172348022461,
+      "learning_rate": 9.5e-06,
+      "loss": 0.3667,
+      "step": 120
+    },
+    {
+      "epoch": 68.57142857142857,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.582869827747345,
+      "eval_runtime": 0.614,
+      "eval_samples_per_second": 231.27,
+      "eval_steps_per_second": 4.886,
+      "step": 120
+    },
+    {
+      "epoch": 69.71428571428571,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.5931121110916138,
+      "eval_runtime": 0.6622,
+      "eval_samples_per_second": 214.426,
+      "eval_steps_per_second": 4.53,
+      "step": 122
+    },
+    {
+      "epoch": 70.85714285714286,
+      "eval_accuracy": 0.7605633802816901,
+      "eval_loss": 0.5375192761421204,
+      "eval_runtime": 0.6532,
+      "eval_samples_per_second": 217.407,
+      "eval_steps_per_second": 4.593,
+      "step": 124
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.5797293186187744,
+      "eval_runtime": 0.6229,
+      "eval_samples_per_second": 227.957,
+      "eval_steps_per_second": 4.816,
+      "step": 126
+    },
+    {
+      "epoch": 72.57142857142857,
+      "eval_accuracy": 0.6690140845070423,
+      "eval_loss": 0.6182157397270203,
+      "eval_runtime": 0.6904,
+      "eval_samples_per_second": 205.68,
+      "eval_steps_per_second": 4.345,
+      "step": 127
+    },
+    {
+      "epoch": 73.71428571428571,
+      "eval_accuracy": 0.6690140845070423,
+      "eval_loss": 0.6496893167495728,
+      "eval_runtime": 0.6934,
+      "eval_samples_per_second": 204.791,
+      "eval_steps_per_second": 4.327,
+      "step": 129
+    },
+    {
+      "epoch": 74.28571428571429,
+      "grad_norm": 6.506986618041992,
+      "learning_rate": 9.250000000000001e-06,
+      "loss": 0.3357,
+      "step": 130
+    },
+    {
+      "epoch": 74.85714285714286,
+      "eval_accuracy": 0.6830985915492958,
+      "eval_loss": 0.6431972980499268,
+      "eval_runtime": 0.6977,
+      "eval_samples_per_second": 203.534,
+      "eval_steps_per_second": 4.3,
+      "step": 131
+    },
+    {
+      "epoch": 76.0,
+      "eval_accuracy": 0.6619718309859155,
+      "eval_loss": 0.6771786212921143,
+      "eval_runtime": 0.679,
+      "eval_samples_per_second": 209.125,
+      "eval_steps_per_second": 4.418,
+      "step": 133
+    },
+    {
+      "epoch": 76.57142857142857,
+      "eval_accuracy": 0.647887323943662,
+      "eval_loss": 0.6394755840301514,
+      "eval_runtime": 0.6125,
+      "eval_samples_per_second": 231.828,
+      "eval_steps_per_second": 4.898,
+      "step": 134
+    },
+    {
+      "epoch": 77.71428571428571,
+      "eval_accuracy": 0.704225352112676,
+      "eval_loss": 0.5894708633422852,
+      "eval_runtime": 0.628,
+      "eval_samples_per_second": 226.107,
+      "eval_steps_per_second": 4.777,
+      "step": 136
+    },
+    {
+      "epoch": 78.85714285714286,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.592099130153656,
+      "eval_runtime": 0.6114,
+      "eval_samples_per_second": 232.269,
+      "eval_steps_per_second": 4.907,
+      "step": 138
+    },
+    {
+      "epoch": 80.0,
+      "grad_norm": 6.510707855224609,
+      "learning_rate": 9e-06,
+      "loss": 0.3415,
+      "step": 140
+    },
+    {
+      "epoch": 80.0,
+      "eval_accuracy": 0.7253521126760564,
+      "eval_loss": 0.5618441104888916,
+      "eval_runtime": 0.6014,
+      "eval_samples_per_second": 236.1,
+      "eval_steps_per_second": 4.988,
+      "step": 140
+    },
+    {
+      "epoch": 80.57142857142857,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.569664478302002,
+      "eval_runtime": 0.6899,
+      "eval_samples_per_second": 205.839,
+      "eval_steps_per_second": 4.349,
+      "step": 141
+    },
+    {
+      "epoch": 81.71428571428571,
+      "eval_accuracy": 0.6197183098591549,
+      "eval_loss": 0.6535471677780151,
+      "eval_runtime": 0.6581,
+      "eval_samples_per_second": 215.764,
+      "eval_steps_per_second": 4.558,
+      "step": 143
+    },
+    {
+      "epoch": 82.85714285714286,
+      "eval_accuracy": 0.6338028169014085,
+      "eval_loss": 0.6626799702644348,
+      "eval_runtime": 0.6631,
+      "eval_samples_per_second": 214.131,
+      "eval_steps_per_second": 4.524,
+      "step": 145
+    },
+    {
+      "epoch": 84.0,
+      "eval_accuracy": 0.676056338028169,
+      "eval_loss": 0.6194331645965576,
+      "eval_runtime": 0.6094,
+      "eval_samples_per_second": 233.008,
+      "eval_steps_per_second": 4.923,
+      "step": 147
+    },
+    {
+      "epoch": 84.57142857142857,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.6301348805427551,
+      "eval_runtime": 0.6101,
+      "eval_samples_per_second": 232.737,
+      "eval_steps_per_second": 4.917,
+      "step": 148
+    },
+    {
+      "epoch": 85.71428571428571,
+      "grad_norm": 4.926376819610596,
+      "learning_rate": 8.750000000000001e-06,
+      "loss": 0.3296,
+      "step": 150
+    },
+    {
+      "epoch": 85.71428571428571,
+      "eval_accuracy": 0.6690140845070423,
+      "eval_loss": 0.6436378955841064,
+      "eval_runtime": 0.6603,
+      "eval_samples_per_second": 215.038,
+      "eval_steps_per_second": 4.543,
+      "step": 150
+    },
+    {
+      "epoch": 86.85714285714286,
+      "eval_accuracy": 0.6830985915492958,
+      "eval_loss": 0.6348147392272949,
+      "eval_runtime": 0.6632,
+      "eval_samples_per_second": 214.105,
+      "eval_steps_per_second": 4.523,
+      "step": 152
+    },
+    {
+      "epoch": 88.0,
+      "eval_accuracy": 0.647887323943662,
+      "eval_loss": 0.6703845262527466,
+      "eval_runtime": 0.6192,
+      "eval_samples_per_second": 229.331,
+      "eval_steps_per_second": 4.845,
+      "step": 154
+    },
+    {
+      "epoch": 88.57142857142857,
+      "eval_accuracy": 0.6338028169014085,
+      "eval_loss": 0.7190238237380981,
+      "eval_runtime": 0.6914,
+      "eval_samples_per_second": 205.385,
+      "eval_steps_per_second": 4.339,
+      "step": 155
+    },
+    {
+      "epoch": 89.71428571428571,
+      "eval_accuracy": 0.6338028169014085,
+      "eval_loss": 0.7063698768615723,
+      "eval_runtime": 0.655,
+      "eval_samples_per_second": 216.794,
+      "eval_steps_per_second": 4.58,
+      "step": 157
+    },
+    {
+      "epoch": 90.85714285714286,
+      "eval_accuracy": 0.6549295774647887,
+      "eval_loss": 0.6291490793228149,
+      "eval_runtime": 0.6988,
+      "eval_samples_per_second": 203.195,
+      "eval_steps_per_second": 4.293,
+      "step": 159
+    },
+    {
+      "epoch": 91.42857142857143,
+      "grad_norm": 7.158923625946045,
+      "learning_rate": 8.5e-06,
+      "loss": 0.3296,
+      "step": 160
+    },
+    {
+      "epoch": 92.0,
+      "eval_accuracy": 0.6197183098591549,
+      "eval_loss": 0.6933465003967285,
+      "eval_runtime": 0.7003,
+      "eval_samples_per_second": 202.767,
+      "eval_steps_per_second": 4.284,
+      "step": 161
+    },
+    {
+      "epoch": 92.57142857142857,
+      "eval_accuracy": 0.6197183098591549,
+      "eval_loss": 0.7115197777748108,
+      "eval_runtime": 0.6713,
+      "eval_samples_per_second": 211.542,
+      "eval_steps_per_second": 4.469,
+      "step": 162
+    },
+    {
+      "epoch": 93.71428571428571,
+      "eval_accuracy": 0.6690140845070423,
+      "eval_loss": 0.6228932738304138,
+      "eval_runtime": 0.6174,
+      "eval_samples_per_second": 230.002,
+      "eval_steps_per_second": 4.859,
+      "step": 164
+    },
+    {
+      "epoch": 94.85714285714286,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.5726597309112549,
+      "eval_runtime": 0.6102,
+      "eval_samples_per_second": 232.693,
+      "eval_steps_per_second": 4.916,
+      "step": 166
+    },
+    {
+      "epoch": 96.0,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.5964914560317993,
+      "eval_runtime": 0.6146,
+      "eval_samples_per_second": 231.039,
+      "eval_steps_per_second": 4.881,
+      "step": 168
+    },
+    {
+      "epoch": 96.57142857142857,
+      "eval_accuracy": 0.6690140845070423,
+      "eval_loss": 0.643250584602356,
+      "eval_runtime": 0.6226,
+      "eval_samples_per_second": 228.094,
+      "eval_steps_per_second": 4.819,
+      "step": 169
+    },
+    {
+      "epoch": 97.14285714285714,
+      "grad_norm": 10.834047317504883,
+      "learning_rate": 8.25e-06,
+      "loss": 0.3174,
+      "step": 170
+    },
+    {
+      "epoch": 97.71428571428571,
+      "eval_accuracy": 0.6408450704225352,
+      "eval_loss": 0.6633855104446411,
+      "eval_runtime": 0.6496,
+      "eval_samples_per_second": 218.595,
+      "eval_steps_per_second": 4.618,
+      "step": 171
+    },
+    {
+      "epoch": 98.85714285714286,
+      "eval_accuracy": 0.6549295774647887,
+      "eval_loss": 0.6165616512298584,
+      "eval_runtime": 0.6355,
+      "eval_samples_per_second": 223.431,
+      "eval_steps_per_second": 4.72,
+      "step": 173
+    },
+    {
+      "epoch": 100.0,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.5896428227424622,
+      "eval_runtime": 0.6288,
+      "eval_samples_per_second": 225.845,
+      "eval_steps_per_second": 4.771,
+      "step": 175
+    },
+    {
+      "epoch": 100.57142857142857,
+      "eval_accuracy": 0.6549295774647887,
+      "eval_loss": 0.6092301607131958,
+      "eval_runtime": 0.6874,
+      "eval_samples_per_second": 206.582,
+      "eval_steps_per_second": 4.364,
+      "step": 176
+    },
+    {
+      "epoch": 101.71428571428571,
+      "eval_accuracy": 0.6549295774647887,
+      "eval_loss": 0.6022228002548218,
+      "eval_runtime": 0.6122,
+      "eval_samples_per_second": 231.962,
+      "eval_steps_per_second": 4.901,
+      "step": 178
+    },
+    {
+      "epoch": 102.85714285714286,
+      "grad_norm": 6.7690935134887695,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.3309,
+      "step": 180
+    },
+    {
+      "epoch": 102.85714285714286,
+      "eval_accuracy": 0.676056338028169,
+      "eval_loss": 0.5928385853767395,
+      "eval_runtime": 0.629,
+      "eval_samples_per_second": 225.738,
+      "eval_steps_per_second": 4.769,
+      "step": 180
+    },
+    {
+      "epoch": 104.0,
+      "eval_accuracy": 0.6408450704225352,
+      "eval_loss": 0.6327298879623413,
+      "eval_runtime": 0.6082,
+      "eval_samples_per_second": 233.473,
+      "eval_steps_per_second": 4.933,
+      "step": 182
+    },
+    {
+      "epoch": 104.57142857142857,
+      "eval_accuracy": 0.6338028169014085,
+      "eval_loss": 0.6489691138267517,
+      "eval_runtime": 0.6079,
+      "eval_samples_per_second": 233.573,
+      "eval_steps_per_second": 4.935,
+      "step": 183
+    },
+    {
+      "epoch": 105.71428571428571,
+      "eval_accuracy": 0.647887323943662,
+      "eval_loss": 0.6155086159706116,
+      "eval_runtime": 0.6162,
+      "eval_samples_per_second": 230.459,
+      "eval_steps_per_second": 4.869,
+      "step": 185
+    },
+    {
+      "epoch": 106.85714285714286,
+      "eval_accuracy": 0.6619718309859155,
+      "eval_loss": 0.6225135922431946,
+      "eval_runtime": 0.6071,
+      "eval_samples_per_second": 233.885,
+      "eval_steps_per_second": 4.941,
+      "step": 187
+    },
+    {
+      "epoch": 108.0,
+      "eval_accuracy": 0.6408450704225352,
+      "eval_loss": 0.6732430458068848,
+      "eval_runtime": 0.6148,
+      "eval_samples_per_second": 230.978,
+      "eval_steps_per_second": 4.88,
+      "step": 189
+    },
+    {
+      "epoch": 108.57142857142857,
+      "grad_norm": 6.764002799987793,
+      "learning_rate": 7.75e-06,
+      "loss": 0.3124,
+      "step": 190
+    },
+    {
+      "epoch": 108.57142857142857,
+      "eval_accuracy": 0.6408450704225352,
+      "eval_loss": 0.6808416247367859,
+      "eval_runtime": 0.6534,
+      "eval_samples_per_second": 217.318,
+      "eval_steps_per_second": 4.591,
+      "step": 190
+    },
+    {
+      "epoch": 109.71428571428571,
+      "eval_accuracy": 0.647887323943662,
+      "eval_loss": 0.6585180759429932,
+      "eval_runtime": 0.6127,
+      "eval_samples_per_second": 231.773,
+      "eval_steps_per_second": 4.897,
+      "step": 192
+    },
+    {
+      "epoch": 110.85714285714286,
+      "eval_accuracy": 0.676056338028169,
+      "eval_loss": 0.6121569275856018,
+      "eval_runtime": 0.63,
+      "eval_samples_per_second": 225.399,
+      "eval_steps_per_second": 4.762,
+      "step": 194
+    },
+    {
+      "epoch": 112.0,
+      "eval_accuracy": 0.6549295774647887,
+      "eval_loss": 0.6510112285614014,
+      "eval_runtime": 0.6484,
+      "eval_samples_per_second": 218.987,
+      "eval_steps_per_second": 4.626,
+      "step": 196
+    },
+    {
+      "epoch": 112.57142857142857,
+      "eval_accuracy": 0.6408450704225352,
+      "eval_loss": 0.7098967432975769,
+      "eval_runtime": 0.6667,
+      "eval_samples_per_second": 212.977,
+      "eval_steps_per_second": 4.5,
+      "step": 197
+    },
+    {
+      "epoch": 113.71428571428571,
+      "eval_accuracy": 0.6338028169014085,
+      "eval_loss": 0.7191683053970337,
+      "eval_runtime": 0.6421,
+      "eval_samples_per_second": 221.158,
+      "eval_steps_per_second": 4.672,
+      "step": 199
+    },
+    {
+      "epoch": 114.28571428571429,
+      "grad_norm": 7.113361358642578,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.3158,
+      "step": 200
+    },
+    {
+      "epoch": 114.85714285714286,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.6186498403549194,
+      "eval_runtime": 0.6046,
+      "eval_samples_per_second": 234.87,
+      "eval_steps_per_second": 4.962,
+      "step": 201
+    },
+    {
+      "epoch": 116.0,
+      "eval_accuracy": 0.704225352112676,
+      "eval_loss": 0.6070767045021057,
+      "eval_runtime": 0.6492,
+      "eval_samples_per_second": 218.723,
+      "eval_steps_per_second": 4.621,
+      "step": 203
+    },
+    {
+      "epoch": 116.57142857142857,
+      "eval_accuracy": 0.6830985915492958,
+      "eval_loss": 0.6419255137443542,
+      "eval_runtime": 0.7166,
+      "eval_samples_per_second": 198.169,
+      "eval_steps_per_second": 4.187,
+      "step": 204
+    },
+    {
+      "epoch": 117.71428571428571,
+      "eval_accuracy": 0.6549295774647887,
+      "eval_loss": 0.6679487824440002,
+      "eval_runtime": 0.6953,
+      "eval_samples_per_second": 204.235,
+      "eval_steps_per_second": 4.315,
+      "step": 206
+    },
+    {
+      "epoch": 118.85714285714286,
+      "eval_accuracy": 0.6267605633802817,
+      "eval_loss": 0.6824603080749512,
+      "eval_runtime": 0.6086,
+      "eval_samples_per_second": 233.311,
+      "eval_steps_per_second": 4.929,
+      "step": 208
+    },
+    {
+      "epoch": 120.0,
+      "grad_norm": 7.5840373039245605,
+      "learning_rate": 7.25e-06,
+      "loss": 0.3026,
+      "step": 210
+    },
+    {
+      "epoch": 120.0,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.6090666055679321,
+      "eval_runtime": 0.6137,
+      "eval_samples_per_second": 231.379,
+      "eval_steps_per_second": 4.888,
+      "step": 210
+    },
+    {
+      "epoch": 120.57142857142857,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.5861057043075562,
+      "eval_runtime": 0.7023,
+      "eval_samples_per_second": 202.195,
+      "eval_steps_per_second": 4.272,
+      "step": 211
+    },
+    {
+      "epoch": 121.71428571428571,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.6036643385887146,
+      "eval_runtime": 0.6393,
+      "eval_samples_per_second": 222.102,
+      "eval_steps_per_second": 4.692,
+      "step": 213
+    },
+    {
+      "epoch": 122.85714285714286,
+      "eval_accuracy": 0.676056338028169,
+      "eval_loss": 0.6314629912376404,
+      "eval_runtime": 0.6325,
+      "eval_samples_per_second": 224.491,
+      "eval_steps_per_second": 4.743,
+      "step": 215
+    },
+    {
+      "epoch": 124.0,
+      "eval_accuracy": 0.6690140845070423,
+      "eval_loss": 0.6328482031822205,
+      "eval_runtime": 0.6623,
+      "eval_samples_per_second": 214.389,
+      "eval_steps_per_second": 4.529,
+      "step": 217
+    },
+    {
+      "epoch": 124.57142857142857,
+      "eval_accuracy": 0.6830985915492958,
+      "eval_loss": 0.6187437772750854,
+      "eval_runtime": 0.608,
+      "eval_samples_per_second": 233.549,
+      "eval_steps_per_second": 4.934,
+      "step": 218
+    },
+    {
+      "epoch": 125.71428571428571,
+      "grad_norm": 5.965949535369873,
+      "learning_rate": 7e-06,
+      "loss": 0.2968,
+      "step": 220
+    },
+    {
+      "epoch": 125.71428571428571,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.5843108296394348,
+      "eval_runtime": 0.6786,
+      "eval_samples_per_second": 209.252,
+      "eval_steps_per_second": 4.421,
+      "step": 220
+    },
+    {
+      "epoch": 126.85714285714286,
+      "eval_accuracy": 0.704225352112676,
+      "eval_loss": 0.6126313805580139,
+      "eval_runtime": 0.7169,
+      "eval_samples_per_second": 198.068,
+      "eval_steps_per_second": 4.185,
+      "step": 222
+    },
+    {
+      "epoch": 128.0,
+      "eval_accuracy": 0.6549295774647887,
+      "eval_loss": 0.6784695386886597,
+      "eval_runtime": 0.6207,
+      "eval_samples_per_second": 228.762,
+      "eval_steps_per_second": 4.833,
+      "step": 224
+    },
+    {
+      "epoch": 128.57142857142858,
+      "eval_accuracy": 0.647887323943662,
+      "eval_loss": 0.6705502867698669,
+      "eval_runtime": 0.6147,
+      "eval_samples_per_second": 231.0,
+      "eval_steps_per_second": 4.88,
+      "step": 225
+    },
+    {
+      "epoch": 129.71428571428572,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.606967031955719,
+      "eval_runtime": 0.6267,
+      "eval_samples_per_second": 226.602,
+      "eval_steps_per_second": 4.787,
+      "step": 227
+    },
+    {
+      "epoch": 130.85714285714286,
+      "eval_accuracy": 0.7253521126760564,
+      "eval_loss": 0.5984058380126953,
+      "eval_runtime": 0.6228,
+      "eval_samples_per_second": 228.01,
+      "eval_steps_per_second": 4.817,
+      "step": 229
+    },
+    {
+      "epoch": 131.42857142857142,
+      "grad_norm": 12.718730926513672,
+      "learning_rate": 6.750000000000001e-06,
+      "loss": 0.294,
+      "step": 230
+    },
+    {
+      "epoch": 132.0,
+      "eval_accuracy": 0.6619718309859155,
+      "eval_loss": 0.6533382534980774,
+      "eval_runtime": 0.6815,
+      "eval_samples_per_second": 208.355,
+      "eval_steps_per_second": 4.402,
+      "step": 231
+    },
+    {
+      "epoch": 132.57142857142858,
+      "eval_accuracy": 0.6408450704225352,
+      "eval_loss": 0.6801695227622986,
+      "eval_runtime": 0.6584,
+      "eval_samples_per_second": 215.686,
+      "eval_steps_per_second": 4.557,
+      "step": 232
+    },
+    {
+      "epoch": 133.71428571428572,
+      "eval_accuracy": 0.6408450704225352,
+      "eval_loss": 0.6803719401359558,
+      "eval_runtime": 0.649,
+      "eval_samples_per_second": 218.787,
+      "eval_steps_per_second": 4.622,
+      "step": 234
+    },
+    {
+      "epoch": 134.85714285714286,
+      "eval_accuracy": 0.704225352112676,
+      "eval_loss": 0.6228448152542114,
+      "eval_runtime": 0.6502,
+      "eval_samples_per_second": 218.39,
+      "eval_steps_per_second": 4.614,
+      "step": 236
+    },
+    {
+      "epoch": 136.0,
+      "eval_accuracy": 0.7676056338028169,
+      "eval_loss": 0.5848736763000488,
+      "eval_runtime": 0.6904,
+      "eval_samples_per_second": 205.693,
+      "eval_steps_per_second": 4.346,
+      "step": 238
+    },
+    {
+      "epoch": 136.57142857142858,
+      "eval_accuracy": 0.7676056338028169,
+      "eval_loss": 0.5873926281929016,
+      "eval_runtime": 0.703,
+      "eval_samples_per_second": 201.984,
+      "eval_steps_per_second": 4.267,
+      "step": 239
+    },
+    {
+      "epoch": 137.14285714285714,
+      "grad_norm": 9.88498306274414,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.3009,
+      "step": 240
+    },
+    {
+      "epoch": 137.71428571428572,
+      "eval_accuracy": 0.704225352112676,
+      "eval_loss": 0.6229640245437622,
+      "eval_runtime": 0.6216,
+      "eval_samples_per_second": 228.454,
+      "eval_steps_per_second": 4.826,
+      "step": 241
+    },
+    {
+      "epoch": 138.85714285714286,
+      "eval_accuracy": 0.6549295774647887,
+      "eval_loss": 0.6641034483909607,
+      "eval_runtime": 0.6238,
+      "eval_samples_per_second": 227.625,
+      "eval_steps_per_second": 4.809,
+      "step": 243
+    },
+    {
+      "epoch": 140.0,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.6435027122497559,
+      "eval_runtime": 0.6995,
+      "eval_samples_per_second": 202.995,
+      "eval_steps_per_second": 4.289,
+      "step": 245
+    },
+    {
+      "epoch": 140.57142857142858,
+      "eval_accuracy": 0.7253521126760564,
+      "eval_loss": 0.6133910417556763,
+      "eval_runtime": 0.6661,
+      "eval_samples_per_second": 213.169,
+      "eval_steps_per_second": 4.504,
+      "step": 246
+    },
+    {
+      "epoch": 141.71428571428572,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6062853932380676,
+      "eval_runtime": 0.6955,
+      "eval_samples_per_second": 204.179,
+      "eval_steps_per_second": 4.314,
+      "step": 248
+    },
+    {
+      "epoch": 142.85714285714286,
+      "grad_norm": 4.536113262176514,
+      "learning_rate": 6.25e-06,
+      "loss": 0.2873,
+      "step": 250
+    },
+    {
+      "epoch": 142.85714285714286,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.6346603035926819,
+      "eval_runtime": 0.6744,
+      "eval_samples_per_second": 210.569,
+      "eval_steps_per_second": 4.449,
+      "step": 250
+    },
+    {
+      "epoch": 144.0,
+      "eval_accuracy": 0.6690140845070423,
+      "eval_loss": 0.6992180347442627,
+      "eval_runtime": 0.6915,
+      "eval_samples_per_second": 205.341,
+      "eval_steps_per_second": 4.338,
+      "step": 252
+    },
+    {
+      "epoch": 144.57142857142858,
+      "eval_accuracy": 0.6408450704225352,
+      "eval_loss": 0.7137159705162048,
+      "eval_runtime": 0.6826,
+      "eval_samples_per_second": 208.024,
+      "eval_steps_per_second": 4.395,
+      "step": 253
+    },
+    {
+      "epoch": 145.71428571428572,
+      "eval_accuracy": 0.6690140845070423,
+      "eval_loss": 0.6737670302391052,
+      "eval_runtime": 0.6116,
+      "eval_samples_per_second": 232.18,
+      "eval_steps_per_second": 4.905,
+      "step": 255
+    },
+    {
+      "epoch": 146.85714285714286,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.6321189999580383,
+      "eval_runtime": 0.6539,
+      "eval_samples_per_second": 217.171,
+      "eval_steps_per_second": 4.588,
+      "step": 257
+    },
+    {
+      "epoch": 148.0,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.6134991645812988,
+      "eval_runtime": 0.698,
+      "eval_samples_per_second": 203.44,
+      "eval_steps_per_second": 4.298,
+      "step": 259
+    },
+    {
+      "epoch": 148.57142857142858,
+      "grad_norm": 7.451202869415283,
+      "learning_rate": 6e-06,
+      "loss": 0.2821,
+      "step": 260
+    },
+    {
+      "epoch": 148.57142857142858,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.6195182204246521,
+      "eval_runtime": 0.6206,
+      "eval_samples_per_second": 228.8,
+      "eval_steps_per_second": 4.834,
+      "step": 260
+    },
+    {
+      "epoch": 149.71428571428572,
+      "eval_accuracy": 0.676056338028169,
+      "eval_loss": 0.6543940305709839,
+      "eval_runtime": 0.6997,
+      "eval_samples_per_second": 202.943,
+      "eval_steps_per_second": 4.288,
+      "step": 262
+    },
+    {
+      "epoch": 150.85714285714286,
+      "eval_accuracy": 0.6830985915492958,
+      "eval_loss": 0.6463538408279419,
+      "eval_runtime": 0.6738,
+      "eval_samples_per_second": 210.752,
+      "eval_steps_per_second": 4.453,
+      "step": 264
+    },
+    {
+      "epoch": 152.0,
+      "eval_accuracy": 0.7323943661971831,
+      "eval_loss": 0.6086514592170715,
+      "eval_runtime": 0.6612,
+      "eval_samples_per_second": 214.749,
+      "eval_steps_per_second": 4.537,
+      "step": 266
+    },
+    {
+      "epoch": 152.57142857142858,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.5999845266342163,
+      "eval_runtime": 0.6497,
+      "eval_samples_per_second": 218.565,
+      "eval_steps_per_second": 4.618,
+      "step": 267
+    },
+    {
+      "epoch": 153.71428571428572,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.6170024871826172,
+      "eval_runtime": 0.6064,
+      "eval_samples_per_second": 234.184,
+      "eval_steps_per_second": 4.948,
+      "step": 269
+    },
+    {
+      "epoch": 154.28571428571428,
+      "grad_norm": 15.44714069366455,
+      "learning_rate": 5.75e-06,
+      "loss": 0.3017,
+      "step": 270
+    },
+    {
+      "epoch": 154.85714285714286,
+      "eval_accuracy": 0.6830985915492958,
+      "eval_loss": 0.6674468517303467,
+      "eval_runtime": 0.6065,
+      "eval_samples_per_second": 234.118,
+      "eval_steps_per_second": 4.946,
+      "step": 271
+    },
+    {
+      "epoch": 156.0,
+      "eval_accuracy": 0.6338028169014085,
+      "eval_loss": 0.7137435078620911,
+      "eval_runtime": 0.6178,
+      "eval_samples_per_second": 229.849,
+      "eval_steps_per_second": 4.856,
+      "step": 273
+    },
+    {
+      "epoch": 156.57142857142858,
+      "eval_accuracy": 0.647887323943662,
+      "eval_loss": 0.7013713717460632,
+      "eval_runtime": 0.6271,
+      "eval_samples_per_second": 226.442,
+      "eval_steps_per_second": 4.784,
+      "step": 274
+    },
+    {
+      "epoch": 157.71428571428572,
+      "eval_accuracy": 0.7253521126760564,
+      "eval_loss": 0.609072744846344,
+      "eval_runtime": 0.6285,
+      "eval_samples_per_second": 225.936,
+      "eval_steps_per_second": 4.773,
+      "step": 276
+    },
+    {
+      "epoch": 158.85714285714286,
+      "eval_accuracy": 0.7676056338028169,
+      "eval_loss": 0.5625793933868408,
+      "eval_runtime": 0.6308,
+      "eval_samples_per_second": 225.116,
+      "eval_steps_per_second": 4.756,
+      "step": 278
+    },
+    {
+      "epoch": 160.0,
+      "grad_norm": 7.80256462097168,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.2857,
+      "step": 280
+    },
+    {
+      "epoch": 160.0,
+      "eval_accuracy": 0.7605633802816901,
+      "eval_loss": 0.5685088634490967,
+      "eval_runtime": 0.6091,
+      "eval_samples_per_second": 233.142,
+      "eval_steps_per_second": 4.926,
+      "step": 280
+    },
+    {
+      "epoch": 160.57142857142858,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.5941457748413086,
+      "eval_runtime": 0.6891,
+      "eval_samples_per_second": 206.055,
+      "eval_steps_per_second": 4.353,
+      "step": 281
+    },
+    {
+      "epoch": 161.71428571428572,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.6219268441200256,
+      "eval_runtime": 0.7133,
+      "eval_samples_per_second": 199.064,
+      "eval_steps_per_second": 4.206,
+      "step": 283
+    },
+    {
+      "epoch": 162.85714285714286,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.6282822489738464,
+      "eval_runtime": 0.6296,
+      "eval_samples_per_second": 225.525,
+      "eval_steps_per_second": 4.765,
+      "step": 285
+    },
+    {
+      "epoch": 164.0,
+      "eval_accuracy": 0.704225352112676,
+      "eval_loss": 0.631372332572937,
+      "eval_runtime": 0.6725,
+      "eval_samples_per_second": 211.158,
+      "eval_steps_per_second": 4.461,
+      "step": 287
+    },
+    {
+      "epoch": 164.57142857142858,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.6368916630744934,
+      "eval_runtime": 0.6185,
+      "eval_samples_per_second": 229.576,
+      "eval_steps_per_second": 4.85,
+      "step": 288
+    },
+    {
+      "epoch": 165.71428571428572,
+      "grad_norm": 7.8034491539001465,
+      "learning_rate": 5.2500000000000006e-06,
+      "loss": 0.2819,
+      "step": 290
+    },
+    {
+      "epoch": 165.71428571428572,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.6445870995521545,
+      "eval_runtime": 0.6129,
+      "eval_samples_per_second": 231.7,
+      "eval_steps_per_second": 4.895,
+      "step": 290
+    },
+    {
+      "epoch": 166.85714285714286,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.6541280150413513,
+      "eval_runtime": 0.6753,
+      "eval_samples_per_second": 210.283,
+      "eval_steps_per_second": 4.443,
+      "step": 292
+    },
+    {
+      "epoch": 168.0,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.6285813450813293,
+      "eval_runtime": 0.6411,
+      "eval_samples_per_second": 221.49,
+      "eval_steps_per_second": 4.679,
+      "step": 294
+    },
+    {
+      "epoch": 168.57142857142858,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.6063798069953918,
+      "eval_runtime": 0.6266,
+      "eval_samples_per_second": 226.62,
+      "eval_steps_per_second": 4.788,
+      "step": 295
+    },
+    {
+      "epoch": 169.71428571428572,
+      "eval_accuracy": 0.7253521126760564,
+      "eval_loss": 0.5995392203330994,
+      "eval_runtime": 0.6217,
+      "eval_samples_per_second": 228.41,
+      "eval_steps_per_second": 4.826,
+      "step": 297
+    },
+    {
+      "epoch": 170.85714285714286,
+      "eval_accuracy": 0.7253521126760564,
+      "eval_loss": 0.6430822610855103,
+      "eval_runtime": 0.6407,
+      "eval_samples_per_second": 221.618,
+      "eval_steps_per_second": 4.682,
+      "step": 299
+    },
+    {
+      "epoch": 171.42857142857142,
+      "grad_norm": 6.425961494445801,
+      "learning_rate": 5e-06,
+      "loss": 0.2744,
+      "step": 300
+    },
+    {
+      "epoch": 172.0,
+      "eval_accuracy": 0.6901408450704225,
+      "eval_loss": 0.6797394156455994,
+      "eval_runtime": 0.6591,
+      "eval_samples_per_second": 215.44,
+      "eval_steps_per_second": 4.552,
+      "step": 301
+    },
+    {
+      "epoch": 172.57142857142858,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.6715541481971741,
+      "eval_runtime": 0.6541,
+      "eval_samples_per_second": 217.092,
+      "eval_steps_per_second": 4.586,
+      "step": 302
+    },
+    {
+      "epoch": 173.71428571428572,
+      "eval_accuracy": 0.7253521126760564,
+      "eval_loss": 0.6510439515113831,
+      "eval_runtime": 0.7018,
+      "eval_samples_per_second": 202.337,
+      "eval_steps_per_second": 4.275,
+      "step": 304
+    },
+    {
+      "epoch": 174.85714285714286,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6362167000770569,
+      "eval_runtime": 0.6994,
+      "eval_samples_per_second": 203.037,
+      "eval_steps_per_second": 4.29,
+      "step": 306
+    },
+    {
+      "epoch": 176.0,
+      "eval_accuracy": 0.7605633802816901,
+      "eval_loss": 0.615811824798584,
+      "eval_runtime": 0.6046,
+      "eval_samples_per_second": 234.884,
+      "eval_steps_per_second": 4.962,
+      "step": 308
+    },
+    {
+      "epoch": 176.57142857142858,
+      "eval_accuracy": 0.7676056338028169,
+      "eval_loss": 0.6099287867546082,
+      "eval_runtime": 0.667,
+      "eval_samples_per_second": 212.882,
+      "eval_steps_per_second": 4.498,
+      "step": 309
+    },
+    {
+      "epoch": 177.14285714285714,
+      "grad_norm": 7.763293266296387,
+      "learning_rate": 4.75e-06,
+      "loss": 0.2867,
+      "step": 310
+    },
+    {
+      "epoch": 177.71428571428572,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6111687421798706,
+      "eval_runtime": 0.6977,
+      "eval_samples_per_second": 203.536,
+      "eval_steps_per_second": 4.3,
+      "step": 311
+    },
+    {
+      "epoch": 178.85714285714286,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6035374402999878,
+      "eval_runtime": 0.6171,
+      "eval_samples_per_second": 230.092,
+      "eval_steps_per_second": 4.861,
+      "step": 313
+    },
+    {
+      "epoch": 180.0,
+      "eval_accuracy": 0.7676056338028169,
+      "eval_loss": 0.5815895795822144,
+      "eval_runtime": 0.6334,
+      "eval_samples_per_second": 224.175,
+      "eval_steps_per_second": 4.736,
+      "step": 315
+    },
+    {
+      "epoch": 180.57142857142858,
+      "eval_accuracy": 0.7676056338028169,
+      "eval_loss": 0.5818370580673218,
+      "eval_runtime": 0.6341,
+      "eval_samples_per_second": 223.945,
+      "eval_steps_per_second": 4.731,
+      "step": 316
+    },
+    {
+      "epoch": 181.71428571428572,
+      "eval_accuracy": 0.7676056338028169,
+      "eval_loss": 0.6077942252159119,
+      "eval_runtime": 0.7182,
+      "eval_samples_per_second": 197.71,
+      "eval_steps_per_second": 4.177,
+      "step": 318
+    },
+    {
+      "epoch": 182.85714285714286,
+      "grad_norm": 6.135729789733887,
+      "learning_rate": 4.5e-06,
+      "loss": 0.2883,
+      "step": 320
+    },
+    {
+      "epoch": 182.85714285714286,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6083420515060425,
+      "eval_runtime": 0.6578,
+      "eval_samples_per_second": 215.872,
+      "eval_steps_per_second": 4.561,
+      "step": 320
+    },
+    {
+      "epoch": 184.0,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.5928220152854919,
+      "eval_runtime": 0.6159,
+      "eval_samples_per_second": 230.544,
+      "eval_steps_per_second": 4.871,
+      "step": 322
+    },
+    {
+      "epoch": 184.57142857142858,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.5862187743186951,
+      "eval_runtime": 0.6212,
+      "eval_samples_per_second": 228.598,
+      "eval_steps_per_second": 4.83,
+      "step": 323
+    },
+    {
+      "epoch": 185.71428571428572,
+      "eval_accuracy": 0.7676056338028169,
+      "eval_loss": 0.562484622001648,
+      "eval_runtime": 0.6399,
+      "eval_samples_per_second": 221.922,
+      "eval_steps_per_second": 4.688,
+      "step": 325
+    },
+    {
+      "epoch": 186.85714285714286,
+      "eval_accuracy": 0.7816901408450704,
+      "eval_loss": 0.5579776763916016,
+      "eval_runtime": 0.6043,
+      "eval_samples_per_second": 234.992,
+      "eval_steps_per_second": 4.965,
+      "step": 327
+    },
+    {
+      "epoch": 188.0,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.5944541692733765,
+      "eval_runtime": 0.652,
+      "eval_samples_per_second": 217.789,
+      "eval_steps_per_second": 4.601,
+      "step": 329
+    },
+    {
+      "epoch": 188.57142857142858,
+      "grad_norm": 7.581370830535889,
+      "learning_rate": 4.25e-06,
+      "loss": 0.2852,
+      "step": 330
+    },
+    {
+      "epoch": 188.57142857142858,
+      "eval_accuracy": 0.6971830985915493,
+      "eval_loss": 0.6320931911468506,
+      "eval_runtime": 0.6488,
+      "eval_samples_per_second": 218.867,
+      "eval_steps_per_second": 4.624,
+      "step": 330
+    },
+    {
+      "epoch": 189.71428571428572,
+      "eval_accuracy": 0.6619718309859155,
+      "eval_loss": 0.6650228500366211,
+      "eval_runtime": 0.6204,
+      "eval_samples_per_second": 228.895,
+      "eval_steps_per_second": 4.836,
+      "step": 332
+    },
+    {
+      "epoch": 190.85714285714286,
+      "eval_accuracy": 0.6690140845070423,
+      "eval_loss": 0.6611641645431519,
+      "eval_runtime": 0.6316,
+      "eval_samples_per_second": 224.843,
+      "eval_steps_per_second": 4.75,
+      "step": 334
+    },
+    {
+      "epoch": 192.0,
+      "eval_accuracy": 0.676056338028169,
+      "eval_loss": 0.6455404758453369,
+      "eval_runtime": 0.6769,
+      "eval_samples_per_second": 209.794,
+      "eval_steps_per_second": 4.432,
+      "step": 336
+    },
+    {
+      "epoch": 192.57142857142858,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.6290314197540283,
+      "eval_runtime": 0.6314,
+      "eval_samples_per_second": 224.887,
+      "eval_steps_per_second": 4.751,
+      "step": 337
+    },
+    {
+      "epoch": 193.71428571428572,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6035693287849426,
+      "eval_runtime": 0.6972,
+      "eval_samples_per_second": 203.665,
+      "eval_steps_per_second": 4.303,
+      "step": 339
+    },
+    {
+      "epoch": 194.28571428571428,
+      "grad_norm": 8.776147842407227,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.2941,
+      "step": 340
+    },
+    {
+      "epoch": 194.85714285714286,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.5879209637641907,
+      "eval_runtime": 0.6487,
+      "eval_samples_per_second": 218.901,
+      "eval_steps_per_second": 4.625,
+      "step": 341
+    },
+    {
+      "epoch": 196.0,
+      "eval_accuracy": 0.7253521126760564,
+      "eval_loss": 0.6135103702545166,
+      "eval_runtime": 0.6192,
+      "eval_samples_per_second": 229.335,
+      "eval_steps_per_second": 4.845,
+      "step": 343
+    },
+    {
+      "epoch": 196.57142857142858,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.6294575929641724,
+      "eval_runtime": 0.6245,
+      "eval_samples_per_second": 227.392,
+      "eval_steps_per_second": 4.804,
+      "step": 344
+    },
+    {
+      "epoch": 197.71428571428572,
+      "eval_accuracy": 0.6830985915492958,
+      "eval_loss": 0.6444960832595825,
+      "eval_runtime": 0.6631,
+      "eval_samples_per_second": 214.15,
+      "eval_steps_per_second": 4.524,
+      "step": 346
+    },
+    {
+      "epoch": 198.85714285714286,
+      "eval_accuracy": 0.6690140845070423,
+      "eval_loss": 0.6591252088546753,
+      "eval_runtime": 0.646,
+      "eval_samples_per_second": 219.801,
+      "eval_steps_per_second": 4.644,
+      "step": 348
+    },
+    {
+      "epoch": 200.0,
+      "grad_norm": 9.722872734069824,
+      "learning_rate": 3.7500000000000005e-06,
+      "loss": 0.2692,
+      "step": 350
+    },
+    {
+      "epoch": 200.0,
+      "eval_accuracy": 0.6830985915492958,
+      "eval_loss": 0.6556887626647949,
+      "eval_runtime": 0.6171,
+      "eval_samples_per_second": 230.104,
+      "eval_steps_per_second": 4.861,
+      "step": 350
+    },
+    {
+      "epoch": 200.57142857142858,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.648453414440155,
+      "eval_runtime": 0.6913,
+      "eval_samples_per_second": 205.406,
+      "eval_steps_per_second": 4.34,
+      "step": 351
+    },
+    {
+      "epoch": 201.71428571428572,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.6519960761070251,
+      "eval_runtime": 0.6264,
+      "eval_samples_per_second": 226.708,
+      "eval_steps_per_second": 4.79,
+      "step": 353
+    },
+    {
+      "epoch": 202.85714285714286,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.6673240065574646,
+      "eval_runtime": 0.6108,
+      "eval_samples_per_second": 232.475,
+      "eval_steps_per_second": 4.911,
+      "step": 355
+    },
+    {
+      "epoch": 204.0,
+      "eval_accuracy": 0.7183098591549296,
+      "eval_loss": 0.6813691258430481,
+      "eval_runtime": 0.6655,
+      "eval_samples_per_second": 213.38,
+      "eval_steps_per_second": 4.508,
+      "step": 357
+    },
+    {
+      "epoch": 204.57142857142858,
+      "eval_accuracy": 0.7112676056338029,
+      "eval_loss": 0.6693511605262756,
+      "eval_runtime": 0.6097,
+      "eval_samples_per_second": 232.913,
+      "eval_steps_per_second": 4.921,
+      "step": 358
+    },
+    {
+      "epoch": 205.71428571428572,
+      "grad_norm": 9.632829666137695,
+      "learning_rate": 3.5e-06,
+      "loss": 0.2666,
+      "step": 360
+    },
+    {
+      "epoch": 205.71428571428572,
+      "eval_accuracy": 0.7253521126760564,
+      "eval_loss": 0.6349532604217529,
+      "eval_runtime": 0.6697,
+      "eval_samples_per_second": 212.051,
+      "eval_steps_per_second": 4.48,
+      "step": 360
+    },
+    {
+      "epoch": 206.85714285714286,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6090918779373169,
+      "eval_runtime": 0.6143,
+      "eval_samples_per_second": 231.175,
+      "eval_steps_per_second": 4.884,
+      "step": 362
+    },
+    {
+      "epoch": 208.0,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6221663951873779,
+      "eval_runtime": 0.629,
+      "eval_samples_per_second": 225.743,
+      "eval_steps_per_second": 4.769,
+      "step": 364
+    },
+    {
+      "epoch": 208.57142857142858,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6363082528114319,
+      "eval_runtime": 0.6924,
+      "eval_samples_per_second": 205.083,
+      "eval_steps_per_second": 4.333,
+      "step": 365
+    },
+    {
+      "epoch": 209.71428571428572,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.639771044254303,
+      "eval_runtime": 0.6787,
+      "eval_samples_per_second": 209.212,
+      "eval_steps_per_second": 4.42,
+      "step": 367
+    },
+    {
+      "epoch": 210.85714285714286,
+      "eval_accuracy": 0.7253521126760564,
+      "eval_loss": 0.6554509401321411,
+      "eval_runtime": 0.6896,
+      "eval_samples_per_second": 205.904,
+      "eval_steps_per_second": 4.35,
+      "step": 369
+    },
+    {
+      "epoch": 211.42857142857142,
+      "grad_norm": 10.489874839782715,
+      "learning_rate": 3.2500000000000002e-06,
+      "loss": 0.2745,
+      "step": 370
+    },
+    {
+      "epoch": 212.0,
+      "eval_accuracy": 0.7253521126760564,
+      "eval_loss": 0.6555443406105042,
+      "eval_runtime": 0.6446,
+      "eval_samples_per_second": 220.289,
+      "eval_steps_per_second": 4.654,
+      "step": 371
+    },
+    {
+      "epoch": 212.57142857142858,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6466799974441528,
+      "eval_runtime": 0.6722,
+      "eval_samples_per_second": 211.262,
+      "eval_steps_per_second": 4.463,
+      "step": 372
+    },
+    {
+      "epoch": 213.71428571428572,
+      "eval_accuracy": 0.7605633802816901,
+      "eval_loss": 0.6215640902519226,
+      "eval_runtime": 0.6123,
+      "eval_samples_per_second": 231.925,
+      "eval_steps_per_second": 4.9,
+      "step": 374
+    },
+    {
+      "epoch": 214.85714285714286,
+      "eval_accuracy": 0.7676056338028169,
+      "eval_loss": 0.6065743565559387,
+      "eval_runtime": 0.678,
+      "eval_samples_per_second": 209.443,
+      "eval_steps_per_second": 4.425,
+      "step": 376
+    },
+    {
+      "epoch": 216.0,
+      "eval_accuracy": 0.7605633802816901,
+      "eval_loss": 0.6082801222801208,
+      "eval_runtime": 0.6148,
+      "eval_samples_per_second": 230.957,
+      "eval_steps_per_second": 4.879,
+      "step": 378
+    },
+    {
+      "epoch": 216.57142857142858,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6151567697525024,
+      "eval_runtime": 0.6887,
+      "eval_samples_per_second": 206.18,
+      "eval_steps_per_second": 4.356,
+      "step": 379
+    },
+    {
+      "epoch": 217.14285714285714,
+      "grad_norm": 8.25847339630127,
+      "learning_rate": 3e-06,
+      "loss": 0.2578,
+      "step": 380
+    },
+    {
+      "epoch": 217.71428571428572,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6162380576133728,
+      "eval_runtime": 0.6165,
+      "eval_samples_per_second": 230.314,
+      "eval_steps_per_second": 4.866,
+      "step": 381
+    },
+    {
+      "epoch": 218.85714285714286,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6096570491790771,
+      "eval_runtime": 0.6922,
+      "eval_samples_per_second": 205.145,
+      "eval_steps_per_second": 4.334,
+      "step": 383
+    },
+    {
+      "epoch": 220.0,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6003305315971375,
+      "eval_runtime": 0.7013,
+      "eval_samples_per_second": 202.483,
+      "eval_steps_per_second": 4.278,
+      "step": 385
+    },
+    {
+      "epoch": 220.57142857142858,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6063842177391052,
+      "eval_runtime": 0.6714,
+      "eval_samples_per_second": 211.501,
+      "eval_steps_per_second": 4.468,
+      "step": 386
+    },
+    {
+      "epoch": 221.71428571428572,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6182224154472351,
+      "eval_runtime": 0.6756,
+      "eval_samples_per_second": 210.176,
+      "eval_steps_per_second": 4.44,
+      "step": 388
+    },
+    {
+      "epoch": 222.85714285714286,
+      "grad_norm": 7.586206436157227,
+      "learning_rate": 2.7500000000000004e-06,
+      "loss": 0.2637,
+      "step": 390
+    },
+    {
+      "epoch": 222.85714285714286,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6464552283287048,
+      "eval_runtime": 0.6274,
+      "eval_samples_per_second": 226.325,
+      "eval_steps_per_second": 4.782,
+      "step": 390
+    },
+    {
+      "epoch": 224.0,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6461374163627625,
+      "eval_runtime": 0.6544,
+      "eval_samples_per_second": 216.993,
+      "eval_steps_per_second": 4.584,
+      "step": 392
+    },
+    {
+      "epoch": 224.57142857142858,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6352179050445557,
+      "eval_runtime": 0.6812,
+      "eval_samples_per_second": 208.441,
+      "eval_steps_per_second": 4.404,
+      "step": 393
+    },
+    {
+      "epoch": 225.71428571428572,
+      "eval_accuracy": 0.7605633802816901,
+      "eval_loss": 0.6018115282058716,
+      "eval_runtime": 0.7046,
+      "eval_samples_per_second": 201.545,
+      "eval_steps_per_second": 4.258,
+      "step": 395
+    },
+    {
+      "epoch": 226.85714285714286,
+      "eval_accuracy": 0.7746478873239436,
+      "eval_loss": 0.5855334401130676,
+      "eval_runtime": 0.6735,
+      "eval_samples_per_second": 210.832,
+      "eval_steps_per_second": 4.454,
+      "step": 397
+    },
+    {
+      "epoch": 228.0,
+      "eval_accuracy": 0.7605633802816901,
+      "eval_loss": 0.5916351675987244,
+      "eval_runtime": 0.6135,
+      "eval_samples_per_second": 231.446,
+      "eval_steps_per_second": 4.89,
+      "step": 399
+    },
+    {
+      "epoch": 228.57142857142858,
+      "grad_norm": 6.688592910766602,
+      "learning_rate": 2.5e-06,
+      "loss": 0.2696,
+      "step": 400
+    },
+    {
+      "epoch": 228.57142857142858,
+      "eval_accuracy": 0.7605633802816901,
+      "eval_loss": 0.6031278371810913,
+      "eval_runtime": 0.7042,
+      "eval_samples_per_second": 201.644,
+      "eval_steps_per_second": 4.26,
+      "step": 400
+    },
+    {
+      "epoch": 229.71428571428572,
+      "eval_accuracy": 0.7605633802816901,
+      "eval_loss": 0.6307948231697083,
+      "eval_runtime": 0.6195,
+      "eval_samples_per_second": 229.23,
+      "eval_steps_per_second": 4.843,
+      "step": 402
+    },
+    {
+      "epoch": 230.85714285714286,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6435055732727051,
+      "eval_runtime": 0.6377,
+      "eval_samples_per_second": 222.671,
+      "eval_steps_per_second": 4.704,
+      "step": 404
+    },
+    {
+      "epoch": 232.0,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6324659585952759,
+      "eval_runtime": 0.6593,
+      "eval_samples_per_second": 215.368,
+      "eval_steps_per_second": 4.55,
+      "step": 406
+    },
+    {
+      "epoch": 232.57142857142858,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6212195158004761,
+      "eval_runtime": 0.6515,
+      "eval_samples_per_second": 217.97,
+      "eval_steps_per_second": 4.605,
+      "step": 407
+    },
+    {
+      "epoch": 233.71428571428572,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.5985831618309021,
+      "eval_runtime": 0.6199,
+      "eval_samples_per_second": 229.057,
+      "eval_steps_per_second": 4.839,
+      "step": 409
+    },
+    {
+      "epoch": 234.28571428571428,
+      "grad_norm": 10.518420219421387,
+      "learning_rate": 2.25e-06,
+      "loss": 0.2697,
+      "step": 410
+    },
+    {
+      "epoch": 234.85714285714286,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.5964060425758362,
+      "eval_runtime": 0.6379,
+      "eval_samples_per_second": 222.588,
+      "eval_steps_per_second": 4.703,
+      "step": 411
+    },
+    {
+      "epoch": 236.0,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.5949541330337524,
+      "eval_runtime": 0.6955,
+      "eval_samples_per_second": 204.178,
+      "eval_steps_per_second": 4.314,
+      "step": 413
+    },
+    {
+      "epoch": 236.57142857142858,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.5986204743385315,
+      "eval_runtime": 0.6833,
+      "eval_samples_per_second": 207.804,
+      "eval_steps_per_second": 4.39,
+      "step": 414
+    },
+    {
+      "epoch": 237.71428571428572,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6066287755966187,
+      "eval_runtime": 0.6316,
+      "eval_samples_per_second": 224.842,
+      "eval_steps_per_second": 4.75,
+      "step": 416
+    },
+    {
+      "epoch": 238.85714285714286,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6035082936286926,
+      "eval_runtime": 0.6521,
+      "eval_samples_per_second": 217.753,
+      "eval_steps_per_second": 4.6,
+      "step": 418
+    },
+    {
+      "epoch": 240.0,
+      "grad_norm": 8.466328620910645,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.2659,
+      "step": 420
+    },
+    {
+      "epoch": 240.0,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.603872537612915,
+      "eval_runtime": 0.6105,
+      "eval_samples_per_second": 232.606,
+      "eval_steps_per_second": 4.914,
+      "step": 420
+    },
+    {
+      "epoch": 240.57142857142858,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6003507375717163,
+      "eval_runtime": 0.7014,
+      "eval_samples_per_second": 202.45,
+      "eval_steps_per_second": 4.277,
+      "step": 421
+    },
+    {
+      "epoch": 241.71428571428572,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6000791788101196,
+      "eval_runtime": 0.622,
+      "eval_samples_per_second": 228.292,
+      "eval_steps_per_second": 4.823,
+      "step": 423
+    },
+    {
+      "epoch": 242.85714285714286,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.594083309173584,
+      "eval_runtime": 0.628,
+      "eval_samples_per_second": 226.107,
+      "eval_steps_per_second": 4.777,
+      "step": 425
+    },
+    {
+      "epoch": 244.0,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.5941977500915527,
+      "eval_runtime": 0.6784,
+      "eval_samples_per_second": 209.316,
+      "eval_steps_per_second": 4.422,
+      "step": 427
+    },
+    {
+      "epoch": 244.57142857142858,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.5971840023994446,
+      "eval_runtime": 0.6368,
+      "eval_samples_per_second": 222.979,
+      "eval_steps_per_second": 4.711,
+      "step": 428
+    },
+    {
+      "epoch": 245.71428571428572,
+      "grad_norm": 7.927194595336914,
+      "learning_rate": 1.75e-06,
+      "loss": 0.2529,
+      "step": 430
+    },
+    {
+      "epoch": 245.71428571428572,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6077085733413696,
+      "eval_runtime": 0.6879,
+      "eval_samples_per_second": 206.42,
+      "eval_steps_per_second": 4.361,
+      "step": 430
+    },
+    {
+      "epoch": 246.85714285714286,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6173303127288818,
+      "eval_runtime": 0.6034,
+      "eval_samples_per_second": 235.336,
+      "eval_steps_per_second": 4.972,
+      "step": 432
+    },
+    {
+      "epoch": 248.0,
+      "eval_accuracy": 0.7605633802816901,
+      "eval_loss": 0.6129435300827026,
+      "eval_runtime": 0.6618,
+      "eval_samples_per_second": 214.555,
+      "eval_steps_per_second": 4.533,
+      "step": 434
+    },
+    {
+      "epoch": 248.57142857142858,
+      "eval_accuracy": 0.7605633802816901,
+      "eval_loss": 0.6099234819412231,
+      "eval_runtime": 0.6902,
+      "eval_samples_per_second": 205.729,
+      "eval_steps_per_second": 4.346,
+      "step": 435
+    },
+    {
+      "epoch": 249.71428571428572,
+      "eval_accuracy": 0.7605633802816901,
+      "eval_loss": 0.6004898548126221,
+      "eval_runtime": 0.6677,
+      "eval_samples_per_second": 212.685,
+      "eval_steps_per_second": 4.493,
+      "step": 437
+    },
+    {
+      "epoch": 250.85714285714286,
+      "eval_accuracy": 0.7605633802816901,
+      "eval_loss": 0.5919698476791382,
+      "eval_runtime": 0.6164,
+      "eval_samples_per_second": 230.363,
+      "eval_steps_per_second": 4.867,
+      "step": 439
+    },
+    {
+      "epoch": 251.42857142857142,
+      "grad_norm": 6.316997051239014,
+      "learning_rate": 1.5e-06,
+      "loss": 0.261,
+      "step": 440
+    },
+    {
+      "epoch": 252.0,
+      "eval_accuracy": 0.7605633802816901,
+      "eval_loss": 0.5945872664451599,
+      "eval_runtime": 0.67,
+      "eval_samples_per_second": 211.952,
+      "eval_steps_per_second": 4.478,
+      "step": 441
+    },
+    {
+      "epoch": 252.57142857142858,
+      "eval_accuracy": 0.7605633802816901,
+      "eval_loss": 0.5991929769515991,
+      "eval_runtime": 0.6342,
+      "eval_samples_per_second": 223.921,
+      "eval_steps_per_second": 4.731,
+      "step": 442
+    },
+    {
+      "epoch": 253.71428571428572,
+      "eval_accuracy": 0.7605633802816901,
+      "eval_loss": 0.6141655445098877,
+      "eval_runtime": 0.6927,
+      "eval_samples_per_second": 204.998,
+      "eval_steps_per_second": 4.331,
+      "step": 444
+    },
+    {
+      "epoch": 254.85714285714286,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.628886342048645,
+      "eval_runtime": 0.7291,
+      "eval_samples_per_second": 194.758,
+      "eval_steps_per_second": 4.115,
+      "step": 446
+    },
+    {
+      "epoch": 256.0,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6316113471984863,
+      "eval_runtime": 0.6453,
+      "eval_samples_per_second": 220.039,
+      "eval_steps_per_second": 4.649,
+      "step": 448
+    },
+    {
+      "epoch": 256.57142857142856,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6301937699317932,
+      "eval_runtime": 0.6641,
+      "eval_samples_per_second": 213.816,
+      "eval_steps_per_second": 4.517,
+      "step": 449
+    },
+    {
+      "epoch": 257.14285714285717,
+      "grad_norm": 8.127288818359375,
+      "learning_rate": 1.25e-06,
+      "loss": 0.2675,
+      "step": 450
+    },
+    {
+      "epoch": 257.7142857142857,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6241323351860046,
+      "eval_runtime": 0.7238,
+      "eval_samples_per_second": 196.181,
+      "eval_steps_per_second": 4.145,
+      "step": 451
+    },
+    {
+      "epoch": 258.85714285714283,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6129297614097595,
+      "eval_runtime": 0.6069,
+      "eval_samples_per_second": 233.994,
+      "eval_steps_per_second": 4.944,
+      "step": 453
+    },
+    {
+      "epoch": 260.0,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6065521240234375,
+      "eval_runtime": 0.703,
+      "eval_samples_per_second": 201.991,
+      "eval_steps_per_second": 4.267,
+      "step": 455
+    },
+    {
+      "epoch": 260.57142857142856,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6061440110206604,
+      "eval_runtime": 0.6863,
+      "eval_samples_per_second": 206.913,
+      "eval_steps_per_second": 4.371,
+      "step": 456
+    },
+    {
+      "epoch": 261.7142857142857,
+      "eval_accuracy": 0.7535211267605634,
+      "eval_loss": 0.6098330616950989,
+      "eval_runtime": 0.6103,
+      "eval_samples_per_second": 232.689,
+      "eval_steps_per_second": 4.916,
+      "step": 458
+    },
+    {
+      "epoch": 262.85714285714283,
+      "grad_norm": 8.799203872680664,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.2737,
+      "step": 460
+    },
+    {
+      "epoch": 262.85714285714283,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6171931028366089,
+      "eval_runtime": 0.6263,
+      "eval_samples_per_second": 226.74,
+      "eval_steps_per_second": 4.79,
+      "step": 460
+    },
+    {
+      "epoch": 264.0,
+      "eval_accuracy": 0.7323943661971831,
+      "eval_loss": 0.6274363398551941,
+      "eval_runtime": 0.6469,
+      "eval_samples_per_second": 219.51,
+      "eval_steps_per_second": 4.638,
+      "step": 462
+    },
+    {
+      "epoch": 264.57142857142856,
+      "eval_accuracy": 0.7323943661971831,
+      "eval_loss": 0.6298220753669739,
+      "eval_runtime": 0.6375,
+      "eval_samples_per_second": 222.743,
+      "eval_steps_per_second": 4.706,
+      "step": 463
+    },
+    {
+      "epoch": 265.7142857142857,
+      "eval_accuracy": 0.7323943661971831,
+      "eval_loss": 0.629562497138977,
+      "eval_runtime": 0.6336,
+      "eval_samples_per_second": 224.099,
+      "eval_steps_per_second": 4.734,
+      "step": 465
+    },
+    {
+      "epoch": 266.85714285714283,
+      "eval_accuracy": 0.7323943661971831,
+      "eval_loss": 0.6285203695297241,
+      "eval_runtime": 0.6921,
+      "eval_samples_per_second": 205.168,
+      "eval_steps_per_second": 4.335,
+      "step": 467
+    },
+    {
+      "epoch": 268.0,
+      "eval_accuracy": 0.7323943661971831,
+      "eval_loss": 0.6264737248420715,
+      "eval_runtime": 0.6231,
+      "eval_samples_per_second": 227.888,
+      "eval_steps_per_second": 4.815,
+      "step": 469
+    },
+    {
+      "epoch": 268.57142857142856,
+      "grad_norm": 7.2211222648620605,
+      "learning_rate": 7.5e-07,
+      "loss": 0.2504,
+      "step": 470
+    },
+    {
+      "epoch": 268.57142857142856,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6274013519287109,
+      "eval_runtime": 0.6682,
+      "eval_samples_per_second": 212.519,
+      "eval_steps_per_second": 4.49,
+      "step": 470
+    },
+    {
+      "epoch": 269.7142857142857,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6285874843597412,
+      "eval_runtime": 0.683,
+      "eval_samples_per_second": 207.896,
+      "eval_steps_per_second": 4.392,
+      "step": 472
+    },
+    {
+      "epoch": 270.85714285714283,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6235743761062622,
+      "eval_runtime": 0.6396,
+      "eval_samples_per_second": 221.999,
+      "eval_steps_per_second": 4.69,
+      "step": 474
+    },
+    {
+      "epoch": 272.0,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.617820680141449,
+      "eval_runtime": 0.6619,
+      "eval_samples_per_second": 214.54,
+      "eval_steps_per_second": 4.533,
+      "step": 476
+    },
+    {
+      "epoch": 272.57142857142856,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6164286732673645,
+      "eval_runtime": 0.6361,
+      "eval_samples_per_second": 223.244,
+      "eval_steps_per_second": 4.716,
+      "step": 477
+    },
+    {
+      "epoch": 273.7142857142857,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6160867214202881,
+      "eval_runtime": 0.6616,
+      "eval_samples_per_second": 214.643,
+      "eval_steps_per_second": 4.535,
+      "step": 479
+    },
+    {
+      "epoch": 274.2857142857143,
+      "grad_norm": 9.972301483154297,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.2539,
+      "step": 480
+    },
+    {
+      "epoch": 274.85714285714283,
+      "eval_accuracy": 0.7464788732394366,
+      "eval_loss": 0.6192934513092041,
+      "eval_runtime": 0.694,
+      "eval_samples_per_second": 204.62,
+      "eval_steps_per_second": 4.323,
+      "step": 481
+    },
+    {
+      "epoch": 276.0,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6235812306404114,
+      "eval_runtime": 0.6625,
+      "eval_samples_per_second": 214.337,
+      "eval_steps_per_second": 4.528,
+      "step": 483
+    },
+    {
+      "epoch": 276.57142857142856,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6258184909820557,
+      "eval_runtime": 0.6311,
+      "eval_samples_per_second": 224.993,
+      "eval_steps_per_second": 4.753,
+      "step": 484
+    },
+    {
+      "epoch": 277.7142857142857,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6307951211929321,
+      "eval_runtime": 0.6308,
+      "eval_samples_per_second": 225.107,
+      "eval_steps_per_second": 4.756,
+      "step": 486
+    },
+    {
+      "epoch": 278.85714285714283,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6349059343338013,
+      "eval_runtime": 0.6686,
+      "eval_samples_per_second": 212.392,
+      "eval_steps_per_second": 4.487,
+      "step": 488
+    },
+    {
+      "epoch": 280.0,
+      "grad_norm": 7.056405067443848,
+      "learning_rate": 2.5000000000000004e-07,
+      "loss": 0.2508,
+      "step": 490
+    },
+    {
+      "epoch": 280.0,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6352339386940002,
+      "eval_runtime": 0.6086,
+      "eval_samples_per_second": 233.309,
+      "eval_steps_per_second": 4.929,
+      "step": 490
+    },
+    {
+      "epoch": 280.57142857142856,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6346058249473572,
+      "eval_runtime": 0.6835,
+      "eval_samples_per_second": 207.769,
+      "eval_steps_per_second": 4.389,
+      "step": 491
+    },
+    {
+      "epoch": 281.7142857142857,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6336230635643005,
+      "eval_runtime": 0.653,
+      "eval_samples_per_second": 217.473,
+      "eval_steps_per_second": 4.595,
+      "step": 493
+    },
+    {
+      "epoch": 282.85714285714283,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6331290602684021,
+      "eval_runtime": 0.6688,
+      "eval_samples_per_second": 212.305,
+      "eval_steps_per_second": 4.485,
+      "step": 495
+    },
+    {
+      "epoch": 284.0,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6323853731155396,
+      "eval_runtime": 0.6328,
+      "eval_samples_per_second": 224.389,
+      "eval_steps_per_second": 4.741,
+      "step": 497
+    },
+    {
+      "epoch": 284.57142857142856,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6318850517272949,
+      "eval_runtime": 0.7105,
+      "eval_samples_per_second": 199.86,
+      "eval_steps_per_second": 4.222,
+      "step": 498
+    },
+    {
+      "epoch": 285.7142857142857,
+      "grad_norm": 8.08874225616455,
+      "learning_rate": 0.0,
+      "loss": 0.2393,
+      "step": 500
+    },
+    {
+      "epoch": 285.7142857142857,
+      "eval_accuracy": 0.7394366197183099,
+      "eval_loss": 0.6315631866455078,
+      "eval_runtime": 0.6449,
+      "eval_samples_per_second": 220.199,
+      "eval_steps_per_second": 4.652,
+      "step": 500
+    },
+    {
+      "epoch": 285.7142857142857,
+      "step": 500,
+      "total_flos": 2.387684396739963e+18,
+      "train_loss": 0.3142274961471558,
+      "train_runtime": 1304.9715,
+      "train_samples_per_second": 163.605,
+      "train_steps_per_second": 0.383
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 500,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.387684396739963e+18,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}