🍻 cheers

Browse files

Files changed (6) hide show

README.md +6 -5
all_results.json +13 -0
eval_results.json +8 -0
runs/Apr22_19-46-52_25f23db457d4/events.out.tfevents.1713817857.25f23db457d4.34.1 +3 -0
train_results.json +8 -0
trainer_state.json +1772 -0

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: microsoft/swinv2-tiny-patch4-window16-256
 tags:
 - generated_from_trainer
 datasets:
 - imagefolder
@@ -14,7 +15,7 @@ model-index:
       name: Image Classification
       type: image-classification
     dataset:
-      name: imagefolder
       type: imagefolder
       config: default
       split: train
@@ -22,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.7914285714285715
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -30,10 +31,10 @@ should probably proofread and complete it, then remove this comment. -->
 # Action_agent
-This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window16-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window16-256) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6412
-- Accuracy: 0.7914
 ## Model description

 license: apache-2.0
 base_model: microsoft/swinv2-tiny-patch4-window16-256
 tags:
+- image-classification
 - generated_from_trainer
 datasets:
 - imagefolder
       name: Image Classification
       type: image-classification
     dataset:
+      name: agent_action_class
       type: imagefolder
       config: default
       split: train
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.7895238095238095
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # Action_agent
+This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window16-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window16-256) on the agent_action_class dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6309
+- Accuracy: 0.7895
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.7895238095238095,
+    "eval_loss": 0.6309406161308289,
+    "eval_runtime": 13.6501,
+    "eval_samples_per_second": 76.922,
+    "eval_steps_per_second": 9.67,
+    "total_flos": 3.265548125287219e+18,
+    "train_loss": 0.7155859537944672,
+    "train_runtime": 2626.1064,
+    "train_samples_per_second": 38.212,
+    "train_steps_per_second": 1.196
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.7895238095238095,
+    "eval_loss": 0.6309406161308289,
+    "eval_runtime": 13.6501,
+    "eval_samples_per_second": 76.922,
+    "eval_steps_per_second": 9.67
+}

runs/Apr22_19-46-52_25f23db457d4/events.out.tfevents.1713817857.25f23db457d4.34.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9cf74ea96e9b43de8ad834f5d54784b30c7dcdb390678146c2a4d45ccec9fc69
+size 411

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "total_flos": 3.265548125287219e+18,
+    "train_loss": 0.7155859537944672,
+    "train_runtime": 2626.1064,
+    "train_samples_per_second": 38.212,
+    "train_steps_per_second": 1.196
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1772 @@

+{
+  "best_metric": 0.6309406161308289,
+  "best_model_checkpoint": "Action_agent/checkpoint-2600",
+  "epoch": 10.0,
+  "eval_steps": 100,
+  "global_step": 3140,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05,
+      "grad_norm": 6.1902642250061035,
+      "learning_rate": 9.952229299363057e-06,
+      "loss": 2.3093,
+      "step": 15
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 8.609545707702637,
+      "learning_rate": 9.904458598726116e-06,
+      "loss": 2.2798,
+      "step": 30
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 8.198623657226562,
+      "learning_rate": 9.856687898089172e-06,
+      "loss": 2.2163,
+      "step": 45
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 7.1882829666137695,
+      "learning_rate": 9.80891719745223e-06,
+      "loss": 2.1529,
+      "step": 60
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 8.259012222290039,
+      "learning_rate": 9.761146496815288e-06,
+      "loss": 2.114,
+      "step": 75
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 9.213942527770996,
+      "learning_rate": 9.713375796178345e-06,
+      "loss": 2.039,
+      "step": 90
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.4847619047619048,
+      "eval_loss": 1.7706103324890137,
+      "eval_runtime": 17.9171,
+      "eval_samples_per_second": 58.603,
+      "eval_steps_per_second": 7.367,
+      "step": 100
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 8.229316711425781,
+      "learning_rate": 9.665605095541401e-06,
+      "loss": 1.9431,
+      "step": 105
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 9.092002868652344,
+      "learning_rate": 9.617834394904459e-06,
+      "loss": 1.7759,
+      "step": 120
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 12.155420303344727,
+      "learning_rate": 9.570063694267517e-06,
+      "loss": 1.7233,
+      "step": 135
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 15.371952056884766,
+      "learning_rate": 9.522292993630574e-06,
+      "loss": 1.6441,
+      "step": 150
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 15.928441047668457,
+      "learning_rate": 9.47452229299363e-06,
+      "loss": 1.5518,
+      "step": 165
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 14.13963794708252,
+      "learning_rate": 9.426751592356688e-06,
+      "loss": 1.4362,
+      "step": 180
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 22.86189842224121,
+      "learning_rate": 9.378980891719746e-06,
+      "loss": 1.3695,
+      "step": 195
+    },
+    {
+      "epoch": 0.64,
+      "eval_accuracy": 0.6457142857142857,
+      "eval_loss": 1.0885976552963257,
+      "eval_runtime": 13.391,
+      "eval_samples_per_second": 78.411,
+      "eval_steps_per_second": 9.857,
+      "step": 200
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 18.267860412597656,
+      "learning_rate": 9.331210191082803e-06,
+      "loss": 1.2723,
+      "step": 210
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 17.083765029907227,
+      "learning_rate": 9.283439490445861e-06,
+      "loss": 1.2886,
+      "step": 225
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 13.116181373596191,
+      "learning_rate": 9.235668789808919e-06,
+      "loss": 1.1825,
+      "step": 240
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 15.386600494384766,
+      "learning_rate": 9.187898089171975e-06,
+      "loss": 1.2512,
+      "step": 255
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 36.78362274169922,
+      "learning_rate": 9.140127388535032e-06,
+      "loss": 1.1629,
+      "step": 270
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 16.107894897460938,
+      "learning_rate": 9.09235668789809e-06,
+      "loss": 1.0824,
+      "step": 285
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 15.064929962158203,
+      "learning_rate": 9.044585987261148e-06,
+      "loss": 1.099,
+      "step": 300
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.68,
+      "eval_loss": 0.9092212915420532,
+      "eval_runtime": 14.0444,
+      "eval_samples_per_second": 74.763,
+      "eval_steps_per_second": 9.399,
+      "step": 300
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 18.469070434570312,
+      "learning_rate": 8.996815286624204e-06,
+      "loss": 1.0649,
+      "step": 315
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 17.13619613647461,
+      "learning_rate": 8.949044585987261e-06,
+      "loss": 1.1011,
+      "step": 330
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 18.0528621673584,
+      "learning_rate": 8.901273885350319e-06,
+      "loss": 1.0787,
+      "step": 345
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 14.162128448486328,
+      "learning_rate": 8.853503184713377e-06,
+      "loss": 1.0927,
+      "step": 360
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 21.933330535888672,
+      "learning_rate": 8.805732484076433e-06,
+      "loss": 1.087,
+      "step": 375
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 16.677528381347656,
+      "learning_rate": 8.757961783439492e-06,
+      "loss": 1.0011,
+      "step": 390
+    },
+    {
+      "epoch": 1.27,
+      "eval_accuracy": 0.7171428571428572,
+      "eval_loss": 0.8182899951934814,
+      "eval_runtime": 13.5557,
+      "eval_samples_per_second": 77.458,
+      "eval_steps_per_second": 9.738,
+      "step": 400
+    },
+    {
+      "epoch": 1.29,
+      "grad_norm": 13.870976448059082,
+      "learning_rate": 8.710191082802548e-06,
+      "loss": 0.9318,
+      "step": 405
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 14.700624465942383,
+      "learning_rate": 8.662420382165606e-06,
+      "loss": 0.8846,
+      "step": 420
+    },
+    {
+      "epoch": 1.39,
+      "grad_norm": 17.18898582458496,
+      "learning_rate": 8.614649681528664e-06,
+      "loss": 1.0089,
+      "step": 435
+    },
+    {
+      "epoch": 1.43,
+      "grad_norm": 18.89067840576172,
+      "learning_rate": 8.566878980891721e-06,
+      "loss": 0.9356,
+      "step": 450
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 15.696223258972168,
+      "learning_rate": 8.519108280254777e-06,
+      "loss": 0.8215,
+      "step": 465
+    },
+    {
+      "epoch": 1.53,
+      "grad_norm": 36.806602478027344,
+      "learning_rate": 8.471337579617835e-06,
+      "loss": 0.9668,
+      "step": 480
+    },
+    {
+      "epoch": 1.58,
+      "grad_norm": 13.624329566955566,
+      "learning_rate": 8.423566878980893e-06,
+      "loss": 0.8437,
+      "step": 495
+    },
+    {
+      "epoch": 1.59,
+      "eval_accuracy": 0.719047619047619,
+      "eval_loss": 0.7674332857131958,
+      "eval_runtime": 13.5992,
+      "eval_samples_per_second": 77.211,
+      "eval_steps_per_second": 9.706,
+      "step": 500
+    },
+    {
+      "epoch": 1.62,
+      "grad_norm": 15.652780532836914,
+      "learning_rate": 8.37579617834395e-06,
+      "loss": 0.8169,
+      "step": 510
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 13.216598510742188,
+      "learning_rate": 8.328025477707006e-06,
+      "loss": 0.9283,
+      "step": 525
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 19.80782127380371,
+      "learning_rate": 8.280254777070064e-06,
+      "loss": 0.8614,
+      "step": 540
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 18.636619567871094,
+      "learning_rate": 8.232484076433122e-06,
+      "loss": 0.8656,
+      "step": 555
+    },
+    {
+      "epoch": 1.82,
+      "grad_norm": 17.433523178100586,
+      "learning_rate": 8.18471337579618e-06,
+      "loss": 0.8313,
+      "step": 570
+    },
+    {
+      "epoch": 1.86,
+      "grad_norm": 14.271307945251465,
+      "learning_rate": 8.136942675159237e-06,
+      "loss": 0.8857,
+      "step": 585
+    },
+    {
+      "epoch": 1.91,
+      "grad_norm": 16.59528923034668,
+      "learning_rate": 8.089171974522295e-06,
+      "loss": 0.8613,
+      "step": 600
+    },
+    {
+      "epoch": 1.91,
+      "eval_accuracy": 0.7409523809523809,
+      "eval_loss": 0.7168479561805725,
+      "eval_runtime": 13.4058,
+      "eval_samples_per_second": 78.324,
+      "eval_steps_per_second": 9.846,
+      "step": 600
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 13.598006248474121,
+      "learning_rate": 8.04140127388535e-06,
+      "loss": 0.8694,
+      "step": 615
+    },
+    {
+      "epoch": 2.01,
+      "grad_norm": 13.958739280700684,
+      "learning_rate": 7.993630573248408e-06,
+      "loss": 0.9166,
+      "step": 630
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 13.80545425415039,
+      "learning_rate": 7.945859872611466e-06,
+      "loss": 0.8781,
+      "step": 645
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 14.67716121673584,
+      "learning_rate": 7.898089171974524e-06,
+      "loss": 0.7684,
+      "step": 660
+    },
+    {
+      "epoch": 2.15,
+      "grad_norm": 18.161645889282227,
+      "learning_rate": 7.85031847133758e-06,
+      "loss": 0.7923,
+      "step": 675
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 11.349693298339844,
+      "learning_rate": 7.802547770700637e-06,
+      "loss": 0.7427,
+      "step": 690
+    },
+    {
+      "epoch": 2.23,
+      "eval_accuracy": 0.7352380952380952,
+      "eval_loss": 0.7270055413246155,
+      "eval_runtime": 13.6582,
+      "eval_samples_per_second": 76.877,
+      "eval_steps_per_second": 9.665,
+      "step": 700
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 16.357065200805664,
+      "learning_rate": 7.754777070063695e-06,
+      "loss": 0.7645,
+      "step": 705
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 15.481508255004883,
+      "learning_rate": 7.707006369426753e-06,
+      "loss": 0.7973,
+      "step": 720
+    },
+    {
+      "epoch": 2.34,
+      "grad_norm": 16.786632537841797,
+      "learning_rate": 7.659235668789809e-06,
+      "loss": 0.8256,
+      "step": 735
+    },
+    {
+      "epoch": 2.39,
+      "grad_norm": 11.738802909851074,
+      "learning_rate": 7.611464968152867e-06,
+      "loss": 0.8307,
+      "step": 750
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 13.264825820922852,
+      "learning_rate": 7.563694267515924e-06,
+      "loss": 0.7431,
+      "step": 765
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 15.430547714233398,
+      "learning_rate": 7.515923566878982e-06,
+      "loss": 0.7867,
+      "step": 780
+    },
+    {
+      "epoch": 2.53,
+      "grad_norm": 15.555388450622559,
+      "learning_rate": 7.468152866242039e-06,
+      "loss": 0.693,
+      "step": 795
+    },
+    {
+      "epoch": 2.55,
+      "eval_accuracy": 0.7676190476190476,
+      "eval_loss": 0.6801217198371887,
+      "eval_runtime": 13.4462,
+      "eval_samples_per_second": 78.089,
+      "eval_steps_per_second": 9.817,
+      "step": 800
+    },
+    {
+      "epoch": 2.58,
+      "grad_norm": 16.23971176147461,
+      "learning_rate": 7.4203821656050955e-06,
+      "loss": 0.7791,
+      "step": 810
+    },
+    {
+      "epoch": 2.63,
+      "grad_norm": 22.803543090820312,
+      "learning_rate": 7.372611464968153e-06,
+      "loss": 0.7564,
+      "step": 825
+    },
+    {
+      "epoch": 2.68,
+      "grad_norm": 15.14857292175293,
+      "learning_rate": 7.32484076433121e-06,
+      "loss": 0.6895,
+      "step": 840
+    },
+    {
+      "epoch": 2.72,
+      "grad_norm": 18.52122688293457,
+      "learning_rate": 7.2770700636942685e-06,
+      "loss": 0.7016,
+      "step": 855
+    },
+    {
+      "epoch": 2.77,
+      "grad_norm": 11.38332748413086,
+      "learning_rate": 7.2292993630573245e-06,
+      "loss": 0.8174,
+      "step": 870
+    },
+    {
+      "epoch": 2.82,
+      "grad_norm": 22.539424896240234,
+      "learning_rate": 7.181528662420383e-06,
+      "loss": 0.7147,
+      "step": 885
+    },
+    {
+      "epoch": 2.87,
+      "grad_norm": 15.064950942993164,
+      "learning_rate": 7.13375796178344e-06,
+      "loss": 0.7789,
+      "step": 900
+    },
+    {
+      "epoch": 2.87,
+      "eval_accuracy": 0.7590476190476191,
+      "eval_loss": 0.6831705570220947,
+      "eval_runtime": 13.5379,
+      "eval_samples_per_second": 77.56,
+      "eval_steps_per_second": 9.75,
+      "step": 900
+    },
+    {
+      "epoch": 2.91,
+      "grad_norm": 17.286598205566406,
+      "learning_rate": 7.085987261146498e-06,
+      "loss": 0.6743,
+      "step": 915
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 19.45290756225586,
+      "learning_rate": 7.0382165605095544e-06,
+      "loss": 0.6263,
+      "step": 930
+    },
+    {
+      "epoch": 3.01,
+      "grad_norm": 26.688581466674805,
+      "learning_rate": 6.990445859872612e-06,
+      "loss": 0.7736,
+      "step": 945
+    },
+    {
+      "epoch": 3.06,
+      "grad_norm": 22.443763732910156,
+      "learning_rate": 6.942675159235669e-06,
+      "loss": 0.6392,
+      "step": 960
+    },
+    {
+      "epoch": 3.11,
+      "grad_norm": 18.81976318359375,
+      "learning_rate": 6.894904458598727e-06,
+      "loss": 0.7653,
+      "step": 975
+    },
+    {
+      "epoch": 3.15,
+      "grad_norm": 12.312933921813965,
+      "learning_rate": 6.8471337579617835e-06,
+      "loss": 0.6863,
+      "step": 990
+    },
+    {
+      "epoch": 3.18,
+      "eval_accuracy": 0.7752380952380953,
+      "eval_loss": 0.665543794631958,
+      "eval_runtime": 13.4956,
+      "eval_samples_per_second": 77.803,
+      "eval_steps_per_second": 9.781,
+      "step": 1000
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 15.371318817138672,
+      "learning_rate": 6.799363057324841e-06,
+      "loss": 0.7106,
+      "step": 1005
+    },
+    {
+      "epoch": 3.25,
+      "grad_norm": 18.258623123168945,
+      "learning_rate": 6.751592356687898e-06,
+      "loss": 0.7305,
+      "step": 1020
+    },
+    {
+      "epoch": 3.3,
+      "grad_norm": 16.52337074279785,
+      "learning_rate": 6.7038216560509565e-06,
+      "loss": 0.6947,
+      "step": 1035
+    },
+    {
+      "epoch": 3.34,
+      "grad_norm": 18.67824363708496,
+      "learning_rate": 6.6560509554140125e-06,
+      "loss": 0.6669,
+      "step": 1050
+    },
+    {
+      "epoch": 3.39,
+      "grad_norm": 16.26685905456543,
+      "learning_rate": 6.608280254777071e-06,
+      "loss": 0.6801,
+      "step": 1065
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 13.744972229003906,
+      "learning_rate": 6.560509554140128e-06,
+      "loss": 0.6035,
+      "step": 1080
+    },
+    {
+      "epoch": 3.49,
+      "grad_norm": 12.479057312011719,
+      "learning_rate": 6.5127388535031856e-06,
+      "loss": 0.6437,
+      "step": 1095
+    },
+    {
+      "epoch": 3.5,
+      "eval_accuracy": 0.7771428571428571,
+      "eval_loss": 0.6382023692131042,
+      "eval_runtime": 13.3473,
+      "eval_samples_per_second": 78.667,
+      "eval_steps_per_second": 9.89,
+      "step": 1100
+    },
+    {
+      "epoch": 3.54,
+      "grad_norm": 14.826581954956055,
+      "learning_rate": 6.464968152866242e-06,
+      "loss": 0.7309,
+      "step": 1110
+    },
+    {
+      "epoch": 3.58,
+      "grad_norm": 12.955341339111328,
+      "learning_rate": 6.4171974522293e-06,
+      "loss": 0.6864,
+      "step": 1125
+    },
+    {
+      "epoch": 3.63,
+      "grad_norm": 14.903204917907715,
+      "learning_rate": 6.369426751592357e-06,
+      "loss": 0.6711,
+      "step": 1140
+    },
+    {
+      "epoch": 3.68,
+      "grad_norm": 15.349693298339844,
+      "learning_rate": 6.321656050955415e-06,
+      "loss": 0.6362,
+      "step": 1155
+    },
+    {
+      "epoch": 3.73,
+      "grad_norm": 25.346343994140625,
+      "learning_rate": 6.2738853503184715e-06,
+      "loss": 0.6359,
+      "step": 1170
+    },
+    {
+      "epoch": 3.77,
+      "grad_norm": 12.536116600036621,
+      "learning_rate": 6.226114649681529e-06,
+      "loss": 0.6991,
+      "step": 1185
+    },
+    {
+      "epoch": 3.82,
+      "grad_norm": 19.788801193237305,
+      "learning_rate": 6.178343949044586e-06,
+      "loss": 0.6741,
+      "step": 1200
+    },
+    {
+      "epoch": 3.82,
+      "eval_accuracy": 0.7790476190476191,
+      "eval_loss": 0.6445861458778381,
+      "eval_runtime": 13.6114,
+      "eval_samples_per_second": 77.141,
+      "eval_steps_per_second": 9.698,
+      "step": 1200
+    },
+    {
+      "epoch": 3.87,
+      "grad_norm": 16.279836654663086,
+      "learning_rate": 6.1305732484076445e-06,
+      "loss": 0.6977,
+      "step": 1215
+    },
+    {
+      "epoch": 3.92,
+      "grad_norm": 18.798139572143555,
+      "learning_rate": 6.0828025477707005e-06,
+      "loss": 0.653,
+      "step": 1230
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 17.142087936401367,
+      "learning_rate": 6.035031847133759e-06,
+      "loss": 0.6778,
+      "step": 1245
+    },
+    {
+      "epoch": 4.01,
+      "grad_norm": 17.632762908935547,
+      "learning_rate": 5.987261146496816e-06,
+      "loss": 0.5343,
+      "step": 1260
+    },
+    {
+      "epoch": 4.06,
+      "grad_norm": 14.896882057189941,
+      "learning_rate": 5.9394904458598736e-06,
+      "loss": 0.5694,
+      "step": 1275
+    },
+    {
+      "epoch": 4.11,
+      "grad_norm": 19.62409019470215,
+      "learning_rate": 5.89171974522293e-06,
+      "loss": 0.5871,
+      "step": 1290
+    },
+    {
+      "epoch": 4.14,
+      "eval_accuracy": 0.7838095238095238,
+      "eval_loss": 0.6551438570022583,
+      "eval_runtime": 13.8432,
+      "eval_samples_per_second": 75.849,
+      "eval_steps_per_second": 9.535,
+      "step": 1300
+    },
+    {
+      "epoch": 4.16,
+      "grad_norm": 16.879796981811523,
+      "learning_rate": 5.843949044585988e-06,
+      "loss": 0.6344,
+      "step": 1305
+    },
+    {
+      "epoch": 4.2,
+      "grad_norm": 18.603700637817383,
+      "learning_rate": 5.796178343949045e-06,
+      "loss": 0.5768,
+      "step": 1320
+    },
+    {
+      "epoch": 4.25,
+      "grad_norm": 16.433502197265625,
+      "learning_rate": 5.748407643312103e-06,
+      "loss": 0.5884,
+      "step": 1335
+    },
+    {
+      "epoch": 4.3,
+      "grad_norm": 17.979280471801758,
+      "learning_rate": 5.7006369426751594e-06,
+      "loss": 0.6167,
+      "step": 1350
+    },
+    {
+      "epoch": 4.35,
+      "grad_norm": 20.778549194335938,
+      "learning_rate": 5.652866242038217e-06,
+      "loss": 0.6594,
+      "step": 1365
+    },
+    {
+      "epoch": 4.39,
+      "grad_norm": 14.834670066833496,
+      "learning_rate": 5.605095541401274e-06,
+      "loss": 0.6214,
+      "step": 1380
+    },
+    {
+      "epoch": 4.44,
+      "grad_norm": 19.214466094970703,
+      "learning_rate": 5.5573248407643325e-06,
+      "loss": 0.6051,
+      "step": 1395
+    },
+    {
+      "epoch": 4.46,
+      "eval_accuracy": 0.7638095238095238,
+      "eval_loss": 0.6970483660697937,
+      "eval_runtime": 20.5305,
+      "eval_samples_per_second": 51.143,
+      "eval_steps_per_second": 6.429,
+      "step": 1400
+    },
+    {
+      "epoch": 4.49,
+      "grad_norm": 16.332500457763672,
+      "learning_rate": 5.5095541401273885e-06,
+      "loss": 0.5996,
+      "step": 1410
+    },
+    {
+      "epoch": 4.54,
+      "grad_norm": 16.794343948364258,
+      "learning_rate": 5.461783439490447e-06,
+      "loss": 0.702,
+      "step": 1425
+    },
+    {
+      "epoch": 4.59,
+      "grad_norm": 21.159442901611328,
+      "learning_rate": 5.414012738853504e-06,
+      "loss": 0.5742,
+      "step": 1440
+    },
+    {
+      "epoch": 4.63,
+      "grad_norm": 26.400766372680664,
+      "learning_rate": 5.3662420382165615e-06,
+      "loss": 0.6288,
+      "step": 1455
+    },
+    {
+      "epoch": 4.68,
+      "grad_norm": 19.17631721496582,
+      "learning_rate": 5.318471337579618e-06,
+      "loss": 0.5819,
+      "step": 1470
+    },
+    {
+      "epoch": 4.73,
+      "grad_norm": 18.10342025756836,
+      "learning_rate": 5.270700636942676e-06,
+      "loss": 0.5842,
+      "step": 1485
+    },
+    {
+      "epoch": 4.78,
+      "grad_norm": 21.941911697387695,
+      "learning_rate": 5.222929936305733e-06,
+      "loss": 0.5175,
+      "step": 1500
+    },
+    {
+      "epoch": 4.78,
+      "eval_accuracy": 0.7790476190476191,
+      "eval_loss": 0.6552723050117493,
+      "eval_runtime": 13.5024,
+      "eval_samples_per_second": 77.764,
+      "eval_steps_per_second": 9.776,
+      "step": 1500
+    },
+    {
+      "epoch": 4.82,
+      "grad_norm": 24.317623138427734,
+      "learning_rate": 5.175159235668791e-06,
+      "loss": 0.5984,
+      "step": 1515
+    },
+    {
+      "epoch": 4.87,
+      "grad_norm": 14.877484321594238,
+      "learning_rate": 5.1273885350318474e-06,
+      "loss": 0.6142,
+      "step": 1530
+    },
+    {
+      "epoch": 4.92,
+      "grad_norm": 20.296701431274414,
+      "learning_rate": 5.079617834394905e-06,
+      "loss": 0.719,
+      "step": 1545
+    },
+    {
+      "epoch": 4.97,
+      "grad_norm": 20.335296630859375,
+      "learning_rate": 5.031847133757962e-06,
+      "loss": 0.5651,
+      "step": 1560
+    },
+    {
+      "epoch": 5.02,
+      "grad_norm": 17.09543228149414,
+      "learning_rate": 4.98407643312102e-06,
+      "loss": 0.4632,
+      "step": 1575
+    },
+    {
+      "epoch": 5.06,
+      "grad_norm": 15.416642189025879,
+      "learning_rate": 4.9363057324840765e-06,
+      "loss": 0.5795,
+      "step": 1590
+    },
+    {
+      "epoch": 5.1,
+      "eval_accuracy": 0.7771428571428571,
+      "eval_loss": 0.6666560173034668,
+      "eval_runtime": 14.1067,
+      "eval_samples_per_second": 74.433,
+      "eval_steps_per_second": 9.357,
+      "step": 1600
+    },
+    {
+      "epoch": 5.11,
+      "grad_norm": 12.152099609375,
+      "learning_rate": 4.888535031847134e-06,
+      "loss": 0.6119,
+      "step": 1605
+    },
+    {
+      "epoch": 5.16,
+      "grad_norm": 11.709696769714355,
+      "learning_rate": 4.840764331210192e-06,
+      "loss": 0.5521,
+      "step": 1620
+    },
+    {
+      "epoch": 5.21,
+      "grad_norm": 12.4248685836792,
+      "learning_rate": 4.792993630573249e-06,
+      "loss": 0.586,
+      "step": 1635
+    },
+    {
+      "epoch": 5.25,
+      "grad_norm": 22.69182777404785,
+      "learning_rate": 4.745222929936306e-06,
+      "loss": 0.5848,
+      "step": 1650
+    },
+    {
+      "epoch": 5.3,
+      "grad_norm": 15.92928409576416,
+      "learning_rate": 4.697452229299363e-06,
+      "loss": 0.5922,
+      "step": 1665
+    },
+    {
+      "epoch": 5.35,
+      "grad_norm": 25.377580642700195,
+      "learning_rate": 4.649681528662421e-06,
+      "loss": 0.6579,
+      "step": 1680
+    },
+    {
+      "epoch": 5.4,
+      "grad_norm": 12.89096450805664,
+      "learning_rate": 4.601910828025479e-06,
+      "loss": 0.4919,
+      "step": 1695
+    },
+    {
+      "epoch": 5.41,
+      "eval_accuracy": 0.7904761904761904,
+      "eval_loss": 0.6316953897476196,
+      "eval_runtime": 13.547,
+      "eval_samples_per_second": 77.508,
+      "eval_steps_per_second": 9.744,
+      "step": 1700
+    },
+    {
+      "epoch": 5.45,
+      "grad_norm": 13.04831314086914,
+      "learning_rate": 4.554140127388535e-06,
+      "loss": 0.5459,
+      "step": 1710
+    },
+    {
+      "epoch": 5.49,
+      "grad_norm": 14.792088508605957,
+      "learning_rate": 4.506369426751593e-06,
+      "loss": 0.4729,
+      "step": 1725
+    },
+    {
+      "epoch": 5.54,
+      "grad_norm": 20.434284210205078,
+      "learning_rate": 4.45859872611465e-06,
+      "loss": 0.5285,
+      "step": 1740
+    },
+    {
+      "epoch": 5.59,
+      "grad_norm": 16.0216064453125,
+      "learning_rate": 4.410828025477708e-06,
+      "loss": 0.5891,
+      "step": 1755
+    },
+    {
+      "epoch": 5.64,
+      "grad_norm": 14.537184715270996,
+      "learning_rate": 4.3630573248407645e-06,
+      "loss": 0.6203,
+      "step": 1770
+    },
+    {
+      "epoch": 5.68,
+      "grad_norm": 16.755977630615234,
+      "learning_rate": 4.315286624203822e-06,
+      "loss": 0.5832,
+      "step": 1785
+    },
+    {
+      "epoch": 5.73,
+      "grad_norm": 18.05998992919922,
+      "learning_rate": 4.26751592356688e-06,
+      "loss": 0.4986,
+      "step": 1800
+    },
+    {
+      "epoch": 5.73,
+      "eval_accuracy": 0.780952380952381,
+      "eval_loss": 0.6485886573791504,
+      "eval_runtime": 13.712,
+      "eval_samples_per_second": 76.575,
+      "eval_steps_per_second": 9.627,
+      "step": 1800
+    },
+    {
+      "epoch": 5.78,
+      "grad_norm": 13.940254211425781,
+      "learning_rate": 4.219745222929937e-06,
+      "loss": 0.5582,
+      "step": 1815
+    },
+    {
+      "epoch": 5.83,
+      "grad_norm": 13.54953670501709,
+      "learning_rate": 4.171974522292994e-06,
+      "loss": 0.5189,
+      "step": 1830
+    },
+    {
+      "epoch": 5.88,
+      "grad_norm": 19.552183151245117,
+      "learning_rate": 4.124203821656051e-06,
+      "loss": 0.6037,
+      "step": 1845
+    },
+    {
+      "epoch": 5.92,
+      "grad_norm": 13.757224082946777,
+      "learning_rate": 4.076433121019109e-06,
+      "loss": 0.5537,
+      "step": 1860
+    },
+    {
+      "epoch": 5.97,
+      "grad_norm": 24.593406677246094,
+      "learning_rate": 4.0286624203821666e-06,
+      "loss": 0.5527,
+      "step": 1875
+    },
+    {
+      "epoch": 6.02,
+      "grad_norm": 22.236400604248047,
+      "learning_rate": 3.980891719745223e-06,
+      "loss": 0.5104,
+      "step": 1890
+    },
+    {
+      "epoch": 6.05,
+      "eval_accuracy": 0.7742857142857142,
+      "eval_loss": 0.6699539422988892,
+      "eval_runtime": 13.5651,
+      "eval_samples_per_second": 77.405,
+      "eval_steps_per_second": 9.731,
+      "step": 1900
+    },
+    {
+      "epoch": 6.07,
+      "grad_norm": 15.87308120727539,
+      "learning_rate": 3.933121019108281e-06,
+      "loss": 0.5268,
+      "step": 1905
+    },
+    {
+      "epoch": 6.11,
+      "grad_norm": 13.48481273651123,
+      "learning_rate": 3.885350318471338e-06,
+      "loss": 0.5421,
+      "step": 1920
+    },
+    {
+      "epoch": 6.16,
+      "grad_norm": 13.895825386047363,
+      "learning_rate": 3.837579617834396e-06,
+      "loss": 0.6139,
+      "step": 1935
+    },
+    {
+      "epoch": 6.21,
+      "grad_norm": 14.655675888061523,
+      "learning_rate": 3.789808917197453e-06,
+      "loss": 0.495,
+      "step": 1950
+    },
+    {
+      "epoch": 6.26,
+      "grad_norm": 21.782032012939453,
+      "learning_rate": 3.7420382165605097e-06,
+      "loss": 0.513,
+      "step": 1965
+    },
+    {
+      "epoch": 6.31,
+      "grad_norm": 16.350772857666016,
+      "learning_rate": 3.694267515923567e-06,
+      "loss": 0.5182,
+      "step": 1980
+    },
+    {
+      "epoch": 6.35,
+      "grad_norm": 12.87532901763916,
+      "learning_rate": 3.6464968152866242e-06,
+      "loss": 0.4919,
+      "step": 1995
+    },
+    {
+      "epoch": 6.37,
+      "eval_accuracy": 0.7819047619047619,
+      "eval_loss": 0.6527658700942993,
+      "eval_runtime": 13.9166,
+      "eval_samples_per_second": 75.449,
+      "eval_steps_per_second": 9.485,
+      "step": 2000
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 12.642027854919434,
+      "learning_rate": 3.5987261146496815e-06,
+      "loss": 0.5212,
+      "step": 2010
+    },
+    {
+      "epoch": 6.45,
+      "grad_norm": 13.786490440368652,
+      "learning_rate": 3.5509554140127388e-06,
+      "loss": 0.5004,
+      "step": 2025
+    },
+    {
+      "epoch": 6.5,
+      "grad_norm": 28.24700927734375,
+      "learning_rate": 3.5031847133757964e-06,
+      "loss": 0.539,
+      "step": 2040
+    },
+    {
+      "epoch": 6.54,
+      "grad_norm": 10.891915321350098,
+      "learning_rate": 3.4554140127388537e-06,
+      "loss": 0.5316,
+      "step": 2055
+    },
+    {
+      "epoch": 6.59,
+      "grad_norm": 21.343164443969727,
+      "learning_rate": 3.407643312101911e-06,
+      "loss": 0.5497,
+      "step": 2070
+    },
+    {
+      "epoch": 6.64,
+      "grad_norm": 15.246662139892578,
+      "learning_rate": 3.3598726114649682e-06,
+      "loss": 0.5212,
+      "step": 2085
+    },
+    {
+      "epoch": 6.69,
+      "grad_norm": 18.424856185913086,
+      "learning_rate": 3.3121019108280255e-06,
+      "loss": 0.5144,
+      "step": 2100
+    },
+    {
+      "epoch": 6.69,
+      "eval_accuracy": 0.7876190476190477,
+      "eval_loss": 0.6354712843894958,
+      "eval_runtime": 13.6508,
+      "eval_samples_per_second": 76.919,
+      "eval_steps_per_second": 9.67,
+      "step": 2100
+    },
+    {
+      "epoch": 6.74,
+      "grad_norm": 15.570305824279785,
+      "learning_rate": 3.2643312101910827e-06,
+      "loss": 0.5892,
+      "step": 2115
+    },
+    {
+      "epoch": 6.78,
+      "grad_norm": 16.673995971679688,
+      "learning_rate": 3.2165605095541404e-06,
+      "loss": 0.5079,
+      "step": 2130
+    },
+    {
+      "epoch": 6.83,
+      "grad_norm": 17.703060150146484,
+      "learning_rate": 3.1687898089171977e-06,
+      "loss": 0.496,
+      "step": 2145
+    },
+    {
+      "epoch": 6.88,
+      "grad_norm": 14.203299522399902,
+      "learning_rate": 3.121019108280255e-06,
+      "loss": 0.5223,
+      "step": 2160
+    },
+    {
+      "epoch": 6.93,
+      "grad_norm": 14.10352897644043,
+      "learning_rate": 3.0732484076433122e-06,
+      "loss": 0.521,
+      "step": 2175
+    },
+    {
+      "epoch": 6.97,
+      "grad_norm": 13.882482528686523,
+      "learning_rate": 3.0254777070063695e-06,
+      "loss": 0.5554,
+      "step": 2190
+    },
+    {
+      "epoch": 7.01,
+      "eval_accuracy": 0.7771428571428571,
+      "eval_loss": 0.6552413702011108,
+      "eval_runtime": 13.0208,
+      "eval_samples_per_second": 80.64,
+      "eval_steps_per_second": 10.138,
+      "step": 2200
+    },
+    {
+      "epoch": 7.02,
+      "grad_norm": 12.480643272399902,
+      "learning_rate": 2.9777070063694267e-06,
+      "loss": 0.4216,
+      "step": 2205
+    },
+    {
+      "epoch": 7.07,
+      "grad_norm": 14.39759349822998,
+      "learning_rate": 2.9299363057324844e-06,
+      "loss": 0.4888,
+      "step": 2220
+    },
+    {
+      "epoch": 7.12,
+      "grad_norm": 17.724123001098633,
+      "learning_rate": 2.8821656050955417e-06,
+      "loss": 0.4579,
+      "step": 2235
+    },
+    {
+      "epoch": 7.17,
+      "grad_norm": 14.149361610412598,
+      "learning_rate": 2.834394904458599e-06,
+      "loss": 0.5295,
+      "step": 2250
+    },
+    {
+      "epoch": 7.21,
+      "grad_norm": 18.39142608642578,
+      "learning_rate": 2.786624203821656e-06,
+      "loss": 0.4918,
+      "step": 2265
+    },
+    {
+      "epoch": 7.26,
+      "grad_norm": 21.38290023803711,
+      "learning_rate": 2.7388535031847135e-06,
+      "loss": 0.5542,
+      "step": 2280
+    },
+    {
+      "epoch": 7.31,
+      "grad_norm": 21.44352912902832,
+      "learning_rate": 2.6910828025477707e-06,
+      "loss": 0.5389,
+      "step": 2295
+    },
+    {
+      "epoch": 7.32,
+      "eval_accuracy": 0.7876190476190477,
+      "eval_loss": 0.6360692381858826,
+      "eval_runtime": 13.6127,
+      "eval_samples_per_second": 77.134,
+      "eval_steps_per_second": 9.697,
+      "step": 2300
+    },
+    {
+      "epoch": 7.36,
+      "grad_norm": 14.326496124267578,
+      "learning_rate": 2.6433121019108284e-06,
+      "loss": 0.4785,
+      "step": 2310
+    },
+    {
+      "epoch": 7.4,
+      "grad_norm": 17.98026466369629,
+      "learning_rate": 2.5955414012738857e-06,
+      "loss": 0.5193,
+      "step": 2325
+    },
+    {
+      "epoch": 7.45,
+      "grad_norm": 11.728538513183594,
+      "learning_rate": 2.547770700636943e-06,
+      "loss": 0.4371,
+      "step": 2340
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 17.007251739501953,
+      "learning_rate": 2.5e-06,
+      "loss": 0.4969,
+      "step": 2355
+    },
+    {
+      "epoch": 7.55,
+      "grad_norm": 15.3156099319458,
+      "learning_rate": 2.4522292993630575e-06,
+      "loss": 0.5297,
+      "step": 2370
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 13.694135665893555,
+      "learning_rate": 2.4044585987261147e-06,
+      "loss": 0.4651,
+      "step": 2385
+    },
+    {
+      "epoch": 7.64,
+      "grad_norm": 16.395017623901367,
+      "learning_rate": 2.356687898089172e-06,
+      "loss": 0.5751,
+      "step": 2400
+    },
+    {
+      "epoch": 7.64,
+      "eval_accuracy": 0.7904761904761904,
+      "eval_loss": 0.6376513838768005,
+      "eval_runtime": 13.653,
+      "eval_samples_per_second": 76.906,
+      "eval_steps_per_second": 9.668,
+      "step": 2400
+    },
+    {
+      "epoch": 7.69,
+      "grad_norm": 21.47723388671875,
+      "learning_rate": 2.3089171974522297e-06,
+      "loss": 0.4762,
+      "step": 2415
+    },
+    {
+      "epoch": 7.74,
+      "grad_norm": 17.56719970703125,
+      "learning_rate": 2.261146496815287e-06,
+      "loss": 0.6217,
+      "step": 2430
+    },
+    {
+      "epoch": 7.79,
+      "grad_norm": 12.036867141723633,
+      "learning_rate": 2.213375796178344e-06,
+      "loss": 0.4727,
+      "step": 2445
+    },
+    {
+      "epoch": 7.83,
+      "grad_norm": 18.971595764160156,
+      "learning_rate": 2.1656050955414015e-06,
+      "loss": 0.4601,
+      "step": 2460
+    },
+    {
+      "epoch": 7.88,
+      "grad_norm": 18.308382034301758,
+      "learning_rate": 2.1178343949044587e-06,
+      "loss": 0.5086,
+      "step": 2475
+    },
+    {
+      "epoch": 7.93,
+      "grad_norm": 13.486546516418457,
+      "learning_rate": 2.070063694267516e-06,
+      "loss": 0.4743,
+      "step": 2490
+    },
+    {
+      "epoch": 7.96,
+      "eval_accuracy": 0.7866666666666666,
+      "eval_loss": 0.6417487859725952,
+      "eval_runtime": 13.707,
+      "eval_samples_per_second": 76.603,
+      "eval_steps_per_second": 9.63,
+      "step": 2500
+    },
+    {
+      "epoch": 7.98,
+      "grad_norm": 12.4083833694458,
+      "learning_rate": 2.0222929936305737e-06,
+      "loss": 0.453,
+      "step": 2505
+    },
+    {
+      "epoch": 8.03,
+      "grad_norm": 10.967087745666504,
+      "learning_rate": 1.974522292993631e-06,
+      "loss": 0.4937,
+      "step": 2520
+    },
+    {
+      "epoch": 8.07,
+      "grad_norm": 11.663314819335938,
+      "learning_rate": 1.926751592356688e-06,
+      "loss": 0.5115,
+      "step": 2535
+    },
+    {
+      "epoch": 8.12,
+      "grad_norm": 10.820151329040527,
+      "learning_rate": 1.8789808917197455e-06,
+      "loss": 0.4281,
+      "step": 2550
+    },
+    {
+      "epoch": 8.17,
+      "grad_norm": 15.378673553466797,
+      "learning_rate": 1.8312101910828025e-06,
+      "loss": 0.5341,
+      "step": 2565
+    },
+    {
+      "epoch": 8.22,
+      "grad_norm": 18.212982177734375,
+      "learning_rate": 1.78343949044586e-06,
+      "loss": 0.5331,
+      "step": 2580
+    },
+    {
+      "epoch": 8.26,
+      "grad_norm": 25.97978401184082,
+      "learning_rate": 1.7356687898089172e-06,
+      "loss": 0.4519,
+      "step": 2595
+    },
+    {
+      "epoch": 8.28,
+      "eval_accuracy": 0.7895238095238095,
+      "eval_loss": 0.6309406161308289,
+      "eval_runtime": 13.8301,
+      "eval_samples_per_second": 75.921,
+      "eval_steps_per_second": 9.544,
+      "step": 2600
+    },
+    {
+      "epoch": 8.31,
+      "grad_norm": 16.035921096801758,
+      "learning_rate": 1.6878980891719745e-06,
+      "loss": 0.4434,
+      "step": 2610
+    },
+    {
+      "epoch": 8.36,
+      "grad_norm": 33.498626708984375,
+      "learning_rate": 1.640127388535032e-06,
+      "loss": 0.5621,
+      "step": 2625
+    },
+    {
+      "epoch": 8.41,
+      "grad_norm": 22.457271575927734,
+      "learning_rate": 1.5923566878980892e-06,
+      "loss": 0.4843,
+      "step": 2640
+    },
+    {
+      "epoch": 8.46,
+      "grad_norm": 20.040433883666992,
+      "learning_rate": 1.5445859872611465e-06,
+      "loss": 0.5306,
+      "step": 2655
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 25.173227310180664,
+      "learning_rate": 1.496815286624204e-06,
+      "loss": 0.5078,
+      "step": 2670
+    },
+    {
+      "epoch": 8.55,
+      "grad_norm": 14.426128387451172,
+      "learning_rate": 1.4490445859872612e-06,
+      "loss": 0.6197,
+      "step": 2685
+    },
+    {
+      "epoch": 8.6,
+      "grad_norm": 21.540132522583008,
+      "learning_rate": 1.4012738853503185e-06,
+      "loss": 0.5058,
+      "step": 2700
+    },
+    {
+      "epoch": 8.6,
+      "eval_accuracy": 0.7866666666666666,
+      "eval_loss": 0.6453108787536621,
+      "eval_runtime": 13.9306,
+      "eval_samples_per_second": 75.373,
+      "eval_steps_per_second": 9.476,
+      "step": 2700
+    },
+    {
+      "epoch": 8.65,
+      "grad_norm": 17.211627960205078,
+      "learning_rate": 1.353503184713376e-06,
+      "loss": 0.6111,
+      "step": 2715
+    },
+    {
+      "epoch": 8.69,
+      "grad_norm": 12.991823196411133,
+      "learning_rate": 1.3057324840764332e-06,
+      "loss": 0.4392,
+      "step": 2730
+    },
+    {
+      "epoch": 8.74,
+      "grad_norm": 10.215910911560059,
+      "learning_rate": 1.2579617834394905e-06,
+      "loss": 0.5505,
+      "step": 2745
+    },
+    {
+      "epoch": 8.79,
+      "grad_norm": 16.872520446777344,
+      "learning_rate": 1.210191082802548e-06,
+      "loss": 0.4304,
+      "step": 2760
+    },
+    {
+      "epoch": 8.84,
+      "grad_norm": 14.673178672790527,
+      "learning_rate": 1.1624203821656052e-06,
+      "loss": 0.4886,
+      "step": 2775
+    },
+    {
+      "epoch": 8.89,
+      "grad_norm": 17.11809730529785,
+      "learning_rate": 1.1146496815286625e-06,
+      "loss": 0.4754,
+      "step": 2790
+    },
+    {
+      "epoch": 8.92,
+      "eval_accuracy": 0.7904761904761904,
+      "eval_loss": 0.6414105296134949,
+      "eval_runtime": 13.6725,
+      "eval_samples_per_second": 76.797,
+      "eval_steps_per_second": 9.654,
+      "step": 2800
+    },
+    {
+      "epoch": 8.93,
+      "grad_norm": 10.194275856018066,
+      "learning_rate": 1.06687898089172e-06,
+      "loss": 0.5041,
+      "step": 2805
+    },
+    {
+      "epoch": 8.98,
+      "grad_norm": 24.478836059570312,
+      "learning_rate": 1.0191082802547772e-06,
+      "loss": 0.5016,
+      "step": 2820
+    },
+    {
+      "epoch": 9.03,
+      "grad_norm": 16.150724411010742,
+      "learning_rate": 9.713375796178345e-07,
+      "loss": 0.486,
+      "step": 2835
+    },
+    {
+      "epoch": 9.08,
+      "grad_norm": 15.390515327453613,
+      "learning_rate": 9.235668789808917e-07,
+      "loss": 0.5024,
+      "step": 2850
+    },
+    {
+      "epoch": 9.12,
+      "grad_norm": 20.307998657226562,
+      "learning_rate": 8.757961783439491e-07,
+      "loss": 0.4982,
+      "step": 2865
+    },
+    {
+      "epoch": 9.17,
+      "grad_norm": 18.18573760986328,
+      "learning_rate": 8.280254777070064e-07,
+      "loss": 0.5054,
+      "step": 2880
+    },
+    {
+      "epoch": 9.22,
+      "grad_norm": 15.57632827758789,
+      "learning_rate": 7.802547770700637e-07,
+      "loss": 0.4637,
+      "step": 2895
+    },
+    {
+      "epoch": 9.24,
+      "eval_accuracy": 0.7904761904761904,
+      "eval_loss": 0.6329751014709473,
+      "eval_runtime": 13.6535,
+      "eval_samples_per_second": 76.904,
+      "eval_steps_per_second": 9.668,
+      "step": 2900
+    },
+    {
+      "epoch": 9.27,
+      "grad_norm": 11.808470726013184,
+      "learning_rate": 7.324840764331211e-07,
+      "loss": 0.5804,
+      "step": 2910
+    },
+    {
+      "epoch": 9.32,
+      "grad_norm": 19.781538009643555,
+      "learning_rate": 6.847133757961784e-07,
+      "loss": 0.5309,
+      "step": 2925
+    },
+    {
+      "epoch": 9.36,
+      "grad_norm": 15.966341972351074,
+      "learning_rate": 6.369426751592357e-07,
+      "loss": 0.536,
+      "step": 2940
+    },
+    {
+      "epoch": 9.41,
+      "grad_norm": 11.989510536193848,
+      "learning_rate": 5.89171974522293e-07,
+      "loss": 0.4474,
+      "step": 2955
+    },
+    {
+      "epoch": 9.46,
+      "grad_norm": 13.803847312927246,
+      "learning_rate": 5.414012738853504e-07,
+      "loss": 0.4868,
+      "step": 2970
+    },
+    {
+      "epoch": 9.51,
+      "grad_norm": 16.266407012939453,
+      "learning_rate": 4.936305732484077e-07,
+      "loss": 0.4453,
+      "step": 2985
+    },
+    {
+      "epoch": 9.55,
+      "grad_norm": 17.96660804748535,
+      "learning_rate": 4.45859872611465e-07,
+      "loss": 0.5028,
+      "step": 3000
+    },
+    {
+      "epoch": 9.55,
+      "eval_accuracy": 0.7857142857142857,
+      "eval_loss": 0.641762375831604,
+      "eval_runtime": 13.8591,
+      "eval_samples_per_second": 75.763,
+      "eval_steps_per_second": 9.524,
+      "step": 3000
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 15.89122200012207,
+      "learning_rate": 3.980891719745223e-07,
+      "loss": 0.4376,
+      "step": 3015
+    },
+    {
+      "epoch": 9.65,
+      "grad_norm": 18.61841583251953,
+      "learning_rate": 3.503184713375796e-07,
+      "loss": 0.3695,
+      "step": 3030
+    },
+    {
+      "epoch": 9.7,
+      "grad_norm": 19.915699005126953,
+      "learning_rate": 3.02547770700637e-07,
+      "loss": 0.4777,
+      "step": 3045
+    },
+    {
+      "epoch": 9.75,
+      "grad_norm": 22.503381729125977,
+      "learning_rate": 2.547770700636943e-07,
+      "loss": 0.6298,
+      "step": 3060
+    },
+    {
+      "epoch": 9.79,
+      "grad_norm": 16.984233856201172,
+      "learning_rate": 2.070063694267516e-07,
+      "loss": 0.4051,
+      "step": 3075
+    },
+    {
+      "epoch": 9.84,
+      "grad_norm": 19.879077911376953,
+      "learning_rate": 1.5923566878980893e-07,
+      "loss": 0.4227,
+      "step": 3090
+    },
+    {
+      "epoch": 9.87,
+      "eval_accuracy": 0.7914285714285715,
+      "eval_loss": 0.6412155628204346,
+      "eval_runtime": 13.7603,
+      "eval_samples_per_second": 76.307,
+      "eval_steps_per_second": 9.593,
+      "step": 3100
+    },
+    {
+      "epoch": 9.89,
+      "grad_norm": 18.370866775512695,
+      "learning_rate": 1.1146496815286625e-07,
+      "loss": 0.4079,
+      "step": 3105
+    },
+    {
+      "epoch": 9.94,
+      "grad_norm": 13.279521942138672,
+      "learning_rate": 6.369426751592358e-08,
+      "loss": 0.4035,
+      "step": 3120
+    },
+    {
+      "epoch": 9.98,
+      "grad_norm": 16.93092155456543,
+      "learning_rate": 1.5923566878980894e-08,
+      "loss": 0.4605,
+      "step": 3135
+    },
+    {
+      "epoch": 10.0,
+      "step": 3140,
+      "total_flos": 3.265548125287219e+18,
+      "train_loss": 0.7155859537944672,
+      "train_runtime": 2626.1064,
+      "train_samples_per_second": 38.212,
+      "train_steps_per_second": 1.196
+    }
+  ],
+  "logging_steps": 15,
+  "max_steps": 3140,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 100,
+  "total_flos": 3.265548125287219e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}