End of training

Browse files

Files changed (6) hide show

README.md +14 -2
all_results.json +15 -0
eval_results.json +10 -0
runs/Feb13_15-51-03_phyl-ling-p01.la.utexas.edu/events.out.tfevents.1707942558.phyl-ling-p01.la.utexas.edu.3644085.1 +3 -0
train_results.json +8 -0
trainer_state.json +2436 -0

README.md CHANGED Viewed

@@ -1,11 +1,23 @@
 ---
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: smolm-autoreg-bpe-counterfactual-babylm-only_other_det_removal-seed_1024-1e-3
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -13,7 +25,7 @@ should probably proofread and complete it, then remove this comment. -->
 # smolm-autoreg-bpe-counterfactual-babylm-only_other_det_removal-seed_1024-1e-3
-This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 3.4160
 - Accuracy: 0.4105

 ---
 tags:
 - generated_from_trainer
+datasets:
+- kanishka/counterfactual-babylm-only_other_det_removal
 metrics:
 - accuracy
 model-index:
 - name: smolm-autoreg-bpe-counterfactual-babylm-only_other_det_removal-seed_1024-1e-3
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: kanishka/counterfactual-babylm-only_other_det_removal
+      type: kanishka/counterfactual-babylm-only_other_det_removal
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.4105017384701812
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # smolm-autoreg-bpe-counterfactual-babylm-only_other_det_removal-seed_1024-1e-3
+This model was trained from scratch on the kanishka/counterfactual-babylm-only_other_det_removal dataset.
 It achieves the following results on the evaluation set:
 - Loss: 3.4160
 - Accuracy: 0.4105

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 20.0,
+    "eval_accuracy": 0.4105017384701812,
+    "eval_loss": 3.4159886837005615,
+    "eval_runtime": 153.5255,
+    "eval_samples": 57918,
+    "eval_samples_per_second": 377.253,
+    "eval_steps_per_second": 5.895,
+    "perplexity": 30.447037040800552,
+    "train_loss": 3.0285144362634515,
+    "train_runtime": 80952.4121,
+    "train_samples": 595074,
+    "train_samples_per_second": 147.018,
+    "train_steps_per_second": 4.595
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 20.0,
+    "eval_accuracy": 0.4105017384701812,
+    "eval_loss": 3.4159886837005615,
+    "eval_runtime": 153.5255,
+    "eval_samples": 57918,
+    "eval_samples_per_second": 377.253,
+    "eval_steps_per_second": 5.895,
+    "perplexity": 30.447037040800552
+}

runs/Feb13_15-51-03_phyl-ling-p01.la.utexas.edu/events.out.tfevents.1707942558.phyl-ling-p01.la.utexas.edu.3644085.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04cab1800247a38d4be26c8342ac2374b3a5105c44833e49bc9f212d9c945a8e
+size 417

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 20.0,
+    "train_loss": 3.0285144362634515,
+    "train_runtime": 80952.4121,
+    "train_samples": 595074,
+    "train_samples_per_second": 147.018,
+    "train_steps_per_second": 4.595
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2436 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 20.0,
+  "eval_steps": 500,
+  "global_step": 371940,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05,
+      "learning_rate": 3.125e-05,
+      "loss": 6.2254,
+      "step": 1000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 6.25e-05,
+      "loss": 5.0134,
+      "step": 2000
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 9.375e-05,
+      "loss": 4.6799,
+      "step": 3000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.000125,
+      "loss": 4.451,
+      "step": 4000
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00015625,
+      "loss": 4.2975,
+      "step": 5000
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001875,
+      "loss": 4.1773,
+      "step": 6000
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00021875,
+      "loss": 4.0771,
+      "step": 7000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00025,
+      "loss": 3.9871,
+      "step": 8000
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00028125000000000003,
+      "loss": 3.9086,
+      "step": 9000
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00031246875000000003,
+      "loss": 3.8539,
+      "step": 10000
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00034371875,
+      "loss": 3.8052,
+      "step": 11000
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0003749375,
+      "loss": 3.7716,
+      "step": 12000
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0004061875,
+      "loss": 3.7357,
+      "step": 13000
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0004374375,
+      "loss": 3.7019,
+      "step": 14000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0004686875,
+      "loss": 3.6771,
+      "step": 15000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00049990625,
+      "loss": 3.6504,
+      "step": 16000
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00053115625,
+      "loss": 3.6225,
+      "step": 17000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0005623749999999999,
+      "loss": 3.6007,
+      "step": 18000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.35754084366962924,
+      "eval_loss": 3.8013880252838135,
+      "eval_runtime": 153.3144,
+      "eval_samples_per_second": 377.773,
+      "eval_steps_per_second": 5.903,
+      "step": 18597
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.000593625,
+      "loss": 3.5773,
+      "step": 19000
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0006248437500000001,
+      "loss": 3.5497,
+      "step": 20000
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00065609375,
+      "loss": 3.5399,
+      "step": 21000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00068734375,
+      "loss": 3.5312,
+      "step": 22000
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00071859375,
+      "loss": 3.5173,
+      "step": 23000
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00074978125,
+      "loss": 3.507,
+      "step": 24000
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0007810312499999999,
+      "loss": 3.5022,
+      "step": 25000
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00081228125,
+      "loss": 3.4892,
+      "step": 26000
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00084353125,
+      "loss": 3.4824,
+      "step": 27000
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00087478125,
+      "loss": 3.473,
+      "step": 28000
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0009060312499999999,
+      "loss": 3.4611,
+      "step": 29000
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.00093721875,
+      "loss": 3.4547,
+      "step": 30000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00096846875,
+      "loss": 3.4483,
+      "step": 31000
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00099971875,
+      "loss": 3.4426,
+      "step": 32000
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.000997084779667,
+      "loss": 3.4283,
+      "step": 33000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00099414308407366,
+      "loss": 3.4177,
+      "step": 34000
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0009912043301759134,
+      "loss": 3.3997,
+      "step": 35000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0009882626345825733,
+      "loss": 3.3947,
+      "step": 36000
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0009853238806848267,
+      "loss": 3.3846,
+      "step": 37000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.3796331268291156,
+      "eval_loss": 3.588094472885132,
+      "eval_runtime": 154.7772,
+      "eval_samples_per_second": 374.202,
+      "eval_steps_per_second": 5.847,
+      "step": 37194
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.0009823821850914868,
+      "loss": 3.3371,
+      "step": 38000
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.0009794434311937402,
+      "loss": 3.3269,
+      "step": 39000
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.0009765017356004001,
+      "loss": 3.3242,
+      "step": 40000
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.0009735600400070601,
+      "loss": 3.3202,
+      "step": 41000
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.0009706183444137201,
+      "loss": 3.3186,
+      "step": 42000
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 0.0009676795905159734,
+      "loss": 3.3127,
+      "step": 43000
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.0009647408366182268,
+      "loss": 3.3096,
+      "step": 44000
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.0009618020827204801,
+      "loss": 3.306,
+      "step": 45000
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.0009588603871271401,
+      "loss": 3.3025,
+      "step": 46000
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.0009559186915338001,
+      "loss": 3.293,
+      "step": 47000
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.00095297699594046,
+      "loss": 3.287,
+      "step": 48000
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.00095003530034712,
+      "loss": 3.2871,
+      "step": 49000
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.0009470936047537801,
+      "loss": 3.2781,
+      "step": 50000
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.0009441519091604401,
+      "loss": 3.2742,
+      "step": 51000
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.0009412160969582868,
+      "loss": 3.2701,
+      "step": 52000
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.0009382744013649468,
+      "loss": 3.2641,
+      "step": 53000
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.0009353327057716068,
+      "loss": 3.2633,
+      "step": 54000
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 0.0009323939518738601,
+      "loss": 3.2609,
+      "step": 55000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.3917509566389514,
+      "eval_loss": 3.485461950302124,
+      "eval_runtime": 154.6661,
+      "eval_samples_per_second": 374.471,
+      "eval_steps_per_second": 5.851,
+      "step": 55791
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 0.0009294551979761134,
+      "loss": 3.2395,
+      "step": 56000
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 0.0009265135023827734,
+      "loss": 3.1938,
+      "step": 57000
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 0.0009235718067894334,
+      "loss": 3.193,
+      "step": 58000
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 0.0009206301111960934,
+      "loss": 3.2,
+      "step": 59000
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 0.0009176884156027534,
+      "loss": 3.1965,
+      "step": 60000
+    },
+    {
+      "epoch": 3.28,
+      "learning_rate": 0.0009147496617050067,
+      "loss": 3.2007,
+      "step": 61000
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 0.0009118079661116668,
+      "loss": 3.1974,
+      "step": 62000
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 0.0009088692122139201,
+      "loss": 3.1953,
+      "step": 63000
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 0.0009059275166205801,
+      "loss": 3.1971,
+      "step": 64000
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 0.0009029887627228334,
+      "loss": 3.1938,
+      "step": 65000
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 0.0009000470671294934,
+      "loss": 3.1945,
+      "step": 66000
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 0.0008971053715361534,
+      "loss": 3.187,
+      "step": 67000
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 0.0008941666176384068,
+      "loss": 3.1905,
+      "step": 68000
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 0.0008912249220450667,
+      "loss": 3.1854,
+      "step": 69000
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 0.0008882861681473201,
+      "loss": 3.1869,
+      "step": 70000
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 0.0008853444725539801,
+      "loss": 3.1843,
+      "step": 71000
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 0.00088240277696064,
+      "loss": 3.1856,
+      "step": 72000
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 0.0008794610813673,
+      "loss": 3.1813,
+      "step": 73000
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 0.0008765193857739602,
+      "loss": 3.1804,
+      "step": 74000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.39793150466451765,
+      "eval_loss": 3.4168379306793213,
+      "eval_runtime": 153.6104,
+      "eval_samples_per_second": 377.045,
+      "eval_steps_per_second": 5.892,
+      "step": 74388
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 0.0008735776901806202,
+      "loss": 3.1378,
+      "step": 75000
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 0.0008706389362828735,
+      "loss": 3.1173,
+      "step": 76000
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 0.0008676972406895335,
+      "loss": 3.1188,
+      "step": 77000
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 0.0008647584867917868,
+      "loss": 3.1194,
+      "step": 78000
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 0.0008618167911984468,
+      "loss": 3.1262,
+      "step": 79000
+    },
+    {
+      "epoch": 4.3,
+      "learning_rate": 0.0008588780373007002,
+      "loss": 3.1217,
+      "step": 80000
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 0.0008559363417073602,
+      "loss": 3.1252,
+      "step": 81000
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 0.0008529946461140201,
+      "loss": 3.127,
+      "step": 82000
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 0.0008500558922162735,
+      "loss": 3.1241,
+      "step": 83000
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 0.0008471141966229335,
+      "loss": 3.1255,
+      "step": 84000
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 0.0008441725010295934,
+      "loss": 3.1226,
+      "step": 85000
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 0.0008412337471318469,
+      "loss": 3.1253,
+      "step": 86000
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 0.0008382920515385069,
+      "loss": 3.1295,
+      "step": 87000
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 0.0008353503559451668,
+      "loss": 3.1267,
+      "step": 88000
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 0.0008324086603518268,
+      "loss": 3.1301,
+      "step": 89000
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 0.0008294699064540802,
+      "loss": 3.1273,
+      "step": 90000
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 0.0008265282108607401,
+      "loss": 3.1302,
+      "step": 91000
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 0.0008235865152674001,
+      "loss": 3.1278,
+      "step": 92000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.40176383812724364,
+      "eval_loss": 3.4013097286224365,
+      "eval_runtime": 153.4025,
+      "eval_samples_per_second": 377.556,
+      "eval_steps_per_second": 5.9,
+      "step": 92985
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 0.0008206448196740601,
+      "loss": 3.1285,
+      "step": 93000
+    },
+    {
+      "epoch": 5.05,
+      "learning_rate": 0.0008177090074719068,
+      "loss": 3.0587,
+      "step": 94000
+    },
+    {
+      "epoch": 5.11,
+      "learning_rate": 0.0008147673118785668,
+      "loss": 3.057,
+      "step": 95000
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 0.0008118285579808201,
+      "loss": 3.0675,
+      "step": 96000
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 0.0008088868623874802,
+      "loss": 3.0706,
+      "step": 97000
+    },
+    {
+      "epoch": 5.27,
+      "learning_rate": 0.0008059451667941402,
+      "loss": 3.0749,
+      "step": 98000
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 0.0008030034712008002,
+      "loss": 3.0757,
+      "step": 99000
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 0.0008000647173030535,
+      "loss": 3.0746,
+      "step": 100000
+    },
+    {
+      "epoch": 5.43,
+      "learning_rate": 0.0007971230217097135,
+      "loss": 3.0741,
+      "step": 101000
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 0.0007941842678119668,
+      "loss": 3.0771,
+      "step": 102000
+    },
+    {
+      "epoch": 5.54,
+      "learning_rate": 0.0007912425722186268,
+      "loss": 3.0847,
+      "step": 103000
+    },
+    {
+      "epoch": 5.59,
+      "learning_rate": 0.0007883008766252868,
+      "loss": 3.0778,
+      "step": 104000
+    },
+    {
+      "epoch": 5.65,
+      "learning_rate": 0.0007853591810319468,
+      "loss": 3.0769,
+      "step": 105000
+    },
+    {
+      "epoch": 5.7,
+      "learning_rate": 0.0007824204271342001,
+      "loss": 3.0807,
+      "step": 106000
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 0.0007794787315408601,
+      "loss": 3.0815,
+      "step": 107000
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 0.0007765370359475201,
+      "loss": 3.0814,
+      "step": 108000
+    },
+    {
+      "epoch": 5.86,
+      "learning_rate": 0.0007735982820497735,
+      "loss": 3.0802,
+      "step": 109000
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 0.0007706565864564335,
+      "loss": 3.0826,
+      "step": 110000
+    },
+    {
+      "epoch": 5.97,
+      "learning_rate": 0.0007677148908630935,
+      "loss": 3.081,
+      "step": 111000
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.40407207936404926,
+      "eval_loss": 3.368320941925049,
+      "eval_runtime": 153.757,
+      "eval_samples_per_second": 376.685,
+      "eval_steps_per_second": 5.886,
+      "step": 111582
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 0.0007647761369653468,
+      "loss": 3.0503,
+      "step": 112000
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 0.0007618344413720068,
+      "loss": 3.0107,
+      "step": 113000
+    },
+    {
+      "epoch": 6.13,
+      "learning_rate": 0.0007588956874742602,
+      "loss": 3.0234,
+      "step": 114000
+    },
+    {
+      "epoch": 6.18,
+      "learning_rate": 0.0007559539918809201,
+      "loss": 3.0241,
+      "step": 115000
+    },
+    {
+      "epoch": 6.24,
+      "learning_rate": 0.0007530122962875801,
+      "loss": 3.0282,
+      "step": 116000
+    },
+    {
+      "epoch": 6.29,
+      "learning_rate": 0.0007500706006942402,
+      "loss": 3.0312,
+      "step": 117000
+    },
+    {
+      "epoch": 6.35,
+      "learning_rate": 0.0007471318467964934,
+      "loss": 3.0378,
+      "step": 118000
+    },
+    {
+      "epoch": 6.4,
+      "learning_rate": 0.0007441901512031534,
+      "loss": 3.0364,
+      "step": 119000
+    },
+    {
+      "epoch": 6.45,
+      "learning_rate": 0.0007412484556098135,
+      "loss": 3.0349,
+      "step": 120000
+    },
+    {
+      "epoch": 6.51,
+      "learning_rate": 0.0007383067600164735,
+      "loss": 3.0362,
+      "step": 121000
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 0.0007353650644231336,
+      "loss": 3.0421,
+      "step": 122000
+    },
+    {
+      "epoch": 6.61,
+      "learning_rate": 0.0007324263105253869,
+      "loss": 3.0375,
+      "step": 123000
+    },
+    {
+      "epoch": 6.67,
+      "learning_rate": 0.0007294846149320469,
+      "loss": 3.0418,
+      "step": 124000
+    },
+    {
+      "epoch": 6.72,
+      "learning_rate": 0.0007265458610343002,
+      "loss": 3.0449,
+      "step": 125000
+    },
+    {
+      "epoch": 6.78,
+      "learning_rate": 0.0007236041654409602,
+      "loss": 3.043,
+      "step": 126000
+    },
+    {
+      "epoch": 6.83,
+      "learning_rate": 0.0007206654115432136,
+      "loss": 3.046,
+      "step": 127000
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 0.0007177237159498735,
+      "loss": 3.0436,
+      "step": 128000
+    },
+    {
+      "epoch": 6.94,
+      "learning_rate": 0.0007147820203565335,
+      "loss": 3.0449,
+      "step": 129000
+    },
+    {
+      "epoch": 6.99,
+      "learning_rate": 0.0007118432664587869,
+      "loss": 3.0471,
+      "step": 130000
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.40550621481087645,
+      "eval_loss": 3.37727427482605,
+      "eval_runtime": 153.6375,
+      "eval_samples_per_second": 376.978,
+      "eval_steps_per_second": 5.89,
+      "step": 130179
+    },
+    {
+      "epoch": 7.04,
+      "learning_rate": 0.0007089015708654468,
+      "loss": 2.9884,
+      "step": 131000
+    },
+    {
+      "epoch": 7.1,
+      "learning_rate": 0.0007059598752721068,
+      "loss": 2.9784,
+      "step": 132000
+    },
+    {
+      "epoch": 7.15,
+      "learning_rate": 0.0007030181796787668,
+      "loss": 2.9872,
+      "step": 133000
+    },
+    {
+      "epoch": 7.21,
+      "learning_rate": 0.0007000794257810203,
+      "loss": 2.989,
+      "step": 134000
+    },
+    {
+      "epoch": 7.26,
+      "learning_rate": 0.0006971377301876802,
+      "loss": 2.9937,
+      "step": 135000
+    },
+    {
+      "epoch": 7.31,
+      "learning_rate": 0.0006941960345943402,
+      "loss": 2.9971,
+      "step": 136000
+    },
+    {
+      "epoch": 7.37,
+      "learning_rate": 0.0006912572806965936,
+      "loss": 3.0051,
+      "step": 137000
+    },
+    {
+      "epoch": 7.42,
+      "learning_rate": 0.0006883155851032535,
+      "loss": 3.0025,
+      "step": 138000
+    },
+    {
+      "epoch": 7.47,
+      "learning_rate": 0.0006853738895099135,
+      "loss": 3.0062,
+      "step": 139000
+    },
+    {
+      "epoch": 7.53,
+      "learning_rate": 0.0006824351356121669,
+      "loss": 3.0073,
+      "step": 140000
+    },
+    {
+      "epoch": 7.58,
+      "learning_rate": 0.0006794934400188268,
+      "loss": 3.0039,
+      "step": 141000
+    },
+    {
+      "epoch": 7.64,
+      "learning_rate": 0.0006765546861210802,
+      "loss": 3.0077,
+      "step": 142000
+    },
+    {
+      "epoch": 7.69,
+      "learning_rate": 0.0006736129905277402,
+      "loss": 3.0125,
+      "step": 143000
+    },
+    {
+      "epoch": 7.74,
+      "learning_rate": 0.0006706712949344001,
+      "loss": 3.0095,
+      "step": 144000
+    },
+    {
+      "epoch": 7.8,
+      "learning_rate": 0.0006677295993410602,
+      "loss": 3.0114,
+      "step": 145000
+    },
+    {
+      "epoch": 7.85,
+      "learning_rate": 0.0006647879037477202,
+      "loss": 3.0119,
+      "step": 146000
+    },
+    {
+      "epoch": 7.9,
+      "learning_rate": 0.0006618520915455669,
+      "loss": 3.0143,
+      "step": 147000
+    },
+    {
+      "epoch": 7.96,
+      "learning_rate": 0.0006589103959522269,
+      "loss": 3.0189,
+      "step": 148000
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.40692449529141095,
+      "eval_loss": 3.3797011375427246,
+      "eval_runtime": 153.2495,
+      "eval_samples_per_second": 377.933,
+      "eval_steps_per_second": 5.905,
+      "step": 148776
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 0.0006559716420544802,
+      "loss": 2.9995,
+      "step": 149000
+    },
+    {
+      "epoch": 8.07,
+      "learning_rate": 0.0006530299464611402,
+      "loss": 2.9473,
+      "step": 150000
+    },
+    {
+      "epoch": 8.12,
+      "learning_rate": 0.0006500882508678002,
+      "loss": 2.9537,
+      "step": 151000
+    },
+    {
+      "epoch": 8.17,
+      "learning_rate": 0.0006471465552744602,
+      "loss": 2.9582,
+      "step": 152000
+    },
+    {
+      "epoch": 8.23,
+      "learning_rate": 0.0006442048596811202,
+      "loss": 2.9636,
+      "step": 153000
+    },
+    {
+      "epoch": 8.28,
+      "learning_rate": 0.0006412661057833735,
+      "loss": 2.9631,
+      "step": 154000
+    },
+    {
+      "epoch": 8.33,
+      "learning_rate": 0.0006383244101900335,
+      "loss": 2.9673,
+      "step": 155000
+    },
+    {
+      "epoch": 8.39,
+      "learning_rate": 0.0006353827145966935,
+      "loss": 2.973,
+      "step": 156000
+    },
+    {
+      "epoch": 8.44,
+      "learning_rate": 0.0006324439606989469,
+      "loss": 2.9766,
+      "step": 157000
+    },
+    {
+      "epoch": 8.5,
+      "learning_rate": 0.000629502265105607,
+      "loss": 2.9769,
+      "step": 158000
+    },
+    {
+      "epoch": 8.55,
+      "learning_rate": 0.0006265635112078602,
+      "loss": 2.9736,
+      "step": 159000
+    },
+    {
+      "epoch": 8.6,
+      "learning_rate": 0.0006236218156145202,
+      "loss": 2.9806,
+      "step": 160000
+    },
+    {
+      "epoch": 8.66,
+      "learning_rate": 0.0006206801200211803,
+      "loss": 2.9819,
+      "step": 161000
+    },
+    {
+      "epoch": 8.71,
+      "learning_rate": 0.0006177413661234335,
+      "loss": 2.9824,
+      "step": 162000
+    },
+    {
+      "epoch": 8.76,
+      "learning_rate": 0.0006147996705300935,
+      "loss": 2.9817,
+      "step": 163000
+    },
+    {
+      "epoch": 8.82,
+      "learning_rate": 0.0006118579749367536,
+      "loss": 2.9847,
+      "step": 164000
+    },
+    {
+      "epoch": 8.87,
+      "learning_rate": 0.0006089162793434136,
+      "loss": 2.9835,
+      "step": 165000
+    },
+    {
+      "epoch": 8.93,
+      "learning_rate": 0.0006059775254456669,
+      "loss": 2.9842,
+      "step": 166000
+    },
+    {
+      "epoch": 8.98,
+      "learning_rate": 0.0006030387715479202,
+      "loss": 2.988,
+      "step": 167000
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.407412774507579,
+      "eval_loss": 3.3715906143188477,
+      "eval_runtime": 153.741,
+      "eval_samples_per_second": 376.725,
+      "eval_steps_per_second": 5.887,
+      "step": 167373
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 0.0006000970759545801,
+      "loss": 2.9441,
+      "step": 168000
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 0.0005971553803612403,
+      "loss": 2.9261,
+      "step": 169000
+    },
+    {
+      "epoch": 9.14,
+      "learning_rate": 0.0005942136847679003,
+      "loss": 2.9335,
+      "step": 170000
+    },
+    {
+      "epoch": 9.2,
+      "learning_rate": 0.000591277872565747,
+      "loss": 2.931,
+      "step": 171000
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 0.000588336176972407,
+      "loss": 2.9367,
+      "step": 172000
+    },
+    {
+      "epoch": 9.3,
+      "learning_rate": 0.0005853974230746602,
+      "loss": 2.939,
+      "step": 173000
+    },
+    {
+      "epoch": 9.36,
+      "learning_rate": 0.0005824557274813203,
+      "loss": 2.9395,
+      "step": 174000
+    },
+    {
+      "epoch": 9.41,
+      "learning_rate": 0.0005795140318879803,
+      "loss": 2.9456,
+      "step": 175000
+    },
+    {
+      "epoch": 9.46,
+      "learning_rate": 0.0005765752779902335,
+      "loss": 2.9499,
+      "step": 176000
+    },
+    {
+      "epoch": 9.52,
+      "learning_rate": 0.0005736335823968936,
+      "loss": 2.9482,
+      "step": 177000
+    },
+    {
+      "epoch": 9.57,
+      "learning_rate": 0.0005706918868035536,
+      "loss": 2.9467,
+      "step": 178000
+    },
+    {
+      "epoch": 9.63,
+      "learning_rate": 0.0005677501912102136,
+      "loss": 2.9564,
+      "step": 179000
+    },
+    {
+      "epoch": 9.68,
+      "learning_rate": 0.0005648114373124669,
+      "loss": 2.9575,
+      "step": 180000
+    },
+    {
+      "epoch": 9.73,
+      "learning_rate": 0.000561869741719127,
+      "loss": 2.9547,
+      "step": 181000
+    },
+    {
+      "epoch": 9.79,
+      "learning_rate": 0.0005589309878213803,
+      "loss": 2.9597,
+      "step": 182000
+    },
+    {
+      "epoch": 9.84,
+      "learning_rate": 0.0005559892922280403,
+      "loss": 2.9581,
+      "step": 183000
+    },
+    {
+      "epoch": 9.89,
+      "learning_rate": 0.0005530505383302937,
+      "loss": 2.9574,
+      "step": 184000
+    },
+    {
+      "epoch": 9.95,
+      "learning_rate": 0.0005501088427369536,
+      "loss": 2.9624,
+      "step": 185000
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.40880693662837153,
+      "eval_loss": 3.3674724102020264,
+      "eval_runtime": 153.3789,
+      "eval_samples_per_second": 377.614,
+      "eval_steps_per_second": 5.9,
+      "step": 185970
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 0.0005471671471436136,
+      "loss": 2.9589,
+      "step": 186000
+    },
+    {
+      "epoch": 10.06,
+      "learning_rate": 0.000544228393245867,
+      "loss": 2.8951,
+      "step": 187000
+    },
+    {
+      "epoch": 10.11,
+      "learning_rate": 0.0005412866976525269,
+      "loss": 2.8967,
+      "step": 188000
+    },
+    {
+      "epoch": 10.16,
+      "learning_rate": 0.0005383479437547803,
+      "loss": 2.91,
+      "step": 189000
+    },
+    {
+      "epoch": 10.22,
+      "learning_rate": 0.0005354062481614403,
+      "loss": 2.9115,
+      "step": 190000
+    },
+    {
+      "epoch": 10.27,
+      "learning_rate": 0.0005324645525681002,
+      "loss": 2.9179,
+      "step": 191000
+    },
+    {
+      "epoch": 10.32,
+      "learning_rate": 0.0005295228569747602,
+      "loss": 2.9168,
+      "step": 192000
+    },
+    {
+      "epoch": 10.38,
+      "learning_rate": 0.0005265841030770137,
+      "loss": 2.9221,
+      "step": 193000
+    },
+    {
+      "epoch": 10.43,
+      "learning_rate": 0.0005236424074836736,
+      "loss": 2.921,
+      "step": 194000
+    },
+    {
+      "epoch": 10.49,
+      "learning_rate": 0.0005207007118903336,
+      "loss": 2.9265,
+      "step": 195000
+    },
+    {
+      "epoch": 10.54,
+      "learning_rate": 0.0005177590162969936,
+      "loss": 2.9287,
+      "step": 196000
+    },
+    {
+      "epoch": 10.59,
+      "learning_rate": 0.0005148173207036536,
+      "loss": 2.9235,
+      "step": 197000
+    },
+    {
+      "epoch": 10.65,
+      "learning_rate": 0.0005118785668059069,
+      "loss": 2.9315,
+      "step": 198000
+    },
+    {
+      "epoch": 10.7,
+      "learning_rate": 0.0005089368712125669,
+      "loss": 2.932,
+      "step": 199000
+    },
+    {
+      "epoch": 10.75,
+      "learning_rate": 0.0005059951756192269,
+      "loss": 2.9313,
+      "step": 200000
+    },
+    {
+      "epoch": 10.81,
+      "learning_rate": 0.0005030564217214802,
+      "loss": 2.9334,
+      "step": 201000
+    },
+    {
+      "epoch": 10.86,
+      "learning_rate": 0.0005001147261281402,
+      "loss": 2.9353,
+      "step": 202000
+    },
+    {
+      "epoch": 10.92,
+      "learning_rate": 0.0004971759722303936,
+      "loss": 2.9394,
+      "step": 203000
+    },
+    {
+      "epoch": 10.97,
+      "learning_rate": 0.0004942342766370536,
+      "loss": 2.9372,
+      "step": 204000
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.4092924613800566,
+      "eval_loss": 3.380319833755493,
+      "eval_runtime": 153.5202,
+      "eval_samples_per_second": 377.266,
+      "eval_steps_per_second": 5.895,
+      "step": 204567
+    },
+    {
+      "epoch": 11.02,
+      "learning_rate": 0.0004912925810437136,
+      "loss": 2.9097,
+      "step": 205000
+    },
+    {
+      "epoch": 11.08,
+      "learning_rate": 0.0004883508854503736,
+      "loss": 2.8726,
+      "step": 206000
+    },
+    {
+      "epoch": 11.13,
+      "learning_rate": 0.0004854121315526269,
+      "loss": 2.8822,
+      "step": 207000
+    },
+    {
+      "epoch": 11.18,
+      "learning_rate": 0.000482470435959287,
+      "loss": 2.8869,
+      "step": 208000
+    },
+    {
+      "epoch": 11.24,
+      "learning_rate": 0.0004795316820615403,
+      "loss": 2.8941,
+      "step": 209000
+    },
+    {
+      "epoch": 11.29,
+      "learning_rate": 0.0004765899864682003,
+      "loss": 2.8941,
+      "step": 210000
+    },
+    {
+      "epoch": 11.35,
+      "learning_rate": 0.00047365123257045363,
+      "loss": 2.8982,
+      "step": 211000
+    },
+    {
+      "epoch": 11.4,
+      "learning_rate": 0.0004707095369771136,
+      "loss": 2.8989,
+      "step": 212000
+    },
+    {
+      "epoch": 11.45,
+      "learning_rate": 0.0004677678413837736,
+      "loss": 2.8991,
+      "step": 213000
+    },
+    {
+      "epoch": 11.51,
+      "learning_rate": 0.00046482614579043365,
+      "loss": 2.9031,
+      "step": 214000
+    },
+    {
+      "epoch": 11.56,
+      "learning_rate": 0.000461887391892687,
+      "loss": 2.9019,
+      "step": 215000
+    },
+    {
+      "epoch": 11.61,
+      "learning_rate": 0.00045894569629934695,
+      "loss": 2.9074,
+      "step": 216000
+    },
+    {
+      "epoch": 11.67,
+      "learning_rate": 0.0004560069424016003,
+      "loss": 2.9136,
+      "step": 217000
+    },
+    {
+      "epoch": 11.72,
+      "learning_rate": 0.0004530652468082603,
+      "loss": 2.9074,
+      "step": 218000
+    },
+    {
+      "epoch": 11.78,
+      "learning_rate": 0.0004501264929105136,
+      "loss": 2.9095,
+      "step": 219000
+    },
+    {
+      "epoch": 11.83,
+      "learning_rate": 0.00044718479731717365,
+      "loss": 2.9066,
+      "step": 220000
+    },
+    {
+      "epoch": 11.88,
+      "learning_rate": 0.00044424310172383366,
+      "loss": 2.9143,
+      "step": 221000
+    },
+    {
+      "epoch": 11.94,
+      "learning_rate": 0.0004413014061304936,
+      "loss": 2.9137,
+      "step": 222000
+    },
+    {
+      "epoch": 11.99,
+      "learning_rate": 0.0004383655939283403,
+      "loss": 2.9153,
+      "step": 223000
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.40958960763392444,
+      "eval_loss": 3.3653552532196045,
+      "eval_runtime": 153.2508,
+      "eval_samples_per_second": 377.929,
+      "eval_steps_per_second": 5.905,
+      "step": 223164
+    },
+    {
+      "epoch": 12.04,
+      "learning_rate": 0.0004354238983350003,
+      "loss": 2.8648,
+      "step": 224000
+    },
+    {
+      "epoch": 12.1,
+      "learning_rate": 0.00043248514443725364,
+      "loss": 2.8594,
+      "step": 225000
+    },
+    {
+      "epoch": 12.15,
+      "learning_rate": 0.00042954344884391365,
+      "loss": 2.8612,
+      "step": 226000
+    },
+    {
+      "epoch": 12.21,
+      "learning_rate": 0.00042660175325057365,
+      "loss": 2.8681,
+      "step": 227000
+    },
+    {
+      "epoch": 12.26,
+      "learning_rate": 0.00042366005765723366,
+      "loss": 2.8746,
+      "step": 228000
+    },
+    {
+      "epoch": 12.31,
+      "learning_rate": 0.0004207183620638936,
+      "loss": 2.8707,
+      "step": 229000
+    },
+    {
+      "epoch": 12.37,
+      "learning_rate": 0.00041777960816614696,
+      "loss": 2.8773,
+      "step": 230000
+    },
+    {
+      "epoch": 12.42,
+      "learning_rate": 0.00041483791257280697,
+      "loss": 2.8798,
+      "step": 231000
+    },
+    {
+      "epoch": 12.48,
+      "learning_rate": 0.00041189915867506036,
+      "loss": 2.8808,
+      "step": 232000
+    },
+    {
+      "epoch": 12.53,
+      "learning_rate": 0.00040896040477731365,
+      "loss": 2.8823,
+      "step": 233000
+    },
+    {
+      "epoch": 12.58,
+      "learning_rate": 0.00040601870918397366,
+      "loss": 2.8849,
+      "step": 234000
+    },
+    {
+      "epoch": 12.64,
+      "learning_rate": 0.00040307701359063367,
+      "loss": 2.8875,
+      "step": 235000
+    },
+    {
+      "epoch": 12.69,
+      "learning_rate": 0.0004001353179972936,
+      "loss": 2.8903,
+      "step": 236000
+    },
+    {
+      "epoch": 12.74,
+      "learning_rate": 0.00039719656409954696,
+      "loss": 2.8886,
+      "step": 237000
+    },
+    {
+      "epoch": 12.8,
+      "learning_rate": 0.000394254868506207,
+      "loss": 2.8872,
+      "step": 238000
+    },
+    {
+      "epoch": 12.85,
+      "learning_rate": 0.0003913161146084603,
+      "loss": 2.8897,
+      "step": 239000
+    },
+    {
+      "epoch": 12.91,
+      "learning_rate": 0.0003883744190151203,
+      "loss": 2.8934,
+      "step": 240000
+    },
+    {
+      "epoch": 12.96,
+      "learning_rate": 0.00038543272342178033,
+      "loss": 2.8939,
+      "step": 241000
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.4097935723697921,
+      "eval_loss": 3.377703905105591,
+      "eval_runtime": 153.679,
+      "eval_samples_per_second": 376.876,
+      "eval_steps_per_second": 5.889,
+      "step": 241761
+    },
+    {
+      "epoch": 13.01,
+      "learning_rate": 0.00038249396952403367,
+      "loss": 2.8767,
+      "step": 242000
+    },
+    {
+      "epoch": 13.07,
+      "learning_rate": 0.00037955521562628696,
+      "loss": 2.8357,
+      "step": 243000
+    },
+    {
+      "epoch": 13.12,
+      "learning_rate": 0.000376613520032947,
+      "loss": 2.8471,
+      "step": 244000
+    },
+    {
+      "epoch": 13.17,
+      "learning_rate": 0.00037367182443960703,
+      "loss": 2.846,
+      "step": 245000
+    },
+    {
+      "epoch": 13.23,
+      "learning_rate": 0.00037073601223745365,
+      "loss": 2.8498,
+      "step": 246000
+    },
+    {
+      "epoch": 13.28,
+      "learning_rate": 0.00036779431664411366,
+      "loss": 2.8491,
+      "step": 247000
+    },
+    {
+      "epoch": 13.34,
+      "learning_rate": 0.00036485262105077367,
+      "loss": 2.8536,
+      "step": 248000
+    },
+    {
+      "epoch": 13.39,
+      "learning_rate": 0.0003619109254574336,
+      "loss": 2.8594,
+      "step": 249000
+    },
+    {
+      "epoch": 13.44,
+      "learning_rate": 0.0003589692298640937,
+      "loss": 2.8621,
+      "step": 250000
+    },
+    {
+      "epoch": 13.5,
+      "learning_rate": 0.00035603047596634703,
+      "loss": 2.8591,
+      "step": 251000
+    },
+    {
+      "epoch": 13.55,
+      "learning_rate": 0.00035308878037300704,
+      "loss": 2.8596,
+      "step": 252000
+    },
+    {
+      "epoch": 13.6,
+      "learning_rate": 0.000350147084779667,
+      "loss": 2.8654,
+      "step": 253000
+    },
+    {
+      "epoch": 13.66,
+      "learning_rate": 0.000347205389186327,
+      "loss": 2.8688,
+      "step": 254000
+    },
+    {
+      "epoch": 13.71,
+      "learning_rate": 0.00034426663528858034,
+      "loss": 2.8683,
+      "step": 255000
+    },
+    {
+      "epoch": 13.77,
+      "learning_rate": 0.0003413278813908337,
+      "loss": 2.8699,
+      "step": 256000
+    },
+    {
+      "epoch": 13.82,
+      "learning_rate": 0.0003383861857974937,
+      "loss": 2.8678,
+      "step": 257000
+    },
+    {
+      "epoch": 13.87,
+      "learning_rate": 0.0003354444902041537,
+      "loss": 2.8738,
+      "step": 258000
+    },
+    {
+      "epoch": 13.93,
+      "learning_rate": 0.000332505736306407,
+      "loss": 2.8735,
+      "step": 259000
+    },
+    {
+      "epoch": 13.98,
+      "learning_rate": 0.000329564040713067,
+      "loss": 2.8704,
+      "step": 260000
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.410292936625953,
+      "eval_loss": 3.3811206817626953,
+      "eval_runtime": 153.4074,
+      "eval_samples_per_second": 377.544,
+      "eval_steps_per_second": 5.899,
+      "step": 260358
+    },
+    {
+      "epoch": 14.03,
+      "learning_rate": 0.000326622345119727,
+      "loss": 2.8405,
+      "step": 261000
+    },
+    {
+      "epoch": 14.09,
+      "learning_rate": 0.000323680649526387,
+      "loss": 2.8189,
+      "step": 262000
+    },
+    {
+      "epoch": 14.14,
+      "learning_rate": 0.0003207448373242337,
+      "loss": 2.8282,
+      "step": 263000
+    },
+    {
+      "epoch": 14.2,
+      "learning_rate": 0.0003178031417308937,
+      "loss": 2.8282,
+      "step": 264000
+    },
+    {
+      "epoch": 14.25,
+      "learning_rate": 0.0003148614461375537,
+      "loss": 2.8327,
+      "step": 265000
+    },
+    {
+      "epoch": 14.3,
+      "learning_rate": 0.00031191975054421366,
+      "loss": 2.8373,
+      "step": 266000
+    },
+    {
+      "epoch": 14.36,
+      "learning_rate": 0.00030897805495087367,
+      "loss": 2.838,
+      "step": 267000
+    },
+    {
+      "epoch": 14.41,
+      "learning_rate": 0.0003060422427487204,
+      "loss": 2.8425,
+      "step": 268000
+    },
+    {
+      "epoch": 14.46,
+      "learning_rate": 0.0003031005471553804,
+      "loss": 2.8379,
+      "step": 269000
+    },
+    {
+      "epoch": 14.52,
+      "learning_rate": 0.00030015885156204036,
+      "loss": 2.84,
+      "step": 270000
+    },
+    {
+      "epoch": 14.57,
+      "learning_rate": 0.00029721715596870037,
+      "loss": 2.8428,
+      "step": 271000
+    },
+    {
+      "epoch": 14.63,
+      "learning_rate": 0.0002942784020709537,
+      "loss": 2.8467,
+      "step": 272000
+    },
+    {
+      "epoch": 14.68,
+      "learning_rate": 0.00029133670647761366,
+      "loss": 2.8477,
+      "step": 273000
+    },
+    {
+      "epoch": 14.73,
+      "learning_rate": 0.00028839795257986706,
+      "loss": 2.8477,
+      "step": 274000
+    },
+    {
+      "epoch": 14.79,
+      "learning_rate": 0.00028545625698652707,
+      "loss": 2.8515,
+      "step": 275000
+    },
+    {
+      "epoch": 14.84,
+      "learning_rate": 0.00028251750308878036,
+      "loss": 2.8522,
+      "step": 276000
+    },
+    {
+      "epoch": 14.89,
+      "learning_rate": 0.0002795787491910337,
+      "loss": 2.851,
+      "step": 277000
+    },
+    {
+      "epoch": 14.95,
+      "learning_rate": 0.0002766370535976937,
+      "loss": 2.8503,
+      "step": 278000
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.4101750992917264,
+      "eval_loss": 3.384704113006592,
+      "eval_runtime": 153.4996,
+      "eval_samples_per_second": 377.317,
+      "eval_steps_per_second": 5.896,
+      "step": 278955
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 0.0002736953580043537,
+      "loss": 2.851,
+      "step": 279000
+    },
+    {
+      "epoch": 15.06,
+      "learning_rate": 0.00027075660410660706,
+      "loss": 2.8038,
+      "step": 280000
+    },
+    {
+      "epoch": 15.11,
+      "learning_rate": 0.00026781490851326707,
+      "loss": 2.808,
+      "step": 281000
+    },
+    {
+      "epoch": 15.16,
+      "learning_rate": 0.0002648761546155204,
+      "loss": 2.8069,
+      "step": 282000
+    },
+    {
+      "epoch": 15.22,
+      "learning_rate": 0.00026193445902218036,
+      "loss": 2.8141,
+      "step": 283000
+    },
+    {
+      "epoch": 15.27,
+      "learning_rate": 0.00025899276342884037,
+      "loss": 2.8149,
+      "step": 284000
+    },
+    {
+      "epoch": 15.33,
+      "learning_rate": 0.0002560540095310937,
+      "loss": 2.8243,
+      "step": 285000
+    },
+    {
+      "epoch": 15.38,
+      "learning_rate": 0.0002531123139377537,
+      "loss": 2.8221,
+      "step": 286000
+    },
+    {
+      "epoch": 15.43,
+      "learning_rate": 0.00025017061834441373,
+      "loss": 2.8211,
+      "step": 287000
+    },
+    {
+      "epoch": 15.49,
+      "learning_rate": 0.00024722892275107374,
+      "loss": 2.8207,
+      "step": 288000
+    },
+    {
+      "epoch": 15.54,
+      "learning_rate": 0.0002442872271577337,
+      "loss": 2.8257,
+      "step": 289000
+    },
+    {
+      "epoch": 15.59,
+      "learning_rate": 0.00024134847325998706,
+      "loss": 2.8226,
+      "step": 290000
+    },
+    {
+      "epoch": 15.65,
+      "learning_rate": 0.0002384097193622404,
+      "loss": 2.8319,
+      "step": 291000
+    },
+    {
+      "epoch": 15.7,
+      "learning_rate": 0.00023546802376890038,
+      "loss": 2.8266,
+      "step": 292000
+    },
+    {
+      "epoch": 15.76,
+      "learning_rate": 0.00023252632817556042,
+      "loss": 2.8312,
+      "step": 293000
+    },
+    {
+      "epoch": 15.81,
+      "learning_rate": 0.0002295846325822204,
+      "loss": 2.8291,
+      "step": 294000
+    },
+    {
+      "epoch": 15.86,
+      "learning_rate": 0.00022664587868447372,
+      "loss": 2.8301,
+      "step": 295000
+    },
+    {
+      "epoch": 15.92,
+      "learning_rate": 0.00022370418309113375,
+      "loss": 2.8346,
+      "step": 296000
+    },
+    {
+      "epoch": 15.97,
+      "learning_rate": 0.00022076248749779373,
+      "loss": 2.8343,
+      "step": 297000
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.41002817212527626,
+      "eval_loss": 3.3952043056488037,
+      "eval_runtime": 153.8386,
+      "eval_samples_per_second": 376.486,
+      "eval_steps_per_second": 5.883,
+      "step": 297552
+    },
+    {
+      "epoch": 16.02,
+      "learning_rate": 0.0002178207919044537,
+      "loss": 2.8115,
+      "step": 298000
+    },
+    {
+      "epoch": 16.08,
+      "learning_rate": 0.00021487909631111375,
+      "loss": 2.7865,
+      "step": 299000
+    },
+    {
+      "epoch": 16.13,
+      "learning_rate": 0.00021194034241336706,
+      "loss": 2.7924,
+      "step": 300000
+    },
+    {
+      "epoch": 16.19,
+      "learning_rate": 0.00020899864682002707,
+      "loss": 2.7968,
+      "step": 301000
+    },
+    {
+      "epoch": 16.24,
+      "learning_rate": 0.00020605989292228041,
+      "loss": 2.7977,
+      "step": 302000
+    },
+    {
+      "epoch": 16.29,
+      "learning_rate": 0.00020312113902453376,
+      "loss": 2.8007,
+      "step": 303000
+    },
+    {
+      "epoch": 16.35,
+      "learning_rate": 0.00020017944343119374,
+      "loss": 2.8027,
+      "step": 304000
+    },
+    {
+      "epoch": 16.4,
+      "learning_rate": 0.00019724068953344708,
+      "loss": 2.803,
+      "step": 305000
+    },
+    {
+      "epoch": 16.45,
+      "learning_rate": 0.0001942989939401071,
+      "loss": 2.8069,
+      "step": 306000
+    },
+    {
+      "epoch": 16.51,
+      "learning_rate": 0.00019135729834676707,
+      "loss": 2.8075,
+      "step": 307000
+    },
+    {
+      "epoch": 16.56,
+      "learning_rate": 0.00018841560275342708,
+      "loss": 2.8052,
+      "step": 308000
+    },
+    {
+      "epoch": 16.62,
+      "learning_rate": 0.00018547684885568042,
+      "loss": 2.8078,
+      "step": 309000
+    },
+    {
+      "epoch": 16.67,
+      "learning_rate": 0.0001825351532623404,
+      "loss": 2.8109,
+      "step": 310000
+    },
+    {
+      "epoch": 16.72,
+      "learning_rate": 0.00017959345766900044,
+      "loss": 2.8133,
+      "step": 311000
+    },
+    {
+      "epoch": 16.78,
+      "learning_rate": 0.00017665470377125375,
+      "loss": 2.8138,
+      "step": 312000
+    },
+    {
+      "epoch": 16.83,
+      "learning_rate": 0.0001737159498735071,
+      "loss": 2.8109,
+      "step": 313000
+    },
+    {
+      "epoch": 16.88,
+      "learning_rate": 0.0001707742542801671,
+      "loss": 2.8146,
+      "step": 314000
+    },
+    {
+      "epoch": 16.94,
+      "learning_rate": 0.00016783255868682708,
+      "loss": 2.8129,
+      "step": 315000
+    },
+    {
+      "epoch": 16.99,
+      "learning_rate": 0.0001648908630934871,
+      "loss": 2.8131,
+      "step": 316000
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.41025853941094503,
+      "eval_loss": 3.4062395095825195,
+      "eval_runtime": 154.1629,
+      "eval_samples_per_second": 375.694,
+      "eval_steps_per_second": 5.87,
+      "step": 316149
+    },
+    {
+      "epoch": 17.05,
+      "learning_rate": 0.0001619491675001471,
+      "loss": 2.7809,
+      "step": 317000
+    },
+    {
+      "epoch": 17.1,
+      "learning_rate": 0.00015901041360240044,
+      "loss": 2.7773,
+      "step": 318000
+    },
+    {
+      "epoch": 17.15,
+      "learning_rate": 0.00015606871800906042,
+      "loss": 2.78,
+      "step": 319000
+    },
+    {
+      "epoch": 17.21,
+      "learning_rate": 0.00015312702241572043,
+      "loss": 2.7803,
+      "step": 320000
+    },
+    {
+      "epoch": 17.26,
+      "learning_rate": 0.00015018532682238044,
+      "loss": 2.7841,
+      "step": 321000
+    },
+    {
+      "epoch": 17.31,
+      "learning_rate": 0.00014724657292463375,
+      "loss": 2.7891,
+      "step": 322000
+    },
+    {
+      "epoch": 17.37,
+      "learning_rate": 0.00014430487733129376,
+      "loss": 2.7872,
+      "step": 323000
+    },
+    {
+      "epoch": 17.42,
+      "learning_rate": 0.00014136318173795377,
+      "loss": 2.7864,
+      "step": 324000
+    },
+    {
+      "epoch": 17.48,
+      "learning_rate": 0.00013842442784020708,
+      "loss": 2.7892,
+      "step": 325000
+    },
+    {
+      "epoch": 17.53,
+      "learning_rate": 0.00013548273224686712,
+      "loss": 2.7876,
+      "step": 326000
+    },
+    {
+      "epoch": 17.58,
+      "learning_rate": 0.0001325410366535271,
+      "loss": 2.7939,
+      "step": 327000
+    },
+    {
+      "epoch": 17.64,
+      "learning_rate": 0.00012959934106018708,
+      "loss": 2.7938,
+      "step": 328000
+    },
+    {
+      "epoch": 17.69,
+      "learning_rate": 0.00012666058716244045,
+      "loss": 2.7918,
+      "step": 329000
+    },
+    {
+      "epoch": 17.74,
+      "learning_rate": 0.00012372183326469377,
+      "loss": 2.7913,
+      "step": 330000
+    },
+    {
+      "epoch": 17.8,
+      "learning_rate": 0.00012078013767135377,
+      "loss": 2.796,
+      "step": 331000
+    },
+    {
+      "epoch": 17.85,
+      "learning_rate": 0.00011783844207801377,
+      "loss": 2.7925,
+      "step": 332000
+    },
+    {
+      "epoch": 17.91,
+      "learning_rate": 0.00011490262987586045,
+      "loss": 2.7902,
+      "step": 333000
+    },
+    {
+      "epoch": 17.96,
+      "learning_rate": 0.00011196093428252045,
+      "loss": 2.7975,
+      "step": 334000
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.4102354959641721,
+      "eval_loss": 3.4120047092437744,
+      "eval_runtime": 153.5774,
+      "eval_samples_per_second": 377.126,
+      "eval_steps_per_second": 5.893,
+      "step": 334746
+    },
+    {
+      "epoch": 18.01,
+      "learning_rate": 0.00010901923868918045,
+      "loss": 2.7855,
+      "step": 335000
+    },
+    {
+      "epoch": 18.07,
+      "learning_rate": 0.00010607754309584044,
+      "loss": 2.7661,
+      "step": 336000
+    },
+    {
+      "epoch": 18.12,
+      "learning_rate": 0.00010313584750250045,
+      "loss": 2.7642,
+      "step": 337000
+    },
+    {
+      "epoch": 18.17,
+      "learning_rate": 0.00010019415190916045,
+      "loss": 2.7691,
+      "step": 338000
+    },
+    {
+      "epoch": 18.23,
+      "learning_rate": 9.725245631582044e-05,
+      "loss": 2.7687,
+      "step": 339000
+    },
+    {
+      "epoch": 18.28,
+      "learning_rate": 9.431370241807378e-05,
+      "loss": 2.7683,
+      "step": 340000
+    },
+    {
+      "epoch": 18.34,
+      "learning_rate": 9.137494852032711e-05,
+      "loss": 2.7742,
+      "step": 341000
+    },
+    {
+      "epoch": 18.39,
+      "learning_rate": 8.843325292698712e-05,
+      "loss": 2.7719,
+      "step": 342000
+    },
+    {
+      "epoch": 18.44,
+      "learning_rate": 8.549155733364713e-05,
+      "loss": 2.775,
+      "step": 343000
+    },
+    {
+      "epoch": 18.5,
+      "learning_rate": 8.255280343590046e-05,
+      "loss": 2.7735,
+      "step": 344000
+    },
+    {
+      "epoch": 18.55,
+      "learning_rate": 7.961110784256045e-05,
+      "loss": 2.7715,
+      "step": 345000
+    },
+    {
+      "epoch": 18.61,
+      "learning_rate": 7.666941224922046e-05,
+      "loss": 2.7749,
+      "step": 346000
+    },
+    {
+      "epoch": 18.66,
+      "learning_rate": 7.372771665588045e-05,
+      "loss": 2.7742,
+      "step": 347000
+    },
+    {
+      "epoch": 18.71,
+      "learning_rate": 7.07889627581338e-05,
+      "loss": 2.7688,
+      "step": 348000
+    },
+    {
+      "epoch": 18.77,
+      "learning_rate": 6.785020886038714e-05,
+      "loss": 2.7746,
+      "step": 349000
+    },
+    {
+      "epoch": 18.82,
+      "learning_rate": 6.490851326704712e-05,
+      "loss": 2.7773,
+      "step": 350000
+    },
+    {
+      "epoch": 18.87,
+      "learning_rate": 6.196975936930046e-05,
+      "loss": 2.7779,
+      "step": 351000
+    },
+    {
+      "epoch": 18.93,
+      "learning_rate": 5.9031005471553804e-05,
+      "loss": 2.7776,
+      "step": 352000
+    },
+    {
+      "epoch": 18.98,
+      "learning_rate": 5.6089309878213805e-05,
+      "loss": 2.7753,
+      "step": 353000
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.4105364044134314,
+      "eval_loss": 3.410996675491333,
+      "eval_runtime": 153.4666,
+      "eval_samples_per_second": 377.398,
+      "eval_steps_per_second": 5.897,
+      "step": 353343
+    },
+    {
+      "epoch": 19.04,
+      "learning_rate": 5.31476142848738e-05,
+      "loss": 2.7645,
+      "step": 354000
+    },
+    {
+      "epoch": 19.09,
+      "learning_rate": 5.02059186915338e-05,
+      "loss": 2.749,
+      "step": 355000
+    },
+    {
+      "epoch": 19.14,
+      "learning_rate": 4.72642230981938e-05,
+      "loss": 2.7532,
+      "step": 356000
+    },
+    {
+      "epoch": 19.2,
+      "learning_rate": 4.43225275048538e-05,
+      "loss": 2.7586,
+      "step": 357000
+    },
+    {
+      "epoch": 19.25,
+      "learning_rate": 4.138377360710713e-05,
+      "loss": 2.7551,
+      "step": 358000
+    },
+    {
+      "epoch": 19.3,
+      "learning_rate": 3.844207801376714e-05,
+      "loss": 2.7595,
+      "step": 359000
+    },
+    {
+      "epoch": 19.36,
+      "learning_rate": 3.5500382420427135e-05,
+      "loss": 2.7559,
+      "step": 360000
+    },
+    {
+      "epoch": 19.41,
+      "learning_rate": 3.255868682708713e-05,
+      "loss": 2.7634,
+      "step": 361000
+    },
+    {
+      "epoch": 19.47,
+      "learning_rate": 2.9619932929340472e-05,
+      "loss": 2.7567,
+      "step": 362000
+    },
+    {
+      "epoch": 19.52,
+      "learning_rate": 2.6678237336000473e-05,
+      "loss": 2.7599,
+      "step": 363000
+    },
+    {
+      "epoch": 19.57,
+      "learning_rate": 2.3739483438253812e-05,
+      "loss": 2.7593,
+      "step": 364000
+    },
+    {
+      "epoch": 19.63,
+      "learning_rate": 2.0797787844913807e-05,
+      "loss": 2.7589,
+      "step": 365000
+    },
+    {
+      "epoch": 19.68,
+      "learning_rate": 1.7859033947167146e-05,
+      "loss": 2.7612,
+      "step": 366000
+    },
+    {
+      "epoch": 19.73,
+      "learning_rate": 1.4917338353827145e-05,
+      "loss": 2.7605,
+      "step": 367000
+    },
+    {
+      "epoch": 19.79,
+      "learning_rate": 1.1978584456080485e-05,
+      "loss": 2.7618,
+      "step": 368000
+    },
+    {
+      "epoch": 19.84,
+      "learning_rate": 9.036888862740484e-06,
+      "loss": 2.7576,
+      "step": 369000
+    },
+    {
+      "epoch": 19.9,
+      "learning_rate": 6.095193269400483e-06,
+      "loss": 2.7584,
+      "step": 370000
+    },
+    {
+      "epoch": 19.95,
+      "learning_rate": 3.1534976760604815e-06,
+      "loss": 2.7567,
+      "step": 371000
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.4105017384701812,
+      "eval_loss": 3.4159886837005615,
+      "eval_runtime": 153.721,
+      "eval_samples_per_second": 376.774,
+      "eval_steps_per_second": 5.887,
+      "step": 371940
+    },
+    {
+      "epoch": 20.0,
+      "step": 371940,
+      "total_flos": 1.56702845389824e+18,
+      "train_loss": 3.0285144362634515,
+      "train_runtime": 80952.4121,
+      "train_samples_per_second": 147.018,
+      "train_steps_per_second": 4.595
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 371940,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 5000,
+  "total_flos": 1.56702845389824e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}