Model save

Browse files

Files changed (4) hide show

README.md +2 -2
all_results.json +8 -0
test_results.json +8 -0
trainer_state.json +3625 -0

README.md CHANGED Viewed

@@ -15,8 +15,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9979
-- Accuracy: 0.8771
 ## Model description

 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0001
+- Accuracy: 1.0
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 49.00898876404494,
+    "eval_accuracy": 1.0,
+    "eval_loss": 0.00010065778042189777,
+    "eval_runtime": 340.718,
+    "eval_samples_per_second": 2.421,
+    "eval_steps_per_second": 0.153
+}

test_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 49.00898876404494,
+    "eval_accuracy": 1.0,
+    "eval_loss": 0.00010065778042189777,
+    "eval_runtime": 340.718,
+    "eval_samples_per_second": 2.421,
+    "eval_steps_per_second": 0.153
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3625 @@

+{
+  "best_metric": 0.8771021992238034,
+  "best_model_checkpoint": "trained_FM_plus_minus_finetuned-finetuned/checkpoint-2160",
+  "epoch": 49.00898876404494,
+  "eval_steps": 500,
+  "global_step": 4450,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0022471910112359553,
+      "grad_norm": 22.698049545288086,
+      "learning_rate": 1.1235955056179775e-06,
+      "loss": 1.6489,
+      "step": 10
+    },
+    {
+      "epoch": 0.0044943820224719105,
+      "grad_norm": 137.66839599609375,
+      "learning_rate": 2.247191011235955e-06,
+      "loss": 0.8257,
+      "step": 20
+    },
+    {
+      "epoch": 0.006741573033707865,
+      "grad_norm": 0.09208225458860397,
+      "learning_rate": 3.3707865168539327e-06,
+      "loss": 0.5424,
+      "step": 30
+    },
+    {
+      "epoch": 0.008988764044943821,
+      "grad_norm": 20.217649459838867,
+      "learning_rate": 4.49438202247191e-06,
+      "loss": 0.2567,
+      "step": 40
+    },
+    {
+      "epoch": 0.011235955056179775,
+      "grad_norm": 6.477929592132568,
+      "learning_rate": 5.617977528089888e-06,
+      "loss": 0.1167,
+      "step": 50
+    },
+    {
+      "epoch": 0.01348314606741573,
+      "grad_norm": 1.9699681997299194,
+      "learning_rate": 6.741573033707865e-06,
+      "loss": 0.1324,
+      "step": 60
+    },
+    {
+      "epoch": 0.015730337078651686,
+      "grad_norm": 0.1321302354335785,
+      "learning_rate": 7.865168539325843e-06,
+      "loss": 0.0394,
+      "step": 70
+    },
+    {
+      "epoch": 0.017977528089887642,
+      "grad_norm": 0.16645067930221558,
+      "learning_rate": 8.98876404494382e-06,
+      "loss": 0.0398,
+      "step": 80
+    },
+    {
+      "epoch": 0.020224719101123594,
+      "grad_norm": 0.01523497886955738,
+      "learning_rate": 1.0112359550561798e-05,
+      "loss": 0.075,
+      "step": 90
+    },
+    {
+      "epoch": 0.020224719101123594,
+      "eval_accuracy": 0.6364812419146184,
+      "eval_loss": 1.6105461120605469,
+      "eval_runtime": 3297.1136,
+      "eval_samples_per_second": 0.234,
+      "eval_steps_per_second": 0.015,
+      "step": 90
+    },
+    {
+      "epoch": 1.002247191011236,
+      "grad_norm": 1.9008361101150513,
+      "learning_rate": 1.1235955056179776e-05,
+      "loss": 0.0981,
+      "step": 100
+    },
+    {
+      "epoch": 1.0044943820224719,
+      "grad_norm": 202.8159637451172,
+      "learning_rate": 1.2359550561797752e-05,
+      "loss": 0.0302,
+      "step": 110
+    },
+    {
+      "epoch": 1.006741573033708,
+      "grad_norm": 0.2720589339733124,
+      "learning_rate": 1.348314606741573e-05,
+      "loss": 0.0412,
+      "step": 120
+    },
+    {
+      "epoch": 1.0089887640449438,
+      "grad_norm": 0.04250582307577133,
+      "learning_rate": 1.4606741573033709e-05,
+      "loss": 0.0024,
+      "step": 130
+    },
+    {
+      "epoch": 1.0112359550561798,
+      "grad_norm": 0.01215441431850195,
+      "learning_rate": 1.5730337078651687e-05,
+      "loss": 0.0763,
+      "step": 140
+    },
+    {
+      "epoch": 1.0134831460674156,
+      "grad_norm": 27.981979370117188,
+      "learning_rate": 1.6853932584269665e-05,
+      "loss": 0.0823,
+      "step": 150
+    },
+    {
+      "epoch": 1.0157303370786517,
+      "grad_norm": 0.05339406058192253,
+      "learning_rate": 1.797752808988764e-05,
+      "loss": 0.0024,
+      "step": 160
+    },
+    {
+      "epoch": 1.0179775280898877,
+      "grad_norm": 0.10670967400074005,
+      "learning_rate": 1.9101123595505618e-05,
+      "loss": 0.0404,
+      "step": 170
+    },
+    {
+      "epoch": 1.0202247191011236,
+      "grad_norm": 0.025777198374271393,
+      "learning_rate": 2.0224719101123596e-05,
+      "loss": 0.0019,
+      "step": 180
+    },
+    {
+      "epoch": 1.0202247191011236,
+      "eval_accuracy": 0.6157826649417852,
+      "eval_loss": 2.255258083343506,
+      "eval_runtime": 502.2881,
+      "eval_samples_per_second": 1.539,
+      "eval_steps_per_second": 0.098,
+      "step": 180
+    },
+    {
+      "epoch": 2.002247191011236,
+      "grad_norm": 0.03325297310948372,
+      "learning_rate": 2.1348314606741574e-05,
+      "loss": 0.0011,
+      "step": 190
+    },
+    {
+      "epoch": 2.004494382022472,
+      "grad_norm": 0.018461693078279495,
+      "learning_rate": 2.2471910112359552e-05,
+      "loss": 0.0008,
+      "step": 200
+    },
+    {
+      "epoch": 2.006741573033708,
+      "grad_norm": 0.02512010931968689,
+      "learning_rate": 2.359550561797753e-05,
+      "loss": 0.0824,
+      "step": 210
+    },
+    {
+      "epoch": 2.0089887640449438,
+      "grad_norm": 0.06770236790180206,
+      "learning_rate": 2.4719101123595505e-05,
+      "loss": 0.0327,
+      "step": 220
+    },
+    {
+      "epoch": 2.0112359550561796,
+      "grad_norm": 0.0409482941031456,
+      "learning_rate": 2.5842696629213486e-05,
+      "loss": 0.0028,
+      "step": 230
+    },
+    {
+      "epoch": 2.013483146067416,
+      "grad_norm": 150.85275268554688,
+      "learning_rate": 2.696629213483146e-05,
+      "loss": 0.2355,
+      "step": 240
+    },
+    {
+      "epoch": 2.0157303370786517,
+      "grad_norm": 2.0705699920654297,
+      "learning_rate": 2.8089887640449443e-05,
+      "loss": 0.105,
+      "step": 250
+    },
+    {
+      "epoch": 2.0179775280898875,
+      "grad_norm": 0.41521573066711426,
+      "learning_rate": 2.9213483146067417e-05,
+      "loss": 0.2252,
+      "step": 260
+    },
+    {
+      "epoch": 2.020224719101124,
+      "grad_norm": 20.540042877197266,
+      "learning_rate": 3.0337078651685396e-05,
+      "loss": 0.1088,
+      "step": 270
+    },
+    {
+      "epoch": 2.020224719101124,
+      "eval_accuracy": 0.6144890038809832,
+      "eval_loss": 1.8407323360443115,
+      "eval_runtime": 375.6551,
+      "eval_samples_per_second": 2.058,
+      "eval_steps_per_second": 0.13,
+      "step": 270
+    },
+    {
+      "epoch": 3.002247191011236,
+      "grad_norm": 3.0002777576446533,
+      "learning_rate": 3.1460674157303374e-05,
+      "loss": 0.1083,
+      "step": 280
+    },
+    {
+      "epoch": 3.004494382022472,
+      "grad_norm": 0.09991969913244247,
+      "learning_rate": 3.258426966292135e-05,
+      "loss": 0.0214,
+      "step": 290
+    },
+    {
+      "epoch": 3.006741573033708,
+      "grad_norm": 0.0313391350209713,
+      "learning_rate": 3.370786516853933e-05,
+      "loss": 0.0536,
+      "step": 300
+    },
+    {
+      "epoch": 3.0089887640449438,
+      "grad_norm": 1.4865280389785767,
+      "learning_rate": 3.483146067415731e-05,
+      "loss": 0.0764,
+      "step": 310
+    },
+    {
+      "epoch": 3.0112359550561796,
+      "grad_norm": 0.1041778028011322,
+      "learning_rate": 3.595505617977528e-05,
+      "loss": 0.0048,
+      "step": 320
+    },
+    {
+      "epoch": 3.013483146067416,
+      "grad_norm": 0.030931729823350906,
+      "learning_rate": 3.7078651685393264e-05,
+      "loss": 0.0029,
+      "step": 330
+    },
+    {
+      "epoch": 3.0157303370786517,
+      "grad_norm": 0.036244966089725494,
+      "learning_rate": 3.8202247191011236e-05,
+      "loss": 0.0355,
+      "step": 340
+    },
+    {
+      "epoch": 3.0179775280898875,
+      "grad_norm": 0.02242976799607277,
+      "learning_rate": 3.9325842696629214e-05,
+      "loss": 0.0017,
+      "step": 350
+    },
+    {
+      "epoch": 3.020224719101124,
+      "grad_norm": 0.018726468086242676,
+      "learning_rate": 4.044943820224719e-05,
+      "loss": 0.0012,
+      "step": 360
+    },
+    {
+      "epoch": 3.020224719101124,
+      "eval_accuracy": 0.777490297542044,
+      "eval_loss": 1.3938281536102295,
+      "eval_runtime": 358.0182,
+      "eval_samples_per_second": 2.159,
+      "eval_steps_per_second": 0.137,
+      "step": 360
+    },
+    {
+      "epoch": 4.002247191011236,
+      "grad_norm": 0.032676514238119125,
+      "learning_rate": 4.157303370786517e-05,
+      "loss": 0.0439,
+      "step": 370
+    },
+    {
+      "epoch": 4.004494382022472,
+      "grad_norm": 0.03491745889186859,
+      "learning_rate": 4.269662921348315e-05,
+      "loss": 0.0017,
+      "step": 380
+    },
+    {
+      "epoch": 4.0067415730337075,
+      "grad_norm": 0.021868839859962463,
+      "learning_rate": 4.3820224719101126e-05,
+      "loss": 0.0384,
+      "step": 390
+    },
+    {
+      "epoch": 4.008988764044944,
+      "grad_norm": 0.12130255252122879,
+      "learning_rate": 4.4943820224719104e-05,
+      "loss": 0.0342,
+      "step": 400
+    },
+    {
+      "epoch": 4.01123595505618,
+      "grad_norm": 0.060738105326890945,
+      "learning_rate": 4.606741573033708e-05,
+      "loss": 0.0045,
+      "step": 410
+    },
+    {
+      "epoch": 4.013483146067416,
+      "grad_norm": 0.02228277549147606,
+      "learning_rate": 4.719101123595506e-05,
+      "loss": 0.1898,
+      "step": 420
+    },
+    {
+      "epoch": 4.015730337078652,
+      "grad_norm": 5.419518947601318,
+      "learning_rate": 4.831460674157304e-05,
+      "loss": 0.3639,
+      "step": 430
+    },
+    {
+      "epoch": 4.0179775280898875,
+      "grad_norm": 107.74591827392578,
+      "learning_rate": 4.943820224719101e-05,
+      "loss": 0.1896,
+      "step": 440
+    },
+    {
+      "epoch": 4.020224719101123,
+      "grad_norm": 0.04789801314473152,
+      "learning_rate": 4.993757802746567e-05,
+      "loss": 0.0653,
+      "step": 450
+    },
+    {
+      "epoch": 4.020224719101123,
+      "eval_accuracy": 0.49805950840879687,
+      "eval_loss": 2.990910291671753,
+      "eval_runtime": 363.2571,
+      "eval_samples_per_second": 2.128,
+      "eval_steps_per_second": 0.135,
+      "step": 450
+    },
+    {
+      "epoch": 5.002247191011236,
+      "grad_norm": 0.021787848323583603,
+      "learning_rate": 4.9812734082397005e-05,
+      "loss": 0.0651,
+      "step": 460
+    },
+    {
+      "epoch": 5.004494382022472,
+      "grad_norm": 0.06374188512563705,
+      "learning_rate": 4.968789013732834e-05,
+      "loss": 0.0436,
+      "step": 470
+    },
+    {
+      "epoch": 5.0067415730337075,
+      "grad_norm": 0.046116895973682404,
+      "learning_rate": 4.956304619225968e-05,
+      "loss": 0.075,
+      "step": 480
+    },
+    {
+      "epoch": 5.008988764044944,
+      "grad_norm": 0.03146898001432419,
+      "learning_rate": 4.943820224719101e-05,
+      "loss": 0.1484,
+      "step": 490
+    },
+    {
+      "epoch": 5.01123595505618,
+      "grad_norm": 3.9672632217407227,
+      "learning_rate": 4.931335830212235e-05,
+      "loss": 0.5941,
+      "step": 500
+    },
+    {
+      "epoch": 5.013483146067416,
+      "grad_norm": 0.04689766839146614,
+      "learning_rate": 4.9188514357053684e-05,
+      "loss": 0.0589,
+      "step": 510
+    },
+    {
+      "epoch": 5.015730337078652,
+      "grad_norm": 0.022010423243045807,
+      "learning_rate": 4.906367041198502e-05,
+      "loss": 0.0241,
+      "step": 520
+    },
+    {
+      "epoch": 5.0179775280898875,
+      "grad_norm": 0.10352443158626556,
+      "learning_rate": 4.893882646691635e-05,
+      "loss": 0.0418,
+      "step": 530
+    },
+    {
+      "epoch": 5.020224719101123,
+      "grad_norm": 0.12475921213626862,
+      "learning_rate": 4.8813982521847696e-05,
+      "loss": 0.0883,
+      "step": 540
+    },
+    {
+      "epoch": 5.020224719101123,
+      "eval_accuracy": 0.351875808538163,
+      "eval_loss": 4.658880710601807,
+      "eval_runtime": 363.3989,
+      "eval_samples_per_second": 2.127,
+      "eval_steps_per_second": 0.135,
+      "step": 540
+    },
+    {
+      "epoch": 6.002247191011236,
+      "grad_norm": 0.18845953047275543,
+      "learning_rate": 4.8689138576779034e-05,
+      "loss": 0.0521,
+      "step": 550
+    },
+    {
+      "epoch": 6.004494382022472,
+      "grad_norm": 0.06792347878217697,
+      "learning_rate": 4.8564294631710364e-05,
+      "loss": 0.0111,
+      "step": 560
+    },
+    {
+      "epoch": 6.0067415730337075,
+      "grad_norm": 0.07692062854766846,
+      "learning_rate": 4.84394506866417e-05,
+      "loss": 0.1613,
+      "step": 570
+    },
+    {
+      "epoch": 6.008988764044944,
+      "grad_norm": 0.12970906496047974,
+      "learning_rate": 4.831460674157304e-05,
+      "loss": 0.005,
+      "step": 580
+    },
+    {
+      "epoch": 6.01123595505618,
+      "grad_norm": 0.07438448816537857,
+      "learning_rate": 4.8189762796504376e-05,
+      "loss": 0.0346,
+      "step": 590
+    },
+    {
+      "epoch": 6.013483146067416,
+      "grad_norm": 0.037353940308094025,
+      "learning_rate": 4.8064918851435706e-05,
+      "loss": 0.0287,
+      "step": 600
+    },
+    {
+      "epoch": 6.015730337078652,
+      "grad_norm": 0.03469238057732582,
+      "learning_rate": 4.7940074906367044e-05,
+      "loss": 0.0321,
+      "step": 610
+    },
+    {
+      "epoch": 6.0179775280898875,
+      "grad_norm": 0.14126905798912048,
+      "learning_rate": 4.781523096129838e-05,
+      "loss": 0.0894,
+      "step": 620
+    },
+    {
+      "epoch": 6.020224719101123,
+      "grad_norm": 0.20986488461494446,
+      "learning_rate": 4.769038701622972e-05,
+      "loss": 0.0389,
+      "step": 630
+    },
+    {
+      "epoch": 6.020224719101123,
+      "eval_accuracy": 0.4579560155239327,
+      "eval_loss": 3.409106492996216,
+      "eval_runtime": 321.2302,
+      "eval_samples_per_second": 2.406,
+      "eval_steps_per_second": 0.153,
+      "step": 630
+    },
+    {
+      "epoch": 7.002247191011236,
+      "grad_norm": 0.05564555898308754,
+      "learning_rate": 4.756554307116105e-05,
+      "loss": 0.0455,
+      "step": 640
+    },
+    {
+      "epoch": 7.004494382022472,
+      "grad_norm": 0.07562582194805145,
+      "learning_rate": 4.7440699126092386e-05,
+      "loss": 0.005,
+      "step": 650
+    },
+    {
+      "epoch": 7.0067415730337075,
+      "grad_norm": 0.10327350348234177,
+      "learning_rate": 4.731585518102372e-05,
+      "loss": 0.0394,
+      "step": 660
+    },
+    {
+      "epoch": 7.008988764044944,
+      "grad_norm": 0.05257737264037132,
+      "learning_rate": 4.719101123595506e-05,
+      "loss": 0.0032,
+      "step": 670
+    },
+    {
+      "epoch": 7.01123595505618,
+      "grad_norm": 0.04399643838405609,
+      "learning_rate": 4.706616729088639e-05,
+      "loss": 0.0371,
+      "step": 680
+    },
+    {
+      "epoch": 7.013483146067416,
+      "grad_norm": 0.04171612858772278,
+      "learning_rate": 4.694132334581773e-05,
+      "loss": 0.0024,
+      "step": 690
+    },
+    {
+      "epoch": 7.015730337078652,
+      "grad_norm": 0.07221619784832001,
+      "learning_rate": 4.6816479400749066e-05,
+      "loss": 0.068,
+      "step": 700
+    },
+    {
+      "epoch": 7.0179775280898875,
+      "grad_norm": 0.08562880754470825,
+      "learning_rate": 4.6691635455680396e-05,
+      "loss": 0.0107,
+      "step": 710
+    },
+    {
+      "epoch": 7.020224719101123,
+      "grad_norm": 0.04621588811278343,
+      "learning_rate": 4.656679151061174e-05,
+      "loss": 0.0346,
+      "step": 720
+    },
+    {
+      "epoch": 7.020224719101123,
+      "eval_accuracy": 0.6222509702457956,
+      "eval_loss": 2.998917579650879,
+      "eval_runtime": 371.0049,
+      "eval_samples_per_second": 2.084,
+      "eval_steps_per_second": 0.132,
+      "step": 720
+    },
+    {
+      "epoch": 8.002247191011236,
+      "grad_norm": 0.14536446332931519,
+      "learning_rate": 4.644194756554308e-05,
+      "loss": 0.0404,
+      "step": 730
+    },
+    {
+      "epoch": 8.004494382022472,
+      "grad_norm": 0.06857080012559891,
+      "learning_rate": 4.6317103620474415e-05,
+      "loss": 0.0343,
+      "step": 740
+    },
+    {
+      "epoch": 8.006741573033707,
+      "grad_norm": 1.3145660161972046,
+      "learning_rate": 4.6192259675405745e-05,
+      "loss": 0.0458,
+      "step": 750
+    },
+    {
+      "epoch": 8.008988764044943,
+      "grad_norm": 4.400092124938965,
+      "learning_rate": 4.606741573033708e-05,
+      "loss": 0.1135,
+      "step": 760
+    },
+    {
+      "epoch": 8.01123595505618,
+      "grad_norm": 1.3112094402313232,
+      "learning_rate": 4.594257178526842e-05,
+      "loss": 0.0597,
+      "step": 770
+    },
+    {
+      "epoch": 8.013483146067415,
+      "grad_norm": 0.17381101846694946,
+      "learning_rate": 4.581772784019975e-05,
+      "loss": 0.0431,
+      "step": 780
+    },
+    {
+      "epoch": 8.015730337078653,
+      "grad_norm": 0.07657615840435028,
+      "learning_rate": 4.569288389513109e-05,
+      "loss": 0.0064,
+      "step": 790
+    },
+    {
+      "epoch": 8.017977528089888,
+      "grad_norm": 0.02938857115805149,
+      "learning_rate": 4.5568039950062425e-05,
+      "loss": 0.0031,
+      "step": 800
+    },
+    {
+      "epoch": 8.020224719101124,
+      "grad_norm": 0.03589854761958122,
+      "learning_rate": 4.544319600499376e-05,
+      "loss": 0.0014,
+      "step": 810
+    },
+    {
+      "epoch": 8.020224719101124,
+      "eval_accuracy": 0.3855109961190168,
+      "eval_loss": 4.314896583557129,
+      "eval_runtime": 379.8459,
+      "eval_samples_per_second": 2.035,
+      "eval_steps_per_second": 0.129,
+      "step": 810
+    },
+    {
+      "epoch": 9.002247191011236,
+      "grad_norm": 0.02095959149301052,
+      "learning_rate": 4.531835205992509e-05,
+      "loss": 0.0012,
+      "step": 820
+    },
+    {
+      "epoch": 9.004494382022472,
+      "grad_norm": 0.02048562467098236,
+      "learning_rate": 4.519350811485643e-05,
+      "loss": 0.0008,
+      "step": 830
+    },
+    {
+      "epoch": 9.006741573033707,
+      "grad_norm": 0.019248204305768013,
+      "learning_rate": 4.506866416978777e-05,
+      "loss": 0.0007,
+      "step": 840
+    },
+    {
+      "epoch": 9.008988764044943,
+      "grad_norm": 0.025466041639447212,
+      "learning_rate": 4.4943820224719104e-05,
+      "loss": 0.083,
+      "step": 850
+    },
+    {
+      "epoch": 9.01123595505618,
+      "grad_norm": 0.051293402910232544,
+      "learning_rate": 4.4818976279650435e-05,
+      "loss": 0.0357,
+      "step": 860
+    },
+    {
+      "epoch": 9.013483146067415,
+      "grad_norm": 0.05512285605072975,
+      "learning_rate": 4.469413233458177e-05,
+      "loss": 0.0645,
+      "step": 870
+    },
+    {
+      "epoch": 9.015730337078653,
+      "grad_norm": 0.26267877221107483,
+      "learning_rate": 4.456928838951311e-05,
+      "loss": 0.0821,
+      "step": 880
+    },
+    {
+      "epoch": 9.017977528089888,
+      "grad_norm": 0.14021214842796326,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.0082,
+      "step": 890
+    },
+    {
+      "epoch": 9.020224719101124,
+      "grad_norm": 0.08691973239183426,
+      "learning_rate": 4.431960049937578e-05,
+      "loss": 0.0049,
+      "step": 900
+    },
+    {
+      "epoch": 9.020224719101124,
+      "eval_accuracy": 0.4372574385510996,
+      "eval_loss": 2.7767715454101562,
+      "eval_runtime": 309.8617,
+      "eval_samples_per_second": 2.495,
+      "eval_steps_per_second": 0.158,
+      "step": 900
+    },
+    {
+      "epoch": 10.002247191011236,
+      "grad_norm": 0.03673604130744934,
+      "learning_rate": 4.419475655430712e-05,
+      "loss": 0.0354,
+      "step": 910
+    },
+    {
+      "epoch": 10.004494382022472,
+      "grad_norm": 0.021990135312080383,
+      "learning_rate": 4.406991260923846e-05,
+      "loss": 0.0017,
+      "step": 920
+    },
+    {
+      "epoch": 10.006741573033707,
+      "grad_norm": 0.08961662650108337,
+      "learning_rate": 4.394506866416979e-05,
+      "loss": 0.0677,
+      "step": 930
+    },
+    {
+      "epoch": 10.008988764044943,
+      "grad_norm": 0.15133880078792572,
+      "learning_rate": 4.3820224719101126e-05,
+      "loss": 0.0623,
+      "step": 940
+    },
+    {
+      "epoch": 10.01123595505618,
+      "grad_norm": 0.12693992257118225,
+      "learning_rate": 4.3695380774032463e-05,
+      "loss": 0.0073,
+      "step": 950
+    },
+    {
+      "epoch": 10.013483146067415,
+      "grad_norm": 0.07039490342140198,
+      "learning_rate": 4.35705368289638e-05,
+      "loss": 0.0041,
+      "step": 960
+    },
+    {
+      "epoch": 10.015730337078653,
+      "grad_norm": 0.054619334638118744,
+      "learning_rate": 4.344569288389513e-05,
+      "loss": 0.0329,
+      "step": 970
+    },
+    {
+      "epoch": 10.017977528089888,
+      "grad_norm": 0.054939307272434235,
+      "learning_rate": 4.332084893882647e-05,
+      "loss": 0.0028,
+      "step": 980
+    },
+    {
+      "epoch": 10.020224719101124,
+      "grad_norm": 0.03190053254365921,
+      "learning_rate": 4.3196004993757806e-05,
+      "loss": 0.0021,
+      "step": 990
+    },
+    {
+      "epoch": 10.020224719101124,
+      "eval_accuracy": 0.4333764553686934,
+      "eval_loss": 3.9372849464416504,
+      "eval_runtime": 307.7393,
+      "eval_samples_per_second": 2.512,
+      "eval_steps_per_second": 0.159,
+      "step": 990
+    },
+    {
+      "epoch": 11.002247191011236,
+      "grad_norm": 0.018473900854587555,
+      "learning_rate": 4.307116104868914e-05,
+      "loss": 0.0017,
+      "step": 1000
+    },
+    {
+      "epoch": 11.004494382022472,
+      "grad_norm": 0.031548287719488144,
+      "learning_rate": 4.2946317103620473e-05,
+      "loss": 0.0358,
+      "step": 1010
+    },
+    {
+      "epoch": 11.006741573033707,
+      "grad_norm": 0.0293214563280344,
+      "learning_rate": 4.282147315855181e-05,
+      "loss": 0.0347,
+      "step": 1020
+    },
+    {
+      "epoch": 11.008988764044943,
+      "grad_norm": 0.031038669869303703,
+      "learning_rate": 4.269662921348315e-05,
+      "loss": 0.0028,
+      "step": 1030
+    },
+    {
+      "epoch": 11.01123595505618,
+      "grad_norm": 0.03167790174484253,
+      "learning_rate": 4.2571785268414485e-05,
+      "loss": 0.0358,
+      "step": 1040
+    },
+    {
+      "epoch": 11.013483146067415,
+      "grad_norm": 0.045855436474084854,
+      "learning_rate": 4.2446941323345816e-05,
+      "loss": 0.0643,
+      "step": 1050
+    },
+    {
+      "epoch": 11.015730337078653,
+      "grad_norm": 0.08114203065633774,
+      "learning_rate": 4.232209737827715e-05,
+      "loss": 0.0333,
+      "step": 1060
+    },
+    {
+      "epoch": 11.017977528089888,
+      "grad_norm": 0.08527044206857681,
+      "learning_rate": 4.219725343320849e-05,
+      "loss": 0.0049,
+      "step": 1070
+    },
+    {
+      "epoch": 11.020224719101124,
+      "grad_norm": 0.016140511259436607,
+      "learning_rate": 4.207240948813983e-05,
+      "loss": 0.0033,
+      "step": 1080
+    },
+    {
+      "epoch": 11.020224719101124,
+      "eval_accuracy": 0.3984476067270375,
+      "eval_loss": 4.449057579040527,
+      "eval_runtime": 373.7261,
+      "eval_samples_per_second": 2.068,
+      "eval_steps_per_second": 0.131,
+      "step": 1080
+    },
+    {
+      "epoch": 12.002247191011236,
+      "grad_norm": 0.04579917713999748,
+      "learning_rate": 4.1947565543071165e-05,
+      "loss": 0.0389,
+      "step": 1090
+    },
+    {
+      "epoch": 12.004494382022472,
+      "grad_norm": 0.0433347187936306,
+      "learning_rate": 4.18227215980025e-05,
+      "loss": 0.0851,
+      "step": 1100
+    },
+    {
+      "epoch": 12.006741573033707,
+      "grad_norm": 0.04116983711719513,
+      "learning_rate": 4.169787765293384e-05,
+      "loss": 0.0702,
+      "step": 1110
+    },
+    {
+      "epoch": 12.008988764044943,
+      "grad_norm": 0.0757342129945755,
+      "learning_rate": 4.157303370786517e-05,
+      "loss": 0.0685,
+      "step": 1120
+    },
+    {
+      "epoch": 12.01123595505618,
+      "grad_norm": 0.12625212967395782,
+      "learning_rate": 4.144818976279651e-05,
+      "loss": 0.0345,
+      "step": 1130
+    },
+    {
+      "epoch": 12.013483146067415,
+      "grad_norm": 0.10289767384529114,
+      "learning_rate": 4.1323345817727844e-05,
+      "loss": 0.0311,
+      "step": 1140
+    },
+    {
+      "epoch": 12.015730337078653,
+      "grad_norm": 0.1303280144929886,
+      "learning_rate": 4.119850187265918e-05,
+      "loss": 0.0332,
+      "step": 1150
+    },
+    {
+      "epoch": 12.017977528089888,
+      "grad_norm": 0.03924856334924698,
+      "learning_rate": 4.107365792759051e-05,
+      "loss": 0.0045,
+      "step": 1160
+    },
+    {
+      "epoch": 12.020224719101124,
+      "grad_norm": 0.025983136147260666,
+      "learning_rate": 4.094881398252185e-05,
+      "loss": 0.0032,
+      "step": 1170
+    },
+    {
+      "epoch": 12.020224719101124,
+      "eval_accuracy": 0.517464424320828,
+      "eval_loss": 3.0959889888763428,
+      "eval_runtime": 356.3556,
+      "eval_samples_per_second": 2.169,
+      "eval_steps_per_second": 0.138,
+      "step": 1170
+    },
+    {
+      "epoch": 13.002247191011236,
+      "grad_norm": 0.035728052258491516,
+      "learning_rate": 4.082397003745319e-05,
+      "loss": 0.0018,
+      "step": 1180
+    },
+    {
+      "epoch": 13.004494382022472,
+      "grad_norm": 0.026223180815577507,
+      "learning_rate": 4.0699126092384524e-05,
+      "loss": 0.0018,
+      "step": 1190
+    },
+    {
+      "epoch": 13.006741573033707,
+      "grad_norm": 1.3215516805648804,
+      "learning_rate": 4.0574282147315855e-05,
+      "loss": 0.0708,
+      "step": 1200
+    },
+    {
+      "epoch": 13.008988764044943,
+      "grad_norm": 0.04870336502790451,
+      "learning_rate": 4.044943820224719e-05,
+      "loss": 0.0019,
+      "step": 1210
+    },
+    {
+      "epoch": 13.01123595505618,
+      "grad_norm": 0.040859926491975784,
+      "learning_rate": 4.032459425717853e-05,
+      "loss": 0.0025,
+      "step": 1220
+    },
+    {
+      "epoch": 13.013483146067415,
+      "grad_norm": 0.04700184240937233,
+      "learning_rate": 4.019975031210986e-05,
+      "loss": 0.0018,
+      "step": 1230
+    },
+    {
+      "epoch": 13.015730337078653,
+      "grad_norm": 0.038996122777462006,
+      "learning_rate": 4.00749063670412e-05,
+      "loss": 0.0689,
+      "step": 1240
+    },
+    {
+      "epoch": 13.017977528089888,
+      "grad_norm": 0.11987262219190598,
+      "learning_rate": 3.9950062421972534e-05,
+      "loss": 0.0632,
+      "step": 1250
+    },
+    {
+      "epoch": 13.020224719101124,
+      "grad_norm": 0.19100521504878998,
+      "learning_rate": 3.982521847690387e-05,
+      "loss": 0.0063,
+      "step": 1260
+    },
+    {
+      "epoch": 13.020224719101124,
+      "eval_accuracy": 0.3868046571798189,
+      "eval_loss": 4.379216194152832,
+      "eval_runtime": 302.542,
+      "eval_samples_per_second": 2.555,
+      "eval_steps_per_second": 0.162,
+      "step": 1260
+    },
+    {
+      "epoch": 14.002247191011236,
+      "grad_norm": 1.3284196853637695,
+      "learning_rate": 3.970037453183521e-05,
+      "loss": 0.0542,
+      "step": 1270
+    },
+    {
+      "epoch": 14.004494382022472,
+      "grad_norm": 0.15026536583900452,
+      "learning_rate": 3.9575530586766546e-05,
+      "loss": 0.0663,
+      "step": 1280
+    },
+    {
+      "epoch": 14.006741573033707,
+      "grad_norm": 0.1195875033736229,
+      "learning_rate": 3.945068664169788e-05,
+      "loss": 0.0053,
+      "step": 1290
+    },
+    {
+      "epoch": 14.008988764044943,
+      "grad_norm": 0.06441330164670944,
+      "learning_rate": 3.9325842696629214e-05,
+      "loss": 0.0317,
+      "step": 1300
+    },
+    {
+      "epoch": 14.01123595505618,
+      "grad_norm": 0.3119406998157501,
+      "learning_rate": 3.920099875156055e-05,
+      "loss": 0.003,
+      "step": 1310
+    },
+    {
+      "epoch": 14.013483146067415,
+      "grad_norm": 0.05156432464718819,
+      "learning_rate": 3.907615480649189e-05,
+      "loss": 0.0306,
+      "step": 1320
+    },
+    {
+      "epoch": 14.015730337078653,
+      "grad_norm": 0.04788357391953468,
+      "learning_rate": 3.8951310861423226e-05,
+      "loss": 0.0326,
+      "step": 1330
+    },
+    {
+      "epoch": 14.017977528089888,
+      "grad_norm": 0.06591865420341492,
+      "learning_rate": 3.8826466916354556e-05,
+      "loss": 0.0025,
+      "step": 1340
+    },
+    {
+      "epoch": 14.020224719101124,
+      "grad_norm": 0.09529684484004974,
+      "learning_rate": 3.870162297128589e-05,
+      "loss": 0.0323,
+      "step": 1350
+    },
+    {
+      "epoch": 14.020224719101124,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.674530982971191,
+      "eval_runtime": 314.2357,
+      "eval_samples_per_second": 2.46,
+      "eval_steps_per_second": 0.156,
+      "step": 1350
+    },
+    {
+      "epoch": 15.002247191011236,
+      "grad_norm": 0.08000009506940842,
+      "learning_rate": 3.857677902621723e-05,
+      "loss": 0.0348,
+      "step": 1360
+    },
+    {
+      "epoch": 15.004494382022472,
+      "grad_norm": 0.05557028576731682,
+      "learning_rate": 3.845193508114857e-05,
+      "loss": 0.0339,
+      "step": 1370
+    },
+    {
+      "epoch": 15.006741573033707,
+      "grad_norm": 0.05977383628487587,
+      "learning_rate": 3.83270911360799e-05,
+      "loss": 0.0033,
+      "step": 1380
+    },
+    {
+      "epoch": 15.008988764044943,
+      "grad_norm": 0.04291630908846855,
+      "learning_rate": 3.8202247191011236e-05,
+      "loss": 0.0029,
+      "step": 1390
+    },
+    {
+      "epoch": 15.01123595505618,
+      "grad_norm": 0.03595967963337898,
+      "learning_rate": 3.807740324594257e-05,
+      "loss": 0.0343,
+      "step": 1400
+    },
+    {
+      "epoch": 15.013483146067415,
+      "grad_norm": 0.03875007480382919,
+      "learning_rate": 3.795255930087391e-05,
+      "loss": 0.0027,
+      "step": 1410
+    },
+    {
+      "epoch": 15.015730337078653,
+      "grad_norm": 0.025117939338088036,
+      "learning_rate": 3.782771535580524e-05,
+      "loss": 0.0018,
+      "step": 1420
+    },
+    {
+      "epoch": 15.017977528089888,
+      "grad_norm": 1.3055503368377686,
+      "learning_rate": 3.770287141073658e-05,
+      "loss": 0.0363,
+      "step": 1430
+    },
+    {
+      "epoch": 15.020224719101124,
+      "grad_norm": 0.035218678414821625,
+      "learning_rate": 3.7578027465667915e-05,
+      "loss": 0.0673,
+      "step": 1440
+    },
+    {
+      "epoch": 15.020224719101124,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.768198490142822,
+      "eval_runtime": 295.2377,
+      "eval_samples_per_second": 2.618,
+      "eval_steps_per_second": 0.166,
+      "step": 1440
+    },
+    {
+      "epoch": 16.002247191011236,
+      "grad_norm": 0.1669590324163437,
+      "learning_rate": 3.745318352059925e-05,
+      "loss": 0.0584,
+      "step": 1450
+    },
+    {
+      "epoch": 16.00449438202247,
+      "grad_norm": 0.29184722900390625,
+      "learning_rate": 3.732833957553059e-05,
+      "loss": 0.0539,
+      "step": 1460
+    },
+    {
+      "epoch": 16.006741573033707,
+      "grad_norm": 0.09675876796245575,
+      "learning_rate": 3.720349563046193e-05,
+      "loss": 0.0301,
+      "step": 1470
+    },
+    {
+      "epoch": 16.008988764044943,
+      "grad_norm": 0.11480775475502014,
+      "learning_rate": 3.7078651685393264e-05,
+      "loss": 0.0054,
+      "step": 1480
+    },
+    {
+      "epoch": 16.01123595505618,
+      "grad_norm": 0.09580578655004501,
+      "learning_rate": 3.6953807740324595e-05,
+      "loss": 0.0032,
+      "step": 1490
+    },
+    {
+      "epoch": 16.013483146067415,
+      "grad_norm": 0.14860224723815918,
+      "learning_rate": 3.682896379525593e-05,
+      "loss": 0.0631,
+      "step": 1500
+    },
+    {
+      "epoch": 16.01573033707865,
+      "grad_norm": 0.07166357338428497,
+      "learning_rate": 3.670411985018727e-05,
+      "loss": 0.0033,
+      "step": 1510
+    },
+    {
+      "epoch": 16.017977528089887,
+      "grad_norm": 0.03686222434043884,
+      "learning_rate": 3.6579275905118607e-05,
+      "loss": 0.0024,
+      "step": 1520
+    },
+    {
+      "epoch": 16.020224719101122,
+      "grad_norm": 0.023792656138539314,
+      "learning_rate": 3.645443196004994e-05,
+      "loss": 0.0018,
+      "step": 1530
+    },
+    {
+      "epoch": 16.020224719101122,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 4.825681209564209,
+      "eval_runtime": 296.2416,
+      "eval_samples_per_second": 2.609,
+      "eval_steps_per_second": 0.165,
+      "step": 1530
+    },
+    {
+      "epoch": 17.002247191011236,
+      "grad_norm": 0.016941450536251068,
+      "learning_rate": 3.6329588014981274e-05,
+      "loss": 0.0682,
+      "step": 1540
+    },
+    {
+      "epoch": 17.00449438202247,
+      "grad_norm": 1.3070281744003296,
+      "learning_rate": 3.620474406991261e-05,
+      "loss": 0.0367,
+      "step": 1550
+    },
+    {
+      "epoch": 17.006741573033707,
+      "grad_norm": 0.10310333967208862,
+      "learning_rate": 3.607990012484395e-05,
+      "loss": 0.0347,
+      "step": 1560
+    },
+    {
+      "epoch": 17.008988764044943,
+      "grad_norm": 0.05226253718137741,
+      "learning_rate": 3.595505617977528e-05,
+      "loss": 0.0034,
+      "step": 1570
+    },
+    {
+      "epoch": 17.01123595505618,
+      "grad_norm": 0.06494501978158951,
+      "learning_rate": 3.583021223470662e-05,
+      "loss": 0.0029,
+      "step": 1580
+    },
+    {
+      "epoch": 17.013483146067415,
+      "grad_norm": 0.030287954956293106,
+      "learning_rate": 3.5705368289637954e-05,
+      "loss": 0.0022,
+      "step": 1590
+    },
+    {
+      "epoch": 17.01573033707865,
+      "grad_norm": 2.615795612335205,
+      "learning_rate": 3.558052434456929e-05,
+      "loss": 0.0691,
+      "step": 1600
+    },
+    {
+      "epoch": 17.017977528089887,
+      "grad_norm": 0.06764879822731018,
+      "learning_rate": 3.545568039950062e-05,
+      "loss": 0.0018,
+      "step": 1610
+    },
+    {
+      "epoch": 17.020224719101122,
+      "grad_norm": 0.011349334381520748,
+      "learning_rate": 3.533083645443196e-05,
+      "loss": 0.0355,
+      "step": 1620
+    },
+    {
+      "epoch": 17.020224719101122,
+      "eval_accuracy": 0.5058214747736093,
+      "eval_loss": 4.13436222076416,
+      "eval_runtime": 300.4098,
+      "eval_samples_per_second": 2.573,
+      "eval_steps_per_second": 0.163,
+      "step": 1620
+    },
+    {
+      "epoch": 18.002247191011236,
+      "grad_norm": 0.05169708654284477,
+      "learning_rate": 3.52059925093633e-05,
+      "loss": 0.0654,
+      "step": 1630
+    },
+    {
+      "epoch": 18.00449438202247,
+      "grad_norm": 0.09435762465000153,
+      "learning_rate": 3.5081148564294633e-05,
+      "loss": 0.061,
+      "step": 1640
+    },
+    {
+      "epoch": 18.006741573033707,
+      "grad_norm": 0.18586553633213043,
+      "learning_rate": 3.495630461922597e-05,
+      "loss": 0.0095,
+      "step": 1650
+    },
+    {
+      "epoch": 18.008988764044943,
+      "grad_norm": 0.11713388562202454,
+      "learning_rate": 3.483146067415731e-05,
+      "loss": 0.0049,
+      "step": 1660
+    },
+    {
+      "epoch": 18.01123595505618,
+      "grad_norm": 1.2770711183547974,
+      "learning_rate": 3.4706616729088645e-05,
+      "loss": 0.0323,
+      "step": 1670
+    },
+    {
+      "epoch": 18.013483146067415,
+      "grad_norm": 0.060533493757247925,
+      "learning_rate": 3.4581772784019976e-05,
+      "loss": 0.0031,
+      "step": 1680
+    },
+    {
+      "epoch": 18.01573033707865,
+      "grad_norm": 0.058554574847221375,
+      "learning_rate": 3.445692883895131e-05,
+      "loss": 0.0024,
+      "step": 1690
+    },
+    {
+      "epoch": 18.017977528089887,
+      "grad_norm": 0.03402779623866081,
+      "learning_rate": 3.433208489388265e-05,
+      "loss": 0.0021,
+      "step": 1700
+    },
+    {
+      "epoch": 18.020224719101122,
+      "grad_norm": 0.047420646995306015,
+      "learning_rate": 3.420724094881399e-05,
+      "loss": 0.0346,
+      "step": 1710
+    },
+    {
+      "epoch": 18.020224719101122,
+      "eval_accuracy": 0.5873221216041398,
+      "eval_loss": 3.5245649814605713,
+      "eval_runtime": 303.2193,
+      "eval_samples_per_second": 2.549,
+      "eval_steps_per_second": 0.162,
+      "step": 1710
+    },
+    {
+      "epoch": 19.002247191011236,
+      "grad_norm": 0.047677114605903625,
+      "learning_rate": 3.408239700374532e-05,
+      "loss": 0.002,
+      "step": 1720
+    },
+    {
+      "epoch": 19.00449438202247,
+      "grad_norm": 0.06761440634727478,
+      "learning_rate": 3.3957553058676655e-05,
+      "loss": 0.0691,
+      "step": 1730
+    },
+    {
+      "epoch": 19.006741573033707,
+      "grad_norm": 0.06686104089021683,
+      "learning_rate": 3.383270911360799e-05,
+      "loss": 0.0028,
+      "step": 1740
+    },
+    {
+      "epoch": 19.008988764044943,
+      "grad_norm": 0.04437251761555672,
+      "learning_rate": 3.370786516853933e-05,
+      "loss": 0.033,
+      "step": 1750
+    },
+    {
+      "epoch": 19.01123595505618,
+      "grad_norm": 0.07953111082315445,
+      "learning_rate": 3.358302122347066e-05,
+      "loss": 0.033,
+      "step": 1760
+    },
+    {
+      "epoch": 19.013483146067415,
+      "grad_norm": 0.060533471405506134,
+      "learning_rate": 3.3458177278402e-05,
+      "loss": 0.0315,
+      "step": 1770
+    },
+    {
+      "epoch": 19.01573033707865,
+      "grad_norm": 0.09098009020090103,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.0322,
+      "step": 1780
+    },
+    {
+      "epoch": 19.017977528089887,
+      "grad_norm": 0.08467002213001251,
+      "learning_rate": 3.3208489388264665e-05,
+      "loss": 0.0046,
+      "step": 1790
+    },
+    {
+      "epoch": 19.020224719101122,
+      "grad_norm": 0.08982325345277786,
+      "learning_rate": 3.3083645443196e-05,
+      "loss": 0.0032,
+      "step": 1800
+    },
+    {
+      "epoch": 19.020224719101122,
+      "eval_accuracy": 0.5071151358344114,
+      "eval_loss": 4.05754280090332,
+      "eval_runtime": 309.6055,
+      "eval_samples_per_second": 2.497,
+      "eval_steps_per_second": 0.158,
+      "step": 1800
+    },
+    {
+      "epoch": 20.002247191011236,
+      "grad_norm": 0.02631296031177044,
+      "learning_rate": 3.295880149812734e-05,
+      "loss": 0.0019,
+      "step": 1810
+    },
+    {
+      "epoch": 20.00449438202247,
+      "grad_norm": 0.021504152566194534,
+      "learning_rate": 3.2833957553058684e-05,
+      "loss": 0.0021,
+      "step": 1820
+    },
+    {
+      "epoch": 20.006741573033707,
+      "grad_norm": 0.06888879090547562,
+      "learning_rate": 3.2709113607990015e-05,
+      "loss": 0.0959,
+      "step": 1830
+    },
+    {
+      "epoch": 20.008988764044943,
+      "grad_norm": 0.06275144964456558,
+      "learning_rate": 3.258426966292135e-05,
+      "loss": 0.003,
+      "step": 1840
+    },
+    {
+      "epoch": 20.01123595505618,
+      "grad_norm": 0.08931156247854233,
+      "learning_rate": 3.245942571785269e-05,
+      "loss": 0.0317,
+      "step": 1850
+    },
+    {
+      "epoch": 20.013483146067415,
+      "grad_norm": 1.2402229309082031,
+      "learning_rate": 3.233458177278402e-05,
+      "loss": 0.0309,
+      "step": 1860
+    },
+    {
+      "epoch": 20.01573033707865,
+      "grad_norm": 0.09801881015300751,
+      "learning_rate": 3.220973782771536e-05,
+      "loss": 0.0044,
+      "step": 1870
+    },
+    {
+      "epoch": 20.017977528089887,
+      "grad_norm": 0.0487775057554245,
+      "learning_rate": 3.2084893882646694e-05,
+      "loss": 0.0033,
+      "step": 1880
+    },
+    {
+      "epoch": 20.020224719101122,
+      "grad_norm": 0.08219785243272781,
+      "learning_rate": 3.196004993757803e-05,
+      "loss": 0.0325,
+      "step": 1890
+    },
+    {
+      "epoch": 20.020224719101122,
+      "eval_accuracy": 0.4282018111254851,
+      "eval_loss": 4.583955764770508,
+      "eval_runtime": 316.2855,
+      "eval_samples_per_second": 2.444,
+      "eval_steps_per_second": 0.155,
+      "step": 1890
+    },
+    {
+      "epoch": 21.002247191011236,
+      "grad_norm": 0.06626549363136292,
+      "learning_rate": 3.183520599250936e-05,
+      "loss": 0.0027,
+      "step": 1900
+    },
+    {
+      "epoch": 21.00449438202247,
+      "grad_norm": 0.07979313284158707,
+      "learning_rate": 3.17103620474407e-05,
+      "loss": 0.0326,
+      "step": 1910
+    },
+    {
+      "epoch": 21.006741573033707,
+      "grad_norm": 0.038574449717998505,
+      "learning_rate": 3.1585518102372036e-05,
+      "loss": 0.0316,
+      "step": 1920
+    },
+    {
+      "epoch": 21.008988764044943,
+      "grad_norm": 0.049700915813446045,
+      "learning_rate": 3.1460674157303374e-05,
+      "loss": 0.0029,
+      "step": 1930
+    },
+    {
+      "epoch": 21.01123595505618,
+      "grad_norm": 0.045398663729429245,
+      "learning_rate": 3.1335830212234704e-05,
+      "loss": 0.0305,
+      "step": 1940
+    },
+    {
+      "epoch": 21.013483146067415,
+      "grad_norm": 0.05370797589421272,
+      "learning_rate": 3.121098626716604e-05,
+      "loss": 0.0338,
+      "step": 1950
+    },
+    {
+      "epoch": 21.01573033707865,
+      "grad_norm": 0.2418488711118698,
+      "learning_rate": 3.108614232209738e-05,
+      "loss": 0.0334,
+      "step": 1960
+    },
+    {
+      "epoch": 21.017977528089887,
+      "grad_norm": 0.06898712366819382,
+      "learning_rate": 3.0961298377028716e-05,
+      "loss": 0.0041,
+      "step": 1970
+    },
+    {
+      "epoch": 21.020224719101122,
+      "grad_norm": 0.0021224431693553925,
+      "learning_rate": 3.0836454431960046e-05,
+      "loss": 0.0413,
+      "step": 1980
+    },
+    {
+      "epoch": 21.020224719101122,
+      "eval_accuracy": 0.5705045278137129,
+      "eval_loss": 3.6885340213775635,
+      "eval_runtime": 310.6197,
+      "eval_samples_per_second": 2.489,
+      "eval_steps_per_second": 0.158,
+      "step": 1980
+    },
+    {
+      "epoch": 22.002247191011236,
+      "grad_norm": 1.2743548154830933,
+      "learning_rate": 3.0711610486891384e-05,
+      "loss": 0.0312,
+      "step": 1990
+    },
+    {
+      "epoch": 22.00449438202247,
+      "grad_norm": 0.05916481465101242,
+      "learning_rate": 3.058676654182273e-05,
+      "loss": 0.0324,
+      "step": 2000
+    },
+    {
+      "epoch": 22.006741573033707,
+      "grad_norm": 0.1024039015173912,
+      "learning_rate": 3.046192259675406e-05,
+      "loss": 0.0311,
+      "step": 2010
+    },
+    {
+      "epoch": 22.008988764044943,
+      "grad_norm": 0.03204580396413803,
+      "learning_rate": 3.0337078651685396e-05,
+      "loss": 0.0041,
+      "step": 2020
+    },
+    {
+      "epoch": 22.01123595505618,
+      "grad_norm": 0.09468382596969604,
+      "learning_rate": 3.0212234706616733e-05,
+      "loss": 0.0305,
+      "step": 2030
+    },
+    {
+      "epoch": 22.013483146067415,
+      "grad_norm": 0.11132004857063293,
+      "learning_rate": 3.0087390761548067e-05,
+      "loss": 0.0294,
+      "step": 2040
+    },
+    {
+      "epoch": 22.01573033707865,
+      "grad_norm": 0.026780493557453156,
+      "learning_rate": 2.9962546816479404e-05,
+      "loss": 0.0045,
+      "step": 2050
+    },
+    {
+      "epoch": 22.017977528089887,
+      "grad_norm": 0.006886694114655256,
+      "learning_rate": 2.9837702871410738e-05,
+      "loss": 0.0024,
+      "step": 2060
+    },
+    {
+      "epoch": 22.020224719101122,
+      "grad_norm": 0.08298806101083755,
+      "learning_rate": 2.9712858926342075e-05,
+      "loss": 0.0909,
+      "step": 2070
+    },
+    {
+      "epoch": 22.020224719101122,
+      "eval_accuracy": 0.8188874514877102,
+      "eval_loss": 0.9124556183815002,
+      "eval_runtime": 303.7511,
+      "eval_samples_per_second": 2.545,
+      "eval_steps_per_second": 0.161,
+      "step": 2070
+    },
+    {
+      "epoch": 23.002247191011236,
+      "grad_norm": 1.3124110698699951,
+      "learning_rate": 2.958801498127341e-05,
+      "loss": 0.0304,
+      "step": 2080
+    },
+    {
+      "epoch": 23.00449438202247,
+      "grad_norm": 0.1172858476638794,
+      "learning_rate": 2.9463171036204746e-05,
+      "loss": 0.0308,
+      "step": 2090
+    },
+    {
+      "epoch": 23.006741573033707,
+      "grad_norm": 0.11574792116880417,
+      "learning_rate": 2.933832709113608e-05,
+      "loss": 0.0301,
+      "step": 2100
+    },
+    {
+      "epoch": 23.008988764044943,
+      "grad_norm": 0.09672237932682037,
+      "learning_rate": 2.9213483146067417e-05,
+      "loss": 0.0041,
+      "step": 2110
+    },
+    {
+      "epoch": 23.01123595505618,
+      "grad_norm": 0.039515670388936996,
+      "learning_rate": 2.908863920099875e-05,
+      "loss": 0.0299,
+      "step": 2120
+    },
+    {
+      "epoch": 23.013483146067415,
+      "grad_norm": 0.08289401233196259,
+      "learning_rate": 2.896379525593009e-05,
+      "loss": 0.0333,
+      "step": 2130
+    },
+    {
+      "epoch": 23.01573033707865,
+      "grad_norm": 0.05611934885382652,
+      "learning_rate": 2.8838951310861422e-05,
+      "loss": 0.0037,
+      "step": 2140
+    },
+    {
+      "epoch": 23.017977528089887,
+      "grad_norm": 0.029819313436746597,
+      "learning_rate": 2.871410736579276e-05,
+      "loss": 0.002,
+      "step": 2150
+    },
+    {
+      "epoch": 23.020224719101122,
+      "grad_norm": 0.010641505010426044,
+      "learning_rate": 2.8589263420724094e-05,
+      "loss": 0.037,
+      "step": 2160
+    },
+    {
+      "epoch": 23.020224719101122,
+      "eval_accuracy": 0.8771021992238034,
+      "eval_loss": 0.9978875517845154,
+      "eval_runtime": 372.4855,
+      "eval_samples_per_second": 2.075,
+      "eval_steps_per_second": 0.132,
+      "step": 2160
+    },
+    {
+      "epoch": 24.002247191011236,
+      "grad_norm": 0.048041634261608124,
+      "learning_rate": 2.846441947565543e-05,
+      "loss": 0.0016,
+      "step": 2170
+    },
+    {
+      "epoch": 24.00449438202247,
+      "grad_norm": 0.08231844753026962,
+      "learning_rate": 2.833957553058677e-05,
+      "loss": 0.0345,
+      "step": 2180
+    },
+    {
+      "epoch": 24.006741573033707,
+      "grad_norm": 0.05691877752542496,
+      "learning_rate": 2.8214731585518105e-05,
+      "loss": 0.002,
+      "step": 2190
+    },
+    {
+      "epoch": 24.008988764044943,
+      "grad_norm": 0.04746109992265701,
+      "learning_rate": 2.8089887640449443e-05,
+      "loss": 0.0315,
+      "step": 2200
+    },
+    {
+      "epoch": 24.01123595505618,
+      "grad_norm": 0.08345949649810791,
+      "learning_rate": 2.7965043695380777e-05,
+      "loss": 0.0526,
+      "step": 2210
+    },
+    {
+      "epoch": 24.013483146067415,
+      "grad_norm": 0.012946105562150478,
+      "learning_rate": 2.7840199750312114e-05,
+      "loss": 0.0044,
+      "step": 2220
+    },
+    {
+      "epoch": 24.01573033707865,
+      "grad_norm": 0.10040261596441269,
+      "learning_rate": 2.7715355805243448e-05,
+      "loss": 0.0752,
+      "step": 2230
+    },
+    {
+      "epoch": 24.017977528089887,
+      "grad_norm": 0.01900775358080864,
+      "learning_rate": 2.7590511860174785e-05,
+      "loss": 0.0328,
+      "step": 2240
+    },
+    {
+      "epoch": 24.020224719101122,
+      "grad_norm": 0.05815144628286362,
+      "learning_rate": 2.746566791510612e-05,
+      "loss": 0.0037,
+      "step": 2250
+    },
+    {
+      "epoch": 24.020224719101122,
+      "eval_accuracy": 0.37128072445019406,
+      "eval_loss": 3.880995273590088,
+      "eval_runtime": 338.6791,
+      "eval_samples_per_second": 2.282,
+      "eval_steps_per_second": 0.145,
+      "step": 2250
+    },
+    {
+      "epoch": 25.002247191011236,
+      "grad_norm": 0.03393116593360901,
+      "learning_rate": 2.7340823970037456e-05,
+      "loss": 0.0025,
+      "step": 2260
+    },
+    {
+      "epoch": 25.00449438202247,
+      "grad_norm": 0.01504984125494957,
+      "learning_rate": 2.721598002496879e-05,
+      "loss": 0.0008,
+      "step": 2270
+    },
+    {
+      "epoch": 25.006741573033707,
+      "grad_norm": 0.008866808377206326,
+      "learning_rate": 2.7091136079900127e-05,
+      "loss": 0.0005,
+      "step": 2280
+    },
+    {
+      "epoch": 25.008988764044943,
+      "grad_norm": 0.006507043726742268,
+      "learning_rate": 2.696629213483146e-05,
+      "loss": 0.0004,
+      "step": 2290
+    },
+    {
+      "epoch": 25.01123595505618,
+      "grad_norm": 0.005518138408660889,
+      "learning_rate": 2.6841448189762795e-05,
+      "loss": 0.0002,
+      "step": 2300
+    },
+    {
+      "epoch": 25.013483146067415,
+      "grad_norm": 0.020528404042124748,
+      "learning_rate": 2.6716604244694132e-05,
+      "loss": 0.0827,
+      "step": 2310
+    },
+    {
+      "epoch": 25.01573033707865,
+      "grad_norm": 1.467294454574585,
+      "learning_rate": 2.6591760299625466e-05,
+      "loss": 0.0988,
+      "step": 2320
+    },
+    {
+      "epoch": 25.017977528089887,
+      "grad_norm": 0.19738095998764038,
+      "learning_rate": 2.6466916354556804e-05,
+      "loss": 0.0621,
+      "step": 2330
+    },
+    {
+      "epoch": 25.020224719101122,
+      "grad_norm": 0.08690626919269562,
+      "learning_rate": 2.6342072409488137e-05,
+      "loss": 0.0283,
+      "step": 2340
+    },
+    {
+      "epoch": 25.020224719101122,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.556036949157715,
+      "eval_runtime": 296.3412,
+      "eval_samples_per_second": 2.608,
+      "eval_steps_per_second": 0.165,
+      "step": 2340
+    },
+    {
+      "epoch": 26.002247191011236,
+      "grad_norm": 0.14786496758460999,
+      "learning_rate": 2.6217228464419475e-05,
+      "loss": 0.029,
+      "step": 2350
+    },
+    {
+      "epoch": 26.00449438202247,
+      "grad_norm": 0.09694144874811172,
+      "learning_rate": 2.6092384519350815e-05,
+      "loss": 0.0556,
+      "step": 2360
+    },
+    {
+      "epoch": 26.006741573033707,
+      "grad_norm": 0.0992373526096344,
+      "learning_rate": 2.5967540574282153e-05,
+      "loss": 0.0066,
+      "step": 2370
+    },
+    {
+      "epoch": 26.008988764044943,
+      "grad_norm": 0.07103633135557175,
+      "learning_rate": 2.5842696629213486e-05,
+      "loss": 0.0048,
+      "step": 2380
+    },
+    {
+      "epoch": 26.01123595505618,
+      "grad_norm": 0.03303452953696251,
+      "learning_rate": 2.571785268414482e-05,
+      "loss": 0.0665,
+      "step": 2390
+    },
+    {
+      "epoch": 26.013483146067415,
+      "grad_norm": 0.11361945420503616,
+      "learning_rate": 2.5593008739076158e-05,
+      "loss": 0.0041,
+      "step": 2400
+    },
+    {
+      "epoch": 26.01573033707865,
+      "grad_norm": 0.05113370344042778,
+      "learning_rate": 2.546816479400749e-05,
+      "loss": 0.0305,
+      "step": 2410
+    },
+    {
+      "epoch": 26.017977528089887,
+      "grad_norm": 0.07407377660274506,
+      "learning_rate": 2.534332084893883e-05,
+      "loss": 0.0027,
+      "step": 2420
+    },
+    {
+      "epoch": 26.020224719101122,
+      "grad_norm": 0.04178846254944801,
+      "learning_rate": 2.5218476903870163e-05,
+      "loss": 0.0024,
+      "step": 2430
+    },
+    {
+      "epoch": 26.020224719101122,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.732365131378174,
+      "eval_runtime": 293.1434,
+      "eval_samples_per_second": 2.637,
+      "eval_steps_per_second": 0.167,
+      "step": 2430
+    },
+    {
+      "epoch": 27.002247191011236,
+      "grad_norm": 0.023682553321123123,
+      "learning_rate": 2.50936329588015e-05,
+      "loss": 0.0309,
+      "step": 2440
+    },
+    {
+      "epoch": 27.00449438202247,
+      "grad_norm": 15.560580253601074,
+      "learning_rate": 2.4968789013732834e-05,
+      "loss": 0.072,
+      "step": 2450
+    },
+    {
+      "epoch": 27.006741573033707,
+      "grad_norm": 0.05713484063744545,
+      "learning_rate": 2.484394506866417e-05,
+      "loss": 0.0034,
+      "step": 2460
+    },
+    {
+      "epoch": 27.008988764044943,
+      "grad_norm": 0.08814993500709534,
+      "learning_rate": 2.4719101123595505e-05,
+      "loss": 0.0551,
+      "step": 2470
+    },
+    {
+      "epoch": 27.01123595505618,
+      "grad_norm": 0.05809677764773369,
+      "learning_rate": 2.4594257178526842e-05,
+      "loss": 0.0031,
+      "step": 2480
+    },
+    {
+      "epoch": 27.013483146067415,
+      "grad_norm": 0.028738778084516525,
+      "learning_rate": 2.4469413233458176e-05,
+      "loss": 0.0309,
+      "step": 2490
+    },
+    {
+      "epoch": 27.01573033707865,
+      "grad_norm": 0.052632275968790054,
+      "learning_rate": 2.4344569288389517e-05,
+      "loss": 0.0024,
+      "step": 2500
+    },
+    {
+      "epoch": 27.017977528089887,
+      "grad_norm": 0.041094765067100525,
+      "learning_rate": 2.421972534332085e-05,
+      "loss": 0.0014,
+      "step": 2510
+    },
+    {
+      "epoch": 27.020224719101122,
+      "grad_norm": 0.03725634515285492,
+      "learning_rate": 2.4094881398252188e-05,
+      "loss": 0.0518,
+      "step": 2520
+    },
+    {
+      "epoch": 27.020224719101122,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.63041353225708,
+      "eval_runtime": 300.2011,
+      "eval_samples_per_second": 2.575,
+      "eval_steps_per_second": 0.163,
+      "step": 2520
+    },
+    {
+      "epoch": 28.002247191011236,
+      "grad_norm": 0.015194701962172985,
+      "learning_rate": 2.3970037453183522e-05,
+      "loss": 0.0454,
+      "step": 2530
+    },
+    {
+      "epoch": 28.00449438202247,
+      "grad_norm": 0.04806046932935715,
+      "learning_rate": 2.384519350811486e-05,
+      "loss": 0.0022,
+      "step": 2540
+    },
+    {
+      "epoch": 28.006741573033707,
+      "grad_norm": 0.02999090403318405,
+      "learning_rate": 2.3720349563046193e-05,
+      "loss": 0.0014,
+      "step": 2550
+    },
+    {
+      "epoch": 28.008988764044943,
+      "grad_norm": 0.02070489712059498,
+      "learning_rate": 2.359550561797753e-05,
+      "loss": 0.001,
+      "step": 2560
+    },
+    {
+      "epoch": 28.01123595505618,
+      "grad_norm": 0.0163896307349205,
+      "learning_rate": 2.3470661672908864e-05,
+      "loss": 0.0694,
+      "step": 2570
+    },
+    {
+      "epoch": 28.013483146067415,
+      "grad_norm": 0.18144291639328003,
+      "learning_rate": 2.3345817727840198e-05,
+      "loss": 0.0565,
+      "step": 2580
+    },
+    {
+      "epoch": 28.01573033707865,
+      "grad_norm": 0.14388130605220795,
+      "learning_rate": 2.322097378277154e-05,
+      "loss": 0.0178,
+      "step": 2590
+    },
+    {
+      "epoch": 28.017977528089887,
+      "grad_norm": 0.03906840458512306,
+      "learning_rate": 2.3096129837702873e-05,
+      "loss": 0.0034,
+      "step": 2600
+    },
+    {
+      "epoch": 28.020224719101122,
+      "grad_norm": 0.020977217704057693,
+      "learning_rate": 2.297128589263421e-05,
+      "loss": 0.0018,
+      "step": 2610
+    },
+    {
+      "epoch": 28.020224719101122,
+      "eval_accuracy": 0.4126778783958603,
+      "eval_loss": 3.4627420902252197,
+      "eval_runtime": 303.2398,
+      "eval_samples_per_second": 2.549,
+      "eval_steps_per_second": 0.162,
+      "step": 2610
+    },
+    {
+      "epoch": 29.002247191011236,
+      "grad_norm": 0.02470986731350422,
+      "learning_rate": 2.2846441947565544e-05,
+      "loss": 0.0363,
+      "step": 2620
+    },
+    {
+      "epoch": 29.00449438202247,
+      "grad_norm": 0.08453196287155151,
+      "learning_rate": 2.272159800249688e-05,
+      "loss": 0.033,
+      "step": 2630
+    },
+    {
+      "epoch": 29.006741573033707,
+      "grad_norm": 0.06280290335416794,
+      "learning_rate": 2.2596754057428215e-05,
+      "loss": 0.0297,
+      "step": 2640
+    },
+    {
+      "epoch": 29.008988764044943,
+      "grad_norm": 0.2928611636161804,
+      "learning_rate": 2.2471910112359552e-05,
+      "loss": 0.0138,
+      "step": 2650
+    },
+    {
+      "epoch": 29.01123595505618,
+      "grad_norm": 0.022598376497626305,
+      "learning_rate": 2.2347066167290886e-05,
+      "loss": 0.0025,
+      "step": 2660
+    },
+    {
+      "epoch": 29.013483146067415,
+      "grad_norm": 0.019650747999548912,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.0016,
+      "step": 2670
+    },
+    {
+      "epoch": 29.01573033707865,
+      "grad_norm": 0.036207448691129684,
+      "learning_rate": 2.209737827715356e-05,
+      "loss": 0.039,
+      "step": 2680
+    },
+    {
+      "epoch": 29.017977528089887,
+      "grad_norm": 0.08668278902769089,
+      "learning_rate": 2.1972534332084894e-05,
+      "loss": 0.0625,
+      "step": 2690
+    },
+    {
+      "epoch": 29.020224719101122,
+      "grad_norm": 0.06385768949985504,
+      "learning_rate": 2.1847690387016232e-05,
+      "loss": 0.0024,
+      "step": 2700
+    },
+    {
+      "epoch": 29.020224719101122,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.386835098266602,
+      "eval_runtime": 362.8581,
+      "eval_samples_per_second": 2.13,
+      "eval_steps_per_second": 0.135,
+      "step": 2700
+    },
+    {
+      "epoch": 30.002247191011236,
+      "grad_norm": 0.016925379633903503,
+      "learning_rate": 2.1722846441947566e-05,
+      "loss": 0.0018,
+      "step": 2710
+    },
+    {
+      "epoch": 30.00449438202247,
+      "grad_norm": 0.02950431779026985,
+      "learning_rate": 2.1598002496878903e-05,
+      "loss": 0.0365,
+      "step": 2720
+    },
+    {
+      "epoch": 30.006741573033707,
+      "grad_norm": 0.025786850601434708,
+      "learning_rate": 2.1473158551810237e-05,
+      "loss": 0.0316,
+      "step": 2730
+    },
+    {
+      "epoch": 30.008988764044943,
+      "grad_norm": 0.1407640129327774,
+      "learning_rate": 2.1348314606741574e-05,
+      "loss": 0.0091,
+      "step": 2740
+    },
+    {
+      "epoch": 30.01123595505618,
+      "grad_norm": 0.07694732397794724,
+      "learning_rate": 2.1223470661672908e-05,
+      "loss": 0.0336,
+      "step": 2750
+    },
+    {
+      "epoch": 30.013483146067415,
+      "grad_norm": 0.08740699291229248,
+      "learning_rate": 2.1098626716604245e-05,
+      "loss": 0.0328,
+      "step": 2760
+    },
+    {
+      "epoch": 30.01573033707865,
+      "grad_norm": 0.07603742182254791,
+      "learning_rate": 2.0973782771535582e-05,
+      "loss": 0.0301,
+      "step": 2770
+    },
+    {
+      "epoch": 30.017977528089887,
+      "grad_norm": 0.02898871898651123,
+      "learning_rate": 2.084893882646692e-05,
+      "loss": 0.0019,
+      "step": 2780
+    },
+    {
+      "epoch": 30.020224719101122,
+      "grad_norm": 0.03231247514486313,
+      "learning_rate": 2.0724094881398254e-05,
+      "loss": 0.0021,
+      "step": 2790
+    },
+    {
+      "epoch": 30.020224719101122,
+      "eval_accuracy": 0.8771021992238034,
+      "eval_loss": 0.8241329789161682,
+      "eval_runtime": 354.869,
+      "eval_samples_per_second": 2.178,
+      "eval_steps_per_second": 0.138,
+      "step": 2790
+    },
+    {
+      "epoch": 31.002247191011236,
+      "grad_norm": 0.08487377315759659,
+      "learning_rate": 2.059925093632959e-05,
+      "loss": 0.0915,
+      "step": 2800
+    },
+    {
+      "epoch": 31.00449438202247,
+      "grad_norm": 0.30065643787384033,
+      "learning_rate": 2.0474406991260925e-05,
+      "loss": 0.0315,
+      "step": 2810
+    },
+    {
+      "epoch": 31.006741573033707,
+      "grad_norm": 0.15625542402267456,
+      "learning_rate": 2.0349563046192262e-05,
+      "loss": 0.0076,
+      "step": 2820
+    },
+    {
+      "epoch": 31.008988764044943,
+      "grad_norm": 0.049321502447128296,
+      "learning_rate": 2.0224719101123596e-05,
+      "loss": 0.0028,
+      "step": 2830
+    },
+    {
+      "epoch": 31.01123595505618,
+      "grad_norm": 0.03509892523288727,
+      "learning_rate": 2.009987515605493e-05,
+      "loss": 0.034,
+      "step": 2840
+    },
+    {
+      "epoch": 31.013483146067415,
+      "grad_norm": 0.02723236382007599,
+      "learning_rate": 1.9975031210986267e-05,
+      "loss": 0.0018,
+      "step": 2850
+    },
+    {
+      "epoch": 31.01573033707865,
+      "grad_norm": 0.033657535910606384,
+      "learning_rate": 1.9850187265917604e-05,
+      "loss": 0.0016,
+      "step": 2860
+    },
+    {
+      "epoch": 31.017977528089887,
+      "grad_norm": 0.030874161049723625,
+      "learning_rate": 1.972534332084894e-05,
+      "loss": 0.029,
+      "step": 2870
+    },
+    {
+      "epoch": 31.020224719101122,
+      "grad_norm": 0.025281598791480064,
+      "learning_rate": 1.9600499375780275e-05,
+      "loss": 0.0015,
+      "step": 2880
+    },
+    {
+      "epoch": 31.020224719101122,
+      "eval_accuracy": 0.49805950840879687,
+      "eval_loss": 3.789454221725464,
+      "eval_runtime": 352.055,
+      "eval_samples_per_second": 2.196,
+      "eval_steps_per_second": 0.139,
+      "step": 2880
+    },
+    {
+      "epoch": 32.002247191011236,
+      "grad_norm": 0.02349044755101204,
+      "learning_rate": 1.9475655430711613e-05,
+      "loss": 0.0286,
+      "step": 2890
+    },
+    {
+      "epoch": 32.00449438202247,
+      "grad_norm": 3.3046371936798096,
+      "learning_rate": 1.9350811485642947e-05,
+      "loss": 0.0651,
+      "step": 2900
+    },
+    {
+      "epoch": 32.00674157303371,
+      "grad_norm": 1.4021590948104858,
+      "learning_rate": 1.9225967540574284e-05,
+      "loss": 0.045,
+      "step": 2910
+    },
+    {
+      "epoch": 32.00898876404494,
+      "grad_norm": 0.04723320156335831,
+      "learning_rate": 1.9101123595505618e-05,
+      "loss": 0.0022,
+      "step": 2920
+    },
+    {
+      "epoch": 32.01123595505618,
+      "grad_norm": 31.909048080444336,
+      "learning_rate": 1.8976279650436955e-05,
+      "loss": 0.0131,
+      "step": 2930
+    },
+    {
+      "epoch": 32.013483146067415,
+      "grad_norm": 0.03553476184606552,
+      "learning_rate": 1.885143570536829e-05,
+      "loss": 0.0015,
+      "step": 2940
+    },
+    {
+      "epoch": 32.01573033707865,
+      "grad_norm": 0.018578186631202698,
+      "learning_rate": 1.8726591760299626e-05,
+      "loss": 0.0597,
+      "step": 2950
+    },
+    {
+      "epoch": 32.01797752808989,
+      "grad_norm": 0.015782801434397697,
+      "learning_rate": 1.8601747815230963e-05,
+      "loss": 0.0008,
+      "step": 2960
+    },
+    {
+      "epoch": 32.02022471910112,
+      "grad_norm": 0.037042029201984406,
+      "learning_rate": 1.8476903870162297e-05,
+      "loss": 0.0344,
+      "step": 2970
+    },
+    {
+      "epoch": 32.02022471910112,
+      "eval_accuracy": 0.4514877102199224,
+      "eval_loss": 2.8992700576782227,
+      "eval_runtime": 297.1202,
+      "eval_samples_per_second": 2.602,
+      "eval_steps_per_second": 0.165,
+      "step": 2970
+    },
+    {
+      "epoch": 33.002247191011236,
+      "grad_norm": 0.01591086946427822,
+      "learning_rate": 1.8352059925093635e-05,
+      "loss": 0.0011,
+      "step": 2980
+    },
+    {
+      "epoch": 33.00449438202247,
+      "grad_norm": 0.022745437920093536,
+      "learning_rate": 1.822721598002497e-05,
+      "loss": 0.0024,
+      "step": 2990
+    },
+    {
+      "epoch": 33.00674157303371,
+      "grad_norm": 0.019866686314344406,
+      "learning_rate": 1.8102372034956306e-05,
+      "loss": 0.0007,
+      "step": 3000
+    },
+    {
+      "epoch": 33.00898876404494,
+      "grad_norm": 0.0220208577811718,
+      "learning_rate": 1.797752808988764e-05,
+      "loss": 0.073,
+      "step": 3010
+    },
+    {
+      "epoch": 33.01123595505618,
+      "grad_norm": 0.05724029242992401,
+      "learning_rate": 1.7852684144818977e-05,
+      "loss": 0.0327,
+      "step": 3020
+    },
+    {
+      "epoch": 33.013483146067415,
+      "grad_norm": 0.06116447225213051,
+      "learning_rate": 1.772784019975031e-05,
+      "loss": 0.0046,
+      "step": 3030
+    },
+    {
+      "epoch": 33.01573033707865,
+      "grad_norm": 1.6813271045684814,
+      "learning_rate": 1.760299625468165e-05,
+      "loss": 0.0632,
+      "step": 3040
+    },
+    {
+      "epoch": 33.01797752808989,
+      "grad_norm": 0.07180715352296829,
+      "learning_rate": 1.7478152309612985e-05,
+      "loss": 0.003,
+      "step": 3050
+    },
+    {
+      "epoch": 33.02022471910112,
+      "grad_norm": 0.04319235309958458,
+      "learning_rate": 1.7353308364544323e-05,
+      "loss": 0.0021,
+      "step": 3060
+    },
+    {
+      "epoch": 33.02022471910112,
+      "eval_accuracy": 0.37257438551099614,
+      "eval_loss": 4.647999286651611,
+      "eval_runtime": 303.1066,
+      "eval_samples_per_second": 2.55,
+      "eval_steps_per_second": 0.162,
+      "step": 3060
+    },
+    {
+      "epoch": 34.002247191011236,
+      "grad_norm": 0.013276039622724056,
+      "learning_rate": 1.7228464419475657e-05,
+      "loss": 0.0017,
+      "step": 3070
+    },
+    {
+      "epoch": 34.00449438202247,
+      "grad_norm": 0.04157795011997223,
+      "learning_rate": 1.7103620474406994e-05,
+      "loss": 0.029,
+      "step": 3080
+    },
+    {
+      "epoch": 34.00674157303371,
+      "grad_norm": 0.049296777695417404,
+      "learning_rate": 1.6978776529338328e-05,
+      "loss": 0.0014,
+      "step": 3090
+    },
+    {
+      "epoch": 34.00898876404494,
+      "grad_norm": 0.02109871432185173,
+      "learning_rate": 1.6853932584269665e-05,
+      "loss": 0.0184,
+      "step": 3100
+    },
+    {
+      "epoch": 34.01123595505618,
+      "grad_norm": 0.04515732452273369,
+      "learning_rate": 1.6729088639201e-05,
+      "loss": 0.0318,
+      "step": 3110
+    },
+    {
+      "epoch": 34.013483146067415,
+      "grad_norm": 0.0058238692581653595,
+      "learning_rate": 1.6604244694132333e-05,
+      "loss": 0.0385,
+      "step": 3120
+    },
+    {
+      "epoch": 34.01573033707865,
+      "grad_norm": 0.01912079006433487,
+      "learning_rate": 1.647940074906367e-05,
+      "loss": 0.0007,
+      "step": 3130
+    },
+    {
+      "epoch": 34.01797752808989,
+      "grad_norm": 0.03223242983222008,
+      "learning_rate": 1.6354556803995007e-05,
+      "loss": 0.0351,
+      "step": 3140
+    },
+    {
+      "epoch": 34.02022471910112,
+      "grad_norm": 0.015201385132968426,
+      "learning_rate": 1.6229712858926345e-05,
+      "loss": 0.0103,
+      "step": 3150
+    },
+    {
+      "epoch": 34.02022471910112,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 6.121939659118652,
+      "eval_runtime": 396.7515,
+      "eval_samples_per_second": 1.948,
+      "eval_steps_per_second": 0.124,
+      "step": 3150
+    },
+    {
+      "epoch": 35.002247191011236,
+      "grad_norm": 0.005879187490791082,
+      "learning_rate": 1.610486891385768e-05,
+      "loss": 0.0007,
+      "step": 3160
+    },
+    {
+      "epoch": 35.00449438202247,
+      "grad_norm": 0.011820907704532146,
+      "learning_rate": 1.5980024968789016e-05,
+      "loss": 0.0406,
+      "step": 3170
+    },
+    {
+      "epoch": 35.00674157303371,
+      "grad_norm": 0.014389347285032272,
+      "learning_rate": 1.585518102372035e-05,
+      "loss": 0.0009,
+      "step": 3180
+    },
+    {
+      "epoch": 35.00898876404494,
+      "grad_norm": 0.015713289380073547,
+      "learning_rate": 1.5730337078651687e-05,
+      "loss": 0.0458,
+      "step": 3190
+    },
+    {
+      "epoch": 35.01123595505618,
+      "grad_norm": 0.025565631687641144,
+      "learning_rate": 1.560549313358302e-05,
+      "loss": 0.0009,
+      "step": 3200
+    },
+    {
+      "epoch": 35.013483146067415,
+      "grad_norm": 0.02846636064350605,
+      "learning_rate": 1.5480649188514358e-05,
+      "loss": 0.0311,
+      "step": 3210
+    },
+    {
+      "epoch": 35.01573033707865,
+      "grad_norm": 0.02792159467935562,
+      "learning_rate": 1.5355805243445692e-05,
+      "loss": 0.0029,
+      "step": 3220
+    },
+    {
+      "epoch": 35.01797752808989,
+      "grad_norm": 0.013648627325892448,
+      "learning_rate": 1.523096129837703e-05,
+      "loss": 0.0007,
+      "step": 3230
+    },
+    {
+      "epoch": 35.02022471910112,
+      "grad_norm": 0.07899946719408035,
+      "learning_rate": 1.5106117353308366e-05,
+      "loss": 0.039,
+      "step": 3240
+    },
+    {
+      "epoch": 35.02022471910112,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 6.1177849769592285,
+      "eval_runtime": 306.2905,
+      "eval_samples_per_second": 2.524,
+      "eval_steps_per_second": 0.16,
+      "step": 3240
+    },
+    {
+      "epoch": 36.002247191011236,
+      "grad_norm": 0.049049124121665955,
+      "learning_rate": 1.4981273408239702e-05,
+      "loss": 0.0016,
+      "step": 3250
+    },
+    {
+      "epoch": 36.00449438202247,
+      "grad_norm": 0.05747610330581665,
+      "learning_rate": 1.4856429463171038e-05,
+      "loss": 0.0299,
+      "step": 3260
+    },
+    {
+      "epoch": 36.00674157303371,
+      "grad_norm": 0.03523377701640129,
+      "learning_rate": 1.4731585518102373e-05,
+      "loss": 0.0015,
+      "step": 3270
+    },
+    {
+      "epoch": 36.00898876404494,
+      "grad_norm": 0.03630174323916435,
+      "learning_rate": 1.4606741573033709e-05,
+      "loss": 0.0677,
+      "step": 3280
+    },
+    {
+      "epoch": 36.01123595505618,
+      "grad_norm": 0.03166479244828224,
+      "learning_rate": 1.4481897627965044e-05,
+      "loss": 0.0041,
+      "step": 3290
+    },
+    {
+      "epoch": 36.013483146067415,
+      "grad_norm": 0.03983873128890991,
+      "learning_rate": 1.435705368289638e-05,
+      "loss": 0.0016,
+      "step": 3300
+    },
+    {
+      "epoch": 36.01573033707865,
+      "grad_norm": 0.015312553383409977,
+      "learning_rate": 1.4232209737827715e-05,
+      "loss": 0.0009,
+      "step": 3310
+    },
+    {
+      "epoch": 36.01797752808989,
+      "grad_norm": 0.009930821135640144,
+      "learning_rate": 1.4107365792759053e-05,
+      "loss": 0.014,
+      "step": 3320
+    },
+    {
+      "epoch": 36.02022471910112,
+      "grad_norm": 0.010043827816843987,
+      "learning_rate": 1.3982521847690388e-05,
+      "loss": 0.0363,
+      "step": 3330
+    },
+    {
+      "epoch": 36.02022471910112,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.580588340759277,
+      "eval_runtime": 300.5478,
+      "eval_samples_per_second": 2.572,
+      "eval_steps_per_second": 0.163,
+      "step": 3330
+    },
+    {
+      "epoch": 37.002247191011236,
+      "grad_norm": 0.04191559925675392,
+      "learning_rate": 1.3857677902621724e-05,
+      "loss": 0.0012,
+      "step": 3340
+    },
+    {
+      "epoch": 37.00449438202247,
+      "grad_norm": 0.02907818742096424,
+      "learning_rate": 1.373283395755306e-05,
+      "loss": 0.0243,
+      "step": 3350
+    },
+    {
+      "epoch": 37.00674157303371,
+      "grad_norm": 0.009355819784104824,
+      "learning_rate": 1.3607990012484395e-05,
+      "loss": 0.0356,
+      "step": 3360
+    },
+    {
+      "epoch": 37.00898876404494,
+      "grad_norm": 0.025420306250452995,
+      "learning_rate": 1.348314606741573e-05,
+      "loss": 0.0596,
+      "step": 3370
+    },
+    {
+      "epoch": 37.01123595505618,
+      "grad_norm": 0.016435761004686356,
+      "learning_rate": 1.3358302122347066e-05,
+      "loss": 0.0021,
+      "step": 3380
+    },
+    {
+      "epoch": 37.013483146067415,
+      "grad_norm": 0.012210534885525703,
+      "learning_rate": 1.3233458177278402e-05,
+      "loss": 0.0008,
+      "step": 3390
+    },
+    {
+      "epoch": 37.01573033707865,
+      "grad_norm": 0.02066761627793312,
+      "learning_rate": 1.3108614232209737e-05,
+      "loss": 0.0009,
+      "step": 3400
+    },
+    {
+      "epoch": 37.01797752808989,
+      "grad_norm": 0.02623753249645233,
+      "learning_rate": 1.2983770287141076e-05,
+      "loss": 0.035,
+      "step": 3410
+    },
+    {
+      "epoch": 37.02022471910112,
+      "grad_norm": 0.027239438146352768,
+      "learning_rate": 1.285892634207241e-05,
+      "loss": 0.001,
+      "step": 3420
+    },
+    {
+      "epoch": 37.02022471910112,
+      "eval_accuracy": 0.6222509702457956,
+      "eval_loss": 3.0043742656707764,
+      "eval_runtime": 294.5119,
+      "eval_samples_per_second": 2.625,
+      "eval_steps_per_second": 0.166,
+      "step": 3420
+    },
+    {
+      "epoch": 38.002247191011236,
+      "grad_norm": 0.02889459766447544,
+      "learning_rate": 1.2734082397003746e-05,
+      "loss": 0.0011,
+      "step": 3430
+    },
+    {
+      "epoch": 38.00449438202247,
+      "grad_norm": 0.04096652567386627,
+      "learning_rate": 1.2609238451935081e-05,
+      "loss": 0.0251,
+      "step": 3440
+    },
+    {
+      "epoch": 38.00674157303371,
+      "grad_norm": 0.04747606813907623,
+      "learning_rate": 1.2484394506866417e-05,
+      "loss": 0.0378,
+      "step": 3450
+    },
+    {
+      "epoch": 38.00898876404494,
+      "grad_norm": 0.03352310508489609,
+      "learning_rate": 1.2359550561797752e-05,
+      "loss": 0.0022,
+      "step": 3460
+    },
+    {
+      "epoch": 38.01123595505618,
+      "grad_norm": 0.06360885500907898,
+      "learning_rate": 1.2234706616729088e-05,
+      "loss": 0.0017,
+      "step": 3470
+    },
+    {
+      "epoch": 38.013483146067415,
+      "grad_norm": 1.631386637687683,
+      "learning_rate": 1.2109862671660425e-05,
+      "loss": 0.032,
+      "step": 3480
+    },
+    {
+      "epoch": 38.01573033707865,
+      "grad_norm": 1.7111048698425293,
+      "learning_rate": 1.1985018726591761e-05,
+      "loss": 0.0298,
+      "step": 3490
+    },
+    {
+      "epoch": 38.01797752808989,
+      "grad_norm": 0.041028641164302826,
+      "learning_rate": 1.1860174781523096e-05,
+      "loss": 0.0092,
+      "step": 3500
+    },
+    {
+      "epoch": 38.02022471910112,
+      "grad_norm": 0.016466397792100906,
+      "learning_rate": 1.1735330836454432e-05,
+      "loss": 0.0031,
+      "step": 3510
+    },
+    {
+      "epoch": 38.02022471910112,
+      "eval_accuracy": 0.34023285899094435,
+      "eval_loss": 5.574769020080566,
+      "eval_runtime": 344.7805,
+      "eval_samples_per_second": 2.242,
+      "eval_steps_per_second": 0.142,
+      "step": 3510
+    },
+    {
+      "epoch": 39.002247191011236,
+      "grad_norm": 0.05005490779876709,
+      "learning_rate": 1.161048689138577e-05,
+      "loss": 0.0013,
+      "step": 3520
+    },
+    {
+      "epoch": 39.00449438202247,
+      "grad_norm": 0.02787802182137966,
+      "learning_rate": 1.1485642946317105e-05,
+      "loss": 0.0012,
+      "step": 3530
+    },
+    {
+      "epoch": 39.00674157303371,
+      "grad_norm": 0.00706561328843236,
+      "learning_rate": 1.136079900124844e-05,
+      "loss": 0.0006,
+      "step": 3540
+    },
+    {
+      "epoch": 39.00898876404494,
+      "grad_norm": 0.007546106819063425,
+      "learning_rate": 1.1235955056179776e-05,
+      "loss": 0.0004,
+      "step": 3550
+    },
+    {
+      "epoch": 39.01123595505618,
+      "grad_norm": 0.022885961458086967,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.0004,
+      "step": 3560
+    },
+    {
+      "epoch": 39.013483146067415,
+      "grad_norm": 0.010719657875597477,
+      "learning_rate": 1.0986267166042447e-05,
+      "loss": 0.025,
+      "step": 3570
+    },
+    {
+      "epoch": 39.01573033707865,
+      "grad_norm": 0.0037333795335143805,
+      "learning_rate": 1.0861423220973783e-05,
+      "loss": 0.0264,
+      "step": 3580
+    },
+    {
+      "epoch": 39.01797752808989,
+      "grad_norm": 0.015252028591930866,
+      "learning_rate": 1.0736579275905118e-05,
+      "loss": 0.0004,
+      "step": 3590
+    },
+    {
+      "epoch": 39.02022471910112,
+      "grad_norm": 0.03425499051809311,
+      "learning_rate": 1.0611735330836454e-05,
+      "loss": 0.0507,
+      "step": 3600
+    },
+    {
+      "epoch": 39.02022471910112,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.198662757873535,
+      "eval_runtime": 300.7511,
+      "eval_samples_per_second": 2.57,
+      "eval_steps_per_second": 0.163,
+      "step": 3600
+    },
+    {
+      "epoch": 40.002247191011236,
+      "grad_norm": 0.12242499738931656,
+      "learning_rate": 1.0486891385767791e-05,
+      "loss": 0.001,
+      "step": 3610
+    },
+    {
+      "epoch": 40.00449438202247,
+      "grad_norm": 0.4021182060241699,
+      "learning_rate": 1.0362047440699127e-05,
+      "loss": 0.0391,
+      "step": 3620
+    },
+    {
+      "epoch": 40.00674157303371,
+      "grad_norm": 0.005329201929271221,
+      "learning_rate": 1.0237203495630462e-05,
+      "loss": 0.0025,
+      "step": 3630
+    },
+    {
+      "epoch": 40.00898876404494,
+      "grad_norm": 0.1311003714799881,
+      "learning_rate": 1.0112359550561798e-05,
+      "loss": 0.0008,
+      "step": 3640
+    },
+    {
+      "epoch": 40.01123595505618,
+      "grad_norm": 0.004013449884951115,
+      "learning_rate": 9.987515605493134e-06,
+      "loss": 0.0007,
+      "step": 3650
+    },
+    {
+      "epoch": 40.013483146067415,
+      "grad_norm": 3.0733349323272705,
+      "learning_rate": 9.86267166042447e-06,
+      "loss": 0.0373,
+      "step": 3660
+    },
+    {
+      "epoch": 40.01573033707865,
+      "grad_norm": 0.02098255604505539,
+      "learning_rate": 9.737827715355806e-06,
+      "loss": 0.0005,
+      "step": 3670
+    },
+    {
+      "epoch": 40.01797752808989,
+      "grad_norm": 0.010064397938549519,
+      "learning_rate": 9.612983770287142e-06,
+      "loss": 0.0007,
+      "step": 3680
+    },
+    {
+      "epoch": 40.02022471910112,
+      "grad_norm": 0.03359581157565117,
+      "learning_rate": 9.488139825218478e-06,
+      "loss": 0.026,
+      "step": 3690
+    },
+    {
+      "epoch": 40.02022471910112,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.082982540130615,
+      "eval_runtime": 287.2511,
+      "eval_samples_per_second": 2.691,
+      "eval_steps_per_second": 0.171,
+      "step": 3690
+    },
+    {
+      "epoch": 41.002247191011236,
+      "grad_norm": 0.0668310597538948,
+      "learning_rate": 9.363295880149813e-06,
+      "loss": 0.0015,
+      "step": 3700
+    },
+    {
+      "epoch": 41.00449438202247,
+      "grad_norm": 0.02239208109676838,
+      "learning_rate": 9.238451935081149e-06,
+      "loss": 0.0008,
+      "step": 3710
+    },
+    {
+      "epoch": 41.00674157303371,
+      "grad_norm": 0.014757172204554081,
+      "learning_rate": 9.113607990012484e-06,
+      "loss": 0.0004,
+      "step": 3720
+    },
+    {
+      "epoch": 41.00898876404494,
+      "grad_norm": 0.014439449645578861,
+      "learning_rate": 8.98876404494382e-06,
+      "loss": 0.0258,
+      "step": 3730
+    },
+    {
+      "epoch": 41.01123595505618,
+      "grad_norm": 0.02586790733039379,
+      "learning_rate": 8.863920099875155e-06,
+      "loss": 0.0008,
+      "step": 3740
+    },
+    {
+      "epoch": 41.013483146067415,
+      "grad_norm": 0.01682235859334469,
+      "learning_rate": 8.739076154806493e-06,
+      "loss": 0.0007,
+      "step": 3750
+    },
+    {
+      "epoch": 41.01573033707865,
+      "grad_norm": 2.420248508453369,
+      "learning_rate": 8.614232209737828e-06,
+      "loss": 0.0652,
+      "step": 3760
+    },
+    {
+      "epoch": 41.01797752808989,
+      "grad_norm": 0.005543038249015808,
+      "learning_rate": 8.489388264669164e-06,
+      "loss": 0.001,
+      "step": 3770
+    },
+    {
+      "epoch": 41.02022471910112,
+      "grad_norm": 0.05314994975924492,
+      "learning_rate": 8.3645443196005e-06,
+      "loss": 0.0037,
+      "step": 3780
+    },
+    {
+      "epoch": 41.02022471910112,
+      "eval_accuracy": 0.36739974126778785,
+      "eval_loss": 5.115584850311279,
+      "eval_runtime": 303.1998,
+      "eval_samples_per_second": 2.549,
+      "eval_steps_per_second": 0.162,
+      "step": 3780
+    },
+    {
+      "epoch": 42.002247191011236,
+      "grad_norm": 0.009197683073580265,
+      "learning_rate": 8.239700374531835e-06,
+      "loss": 0.0007,
+      "step": 3790
+    },
+    {
+      "epoch": 42.00449438202247,
+      "grad_norm": 0.026024773716926575,
+      "learning_rate": 8.114856429463172e-06,
+      "loss": 0.0099,
+      "step": 3800
+    },
+    {
+      "epoch": 42.00674157303371,
+      "grad_norm": 0.006882408633828163,
+      "learning_rate": 7.990012484394508e-06,
+      "loss": 0.0005,
+      "step": 3810
+    },
+    {
+      "epoch": 42.00898876404494,
+      "grad_norm": 0.008539941161870956,
+      "learning_rate": 7.865168539325843e-06,
+      "loss": 0.0011,
+      "step": 3820
+    },
+    {
+      "epoch": 42.01123595505618,
+      "grad_norm": 0.010466672480106354,
+      "learning_rate": 7.740324594257179e-06,
+      "loss": 0.0012,
+      "step": 3830
+    },
+    {
+      "epoch": 42.013483146067415,
+      "grad_norm": 0.01654103398323059,
+      "learning_rate": 7.615480649188515e-06,
+      "loss": 0.0004,
+      "step": 3840
+    },
+    {
+      "epoch": 42.01573033707865,
+      "grad_norm": 0.00959163997322321,
+      "learning_rate": 7.490636704119851e-06,
+      "loss": 0.0006,
+      "step": 3850
+    },
+    {
+      "epoch": 42.01797752808989,
+      "grad_norm": 0.06230335310101509,
+      "learning_rate": 7.3657927590511866e-06,
+      "loss": 0.0005,
+      "step": 3860
+    },
+    {
+      "epoch": 42.02022471910112,
+      "grad_norm": 0.003797879908233881,
+      "learning_rate": 7.240948813982522e-06,
+      "loss": 0.0332,
+      "step": 3870
+    },
+    {
+      "epoch": 42.02022471910112,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.296960830688477,
+      "eval_runtime": 299.3441,
+      "eval_samples_per_second": 2.582,
+      "eval_steps_per_second": 0.164,
+      "step": 3870
+    },
+    {
+      "epoch": 43.002247191011236,
+      "grad_norm": 0.013983920216560364,
+      "learning_rate": 7.116104868913858e-06,
+      "loss": 0.0269,
+      "step": 3880
+    },
+    {
+      "epoch": 43.00449438202247,
+      "grad_norm": 0.14841292798519135,
+      "learning_rate": 6.991260923845194e-06,
+      "loss": 0.0413,
+      "step": 3890
+    },
+    {
+      "epoch": 43.00674157303371,
+      "grad_norm": 0.009824411943554878,
+      "learning_rate": 6.86641697877653e-06,
+      "loss": 0.0005,
+      "step": 3900
+    },
+    {
+      "epoch": 43.00898876404494,
+      "grad_norm": 0.04055115953087807,
+      "learning_rate": 6.741573033707865e-06,
+      "loss": 0.0311,
+      "step": 3910
+    },
+    {
+      "epoch": 43.01123595505618,
+      "grad_norm": 0.03246951103210449,
+      "learning_rate": 6.616729088639201e-06,
+      "loss": 0.0009,
+      "step": 3920
+    },
+    {
+      "epoch": 43.013483146067415,
+      "grad_norm": 0.007103465497493744,
+      "learning_rate": 6.491885143570538e-06,
+      "loss": 0.0007,
+      "step": 3930
+    },
+    {
+      "epoch": 43.01573033707865,
+      "grad_norm": 0.014741869643330574,
+      "learning_rate": 6.367041198501873e-06,
+      "loss": 0.0006,
+      "step": 3940
+    },
+    {
+      "epoch": 43.01797752808989,
+      "grad_norm": 0.0032137033995240927,
+      "learning_rate": 6.2421972534332085e-06,
+      "loss": 0.0009,
+      "step": 3950
+    },
+    {
+      "epoch": 43.02022471910112,
+      "grad_norm": 0.03307018056511879,
+      "learning_rate": 6.117353308364544e-06,
+      "loss": 0.0004,
+      "step": 3960
+    },
+    {
+      "epoch": 43.02022471910112,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.138851165771484,
+      "eval_runtime": 352.1276,
+      "eval_samples_per_second": 2.195,
+      "eval_steps_per_second": 0.139,
+      "step": 3960
+    },
+    {
+      "epoch": 44.002247191011236,
+      "grad_norm": 0.027850504964590073,
+      "learning_rate": 5.9925093632958805e-06,
+      "loss": 0.0006,
+      "step": 3970
+    },
+    {
+      "epoch": 44.00449438202247,
+      "grad_norm": 0.005263834726065397,
+      "learning_rate": 5.867665418227216e-06,
+      "loss": 0.0005,
+      "step": 3980
+    },
+    {
+      "epoch": 44.00674157303371,
+      "grad_norm": 0.031321991235017776,
+      "learning_rate": 5.7428214731585525e-06,
+      "loss": 0.0004,
+      "step": 3990
+    },
+    {
+      "epoch": 44.00898876404494,
+      "grad_norm": 0.036189004778862,
+      "learning_rate": 5.617977528089888e-06,
+      "loss": 0.0003,
+      "step": 4000
+    },
+    {
+      "epoch": 44.01123595505618,
+      "grad_norm": 0.01437300629913807,
+      "learning_rate": 5.493133583021224e-06,
+      "loss": 0.0326,
+      "step": 4010
+    },
+    {
+      "epoch": 44.013483146067415,
+      "grad_norm": 0.004481036216020584,
+      "learning_rate": 5.368289637952559e-06,
+      "loss": 0.0004,
+      "step": 4020
+    },
+    {
+      "epoch": 44.01573033707865,
+      "grad_norm": 5.446296215057373,
+      "learning_rate": 5.243445692883896e-06,
+      "loss": 0.0245,
+      "step": 4030
+    },
+    {
+      "epoch": 44.01797752808989,
+      "grad_norm": 0.03322074934840202,
+      "learning_rate": 5.118601747815231e-06,
+      "loss": 0.0005,
+      "step": 4040
+    },
+    {
+      "epoch": 44.02022471910112,
+      "grad_norm": 0.01612257957458496,
+      "learning_rate": 4.993757802746567e-06,
+      "loss": 0.0005,
+      "step": 4050
+    },
+    {
+      "epoch": 44.02022471910112,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.487203121185303,
+      "eval_runtime": 346.1337,
+      "eval_samples_per_second": 2.233,
+      "eval_steps_per_second": 0.142,
+      "step": 4050
+    },
+    {
+      "epoch": 45.002247191011236,
+      "grad_norm": 0.10249646008014679,
+      "learning_rate": 4.868913857677903e-06,
+      "loss": 0.0006,
+      "step": 4060
+    },
+    {
+      "epoch": 45.00449438202247,
+      "grad_norm": 0.01965424045920372,
+      "learning_rate": 4.744069912609239e-06,
+      "loss": 0.0012,
+      "step": 4070
+    },
+    {
+      "epoch": 45.00674157303371,
+      "grad_norm": 0.004558570217341185,
+      "learning_rate": 4.619225967540574e-06,
+      "loss": 0.0003,
+      "step": 4080
+    },
+    {
+      "epoch": 45.00898876404494,
+      "grad_norm": 0.00845757033675909,
+      "learning_rate": 4.49438202247191e-06,
+      "loss": 0.0003,
+      "step": 4090
+    },
+    {
+      "epoch": 45.01123595505618,
+      "grad_norm": 0.010018822737038136,
+      "learning_rate": 4.369538077403246e-06,
+      "loss": 0.0002,
+      "step": 4100
+    },
+    {
+      "epoch": 45.013483146067415,
+      "grad_norm": 0.021851379424333572,
+      "learning_rate": 4.244694132334582e-06,
+      "loss": 0.0292,
+      "step": 4110
+    },
+    {
+      "epoch": 45.01573033707865,
+      "grad_norm": 0.048974115401506424,
+      "learning_rate": 4.1198501872659175e-06,
+      "loss": 0.0036,
+      "step": 4120
+    },
+    {
+      "epoch": 45.01797752808989,
+      "grad_norm": 0.004967077169567347,
+      "learning_rate": 3.995006242197254e-06,
+      "loss": 0.0005,
+      "step": 4130
+    },
+    {
+      "epoch": 45.02022471910112,
+      "grad_norm": 0.002462703036144376,
+      "learning_rate": 3.8701622971285895e-06,
+      "loss": 0.0535,
+      "step": 4140
+    },
+    {
+      "epoch": 45.02022471910112,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.3780927658081055,
+      "eval_runtime": 289.1026,
+      "eval_samples_per_second": 2.674,
+      "eval_steps_per_second": 0.169,
+      "step": 4140
+    },
+    {
+      "epoch": 46.002247191011236,
+      "grad_norm": 0.00382815208286047,
+      "learning_rate": 3.7453183520599255e-06,
+      "loss": 0.0005,
+      "step": 4150
+    },
+    {
+      "epoch": 46.00449438202247,
+      "grad_norm": 0.10452337563037872,
+      "learning_rate": 3.620474406991261e-06,
+      "loss": 0.0007,
+      "step": 4160
+    },
+    {
+      "epoch": 46.00674157303371,
+      "grad_norm": 0.020702200010418892,
+      "learning_rate": 3.495630461922597e-06,
+      "loss": 0.0004,
+      "step": 4170
+    },
+    {
+      "epoch": 46.00898876404494,
+      "grad_norm": 0.015017688274383545,
+      "learning_rate": 3.3707865168539327e-06,
+      "loss": 0.023,
+      "step": 4180
+    },
+    {
+      "epoch": 46.01123595505618,
+      "grad_norm": 0.4489755928516388,
+      "learning_rate": 3.245942571785269e-06,
+      "loss": 0.0008,
+      "step": 4190
+    },
+    {
+      "epoch": 46.013483146067415,
+      "grad_norm": 0.001848419662564993,
+      "learning_rate": 3.1210986267166042e-06,
+      "loss": 0.0004,
+      "step": 4200
+    },
+    {
+      "epoch": 46.01573033707865,
+      "grad_norm": 0.005650599952787161,
+      "learning_rate": 2.9962546816479402e-06,
+      "loss": 0.0006,
+      "step": 4210
+    },
+    {
+      "epoch": 46.01797752808989,
+      "grad_norm": 0.008271172642707825,
+      "learning_rate": 2.8714107365792762e-06,
+      "loss": 0.0469,
+      "step": 4220
+    },
+    {
+      "epoch": 46.02022471910112,
+      "grad_norm": 0.014952776953577995,
+      "learning_rate": 2.746566791510612e-06,
+      "loss": 0.0007,
+      "step": 4230
+    },
+    {
+      "epoch": 46.02022471910112,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.643406867980957,
+      "eval_runtime": 350.3809,
+      "eval_samples_per_second": 2.206,
+      "eval_steps_per_second": 0.14,
+      "step": 4230
+    },
+    {
+      "epoch": 47.002247191011236,
+      "grad_norm": 0.00561157800257206,
+      "learning_rate": 2.621722846441948e-06,
+      "loss": 0.0006,
+      "step": 4240
+    },
+    {
+      "epoch": 47.00449438202247,
+      "grad_norm": 0.019782327115535736,
+      "learning_rate": 2.4968789013732834e-06,
+      "loss": 0.0003,
+      "step": 4250
+    },
+    {
+      "epoch": 47.00674157303371,
+      "grad_norm": 0.01003081165254116,
+      "learning_rate": 2.3720349563046194e-06,
+      "loss": 0.0301,
+      "step": 4260
+    },
+    {
+      "epoch": 47.00898876404494,
+      "grad_norm": 0.012754262425005436,
+      "learning_rate": 2.247191011235955e-06,
+      "loss": 0.0005,
+      "step": 4270
+    },
+    {
+      "epoch": 47.01123595505618,
+      "grad_norm": 0.06103210523724556,
+      "learning_rate": 2.122347066167291e-06,
+      "loss": 0.0395,
+      "step": 4280
+    },
+    {
+      "epoch": 47.013483146067415,
+      "grad_norm": 0.01997164450585842,
+      "learning_rate": 1.997503121098627e-06,
+      "loss": 0.0007,
+      "step": 4290
+    },
+    {
+      "epoch": 47.01573033707865,
+      "grad_norm": 0.011755211278796196,
+      "learning_rate": 1.8726591760299627e-06,
+      "loss": 0.0003,
+      "step": 4300
+    },
+    {
+      "epoch": 47.01797752808989,
+      "grad_norm": 0.011371107771992683,
+      "learning_rate": 1.7478152309612985e-06,
+      "loss": 0.0005,
+      "step": 4310
+    },
+    {
+      "epoch": 47.02022471910112,
+      "grad_norm": 0.00812207069247961,
+      "learning_rate": 1.6229712858926345e-06,
+      "loss": 0.0197,
+      "step": 4320
+    },
+    {
+      "epoch": 47.02022471910112,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.724650859832764,
+      "eval_runtime": 316.4918,
+      "eval_samples_per_second": 2.442,
+      "eval_steps_per_second": 0.155,
+      "step": 4320
+    },
+    {
+      "epoch": 48.002247191011236,
+      "grad_norm": 0.018794557079672813,
+      "learning_rate": 1.4981273408239701e-06,
+      "loss": 0.0004,
+      "step": 4330
+    },
+    {
+      "epoch": 48.00449438202247,
+      "grad_norm": 0.012647592462599277,
+      "learning_rate": 1.373283395755306e-06,
+      "loss": 0.0007,
+      "step": 4340
+    },
+    {
+      "epoch": 48.00674157303371,
+      "grad_norm": 2.9073069095611572,
+      "learning_rate": 1.2484394506866417e-06,
+      "loss": 0.0394,
+      "step": 4350
+    },
+    {
+      "epoch": 48.00898876404494,
+      "grad_norm": 0.01212468184530735,
+      "learning_rate": 1.1235955056179775e-06,
+      "loss": 0.0009,
+      "step": 4360
+    },
+    {
+      "epoch": 48.01123595505618,
+      "grad_norm": 0.013384783640503883,
+      "learning_rate": 9.987515605493135e-07,
+      "loss": 0.0005,
+      "step": 4370
+    },
+    {
+      "epoch": 48.013483146067415,
+      "grad_norm": 0.02995358593761921,
+      "learning_rate": 8.739076154806493e-07,
+      "loss": 0.0006,
+      "step": 4380
+    },
+    {
+      "epoch": 48.01573033707865,
+      "grad_norm": 0.009797775186598301,
+      "learning_rate": 7.490636704119851e-07,
+      "loss": 0.0009,
+      "step": 4390
+    },
+    {
+      "epoch": 48.01797752808989,
+      "grad_norm": 0.00529641006141901,
+      "learning_rate": 6.242197253433208e-07,
+      "loss": 0.0006,
+      "step": 4400
+    },
+    {
+      "epoch": 48.02022471910112,
+      "grad_norm": 0.047177501022815704,
+      "learning_rate": 4.993757802746567e-07,
+      "loss": 0.0008,
+      "step": 4410
+    },
+    {
+      "epoch": 48.02022471910112,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.757874965667725,
+      "eval_runtime": 341.4522,
+      "eval_samples_per_second": 2.264,
+      "eval_steps_per_second": 0.144,
+      "step": 4410
+    },
+    {
+      "epoch": 49.002247191011236,
+      "grad_norm": 0.0071371011435985565,
+      "learning_rate": 3.7453183520599253e-07,
+      "loss": 0.0004,
+      "step": 4420
+    },
+    {
+      "epoch": 49.00449438202247,
+      "grad_norm": 0.010511082597076893,
+      "learning_rate": 2.4968789013732837e-07,
+      "loss": 0.0127,
+      "step": 4430
+    },
+    {
+      "epoch": 49.00674157303371,
+      "grad_norm": 0.006362362299114466,
+      "learning_rate": 1.2484394506866418e-07,
+      "loss": 0.0004,
+      "step": 4440
+    },
+    {
+      "epoch": 49.00898876404494,
+      "grad_norm": 0.004377502948045731,
+      "learning_rate": 0.0,
+      "loss": 0.0007,
+      "step": 4450
+    },
+    {
+      "epoch": 49.00898876404494,
+      "eval_accuracy": 0.3648124191461837,
+      "eval_loss": 5.757900714874268,
+      "eval_runtime": 297.0765,
+      "eval_samples_per_second": 2.602,
+      "eval_steps_per_second": 0.165,
+      "step": 4450
+    },
+    {
+      "epoch": 49.00898876404494,
+      "step": 4450,
+      "total_flos": 8.84145129459676e+19,
+      "train_loss": 0.03518637677183731,
+      "train_runtime": 60526.4933,
+      "train_samples_per_second": 1.176,
+      "train_steps_per_second": 0.074
+    },
+    {
+      "epoch": 49.00898876404494,
+      "eval_accuracy": 0.8771021992238034,
+      "eval_loss": 0.9978875517845154,
+      "eval_runtime": 293.2635,
+      "eval_samples_per_second": 2.636,
+      "eval_steps_per_second": 0.167,
+      "step": 4450
+    },
+    {
+      "epoch": 49.00898876404494,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.00010065778042189777,
+      "eval_runtime": 340.718,
+      "eval_samples_per_second": 2.421,
+      "eval_steps_per_second": 0.153,
+      "step": 4450
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 4450,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9223372036854775807,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.84145129459676e+19,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}