diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,7381 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 27.51196172248804,
+  "eval_steps": 1000,
+  "global_step": 92000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "grad_norm": 3.539609432220459,
+      "learning_rate": 4.99925228054434e-05,
+      "loss": 2.134,
+      "step": 100
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 3.197829246520996,
+      "learning_rate": 4.997756841633019e-05,
+      "loss": 0.6178,
+      "step": 200
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 3.3991429805755615,
+      "learning_rate": 4.996261402721699e-05,
+      "loss": 0.5496,
+      "step": 300
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 3.072633743286133,
+      "learning_rate": 4.9947659638103784e-05,
+      "loss": 0.5228,
+      "step": 400
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 2.4815468788146973,
+      "learning_rate": 4.993270524899058e-05,
+      "loss": 0.5102,
+      "step": 500
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 2.794753313064575,
+      "learning_rate": 4.991775085987738e-05,
+      "loss": 0.4746,
+      "step": 600
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 2.1388251781463623,
+      "learning_rate": 4.9902796470764176e-05,
+      "loss": 0.4769,
+      "step": 700
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 2.518214225769043,
+      "learning_rate": 4.988784208165096e-05,
+      "loss": 0.4476,
+      "step": 800
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 4.257823467254639,
+      "learning_rate": 4.987288769253776e-05,
+      "loss": 0.439,
+      "step": 900
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 2.0235888957977295,
+      "learning_rate": 4.985793330342456e-05,
+      "loss": 0.4465,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 0.34466782212257385,
+      "eval_precision": 0.7649398815576958,
+      "eval_recall": 0.7874318790603159,
+      "eval_runtime": 321.2695,
+      "eval_samples_per_second": 41.629,
+      "eval_steps_per_second": 1.301,
+      "step": 1000
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 2.372622489929199,
+      "learning_rate": 4.984297891431135e-05,
+      "loss": 0.438,
+      "step": 1100
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 2.184081792831421,
+      "learning_rate": 4.982802452519815e-05,
+      "loss": 0.4319,
+      "step": 1200
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 1.180004358291626,
+      "learning_rate": 4.981307013608494e-05,
+      "loss": 0.4153,
+      "step": 1300
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.8515098094940186,
+      "learning_rate": 4.979811574697174e-05,
+      "loss": 0.4107,
+      "step": 1400
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 2.0762712955474854,
+      "learning_rate": 4.978316135785853e-05,
+      "loss": 0.4087,
+      "step": 1500
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 1.6716846227645874,
+      "learning_rate": 4.9768206968745326e-05,
+      "loss": 0.4082,
+      "step": 1600
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 2.9515812397003174,
+      "learning_rate": 4.9753252579632126e-05,
+      "loss": 0.398,
+      "step": 1700
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 1.9658855199813843,
+      "learning_rate": 4.973829819051892e-05,
+      "loss": 0.393,
+      "step": 1800
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 1.9613778591156006,
+      "learning_rate": 4.972334380140571e-05,
+      "loss": 0.3904,
+      "step": 1900
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 2.7774882316589355,
+      "learning_rate": 4.970838941229251e-05,
+      "loss": 0.3794,
+      "step": 2000
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 0.310618132352829,
+      "eval_precision": 0.7516943243620137,
+      "eval_recall": 0.8298285045721852,
+      "eval_runtime": 320.9754,
+      "eval_samples_per_second": 41.667,
+      "eval_steps_per_second": 1.302,
+      "step": 2000
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 1.4382622241973877,
+      "learning_rate": 4.969343502317931e-05,
+      "loss": 0.369,
+      "step": 2100
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 1.813565731048584,
+      "learning_rate": 4.96784806340661e-05,
+      "loss": 0.3751,
+      "step": 2200
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 2.279954195022583,
+      "learning_rate": 4.9663526244952897e-05,
+      "loss": 0.3804,
+      "step": 2300
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.9376351833343506,
+      "learning_rate": 4.9648571855839696e-05,
+      "loss": 0.3611,
+      "step": 2400
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 2.2867352962493896,
+      "learning_rate": 4.963361746672648e-05,
+      "loss": 0.3739,
+      "step": 2500
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 2.132394313812256,
+      "learning_rate": 4.961866307761328e-05,
+      "loss": 0.3669,
+      "step": 2600
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 2.0541863441467285,
+      "learning_rate": 4.9603708688500075e-05,
+      "loss": 0.366,
+      "step": 2700
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 2.1414847373962402,
+      "learning_rate": 4.9588754299386874e-05,
+      "loss": 0.3535,
+      "step": 2800
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 1.3949612379074097,
+      "learning_rate": 4.957379991027367e-05,
+      "loss": 0.3684,
+      "step": 2900
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 1.8921570777893066,
+      "learning_rate": 4.955884552116046e-05,
+      "loss": 0.3556,
+      "step": 3000
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.290554404258728,
+      "eval_precision": 0.79493216033703,
+      "eval_recall": 0.7901105329597586,
+      "eval_runtime": 307.7262,
+      "eval_samples_per_second": 43.461,
+      "eval_steps_per_second": 1.358,
+      "step": 3000
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 1.6217349767684937,
+      "learning_rate": 4.954389113204726e-05,
+      "loss": 0.3566,
+      "step": 3100
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.524946928024292,
+      "learning_rate": 4.952893674293405e-05,
+      "loss": 0.3477,
+      "step": 3200
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 1.6807836294174194,
+      "learning_rate": 4.9513982353820846e-05,
+      "loss": 0.3409,
+      "step": 3300
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 1.5750257968902588,
+      "learning_rate": 4.9499027964707645e-05,
+      "loss": 0.3178,
+      "step": 3400
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 1.43153715133667,
+      "learning_rate": 4.9484073575594445e-05,
+      "loss": 0.2888,
+      "step": 3500
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 1.4886215925216675,
+      "learning_rate": 4.946911918648123e-05,
+      "loss": 0.3153,
+      "step": 3600
+    },
+    {
+      "epoch": 1.11,
+      "grad_norm": 2.2148983478546143,
+      "learning_rate": 4.945416479736803e-05,
+      "loss": 0.3114,
+      "step": 3700
+    },
+    {
+      "epoch": 1.14,
+      "grad_norm": 1.3632937669754028,
+      "learning_rate": 4.9439210408254824e-05,
+      "loss": 0.3031,
+      "step": 3800
+    },
+    {
+      "epoch": 1.17,
+      "grad_norm": 1.8350048065185547,
+      "learning_rate": 4.9424256019141617e-05,
+      "loss": 0.292,
+      "step": 3900
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 1.1402252912521362,
+      "learning_rate": 4.9409301630028416e-05,
+      "loss": 0.2983,
+      "step": 4000
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 0.2781643867492676,
+      "eval_precision": 0.7788883753177721,
+      "eval_recall": 0.8301363958249947,
+      "eval_runtime": 307.2732,
+      "eval_samples_per_second": 43.525,
+      "eval_steps_per_second": 1.36,
+      "step": 4000
+    },
+    {
+      "epoch": 1.23,
+      "grad_norm": 1.2367932796478271,
+      "learning_rate": 4.939434724091521e-05,
+      "loss": 0.2894,
+      "step": 4100
+    },
+    {
+      "epoch": 1.26,
+      "grad_norm": 1.4055671691894531,
+      "learning_rate": 4.937939285180201e-05,
+      "loss": 0.2847,
+      "step": 4200
+    },
+    {
+      "epoch": 1.29,
+      "grad_norm": 1.910565972328186,
+      "learning_rate": 4.93644384626888e-05,
+      "loss": 0.2917,
+      "step": 4300
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 1.9085345268249512,
+      "learning_rate": 4.9349484073575595e-05,
+      "loss": 0.2934,
+      "step": 4400
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 1.5550158023834229,
+      "learning_rate": 4.9334529684462394e-05,
+      "loss": 0.2726,
+      "step": 4500
+    },
+    {
+      "epoch": 1.38,
+      "grad_norm": 2.1685421466827393,
+      "learning_rate": 4.931957529534919e-05,
+      "loss": 0.3077,
+      "step": 4600
+    },
+    {
+      "epoch": 1.41,
+      "grad_norm": 1.7528005838394165,
+      "learning_rate": 4.930462090623598e-05,
+      "loss": 0.2919,
+      "step": 4700
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 1.804412841796875,
+      "learning_rate": 4.928966651712278e-05,
+      "loss": 0.278,
+      "step": 4800
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 2.430739164352417,
+      "learning_rate": 4.927471212800957e-05,
+      "loss": 0.2901,
+      "step": 4900
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 1.5466407537460327,
+      "learning_rate": 4.9259757738896365e-05,
+      "loss": 0.2886,
+      "step": 5000
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 0.27095386385917664,
+      "eval_precision": 0.7892478844902066,
+      "eval_recall": 0.8212999168693618,
+      "eval_runtime": 308.5531,
+      "eval_samples_per_second": 43.344,
+      "eval_steps_per_second": 1.355,
+      "step": 5000
+    },
+    {
+      "epoch": 1.53,
+      "grad_norm": 1.1303741931915283,
+      "learning_rate": 4.9244803349783165e-05,
+      "loss": 0.291,
+      "step": 5100
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.3640042543411255,
+      "learning_rate": 4.922984896066996e-05,
+      "loss": 0.2897,
+      "step": 5200
+    },
+    {
+      "epoch": 1.58,
+      "grad_norm": 1.9915575981140137,
+      "learning_rate": 4.921489457155675e-05,
+      "loss": 0.2798,
+      "step": 5300
+    },
+    {
+      "epoch": 1.61,
+      "grad_norm": 1.574576735496521,
+      "learning_rate": 4.919994018244355e-05,
+      "loss": 0.2856,
+      "step": 5400
+    },
+    {
+      "epoch": 1.64,
+      "grad_norm": 1.9231148958206177,
+      "learning_rate": 4.918498579333034e-05,
+      "loss": 0.2819,
+      "step": 5500
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 2.171637773513794,
+      "learning_rate": 4.917003140421714e-05,
+      "loss": 0.2892,
+      "step": 5600
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 1.7447925806045532,
+      "learning_rate": 4.9155077015103936e-05,
+      "loss": 0.2837,
+      "step": 5700
+    },
+    {
+      "epoch": 1.73,
+      "grad_norm": 2.282715320587158,
+      "learning_rate": 4.914012262599073e-05,
+      "loss": 0.2888,
+      "step": 5800
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 2.041062831878662,
+      "learning_rate": 4.912516823687753e-05,
+      "loss": 0.2733,
+      "step": 5900
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 1.3900405168533325,
+      "learning_rate": 4.911021384776432e-05,
+      "loss": 0.2982,
+      "step": 6000
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 0.24861453473567963,
+      "eval_precision": 0.7945360585297875,
+      "eval_recall": 0.8426059915637797,
+      "eval_runtime": 306.7263,
+      "eval_samples_per_second": 43.602,
+      "eval_steps_per_second": 1.363,
+      "step": 6000
+    },
+    {
+      "epoch": 1.82,
+      "grad_norm": 2.156783103942871,
+      "learning_rate": 4.9095259458651114e-05,
+      "loss": 0.2883,
+      "step": 6100
+    },
+    {
+      "epoch": 1.85,
+      "grad_norm": 1.6421504020690918,
+      "learning_rate": 4.9080305069537914e-05,
+      "loss": 0.2716,
+      "step": 6200
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 1.6905546188354492,
+      "learning_rate": 4.906535068042471e-05,
+      "loss": 0.2775,
+      "step": 6300
+    },
+    {
+      "epoch": 1.91,
+      "grad_norm": 1.1936814785003662,
+      "learning_rate": 4.90503962913115e-05,
+      "loss": 0.2571,
+      "step": 6400
+    },
+    {
+      "epoch": 1.94,
+      "grad_norm": 1.7146382331848145,
+      "learning_rate": 4.90354419021983e-05,
+      "loss": 0.2681,
+      "step": 6500
+    },
+    {
+      "epoch": 1.97,
+      "grad_norm": 1.5280200242996216,
+      "learning_rate": 4.902048751308509e-05,
+      "loss": 0.2655,
+      "step": 6600
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.4756951332092285,
+      "learning_rate": 4.9005533123971885e-05,
+      "loss": 0.2554,
+      "step": 6700
+    },
+    {
+      "epoch": 2.03,
+      "grad_norm": 1.5664458274841309,
+      "learning_rate": 4.8990578734858685e-05,
+      "loss": 0.2125,
+      "step": 6800
+    },
+    {
+      "epoch": 2.06,
+      "grad_norm": 1.447304368019104,
+      "learning_rate": 4.897562434574548e-05,
+      "loss": 0.2161,
+      "step": 6900
+    },
+    {
+      "epoch": 2.09,
+      "grad_norm": 1.8067011833190918,
+      "learning_rate": 4.896066995663227e-05,
+      "loss": 0.213,
+      "step": 7000
+    },
+    {
+      "epoch": 2.09,
+      "eval_loss": 0.24976512789726257,
+      "eval_precision": 0.8138389031705227,
+      "eval_recall": 0.8187752085963238,
+      "eval_runtime": 305.8458,
+      "eval_samples_per_second": 43.728,
+      "eval_steps_per_second": 1.367,
+      "step": 7000
+    },
+    {
+      "epoch": 2.12,
+      "grad_norm": 2.7706127166748047,
+      "learning_rate": 4.894571556751907e-05,
+      "loss": 0.2186,
+      "step": 7100
+    },
+    {
+      "epoch": 2.15,
+      "grad_norm": 2.394275426864624,
+      "learning_rate": 4.893076117840586e-05,
+      "loss": 0.2094,
+      "step": 7200
+    },
+    {
+      "epoch": 2.18,
+      "grad_norm": 1.9464359283447266,
+      "learning_rate": 4.891580678929266e-05,
+      "loss": 0.2278,
+      "step": 7300
+    },
+    {
+      "epoch": 2.21,
+      "grad_norm": 2.1283416748046875,
+      "learning_rate": 4.8900852400179456e-05,
+      "loss": 0.2174,
+      "step": 7400
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 1.7853657007217407,
+      "learning_rate": 4.888589801106625e-05,
+      "loss": 0.2184,
+      "step": 7500
+    },
+    {
+      "epoch": 2.27,
+      "grad_norm": 1.1081209182739258,
+      "learning_rate": 4.887094362195305e-05,
+      "loss": 0.2201,
+      "step": 7600
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 1.3894284963607788,
+      "learning_rate": 4.885598923283984e-05,
+      "loss": 0.2213,
+      "step": 7700
+    },
+    {
+      "epoch": 2.33,
+      "grad_norm": 2.0615389347076416,
+      "learning_rate": 4.8841034843726634e-05,
+      "loss": 0.2217,
+      "step": 7800
+    },
+    {
+      "epoch": 2.36,
+      "grad_norm": 1.6415098905563354,
+      "learning_rate": 4.8826080454613434e-05,
+      "loss": 0.2266,
+      "step": 7900
+    },
+    {
+      "epoch": 2.39,
+      "grad_norm": 3.293736219406128,
+      "learning_rate": 4.8811126065500226e-05,
+      "loss": 0.2117,
+      "step": 8000
+    },
+    {
+      "epoch": 2.39,
+      "eval_loss": 0.24216407537460327,
+      "eval_precision": 0.8107814105275881,
+      "eval_recall": 0.826133809538471,
+      "eval_runtime": 307.023,
+      "eval_samples_per_second": 43.56,
+      "eval_steps_per_second": 1.361,
+      "step": 8000
+    },
+    {
+      "epoch": 2.42,
+      "grad_norm": 1.1580455303192139,
+      "learning_rate": 4.879617167638702e-05,
+      "loss": 0.2171,
+      "step": 8100
+    },
+    {
+      "epoch": 2.45,
+      "grad_norm": 1.0756213665008545,
+      "learning_rate": 4.878121728727382e-05,
+      "loss": 0.2174,
+      "step": 8200
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 1.871605396270752,
+      "learning_rate": 4.876626289816061e-05,
+      "loss": 0.215,
+      "step": 8300
+    },
+    {
+      "epoch": 2.51,
+      "grad_norm": 1.8400825262069702,
+      "learning_rate": 4.8751308509047405e-05,
+      "loss": 0.2215,
+      "step": 8400
+    },
+    {
+      "epoch": 2.54,
+      "grad_norm": 2.0464110374450684,
+      "learning_rate": 4.8736354119934204e-05,
+      "loss": 0.2195,
+      "step": 8500
+    },
+    {
+      "epoch": 2.57,
+      "grad_norm": 1.2704099416732788,
+      "learning_rate": 4.8721399730821e-05,
+      "loss": 0.2266,
+      "step": 8600
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 0.9448720216751099,
+      "learning_rate": 4.87064453417078e-05,
+      "loss": 0.2159,
+      "step": 8700
+    },
+    {
+      "epoch": 2.63,
+      "grad_norm": 1.2881120443344116,
+      "learning_rate": 4.869149095259459e-05,
+      "loss": 0.2084,
+      "step": 8800
+    },
+    {
+      "epoch": 2.66,
+      "grad_norm": 2.0659286975860596,
+      "learning_rate": 4.867653656348138e-05,
+      "loss": 0.2134,
+      "step": 8900
+    },
+    {
+      "epoch": 2.69,
+      "grad_norm": 1.109397530555725,
+      "learning_rate": 4.866158217436818e-05,
+      "loss": 0.2129,
+      "step": 9000
+    },
+    {
+      "epoch": 2.69,
+      "eval_loss": 0.22735044360160828,
+      "eval_precision": 0.8203027060082556,
+      "eval_recall": 0.8260106530373472,
+      "eval_runtime": 305.794,
+      "eval_samples_per_second": 43.735,
+      "eval_steps_per_second": 1.367,
+      "step": 9000
+    },
+    {
+      "epoch": 2.72,
+      "grad_norm": 1.164435625076294,
+      "learning_rate": 4.8646627785254975e-05,
+      "loss": 0.2155,
+      "step": 9100
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 1.5477757453918457,
+      "learning_rate": 4.863167339614177e-05,
+      "loss": 0.2137,
+      "step": 9200
+    },
+    {
+      "epoch": 2.78,
+      "grad_norm": 1.4342052936553955,
+      "learning_rate": 4.861671900702857e-05,
+      "loss": 0.206,
+      "step": 9300
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 1.3847391605377197,
+      "learning_rate": 4.860176461791536e-05,
+      "loss": 0.2077,
+      "step": 9400
+    },
+    {
+      "epoch": 2.84,
+      "grad_norm": 2.9082765579223633,
+      "learning_rate": 4.8586810228802154e-05,
+      "loss": 0.2126,
+      "step": 9500
+    },
+    {
+      "epoch": 2.87,
+      "grad_norm": 1.4943510293960571,
+      "learning_rate": 4.857185583968895e-05,
+      "loss": 0.2092,
+      "step": 9600
+    },
+    {
+      "epoch": 2.9,
+      "grad_norm": 1.2332855463027954,
+      "learning_rate": 4.8556901450575746e-05,
+      "loss": 0.2222,
+      "step": 9700
+    },
+    {
+      "epoch": 2.93,
+      "grad_norm": 2.227031946182251,
+      "learning_rate": 4.854194706146254e-05,
+      "loss": 0.1969,
+      "step": 9800
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 1.2515846490859985,
+      "learning_rate": 4.852699267234934e-05,
+      "loss": 0.2017,
+      "step": 9900
+    },
+    {
+      "epoch": 2.99,
+      "grad_norm": 1.2267186641693115,
+      "learning_rate": 4.851203828323613e-05,
+      "loss": 0.2126,
+      "step": 10000
+    },
+    {
+      "epoch": 2.99,
+      "eval_loss": 0.20952437818050385,
+      "eval_precision": 0.8416687769055458,
+      "eval_recall": 0.818682841220481,
+      "eval_runtime": 302.8923,
+      "eval_samples_per_second": 44.154,
+      "eval_steps_per_second": 1.38,
+      "step": 10000
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 1.151638150215149,
+      "learning_rate": 4.849708389412293e-05,
+      "loss": 0.171,
+      "step": 10100
+    },
+    {
+      "epoch": 3.05,
+      "grad_norm": 3.8168528079986572,
+      "learning_rate": 4.8482129505009724e-05,
+      "loss": 0.165,
+      "step": 10200
+    },
+    {
+      "epoch": 3.08,
+      "grad_norm": 2.3039355278015137,
+      "learning_rate": 4.846717511589652e-05,
+      "loss": 0.1675,
+      "step": 10300
+    },
+    {
+      "epoch": 3.11,
+      "grad_norm": 1.252301812171936,
+      "learning_rate": 4.845222072678332e-05,
+      "loss": 0.1554,
+      "step": 10400
+    },
+    {
+      "epoch": 3.14,
+      "grad_norm": 1.2682992219924927,
+      "learning_rate": 4.843726633767011e-05,
+      "loss": 0.1756,
+      "step": 10500
+    },
+    {
+      "epoch": 3.17,
+      "grad_norm": 1.3934777975082397,
+      "learning_rate": 4.84223119485569e-05,
+      "loss": 0.1576,
+      "step": 10600
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 1.3386119604110718,
+      "learning_rate": 4.84073575594437e-05,
+      "loss": 0.1602,
+      "step": 10700
+    },
+    {
+      "epoch": 3.23,
+      "grad_norm": 1.6670503616333008,
+      "learning_rate": 4.8392403170330495e-05,
+      "loss": 0.1638,
+      "step": 10800
+    },
+    {
+      "epoch": 3.26,
+      "grad_norm": 2.5150694847106934,
+      "learning_rate": 4.837744878121729e-05,
+      "loss": 0.1653,
+      "step": 10900
+    },
+    {
+      "epoch": 3.29,
+      "grad_norm": 2.840406656265259,
+      "learning_rate": 4.836249439210409e-05,
+      "loss": 0.1607,
+      "step": 11000
+    },
+    {
+      "epoch": 3.29,
+      "eval_loss": 0.22238589823246002,
+      "eval_precision": 0.8404415146405029,
+      "eval_recall": 0.8439607130761415,
+      "eval_runtime": 304.8188,
+      "eval_samples_per_second": 43.875,
+      "eval_steps_per_second": 1.371,
+      "step": 11000
+    },
+    {
+      "epoch": 3.32,
+      "grad_norm": 1.5171958208084106,
+      "learning_rate": 4.834754000299088e-05,
+      "loss": 0.1606,
+      "step": 11100
+    },
+    {
+      "epoch": 3.35,
+      "grad_norm": 1.6955703496932983,
+      "learning_rate": 4.833258561387767e-05,
+      "loss": 0.1554,
+      "step": 11200
+    },
+    {
+      "epoch": 3.38,
+      "grad_norm": 1.893128514289856,
+      "learning_rate": 4.831763122476447e-05,
+      "loss": 0.1488,
+      "step": 11300
+    },
+    {
+      "epoch": 3.41,
+      "grad_norm": 1.7299461364746094,
+      "learning_rate": 4.8302676835651266e-05,
+      "loss": 0.1596,
+      "step": 11400
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 2.150355339050293,
+      "learning_rate": 4.8287722446538065e-05,
+      "loss": 0.1623,
+      "step": 11500
+    },
+    {
+      "epoch": 3.47,
+      "grad_norm": 3.2869186401367188,
+      "learning_rate": 4.827276805742486e-05,
+      "loss": 0.1622,
+      "step": 11600
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 1.7936344146728516,
+      "learning_rate": 4.825781366831165e-05,
+      "loss": 0.1651,
+      "step": 11700
+    },
+    {
+      "epoch": 3.53,
+      "grad_norm": 1.579736590385437,
+      "learning_rate": 4.824285927919845e-05,
+      "loss": 0.169,
+      "step": 11800
+    },
+    {
+      "epoch": 3.56,
+      "grad_norm": 2.1929283142089844,
+      "learning_rate": 4.822790489008524e-05,
+      "loss": 0.1629,
+      "step": 11900
+    },
+    {
+      "epoch": 3.59,
+      "grad_norm": 1.7842892408370972,
+      "learning_rate": 4.821295050097204e-05,
+      "loss": 0.1621,
+      "step": 12000
+    },
+    {
+      "epoch": 3.59,
+      "eval_loss": 0.21504360437393188,
+      "eval_precision": 0.8350246187102197,
+      "eval_recall": 0.8563379414390837,
+      "eval_runtime": 306.2124,
+      "eval_samples_per_second": 43.676,
+      "eval_steps_per_second": 1.365,
+      "step": 12000
+    },
+    {
+      "epoch": 3.62,
+      "grad_norm": 2.2203197479248047,
+      "learning_rate": 4.8197996111858836e-05,
+      "loss": 0.1595,
+      "step": 12100
+    },
+    {
+      "epoch": 3.65,
+      "grad_norm": 1.8541319370269775,
+      "learning_rate": 4.818304172274562e-05,
+      "loss": 0.1702,
+      "step": 12200
+    },
+    {
+      "epoch": 3.68,
+      "grad_norm": 1.3299143314361572,
+      "learning_rate": 4.816808733363242e-05,
+      "loss": 0.1651,
+      "step": 12300
+    },
+    {
+      "epoch": 3.71,
+      "grad_norm": 1.7831319570541382,
+      "learning_rate": 4.815313294451922e-05,
+      "loss": 0.1601,
+      "step": 12400
+    },
+    {
+      "epoch": 3.74,
+      "grad_norm": 1.0528268814086914,
+      "learning_rate": 4.8138178555406015e-05,
+      "loss": 0.1644,
+      "step": 12500
+    },
+    {
+      "epoch": 3.77,
+      "grad_norm": 1.306907057762146,
+      "learning_rate": 4.812322416629281e-05,
+      "loss": 0.1556,
+      "step": 12600
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 1.8565049171447754,
+      "learning_rate": 4.810826977717961e-05,
+      "loss": 0.1654,
+      "step": 12700
+    },
+    {
+      "epoch": 3.83,
+      "grad_norm": 1.4770090579986572,
+      "learning_rate": 4.80933153880664e-05,
+      "loss": 0.1628,
+      "step": 12800
+    },
+    {
+      "epoch": 3.86,
+      "grad_norm": 1.9089502096176147,
+      "learning_rate": 4.807836099895319e-05,
+      "loss": 0.1632,
+      "step": 12900
+    },
+    {
+      "epoch": 3.89,
+      "grad_norm": 1.3788821697235107,
+      "learning_rate": 4.806340660983999e-05,
+      "loss": 0.1597,
+      "step": 13000
+    },
+    {
+      "epoch": 3.89,
+      "eval_loss": 0.2062728852033615,
+      "eval_precision": 0.8378547953391097,
+      "eval_recall": 0.8634194402537024,
+      "eval_runtime": 304.7295,
+      "eval_samples_per_second": 43.888,
+      "eval_steps_per_second": 1.372,
+      "step": 13000
+    },
+    {
+      "epoch": 3.92,
+      "grad_norm": 15.79686164855957,
+      "learning_rate": 4.8048452220726785e-05,
+      "loss": 0.1637,
+      "step": 13100
+    },
+    {
+      "epoch": 3.95,
+      "grad_norm": 1.9472129344940186,
+      "learning_rate": 4.8033497831613585e-05,
+      "loss": 0.1666,
+      "step": 13200
+    },
+    {
+      "epoch": 3.98,
+      "grad_norm": 2.1338746547698975,
+      "learning_rate": 4.801854344250037e-05,
+      "loss": 0.1614,
+      "step": 13300
+    },
+    {
+      "epoch": 4.01,
+      "grad_norm": 1.1886940002441406,
+      "learning_rate": 4.800358905338717e-05,
+      "loss": 0.1474,
+      "step": 13400
+    },
+    {
+      "epoch": 4.04,
+      "grad_norm": 2.4190924167633057,
+      "learning_rate": 4.798863466427397e-05,
+      "loss": 0.121,
+      "step": 13500
+    },
+    {
+      "epoch": 4.07,
+      "grad_norm": 0.902584433555603,
+      "learning_rate": 4.797368027516076e-05,
+      "loss": 0.1192,
+      "step": 13600
+    },
+    {
+      "epoch": 4.1,
+      "grad_norm": 2.3466804027557373,
+      "learning_rate": 4.7958725886047556e-05,
+      "loss": 0.129,
+      "step": 13700
+    },
+    {
+      "epoch": 4.13,
+      "grad_norm": 4.135778427124023,
+      "learning_rate": 4.7943771496934356e-05,
+      "loss": 0.1206,
+      "step": 13800
+    },
+    {
+      "epoch": 4.16,
+      "grad_norm": 1.6940075159072876,
+      "learning_rate": 4.792881710782115e-05,
+      "loss": 0.1313,
+      "step": 13900
+    },
+    {
+      "epoch": 4.19,
+      "grad_norm": 1.7989047765731812,
+      "learning_rate": 4.791386271870794e-05,
+      "loss": 0.1139,
+      "step": 14000
+    },
+    {
+      "epoch": 4.19,
+      "eval_loss": 0.20718763768672943,
+      "eval_precision": 0.8631126181281592,
+      "eval_recall": 0.8464238430986176,
+      "eval_runtime": 304.0256,
+      "eval_samples_per_second": 43.99,
+      "eval_steps_per_second": 1.375,
+      "step": 14000
+    },
+    {
+      "epoch": 4.22,
+      "grad_norm": 1.9864155054092407,
+      "learning_rate": 4.789890832959474e-05,
+      "loss": 0.1222,
+      "step": 14100
+    },
+    {
+      "epoch": 4.25,
+      "grad_norm": 2.944260835647583,
+      "learning_rate": 4.7883953940481534e-05,
+      "loss": 0.1238,
+      "step": 14200
+    },
+    {
+      "epoch": 4.28,
+      "grad_norm": 0.5448206663131714,
+      "learning_rate": 4.786899955136833e-05,
+      "loss": 0.1191,
+      "step": 14300
+    },
+    {
+      "epoch": 4.31,
+      "grad_norm": 1.2996718883514404,
+      "learning_rate": 4.785404516225512e-05,
+      "loss": 0.1208,
+      "step": 14400
+    },
+    {
+      "epoch": 4.34,
+      "grad_norm": 2.5177977085113525,
+      "learning_rate": 4.783909077314192e-05,
+      "loss": 0.1258,
+      "step": 14500
+    },
+    {
+      "epoch": 4.37,
+      "grad_norm": 1.1356126070022583,
+      "learning_rate": 4.782413638402872e-05,
+      "loss": 0.1223,
+      "step": 14600
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 1.2576464414596558,
+      "learning_rate": 4.7809181994915506e-05,
+      "loss": 0.124,
+      "step": 14700
+    },
+    {
+      "epoch": 4.43,
+      "grad_norm": 0.8868162631988525,
+      "learning_rate": 4.7794227605802305e-05,
+      "loss": 0.1246,
+      "step": 14800
+    },
+    {
+      "epoch": 4.46,
+      "grad_norm": 2.3075501918792725,
+      "learning_rate": 4.7779273216689105e-05,
+      "loss": 0.1216,
+      "step": 14900
+    },
+    {
+      "epoch": 4.49,
+      "grad_norm": 1.5548241138458252,
+      "learning_rate": 4.776431882757589e-05,
+      "loss": 0.1221,
+      "step": 15000
+    },
+    {
+      "epoch": 4.49,
+      "eval_loss": 0.19333235919475555,
+      "eval_precision": 0.8727586319112239,
+      "eval_recall": 0.8257335509098187,
+      "eval_runtime": 301.0242,
+      "eval_samples_per_second": 44.428,
+      "eval_steps_per_second": 1.389,
+      "step": 15000
+    },
+    {
+      "epoch": 4.52,
+      "grad_norm": 1.0018868446350098,
+      "learning_rate": 4.774936443846269e-05,
+      "loss": 0.1237,
+      "step": 15100
+    },
+    {
+      "epoch": 4.55,
+      "grad_norm": 1.264910101890564,
+      "learning_rate": 4.773441004934949e-05,
+      "loss": 0.1156,
+      "step": 15200
+    },
+    {
+      "epoch": 4.58,
+      "grad_norm": 5.281520366668701,
+      "learning_rate": 4.771945566023628e-05,
+      "loss": 0.1286,
+      "step": 15300
+    },
+    {
+      "epoch": 4.61,
+      "grad_norm": 1.9591494798660278,
+      "learning_rate": 4.7704501271123076e-05,
+      "loss": 0.1249,
+      "step": 15400
+    },
+    {
+      "epoch": 4.64,
+      "grad_norm": 2.021794080734253,
+      "learning_rate": 4.768954688200987e-05,
+      "loss": 0.1233,
+      "step": 15500
+    },
+    {
+      "epoch": 4.67,
+      "grad_norm": 2.007873773574829,
+      "learning_rate": 4.767459249289667e-05,
+      "loss": 0.1281,
+      "step": 15600
+    },
+    {
+      "epoch": 4.69,
+      "grad_norm": 2.0108394622802734,
+      "learning_rate": 4.765963810378346e-05,
+      "loss": 0.1302,
+      "step": 15700
+    },
+    {
+      "epoch": 4.72,
+      "grad_norm": 1.7474627494812012,
+      "learning_rate": 4.7644683714670254e-05,
+      "loss": 0.1164,
+      "step": 15800
+    },
+    {
+      "epoch": 4.75,
+      "grad_norm": 0.758482813835144,
+      "learning_rate": 4.7629729325557054e-05,
+      "loss": 0.1211,
+      "step": 15900
+    },
+    {
+      "epoch": 4.78,
+      "grad_norm": 0.9910192489624023,
+      "learning_rate": 4.7614774936443854e-05,
+      "loss": 0.1222,
+      "step": 16000
+    },
+    {
+      "epoch": 4.78,
+      "eval_loss": 0.1955721527338028,
+      "eval_precision": 0.8685029567382508,
+      "eval_recall": 0.8591705409649312,
+      "eval_runtime": 303.5505,
+      "eval_samples_per_second": 44.059,
+      "eval_steps_per_second": 1.377,
+      "step": 16000
+    },
+    {
+      "epoch": 4.81,
+      "grad_norm": 2.4667110443115234,
+      "learning_rate": 4.759982054733064e-05,
+      "loss": 0.1214,
+      "step": 16100
+    },
+    {
+      "epoch": 4.84,
+      "grad_norm": 2.103156566619873,
+      "learning_rate": 4.758486615821744e-05,
+      "loss": 0.1211,
+      "step": 16200
+    },
+    {
+      "epoch": 4.87,
+      "grad_norm": 1.3806654214859009,
+      "learning_rate": 4.756991176910424e-05,
+      "loss": 0.1152,
+      "step": 16300
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 2.1174566745758057,
+      "learning_rate": 4.7554957379991025e-05,
+      "loss": 0.1246,
+      "step": 16400
+    },
+    {
+      "epoch": 4.93,
+      "grad_norm": 2.0334010124206543,
+      "learning_rate": 4.7540002990877825e-05,
+      "loss": 0.1189,
+      "step": 16500
+    },
+    {
+      "epoch": 4.96,
+      "grad_norm": 2.668717861175537,
+      "learning_rate": 4.7525048601764625e-05,
+      "loss": 0.1237,
+      "step": 16600
+    },
+    {
+      "epoch": 4.99,
+      "grad_norm": 2.0749363899230957,
+      "learning_rate": 4.751009421265142e-05,
+      "loss": 0.1141,
+      "step": 16700
+    },
+    {
+      "epoch": 5.02,
+      "grad_norm": 1.893052577972412,
+      "learning_rate": 4.749513982353821e-05,
+      "loss": 0.095,
+      "step": 16800
+    },
+    {
+      "epoch": 5.05,
+      "grad_norm": 0.6495729684829712,
+      "learning_rate": 4.7480185434425e-05,
+      "loss": 0.085,
+      "step": 16900
+    },
+    {
+      "epoch": 5.08,
+      "grad_norm": 1.8883150815963745,
+      "learning_rate": 4.74652310453118e-05,
+      "loss": 0.0886,
+      "step": 17000
+    },
+    {
+      "epoch": 5.08,
+      "eval_loss": 0.2067934274673462,
+      "eval_precision": 0.880300808187974,
+      "eval_recall": 0.8685920133009021,
+      "eval_runtime": 303.377,
+      "eval_samples_per_second": 44.084,
+      "eval_steps_per_second": 1.378,
+      "step": 17000
+    },
+    {
+      "epoch": 5.11,
+      "grad_norm": 1.110809326171875,
+      "learning_rate": 4.7450276656198596e-05,
+      "loss": 0.0895,
+      "step": 17100
+    },
+    {
+      "epoch": 5.14,
+      "grad_norm": 1.9441896677017212,
+      "learning_rate": 4.743532226708539e-05,
+      "loss": 0.0935,
+      "step": 17200
+    },
+    {
+      "epoch": 5.17,
+      "grad_norm": 1.9851264953613281,
+      "learning_rate": 4.742036787797219e-05,
+      "loss": 0.0927,
+      "step": 17300
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 1.2447096109390259,
+      "learning_rate": 4.740541348885899e-05,
+      "loss": 0.0911,
+      "step": 17400
+    },
+    {
+      "epoch": 5.23,
+      "grad_norm": 1.0151656866073608,
+      "learning_rate": 4.7390459099745774e-05,
+      "loss": 0.0932,
+      "step": 17500
+    },
+    {
+      "epoch": 5.26,
+      "grad_norm": 0.8265299201011658,
+      "learning_rate": 4.7375504710632574e-05,
+      "loss": 0.1006,
+      "step": 17600
+    },
+    {
+      "epoch": 5.29,
+      "grad_norm": 2.7819435596466064,
+      "learning_rate": 4.736055032151937e-05,
+      "loss": 0.0892,
+      "step": 17700
+    },
+    {
+      "epoch": 5.32,
+      "grad_norm": 1.3706836700439453,
+      "learning_rate": 4.734559593240616e-05,
+      "loss": 0.0976,
+      "step": 17800
+    },
+    {
+      "epoch": 5.35,
+      "grad_norm": 3.606653928756714,
+      "learning_rate": 4.733064154329296e-05,
+      "loss": 0.0932,
+      "step": 17900
+    },
+    {
+      "epoch": 5.38,
+      "grad_norm": 1.3535112142562866,
+      "learning_rate": 4.731568715417975e-05,
+      "loss": 0.0917,
+      "step": 18000
+    },
+    {
+      "epoch": 5.38,
+      "eval_loss": 0.1965586394071579,
+      "eval_precision": 0.8806825297432687,
+      "eval_recall": 0.8660673050278641,
+      "eval_runtime": 303.4486,
+      "eval_samples_per_second": 44.073,
+      "eval_steps_per_second": 1.377,
+      "step": 18000
+    },
+    {
+      "epoch": 5.41,
+      "grad_norm": 1.7558257579803467,
+      "learning_rate": 4.7300732765066545e-05,
+      "loss": 0.088,
+      "step": 18100
+    },
+    {
+      "epoch": 5.44,
+      "grad_norm": 2.291628837585449,
+      "learning_rate": 4.7285778375953345e-05,
+      "loss": 0.0963,
+      "step": 18200
+    },
+    {
+      "epoch": 5.47,
+      "grad_norm": 1.4217274188995361,
+      "learning_rate": 4.727082398684014e-05,
+      "loss": 0.0969,
+      "step": 18300
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 1.8852524757385254,
+      "learning_rate": 4.725586959772694e-05,
+      "loss": 0.0952,
+      "step": 18400
+    },
+    {
+      "epoch": 5.53,
+      "grad_norm": 2.106452465057373,
+      "learning_rate": 4.724091520861373e-05,
+      "loss": 0.0966,
+      "step": 18500
+    },
+    {
+      "epoch": 5.56,
+      "grad_norm": 1.9277011156082153,
+      "learning_rate": 4.722596081950052e-05,
+      "loss": 0.089,
+      "step": 18600
+    },
+    {
+      "epoch": 5.59,
+      "grad_norm": 1.2175403833389282,
+      "learning_rate": 4.721100643038732e-05,
+      "loss": 0.0931,
+      "step": 18700
+    },
+    {
+      "epoch": 5.62,
+      "grad_norm": 2.060368299484253,
+      "learning_rate": 4.7196052041274115e-05,
+      "loss": 0.0968,
+      "step": 18800
+    },
+    {
+      "epoch": 5.65,
+      "grad_norm": 1.4981082677841187,
+      "learning_rate": 4.718109765216091e-05,
+      "loss": 0.0929,
+      "step": 18900
+    },
+    {
+      "epoch": 5.68,
+      "grad_norm": 1.6335569620132446,
+      "learning_rate": 4.716614326304771e-05,
+      "loss": 0.0938,
+      "step": 19000
+    },
+    {
+      "epoch": 5.68,
+      "eval_loss": 0.19031907618045807,
+      "eval_precision": 0.8913960623881361,
+      "eval_recall": 0.858708704085717,
+      "eval_runtime": 301.9634,
+      "eval_samples_per_second": 44.29,
+      "eval_steps_per_second": 1.384,
+      "step": 19000
+    },
+    {
+      "epoch": 5.71,
+      "grad_norm": 0.46949952840805054,
+      "learning_rate": 4.71511888739345e-05,
+      "loss": 0.09,
+      "step": 19100
+    },
+    {
+      "epoch": 5.74,
+      "grad_norm": 2.6525633335113525,
+      "learning_rate": 4.7136234484821294e-05,
+      "loss": 0.0954,
+      "step": 19200
+    },
+    {
+      "epoch": 5.77,
+      "grad_norm": 1.2892892360687256,
+      "learning_rate": 4.7121280095708093e-05,
+      "loss": 0.0949,
+      "step": 19300
+    },
+    {
+      "epoch": 5.8,
+      "grad_norm": 1.5637331008911133,
+      "learning_rate": 4.7106325706594886e-05,
+      "loss": 0.0962,
+      "step": 19400
+    },
+    {
+      "epoch": 5.83,
+      "grad_norm": 2.5609443187713623,
+      "learning_rate": 4.709137131748168e-05,
+      "loss": 0.0921,
+      "step": 19500
+    },
+    {
+      "epoch": 5.86,
+      "grad_norm": 1.4690775871276855,
+      "learning_rate": 4.707641692836848e-05,
+      "loss": 0.0955,
+      "step": 19600
+    },
+    {
+      "epoch": 5.89,
+      "grad_norm": 1.081965684890747,
+      "learning_rate": 4.706146253925527e-05,
+      "loss": 0.0928,
+      "step": 19700
+    },
+    {
+      "epoch": 5.92,
+      "grad_norm": 1.6817141771316528,
+      "learning_rate": 4.704650815014207e-05,
+      "loss": 0.0963,
+      "step": 19800
+    },
+    {
+      "epoch": 5.95,
+      "grad_norm": 2.984762191772461,
+      "learning_rate": 4.7031553761028864e-05,
+      "loss": 0.095,
+      "step": 19900
+    },
+    {
+      "epoch": 5.98,
+      "grad_norm": 2.1594882011413574,
+      "learning_rate": 4.701659937191566e-05,
+      "loss": 0.0985,
+      "step": 20000
+    },
+    {
+      "epoch": 5.98,
+      "eval_loss": 0.18151727318763733,
+      "eval_precision": 0.9042639298086573,
+      "eval_recall": 0.859940269096955,
+      "eval_runtime": 302.8985,
+      "eval_samples_per_second": 44.153,
+      "eval_steps_per_second": 1.38,
+      "step": 20000
+    },
+    {
+      "epoch": 6.01,
+      "grad_norm": 2.0218722820281982,
+      "learning_rate": 4.700164498280246e-05,
+      "loss": 0.0886,
+      "step": 20100
+    },
+    {
+      "epoch": 6.04,
+      "grad_norm": 1.3569700717926025,
+      "learning_rate": 4.698669059368925e-05,
+      "loss": 0.0711,
+      "step": 20200
+    },
+    {
+      "epoch": 6.07,
+      "grad_norm": 1.5697298049926758,
+      "learning_rate": 4.697173620457604e-05,
+      "loss": 0.0724,
+      "step": 20300
+    },
+    {
+      "epoch": 6.1,
+      "grad_norm": 1.7853014469146729,
+      "learning_rate": 4.695678181546284e-05,
+      "loss": 0.0747,
+      "step": 20400
+    },
+    {
+      "epoch": 6.13,
+      "grad_norm": 0.7531015872955322,
+      "learning_rate": 4.6941827426349635e-05,
+      "loss": 0.074,
+      "step": 20500
+    },
+    {
+      "epoch": 6.16,
+      "grad_norm": 1.3895870447158813,
+      "learning_rate": 4.692687303723643e-05,
+      "loss": 0.0683,
+      "step": 20600
+    },
+    {
+      "epoch": 6.19,
+      "grad_norm": 2.084857225418091,
+      "learning_rate": 4.691191864812323e-05,
+      "loss": 0.0741,
+      "step": 20700
+    },
+    {
+      "epoch": 6.22,
+      "grad_norm": 0.9525838494300842,
+      "learning_rate": 4.689696425901002e-05,
+      "loss": 0.0647,
+      "step": 20800
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 2.0475118160247803,
+      "learning_rate": 4.6882009869896813e-05,
+      "loss": 0.0746,
+      "step": 20900
+    },
+    {
+      "epoch": 6.28,
+      "grad_norm": 1.0650370121002197,
+      "learning_rate": 4.686705548078361e-05,
+      "loss": 0.0696,
+      "step": 21000
+    },
+    {
+      "epoch": 6.28,
+      "eval_loss": 0.19116894900798798,
+      "eval_precision": 0.9016753284483037,
+      "eval_recall": 0.8600326364727978,
+      "eval_runtime": 303.289,
+      "eval_samples_per_second": 44.097,
+      "eval_steps_per_second": 1.378,
+      "step": 21000
+    },
+    {
+      "epoch": 6.31,
+      "grad_norm": 1.5736846923828125,
+      "learning_rate": 4.6852101091670406e-05,
+      "loss": 0.0685,
+      "step": 21100
+    },
+    {
+      "epoch": 6.34,
+      "grad_norm": 0.7526031136512756,
+      "learning_rate": 4.6837146702557206e-05,
+      "loss": 0.0816,
+      "step": 21200
+    },
+    {
+      "epoch": 6.37,
+      "grad_norm": 1.284680724143982,
+      "learning_rate": 4.6822192313444e-05,
+      "loss": 0.0676,
+      "step": 21300
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 4.207923889160156,
+      "learning_rate": 4.680723792433079e-05,
+      "loss": 0.0679,
+      "step": 21400
+    },
+    {
+      "epoch": 6.43,
+      "grad_norm": 1.3670810461044312,
+      "learning_rate": 4.679228353521759e-05,
+      "loss": 0.0721,
+      "step": 21500
+    },
+    {
+      "epoch": 6.46,
+      "grad_norm": 1.8094091415405273,
+      "learning_rate": 4.6777329146104384e-05,
+      "loss": 0.0673,
+      "step": 21600
+    },
+    {
+      "epoch": 6.49,
+      "grad_norm": 2.057133436203003,
+      "learning_rate": 4.676237475699118e-05,
+      "loss": 0.0711,
+      "step": 21700
+    },
+    {
+      "epoch": 6.52,
+      "grad_norm": 1.9356772899627686,
+      "learning_rate": 4.6747420367877976e-05,
+      "loss": 0.0713,
+      "step": 21800
+    },
+    {
+      "epoch": 6.55,
+      "grad_norm": 0.4188990592956543,
+      "learning_rate": 4.673246597876477e-05,
+      "loss": 0.0772,
+      "step": 21900
+    },
+    {
+      "epoch": 6.58,
+      "grad_norm": 0.9256879091262817,
+      "learning_rate": 4.671751158965156e-05,
+      "loss": 0.0715,
+      "step": 22000
+    },
+    {
+      "epoch": 6.58,
+      "eval_loss": 0.19474047422409058,
+      "eval_precision": 0.9012208304190246,
+      "eval_recall": 0.8727793343391115,
+      "eval_runtime": 305.0313,
+      "eval_samples_per_second": 43.845,
+      "eval_steps_per_second": 1.37,
+      "step": 22000
+    },
+    {
+      "epoch": 6.61,
+      "grad_norm": 0.890701949596405,
+      "learning_rate": 4.670255720053836e-05,
+      "loss": 0.0712,
+      "step": 22100
+    },
+    {
+      "epoch": 6.64,
+      "grad_norm": 1.6164826154708862,
+      "learning_rate": 4.6687602811425155e-05,
+      "loss": 0.0772,
+      "step": 22200
+    },
+    {
+      "epoch": 6.67,
+      "grad_norm": 1.2075903415679932,
+      "learning_rate": 4.667264842231195e-05,
+      "loss": 0.0734,
+      "step": 22300
+    },
+    {
+      "epoch": 6.7,
+      "grad_norm": 0.9141576886177063,
+      "learning_rate": 4.665769403319875e-05,
+      "loss": 0.0803,
+      "step": 22400
+    },
+    {
+      "epoch": 6.73,
+      "grad_norm": 3.0547311305999756,
+      "learning_rate": 4.664273964408554e-05,
+      "loss": 0.0688,
+      "step": 22500
+    },
+    {
+      "epoch": 6.76,
+      "grad_norm": 1.1152849197387695,
+      "learning_rate": 4.662778525497234e-05,
+      "loss": 0.0703,
+      "step": 22600
+    },
+    {
+      "epoch": 6.79,
+      "grad_norm": 2.150590181350708,
+      "learning_rate": 4.661283086585913e-05,
+      "loss": 0.0745,
+      "step": 22700
+    },
+    {
+      "epoch": 6.82,
+      "grad_norm": 1.4829721450805664,
+      "learning_rate": 4.6597876476745926e-05,
+      "loss": 0.0738,
+      "step": 22800
+    },
+    {
+      "epoch": 6.85,
+      "grad_norm": 0.6545503735542297,
+      "learning_rate": 4.6582922087632725e-05,
+      "loss": 0.0764,
+      "step": 22900
+    },
+    {
+      "epoch": 6.88,
+      "grad_norm": 1.2322636842727661,
+      "learning_rate": 4.656796769851952e-05,
+      "loss": 0.0765,
+      "step": 23000
+    },
+    {
+      "epoch": 6.88,
+      "eval_loss": 0.18639414012432098,
+      "eval_precision": 0.9072111489223789,
+      "eval_recall": 0.861849194864374,
+      "eval_runtime": 301.5834,
+      "eval_samples_per_second": 44.346,
+      "eval_steps_per_second": 1.386,
+      "step": 23000
+    },
+    {
+      "epoch": 6.91,
+      "grad_norm": 1.8931362628936768,
+      "learning_rate": 4.655301330940631e-05,
+      "loss": 0.0783,
+      "step": 23100
+    },
+    {
+      "epoch": 6.94,
+      "grad_norm": 0.7884649038314819,
+      "learning_rate": 4.653805892029311e-05,
+      "loss": 0.0718,
+      "step": 23200
+    },
+    {
+      "epoch": 6.97,
+      "grad_norm": 0.6341440081596375,
+      "learning_rate": 4.6523104531179904e-05,
+      "loss": 0.0698,
+      "step": 23300
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.9098210334777832,
+      "learning_rate": 4.6508150142066697e-05,
+      "loss": 0.071,
+      "step": 23400
+    },
+    {
+      "epoch": 7.03,
+      "grad_norm": 3.0700671672821045,
+      "learning_rate": 4.6493195752953496e-05,
+      "loss": 0.0552,
+      "step": 23500
+    },
+    {
+      "epoch": 7.06,
+      "grad_norm": 1.5736912488937378,
+      "learning_rate": 4.647824136384029e-05,
+      "loss": 0.055,
+      "step": 23600
+    },
+    {
+      "epoch": 7.09,
+      "grad_norm": 0.9347396492958069,
+      "learning_rate": 4.646328697472708e-05,
+      "loss": 0.0592,
+      "step": 23700
+    },
+    {
+      "epoch": 7.12,
+      "grad_norm": 1.7453091144561768,
+      "learning_rate": 4.644833258561388e-05,
+      "loss": 0.0623,
+      "step": 23800
+    },
+    {
+      "epoch": 7.15,
+      "grad_norm": 1.1539710760116577,
+      "learning_rate": 4.6433378196500674e-05,
+      "loss": 0.0558,
+      "step": 23900
+    },
+    {
+      "epoch": 7.18,
+      "grad_norm": 0.7530619502067566,
+      "learning_rate": 4.641842380738747e-05,
+      "loss": 0.0546,
+      "step": 24000
+    },
+    {
+      "epoch": 7.18,
+      "eval_loss": 0.2078467607498169,
+      "eval_precision": 0.908101688386724,
+      "eval_recall": 0.8710551433233782,
+      "eval_runtime": 302.902,
+      "eval_samples_per_second": 44.153,
+      "eval_steps_per_second": 1.38,
+      "step": 24000
+    },
+    {
+      "epoch": 7.21,
+      "grad_norm": 1.6339865922927856,
+      "learning_rate": 4.640346941827427e-05,
+      "loss": 0.0579,
+      "step": 24100
+    },
+    {
+      "epoch": 7.24,
+      "grad_norm": 2.397862434387207,
+      "learning_rate": 4.638851502916106e-05,
+      "loss": 0.054,
+      "step": 24200
+    },
+    {
+      "epoch": 7.27,
+      "grad_norm": 2.5979652404785156,
+      "learning_rate": 4.637356064004786e-05,
+      "loss": 0.0582,
+      "step": 24300
+    },
+    {
+      "epoch": 7.3,
+      "grad_norm": 1.4249415397644043,
+      "learning_rate": 4.635860625093465e-05,
+      "loss": 0.0611,
+      "step": 24400
+    },
+    {
+      "epoch": 7.33,
+      "grad_norm": 1.1104274988174438,
+      "learning_rate": 4.6343651861821445e-05,
+      "loss": 0.0603,
+      "step": 24500
+    },
+    {
+      "epoch": 7.36,
+      "grad_norm": 1.039832353591919,
+      "learning_rate": 4.6328697472708245e-05,
+      "loss": 0.06,
+      "step": 24600
+    },
+    {
+      "epoch": 7.39,
+      "grad_norm": 1.1284308433532715,
+      "learning_rate": 4.631374308359504e-05,
+      "loss": 0.0528,
+      "step": 24700
+    },
+    {
+      "epoch": 7.42,
+      "grad_norm": 3.3189823627471924,
+      "learning_rate": 4.629878869448183e-05,
+      "loss": 0.0634,
+      "step": 24800
+    },
+    {
+      "epoch": 7.45,
+      "grad_norm": 2.0465550422668457,
+      "learning_rate": 4.628383430536863e-05,
+      "loss": 0.0599,
+      "step": 24900
+    },
+    {
+      "epoch": 7.48,
+      "grad_norm": 1.93597412109375,
+      "learning_rate": 4.626887991625542e-05,
+      "loss": 0.0588,
+      "step": 25000
+    },
+    {
+      "epoch": 7.48,
+      "eval_loss": 0.20041726529598236,
+      "eval_precision": 0.9101642057026477,
+      "eval_recall": 0.8805997721604729,
+      "eval_runtime": 302.521,
+      "eval_samples_per_second": 44.209,
+      "eval_steps_per_second": 1.382,
+      "step": 25000
+    },
+    {
+      "epoch": 7.51,
+      "grad_norm": 2.2025020122528076,
+      "learning_rate": 4.6253925527142216e-05,
+      "loss": 0.0557,
+      "step": 25100
+    },
+    {
+      "epoch": 7.54,
+      "grad_norm": 2.4900927543640137,
+      "learning_rate": 4.6238971138029016e-05,
+      "loss": 0.0613,
+      "step": 25200
+    },
+    {
+      "epoch": 7.57,
+      "grad_norm": 1.2546288967132568,
+      "learning_rate": 4.622401674891581e-05,
+      "loss": 0.0609,
+      "step": 25300
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 1.3969674110412598,
+      "learning_rate": 4.62090623598026e-05,
+      "loss": 0.0617,
+      "step": 25400
+    },
+    {
+      "epoch": 7.63,
+      "grad_norm": 0.2969658374786377,
+      "learning_rate": 4.61941079706894e-05,
+      "loss": 0.0602,
+      "step": 25500
+    },
+    {
+      "epoch": 7.66,
+      "grad_norm": 0.7388882040977478,
+      "learning_rate": 4.6179153581576194e-05,
+      "loss": 0.0593,
+      "step": 25600
+    },
+    {
+      "epoch": 7.69,
+      "grad_norm": 0.609923779964447,
+      "learning_rate": 4.6164199192462994e-05,
+      "loss": 0.0596,
+      "step": 25700
+    },
+    {
+      "epoch": 7.72,
+      "grad_norm": 2.3986215591430664,
+      "learning_rate": 4.614924480334979e-05,
+      "loss": 0.0651,
+      "step": 25800
+    },
+    {
+      "epoch": 7.75,
+      "grad_norm": 1.1203041076660156,
+      "learning_rate": 4.613429041423658e-05,
+      "loss": 0.0649,
+      "step": 25900
+    },
+    {
+      "epoch": 7.78,
+      "grad_norm": 0.7929214835166931,
+      "learning_rate": 4.611933602512338e-05,
+      "loss": 0.0648,
+      "step": 26000
+    },
+    {
+      "epoch": 7.78,
+      "eval_loss": 0.19321496784687042,
+      "eval_precision": 0.9163062916598927,
+      "eval_recall": 0.8676683395424736,
+      "eval_runtime": 301.2643,
+      "eval_samples_per_second": 44.393,
+      "eval_steps_per_second": 1.387,
+      "step": 26000
+    },
+    {
+      "epoch": 7.81,
+      "grad_norm": 0.5828276872634888,
+      "learning_rate": 4.610438163601017e-05,
+      "loss": 0.058,
+      "step": 26100
+    },
+    {
+      "epoch": 7.83,
+      "grad_norm": 0.44025149941444397,
+      "learning_rate": 4.6089427246896965e-05,
+      "loss": 0.0598,
+      "step": 26200
+    },
+    {
+      "epoch": 7.86,
+      "grad_norm": 0.7976229786872864,
+      "learning_rate": 4.6074472857783765e-05,
+      "loss": 0.0655,
+      "step": 26300
+    },
+    {
+      "epoch": 7.89,
+      "grad_norm": 2.6843769550323486,
+      "learning_rate": 4.605951846867056e-05,
+      "loss": 0.0588,
+      "step": 26400
+    },
+    {
+      "epoch": 7.92,
+      "grad_norm": 1.1365008354187012,
+      "learning_rate": 4.604456407955735e-05,
+      "loss": 0.0563,
+      "step": 26500
+    },
+    {
+      "epoch": 7.95,
+      "grad_norm": 2.463488817214966,
+      "learning_rate": 4.602960969044415e-05,
+      "loss": 0.0581,
+      "step": 26600
+    },
+    {
+      "epoch": 7.98,
+      "grad_norm": 0.47716620564460754,
+      "learning_rate": 4.601465530133094e-05,
+      "loss": 0.0595,
+      "step": 26700
+    },
+    {
+      "epoch": 8.01,
+      "grad_norm": 1.3218754529953003,
+      "learning_rate": 4.5999700912217736e-05,
+      "loss": 0.0554,
+      "step": 26800
+    },
+    {
+      "epoch": 8.04,
+      "grad_norm": 1.0640392303466797,
+      "learning_rate": 4.5984746523104536e-05,
+      "loss": 0.0409,
+      "step": 26900
+    },
+    {
+      "epoch": 8.07,
+      "grad_norm": 0.7323993444442749,
+      "learning_rate": 4.596979213399133e-05,
+      "loss": 0.0463,
+      "step": 27000
+    },
+    {
+      "epoch": 8.07,
+      "eval_loss": 0.21357020735740662,
+      "eval_precision": 0.9223724947042529,
+      "eval_recall": 0.8714246128267495,
+      "eval_runtime": 301.9271,
+      "eval_samples_per_second": 44.295,
+      "eval_steps_per_second": 1.384,
+      "step": 27000
+    },
+    {
+      "epoch": 8.1,
+      "grad_norm": 2.1960983276367188,
+      "learning_rate": 4.595483774487813e-05,
+      "loss": 0.0424,
+      "step": 27100
+    },
+    {
+      "epoch": 8.13,
+      "grad_norm": 2.5061357021331787,
+      "learning_rate": 4.593988335576492e-05,
+      "loss": 0.0436,
+      "step": 27200
+    },
+    {
+      "epoch": 8.16,
+      "grad_norm": 0.5249370336532593,
+      "learning_rate": 4.5924928966651714e-05,
+      "loss": 0.0537,
+      "step": 27300
+    },
+    {
+      "epoch": 8.19,
+      "grad_norm": 1.0211517810821533,
+      "learning_rate": 4.5909974577538514e-05,
+      "loss": 0.0448,
+      "step": 27400
+    },
+    {
+      "epoch": 8.22,
+      "grad_norm": 2.860835552215576,
+      "learning_rate": 4.58950201884253e-05,
+      "loss": 0.0474,
+      "step": 27500
+    },
+    {
+      "epoch": 8.25,
+      "grad_norm": 2.019699811935425,
+      "learning_rate": 4.58800657993121e-05,
+      "loss": 0.0482,
+      "step": 27600
+    },
+    {
+      "epoch": 8.28,
+      "grad_norm": 0.9144898653030396,
+      "learning_rate": 4.58651114101989e-05,
+      "loss": 0.045,
+      "step": 27700
+    },
+    {
+      "epoch": 8.31,
+      "grad_norm": 1.656792402267456,
+      "learning_rate": 4.585015702108569e-05,
+      "loss": 0.0475,
+      "step": 27800
+    },
+    {
+      "epoch": 8.34,
+      "grad_norm": 1.1702663898468018,
+      "learning_rate": 4.5835202631972485e-05,
+      "loss": 0.0445,
+      "step": 27900
+    },
+    {
+      "epoch": 8.37,
+      "grad_norm": 2.0331854820251465,
+      "learning_rate": 4.5820248242859284e-05,
+      "loss": 0.0429,
+      "step": 28000
+    },
+    {
+      "epoch": 8.37,
+      "eval_loss": 0.22609786689281464,
+      "eval_precision": 0.9198246970868781,
+      "eval_recall": 0.8788447920194588,
+      "eval_runtime": 302.1631,
+      "eval_samples_per_second": 44.261,
+      "eval_steps_per_second": 1.383,
+      "step": 28000
+    },
+    {
+      "epoch": 8.4,
+      "grad_norm": 5.98319673538208,
+      "learning_rate": 4.580529385374608e-05,
+      "loss": 0.0429,
+      "step": 28100
+    },
+    {
+      "epoch": 8.43,
+      "grad_norm": 1.0793452262878418,
+      "learning_rate": 4.579033946463287e-05,
+      "loss": 0.0525,
+      "step": 28200
+    },
+    {
+      "epoch": 8.46,
+      "grad_norm": 1.4804214239120483,
+      "learning_rate": 4.577538507551967e-05,
+      "loss": 0.0459,
+      "step": 28300
+    },
+    {
+      "epoch": 8.49,
+      "grad_norm": 0.9862244129180908,
+      "learning_rate": 4.576043068640646e-05,
+      "loss": 0.0534,
+      "step": 28400
+    },
+    {
+      "epoch": 8.52,
+      "grad_norm": 1.26304030418396,
+      "learning_rate": 4.574547629729326e-05,
+      "loss": 0.048,
+      "step": 28500
+    },
+    {
+      "epoch": 8.55,
+      "grad_norm": 0.4214903712272644,
+      "learning_rate": 4.573052190818005e-05,
+      "loss": 0.0547,
+      "step": 28600
+    },
+    {
+      "epoch": 8.58,
+      "grad_norm": 0.9271091222763062,
+      "learning_rate": 4.571556751906685e-05,
+      "loss": 0.0537,
+      "step": 28700
+    },
+    {
+      "epoch": 8.61,
+      "grad_norm": 0.8437818884849548,
+      "learning_rate": 4.570061312995365e-05,
+      "loss": 0.0537,
+      "step": 28800
+    },
+    {
+      "epoch": 8.64,
+      "grad_norm": 0.8551807999610901,
+      "learning_rate": 4.5685658740840434e-05,
+      "loss": 0.0461,
+      "step": 28900
+    },
+    {
+      "epoch": 8.67,
+      "grad_norm": 1.8268975019454956,
+      "learning_rate": 4.5670704351727234e-05,
+      "loss": 0.046,
+      "step": 29000
+    },
+    {
+      "epoch": 8.67,
+      "eval_loss": 0.20938238501548767,
+      "eval_precision": 0.9151901573163308,
+      "eval_recall": 0.8794605745250778,
+      "eval_runtime": 302.034,
+      "eval_samples_per_second": 44.28,
+      "eval_steps_per_second": 1.384,
+      "step": 29000
+    },
+    {
+      "epoch": 8.7,
+      "grad_norm": 0.08975500613451004,
+      "learning_rate": 4.565574996261403e-05,
+      "loss": 0.0493,
+      "step": 29100
+    },
+    {
+      "epoch": 8.73,
+      "grad_norm": 2.3698606491088867,
+      "learning_rate": 4.564079557350082e-05,
+      "loss": 0.0506,
+      "step": 29200
+    },
+    {
+      "epoch": 8.76,
+      "grad_norm": 1.1118419170379639,
+      "learning_rate": 4.562584118438762e-05,
+      "loss": 0.0445,
+      "step": 29300
+    },
+    {
+      "epoch": 8.79,
+      "grad_norm": 1.8186097145080566,
+      "learning_rate": 4.561088679527442e-05,
+      "loss": 0.0471,
+      "step": 29400
+    },
+    {
+      "epoch": 8.82,
+      "grad_norm": 1.4056422710418701,
+      "learning_rate": 4.559593240616121e-05,
+      "loss": 0.0513,
+      "step": 29500
+    },
+    {
+      "epoch": 8.85,
+      "grad_norm": 1.5597076416015625,
+      "learning_rate": 4.5580978017048004e-05,
+      "loss": 0.0452,
+      "step": 29600
+    },
+    {
+      "epoch": 8.88,
+      "grad_norm": 0.8287553191184998,
+      "learning_rate": 4.5566023627934804e-05,
+      "loss": 0.0523,
+      "step": 29700
+    },
+    {
+      "epoch": 8.91,
+      "grad_norm": 0.6897550821304321,
+      "learning_rate": 4.55510692388216e-05,
+      "loss": 0.0466,
+      "step": 29800
+    },
+    {
+      "epoch": 8.94,
+      "grad_norm": 0.7071977853775024,
+      "learning_rate": 4.553611484970839e-05,
+      "loss": 0.0434,
+      "step": 29900
+    },
+    {
+      "epoch": 8.97,
+      "grad_norm": 0.6574975252151489,
+      "learning_rate": 4.552116046059518e-05,
+      "loss": 0.0495,
+      "step": 30000
+    },
+    {
+      "epoch": 8.97,
+      "eval_loss": 0.20542754232883453,
+      "eval_precision": 0.9183409556852231,
+      "eval_recall": 0.8964561716801626,
+      "eval_runtime": 302.3305,
+      "eval_samples_per_second": 44.236,
+      "eval_steps_per_second": 1.383,
+      "step": 30000
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 1.3489534854888916,
+      "learning_rate": 4.550620607148198e-05,
+      "loss": 0.0499,
+      "step": 30100
+    },
+    {
+      "epoch": 9.03,
+      "grad_norm": 1.0300263166427612,
+      "learning_rate": 4.549125168236878e-05,
+      "loss": 0.0353,
+      "step": 30200
+    },
+    {
+      "epoch": 9.06,
+      "grad_norm": 0.4393318295478821,
+      "learning_rate": 4.547629729325557e-05,
+      "loss": 0.0352,
+      "step": 30300
+    },
+    {
+      "epoch": 9.09,
+      "grad_norm": 0.4519498944282532,
+      "learning_rate": 4.546134290414237e-05,
+      "loss": 0.0342,
+      "step": 30400
+    },
+    {
+      "epoch": 9.12,
+      "grad_norm": 0.9631327986717224,
+      "learning_rate": 4.544638851502917e-05,
+      "loss": 0.0364,
+      "step": 30500
+    },
+    {
+      "epoch": 9.15,
+      "grad_norm": 2.7282943725585938,
+      "learning_rate": 4.5431434125915954e-05,
+      "loss": 0.0354,
+      "step": 30600
+    },
+    {
+      "epoch": 9.18,
+      "grad_norm": 0.5908452272415161,
+      "learning_rate": 4.541647973680275e-05,
+      "loss": 0.0356,
+      "step": 30700
+    },
+    {
+      "epoch": 9.21,
+      "grad_norm": 2.3660802841186523,
+      "learning_rate": 4.540152534768955e-05,
+      "loss": 0.0413,
+      "step": 30800
+    },
+    {
+      "epoch": 9.24,
+      "grad_norm": 1.7346217632293701,
+      "learning_rate": 4.5386570958576346e-05,
+      "loss": 0.036,
+      "step": 30900
+    },
+    {
+      "epoch": 9.27,
+      "grad_norm": 1.0829362869262695,
+      "learning_rate": 4.537161656946314e-05,
+      "loss": 0.0376,
+      "step": 31000
+    },
+    {
+      "epoch": 9.27,
+      "eval_loss": 0.226752370595932,
+      "eval_precision": 0.925325841962565,
+      "eval_recall": 0.8721635518334924,
+      "eval_runtime": 302.3165,
+      "eval_samples_per_second": 44.238,
+      "eval_steps_per_second": 1.383,
+      "step": 31000
+    },
+    {
+      "epoch": 9.3,
+      "grad_norm": 1.2249701023101807,
+      "learning_rate": 4.535666218034993e-05,
+      "loss": 0.039,
+      "step": 31100
+    },
+    {
+      "epoch": 9.33,
+      "grad_norm": 2.201986789703369,
+      "learning_rate": 4.534170779123673e-05,
+      "loss": 0.0384,
+      "step": 31200
+    },
+    {
+      "epoch": 9.36,
+      "grad_norm": 0.31157541275024414,
+      "learning_rate": 4.5326753402123524e-05,
+      "loss": 0.0318,
+      "step": 31300
+    },
+    {
+      "epoch": 9.39,
+      "grad_norm": 0.7502834796905518,
+      "learning_rate": 4.531179901301032e-05,
+      "loss": 0.0397,
+      "step": 31400
+    },
+    {
+      "epoch": 9.42,
+      "grad_norm": 0.3627040684223175,
+      "learning_rate": 4.529684462389712e-05,
+      "loss": 0.0389,
+      "step": 31500
+    },
+    {
+      "epoch": 9.45,
+      "grad_norm": 2.008009672164917,
+      "learning_rate": 4.5281890234783916e-05,
+      "loss": 0.042,
+      "step": 31600
+    },
+    {
+      "epoch": 9.48,
+      "grad_norm": 2.5352540016174316,
+      "learning_rate": 4.52669358456707e-05,
+      "loss": 0.0407,
+      "step": 31700
+    },
+    {
+      "epoch": 9.51,
+      "grad_norm": 0.543992280960083,
+      "learning_rate": 4.52519814565575e-05,
+      "loss": 0.0309,
+      "step": 31800
+    },
+    {
+      "epoch": 9.54,
+      "grad_norm": 1.3150848150253296,
+      "learning_rate": 4.52370270674443e-05,
+      "loss": 0.0369,
+      "step": 31900
+    },
+    {
+      "epoch": 9.57,
+      "grad_norm": 1.6026105880737305,
+      "learning_rate": 4.522207267833109e-05,
+      "loss": 0.0418,
+      "step": 32000
+    },
+    {
+      "epoch": 9.57,
+      "eval_loss": 0.21585828065872192,
+      "eval_precision": 0.9208557844690967,
+      "eval_recall": 0.8945164567874627,
+      "eval_runtime": 303.0508,
+      "eval_samples_per_second": 44.131,
+      "eval_steps_per_second": 1.379,
+      "step": 32000
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 1.8489359617233276,
+      "learning_rate": 4.520711828921789e-05,
+      "loss": 0.0427,
+      "step": 32100
+    },
+    {
+      "epoch": 9.63,
+      "grad_norm": 2.4979922771453857,
+      "learning_rate": 4.519216390010468e-05,
+      "loss": 0.0337,
+      "step": 32200
+    },
+    {
+      "epoch": 9.66,
+      "grad_norm": 0.3452712595462799,
+      "learning_rate": 4.517720951099148e-05,
+      "loss": 0.0347,
+      "step": 32300
+    },
+    {
+      "epoch": 9.69,
+      "grad_norm": 1.081455945968628,
+      "learning_rate": 4.516225512187827e-05,
+      "loss": 0.047,
+      "step": 32400
+    },
+    {
+      "epoch": 9.72,
+      "grad_norm": 2.3087069988250732,
+      "learning_rate": 4.5147300732765066e-05,
+      "loss": 0.0404,
+      "step": 32500
+    },
+    {
+      "epoch": 9.75,
+      "grad_norm": 1.901135802268982,
+      "learning_rate": 4.5132346343651865e-05,
+      "loss": 0.0394,
+      "step": 32600
+    },
+    {
+      "epoch": 9.78,
+      "grad_norm": 1.2389637231826782,
+      "learning_rate": 4.511739195453866e-05,
+      "loss": 0.0376,
+      "step": 32700
+    },
+    {
+      "epoch": 9.81,
+      "grad_norm": 0.619143545627594,
+      "learning_rate": 4.510243756542545e-05,
+      "loss": 0.0414,
+      "step": 32800
+    },
+    {
+      "epoch": 9.84,
+      "grad_norm": 1.3270721435546875,
+      "learning_rate": 4.508748317631225e-05,
+      "loss": 0.0405,
+      "step": 32900
+    },
+    {
+      "epoch": 9.87,
+      "grad_norm": 2.503606081008911,
+      "learning_rate": 4.507252878719905e-05,
+      "loss": 0.0493,
+      "step": 33000
+    },
+    {
+      "epoch": 9.87,
+      "eval_loss": 0.20709815621376038,
+      "eval_precision": 0.9246134231259603,
+      "eval_recall": 0.8708088303211305,
+      "eval_runtime": 301.957,
+      "eval_samples_per_second": 44.291,
+      "eval_steps_per_second": 1.384,
+      "step": 33000
+    },
+    {
+      "epoch": 9.9,
+      "grad_norm": 0.6343371868133545,
+      "learning_rate": 4.505757439808584e-05,
+      "loss": 0.0365,
+      "step": 33100
+    },
+    {
+      "epoch": 9.93,
+      "grad_norm": 0.3116106688976288,
+      "learning_rate": 4.5042620008972636e-05,
+      "loss": 0.0358,
+      "step": 33200
+    },
+    {
+      "epoch": 9.96,
+      "grad_norm": 0.7307326197624207,
+      "learning_rate": 4.5027665619859436e-05,
+      "loss": 0.0411,
+      "step": 33300
+    },
+    {
+      "epoch": 9.99,
+      "grad_norm": 2.104717493057251,
+      "learning_rate": 4.501271123074622e-05,
+      "loss": 0.0401,
+      "step": 33400
+    },
+    {
+      "epoch": 10.02,
+      "grad_norm": 3.8659448623657227,
+      "learning_rate": 4.499775684163302e-05,
+      "loss": 0.0348,
+      "step": 33500
+    },
+    {
+      "epoch": 10.05,
+      "grad_norm": 1.0324366092681885,
+      "learning_rate": 4.4982802452519815e-05,
+      "loss": 0.0344,
+      "step": 33600
+    },
+    {
+      "epoch": 10.08,
+      "grad_norm": 1.0838052034378052,
+      "learning_rate": 4.4967848063406614e-05,
+      "loss": 0.0327,
+      "step": 33700
+    },
+    {
+      "epoch": 10.11,
+      "grad_norm": 1.8709659576416016,
+      "learning_rate": 4.495289367429341e-05,
+      "loss": 0.0267,
+      "step": 33800
+    },
+    {
+      "epoch": 10.14,
+      "grad_norm": 0.4261041283607483,
+      "learning_rate": 4.49379392851802e-05,
+      "loss": 0.0305,
+      "step": 33900
+    },
+    {
+      "epoch": 10.17,
+      "grad_norm": 0.16497644782066345,
+      "learning_rate": 4.4922984896067e-05,
+      "loss": 0.0276,
+      "step": 34000
+    },
+    {
+      "epoch": 10.17,
+      "eval_loss": 0.2343963235616684,
+      "eval_precision": 0.9252133285746731,
+      "eval_recall": 0.8779826965115921,
+      "eval_runtime": 301.9423,
+      "eval_samples_per_second": 44.293,
+      "eval_steps_per_second": 1.384,
+      "step": 34000
+    },
+    {
+      "epoch": 10.2,
+      "grad_norm": 2.9655115604400635,
+      "learning_rate": 4.490803050695379e-05,
+      "loss": 0.0268,
+      "step": 34100
+    },
+    {
+      "epoch": 10.23,
+      "grad_norm": 1.536979079246521,
+      "learning_rate": 4.4893076117840586e-05,
+      "loss": 0.0299,
+      "step": 34200
+    },
+    {
+      "epoch": 10.26,
+      "grad_norm": 2.8167715072631836,
+      "learning_rate": 4.4878121728727385e-05,
+      "loss": 0.0325,
+      "step": 34300
+    },
+    {
+      "epoch": 10.29,
+      "grad_norm": 2.1207668781280518,
+      "learning_rate": 4.4863167339614185e-05,
+      "loss": 0.029,
+      "step": 34400
+    },
+    {
+      "epoch": 10.32,
+      "grad_norm": 2.277759552001953,
+      "learning_rate": 4.484821295050097e-05,
+      "loss": 0.0308,
+      "step": 34500
+    },
+    {
+      "epoch": 10.35,
+      "grad_norm": 1.226417899131775,
+      "learning_rate": 4.483325856138777e-05,
+      "loss": 0.0299,
+      "step": 34600
+    },
+    {
+      "epoch": 10.38,
+      "grad_norm": 0.63482266664505,
+      "learning_rate": 4.4818304172274563e-05,
+      "loss": 0.0337,
+      "step": 34700
+    },
+    {
+      "epoch": 10.41,
+      "grad_norm": 1.8453493118286133,
+      "learning_rate": 4.4803349783161356e-05,
+      "loss": 0.0346,
+      "step": 34800
+    },
+    {
+      "epoch": 10.44,
+      "grad_norm": 0.40149375796318054,
+      "learning_rate": 4.4788395394048156e-05,
+      "loss": 0.03,
+      "step": 34900
+    },
+    {
+      "epoch": 10.47,
+      "grad_norm": 0.3980793058872223,
+      "learning_rate": 4.477344100493495e-05,
+      "loss": 0.035,
+      "step": 35000
+    },
+    {
+      "epoch": 10.47,
+      "eval_loss": 0.22229593992233276,
+      "eval_precision": 0.9262946269334285,
+      "eval_recall": 0.8795221527756396,
+      "eval_runtime": 302.9773,
+      "eval_samples_per_second": 44.142,
+      "eval_steps_per_second": 1.38,
+      "step": 35000
+    },
+    {
+      "epoch": 10.5,
+      "grad_norm": 0.629266083240509,
+      "learning_rate": 4.475848661582174e-05,
+      "loss": 0.0363,
+      "step": 35100
+    },
+    {
+      "epoch": 10.53,
+      "grad_norm": 1.134805679321289,
+      "learning_rate": 4.474353222670854e-05,
+      "loss": 0.0343,
+      "step": 35200
+    },
+    {
+      "epoch": 10.56,
+      "grad_norm": 1.9168953895568848,
+      "learning_rate": 4.4728577837595334e-05,
+      "loss": 0.0333,
+      "step": 35300
+    },
+    {
+      "epoch": 10.59,
+      "grad_norm": 0.7437408566474915,
+      "learning_rate": 4.4713623448482134e-05,
+      "loss": 0.0377,
+      "step": 35400
+    },
+    {
+      "epoch": 10.62,
+      "grad_norm": 0.8649216890335083,
+      "learning_rate": 4.469866905936893e-05,
+      "loss": 0.0387,
+      "step": 35500
+    },
+    {
+      "epoch": 10.65,
+      "grad_norm": 1.9679126739501953,
+      "learning_rate": 4.468371467025572e-05,
+      "loss": 0.0324,
+      "step": 35600
+    },
+    {
+      "epoch": 10.68,
+      "grad_norm": 1.0343681573867798,
+      "learning_rate": 4.466876028114252e-05,
+      "loss": 0.0371,
+      "step": 35700
+    },
+    {
+      "epoch": 10.71,
+      "grad_norm": 0.3291555941104889,
+      "learning_rate": 4.465380589202931e-05,
+      "loss": 0.0339,
+      "step": 35800
+    },
+    {
+      "epoch": 10.74,
+      "grad_norm": 1.2407808303833008,
+      "learning_rate": 4.4638851502916105e-05,
+      "loss": 0.0376,
+      "step": 35900
+    },
+    {
+      "epoch": 10.77,
+      "grad_norm": 1.2906955480575562,
+      "learning_rate": 4.4623897113802905e-05,
+      "loss": 0.0348,
+      "step": 36000
+    },
+    {
+      "epoch": 10.77,
+      "eval_loss": 0.22172214090824127,
+      "eval_precision": 0.9251365945617791,
+      "eval_recall": 0.8914683333846486,
+      "eval_runtime": 302.63,
+      "eval_samples_per_second": 44.193,
+      "eval_steps_per_second": 1.381,
+      "step": 36000
+    },
+    {
+      "epoch": 10.8,
+      "grad_norm": 0.9678496718406677,
+      "learning_rate": 4.46089427246897e-05,
+      "loss": 0.0354,
+      "step": 36100
+    },
+    {
+      "epoch": 10.83,
+      "grad_norm": 1.92240571975708,
+      "learning_rate": 4.459398833557649e-05,
+      "loss": 0.0324,
+      "step": 36200
+    },
+    {
+      "epoch": 10.86,
+      "grad_norm": 2.5916824340820312,
+      "learning_rate": 4.457903394646329e-05,
+      "loss": 0.034,
+      "step": 36300
+    },
+    {
+      "epoch": 10.89,
+      "grad_norm": 1.4677050113677979,
+      "learning_rate": 4.456407955735008e-05,
+      "loss": 0.0304,
+      "step": 36400
+    },
+    {
+      "epoch": 10.92,
+      "grad_norm": 1.1423336267471313,
+      "learning_rate": 4.4549125168236876e-05,
+      "loss": 0.0315,
+      "step": 36500
+    },
+    {
+      "epoch": 10.94,
+      "grad_norm": 1.0664762258529663,
+      "learning_rate": 4.4534170779123676e-05,
+      "loss": 0.0371,
+      "step": 36600
+    },
+    {
+      "epoch": 10.97,
+      "grad_norm": 1.344557762145996,
+      "learning_rate": 4.451921639001047e-05,
+      "loss": 0.0334,
+      "step": 36700
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 2.944450616836548,
+      "learning_rate": 4.450426200089727e-05,
+      "loss": 0.0312,
+      "step": 36800
+    },
+    {
+      "epoch": 11.03,
+      "grad_norm": 1.02321195602417,
+      "learning_rate": 4.448930761178406e-05,
+      "loss": 0.0243,
+      "step": 36900
+    },
+    {
+      "epoch": 11.06,
+      "grad_norm": 1.4520535469055176,
+      "learning_rate": 4.4474353222670854e-05,
+      "loss": 0.0263,
+      "step": 37000
+    },
+    {
+      "epoch": 11.06,
+      "eval_loss": 0.23973342776298523,
+      "eval_precision": 0.928783958602846,
+      "eval_recall": 0.8842020998183442,
+      "eval_runtime": 302.1259,
+      "eval_samples_per_second": 44.266,
+      "eval_steps_per_second": 1.384,
+      "step": 37000
+    },
+    {
+      "epoch": 11.09,
+      "grad_norm": 0.9927899837493896,
+      "learning_rate": 4.4459398833557654e-05,
+      "loss": 0.0251,
+      "step": 37100
+    },
+    {
+      "epoch": 11.12,
+      "grad_norm": 0.7255445122718811,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.023,
+      "step": 37200
+    },
+    {
+      "epoch": 11.15,
+      "grad_norm": 1.2551404237747192,
+      "learning_rate": 4.442949005533124e-05,
+      "loss": 0.0282,
+      "step": 37300
+    },
+    {
+      "epoch": 11.18,
+      "grad_norm": 1.8652236461639404,
+      "learning_rate": 4.441453566621804e-05,
+      "loss": 0.0265,
+      "step": 37400
+    },
+    {
+      "epoch": 11.21,
+      "grad_norm": 0.29598140716552734,
+      "learning_rate": 4.439958127710483e-05,
+      "loss": 0.0231,
+      "step": 37500
+    },
+    {
+      "epoch": 11.24,
+      "grad_norm": 0.517977774143219,
+      "learning_rate": 4.4384626887991625e-05,
+      "loss": 0.0266,
+      "step": 37600
+    },
+    {
+      "epoch": 11.27,
+      "grad_norm": 1.3159215450286865,
+      "learning_rate": 4.4369672498878425e-05,
+      "loss": 0.0246,
+      "step": 37700
+    },
+    {
+      "epoch": 11.3,
+      "grad_norm": 1.8311362266540527,
+      "learning_rate": 4.435471810976522e-05,
+      "loss": 0.0325,
+      "step": 37800
+    },
+    {
+      "epoch": 11.33,
+      "grad_norm": 2.8861258029937744,
+      "learning_rate": 4.433976372065201e-05,
+      "loss": 0.0303,
+      "step": 37900
+    },
+    {
+      "epoch": 11.36,
+      "grad_norm": 0.6612695455551147,
+      "learning_rate": 4.432480933153881e-05,
+      "loss": 0.0284,
+      "step": 38000
+    },
+    {
+      "epoch": 11.36,
+      "eval_loss": 0.23250487446784973,
+      "eval_precision": 0.9248716302952503,
+      "eval_recall": 0.8873118014717202,
+      "eval_runtime": 302.5481,
+      "eval_samples_per_second": 44.205,
+      "eval_steps_per_second": 1.382,
+      "step": 38000
+    },
+    {
+      "epoch": 11.39,
+      "grad_norm": 0.8181266784667969,
+      "learning_rate": 4.43098549424256e-05,
+      "loss": 0.0251,
+      "step": 38100
+    },
+    {
+      "epoch": 11.42,
+      "grad_norm": 0.48834991455078125,
+      "learning_rate": 4.42949005533124e-05,
+      "loss": 0.0313,
+      "step": 38200
+    },
+    {
+      "epoch": 11.45,
+      "grad_norm": 0.4897523820400238,
+      "learning_rate": 4.4279946164199195e-05,
+      "loss": 0.0328,
+      "step": 38300
+    },
+    {
+      "epoch": 11.48,
+      "grad_norm": 0.7222294807434082,
+      "learning_rate": 4.426499177508599e-05,
+      "loss": 0.0298,
+      "step": 38400
+    },
+    {
+      "epoch": 11.51,
+      "grad_norm": 0.07086914777755737,
+      "learning_rate": 4.425003738597279e-05,
+      "loss": 0.032,
+      "step": 38500
+    },
+    {
+      "epoch": 11.54,
+      "grad_norm": 1.4812002182006836,
+      "learning_rate": 4.423508299685958e-05,
+      "loss": 0.0282,
+      "step": 38600
+    },
+    {
+      "epoch": 11.57,
+      "grad_norm": 1.302590012550354,
+      "learning_rate": 4.4220128607746374e-05,
+      "loss": 0.027,
+      "step": 38700
+    },
+    {
+      "epoch": 11.6,
+      "grad_norm": 1.9532426595687866,
+      "learning_rate": 4.420517421863317e-05,
+      "loss": 0.0304,
+      "step": 38800
+    },
+    {
+      "epoch": 11.63,
+      "grad_norm": 2.029754638671875,
+      "learning_rate": 4.4190219829519966e-05,
+      "loss": 0.0301,
+      "step": 38900
+    },
+    {
+      "epoch": 11.66,
+      "grad_norm": 1.320448398590088,
+      "learning_rate": 4.417526544040676e-05,
+      "loss": 0.0277,
+      "step": 39000
+    },
+    {
+      "epoch": 11.66,
+      "eval_loss": 0.241913303732872,
+      "eval_precision": 0.9234215627085253,
+      "eval_recall": 0.8947627697897103,
+      "eval_runtime": 303.3685,
+      "eval_samples_per_second": 44.085,
+      "eval_steps_per_second": 1.378,
+      "step": 39000
+    },
+    {
+      "epoch": 11.69,
+      "grad_norm": 1.8267722129821777,
+      "learning_rate": 4.416031105129356e-05,
+      "loss": 0.0249,
+      "step": 39100
+    },
+    {
+      "epoch": 11.72,
+      "grad_norm": 0.7122277021408081,
+      "learning_rate": 4.414535666218035e-05,
+      "loss": 0.0323,
+      "step": 39200
+    },
+    {
+      "epoch": 11.75,
+      "grad_norm": 0.5691227316856384,
+      "learning_rate": 4.4130402273067145e-05,
+      "loss": 0.0325,
+      "step": 39300
+    },
+    {
+      "epoch": 11.78,
+      "grad_norm": 0.40894216299057007,
+      "learning_rate": 4.4115447883953944e-05,
+      "loss": 0.0301,
+      "step": 39400
+    },
+    {
+      "epoch": 11.81,
+      "grad_norm": 2.4805972576141357,
+      "learning_rate": 4.410049349484074e-05,
+      "loss": 0.0277,
+      "step": 39500
+    },
+    {
+      "epoch": 11.84,
+      "grad_norm": 1.2774219512939453,
+      "learning_rate": 4.408553910572754e-05,
+      "loss": 0.0278,
+      "step": 39600
+    },
+    {
+      "epoch": 11.87,
+      "grad_norm": 1.267562985420227,
+      "learning_rate": 4.407058471661433e-05,
+      "loss": 0.0286,
+      "step": 39700
+    },
+    {
+      "epoch": 11.9,
+      "grad_norm": 0.6910821795463562,
+      "learning_rate": 4.405563032750112e-05,
+      "loss": 0.0344,
+      "step": 39800
+    },
+    {
+      "epoch": 11.93,
+      "grad_norm": 0.3539283275604248,
+      "learning_rate": 4.404067593838792e-05,
+      "loss": 0.0298,
+      "step": 39900
+    },
+    {
+      "epoch": 11.96,
+      "grad_norm": 1.7098407745361328,
+      "learning_rate": 4.4025721549274715e-05,
+      "loss": 0.0318,
+      "step": 40000
+    },
+    {
+      "epoch": 11.96,
+      "eval_loss": 0.23493793606758118,
+      "eval_precision": 0.9253437490076529,
+      "eval_recall": 0.8971951106869054,
+      "eval_runtime": 302.3541,
+      "eval_samples_per_second": 44.233,
+      "eval_steps_per_second": 1.382,
+      "step": 40000
+    },
+    {
+      "epoch": 11.99,
+      "grad_norm": 2.1748311519622803,
+      "learning_rate": 4.401076716016151e-05,
+      "loss": 0.0312,
+      "step": 40100
+    },
+    {
+      "epoch": 12.02,
+      "grad_norm": 0.8426460027694702,
+      "learning_rate": 4.399581277104831e-05,
+      "loss": 0.0262,
+      "step": 40200
+    },
+    {
+      "epoch": 12.05,
+      "grad_norm": 0.3200826048851013,
+      "learning_rate": 4.39808583819351e-05,
+      "loss": 0.0237,
+      "step": 40300
+    },
+    {
+      "epoch": 12.08,
+      "grad_norm": 0.2708234488964081,
+      "learning_rate": 4.3965903992821893e-05,
+      "loss": 0.0229,
+      "step": 40400
+    },
+    {
+      "epoch": 12.11,
+      "grad_norm": 1.4237157106399536,
+      "learning_rate": 4.395094960370869e-05,
+      "loss": 0.0198,
+      "step": 40500
+    },
+    {
+      "epoch": 12.14,
+      "grad_norm": 0.06805676221847534,
+      "learning_rate": 4.3935995214595486e-05,
+      "loss": 0.026,
+      "step": 40600
+    },
+    {
+      "epoch": 12.17,
+      "grad_norm": 1.2842926979064941,
+      "learning_rate": 4.392104082548228e-05,
+      "loss": 0.0241,
+      "step": 40700
+    },
+    {
+      "epoch": 12.2,
+      "grad_norm": 1.5190855264663696,
+      "learning_rate": 4.390608643636908e-05,
+      "loss": 0.0232,
+      "step": 40800
+    },
+    {
+      "epoch": 12.23,
+      "grad_norm": 1.8280004262924194,
+      "learning_rate": 4.389113204725587e-05,
+      "loss": 0.0241,
+      "step": 40900
+    },
+    {
+      "epoch": 12.26,
+      "grad_norm": 0.19059352576732635,
+      "learning_rate": 4.3876177658142664e-05,
+      "loss": 0.0238,
+      "step": 41000
+    },
+    {
+      "epoch": 12.26,
+      "eval_loss": 0.24695585668087006,
+      "eval_precision": 0.9256610729722858,
+      "eval_recall": 0.8967332738076911,
+      "eval_runtime": 302.2734,
+      "eval_samples_per_second": 44.245,
+      "eval_steps_per_second": 1.383,
+      "step": 41000
+    },
+    {
+      "epoch": 12.29,
+      "grad_norm": 0.40746474266052246,
+      "learning_rate": 4.3861223269029464e-05,
+      "loss": 0.0232,
+      "step": 41100
+    },
+    {
+      "epoch": 12.32,
+      "grad_norm": 1.2412996292114258,
+      "learning_rate": 4.384626887991626e-05,
+      "loss": 0.0215,
+      "step": 41200
+    },
+    {
+      "epoch": 12.35,
+      "grad_norm": 0.2166558802127838,
+      "learning_rate": 4.3831314490803056e-05,
+      "loss": 0.0237,
+      "step": 41300
+    },
+    {
+      "epoch": 12.38,
+      "grad_norm": 0.719872236251831,
+      "learning_rate": 4.381636010168985e-05,
+      "loss": 0.0253,
+      "step": 41400
+    },
+    {
+      "epoch": 12.41,
+      "grad_norm": 1.5946626663208008,
+      "learning_rate": 4.380140571257664e-05,
+      "loss": 0.0235,
+      "step": 41500
+    },
+    {
+      "epoch": 12.44,
+      "grad_norm": 1.0119950771331787,
+      "learning_rate": 4.378645132346344e-05,
+      "loss": 0.0257,
+      "step": 41600
+    },
+    {
+      "epoch": 12.47,
+      "grad_norm": 0.9327923059463501,
+      "learning_rate": 4.377149693435023e-05,
+      "loss": 0.0243,
+      "step": 41700
+    },
+    {
+      "epoch": 12.5,
+      "grad_norm": 0.41256028413772583,
+      "learning_rate": 4.375654254523703e-05,
+      "loss": 0.0272,
+      "step": 41800
+    },
+    {
+      "epoch": 12.53,
+      "grad_norm": 0.1845785677433014,
+      "learning_rate": 4.374158815612383e-05,
+      "loss": 0.029,
+      "step": 41900
+    },
+    {
+      "epoch": 12.56,
+      "grad_norm": 1.754239559173584,
+      "learning_rate": 4.372663376701062e-05,
+      "loss": 0.0252,
+      "step": 42000
+    },
+    {
+      "epoch": 12.56,
+      "eval_loss": 0.2473253309726715,
+      "eval_precision": 0.9269791733010636,
+      "eval_recall": 0.8962406478031959,
+      "eval_runtime": 304.5592,
+      "eval_samples_per_second": 43.913,
+      "eval_steps_per_second": 1.372,
+      "step": 42000
+    },
+    {
+      "epoch": 12.59,
+      "grad_norm": 0.5748271346092224,
+      "learning_rate": 4.371167937789741e-05,
+      "loss": 0.0281,
+      "step": 42100
+    },
+    {
+      "epoch": 12.62,
+      "grad_norm": 0.36274582147598267,
+      "learning_rate": 4.369672498878421e-05,
+      "loss": 0.0248,
+      "step": 42200
+    },
+    {
+      "epoch": 12.65,
+      "grad_norm": 0.6130300164222717,
+      "learning_rate": 4.3681770599671006e-05,
+      "loss": 0.0269,
+      "step": 42300
+    },
+    {
+      "epoch": 12.68,
+      "grad_norm": 1.2477418184280396,
+      "learning_rate": 4.36668162105578e-05,
+      "loss": 0.0259,
+      "step": 42400
+    },
+    {
+      "epoch": 12.71,
+      "grad_norm": 0.8152483701705933,
+      "learning_rate": 4.36518618214446e-05,
+      "loss": 0.0263,
+      "step": 42500
+    },
+    {
+      "epoch": 12.74,
+      "grad_norm": 0.04731460288167,
+      "learning_rate": 4.363690743233139e-05,
+      "loss": 0.024,
+      "step": 42600
+    },
+    {
+      "epoch": 12.77,
+      "grad_norm": 0.7886996865272522,
+      "learning_rate": 4.362195304321819e-05,
+      "loss": 0.0245,
+      "step": 42700
+    },
+    {
+      "epoch": 12.8,
+      "grad_norm": 2.1900315284729004,
+      "learning_rate": 4.360699865410498e-05,
+      "loss": 0.0292,
+      "step": 42800
+    },
+    {
+      "epoch": 12.83,
+      "grad_norm": 0.45924192667007446,
+      "learning_rate": 4.3592044264991777e-05,
+      "loss": 0.0261,
+      "step": 42900
+    },
+    {
+      "epoch": 12.86,
+      "grad_norm": 0.07307754456996918,
+      "learning_rate": 4.3577089875878576e-05,
+      "loss": 0.0248,
+      "step": 43000
+    },
+    {
+      "epoch": 12.86,
+      "eval_loss": 0.24504822492599487,
+      "eval_precision": 0.9273960876319711,
+      "eval_recall": 0.9006127035930909,
+      "eval_runtime": 303.9567,
+      "eval_samples_per_second": 44.0,
+      "eval_steps_per_second": 1.375,
+      "step": 43000
+    },
+    {
+      "epoch": 12.89,
+      "grad_norm": 0.4676400423049927,
+      "learning_rate": 4.356213548676536e-05,
+      "loss": 0.0232,
+      "step": 43100
+    },
+    {
+      "epoch": 12.92,
+      "grad_norm": 0.2993585765361786,
+      "learning_rate": 4.354718109765216e-05,
+      "loss": 0.0237,
+      "step": 43200
+    },
+    {
+      "epoch": 12.95,
+      "grad_norm": 1.226276159286499,
+      "learning_rate": 4.353222670853896e-05,
+      "loss": 0.0256,
+      "step": 43300
+    },
+    {
+      "epoch": 12.98,
+      "grad_norm": 1.5110477209091187,
+      "learning_rate": 4.3517272319425754e-05,
+      "loss": 0.0285,
+      "step": 43400
+    },
+    {
+      "epoch": 13.01,
+      "grad_norm": 1.6162513494491577,
+      "learning_rate": 4.350231793031255e-05,
+      "loss": 0.0219,
+      "step": 43500
+    },
+    {
+      "epoch": 13.04,
+      "grad_norm": 0.1792839914560318,
+      "learning_rate": 4.348736354119935e-05,
+      "loss": 0.0191,
+      "step": 43600
+    },
+    {
+      "epoch": 13.07,
+      "grad_norm": 1.9044649600982666,
+      "learning_rate": 4.347240915208614e-05,
+      "loss": 0.017,
+      "step": 43700
+    },
+    {
+      "epoch": 13.1,
+      "grad_norm": 0.5899202823638916,
+      "learning_rate": 4.345745476297293e-05,
+      "loss": 0.0241,
+      "step": 43800
+    },
+    {
+      "epoch": 13.13,
+      "grad_norm": 0.6521077752113342,
+      "learning_rate": 4.344250037385973e-05,
+      "loss": 0.0216,
+      "step": 43900
+    },
+    {
+      "epoch": 13.16,
+      "grad_norm": 0.7596339583396912,
+      "learning_rate": 4.3427545984746525e-05,
+      "loss": 0.0181,
+      "step": 44000
+    },
+    {
+      "epoch": 13.16,
+      "eval_loss": 0.2613174319267273,
+      "eval_precision": 0.9276514907592247,
+      "eval_recall": 0.8870654884694725,
+      "eval_runtime": 304.3764,
+      "eval_samples_per_second": 43.939,
+      "eval_steps_per_second": 1.373,
+      "step": 44000
+    },
+    {
+      "epoch": 13.19,
+      "grad_norm": 1.0404387712478638,
+      "learning_rate": 4.3412591595633325e-05,
+      "loss": 0.0247,
+      "step": 44100
+    },
+    {
+      "epoch": 13.22,
+      "grad_norm": 1.7849115133285522,
+      "learning_rate": 4.339763720652011e-05,
+      "loss": 0.0188,
+      "step": 44200
+    },
+    {
+      "epoch": 13.25,
+      "grad_norm": 1.0972092151641846,
+      "learning_rate": 4.338268281740691e-05,
+      "loss": 0.0255,
+      "step": 44300
+    },
+    {
+      "epoch": 13.28,
+      "grad_norm": 0.7391771078109741,
+      "learning_rate": 4.336772842829371e-05,
+      "loss": 0.0225,
+      "step": 44400
+    },
+    {
+      "epoch": 13.31,
+      "grad_norm": 1.5010148286819458,
+      "learning_rate": 4.3352774039180497e-05,
+      "loss": 0.0217,
+      "step": 44500
+    },
+    {
+      "epoch": 13.34,
+      "grad_norm": 0.7189137935638428,
+      "learning_rate": 4.3337819650067296e-05,
+      "loss": 0.0211,
+      "step": 44600
+    },
+    {
+      "epoch": 13.37,
+      "grad_norm": 1.003636121749878,
+      "learning_rate": 4.3322865260954096e-05,
+      "loss": 0.0236,
+      "step": 44700
+    },
+    {
+      "epoch": 13.4,
+      "grad_norm": 0.914703369140625,
+      "learning_rate": 4.330791087184089e-05,
+      "loss": 0.0224,
+      "step": 44800
+    },
+    {
+      "epoch": 13.43,
+      "grad_norm": 0.1861487776041031,
+      "learning_rate": 4.329295648272768e-05,
+      "loss": 0.0251,
+      "step": 44900
+    },
+    {
+      "epoch": 13.46,
+      "grad_norm": 0.7734150886535645,
+      "learning_rate": 4.327800209361448e-05,
+      "loss": 0.0254,
+      "step": 45000
+    },
+    {
+      "epoch": 13.46,
+      "eval_loss": 0.2583397924900055,
+      "eval_precision": 0.9213451745124829,
+      "eval_recall": 0.9135441362110902,
+      "eval_runtime": 305.1941,
+      "eval_samples_per_second": 43.821,
+      "eval_steps_per_second": 1.37,
+      "step": 45000
+    },
+    {
+      "epoch": 13.49,
+      "grad_norm": 0.7596560716629028,
+      "learning_rate": 4.3263047704501274e-05,
+      "loss": 0.0246,
+      "step": 45100
+    },
+    {
+      "epoch": 13.52,
+      "grad_norm": 1.4200429916381836,
+      "learning_rate": 4.324809331538807e-05,
+      "loss": 0.0174,
+      "step": 45200
+    },
+    {
+      "epoch": 13.55,
+      "grad_norm": 2.7082788944244385,
+      "learning_rate": 4.323313892627486e-05,
+      "loss": 0.026,
+      "step": 45300
+    },
+    {
+      "epoch": 13.58,
+      "grad_norm": 1.2132717370986938,
+      "learning_rate": 4.321818453716166e-05,
+      "loss": 0.0228,
+      "step": 45400
+    },
+    {
+      "epoch": 13.61,
+      "grad_norm": 3.768927812576294,
+      "learning_rate": 4.320323014804846e-05,
+      "loss": 0.0236,
+      "step": 45500
+    },
+    {
+      "epoch": 13.64,
+      "grad_norm": 1.5163260698318481,
+      "learning_rate": 4.3188275758935245e-05,
+      "loss": 0.0189,
+      "step": 45600
+    },
+    {
+      "epoch": 13.67,
+      "grad_norm": 0.7969369888305664,
+      "learning_rate": 4.3173321369822045e-05,
+      "loss": 0.0245,
+      "step": 45700
+    },
+    {
+      "epoch": 13.7,
+      "grad_norm": 1.445375680923462,
+      "learning_rate": 4.3158366980708845e-05,
+      "loss": 0.0232,
+      "step": 45800
+    },
+    {
+      "epoch": 13.73,
+      "grad_norm": 0.04813400283455849,
+      "learning_rate": 4.314341259159563e-05,
+      "loss": 0.0215,
+      "step": 45900
+    },
+    {
+      "epoch": 13.76,
+      "grad_norm": 2.0303447246551514,
+      "learning_rate": 4.312845820248243e-05,
+      "loss": 0.0206,
+      "step": 46000
+    },
+    {
+      "epoch": 13.76,
+      "eval_loss": 0.2769757807254791,
+      "eval_precision": 0.9277020832674738,
+      "eval_recall": 0.9035376704947813,
+      "eval_runtime": 304.0355,
+      "eval_samples_per_second": 43.988,
+      "eval_steps_per_second": 1.375,
+      "step": 46000
+    },
+    {
+      "epoch": 13.79,
+      "grad_norm": 0.9254265427589417,
+      "learning_rate": 4.311350381336923e-05,
+      "loss": 0.0203,
+      "step": 46100
+    },
+    {
+      "epoch": 13.82,
+      "grad_norm": 2.1310763359069824,
+      "learning_rate": 4.309854942425602e-05,
+      "loss": 0.0206,
+      "step": 46200
+    },
+    {
+      "epoch": 13.85,
+      "grad_norm": 0.5353107452392578,
+      "learning_rate": 4.3083595035142816e-05,
+      "loss": 0.0206,
+      "step": 46300
+    },
+    {
+      "epoch": 13.88,
+      "grad_norm": 0.9395775198936462,
+      "learning_rate": 4.306864064602961e-05,
+      "loss": 0.0304,
+      "step": 46400
+    },
+    {
+      "epoch": 13.91,
+      "grad_norm": 0.056145694106817245,
+      "learning_rate": 4.305368625691641e-05,
+      "loss": 0.0237,
+      "step": 46500
+    },
+    {
+      "epoch": 13.94,
+      "grad_norm": 0.03264997899532318,
+      "learning_rate": 4.30387318678032e-05,
+      "loss": 0.0244,
+      "step": 46600
+    },
+    {
+      "epoch": 13.97,
+      "grad_norm": 1.6055926084518433,
+      "learning_rate": 4.3023777478689994e-05,
+      "loss": 0.0224,
+      "step": 46700
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 1.4891152381896973,
+      "learning_rate": 4.3008823089576794e-05,
+      "loss": 0.021,
+      "step": 46800
+    },
+    {
+      "epoch": 14.03,
+      "grad_norm": 0.3057061731815338,
+      "learning_rate": 4.299386870046359e-05,
+      "loss": 0.0173,
+      "step": 46900
+    },
+    {
+      "epoch": 14.06,
+      "grad_norm": 1.0254565477371216,
+      "learning_rate": 4.297891431135038e-05,
+      "loss": 0.017,
+      "step": 47000
+    },
+    {
+      "epoch": 14.06,
+      "eval_loss": 0.2714207172393799,
+      "eval_precision": 0.9283886660138359,
+      "eval_recall": 0.9048923920071431,
+      "eval_runtime": 302.2817,
+      "eval_samples_per_second": 44.244,
+      "eval_steps_per_second": 1.383,
+      "step": 47000
+    },
+    {
+      "epoch": 14.08,
+      "grad_norm": 0.6178631782531738,
+      "learning_rate": 4.296395992223718e-05,
+      "loss": 0.021,
+      "step": 47100
+    },
+    {
+      "epoch": 14.11,
+      "grad_norm": 3.516096353530884,
+      "learning_rate": 4.294900553312398e-05,
+      "loss": 0.0181,
+      "step": 47200
+    },
+    {
+      "epoch": 14.14,
+      "grad_norm": 0.20362690091133118,
+      "learning_rate": 4.2934051144010765e-05,
+      "loss": 0.0193,
+      "step": 47300
+    },
+    {
+      "epoch": 14.17,
+      "grad_norm": 2.5930867195129395,
+      "learning_rate": 4.2919096754897565e-05,
+      "loss": 0.0176,
+      "step": 47400
+    },
+    {
+      "epoch": 14.2,
+      "grad_norm": 1.4823873043060303,
+      "learning_rate": 4.2904142365784364e-05,
+      "loss": 0.0173,
+      "step": 47500
+    },
+    {
+      "epoch": 14.23,
+      "grad_norm": 0.5278753042221069,
+      "learning_rate": 4.288918797667115e-05,
+      "loss": 0.0212,
+      "step": 47600
+    },
+    {
+      "epoch": 14.26,
+      "grad_norm": 1.855218529701233,
+      "learning_rate": 4.287423358755795e-05,
+      "loss": 0.0199,
+      "step": 47700
+    },
+    {
+      "epoch": 14.29,
+      "grad_norm": 0.31464433670043945,
+      "learning_rate": 4.285927919844474e-05,
+      "loss": 0.0241,
+      "step": 47800
+    },
+    {
+      "epoch": 14.32,
+      "grad_norm": 0.2182936817407608,
+      "learning_rate": 4.284432480933154e-05,
+      "loss": 0.0172,
+      "step": 47900
+    },
+    {
+      "epoch": 14.35,
+      "grad_norm": 1.2800421714782715,
+      "learning_rate": 4.2829370420218336e-05,
+      "loss": 0.0188,
+      "step": 48000
+    },
+    {
+      "epoch": 14.35,
+      "eval_loss": 0.26452192664146423,
+      "eval_precision": 0.9272217673363986,
+      "eval_recall": 0.9065242156470334,
+      "eval_runtime": 302.9199,
+      "eval_samples_per_second": 44.15,
+      "eval_steps_per_second": 1.38,
+      "step": 48000
+    },
+    {
+      "epoch": 14.38,
+      "grad_norm": 3.320737361907959,
+      "learning_rate": 4.281441603110513e-05,
+      "loss": 0.0198,
+      "step": 48100
+    },
+    {
+      "epoch": 14.41,
+      "grad_norm": 0.8519121408462524,
+      "learning_rate": 4.279946164199193e-05,
+      "loss": 0.0182,
+      "step": 48200
+    },
+    {
+      "epoch": 14.44,
+      "grad_norm": 0.4318147599697113,
+      "learning_rate": 4.278450725287872e-05,
+      "loss": 0.0178,
+      "step": 48300
+    },
+    {
+      "epoch": 14.47,
+      "grad_norm": 0.047759074717760086,
+      "learning_rate": 4.2769552863765514e-05,
+      "loss": 0.021,
+      "step": 48400
+    },
+    {
+      "epoch": 14.5,
+      "grad_norm": 1.6022422313690186,
+      "learning_rate": 4.2754598474652314e-05,
+      "loss": 0.0144,
+      "step": 48500
+    },
+    {
+      "epoch": 14.53,
+      "grad_norm": 0.7104184031486511,
+      "learning_rate": 4.273964408553911e-05,
+      "loss": 0.0207,
+      "step": 48600
+    },
+    {
+      "epoch": 14.56,
+      "grad_norm": 1.5093780755996704,
+      "learning_rate": 4.27246896964259e-05,
+      "loss": 0.0205,
+      "step": 48700
+    },
+    {
+      "epoch": 14.59,
+      "grad_norm": 0.7566470503807068,
+      "learning_rate": 4.27097353073127e-05,
+      "loss": 0.0187,
+      "step": 48800
+    },
+    {
+      "epoch": 14.62,
+      "grad_norm": 1.222693920135498,
+      "learning_rate": 4.269478091819949e-05,
+      "loss": 0.0199,
+      "step": 48900
+    },
+    {
+      "epoch": 14.65,
+      "grad_norm": 1.5546650886535645,
+      "learning_rate": 4.2679826529086285e-05,
+      "loss": 0.0188,
+      "step": 49000
+    },
+    {
+      "epoch": 14.65,
+      "eval_loss": 0.2760772109031677,
+      "eval_precision": 0.9305101058710299,
+      "eval_recall": 0.8930077896486961,
+      "eval_runtime": 301.8588,
+      "eval_samples_per_second": 44.305,
+      "eval_steps_per_second": 1.385,
+      "step": 49000
+    },
+    {
+      "epoch": 14.68,
+      "grad_norm": 0.6152912378311157,
+      "learning_rate": 4.2664872139973084e-05,
+      "loss": 0.0199,
+      "step": 49100
+    },
+    {
+      "epoch": 14.71,
+      "grad_norm": 0.8479551672935486,
+      "learning_rate": 4.264991775085988e-05,
+      "loss": 0.0236,
+      "step": 49200
+    },
+    {
+      "epoch": 14.74,
+      "grad_norm": 2.0793190002441406,
+      "learning_rate": 4.263496336174668e-05,
+      "loss": 0.0257,
+      "step": 49300
+    },
+    {
+      "epoch": 14.77,
+      "grad_norm": 0.9795339107513428,
+      "learning_rate": 4.262000897263347e-05,
+      "loss": 0.019,
+      "step": 49400
+    },
+    {
+      "epoch": 14.8,
+      "grad_norm": 0.49018004536628723,
+      "learning_rate": 4.260505458352026e-05,
+      "loss": 0.0207,
+      "step": 49500
+    },
+    {
+      "epoch": 14.83,
+      "grad_norm": 0.22400274872779846,
+      "learning_rate": 4.259010019440706e-05,
+      "loss": 0.0212,
+      "step": 49600
+    },
+    {
+      "epoch": 14.86,
+      "grad_norm": 0.8345464468002319,
+      "learning_rate": 4.2575145805293855e-05,
+      "loss": 0.0182,
+      "step": 49700
+    },
+    {
+      "epoch": 14.89,
+      "grad_norm": 0.2443341612815857,
+      "learning_rate": 4.256019141618065e-05,
+      "loss": 0.0177,
+      "step": 49800
+    },
+    {
+      "epoch": 14.92,
+      "grad_norm": 0.697216272354126,
+      "learning_rate": 4.254523702706745e-05,
+      "loss": 0.0216,
+      "step": 49900
+    },
+    {
+      "epoch": 14.95,
+      "grad_norm": 0.5050187706947327,
+      "learning_rate": 4.253028263795424e-05,
+      "loss": 0.0166,
+      "step": 50000
+    },
+    {
+      "epoch": 14.95,
+      "eval_loss": 0.282767653465271,
+      "eval_precision": 0.9254008757836374,
+      "eval_recall": 0.9044305551279288,
+      "eval_runtime": 303.3682,
+      "eval_samples_per_second": 44.085,
+      "eval_steps_per_second": 1.378,
+      "step": 50000
+    },
+    {
+      "epoch": 14.98,
+      "grad_norm": 0.4018344283103943,
+      "learning_rate": 4.2515328248841034e-05,
+      "loss": 0.02,
+      "step": 50100
+    },
+    {
+      "epoch": 15.01,
+      "grad_norm": 2.2681732177734375,
+      "learning_rate": 4.250037385972783e-05,
+      "loss": 0.0169,
+      "step": 50200
+    },
+    {
+      "epoch": 15.04,
+      "grad_norm": 0.18065716326236725,
+      "learning_rate": 4.2485419470614626e-05,
+      "loss": 0.0163,
+      "step": 50300
+    },
+    {
+      "epoch": 15.07,
+      "grad_norm": 1.0265353918075562,
+      "learning_rate": 4.247046508150142e-05,
+      "loss": 0.0201,
+      "step": 50400
+    },
+    {
+      "epoch": 15.1,
+      "grad_norm": 1.7455101013183594,
+      "learning_rate": 4.245551069238822e-05,
+      "loss": 0.0174,
+      "step": 50500
+    },
+    {
+      "epoch": 15.13,
+      "grad_norm": 0.03697839379310608,
+      "learning_rate": 4.244055630327501e-05,
+      "loss": 0.021,
+      "step": 50600
+    },
+    {
+      "epoch": 15.16,
+      "grad_norm": 0.10842275619506836,
+      "learning_rate": 4.242560191416181e-05,
+      "loss": 0.0196,
+      "step": 50700
+    },
+    {
+      "epoch": 15.19,
+      "grad_norm": 0.6541497111320496,
+      "learning_rate": 4.2410647525048604e-05,
+      "loss": 0.019,
+      "step": 50800
+    },
+    {
+      "epoch": 15.22,
+      "grad_norm": 1.3006408214569092,
+      "learning_rate": 4.23956931359354e-05,
+      "loss": 0.0178,
+      "step": 50900
+    },
+    {
+      "epoch": 15.25,
+      "grad_norm": 0.6021150350570679,
+      "learning_rate": 4.23807387468222e-05,
+      "loss": 0.0199,
+      "step": 51000
+    },
+    {
+      "epoch": 15.25,
+      "eval_loss": 0.2640076279640198,
+      "eval_precision": 0.9301819557882123,
+      "eval_recall": 0.9081868284122048,
+      "eval_runtime": 302.9987,
+      "eval_samples_per_second": 44.139,
+      "eval_steps_per_second": 1.38,
+      "step": 51000
+    },
+    {
+      "epoch": 15.28,
+      "grad_norm": 0.8783787488937378,
+      "learning_rate": 4.236578435770899e-05,
+      "loss": 0.0175,
+      "step": 51100
+    },
+    {
+      "epoch": 15.31,
+      "grad_norm": 0.18405625224113464,
+      "learning_rate": 4.235082996859578e-05,
+      "loss": 0.0152,
+      "step": 51200
+    },
+    {
+      "epoch": 15.34,
+      "grad_norm": 0.03877532109618187,
+      "learning_rate": 4.233587557948258e-05,
+      "loss": 0.0174,
+      "step": 51300
+    },
+    {
+      "epoch": 15.37,
+      "grad_norm": 0.3079793155193329,
+      "learning_rate": 4.2320921190369375e-05,
+      "loss": 0.015,
+      "step": 51400
+    },
+    {
+      "epoch": 15.4,
+      "grad_norm": 0.9296764731407166,
+      "learning_rate": 4.230596680125617e-05,
+      "loss": 0.0177,
+      "step": 51500
+    },
+    {
+      "epoch": 15.43,
+      "grad_norm": 0.7762422561645508,
+      "learning_rate": 4.229101241214297e-05,
+      "loss": 0.0195,
+      "step": 51600
+    },
+    {
+      "epoch": 15.46,
+      "grad_norm": 2.472615957260132,
+      "learning_rate": 4.227605802302976e-05,
+      "loss": 0.0195,
+      "step": 51700
+    },
+    {
+      "epoch": 15.49,
+      "grad_norm": 2.8045852184295654,
+      "learning_rate": 4.226110363391655e-05,
+      "loss": 0.0201,
+      "step": 51800
+    },
+    {
+      "epoch": 15.52,
+      "grad_norm": 0.053874421864748,
+      "learning_rate": 4.224614924480335e-05,
+      "loss": 0.018,
+      "step": 51900
+    },
+    {
+      "epoch": 15.55,
+      "grad_norm": 0.3398553729057312,
+      "learning_rate": 4.2231194855690146e-05,
+      "loss": 0.0167,
+      "step": 52000
+    },
+    {
+      "epoch": 15.55,
+      "eval_loss": 0.2754287123680115,
+      "eval_precision": 0.927292017724521,
+      "eval_recall": 0.914929646848733,
+      "eval_runtime": 302.6973,
+      "eval_samples_per_second": 44.183,
+      "eval_steps_per_second": 1.381,
+      "step": 52000
+    },
+    {
+      "epoch": 15.58,
+      "grad_norm": 1.1841187477111816,
+      "learning_rate": 4.2216240466576945e-05,
+      "loss": 0.0157,
+      "step": 52100
+    },
+    {
+      "epoch": 15.61,
+      "grad_norm": 1.0184565782546997,
+      "learning_rate": 4.220128607746374e-05,
+      "loss": 0.0145,
+      "step": 52200
+    },
+    {
+      "epoch": 15.64,
+      "grad_norm": 0.6707783937454224,
+      "learning_rate": 4.218633168835053e-05,
+      "loss": 0.0215,
+      "step": 52300
+    },
+    {
+      "epoch": 15.67,
+      "grad_norm": 0.8084210157394409,
+      "learning_rate": 4.217137729923733e-05,
+      "loss": 0.0185,
+      "step": 52400
+    },
+    {
+      "epoch": 15.7,
+      "grad_norm": 0.24998579919338226,
+      "learning_rate": 4.2156422910124124e-05,
+      "loss": 0.0192,
+      "step": 52500
+    },
+    {
+      "epoch": 15.73,
+      "grad_norm": 0.11048603802919388,
+      "learning_rate": 4.214146852101092e-05,
+      "loss": 0.0177,
+      "step": 52600
+    },
+    {
+      "epoch": 15.76,
+      "grad_norm": 0.8540931940078735,
+      "learning_rate": 4.2126514131897716e-05,
+      "loss": 0.018,
+      "step": 52700
+    },
+    {
+      "epoch": 15.79,
+      "grad_norm": 0.3726775646209717,
+      "learning_rate": 4.211155974278451e-05,
+      "loss": 0.0181,
+      "step": 52800
+    },
+    {
+      "epoch": 15.82,
+      "grad_norm": 0.13543102145195007,
+      "learning_rate": 4.20966053536713e-05,
+      "loss": 0.0201,
+      "step": 52900
+    },
+    {
+      "epoch": 15.85,
+      "grad_norm": 0.3862367570400238,
+      "learning_rate": 4.20816509645581e-05,
+      "loss": 0.0184,
+      "step": 53000
+    },
+    {
+      "epoch": 15.85,
+      "eval_loss": 0.2746909558773041,
+      "eval_precision": 0.9290507850298093,
+      "eval_recall": 0.9164075248622187,
+      "eval_runtime": 304.9585,
+      "eval_samples_per_second": 43.855,
+      "eval_steps_per_second": 1.371,
+      "step": 53000
+    },
+    {
+      "epoch": 15.88,
+      "grad_norm": 0.5059983730316162,
+      "learning_rate": 4.2066696575444895e-05,
+      "loss": 0.0182,
+      "step": 53100
+    },
+    {
+      "epoch": 15.91,
+      "grad_norm": 0.45346036553382874,
+      "learning_rate": 4.205174218633169e-05,
+      "loss": 0.0208,
+      "step": 53200
+    },
+    {
+      "epoch": 15.94,
+      "grad_norm": 1.0658683776855469,
+      "learning_rate": 4.203678779721849e-05,
+      "loss": 0.0149,
+      "step": 53300
+    },
+    {
+      "epoch": 15.97,
+      "grad_norm": 0.2168959081172943,
+      "learning_rate": 4.202183340810528e-05,
+      "loss": 0.0191,
+      "step": 53400
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 1.7620713710784912,
+      "learning_rate": 4.200687901899207e-05,
+      "loss": 0.0219,
+      "step": 53500
+    },
+    {
+      "epoch": 16.03,
+      "grad_norm": 0.33198004961013794,
+      "learning_rate": 4.199192462987887e-05,
+      "loss": 0.014,
+      "step": 53600
+    },
+    {
+      "epoch": 16.06,
+      "grad_norm": 3.614070415496826,
+      "learning_rate": 4.1976970240765665e-05,
+      "loss": 0.0132,
+      "step": 53700
+    },
+    {
+      "epoch": 16.09,
+      "grad_norm": 0.7846044898033142,
+      "learning_rate": 4.1962015851652465e-05,
+      "loss": 0.014,
+      "step": 53800
+    },
+    {
+      "epoch": 16.12,
+      "grad_norm": 1.2382973432540894,
+      "learning_rate": 4.194706146253926e-05,
+      "loss": 0.0198,
+      "step": 53900
+    },
+    {
+      "epoch": 16.15,
+      "grad_norm": 1.7487576007843018,
+      "learning_rate": 4.193210707342605e-05,
+      "loss": 0.0156,
+      "step": 54000
+    },
+    {
+      "epoch": 16.15,
+      "eval_loss": 0.27493321895599365,
+      "eval_precision": 0.926791958041958,
+      "eval_recall": 0.9140367622155855,
+      "eval_runtime": 304.8434,
+      "eval_samples_per_second": 43.872,
+      "eval_steps_per_second": 1.371,
+      "step": 54000
+    },
+    {
+      "epoch": 16.18,
+      "grad_norm": 2.473257541656494,
+      "learning_rate": 4.191715268431285e-05,
+      "loss": 0.0144,
+      "step": 54100
+    },
+    {
+      "epoch": 16.21,
+      "grad_norm": 1.7735458612442017,
+      "learning_rate": 4.1902198295199643e-05,
+      "loss": 0.0128,
+      "step": 54200
+    },
+    {
+      "epoch": 16.24,
+      "grad_norm": 0.09201900660991669,
+      "learning_rate": 4.1887243906086436e-05,
+      "loss": 0.0121,
+      "step": 54300
+    },
+    {
+      "epoch": 16.27,
+      "grad_norm": 4.265335559844971,
+      "learning_rate": 4.1872289516973236e-05,
+      "loss": 0.0193,
+      "step": 54400
+    },
+    {
+      "epoch": 16.3,
+      "grad_norm": 0.05550719425082207,
+      "learning_rate": 4.185733512786003e-05,
+      "loss": 0.0191,
+      "step": 54500
+    },
+    {
+      "epoch": 16.33,
+      "grad_norm": 1.2244312763214111,
+      "learning_rate": 4.184238073874682e-05,
+      "loss": 0.0144,
+      "step": 54600
+    },
+    {
+      "epoch": 16.36,
+      "grad_norm": 0.11609119921922684,
+      "learning_rate": 4.182742634963362e-05,
+      "loss": 0.0195,
+      "step": 54700
+    },
+    {
+      "epoch": 16.39,
+      "grad_norm": 0.7442992329597473,
+      "learning_rate": 4.1812471960520414e-05,
+      "loss": 0.0161,
+      "step": 54800
+    },
+    {
+      "epoch": 16.42,
+      "grad_norm": 1.913397192955017,
+      "learning_rate": 4.179751757140721e-05,
+      "loss": 0.017,
+      "step": 54900
+    },
+    {
+      "epoch": 16.45,
+      "grad_norm": 1.5975757837295532,
+      "learning_rate": 4.178256318229401e-05,
+      "loss": 0.0131,
+      "step": 55000
+    },
+    {
+      "epoch": 16.45,
+      "eval_loss": 0.28440138697624207,
+      "eval_precision": 0.9323552610821896,
+      "eval_recall": 0.9098494411773762,
+      "eval_runtime": 302.3846,
+      "eval_samples_per_second": 44.228,
+      "eval_steps_per_second": 1.382,
+      "step": 55000
+    },
+    {
+      "epoch": 16.48,
+      "grad_norm": 0.02616269886493683,
+      "learning_rate": 4.17676087931808e-05,
+      "loss": 0.0166,
+      "step": 55100
+    },
+    {
+      "epoch": 16.51,
+      "grad_norm": 0.270749032497406,
+      "learning_rate": 4.17526544040676e-05,
+      "loss": 0.0167,
+      "step": 55200
+    },
+    {
+      "epoch": 16.54,
+      "grad_norm": 0.8699542880058289,
+      "learning_rate": 4.173770001495439e-05,
+      "loss": 0.0178,
+      "step": 55300
+    },
+    {
+      "epoch": 16.57,
+      "grad_norm": 0.15558452904224396,
+      "learning_rate": 4.1722745625841185e-05,
+      "loss": 0.0155,
+      "step": 55400
+    },
+    {
+      "epoch": 16.6,
+      "grad_norm": 1.3881036043167114,
+      "learning_rate": 4.1707791236727985e-05,
+      "loss": 0.0162,
+      "step": 55500
+    },
+    {
+      "epoch": 16.63,
+      "grad_norm": 1.0590258836746216,
+      "learning_rate": 4.169283684761478e-05,
+      "loss": 0.019,
+      "step": 55600
+    },
+    {
+      "epoch": 16.66,
+      "grad_norm": 0.6527047157287598,
+      "learning_rate": 4.167788245850157e-05,
+      "loss": 0.0162,
+      "step": 55700
+    },
+    {
+      "epoch": 16.69,
+      "grad_norm": 0.7468928694725037,
+      "learning_rate": 4.166292806938837e-05,
+      "loss": 0.0187,
+      "step": 55800
+    },
+    {
+      "epoch": 16.72,
+      "grad_norm": 1.1580772399902344,
+      "learning_rate": 4.164797368027516e-05,
+      "loss": 0.0152,
+      "step": 55900
+    },
+    {
+      "epoch": 16.75,
+      "grad_norm": 0.27484288811683655,
+      "learning_rate": 4.1633019291161956e-05,
+      "loss": 0.018,
+      "step": 56000
+    },
+    {
+      "epoch": 16.75,
+      "eval_loss": 0.2911526560783386,
+      "eval_precision": 0.9246059786783004,
+      "eval_recall": 0.9265987253302134,
+      "eval_runtime": 304.1503,
+      "eval_samples_per_second": 43.972,
+      "eval_steps_per_second": 1.374,
+      "step": 56000
+    },
+    {
+      "epoch": 16.78,
+      "grad_norm": 0.12976956367492676,
+      "learning_rate": 4.1618064902048756e-05,
+      "loss": 0.0185,
+      "step": 56100
+    },
+    {
+      "epoch": 16.81,
+      "grad_norm": 0.37897953391075134,
+      "learning_rate": 4.160311051293555e-05,
+      "loss": 0.0152,
+      "step": 56200
+    },
+    {
+      "epoch": 16.84,
+      "grad_norm": 0.07681228220462799,
+      "learning_rate": 4.158815612382234e-05,
+      "loss": 0.0163,
+      "step": 56300
+    },
+    {
+      "epoch": 16.87,
+      "grad_norm": 0.5966798663139343,
+      "learning_rate": 4.157320173470914e-05,
+      "loss": 0.014,
+      "step": 56400
+    },
+    {
+      "epoch": 16.9,
+      "grad_norm": 0.29120373725891113,
+      "learning_rate": 4.1558247345595934e-05,
+      "loss": 0.018,
+      "step": 56500
+    },
+    {
+      "epoch": 16.93,
+      "grad_norm": 0.4325448274612427,
+      "learning_rate": 4.1543292956482734e-05,
+      "loss": 0.0145,
+      "step": 56600
+    },
+    {
+      "epoch": 16.96,
+      "grad_norm": 1.473797082901001,
+      "learning_rate": 4.1528338567369527e-05,
+      "loss": 0.0164,
+      "step": 56700
+    },
+    {
+      "epoch": 16.99,
+      "grad_norm": 0.963238537311554,
+      "learning_rate": 4.151338417825632e-05,
+      "loss": 0.0168,
+      "step": 56800
+    },
+    {
+      "epoch": 17.02,
+      "grad_norm": 1.2749171257019043,
+      "learning_rate": 4.149842978914312e-05,
+      "loss": 0.0172,
+      "step": 56900
+    },
+    {
+      "epoch": 17.05,
+      "grad_norm": 0.1201496422290802,
+      "learning_rate": 4.148347540002991e-05,
+      "loss": 0.0132,
+      "step": 57000
+    },
+    {
+      "epoch": 17.05,
+      "eval_loss": 0.2895963788032532,
+      "eval_precision": 0.9242246747641655,
+      "eval_recall": 0.9230579759229041,
+      "eval_runtime": 304.3955,
+      "eval_samples_per_second": 43.936,
+      "eval_steps_per_second": 1.373,
+      "step": 57000
+    },
+    {
+      "epoch": 17.08,
+      "grad_norm": 0.0923817902803421,
+      "learning_rate": 4.1468521010916705e-05,
+      "loss": 0.0155,
+      "step": 57100
+    },
+    {
+      "epoch": 17.11,
+      "grad_norm": 0.17687027156352997,
+      "learning_rate": 4.1453566621803505e-05,
+      "loss": 0.0142,
+      "step": 57200
+    },
+    {
+      "epoch": 17.14,
+      "grad_norm": 0.5095121264457703,
+      "learning_rate": 4.14386122326903e-05,
+      "loss": 0.0122,
+      "step": 57300
+    },
+    {
+      "epoch": 17.17,
+      "grad_norm": 0.14807282388210297,
+      "learning_rate": 4.142365784357709e-05,
+      "loss": 0.0122,
+      "step": 57400
+    },
+    {
+      "epoch": 17.19,
+      "grad_norm": 0.22806455194950104,
+      "learning_rate": 4.140870345446389e-05,
+      "loss": 0.0126,
+      "step": 57500
+    },
+    {
+      "epoch": 17.22,
+      "grad_norm": 0.1654992550611496,
+      "learning_rate": 4.139374906535068e-05,
+      "loss": 0.012,
+      "step": 57600
+    },
+    {
+      "epoch": 17.25,
+      "grad_norm": 1.1821808815002441,
+      "learning_rate": 4.1378794676237476e-05,
+      "loss": 0.0154,
+      "step": 57700
+    },
+    {
+      "epoch": 17.28,
+      "grad_norm": 0.33708083629608154,
+      "learning_rate": 4.1363840287124275e-05,
+      "loss": 0.0118,
+      "step": 57800
+    },
+    {
+      "epoch": 17.31,
+      "grad_norm": 0.2778627276420593,
+      "learning_rate": 4.134888589801107e-05,
+      "loss": 0.0153,
+      "step": 57900
+    },
+    {
+      "epoch": 17.34,
+      "grad_norm": 0.4350825250148773,
+      "learning_rate": 4.133393150889787e-05,
+      "loss": 0.0131,
+      "step": 58000
+    },
+    {
+      "epoch": 17.34,
+      "eval_loss": 0.2985839247703552,
+      "eval_precision": 0.9294326572576876,
+      "eval_recall": 0.9185011853813233,
+      "eval_runtime": 303.6403,
+      "eval_samples_per_second": 44.046,
+      "eval_steps_per_second": 1.377,
+      "step": 58000
+    },
+    {
+      "epoch": 17.37,
+      "grad_norm": 1.0241811275482178,
+      "learning_rate": 4.131897711978466e-05,
+      "loss": 0.0152,
+      "step": 58100
+    },
+    {
+      "epoch": 17.4,
+      "grad_norm": 0.705042839050293,
+      "learning_rate": 4.1304022730671454e-05,
+      "loss": 0.0165,
+      "step": 58200
+    },
+    {
+      "epoch": 17.43,
+      "grad_norm": 0.9130484461784363,
+      "learning_rate": 4.128906834155825e-05,
+      "loss": 0.0143,
+      "step": 58300
+    },
+    {
+      "epoch": 17.46,
+      "grad_norm": 0.0633108988404274,
+      "learning_rate": 4.127411395244504e-05,
+      "loss": 0.0147,
+      "step": 58400
+    },
+    {
+      "epoch": 17.49,
+      "grad_norm": 1.2173391580581665,
+      "learning_rate": 4.125915956333184e-05,
+      "loss": 0.0134,
+      "step": 58500
+    },
+    {
+      "epoch": 17.52,
+      "grad_norm": 2.9922380447387695,
+      "learning_rate": 4.124420517421864e-05,
+      "loss": 0.0145,
+      "step": 58600
+    },
+    {
+      "epoch": 17.55,
+      "grad_norm": 0.015288499183952808,
+      "learning_rate": 4.1229250785105425e-05,
+      "loss": 0.0169,
+      "step": 58700
+    },
+    {
+      "epoch": 17.58,
+      "grad_norm": 1.87058424949646,
+      "learning_rate": 4.1214296395992225e-05,
+      "loss": 0.0158,
+      "step": 58800
+    },
+    {
+      "epoch": 17.61,
+      "grad_norm": 0.31113335490226746,
+      "learning_rate": 4.1199342006879024e-05,
+      "loss": 0.0151,
+      "step": 58900
+    },
+    {
+      "epoch": 17.64,
+      "grad_norm": 0.8044542670249939,
+      "learning_rate": 4.118438761776582e-05,
+      "loss": 0.0143,
+      "step": 59000
+    },
+    {
+      "epoch": 17.64,
+      "eval_loss": 0.2973649501800537,
+      "eval_precision": 0.9298240060774879,
+      "eval_recall": 0.9044305551279288,
+      "eval_runtime": 302.1441,
+      "eval_samples_per_second": 44.264,
+      "eval_steps_per_second": 1.383,
+      "step": 59000
+    },
+    {
+      "epoch": 17.67,
+      "grad_norm": 0.08827254921197891,
+      "learning_rate": 4.116943322865261e-05,
+      "loss": 0.0157,
+      "step": 59100
+    },
+    {
+      "epoch": 17.7,
+      "grad_norm": 1.8845312595367432,
+      "learning_rate": 4.115447883953941e-05,
+      "loss": 0.0155,
+      "step": 59200
+    },
+    {
+      "epoch": 17.73,
+      "grad_norm": 0.49602124094963074,
+      "learning_rate": 4.11395244504262e-05,
+      "loss": 0.0162,
+      "step": 59300
+    },
+    {
+      "epoch": 17.76,
+      "grad_norm": 0.3592805564403534,
+      "learning_rate": 4.1124570061312995e-05,
+      "loss": 0.0149,
+      "step": 59400
+    },
+    {
+      "epoch": 17.79,
+      "grad_norm": 1.320101261138916,
+      "learning_rate": 4.110961567219979e-05,
+      "loss": 0.0156,
+      "step": 59500
+    },
+    {
+      "epoch": 17.82,
+      "grad_norm": 0.4389740526676178,
+      "learning_rate": 4.109466128308659e-05,
+      "loss": 0.0151,
+      "step": 59600
+    },
+    {
+      "epoch": 17.85,
+      "grad_norm": 1.6578569412231445,
+      "learning_rate": 4.107970689397339e-05,
+      "loss": 0.0166,
+      "step": 59700
+    },
+    {
+      "epoch": 17.88,
+      "grad_norm": 1.7992475032806396,
+      "learning_rate": 4.1064752504860174e-05,
+      "loss": 0.0148,
+      "step": 59800
+    },
+    {
+      "epoch": 17.91,
+      "grad_norm": 0.026478100568056107,
+      "learning_rate": 4.1049798115746973e-05,
+      "loss": 0.0158,
+      "step": 59900
+    },
+    {
+      "epoch": 17.94,
+      "grad_norm": 2.8473379611968994,
+      "learning_rate": 4.103484372663377e-05,
+      "loss": 0.0159,
+      "step": 60000
+    },
+    {
+      "epoch": 17.94,
+      "eval_loss": 0.2935677468776703,
+      "eval_precision": 0.9302795129030222,
+      "eval_recall": 0.9079097262846763,
+      "eval_runtime": 302.5843,
+      "eval_samples_per_second": 44.199,
+      "eval_steps_per_second": 1.381,
+      "step": 60000
+    },
+    {
+      "epoch": 17.97,
+      "grad_norm": 2.1734695434570312,
+      "learning_rate": 4.101988933752056e-05,
+      "loss": 0.0183,
+      "step": 60100
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 0.14518772065639496,
+      "learning_rate": 4.100493494840736e-05,
+      "loss": 0.0172,
+      "step": 60200
+    },
+    {
+      "epoch": 18.03,
+      "grad_norm": 0.3986850380897522,
+      "learning_rate": 4.098998055929416e-05,
+      "loss": 0.0101,
+      "step": 60300
+    },
+    {
+      "epoch": 18.06,
+      "grad_norm": 1.78749680519104,
+      "learning_rate": 4.097502617018095e-05,
+      "loss": 0.0123,
+      "step": 60400
+    },
+    {
+      "epoch": 18.09,
+      "grad_norm": 0.43207836151123047,
+      "learning_rate": 4.0960071781067744e-05,
+      "loss": 0.0132,
+      "step": 60500
+    },
+    {
+      "epoch": 18.12,
+      "grad_norm": 0.11268942803144455,
+      "learning_rate": 4.0945117391954544e-05,
+      "loss": 0.0131,
+      "step": 60600
+    },
+    {
+      "epoch": 18.15,
+      "grad_norm": 0.5929433107376099,
+      "learning_rate": 4.093016300284134e-05,
+      "loss": 0.0118,
+      "step": 60700
+    },
+    {
+      "epoch": 18.18,
+      "grad_norm": 0.012462102808058262,
+      "learning_rate": 4.091520861372813e-05,
+      "loss": 0.0114,
+      "step": 60800
+    },
+    {
+      "epoch": 18.21,
+      "grad_norm": 0.03992025554180145,
+      "learning_rate": 4.090025422461492e-05,
+      "loss": 0.0123,
+      "step": 60900
+    },
+    {
+      "epoch": 18.24,
+      "grad_norm": 0.2556318938732147,
+      "learning_rate": 4.088529983550172e-05,
+      "loss": 0.0163,
+      "step": 61000
+    },
+    {
+      "epoch": 18.24,
+      "eval_loss": 0.3005661070346832,
+      "eval_precision": 0.930046845034112,
+      "eval_recall": 0.9108039040610856,
+      "eval_runtime": 303.0262,
+      "eval_samples_per_second": 44.135,
+      "eval_steps_per_second": 1.379,
+      "step": 61000
+    },
+    {
+      "epoch": 18.27,
+      "grad_norm": 0.0933234691619873,
+      "learning_rate": 4.087034544638852e-05,
+      "loss": 0.0139,
+      "step": 61100
+    },
+    {
+      "epoch": 18.3,
+      "grad_norm": 4.561667442321777,
+      "learning_rate": 4.085539105727531e-05,
+      "loss": 0.015,
+      "step": 61200
+    },
+    {
+      "epoch": 18.33,
+      "grad_norm": 1.8393715620040894,
+      "learning_rate": 4.084043666816211e-05,
+      "loss": 0.0113,
+      "step": 61300
+    },
+    {
+      "epoch": 18.36,
+      "grad_norm": 0.5815320611000061,
+      "learning_rate": 4.082548227904891e-05,
+      "loss": 0.0158,
+      "step": 61400
+    },
+    {
+      "epoch": 18.39,
+      "grad_norm": 0.9265565872192383,
+      "learning_rate": 4.0810527889935693e-05,
+      "loss": 0.0165,
+      "step": 61500
+    },
+    {
+      "epoch": 18.42,
+      "grad_norm": 0.029577825218439102,
+      "learning_rate": 4.079557350082249e-05,
+      "loss": 0.0151,
+      "step": 61600
+    },
+    {
+      "epoch": 18.45,
+      "grad_norm": 0.13609355688095093,
+      "learning_rate": 4.078061911170929e-05,
+      "loss": 0.0147,
+      "step": 61700
+    },
+    {
+      "epoch": 18.48,
+      "grad_norm": 0.2505282461643219,
+      "learning_rate": 4.0765664722596086e-05,
+      "loss": 0.0117,
+      "step": 61800
+    },
+    {
+      "epoch": 18.51,
+      "grad_norm": 0.49616509675979614,
+      "learning_rate": 4.075071033348288e-05,
+      "loss": 0.0136,
+      "step": 61900
+    },
+    {
+      "epoch": 18.54,
+      "grad_norm": 1.4143670797348022,
+      "learning_rate": 4.073575594436967e-05,
+      "loss": 0.0199,
+      "step": 62000
+    },
+    {
+      "epoch": 18.54,
+      "eval_loss": 0.28239989280700684,
+      "eval_precision": 0.9322552865754473,
+      "eval_recall": 0.89993534283691,
+      "eval_runtime": 303.1737,
+      "eval_samples_per_second": 44.113,
+      "eval_steps_per_second": 1.379,
+      "step": 62000
+    },
+    {
+      "epoch": 18.57,
+      "grad_norm": 2.5461013317108154,
+      "learning_rate": 4.072080155525647e-05,
+      "loss": 0.0122,
+      "step": 62100
+    },
+    {
+      "epoch": 18.6,
+      "grad_norm": 0.3786807358264923,
+      "learning_rate": 4.0705847166143264e-05,
+      "loss": 0.0122,
+      "step": 62200
+    },
+    {
+      "epoch": 18.63,
+      "grad_norm": 1.546884536743164,
+      "learning_rate": 4.069089277703006e-05,
+      "loss": 0.0133,
+      "step": 62300
+    },
+    {
+      "epoch": 18.66,
+      "grad_norm": 0.04791215434670448,
+      "learning_rate": 4.0675938387916856e-05,
+      "loss": 0.0118,
+      "step": 62400
+    },
+    {
+      "epoch": 18.69,
+      "grad_norm": 0.12534143030643463,
+      "learning_rate": 4.0660983998803656e-05,
+      "loss": 0.0145,
+      "step": 62500
+    },
+    {
+      "epoch": 18.72,
+      "grad_norm": 1.358917474746704,
+      "learning_rate": 4.064602960969044e-05,
+      "loss": 0.0152,
+      "step": 62600
+    },
+    {
+      "epoch": 18.75,
+      "grad_norm": 0.10757000744342804,
+      "learning_rate": 4.063107522057724e-05,
+      "loss": 0.0155,
+      "step": 62700
+    },
+    {
+      "epoch": 18.78,
+      "grad_norm": 2.365614652633667,
+      "learning_rate": 4.061612083146404e-05,
+      "loss": 0.0156,
+      "step": 62800
+    },
+    {
+      "epoch": 18.81,
+      "grad_norm": 0.4936872124671936,
+      "learning_rate": 4.060116644235083e-05,
+      "loss": 0.0132,
+      "step": 62900
+    },
+    {
+      "epoch": 18.84,
+      "grad_norm": 0.022019200026988983,
+      "learning_rate": 4.058621205323763e-05,
+      "loss": 0.0124,
+      "step": 63000
+    },
+    {
+      "epoch": 18.84,
+      "eval_loss": 0.30277740955352783,
+      "eval_precision": 0.930499515185637,
+      "eval_recall": 0.9159456879830044,
+      "eval_runtime": 304.0566,
+      "eval_samples_per_second": 43.985,
+      "eval_steps_per_second": 1.375,
+      "step": 63000
+    },
+    {
+      "epoch": 18.87,
+      "grad_norm": 0.3624964654445648,
+      "learning_rate": 4.057125766412442e-05,
+      "loss": 0.0155,
+      "step": 63100
+    },
+    {
+      "epoch": 18.9,
+      "grad_norm": 1.7629303932189941,
+      "learning_rate": 4.055630327501122e-05,
+      "loss": 0.0139,
+      "step": 63200
+    },
+    {
+      "epoch": 18.93,
+      "grad_norm": 0.18042436242103577,
+      "learning_rate": 4.054134888589801e-05,
+      "loss": 0.0179,
+      "step": 63300
+    },
+    {
+      "epoch": 18.96,
+      "grad_norm": 0.20951129496097565,
+      "learning_rate": 4.0526394496784806e-05,
+      "loss": 0.0172,
+      "step": 63400
+    },
+    {
+      "epoch": 18.99,
+      "grad_norm": 0.8891457915306091,
+      "learning_rate": 4.0511440107671605e-05,
+      "loss": 0.0126,
+      "step": 63500
+    },
+    {
+      "epoch": 19.02,
+      "grad_norm": 0.22427305579185486,
+      "learning_rate": 4.04964857185584e-05,
+      "loss": 0.0112,
+      "step": 63600
+    },
+    {
+      "epoch": 19.05,
+      "grad_norm": 0.25893327593803406,
+      "learning_rate": 4.048153132944519e-05,
+      "loss": 0.0123,
+      "step": 63700
+    },
+    {
+      "epoch": 19.08,
+      "grad_norm": 1.579196810722351,
+      "learning_rate": 4.046657694033199e-05,
+      "loss": 0.0117,
+      "step": 63800
+    },
+    {
+      "epoch": 19.11,
+      "grad_norm": 1.801465630531311,
+      "learning_rate": 4.045162255121879e-05,
+      "loss": 0.0113,
+      "step": 63900
+    },
+    {
+      "epoch": 19.14,
+      "grad_norm": 3.969907522201538,
+      "learning_rate": 4.0436668162105577e-05,
+      "loss": 0.0132,
+      "step": 64000
+    },
+    {
+      "epoch": 19.14,
+      "eval_loss": 0.3150152266025543,
+      "eval_precision": 0.9289555972482801,
+      "eval_recall": 0.9146833338464854,
+      "eval_runtime": 304.0309,
+      "eval_samples_per_second": 43.989,
+      "eval_steps_per_second": 1.375,
+      "step": 64000
+    },
+    {
+      "epoch": 19.17,
+      "grad_norm": 1.5782831907272339,
+      "learning_rate": 4.0421713772992376e-05,
+      "loss": 0.0106,
+      "step": 64100
+    },
+    {
+      "epoch": 19.2,
+      "grad_norm": 1.0305448770523071,
+      "learning_rate": 4.0406759383879176e-05,
+      "loss": 0.0115,
+      "step": 64200
+    },
+    {
+      "epoch": 19.23,
+      "grad_norm": 0.8879725337028503,
+      "learning_rate": 4.039180499476596e-05,
+      "loss": 0.0108,
+      "step": 64300
+    },
+    {
+      "epoch": 19.26,
+      "grad_norm": 1.0525989532470703,
+      "learning_rate": 4.037685060565276e-05,
+      "loss": 0.0113,
+      "step": 64400
+    },
+    {
+      "epoch": 19.29,
+      "grad_norm": 0.19859521090984344,
+      "learning_rate": 4.0361896216539554e-05,
+      "loss": 0.011,
+      "step": 64500
+    },
+    {
+      "epoch": 19.32,
+      "grad_norm": 1.628808856010437,
+      "learning_rate": 4.034694182742635e-05,
+      "loss": 0.0126,
+      "step": 64600
+    },
+    {
+      "epoch": 19.35,
+      "grad_norm": 0.45845118165016174,
+      "learning_rate": 4.033198743831315e-05,
+      "loss": 0.0117,
+      "step": 64700
+    },
+    {
+      "epoch": 19.38,
+      "grad_norm": 0.02105000615119934,
+      "learning_rate": 4.031703304919994e-05,
+      "loss": 0.0103,
+      "step": 64800
+    },
+    {
+      "epoch": 19.41,
+      "grad_norm": 1.2173235416412354,
+      "learning_rate": 4.030207866008674e-05,
+      "loss": 0.013,
+      "step": 64900
+    },
+    {
+      "epoch": 19.44,
+      "grad_norm": 1.0716986656188965,
+      "learning_rate": 4.028712427097353e-05,
+      "loss": 0.0136,
+      "step": 65000
+    },
+    {
+      "epoch": 19.44,
+      "eval_loss": 0.30169057846069336,
+      "eval_precision": 0.9307780320366132,
+      "eval_recall": 0.9016903229779242,
+      "eval_runtime": 303.9363,
+      "eval_samples_per_second": 44.003,
+      "eval_steps_per_second": 1.375,
+      "step": 65000
+    },
+    {
+      "epoch": 19.47,
+      "grad_norm": 0.060731422156095505,
+      "learning_rate": 4.0272169881860325e-05,
+      "loss": 0.0103,
+      "step": 65100
+    },
+    {
+      "epoch": 19.5,
+      "grad_norm": 1.8369615077972412,
+      "learning_rate": 4.0257215492747125e-05,
+      "loss": 0.0149,
+      "step": 65200
+    },
+    {
+      "epoch": 19.53,
+      "grad_norm": 0.5922613143920898,
+      "learning_rate": 4.024226110363392e-05,
+      "loss": 0.0137,
+      "step": 65300
+    },
+    {
+      "epoch": 19.56,
+      "grad_norm": 1.1230493783950806,
+      "learning_rate": 4.022730671452071e-05,
+      "loss": 0.016,
+      "step": 65400
+    },
+    {
+      "epoch": 19.59,
+      "grad_norm": 0.9484757781028748,
+      "learning_rate": 4.021235232540751e-05,
+      "loss": 0.0126,
+      "step": 65500
+    },
+    {
+      "epoch": 19.62,
+      "grad_norm": 0.40328437089920044,
+      "learning_rate": 4.01973979362943e-05,
+      "loss": 0.014,
+      "step": 65600
+    },
+    {
+      "epoch": 19.65,
+      "grad_norm": 1.251897931098938,
+      "learning_rate": 4.0182443547181096e-05,
+      "loss": 0.0152,
+      "step": 65700
+    },
+    {
+      "epoch": 19.68,
+      "grad_norm": 0.06640147417783737,
+      "learning_rate": 4.0167489158067896e-05,
+      "loss": 0.0119,
+      "step": 65800
+    },
+    {
+      "epoch": 19.71,
+      "grad_norm": 0.08419325947761536,
+      "learning_rate": 4.015253476895469e-05,
+      "loss": 0.0104,
+      "step": 65900
+    },
+    {
+      "epoch": 19.74,
+      "grad_norm": 0.8898499011993408,
+      "learning_rate": 4.013758037984148e-05,
+      "loss": 0.013,
+      "step": 66000
+    },
+    {
+      "epoch": 19.74,
+      "eval_loss": 0.30586904287338257,
+      "eval_precision": 0.9286385564814235,
+      "eval_recall": 0.9127128298285045,
+      "eval_runtime": 303.8354,
+      "eval_samples_per_second": 44.017,
+      "eval_steps_per_second": 1.376,
+      "step": 66000
+    },
+    {
+      "epoch": 19.77,
+      "grad_norm": 0.8399672508239746,
+      "learning_rate": 4.012262599072828e-05,
+      "loss": 0.0156,
+      "step": 66100
+    },
+    {
+      "epoch": 19.8,
+      "grad_norm": 1.188772201538086,
+      "learning_rate": 4.0107671601615074e-05,
+      "loss": 0.0133,
+      "step": 66200
+    },
+    {
+      "epoch": 19.83,
+      "grad_norm": 0.3390734791755676,
+      "learning_rate": 4.0092717212501874e-05,
+      "loss": 0.011,
+      "step": 66300
+    },
+    {
+      "epoch": 19.86,
+      "grad_norm": 2.0773940086364746,
+      "learning_rate": 4.007776282338867e-05,
+      "loss": 0.0109,
+      "step": 66400
+    },
+    {
+      "epoch": 19.89,
+      "grad_norm": 1.667506456375122,
+      "learning_rate": 4.006280843427546e-05,
+      "loss": 0.0121,
+      "step": 66500
+    },
+    {
+      "epoch": 19.92,
+      "grad_norm": 0.036488935351371765,
+      "learning_rate": 4.004785404516226e-05,
+      "loss": 0.0121,
+      "step": 66600
+    },
+    {
+      "epoch": 19.95,
+      "grad_norm": 0.9762794375419617,
+      "learning_rate": 4.003289965604905e-05,
+      "loss": 0.0138,
+      "step": 66700
+    },
+    {
+      "epoch": 19.98,
+      "grad_norm": 1.04608952999115,
+      "learning_rate": 4.0017945266935845e-05,
+      "loss": 0.0117,
+      "step": 66800
+    },
+    {
+      "epoch": 20.01,
+      "grad_norm": 5.332238674163818,
+      "learning_rate": 4.0002990877822645e-05,
+      "loss": 0.0137,
+      "step": 66900
+    },
+    {
+      "epoch": 20.04,
+      "grad_norm": 0.01725686341524124,
+      "learning_rate": 3.998803648870944e-05,
+      "loss": 0.0131,
+      "step": 67000
+    },
+    {
+      "epoch": 20.04,
+      "eval_loss": 0.2912316620349884,
+      "eval_precision": 0.9311961240797836,
+      "eval_recall": 0.9113273191908617,
+      "eval_runtime": 303.1004,
+      "eval_samples_per_second": 44.124,
+      "eval_steps_per_second": 1.379,
+      "step": 67000
+    },
+    {
+      "epoch": 20.07,
+      "grad_norm": 0.0427197702229023,
+      "learning_rate": 3.997308209959623e-05,
+      "loss": 0.0077,
+      "step": 67100
+    },
+    {
+      "epoch": 20.1,
+      "grad_norm": 0.017879147082567215,
+      "learning_rate": 3.995812771048303e-05,
+      "loss": 0.0104,
+      "step": 67200
+    },
+    {
+      "epoch": 20.13,
+      "grad_norm": 0.07891906797885895,
+      "learning_rate": 3.994317332136982e-05,
+      "loss": 0.0141,
+      "step": 67300
+    },
+    {
+      "epoch": 20.16,
+      "grad_norm": 0.16812817752361298,
+      "learning_rate": 3.9928218932256616e-05,
+      "loss": 0.0097,
+      "step": 67400
+    },
+    {
+      "epoch": 20.19,
+      "grad_norm": 3.0790505409240723,
+      "learning_rate": 3.9913264543143416e-05,
+      "loss": 0.0106,
+      "step": 67500
+    },
+    {
+      "epoch": 20.22,
+      "grad_norm": 0.41399437189102173,
+      "learning_rate": 3.989831015403021e-05,
+      "loss": 0.0089,
+      "step": 67600
+    },
+    {
+      "epoch": 20.25,
+      "grad_norm": 0.4379628300666809,
+      "learning_rate": 3.988335576491701e-05,
+      "loss": 0.0086,
+      "step": 67700
+    },
+    {
+      "epoch": 20.28,
+      "grad_norm": 0.011956513859331608,
+      "learning_rate": 3.98684013758038e-05,
+      "loss": 0.0133,
+      "step": 67800
+    },
+    {
+      "epoch": 20.31,
+      "grad_norm": 2.477144718170166,
+      "learning_rate": 3.9853446986690594e-05,
+      "loss": 0.0091,
+      "step": 67900
+    },
+    {
+      "epoch": 20.33,
+      "grad_norm": 2.790292739868164,
+      "learning_rate": 3.9838492597577394e-05,
+      "loss": 0.0128,
+      "step": 68000
+    },
+    {
+      "epoch": 20.33,
+      "eval_loss": 0.3076106309890747,
+      "eval_precision": 0.9304780813715294,
+      "eval_recall": 0.9090489239200714,
+      "eval_runtime": 303.9942,
+      "eval_samples_per_second": 43.994,
+      "eval_steps_per_second": 1.375,
+      "step": 68000
+    },
+    {
+      "epoch": 20.36,
+      "grad_norm": 1.441587209701538,
+      "learning_rate": 3.9823538208464186e-05,
+      "loss": 0.0159,
+      "step": 68100
+    },
+    {
+      "epoch": 20.39,
+      "grad_norm": 1.7005335092544556,
+      "learning_rate": 3.980858381935098e-05,
+      "loss": 0.01,
+      "step": 68200
+    },
+    {
+      "epoch": 20.42,
+      "grad_norm": 0.30774638056755066,
+      "learning_rate": 3.979362943023778e-05,
+      "loss": 0.0124,
+      "step": 68300
+    },
+    {
+      "epoch": 20.45,
+      "grad_norm": 0.04803008586168289,
+      "learning_rate": 3.977867504112457e-05,
+      "loss": 0.0112,
+      "step": 68400
+    },
+    {
+      "epoch": 20.48,
+      "grad_norm": 3.551407814025879,
+      "learning_rate": 3.9763720652011365e-05,
+      "loss": 0.012,
+      "step": 68500
+    },
+    {
+      "epoch": 20.51,
+      "grad_norm": 0.037427909672260284,
+      "learning_rate": 3.9748766262898164e-05,
+      "loss": 0.0138,
+      "step": 68600
+    },
+    {
+      "epoch": 20.54,
+      "grad_norm": 0.0066105336882174015,
+      "learning_rate": 3.973381187378496e-05,
+      "loss": 0.0114,
+      "step": 68700
+    },
+    {
+      "epoch": 20.57,
+      "grad_norm": 0.05352969095110893,
+      "learning_rate": 3.971885748467175e-05,
+      "loss": 0.0106,
+      "step": 68800
+    },
+    {
+      "epoch": 20.6,
+      "grad_norm": 1.097419023513794,
+      "learning_rate": 3.970390309555855e-05,
+      "loss": 0.0113,
+      "step": 68900
+    },
+    {
+      "epoch": 20.63,
+      "grad_norm": 2.4684622287750244,
+      "learning_rate": 3.968894870644534e-05,
+      "loss": 0.0104,
+      "step": 69000
+    },
+    {
+      "epoch": 20.63,
+      "eval_loss": 0.3140137493610382,
+      "eval_precision": 0.9268018018018018,
+      "eval_recall": 0.9122202038240094,
+      "eval_runtime": 304.685,
+      "eval_samples_per_second": 43.895,
+      "eval_steps_per_second": 1.372,
+      "step": 69000
+    },
+    {
+      "epoch": 20.66,
+      "grad_norm": 0.03651382029056549,
+      "learning_rate": 3.967399431733214e-05,
+      "loss": 0.0086,
+      "step": 69100
+    },
+    {
+      "epoch": 20.69,
+      "grad_norm": 0.35381224751472473,
+      "learning_rate": 3.9659039928218935e-05,
+      "loss": 0.013,
+      "step": 69200
+    },
+    {
+      "epoch": 20.72,
+      "grad_norm": 0.06933160871267319,
+      "learning_rate": 3.964408553910573e-05,
+      "loss": 0.0106,
+      "step": 69300
+    },
+    {
+      "epoch": 20.75,
+      "grad_norm": 0.4022979140281677,
+      "learning_rate": 3.962913114999253e-05,
+      "loss": 0.013,
+      "step": 69400
+    },
+    {
+      "epoch": 20.78,
+      "grad_norm": 0.03529789671301842,
+      "learning_rate": 3.961417676087932e-05,
+      "loss": 0.0156,
+      "step": 69500
+    },
+    {
+      "epoch": 20.81,
+      "grad_norm": 0.7010594606399536,
+      "learning_rate": 3.9599222371766114e-05,
+      "loss": 0.0144,
+      "step": 69600
+    },
+    {
+      "epoch": 20.84,
+      "grad_norm": 0.37523359060287476,
+      "learning_rate": 3.958426798265291e-05,
+      "loss": 0.0127,
+      "step": 69700
+    },
+    {
+      "epoch": 20.87,
+      "grad_norm": 0.1500304788351059,
+      "learning_rate": 3.9569313593539706e-05,
+      "loss": 0.0151,
+      "step": 69800
+    },
+    {
+      "epoch": 20.9,
+      "grad_norm": 1.1849136352539062,
+      "learning_rate": 3.95543592044265e-05,
+      "loss": 0.0092,
+      "step": 69900
+    },
+    {
+      "epoch": 20.93,
+      "grad_norm": 0.37061455845832825,
+      "learning_rate": 3.95394048153133e-05,
+      "loss": 0.0125,
+      "step": 70000
+    },
+    {
+      "epoch": 20.93,
+      "eval_loss": 0.2996491491794586,
+      "eval_precision": 0.9277798530693563,
+      "eval_recall": 0.9176390898734567,
+      "eval_runtime": 305.225,
+      "eval_samples_per_second": 43.817,
+      "eval_steps_per_second": 1.369,
+      "step": 70000
+    },
+    {
+      "epoch": 20.96,
+      "grad_norm": 1.1082910299301147,
+      "learning_rate": 3.952445042620009e-05,
+      "loss": 0.0135,
+      "step": 70100
+    },
+    {
+      "epoch": 20.99,
+      "grad_norm": 0.21670883893966675,
+      "learning_rate": 3.9509496037086884e-05,
+      "loss": 0.0147,
+      "step": 70200
+    },
+    {
+      "epoch": 21.02,
+      "grad_norm": 1.7163949012756348,
+      "learning_rate": 3.9494541647973684e-05,
+      "loss": 0.0074,
+      "step": 70300
+    },
+    {
+      "epoch": 21.05,
+      "grad_norm": 0.49197930097579956,
+      "learning_rate": 3.947958725886048e-05,
+      "loss": 0.009,
+      "step": 70400
+    },
+    {
+      "epoch": 21.08,
+      "grad_norm": 0.20454080402851105,
+      "learning_rate": 3.946463286974727e-05,
+      "loss": 0.0106,
+      "step": 70500
+    },
+    {
+      "epoch": 21.11,
+      "grad_norm": 1.1480427980422974,
+      "learning_rate": 3.944967848063407e-05,
+      "loss": 0.0082,
+      "step": 70600
+    },
+    {
+      "epoch": 21.14,
+      "grad_norm": 0.012445613741874695,
+      "learning_rate": 3.943472409152086e-05,
+      "loss": 0.0124,
+      "step": 70700
+    },
+    {
+      "epoch": 21.17,
+      "grad_norm": 1.2859218120574951,
+      "learning_rate": 3.941976970240766e-05,
+      "loss": 0.0114,
+      "step": 70800
+    },
+    {
+      "epoch": 21.2,
+      "grad_norm": 1.9639800786972046,
+      "learning_rate": 3.9404815313294455e-05,
+      "loss": 0.0094,
+      "step": 70900
+    },
+    {
+      "epoch": 21.23,
+      "grad_norm": 0.5322540402412415,
+      "learning_rate": 3.938986092418125e-05,
+      "loss": 0.0127,
+      "step": 71000
+    },
+    {
+      "epoch": 21.23,
+      "eval_loss": 0.31439679861068726,
+      "eval_precision": 0.9300875853255618,
+      "eval_recall": 0.918747498383571,
+      "eval_runtime": 305.1026,
+      "eval_samples_per_second": 43.834,
+      "eval_steps_per_second": 1.37,
+      "step": 71000
+    },
+    {
+      "epoch": 21.26,
+      "grad_norm": 0.7698822021484375,
+      "learning_rate": 3.937490653506805e-05,
+      "loss": 0.0091,
+      "step": 71100
+    },
+    {
+      "epoch": 21.29,
+      "grad_norm": 0.058869846165180206,
+      "learning_rate": 3.935995214595484e-05,
+      "loss": 0.0116,
+      "step": 71200
+    },
+    {
+      "epoch": 21.32,
+      "grad_norm": 0.040317438542842865,
+      "learning_rate": 3.934499775684163e-05,
+      "loss": 0.0082,
+      "step": 71300
+    },
+    {
+      "epoch": 21.35,
+      "grad_norm": 0.3180629014968872,
+      "learning_rate": 3.933004336772843e-05,
+      "loss": 0.0086,
+      "step": 71400
+    },
+    {
+      "epoch": 21.38,
+      "grad_norm": 0.14002850651741028,
+      "learning_rate": 3.9315088978615226e-05,
+      "loss": 0.0083,
+      "step": 71500
+    },
+    {
+      "epoch": 21.41,
+      "grad_norm": 0.535882830619812,
+      "learning_rate": 3.930013458950202e-05,
+      "loss": 0.0083,
+      "step": 71600
+    },
+    {
+      "epoch": 21.44,
+      "grad_norm": 0.8898109793663025,
+      "learning_rate": 3.928518020038882e-05,
+      "loss": 0.0111,
+      "step": 71700
+    },
+    {
+      "epoch": 21.47,
+      "grad_norm": 7.178394317626953,
+      "learning_rate": 3.927022581127561e-05,
+      "loss": 0.0111,
+      "step": 71800
+    },
+    {
+      "epoch": 21.5,
+      "grad_norm": 0.03290112316608429,
+      "learning_rate": 3.9255271422162404e-05,
+      "loss": 0.0102,
+      "step": 71900
+    },
+    {
+      "epoch": 21.53,
+      "grad_norm": 0.013704554177820683,
+      "learning_rate": 3.9240317033049204e-05,
+      "loss": 0.0131,
+      "step": 72000
+    },
+    {
+      "epoch": 21.53,
+      "eval_loss": 0.30643701553344727,
+      "eval_precision": 0.9271496444430644,
+      "eval_recall": 0.9192709135133471,
+      "eval_runtime": 304.1697,
+      "eval_samples_per_second": 43.969,
+      "eval_steps_per_second": 1.374,
+      "step": 72000
+    },
+    {
+      "epoch": 21.56,
+      "grad_norm": 0.8118484020233154,
+      "learning_rate": 3.9225362643936e-05,
+      "loss": 0.0109,
+      "step": 72100
+    },
+    {
+      "epoch": 21.59,
+      "grad_norm": 0.8789449334144592,
+      "learning_rate": 3.9210408254822796e-05,
+      "loss": 0.0111,
+      "step": 72200
+    },
+    {
+      "epoch": 21.62,
+      "grad_norm": 1.8666021823883057,
+      "learning_rate": 3.919545386570959e-05,
+      "loss": 0.0112,
+      "step": 72300
+    },
+    {
+      "epoch": 21.65,
+      "grad_norm": 0.33622369170188904,
+      "learning_rate": 3.918049947659638e-05,
+      "loss": 0.0121,
+      "step": 72400
+    },
+    {
+      "epoch": 21.68,
+      "grad_norm": 1.5097126960754395,
+      "learning_rate": 3.916554508748318e-05,
+      "loss": 0.0104,
+      "step": 72500
+    },
+    {
+      "epoch": 21.71,
+      "grad_norm": 1.3149192333221436,
+      "learning_rate": 3.915059069836997e-05,
+      "loss": 0.01,
+      "step": 72600
+    },
+    {
+      "epoch": 21.74,
+      "grad_norm": 1.1172950267791748,
+      "learning_rate": 3.913563630925677e-05,
+      "loss": 0.0159,
+      "step": 72700
+    },
+    {
+      "epoch": 21.77,
+      "grad_norm": 0.7861026525497437,
+      "learning_rate": 3.912068192014357e-05,
+      "loss": 0.0102,
+      "step": 72800
+    },
+    {
+      "epoch": 21.8,
+      "grad_norm": 0.9385488033294678,
+      "learning_rate": 3.910572753103036e-05,
+      "loss": 0.0103,
+      "step": 72900
+    },
+    {
+      "epoch": 21.83,
+      "grad_norm": 0.2858407199382782,
+      "learning_rate": 3.909077314191715e-05,
+      "loss": 0.0095,
+      "step": 73000
+    },
+    {
+      "epoch": 21.83,
+      "eval_loss": 0.3220088481903076,
+      "eval_precision": 0.9313063063063063,
+      "eval_recall": 0.89119123125712,
+      "eval_runtime": 301.1978,
+      "eval_samples_per_second": 44.403,
+      "eval_steps_per_second": 1.388,
+      "step": 73000
+    },
+    {
+      "epoch": 21.86,
+      "grad_norm": 2.1585566997528076,
+      "learning_rate": 3.907581875280395e-05,
+      "loss": 0.0107,
+      "step": 73100
+    },
+    {
+      "epoch": 21.89,
+      "grad_norm": 0.21467708051204681,
+      "learning_rate": 3.9060864363690745e-05,
+      "loss": 0.0092,
+      "step": 73200
+    },
+    {
+      "epoch": 21.92,
+      "grad_norm": 0.0250945333391428,
+      "learning_rate": 3.904590997457754e-05,
+      "loss": 0.0095,
+      "step": 73300
+    },
+    {
+      "epoch": 21.95,
+      "grad_norm": 0.08200676739215851,
+      "learning_rate": 3.903095558546434e-05,
+      "loss": 0.0127,
+      "step": 73400
+    },
+    {
+      "epoch": 21.98,
+      "grad_norm": 7.951723098754883,
+      "learning_rate": 3.901600119635113e-05,
+      "loss": 0.0118,
+      "step": 73500
+    },
+    {
+      "epoch": 22.01,
+      "grad_norm": 0.042703770101070404,
+      "learning_rate": 3.900104680723793e-05,
+      "loss": 0.0086,
+      "step": 73600
+    },
+    {
+      "epoch": 22.04,
+      "grad_norm": 0.13317295908927917,
+      "learning_rate": 3.898609241812472e-05,
+      "loss": 0.0117,
+      "step": 73700
+    },
+    {
+      "epoch": 22.07,
+      "grad_norm": 0.09529834240674973,
+      "learning_rate": 3.8971138029011516e-05,
+      "loss": 0.0077,
+      "step": 73800
+    },
+    {
+      "epoch": 22.1,
+      "grad_norm": 1.2312837839126587,
+      "learning_rate": 3.8956183639898316e-05,
+      "loss": 0.01,
+      "step": 73900
+    },
+    {
+      "epoch": 22.13,
+      "grad_norm": 0.20264630019664764,
+      "learning_rate": 3.89412292507851e-05,
+      "loss": 0.0079,
+      "step": 74000
+    },
+    {
+      "epoch": 22.13,
+      "eval_loss": 0.3207722306251526,
+      "eval_precision": 0.9257851445663011,
+      "eval_recall": 0.9148680685981712,
+      "eval_runtime": 304.4363,
+      "eval_samples_per_second": 43.93,
+      "eval_steps_per_second": 1.373,
+      "step": 74000
+    },
+    {
+      "epoch": 22.16,
+      "grad_norm": 0.007298531476408243,
+      "learning_rate": 3.89262748616719e-05,
+      "loss": 0.0083,
+      "step": 74100
+    },
+    {
+      "epoch": 22.19,
+      "grad_norm": 0.030803361907601357,
+      "learning_rate": 3.89113204725587e-05,
+      "loss": 0.0128,
+      "step": 74200
+    },
+    {
+      "epoch": 22.22,
+      "grad_norm": 0.04404568299651146,
+      "learning_rate": 3.8896366083445494e-05,
+      "loss": 0.0094,
+      "step": 74300
+    },
+    {
+      "epoch": 22.25,
+      "grad_norm": 0.14884673058986664,
+      "learning_rate": 3.888141169433229e-05,
+      "loss": 0.0081,
+      "step": 74400
+    },
+    {
+      "epoch": 22.28,
+      "grad_norm": 0.07467024773359299,
+      "learning_rate": 3.886645730521909e-05,
+      "loss": 0.0144,
+      "step": 74500
+    },
+    {
+      "epoch": 22.31,
+      "grad_norm": 0.6713554859161377,
+      "learning_rate": 3.885150291610588e-05,
+      "loss": 0.0136,
+      "step": 74600
+    },
+    {
+      "epoch": 22.34,
+      "grad_norm": 0.16354040801525116,
+      "learning_rate": 3.883654852699267e-05,
+      "loss": 0.0109,
+      "step": 74700
+    },
+    {
+      "epoch": 22.37,
+      "grad_norm": 1.4964691400527954,
+      "learning_rate": 3.882159413787947e-05,
+      "loss": 0.0116,
+      "step": 74800
+    },
+    {
+      "epoch": 22.4,
+      "grad_norm": 1.4973292350769043,
+      "learning_rate": 3.8806639748766265e-05,
+      "loss": 0.008,
+      "step": 74900
+    },
+    {
+      "epoch": 22.43,
+      "grad_norm": 0.17059992253780365,
+      "learning_rate": 3.8791685359653065e-05,
+      "loss": 0.0111,
+      "step": 75000
+    },
+    {
+      "epoch": 22.43,
+      "eval_loss": 0.30246666073799133,
+      "eval_precision": 0.9313384217417686,
+      "eval_recall": 0.8979032605683672,
+      "eval_runtime": 301.8023,
+      "eval_samples_per_second": 44.314,
+      "eval_steps_per_second": 1.385,
+      "step": 75000
+    },
+    {
+      "epoch": 22.46,
+      "grad_norm": 0.05614122748374939,
+      "learning_rate": 3.877673097053985e-05,
+      "loss": 0.0101,
+      "step": 75100
+    },
+    {
+      "epoch": 22.49,
+      "grad_norm": 0.23737676441669464,
+      "learning_rate": 3.876177658142665e-05,
+      "loss": 0.0111,
+      "step": 75200
+    },
+    {
+      "epoch": 22.52,
+      "grad_norm": 0.11609382182359695,
+      "learning_rate": 3.874682219231345e-05,
+      "loss": 0.0129,
+      "step": 75300
+    },
+    {
+      "epoch": 22.55,
+      "grad_norm": 0.006964783184230328,
+      "learning_rate": 3.8731867803200236e-05,
+      "loss": 0.014,
+      "step": 75400
+    },
+    {
+      "epoch": 22.58,
+      "grad_norm": 0.6018117070198059,
+      "learning_rate": 3.8716913414087036e-05,
+      "loss": 0.0092,
+      "step": 75500
+    },
+    {
+      "epoch": 22.61,
+      "grad_norm": 1.5463790893554688,
+      "learning_rate": 3.8701959024973836e-05,
+      "loss": 0.0129,
+      "step": 75600
+    },
+    {
+      "epoch": 22.64,
+      "grad_norm": 0.3491170108318329,
+      "learning_rate": 3.868700463586062e-05,
+      "loss": 0.0124,
+      "step": 75700
+    },
+    {
+      "epoch": 22.67,
+      "grad_norm": 0.3379780650138855,
+      "learning_rate": 3.867205024674742e-05,
+      "loss": 0.0105,
+      "step": 75800
+    },
+    {
+      "epoch": 22.7,
+      "grad_norm": 0.6625536680221558,
+      "learning_rate": 3.865709585763422e-05,
+      "loss": 0.0101,
+      "step": 75900
+    },
+    {
+      "epoch": 22.73,
+      "grad_norm": 0.5047014951705933,
+      "learning_rate": 3.8642141468521014e-05,
+      "loss": 0.0116,
+      "step": 76000
+    },
+    {
+      "epoch": 22.73,
+      "eval_loss": 0.309579074382782,
+      "eval_precision": 0.9289195145420119,
+      "eval_recall": 0.9214261522830136,
+      "eval_runtime": 306.5207,
+      "eval_samples_per_second": 43.632,
+      "eval_steps_per_second": 1.364,
+      "step": 76000
+    },
+    {
+      "epoch": 22.76,
+      "grad_norm": 2.8879668712615967,
+      "learning_rate": 3.862718707940781e-05,
+      "loss": 0.0084,
+      "step": 76100
+    },
+    {
+      "epoch": 22.79,
+      "grad_norm": 1.4628148078918457,
+      "learning_rate": 3.86122326902946e-05,
+      "loss": 0.0091,
+      "step": 76200
+    },
+    {
+      "epoch": 22.82,
+      "grad_norm": 0.01455759722739458,
+      "learning_rate": 3.85972783011814e-05,
+      "loss": 0.0087,
+      "step": 76300
+    },
+    {
+      "epoch": 22.85,
+      "grad_norm": 0.005665886681526899,
+      "learning_rate": 3.858232391206819e-05,
+      "loss": 0.0117,
+      "step": 76400
+    },
+    {
+      "epoch": 22.88,
+      "grad_norm": 0.5273276567459106,
+      "learning_rate": 3.8567369522954985e-05,
+      "loss": 0.009,
+      "step": 76500
+    },
+    {
+      "epoch": 22.91,
+      "grad_norm": 0.06718481332063675,
+      "learning_rate": 3.8552415133841785e-05,
+      "loss": 0.0118,
+      "step": 76600
+    },
+    {
+      "epoch": 22.94,
+      "grad_norm": 0.30258700251579285,
+      "learning_rate": 3.8537460744728585e-05,
+      "loss": 0.0109,
+      "step": 76700
+    },
+    {
+      "epoch": 22.97,
+      "grad_norm": 2.678166627883911,
+      "learning_rate": 3.852250635561537e-05,
+      "loss": 0.015,
+      "step": 76800
+    },
+    {
+      "epoch": 23.0,
+      "grad_norm": 0.15017007291316986,
+      "learning_rate": 3.850755196650217e-05,
+      "loss": 0.0104,
+      "step": 76900
+    },
+    {
+      "epoch": 23.03,
+      "grad_norm": 0.3501853048801422,
+      "learning_rate": 3.849259757738897e-05,
+      "loss": 0.0096,
+      "step": 77000
+    },
+    {
+      "epoch": 23.03,
+      "eval_loss": 0.2935163080692291,
+      "eval_precision": 0.9276991482965932,
+      "eval_recall": 0.9121894146987284,
+      "eval_runtime": 303.8246,
+      "eval_samples_per_second": 44.019,
+      "eval_steps_per_second": 1.376,
+      "step": 77000
+    },
+    {
+      "epoch": 23.06,
+      "grad_norm": 0.729576587677002,
+      "learning_rate": 3.8477643188275756e-05,
+      "loss": 0.0076,
+      "step": 77100
+    },
+    {
+      "epoch": 23.09,
+      "grad_norm": 0.03431198373436928,
+      "learning_rate": 3.8462688799162556e-05,
+      "loss": 0.0068,
+      "step": 77200
+    },
+    {
+      "epoch": 23.12,
+      "grad_norm": 0.022281186655163765,
+      "learning_rate": 3.844773441004935e-05,
+      "loss": 0.0099,
+      "step": 77300
+    },
+    {
+      "epoch": 23.15,
+      "grad_norm": 0.06289653480052948,
+      "learning_rate": 3.843278002093615e-05,
+      "loss": 0.0088,
+      "step": 77400
+    },
+    {
+      "epoch": 23.18,
+      "grad_norm": 1.1686757802963257,
+      "learning_rate": 3.841782563182294e-05,
+      "loss": 0.0113,
+      "step": 77500
+    },
+    {
+      "epoch": 23.21,
+      "grad_norm": 0.6460024118423462,
+      "learning_rate": 3.8402871242709734e-05,
+      "loss": 0.0098,
+      "step": 77600
+    },
+    {
+      "epoch": 23.24,
+      "grad_norm": 0.04333605244755745,
+      "learning_rate": 3.8387916853596534e-05,
+      "loss": 0.0078,
+      "step": 77700
+    },
+    {
+      "epoch": 23.27,
+      "grad_norm": 1.6560355424880981,
+      "learning_rate": 3.8372962464483327e-05,
+      "loss": 0.0069,
+      "step": 77800
+    },
+    {
+      "epoch": 23.3,
+      "grad_norm": 1.7110439538955688,
+      "learning_rate": 3.835800807537012e-05,
+      "loss": 0.0079,
+      "step": 77900
+    },
+    {
+      "epoch": 23.33,
+      "grad_norm": 0.34755662083625793,
+      "learning_rate": 3.834305368625692e-05,
+      "loss": 0.0117,
+      "step": 78000
+    },
+    {
+      "epoch": 23.33,
+      "eval_loss": 0.31362003087997437,
+      "eval_precision": 0.9317794739166089,
+      "eval_recall": 0.9096031281751286,
+      "eval_runtime": 302.9137,
+      "eval_samples_per_second": 44.151,
+      "eval_steps_per_second": 1.38,
+      "step": 78000
+    },
+    {
+      "epoch": 23.36,
+      "grad_norm": 0.07322967052459717,
+      "learning_rate": 3.832809929714372e-05,
+      "loss": 0.0086,
+      "step": 78100
+    },
+    {
+      "epoch": 23.39,
+      "grad_norm": 0.1620834916830063,
+      "learning_rate": 3.8313144908030505e-05,
+      "loss": 0.0105,
+      "step": 78200
+    },
+    {
+      "epoch": 23.42,
+      "grad_norm": 1.0541850328445435,
+      "learning_rate": 3.8298190518917305e-05,
+      "loss": 0.011,
+      "step": 78300
+    },
+    {
+      "epoch": 23.44,
+      "grad_norm": 0.008509721606969833,
+      "learning_rate": 3.8283236129804104e-05,
+      "loss": 0.009,
+      "step": 78400
+    },
+    {
+      "epoch": 23.47,
+      "grad_norm": 0.2723921537399292,
+      "learning_rate": 3.826828174069089e-05,
+      "loss": 0.0089,
+      "step": 78500
+    },
+    {
+      "epoch": 23.5,
+      "grad_norm": 0.7700883150100708,
+      "learning_rate": 3.825332735157769e-05,
+      "loss": 0.0084,
+      "step": 78600
+    },
+    {
+      "epoch": 23.53,
+      "grad_norm": 0.7245194911956787,
+      "learning_rate": 3.823837296246448e-05,
+      "loss": 0.0068,
+      "step": 78700
+    },
+    {
+      "epoch": 23.56,
+      "grad_norm": 1.283056378364563,
+      "learning_rate": 3.822341857335128e-05,
+      "loss": 0.0108,
+      "step": 78800
+    },
+    {
+      "epoch": 23.59,
+      "grad_norm": 0.016398323699831963,
+      "learning_rate": 3.8208464184238075e-05,
+      "loss": 0.0104,
+      "step": 78900
+    },
+    {
+      "epoch": 23.62,
+      "grad_norm": 0.32268649339675903,
+      "learning_rate": 3.819350979512487e-05,
+      "loss": 0.0085,
+      "step": 79000
+    },
+    {
+      "epoch": 23.62,
+      "eval_loss": 0.30707934498786926,
+      "eval_precision": 0.9256538985992314,
+      "eval_recall": 0.9196403830167185,
+      "eval_runtime": 304.8987,
+      "eval_samples_per_second": 43.864,
+      "eval_steps_per_second": 1.371,
+      "step": 79000
+    },
+    {
+      "epoch": 23.65,
+      "grad_norm": 0.1340191662311554,
+      "learning_rate": 3.817855540601167e-05,
+      "loss": 0.0132,
+      "step": 79100
+    },
+    {
+      "epoch": 23.68,
+      "grad_norm": 1.2741714715957642,
+      "learning_rate": 3.816360101689846e-05,
+      "loss": 0.0086,
+      "step": 79200
+    },
+    {
+      "epoch": 23.71,
+      "grad_norm": 3.2270684242248535,
+      "learning_rate": 3.8148646627785254e-05,
+      "loss": 0.012,
+      "step": 79300
+    },
+    {
+      "epoch": 23.74,
+      "grad_norm": 0.0873398706316948,
+      "learning_rate": 3.813369223867205e-05,
+      "loss": 0.0071,
+      "step": 79400
+    },
+    {
+      "epoch": 23.77,
+      "grad_norm": 0.36740046739578247,
+      "learning_rate": 3.811873784955885e-05,
+      "loss": 0.0082,
+      "step": 79500
+    },
+    {
+      "epoch": 23.8,
+      "grad_norm": 0.7461920976638794,
+      "learning_rate": 3.810378346044564e-05,
+      "loss": 0.0133,
+      "step": 79600
+    },
+    {
+      "epoch": 23.83,
+      "grad_norm": 1.0577598810195923,
+      "learning_rate": 3.808882907133244e-05,
+      "loss": 0.0118,
+      "step": 79700
+    },
+    {
+      "epoch": 23.86,
+      "grad_norm": 1.9472182989120483,
+      "learning_rate": 3.807387468221923e-05,
+      "loss": 0.0116,
+      "step": 79800
+    },
+    {
+      "epoch": 23.89,
+      "grad_norm": 1.6104402542114258,
+      "learning_rate": 3.8058920293106025e-05,
+      "loss": 0.0114,
+      "step": 79900
+    },
+    {
+      "epoch": 23.92,
+      "grad_norm": 0.03251710161566734,
+      "learning_rate": 3.8043965903992824e-05,
+      "loss": 0.0091,
+      "step": 80000
+    },
+    {
+      "epoch": 23.92,
+      "eval_loss": 0.3046566843986511,
+      "eval_precision": 0.9268397735663303,
+      "eval_recall": 0.9275531882139229,
+      "eval_runtime": 305.7377,
+      "eval_samples_per_second": 43.743,
+      "eval_steps_per_second": 1.367,
+      "step": 80000
+    },
+    {
+      "epoch": 23.95,
+      "grad_norm": 0.8245527744293213,
+      "learning_rate": 3.802901151487962e-05,
+      "loss": 0.0067,
+      "step": 80100
+    },
+    {
+      "epoch": 23.98,
+      "grad_norm": 2.3082966804504395,
+      "learning_rate": 3.801405712576642e-05,
+      "loss": 0.0103,
+      "step": 80200
+    },
+    {
+      "epoch": 24.01,
+      "grad_norm": 0.05168503150343895,
+      "learning_rate": 3.799910273665321e-05,
+      "loss": 0.0086,
+      "step": 80300
+    },
+    {
+      "epoch": 24.04,
+      "grad_norm": 0.3247091770172119,
+      "learning_rate": 3.798414834754e-05,
+      "loss": 0.0082,
+      "step": 80400
+    },
+    {
+      "epoch": 24.07,
+      "grad_norm": 0.30284127593040466,
+      "learning_rate": 3.79691939584268e-05,
+      "loss": 0.0065,
+      "step": 80500
+    },
+    {
+      "epoch": 24.1,
+      "grad_norm": 0.041343070566654205,
+      "learning_rate": 3.7954239569313595e-05,
+      "loss": 0.0072,
+      "step": 80600
+    },
+    {
+      "epoch": 24.13,
+      "grad_norm": 0.5980477929115295,
+      "learning_rate": 3.793928518020039e-05,
+      "loss": 0.0088,
+      "step": 80700
+    },
+    {
+      "epoch": 24.16,
+      "grad_norm": 0.0064304666593670845,
+      "learning_rate": 3.792433079108719e-05,
+      "loss": 0.0094,
+      "step": 80800
+    },
+    {
+      "epoch": 24.19,
+      "grad_norm": 0.6040250062942505,
+      "learning_rate": 3.790937640197398e-05,
+      "loss": 0.0079,
+      "step": 80900
+    },
+    {
+      "epoch": 24.22,
+      "grad_norm": 0.3337300419807434,
+      "learning_rate": 3.7894422012860773e-05,
+      "loss": 0.0086,
+      "step": 81000
+    },
+    {
+      "epoch": 24.22,
+      "eval_loss": 0.3350207209587097,
+      "eval_precision": 0.9268361054008597,
+      "eval_recall": 0.916192000985252,
+      "eval_runtime": 304.7162,
+      "eval_samples_per_second": 43.89,
+      "eval_steps_per_second": 1.372,
+      "step": 81000
+    },
+    {
+      "epoch": 24.25,
+      "grad_norm": 0.710114061832428,
+      "learning_rate": 3.787946762374757e-05,
+      "loss": 0.008,
+      "step": 81100
+    },
+    {
+      "epoch": 24.28,
+      "grad_norm": 0.03623099625110626,
+      "learning_rate": 3.7864513234634366e-05,
+      "loss": 0.0131,
+      "step": 81200
+    },
+    {
+      "epoch": 24.31,
+      "grad_norm": 0.09887418150901794,
+      "learning_rate": 3.784955884552116e-05,
+      "loss": 0.0086,
+      "step": 81300
+    },
+    {
+      "epoch": 24.34,
+      "grad_norm": 0.6916789412498474,
+      "learning_rate": 3.783460445640796e-05,
+      "loss": 0.0101,
+      "step": 81400
+    },
+    {
+      "epoch": 24.37,
+      "grad_norm": 1.4278247356414795,
+      "learning_rate": 3.781965006729475e-05,
+      "loss": 0.0107,
+      "step": 81500
+    },
+    {
+      "epoch": 24.4,
+      "grad_norm": 0.16397880017757416,
+      "learning_rate": 3.7804695678181544e-05,
+      "loss": 0.008,
+      "step": 81600
+    },
+    {
+      "epoch": 24.43,
+      "grad_norm": 0.08632964640855789,
+      "learning_rate": 3.7789741289068344e-05,
+      "loss": 0.0078,
+      "step": 81700
+    },
+    {
+      "epoch": 24.46,
+      "grad_norm": 2.2472782135009766,
+      "learning_rate": 3.777478689995514e-05,
+      "loss": 0.011,
+      "step": 81800
+    },
+    {
+      "epoch": 24.49,
+      "grad_norm": 0.14701958000659943,
+      "learning_rate": 3.7759832510841936e-05,
+      "loss": 0.0096,
+      "step": 81900
+    },
+    {
+      "epoch": 24.52,
+      "grad_norm": 0.051196735352277756,
+      "learning_rate": 3.774487812172873e-05,
+      "loss": 0.0111,
+      "step": 82000
+    },
+    {
+      "epoch": 24.52,
+      "eval_loss": 0.30252349376678467,
+      "eval_precision": 0.928390712570056,
+      "eval_recall": 0.8925459527694818,
+      "eval_runtime": 302.8814,
+      "eval_samples_per_second": 44.156,
+      "eval_steps_per_second": 1.38,
+      "step": 82000
+    },
+    {
+      "epoch": 24.55,
+      "grad_norm": 0.013324776664376259,
+      "learning_rate": 3.772992373261552e-05,
+      "loss": 0.0075,
+      "step": 82100
+    },
+    {
+      "epoch": 24.58,
+      "grad_norm": 0.10291430354118347,
+      "learning_rate": 3.771496934350232e-05,
+      "loss": 0.0099,
+      "step": 82200
+    },
+    {
+      "epoch": 24.61,
+      "grad_norm": 0.07137342542409897,
+      "learning_rate": 3.7700014954389115e-05,
+      "loss": 0.012,
+      "step": 82300
+    },
+    {
+      "epoch": 24.64,
+      "grad_norm": 0.3020240068435669,
+      "learning_rate": 3.768506056527591e-05,
+      "loss": 0.0087,
+      "step": 82400
+    },
+    {
+      "epoch": 24.67,
+      "grad_norm": 1.067194938659668,
+      "learning_rate": 3.767010617616271e-05,
+      "loss": 0.0096,
+      "step": 82500
+    },
+    {
+      "epoch": 24.7,
+      "grad_norm": 0.014255263842642307,
+      "learning_rate": 3.76551517870495e-05,
+      "loss": 0.007,
+      "step": 82600
+    },
+    {
+      "epoch": 24.73,
+      "grad_norm": 0.02688017673790455,
+      "learning_rate": 3.764019739793629e-05,
+      "loss": 0.0089,
+      "step": 82700
+    },
+    {
+      "epoch": 24.76,
+      "grad_norm": 0.3376453220844269,
+      "learning_rate": 3.762524300882309e-05,
+      "loss": 0.0066,
+      "step": 82800
+    },
+    {
+      "epoch": 24.79,
+      "grad_norm": 0.10389913618564606,
+      "learning_rate": 3.7610288619709886e-05,
+      "loss": 0.0066,
+      "step": 82900
+    },
+    {
+      "epoch": 24.82,
+      "grad_norm": 0.7046878337860107,
+      "learning_rate": 3.759533423059668e-05,
+      "loss": 0.01,
+      "step": 83000
+    },
+    {
+      "epoch": 24.82,
+      "eval_loss": 0.3185621201992035,
+      "eval_precision": 0.9291735873891379,
+      "eval_recall": 0.9128667754549094,
+      "eval_runtime": 303.4192,
+      "eval_samples_per_second": 44.078,
+      "eval_steps_per_second": 1.378,
+      "step": 83000
+    },
+    {
+      "epoch": 24.85,
+      "grad_norm": 0.4447859227657318,
+      "learning_rate": 3.758037984148348e-05,
+      "loss": 0.0085,
+      "step": 83100
+    },
+    {
+      "epoch": 24.88,
+      "grad_norm": 2.2701525688171387,
+      "learning_rate": 3.756542545237027e-05,
+      "loss": 0.0114,
+      "step": 83200
+    },
+    {
+      "epoch": 24.91,
+      "grad_norm": 0.05526027828454971,
+      "learning_rate": 3.755047106325707e-05,
+      "loss": 0.012,
+      "step": 83300
+    },
+    {
+      "epoch": 24.94,
+      "grad_norm": 0.8909191489219666,
+      "learning_rate": 3.7535516674143864e-05,
+      "loss": 0.0097,
+      "step": 83400
+    },
+    {
+      "epoch": 24.97,
+      "grad_norm": 0.004659523721784353,
+      "learning_rate": 3.7520562285030656e-05,
+      "loss": 0.0085,
+      "step": 83500
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 0.05222604423761368,
+      "learning_rate": 3.7505607895917456e-05,
+      "loss": 0.0088,
+      "step": 83600
+    },
+    {
+      "epoch": 25.03,
+      "grad_norm": 0.014093970879912376,
+      "learning_rate": 3.749065350680425e-05,
+      "loss": 0.0085,
+      "step": 83700
+    },
+    {
+      "epoch": 25.06,
+      "grad_norm": 0.0026446671690791845,
+      "learning_rate": 3.747569911769104e-05,
+      "loss": 0.005,
+      "step": 83800
+    },
+    {
+      "epoch": 25.09,
+      "grad_norm": 0.1448344588279724,
+      "learning_rate": 3.746074472857784e-05,
+      "loss": 0.0064,
+      "step": 83900
+    },
+    {
+      "epoch": 25.12,
+      "grad_norm": 0.295718789100647,
+      "learning_rate": 3.7445790339464634e-05,
+      "loss": 0.0067,
+      "step": 84000
+    },
+    {
+      "epoch": 25.12,
+      "eval_loss": 0.32626327872276306,
+      "eval_precision": 0.9313109964567663,
+      "eval_recall": 0.9225653499184088,
+      "eval_runtime": 304.7239,
+      "eval_samples_per_second": 43.889,
+      "eval_steps_per_second": 1.372,
+      "step": 84000
+    },
+    {
+      "epoch": 25.15,
+      "grad_norm": 0.028157589957118034,
+      "learning_rate": 3.743083595035143e-05,
+      "loss": 0.0094,
+      "step": 84100
+    },
+    {
+      "epoch": 25.18,
+      "grad_norm": 0.002226242097094655,
+      "learning_rate": 3.741588156123823e-05,
+      "loss": 0.0072,
+      "step": 84200
+    },
+    {
+      "epoch": 25.21,
+      "grad_norm": 0.7868858575820923,
+      "learning_rate": 3.740092717212502e-05,
+      "loss": 0.0103,
+      "step": 84300
+    },
+    {
+      "epoch": 25.24,
+      "grad_norm": 0.031047280877828598,
+      "learning_rate": 3.738597278301181e-05,
+      "loss": 0.01,
+      "step": 84400
+    },
+    {
+      "epoch": 25.27,
+      "grad_norm": 0.30554434657096863,
+      "learning_rate": 3.737101839389861e-05,
+      "loss": 0.0076,
+      "step": 84500
+    },
+    {
+      "epoch": 25.3,
+      "grad_norm": 1.2695821523666382,
+      "learning_rate": 3.7356064004785405e-05,
+      "loss": 0.0092,
+      "step": 84600
+    },
+    {
+      "epoch": 25.33,
+      "grad_norm": 0.039061836898326874,
+      "learning_rate": 3.7341109615672205e-05,
+      "loss": 0.0129,
+      "step": 84700
+    },
+    {
+      "epoch": 25.36,
+      "grad_norm": 1.0094258785247803,
+      "learning_rate": 3.7326155226559e-05,
+      "loss": 0.012,
+      "step": 84800
+    },
+    {
+      "epoch": 25.39,
+      "grad_norm": 0.16602523624897003,
+      "learning_rate": 3.731120083744579e-05,
+      "loss": 0.0072,
+      "step": 84900
+    },
+    {
+      "epoch": 25.42,
+      "grad_norm": 0.6232153177261353,
+      "learning_rate": 3.729624644833259e-05,
+      "loss": 0.0094,
+      "step": 85000
+    },
+    {
+      "epoch": 25.42,
+      "eval_loss": 0.32043251395225525,
+      "eval_precision": 0.9310592123725484,
+      "eval_recall": 0.91936328088919,
+      "eval_runtime": 304.0822,
+      "eval_samples_per_second": 43.982,
+      "eval_steps_per_second": 1.375,
+      "step": 85000
+    },
+    {
+      "epoch": 25.45,
+      "grad_norm": 1.6009403467178345,
+      "learning_rate": 3.728129205921938e-05,
+      "loss": 0.0103,
+      "step": 85100
+    },
+    {
+      "epoch": 25.48,
+      "grad_norm": 0.6107264757156372,
+      "learning_rate": 3.7266337670106176e-05,
+      "loss": 0.0079,
+      "step": 85200
+    },
+    {
+      "epoch": 25.51,
+      "grad_norm": 0.44173404574394226,
+      "learning_rate": 3.7251383280992976e-05,
+      "loss": 0.0065,
+      "step": 85300
+    },
+    {
+      "epoch": 25.54,
+      "grad_norm": 0.9073717594146729,
+      "learning_rate": 3.723642889187977e-05,
+      "loss": 0.0071,
+      "step": 85400
+    },
+    {
+      "epoch": 25.57,
+      "grad_norm": 0.3392820656299591,
+      "learning_rate": 3.722147450276656e-05,
+      "loss": 0.0101,
+      "step": 85500
+    },
+    {
+      "epoch": 25.6,
+      "grad_norm": 0.07929588109254837,
+      "learning_rate": 3.720652011365336e-05,
+      "loss": 0.0083,
+      "step": 85600
+    },
+    {
+      "epoch": 25.63,
+      "grad_norm": 0.35071372985839844,
+      "learning_rate": 3.7191565724540154e-05,
+      "loss": 0.0121,
+      "step": 85700
+    },
+    {
+      "epoch": 25.66,
+      "grad_norm": 0.20559339225292206,
+      "learning_rate": 3.717661133542695e-05,
+      "loss": 0.0073,
+      "step": 85800
+    },
+    {
+      "epoch": 25.69,
+      "grad_norm": 0.045159224420785904,
+      "learning_rate": 3.716165694631375e-05,
+      "loss": 0.0087,
+      "step": 85900
+    },
+    {
+      "epoch": 25.72,
+      "grad_norm": 0.10148915648460388,
+      "learning_rate": 3.714670255720054e-05,
+      "loss": 0.0119,
+      "step": 86000
+    },
+    {
+      "epoch": 25.72,
+      "eval_loss": 0.31306663155555725,
+      "eval_precision": 0.9333648989898989,
+      "eval_recall": 0.9104036454324332,
+      "eval_runtime": 304.164,
+      "eval_samples_per_second": 43.97,
+      "eval_steps_per_second": 1.374,
+      "step": 86000
+    },
+    {
+      "epoch": 25.75,
+      "grad_norm": 0.18669423460960388,
+      "learning_rate": 3.713174816808734e-05,
+      "loss": 0.0063,
+      "step": 86100
+    },
+    {
+      "epoch": 25.78,
+      "grad_norm": 0.10197019577026367,
+      "learning_rate": 3.711679377897413e-05,
+      "loss": 0.0083,
+      "step": 86200
+    },
+    {
+      "epoch": 25.81,
+      "grad_norm": 0.0219405684620142,
+      "learning_rate": 3.7101839389860925e-05,
+      "loss": 0.0088,
+      "step": 86300
+    },
+    {
+      "epoch": 25.84,
+      "grad_norm": 0.941899836063385,
+      "learning_rate": 3.7086885000747725e-05,
+      "loss": 0.006,
+      "step": 86400
+    },
+    {
+      "epoch": 25.87,
+      "grad_norm": 0.042357202619314194,
+      "learning_rate": 3.707193061163452e-05,
+      "loss": 0.0107,
+      "step": 86500
+    },
+    {
+      "epoch": 25.9,
+      "grad_norm": 0.04090040549635887,
+      "learning_rate": 3.705697622252131e-05,
+      "loss": 0.0076,
+      "step": 86600
+    },
+    {
+      "epoch": 25.93,
+      "grad_norm": 1.0006482601165771,
+      "learning_rate": 3.704202183340811e-05,
+      "loss": 0.0081,
+      "step": 86700
+    },
+    {
+      "epoch": 25.96,
+      "grad_norm": 0.01344706118106842,
+      "learning_rate": 3.70270674442949e-05,
+      "loss": 0.0061,
+      "step": 86800
+    },
+    {
+      "epoch": 25.99,
+      "grad_norm": 0.039950937032699585,
+      "learning_rate": 3.7012113055181696e-05,
+      "loss": 0.0095,
+      "step": 86900
+    },
+    {
+      "epoch": 26.02,
+      "grad_norm": 0.007412883453071117,
+      "learning_rate": 3.6997158666068496e-05,
+      "loss": 0.0061,
+      "step": 87000
+    },
+    {
+      "epoch": 26.02,
+      "eval_loss": 0.3440411686897278,
+      "eval_precision": 0.9280669958127618,
+      "eval_recall": 0.9144370208442378,
+      "eval_runtime": 304.1449,
+      "eval_samples_per_second": 43.972,
+      "eval_steps_per_second": 1.374,
+      "step": 87000
+    },
+    {
+      "epoch": 26.05,
+      "grad_norm": 0.045031215995550156,
+      "learning_rate": 3.698220427695529e-05,
+      "loss": 0.0083,
+      "step": 87100
+    },
+    {
+      "epoch": 26.08,
+      "grad_norm": 0.5366631150245667,
+      "learning_rate": 3.696724988784208e-05,
+      "loss": 0.0069,
+      "step": 87200
+    },
+    {
+      "epoch": 26.11,
+      "grad_norm": 0.24467185139656067,
+      "learning_rate": 3.695229549872888e-05,
+      "loss": 0.0065,
+      "step": 87300
+    },
+    {
+      "epoch": 26.14,
+      "grad_norm": 0.7528616786003113,
+      "learning_rate": 3.6937341109615674e-05,
+      "loss": 0.0087,
+      "step": 87400
+    },
+    {
+      "epoch": 26.17,
+      "grad_norm": 0.15506117045879364,
+      "learning_rate": 3.692238672050247e-05,
+      "loss": 0.0072,
+      "step": 87500
+    },
+    {
+      "epoch": 26.2,
+      "grad_norm": 0.2464226335287094,
+      "learning_rate": 3.6907432331389266e-05,
+      "loss": 0.0053,
+      "step": 87600
+    },
+    {
+      "epoch": 26.23,
+      "grad_norm": 0.15138311684131622,
+      "learning_rate": 3.689247794227606e-05,
+      "loss": 0.0063,
+      "step": 87700
+    },
+    {
+      "epoch": 26.26,
+      "grad_norm": 0.07477385550737381,
+      "learning_rate": 3.687752355316286e-05,
+      "loss": 0.0076,
+      "step": 87800
+    },
+    {
+      "epoch": 26.29,
+      "grad_norm": 0.661697268486023,
+      "learning_rate": 3.686256916404965e-05,
+      "loss": 0.0078,
+      "step": 87900
+    },
+    {
+      "epoch": 26.32,
+      "grad_norm": 0.16399236023426056,
+      "learning_rate": 3.6847614774936445e-05,
+      "loss": 0.0085,
+      "step": 88000
+    },
+    {
+      "epoch": 26.32,
+      "eval_loss": 0.326471209526062,
+      "eval_precision": 0.9298322483725588,
+      "eval_recall": 0.9147449120970473,
+      "eval_runtime": 305.1957,
+      "eval_samples_per_second": 43.821,
+      "eval_steps_per_second": 1.37,
+      "step": 88000
+    },
+    {
+      "epoch": 26.35,
+      "grad_norm": 0.5788341164588928,
+      "learning_rate": 3.6832660385823244e-05,
+      "loss": 0.0097,
+      "step": 88100
+    },
+    {
+      "epoch": 26.38,
+      "grad_norm": 0.38478532433509827,
+      "learning_rate": 3.681770599671003e-05,
+      "loss": 0.0083,
+      "step": 88200
+    },
+    {
+      "epoch": 26.41,
+      "grad_norm": 1.8616811037063599,
+      "learning_rate": 3.680275160759683e-05,
+      "loss": 0.0082,
+      "step": 88300
+    },
+    {
+      "epoch": 26.44,
+      "grad_norm": 0.005648652091622353,
+      "learning_rate": 3.678779721848363e-05,
+      "loss": 0.0074,
+      "step": 88400
+    },
+    {
+      "epoch": 26.47,
+      "grad_norm": 0.013662021607160568,
+      "learning_rate": 3.677284282937042e-05,
+      "loss": 0.0054,
+      "step": 88500
+    },
+    {
+      "epoch": 26.5,
+      "grad_norm": 0.21754692494869232,
+      "learning_rate": 3.6757888440257216e-05,
+      "loss": 0.0115,
+      "step": 88600
+    },
+    {
+      "epoch": 26.53,
+      "grad_norm": 0.0358903631567955,
+      "learning_rate": 3.6742934051144015e-05,
+      "loss": 0.0097,
+      "step": 88700
+    },
+    {
+      "epoch": 26.56,
+      "grad_norm": 0.9966431856155396,
+      "learning_rate": 3.672797966203081e-05,
+      "loss": 0.0074,
+      "step": 88800
+    },
+    {
+      "epoch": 26.58,
+      "grad_norm": 0.7227293848991394,
+      "learning_rate": 3.67130252729176e-05,
+      "loss": 0.0088,
+      "step": 88900
+    },
+    {
+      "epoch": 26.61,
+      "grad_norm": 1.3261148929595947,
+      "learning_rate": 3.66980708838044e-05,
+      "loss": 0.0072,
+      "step": 89000
+    },
+    {
+      "epoch": 26.61,
+      "eval_loss": 0.3263101279735565,
+      "eval_precision": 0.9263782601905357,
+      "eval_recall": 0.9131438775824379,
+      "eval_runtime": 306.4472,
+      "eval_samples_per_second": 43.642,
+      "eval_steps_per_second": 1.364,
+      "step": 89000
+    },
+    {
+      "epoch": 26.64,
+      "grad_norm": 0.11170350760221481,
+      "learning_rate": 3.6683116494691194e-05,
+      "loss": 0.0092,
+      "step": 89100
+    },
+    {
+      "epoch": 26.67,
+      "grad_norm": 1.529340147972107,
+      "learning_rate": 3.666816210557799e-05,
+      "loss": 0.0089,
+      "step": 89200
+    },
+    {
+      "epoch": 26.7,
+      "grad_norm": 0.01682981289923191,
+      "learning_rate": 3.665320771646478e-05,
+      "loss": 0.0093,
+      "step": 89300
+    },
+    {
+      "epoch": 26.73,
+      "grad_norm": 0.3299085199832916,
+      "learning_rate": 3.663825332735158e-05,
+      "loss": 0.0063,
+      "step": 89400
+    },
+    {
+      "epoch": 26.76,
+      "grad_norm": 1.9823254346847534,
+      "learning_rate": 3.662329893823838e-05,
+      "loss": 0.0091,
+      "step": 89500
+    },
+    {
+      "epoch": 26.79,
+      "grad_norm": 0.07487453520298004,
+      "learning_rate": 3.6608344549125165e-05,
+      "loss": 0.009,
+      "step": 89600
+    },
+    {
+      "epoch": 26.82,
+      "grad_norm": 0.015319288708269596,
+      "learning_rate": 3.6593390160011964e-05,
+      "loss": 0.0078,
+      "step": 89700
+    },
+    {
+      "epoch": 26.85,
+      "grad_norm": 0.004087815526872873,
+      "learning_rate": 3.6578435770898764e-05,
+      "loss": 0.0069,
+      "step": 89800
+    },
+    {
+      "epoch": 26.88,
+      "grad_norm": 0.00753753213211894,
+      "learning_rate": 3.656348138178556e-05,
+      "loss": 0.0057,
+      "step": 89900
+    },
+    {
+      "epoch": 26.91,
+      "grad_norm": 0.012257667258381844,
+      "learning_rate": 3.654852699267235e-05,
+      "loss": 0.0095,
+      "step": 90000
+    },
+    {
+      "epoch": 26.91,
+      "eval_loss": 0.3233014643192291,
+      "eval_precision": 0.9329517062525696,
+      "eval_recall": 0.9082484066627667,
+      "eval_runtime": 304.4964,
+      "eval_samples_per_second": 43.922,
+      "eval_steps_per_second": 1.373,
+      "step": 90000
+    },
+    {
+      "epoch": 26.94,
+      "grad_norm": 0.030741436406970024,
+      "learning_rate": 3.653357260355915e-05,
+      "loss": 0.0067,
+      "step": 90100
+    },
+    {
+      "epoch": 26.97,
+      "grad_norm": 0.429049551486969,
+      "learning_rate": 3.651861821444594e-05,
+      "loss": 0.012,
+      "step": 90200
+    },
+    {
+      "epoch": 27.0,
+      "grad_norm": 0.002479678951203823,
+      "learning_rate": 3.6503663825332735e-05,
+      "loss": 0.005,
+      "step": 90300
+    },
+    {
+      "epoch": 27.03,
+      "grad_norm": 0.12390375137329102,
+      "learning_rate": 3.648870943621953e-05,
+      "loss": 0.0083,
+      "step": 90400
+    },
+    {
+      "epoch": 27.06,
+      "grad_norm": 0.044969938695430756,
+      "learning_rate": 3.647375504710633e-05,
+      "loss": 0.0073,
+      "step": 90500
+    },
+    {
+      "epoch": 27.09,
+      "grad_norm": 0.06378799676895142,
+      "learning_rate": 3.645880065799313e-05,
+      "loss": 0.0073,
+      "step": 90600
+    },
+    {
+      "epoch": 27.12,
+      "grad_norm": 0.323734849691391,
+      "learning_rate": 3.6443846268879914e-05,
+      "loss": 0.0078,
+      "step": 90700
+    },
+    {
+      "epoch": 27.15,
+      "grad_norm": 1.6457269191741943,
+      "learning_rate": 3.642889187976671e-05,
+      "loss": 0.0055,
+      "step": 90800
+    },
+    {
+      "epoch": 27.18,
+      "grad_norm": 0.007004741113632917,
+      "learning_rate": 3.641393749065351e-05,
+      "loss": 0.0065,
+      "step": 90900
+    },
+    {
+      "epoch": 27.21,
+      "grad_norm": 0.06395163387060165,
+      "learning_rate": 3.63989831015403e-05,
+      "loss": 0.0062,
+      "step": 91000
+    },
+    {
+      "epoch": 27.21,
+      "eval_loss": 0.32764899730682373,
+      "eval_precision": 0.9317584480600751,
+      "eval_recall": 0.916869361741433,
+      "eval_runtime": 309.1631,
+      "eval_samples_per_second": 43.259,
+      "eval_steps_per_second": 1.352,
+      "step": 91000
+    },
+    {
+      "epoch": 27.24,
+      "grad_norm": 0.005486265290528536,
+      "learning_rate": 3.63840287124271e-05,
+      "loss": 0.0082,
+      "step": 91100
+    },
+    {
+      "epoch": 27.27,
+      "grad_norm": 2.3132262229919434,
+      "learning_rate": 3.63690743233139e-05,
+      "loss": 0.0067,
+      "step": 91200
+    },
+    {
+      "epoch": 27.3,
+      "grad_norm": 0.07687461376190186,
+      "learning_rate": 3.635411993420069e-05,
+      "loss": 0.0051,
+      "step": 91300
+    },
+    {
+      "epoch": 27.33,
+      "grad_norm": 0.05096305161714554,
+      "learning_rate": 3.6339165545087484e-05,
+      "loss": 0.0061,
+      "step": 91400
+    },
+    {
+      "epoch": 27.36,
+      "grad_norm": 0.21200311183929443,
+      "learning_rate": 3.6324211155974284e-05,
+      "loss": 0.0072,
+      "step": 91500
+    },
+    {
+      "epoch": 27.39,
+      "grad_norm": 0.07336900383234024,
+      "learning_rate": 3.630925676686108e-05,
+      "loss": 0.008,
+      "step": 91600
+    },
+    {
+      "epoch": 27.42,
+      "grad_norm": 0.026788916438817978,
+      "learning_rate": 3.629430237774787e-05,
+      "loss": 0.0068,
+      "step": 91700
+    },
+    {
+      "epoch": 27.45,
+      "grad_norm": 0.03046250529587269,
+      "learning_rate": 3.627934798863466e-05,
+      "loss": 0.0081,
+      "step": 91800
+    },
+    {
+      "epoch": 27.48,
+      "grad_norm": 0.32240158319473267,
+      "learning_rate": 3.626439359952146e-05,
+      "loss": 0.0091,
+      "step": 91900
+    },
+    {
+      "epoch": 27.51,
+      "grad_norm": 0.1428656429052353,
+      "learning_rate": 3.624943921040826e-05,
+      "loss": 0.007,
+      "step": 92000
+    },
+    {
+      "epoch": 27.51,
+      "eval_loss": 0.3499869704246521,
+      "eval_precision": 0.9278612426685068,
+      "eval_recall": 0.9108346931863666,
+      "eval_runtime": 310.2456,
+      "eval_samples_per_second": 43.108,
+      "eval_steps_per_second": 1.347,
+      "step": 92000
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 334400,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 500,
+  "total_flos": 4.8090441780412416e+17,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}