{
  "best_metric": 2.27061128616333,
  "best_model_checkpoint": "./output/training_results/C018_random_sample_llama3-8b-base_pretrain_20240504_182259/checkpoint-800",
  "epoch": 4.0,
  "eval_steps": 200,
  "global_step": 3660,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.001092896174863388,
      "grad_norm": 0.0,
      "learning_rate": 0.0,
      "loss": 2.5038,
      "step": 1
    },
    {
      "epoch": 0.00546448087431694,
      "grad_norm": 6.018359004510701,
      "learning_rate": 1.5e-06,
      "loss": 2.4907,
      "step": 5
    },
    {
      "epoch": 0.01092896174863388,
      "grad_norm": 3.4017007364457332,
      "learning_rate": 5.25e-06,
      "loss": 2.4315,
      "step": 10
    },
    {
      "epoch": 0.01639344262295082,
      "grad_norm": 2.6900944944121132,
      "learning_rate": 8.25e-06,
      "loss": 2.428,
      "step": 15
    },
    {
      "epoch": 0.02185792349726776,
      "grad_norm": 2.708090744472938,
      "learning_rate": 1.2e-05,
      "loss": 2.4387,
      "step": 20
    },
    {
      "epoch": 0.0273224043715847,
      "grad_norm": 3.032951222015636,
      "learning_rate": 1.4954883435929662e-05,
      "loss": 2.4481,
      "step": 25
    },
    {
      "epoch": 0.03278688524590164,
      "grad_norm": 2.4292246650027147,
      "learning_rate": 1.4731151665173554e-05,
      "loss": 2.466,
      "step": 30
    },
    {
      "epoch": 0.03825136612021858,
      "grad_norm": 2.621759707907051,
      "learning_rate": 1.4510477122963378e-05,
      "loss": 2.4376,
      "step": 35
    },
    {
      "epoch": 0.04371584699453552,
      "grad_norm": 2.4177283273408454,
      "learning_rate": 1.4292822159268742e-05,
      "loss": 2.4828,
      "step": 40
    },
    {
      "epoch": 0.04918032786885246,
      "grad_norm": 2.8501680697628307,
      "learning_rate": 1.4078149536769946e-05,
      "loss": 2.4589,
      "step": 45
    },
    {
      "epoch": 0.0546448087431694,
      "grad_norm": 2.479759465440778,
      "learning_rate": 1.386642242689401e-05,
      "loss": 2.4807,
      "step": 50
    },
    {
      "epoch": 0.060109289617486336,
      "grad_norm": 2.8217394805300566,
      "learning_rate": 1.3657604405883384e-05,
      "loss": 2.4267,
      "step": 55
    },
    {
      "epoch": 0.06557377049180328,
      "grad_norm": 2.081431814197302,
      "learning_rate": 1.3451659450897103e-05,
      "loss": 2.4302,
      "step": 60
    },
    {
      "epoch": 0.07103825136612021,
      "grad_norm": 2.4806889496772477,
      "learning_rate": 1.3248551936144194e-05,
      "loss": 2.4394,
      "step": 65
    },
    {
      "epoch": 0.07650273224043716,
      "grad_norm": 2.440876359920224,
      "learning_rate": 1.3048246629049058e-05,
      "loss": 2.4125,
      "step": 70
    },
    {
      "epoch": 0.08196721311475409,
      "grad_norm": 2.0932998526603517,
      "learning_rate": 1.2889996545293194e-05,
      "loss": 2.4529,
      "step": 75
    },
    {
      "epoch": 0.08743169398907104,
      "grad_norm": 2.1065047597686135,
      "learning_rate": 1.2694647666488102e-05,
      "loss": 2.4064,
      "step": 80
    },
    {
      "epoch": 0.09289617486338798,
      "grad_norm": 2.547164860929408,
      "learning_rate": 1.2502004403786172e-05,
      "loss": 2.4265,
      "step": 85
    },
    {
      "epoch": 0.09836065573770492,
      "grad_norm": 2.1438020912476348,
      "learning_rate": 1.2312032984416495e-05,
      "loss": 2.4098,
      "step": 90
    },
    {
      "epoch": 0.10382513661202186,
      "grad_norm": 2.068160218649763,
      "learning_rate": 1.212470001085604e-05,
      "loss": 2.4031,
      "step": 95
    },
    {
      "epoch": 0.1092896174863388,
      "grad_norm": 1.9843644588123759,
      "learning_rate": 1.1939972457176422e-05,
      "loss": 2.405,
      "step": 100
    },
    {
      "epoch": 0.11475409836065574,
      "grad_norm": 2.1172473045661224,
      "learning_rate": 1.175781766542116e-05,
      "loss": 2.3911,
      "step": 105
    },
    {
      "epoch": 0.12021857923497267,
      "grad_norm": 2.3445926712239196,
      "learning_rate": 1.1613924507166693e-05,
      "loss": 2.3869,
      "step": 110
    },
    {
      "epoch": 0.12568306010928962,
      "grad_norm": 2.025043424580075,
      "learning_rate": 1.1436319549649206e-05,
      "loss": 2.391,
      "step": 115
    },
    {
      "epoch": 0.13114754098360656,
      "grad_norm": 1.9766925379731093,
      "learning_rate": 1.1261197838924792e-05,
      "loss": 2.4065,
      "step": 120
    },
    {
      "epoch": 0.1366120218579235,
      "grad_norm": 2.0255472574517768,
      "learning_rate": 1.1088528082822625e-05,
      "loss": 2.4301,
      "step": 125
    },
    {
      "epoch": 0.14207650273224043,
      "grad_norm": 2.2637369635110933,
      "learning_rate": 1.0918279340172864e-05,
      "loss": 2.3594,
      "step": 130
    },
    {
      "epoch": 0.14754098360655737,
      "grad_norm": 2.053999551417616,
      "learning_rate": 1.0750421017356817e-05,
      "loss": 2.3738,
      "step": 135
    },
    {
      "epoch": 0.15300546448087432,
      "grad_norm": 2.305037126151136,
      "learning_rate": 1.0584922864886185e-05,
      "loss": 2.3832,
      "step": 140
    },
    {
      "epoch": 0.15846994535519127,
      "grad_norm": 2.1180967831426787,
      "learning_rate": 1.0421754974011241e-05,
      "loss": 2.413,
      "step": 145
    },
    {
      "epoch": 0.16393442622950818,
      "grad_norm": 2.1528001939587402,
      "learning_rate": 1.026088777335768e-05,
      "loss": 2.3649,
      "step": 150
    },
    {
      "epoch": 0.16939890710382513,
      "grad_norm": 1.9416004094979256,
      "learning_rate": 1.0102292025591967e-05,
      "loss": 2.3733,
      "step": 155
    },
    {
      "epoch": 0.17486338797814208,
      "grad_norm": 2.2225363194253847,
      "learning_rate": 9.945938824114975e-06,
      "loss": 2.385,
      "step": 160
    },
    {
      "epoch": 0.18032786885245902,
      "grad_norm": 2.492677416034468,
      "learning_rate": 9.791799589783724e-06,
      "loss": 2.3586,
      "step": 165
    },
    {
      "epoch": 0.18579234972677597,
      "grad_norm": 1.9241743990594526,
      "learning_rate": 9.639846067661005e-06,
      "loss": 2.3548,
      "step": 170
    },
    {
      "epoch": 0.1912568306010929,
      "grad_norm": 1.9740476668210596,
      "learning_rate": 9.490050323792687e-06,
      "loss": 2.3768,
      "step": 175
    },
    {
      "epoch": 0.19672131147540983,
      "grad_norm": 2.0445759366709106,
      "learning_rate": 9.342384742012546e-06,
      "loss": 2.4061,
      "step": 180
    },
    {
      "epoch": 0.20218579234972678,
      "grad_norm": 1.9639271133424887,
      "learning_rate": 9.19682202077437e-06,
      "loss": 2.3726,
      "step": 185
    },
    {
      "epoch": 0.20765027322404372,
      "grad_norm": 1.9663469004265115,
      "learning_rate": 9.053335170011187e-06,
      "loss": 2.3515,
      "step": 190
    },
    {
      "epoch": 0.21311475409836064,
      "grad_norm": 1.9350297245856483,
      "learning_rate": 8.911897508021392e-06,
      "loss": 2.3408,
      "step": 195
    },
    {
      "epoch": 0.2185792349726776,
      "grad_norm": 1.8993527753581194,
      "learning_rate": 8.77248265838164e-06,
      "loss": 2.3701,
      "step": 200
    },
    {
      "epoch": 0.2185792349726776,
      "eval_loss": 2.3701858520507812,
      "eval_runtime": 75.1482,
      "eval_samples_per_second": 86.589,
      "eval_steps_per_second": 0.679,
      "step": 200
    },
    {
      "epoch": 0.22404371584699453,
      "grad_norm": 2.203924855542508,
      "learning_rate": 8.635064546886168e-06,
      "loss": 2.3966,
      "step": 205
    },
    {
      "epoch": 0.22950819672131148,
      "grad_norm": 2.114129121333607,
      "learning_rate": 8.499617398512568e-06,
      "loss": 2.3397,
      "step": 210
    },
    {
      "epoch": 0.23497267759562843,
      "grad_norm": 1.924587792624844,
      "learning_rate": 8.366115734413646e-06,
      "loss": 2.3665,
      "step": 215
    },
    {
      "epoch": 0.24043715846994534,
      "grad_norm": 1.8589409579909668,
      "learning_rate": 8.234534368935251e-06,
      "loss": 2.3603,
      "step": 220
    },
    {
      "epoch": 0.2459016393442623,
      "grad_norm": 2.045586546826662,
      "learning_rate": 8.104848406659907e-06,
      "loss": 2.3569,
      "step": 225
    },
    {
      "epoch": 0.25136612021857924,
      "grad_norm": 1.9470161431434365,
      "learning_rate": 7.97703323947598e-06,
      "loss": 2.322,
      "step": 230
    },
    {
      "epoch": 0.2568306010928962,
      "grad_norm": 1.8292713581809432,
      "learning_rate": 7.85106454367231e-06,
      "loss": 2.3516,
      "step": 235
    },
    {
      "epoch": 0.26229508196721313,
      "grad_norm": 1.8494090625326762,
      "learning_rate": 7.72691827705802e-06,
      "loss": 2.375,
      "step": 240
    },
    {
      "epoch": 0.2677595628415301,
      "grad_norm": 2.161027732489493,
      "learning_rate": 7.604570676107382e-06,
      "loss": 2.3498,
      "step": 245
    },
    {
      "epoch": 0.273224043715847,
      "grad_norm": 2.1707598899295357,
      "learning_rate": 7.483998253129525e-06,
      "loss": 2.3503,
      "step": 250
    },
    {
      "epoch": 0.2786885245901639,
      "grad_norm": 1.8564170426077466,
      "learning_rate": 7.365177793462842e-06,
      "loss": 2.3285,
      "step": 255
    },
    {
      "epoch": 0.28415300546448086,
      "grad_norm": 1.9463620290299803,
      "learning_rate": 7.248086352693862e-06,
      "loss": 2.3287,
      "step": 260
    },
    {
      "epoch": 0.2896174863387978,
      "grad_norm": 2.0448861366457924,
      "learning_rate": 7.132701253900465e-06,
      "loss": 2.3307,
      "step": 265
    },
    {
      "epoch": 0.29508196721311475,
      "grad_norm": 2.0011605708324685,
      "learning_rate": 7.019000084919226e-06,
      "loss": 2.3445,
      "step": 270
    },
    {
      "epoch": 0.3005464480874317,
      "grad_norm": 1.7859540910895997,
      "learning_rate": 6.906960695636718e-06,
      "loss": 2.3176,
      "step": 275
    },
    {
      "epoch": 0.30601092896174864,
      "grad_norm": 2.0882334857896554,
      "learning_rate": 6.796561195304612e-06,
      "loss": 2.3152,
      "step": 280
    },
    {
      "epoch": 0.3114754098360656,
      "grad_norm": 1.8550717237355474,
      "learning_rate": 6.687779949878386e-06,
      "loss": 2.3072,
      "step": 285
    },
    {
      "epoch": 0.31693989071038253,
      "grad_norm": 1.9231867190142091,
      "learning_rate": 6.580595579379473e-06,
      "loss": 2.3527,
      "step": 290
    },
    {
      "epoch": 0.3224043715846995,
      "grad_norm": 2.2210554738167056,
      "learning_rate": 6.474986955280685e-06,
      "loss": 2.3422,
      "step": 295
    },
    {
      "epoch": 0.32786885245901637,
      "grad_norm": 2.0430624582463506,
      "learning_rate": 6.370933197914722e-06,
      "loss": 2.3153,
      "step": 300
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 2.0678711431760104,
      "learning_rate": 6.268413673905618e-06,
      "loss": 2.3097,
      "step": 305
    },
    {
      "epoch": 0.33879781420765026,
      "grad_norm": 1.8084581993894073,
      "learning_rate": 6.167407993622935e-06,
      "loss": 2.3256,
      "step": 310
    },
    {
      "epoch": 0.3442622950819672,
      "grad_norm": 1.9468221957558098,
      "learning_rate": 6.067896008658554e-06,
      "loss": 2.3447,
      "step": 315
    },
    {
      "epoch": 0.34972677595628415,
      "grad_norm": 1.995128197802868,
      "learning_rate": 5.9698578093258756e-06,
      "loss": 2.3063,
      "step": 320
    },
    {
      "epoch": 0.3551912568306011,
      "grad_norm": 1.9717788395704754,
      "learning_rate": 5.873273722181316e-06,
      "loss": 2.3468,
      "step": 325
    },
    {
      "epoch": 0.36065573770491804,
      "grad_norm": 1.7044787526539047,
      "learning_rate": 5.778124307567816e-06,
      "loss": 2.3458,
      "step": 330
    },
    {
      "epoch": 0.366120218579235,
      "grad_norm": 2.0310677469626994,
      "learning_rate": 5.68439035718035e-06,
      "loss": 2.3099,
      "step": 335
    },
    {
      "epoch": 0.37158469945355194,
      "grad_norm": 1.8797720229376973,
      "learning_rate": 5.592052891653163e-06,
      "loss": 2.3293,
      "step": 340
    },
    {
      "epoch": 0.3770491803278688,
      "grad_norm": 1.7420600285844794,
      "learning_rate": 5.5010931581686135e-06,
      "loss": 2.3347,
      "step": 345
    },
    {
      "epoch": 0.3825136612021858,
      "grad_norm": 1.923012658321935,
      "learning_rate": 5.411492628087456e-06,
      "loss": 2.2903,
      "step": 350
    },
    {
      "epoch": 0.3879781420765027,
      "grad_norm": 1.8521170693883549,
      "learning_rate": 5.3232329946004e-06,
      "loss": 2.3296,
      "step": 355
    },
    {
      "epoch": 0.39344262295081966,
      "grad_norm": 1.8510472078686617,
      "learning_rate": 5.2362961704007885e-06,
      "loss": 2.3372,
      "step": 360
    },
    {
      "epoch": 0.3989071038251366,
      "grad_norm": 2.0309505396989302,
      "learning_rate": 5.150664285378238e-06,
      "loss": 2.2872,
      "step": 365
    },
    {
      "epoch": 0.40437158469945356,
      "grad_norm": 1.8697259417175387,
      "learning_rate": 5.06631968433308e-06,
      "loss": 2.3182,
      "step": 370
    },
    {
      "epoch": 0.4098360655737705,
      "grad_norm": 1.829952724705,
      "learning_rate": 4.9832449247114525e-06,
      "loss": 2.2973,
      "step": 375
    },
    {
      "epoch": 0.41530054644808745,
      "grad_norm": 1.7902123068449143,
      "learning_rate": 4.901422774360872e-06,
      "loss": 2.3068,
      "step": 380
    },
    {
      "epoch": 0.4207650273224044,
      "grad_norm": 1.7833743483161062,
      "learning_rate": 4.8208362093061525e-06,
      "loss": 2.2842,
      "step": 385
    },
    {
      "epoch": 0.4262295081967213,
      "grad_norm": 1.9963838229648958,
      "learning_rate": 4.741468411545501e-06,
      "loss": 2.2788,
      "step": 390
    },
    {
      "epoch": 0.43169398907103823,
      "grad_norm": 2.165728407748183,
      "learning_rate": 4.6633027668666485e-06,
      "loss": 2.2629,
      "step": 395
    },
    {
      "epoch": 0.4371584699453552,
      "grad_norm": 1.8956899938550533,
      "learning_rate": 4.58632286268284e-06,
      "loss": 2.3183,
      "step": 400
    },
    {
      "epoch": 0.4371584699453552,
      "eval_loss": 2.316016674041748,
      "eval_runtime": 75.0612,
      "eval_samples_per_second": 86.689,
      "eval_steps_per_second": 0.679,
      "step": 400
    },
    {
      "epoch": 0.4426229508196721,
      "grad_norm": 1.9009361654227148,
      "learning_rate": 4.510512485888576e-06,
      "loss": 2.3128,
      "step": 405
    },
    {
      "epoch": 0.44808743169398907,
      "grad_norm": 1.8723633542124947,
      "learning_rate": 4.435855620734914e-06,
      "loss": 2.2849,
      "step": 410
    },
    {
      "epoch": 0.453551912568306,
      "grad_norm": 1.739990729696985,
      "learning_rate": 4.3623364467242e-06,
      "loss": 2.323,
      "step": 415
    },
    {
      "epoch": 0.45901639344262296,
      "grad_norm": 2.739418331731018,
      "learning_rate": 4.289939336524074e-06,
      "loss": 2.285,
      "step": 420
    },
    {
      "epoch": 0.4644808743169399,
      "grad_norm": 1.744787908955572,
      "learning_rate": 4.218648853900638e-06,
      "loss": 2.3438,
      "step": 425
    },
    {
      "epoch": 0.46994535519125685,
      "grad_norm": 2.108125431007958,
      "learning_rate": 4.148449751670545e-06,
      "loss": 2.2864,
      "step": 430
    },
    {
      "epoch": 0.47540983606557374,
      "grad_norm": 1.7777684575501653,
      "learning_rate": 4.0793269696719935e-06,
      "loss": 2.2953,
      "step": 435
    },
    {
      "epoch": 0.4808743169398907,
      "grad_norm": 1.9646082069769346,
      "learning_rate": 4.011265632754383e-06,
      "loss": 2.3371,
      "step": 440
    },
    {
      "epoch": 0.48633879781420764,
      "grad_norm": 1.9015798878951815,
      "learning_rate": 3.944251048786522e-06,
      "loss": 2.2647,
      "step": 445
    },
    {
      "epoch": 0.4918032786885246,
      "grad_norm": 1.946335104230161,
      "learning_rate": 3.878268706683258e-06,
      "loss": 2.2622,
      "step": 450
    },
    {
      "epoch": 0.4972677595628415,
      "grad_norm": 1.7407268985234177,
      "learning_rate": 3.8133042744503556e-06,
      "loss": 2.2978,
      "step": 455
    },
    {
      "epoch": 0.5027322404371585,
      "grad_norm": 2.0354514658677867,
      "learning_rate": 3.7493435972475156e-06,
      "loss": 2.3088,
      "step": 460
    },
    {
      "epoch": 0.5081967213114754,
      "grad_norm": 1.8511439849509024,
      "learning_rate": 3.686372695469369e-06,
      "loss": 2.3243,
      "step": 465
    },
    {
      "epoch": 0.5136612021857924,
      "grad_norm": 1.8563805349568043,
      "learning_rate": 3.6243777628443207e-06,
      "loss": 2.3126,
      "step": 470
    },
    {
      "epoch": 0.5191256830601093,
      "grad_norm": 1.8151947657786947,
      "learning_rate": 3.5633451645510976e-06,
      "loss": 2.3406,
      "step": 475
    },
    {
      "epoch": 0.5245901639344263,
      "grad_norm": 1.8105166181198042,
      "learning_rate": 3.5032614353528692e-06,
      "loss": 2.3148,
      "step": 480
    },
    {
      "epoch": 0.5300546448087432,
      "grad_norm": 1.8770594853800158,
      "learning_rate": 3.4441132777487983e-06,
      "loss": 2.2673,
      "step": 485
    },
    {
      "epoch": 0.5355191256830601,
      "grad_norm": 1.8047846783432062,
      "learning_rate": 3.385887560142889e-06,
      "loss": 2.2999,
      "step": 490
    },
    {
      "epoch": 0.5409836065573771,
      "grad_norm": 1.8251621882251348,
      "learning_rate": 3.3285713150299956e-06,
      "loss": 2.2806,
      "step": 495
    },
    {
      "epoch": 0.546448087431694,
      "grad_norm": 1.871841118264576,
      "learning_rate": 3.27215173719886e-06,
      "loss": 2.2755,
      "step": 500
    },
    {
      "epoch": 0.5519125683060109,
      "grad_norm": 1.7071197085633982,
      "learning_rate": 3.216616181952041e-06,
      "loss": 2.3256,
      "step": 505
    },
    {
      "epoch": 0.5573770491803278,
      "grad_norm": 1.8202076520109158,
      "learning_rate": 3.161952163342607e-06,
      "loss": 2.2326,
      "step": 510
    },
    {
      "epoch": 0.5628415300546448,
      "grad_norm": 2.101153989436264,
      "learning_rate": 3.1081473524274575e-06,
      "loss": 2.2992,
      "step": 515
    },
    {
      "epoch": 0.5683060109289617,
      "grad_norm": 2.8542639158592804,
      "learning_rate": 3.0551895755371417e-06,
      "loss": 2.2662,
      "step": 520
    },
    {
      "epoch": 0.5737704918032787,
      "grad_norm": 1.9673021719695818,
      "learning_rate": 3.00306681256205e-06,
      "loss": 2.3003,
      "step": 525
    },
    {
      "epoch": 0.5792349726775956,
      "grad_norm": 2.010083775622308,
      "learning_rate": 2.9517671952548357e-06,
      "loss": 2.3146,
      "step": 530
    },
    {
      "epoch": 0.5846994535519126,
      "grad_norm": 1.8194888309578177,
      "learning_rate": 2.9012790055489625e-06,
      "loss": 2.2817,
      "step": 535
    },
    {
      "epoch": 0.5901639344262295,
      "grad_norm": 3.4489573911262608,
      "learning_rate": 2.8515906738932173e-06,
      "loss": 2.2923,
      "step": 540
    },
    {
      "epoch": 0.5956284153005464,
      "grad_norm": 1.7960363620990365,
      "learning_rate": 2.8026907776020966e-06,
      "loss": 2.2396,
      "step": 545
    },
    {
      "epoch": 0.6010928961748634,
      "grad_norm": 1.9801171472834103,
      "learning_rate": 2.7545680392219096e-06,
      "loss": 2.2668,
      "step": 550
    },
    {
      "epoch": 0.6065573770491803,
      "grad_norm": 1.7618650836948095,
      "learning_rate": 2.7072113249124913e-06,
      "loss": 2.2449,
      "step": 555
    },
    {
      "epoch": 0.6120218579234973,
      "grad_norm": 1.730914258843425,
      "learning_rate": 2.660609642844413e-06,
      "loss": 2.2918,
      "step": 560
    },
    {
      "epoch": 0.6174863387978142,
      "grad_norm": 1.7646145040322634,
      "learning_rate": 2.6147521416115106e-06,
      "loss": 2.2862,
      "step": 565
    },
    {
      "epoch": 0.6229508196721312,
      "grad_norm": 1.9128717333080465,
      "learning_rate": 2.5696281086586865e-06,
      "loss": 2.2657,
      "step": 570
    },
    {
      "epoch": 0.6284153005464481,
      "grad_norm": 1.956303743152218,
      "learning_rate": 2.5252269687248056e-06,
      "loss": 2.3029,
      "step": 575
    },
    {
      "epoch": 0.6338797814207651,
      "grad_norm": 1.7226771008230806,
      "learning_rate": 2.4815382823005854e-06,
      "loss": 2.2454,
      "step": 580
    },
    {
      "epoch": 0.639344262295082,
      "grad_norm": 1.8222023652295238,
      "learning_rate": 2.4385517441013565e-06,
      "loss": 2.3003,
      "step": 585
    },
    {
      "epoch": 0.644808743169399,
      "grad_norm": 1.8097760740890172,
      "learning_rate": 2.3962571815545747e-06,
      "loss": 2.3239,
      "step": 590
    },
    {
      "epoch": 0.6502732240437158,
      "grad_norm": 1.7469489003388072,
      "learning_rate": 2.3546445533019647e-06,
      "loss": 2.289,
      "step": 595
    },
    {
      "epoch": 0.6557377049180327,
      "grad_norm": 1.8488648855172372,
      "learning_rate": 2.31370394771618e-06,
      "loss": 2.2634,
      "step": 600
    },
    {
      "epoch": 0.6557377049180327,
      "eval_loss": 2.2862629890441895,
      "eval_runtime": 75.0848,
      "eval_samples_per_second": 86.662,
      "eval_steps_per_second": 0.679,
      "step": 600
    },
    {
      "epoch": 0.6612021857923497,
      "grad_norm": 1.775242640587005,
      "learning_rate": 2.2734255814318526e-06,
      "loss": 2.2729,
      "step": 605
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 1.7202766576440889,
      "learning_rate": 2.233799797890934e-06,
      "loss": 2.2784,
      "step": 610
    },
    {
      "epoch": 0.6721311475409836,
      "grad_norm": 1.808717147716665,
      "learning_rate": 2.1948170659021868e-06,
      "loss": 2.2501,
      "step": 615
    },
    {
      "epoch": 0.6775956284153005,
      "grad_norm": 1.7433893633830992,
      "learning_rate": 2.1564679782147374e-06,
      "loss": 2.2937,
      "step": 620
    },
    {
      "epoch": 0.6830601092896175,
      "grad_norm": 1.7254327868818564,
      "learning_rate": 2.1187432501055544e-06,
      "loss": 2.3049,
      "step": 625
    },
    {
      "epoch": 0.6885245901639344,
      "grad_norm": 1.7514572806831676,
      "learning_rate": 2.0816337179807527e-06,
      "loss": 2.2563,
      "step": 630
    },
    {
      "epoch": 0.6939890710382514,
      "grad_norm": 2.517555263627969,
      "learning_rate": 2.0451303379906046e-06,
      "loss": 2.2915,
      "step": 635
    },
    {
      "epoch": 0.6994535519125683,
      "grad_norm": 1.841614406691522,
      "learning_rate": 2.0092241846581427e-06,
      "loss": 2.2846,
      "step": 640
    },
    {
      "epoch": 0.7049180327868853,
      "grad_norm": 2.117519428379047,
      "learning_rate": 1.973906449521264e-06,
      "loss": 2.2822,
      "step": 645
    },
    {
      "epoch": 0.7103825136612022,
      "grad_norm": 1.775749159266723,
      "learning_rate": 1.9391684397881756e-06,
      "loss": 2.2472,
      "step": 650
    },
    {
      "epoch": 0.7158469945355191,
      "grad_norm": 1.7229676762831452,
      "learning_rate": 1.9050015770061387e-06,
      "loss": 2.2924,
      "step": 655
    },
    {
      "epoch": 0.7213114754098361,
      "grad_norm": 1.7135336336426077,
      "learning_rate": 1.8713973957433444e-06,
      "loss": 2.2932,
      "step": 660
    },
    {
      "epoch": 0.726775956284153,
      "grad_norm": 1.746651653634065,
      "learning_rate": 1.838347542283849e-06,
      "loss": 2.2625,
      "step": 665
    },
    {
      "epoch": 0.73224043715847,
      "grad_norm": 1.8692885279821523,
      "learning_rate": 1.8058437733354382e-06,
      "loss": 2.2856,
      "step": 670
    },
    {
      "epoch": 0.7377049180327869,
      "grad_norm": 1.8208277427071937,
      "learning_rate": 1.773877954750328e-06,
      "loss": 2.2477,
      "step": 675
    },
    {
      "epoch": 0.7431693989071039,
      "grad_norm": 1.6812537080705303,
      "learning_rate": 1.7424420602585894e-06,
      "loss": 2.3132,
      "step": 680
    },
    {
      "epoch": 0.7486338797814208,
      "grad_norm": 2.0801892129831256,
      "learning_rate": 1.7115281702141926e-06,
      "loss": 2.2575,
      "step": 685
    },
    {
      "epoch": 0.7540983606557377,
      "grad_norm": 1.8414116320368654,
      "learning_rate": 1.6811284703535634e-06,
      "loss": 2.2476,
      "step": 690
    },
    {
      "epoch": 0.7595628415300546,
      "grad_norm": 2.0566662495103483,
      "learning_rate": 1.651235250566554e-06,
      "loss": 2.2569,
      "step": 695
    },
    {
      "epoch": 0.7650273224043715,
      "grad_norm": 2.016755831922365,
      "learning_rate": 1.6218409036797155e-06,
      "loss": 2.2568,
      "step": 700
    },
    {
      "epoch": 0.7704918032786885,
      "grad_norm": 1.7180035270775444,
      "learning_rate": 1.592937924251778e-06,
      "loss": 2.2993,
      "step": 705
    },
    {
      "epoch": 0.7759562841530054,
      "grad_norm": 1.7480243896979724,
      "learning_rate": 1.5645189073812295e-06,
      "loss": 2.2602,
      "step": 710
    },
    {
      "epoch": 0.7814207650273224,
      "grad_norm": 1.7826578176545964,
      "learning_rate": 1.5365765475258971e-06,
      "loss": 2.2554,
      "step": 715
    },
    {
      "epoch": 0.7868852459016393,
      "grad_norm": 1.7135083462521725,
      "learning_rate": 1.5091036373344258e-06,
      "loss": 2.2941,
      "step": 720
    },
    {
      "epoch": 0.7923497267759563,
      "grad_norm": 1.829935840802774,
      "learning_rate": 1.4820930664895563e-06,
      "loss": 2.2986,
      "step": 725
    },
    {
      "epoch": 0.7978142076502732,
      "grad_norm": 1.731928027216758,
      "learning_rate": 1.455537820563104e-06,
      "loss": 2.249,
      "step": 730
    },
    {
      "epoch": 0.8032786885245902,
      "grad_norm": 1.7873474828840332,
      "learning_rate": 1.4294309798825372e-06,
      "loss": 2.2462,
      "step": 735
    },
    {
      "epoch": 0.8087431693989071,
      "grad_norm": 1.759568248731093,
      "learning_rate": 1.4037657184090597e-06,
      "loss": 2.2722,
      "step": 740
    },
    {
      "epoch": 0.8142076502732241,
      "grad_norm": 1.7115339550033273,
      "learning_rate": 1.3785353026270964e-06,
      "loss": 2.2739,
      "step": 745
    },
    {
      "epoch": 0.819672131147541,
      "grad_norm": 1.6802608563862464,
      "learning_rate": 1.3537330904450898e-06,
      "loss": 2.2312,
      "step": 750
    },
    {
      "epoch": 0.825136612021858,
      "grad_norm": 1.7819162358568228,
      "learning_rate": 1.3293525301075076e-06,
      "loss": 2.2691,
      "step": 755
    },
    {
      "epoch": 0.8306010928961749,
      "grad_norm": 1.7268343293878012,
      "learning_rate": 1.305387159117968e-06,
      "loss": 2.3017,
      "step": 760
    },
    {
      "epoch": 0.8360655737704918,
      "grad_norm": 1.9444235134875572,
      "learning_rate": 1.2818306031733856e-06,
      "loss": 2.2924,
      "step": 765
    },
    {
      "epoch": 0.8415300546448088,
      "grad_norm": 1.7510208764482034,
      "learning_rate": 1.258676575109047e-06,
      "loss": 2.2897,
      "step": 770
    },
    {
      "epoch": 0.8469945355191257,
      "grad_norm": 2.517375736052748,
      "learning_rate": 1.2359188738545197e-06,
      "loss": 2.2454,
      "step": 775
    },
    {
      "epoch": 0.8524590163934426,
      "grad_norm": 1.6966653908275375,
      "learning_rate": 1.2135513834003019e-06,
      "loss": 2.2569,
      "step": 780
    },
    {
      "epoch": 0.8579234972677595,
      "grad_norm": 1.91572460682662,
      "learning_rate": 1.1915680717751282e-06,
      "loss": 2.2454,
      "step": 785
    },
    {
      "epoch": 0.8633879781420765,
      "grad_norm": 1.7753619527615636,
      "learning_rate": 1.1699629900338182e-06,
      "loss": 2.271,
      "step": 790
    },
    {
      "epoch": 0.8688524590163934,
      "grad_norm": 1.7960345912349553,
      "learning_rate": 1.1487302712556065e-06,
      "loss": 2.2328,
      "step": 795
    },
    {
      "epoch": 0.8743169398907104,
      "grad_norm": 1.8256697032153515,
      "learning_rate": 1.1278641295528428e-06,
      "loss": 2.2522,
      "step": 800
    },
    {
      "epoch": 0.8743169398907104,
      "eval_loss": 2.27061128616333,
      "eval_runtime": 75.1121,
      "eval_samples_per_second": 86.631,
      "eval_steps_per_second": 0.679,
      "step": 800
    },
    {
      "epoch": 0.8797814207650273,
      "grad_norm": 1.755415386789429,
      "learning_rate": 1.1073588590899781e-06,
      "loss": 2.2794,
      "step": 805
    },
    {
      "epoch": 0.8852459016393442,
      "grad_norm": 1.82410498387524,
      "learning_rate": 1.087208833112751e-06,
      "loss": 2.285,
      "step": 810
    },
    {
      "epoch": 0.8907103825136612,
      "grad_norm": 1.7491199970554299,
      "learning_rate": 1.0674085029874798e-06,
      "loss": 2.2838,
      "step": 815
    },
    {
      "epoch": 0.8961748633879781,
      "grad_norm": 1.7620440534843038,
      "learning_rate": 1.0479523972503778e-06,
      "loss": 2.2571,
      "step": 820
    },
    {
      "epoch": 0.9016393442622951,
      "grad_norm": 1.7623871723124545,
      "learning_rate": 1.0288351206668029e-06,
      "loss": 2.2152,
      "step": 825
    },
    {
      "epoch": 0.907103825136612,
      "grad_norm": 1.7314270943428405,
      "learning_rate": 1.0100513533003527e-06,
      "loss": 2.2728,
      "step": 830
    },
    {
      "epoch": 0.912568306010929,
      "grad_norm": 1.7654507075500774,
      "learning_rate": 9.915958495917222e-07,
      "loss": 2.247,
      "step": 835
    },
    {
      "epoch": 0.9180327868852459,
      "grad_norm": 1.678925667557596,
      "learning_rate": 9.734634374472352e-07,
      "loss": 2.2616,
      "step": 840
    },
    {
      "epoch": 0.9234972677595629,
      "grad_norm": 1.7684124052868442,
      "learning_rate": 9.556490173369703e-07,
      "loss": 2.2862,
      "step": 845
    },
    {
      "epoch": 0.9289617486338798,
      "grad_norm": 3.0732219671025516,
      "learning_rate": 9.381475614023894e-07,
      "loss": 2.2431,
      "step": 850
    },
    {
      "epoch": 0.9344262295081968,
      "grad_norm": 1.7623273850966537,
      "learning_rate": 9.209541125733917e-07,
      "loss": 2.2347,
      "step": 855
    },
    {
      "epoch": 0.9398907103825137,
      "grad_norm": 1.7652819800497817,
      "learning_rate": 9.040637836947072e-07,
      "loss": 2.2397,
      "step": 860
    },
    {
      "epoch": 0.9453551912568307,
      "grad_norm": 2.309656697777325,
      "learning_rate": 8.874717566615452e-07,
      "loss": 2.2653,
      "step": 865
    },
    {
      "epoch": 0.9508196721311475,
      "grad_norm": 1.7843612739885204,
      "learning_rate": 8.711732815644269e-07,
      "loss": 2.2434,
      "step": 870
    },
    {
      "epoch": 0.9562841530054644,
      "grad_norm": 1.7109714272710808,
      "learning_rate": 8.551636758430965e-07,
      "loss": 2.2745,
      "step": 875
    },
    {
      "epoch": 0.9617486338797814,
      "grad_norm": 1.7579744867576292,
      "learning_rate": 8.394383234494619e-07,
      "loss": 2.2248,
      "step": 880
    },
    {
      "epoch": 0.9672131147540983,
      "grad_norm": 1.849160968341628,
      "learning_rate": 8.239926740194595e-07,
      "loss": 2.251,
      "step": 885
    },
    {
      "epoch": 0.9726775956284153,
      "grad_norm": 1.861581611214087,
      "learning_rate": 8.088222420537758e-07,
      "loss": 2.2483,
      "step": 890
    },
    {
      "epoch": 0.9781420765027322,
      "grad_norm": 1.7754689870317883,
      "learning_rate": 7.939226061073428e-07,
      "loss": 2.2332,
      "step": 895
    },
    {
      "epoch": 0.9836065573770492,
      "grad_norm": 1.7804277680548917,
      "learning_rate": 7.792894079875298e-07,
      "loss": 2.236,
      "step": 900
    },
    {
      "epoch": 0.9890710382513661,
      "grad_norm": 1.8706013663334191,
      "learning_rate": 7.649183519609543e-07,
      "loss": 2.2355,
      "step": 905
    },
    {
      "epoch": 0.994535519125683,
      "grad_norm": 2.1654744337173804,
      "learning_rate": 7.508052039688325e-07,
      "loss": 2.2716,
      "step": 910
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.8923905206181715,
      "learning_rate": 7.369457908507959e-07,
      "loss": 2.2432,
      "step": 915
    },
    {
      "epoch": 1.005464480874317,
      "grad_norm": 1.8669783431369535,
      "learning_rate": 7.233359995770941e-07,
      "loss": 2.0815,
      "step": 920
    },
    {
      "epoch": 1.010928961748634,
      "grad_norm": 1.8664223098231116,
      "learning_rate": 7.09971776489111e-07,
      "loss": 2.1179,
      "step": 925
    },
    {
      "epoch": 1.0163934426229508,
      "grad_norm": 2.0035276022188526,
      "learning_rate": 6.968491265481181e-07,
      "loss": 2.0239,
      "step": 930
    },
    {
      "epoch": 1.0218579234972678,
      "grad_norm": 1.863776527509761,
      "learning_rate": 6.839641125921904e-07,
      "loss": 2.0409,
      "step": 935
    },
    {
      "epoch": 1.0273224043715847,
      "grad_norm": 1.8550407448868003,
      "learning_rate": 6.713128546012103e-07,
      "loss": 2.0766,
      "step": 940
    },
    {
      "epoch": 1.0327868852459017,
      "grad_norm": 1.836653625153128,
      "learning_rate": 6.588915289698876e-07,
      "loss": 2.0376,
      "step": 945
    },
    {
      "epoch": 1.0382513661202186,
      "grad_norm": 1.8030661735223916,
      "learning_rate": 6.466963677887208e-07,
      "loss": 2.0702,
      "step": 950
    },
    {
      "epoch": 1.0437158469945356,
      "grad_norm": 1.9561619861336457,
      "learning_rate": 6.347236581328288e-07,
      "loss": 2.0205,
      "step": 955
    },
    {
      "epoch": 1.0491803278688525,
      "grad_norm": 1.8564459874702657,
      "learning_rate": 6.229697413585796e-07,
      "loss": 1.9857,
      "step": 960
    },
    {
      "epoch": 1.0546448087431695,
      "grad_norm": 1.8936006989320295,
      "learning_rate": 6.114310124079459e-07,
      "loss": 2.0398,
      "step": 965
    },
    {
      "epoch": 1.0601092896174864,
      "grad_norm": 1.9195082055604684,
      "learning_rate": 6.001039191205155e-07,
      "loss": 2.1075,
      "step": 970
    },
    {
      "epoch": 1.0655737704918034,
      "grad_norm": 1.8455934194504435,
      "learning_rate": 5.88984961553089e-07,
      "loss": 2.0609,
      "step": 975
    },
    {
      "epoch": 1.0710382513661203,
      "grad_norm": 1.8016262977421866,
      "learning_rate": 5.780706913067893e-07,
      "loss": 2.0502,
      "step": 980
    },
    {
      "epoch": 1.0765027322404372,
      "grad_norm": 1.7677047836486395,
      "learning_rate": 5.673577108616207e-07,
      "loss": 2.051,
      "step": 985
    },
    {
      "epoch": 1.0819672131147542,
      "grad_norm": 1.8046971572225328,
      "learning_rate": 5.568426729184038e-07,
      "loss": 2.0531,
      "step": 990
    },
    {
      "epoch": 1.0874316939890711,
      "grad_norm": 1.82987759218833,
      "learning_rate": 5.465222797480186e-07,
      "loss": 2.0766,
      "step": 995
    },
    {
      "epoch": 1.092896174863388,
      "grad_norm": 1.9232052942988758,
      "learning_rate": 5.3639328254789e-07,
      "loss": 2.0306,
      "step": 1000
    },
    {
      "epoch": 1.092896174863388,
      "eval_loss": 2.277691602706909,
      "eval_runtime": 75.0135,
      "eval_samples_per_second": 86.744,
      "eval_steps_per_second": 0.68,
      "step": 1000
    },
    {
      "epoch": 1.098360655737705,
      "grad_norm": 2.0428068706971323,
      "learning_rate": 5.264524808056471e-07,
      "loss": 2.0239,
      "step": 1005
    },
    {
      "epoch": 1.1038251366120218,
      "grad_norm": 1.8366344916179231,
      "learning_rate": 5.166967216698893e-07,
      "loss": 2.0634,
      "step": 1010
    },
    {
      "epoch": 1.1092896174863387,
      "grad_norm": 1.7965628794594979,
      "learning_rate": 5.071228993279937e-07,
      "loss": 2.0611,
      "step": 1015
    },
    {
      "epoch": 1.1147540983606556,
      "grad_norm": 2.017245605772054,
      "learning_rate": 4.977279543908971e-07,
      "loss": 2.0588,
      "step": 1020
    },
    {
      "epoch": 1.1202185792349726,
      "grad_norm": 1.8313145099357355,
      "learning_rate": 4.885088732847877e-07,
      "loss": 2.0667,
      "step": 1025
    },
    {
      "epoch": 1.1256830601092895,
      "grad_norm": 1.8185093106173156,
      "learning_rate": 4.794626876496447e-07,
      "loss": 2.0602,
      "step": 1030
    },
    {
      "epoch": 1.1311475409836065,
      "grad_norm": 1.7971795633377927,
      "learning_rate": 4.705864737445532e-07,
      "loss": 2.0819,
      "step": 1035
    },
    {
      "epoch": 1.1366120218579234,
      "grad_norm": 1.804877775071399,
      "learning_rate": 4.6187735185974027e-07,
      "loss": 2.0733,
      "step": 1040
    },
    {
      "epoch": 1.1420765027322404,
      "grad_norm": 1.8882874062597697,
      "learning_rate": 4.53332485735264e-07,
      "loss": 2.0624,
      "step": 1045
    },
    {
      "epoch": 1.1475409836065573,
      "grad_norm": 1.8725308660946791,
      "learning_rate": 4.4494908198629223e-07,
      "loss": 2.0751,
      "step": 1050
    },
    {
      "epoch": 1.1530054644808743,
      "grad_norm": 1.832601726764631,
      "learning_rate": 4.3672438953490993e-07,
      "loss": 2.0633,
      "step": 1055
    },
    {
      "epoch": 1.1584699453551912,
      "grad_norm": 1.864300674472044,
      "learning_rate": 4.2865569904839347e-07,
      "loss": 2.0313,
      "step": 1060
    },
    {
      "epoch": 1.1639344262295082,
      "grad_norm": 1.8685178757975862,
      "learning_rate": 4.2074034238388927e-07,
      "loss": 2.0323,
      "step": 1065
    },
    {
      "epoch": 1.169398907103825,
      "grad_norm": 1.9710058409039382,
      "learning_rate": 4.129756920394366e-07,
      "loss": 2.0582,
      "step": 1070
    },
    {
      "epoch": 1.174863387978142,
      "grad_norm": 1.8687716914721453,
      "learning_rate": 4.0535916061127434e-07,
      "loss": 2.0985,
      "step": 1075
    },
    {
      "epoch": 1.180327868852459,
      "grad_norm": 1.8500938997613081,
      "learning_rate": 3.9788820025736986e-07,
      "loss": 2.0767,
      "step": 1080
    },
    {
      "epoch": 1.185792349726776,
      "grad_norm": 1.8312389667512146,
      "learning_rate": 3.905603021671151e-07,
      "loss": 2.0657,
      "step": 1085
    },
    {
      "epoch": 1.1912568306010929,
      "grad_norm": 1.867588510082228,
      "learning_rate": 3.833729960371216e-07,
      "loss": 2.0341,
      "step": 1090
    },
    {
      "epoch": 1.1967213114754098,
      "grad_norm": 2.0320023546596793,
      "learning_rate": 3.763238495530669e-07,
      "loss": 2.0428,
      "step": 1095
    },
    {
      "epoch": 1.2021857923497268,
      "grad_norm": 1.8098546698756057,
      "learning_rate": 3.6941046787752674e-07,
      "loss": 2.0333,
      "step": 1100
    },
    {
      "epoch": 1.2076502732240437,
      "grad_norm": 1.8386846652746143,
      "learning_rate": 3.626304931437368e-07,
      "loss": 2.0554,
      "step": 1105
    },
    {
      "epoch": 1.2131147540983607,
      "grad_norm": 1.8784877277085623,
      "learning_rate": 3.559816039552281e-07,
      "loss": 2.0227,
      "step": 1110
    },
    {
      "epoch": 1.2185792349726776,
      "grad_norm": 1.8657671721210465,
      "learning_rate": 3.494615148912776e-07,
      "loss": 2.0451,
      "step": 1115
    },
    {
      "epoch": 1.2240437158469946,
      "grad_norm": 1.8007719413939671,
      "learning_rate": 3.430679760181184e-07,
      "loss": 2.0583,
      "step": 1120
    },
    {
      "epoch": 1.2295081967213115,
      "grad_norm": 1.870766368370614,
      "learning_rate": 3.367987724058537e-07,
      "loss": 2.0488,
      "step": 1125
    },
    {
      "epoch": 1.2349726775956285,
      "grad_norm": 1.8322491897546949,
      "learning_rate": 3.3065172365101784e-07,
      "loss": 2.0705,
      "step": 1130
    },
    {
      "epoch": 1.2404371584699454,
      "grad_norm": 1.8536889671409005,
      "learning_rate": 3.2462468340473055e-07,
      "loss": 2.0704,
      "step": 1135
    },
    {
      "epoch": 1.2459016393442623,
      "grad_norm": 1.8359760782064882,
      "learning_rate": 3.1871553890638926e-07,
      "loss": 2.0451,
      "step": 1140
    },
    {
      "epoch": 1.2513661202185793,
      "grad_norm": 1.8344433175084502,
      "learning_rate": 3.129222105228447e-07,
      "loss": 2.0329,
      "step": 1145
    },
    {
      "epoch": 1.2568306010928962,
      "grad_norm": 1.8537487825008587,
      "learning_rate": 3.0724265129300667e-07,
      "loss": 2.0534,
      "step": 1150
    },
    {
      "epoch": 1.2622950819672132,
      "grad_norm": 1.8408591589072794,
      "learning_rate": 3.016748464778264e-07,
      "loss": 2.0942,
      "step": 1155
    },
    {
      "epoch": 1.2677595628415301,
      "grad_norm": 1.8078246234829183,
      "learning_rate": 2.962168131156018e-07,
      "loss": 2.1283,
      "step": 1160
    },
    {
      "epoch": 1.273224043715847,
      "grad_norm": 2.1814718317735906,
      "learning_rate": 2.9086659958255433e-07,
      "loss": 2.0702,
      "step": 1165
    },
    {
      "epoch": 1.278688524590164,
      "grad_norm": 1.8045654405880427,
      "learning_rate": 2.85622285158624e-07,
      "loss": 2.0367,
      "step": 1170
    },
    {
      "epoch": 1.2841530054644807,
      "grad_norm": 1.8472377696538738,
      "learning_rate": 2.804819795984313e-07,
      "loss": 2.0416,
      "step": 1175
    },
    {
      "epoch": 1.289617486338798,
      "grad_norm": 1.905366081667851,
      "learning_rate": 2.7544382270735544e-07,
      "loss": 2.0775,
      "step": 1180
    },
    {
      "epoch": 1.2950819672131146,
      "grad_norm": 1.9614873478866022,
      "learning_rate": 2.7050598392267637e-07,
      "loss": 2.0373,
      "step": 1185
    },
    {
      "epoch": 1.3005464480874318,
      "grad_norm": 1.8310655830774525,
      "learning_rate": 2.6566666189973166e-07,
      "loss": 1.9924,
      "step": 1190
    },
    {
      "epoch": 1.3060109289617485,
      "grad_norm": 1.7818072860023078,
      "learning_rate": 2.609240841030368e-07,
      "loss": 2.0684,
      "step": 1195
    },
    {
      "epoch": 1.3114754098360657,
      "grad_norm": 1.9094992756338325,
      "learning_rate": 2.5627650640232037e-07,
      "loss": 2.0095,
      "step": 1200
    },
    {
      "epoch": 1.3114754098360657,
      "eval_loss": 2.275972366333008,
      "eval_runtime": 75.1224,
      "eval_samples_per_second": 86.619,
      "eval_steps_per_second": 0.679,
      "step": 1200
    },
    {
      "epoch": 1.3169398907103824,
      "grad_norm": 1.8692781473355056,
      "learning_rate": 2.517222126734241e-07,
      "loss": 2.0688,
      "step": 1205
    },
    {
      "epoch": 1.3224043715846996,
      "grad_norm": 1.952487765852821,
      "learning_rate": 2.4725951440401845e-07,
      "loss": 2.0702,
      "step": 1210
    },
    {
      "epoch": 1.3278688524590163,
      "grad_norm": 1.8695789749802114,
      "learning_rate": 2.428867503040866e-07,
      "loss": 2.0588,
      "step": 1215
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 1.8261227342272521,
      "learning_rate": 2.386022859211273e-07,
      "loss": 2.0136,
      "step": 1220
    },
    {
      "epoch": 1.3387978142076502,
      "grad_norm": 1.7222392372978628,
      "learning_rate": 2.3440451326002926e-07,
      "loss": 2.0569,
      "step": 1225
    },
    {
      "epoch": 1.3442622950819672,
      "grad_norm": 1.9067634498498296,
      "learning_rate": 2.3029185040757038e-07,
      "loss": 2.0261,
      "step": 1230
    },
    {
      "epoch": 1.349726775956284,
      "grad_norm": 1.8423558641225324,
      "learning_rate": 2.262627411614938e-07,
      "loss": 2.0907,
      "step": 1235
    },
    {
      "epoch": 1.355191256830601,
      "grad_norm": 1.840981313277747,
      "learning_rate": 2.2231565466411502e-07,
      "loss": 2.0525,
      "step": 1240
    },
    {
      "epoch": 1.360655737704918,
      "grad_norm": 1.9131767631552514,
      "learning_rate": 2.184490850404133e-07,
      "loss": 2.0632,
      "step": 1245
    },
    {
      "epoch": 1.366120218579235,
      "grad_norm": 1.787761186102589,
      "learning_rate": 2.146615510405616e-07,
      "loss": 2.0723,
      "step": 1250
    },
    {
      "epoch": 1.3715846994535519,
      "grad_norm": 2.0011420142483685,
      "learning_rate": 2.1095159568685124e-07,
      "loss": 2.0347,
      "step": 1255
    },
    {
      "epoch": 1.3770491803278688,
      "grad_norm": 2.04737119019968,
      "learning_rate": 2.0731778592496148e-07,
      "loss": 2.0157,
      "step": 1260
    },
    {
      "epoch": 1.3825136612021858,
      "grad_norm": 1.8546271061398376,
      "learning_rate": 2.03758712279536e-07,
      "loss": 2.0558,
      "step": 1265
    },
    {
      "epoch": 1.3879781420765027,
      "grad_norm": 1.823598167691669,
      "learning_rate": 2.0027298851401635e-07,
      "loss": 2.0707,
      "step": 1270
    },
    {
      "epoch": 1.3934426229508197,
      "grad_norm": 1.8364088203878515,
      "learning_rate": 1.968592512946914e-07,
      "loss": 2.0616,
      "step": 1275
    },
    {
      "epoch": 1.3989071038251366,
      "grad_norm": 1.8504039969740431,
      "learning_rate": 1.935161598589178e-07,
      "loss": 2.0442,
      "step": 1280
    },
    {
      "epoch": 1.4043715846994536,
      "grad_norm": 1.8647380065818375,
      "learning_rate": 1.902423956874689e-07,
      "loss": 2.0309,
      "step": 1285
    },
    {
      "epoch": 1.4098360655737705,
      "grad_norm": 1.8378312471521248,
      "learning_rate": 1.870366621809691e-07,
      "loss": 2.0322,
      "step": 1290
    },
    {
      "epoch": 1.4153005464480874,
      "grad_norm": 1.925113709625938,
      "learning_rate": 1.8389768434037062e-07,
      "loss": 2.0688,
      "step": 1295
    },
    {
      "epoch": 1.4207650273224044,
      "grad_norm": 1.860586095258991,
      "learning_rate": 1.8082420845143144e-07,
      "loss": 2.0745,
      "step": 1300
    },
    {
      "epoch": 1.4262295081967213,
      "grad_norm": 1.8852545058774595,
      "learning_rate": 1.778150017731515e-07,
      "loss": 2.076,
      "step": 1305
    },
    {
      "epoch": 1.4316939890710383,
      "grad_norm": 1.941199221075769,
      "learning_rate": 1.7486885223012617e-07,
      "loss": 2.0019,
      "step": 1310
    },
    {
      "epoch": 1.4371584699453552,
      "grad_norm": 1.8446186191327532,
      "learning_rate": 1.719845681087774e-07,
      "loss": 2.0626,
      "step": 1315
    },
    {
      "epoch": 1.4426229508196722,
      "grad_norm": 1.9134786622014528,
      "learning_rate": 1.6916097775741735e-07,
      "loss": 2.0477,
      "step": 1320
    },
    {
      "epoch": 1.4480874316939891,
      "grad_norm": 1.8176316380129849,
      "learning_rate": 1.6639692929010962e-07,
      "loss": 2.0296,
      "step": 1325
    },
    {
      "epoch": 1.453551912568306,
      "grad_norm": 1.8469951284525707,
      "learning_rate": 1.636912902942842e-07,
      "loss": 2.0342,
      "step": 1330
    },
    {
      "epoch": 1.459016393442623,
      "grad_norm": 1.8740314655221872,
      "learning_rate": 1.6104294754206772e-07,
      "loss": 2.0445,
      "step": 1335
    },
    {
      "epoch": 1.46448087431694,
      "grad_norm": 2.003913447054603,
      "learning_rate": 1.5845080670528932e-07,
      "loss": 2.0545,
      "step": 1340
    },
    {
      "epoch": 1.469945355191257,
      "grad_norm": 1.856769949790638,
      "learning_rate": 1.559137920741231e-07,
      "loss": 2.0106,
      "step": 1345
    },
    {
      "epoch": 1.4754098360655736,
      "grad_norm": 1.9009712565408305,
      "learning_rate": 1.534308462793285e-07,
      "loss": 2.0312,
      "step": 1350
    },
    {
      "epoch": 1.4808743169398908,
      "grad_norm": 1.8649550487045021,
      "learning_rate": 1.5100093001805e-07,
      "loss": 2.058,
      "step": 1355
    },
    {
      "epoch": 1.4863387978142075,
      "grad_norm": 1.8282766283581593,
      "learning_rate": 1.486230217831383e-07,
      "loss": 2.0109,
      "step": 1360
    },
    {
      "epoch": 1.4918032786885247,
      "grad_norm": 1.8341029485175546,
      "learning_rate": 1.462961175959548e-07,
      "loss": 2.0767,
      "step": 1365
    },
    {
      "epoch": 1.4972677595628414,
      "grad_norm": 1.9503794173682378,
      "learning_rate": 1.4401923074262253e-07,
      "loss": 2.0394,
      "step": 1370
    },
    {
      "epoch": 1.5027322404371586,
      "grad_norm": 1.8750212125931591,
      "learning_rate": 1.417913915136858e-07,
      "loss": 2.061,
      "step": 1375
    },
    {
      "epoch": 1.5081967213114753,
      "grad_norm": 1.850380238557527,
      "learning_rate": 1.3961164694714208e-07,
      "loss": 2.1208,
      "step": 1380
    },
    {
      "epoch": 1.5136612021857925,
      "grad_norm": 1.883450204664466,
      "learning_rate": 1.3747906057481e-07,
      "loss": 2.041,
      "step": 1385
    },
    {
      "epoch": 1.5191256830601092,
      "grad_norm": 2.0647139754404673,
      "learning_rate": 1.3539271217199617e-07,
      "loss": 2.0448,
      "step": 1390
    },
    {
      "epoch": 1.5245901639344264,
      "grad_norm": 1.8198932393101204,
      "learning_rate": 1.3335169751042653e-07,
      "loss": 2.0706,
      "step": 1395
    },
    {
      "epoch": 1.530054644808743,
      "grad_norm": 1.8262850198089926,
      "learning_rate": 1.3135512811440523e-07,
      "loss": 2.0539,
      "step": 1400
    },
    {
      "epoch": 1.530054644808743,
      "eval_loss": 2.274564743041992,
      "eval_runtime": 75.0617,
      "eval_samples_per_second": 86.689,
      "eval_steps_per_second": 0.679,
      "step": 1400
    },
    {
      "epoch": 1.5355191256830603,
      "grad_norm": 2.1787152604764377,
      "learning_rate": 1.294021310201668e-07,
      "loss": 2.0272,
      "step": 1405
    },
    {
      "epoch": 1.540983606557377,
      "grad_norm": 1.895178288065996,
      "learning_rate": 1.2749184853838634e-07,
      "loss": 2.0395,
      "step": 1410
    },
    {
      "epoch": 1.5464480874316942,
      "grad_norm": 1.8243874586884308,
      "learning_rate": 1.2562343801981296e-07,
      "loss": 2.0385,
      "step": 1415
    },
    {
      "epoch": 1.5519125683060109,
      "grad_norm": 1.8215546298276755,
      "learning_rate": 1.237960716239925e-07,
      "loss": 2.0299,
      "step": 1420
    },
    {
      "epoch": 1.5573770491803278,
      "grad_norm": 1.9144206068231184,
      "learning_rate": 1.2200893609104527e-07,
      "loss": 2.0693,
      "step": 1425
    },
    {
      "epoch": 1.5628415300546448,
      "grad_norm": 1.832800068410983,
      "learning_rate": 1.2026123251646523e-07,
      "loss": 2.0911,
      "step": 1430
    },
    {
      "epoch": 1.5683060109289617,
      "grad_norm": 1.862861787979993,
      "learning_rate": 1.1855217612890718e-07,
      "loss": 2.0475,
      "step": 1435
    },
    {
      "epoch": 1.5737704918032787,
      "grad_norm": 2.0333731738009293,
      "learning_rate": 1.1688099607092871e-07,
      "loss": 2.0482,
      "step": 1440
    },
    {
      "epoch": 1.5792349726775956,
      "grad_norm": 1.8091303840445014,
      "learning_rate": 1.1524693518265448e-07,
      "loss": 2.0482,
      "step": 1445
    },
    {
      "epoch": 1.5846994535519126,
      "grad_norm": 1.864510400120361,
      "learning_rate": 1.136492497883297e-07,
      "loss": 2.0948,
      "step": 1450
    },
    {
      "epoch": 1.5901639344262295,
      "grad_norm": 1.9652692377864456,
      "learning_rate": 1.1208720948573126e-07,
      "loss": 2.0189,
      "step": 1455
    },
    {
      "epoch": 1.5956284153005464,
      "grad_norm": 1.9202417329675314,
      "learning_rate": 1.1056009693840394e-07,
      "loss": 2.078,
      "step": 1460
    },
    {
      "epoch": 1.6010928961748634,
      "grad_norm": 1.8209643705209526,
      "learning_rate": 1.0906720767069055e-07,
      "loss": 2.0417,
      "step": 1465
    },
    {
      "epoch": 1.6065573770491803,
      "grad_norm": 1.8079220297452976,
      "learning_rate": 1.0760784986552422e-07,
      "loss": 2.041,
      "step": 1470
    },
    {
      "epoch": 1.6120218579234973,
      "grad_norm": 1.9197478181290593,
      "learning_rate": 1.0618134416495201e-07,
      "loss": 2.0091,
      "step": 1475
    },
    {
      "epoch": 1.6174863387978142,
      "grad_norm": 1.8520224557231018,
      "learning_rate": 1.0478702347335883e-07,
      "loss": 2.0082,
      "step": 1480
    },
    {
      "epoch": 1.6229508196721312,
      "grad_norm": 1.8273112792953872,
      "learning_rate": 1.0342423276336188e-07,
      "loss": 2.0446,
      "step": 1485
    },
    {
      "epoch": 1.6284153005464481,
      "grad_norm": 1.8630686076964935,
      "learning_rate": 1.0209232888434338e-07,
      "loss": 2.0629,
      "step": 1490
    },
    {
      "epoch": 1.633879781420765,
      "grad_norm": 1.8271338340219678,
      "learning_rate": 1.0079068037359431e-07,
      "loss": 2.0609,
      "step": 1495
    },
    {
      "epoch": 1.639344262295082,
      "grad_norm": 1.8144459145882181,
      "learning_rate": 9.951866727003745e-08,
      "loss": 2.0364,
      "step": 1500
    },
    {
      "epoch": 1.644808743169399,
      "grad_norm": 1.8507906861527859,
      "learning_rate": 9.827568093050098e-08,
      "loss": 2.0506,
      "step": 1505
    },
    {
      "epoch": 1.650273224043716,
      "grad_norm": 1.8319335425047658,
      "learning_rate": 9.706112384851353e-08,
      "loss": 2.0253,
      "step": 1510
    },
    {
      "epoch": 1.6557377049180326,
      "grad_norm": 1.8984240206563825,
      "learning_rate": 9.587440947559151e-08,
      "loss": 2.0648,
      "step": 1515
    },
    {
      "epoch": 1.6612021857923498,
      "grad_norm": 1.8507118687181,
      "learning_rate": 9.471496204499047e-08,
      "loss": 2.0231,
      "step": 1520
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 1.9702444306141391,
      "learning_rate": 9.358221639789162e-08,
      "loss": 2.0409,
      "step": 1525
    },
    {
      "epoch": 1.6721311475409837,
      "grad_norm": 1.8247902367319633,
      "learning_rate": 9.247561781199593e-08,
      "loss": 2.0205,
      "step": 1530
    },
    {
      "epoch": 1.6775956284153004,
      "grad_norm": 1.8563007653589343,
      "learning_rate": 9.139462183249743e-08,
      "loss": 2.0488,
      "step": 1535
    },
    {
      "epoch": 1.6830601092896176,
      "grad_norm": 1.8206552163382879,
      "learning_rate": 9.033869410540892e-08,
      "loss": 2.0166,
      "step": 1540
    },
    {
      "epoch": 1.6885245901639343,
      "grad_norm": 1.9126349973731116,
      "learning_rate": 8.930731021321133e-08,
      "loss": 2.0486,
      "step": 1545
    },
    {
      "epoch": 1.6939890710382515,
      "grad_norm": 1.8565348783702142,
      "learning_rate": 8.829995551280143e-08,
      "loss": 2.0342,
      "step": 1550
    },
    {
      "epoch": 1.6994535519125682,
      "grad_norm": 1.909638179979103,
      "learning_rate": 8.731612497570976e-08,
      "loss": 2.073,
      "step": 1555
    },
    {
      "epoch": 1.7049180327868854,
      "grad_norm": 1.8690803406902856,
      "learning_rate": 8.635532303056259e-08,
      "loss": 2.0231,
      "step": 1560
    },
    {
      "epoch": 1.710382513661202,
      "grad_norm": 1.8909253306804354,
      "learning_rate": 8.541706340776192e-08,
      "loss": 2.0341,
      "step": 1565
    },
    {
      "epoch": 1.7158469945355193,
      "grad_norm": 1.8844764835255978,
      "learning_rate": 8.450086898635676e-08,
      "loss": 2.0347,
      "step": 1570
    },
    {
      "epoch": 1.721311475409836,
      "grad_norm": 1.75571408467022,
      "learning_rate": 8.360627164308056e-08,
      "loss": 2.0801,
      "step": 1575
    },
    {
      "epoch": 1.7267759562841531,
      "grad_norm": 1.8436023942890172,
      "learning_rate": 8.273281210352872e-08,
      "loss": 2.0365,
      "step": 1580
    },
    {
      "epoch": 1.7322404371584699,
      "grad_norm": 1.9085196731178369,
      "learning_rate": 8.188003979545094e-08,
      "loss": 2.0531,
      "step": 1585
    },
    {
      "epoch": 1.737704918032787,
      "grad_norm": 1.8822253588875573,
      "learning_rate": 8.104751270413362e-08,
      "loss": 2.0784,
      "step": 1590
    },
    {
      "epoch": 1.7431693989071038,
      "grad_norm": 1.788484127481047,
      "learning_rate": 8.02347972298469e-08,
      "loss": 2.0478,
      "step": 1595
    },
    {
      "epoch": 1.748633879781421,
      "grad_norm": 1.8239121636996685,
      "learning_rate": 7.944146804733213e-08,
      "loss": 2.0338,
      "step": 1600
    },
    {
      "epoch": 1.748633879781421,
      "eval_loss": 2.2742836475372314,
      "eval_runtime": 75.0576,
      "eval_samples_per_second": 86.693,
      "eval_steps_per_second": 0.679,
      "step": 1600
    },
    {
      "epoch": 1.7540983606557377,
      "grad_norm": 1.9239534582352587,
      "learning_rate": 7.866710796730526e-08,
      "loss": 2.0631,
      "step": 1605
    },
    {
      "epoch": 1.7595628415300546,
      "grad_norm": 1.8903502091457296,
      "learning_rate": 7.791130779995196e-08,
      "loss": 2.0572,
      "step": 1610
    },
    {
      "epoch": 1.7650273224043715,
      "grad_norm": 1.8293603401943201,
      "learning_rate": 7.717366622039046e-08,
      "loss": 2.0668,
      "step": 1615
    },
    {
      "epoch": 1.7704918032786885,
      "grad_norm": 1.9173015833072757,
      "learning_rate": 7.64537896360787e-08,
      "loss": 2.0435,
      "step": 1620
    },
    {
      "epoch": 1.7759562841530054,
      "grad_norm": 1.8793531033612623,
      "learning_rate": 7.575129205614193e-08,
      "loss": 2.0722,
      "step": 1625
    },
    {
      "epoch": 1.7814207650273224,
      "grad_norm": 2.0902523194542084,
      "learning_rate": 7.50657949625979e-08,
      "loss": 2.0433,
      "step": 1630
    },
    {
      "epoch": 1.7868852459016393,
      "grad_norm": 1.9107654817346211,
      "learning_rate": 7.439692718345629e-08,
      "loss": 2.0456,
      "step": 1635
    },
    {
      "epoch": 1.7923497267759563,
      "grad_norm": 1.9360239043323952,
      "learning_rate": 7.374432476766986e-08,
      "loss": 2.006,
      "step": 1640
    },
    {
      "epoch": 1.7978142076502732,
      "grad_norm": 1.9192977806152298,
      "learning_rate": 7.310763086191462e-08,
      "loss": 2.0468,
      "step": 1645
    },
    {
      "epoch": 1.8032786885245902,
      "grad_norm": 1.8243879474864746,
      "learning_rate": 7.248649558917661e-08,
      "loss": 2.0798,
      "step": 1650
    },
    {
      "epoch": 1.8087431693989071,
      "grad_norm": 1.8320967907842092,
      "learning_rate": 7.18805759291233e-08,
      "loss": 2.0515,
      "step": 1655
    },
    {
      "epoch": 1.814207650273224,
      "grad_norm": 1.8532616512840305,
      "learning_rate": 7.128953560023773e-08,
      "loss": 2.0775,
      "step": 1660
    },
    {
      "epoch": 1.819672131147541,
      "grad_norm": 1.838552382273461,
      "learning_rate": 7.071304494369334e-08,
      "loss": 2.0479,
      "step": 1665
    },
    {
      "epoch": 1.825136612021858,
      "grad_norm": 1.924941490211915,
      "learning_rate": 7.015078080894855e-08,
      "loss": 2.0786,
      "step": 1670
    },
    {
      "epoch": 1.830601092896175,
      "grad_norm": 2.143894042689188,
      "learning_rate": 6.960242644103938e-08,
      "loss": 2.0834,
      "step": 1675
    },
    {
      "epoch": 1.8360655737704918,
      "grad_norm": 1.8651804657911415,
      "learning_rate": 6.906767136954927e-08,
      "loss": 2.0642,
      "step": 1680
    },
    {
      "epoch": 1.8415300546448088,
      "grad_norm": 1.9275400611989582,
      "learning_rate": 6.854621129923514e-08,
      "loss": 2.0485,
      "step": 1685
    },
    {
      "epoch": 1.8469945355191257,
      "grad_norm": 1.861313763790637,
      "learning_rate": 6.803774800228914e-08,
      "loss": 2.0999,
      "step": 1690
    },
    {
      "epoch": 1.8524590163934427,
      "grad_norm": 1.8930724854627998,
      "learning_rate": 6.754198921221566e-08,
      "loss": 2.0448,
      "step": 1695
    },
    {
      "epoch": 1.8579234972677594,
      "grad_norm": 1.8993885693049763,
      "learning_rate": 6.705864851930317e-08,
      "loss": 2.0511,
      "step": 1700
    },
    {
      "epoch": 1.8633879781420766,
      "grad_norm": 1.883117813333527,
      "learning_rate": 6.658744526767117e-08,
      "loss": 2.0503,
      "step": 1705
    },
    {
      "epoch": 1.8688524590163933,
      "grad_norm": 1.848538549934253,
      "learning_rate": 6.612810445387236e-08,
      "loss": 2.0636,
      "step": 1710
    },
    {
      "epoch": 1.8743169398907105,
      "grad_norm": 1.8938252963914626,
      "learning_rate": 6.568035662702993e-08,
      "loss": 2.0718,
      "step": 1715
    },
    {
      "epoch": 1.8797814207650272,
      "grad_norm": 1.941319110309079,
      "learning_rate": 6.524393779049134e-08,
      "loss": 2.0647,
      "step": 1720
    },
    {
      "epoch": 1.8852459016393444,
      "grad_norm": 2.0070472308658207,
      "learning_rate": 6.481858930497878e-08,
      "loss": 2.0546,
      "step": 1725
    },
    {
      "epoch": 1.890710382513661,
      "grad_norm": 2.054630166123197,
      "learning_rate": 6.440405779321743e-08,
      "loss": 2.0349,
      "step": 1730
    },
    {
      "epoch": 1.8961748633879782,
      "grad_norm": 1.8560973783317283,
      "learning_rate": 6.40000950460228e-08,
      "loss": 2.053,
      "step": 1735
    },
    {
      "epoch": 1.901639344262295,
      "grad_norm": 1.8560379830723175,
      "learning_rate": 6.360645792982822e-08,
      "loss": 2.0397,
      "step": 1740
    },
    {
      "epoch": 1.9071038251366121,
      "grad_norm": 1.8759906071094705,
      "learning_rate": 6.322290829563445e-08,
      "loss": 2.0582,
      "step": 1745
    },
    {
      "epoch": 1.9125683060109289,
      "grad_norm": 1.8523523069150685,
      "learning_rate": 6.284921288936269e-08,
      "loss": 2.0589,
      "step": 1750
    },
    {
      "epoch": 1.918032786885246,
      "grad_norm": 1.7917256365306369,
      "learning_rate": 6.248514326359321e-08,
      "loss": 2.0742,
      "step": 1755
    },
    {
      "epoch": 1.9234972677595628,
      "grad_norm": 1.841924086545583,
      "learning_rate": 6.213047569067165e-08,
      "loss": 2.0714,
      "step": 1760
    },
    {
      "epoch": 1.92896174863388,
      "grad_norm": 1.8696658012304237,
      "learning_rate": 6.178499107716513e-08,
      "loss": 2.0,
      "step": 1765
    },
    {
      "epoch": 1.9344262295081966,
      "grad_norm": 1.8879810882710348,
      "learning_rate": 6.144847487965106e-08,
      "loss": 2.0584,
      "step": 1770
    },
    {
      "epoch": 1.9398907103825138,
      "grad_norm": 1.819319260545883,
      "learning_rate": 6.112071702182056e-08,
      "loss": 2.0353,
      "step": 1775
    },
    {
      "epoch": 1.9453551912568305,
      "grad_norm": 1.8742671379299753,
      "learning_rate": 6.080151181288026e-08,
      "loss": 2.0478,
      "step": 1780
    },
    {
      "epoch": 1.9508196721311475,
      "grad_norm": 1.8684517998018801,
      "learning_rate": 6.049065786723472e-08,
      "loss": 2.0565,
      "step": 1785
    },
    {
      "epoch": 1.9562841530054644,
      "grad_norm": 1.8109987887119923,
      "learning_rate": 6.018795802543315e-08,
      "loss": 2.0587,
      "step": 1790
    },
    {
      "epoch": 1.9617486338797814,
      "grad_norm": 1.9407341077135385,
      "learning_rate": 5.98932192763636e-08,
      "loss": 2.048,
      "step": 1795
    },
    {
      "epoch": 1.9672131147540983,
      "grad_norm": 1.8354866267003231,
      "learning_rate": 5.960625268067816e-08,
      "loss": 2.0648,
      "step": 1800
    },
    {
      "epoch": 1.9672131147540983,
      "eval_loss": 2.2736637592315674,
      "eval_runtime": 75.0951,
      "eval_samples_per_second": 86.65,
      "eval_steps_per_second": 0.679,
      "step": 1800
    },
    {
      "epoch": 1.9726775956284153,
      "grad_norm": 1.7987669216918003,
      "learning_rate": 5.9326873295433023e-08,
      "loss": 2.0055,
      "step": 1805
    },
    {
      "epoch": 1.9781420765027322,
      "grad_norm": 1.8771206541798455,
      "learning_rate": 5.905490009992716e-08,
      "loss": 2.0875,
      "step": 1810
    },
    {
      "epoch": 1.9836065573770492,
      "grad_norm": 1.798209591995569,
      "learning_rate": 5.8790155922723804e-08,
      "loss": 2.0414,
      "step": 1815
    },
    {
      "epoch": 1.989071038251366,
      "grad_norm": 1.8140574162134413,
      "learning_rate": 5.8532467369838935e-08,
      "loss": 2.0476,
      "step": 1820
    },
    {
      "epoch": 1.994535519125683,
      "grad_norm": 1.9205008465204905,
      "learning_rate": 5.82816647540811e-08,
      "loss": 2.0414,
      "step": 1825
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.900514133765418,
      "learning_rate": 5.803758202552724e-08,
      "loss": 2.0637,
      "step": 1830
    },
    {
      "epoch": 2.0054644808743167,
      "grad_norm": 1.812710905593721,
      "learning_rate": 5.780005670311929e-08,
      "loss": 2.0017,
      "step": 1835
    },
    {
      "epoch": 2.010928961748634,
      "grad_norm": 1.8787871615638423,
      "learning_rate": 5.756892980736625e-08,
      "loss": 1.9808,
      "step": 1840
    },
    {
      "epoch": 2.0163934426229506,
      "grad_norm": 1.9008500311802838,
      "learning_rate": 5.7344045794137134e-08,
      "loss": 2.0183,
      "step": 1845
    },
    {
      "epoch": 2.021857923497268,
      "grad_norm": 1.8439766004122011,
      "learning_rate": 5.7125252489529687e-08,
      "loss": 2.0492,
      "step": 1850
    },
    {
      "epoch": 2.0273224043715845,
      "grad_norm": 1.8093023853453647,
      "learning_rate": 5.6912401025800444e-08,
      "loss": 2.0498,
      "step": 1855
    },
    {
      "epoch": 2.0327868852459017,
      "grad_norm": 1.8621731843549314,
      "learning_rate": 5.670534577834171e-08,
      "loss": 2.0566,
      "step": 1860
    },
    {
      "epoch": 2.0382513661202184,
      "grad_norm": 1.7945188171488486,
      "learning_rate": 5.6503944303690994e-08,
      "loss": 2.0399,
      "step": 1865
    },
    {
      "epoch": 2.0437158469945356,
      "grad_norm": 1.8231871269338034,
      "learning_rate": 5.630805727855896e-08,
      "loss": 2.0348,
      "step": 1870
    },
    {
      "epoch": 2.0491803278688523,
      "grad_norm": 1.9219456613473263,
      "learning_rate": 5.611754843986178e-08,
      "loss": 2.0056,
      "step": 1875
    },
    {
      "epoch": 2.0546448087431695,
      "grad_norm": 1.7850350529775676,
      "learning_rate": 5.5932284525744105e-08,
      "loss": 2.0062,
      "step": 1880
    },
    {
      "epoch": 2.060109289617486,
      "grad_norm": 1.9708916029467265,
      "learning_rate": 5.5752135217578976e-08,
      "loss": 2.0024,
      "step": 1885
    },
    {
      "epoch": 2.0655737704918034,
      "grad_norm": 1.913183828308229,
      "learning_rate": 5.55769730829312e-08,
      "loss": 2.0277,
      "step": 1890
    },
    {
      "epoch": 2.07103825136612,
      "grad_norm": 1.8542316127529779,
      "learning_rate": 5.5406673519470675e-08,
      "loss": 2.0015,
      "step": 1895
    },
    {
      "epoch": 2.0765027322404372,
      "grad_norm": 1.87389845276975,
      "learning_rate": 5.5241114699822666e-08,
      "loss": 2.0709,
      "step": 1900
    },
    {
      "epoch": 2.081967213114754,
      "grad_norm": 1.980231294589721,
      "learning_rate": 5.508017751734168e-08,
      "loss": 2.008,
      "step": 1905
    },
    {
      "epoch": 2.087431693989071,
      "grad_norm": 1.8517464515604878,
      "learning_rate": 5.492374553279633e-08,
      "loss": 2.0203,
      "step": 1910
    },
    {
      "epoch": 2.092896174863388,
      "grad_norm": 1.84630325467075,
      "learning_rate": 5.477170492195204e-08,
      "loss": 2.0385,
      "step": 1915
    },
    {
      "epoch": 2.098360655737705,
      "grad_norm": 1.8768394234332548,
      "learning_rate": 5.46239444240393e-08,
      "loss": 2.0187,
      "step": 1920
    },
    {
      "epoch": 2.1038251366120218,
      "grad_norm": 1.8943060640364853,
      "learning_rate": 5.4480355291094704e-08,
      "loss": 2.0574,
      "step": 1925
    },
    {
      "epoch": 2.109289617486339,
      "grad_norm": 1.8863483174705893,
      "learning_rate": 5.4340831238162615e-08,
      "loss": 2.0217,
      "step": 1930
    },
    {
      "epoch": 2.1147540983606556,
      "grad_norm": 1.8885742771135787,
      "learning_rate": 5.420526839434506e-08,
      "loss": 2.0538,
      "step": 1935
    },
    {
      "epoch": 2.120218579234973,
      "grad_norm": 1.8210903752712588,
      "learning_rate": 5.4073565254687946e-08,
      "loss": 2.0324,
      "step": 1940
    },
    {
      "epoch": 2.1256830601092895,
      "grad_norm": 1.8278501741427702,
      "learning_rate": 5.3945622632891495e-08,
      "loss": 2.0376,
      "step": 1945
    },
    {
      "epoch": 2.1311475409836067,
      "grad_norm": 1.8851985007280183,
      "learning_rate": 5.382134361483329e-08,
      "loss": 2.0602,
      "step": 1950
    },
    {
      "epoch": 2.1366120218579234,
      "grad_norm": 1.8672742611841686,
      "learning_rate": 5.370063351289204e-08,
      "loss": 2.0443,
      "step": 1955
    },
    {
      "epoch": 2.1420765027322406,
      "grad_norm": 1.9023532236989618,
      "learning_rate": 5.358339982106074e-08,
      "loss": 2.0178,
      "step": 1960
    },
    {
      "epoch": 2.1475409836065573,
      "grad_norm": 1.8533754595108112,
      "learning_rate": 5.346955217083767e-08,
      "loss": 2.0289,
      "step": 1965
    },
    {
      "epoch": 2.1530054644808745,
      "grad_norm": 1.8751406718039245,
      "learning_rate": 5.335900228788407e-08,
      "loss": 2.0258,
      "step": 1970
    },
    {
      "epoch": 2.158469945355191,
      "grad_norm": 1.911401329876507,
      "learning_rate": 5.3251663949437266e-08,
      "loss": 2.0621,
      "step": 1975
    },
    {
      "epoch": 2.1639344262295084,
      "grad_norm": 1.8780553903992336,
      "learning_rate": 5.3147452942468386e-08,
      "loss": 1.9947,
      "step": 1980
    },
    {
      "epoch": 2.169398907103825,
      "grad_norm": 1.9417700354104075,
      "learning_rate": 5.3046287022573567e-08,
      "loss": 2.0627,
      "step": 1985
    },
    {
      "epoch": 2.1748633879781423,
      "grad_norm": 1.9335794456687536,
      "learning_rate": 5.2948085873588114e-08,
      "loss": 2.0621,
      "step": 1990
    },
    {
      "epoch": 2.180327868852459,
      "grad_norm": 1.8441134776475825,
      "learning_rate": 5.2852771067912865e-08,
      "loss": 2.0741,
      "step": 1995
    },
    {
      "epoch": 2.185792349726776,
      "grad_norm": 1.93007244053263,
      "learning_rate": 5.276026602754233e-08,
      "loss": 2.0297,
      "step": 2000
    },
    {
      "epoch": 2.185792349726776,
      "eval_loss": 2.2766480445861816,
      "eval_runtime": 75.0721,
      "eval_samples_per_second": 86.677,
      "eval_steps_per_second": 0.679,
      "step": 2000
    },
    {
      "epoch": 2.191256830601093,
      "grad_norm": 1.8271236407081135,
      "learning_rate": 5.267049598578416e-08,
      "loss": 1.998,
      "step": 2005
    },
    {
      "epoch": 2.19672131147541,
      "grad_norm": 1.9080141032090714,
      "learning_rate": 5.258338794965976e-08,
      "loss": 2.0317,
      "step": 2010
    },
    {
      "epoch": 2.202185792349727,
      "grad_norm": 1.9296381326844356,
      "learning_rate": 5.2498870662975855e-08,
      "loss": 2.0527,
      "step": 2015
    },
    {
      "epoch": 2.2076502732240435,
      "grad_norm": 1.8649383667959,
      "learning_rate": 5.241687457005712e-08,
      "loss": 2.0167,
      "step": 2020
    },
    {
      "epoch": 2.2131147540983607,
      "grad_norm": 1.8733130363096773,
      "learning_rate": 5.233733178012981e-08,
      "loss": 2.0553,
      "step": 2025
    },
    {
      "epoch": 2.2185792349726774,
      "grad_norm": 1.8744906953041462,
      "learning_rate": 5.226017603234672e-08,
      "loss": 2.0345,
      "step": 2030
    },
    {
      "epoch": 2.2240437158469946,
      "grad_norm": 1.853006039099042,
      "learning_rate": 5.2185342661443896e-08,
      "loss": 1.9966,
      "step": 2035
    },
    {
      "epoch": 2.2295081967213113,
      "grad_norm": 1.8910360796325498,
      "learning_rate": 5.211276856401939e-08,
      "loss": 2.0135,
      "step": 2040
    },
    {
      "epoch": 2.2349726775956285,
      "grad_norm": 1.8514291560164504,
      "learning_rate": 5.2042392165424757e-08,
      "loss": 2.0205,
      "step": 2045
    },
    {
      "epoch": 2.240437158469945,
      "grad_norm": 1.8446701052221985,
      "learning_rate": 5.197415338725999e-08,
      "loss": 2.0301,
      "step": 2050
    },
    {
      "epoch": 2.2459016393442623,
      "grad_norm": 1.8588932533873443,
      "learning_rate": 5.1907993615462615e-08,
      "loss": 2.0287,
      "step": 2055
    },
    {
      "epoch": 2.251366120218579,
      "grad_norm": 1.8963789966982134,
      "learning_rate": 5.1843855668982e-08,
      "loss": 2.0719,
      "step": 2060
    },
    {
      "epoch": 2.2568306010928962,
      "grad_norm": 1.9044908060597479,
      "learning_rate": 5.17816837690297e-08,
      "loss": 1.9721,
      "step": 2065
    },
    {
      "epoch": 2.262295081967213,
      "grad_norm": 1.9295350690511475,
      "learning_rate": 5.172142350889727e-08,
      "loss": 2.0225,
      "step": 2070
    },
    {
      "epoch": 2.26775956284153,
      "grad_norm": 1.9304743860423463,
      "learning_rate": 5.166302182433254e-08,
      "loss": 2.0263,
      "step": 2075
    },
    {
      "epoch": 2.273224043715847,
      "grad_norm": 1.8671651062857888,
      "learning_rate": 5.160642696446577e-08,
      "loss": 2.0241,
      "step": 2080
    },
    {
      "epoch": 2.278688524590164,
      "grad_norm": 1.8420650638603713,
      "learning_rate": 5.155158846327734e-08,
      "loss": 2.0206,
      "step": 2085
    },
    {
      "epoch": 2.2841530054644807,
      "grad_norm": 1.8005272409919932,
      "learning_rate": 5.149845711159822e-08,
      "loss": 2.0365,
      "step": 2090
    },
    {
      "epoch": 2.289617486338798,
      "grad_norm": 1.857808778071221,
      "learning_rate": 5.144698492963522e-08,
      "loss": 2.0911,
      "step": 2095
    },
    {
      "epoch": 2.2950819672131146,
      "grad_norm": 1.9093915008013214,
      "learning_rate": 5.139712514001258e-08,
      "loss": 2.0428,
      "step": 2100
    },
    {
      "epoch": 2.300546448087432,
      "grad_norm": 1.8578270044645933,
      "learning_rate": 5.134883214132186e-08,
      "loss": 2.0124,
      "step": 2105
    },
    {
      "epoch": 2.3060109289617485,
      "grad_norm": 1.822793058548045,
      "learning_rate": 5.130206148217218e-08,
      "loss": 2.0746,
      "step": 2110
    },
    {
      "epoch": 2.3114754098360657,
      "grad_norm": 1.8442935114306909,
      "learning_rate": 5.12567698357328e-08,
      "loss": 2.0444,
      "step": 2115
    },
    {
      "epoch": 2.3169398907103824,
      "grad_norm": 1.9739163571989773,
      "learning_rate": 5.1212914974760244e-08,
      "loss": 2.0435,
      "step": 2120
    },
    {
      "epoch": 2.3224043715846996,
      "grad_norm": 1.8469690810911081,
      "learning_rate": 5.117045574710235e-08,
      "loss": 2.0545,
      "step": 2125
    },
    {
      "epoch": 2.3278688524590163,
      "grad_norm": 1.8661244475654946,
      "learning_rate": 5.112935205167153e-08,
      "loss": 2.0058,
      "step": 2130
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 1.8937750326566802,
      "learning_rate": 5.108956481487976e-08,
      "loss": 2.0293,
      "step": 2135
    },
    {
      "epoch": 2.33879781420765,
      "grad_norm": 1.9208419450347225,
      "learning_rate": 5.105105596752788e-08,
      "loss": 2.0414,
      "step": 2140
    },
    {
      "epoch": 2.3442622950819674,
      "grad_norm": 2.1121282228006555,
      "learning_rate": 5.101378842214193e-08,
      "loss": 2.0869,
      "step": 2145
    },
    {
      "epoch": 2.349726775956284,
      "grad_norm": 1.8848256373264323,
      "learning_rate": 5.0977726050749185e-08,
      "loss": 2.0614,
      "step": 2150
    },
    {
      "epoch": 2.3551912568306013,
      "grad_norm": 1.8507097430278243,
      "learning_rate": 5.094283366308685e-08,
      "loss": 2.0249,
      "step": 2155
    },
    {
      "epoch": 2.360655737704918,
      "grad_norm": 1.8890593768953334,
      "learning_rate": 5.0909076985236385e-08,
      "loss": 2.0068,
      "step": 2160
    },
    {
      "epoch": 2.366120218579235,
      "grad_norm": 1.8651383954059584,
      "learning_rate": 5.0876422638676395e-08,
      "loss": 2.0044,
      "step": 2165
    },
    {
      "epoch": 2.371584699453552,
      "grad_norm": 1.860146100854827,
      "learning_rate": 5.084483811974733e-08,
      "loss": 2.054,
      "step": 2170
    },
    {
      "epoch": 2.3770491803278686,
      "grad_norm": 1.7761767522433785,
      "learning_rate": 5.0814291779521236e-08,
      "loss": 2.0229,
      "step": 2175
    },
    {
      "epoch": 2.3825136612021858,
      "grad_norm": 1.8386788502881166,
      "learning_rate": 5.078475280406979e-08,
      "loss": 2.0662,
      "step": 2180
    },
    {
      "epoch": 2.387978142076503,
      "grad_norm": 1.990375014859749,
      "learning_rate": 5.075619119512409e-08,
      "loss": 2.0393,
      "step": 2185
    },
    {
      "epoch": 2.3934426229508197,
      "grad_norm": 2.2419457883038314,
      "learning_rate": 5.0728577751119725e-08,
      "loss": 2.0523,
      "step": 2190
    },
    {
      "epoch": 2.3989071038251364,
      "grad_norm": 1.9472851198204904,
      "learning_rate": 5.0701884048620594e-08,
      "loss": 2.0433,
      "step": 2195
    },
    {
      "epoch": 2.4043715846994536,
      "grad_norm": 1.8641814407570831,
      "learning_rate": 5.067608242411532e-08,
      "loss": 2.0487,
      "step": 2200
    },
    {
      "epoch": 2.4043715846994536,
      "eval_loss": 2.276731014251709,
      "eval_runtime": 75.0853,
      "eval_samples_per_second": 86.661,
      "eval_steps_per_second": 0.679,
      "step": 2200
    },
    {
      "epoch": 2.4098360655737707,
      "grad_norm": 1.8849638877894628,
      "learning_rate": 5.065114595617981e-08,
      "loss": 2.0449,
      "step": 2205
    },
    {
      "epoch": 2.4153005464480874,
      "grad_norm": 1.897559223397183,
      "learning_rate": 5.0627048448e-08,
      "loss": 2.0172,
      "step": 2210
    },
    {
      "epoch": 2.420765027322404,
      "grad_norm": 1.8881686050860271,
      "learning_rate": 5.060376441024851e-08,
      "loss": 2.0104,
      "step": 2215
    },
    {
      "epoch": 2.4262295081967213,
      "grad_norm": 1.8760582543927924,
      "learning_rate": 5.0581269044309416e-08,
      "loss": 2.0514,
      "step": 2220
    },
    {
      "epoch": 2.431693989071038,
      "grad_norm": 1.8590736579277904,
      "learning_rate": 5.055953822584505e-08,
      "loss": 2.0065,
      "step": 2225
    },
    {
      "epoch": 2.4371584699453552,
      "grad_norm": 2.014653467507829,
      "learning_rate": 5.0538548488699095e-08,
      "loss": 2.0011,
      "step": 2230
    },
    {
      "epoch": 2.442622950819672,
      "grad_norm": 2.0013649829205202,
      "learning_rate": 5.0518277009130157e-08,
      "loss": 2.0858,
      "step": 2235
    },
    {
      "epoch": 2.448087431693989,
      "grad_norm": 1.8662711132468726,
      "learning_rate": 5.0498701590370246e-08,
      "loss": 2.0186,
      "step": 2240
    },
    {
      "epoch": 2.453551912568306,
      "grad_norm": 1.9004909274072246,
      "learning_rate": 5.047980064750245e-08,
      "loss": 2.0112,
      "step": 2245
    },
    {
      "epoch": 2.459016393442623,
      "grad_norm": 1.8857990524183288,
      "learning_rate": 5.04615531926523e-08,
      "loss": 2.0886,
      "step": 2250
    },
    {
      "epoch": 2.4644808743169397,
      "grad_norm": 1.8001269753111797,
      "learning_rate": 5.04439388204875e-08,
      "loss": 1.9974,
      "step": 2255
    },
    {
      "epoch": 2.469945355191257,
      "grad_norm": 1.8470988845468073,
      "learning_rate": 5.042693769402049e-08,
      "loss": 1.9826,
      "step": 2260
    },
    {
      "epoch": 2.4754098360655736,
      "grad_norm": 1.8736758608587534,
      "learning_rate": 5.041053053070867e-08,
      "loss": 2.0697,
      "step": 2265
    },
    {
      "epoch": 2.480874316939891,
      "grad_norm": 1.9221103936145996,
      "learning_rate": 5.039469858884701e-08,
      "loss": 2.0596,
      "step": 2270
    },
    {
      "epoch": 2.4863387978142075,
      "grad_norm": 1.8924072367922147,
      "learning_rate": 5.037942365424796e-08,
      "loss": 2.0233,
      "step": 2275
    },
    {
      "epoch": 2.4918032786885247,
      "grad_norm": 1.8504333814599807,
      "learning_rate": 5.036468802720349e-08,
      "loss": 2.0577,
      "step": 2280
    },
    {
      "epoch": 2.4972677595628414,
      "grad_norm": 1.846494429919382,
      "learning_rate": 5.035047450972435e-08,
      "loss": 2.0249,
      "step": 2285
    },
    {
      "epoch": 2.5027322404371586,
      "grad_norm": 1.8525565278611498,
      "learning_rate": 5.033676639305158e-08,
      "loss": 2.0432,
      "step": 2290
    },
    {
      "epoch": 2.5081967213114753,
      "grad_norm": 1.988134266951729,
      "learning_rate": 5.0323547445435455e-08,
      "loss": 2.0604,
      "step": 2295
    },
    {
      "epoch": 2.5136612021857925,
      "grad_norm": 1.858473570561303,
      "learning_rate": 5.0310801900177e-08,
      "loss": 2.0029,
      "step": 2300
    },
    {
      "epoch": 2.519125683060109,
      "grad_norm": 1.8897075095235156,
      "learning_rate": 5.029851444392739e-08,
      "loss": 2.0182,
      "step": 2305
    },
    {
      "epoch": 2.5245901639344264,
      "grad_norm": 1.9818990480911667,
      "learning_rate": 5.028667020524067e-08,
      "loss": 1.9902,
      "step": 2310
    },
    {
      "epoch": 2.530054644808743,
      "grad_norm": 1.8548937980299227,
      "learning_rate": 5.027525474337505e-08,
      "loss": 2.0113,
      "step": 2315
    },
    {
      "epoch": 2.5355191256830603,
      "grad_norm": 1.9033985343889175,
      "learning_rate": 5.0264254037338365e-08,
      "loss": 2.0591,
      "step": 2320
    },
    {
      "epoch": 2.540983606557377,
      "grad_norm": 1.8954918019108078,
      "learning_rate": 5.025365447517326e-08,
      "loss": 2.0424,
      "step": 2325
    },
    {
      "epoch": 2.546448087431694,
      "grad_norm": 1.8869766835100785,
      "learning_rate": 5.024344284347762e-08,
      "loss": 2.03,
      "step": 2330
    },
    {
      "epoch": 2.551912568306011,
      "grad_norm": 1.8663624978318183,
      "learning_rate": 5.023360631715606e-08,
      "loss": 1.976,
      "step": 2335
    },
    {
      "epoch": 2.557377049180328,
      "grad_norm": 1.8371733503594865,
      "learning_rate": 5.0224132449398005e-08,
      "loss": 2.0441,
      "step": 2340
    },
    {
      "epoch": 2.5628415300546448,
      "grad_norm": 1.9433496190704163,
      "learning_rate": 5.0215009161878455e-08,
      "loss": 2.0678,
      "step": 2345
    },
    {
      "epoch": 2.5683060109289615,
      "grad_norm": 1.9523689339991457,
      "learning_rate": 5.020622473517704e-08,
      "loss": 2.0311,
      "step": 2350
    },
    {
      "epoch": 2.5737704918032787,
      "grad_norm": 1.8890575883757943,
      "learning_rate": 5.0197767799411424e-08,
      "loss": 2.0454,
      "step": 2355
    },
    {
      "epoch": 2.579234972677596,
      "grad_norm": 1.9102594514962234,
      "learning_rate": 5.0189627325081046e-08,
      "loss": 2.0324,
      "step": 2360
    },
    {
      "epoch": 2.5846994535519126,
      "grad_norm": 1.8390946791204932,
      "learning_rate": 5.018179261411716e-08,
      "loss": 2.0238,
      "step": 2365
    },
    {
      "epoch": 2.5901639344262293,
      "grad_norm": 1.9030836331353156,
      "learning_rate": 5.0174253291135456e-08,
      "loss": 2.0424,
      "step": 2370
    },
    {
      "epoch": 2.5956284153005464,
      "grad_norm": 1.9051341411136902,
      "learning_rate": 5.016699929488718e-08,
      "loss": 2.0464,
      "step": 2375
    },
    {
      "epoch": 2.6010928961748636,
      "grad_norm": 1.8905549632374719,
      "learning_rate": 5.016002086990525e-08,
      "loss": 2.0401,
      "step": 2380
    },
    {
      "epoch": 2.6065573770491803,
      "grad_norm": 1.8720851254061621,
      "learning_rate": 5.015330855834148e-08,
      "loss": 2.0313,
      "step": 2385
    },
    {
      "epoch": 2.612021857923497,
      "grad_norm": 1.8630940777989557,
      "learning_rate": 5.014685319199122e-08,
      "loss": 2.0418,
      "step": 2390
    },
    {
      "epoch": 2.6174863387978142,
      "grad_norm": 1.9536600782037399,
      "learning_rate": 5.014064588450203e-08,
      "loss": 2.0331,
      "step": 2395
    },
    {
      "epoch": 2.6229508196721314,
      "grad_norm": 1.8537695794419704,
      "learning_rate": 5.013467802376257e-08,
      "loss": 2.0329,
      "step": 2400
    },
    {
      "epoch": 2.6229508196721314,
      "eval_loss": 2.276965618133545,
      "eval_runtime": 75.085,
      "eval_samples_per_second": 86.662,
      "eval_steps_per_second": 0.679,
      "step": 2400
    },
    {
      "epoch": 2.628415300546448,
      "grad_norm": 1.856446433994958,
      "learning_rate": 5.0128941264468425e-08,
      "loss": 2.059,
      "step": 2405
    },
    {
      "epoch": 2.633879781420765,
      "grad_norm": 1.8864099698250834,
      "learning_rate": 5.012342752086127e-08,
      "loss": 2.0366,
      "step": 2410
    },
    {
      "epoch": 2.639344262295082,
      "grad_norm": 1.8965062954857936,
      "learning_rate": 5.011812895963815e-08,
      "loss": 2.0178,
      "step": 2415
    },
    {
      "epoch": 2.644808743169399,
      "grad_norm": 1.9283596089907955,
      "learning_rate": 5.011303799302737e-08,
      "loss": 2.0664,
      "step": 2420
    },
    {
      "epoch": 2.650273224043716,
      "grad_norm": 1.8806907065516518,
      "learning_rate": 5.0108147272027865e-08,
      "loss": 2.0187,
      "step": 2425
    },
    {
      "epoch": 2.6557377049180326,
      "grad_norm": 1.9156510863376972,
      "learning_rate": 5.0103449679808754e-08,
      "loss": 2.0101,
      "step": 2430
    },
    {
      "epoch": 2.66120218579235,
      "grad_norm": 2.126231497464025,
      "learning_rate": 5.009893832526587e-08,
      "loss": 1.9974,
      "step": 2435
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 1.9052967091959634,
      "learning_rate": 5.0094606536732234e-08,
      "loss": 2.0565,
      "step": 2440
    },
    {
      "epoch": 2.6721311475409837,
      "grad_norm": 1.8394704411303013,
      "learning_rate": 5.009044785583931e-08,
      "loss": 2.0296,
      "step": 2445
    },
    {
      "epoch": 2.6775956284153004,
      "grad_norm": 1.9096372006865225,
      "learning_rate": 5.008645603152607e-08,
      "loss": 2.0317,
      "step": 2450
    },
    {
      "epoch": 2.6830601092896176,
      "grad_norm": 1.8523989798638827,
      "learning_rate": 5.0082625014192866e-08,
      "loss": 2.0261,
      "step": 2455
    },
    {
      "epoch": 2.6885245901639343,
      "grad_norm": 1.8569921839621404,
      "learning_rate": 5.007894894999717e-08,
      "loss": 2.005,
      "step": 2460
    },
    {
      "epoch": 2.6939890710382515,
      "grad_norm": 1.8836826290467388,
      "learning_rate": 5.0075422175288365e-08,
      "loss": 2.0464,
      "step": 2465
    },
    {
      "epoch": 2.699453551912568,
      "grad_norm": 1.820199895319608,
      "learning_rate": 5.007203921117863e-08,
      "loss": 1.9825,
      "step": 2470
    },
    {
      "epoch": 2.7049180327868854,
      "grad_norm": 1.904515026457721,
      "learning_rate": 5.006879475824728e-08,
      "loss": 2.0278,
      "step": 2475
    },
    {
      "epoch": 2.710382513661202,
      "grad_norm": 1.943681983281218,
      "learning_rate": 5.006568369137572e-08,
      "loss": 2.0353,
      "step": 2480
    },
    {
      "epoch": 2.7158469945355193,
      "grad_norm": 1.8593463289638106,
      "learning_rate": 5.00627010547103e-08,
      "loss": 2.0444,
      "step": 2485
    },
    {
      "epoch": 2.721311475409836,
      "grad_norm": 1.8449163921598035,
      "learning_rate": 5.005984205675053e-08,
      "loss": 2.0289,
      "step": 2490
    },
    {
      "epoch": 2.726775956284153,
      "grad_norm": 1.9258062804823874,
      "learning_rate": 5.005710206555992e-08,
      "loss": 1.9806,
      "step": 2495
    },
    {
      "epoch": 2.73224043715847,
      "grad_norm": 1.886984272428234,
      "learning_rate": 5.0054476604096995e-08,
      "loss": 2.0158,
      "step": 2500
    },
    {
      "epoch": 2.737704918032787,
      "grad_norm": 2.0315158822636548,
      "learning_rate": 5.0051961345663824e-08,
      "loss": 2.0218,
      "step": 2505
    },
    {
      "epoch": 2.7431693989071038,
      "grad_norm": 1.8060895670908574,
      "learning_rate": 5.0049552109469755e-08,
      "loss": 2.0242,
      "step": 2510
    },
    {
      "epoch": 2.748633879781421,
      "grad_norm": 1.8838071016430706,
      "learning_rate": 5.004724485630778e-08,
      "loss": 2.0522,
      "step": 2515
    },
    {
      "epoch": 2.7540983606557377,
      "grad_norm": 1.8537277873432774,
      "learning_rate": 5.004503568434121e-08,
      "loss": 1.9872,
      "step": 2520
    },
    {
      "epoch": 2.7595628415300544,
      "grad_norm": 1.9906937494224455,
      "learning_rate": 5.004292082499825e-08,
      "loss": 2.0369,
      "step": 2525
    },
    {
      "epoch": 2.7650273224043715,
      "grad_norm": 1.8315661557574987,
      "learning_rate": 5.0040896638972245e-08,
      "loss": 2.0347,
      "step": 2530
    },
    {
      "epoch": 2.7704918032786887,
      "grad_norm": 1.9006118838371153,
      "learning_rate": 5.00389596123252e-08,
      "loss": 2.0747,
      "step": 2535
    },
    {
      "epoch": 2.7759562841530054,
      "grad_norm": 1.9282485545253067,
      "learning_rate": 5.003710635269248e-08,
      "loss": 2.0238,
      "step": 2540
    },
    {
      "epoch": 2.781420765027322,
      "grad_norm": 1.8801002631728025,
      "learning_rate": 5.0035333585586396e-08,
      "loss": 2.0089,
      "step": 2545
    },
    {
      "epoch": 2.7868852459016393,
      "grad_norm": 1.8790975179378258,
      "learning_rate": 5.0033638150796495e-08,
      "loss": 2.0503,
      "step": 2550
    },
    {
      "epoch": 2.7923497267759565,
      "grad_norm": 1.8446856614496407,
      "learning_rate": 5.0032016998884586e-08,
      "loss": 2.0306,
      "step": 2555
    },
    {
      "epoch": 2.797814207650273,
      "grad_norm": 1.9023341790959656,
      "learning_rate": 5.003046718777224e-08,
      "loss": 2.0464,
      "step": 2560
    },
    {
      "epoch": 2.80327868852459,
      "grad_norm": 1.8356837164563038,
      "learning_rate": 5.002898587941882e-08,
      "loss": 2.0674,
      "step": 2565
    },
    {
      "epoch": 2.808743169398907,
      "grad_norm": 1.9008745679241117,
      "learning_rate": 5.002757033658803e-08,
      "loss": 2.0508,
      "step": 2570
    },
    {
      "epoch": 2.8142076502732243,
      "grad_norm": 1.8556179817129685,
      "learning_rate": 5.0026217919700956e-08,
      "loss": 2.0161,
      "step": 2575
    },
    {
      "epoch": 2.819672131147541,
      "grad_norm": 1.8898728370320337,
      "learning_rate": 5.0024926083773705e-08,
      "loss": 2.0484,
      "step": 2580
    },
    {
      "epoch": 2.8251366120218577,
      "grad_norm": 1.8869809093319543,
      "learning_rate": 5.002369237543775e-08,
      "loss": 2.0164,
      "step": 2585
    },
    {
      "epoch": 2.830601092896175,
      "grad_norm": 2.0230326546469355,
      "learning_rate": 5.0022514430041064e-08,
      "loss": 2.035,
      "step": 2590
    },
    {
      "epoch": 2.836065573770492,
      "grad_norm": 1.8582179431821813,
      "learning_rate": 5.002138996882823e-08,
      "loss": 2.0064,
      "step": 2595
    },
    {
      "epoch": 2.841530054644809,
      "grad_norm": 1.942996732626371,
      "learning_rate": 5.002031679619775e-08,
      "loss": 2.0213,
      "step": 2600
    },
    {
      "epoch": 2.841530054644809,
      "eval_loss": 2.276575803756714,
      "eval_runtime": 75.1591,
      "eval_samples_per_second": 86.576,
      "eval_steps_per_second": 0.679,
      "step": 2600
    },
    {
      "epoch": 2.8469945355191255,
      "grad_norm": 1.8406548791619128,
      "learning_rate": 5.0019292797034756e-08,
      "loss": 2.0239,
      "step": 2605
    },
    {
      "epoch": 2.8524590163934427,
      "grad_norm": 1.8433943845894334,
      "learning_rate": 5.001831593411739e-08,
      "loss": 2.0306,
      "step": 2610
    },
    {
      "epoch": 2.8579234972677594,
      "grad_norm": 1.9214309861779986,
      "learning_rate": 5.0017384245595145e-08,
      "loss": 2.0792,
      "step": 2615
    },
    {
      "epoch": 2.8633879781420766,
      "grad_norm": 1.892919325287394,
      "learning_rate": 5.001649584253754e-08,
      "loss": 2.0389,
      "step": 2620
    },
    {
      "epoch": 2.8688524590163933,
      "grad_norm": 1.8352505329010071,
      "learning_rate": 5.001564890655143e-08,
      "loss": 2.0385,
      "step": 2625
    },
    {
      "epoch": 2.8743169398907105,
      "grad_norm": 1.9094968998206336,
      "learning_rate": 5.001484168746532e-08,
      "loss": 2.0307,
      "step": 2630
    },
    {
      "epoch": 2.879781420765027,
      "grad_norm": 1.913583135594377,
      "learning_rate": 5.001407250107926e-08,
      "loss": 2.0251,
      "step": 2635
    },
    {
      "epoch": 2.8852459016393444,
      "grad_norm": 1.8983404483614361,
      "learning_rate": 5.001333972697852e-08,
      "loss": 2.0251,
      "step": 2640
    },
    {
      "epoch": 2.890710382513661,
      "grad_norm": 1.9615347509758865,
      "learning_rate": 5.001264180640978e-08,
      "loss": 2.0367,
      "step": 2645
    },
    {
      "epoch": 2.8961748633879782,
      "grad_norm": 1.9624200439383404,
      "learning_rate": 5.001197724021815e-08,
      "loss": 2.062,
      "step": 2650
    },
    {
      "epoch": 2.901639344262295,
      "grad_norm": 1.8696575109999418,
      "learning_rate": 5.001134458684368e-08,
      "loss": 2.0521,
      "step": 2655
    },
    {
      "epoch": 2.907103825136612,
      "grad_norm": 1.8848143146406755,
      "learning_rate": 5.001074246037584e-08,
      "loss": 2.0034,
      "step": 2660
    },
    {
      "epoch": 2.912568306010929,
      "grad_norm": 1.973139426778756,
      "learning_rate": 5.001016952866467e-08,
      "loss": 1.9532,
      "step": 2665
    },
    {
      "epoch": 2.918032786885246,
      "grad_norm": 1.9504580432497,
      "learning_rate": 5.000962451148704e-08,
      "loss": 2.048,
      "step": 2670
    },
    {
      "epoch": 2.9234972677595628,
      "grad_norm": 1.953413058357899,
      "learning_rate": 5.0009106178766914e-08,
      "loss": 2.0661,
      "step": 2675
    },
    {
      "epoch": 2.92896174863388,
      "grad_norm": 1.881395664536309,
      "learning_rate": 5.000861334884807e-08,
      "loss": 2.022,
      "step": 2680
    },
    {
      "epoch": 2.9344262295081966,
      "grad_norm": 1.8914817780033801,
      "learning_rate": 5.0008144886818085e-08,
      "loss": 1.9874,
      "step": 2685
    },
    {
      "epoch": 2.939890710382514,
      "grad_norm": 2.017787415229173,
      "learning_rate": 5.000769970288234e-08,
      "loss": 2.0318,
      "step": 2690
    },
    {
      "epoch": 2.9453551912568305,
      "grad_norm": 1.8421207610475552,
      "learning_rate": 5.000727675078668e-08,
      "loss": 2.0521,
      "step": 2695
    },
    {
      "epoch": 2.9508196721311473,
      "grad_norm": 1.8659084624986955,
      "learning_rate": 5.0006875026287623e-08,
      "loss": 2.0089,
      "step": 2700
    },
    {
      "epoch": 2.9562841530054644,
      "grad_norm": 1.9075873541304413,
      "learning_rate": 5.0006493565668884e-08,
      "loss": 2.0478,
      "step": 2705
    },
    {
      "epoch": 2.9617486338797816,
      "grad_norm": 1.9745047266267015,
      "learning_rate": 5.0006131444302976e-08,
      "loss": 2.0439,
      "step": 2710
    },
    {
      "epoch": 2.9672131147540983,
      "grad_norm": 1.8923014776736973,
      "learning_rate": 5.000578777525686e-08,
      "loss": 2.0554,
      "step": 2715
    },
    {
      "epoch": 2.972677595628415,
      "grad_norm": 1.9080716218498992,
      "learning_rate": 5.0005461707940365e-08,
      "loss": 2.0322,
      "step": 2720
    },
    {
      "epoch": 2.978142076502732,
      "grad_norm": 1.9393226464756443,
      "learning_rate": 5.0005152426796475e-08,
      "loss": 2.0324,
      "step": 2725
    },
    {
      "epoch": 2.9836065573770494,
      "grad_norm": 1.8889314625477465,
      "learning_rate": 5.000485915003216e-08,
      "loss": 2.0421,
      "step": 2730
    },
    {
      "epoch": 2.989071038251366,
      "grad_norm": 1.9331494885327474,
      "learning_rate": 5.0004581128388925e-08,
      "loss": 2.0398,
      "step": 2735
    },
    {
      "epoch": 2.994535519125683,
      "grad_norm": 1.8595278802194335,
      "learning_rate": 5.000431764395187e-08,
      "loss": 2.0376,
      "step": 2740
    },
    {
      "epoch": 3.0,
      "grad_norm": 1.8505999974369438,
      "learning_rate": 5.000406800899633e-08,
      "loss": 2.0272,
      "step": 2745
    },
    {
      "epoch": 3.0054644808743167,
      "grad_norm": 1.8128081448976874,
      "learning_rate": 5.00038315648711e-08,
      "loss": 2.0134,
      "step": 2750
    },
    {
      "epoch": 3.010928961748634,
      "grad_norm": 1.849783427721221,
      "learning_rate": 5.000360768091725e-08,
      "loss": 1.962,
      "step": 2755
    },
    {
      "epoch": 3.0163934426229506,
      "grad_norm": 1.896562041216816,
      "learning_rate": 5.0003395753421604e-08,
      "loss": 2.0457,
      "step": 2760
    },
    {
      "epoch": 3.021857923497268,
      "grad_norm": 1.9734010112151688,
      "learning_rate": 5.0003195204603886e-08,
      "loss": 2.0289,
      "step": 2765
    },
    {
      "epoch": 3.0273224043715845,
      "grad_norm": 1.94494245556754,
      "learning_rate": 5.000300548163672e-08,
      "loss": 2.0502,
      "step": 2770
    },
    {
      "epoch": 3.0327868852459017,
      "grad_norm": 1.853549834674588,
      "learning_rate": 5.0002826055697557e-08,
      "loss": 2.0073,
      "step": 2775
    },
    {
      "epoch": 3.0382513661202184,
      "grad_norm": 1.9550895805921849,
      "learning_rate": 5.000265642105161e-08,
      "loss": 2.0578,
      "step": 2780
    },
    {
      "epoch": 3.0437158469945356,
      "grad_norm": 1.9832050839540076,
      "learning_rate": 5.0002496094165e-08,
      "loss": 2.0593,
      "step": 2785
    },
    {
      "epoch": 3.0491803278688523,
      "grad_norm": 1.8801978736078537,
      "learning_rate": 5.000234461284729e-08,
      "loss": 2.0796,
      "step": 2790
    },
    {
      "epoch": 3.0546448087431695,
      "grad_norm": 1.880459663640695,
      "learning_rate": 5.000220153542248e-08,
      "loss": 2.0813,
      "step": 2795
    },
    {
      "epoch": 3.060109289617486,
      "grad_norm": 1.8766167117396393,
      "learning_rate": 5.000206643992788e-08,
      "loss": 2.0559,
      "step": 2800
    },
    {
      "epoch": 3.060109289617486,
      "eval_loss": 2.277146816253662,
      "eval_runtime": 75.0877,
      "eval_samples_per_second": 86.659,
      "eval_steps_per_second": 0.679,
      "step": 2800
    },
    {
      "epoch": 3.0655737704918034,
      "grad_norm": 1.9254106923649494,
      "learning_rate": 5.000193892333986e-08,
      "loss": 2.0661,
      "step": 2805
    },
    {
      "epoch": 3.07103825136612,
      "grad_norm": 1.822299900106021,
      "learning_rate": 5.000181860082585e-08,
      "loss": 2.0499,
      "step": 2810
    },
    {
      "epoch": 3.0765027322404372,
      "grad_norm": 1.8735243038644225,
      "learning_rate": 5.0001705105021744e-08,
      "loss": 2.0296,
      "step": 2815
    },
    {
      "epoch": 3.081967213114754,
      "grad_norm": 1.9563218452911402,
      "learning_rate": 5.000159808533418e-08,
      "loss": 1.9812,
      "step": 2820
    },
    {
      "epoch": 3.087431693989071,
      "grad_norm": 1.8334084094484262,
      "learning_rate": 5.00014972072667e-08,
      "loss": 2.0074,
      "step": 2825
    },
    {
      "epoch": 3.092896174863388,
      "grad_norm": 1.8655682558825502,
      "learning_rate": 5.000140215176936e-08,
      "loss": 2.0072,
      "step": 2830
    },
    {
      "epoch": 3.098360655737705,
      "grad_norm": 1.9205939797923823,
      "learning_rate": 5.000131261461091e-08,
      "loss": 1.9616,
      "step": 2835
    },
    {
      "epoch": 3.1038251366120218,
      "grad_norm": 2.14258246365134,
      "learning_rate": 5.0001228305773056e-08,
      "loss": 2.0388,
      "step": 2840
    },
    {
      "epoch": 3.109289617486339,
      "grad_norm": 1.909977704305264,
      "learning_rate": 5.000114894886601e-08,
      "loss": 2.0023,
      "step": 2845
    },
    {
      "epoch": 3.1147540983606556,
      "grad_norm": 2.0206991852732394,
      "learning_rate": 5.000107428056477e-08,
      "loss": 2.0111,
      "step": 2850
    },
    {
      "epoch": 3.120218579234973,
      "grad_norm": 1.8666014246751432,
      "learning_rate": 5.000100405006557e-08,
      "loss": 2.0219,
      "step": 2855
    },
    {
      "epoch": 3.1256830601092895,
      "grad_norm": 1.9352070214880581,
      "learning_rate": 5.0000938018561714e-08,
      "loss": 2.029,
      "step": 2860
    },
    {
      "epoch": 3.1311475409836067,
      "grad_norm": 1.8998730338754464,
      "learning_rate": 5.0000875958738443e-08,
      "loss": 2.014,
      "step": 2865
    },
    {
      "epoch": 3.1366120218579234,
      "grad_norm": 1.93622910502082,
      "learning_rate": 5.000081765428609e-08,
      "loss": 2.0348,
      "step": 2870
    },
    {
      "epoch": 3.1420765027322406,
      "grad_norm": 1.8895366176405546,
      "learning_rate": 5.000076289943102e-08,
      "loss": 2.0577,
      "step": 2875
    },
    {
      "epoch": 3.1475409836065573,
      "grad_norm": 1.942718295521934,
      "learning_rate": 5.0000711498483816e-08,
      "loss": 2.0452,
      "step": 2880
    },
    {
      "epoch": 3.1530054644808745,
      "grad_norm": 1.8568483287237603,
      "learning_rate": 5.00006632654042e-08,
      "loss": 2.0405,
      "step": 2885
    },
    {
      "epoch": 3.158469945355191,
      "grad_norm": 1.8966452464630115,
      "learning_rate": 5.00006180233821e-08,
      "loss": 2.0307,
      "step": 2890
    },
    {
      "epoch": 3.1639344262295084,
      "grad_norm": 1.8844492467485716,
      "learning_rate": 5.000057560443445e-08,
      "loss": 2.038,
      "step": 2895
    },
    {
      "epoch": 3.169398907103825,
      "grad_norm": 1.9541049062507123,
      "learning_rate": 5.000053584901716e-08,
      "loss": 2.0324,
      "step": 2900
    },
    {
      "epoch": 3.1748633879781423,
      "grad_norm": 1.8762220421293871,
      "learning_rate": 5.0000498605651776e-08,
      "loss": 2.0117,
      "step": 2905
    },
    {
      "epoch": 3.180327868852459,
      "grad_norm": 1.8972364762038987,
      "learning_rate": 5.000046373056645e-08,
      "loss": 2.0539,
      "step": 2910
    },
    {
      "epoch": 3.185792349726776,
      "grad_norm": 1.8830419259378766,
      "learning_rate": 5.000043108735063e-08,
      "loss": 2.0143,
      "step": 2915
    },
    {
      "epoch": 3.191256830601093,
      "grad_norm": 1.8933082226852906,
      "learning_rate": 5.000040054662314e-08,
      "loss": 2.0245,
      "step": 2920
    },
    {
      "epoch": 3.19672131147541,
      "grad_norm": 1.8584858417385766,
      "learning_rate": 5.000037198571318e-08,
      "loss": 1.9939,
      "step": 2925
    },
    {
      "epoch": 3.202185792349727,
      "grad_norm": 1.9078023286100567,
      "learning_rate": 5.000034528835373e-08,
      "loss": 2.0418,
      "step": 2930
    },
    {
      "epoch": 3.2076502732240435,
      "grad_norm": 1.902956383213903,
      "learning_rate": 5.00003203443872e-08,
      "loss": 2.0302,
      "step": 2935
    },
    {
      "epoch": 3.2131147540983607,
      "grad_norm": 1.8818748470466278,
      "learning_rate": 5.000029704948257e-08,
      "loss": 2.0637,
      "step": 2940
    },
    {
      "epoch": 3.2185792349726774,
      "grad_norm": 1.914518786096776,
      "learning_rate": 5.0000275304863995e-08,
      "loss": 2.014,
      "step": 2945
    },
    {
      "epoch": 3.2240437158469946,
      "grad_norm": 1.9857131146213522,
      "learning_rate": 5.000025501705019e-08,
      "loss": 2.0159,
      "step": 2950
    },
    {
      "epoch": 3.2295081967213113,
      "grad_norm": 1.8481404227503944,
      "learning_rate": 5.000023609760444e-08,
      "loss": 2.0345,
      "step": 2955
    },
    {
      "epoch": 3.2349726775956285,
      "grad_norm": 1.9248498594561754,
      "learning_rate": 5.00002184628948e-08,
      "loss": 1.9741,
      "step": 2960
    },
    {
      "epoch": 3.240437158469945,
      "grad_norm": 1.9138227507681809,
      "learning_rate": 5.000020203386406e-08,
      "loss": 1.9825,
      "step": 2965
    },
    {
      "epoch": 3.2459016393442623,
      "grad_norm": 1.9553377832252659,
      "learning_rate": 5.000018673580931e-08,
      "loss": 2.0348,
      "step": 2970
    },
    {
      "epoch": 3.251366120218579,
      "grad_norm": 1.923854238806126,
      "learning_rate": 5.0000172498170615e-08,
      "loss": 2.033,
      "step": 2975
    },
    {
      "epoch": 3.2568306010928962,
      "grad_norm": 1.8966593579783744,
      "learning_rate": 5.000015925432853e-08,
      "loss": 2.0051,
      "step": 2980
    },
    {
      "epoch": 3.262295081967213,
      "grad_norm": 1.8885418073350184,
      "learning_rate": 5.000014694141023e-08,
      "loss": 2.0325,
      "step": 2985
    },
    {
      "epoch": 3.26775956284153,
      "grad_norm": 1.9005648234764283,
      "learning_rate": 5.000013550010379e-08,
      "loss": 2.0387,
      "step": 2990
    },
    {
      "epoch": 3.273224043715847,
      "grad_norm": 1.8497186687415175,
      "learning_rate": 5.0000124874480465e-08,
      "loss": 1.9916,
      "step": 2995
    },
    {
      "epoch": 3.278688524590164,
      "grad_norm": 1.9311355275570043,
      "learning_rate": 5.000011501182461e-08,
      "loss": 2.0543,
      "step": 3000
    },
    {
      "epoch": 3.278688524590164,
      "eval_loss": 2.2772867679595947,
      "eval_runtime": 75.0871,
      "eval_samples_per_second": 86.659,
      "eval_steps_per_second": 0.679,
      "step": 3000
    },
    {
      "epoch": 3.2841530054644807,
      "grad_norm": 1.8490487579130825,
      "learning_rate": 5.000010586247099e-08,
      "loss": 2.0141,
      "step": 3005
    },
    {
      "epoch": 3.289617486338798,
      "grad_norm": 1.8722847979242898,
      "learning_rate": 5.0000097379649185e-08,
      "loss": 2.0399,
      "step": 3010
    },
    {
      "epoch": 3.2950819672131146,
      "grad_norm": 1.8920328829395436,
      "learning_rate": 5.000008951933488e-08,
      "loss": 2.0403,
      "step": 3015
    },
    {
      "epoch": 3.300546448087432,
      "grad_norm": 1.859765946380407,
      "learning_rate": 5.000008224010771e-08,
      "loss": 2.0231,
      "step": 3020
    },
    {
      "epoch": 3.3060109289617485,
      "grad_norm": 1.889873157845456,
      "learning_rate": 5.0000075503015504e-08,
      "loss": 2.0029,
      "step": 3025
    },
    {
      "epoch": 3.3114754098360657,
      "grad_norm": 1.9194945076344194,
      "learning_rate": 5.000006927144461e-08,
      "loss": 2.0375,
      "step": 3030
    },
    {
      "epoch": 3.3169398907103824,
      "grad_norm": 1.8949475106036582,
      "learning_rate": 5.000006351099609e-08,
      "loss": 2.0234,
      "step": 3035
    },
    {
      "epoch": 3.3224043715846996,
      "grad_norm": 1.925413901133648,
      "learning_rate": 5.0000058189367665e-08,
      "loss": 2.0335,
      "step": 3040
    },
    {
      "epoch": 3.3278688524590163,
      "grad_norm": 1.8637852431158481,
      "learning_rate": 5.0000053276240954e-08,
      "loss": 2.0339,
      "step": 3045
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 1.990488877814686,
      "learning_rate": 5.0000048743174075e-08,
      "loss": 2.0116,
      "step": 3050
    },
    {
      "epoch": 3.33879781420765,
      "grad_norm": 1.9066583759059983,
      "learning_rate": 5.0000044563499215e-08,
      "loss": 2.0752,
      "step": 3055
    },
    {
      "epoch": 3.3442622950819674,
      "grad_norm": 1.9013799438501833,
      "learning_rate": 5.0000040712225024e-08,
      "loss": 2.0225,
      "step": 3060
    },
    {
      "epoch": 3.349726775956284,
      "grad_norm": 1.8226817121910608,
      "learning_rate": 5.000003716594369e-08,
      "loss": 2.0035,
      "step": 3065
    },
    {
      "epoch": 3.3551912568306013,
      "grad_norm": 1.8532253234195688,
      "learning_rate": 5.000003390274239e-08,
      "loss": 2.0492,
      "step": 3070
    },
    {
      "epoch": 3.360655737704918,
      "grad_norm": 1.8666444656750065,
      "learning_rate": 5.0000030902119114e-08,
      "loss": 1.9977,
      "step": 3075
    },
    {
      "epoch": 3.366120218579235,
      "grad_norm": 1.883761246140252,
      "learning_rate": 5.000002814490251e-08,
      "loss": 2.0615,
      "step": 3080
    },
    {
      "epoch": 3.371584699453552,
      "grad_norm": 1.952894075205677,
      "learning_rate": 5.000002561317571e-08,
      "loss": 2.0141,
      "step": 3085
    },
    {
      "epoch": 3.3770491803278686,
      "grad_norm": 1.8928059074027184,
      "learning_rate": 5.000002329020387e-08,
      "loss": 2.0403,
      "step": 3090
    },
    {
      "epoch": 3.3825136612021858,
      "grad_norm": 2.0098225664920224,
      "learning_rate": 5.0000021160365414e-08,
      "loss": 2.0737,
      "step": 3095
    },
    {
      "epoch": 3.387978142076503,
      "grad_norm": 1.8582907329607212,
      "learning_rate": 5.000001920908665e-08,
      "loss": 2.0323,
      "step": 3100
    },
    {
      "epoch": 3.3934426229508197,
      "grad_norm": 1.9004514759105224,
      "learning_rate": 5.000001742277974e-08,
      "loss": 2.0378,
      "step": 3105
    },
    {
      "epoch": 3.3989071038251364,
      "grad_norm": 1.9251008716345306,
      "learning_rate": 5.0000015788783874e-08,
      "loss": 1.9869,
      "step": 3110
    },
    {
      "epoch": 3.4043715846994536,
      "grad_norm": 1.8991213194710543,
      "learning_rate": 5.000001429530941e-08,
      "loss": 2.0395,
      "step": 3115
    },
    {
      "epoch": 3.4098360655737707,
      "grad_norm": 1.8526036080467823,
      "learning_rate": 5.000001293138501e-08,
      "loss": 2.0095,
      "step": 3120
    },
    {
      "epoch": 3.4153005464480874,
      "grad_norm": 1.8346508560296197,
      "learning_rate": 5.0000011686807445e-08,
      "loss": 2.0067,
      "step": 3125
    },
    {
      "epoch": 3.420765027322404,
      "grad_norm": 1.8407135510103516,
      "learning_rate": 5.000001055209419e-08,
      "loss": 2.0252,
      "step": 3130
    },
    {
      "epoch": 3.4262295081967213,
      "grad_norm": 1.8721531260003674,
      "learning_rate": 5.000000951843842e-08,
      "loss": 2.0432,
      "step": 3135
    },
    {
      "epoch": 3.431693989071038,
      "grad_norm": 1.9072265607352163,
      "learning_rate": 5.0000008577666524e-08,
      "loss": 2.0312,
      "step": 3140
    },
    {
      "epoch": 3.4371584699453552,
      "grad_norm": 1.9177737469818847,
      "learning_rate": 5.000000772219792e-08,
      "loss": 2.0066,
      "step": 3145
    },
    {
      "epoch": 3.442622950819672,
      "grad_norm": 1.9149658715997013,
      "learning_rate": 5.000000694500704e-08,
      "loss": 2.0064,
      "step": 3150
    },
    {
      "epoch": 3.448087431693989,
      "grad_norm": 1.9406268887306055,
      "learning_rate": 5.000000623958742e-08,
      "loss": 2.0253,
      "step": 3155
    },
    {
      "epoch": 3.453551912568306,
      "grad_norm": 1.93322985142905,
      "learning_rate": 5.000000559991787e-08,
      "loss": 2.0296,
      "step": 3160
    },
    {
      "epoch": 3.459016393442623,
      "grad_norm": 2.006884694469749,
      "learning_rate": 5.000000502043047e-08,
      "loss": 2.015,
      "step": 3165
    },
    {
      "epoch": 3.4644808743169397,
      "grad_norm": 1.973665285115433,
      "learning_rate": 5.0000004495980446e-08,
      "loss": 2.0621,
      "step": 3170
    },
    {
      "epoch": 3.469945355191257,
      "grad_norm": 1.9098826344464872,
      "learning_rate": 5.000000402181774e-08,
      "loss": 2.0137,
      "step": 3175
    },
    {
      "epoch": 3.4754098360655736,
      "grad_norm": 1.900637639917567,
      "learning_rate": 5.000000359356028e-08,
      "loss": 2.0411,
      "step": 3180
    },
    {
      "epoch": 3.480874316939891,
      "grad_norm": 1.9657694744447054,
      "learning_rate": 5.0000003207168756e-08,
      "loss": 2.0667,
      "step": 3185
    },
    {
      "epoch": 3.4863387978142075,
      "grad_norm": 1.8794891535447487,
      "learning_rate": 5.000000285892296e-08,
      "loss": 2.0421,
      "step": 3190
    },
    {
      "epoch": 3.4918032786885247,
      "grad_norm": 1.9073660767776919,
      "learning_rate": 5.000000254539948e-08,
      "loss": 2.0722,
      "step": 3195
    },
    {
      "epoch": 3.4972677595628414,
      "grad_norm": 1.9968851234028737,
      "learning_rate": 5.000000226345078e-08,
      "loss": 2.0317,
      "step": 3200
    },
    {
      "epoch": 3.4972677595628414,
      "eval_loss": 2.2772328853607178,
      "eval_runtime": 75.1937,
      "eval_samples_per_second": 86.536,
      "eval_steps_per_second": 0.678,
      "step": 3200
    },
    {
      "epoch": 3.5027322404371586,
      "grad_norm": 1.9363915857414498,
      "learning_rate": 5.000000201018557e-08,
      "loss": 2.0378,
      "step": 3205
    },
    {
      "epoch": 3.5081967213114753,
      "grad_norm": 1.9493487909740663,
      "learning_rate": 5.0000001782950314e-08,
      "loss": 2.0429,
      "step": 3210
    },
    {
      "epoch": 3.5136612021857925,
      "grad_norm": 1.8974490684659184,
      "learning_rate": 5.000000157931199e-08,
      "loss": 2.0341,
      "step": 3215
    },
    {
      "epoch": 3.519125683060109,
      "grad_norm": 1.8750804355544737,
      "learning_rate": 5.000000139704186e-08,
      "loss": 2.0143,
      "step": 3220
    },
    {
      "epoch": 3.5245901639344264,
      "grad_norm": 1.8835309853885958,
      "learning_rate": 5.0000001234100294e-08,
      "loss": 2.0252,
      "step": 3225
    },
    {
      "epoch": 3.530054644808743,
      "grad_norm": 1.9036966438501197,
      "learning_rate": 5.000000108862262e-08,
      "loss": 2.0031,
      "step": 3230
    },
    {
      "epoch": 3.5355191256830603,
      "grad_norm": 1.8701728772297301,
      "learning_rate": 5.0000000958905794e-08,
      "loss": 2.0028,
      "step": 3235
    },
    {
      "epoch": 3.540983606557377,
      "grad_norm": 1.8785086675187268,
      "learning_rate": 5.000000084339605e-08,
      "loss": 1.9671,
      "step": 3240
    },
    {
      "epoch": 3.546448087431694,
      "grad_norm": 1.9287901930232905,
      "learning_rate": 5.0000000740677285e-08,
      "loss": 2.0464,
      "step": 3245
    },
    {
      "epoch": 3.551912568306011,
      "grad_norm": 1.925166946388218,
      "learning_rate": 5.00000006494603e-08,
      "loss": 1.9629,
      "step": 3250
    },
    {
      "epoch": 3.557377049180328,
      "grad_norm": 1.9147306157624264,
      "learning_rate": 5.000000056857271e-08,
      "loss": 2.0377,
      "step": 3255
    },
    {
      "epoch": 3.5628415300546448,
      "grad_norm": 2.00912227135468,
      "learning_rate": 5.0000000496949596e-08,
      "loss": 2.0519,
      "step": 3260
    },
    {
      "epoch": 3.5683060109289615,
      "grad_norm": 1.914393129097604,
      "learning_rate": 5.000000043362476e-08,
      "loss": 1.9921,
      "step": 3265
    },
    {
      "epoch": 3.5737704918032787,
      "grad_norm": 1.8986536102948053,
      "learning_rate": 5.000000037772264e-08,
      "loss": 2.037,
      "step": 3270
    },
    {
      "epoch": 3.579234972677596,
      "grad_norm": 2.1302629939845272,
      "learning_rate": 5.000000032845078e-08,
      "loss": 2.0352,
      "step": 3275
    },
    {
      "epoch": 3.5846994535519126,
      "grad_norm": 1.9083903824546993,
      "learning_rate": 5.0000000285092845e-08,
      "loss": 2.0432,
      "step": 3280
    },
    {
      "epoch": 3.5901639344262293,
      "grad_norm": 1.9795975235944003,
      "learning_rate": 5.000000024700213e-08,
      "loss": 2.0047,
      "step": 3285
    },
    {
      "epoch": 3.5956284153005464,
      "grad_norm": 1.909947661859089,
      "learning_rate": 5.000000021359558e-08,
      "loss": 2.031,
      "step": 3290
    },
    {
      "epoch": 3.6010928961748636,
      "grad_norm": 1.873647300121296,
      "learning_rate": 5.000000018434823e-08,
      "loss": 2.0427,
      "step": 3295
    },
    {
      "epoch": 3.6065573770491803,
      "grad_norm": 1.8870603921175668,
      "learning_rate": 5.000000015878808e-08,
      "loss": 1.9943,
      "step": 3300
    },
    {
      "epoch": 3.612021857923497,
      "grad_norm": 1.83764062220617,
      "learning_rate": 5.000000013649137e-08,
      "loss": 2.0278,
      "step": 3305
    },
    {
      "epoch": 3.6174863387978142,
      "grad_norm": 1.8700657377845233,
      "learning_rate": 5.0000000117078175e-08,
      "loss": 2.016,
      "step": 3310
    },
    {
      "epoch": 3.6229508196721314,
      "grad_norm": 1.9024345479748699,
      "learning_rate": 5.000000010020843e-08,
      "loss": 2.0335,
      "step": 3315
    },
    {
      "epoch": 3.628415300546448,
      "grad_norm": 1.8905483742070606,
      "learning_rate": 5.000000008557818e-08,
      "loss": 2.018,
      "step": 3320
    },
    {
      "epoch": 3.633879781420765,
      "grad_norm": 1.9223349161654961,
      "learning_rate": 5.0000000072916214e-08,
      "loss": 2.0213,
      "step": 3325
    },
    {
      "epoch": 3.639344262295082,
      "grad_norm": 1.823567332382863,
      "learning_rate": 5.000000006198092e-08,
      "loss": 1.987,
      "step": 3330
    },
    {
      "epoch": 3.644808743169399,
      "grad_norm": 1.8810678051906216,
      "learning_rate": 5.00000000525574e-08,
      "loss": 1.9769,
      "step": 3335
    },
    {
      "epoch": 3.650273224043716,
      "grad_norm": 1.9204431005146232,
      "learning_rate": 5.0000000044454894e-08,
      "loss": 2.0674,
      "step": 3340
    },
    {
      "epoch": 3.6557377049180326,
      "grad_norm": 1.8872295947781799,
      "learning_rate": 5.000000003750432e-08,
      "loss": 2.0109,
      "step": 3345
    },
    {
      "epoch": 3.66120218579235,
      "grad_norm": 1.8893937179160833,
      "learning_rate": 5.000000003155614e-08,
      "loss": 2.0475,
      "step": 3350
    },
    {
      "epoch": 3.6666666666666665,
      "grad_norm": 1.9582368602914404,
      "learning_rate": 5.000000002647831e-08,
      "loss": 2.0292,
      "step": 3355
    },
    {
      "epoch": 3.6721311475409837,
      "grad_norm": 1.8759259337994865,
      "learning_rate": 5.000000002215448e-08,
      "loss": 2.0248,
      "step": 3360
    },
    {
      "epoch": 3.6775956284153004,
      "grad_norm": 1.815903984549811,
      "learning_rate": 5.0000000018482356e-08,
      "loss": 2.0287,
      "step": 3365
    },
    {
      "epoch": 3.6830601092896176,
      "grad_norm": 1.8747014733431713,
      "learning_rate": 5.000000001537216e-08,
      "loss": 2.0457,
      "step": 3370
    },
    {
      "epoch": 3.6885245901639343,
      "grad_norm": 1.9458767620629445,
      "learning_rate": 5.000000001274526e-08,
      "loss": 2.0515,
      "step": 3375
    },
    {
      "epoch": 3.6939890710382515,
      "grad_norm": 1.9268929400448993,
      "learning_rate": 5.0000000010533005e-08,
      "loss": 2.0511,
      "step": 3380
    },
    {
      "epoch": 3.699453551912568,
      "grad_norm": 1.902962520090544,
      "learning_rate": 5.0000000008675514e-08,
      "loss": 2.0558,
      "step": 3385
    },
    {
      "epoch": 3.7049180327868854,
      "grad_norm": 1.8229295875308797,
      "learning_rate": 5.000000000712075e-08,
      "loss": 2.0166,
      "step": 3390
    },
    {
      "epoch": 3.710382513661202,
      "grad_norm": 1.836606346535709,
      "learning_rate": 5.0000000005823554e-08,
      "loss": 2.0403,
      "step": 3395
    },
    {
      "epoch": 3.7158469945355193,
      "grad_norm": 1.9116742151193724,
      "learning_rate": 5.0000000004744865e-08,
      "loss": 1.988,
      "step": 3400
    },
    {
      "epoch": 3.7158469945355193,
      "eval_loss": 2.2769548892974854,
      "eval_runtime": 74.9791,
      "eval_samples_per_second": 86.784,
      "eval_steps_per_second": 0.68,
      "step": 3400
    },
    {
      "epoch": 3.721311475409836,
      "grad_norm": 1.8962679275361203,
      "learning_rate": 5.000000000385098e-08,
      "loss": 2.0077,
      "step": 3405
    },
    {
      "epoch": 3.726775956284153,
      "grad_norm": 1.8893473180089084,
      "learning_rate": 5.0000000003112903e-08,
      "loss": 2.0275,
      "step": 3410
    },
    {
      "epoch": 3.73224043715847,
      "grad_norm": 1.9059398028165249,
      "learning_rate": 5.0000000002505746e-08,
      "loss": 2.0248,
      "step": 3415
    },
    {
      "epoch": 3.737704918032787,
      "grad_norm": 1.9284706550848763,
      "learning_rate": 5.000000000200822e-08,
      "loss": 2.0841,
      "step": 3420
    },
    {
      "epoch": 3.7431693989071038,
      "grad_norm": 1.8971305679426038,
      "learning_rate": 5.000000000160219e-08,
      "loss": 2.0205,
      "step": 3425
    },
    {
      "epoch": 3.748633879781421,
      "grad_norm": 1.9639122926123413,
      "learning_rate": 5.000000000127221e-08,
      "loss": 2.0438,
      "step": 3430
    },
    {
      "epoch": 3.7540983606557377,
      "grad_norm": 1.9660777954794344,
      "learning_rate": 5.000000000100521e-08,
      "loss": 2.0285,
      "step": 3435
    },
    {
      "epoch": 3.7595628415300544,
      "grad_norm": 1.915135487255815,
      "learning_rate": 5.000000000079017e-08,
      "loss": 1.9938,
      "step": 3440
    },
    {
      "epoch": 3.7650273224043715,
      "grad_norm": 1.9104288280645758,
      "learning_rate": 5.000000000061779e-08,
      "loss": 2.0109,
      "step": 3445
    },
    {
      "epoch": 3.7704918032786887,
      "grad_norm": 1.9163223330431955,
      "learning_rate": 5.0000000000480305e-08,
      "loss": 2.0479,
      "step": 3450
    },
    {
      "epoch": 3.7759562841530054,
      "grad_norm": 1.8942590608094447,
      "learning_rate": 5.0000000000371217e-08,
      "loss": 2.0265,
      "step": 3455
    },
    {
      "epoch": 3.781420765027322,
      "grad_norm": 1.8979108959832878,
      "learning_rate": 5.0000000000285143e-08,
      "loss": 2.0483,
      "step": 3460
    },
    {
      "epoch": 3.7868852459016393,
      "grad_norm": 2.0082325735504205,
      "learning_rate": 5.000000000021761e-08,
      "loss": 2.0249,
      "step": 3465
    },
    {
      "epoch": 3.7923497267759565,
      "grad_norm": 1.9319079542553508,
      "learning_rate": 5.0000000000164944e-08,
      "loss": 2.039,
      "step": 3470
    },
    {
      "epoch": 3.797814207650273,
      "grad_norm": 1.8962147679193577,
      "learning_rate": 5.0000000000124134e-08,
      "loss": 1.9694,
      "step": 3475
    },
    {
      "epoch": 3.80327868852459,
      "grad_norm": 1.9119145259888968,
      "learning_rate": 5.0000000000092715e-08,
      "loss": 2.0416,
      "step": 3480
    },
    {
      "epoch": 3.808743169398907,
      "grad_norm": 1.8560975935966715,
      "learning_rate": 5.00000000000687e-08,
      "loss": 2.0174,
      "step": 3485
    },
    {
      "epoch": 3.8142076502732243,
      "grad_norm": 1.9664941712397381,
      "learning_rate": 5.000000000005048e-08,
      "loss": 2.0503,
      "step": 3490
    },
    {
      "epoch": 3.819672131147541,
      "grad_norm": 1.8658008767578975,
      "learning_rate": 5.0000000000036764e-08,
      "loss": 2.0293,
      "step": 3495
    },
    {
      "epoch": 3.8251366120218577,
      "grad_norm": 1.9253208530977064,
      "learning_rate": 5.000000000002653e-08,
      "loss": 2.0429,
      "step": 3500
    },
    {
      "epoch": 3.830601092896175,
      "grad_norm": 1.8810005361263469,
      "learning_rate": 5.000000000001895e-08,
      "loss": 2.035,
      "step": 3505
    },
    {
      "epoch": 3.836065573770492,
      "grad_norm": 1.893681875957613,
      "learning_rate": 5.000000000001339e-08,
      "loss": 2.0732,
      "step": 3510
    },
    {
      "epoch": 3.841530054644809,
      "grad_norm": 1.9417607113095643,
      "learning_rate": 5.0000000000009355e-08,
      "loss": 2.002,
      "step": 3515
    },
    {
      "epoch": 3.8469945355191255,
      "grad_norm": 1.9989745014112892,
      "learning_rate": 5.000000000000646e-08,
      "loss": 2.0525,
      "step": 3520
    },
    {
      "epoch": 3.8524590163934427,
      "grad_norm": 1.8555402595578698,
      "learning_rate": 5.0000000000004405e-08,
      "loss": 2.0228,
      "step": 3525
    },
    {
      "epoch": 3.8579234972677594,
      "grad_norm": 1.9137513054849469,
      "learning_rate": 5.0000000000002956e-08,
      "loss": 2.0657,
      "step": 3530
    },
    {
      "epoch": 3.8633879781420766,
      "grad_norm": 1.9157898282989583,
      "learning_rate": 5.0000000000001957e-08,
      "loss": 2.0173,
      "step": 3535
    },
    {
      "epoch": 3.8688524590163933,
      "grad_norm": 1.9273730542054064,
      "learning_rate": 5.0000000000001275e-08,
      "loss": 2.0529,
      "step": 3540
    },
    {
      "epoch": 3.8743169398907105,
      "grad_norm": 1.8997473790640476,
      "learning_rate": 5.000000000000082e-08,
      "loss": 2.0464,
      "step": 3545
    },
    {
      "epoch": 3.879781420765027,
      "grad_norm": 1.9722252114630803,
      "learning_rate": 5.0000000000000514e-08,
      "loss": 2.0219,
      "step": 3550
    },
    {
      "epoch": 3.8852459016393444,
      "grad_norm": 1.9361513715190686,
      "learning_rate": 5.0000000000000315e-08,
      "loss": 2.0549,
      "step": 3555
    },
    {
      "epoch": 3.890710382513661,
      "grad_norm": 1.9521279215167433,
      "learning_rate": 5.000000000000019e-08,
      "loss": 2.0019,
      "step": 3560
    },
    {
      "epoch": 3.8961748633879782,
      "grad_norm": 1.8990353241401117,
      "learning_rate": 5.000000000000011e-08,
      "loss": 2.037,
      "step": 3565
    },
    {
      "epoch": 3.901639344262295,
      "grad_norm": 1.8490026777793342,
      "learning_rate": 5.0000000000000064e-08,
      "loss": 2.0528,
      "step": 3570
    },
    {
      "epoch": 3.907103825136612,
      "grad_norm": 2.004168101245223,
      "learning_rate": 5.000000000000003e-08,
      "loss": 2.0062,
      "step": 3575
    },
    {
      "epoch": 3.912568306010929,
      "grad_norm": 1.8584030836568644,
      "learning_rate": 5.000000000000002e-08,
      "loss": 2.0026,
      "step": 3580
    },
    {
      "epoch": 3.918032786885246,
      "grad_norm": 1.8750862900064005,
      "learning_rate": 5.0000000000000004e-08,
      "loss": 2.0304,
      "step": 3585
    },
    {
      "epoch": 3.9234972677595628,
      "grad_norm": 1.9298592977310705,
      "learning_rate": 5.0000000000000004e-08,
      "loss": 2.0262,
      "step": 3590
    },
    {
      "epoch": 3.92896174863388,
      "grad_norm": 1.9261861281030954,
      "learning_rate": 5e-08,
      "loss": 2.0747,
      "step": 3595
    },
    {
      "epoch": 3.9344262295081966,
      "grad_norm": 1.9012633598619333,
      "learning_rate": 5e-08,
      "loss": 2.0355,
      "step": 3600
    },
    {
      "epoch": 3.9344262295081966,
      "eval_loss": 2.277177333831787,
      "eval_runtime": 75.1005,
      "eval_samples_per_second": 86.644,
      "eval_steps_per_second": 0.679,
      "step": 3600
    },
    {
      "epoch": 3.939890710382514,
      "grad_norm": 1.9662605743553438,
      "learning_rate": 5e-08,
      "loss": 2.0272,
      "step": 3605
    },
    {
      "epoch": 3.9453551912568305,
      "grad_norm": 1.8777765308314378,
      "learning_rate": 5e-08,
      "loss": 2.0574,
      "step": 3610
    },
    {
      "epoch": 3.9508196721311473,
      "grad_norm": 1.9697643417177255,
      "learning_rate": 5e-08,
      "loss": 2.0504,
      "step": 3615
    },
    {
      "epoch": 3.9562841530054644,
      "grad_norm": 1.91285486557523,
      "learning_rate": 5e-08,
      "loss": 2.0216,
      "step": 3620
    },
    {
      "epoch": 3.9617486338797816,
      "grad_norm": 1.894324240473093,
      "learning_rate": 5e-08,
      "loss": 2.0108,
      "step": 3625
    },
    {
      "epoch": 3.9672131147540983,
      "grad_norm": 1.9284412363816936,
      "learning_rate": 5e-08,
      "loss": 2.0038,
      "step": 3630
    },
    {
      "epoch": 3.972677595628415,
      "grad_norm": 1.8376681173174465,
      "learning_rate": 5e-08,
      "loss": 2.021,
      "step": 3635
    },
    {
      "epoch": 3.978142076502732,
      "grad_norm": 1.8629566090204688,
      "learning_rate": 5e-08,
      "loss": 2.0236,
      "step": 3640
    },
    {
      "epoch": 3.9836065573770494,
      "grad_norm": 1.9846522235537283,
      "learning_rate": 5e-08,
      "loss": 2.024,
      "step": 3645
    },
    {
      "epoch": 3.989071038251366,
      "grad_norm": 1.9025611361991746,
      "learning_rate": 5e-08,
      "loss": 2.0281,
      "step": 3650
    },
    {
      "epoch": 3.994535519125683,
      "grad_norm": 1.9351822472092162,
      "learning_rate": 5e-08,
      "loss": 2.0184,
      "step": 3655
    },
    {
      "epoch": 4.0,
      "grad_norm": 1.9623534464978543,
      "learning_rate": 5e-08,
      "loss": 1.9875,
      "step": 3660
    },
    {
      "epoch": 4.0,
      "step": 3660,
      "total_flos": 382536630927360.0,
      "train_loss": 2.107023582497581,
      "train_runtime": 13273.308,
      "train_samples_per_second": 17.646,
      "train_steps_per_second": 0.276
    }
  ],
  "logging_steps": 5,
  "max_steps": 3660,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 200,
  "total_flos": 382536630927360.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}